CN116894498A

CN116894498A - 网络模型的训练方法、策略识别方法、装置以及设备

Info

Publication number: CN116894498A
Application number: CN202310915625.XA
Authority: CN
Inventors: 阮晓雯; 郭维; 王建明; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-10-17

Abstract

本申请揭示了一种网络模型的训练方法、策略识别方法、装置以及设备，该网络模型的训练方法包括：获取问询对话样本、问询对话样本所属的样本策略类别以及问询对话样本隶属的样本对话轮次；将问询对话样本输入网络模型中，网络模型用于输出问询对话样本的策略类别以及问询对话样本所在的对话轮次；计算输出的策略类别与样本策略类别之间的第一损失函数，以及计算输出的对话轮次与样本对话轮次之间的第二损失函数；以第一损失函数的损失值与第二损失函数的损失值之和变小为目标训练网络模型，直至训练后的网络模型确定出的第一损失函数的损失值与第二损失函数的损失值之和小于预设损失阈值。本申请提高了策略类别的识别准确性。

Description

网络模型的训练方法、策略识别方法、装置以及设备

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种网络模型的训练方法、基于问询对话的策略识别方法、装置以及电子设备。

背景技术

智能对话应用在各个领域，如医疗、通信等需要与用户进行对话的领域。如在医疗领域中，智能对话可应用于线上问诊场景，在该场景下，由对应的智能机器人与患者进行对话，在对话时需要对患者的提问或回答做进一步的反馈，这就涉及到根据用户的提问或回答进行策略类别识别。目前采用对患者的当前对话信息进行关键词提取处理，进而根据提取的关键词识别当前对话信息对应的策略类别。而上述采用关键词匹配策略类别的方式可能导致兜底策略出现的概率增大，进而降低策略识别的准确性。

发明内容

为解决上述技术问题，本申请的实施例提供了一种网络模型的训练方法、基于问询对话的策略识别方法、装置、及电子设备。

根据本申请实施例的一个方面，提供了一种网络模型的训练方法，所述方法包括：

获取问询对话样本、所述问询对话样本所属的样本策略类别以及所述问询对话样本所在的样本对话轮次；将所述问询对话样本输入所述网络模型中，所述网络模型用于输出所述问询对话样本所属的策略类别以及所述问询对话样本所在的对话轮次；计算输出的策略类别与所述样本策略类别之间的第一损失函数，以及计算输出的对话轮次与所述样本对话轮次之间的第二损失函数；以所述第一损失函数的损失值与所述第二损失函数的损失值之和变小为目标训练所述网络模型，直至所述训练后的网络模型确定出的第一损失函数的损失值与第二损失函数的损失值之和小于预设损失阈值。

根据本申请实施例的一个方面，提供了一种基于问询对话的策略识别方法，所述方法包括：将目标对象的问询对话输入网络模型中，得到所述问询对话所属的策略类别和所述问询对话所在的当前对话轮次；若所述网络模型输出的策略类别为兜底策略，则对所述网络模型输出的兜底策略进行微调处理，得到所述问询对话所属的目标策略类别，其中，所述网络模型为上述的网络模型训练方法所训练得到的网络模型。

根据本申请实施例的一个方面，提供了一种网络模型的训练装置，所述装置包括：获取模块，配置为获取问询对话样本、所述问询对话样本所属的样本策略类别以及所述问询对话样本所在的样本对话轮次；输入模块，配置为将所述问询对话样本输入所述网络模型中，所述网络模型用于输出所述问询对话样本所属的策略类别以及所述问询对话样本所在的对话轮次；计算模块，配置为计算输出的策略类别与所述样本策略类别之间的第一损失函数，以及计算输出的对话轮次与所述样本对话轮次之间的第二损失函数；训练模块，配置为以所述第一损失函数的损失值与所述第二损失函数的损失值之和变小为目标训练所述网络模型，直至所述训练后的网络模型确定出的第一损失函数的损失值与第二损失函数的损失值之和小于预设损失阈值。

根据本申请实施例的一个方面，提供了一种基于问询对话的策略识别装置，所述装置包括：确定模块，配置为将目标对象的问询对话输入网络模型中，得到所述问询对话所属的策略类别和所述问询对话所在的当前对话轮次；微调模块，配置为若所述网络模型输出的策略类别为兜底策略，则对所述网络模型输出的兜底策略进行微调处理，得到所述问询对话所属的目标策略类别，其中，所述网络模型为上述网络模型训练方法所训练得到的网络模型。

根据本申请实施例的一个方面，提供了一种电子设备，包括：存储器，存储有计算机可读指令；处理器，读取存储器存储的计算机可读指令，以执行上述任一项的网络模型的训练方法和/或基于问询对话的策略识别方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的网络模型的训练方法和/或基于问询对话的策略识别方法。

在本申请的实施例提供的技术方案中，将获取的问询对话样本输入网络模型中，得到网络模型输出的问询对话样本的策略类别和对话轮次，并利用网络模型输出的问询对话样本的策略类别和获取的样本策略类别计算第一损失函数，利用网络模型输出的问询对话样本的对话轮次和获取的样本对话轮次计算第二损失函数，进而以第一损失函数与第二损失函数之间的损失和变小为目标训练网络模型，直至网络模型确定出的第一损失函数的损失值与第二损失函数的损失值之和小于预设损失阈值，由此能够使网络模型训练以策略类别识别为主，对话轮次识别为辅，通过引入问询对话样本的样本对话轮次，使网络模型能够结合问询对话的对话轮次进行策略类别识别，提高了策略类别识别的准确性。同时，在将上述训练完成的网络模型运用在医疗领域时，能够准确识别到患者对应的策略类别，提高线上问诊的准确性，以及用户的体验感。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是现有的一种线上问诊的流程图；

图2是本申请涉及的一种实施环境的示意图；

图3是本申请的一示例性实施例示出的一种网络模型的训练方法的流程图；

图4是本申请的又一示例性实施例示出的一种网络模型的训练方法的流程图；

图5是本申请的又一示例性实施例示出的一种网络模型的训练方法的流程图；

图6是本申请的根据特征提取器和策略类别识别器处理问询对话样本得到其所属策略类别和对话轮次的流程图；

图7是本申请的一示例性实施例示出的一种基于问询对话的策略识别方法的流程图；

图8是本申请的又一示例性实施例示出的一种基于问询对话的策略识别方法的流程图；

图9是本申请的又一示例性实施例示出的一种基于问询对话的策略识别方法的流程图；

图10是本申请的又一示例性实施例示出的一种基于问询对话的策略识别方法的流程图；

图11是本申请的一示例性实施例示出的网络模型的训练装置的框图；

图12是本申请的一示例性实施例示出的基于问询对话的策略识别装置的框图；

图13示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是：在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

首先需要说明的是，智能对话应用在各个领域，如医疗、通信等需要与用户进行对话的领域，在与用户进行对话时，需要对用户的提问或回答做进一步的反馈。如在医疗领域中，智能对话多应用于线上问询场景，在该场景下，与患者的对话，线上系统需根据患者的提问和回答做出进一步反馈，这就涉及到策略类别的识别以及对应的动作响应。详情可参阅图1，图1中示出了目前的线上问诊的流程图，具体为线上系统对患者输入的问询对话进行意图、疾病和症状的信息提取处理，并根据上述提取的信息更新患者的问诊状态，进而根据识别处理提取到的关键信息进行策略类别识别，若识别出的策略类别不为对话结束策略，则进行下一轮对话识别，直至识别到对话结束策略，即可结束问诊过程。上述利用提取出的问询对话中的关键信息匹配确定策略类别，导致识别出兜底策略的概率增大，因为，关键信息匹配策略类别的方式过于局限，导致有些关键信息因无法准确匹配非兜底策略而被识别为兜底策略。

基于此，为了提高策略类别识别的准确性，避免增大识别出兜底策略的概率，本申请实施例提出了一种网络模型的训练方法、基于问询对话的策略识别方法、装置、电子设备及计算机可读存储介质。

本申请的实施例涉及：将获取的问询对话样本输入网络模型中，得到网络模型输出的问询对话样本的策略类别和对话轮次，并利用网络模型输出的问询对话样本所属的策略类别和获取的样本策略类别计算第一损失函数的损失值，利用网络模型输出的问询对话样本所在的对话轮次和获取的样本对话轮次计算第二损失函数的损失值，进而以第一损失函数的损失值与第二损失函数的损失值之间的损失和变小为目标训练网络模型，直至网络模型确定出的第一损失函数的损失值与第二损失函数的损失值之和小于预设损失阈值，由此能够使网络模型的训练以策略类别识别为主，对话轮次识别为辅，通过引入问询对话样本的样本对话轮次，使网络模型能够结合问询对话的对话轮次进行策略类别识别，提高了策略类别识别的准确性。

图2是本申请涉及的一种实施环境的示意图。该实施环境包括服务端210和设备终端220，服务端210和设备终端220预先建立有线或者无线的网络连接。

如图2所示，服务器210从设备终端220中获取问询对话样本、问询对话样本所属的样本策略类别以及问询对话样本隶属的样本对话轮次，并将问询对话样本输入网络模型中，进而计算网络模型输出的策略类别与样本策略类别之间的第一损失函数的损失值，计算网络模型输出的对话轮次与样本对话轮次之间的第二损失函数的损失值，之后，服务器210以第一损失函数的损失值与第二损失函数的损失值之和变小为目标训练网络模型，直至训练后的网络模型确定出的第一损失函数的损失值与第二损失函数的损失值之和小于预设损失阈值。

其中，图2所示的设备终端220可以是智能手机、车载电脑、平板电脑、笔记本电脑或者可穿戴设备等任意支持问询对话样本等数据采集的设备，但并不限于此。图2所示的服务端210是服务器，例如可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器，在此也不进行限制。设备终端220可以通过3G(第三代的移动信息技术)、4G(第四代的移动信息技术)、5G(第五代的移动信息技术)等无线网络与服务端210进行通信，本处也不对此进行限制。

请参阅图3，图3是本申请的一示例性实施例示出的网络模型的训练方法的流程图。该方法可以应用于图2所示的实施环境，并由该实施环境中的服务端210具体执行。应理解的是，该方法也可以适用于其它的示例性实施环境，并由其它实施环境中的设备具体执行，本实施例不对该方法所适用的实施环境进行限制。

下面以服务器作为具体的执行主体来对本申请实施例提出的网络模型的训练方法进行详细介绍。

如图3所示，在一示例性的实施例中，网络模型的训练方法至少包括步骤S310至步骤S340，详细介绍如下：

步骤S310，获取问询对话样本、问询对话样本所属的样本策略类别以及问询对话样本所在的样本对话轮次。

问询对话样本是指智能对话中，对应的回复人员与用户之间的问询对话信息。应用在医疗领域时，上述问询问号样本为线上问诊中患者与医生之间的问询对话信息，上述问询对话样本可以是中医方面的问询对话样本，也可以是西医方面的问询对话样本。需要说明的是，考虑到问询对话过程是循序渐进的，也即每个阶段有各自所要询问的对话信息，因此，可以将用户和回复人员的整个问询对话过程分为多个对话轮次，而每个对话轮次对应一问询对话样本。

具体的，本申请实施例提供的网络模型的训练方法应用在医疗领域时，可应用于智能诊疗、远程会诊等场景中。在医疗场景中训练网络模型时，获取问询对话源文件，问询对话源文件中记录有患者与医生在线上问诊时的完整对话，其中包括有患者的体征信息、症状描述、持续时间等，以及医生回复的病理信息、用药信息、治疗周期、过敏事项、注意事项等，整个过程是循序渐进的。将问询对话源文件拆分为多个对话轮次，如患者询问如何用药，医生回复可使用的药物具体有哪些可作为一个对话轮次，或医生告知用药事项包括哪些，患者回复知晓作为一个对话轮次，每个对话轮次对应一个问询对话样本。

另外需要说明的是，服务器可获取与其连接的多个设备终端中存储的问询对话，并将其作为训练网络模型的问询对话样本。或者，服务器可以从大数据库中获取问询对话，并将其作为训练网络模型的问询对话样本。其中，大数据库包括各设备终端中进行过问询对话的数据信息。

问询对话样本所属的样本策略类别是指根据各轮次对应的问询对话样本确定的策略类别。具体可以是人工基于问询对话样本标注的策略类别。其中，策略类别可以是结束对话策略，兜底策略或者其他策略类别。

服务器获取问询对话样本、所属的样本策略类别以及所在的样本对话轮次。

步骤S320，将问询对话样本输入网络模型中，网络模型用于输出问询对话样本所属的策略类别以及问询对话样本所在的对话轮次。

网络模型是指能够对输入的问询对话样本进行策略类别识别的深度神经网络。具体的，本申请实施例的网络模型可以是自编码语言网络模型，也即Bert模型。

输出的策略类别是指网络模型预测的问询对话样本所属的策略类别。

输出的对话轮次是指网络模型预测的问询对话样本所在的对话轮次。

服务器将问询对话样本输入网络模型中，以使网络模型输出预测的问询对话样本的策略类别以及预测的问询对话样本所在的对话轮次。

步骤S330，计算输出的策略类别与样本策略类别之间的第一损失函数的损失值，以及计算输出的对话轮次与样本对话轮次之间的第二损失函数的损失值。

第一损失函数的损失值是指问询对话样本所属的样本策略类别与网络模型预测的策略类别之间的类别相似程度。也即预测的策略类别与问询对话样本对应的标注策略类别之间的类别相似程度。其中，第一损失函数的损失值越小，表明样本策略类别与网络模型输出的策略类别越相似，反之亦然。

第二损失函数的损失值是指问询对话样本所在的样本对话轮次与网络模型预测的对话轮次之间的轮次相似程度。其中，第二损失函数的损失值越小，表明样本对话轮次与网络模型输出的对话轮次越相似，反之亦然。

服务器计算预测的策略类别与样本策略类别之间的第一损失函数的损失值，以及计算预测的对话轮次与样本对话轮次之间的第二损失函数的损失值。

步骤S340，以第一损失函数的损失值与第二损失函数的损失值之和变小为目标训练网络模型，直至训练后的网络模型确定出的第一损失函数的损失值与第二损失函数的损失值之和小于预设损失阈值。

预设损失阈值是用于衡量网络模型训练精准度的数值，若预设损失阈值设置得较低，则网络模型识别问询对话所属的策略类别的准确性越高，预设损失阈值设置得较高，则网络模型识别问询对话所属的策略类别的准确性越低。需要说明的是，预设损失阈值可由工作人员根据实际情况进行设置，在此不进行限定。

考虑到问询对话所在的对话轮次对策略类别识别的影响，若仅根据问询对话所属的策略类别对网络模型进行训练，可能导致策略识别的准确性低的问题。因此，为了提高策略类别识别的准确性，避免因识别不准确而增加兜底策略的出现概率问题，本申请实施例的服务器以策略类别识别为主，对话轮次识别为辅，实现使网络模型输出的策略类别与样本策略类别之间的类别越来越相似，并使网络模型输出的对话轮次与对话轮次之间的轮次信息越来越相似，从而达到利用对话轮次影响策略类别识别的目的。具体的，服务器以输出的策略类别与样本策略类别之间的第一损失函数的损失值，以及输出的对话轮次与样本对话轮次之间的第二损失函数的损失值变小为目标对网络模型进行训练，直至训练后的网络模型确定出的第一损失函数的损失值与第二损失函数的损失值之和小于预设损失阈值。

可以看出，本实施例的网络模型的训练方法将获取的问询对话样本输入网络模型中，得到网络模型输出的问询对话样本的策略类别和对话轮次，并利用网络模型输出的问询对话样本的策略类别和获取的样本策略类别计算第一损失函数，利用网络模型输出的问询对话样本的对话轮次和获取的样本对话轮次计算第二损失函数，进而以第一损失函数与第二损失函数之间的损失和变小为目标训练网络模型，直至网络模型确定出的第一损失函数的损失值与第二损失函数的损失值之和小于预设损失阈值，由此能够使网络模型训练以策略类别识别为主，对话轮次识别为辅，通过引入问询对话样本的样本对话轮次，使网络模型能够结合问询对话的对话轮次进行策略类别识别，提高了策略类别识别的准确性。

图4是图3所示的网络模型的训练方法中步骤S320的一示例性实施例示出的流程图。在图4所示的实施例中，网络模型输出的问询对话样本所属的策略类别和所在对话轮次具体是基于网络模型中包括的特征提取器和策略类别识别器确定的，训练网络模型的其他步骤请参阅前述实施例中描述的内容，本处不进行赘述。

如图4所示，在一示例性实施例中，步骤S320将问询对话样本输入网络模型中，网络模型用于输出问询对话样本所属的策略类别以及问询对话样本所在的对话轮次的过程至少还包括步骤S321至步骤S322，详细介绍如下：

步骤S321，根据特征提取器对问询对话样本进行特征向量提取处理，以将特征提取器的末端隐藏层中第一位置的向量参数作为特征提取器输出的特征向量表示。

特征提取器是指能够对问询对话样本进行特征向量提取的模型。示例性的，考虑到自编码语言网络模型对数据特征的强提取能力，特征提取器可以是自编码语言网络模型，也即Bert模型，其利用Transformer的模型架构，可以充分编码问询对话样本在策略类别以及对话轮次两个方向上的语义信息。

特征提取器的末端隐藏层是指特征提取器中最后一层隐藏层。

第一位置的向量参数是指特征提取器中最后一层隐藏层的第一个位置的句向量(CLS)的词向量参数(tokenembedding)。

特征向量表示是指提取的问询对话样本中特征的向量表示。

服务器利用特征提取器对问询对话样本进行特征向量提取处理，并将特征提取器中最后一层隐藏层的第一个位置的句向量的词向量参数作为特征提取器输出的特征向量表示。

步骤S322，根据策略类别识别器对特征向量表示进行识别处理，以得到问询对话样本所属的策略类别以及问询对话样本所在的对话轮次。

策略类别识别器是指基于特征提取器输出的特征向量表示进行类别识别得到策略类别和对话轮次的模型。

服务器利用策略类别识别器对特征提取器输出的特征向量表示进行识别处理，得到网络模型预测的问询对话样本的策略类别以及预测的问询对话样本所在的对话轮次。

可选的，可采用图5所示实施例中的步骤S510～步骤S520实现本步骤S322，详情如下：

步骤S510，将特征提取器输出的特征向量表示映射到针对策略类别识别的全连接层中，以得到问询对话样本所属的策略类别。

考虑到网络模型需基于输入的问询对话样本预测其所属的策略类别以及所在的对话轮次，即需要实现以策略类别识别为主，对话轮次识别为辅的网络模型训练方式，因此，本申请实施例对网络模型训练任务进行拆分。具体的，在策略类别识别器中设置针对策略类别识别的全连接层和针对对话轮次识别的全连接层。其中，对于针对策略类别识别的全连接层，服务器将特征提取器输出的特征向量表示映射到针对策略类别识别的全连接层，以基于针对策略类别识别的全连接层预测得到问询对话样本所属的策略类别。

步骤S520，将特征提取器输出的特征向量表示映射到针对对话轮次识别的全连接层中，以得到问询对话样本所在的对话轮次。

对于针对对话轮次识别的全连接层，服务器将特征提取器输出的特征向量表示映射到针对对话轮次识别的全连接层，以基于针对对话轮次识别的全连接层预测得到问询对话样本所属的策略类别。

详情可参阅图6，图6中示出了根据特征提取器和策略类别识别器处理问询对话样本得到其所属策略类别和对话轮次的过程。具体的，服务器将问询对话样本输入网络模型中的特征提取器中，特征提取器输出特征向量表示，并将特征向量表示分别映射到针对策略类别识别的全连接层A和针对对话轮次识别的全连接层B，以基于针对策略类别识别的全连接层预测得到问询对话样本所属的策略类别，以及基于针对对话轮次识别的全连接层预测得到问询对话样本所属的策略类别。

可以看出，本实施例的网络模型的训练方法根据特征提取器对问询对话样本进行特征向量提取处理，以将特征提取器的末端隐藏层中第一位置的向量参数作为特征提取器输出的特征向量表示，并将特征向量表示分别映射至策略类别识别器中包括的针对策略类别识别的全连接层和针对对话轮次识别的全连接层，以基于针对策略类别识别的全连接层预测得到问询对话样本所属的策略类别，以及基于针对对话轮次识别的全连接层预测得到问询对话样本所属的策略类别，由此能够实现以策略类别识别为主，对话轮次识别为辅的网络模型训练方式，通过引入问询对话样本的样本对话轮次训练网络模型，使网络模型能够结合问询对话的对话轮次进行策略类别识别，提高了策略类别识别的准确性。

可继续参阅图7，图7是本申请示出的基于问询对话的策略识别方法的一实施例的流程示意图。本实施例的基于问询对话的策略识别方法可应用上述网络模型的训练方法中训练所得的网络模型，从而提高网络模型识别问询对话所属策略类别的准确性。下面以用于基于问询对话的策略识别方法的服务器为例，介绍本申请提供的基于问询对话的策略识别方法，本实施例基于问询对话的策略识别方法具体包括以下步骤：

步骤S710，将目标对象的问询对话输入网络模型中，得到问询对话所属的策略类别和问询对话所在的当前对话轮次。

目标对象是指进行对话的用户。

当前对话轮次是指输入网络模型中的问询对话所属的对话轮次。

服务器将目标对象的问询对话输入网络模型中，得到网络模型输出的策略类别和对话轮次。

步骤S720，若网络模型输出的策略类别为兜底策略，则对网络模型输出的特征向量表示进行微调处理，得到问询对话所属的目标策略类别。

兜底策略是用于在无法准确确定问诊对话所属策略类别时，将该问询对话的策略类别确定为兜底策略。在识别出问询对话的策略类别为兜底策略后，对网络模型的输出的特征向量表示进行微调，得到问询对话所属的目标策略类别。具体的，服务器结合前几个对话轮次的网络模型输出的特征向量表示微调当前对话轮次的特征向量表示，并基于微调后的特征向量表示确定当前对话轮次的问询对话所属的目标策略类别。

目标策略类别是指网络模型预测的问询对话所属的策略类别。

本申请实施例中，上述基于问询对话的策略识别方法应用在医疗领域中时，目标对象指进行问诊的患者或患者家属等，其对应的网络模型为通过中医方面的问询对话样本和/或西医方面的问询对话样本训练得到的。将患者或患者家属输入的问询对话输入训练完成的网络模型中，得到该问询对话对应的策略类别和当前对话轮次。考虑到实际问诊情况下，医生需要结合前几个对话轮次对应的问询对话以及当前轮次的问询对话综合确定，因此，服务器在确定网络模型输出的当前对话轮次的问询对话所属的策略类别为兜底策略时，对网络模型输出的特征向量表示进行微调处理，得到问询对话所属的目标策略类别。通过本实施提供的技术方案，对患者或患者家属在线上问诊时形成的问询对话，能够更加准确的识别出对应的目标策略类别，进而给出相对应的话术进行回复。

可以看出，本申请实施例基于问询对话的策略识别方法通过上述实施例训练得到的网络模型对目标对象的问询对话进行策略类别的预测，在预测的策略类别为兜底策略时，对网络模型输出的特征向量表示进行微调处理，由此能够进一步对目标对象的问询对话所属策略类别进行确定，提高了策略类别识别的准确性。

具体可参阅图8，图8是图7所示的基于问询对话的策略识别方法中步骤S720的一示例性实施例的流程图。在一示例性实施例中，根据网络模型的输出进行微调处理，并基于微调处理后的向量进行目标策略类别的识别，目标策略类别识别的其他步骤请参阅前述实施例中描述的内容，本处不进行赘述。

如图8所示，在一示例性实施例中，步骤S720对网络模型输出的特征向量表示进行微调处理，得到问询对话所属的目标策略类别的过程至少还包括步骤S810至步骤S840，详细介绍如下：

步骤S810，根据网络模型在各对话轮次输出的特征向量表示确定各对话轮次的策略权重矩阵。

策略权重矩阵是指可学习权重矩阵，是基于对话轮次的特征向量表示确定的。

服务器根据网络模型在各对话轮次输出的特征向量表示确定各对话轮次的策略权重矩阵。例如，服务器需要确定当前对话轮次的策略权重矩阵，则需根据对话轮次位于当前对话轮次之前的其他对话轮次的特征向量表示以及当前对话轮次的特征向量表示确定当前对话轮次的策略权重矩阵。

可选的，可采用图9所示实施例中的步骤S910～步骤S920实现本步骤S810详情如下：

步骤S910，按照对话轮次的由小到大对对应对话轮次的特征向量表示以及对话轮次早于对应对话轮次的其他对话轮次的特征向量进行排序处理。

对应对话轮次是指需要计算策略权重矩阵的对话轮次。具体可以是当前对话轮次，也可以是当前对话轮次之前的其他对话轮次。其中，当前对话轮次是指患者问诊过程中的正在进行的对话轮次。

服务器按照对话轮次的由小到大对对应对话轮次及其他对话轮次的特征向量表示进行排序处理。例如，对应对话轮次为问诊过程中的第4个对话轮次，第一个对话轮次的特征向量表示为a，第二个对话轮次的特征向量表示为b，第三个对话轮次的特征向量表示为c，第四个对话轮次的特征向量表示为d，则对第一个对话轮次至第四个对话轮次对应的特征向量表示进行排序，得到排序后的特征向量表示a，b，c，d。

步骤S920，基于排序处理后的特征向量表示确定对应对话轮次的策略权重矩阵，以得到各对话轮次的策略权重矩阵。

服务器基于排序后的特征向量表示确定对应对话轮次的策略权重矩阵。继续以上述步骤S910中的例子为例进行说明，服务器将排序后的特征向量表示a，b，c，d进行矩阵化，也即将其转化为矩阵形式，即可得到对应对话轮次的策略权重矩阵[a，b，c，d]。

步骤S820，根据当前对话轮次的策略权重矩阵和对话轮次早于当前对话轮次的其他对话轮次的策略权重矩阵确定当前对话轮次的概率矩阵。

概率矩阵是指基于当前对话轮次的策略权重矩阵和其他对话轮次的策略权重矩阵确定的。

服务器根据当前对话轮次的策略权重矩阵与其他对话轮次的策略权重矩阵确定当前对话轮次的概率矩阵。

可选的，可采用图10所示实施例中的步骤S1010～步骤S1020实现本步骤S820详情如下：

步骤1010，计算当前对话轮次的策略权重矩阵和其他对话轮次的策略权重矩阵之间的权重矩阵相似度。

权重矩阵相似度是指两个对话轮次之间的权重矩阵相似程度。

服务器计算当前对话轮次的策略权重矩阵和其他对话轮次之间的权重矩阵相似度，得到当前对话轮次与其他对话轮次中的各对话轮次之间的权重矩阵相似度。

步骤1020，选取最大权重矩阵相似度。

服务器从计算得到的多个权重矩阵相似度中选取最大权重矩阵相似度。

步骤1030，将最大权重矩阵相似度对应的对话轮次的策略权重矩阵和当前对话轮次的策略权重矩阵之间的乘积作为当前对话轮次的概率矩阵。

服务器计算最大权重矩阵相似度对应的对话轮次的策略权重矩阵和当前对话轮次的策略权重矩阵之间的乘积，并将计算得到的乘积作为当前对话轮次的概率矩阵。

步骤S830，将当前对话轮次的概率矩阵和当前对话轮次的策略权重矩阵之间的乘积作为微调向量。

微调向量是指对网络模型输出的当前对话轮次的特征向量进行微调后的向量。

服务器将当前对话轮次的概率矩阵和当前对话轮次的策略权重矩阵之间的乘积作为微调向量。

步骤S840，将微调向量输入网络模型中，得到问询对话所属的目标策略类别。

服务器将计算得到的微调向量输入网络模型中，得到问询对话所属的目标策略类别。需要说明的是，此时的网络模型可以是双向长短期记忆网络Bi-LSTM(Long Short TermMemory)。

可以看出，本实施例的基于问询对话的策略识别方法根据网络模型在各对话轮次输出的特征向量表示确定各对话轮次的策略权重矩阵；并根据当前对话轮次的策略权重矩阵和对话轮次早于当前对话轮次的其他对话轮次的策略权重矩阵确定当前对话轮次的概率矩阵；进而确定当前对话轮次的概率矩阵和当前对话轮次的策略权重矩阵之间的乘积为微调向量；将微调向量输入网络模型中，得到问询对话所属的目标策略类别，由此能够在网络模型识别出的问询对话的策略类别为兜底策略时进一步进行二次识别，以结合对话轮次早于当前对话轮次的其他对话轮次来降低识别出兜底策略的概率。

图11是本申请的一示例性实施例示出的网络模型的训练装置的框图。该装置可以应用于图1所示的实施环境。该装置也可以适用于其它的示例性实施环境，并具体配置在其它设备中，本实施例不对该装置所适用的实施环境进行限制。

如图11所示，该示例性的网络模型的训练装置1100包括获取模块111、输入模块112、计算模块113以及训练模块114，具体而言：

获取模块111，配置为获取问询对话样本、问询对话样本所属的样本策略类别以及问询对话样本隶属的样本对话轮次。

输入模块112，配置为将问询对话样本输入网络模型中，网络模型用于输出问询对话样本的策略类别以及问询对话样本所在的对话轮次。

计算模块113，配置为计算输出的策略类别与样本策略类别之间的第一损失函数，以及计算输出的对话轮次与样本对话轮次之间的第二损失函数。

训练模块114，配置为以第一损失函数的损失值与第二损失函数的损失值之和变小为目标训练网络模型，直至训练后的网络模型确定出的第一损失函数的损失值与第二损失函数的损失值之和小于预设损失阈值。

在另一示例性的实施例中，输入模块112还包括特征向量提取模块和策略类别识别模块。具体的：

特征向量提取模块，配置为根据特征提取器对问询对话样本进行特征向量提取处理，以将特征提取器的末端隐藏层中第一位置的向量参数作为特征提取器输出的特征向量表示。

策略类别识别模块，配置为根据策略类别识别器对特征向量表示进行识别处理，以得到问询对话样本的策略类别以及问询对话样本所在的对话轮次。

在另一示例性的实施例中，策略类别识别模块还包括第一映射模块和第二映射模块。具体的：

第一映射模块，配置为将特征提取器输出的特征向量表示映射到针对策略类别识别的全连接层中，以得到问询对话样本的策略类别。

第二映射模块，配置为将特征提取器输出的特征向量表示映射到针对对话轮次识别的全连接层中，以得到问询对话样本所在的对话轮次。

图12是本申请的一示例性实施例示出的基于问询对话的策略识别装置的框图。该装置可以应用于图1所示的实施环境。该装置也可以适用于其它的示例性实施环境，并具体配置在其它设备中，本实施例不对该装置所适用的实施环境进行限制。

如图12所示，该示例性的基于问询对话的策略识别装置1200包括策略类别和当前对话轮次确定模块121以及微调模块122，具体而言：

策略类别和当前对话轮次确定模块121，配置为将目标对象的问询对话输入网络模型中，得到问询对话的策略类别和问询对话的当前对话轮次。

微调模块122，配置为若网络模型输出的策略类别为兜底策略，则对网络模型输出的特征向量表示进行微调处理，得到问询对话所属的目标策略类别，其中，网络模型为上述方法所训练得到的网络模型。

在另一示例性的实施例中，微调模块122还包括策略权重矩阵确定模块、当前对话轮次的概率矩阵确定模块、微调向量计算模块和目标策略类别获取模块。具体的：

策略权重矩阵确定模块，配置为根据网络模型在各对话轮次输出的特征向量表示确定各对话轮次的策略权重矩阵。

当前对话轮次的概率矩阵确定模块，配置为根据当前对话轮次的策略权重矩阵和对话轮次早于当前对话轮次的其他对话轮次的策略权重矩阵确定当前对话轮次的概率矩阵。

微调向量计算模块，配置为确定当前对话轮次的概率矩阵和当前对话轮次的策略权重矩阵之间的乘积为微调向量。

目标策略类别获取模块，配置为将微调向量输入网络模型中，得到问询对话所属的目标策略类别。

在另一示例性的实施例中，当前对话轮次的概率矩阵确定模块还包括权重矩阵相似度计算模块、选取模块和乘积计算模块。具体的：

权重矩阵相似度计算模块，配置为计算当前对话轮次的策略权重矩阵和其他对话轮次的策略权重矩阵之间的权重矩阵相似度，得到多个权重矩阵相似度。

选取模块，配置为选取多个权重矩阵相似度中的最大权重矩阵相似度。

乘积计算模块，配置为将最大权重矩阵相似度对应的对话轮次的策略权重矩阵和当前对话轮次的策略权重矩阵之间的乘积作为当前对话轮次的概率矩阵。

在另一示例性的实施例中，策略权重矩阵确定模块还包括排序模块和各对话轮次的策略权重矩阵确定模块。具体的：

排序模块，配置为按照对话轮次的由小到大对对应对话轮次的特征向量表示以及对话轮次位于对应对话轮次之前的其他对话轮次的特征向量进行排序处理。

各对话轮次的策略权重矩阵确定模块，配置为基于排序处理后的特征向量表示确定对应对话轮次的策略权重矩阵，以得到各对话轮次的策略权重矩阵。

需要说明的是，上述实施例所提供的网络模型的训练装置和/或基于问询对话的策略识别装置与上述实施例所提供的网络模型的训练方法和/或基于问询对话的策略识别方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的网络模型的训练装置和/或基于问询对话的策略识别装置在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处也不对此进行限制。

本申请的实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现上述各个实施例中提供的网络模型的训练方法和/或基于问询对话的策略识别方法。

需要说明的是，图13示出的电子设备的计算机系统1300仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图13所示，计算机系统1300包括中央处理单元(Central Processing Unit，CPU)1301，其可以根据存储在只读存储器(Read-Only Memory，ROM)1302中的程序或者从储存部分1308加载到随机访问存储器(Random Access Memory，RAM)1303中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1303中，还存储有系统操作所需的各种程序和数据。CPU 1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(Input/Output，I/O)接口1305也连接至总线1304。

以下部件连接至I/O接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1307；包括硬盘等的储存部分1308；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入储存部分1308。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1310从网络上被下载和安装，和/或从可拆卸介质1311被安装。在该计算机程序被中央处理单元(CPU)1301执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的方法。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种网络模型的训练方法，其特征在于，所述方法包括：

获取问询对话样本、所述问询对话样本所属的样本策略类别以及所述问询对话样本所在的样本对话轮次；

将所述问询对话样本输入所述网络模型中，所述网络模型用于输出所述问询对话样本所属的策略类别以及所述问询对话样本所在的对话轮次；

计算输出的策略类别与所述样本策略类别之间的第一损失函数的损失值，以及计算输出的对话轮次与所述样本对话轮次之间的第二损失函数的损失值；

以所述第一损失函数的损失值与所述第二损失函数的损失值之和变小为目标训练所述网络模型，直至所述训练后的网络模型确定出的第一损失函数的损失值与第二损失函数的损失值之和小于预设损失阈值。

2.根据权利要求1所述的方法，其特征在于，所述网络模型包括特征提取器和策略类别识别器，所述将所述问询对话样本输入所述网络模型中，所述网络模型用于输出所述问询对话样本所属的策略类别以及所述问询对话样本所在的对话轮次的步骤，包括：

根据所述特征提取器对所述问询对话样本进行特征向量提取处理，以将所述特征提取器的末端隐藏层中第一位置的向量参数作为所述特征提取器输出的特征向量表示；

根据所述策略类别识别器对所述特征向量表示进行识别处理，以得到所述问询对话样本所属的策略类别以及所述问询对话样本所在的对话轮次。

3.根据权利要求2所述的方法，其特征在于，所述策略类别识别器包括针对策略类别识别的全连接层和针对对话轮次识别的全连接层，所述根据所述类别识别器对所述特征向量表示进行识别处理，以得到所述问询对话样本所属的策略类别以及所述问询对话样本所在的对话轮次的步骤，包括：

将所述特征提取器输出的特征向量表示映射到所述针对策略类别识别的全连接层中，以得到所述问询对话样本所属的策略类别；

将所述特征提取器输出的特征向量表示映射到所述针对对话轮次识别的全连接层中，以得到所述问询对话样本所在的对话轮次。

4.一种基于问询对话的策略识别方法，其特征在于，所述方法包括：

将目标对象的问询对话输入网络模型中，得到所述问询对话所属的策略类别和所述问询对话所在的当前对话轮次；

若所述网络模型输出的策略类别为兜底策略，则对所述网络模型输出的特征向量表示进行微调处理，得到所述问询对话所属的目标策略类别，其中，所述网络模型为上述权利要求1～3中任一项所述方法所训练得到的网络模型。

5.根据权利要求4所述的方法，其特征在于，所述对所述网络模型输出的兜底策略进行微调处理，得到所述问询对话所属的目标策略类别的步骤，包括：

根据所述网络模型在各对话轮次输出的特征向量表示确定各对话轮次的策略权重矩阵；

根据所述当前对话轮次的策略权重矩阵和对话轮次早于所述当前对话轮次的其他对话轮次的策略权重矩阵确定所述当前对话轮次的概率矩阵；

将所述当前对话轮次的概率矩阵和所述当前对话轮次的策略权重矩阵之间的乘积作为微调向量；

将所述微调向量输入所述网络模型中，得到所述问询对话所属的目标策略类别。

6.根据权利要求5所述的方法，其特征在于，所述根据所述当前对话轮次的策略权重矩阵和对话轮次位于所述当前对话轮次之间的其他对话轮次的策略权重矩阵确定所述当前对话轮次的概率矩阵的步骤，包括：

计算所述当前对话轮次的策略权重矩阵和所述其他对话轮次的策略权重矩阵之间的权重矩阵相似度；

选取最大权重矩阵相似度；

将所述最大权重矩阵相似度对应的对话轮次的策略权重矩阵和所述当前对话轮次的策略权重矩阵之间的乘积作为所述当前对话轮次的概率矩阵。

7.根据权利要求5所述的方法，其特征在于，所述根据所述网络模型在各对话轮次输出的特征向量表示确定各对话轮次的策略权重矩阵的步骤，包括：

按照对话轮次的由小到大对对应对话轮次的特征向量表示以及对话轮次位于所述对应对话轮次之前的其他对话轮次的特征向量进行排序处理；

基于排序处理后的特征向量表示确定所述对应对话轮次的策略权重矩阵，以得到各对话轮次的策略权重矩阵。

8.一种网络模型的训练装置，其特征在于，所述装置包括：

获取模块，配置为获取问询对话样本、所述问询对话样本所属的样本策略类别以及所述问询对话样本所在的样本对话轮次；

输入模块，配置为将所述问询对话样本输入所述网络模型中，所述网络模型用于输出所述问询对话样本所属的策略类别以及所述问询对话样本所在的对话轮次；

计算模块，配置为计算输出的策略类别与所述样本策略类别之间的第一损失函数，以及计算输出的对话轮次与所述样本对话轮次之间的第二损失函数；

训练模块，配置为以所述第一损失函数的损失值与所述第二损失函数的损失值之和变小为目标训练所述网络模型，直至所述训练后的网络模型确定出的第一损失函数的损失值与第二损失函数的损失值之和小于预设损失阈值。

9.一种基于问询对话的策略识别装置，其特征在于，所述装置包括：

确定模块，配置为将目标对象的问询对话输入网络模型中，得到所述问询对话所属的策略类别和所述问询对话所在的当前对话轮次；

微调模块，配置为若所述网络模型输出的策略类别为兜底策略，则对所述网络模型输出的兜底策略进行微调处理，得到所述问询对话所属的目标策略类别，其中，所述网络模型为上述权利要求1～3中任一项所述方法所训练得到的网络模型。

10.一种电子设备，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1～3中的任一项所述的网络模型的训练方法和/或权利要求4～7中任一项所述的基于问询对话的策略识别方法。