CN114638212A

CN114638212A - 模型训练方法、装置、电子设备和存储介质

Info

Publication number: CN114638212A
Application number: CN202011487953.7A
Authority: CN
Inventors: 秦昌博; 谢韬
Original assignee: Ecovacs Commercial Robotics Co Ltd
Current assignee: Ecovacs Commercial Robotics Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2022-06-17

Abstract

本发明实施例提供一种模型训练方法、装置、电子设备和存储介质，该方法包括：获取目标语句、目标语句的应答语句以及目标语句的上文语句。接着，将目标语句及其上文语句作为训练样本，并结合监督信息进行模型训练，以得到同时具有语句完整性分类功能以及语句补全功能的语句补全模型，无需额外训练分类模型，提高训练效率。然后，还可以同时利用目标语句和应答语句各自对应的语句向量，调整语句补全模型的模型参数。通过应答语句的语句向量对补全模型的影响，使语句补全模型输出的语句向量更加准确，进一步保证语句补全的准确性。

Description

模型训练方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种模型训练方法、装置、电子设备和存储介质。

背景技术

随着人工智能技术的发展，各种智能机器人越来越多地进入人们的生活，比如服务机器人、迎宾机器人、自移动售货机器人等等。为了方便用户使用，智能机器人通常都支持多种人机交互方式，比如基于触摸操作的人机交互方式以及基于语音的交互方式等等。

在基于语音的交互过程中，用户可能会下意识地省略一些内容，即用户有可能会向智能机器人输入存在缺省的语句。此时，智能机器人需要判断用户输入的语句是否存在缺省，再进一步结合对话的上文内容推测语句中缺省的内容，并根据推测结果实现人机交互。

发明内容

本发明实施例提供一种模型训练方法、装置、电子设备和存储介质，用以保证语句补全模型完成语句补全的准确性，使得人机对话顺畅进行。

本发明实施例提供一种模型训练方法，该方法包括：

获取目标语句、所述目标语句的应答语句以及所述目标语句的上文语句；

将所述目标语句和所述上文语句输入语句补全模型，结合监督信息，进行模型训练，所述监督信息包括所述目标语句的完整性信息、代词在所述目标语句中的位置和/或所述代词对应的指代内容在所述上文语句中的位置；

根据所述目标语句和所述应答语句各自的语句向量，调整所述语句补全模型模型参数。

本发明实施例提供一种模型训练装置，包括：

语句获取模块，用于获取目标语句、所述目标语句的应答语句以及所述目标语句的上文语句；

训练模型，用于将所述目标语句和所述上文语句输入语句补全模型，结合监督信息，进行模型训练，所述监督信息包括所述目标语句的完整性信息、代词在所述目标语句中的位置和/或所述代词对应的指代内容在所述上文语句中的位置；

调整模块，用于根据所述目标语句和所述应答语句各自的语句向量，调整所述语句补全模型模型参数。

本发明实施例提供一种电子设备，包括：处理器和存储器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现：

本发明实施例提供了一种存储计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器至少执行以下的动作：

本发明提供的模型训练方法，先获取目标语句、目标语句的应答语句以及目标语句的上文语句，它们可以构成一段历史多轮对话。接着，将其中的目标语句和上文语句作为训练样本，并结合监督信息训练语句补全模型。监督信息中包含语句的完整性信息、代词在目标语句中的位置和指代内容在上文语句中的位置，因此，训练出的语句补全模型同时具有语句完整性的分类功能以及语句补全功能，即能够判断出目标语句是否完整，同时又能够从上文语句中抽取指代内容，将指代内容补充到代词位置处。结合多种监督信息训练出具有多种功能的模型，无需额外训练分类模型，提高训练效率。

然后，还可以同时利用目标语句和应答语句各自对应的语句向量，调整语句补全模型的模型参数。借助应答语句的语句向量可以将目标语句与应答语句之间的语义联系引入语句补全模型中，使语句补全模型输出的语句向量更加准确，进一步保证语句补全的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种模型训练方法的流程图；

图2为本发明实施例提供的另一种模型训练方法的流程图；

图3为图2所示实施例提供的模型训练方法对应的示意图；

图4为本发明实施例提供的又一种模型训练方法的流程图；

图5为本发明实施例提供的一种模型训练装置的结构示意图；

图6为与图5所示实施例提供的模型训练装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式。除非上下文清楚地表示其他含义，“多个”一般包含至少两个。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

正如背景技术中提到的，在正常对话过程中，用户有可能会下意识地省略一些内容，当然还有可能会使用代词替代上文中出现的内容。在公共服务场景中，比如商场场景中，用户与智能机器人可能发生以下多轮对话：

用户：你好。

智能机器人：有什么新鲜事对我讲？

用户：没有哦

智能机器人：既然这样的话，我分享一个新鲜事吧，小明养了一只猫。

用户：他是谁？

智能机器人：小明是我的好朋友。

在上述对话中，语句“没有哦”中存在用户下意识省略的内容“新鲜事”，此省略部分被称为零代词。语句“他是谁”中存在人称代词“它”，用来指代上文中的“小明”。

在实际对话中，智能机器人要先判断用户输入的语句中是否存在代词，即是否存在人称代词和/或零代词。对于这种代词的语句，还要进一步确定代词在语句中的位置以及代词所对应的指代内容，并用指代内容补全语句。最终，智能机器人可以确定并输出补全后语句的应答语句给用户，也即是完成了一轮人机对话。

根据上述描述可知，在完成多轮对话的过程中，两个重要的步骤是语句补全以及确定补全后语句的应答语句。这两个步骤可以借助语句补全模型和语句匹配模型来完成。

具体来说，智能机器人接收到用户输入的语句A后，会将语句A输入语句补全模型。语句补全模型判断语句A是否需要补全，即判断其中是否包含零代词和/或人称代词。若包含代词，则语句补全模型会进一步根据语句A的上文语句，即在语句A之前产生的语句确定代词对应的指代内容，以用此指代内容补全语句A。补全后语句A又会输入至语句匹配模型，以由语句匹配模型匹配到相应的应答语句，从而完成一轮对话。其中，语句补全模型和语句匹配模型可以是部署在智能机器人中的神经网络模型。

基于上述描述，为了保证人机对话的流畅性，就要保证语句补全的准确性以及语句匹配的准确性。此时，可以使用本发明实施例提供的模型训练方法训练语句补全模型和语句匹配模型。

下面结合以下实施例对本发明提供的模型训练方法进行详细介绍。在各实施例之间不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

并且在实际应用中，该模型训练方法可以由各种具有计算能力的电子设备完成，比如服务器、移动终端、智能家电、智能穿戴设备、智能机器人等等。其中，智能机器人可以包括陪护机器人、迎宾机器人、自移动售货机器人等。当然，该模型训练方法也可以由人机交互插件(或者称为人机交互接口、人机交互功能模块)来执行。该插件可以集成在具有人机交互功能的系统中，比如线购物系统等等。泛泛而言，该模型训练方法可以适用于任何支持以语音方式或文字方式与用户进行人机对话的设备或系统中。

图1为本发明实施例提供的一种模型训练方法的流程图，如图1所示，该方法可以包括如下步骤：

101、获取目标语句、目标语句的应答语句以及目标语句的上文语句。

可以通过互联网收集多段历史多轮对话，每段多轮对话可以包括目标语句、目标语句的应答语句以及目标的上文语句。对于人机对话场景下的历史多轮对话，目标语句可以是用户产生的语句，则在目标语句之前出现的语句可以认为是上文语句，在目标语句之后由智能机器人产生的语句可以认为是应答语句。并且由目标语句和应答语句可以构成历史多轮对话中的一轮对话。

承接上述举例的多轮对话，目标语句可以为“没有哦”，则应答语句为“既然这样的话，我分享一个新鲜事吧，小明养了一只猫”，上文语句为“你好”以及“有什么新鲜事对我讲”。

102、将目标语句和上文语句输入语句补全模型，结合监督信息，进行模型训练，监督信息包括目标语句的完整性信息、代词在目标语句中的位置和/或代词对应的指代内容在上文语句中的位置。

对于收集到的历史多轮对话，还可以人工标注目标语句的语句完整性信息，即将不包含代词的目标语句标注为完整语句，否则标注为不完整语句。对于不完整的目标语句，则再进一步标注位置信息，即标注目标语句中代词所在的位置，同时标注代词对应的指代内容在上文语句中的位置。其中，代词包括人称代词和/或零代词，人称代词通常又包括第三人称代词。

标注后，将目标语句以及上文语句作为训练样本，将标注的语句完整性信息以及位置信息作为监督信息，训练语句补全模型。训练过程具体为：

将目标语句和上文语句输入语句补全模型，以由语句补全模型预测目标语句的完整性信息以及位置信息，再根据模型输出的预测结果与监督信息之间的差异计算损失值，利用此损失值调整模型参数，从而完成模型训练。

上述的监督信息包含不同维度的信息，其中的完整性信息用于训练语句补全模型的分类功能，使训练出的语句补全模型能够区分出语句是否需要补全。其中的位置信息用于训练语句补全模型的补全功能，使语句补全模型能够实现语句补全。也即是训练出的语句补全模型同时具有分类以及语句补全功能。

需要说明的有，按照上述监督信息训练出的模型，其在进行语句补全时，是将上文中出现过的内容补全到语句中，这样使得补全后的语句与上文在语义上是紧密联系的，不会出现补全后的语句与上文语义无关的情况，从而保证对话的流畅进行。

在实际中，可选地，语句补全模型可以是变换双向编码表示(BidirectionalEncoder Representation From Transformers，简称BERT)模型、基于双向注意力机制的(Bi-Directional Attention Flow，简称Bi-DAF)模型等等。

103、根据目标语句和应答语句各自的语句向量，调整语句补全模型模型参数。

基于步骤102训练出的语句补全模型，还可以根据目标语句和应答语句各自的语句向量进一步调整语句补全模型的模型参数。其中，目标语句可以输入语句补全模型中，以由语句补全模型输出目标语句的语句向量，同时，应答语句可以输入语句匹配模型，以由语句匹配模型输出应答语句的语句向量。

由于目标语句与应答语句在语义上是紧密联系的，因此，将应答语句的语句向量引入模型训练过程中，也可以认为是将两语句之间的语义联系引入模型训练过程中，使应答语句的语句向量影响语句补全模型，保证语句补全模型补全语句的准确性。

本实施例中，先获取目标语句、目标语句的应答语句以及目标语句的上文语句。接着，将其中的目标语句和上文语句作为训练样本，并结合监督信息训练语句补全模型。根据监督信息中包含的内容，可以得到同时具有语句完整性分类功能以及语句补全功能的语句补全模型，即能够判断出目标语句是否完整，同时又能够从上文语句中抽取指代内容，并将指代内容补充到代词位置处，无需重新收集训练样本并额外训练分类模型，提高训练效率。然后，还可以同时利用目标语句和应答语句各自对应的语句向量，调整语句补全模型的模型参数。通过应答语句的语句向量对补全模型的影响，保证语句补全模型输出更加准确的语句向量，进一步保证语句补全的准确性。

需要说明的有，在实际应用中，语句补全模型可以先输出语句向量，再根据语句向量预测目标语句的完整性信息和位置信息的，因此，上述实施例以及下述各实施例中根据语句向量调整模型参数以及结合监督信息训练模型的过程不具有严格的时序关系。

为了进一步保证模型的训练效果，图2为本发明实施例提供的另一种模型训练方法的流程图，如图2所示，该方法可以包括如下步骤：

201、获取目标语句、目标语句的应答语句以及目标语句的上文语句。

202、将目标语句和上文语句输入语句补全模型，结合监督信息，进行模型训练，监督信息包括目标语句的完整性信息、代词在目标语句中的位置和/或代词对应的指代内容在上文语句中的位置。

203、将应答语句输入语句匹配模型，以由语句匹配模型输出应答语句的语句向量。

上述步骤201～步骤203的执行过程与前述实施例的相应步骤相似，可以参见如图1所示实施例中的相关描述，在此不再赘述。

204、将非应答语句输入语句匹配模型，以由语句匹配模型输出非应答语句的语句向量。

图1所示实施例中，是将语义关联的目标语句与应答语句作为语句对，并利用其各自的语句向量训练语句补全模型的。在此基础上，还可以将语义不关联的目标语句与非应答语句作为语句对，利用其各自的语句向量进行模型训练。

目标语句与应答语句可以构成一段历史多轮对话中的一轮问答对话。而对于非应答语句，一种可选地方式，目标语句所在的历史多轮对话中除应答语句之外的任一语句都可以认为是非应答语句。

在实际训练过程中，往往会获得多段对话主题不同的历史多轮对话，则属于不同的历史多轮对话的语句在语义上是不关联的。因此，另一种可选地方式，可以将除了目标语句所属的历史多轮对话之外的其他历史多轮对话中的任一语句确定为非应答语句。可选地，在实际中，应答语句和非应答语句通常是多轮对话中智能机器人产生的语句。

205、获取语句补全模型输出的目标语句的语句向量。

206、根据目标语句、应答语句以及非应答语句各自的语句向量，调整语句补全模型的模型参数。

经过步骤203～步骤205后可以依次获得目标语句、应答语句以及非应答语句各自的语句向量。则调整模型参数的过程可以是：计算目标语句与应答语句各自的语句向量之间的相似度，计算目标语句与非应答语句各自的语句向量之间的相似度。再根据相似度计算损失值，并根据损失值调整语句补全模型的模型参数。可选地，相似度具体可以表现为余弦距离。语句向量之间的相似度越大即余弦距离越近，表明语句之间的语义关联性越大，两语句之间的问答关系越紧密。

同时使用与目标语句语义关联的应答语句，以及与目标语句语义不关联的非应答语句进行模型训练，能够使模型实现对比学习，以使模型学习到在语义上关联或者不关联的不同语句之间内在的联系，提高语句补全模型补全语句的准确性。

另外，根据上述描述可知，在训练语句补全模型的过程中还需要使用到语句匹配模型输出的应答语句的语句向量。可选地，在步骤206之后，还可以包括以下步骤，以实现在优化语句补全模型的同时优化语句匹配模型。

207、根据目标语句、应答语句以及非应答语句各自的语句向量，调整语句匹配模型的模型参数。

与步骤206类似，也是先计算不同语句的语句向量之间的相似度，再根据相似度计算损失值，根据损失值调整语句匹配模型的模型参数。

并且在实际中，步骤206和207实际上是同时进行的，也即是根据损失值同时调节语句匹配模型和语句补全模型各自的模型参数，实现两个模型的联合训练，使模型学习到具有语义关联性和不具有语句关联性的各语句之间的内在联系。本实施例中提供的联合训练方法可以结合图3理解。

在实际应用中，可选地，在不使用非应答语句的情况下，也可以根据目标语句和应答语句各自的语句向量同时调整两个模型的模型参数。

本实施例中，一方面，根据监督信息中包含的不同维度的信息可以同时训练语句补全模型的分类功能和语句补全功能。另一方面，在图1所示实施例的基础上，还引入了非应答语句，即将语义关联的目标语句和应答语句作为一种语句对，再将语义不关联的目标语句以及非应答语句作为另一种语句对，利用不同种类的语句对中语句的语句向量联合调整两个模型的模型参数，使两个模型都能学习到存在语义关联或不关联的不同语句之间的内在关系，从而保证语句补全模型语句补全的准确性以及语句匹配模型匹配应答语句的准确性。

上述实施例提及语句补全模型具体可以是BERT模型，基于此种模型，图4为本发明实施例提供的又一种模型训练方法的流程图，如图4所示，该方法可以包括如下步骤：

301、获取目标语句、目标语句的应答语句以及目标语句的上文语句。

上述步骤301的执行过程与前述实施例的相应步骤相似，可以参见如图1所示实施例中的相关描述，在此不再赘述。

302、将目标语句和上文语句进行拼接，以得到拼接结果，拼接结果中包含表明上文语句在拼接结果中位置的位置标识以及在目标语句和上文语句中相邻语句之间的间隔标识。

303、将拼接结果作为训练样本，结合监督信息，训练语句补全模型。

承接上述举例来说，目标语句为“没有哦”，上文语句为“你好”以及“有什么新鲜事对我讲”。此时，拼接结果的格式为：[CLS]你好[SEP]有什么新鲜事对我讲[SEP]没有哦。其中，[CLS]为表明上文语句起始位置的位置标识，[SEP]为语句之间的间隔标识。将具有上述格式的拼接结果输入语句补全模型，进行模型训练。

可选地，为了保证语句补全模型的分类功能，还可以使用正样本、负样本进行模型训练：即将包含完整目标语句的拼接结果作为正样本，将包含不完整目标语句的拼接结果作为负样本，再结合不同维度的监督信息，进行模型训练。其中，不包含代词的语句可以认为是完整目标语句。监督信息的具体内容可以参见上述各实施例中的描述。

304、根据间隔标识和位置标识，从语句补全模型输出的目标语句和上文语句各自的语句向量中，确定目标语句的语句向量。

305、根据目标语句和应答语句各自的语句向量，调整语句补全模型模型参数。

在将拼接结果输入语句补全模型中后，语句补全模型还可以输出目标语句和上文语句各自的语句向量。由于在使用语句向量模型参数调整过程中只需要使用到目标语句的语句向量，因此，还可以根据拼接结果中包含的间隔标识和位置标识确定出目标语句的语句向量，从而进一步实现模型参数的调整。调整过程可以参见图2所示实施例中的相关描述，在此不再赘述。

其中，对于语句向量的生成，在得到目标语句和上文语句之后，可以先对二者进行分词处理，再将分词结果输入语句补全模型，以由语句补全模型得到目标语句中各词语的初始向量，以及目标语句中各词语分别在目标语句以及上文语句中的位置信息，此位置信息也可以表现为向量形式。语句补全模型可以进一步提融合初始向量和位置信息，以生成目标语句的语句向量。

可选地，也可以如图2所示实施例中，将非应答语句也应用到模型参数的调整过程中，从而实现语句补全模型和语句匹配模型的联合训练。

本实施例中，根据监督信息中包含的不同维度的信息，训练得到同时具有分类功能以及语句补全功能的语句补全模型。同时借助正负样本，还可以进一步优化语句补全模型的分类功能。再将应答语句的语句向量引入模型训练过程中，使语句补全模型能够学习到两语句之间的语义联系，从而保证语句的补全效果。

为了便于理解，结合如下的应用场景对以上提供的模型训练方法的具体实现过程进行示例性说明。

以商场场景为例，商场大厅中会设置诸如服务机器人等的智能终端设备。此时，人机对话内容可以是闲聊，因此，与上述举例相同的，可以收集到以下的历史多轮对话1:

用户：你好。

智能机器人：有什么新鲜事对我讲？

用户：没有哦。

在历史多轮对话1中，目标语句为“没有哦”，应答语句为“既然这样的话，我分享一个新鲜事吧，小明养了一只猫”，上文语句为“你好”以及“有什么新鲜事对我讲”。通过人工标注以得到不同维度的监督信息，即将上述的目标语句标注为不完整语句，将上文语句中“新鲜事”所在的位置标注出来，也即是标注目标语句中的零代词对应的指代内容在上文语句中的位置。

然后，将目标语句和上文语句进行拼接，以得到拼接结果为：[CLS]你好[SEP]有什么新鲜事对我讲[SEP]没有哦。将此拼接结果输入语句补全模型，再结合上述多维度的监督信息进行模型训练，以同时训练语句补全模型的分类功能和语句补全功能。

将上述的拼接结果输入语句补全模型后，模型还可以将目标语句中各词语的初始向量以及各向量分别在目标语句和上文语句中的位置信息进行融合，以输出目标语句的语句向量。同时，还可以将目标语句的应答语句输入语句匹配模型，以由语句匹配模型输出应答语句的语句向量。接着，通过计算目标语句和应答语句各自的语句向量之间相似度，实现语句补全模型和语句匹配模型的联合优化，即同时调整两模型的模型参数，以使应答语句与目标语句之间的语义联系对两模型都产生影响，以提高语句补全的准确性以及语句匹配的准确性。

可选地，为了进一步保证模型的训练效果，还使用通过互联网可以收集到的历史多轮对话2：

用户：请问服装店铺M在哪里？

智能机器人：直走后右转就可以看到服装店铺M。

用户：它今天有什么打折活动？

智能机器人：今天使用商场会员卡，服装店铺M有商品8折的打折活动。

在上段历史多轮对话1、2中，智能机器人输出的其他语句都可以认为是目标语句“没有哦”的非应答语句，它们在语义上的关联性不高。并且在实际应用中，由于多轮对话1、2具有不同的对话主题，二者在语义上的关联性更小，因此，优先将历史多轮对话2中的智能机器人输出的语句作为非应答语句。

再将非应答语句输入语句匹配模型，以由语句匹配模型输出其的语句向量。借助目标语句、应答语句、非应答语句各自的语句向量，同样通过计算向量之间相似度的方式，同时调整两模型的模型参数，以使模型能够学习到存在语义关联或不存在语义关联的各个语句之间的内在关联，进一步保证语句补全的准确性以及语句匹配的准确性。

另外，使用按照上述方法训练出的语句补全模型，其确定出的指代内容都是上文中出现过的内容，这样使得补全后语句与上文在语义上是紧密联系的，不会出现补全后语句与上文语义无关的情况，保证对话的流畅进行。

除了上述商场场景外，又以银行场景为例，银行大厅中会设置诸如服务机器人等的智能终端设备。则收集到的历史多轮对话可以是关于业务咨询的：

用户：我想办一张信用卡。

智能机器人：您可以通过手机银行申请信用卡。

用户：它有什么优惠？

智能机器人：我行信用卡分期付款手续费9折优惠。

在上述对话中，目标语句为“它有什么优惠”，应答语句为“我行信用卡分期付款手续费9折优惠”，上文语句为“我想办一张信用卡”以及“您可以通过手机银行申请信用卡”。通过人工标注以得到多维度的监督信息，即将目标语句标注为不完整语句，将上文语句中“信用卡”所在的位置标注出来，也即是标注目标语句中的第三人称代词“它”对应的指代内容在上文语句中的位置。

然后，将目标语句和上文语句进行拼接，以得到拼接结果为：[CLS]我想办一张信用卡[SEP]您可以通过手机银行申请信用卡[SEP]它有什么优惠。此拼接结果会被输入至语句补全模型，再结合监督信息进行模型训练，以同时训练语句补全模型的分类功能以及语句补全功能。

接着，还可以根据应答语句和目标语句各自的语句向量同时调整语句匹配模型和语句补全模型的模型参数，使两语句之间的语义关联能够对模型训练产生积极影响。

在上述的历史多轮对话中，智能机器人产生的语句“您可以通过手机银行申请信用卡”可以作为目标语句的非应答语句，可选地，可以进一步利用此非应答语句与目标语句，优化两个模型各自的模型参数。

由于目标语句与应答语句在语义上关联，与非应答语句在语义上不关联，因此，同时使用应答语句和非应答语句进行模型训练，能够使模型学习到语义关联或者不关联的各语句之间的内在联系，从而提高语句补全的准确性以及语句匹配的准确性。

以下将详细描述本发明的一个或多个实施例的模型训练装置。本领域技术人员可以理解，这些模型训练装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图5为本发明实施例提供的一种模型训练装置的结构示意图，如图5所示，该装置包括：

语句获取模块11，用于获取目标语句、所述目标语句的应答语句以及所述目标语句的上文语句。

训练模型12，用于将所述目标语句和所述上文语句输入语句补全模型，结合监督信息，进行模型训练，所述监督信息包括所述目标语句的完整性信息、代词在所述目标语句中的位置和/或所述代词对应的指代内容在所述上文语句中的位置。

调整模块13，用于根据所述目标语句和所述应答语句各自的语句向量，调整所述语句补全模型模型参数。

可选地，该模型训练装置中还包括：输入模块21和向量获取模块22，所述输入模块21，用于将所述应答语句输入语句匹配模型，以由所述语句匹配模型输出所述应答语句的语句向量。

所述获取模块22，用于获取所述语句补全模型输出的所述目标语句的语句向量。

可选地，该模型训练装置中的输入模块21，还用于：将非应答语句输入所述语句匹配模型，以由所述语句匹配模型输出所述非应答语句的语句向量。

所述调整模块13，用于根据所述目标语句、所述应答语句以及所述非应答语句各自的语句向量，调整所述语句补全模型的模型参数。

其中，所述应答语句和所述目标语句和构成一段历史多轮对话中的一轮对话，所述非应答语句和所述目标语句属于不同的历史多轮对话。

可选地，该模型训练装置中的调整模块13，还用于根据所述目标语句、所述应答语句以及所述非应答语句各自的语句向量，调整所述语句匹配模型的模型参数。

可选地，该模型训练装置中的调整模块13具体用于：确定所述目标语句的语句向量与所述应答语句的语句向量之间的相似度；以及根据所述相似度，调整所述语句补全模型的模型参数。

可选地，该模型训练装置中的训练模块12具体用于：将所述目标语句和所述上文语句进行拼接，以得到拼接结果，所述拼接结果中包含表明所述上文语句在所述拼接结果中位置的位置标识以及在所述目标语句和所述上文语句中相邻语句之间的间隔标识；以及将所述拼接结果作为训练样本，结合监督信息，训练所述语句补全模型。

可选地，该模型训练装置中的向量获取模块22具体用于：根据所述间隔标识和所述位置标识，从所述语句补全模型输出的所述目标语句和所述上文语句各自的语句向量中，确定所述目标语句的语句向量。

可选地，该模型训练装置中的训练模块13具体用于：将包含完整目标语句的拼接结果作为正样本，将包含不完整目标语句的拼接结果作为负样本，训练所述语句补全模型，完整目标语句中不包含人称代词和/或零代词。

可选地，该模型训练装置中还包括：分词模块23，用于对所述目标语句和所述上文语句进行分词处理。

所述输入模块21，还用于将分词结果输入所述语句补全模型，以由所述语句补全模型根据所述目标语句中各词语的初始向量、所述各词语分别在所述目标语句和所述上文语句中的位置信息，输出所述目标语句的语句向量。

图5所示的模型训练装置可以执行前述图1至图4所示实施例提供的模型训练方法，本实施例未详细描述的部分，可参考对图1至图4所示实施例的相关说明，在此不再赘述。

以上描述了模型训练装置的内部功能和结构，在一个可能的设计中，模型训练装置的结构可实现为电子设备中的一部分，如图6所示，该电子设备可以包括：处理器31和存储器32。其中，所述存储器32用于存储支持该电子设备执行前述图1至图4所示实施例中提供的模型训练方法的程序，所述处理器31被配置为用于执行所述存储器32中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器31执行时能够实现如下步骤：

可选地，所述处理器31还用于执行前述图1至图4所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括通信接口33，用于与其他设备或通信网络通信。

另外，本发明实施例提供了一种存储计算机指令的计算机可读存储介质，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器至少执行以下的动作：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述应答语句输入语句匹配模型，以由所述语句匹配模型输出所述应答语句的语句向量；

获取所述语句补全模型输出的所述目标语句的语句向量。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将非应答语句输入所述语句匹配模型，以由所述语句匹配模型输出所述非应答语句的语句向量；

所述根据所述目标语句和所述应答语句各自的语句向量，调整所述语句补全模型模型参数，包括：

根据所述目标语句、所述应答语句以及所述非应答语句各自的语句向量，调整所述语句补全模型的模型参数。

4.根据权利要求3所述的方法，其特征在于，所述应答语句和所述目标语句和构成一段历史多轮对话中的一轮对话，所述非应答语句和所述目标语句属于不同的历史多轮对话。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据所述目标语句、所述应答语句以及所述非应答语句各自的语句向量，调整所述语句匹配模型的模型参数。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标语句和所述应答语句各自的语句向量，调整所述语句补全模型模型参数，包括：

确定所述目标语句的语句向量与所述应答语句的语句向量之间的相似度；

根据所述相似度，调整所述语句补全模型的模型参数。

7.根据权利要求2所述的方法，其特征在于，所述将所述目标语句和所述上文语句输入语句补全模型，结合监督信息，进行模型训练，包括：

将所述目标语句和所述上文语句进行拼接，以得到拼接结果，所述拼接结果中包含表明所述上文语句在所述拼接结果中位置的位置标识以及在所述目标语句和所述上文语句中相邻语句之间的间隔标识；

将所述拼接结果作为训练样本，结合监督信息，训练所述语句补全模型。

8.根据权利要求7所述的方法，其特征在于，所述获取所述语句补全模型输出的所述目标语句的语句向量，包括：

根据所述间隔标识和所述位置标识，从所述语句补全模型输出的所述目标语句和所述上文语句各自的语句向量中，确定所述目标语句的语句向量。

9.根据权利要求7所述的方法，其特征在于，所述将所述目标语句和所述上文语句作为训练样本，结合监督信息，训练所述语句补全模型，包括：

将包含完整目标语句的拼接结果作为正样本，将包含不完整目标语句的拼接结果作为负样本，训练所述语句补全模型，完整目标语句中不包含人称代词和/或零代词。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述目标语句和所述上文语句进行分词处理；

将分词结果输入所述语句补全模型，以由所述语句补全模型根据所述目标语句中各词语的初始向量、所述各词语分别在所述目标语句和所述上文语句中的位置信息，输出所述目标语句的语句向量。

11.一种模型训练装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现：

13.一种存储计算机指令的计算机可读存储介质，其特征在于，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器至少执行以下的动作：