CN116127328B

CN116127328B - 一种对话状态识别模型的训练方法、装置、介质及设备

Info

Publication number: CN116127328B
Application number: CN202310391391.3A
Authority: CN
Inventors: 余轲
Original assignee: Beijing Lun Zi Technology Co ltd
Current assignee: Beijing Lun Zi Technology Co ltd
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-08-25
Anticipated expiration: 2043-04-13
Also published as: CN116127328A

Abstract

本说明书公开了一种对话状态识别模型的训练方法、装置、介质及设备，通过确定历史对话中的单轮对话数据，以及将单轮对话数据之前的对话数据作为关联数据，确定训练样本包含的对话数据，根据对话各参与方在预设的状态维度上的标注，确定训练样本的标注，其中状态维度不仅包含语意还包含参与方的其他状态。之后通过对训练样本进行编码以及分别对应各状态维度的解码器进行解码，根据各状态维度的状态预测结果与标注，确定损失，以损失最小训练对话状态识别模型。不再仅基于单轮对话数据训练，使得识别结果更准确，由于还识别参与方除语意外的其他状态，因此可确定各参与方的多维度的信息，提高了对话系统的效率。

Description

一种对话状态识别模型的训练方法、装置、介质及设备

技术领域

本申请涉及自然语言处理领域，尤其涉及一种对话状态识别模型的训练方法、装置、介质及设备。

背景技术

目前，随着计算机技术的快速发展，人工智能以及自然语言处理领域中对语意识别的需求越来越高，通常基于神经网络训练识别语意的模型。准确的识别用户语意，可以为下游业务提供更好的支持。例如，在人机对话系统中，准确的识别用户输入语句的意图，是后续输出信息的准确性的保证。但是一方面如何提高语意识别的准确度，仍是一大难题，另一方面通过对话数据仅确定单一的用户语意，使得对数据的利用率较低，大量的隐含信息没能利用。

基于此，本说明书提供一种对话状态识别模型的训练方法。

发明内容

本说明书提供一种对话状态识别模型的训练方法、装置、介质及设备，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供一种对话状态识别模型的训练方法，所述对话状态识别模型为多任务学习模型，每个任务对应一个解码层，每个解码层用于输出不同的对话状态，所述方法包括：

从历史对话中确定单轮对话数据，并将所述历史对话中在所述单轮对话数据之前的对话数据，作为所述单轮对话数据的关联数据；

根据所述单轮对话数据以及所述关联数据，确定训练样本，以及确定所述历史对话中所述单轮对话数据的各参与方在预设的各状态维度上的标注，作为所述训练样本的标注；

将所述训练样本输入待训练的对话状态识别模型的编码层，确定编码特征；

将所述编码特征输入所述待训练的对话状态识别模型的各解码层，通过所述各解码层，确定所述单轮对话数据的各参与方在所述各状态维度上的状态预测结果；

根据各状态维度的状态预测结果以及所述训练样本在各状态维度上标注，确定所述训练样本对应的损失，并以损失最小为优化目标，对所述对话状态识别模型进行训练；其中，训练完成的所述对话状态识别模型用于基于对话参与方的对话数据识别所述对话参与方的状态。

可选的，确定所述历史对话中所述单轮对话数据的各参与方在预设的各状态维度上的标注，具体包括：

针对所述单轮对话数据的每个参与方，根据所述历史对话整体内容，确定该参与方在所述单轮对话数据对应的一轮对话中各状态维度的标注；

其中，所述状态维度至少包括：用户意图、用户目的、用户需求、用户反应、用户行为、用户属性中的至少一种。

可选的，

针对所述单轮对话数据的每个参与方，根据所述历史对话整体内容，确定该参与方在所述单轮对话数据对应的一轮对话中各状态维度的标注，具体包括：

确定所述单轮对话数据中，各参与方中的对话发起方以及对话响应方；

根据所述历史对话整体内容，确定所述对话发起方在所述单轮对话数据对应的一轮对话中的用户意图、用户目的、用户需求、用户反应、用户行为、用户属性；

根据所述历史对话整体内容，确定所述对话响应方在所述单轮对话数据对应的一轮对话中的用户目的、用户反应、用户行为。

可选的，

将所述历史对话中在所述单轮对话数据之前的对话数据，作为所述单轮对话数据的关联数据，具体包括：

按照预设的对话轮数，从所述历史对话中，确定在所述单轮对话数据之前所述对话轮数的对话数据，作为所述单轮对话数据的关联数据。

可选的，根据所述单轮对话数据以及所述关联数据，确定训练样本，具体包括：

将所述单轮对话数据中对话发起方的对话数据以及所述关联数据，作为训练样本。

可选的，

将所述训练样本输入待训练的对话状态识别模型的编码层，确定编码特征，具体包括：

针对所述训练样本中的每个语句，确定该语句的语句结构；

根据确定出的语句结构，进行分词处理，确定各分词对应的词向量；

根据各分词在该语句中的顺序，确定该语句对应的句向量；

将确定出的各语句对应的句向量，按照在所述历史对话中的排序，输入所述编码层，确定编码特征。

可选的，

根据各状态维度的状态预测结果以及所述训练样本在各状态维度上标注，确定所述训练样本对应的损失，具体包括：

针对每个状态维度，根据该状态维度的状态预测结果以及所述训练样本在该状态维度上的标注的差异，确定子损失；

根据各子损失确定总损失，作为所述训练样本对应的损失。

可选的，

确定所述单轮对话数据的各参与方在所述各状态维度上的状态预测结果，具体包括：

根据预设的语料库，确定所述状态预测结果的候选词；

从所述候选词中，依次确定该状态维度的状态预测结果中的词，确定所述状态预测结果；

其中，所述状态预测结果中的词采用下述方法确定：

确定所述状态预测结果中已经确定的词；

针对每个候选词，根据该词与所述状态预测结果中已经确定的词的句尾词的连接概率，确定该候选词的第一评价值；

根据预设的包含实体词关联关系的图数据，确定加入该候选词后所述状态预测结果中存在关联关系的词，并根据存在关联关系的词，确定至少一个语句片段；

根据评价函数确定语句片段的评分，确定该候选词的第二评价值；

以所述第一评价值和所述第二评价值最大为目标，确定加入所述状态预测结果的候选词。

可选的，

根据预设的包含实体词关联关系的图数据，确定加入该候选词后所述状态预测结果中存在关联关系的词，具体包括：

根据所述训练样本对应的场景，确定所述场景对应的图数据，其中，所述图数据的节点为所述场景中的实体词，所述图数据中的边为所述场景中实体词的关联关系；

根据所述图数据中的各边，确定加入该候选词后所述状态预测结果中，存在关联关系的词。

可选的，根据预设的语料库，确定所述状态预测结果的候选词，具体包括：

从预设的各场景语料库中，确定所述训练样本对应的场景语料库，作为目标语料库；

从所述目标语料库中，确定各解码层输出额状态预测结果采用的候选词。

本说明书提供一种对话状态识别模型的训练装置，所述对话状态识别模型为多任务学习模型，每个任务对应一个解码层，每个解码层用于输出不同的对话状态，所述装置包括：

数据获取模块，从历史对话中确定单轮对话数据，并将所述历史对话中在所述单轮对话数据之前的对话数据，作为所述单轮对话数据的关联数据；

样本生成模块，根据所述单轮对话数据以及所述关联数据，确定训练样本，以及确定所述历史对话中所述单轮对话数据的各参与方在预设的各状态维度上的标注，作为所述训练样本的标注；

编码模块，将所述训练样本输入待训练的对话状态识别模型的编码层，确定编码特征；

解码模块，将所述编码特征输入所述待训练的对话状态识别模型的各解码层，通过所述各解码层，确定所述单轮对话数据的各参与方在所述各状态维度上的状态预测结果；

训练模块，根据各状态维度的状态预测结果以及所述训练样本在各状态维度上标注，确定所述训练样本对应的损失，并以损失最小为优化目标，对所述对话状态识别模型进行训练；其中，训练完成的所述对话状态识别模型用于基于对话参与方的对话数据识别所述对话参与方的状态。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述对话状态识别模型的训练方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述对话状态识别模型的训练方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

通过确定历史对话中的单轮对话数据，以及将单轮对话数据之前的对话数据作为关联数据，确定训练样本包含的对话数据，根据对话各参与方在预设的状态维度上的标注，确定训练样本的标注，其中状态维度不仅包含语意还包含参与方的其他状态。之后通过对训练样本进行编码以及分别对应各状态维度的解码器进行解码，根据各状态维度的状态预测结果与标注，确定损失，以损失最小训练对话状态识别模型。由于训练不再仅基于单轮对话数据，使得确定出的对话参与方的状态更为准确，并且，由于输出的不仅有语意还有参与方的其他状态，因此通过在对话系统中应用该对话状态识别模型，可根据各参与方的多维度的信息，确定更为准确的语句进行输出。提高了对话系统与用户对话的效率，以及用户体验。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书提供的对话状态识别模型的训练方法的流程示意图；

图2为本说明书提供的对话状态识别模型的训练装置的结构示意图；

图3为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

在本说明书中，训练该对话状态识别模型的目的是：在对话系统中或者其他场景中，可以更准确的识别出各参与方可能出现的状态、反应以及意图等信息，以避免目前基于语句仅确定语意一种预测信息，难以全面的体现对话参与方的状态或者隐含信息的问题。

以人机对话系统来说，目前仅仅预测用户当前输出的语句对应的意图，而忽视了用户的其他状态或者用户其他反应，无法体现用户输出的语句的隐含信息，导致人机对话系统输出的信息准确度较低。例如，在为用户推荐某款商品后，用户输出“我想看看其他的商品”，那么隐含的信息可能包含该用户不喜欢该款商品所述品类的商品，而用户的目的可能是随便看看而并非不喜欢该款商品。

当然，除了人机对话系统以外，在其他场景中也可通过训练得到的对话状态识别模型，识别对话参与方的各状态，以确定所需的信息。例如，在解决用户纠纷的场景中，可以根据各用户提供的文本数据，确定各用户的各种状态，从而确定各用户的需求或者目的，从而进行调解或者定责。当然，本说明书不限制训练的该对话状态识别模型具体应用场景，只要是基于文本进行用户分析的场景，都可以应用该对话状态识别模型确定更为丰富以及准确的信息。为了方便描述，本说明书下面以应用于对话系统为例进行说明。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本说明书中一种对话状态识别模型的训练方法的执行流程示意图，具体包括以下步骤：

S100：从历史对话中确定单轮对话数据，并将所述历史对话中在所述单轮对话数据之前的对话数据，作为所述单轮对话数据的关联数据。

在本说明书提供的一个或多个实施例中，可由具有计算能力的电子设备执行对该对话状态识别模型的训练过程，该电子设备可为个人电脑、移动终端或者服务器。当然，由于模型训练所需巡林样本的数据量一般较大，且对计算资源需求较高，因此一般由服务器执行，因此本说明书中也以服务器执行该对话状态识别模型训练过程进行说明。

一般的，训练模型可以分为样本生成阶段以及训练模型阶段，在样本生成阶段可根据模型需要以及训练需要，确定用于训练模型的样本。而本说明书中的该对话状态识别模型的训练方法，其目的是训练出可以识别参与对话的各参与方的各种状态的模型，而上述的各种状态不仅包含明显的用户意图也包含隐含的信息。而为了达到这一技术效果，想要确定隐含的信息，仅通过单轮对话数据识别的困难程度较高，因此本说明书中采用基于单轮对话数据及其关联数据对应的训练样本对模型进行训练的技术手段。则在本说明书实施例中，该服务器可首先获取从历史对话中确定单轮对话数据，并将该历史对话中在该单轮对话数据之前的对话数据，作为该单轮对话数据的关联数据。

具体的，该服务器可确定多个已经结束的历史对话，所述确定训练样本的数据集。之后，针对每个历史对话，确定该历史对话中的各轮对话数据。然后，从各轮对话数据中，选择一轮对话数据作为确定出的单轮对话数据。其中，单轮对话数据可以是参与对话的两个参与方互相问答的语句，例如，用户A：“你想吃什么”，用户B：“我想吃面条”。则“你想吃什么”和“我想吃面条”为单轮对话数据包含的语句。或者，单轮对话数据可以是参与对话的一个参与方的语句，如上例中用户B的“我想吃面条”，或者用户A的“你想吃什么”。

在确定单轮对话数据之后，该服务器还可以确定该单轮对话数据的关联数据。一般来说，由于在应用阶段只能确定对话参与方已经输出的语句，因此该关联数据为在历史对话中该单轮对话数据之前的对话数据。相较于目前仅基于单轮对数数据进行语意预测的方法，通过引入关联数据，可以增加对话上下文信息，从而为模型识别更准确的输出结果提供支持。并且，在本说明书中该对话状态识别模型，不仅用于识别用户语意这一种维度的状态信息，同时还可识别其他类型的状态信息，因此对话中的上下文信息更为重要。用户语句中存在的隐含的信息，也需要基于上下文信息来确定。

当然，确定出的单轮对话数据及其关联数据，后续是用于作为训练样本输入待训练的对话状态识别模型的，而一般对模型的输入数据的“尺寸”是有限制，因此该服务器在确定关联数据时，可根据预设的轮数，确定在该单轮对话数据之前该轮数的对话数据，作为关联数据。或者，也可按照数据量，确定单轮对话数据之前预设字符数量的对话数据，作为关联数据。当然，如何选择历史对话中的那些对话数据作为关联数据，本说明书不做限制。

S102：根据所述单轮对话数据以及所述关联数据，确定训练样本，以及确定所述历史对话中所述单轮对话数据的各参与方在预设的各状态维度上的标注，作为所述训练样本的标注，所述状态维度至少包含语意维度。

在本说明书一个或多个实施例中，该服务器在确定单轮对话数据及其关联数据之后，便可生成训练样本以及训练样本对应的标注。

具体的，如在步骤S100中所述的，由于待训练的对话状态识别模型输入数据量是固定的，因此训练样本的数据量也应与该对话状态识别模型的输入保持一致，因此需要确定预设轮数的关联数据。而在步骤S102生成训练样本时，该服务器可将该步骤S100确定单轮对话数据以及关联数据，作为一个训练样本。当关联数据或者单轮对话数据的大小小于预设值时，为空缺的位置补充指定字符。例如，假设预设的该对话状态识别模型输入的一轮对话数据包含50个字符，则当单轮对话数据包含的字符数量小于10时，该服务器可通过补0，使训练样本包含的单轮对数据的数据量保持在10。假设用户输入的语句为“我想吃面条”，则确定出的训练样本中该单轮对话数据为“我/想/吃/面/条/0/0/0/0/0”。同理，当关联数据缺失时也可通过补充指定字符，使训练样本的数据量一致。

另外，在本说明书一个或多个实施例中，该服务器还可确定该训练样本的标注。一般采用人工标注的方式确定。为了使对话系统输出更准确的语句，需要确定更为丰富的信息。因此在本说明书中，该对话状态识别模型为编码器解码器结构的多任务学习模型，并且在该对话状态识别模型中包含多个解码层，每个任务对应一个解码层，每个解码层用于输出不同的对话状态。

于是，在确定训练样本的标注时，该服务器可针对该单轮对话数据的每个参与方，根据所述历史对话整体内容，确定该参与方在该单轮对话数据中各状态维度的标注。其中，该状态维度至少包括：用户意图、用户目的、用户需求、用户反应、用户行为、用户属性中的至少一种。

用户意图表示该用户输出语句所表示的意图或者语意。用户目的表示该用户输出语句想要达到的目的或用户的期望。用户需求表示该用户输入语句所在的语境中该用户所需实施的动作。用户反应为该用户基于语句做出的反应。用户行为为该用户基于语句做出的动作。其中，用户反应和用户行为区别在于用户反应一般为心理反应，而行为一般为反应的动作。而用户动作和用户需求的区别为用户动作一般是用户被动做出反应的动作，而用户需求是基于语句用户所需主动实施的行为。用户属性标识用户的不随对话变动的信息，例如性别，性格等。

可见上述多种对话时参与方的状态，可以更好的反应出参与方后续可能的行为、意图、目的等，既有心理上的也有实际可能产生的，既有主动的也有被动的。通过训练对话状态识别模型，从多方面确定各状态维度的预测结果，可以有效提高对话数据利用效率，同时挖掘用户对话是隐含的信息。

另外，在本说明书中还可针对不同参与方，确定不完相同状态维度的标注。该服务器可确定该单轮对话数据中，各参与方中的对话发起方以及对话响应方。

之后，该服务器可根据该历史对话整体内容，确定该对话发起方在该单轮对话数据对应的一轮对话中的用户意图、用户目的、用户需求、用户反应、用户行为、用户属性。以及，根据该历史对话整体内容，确定该对话响应方在该单轮对话数据对应的一轮对话中的用户目的、用户反应、用户行为。由于一般需要确定的该单轮对话数据中发起方的语意等状态，因此为了减少模型复杂程度，提高模型收敛的速度，可以对不同对话参与方设置不完全相同的标注。

其中，对话响应方可以是具体的参与对话的用户，也可以是至为参与对话的一个虚拟用户。

例如，对话响应方的用户反应，既可以是对话用户A输出语句后，另一对话用户B的用户反应，也可以是对话用户A输出语句后，不定向的一个“其他用户”可能表现出的用户反应。也就是说，上述标签由于是基于整体历史对话确定，因此即可以是针对用户的个性化标注，也可以是其他用户的标注，本说明书对此不做限制。

S104：将所述训练样本输入待训练的对话状态识别模型的编码层，确定编码特征。

在本说明书提供的一个或多个实施例中，该服务器在确定出训练样本包含的数据以及训练样本对应的标注之后，便可将该训练样本输入待训练的对话状态识别模型的编码层，确定该训练样本对应的编码特征。

具体的，由于本申请对应的用户输出的语句，因此可能存在语句缺省字词，或者语句结构不规范的情况。为了提高对话状态识别模型的训练效果，也提高对话状态识别模型应用时的准确性，该服务器可针对该训练样本中的每个语句，确定该语句的语句结构，根据确定出的语句结构，进行分词处理。确定各分词对应的词向量，根据各分词在该语句中的顺序，确定该语句对应的句向量。将确定出的各语句对应的句向量，按照在该历史对话中的排序，输入该编码层，确定编码特征。

例如，针对训练样本中的任一语句w，在对该语句w分词之后，可以确定向量（w1，w2……wn），也就是说该语句w分词后确定出了n个分词，w1~wn表示各分词。

另外，该服务器还可先进行停用词匹配，删除该训练样本包含的对话数据的语句中的停用词。之后通过确定该语句结构，确定构成语句的关键词，将描述用户形容词或者定语删除。

进一步地，由于在本说明书中，该训练样本中不仅包含一轮对话的对话数据，因此该服务器在将训练样本输入编码层时，可按照预设的顺序输入各语句。具体的，该服务器可按照各语句在历史对话中的先后顺序，将各语句依次输入编码器，确定编码特征。

例如，假设训练样本包含的语句按照发生的顺序为：用户A的语句1，用户B的语句2，用户A的语句3，用户B的语句4以及用户A的语句5，语句1和2为一轮对话，语句3和4为一轮对话，语句5为需要识别状态的语句。则该服务器可按照语句1~5的顺序依次将各语句输入该编码层。

当然，由于输入的语句的数量都是可以预先确定，因此也可针对训练样本包含的语句数据，为该对话状态识别模型设置对应数量的编码器。对各编码器出的编码结果进行拼接，确定编码特征。或者由于训练样本的大小是可设置的，因此也可将各语句按顺序拼接后，输入一个编码器。

S106：将所述编码特征输入所述待训练的对话状态识别模型的各解码层，通过所述各解码层，确定所述单轮对话数据的各参与方在所述各状态维度上的状态预测结果。

在本说明书提供的一个或多个实施例中，如前所述的，对话状态识别模型为编码器解码器结构的模型，因此在确定编码特征之后，便可将编码特征输入各解码层，确定各解码层输出的状态预测结果。

具体的，在本说明书中，由于该对话状态识别模型的解码层输出的结果并非是分类结果，而是具有“内容”的信息，因此为了实现解码器输出用户意图、用户目的、用户需求、用户反应、用户行为、用户属性等信息，该服务器可获取预设的语料库。该语料库用于为解码器确定状态预测结果提供数据支持。

可根据该预设的语料库，确定各解码器输出状态预测结果所需的候选词。再从各候选词中，依次确定该状态维度的状态预测结果中的词，确定所述状态预测结果。

具体来说，针对每个解码器，该服务器可通过该解码器确定各候选词作为状态预测结果中的首个字符的概率，之后确定概率最高的字符为该解码器输出的状态预测结果中的首个字符。

在确定出首字符之后，针对该状态预测结果中后续的字符，可先确定该状态预测结果中已经确定的词。之后，针对每个候选词，根据该词与该状态预测结果中已经确定的词的句尾词的连接概率，确定该候选词的第一评价值。即确定，其中p为候选词，q为状态预测结果中已经确定的词，也就是确定在q之后连接候选词p的概率。

然后，根据预设的包含实体词关联关系的图数据，确定加入该候选词后该状态预测结果中存在关联关系的词，并根据存在关联关系的词，确定至少一个语句片段。其中，该图数据包含各实体词之间的关联关系的图数据，该图数据中的节点为实体词，边为实体词之间的关联关系。通过该图数据可以确定可能存在关联关系的各实体词，因此可以确定该状态预测结果以经确定出的词之间存在的关系的实体词，并将当前的该状态预测结果划分为至少一个语句片段。

确定各语句片段的目的，是根据预设的评价函数确定当前的该状态预测结果中各语句片段的评分，也就是说当前的该状态预测结果中实体词组合是否合理，确定该候选词的第二评价值。

最后，该服务器可以该第一评价值和该第二评价值最大为目标，确定加入该状态预测结果的候选词。

S108：根据各状态维度的状态预测结果以及所述训练样本在各状态维度上标注，确定所述训练样本对应的损失，并以损失最小为优化目标，对所述对话状态识别模型进行训练；其中，训练完成的所述对话状态识别模型用于基于对话参与方的对话数据识别所述对话参与方的状态，并根据所述对话参与方的状态确定输出语句。

在本说明书提供的一个或多个实施例中，如前所述的，确定各解码层输出的状态预测结果后，该服务器可根据训练样本对应各状态维度的标注，确定该训练样本对应的损失，最后以损失最小为优化目标，调整该对话状态识别模型的参数，直至该对话状态识别模型收敛或者达到预设的训练结束条件为止。

具体的，该服务器可针对每个状态维度，根据该状态维度的状态预测结果以及所述训练样本在该状态维度上的标注的差异，确定子损失，根据各子损失确定总损失，作为所述训练样本对应的损失。

通过上述训练过程可以训练得到根据用户输出的语句以及上下文信息，识别用户各状态维度的信息的模型，同时还可以预测其他用户在不同状态维度的信息，从而为对话系统输出更为准确的语句提供了基础。例如，根据用户A的依次输出的语句包括“我想来玩牛肉面”语句“有洋葱吗？”，通过场景的语意识别模型，只能确定用户意图为需要洋葱，但是通过本说明书提供的对话状态识别模型，可根据上下文确定用户的目的是指单纯询问，而非需要洋葱，通过解码器输出时，可根据图数据确定因为洋葱和牛肉面并具有关联关系的实体词组合。

又或者，用户A输出语句为“给我推荐午饭菜品”，用户B输出语句为“要不要吃牛肉面？”用户A继续输出语句“还有别的吗？”针对，最后这一轮对话数据，通过该对话状态识别模型可以确定用户的隐藏意图为：用户不想吃牛肉面，而用户反应可能包括：寻找其他推荐渠道。

基于图1所示的对话状态识别的训练方法，通过确定历史对话中的单轮对话数据，以及将单轮对话数据之前的对话数据作为关联数据，确定训练样本包含的对话数据，根据对话各参与方在预设的状态维度上的标注，确定训练样本的标注，其中状态维度不仅包含语意还包含参与方的其他状态。之后通过对训练样本进行编码以及分别对应各状态维度的解码器进行解码，根据各状态维度的状态预测结果与标注，确定损失，以损失最小训练对话状态识别模型。由于训练不再仅基于单轮对话数据，使得确定出的对话参与方的状态更为准确，并且，由于输出的不仅有语意还有参与方的其他状态，因此通过在对话系统中应用该对话状态识别模型，可根据各参与方的多维度的信息，确定更为准确的语句进行输出。提高了对话系统与用户对话的效率，以及用户体验。

在本说明书步骤S106中，该对话状态识别模型的解码器为双向门控循环网络（Gated Recurrent Unit，GRU）基于已经确定的状态预测结果的各字符，从正向和反向两个方向，确定状态预测结果的下一个字符。

具体的，该第一评价值可采用公式：

确定。

其中，表示状态预测结果中第i个字符或者词，/>表示GRU传输的隐层特征，表示基于第i个字符的隐层特征以及已经确定出的状态预测结果的各字符即/>，输出/>字符的概率。当然，此时/>是确定语料库中各候选词的概率，并确定概率最高的候选词作为状态预测结果中的/>。/>和/>可视为是超参数提供对GRU输出结果加权以及增加偏执，可通过训练过程调整。

该第二评价值可采用公式：

确定。

其中，表示状态预测结果中第i个字符或者词，/>表示从第i-1到第i个字符组成的语句片段，/>表示该语句片段在图数据中使用频率，则评价函数为每个语句片段的评价值之和，/>表示基于一个语句片段确定评价值的函数。

于是，在该服务器以该第一评价值和该第二评价值最大为目标，确定加入该状态预测结果的候选词时，该服务器可采用目标函数，确定候选词。其中，M为加权权重可通过训练过程进行调整。

另外，在本说明书中，由于在自然语言处理领域中，不同场景下相同语句或者词所表达的含义会有差异，因此为了训练该对话状态识别模型时，该服务器还可以根据该对话状态识别模型应用场景，确定该应用场景中产生的历史对话，并生成训练样本。

或者，该服务器也可在解码层确定状态预测结果时，根据不同场景对应的语料库确定第二评价值和候选词。

具体的，该服务器可以根据该训练样本对应的场景，确定该场景对应的图数据。该图数据的节点为该场景中的实体词，该图数据中的边为该场景中实体词的关联关系。之后，根据该图数据中的各边，确定加入该候选词后该状态预测结果中，存在关联关系的词。

然后，从预设的各场景语料库中，确定该训练样本对应的场景语料库，作为目标语料库，并从该目标语料库中，确定各解码层输出额状态预测结果采用的候选词。

以上为本说明书的一个或多个实施例提供的对话状态识别模型的训练方法，基于同样的思路，本说明书还提供了相应的对话状态识别模型的训练装置，如图2所示。

图2为本说明书提供的对话状态识别模型的训练装置的结构示意图。其中：

数据获取模块200，从历史对话中确定单轮对话数据，并将所述历史对话中在所述单轮对话数据之前的对话数据，作为所述单轮对话数据的关联数据；

样本生成模块202，根据所述单轮对话数据以及所述关联数据，确定训练样本，以及确定所述历史对话中所述单轮对话数据的各参与方在预设的各状态维度上的标注，作为所述训练样本的标注；

编码模块204，将所述训练样本输入待训练的对话状态识别模型的编码层，确定编码特征；

解码模块206，将所述编码特征输入所述待训练的对话状态识别模型的各解码层，通过所述各解码层，确定所述单轮对话数据的各参与方在所述各状态维度上的状态预测结果；

训练模块208，根据各状态维度的状态预测结果以及所述训练样本在各状态维度上标注，确定所述训练样本对应的损失，并以损失最小为优化目标，对所述对话状态识别模型进行训练；其中，训练完成的所述对话状态识别模型用于基于对话参与方的对话数据识别所述对话参与方的状态。

可选的，样本生成模块202，用于针对所述单轮对话数据的每个参与方，根据所述历史对话整体内容，确定该参与方在所述单轮对话数据中各状态维度的标注，其中，所述状态维度至少包括：用户意图、用户目的、用户需求、用户反应、用户行为、用户属性中的至少一种。

可选的，样本生成模块202，用于确定所述单轮对话数据中，各参与方中的对话发起方以及对话响应方，根据所述历史对话整体内容，确定所述对话发起方在所述单轮对话数据对应的一轮对话中的用户意图、用户目的、用户需求、用户反应、用户行为、用户属性，根据所述历史对话整体内容，确定所述对话响应方在所述单轮对话数据对应的一轮对话中的用户目的、用户反应、用户行为。

可选的，数据获取模块200，用于按照预设的对话轮数，从所述历史对话中，确定在所述单轮对话数据之前所述对话轮数的对话数据，作为所述单轮对话数据的关联数据。

可选的，样本生成模块202，用于将所述单轮对话数据中对话发起方的对话数据以及所述关联数据，作为训练样本。

可选的，编码模块204，用于针对所述训练样本中的每个语句，确定该语句的语句结构，根据确定出的语句结构，进行分词处理，确定各分词对应的词向量，根据各分词在该语句中的顺序，确定该语句对应的句向量，将确定出的各语句对应的句向量，按照在所述历史对话中的排序，输入所述编码层，确定编码特征。

可选的，训练模块208，针对每个状态维度，根据该状态维度的状态预测结果以及所述训练样本在该状态维度上的标注的差异，确定子损失，根据各子损失确定总损失，作为所述训练样本对应的损失。

可选的，解码模块206，用于根据预设的语料库，确定所述状态预测结果的候选词，从所述候选词中，依次确定该状态维度的状态预测结果中的词，确定所述状态预测结果；

其中，所述状态预测结果中的词采用下述方法确定：

确定所述状态预测结果中已经确定的词，针对每个候选词，根据该词与所述状态预测结果中已经确定的词的句尾词的连接概率，确定该候选词的第一评价值，根据预设的包含实体词关联关系的图数据，确定加入该候选词后所述状态预测结果中存在关联关系的词，并根据存在关联关系的词，确定至少一个语句片段，根据评价函数确定语句片段的评分，确定该候选词的第二评价值，以所述第一评价值和所述第二评价值最大为目标，确定加入所述状态预测结果的候选词。

可选地，解码模块206，用于根据所述训练样本对应的场景，确定所述场景对应的图数据，其中，所述图数据的节点为所述场景中的实体词，所述图数据中的边为所述场景中实体词的关联关系，根据所述图数据中的各边，确定加入该候选词后所述状态预测结果中，存在关联关系的词。

可选的，解码模块206，用于从预设的各场景语料库中，确定所述训练样本对应的场景语料库，作为目标语料库，从所述目标语料库中，确定各解码层输出额状态预测结果采用的候选词。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的对话状态识别模型的训练方法。

本说明书还提供了图3所示的电子设备的示意结构图。如图3所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的对话状态识别模型的训练方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书是参照根据本说明书实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种对话状态识别模型的训练方法，其特征在于，所述对话状态识别模型为多任务学习模型，每个任务对应一个解码层，每个解码层用于输出不同的对话状态，所述方法包括：

根据所述单轮对话数据以及所述关联数据，确定训练样本，以及确定所述历史对话中所述单轮对话数据的各参与方在预设的各状态维度上的标注，作为所述训练样本的标注，所述状态维度至少包含语意维度；

根据各状态维度的状态预测结果以及所述训练样本在各状态维度上标注，确定所述训练样本对应的损失，并以损失最小为优化目标，对所述对话状态识别模型进行训练；其中，训练完成的所述对话状态识别模型用于基于对话参与方的对话数据识别所述对话参与方的状态，并根据所述对话参与方的状态确定输出语句；

其中，确定所述单轮对话数据的各参与方在所述各状态维度上的状态预测结果，具体包括：

根据预设的语料库，确定所述状态预测结果的候选词；从所述候选词中，确定所述状态预测结果中已经确定的词；针对每个候选词，根据该词与所述状态预测结果中已经确定的词的句尾词的连接概率，确定该候选词的第一评价值；根据预设的包含实体词关联关系的图数据，确定加入该候选词后所述状态预测结果中存在关联关系的词，并根据存在关联关系的词，确定至少一个语句片段；根据评价函数确定语句片段的评分，确定该候选词的第二评价值；以所述第一评价值和所述第二评价值最大为目标，确定加入所述状态预测结果的候选词；

根据公式，确定该候选词的第一评价值；其中，/>表示状态预测结果中第i个字符或者词，/>表示解码层传输的隐层特征，/>和/>是超参数，GRU表示解码器为双向门控循环网络；

根据公式，确定该候选词的第二评价值，其中，/>表示状态预测结果中第i个字符或者词，/>表示从第i-1到第i个字符组成的语句片段，/>表示该语句片段在图数据中使用频率，/>表示基于一个语句片段确定评价值的函数。

2.如权利要求1所述的方法，其特征在于，确定所述历史对话中所述单轮对话数据的各参与方在预设的各状态维度上的标注，具体包括：

针对所述单轮对话数据的每个参与方，根据所述历史对话整体内容，确定该参与方在所述单轮对话数据中各状态维度的标注；

3.如权利要求2所述的方法，其特征在于，针对所述单轮对话数据的每个参与方，根据所述历史对话整体内容，确定该参与方在所述单轮对话数据对应的一轮对话中各状态维度的标注，具体包括：

4.如权利要求1所述的方法，其特征在于，将所述历史对话中在所述单轮对话数据之前的对话数据，作为所述单轮对话数据的关联数据，具体包括：

5.如权利要求1或4所述的方法，其特征在于，根据所述单轮对话数据以及所述关联数据，确定训练样本，具体包括：

6.如权利要求1所述的方法，其特征在于，将所述训练样本输入待训练的对话状态识别模型的编码层，确定编码特征，具体包括：

针对所述训练样本中的每个语句，确定该语句的语句结构；

根据各分词在该语句中的顺序，确定该语句对应的句向量；

7.如权利要求1所述的方法，其特征在于，根据各状态维度的状态预测结果以及所述训练样本在各状态维度上标注，确定所述训练样本对应的损失，具体包括：

根据各子损失确定总损失，作为所述训练样本对应的损失。

8.如权利要求1所述的方法，其特征在于，根据预设的包含实体词关联关系的图数据，确定加入该候选词后所述状态预测结果中存在关联关系的词，具体包括：

9.如权利要求1所述的方法，其特征在于，根据预设的语料库，确定所述状态预测结果的候选词，具体包括：

10.一种对话状态识别模型的训练装置，其特征在于，所述对话状态识别模型为多任务学习模型，每个任务对应一个解码层，每个解码层用于输出不同的对话状态，所述装置包括：

训练模块，根据各状态维度的状态预测结果以及所述训练样本在各状态维度上标注，确定所述训练样本对应的损失，并以损失最小为优化目标，对所述对话状态识别模型进行训练；其中，训练完成的所述对话状态识别模型用于基于对话参与方的对话数据识别所述对话参与方的状态；

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~9任一项所述的方法。

12.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述权利要求1~9任一项所述的方法。