CN113297366B

CN113297366B - 多轮对话的情绪识别模型训练方法、装置、设备及介质

Info

Publication number: CN113297366B
Application number: CN202110694285.3A
Authority: CN
Inventors: 陆凯
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2023-05-30
Anticipated expiration: 2041-06-22
Also published as: CN113297366A

Abstract

本发明涉及分类模型的技术领域，揭露了一种多轮对话的情绪识别模型训练方法、装置、设备及介质。本发明提供的方法包括：获取包含多个情绪标注的预设对话训练文本；将预设对话训练文本分成第一训练组和第二训练组；根据第一训练组生成语义符号序列、说话人序列和token type序列；将语义符号序列、说话人序列和token type序列全部输入至Bert模型后，得到输出的整体语义向量和位置语义向量；根据第二训练组、整体语义向量和位置语义向量计算总损失值，根据总损失值更新Bert模型的参数，若更新参数后的Bert模型对应的总损失值小于或等于目标总损失值，将更新参数后的Bert模型记录为情绪识别模型。本发明能够在不同说话人的多轮对话中精准识别出对话句的情绪类别。

Description

多轮对话的情绪识别模型训练方法、装置、设备及介质

技术领域

本发明涉及分类模型的技术领域，尤其揭露了一种多轮对话的情绪识别模型训练方法、装置、设备及介质。

背景技术

目前，在对话中区分不同说话人的信息，对于与该对话相关的下游任务是很重要的，例如，在情绪识别的过程中，一个人的情绪自己往往具有连贯性，而自己的情绪也容易受到对方的影响，如A在对话中的情绪是消极，而对方B是积极，那么A在后续对话中，情绪可能会变的积极，因此在情绪识别模型的建模过程中，对说话人的对话进行语义理解且区分不同说话人的信息是非常重要的。

现有技术中，可以训练BERT模型来作为情绪识别模型，其中，BERT模型是在普通文本上做的预训练，但普通文本中的句子和对话中的句子有着明显的不同，两者主要的不同之处在于对话中的句子是由不同的说话人说出的，此时需要区分不同说话人的信息，而普通的文本不需要考虑不同说话人的信息。因此普通文本根本实现不了连续性对话中的情绪识别。

同时，一个对话中往往有两个及以上的说话人参与，但现有的BERT模型不具备区分不同说话人的能力，使得现有的BERT模型在用于对话相关的任务时存在明显缺陷问题：不能对不同说话人的信息进行建模，进而不能区分不同说话人的信息，且对情绪识别造成一定的影响。因此本领域人员亟需寻找一种新的技术方案来实现不同说话人在多轮对话中的情绪识别。

发明内容

基于此，有必要针对上述技术问题，提供一种多轮对话的情绪识别模型训练方法、装置、设备及介质，能够在不同说话人参与的多轮对话中精确识别出对话句的情绪类别。

一种多轮对话的情绪识别模型训练方法，包括：

获取包含多个情绪标注的预设对话训练文本；所述预设对话训练文本为多轮对话中生成的具有上下文关系的对话句；

按照预设分组规则将所述预设对话训练文本分成第一训练组和第二训练组；

对所述第一训练组中的文本划分序列得到语义符号序列、说话人序列和tokentype序列；

将所述第一训练组的语义符号序列、说话人序列和token type序列全部输入至Bert模型后，得到所述第一训练组的整体语义向量和位置语义向量；

根据所述第二训练组、所述第一训练组的整体语义向量和位置语义向量计算总损失值，根据总损失值与目标总损失值之间的差值关系更新所述Bert模型的参数，若更新参数后的Bert模型对应的总损失值小于或等于所述目标总损失值，将更新参数后的Bert模型记录为已训练成功的情绪识别模型。

一种多轮对话的情绪识别模型训练装置，包括：

获取模块，用于获取包含多个情绪标注的预设对话训练文本；所述预设对话训练文本为多轮对话中生成的具有上下文关系的对话句；

分组模块，用于按照预设分组规则将所述预设对话训练文本分成第一训练组和第二训练组；

生成模块，用于对所述第一训练组中的文本划分序列得到语义符号序列、说话人序列和token type序列；

输入模块，用于将所述第一训练组的语义符号序列、说话人序列和token type序列全部输入至Bert模型后，得到所述第一训练组的整体语义向量和位置语义向量；

记录模块，用于根据所述第二训练组、所述第一训练组的整体语义向量和位置语义向量计算总损失值，根据总损失值与目标总损失值之间的差值关系更新所述Bert模型的参数，若更新参数后的Bert模型对应的总损失值小于或等于所述目标总损失值，将更新参数后的Bert模型记录为已训练成功的情绪识别模型。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述多轮对话的情绪识别模型训练方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述多轮对话的情绪识别模型训练方法。

上述多轮对话的情绪识别模型训练方法、装置、设备及介质，基于Bert模型训练成功的情绪识别模型可用于与对话相关的下游任务的使用(如情绪识别)，且该情绪识别模型可以增强对于对话的语义理解的能力，能够在模型输入层中区分对话过程中不同的说话人，在上述前提下，可以实现将每一个对话句都与说话人进行绑定，进而区分出每一个说话人说过的文本内容(也即说话人说过的对话句)，如此，结合识别到的说话人和说话人的文本内容，能够在不同说话人参与的多轮对话中精确识别出待预测句子的情绪类别(包括受到对方对话影响之后的继续进行的对话的情绪类别)。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中多轮对话的情绪识别模型训练方法的一应用环境示意图；

图2是本发明一实施例中多轮对话的情绪识别模型训练方法的一流程图；

图3是本发明一实施例中多轮对话的情绪识别模型训练装置的结构示意图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的多轮对话的情绪识别模型训练方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，客户端可以包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种多轮对话的情绪识别模型训练方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10，获取包含多个情绪标注的预设对话训练文本；所述预设对话训练文本为多轮对话中生成的具有上下文关系的对话句；

可理解地，预设对话训练文本是不同说话人在多轮对话中所形成的文本内容(也即可理解为对话句)，每一次训练可只获取至少两个人说话人多轮对话后的预设对话训练文本，与多轮对话的预设对比训练文本无关的对话文本可在下一次训练单独进行处理，如有两个说话人，分别为A和B，此时，若A只和B进行对话，A和B之间的之间形成如“早”和“早啊”等文本内容或对话句，此时预设对话训练文本只有A和B的多轮对话的文本内容，不包括其他说话人C和D的文本内容；预设对话训练文本中存在多个对话句，每一个对话句都被预先标注出粗粒度情绪标注和细粒度情绪标注，其中，细粒度情绪标注相比于粗粒度情绪标注将会更具体，如上述所述的“早”和“早啊”，此时的粗粒度情绪标注为中性，而细粒度情绪标注为平和；具体例子如下图表1所示：

序号	说话人	对话句	粗粒度情绪标注	细粒度情绪标注
					1	A	早。	中性	平和
2	B	早啊。	中性	平和
					3	A	今天真倒霉，来的时候车被蹭了。	消极	抱怨
4	B	哦，那太倒霉了。	消极	难过
					5	A	唉。	消极	难过
6	B	你猜怎么着？	中性	平和
					7	A	啥？	中性	好奇
8	B	我的论文被接收了！	积极	兴奋
					9	A	是吗，让我看看。	积极	兴奋

表1

S20，按照预设分组规则将所述预设对话训练文本分成第一训练组和第二训练组；

可理解地，第一训练组包括待预测句子、待预测句子的说话人信息、上下文和上下文的说话人列表；第二训练组包括待预测句子的粗粒度情绪标注和待预测句子的细粒度情绪标注，其中，第二预设组与情绪标注存在直接的关联关系；预设分组关系是根据预设对话训练文本的结构进行划分的，如上述表1中的序号、说话人、对话句、粗粒度情绪标注以及细粒度情绪标注；其中，上述中的预设对话训练文本存在关系列表，其具体组成为：记录所述预设对话训练文本中的对话句列表为SN；记录所述说话人的说话人列表为PN；记录所述情绪标记结果中的粗粒度情绪标注列表为BN；记录所述情绪标记结果中的细粒度情绪标注列表为XN；通过所述的SN、PN、BN和XN组成具有关系列表的所述预设对话训练文本，其中，N为上述列表中的序号；第一训练组和第二训练组可按照特定的序号被获取到，因此需预先对第二训练组合第二训练组标记序号，具体序号为：1、待预测句子，待预测句子序号为k，1<＝k<＝N，待预测句子为Sk，假设k＝9，此时获取到的待预测句子Sk为“是吗，让我看看。”；2、待预测句子的说话人信息为Pk，假设K＝9，此时获取到的Pk为A；3、待预测句子的粗粒度情绪标注Bk，假设k＝9，此时获取到的BK为积极；4、待预测句子的细粒度情绪标注Xk，假设k＝9，此时获取到的XK为兴奋；5、上下文的长度为可调节参数L(正整数)，表示训练的模型能表示前面L个句子，当k>L，上下文为[Sk-L，Sk-L+1，…，Sk-1]，k<＝L时，上下文为[S1，S2，…，Sk-1]，假设L＝3，此时获取到的上下文为[“你猜怎么着？”，“啥？”，“我的论文被接受了！”]；6、当k>L，上下文的说话人列表为[Pk-L，Pk-L+1，…，Pk-1]，k<＝L时，上下文的说话人列表为为[P1，P2，…，Pk-1]，假设L＝3，此时的上下文的说话人列表为[B，A，B]。

S30，对所述第一训练组中的文本划分序列得到语义符号序列、说话人序列和token type序列；

可理解地，语义符号序列是指表1的各个对话句中的语义符号所形成的序列，其中，语义符号序列包括预设开头语义符号[CLS]、预设结尾语义符号[SEP]和各个对话句中的语义符号(词语，如表1中的“是”和“吗”等)，另外，对语义符号序列进行随机遮盖处理后，得到掩码后的语义符号序列以及表2中以是否掩码所构成的序列；说话人序列是指表1各个说话人所形成的序列，每一个说话人都对应一个说话人符号；token type序列是以0或1所组成的序列，其中，待预测部分对应的token type为0，上下文部分对应的token type为1；具体例子如下图表2所示：

表2

S40，将所述第一训练组的语义符号序列、说话人序列和token type序列全部输入至Bert模型后，得到所述第一训练组的整体语义向量和位置语义向量；

可理解地，bert模型全称是Bidirectional Encoder Representation fromTransformers，即双向Transformer的Encoder；整体语义向量和位置语义向量都是根据bert模型中的embedding和transformer来实现。

S50，根据所述第二训练组、所述第一训练组的整体语义向量和位置语义向量计算总损失值，根据总损失值与目标总损失值之间的差值关系更新所述Bert模型的参数，若更新参数后的Bert模型对应的总损失值小于或等于所述目标总损失值，将更新参数后的Bert模型记录为已训练成功的情绪识别模型。

可理解地，总损失值是根据第一损失值、第二损失值和第三损失值确定，第一损失值和第二损失值与整体语义向量和第二训练组关联；第三损失值与位置语义向量和掩码位置向量关联；总损失值是损失函数算出来，更新梯度函数可得到更新的参数，其中更新的过程中涉及到Bert模型的学习效率。

在本申请中，上述多轮对话的情绪识别模型训练方法、装置、设备及介质，基于Bert模型训练成功的情绪识别模型可用于与对话相关的下游任务的使用(如情绪识别)，且该情绪识别模型可以增强对于对话的语义理解的能力，能够在模型中区分对话过程中不同的说话人，在上述前提下，可以实现将每一个对话句都与说话人进行绑定，进而区分出每一个说话人说过的文本内容(也即说话人说过的对话句)，如此，结合识别到的说话人和说话人的文本内容，能够在不同说话人参与的多轮对话中精确识别出待预测句子的情绪类别(包括受到对方对话影响之后的继续进行的对话的情绪类别)。另外本方案在模型训练的过程中，未引入额外的参数进行训练(常见的情绪模型在训练过程中，多是调整模型结构，分别对每一个说话人说的对话句进行建模，然后再做融合，融合过程中需要引入新的参数)，因此训练完成后的情绪识别模型的训练速度和推理速度将会更快。

进一步地，所述第一训练组包括待预测句子、待预测句子的说话人信息、上下文和上下文的说话人列表；所述对所述第一训练组中的文本划分序列得到语义符号序列和说话人序列，包括：

根据预设开头语义符号和预设结尾语义符号分别对所述待预测句子开头位置和结尾位置进行分割；

根据所述预设结尾语义符号对所述上下文的开头位置和结尾位置进行分割；

将所述待预测句子和所述上下文的对话句中除开头位置和结尾位置之外的位置作为词语位置，将所述词语位置对应的词语确定为语义符号；

根据所述预设开头语义符号、预设结尾语义符号和确定的语义符号生成语义符号序列；所述待预测句子和所述上下文的对话句中都存在所述开头位置、结尾位置以及所述词语位置，每一个所述词语位置对应一个所述词语；所述上下文中包括多个对话句；

获取所述待预测句子的说话人信息和所述上下文的说话人列表，根据所述说话人信息和所述上下文的说话人列表在所述待预测句子和所述上下文的对话句中的每一个词语位置、开头位置和结尾位置标记说话人符号，并将所述说话人符号构成的序列作为所述说话人序列。

可理解地，上述预设对话训练文本包含多个对话句，因此根据预设对话训练文本划分的上下文也存在多个对话句，但此时的上下文不包含待预测句子所对应的对话句；预设开头语义符号安放在待预测句子的开头位置(如表3中的位置0)，预设结尾语义符号安放在待预测句子的结尾位置(如表3中的位置9)以及其他上下文对话句的开头位置和结尾位置(如表3中的位置9、16、19和29，可作为一个对话句的开头位置，也可作为另一个对话句的结尾位置)，且预设开头语义符号用[CLS]表示，预设结尾语义符号用[SEP]表示；语义符号序列是由预设开头语义符号、预设结尾语义符号以及其他词语对应的语义符号(如表3中的1-8等)组成的序列，语义符号序列开头为[CLS]，然后为待预测句子，经过一个[SEP]分隔，后面为[SEP]分割的上下文(包含多个除待预测句子的对话句)，最后使用[SEP]结尾，主要结构为[CLS]待预测句子[SEP]上下文[SEP]，如[CLS]是吗，让我看看。[SEP]你猜怎么着？[SEP]啥？[SEP]我的论文被接受了！[SEP]；说话人序列是由不同对话句的说话人符号组成的序列，对话句包括待预测句子和上下文的对话句，说话人符号来源于待预测句子的说话人信息和上下文说话人列表；待预测句子的说话人信息用于表示说话人的身份信息，待预测句子的说话人信息是以说话人符号来表示(如表3中的位置0-8)，说话人列表是以上下文中各个对话句的说话人符号来表示(如表3中的位置9-29)，其中，说话人序列包括待预测句子和上下文说话人列表中开头位置、结尾位置和词语位置的说话人符号(另外，待预测句子的结尾位置是与上下文中的第一个对话句的开头位置进行重叠，因此待预测句子结尾位置和上下文中的第一个对话句的开头位置的说话人符号是相同的，其他位置按此情况进行确定；一个待预测句子和上下文中的属于一个对话句中的各个位置的说话人符号是完全一致的)，具体如表3所示：

表3

进一步地，所述对所述第一训练组中的文本划分序列得到token type序列，包括：

随机选取一个所述第一训练组中的待预测句子作为目标待预测句子，将所述目标待预测句子中所有词语位置、开头位置和结束位置对应的语义符号作为待预测部分，并将所述待预测部分对应的token type设置为第一序列值；

选取上下文中的对话句，并将所述对话句中所有词语位置、开头位置和结尾位置的语义符号作为参考部分，并将所述参考部分对应的token type设置为第二序列值；

将所述第一序列值和第二序列值构成的序列作为所述token type序列。

可理解地，如表2所示，将待预测句子的token type设置为第一序列值(如表2中的0-8)，而上下文中的token type设置的第二序列值(如表2中的9-29)，其中，第一序列值为0，第二序列值为1，具体地，将待预测部分和参考部分的词语位置、开头位置和结尾位置的第一序列值和第二序列值构成的序列作为token type序列。

进一步地，所述将所述第一训练组的语义符号序列、说话人序列和token type序列全部输入至Bert模型后，得到所述第一训练组的整体语义向量和位置语义向量，包括：

将所述语义符号序列、说话人序列和token type序列输入至所述Bert模型中的embedding层后，获取所述预设对话训练文本中每一个位置编码的embedding序列、语义符号序列的embedding序列、说话人序列的embedding序列和token type序列的embedding序列；

通过预设公式对所述语义符号序列的embedding序列，说话人序列的embedding序列和token type序列的embedding序列进行数学运算后，获取所述Bert模型中整个embedding层的总序列；所述预设公式为：

E_total＝E_token+E_person+E_tokentype+E_position

其中，E_total为总序列；E_token为所述语义符号序列的embedding序列；E_person为所述说话人序列的embedding序列；E_tokentype为token type序列的embedding序列；E_position为所述词语位置的embedding序列；

对所述总序列进行归一化处理，将归一化后的总序列输入至所述Bert模型中预设层数的transformer层后，得到transformer层输出的所述整体语义向量和每个位置的位置语义向量。

可理解地，位置编码是指待预测句子和上下文列表中的开头位置、结尾位置和词语位置的位置号码(如表2和表3的0-9等)；bert相当于一个抽取器，输入词序列后，可得到embedding序列；transformer层中的预设层数为12层，transformer层由编码器和解码器组成，且编码器和解码器都是基于attention机制；通过BERT模型的LayerNormalization(简称LN)对总序列中的各个值进行归一化处理(主要目的是为了标准化)，以使模型更容易收敛，且提高计算精度等。

进一步地，所述将归一化后的E_total输入至所述Bert模型中预设层数的transformer后，得到transformer输出的所述整体语义向量，包括：

根据所有词语位置对应的语义向量确定平均语义向量和最大语义向量；

在所述bert模型中，根据归一化的所述总序列获取待预测句子的开头位置的语义向量、语义向量的平均语义向量和最大语义向量；

根据开头位置的语义向量、平均语义向量和最大语义向量组成所述整体语义向量。

可理解地，上述提到的词语位置包括待预测句子和上下文中的所有对话句的词语位置。平均语义向量是根据所有语义向量所求出的平均向量，最大语义向量是从所有语义向量确定出最大向量值的向量。

进一步地，所述将归一化后的E_total输入至所述Bert模型中预设层数的transformer后，得到transformer输出的每个位置的位置语义向量，包括：

在所述bert模型中，根据归一化的所述总序列获取开头位置、结尾位置和所有词语位置的语义向量，并根据待预测句子或对话句的长度和语义向量的大小确定上述三个位置的所述位置语义向量。

可理解地，经过bert模型处理后，待预测句子和上下文中的对话句的三个位置都可以用一个L*H的向量进行表示，待预测句子或对话句的长度为L，每个位置的语义向量的大小为H。

进一步地，所述第二训练组还包括待预测句子的粗粒度情绪标注和待预测句子的细粒度情绪标注；所述根据所述第二训练组、所述第一训练组的整体语义向量和位置语义向量计算总损失值，包括：

搭建以单层dense layer+softmax函数组成的粗粒度情绪识别分类模型，将所述整体语义向量输入至所述粗粒度情绪识别任务分类模型后，得到所述粗粒度情绪识别分类模型输出的粗粒度情绪的概率分布，并将所述粗粒度情绪的概率分布的最大概率作为第一损失值；所述整体语义向量关联所述待预测句子的粗粒度情绪标注；所述粗粒度情绪识别任务分类模型是由作为学习标签的待预测句子和上下文中对话句中的粗粒度情绪标注训练而成；

搭建以单层dense layer+softmax函数组成的细粒度情绪识别分类模型，将所述整体语义向量输入至所述细粒度情绪识别任务分类模型后，得到所述细粒度情绪识别分类模型输出的细粒度情绪的概率分布，并将所述细粒度情绪的概率分布的最大概率作为第二损失值；所述整体语义向量关联所述待预测句子的细粒度情绪标注；所述细粒度情绪识别任务分类模型是由作为学习标签的待预测句子和上下文中对话句中的细粒度情绪标注学习训练而成；

根据生成的所述语义符号序列生成掩码序列，通过所述掩码序列从所述位置语义向量中确定被掩码的掩码位置向量，将所述掩码位置向量和所述位置语义向量输入至bert模型设置的预训练任务Masked LM中，得到Masked LM输出的第三损失值；

通过所述第一损失值、第二损失值和第三损失值组成所述总损失值。

可理解地，预训练由三部分loss(损失值)组成，一个是细粒度情绪识别任务的loss，第二个是粗粒度情感识别任务的loss、第三个是masked LM的loss，三部分是同时进行学习训练；在粗粒度情绪识别分类模型中，根据粗粒度情绪的概率分布和实际待预测句子的粗粒度情绪标注得到最对应的第一损失值；在细粒度情绪识别分类模型中，根据细粒度情绪的概率分布和实际待预测句子的的细粒度情绪标注得到最对应的第二损失值；在Masked LM中，计算位置语义向量与预设词表中的每个词语的相似度，根据相似度计算概率分布，根据概率分布和实际词语计算第三损失值。

进一步地，所述根据生成的所述语义符号序列生成掩码序列，包括：

将所述语义符号序列输入至bert模型中设置的masked LM进行随机遮盖，得到所述masked LM输出的所述掩码序列。

可理解地，随机选取语义符号序列中的一些语义符号，并将其替换为特定符号[MASK]，得到掩码序列(表2中的是否掩码可看出是否替换了特定符号，如位置4、22和23)，如[CLS]是吗，让[MASK]看看。[SEP]你猜怎么着？[SEP]啥？[SEP]我的[MASK][MASK]被接受了！[SEP]

在一实施例中，使用训练成功的情绪识别模型进行情绪类别的识别，具体过程如下：

获取用户的对话文本后，根所述对比文本划分用户上下文、需要识别情绪的句子以及对话人；

根据所述用户上下文、需要识别情绪的句子以及对话人分别生成用户语义符号序列、用户token type序列和对话人符号序列；

将所述用户语义符号序列、用户token type序列和对话符号序列输入至所述情绪识别模型后，得到用户整体语义向量；

将所述用户整体语义向量输入至所述情绪识别模型后，得到情绪预测概率分布；

将所述情绪预测概率分布最大的情绪类别确定为所述用户的情绪类别。

综上所述，上述提供了一种多轮对话的情绪识别模型训练方法，上述多轮对话的情绪识别模型训练方法、装置、设备及介质，基于Bert模型训练成功的情绪识别模型可用于与对话相关的下游任务的使用(如情绪识别)，且该情绪识别模型可以增强对于对话的语义理解的能力，能够在模型中区分对话过程中不同的说话人，在上述前提下，可以实现将每一个对话句都与说话人进行绑定，进而区分出每一个说话人说过的文本内容(也即说话人说过的对话句)，如此，结合识别到的说话人和说话人的文本内容，能够在不同说话人参与的多轮对话中精确识别出待预测句子的情绪类别(包括受到对方对话影响之后的继续进行的对话的情绪类别)。另外本方案在模型训练的过程中，未引入额外的参数进行训练(常见的情绪模型在训练过程中，多是调整模型结构，分别对每一个说话人说的对话句进行建模，然后再做融合，融合过程中需要引入新的参数)，因此训练完成后的情绪识别模型的训练速度和推理速度将会更快。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种多轮对话的情绪识别模型训练装置，该多轮对话的情绪识别模型训练装置与上述实施例中多轮对话的情绪识别模型训练方法一一对应。如图3所示，该多轮对话的情绪识别模型训练装置包括获取模块11、分组模块12、生成模块13、输入模块14和记录模块15。各功能模块详细说明如下：

获取模块11，用于获取包含多个情绪标注的预设对话训练文本；所述预设对话训练文本为多轮对话中生成的具有上下文关系的对话句；

分组模块12，用于按照预设分组规则将所述预设对话训练文本分成第一训练组和第二训练组；

生成模块13，用于对所述第一训练组中的文本划分序列得到语义符号序列、说话人序列和token type序列；

输入模块14，用于将所述第一训练组的语义符号序列、说话人序列和token type序列全部输入至Bert模型后，得到所述第一训练组的整体语义向量和位置语义向量；

记录模块15，用于根据所述第二训练组、所述第一训练组的整体语义向量和位置语义向量计算总损失值，根据总损失值与目标总损失值之间的差值关系更新所述Bert模型的参数，若更新参数后的Bert模型对应的总损失值小于或等于所述目标总损失值，将更新参数后的Bert模型记录为已训练成功的情绪识别模型。

进一步地，所述生成模块包括：

第一分割子模块，用于根据预设开头语义符号和预设结尾语义符号分别对所述待预测句子开头位置和结尾位置进行分割；

第二分割子模块，用于根据所述预设结尾语义符号对所述上下文的开头位置和结尾位置进行分割；

第二确定子模块，用于将所述待预测句子和所述上下文的对话句中除开头位置和结尾位置之外的位置作为词语位置，将所述词语位置对应的词语确定为语义符号；

生成子模块，用于根据所述预设开头语义符号、预设结尾语义符号和确定的语义符号生成语义符号序列；

第一构成子模块，用于获取所述待预测句子的说话人信息和所述上下文的说话人列表，根据所述说话人信息和所述上下文的说话人列表在所述待预测句子和所述上下文的对话句中的每一个词语位置、开头位置和结尾位置标记说话人符号，并根据所述说话人符号构成的序列作为所述说话人序列。

进一步地，所述生成模块包括：

第一设置子模块，用于随机选取一个所述第一训练组中的待预测句子作为目标待预测句子，将所述目标待预测句子中所有词语位置、开头位置和结束位置对应的语义符号作为待预测部分，并将所述待预测部分对应的token type设置为第一序列值；

第二设置子模块，用于选取所述上下文中的对话句，并将所述对话句中所有词语位置、开头位置和结尾位置的语义符号作为参考部分，并将所述参考部分对应的tokentype设置为第二序列值；

第二构成子模块，用于将所述第一序列值和第二序列值构成的序列作为所述token type序列。

进一步地，所述输入模块包括：

第一获取子模块，用于将所述语义符号序列、说话人序列和token type序列输入至所述Bert模型中的embedding层后，获取所述预设对话训练文本中每一个位置编码的embedding序列、语义符号序列的embedding序列、说话人序列的embedding序列和tokentype序列的embedding序列；

第二获取子模块，用于通过预设公式对所述语义符号序列的embedding序列，说话人序列的embedding序列和token type序列的embedding序列进行数学运算后，获取所述Bert模型中整个embedding层的总序列；所述预设公式为：

E_total＝E_token+E_person+E_tokentype+E_position

输入子模块，用于对所述总序列进行归一化处理，将归一化后的总序列输入至所述Bert模型中预设层数的transformer层后，得到transformer层输出的所述整体语义向量和每个位置的位置语义向量。

进一步地，所述输入子模块还包括：

第一确定单元，用于根据所有词语位置对应的语义向量确定平均语义向量和最大语义向量；

获取单元，用于在所述bert模型中，根据归一化的所述总序列获取待预测句子的开头位置的语义向量、平均语义向量和最大语义向量；

组成单元，用于根据开头位置的语义向量、平均语义向量和最大语义向量组成所述整体语义向量。

进一步地，所述输入子模块还包括：

第二确定单元，包括在所述bert模型中，根据归一化的所述总序列获取开头位置、结尾位置和所有词语位置的语义向量，并根据待预测句子或对话句的长度和语义向量的大小确定上述三个位置的所述位置语义向量。

进一步地，所述记录模块包括：

第一搭建子模块，用于搭建以单层dense layer+softmax函数组成的粗粒度情绪识别分类模型，将所述整体语义向量输入至所述粗粒度情绪识别任务分类模型后，得到所述粗粒度情绪识别分类模型输出的粗粒度情绪的概率分布，并将所述粗粒度情绪的概率分布的最大概率作为第一损失值；所述整体语义向量关联所述待预测句子的粗粒度情绪标注；所述粗粒度情绪识别任务分类模型是由作为学习标签的待预测句子和上下文中对话句中的粗粒度情绪标注训练而成；

第二搭建子模块，用于搭建以单层dense layer+softmax函数组成的细粒度情绪识别分类模型，将所述整体语义向量输入至所述细粒度情绪识别任务分类模型后，得到所述细粒度情绪识别分类模型输出的细粒度情绪的概率分布，并将所述细粒度情绪的概率分布的最大概率作为第二损失值；所述整体语义向量关联所述待预测句子的细粒度情绪标注；所述细粒度情绪识别任务分类模型是由作为学习标签的待预测句子和上下文中对话句中的细粒度情绪标注学习训练而成；

第一确定子模块，用于根据生成的所述语义符号序列生成掩码序列，通过所述掩码序列从所述位置语义向量中确定被掩码的掩码位置向量，将所述掩码位置向量和所述位置语义向量输入至bert模型设置的预训练任务Masked LM中，得到Masked LM输出的第三损失值；

组成子模块，用于通过所述第一损失值、第二损失值和第三损失值组成所述总损失值。

关于多轮对话的情绪识别模型训练装置的具体限定可以参见上文中对于多轮对话的情绪识别模型训练方法的限定，在此不再赘述。上述多轮对话的情绪识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储多轮对话的情绪识别模型训练方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多轮对话的情绪识别模型训练方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中多轮对话的情绪识别模型训练方法的步骤，例如图2所示的步骤S10至步骤S50。或者，处理器执行计算机程序时实现上述实施例中多轮对话的情绪识别模型训练装置的各模块/单元的功能，例如图3所示模块11至模块15的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中多轮对话的情绪识别模型训练方法的步骤，例如图2所示的步骤S10至步骤S50。或者，计算机程序被处理器执行时实现上述实施例中多轮对话的情绪识别模型训练装置的各模块/单元的功能，例如图3所示模块11至模块15的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种多轮对话的情绪识别模型训练方法，其特征在于，包括：

对所述第一训练组中的文本划分序列得到语义符号序列、说话人序列和token type序列；所述第一训练组包括待预测句子、待预测句子的说话人信息、上下文和上下文的说话人列表；

所述对所述第一训练组中的文本划分序列得到语义符号序列和说话人序列，包括：

根据所述预设开头语义符号、预设结尾语义符号和确定的语义符号生成语义符号序列；

获取所述待预测句子的说话人信息和所述上下文的说话人列表，根据所述说话人信息和所述上下文的说话人列表在所述待预测句子和所述上下文的对话句中的每一个词语位置、开头位置和结尾位置标记说话人符号，并将所述说话人符号构成的序列作为所述说话人序列；

2.根据权利要求1所述的多轮对话的情绪识别模型训练方法，其特征在于，所述对所述第一训练组中的文本划分序列得到token type序列，包括：

选取所述上下文中的对话句，并将所述对话句中所有词语位置、开头位置和结尾位置的语义符号作为参考部分，并将所述参考部分对应的token type设置为第二序列值；

3.根据权利要求1所述的多轮对话的情绪识别模型训练方法，其特征在于，所述将所述第一训练组的语义符号序列、说话人序列和token type序列全部输入至Bert模型后，得到所述第一训练组的整体语义向量和位置语义向量，包括：

E_total＝E_token+E_person+E_tokentype+E_position

其中，E_total为总序列；E_token为所述语义符号序列的embedding序列；E_person为所述说话人序列的embedding序列；E_tokentype为token type序列的embedding序列；E_position为词语位置的embedding序列；

4.根据权利要求3所述的多轮对话的情绪识别模型训练方法，其特征在于，将归一化后的E_total输入至所述Bert模型中预设层数的transformer后，得到transformer输出的所述整体语义向量，包括：

在所述Bert模型中，根据归一化的所述总序列获取待预测句子的开头位置的语义向量，平均语义向量和最大语义向量；

5.根据权利要求3所述的多轮对话的情绪识别模型训练方法，其特征在于，将归一化后的E_total输入至所述Bert模型中预设层数的transformer后，得到transformer输出的每个位置的位置语义向量，包括：

6.根据权利要求1所述的多轮对话的情绪识别模型训练方法，其特征在于，所述第二训练组还包括待预测句子的粗粒度情绪标注和待预测句子的细粒度情绪标注；所述根据所述第二训练组、所述第一训练组的整体语义向量和位置语义向量计算总损失值，包括：

7.一种多轮对话的情绪识别模型训练装置，其特征在于，包括：

生成模块，用于对所述第一训练组中的文本划分序列得到语义符号序列、说话人序列和token type序列；所述第一训练组包括待预测句子、待预测句子的说话人信息、上下文和上下文的说话人列表；

8.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述多轮对话的情绪识别模型训练方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述多轮对话的情绪识别模型训练方法。