CN112418254A

CN112418254A - 情感识别方法、装置、设备及存储介质

Info

Publication number: CN112418254A
Application number: CN201910768953.5A
Authority: CN
Inventors: 向宇; 王喆
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2021-02-26

Abstract

本发明实施例提供了一种情感识别方法、装置、设备及存储介质，方法包括：获取对话数据；针对每个对话语句执行：提取目标对话语句的特征向量；提取特征向量的依赖关联信息，得到依赖关联特征向量，依赖关联信息包括，表示对话者双方的、且与目标对话语句相邻的对话语句之间的关联内容的第一信息，表示第一对话者的各对话语句之间的关联内容的第二信息，以及表示第一对话者的、且与目标对话语句相邻的对话语句之间的关联内容的第三信息三者中的至少两者信息，第一对话者为目标对话语句对应的说话者；对依赖关联特征向量进行情感识别，得到情感识别标签。本发明实施例所提供的情感识别方法、装置、设备及存储介质，可以提高情感识别的准确性。

Description

情感识别方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机领域，尤其涉及一种情感识别方法、装置、设备及存储介质。

背景技术

情感是人类对事物的一种反应，在人类决策处理、交互和认知过程中扮演着非常重要的角色。

随着人工智能技术的发展，情感识别越来越受到人们的重视，并且越来越多的领域需要利用情感识别的结果，比如：心理健康服务领域、儿童教育领域等等。

然而，现阶段的各种情感识别方法，所得到的情感识别的结果的准确性较低，从而也就影响了基于情感识别结果所产生的后续行为的准确性。

因此，如何提高情感识别的准确性，成为亟需解决的技术问题。

发明内容

本发明实施例解决的技术问题是提供一种情感识别方法、装置、设备及存储介质，以提高情感识别的准确性。

为解决上述问题，本发明实施例提供一种情感识别方法，包括：

获取待情感识别的对话数据；

针对所述对话数据中的每个对话语句，执行：

提取目标对话语句的特征向量；

提取所述特征向量的依赖关联信息，得到包含所述依赖关联信息的依赖关联特征向量，所述依赖关联信息包括，表示对话者双方的、且与所述目标对话语句相邻的对话语句之间的关联内容的第一信息，表示第一对话者的各对话语句之间的关联内容的第二信息，以及表示第一对话者的，且与所述目标对话语句相邻的对话语句之间的关联内容的第三信息三者中的至少两者信息，所述第一对话者为所述目标对话语句对应的说话者；

对所述依赖关联特征向量进行情感识别，得到对应于所述目标对话语句的情感识别标签。

为解决上述问题，本发明实施例还提供一种情感识别装置，包括：

对话数据获取单元，适于获取待情感识别的对话数据；

特征向量获取单元，适于针对所述对话数据中的每个对话语句，执行提取目标对话语句的特征向量；

依赖关联特征向量获取单元，适于针对所述对话数据中的每个对话语句，执行提取所述特征向量的依赖关联信息，得到包含所述依赖关联信息的依赖关联特征向量，所述依赖关联信息包括，表示对话者双方的、且与所述目标对话语句相邻的对话语句之间的关联内容的第一信息，表示第一对话者的各对话语句之间的关联内容的第二信息，以及表示第一对话者的，且与所述目标对话语句相邻的对话语句之间的关联内容的第三信息三者中的至少两者信息，所述第一对话者为所述目标对话语句对应的说话者；

情感识别标签获取单元，适于针对所述对话数据中的每个对话语句，执行对所述依赖关联特征向量进行情感识别，得到对应于所述目标对话语句的情感识别标签。

为解决上述问题，本发明实施例还提供一种存储介质，所述存储介质存储有适于情感识别的程序，以实现如前述的情感识别方法。

为解决上述问题，本发明实施例还提供一种设备，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如前述的情感识别方法。

与现有技术相比，本发明的技术方案具有以下优点：

本发明实施例所提供的情感识别方法，不仅获取了目标对话语句单个句子所具有的情感信息，而且获取了对话数据中的其他对话语句与待情感识别的目标对话语句的依赖关联信息，二者相互结合，进行目标对话语句的情感识别，使得对目标对话语句的情感识别不仅仅依赖于目标对话语句单个句子所具有的信息，而是同时获取了上下文之间的相关联信息，从而可以提高目标对话语句的情感识别的准确性，进而提高对话数据中各个对话语句的情感识别的准确性。

可选方案中，本发明实施例所提供的情感识别方法，不仅利用对话数据中的其他对话语句与待情感识别的对话语句的依赖关联信息，还利用对应于同一对话语句的文本依赖关联特征向量、音频依赖关联特征向量和视频依赖关联特征向量进行融合连接，在对该对话语句进行情感识别时，同时融合了文本中的信息、音频中的信息和视频中的信息，从文本、语音和视频三方面的信息共同实现情感的识别，从而可以进一步提高情感识别的准确性。

附图说明

图1是本发明实施例所提供的情感识别方法的一流程示意图；

图2为本发明实施例所提供的情感识别方法的获取依赖关联特征向量的步骤的流程示意图；

图3是本发明实施例所提供的情感识别装置的一框图；

图4是本发明实施例提供的设备一种可选硬件设备架构。

具体实施方式

现有技术中，在进行情感识别时，所得到的识别结果的准确性较差。

为了提高情感识别的准确性，本发明实施例提供了一种情感识别方法、装置、设备及存储介质，本发明实施例所提供的一种情感识别方法，包括：

获取待情感识别的对话数据；

针对所述对话数据中的每个对话语句，执行：

提取目标对话语句的特征向量；

这样，本发明实施例所提供的情感识别方法，不仅获取了目标对话语句单个句子所具有的情感信息，而且获取了对话数据中的其他对话语句与待情感识别的目标对话语句的依赖关联信息，二者相互结合，进行目标对话语句的情感识别，使得对目标对话语句的情感识别不仅仅依赖于目标对话语句单个句子所具有的信息，而是同时获取了上下文之间的相关联信息，从而可以提高目标对话语句的情感识别的准确性，进而提高目标对话语句的情感识别的准确性，从而提高对话数据中各个对话语句的情感识别的准确性。。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1是本发明实施例所提供的情感识别方法的一流程示意图。

如图中所示，本发明实施例所提供的情感识别方法包括以下步骤：

步骤S10：获取待情感识别的对话数据。

为实现对于情感的识别，首先需要获取待情感识别的对话数据，需要说明的是，本发明所述的对话数据是指两人对话的对话数据，比如：对话者双方分别为A和B，本发明所述的对话数据是指ABABAB……结构的对话语句数据。

当然，在一种具体实施方式中，可以仅包含一组对话，即仅包含AB对话语句。

另外，可以理解的是，对话数据的表现形式可以为文本形式、音频形式、也可以为视频形式，因此，对话数据可以包括对话文本数据、对话音频数据和对话面部表情视频数据中的至少一种，当涵盖至少两种类型的对话数据时，可以充分利用不同类型的对话数据，提高对情感识别的准确性。

本文所述的对话面部表情视频数据是指视频中包含了对话者的面部表情的对话数据，当然视频中还可以包含其他信息。

步骤S11：针对所述对话数据中的每个对话语句，执行：提取目标对话语句的特征向量。

得到对话数据中的各个对话语句后，为进行后续的运算，需要进一步对所述对话数据中的每个对话语句进行特征向量提取，得到各对话语句的特征向量。

为方便描述，将当前进行情感识别的对话语句称为目标对话语句。

具体地，当对话数据的类型为对话文本数据时，为保证特征向量提取的准确性，可以使用Bert模型进行特征向量的提取，进而得到语句文本特征向量，为方便描述以Vt表示，在一种具体实施方式中，向量Vt可以为768维的向量。

当然，为了实现对对话音频数据的情感识别，并保证特征向量提取的准确性，当对话数据的类型为对话音频数据时，可以使用Open Smile模型进行特征向量的提取，进而得到语句音频特征向量，为方便描述以Va表示，在一种具体实施方式中，向量Va可以为1584维的向量。

而当对话数据的类型为对话面部表情视频数据时，由于一个对话语句对应的视频数据可能为多个视频帧，为此，为了得到一个对话语句的语句视频特征向量，可以使用ResNet200中的CNN模型提取与某一个对话语句对应的视频数据中每一帧的特征向量，得到每帧特征向量Vvi，然后如果对应于一个对话语句的视频数据有n帧，那么最后得到的对应于该对话语句的语句视频特征向量为Vv＝(Vv1+Vv2+……+Vvn)/n。

在一种具体实施方式中，当对话数据包括对应于同一对话语句的对话文本数据、对话音频数据和对话面部表情视频数据中的至少2种时，经过步骤S11所得到的特征向量包括语句文本特征向量、语句音频特征向量和语句视频特征向量中的至少2种，并且与对话数据中所包含的类型相同。

经过步骤S11所得到特征向量，其中包含了多种类型的信息，有些有利于辅助进行情感的识别，有些则会对情感识别的准确性造成不利的影响。为此，对特征向量中包含的有利于辅助进行情感识别的信息进行提取。

步骤S12:针对所述对话数据中的每个对话语句，执行提取所述特征向量的依赖关联信息，得到包含所述依赖关联信息的依赖关联特征向量，所述依赖关联信息包括，表示对话者双方的、且与所述目标对话语句相邻的对话语句之间的关联内容的第一信息，表示第一对话者的各对话语句之间的关联内容的第二信息，以及表示第一对话者的，且与所述目标对话语句相邻的对话语句之间的关联内容的第三信息三者中的至少两者信息，所述第一对话者为所述目标对话语句对应的说话者。

为了实现对于情感识别的准确性，获取对应于目标对话语句的特征向量的依赖关联信息，得到包含依赖关联信息的依赖关联特征向量。

具体地，对话语句中的句子并非是完全独立的，在整个对话中，同一对话者的不同对话语句之间存在依赖关系，对话中的情感也会有持续作用，因此，本发明实施例所提供的情感识别方法，在基于特征向量获取情感识别信息时，所获取的信息包括依赖关联信息，具体依赖关联信息包括：表示对话者双方的、且与所述目标对话语句相邻的对话语句之间的关联内容的第一信息，表示第一对话者的各对话语句之间的关联内容的第二信息，以及表示第一对话者的，且与所述目标对话语句相邻的对话语句之间的关联内容的第三信息三者中的至少两者信息。

当然，依赖关联特征向量中除了包含前述三种信息中的至少两者信息外，还可以包含其他信息。

需要说明的是，目标对话语句是指各个对话语句中，当下要获取与其对应的依赖关联特征向量的对话语句。

为方便理解，在此以整个对话语句为“A1B1A2B2A3B3A4B4”，目标对话语句为A2为例，对前述的第一信息、第二信息和第三信息进行说明：

本文所述的表示对话者双方的、且与所述目标对话语句相邻的对话语句之间的关联内容的第一信息是指包含了A2和B2之间的关联内容的信息；

本文所述的表示第一对话者的各对话语句之间的关联内容的第二信息是指包含了A1、A2、A3和A4之间的关联内容的信息；

本文所述的表示第一对话者的、且与所述目标对话语句相邻的对话语句之间的关联内容的第三信息是指包含了A1和A2之间的关联内容和/或A2和A3之间的关联内容的信息。

具体地，为保证依赖关联特征向量的准确性，第一信息、第二信息和第三信息的获取可以通过以下方法实现：

请参考图2，图2为本发明实施例所提供的情感识别方法的获取依赖关联特征向量的步骤的流程示意图。

步骤S121：提取所述特征向量中的第一信息，得到包含未提取的所述第二信息和未提取的所述第三信息二者中的至少一者，和已提取的所述第一信息的第一依赖关联特征向量。

首先提取目标对话语句的特征向量中的第一信息，得到包含第一信息的第一依赖关联特征向量，当然，第一依赖关联特征向量中还包含未提取的第二信息和第三信息中的至少一者，为后续第二信息和第三信息二者中的一者的获取提供数据基础。

当然对应于目标对话语句的第一信息的提取可以以对话数据中的各个同一类型的特征向量为基础，即，当对话数据为对话文本数据，特征向量为语句文本特征向量时，将对话数据中与目标对话语句对应的语句文本特征向量带入第一信息提取模型，进而，获取到目标对话语句的包含第一信息的第一依赖关联特征向量。

当然，也可以将对话数据中与各个对话语句对应的各个语句文本特征向量带入第一信息提取模型，进而，同时获取到各个对话语句的包含第一信息的各个第一依赖关联特征向量。

在一种具体实施方式中，可以利用实现第一信息提取的神经网络模型(称为Inter-speakers Model)进行第一信息的提取，得到包含已提取的第一信息的第一依赖关联特征向量，具体地，Inter-speakers Model可以为基于注意力机制的Bi-LSTM神经网络(双向长短时记忆神经网络)。

当然，经过第一信息的提取得到与各个对话语句对应的第一依赖关联向量，但在第一信息提取时，Inter-speakers Model并非仅仅根据与目标对话语句对应的特征向量，还根据与其他的对话语句对应的特征向量，得到表示与目标对话语句相邻的对话者双方的对话语句之间的关联内容的第一信息，并在第一依赖关联向量中体现。

具体地，当对话数据的类型为对话文本数据时，所得到的特征向量为语句文本特征向量Vt，当然，每一句对话语句分别得到一个对应的语句文本特征向量Vt，利用Inter-speakers Model经过第一信息的提取，得到包含未提取的第二信息和第三信息中的二者中的一者，和已提取的第一信息的第一文本依赖关联特征向量。

当对话数据为对话音频数据时，所得到的特征向量为语句音频特征向量Va，每一句对话语句分别得到一个对应的语句文本特征向量Va，利用Inter-speakers Model经过第一信息的提取，得到包含未提取的第二信息和第三信息中的二者中的一者，和已提取的第一信息的第一音频依赖关联特征向量。

当对话数据为对话面部表情视频数据时，所得到的特征向量为语句音频特征向量Vv，当然，每一句对话语句分别得到一个对应的语句文本特征向量Vv，利用Inter-speakersModel经过第一信息的提取，得到包含未提取的第二信息和第三信息中的二者中的一者，和已提取的第一信息的第一视频依赖关联特征向量。

步骤S122：提取所述第一依赖关联特征向量中所包含的所述第二信息和所述第三信息二者中的至少一者，得到所述依赖关联特征向量。

得到第一依赖关联特征向量后，再进一步提取其中所包含的第二信息和第三信息二者中的至少一者，进而得到依赖关联特征向量。

可以理解的是，由于第一依赖关联特征向量中包含了第二信息和第三信息二者中的至少一者，因此，当第一依赖关联特征向量中包含了第二信息，则可以进行第二信息的提取，如果第一依赖关联特征向量中包含了第三信息，则可以进行第三信息的提取，如果第一依赖关联特征向量中既包含了第二信息又包含了第三信息，则可以进行第二信息的提取或第三信息的提取，或者同时进行第二信息和第三信息的提取，进而得到包含前述依赖关联信息的依赖关联特征向量。

当需要得到的依赖关联特征向量同时包含第二信息和第三信息时，为了保证最终情感识别的准确性，可以先进行第二信息的提取，再进行第三信息的提取。

为此，步骤S122可以包括：提取所述第一依赖关联特征向量中的第二信息，得到包含未提取的所述第三信息和已提取的所述第一信息和所述第二信息，与所述特征向量对应的第二依赖关联特征向量；

以及提取所述第二依赖关联特征向量中所包含的所述第三信息，得到所述依赖关联特征向量，所述依赖关联特征向量包含已提取的所述第一信息、第二信息和所述第三信息。

在一种具体实施方式中，为了实现对第一依赖关联特征向量进行第二信息的提取，可以利用实现第二信息提取的神经网络模型(称为Self-speakers Model)，得到包含已提取的第二信息的第二依赖关联特征向量，具体地，Self-speakers Model也可以为基于注意力机制的Bi-LSTM神经网络(双向长短时记忆神经网络)。

第二信息的提取，Self-speakers Model可以根据与目标对话语句对应的第一依赖关联特征向量得到表示第一对话者的对话语句之间的关联内容的第二信息，并在第二依赖关联向量中体现。

具体地，当对话数据的类型为对话文本数据时，所得到的特征向量为语句文本特征向量Vt，当然，每一句对话语句分别得到一个对应的语句文本特征向量Vt，利用Inter-speakers Model经过第一信息的提取，得到包含未提取的第二信息和第三信息中的二者中的一者，和已提取的第一信息的第一文本依赖关联特征向量，然后利用Self-speakersModel经过第二信息的提取，得到包含未提取的所述第三信息和已提取的所述第一信息和所述第二信息的第二文本依赖关联特征向量。

当对话数据为对话音频数据时，所得到的特征向量为语句音频特征向量Va，当然，每一句对话语句分别得到一个对应的语句文本特征向量Va，利用Inter-speakers Model经过第一信息的提取，得到包含未提取的第二信息和第三信息中的二者中的一者，和已提取的第一信息的第一音频依赖关联特征向量，然后利用Self-speakers Model经过第二信息的提取，得到包含未提取的所述第三信息和已提取的所述第一信息和所述第二信息的第二音频依赖关联特征向量。

当对话数据为对话面部表情视频数据时，所得到的特征向量为语句音频特征向量Vv，当然，每一句对话语句分别得到一个对应的语句文本特征向量Vv，利用Inter-speakersModel经过第一信息的提取，得到包含未提取的第二信息和第三信息中的二者中的一者，和已提取的第一信息的第一视频依赖关联特征向量然后利用Self-speakers Model经过第二信息的提取，得到包含未提取的所述第三信息和已提取的所述第一信息和所述第二信息的第二视频依赖关联特征向量。

在一种实施例中，为了保证第三信息的提取的准确性，进而确保情感识别的准确性，经过第一信息提取和第二信息的提取后，再进行第三信息的提取，当然，在其他实施例中，也可以仅在第一信息的提取或者仅第二信息的提取之后进行第三信息的提取。

而在另一种具体实施方式中，还可以基于特征向量直接进行第二信息的提取，进而进行第三信息的提取，得到包含已提取的第二信息和第三信息的依赖关联特征向量。

第三信息是基于与目标对话语句相邻的、目标对话语句对应的说话者所说的对话语句，因此对目标对话语句的情感识别准确性的影响会更大，为了实现包含第三信息的提取，则可以通过以下依赖关联特征向量神经网络进行：

其中：B--依赖关联特征向量；Z_s--不同情感标签相似度向量；W_P,W_s--权值向量；U_p,U_s—偏置向量；h—第一依赖关联特征向量或第二依赖关联特征向量。

经过训练可以得到前述公式中的权值向量W_P和W_s，以及偏置向量U_p和U_s，基于训练后的上述依赖关联特征向量神经网络，可以保证第三信息提取的准确性。

可以理解的是，当h为第一依赖关联特征向量，第一依赖关联特征向量为第一文本依赖关联特征向量时，所得到的依赖关联特征向量为文本依赖关联特征向量，第一依赖关联特征向量为第一音频依赖关联特征向量时，所得到的依赖关联特征向量为音频依赖关联特征向量，第一依赖关联特征向量为第一视频依赖关联特征向量时，所得到的依赖关联特征向量为视频依赖关联特征向量。

当h为第二依赖关联特征向量，第二依赖关联特征向量为第二文本依赖关联特征向量时，所得到的依赖关联特征向量为文本依赖关联特征向量，第二依赖关联特征向量为第二音频依赖关联特征向量时，所得到的依赖关联特征向量为音频依赖关联特征向量，第二依赖关联特征向量为第二视频依赖关联特征向量时，所得到的依赖关联特征向量为视频依赖关联特征向量。

当然，为了保证依赖关联特征向量获取的准确性，需要对前述的依赖关联特征向量神经网络进行训练，在训练过程中，可以利用已经获取的训练集，将训练集中的第一依赖关联特征向量或第二依赖关联特征向量带入前述依赖关联特征向量神经网络，得到依赖关联特征向量B，然后采用以下损失函数和训练集中的标准依赖关联特征向量y进行损失的计算：

Loss(y)＝Loss(z′_p，y)+Loss(z′_s，y)+Loss(z″_s，y)+Loss(z_s)

其中：

Loss(z_s)＝||max(0，(z′_s，j-σ))||₂

其中：

j--对应向量的第j维；σ，τ--可调变量；B--依赖关联特征向量；Zs--不同情感标签相似度向量；y—标准依赖关联特征向量；y_j—标准依赖关联特征向量的第j维。

在一种具体实施方式中，可调变量σ可以取0.9，可调变量τ可以取2。

其中，j为对应向量的第j维是指，当向量为Zs时，Z_s，j即为向量Zs的第j维，当然Zs为一个单行向量或者单列向量；类似地，当向量为Zs’时，z′_s，j即为向量Zs’的第j维。

可以理解的是，在另一种具体实施方式中，还可以仅提取第二信息和第三信息，具体为：首先提取所述特征向量中的第二信息，得到包含未提取的所述第三信息和已提取的所述第二信息的第三依赖关联特征向量；

利用前述网络提取所述第三依赖关联特征向量中所包含的所述第三信息，得到所述依赖关联特征向量。

步骤S13：针对所述对话数据中的每个对话语句，执行：对所述依赖关联特征向量进行情感识别，得到对应于所述目标对话语句的情感识别标签。

得到依赖关联特征向量后，就可以对依赖关联特征向量进行情感识别，进而得到对应于目标对话语句的情感识别标签。

可以理解的是，在完成对话数据中的每个对话语句的情感识别后，所得到的情感识别标签的数量与对话语句的数量相等。

可以看出，本发明实施例所提供的情感识别方法，不仅获取了目标对话语句单个句子所具有的情感信息，而且获取了对话数据中的其他对话语句与待情感识别的目标对话语句的依赖关联信息，二者相互结合，进行目标对话语句的情感识别，使得对目标对话语句的情感识别不仅仅依赖于目标对话语句单个句子所具有的信息，而是同时获取了上下文之间的相关联信息，从而可以提高目标对话语句的情感识别的准确性，进而可以提高对话数据中各个对话语句的情感识别的准确性。

当然，在另一种具体实施方式中，为了保证最终情感识别结果的准确性，在步骤S12之后，可以包括：

对所述依赖关联特征向量进行至少一层非线性变换运算，获取非线性变换特征向量。

具体地，可以利用以下公式对所述依赖关联特征向量进行至少一层非线性变换运算：

B_i＝tanh(W_i·B_i-1+p_i)

其中：B_i--第i层非线性变换特征向量；B_i-1--第i-1层非线性变换特征向量；W_i--第i层权值向量；p_i--第i层偏执向量；tanh函数—双曲正切函数。

当然，非线性变换运算的次数越多，准确性相对越高，但是所需要的预算次数越多，为此，经过反复实现验证，确定可以设置非线性变换的次数为2次，以更好的提取特征，且保证较强的泛化能力：

网络第一层输入为[B]，输出为[B1]，具体处理过程为：

B₁＝tanh(W₁·B+p₁)

网络第一层输入为[B1]，输出为[B2]，具体处理过程为：

B₂＝tanh(W₂·B₁+p₂)

当然，当依赖关联特征向量为文本依赖关联特征向量时，所得到的非线性变换特征向量为文本非线性变换特征向量，当依赖关联特征向量为音频依赖关联特征向量时，所得到的非线性变换特征向量为音频非线性变换特征向量，依赖关联特征向量为视频依赖关联特征向量时，所得到的非线性变换特征向量为视频非线性变换特征向量，其中，文本非线性变换特征向量可以通过如下公式获取：

B_t，i＝tanh(W_t，i·B_t，i-1+p_t，i)

其中：B_t，i--第i层文本非线性变换特征向量；B_t，i-1--第i-1层文本非线性变换特征向量；W_t，i--第i层文本权值向量；p_t，i--第i层文本偏执向量。

音频非线性变换特征向量可以通过如下公式获取：

B_a，i＝tanh(W_a，i·B_a，i-1+p_a，i)；

其中：B_a，i--第i层音频非线性变换特征向量；B_a，i-1--第i-1层音频非线性变换特征向量；W_a，i--第i层音频权值向量；p_a，i--第i层音频偏执向量。

视频非线性变换特征向量可以通过如下公式获取：

B_v，i＝tanh(W_v，i·B_v，i-1+p_v，i)

其中：B_v，i--第i层视频非线性变换特征向量；B_v，i-1--第i-1层视频非线性变换特征向量；W_v，i--第i层视频权值向量；p_v，i--第i层视频偏执向量。

上述各个权值向量和偏执向量均可以在非线性变换的网络模型训练时获取，以保证非线性变换的准确性。

可以理解的是，基于对话数据的类型，可以获取相应的非线性变换特征向量，当对话数据的类型为至少2者时，在对所述依赖关联特征向量进行情感识别，得到对应于所述对话语句的情感识别标签的步骤之前还包括：

对对应于目标对话语句的所述文本非线性变换特征向量、所述音频非线性变换特征向量和所述视频非线性变换特征向量中的至少2者进行融合连接，得到融合特征向量，当然非线性变换特征向量的具体类型与对话数据的具体类型相对应。

在一种具体实施方式中，对话数据包括对话文本数据、对话音频数据和对话面部表情视频数据，所述特征向量包括与所述对话文本数据对应的语句文本特征向量、与所述音频数据对应的语句音频特征向量、和与所述对话面部表情视频数据对应的语句视频特征向量，所述依赖关联特征向量包括文本依赖关联特征向量、音频依赖关联特征向量和视频依赖关联特征向量，所述非线性变换特征向量包括文本非线性变换特征向量、音频非线性变换特征向量和视频非线性变换特征向量；这样，所述对所述依赖关联特征向量进行情感识别，得到对应于所述目标对话语句的情感识别标签的步骤之前还包括：

对对应于目标对话语句的所述文本非线性变换特征向量、所述音频非线性变换特征向量和所述视频非线性变换特征向量进行融合连接，得到融合特征向量；

而步骤S13则为对所述融合特征向量进行情感识别，得到对应于所述对话语句的情感识别标签。

这样本发明实施例所提供的情感识别方法，不仅利用对话数据中的其他对话语句与待情感识别的对话语句的依赖关联信息，还利用对应于同一目标对话语句的文本依赖关联特征向量、音频依赖关联特征向量和视频依赖关联特征向量进行融合连接，在对该对话语句进行情感识别时，同时融合了文本中的信息、音频中的信息和视频中的信息，从文本、语音和视频三方面的信息共同实现情感的识别，从而可以进一步提高情感识别的准确性。

具体地，可以采用以下公式进行融合连接，获取融合特征向量：

其中：B_t，i--第i层文本非线性变换特征向量；B_a，i--第i层音频非线性变换特征向量；B_v，i--第i层视频非线性变换特征向量；∑_{m＝t，a，v}B_m，i--第i层各非线性变换特征向量之和。

当然，当仅有两种对话数据时，融合特征向量可以只通过其中的两者获取。

可以看出利用上述公式进行融合连接时，对对应于同一目标对话语句的文本依赖关联特征向量、音频依赖关联特征向量和视频依赖关联特征向量进行权重计算，与权重相乘以后，再进行相加，即可得到融合特征向量。

在一种具体实施方式中，得到融合特征向量后，利用以下公式对所述融合特征向量进行情感识别，得到对应于所述目标对话语句的情感识别标签：

p＝argmax(R)

其中，R—融合特征向量；argmax函数为一种分类函数，进而可以实现对情感的分类。

下面对本发明实施例提供的情感识别装置进行介绍，下文描述的情感识别装置可以认为是，电子设备(如：PC)为分别实现本发明实施例提供的情感识别方法所需设置的功能模块架构。下文描述的情感识别装置的内容，可分别与上文描述的情感识别方法的内容相互对应参照。

图3是本发明实施例所提供的情感识别装置的一框图，该情感识别装置即可应用于客户端，也可应用于服务器端，参考图3，该情感识别装置可以包括：

对话数据获取单元100，适于获取待情感识别的对话数据；

特征向量获取单元110，适于针对所述对话数据中的每个对话语句，执行提取目标对话语句的特征向量；

依赖关联特征向量获取单元120，适于针对所述对话数据中的每个对话语句，执行提取所述特征向量的依赖关联信息，得到包含所述依赖关联信息的依赖关联特征向量，所述依赖关联信息包括，表示对话者双方的、且与所述目标对话语句相邻的对话语句之间的关联内容的第一信息，表示第一对话者的各对话语句之间的关联内容的第二信息，以及表示第一对话者的，且与所述目标对话语句相邻的对话语句之间的关联内容的第三信息三者中的至少两者信息，所述第一对话者为所述目标对话语句对应的说话者；

情感识别标签获取单元130，适于针对所述对话数据中的每个对话语句，执行对所述依赖关联特征向量进行情感识别，得到对应于所述目标对话语句的情感识别标签。

通过对话数据获取单元100得到对话数据中的各个对话语句后，对每个对话语句执行后续的操作，需要进一步利用特征向量获取单元110将对话数据的各对话语句进行特征向量提取，得到各对话语句的特征向量，对每个对话语句而言即提取目标对话语句的特征向量。

在一种具体实施方式中，当对话数据包括对应于同一对话语句的对话文本数据、对话音频数据和对话面部表情视频数据中的至少2种时，经过特征向量获取单元110所得到的特征向量包括语句文本特征向量、语句音频特征向量和语句视频特征向量中的至少2种，并且与对话数据中所包含的类型相同。

经过特征向量获取单元110所得到的特征向量中包含了多种类型的信息，有些有利于辅助进行情感的识别，有些则会对情感识别的准确性造成不利的影响。为此，利用依赖关联特征向量获取单元120对特征向量中包含的信息进行提取。

具体地，对话语句中的句子并非是完全独立的，在整个对话中，同一对话者的不同对话语句之间存在依赖关系，对话中的情感也会有持续作用，因此，本发明实施例所提供的情感识别方法，在基于特征向量获取情感识别信息时，所获取的信息包括依赖关联信息，具体依赖关联信息包括：表示对话者双方的、且与所述目标对话语句相邻的对话语句之间的关联内容的第一信息，表示第一对话者的各对话语句之间的关联内容的第二信息，以及表示第一对话者的，且与所述目标对话语句相邻的对话语句之间的关联内容的第三信息三者中的至少两者信息，所述第一对话者为所述目标对话语句对应的说话者。

当然，依赖特征向量中处理包含前述三种信息中的至少两者信息外，还可以包含其他信息。

本文所述的表示与目标对话语句相邻的对话者双方的对话语句之间的关联内容的第一信息是指包含了A2和B2之间的关联内容的信息；

本文所述的表示与所述目标对话语句的对话者相同的各对话语句之间的关联内容的第二信息是指包含了A1、A2、A3和A4之间的关联内容的信息；

本文所述的表示与所述目标对话语句的对话者相同的相邻对话语句之间的关联内容的第三信息是指包含了A1和A2之间的关联内容和/或A2和A3之间的关联内容的信息。

依赖关联特征向量获取单元120，适于针对所述对话数据中的每个对话语句，执行提取所述特征向量的依赖关联信息，得到包含所述依赖关联信息的依赖关联特征向量，具体可以包括：

提取所述特征向量中的第一信息，得到包含未提取的所述第二信息和未提取的所述第三信息二者中的至少一者，和已提取的所述第一信息的与所述特征向量对应的第一依赖关联特征向量；

提取所述第一依赖关联特征向量中所包含的所述第二信息和所述第三信息二者中的至少一者，得到所述依赖关联特征向量。

在另一种具体实施方式中，依赖关联特征向量获取单元120，适于提取所述特征向量的依赖关联信息，得到包含所述依赖关联信息的依赖关联特征向量，具体还可以包括：

提取所述第一依赖关联特征向量中的第二信息，得到包含未提取的所述第三信息和已提取的所述第一信息和所述第二信息，与所述特征向量对应的各第二依赖关联特征向量；

提取所述第二依赖关联特征向量中所包含的所述第三信息，得到所述依赖关联特征向量，所述依赖关联特征向量包含已提取的所述第二信息和所述第三信息。

当然，在另一具体实施例中，依赖关联特征向量获取单元120，适于提取所述特征向量的依赖关联信息，得到包含所述依赖关联信息的依赖关联特征向量，具体还可以包括：

提取所述特征向量中的第二信息，得到包含未提取的所述第三信息和已提取的所述第二信息的第三依赖关联特征向量；

提取所述第三依赖关联特征向量中所包含的所述第三信息，得到所述依赖关联特征向量。

当然，经过第一信息的提取得到第一依赖关联向量，但在第一信息提取时，Inter-speakers Model并非仅仅根据与目标对话语句对应的特征向量，还根据与其他的对话语句对应的特征向量，得到表示表示对话者双方的、且与所述目标对话语句相邻的对话语句之间的关联内容的第一信息，并在第一依赖关联向量中体现。

当对话数据的类型为对话音频数据或对话面部表情视频数据时，与对话数据的类型为对话文本数据时类似，在此不再赘述。

第二信息的提取，Self-speakers Model可以只根据与目标对话语句对应的第一依赖关联特征向量，还可以根据与其他的对话语句对应的第一依赖关联特征向量，得到表示与所述目标对话语句的对话者相同的各对话语句之间的关联内容的第二信息，并在第二依赖关联向量中体现。

为了实现包含第三信息的提取，则可以通过以下依赖关联特征向量神经网络进行：

经过训练的上述依赖关联特征向量神经网络，可以保证第三信息提取的准确性。可以理解的是，当h为第一依赖关联特征向量，第一依赖关联特征向量为第一文本依赖关联特征向量时，所得到的依赖关联特征向量为文本依赖关联特征向量，第一依赖关联特征向量为第一音频依赖关联特征向量时，所得到的依赖关联特征向量为音频依赖关联特征向量，第一依赖关联特征向量为第一视频依赖关联特征向量时，所得到的依赖关联特征向量为视频依赖关联特征向量。

当然，为了保证依赖关联特征向量获取的准确性，需要对前述的依赖关联特征向量神经网络进行训练，在训练过程中，可以利用已经获取的训练集，将训练集中的第一依赖关联特征向量或第二依赖关联特征向量带入前述依赖关联特征向量神经网络，得到依赖关联特征向量B，然后采用上述方法实施例中损失函数和训练集中的标准依赖关联特征向量y的计算公式进行损失的计算。

而当依赖关联特征向量获取单元120仅提取第二信息和第三信息时，前述h为第三依赖关联特征向量。得到各依赖关联特征向量后，情感识别标签获取单元130就可以对依赖关联特征向量进行情感识别，进而得到对应于目标对话语句的情感识别标签。可以理解的是，情感识别标签的数量与对话语句的数量相等。

可以看出，本发明实施例所提供的情感识别装置，不仅获取了目标对话语句单个句子所具有的情感信息，而且获取了对话数据中的其他对话语句与待情感识别的目标对话语句的依赖关联信息，二者相互结合，进行目标对话语句的情感识别，使得对目标对话语句的情感识别不仅仅依赖于目标对话语句单个句子所具有的信息，而是同时获取了上下文之间的相关联信息，从而可以提高对话数据中各个对话语句的情感识别的准确性。

为了进一步保证最终情感识别结果的准确性，还可以包括：

非线性变换特征向量获取单元140，适于对所述依赖关联特征向量进行至少一层非线性变换运算，获取非线性变换特征向量。

B_i＝tanh(W_i·B_i-1+p_i)

其中：B_i--第i层非线性变换特征向量；B_i-1--第i-1层非线性变换特征向量；W_i--第i层权值向量；p_i--第i层偏执向量；tanh函数-双曲正切函数。

网络第一层输入为[B]，输出为[B1]，具体处理过程为：

B₁＝tanh(W₁·B+p₁)

网络第一层输入为[B1]，输出为[B2]，具体处理过程为：

B₂＝tanh(W₂·B₁+p₂)

而当对话数据的类型为至少2者时，在情感识别标签获取单元130对所述依赖关联特征向量进行情感识别，得到对应于目标对话语句的情感识别标签之前还包括：

融合特征向量获取单元150，适于对对应于同一对话语句的所述文本非线性变换特征向量、所述音频非线性变换特征向量和所述视频非线性变换特征向量中的至少2者进行融合连接，得到融合特征向量，当然非线性变换特征向量的具体类型与对话数据的具体类型相对应。

在一种具体实施方式中，对话数据包括相互对应的对话文本数据、对话音频数据和对话面部表情视频数据，所述特征向量包括与所述对话文本数据对应的语句文本特征向量、与所述音频数据对应的语句音频特征向量、和与所述对话面部表情视频数据对应的语句视频特征向量，所述依赖关联特征向量包括文本依赖关联特征向量、音频依赖关联特征向量和视频依赖关联特征向量，所述非线性变换特征向量包括文本非线性变换特征向量、音频非线性变换特征向量和视频非线性变换特征向量；这样，所述对所述依赖关联特征向量进行情感识别，得到对应于所述目标对话语句的情感识别标签的步骤之前还包括：

对对应于目标对话语句的所述文本非线性变换特征向量、所述音频非线性变换特征向量和所述视频非线性变换特征向量进行融合连接，得到融合特征向量。

在一种具体实施方式中，得到融合特征向量后，利用以下公式对所述融合特征向量进行情感识别，得到对应于各所述对话语句的情感识别标签：

p＝argmax(R)

其中，R—融合特征向量。

这样本发明实施例所提供的情感识别装置，不仅利用对话数据中的其他对话语句与待情感识别的对话语句的依赖关联信息，还利用对应于同一对话语句的文本依赖关联特征向量、音频依赖关联特征向量和视频依赖关联特征向量进行融合连接，在对该对话语句进行情感识别时，同时融合了文本中的信息、音频中的信息和视频中的信息，从文本、语音和视频三方面的信息共同实现情感的识别，从而可以进一步提高情感识别的准确性。

当然，本发明实施例还提供一种装备，本发明实施例提供的设备可以通过程序形式装载上述所述的程序模块架构，以实现本发明实施例提供的情感识别方法；该硬件设备可以应用于具体数据处理能力的电子设备，该电子设备可以为：例如终端设备或者服务器设备。

可选的，图4示出了本发明实施例提供的设备一种可选硬件设备架构，可以包括：至少一个存储器3和至少一个处理器1；所述存储器存储有程序，所述处理器调用所述程序，以执行前述的情感识别方法，另外，至少一个通信接口2和至少一个通信总线4；处理器1和存储器3可以位于同一电子设备，例如处理器1和存储器3可以位于服务器设备或者终端设备；处理器1和存储器3也可以位于不同的电子设备。

作为本发明实施例公开内容的一种可选实现，存储器3可以存储程序，处理器1可调用所述程序，以执行本发明上述实施例提供的情感识别方法。

本发明实施例中，电子设备可以是能够进行情感识别的平板电脑、笔记本电脑等设备。

在本发明实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；显然，图4所示的处理器1、通信接口2、存储器3和通信总线4的通信连接示意仅是可选的一种方式；

可选的，通信接口2可以为通信模块的接口，如GSM模块的接口；

处理器1可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

需要说明的是，上述的实现终端设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出)；本发明实施例对此不进行逐一介绍。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有可执行指令，当该指令被处理器执行时可以实现如上所述情感识别方法。

本发明实施例所提供的存储介质所存储的计算机可执行指令，当实现情感识别方法时，不仅获取目标对话语句单个句子所具有的情感信息，而且获取了对话数据中的其他对话语句与待情感识别的目标对话语句的依赖关联信息，二者相互结合，进行目标对话语句的情感识别，使得对目标对话语句的情感识别不仅仅依赖于目标对话语句单个句子所具有的信息，而是同时获取了上下文之间的相关联信息，从而可以提高对话数据中各个对话语句的情感识别的准确性。

本发明的实施方式可通过例如硬件、固件、软件或其组合的各种手段来实现。在硬件配置方式中，根据本发明示例性实施方式的方法可通过一个或更多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等来实现。

在固件或软件配置方式中，本发明的实施方式可以模块、过程、功能等形式实现。软件代码可存储在存储器单元中并由处理器执行。存储器单元位于处理器的内部或外部，并可经由各种己知手段向处理器发送数据以及从处理器接收数据。虽然本发明实施例披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种变动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种情感识别方法，其特征在于，包括：

获取待情感识别的对话数据；

针对所述对话数据中的每个对话语句，执行：

提取目标对话语句的特征向量；

2.如权利要求1所述的情感识别方法，其特征在于，所述提取所述特征向量的依赖关联信息，得到包含所述依赖关联信息的依赖关联特征向量的步骤包括：

提取所述特征向量中的第一信息，得到包含未提取的所述第二信息和未提取的所述第三信息二者中的至少一者，和已提取的所述第一信息的第一依赖关联特征向量；

3.如权利要求2所述的情感识别方法，其特征在于，所述提取所述第一依赖关联特征向量中所包含的所述第二信息和所述第三信息二者中的至少一者，得到所述依赖关联特征向量的步骤包括：

提取所述第一依赖关联特征向量中的第二信息，得到包含未提取的所述第三信息和已提取的所述第一信息和所述第二信息的第二依赖关联特征向量；

提取所述第二依赖关联特征向量中所包含的所述第三信息，得到所述依赖关联特征向量，所述依赖关联特征向量包含已提取的所述第一信息、第二信息和所述第三信息。

4.如权利要求3所述的情感识别方法，其特征在于，包含已提取的所述第三信息的所述依赖关联特征向量通过以下依赖关联特征向量神经网络获取：

5.如权利要求4所述的情感识别方法，其特征在于，利用以下损失函数对所述依赖关联特征向量神经网络进行训练：

Loss(y)＝Loss(z′_p,y)+Loss(z′_s,y)+Loss(z″_s,y)+Loss(z_s)

其中：

Loss(z_s)＝||max(0，(z′_s，j-σ))||₂

其中：

σ,τ--可调变量；j--对应向量的第j维；B--依赖关联特征向量；Z_s--不同情感标签相似度向量；y—标准依赖关联特征向量；y_j—标准依赖关联特征向量的第j维。

6.如权利要求1-5任一项所述的情感识别方法，其特征在于，所述提取所述特征向量的依赖关联信息，得到包含所述依赖关联信息的依赖关联特征向量的步骤之后，还包括：

对所述依赖关联特征向量进行至少一层非线性变换运算，获取非线性变换特征向量；

所述对所述依赖关联特征向量进行情感识别，得到对应于所述目标对话语句的情感识别标签的步骤包括：

对所述非线性变换特征向量进行情感识别，得到对应于所述目标对话语句的情感识别标签。

7.如权利要求6所述的情感识别方法，其特征在于，所述对所述依赖关联特征向量进行至少一层非线性变换运算，获取非线性变换特征向量的步骤包括：

利用以下公式对所述依赖关联特征向量进行至少一层非线性变换运算：

B_i＝tanh(W_i·B_i-1+p_i)

其中：B_i--第i层非线性变化的输出；B_i-1--第i-1层非线性变化的输出；W_i--第i层权值向量；p_i--第i层偏执向量。

8.如权利要求6所述的情感识别方法，其特征在于，所述对话数据包括对话文本数据、对话音频数据和对话面部表情视频数据，所述特征向量包括与所述对话文本数据对应的语句文本特征向量、与所述音频数据对应的语句音频特征向量、和与所述对话面部表情视频数据对应的语句视频特征向量，所述依赖关联特征向量包括文本依赖关联特征向量、音频依赖关联特征向量和视频依赖关联特征向量，所述非线性变换特征向量包括文本非线性变换特征向量、音频非线性变换特征向量和视频非线性变换特征向量；

所述对所述依赖关联特征向量进行情感识别，得到对应于所述目标对话语句的情感识别标签的步骤之前还包括：

对所述融合特征向量进行情感识别，得到对应于所述目标对话语句的情感识别标签。

9.如权利要求8所述的情感识别方法，其特征在于，所述对对应于目标对话语句的所述文本非线性变换特征向量、所述音频非线性变换特征向量和所述视频非线性变换特征向量进行融合连接，得到融合特征向量的步骤包括：

利用以下公式对对应于目标对话语句的所述文本非线性变换特征向量、所述音频非线性变换特征向量和所述视频非线性变换特征向量进行融合连接，得到融合特征向量：

10.如权利要求9所述的情感识别方法，其特征在于，所述对所述融合特征向量进行情感识别，得到对应于所述目标对话语句的情感识别标签的步骤包括：

利用以下公式对所述融合特征向量进行情感识别，得到对应于所述目标对话语句的情感识别标签：

p＝argmax(R)

其中，R—融合特征向量。

11.一种情感识别装置，其特征在于，包括：

对话数据获取单元，适于获取待情感识别的对话数据；

12.一种存储介质，其特征在于，所述存储介质存储有适于情感的程序，以实现如权利要求1-10任一项所述的情感识别方法。

13.一种设备，其特征在于，包括至少一个存储器和至少一个处理器；所述存储器存储有程序，所述处理器调用所述程序，以执行如权利要求1-10任一项所述的情感识别方法。