CN112233698B

CN112233698B - 人物情绪识别方法、装置、终端设备及存储介质

Info

Publication number: CN112233698B
Application number: CN202011074185.2A
Authority: CN
Inventors: 毛宇兆; 高维国; 李炫�
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2023-07-25
Anticipated expiration: 2040-10-09
Also published as: CN112233698A

Abstract

本申请适用于人工智能技术领域，提供了一种人物情绪识别方法、装置、终端设备及存储介质，该方法包括：获取多个时刻下的多种待识别信息；从多个时刻下的多种待识别信息中，提取当前时刻下的多种识别信息，并从多种识别信息中提取多种识别特征；将多种识别特征输入至预设的时序模型中，得到多种时序特征；融合多种时序特征得到融合特征，并根据融合特征识别当前时刻下目标人物的情绪。通过上述方法可得到当前时刻下目标人物的多模态信息的融合特征，进而在根据融合特征识别当前时刻下目标人物的情绪时，可提高对目标人物情绪识别的准确率。同时，本申请还涉及区块链技术，可将情绪识别结果上传至区块链中进行存储。

Description

人物情绪识别方法、装置、终端设备及存储介质

技术领域

本申请属于人工智能技术领域，尤其涉及一种人物情绪识别方法、装置、终端设备及存储介质。

背景技术

目前，对当前时刻下人物的情绪进行识别的方法，通常单独从文本角度，或音频角度，或视频角度进行模型训练，根据训练模型进行情绪识别。然而，对于任一文本、音频以及视频使用相关训练数据进行模型训练，其得到的训练模型在进行情绪识别时的准确率低。因此，现有技术中情绪识别模型的识别手段单一，其情绪识别的准确率低。

发明内容

本申请实施例提供了一种人物情绪识别方法、装置、终端设备及存储介质，可以解决现有技术中情绪识别模型的识别手段单一，情绪识别的准确率低的问题。

第一方面，本申请实施例提供了一种人物情绪识别方法，包括：

获取多个时刻下的多种待识别信息，所述多种待识别信息包括文本信息、音频文件以及视频图像；

从所述多个时刻下的多种待识别信息中，提取当前时刻下的多种识别信息，并从所述多种识别信息中提取多种识别特征；

将所述多种识别特征输入至预设的时序模型中，得到多种时序特征；

融合所述多种时序特征得到融合特征，并根据所述融合特征识别所述当前时刻下目标人物的情绪。

在一实施例中，所述从所述多个时刻下的多种待识别信息中，提取当前时刻下的多种识别信息，并从所述多种识别信息中提取多种识别特征，包括：

从所述多个时刻下的文本信息中，提取所述目标人物对应的目标文本信息，并确定所述目标文本信息的文本长度；所述多个时刻下的文本信息包括多个人物之间进行对话生成的文本信息，所述多个人物包括所述目标人物；

确定所述目标文本信息中，属于所述目标人物在当前时刻下的第一文本；

根据所述目标文本信息及其文本长度、所述第一文本，提取所述第一文本的第一文本特征。

在一实施例中，所述预设的时序模型包括预设的第一时序模型，所述将所述多种识别特征输入至预设的时序模型中，得到多种时序特征，包括：

获取在所述多个时刻下所述目标人物在所述当前时刻之前对应的多个第二文本，并提取所述多个第二文本的多个第二文本特征；

获取在所述多个时刻下非目标人物在所述当前时刻之前对应的多个第三文本，并提取所述多个第三文本的多个第三文本特征；

将所述第一文本特征、所述多个第二文本特征以及所述多个第三文本特征输入至预设的第一时序模型中，得到时序文本特征。

在一实施例中，所述融合特征包括第一融合特征、第二融合特征以及第三融合特征；所述多种时序特征还包括时序音频特征和时序图像特征，所述时序音频特征和所述时序图像特征由所述第一时序模型通过对当前时刻下的所述音频文件以及视频图像进行处理得到；

所述融合所述多种时序特征得到融合特征，包括：

融合所述时序文本特征和所述时序音频特征，得到第一融合特征，融合所述时序文本特征和所述时序图像特征，得到第二融合特征，融合所述时序音频特征和所述时序图像特征，得到第三融合特征。

在一实施例中，所述融合特征包括第一融合特征、第二融合特征以及第三融合特征；所述多种时序特征还包括时序音频特征和时序图像特征；

所述融合所述多种时序特征得到融合特征，包括：

获取所述时序文本特征对应的文本权重值，获取所述时序音频特征对应的音频权重值以及获取所述时序图像特征对应的图像权重值；

根据所述时序文本特征、所述文本权重值、所述时序音频特征以及所述音频权重值，计算所述第一融合特征的第一融合权重值，根据所述时序文本特征、所述文本权重值、所述时序图像特征以及所述图像权重值，计算所述第二融合特征的第二融合权重值，以及根据所述时序音频特征、所述音频权重值、所述时序图像特征以及所述图像权重值，计算所述第三融合特征的第三融合权重值；

基于所述第一融合权重值、所述时序文本特征、以及所述时序音频特征得到第一融合特征，基于所述第二融合权重值、所述时序文本特征、以及所述时序图像特征得到第二融合特征，以及基于所述第三融合权重值、所述时序音频特征、以及所述时序图像特征得到第三融合特征。

在一实施例中，所述预设的时序模型还包括预设的第二时序模型，所述根据所述融合特征识别所述当前时刻下目标人物的情绪，包括：

将所述当前时刻下的所述第一融合特征、所述第二融合特征以及所述第三融合特征，输入至第二时序模型中，获得目标融合特征；

根据所述目标融合特征识别所述当前时刻下的目标人物的情绪。

在一实施例中，在根据所述融合特征识别所述当前时刻下目标人物的情绪之后，还包括：

将所述当前时刻下目标人物的情绪识别结果上传至区块链中。

第二方面，本申请实施例提供了一种人物情绪识别装置，包括：

获取模块，用于获取多个时刻下的多种待识别信息，所述多种待识别信息包括文本信息、音频文件以及视频图像；

提取模块，用于从所述多个时刻下的多种待识别信息中，提取当前时刻下的多种识别信息，并从所述多种识别信息中提取多种识别特征；

输入模块，用于将所述多种识别特征输入至预设的时序模型中，得到多种时序特征；

识别模块，用于融合所述多种时序特征得到融合特征，并根据所述融合特征识别所述当前时刻下目标人物的情绪。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一项所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的方法。

在本申请实施例中，通过获取多个时刻下的文本信息、音频文件以及视频图像，并提取当前时刻下的多种识别特征，如文本特征、音频特征以及图像特征，将其输入至预设的时序模型中，由时序模型结合多种识别特征进行处理，对应得到多种时序特征，且对多种时序特征再次进行融合处理得到融合特征，进而可根据多模态信息的融合特征，在根据融合特征识别当前时刻下目标人物的情绪时，可提高对目标人物情绪识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种人物情绪识别方法的实现流程图；

图2是本申请一实施例提供的一种人物情绪识别方法的S102的一种实现方式示意图；

图3是本申请一实施例提供的一种人物情绪识别方法的S103的一种实现方式示意图；

图4是本申请一实施例提供的一种人物情绪识别方法的S104的一种实现方式示意图；

图5是本申请又一实施例提供的一种人物情绪识别方法的S104的一种实现方式示意图；

图6是本申请实施例提供的一种人物情绪识别装置的结构框图；

图7是本申请实施例提供的一种终端设备的结构框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请实施例提供的人物情绪识别方法可以应用于手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

请参阅图1，图1示出了本申请实施例提供的一种人物情绪识别方法的实现流程图，该方法包括如下步骤：

S101、获取多个时刻下的多种待识别信息，所述多种待识别信息包括文本信息、音频文件以及视频图像。

在应用中，上述多个时刻下的多种待识别的信息，可以为预先存储在终端设备内部的多个时刻下的信息。其中，多种待识别信息包括文本信息、音频文件以及视频图像。

需要说明的是，多种待识别信息可以为视频文件，此时，在正常情况下，视频文件不仅包含视频图像、音频文件，以及根据音频文件进行语音文字转换得到的文本信息。示例性的，对于视频文件，在播放时其包含了多个音频对象，如背景噪声、不同人物或动植物，在对视频文件进行播放时，可对其进行语音检测。例如，通过语音活动检测(Voice ActivityDetection，VAD)技术检测音频文件中人物语音的端点，其检测到的只有人物的语音信号，而背景噪声、枪声或动植物发出的声音则不会被VAD技术进行检测。而视频文件中，人物不会连续不断的都发出声音，所以可通过VAD技术检测的语音信号的起点及语音信号的终点，并将检测到语音信号的起点时间作为某个时刻下，获取的一段音频文件。之后，可通过文字语音转换技术对音频文件进行转换，得到该时刻下的文本信息，并对该时刻下的文本信息进行时间标记。

S102、从所述多个时刻下的多种待识别信息中，提取当前时刻下的多种识别信息，并从所述多种识别信息中提取多种识别特征。

在应用中，对多种待识别信息进行特征提取，即为对上述文本信息进行特征提取得到文本特征，对上述音频文件进行特征提取得到音频特征，以及对上述视频图像进行特征提取得到图像特征。

示例性的，对文本信息进行特征提取，可根据已有的词向量库获取文本信息中各个词的词向量，形成词向量特征。其中，已有的词向量库可以为用户统计已有训练文本中的每个词出现的频率，取出现频率最高的预设个数的词生成的词典，即为词向量库。并按照顺序使每一个字对应一个数字编号，让所有的词都有对应固定的编号1，2，3，....，则文本信息中的各个词在词向量库中的位置编号即为词向量数据。本实施例中可具体使用BERT模型(Bidirectional Encoder Representation from Transformers)，提取当前时刻下的文本信息的文本特征。

另外，对视频图像进行特征提取，若视频图像对应为音频文件的起点时间至终点时间之间的所有视频图像时，则可将多个视频图像输入至三维卷积神经网络进行特征提取。具体的，每个视频图像均可以为像素大小为a×a×3的图像，其中，a×a为视频图像大小，3为视频图像的通道，分别为红色(Red)、绿色(Green)、蓝色(Blue)三个通道，即RGB。而后将视频图像输入至三维卷积神经网络中进行卷积操作，其卷积核以及卷积步长为可以自行设定。之后将生成的N维度的特征图输入至激活层，用于将该特征图映射到高维的非线性区间以保留特征图中主要的特征，而后对其进行池化操作提取特征图中一定范围内最强烈的特征，使得大范围内的特征组合也能够捕捉到，以减少当前特征提取的误差。最后再次对其不断进行卷积操作，通过卷积获得特征图中最后的特征向量。其中，生成的图像特征可以表示为：f_i ^v＝3D-CNN(v)；3D-CNN表示三维卷积神经网络，v表示输入的为视频图像，i表示多个时刻中的第i个时刻。

最后，对音频文件进行特征提取时，可对该段音频文件进行采样，得到音频采样点。而后对音频采样点进行加窗处理，并进行快速傅里叶变换(FFT)运算得到频谱。之后，可将上述频谱输入梅尔滤波器得到梅尔频谱，并进行倒谱分析(对梅尔频谱取对数，做逆变换，实际逆变换一般是通过DCT(离散余弦变换)来实现，取DCT后的第2个到第13个系数作为MFCC系数)，获得Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)，其中MFCC即为音频文件的音频特征。其中，生成的音频特征可以表示为：f_i ^a＝OPEN-SMILE(a)；其中，OPEN-SMILE表示信号处理和机器学习的特征提取器，a表示输入的为音频文件，i表示多个时刻中的第i个时刻。

S103、将所述多种识别特征输入至预设的时序模型中，得到多种时序特征。

在应用中，上述时序特征即为时序文本特征、时序音频特征以及时序图像特征。其中，上述预设的时序模型为transformer模型，其由多头注意力层(multi-head attentionlayer)、全连接层、归一化层组成。其中，时序模型可根据已有的时间序列数据(多个时刻下的多种识别特征)，通过曲线拟合和参数估计来进行时间序列分析。即可根据多个时刻下的多种识别特征，以及当前时刻下的识别特征，预测当前时刻下目标人物的情绪。在一般情况下，对于视频对话的场景，一个人的情绪通常以自我为主。若是有和他人之间的对话，则该人物的情绪可能会受到他人说话的影响，即还会受到之前多个时刻下的对话影响。因此，可通过transformer模型建立不同人物之间的识别特征的相互依赖关系，提取多种时序特征，可进一步地提高后续根据该时序特征进行情绪识别的准确率。

S104、融合所述多种时序特征得到融合特征，并根据所述融合特征识别所述当前时刻下目标人物的情绪。

在应用中，在得到上述多种时序特征，可进一步的将多种时序特征进行特征融合得到融合特征，以便情绪识别模型可根据该融合特征进行情绪识别。其中，在一段视频文件中，对于多人进行对话的视频场景，上述目标人物为终端设备识别视频文件中的当前时刻下进行说话的人物。

在本实施例中，通过获取多个时刻下的文本信息、音频文件以及视频图像，并提取当前时刻下的多种识别特征，如文本特征、音频特征以及图像特征，将其输入至预设的时序模型中，由时序模型结合多种识别特征进行处理，对应得到多种时序特征，且对多种时序特征再次进行融合处理得到融合特征，可根据多模态信息的融合特征，识别当前时刻下目标人物的情绪，提高目标人物的情绪识别的准确率。

请参照图2，在一具体实施例中，S102从所述多个时刻下的多种待识别信息中，提取当前时刻下的多种识别信息，并从所述多种识别信息中提取多种识别特征，还包括如下子步骤S201-S203，详述如下：

S201、从所述多个时刻下的文本信息中，提取所述目标人物对应的目标文本信息，并确定所述目标文本信息的文本长度；所述多个时刻下的文本信息包括多个人物之间进行对话生成的文本信息，所述多个人物包括所述目标人物。

在应用中，上述多个时刻下的文本信息可以为根据视频文件中的音频文件进行转换得到的多个文本信息。其中，每个音频文件均具有对应的播放时间信息，则对应的多个文本信息也具有相应的时间信息。其中，视频文件中包含的对话场景可以为多个人物相互之间进行对话，因此，对应的多个时刻下的文本信息也由多个人物之间进行对话生成的文本信息。然而，多个文本信息中，属于目标人物对应的音频文件转换得到的文本信息则为目标文本信息。其中，目标文本信息中的长度可以理解为目标文本信息中的字数、句数或者目标文本信息对应的时间长度，对此不作限定。

S202、确定所述目标文本信息中，属于所述目标人物在当前时刻下的第一文本。

在应用中，终端设备在获取到多个文本信息后，可根据多个文本信息的时间先后顺序，依次识别多个文本信息的对应的目标人物的情绪。此时，终端设备在依次识别多个文本信息对应的目标人物的情绪过程中，当前时刻下识别到的文本信息即为当前时刻下的第一文本。

示例性的，对于播放的视频文件，在视频播放一段时间的过程中，存在说话者只说了一段话的情况。此时，VAD检测技术可在检测出音频文件之后，可标记当前音频文件的起点时间作为时间信息，并将音频文件转换为文本信息后，对应标记当前文本信息的时间信息。在终端设备依时间信息识别多个文本信息时，当前时刻下识别的文本信息即为第一文本。需要说明的是，当前时刻的视频图像，可以为当前音频文件的起点时间对应的视频图像，也可以为当前音频文件的终点时间对应的视频图像，或者为当前音频文件的起点时间至终点时间之间的多个视频图像，对此不作限定。

S203、根据所述目标文本信息及其文本长度、所述第一文本，提取所述第一文本的第一文本特征。

在应用中，在获取到目标文本信息、文本长度以及第一文本后，可将目标文本信息、文本长度以及第一文本均作为输入数据，输入特征提取模型中进行特征提取。其中，特征提取模型可以为BERT模型。在一般情况下，对于视频对话的场景，一个人的情绪通常以自我为主，若是没有他人的对话，则该人物的情绪一般会持续保持不变。即当一个人在含有开心情绪进行说话时，若没有被他人影响(他人的说话)的情况下，则该人物开心的情绪将会持续，且后续时刻在说话时也将带有开心的情绪在内。因此，可通过BERT模型根据当前时刻下目标人物说话的第一文本、所有目标文本信息以及目标文本信息的文本长度进行特征提取，得到第一文本特征。从而得到的第一文本特征加强了目标人物在持续时刻下的情绪自我依赖，有利于提高根据第一文本特征对目标人物进行情绪识别的准确率。

具体的，生成的第一文本的第一文本特征可以表示为：其中，BERT表示特征提取的网络模型，λ表示当前时刻下的目标人物，t表示文本，/>表示多个时刻中的第i个时刻下目标人物的第一文本特征，i则可认为是当前时刻，K表示目标文本信息的文本长度，U^t为目标文本信息。

在本实施例中，根据目标文本信息、文本长度以及第一文本提取第一文本特征，使得到的第一文本特征包含了多个时刻下的目标文本信息对当前时刻下的第一文本的情绪影响因素，进而可提高根据第一文本特征对目标人物进行情绪识别的准确率。

请参照图3，在一具体实施例中，所述预设的时序模型包括预设的第一时序模型，S103将所述多种识别特征输入至预设的时序模型中，得到多种时序特征，还包括如下子步骤S301-S303，详述如下：

S301、获取在所述多个时刻下所述目标人物在所述当前时刻之前对应的多个第二文本，并提取所述多个第二文本的多个第二文本特征。

在应用中，上述预设的第一时序模型即为上述S103中的transformer模型，对此不再详细描述。上述第二文本为当前时刻之前的各个时刻对应的多个第二文本，其中，对于第二文本特征的提取方式，其与第一文本的特征提取方式一致。即也是根据目标文本信息及其文本长度、以及之前时刻的第二文本进行特征提取，得到第二文本特征。可认为相对于下一时刻而言，当前时刻的第一文本特征，也属于相对于下一时刻的第二文本特征。

S302、获取在所述多个时刻下非目标人物在所述当前时刻之前对应的多个第三文本，并提取所述多个第三文本的多个第三文本特征。

在应用中，非目标人物即不属于当前时刻下需要进行情绪识别的人物对象。另外，需要说明的是，对于非目标人物在当前时刻之前的多个第三文本特征的提取方式，也可参照目标人物在的当前时刻下的第一文本特征的提取方式，对此不再详细描述。

S303、将所述第一文本特征、所述多个第二文本特征以及所述多个第三文本特征输入至预设的第一时序模型中，得到时序文本特征。

在应用中，对于在一段包含A目标人物与B人物进行对话场景的视频文件。若上述A目标人物为当前时刻下进行说话的人物，则A目标人物在当前时刻下说的文本即为第一文本，以及A目标人物在多个时刻说的文本即为目标文本信息。其中，对于获取不同人物对应的目标文本信息，可以为预先在训练时对人物与其相应的目标文本信息进行关联，以便终端设备可识别并区分各个目标文本信息相对应的人物。也可以为终端设备可根据音频文件中不同人物之间音色不一致的情况，对转换音频文件得到的目标文本信息进行标记和区分。在得到A目标人物说的多个时刻下的A目标文本信息后，可在BERT模型中对应得到A目标人物在当前时刻下的第一文本特征。其中，当前时刻之前对应的各个时刻下的多个第二文本特征，则可认为在当前时刻之前已对应得到，并存储在终端设备内。同理，B人物在当前时刻之前对应的各个时刻下的多个第三文本特征，获取方式与第一文本特征的获取方式一致，对此不再详细描述。其中，A目标人物的目标文本信息包含的文本数量，与B人物的文本信息包含的文本数量可能一致，也可能不一致，对此不作限定。

具体的，对于上述A目标人物的当前时刻下的第一文本特征可以为以及B人物在当前时刻之前的第三文本特征可以为/>则第一文本特征与多个第二文本特征可以综合表述为/>多个第三文本特征可以综合表述为/>即对于第一时刻下A目标人物的时序文本特征，其输入的特征为第一时刻下的/>(为第一文本特征，第一时刻之前没有第二文本特征)与/>(第三文本特征)，输出的值则为当前时刻下A目标人物的时序文本特征/>同样的，对于第二时刻A目标人物的时序文本特征，则输入的特征为/>(第二文本特征)、/>(第一文本特征)、/>(第三文本特征)、/>(第三文本特征)作为输入。此时输出的值则为当前时刻下A目标人物的时序文本特征/>可认为该时序文本特征表示同时包含了/>的文本特征。即输出的时序文本特征表示同时包含了当前时刻下的目标人物对应的第一文本，与目标人物在当前时刻之前的多个第二文本，以及其他人物在当前时刻之前的多个第三文本之间的依赖关系。另外，在实际情况中，上述A目标人物的各个第一文本特征对应的实际时间，与B人物对应的各个第三文本特征的实际时间并不相同。

在本实施例中，通过获取目标人物在当前时刻之前的多个时刻的多个第二文本特征，以及非目标人物在当前时刻之前的多个时刻的第三文本特征，结合第一文本特征作为输入数据，输入至预设的第一时序模型中得到时序文本特征。因当前时刻下的文本情绪同样依赖于上下文的对话帮助进行情绪识别，而时序文本特征可使得目标人物与其他人物在各个时刻下对话产生的情绪依赖可以持续保留，有助于情绪识别模型根据时序文本特征识别人物情绪。

在一具体实施例中，所述融合特征包括第一融合特征、第二融合特征以及第三融合特征；所述多种时序特征还包括时序音频特征和时序图像特征，所述时序音频特征和所述时序图像特征由所述第一时序模型通过对当前时刻下的所述音频文件以及视频图像进行处理得到，S103融合所述多种时序特征得到融合特征，还包括如下子步骤详述如下：

在应用中，对于上述时序音频特征以及时序图像特征，可认为是将当前时刻下音频文件的音频特征，以及当前时刻下视频图像的图像特征，分别输入至第一时序模型进行特征提取得到。因音频文件以及视频图像可以及时表达当前时刻下目标人物的情绪，因此，可在第一时序模型中，只将当前时刻下的音频特征与图像特征分别作为模型中的输入特征。此时，输出的特征则代表A目标人物在第i个时刻下的时序图像特征，/>则代表A目标人物在i个时刻下的时序音频特征。其中，v代表图像，a代表音频，i表示当前时刻为第i个时刻。

具体的，上述多种时序特征的计算公式可以为：其中，基于transformer模型网络(TRM)的MASK(全卷积的MASK分割子网，用于对输入特征进行分割处理)特征中，第一文本对应的MASK特征为下三角矩阵，用于对输入特征进行卷积操作进一步提取时序文本特征。即对输入的F^m为文本特征时，全卷积的MASK分割子网对应的矩阵为上述下三角矩阵来对输入特征进行卷积操作；对于输入的F^m为音频特征或图像特征时，全卷积的MASK分割子网对应的矩阵为上述对三角矩阵，对输入特征进行卷积操作。其中，F是由f组成的时间序列，f的下标i代表时间，i∈[1,K]，K表示目标文本信息对应的文本长度，每个文本信息均对应一个时间信息，上标m代表模态(音频文件，视频图像，文本信息)。{}^K是为将集合{}的特征重复K遍，形成K*K的矩阵C，MASK同样为K*K矩阵D。

示例性的，当D为下三角矩阵时，表示对应输入的特征为文本特征，此时，将矩阵C的第1行输入TRM模型时，只有f₁ ^m时刻下的特征有效。将矩阵C的第2行输入TRM时，只有f₁ ^m，时刻下的特征有效，即/>可认为是当前时刻下的第一文本特征，即为S303中的/>而f₁ ^m则可认为同时包含S303中/> 得到/>(第二时刻下的时序文本特征)，以此类推得到其余各个时刻下时序文本特征。当D为对三角矩阵时，此时对应输入的特征为音频特征或图像特征。在将矩阵C的第1行输入TRM时，只有f₁ ^m时刻下的特征有效，即第一时刻下的音频特征或图像特征输入至TRM模型中。将矩阵C的第2行输入TRM时，只有/>时刻下的特征有效，即只将第二时刻下的音频特征或图像特征输入至TRM模型中，其不包含第一时刻的任何特征，以此类推得到其余各个时刻下的音频特征或图像特征。

在应用中，将当前时刻下多种识别特征中的音频特征与图像特征的分别输入至预设的第一时序模型中，得到时序音频特征以及时序图像特征的目的在于：文本信息在经过S201-S203以及S301-S303处理后得到的时序文本特征，与S103中的音频特征处于不同维度的特征向量，使得音频特征无法直接与时序文本特征进行S104中的特征融合。因此，当前时刻下的音频特征虽不与之前时刻的音频特征产生依赖，但也需要经过第一时序模型进行处理。同理，将图像特征输入至第一时序模型的目的与其一致。以便实现通过统一的神经网络架构对不同的情绪识别特征(文本特征、图像特征、音频特征)进行建模，减少神经网络结构的部署架构。

请参照图4，在一具体实施例中，所述融合特征包括第一融合特征、第二融合特征以及第三融合特征；所述多种时序特征还包括时序音频特征和时序图像特征；S104融合所述多种时序特征得到融合特征，还包括如下子步骤S401-S403，详述如下：

S401、获取所述时序文本特征对应的文本权重值，获取所述时序音频特征对应的音频权重值以及获取所述时序图像特征对应的图像权重值。

在应用中，上述文本权重值、音频权重值以及图像权重值可以为预先设定的固定权重值，也可以为在第一时序模型中通过计算得到的权重值，对此不作限定。可以理解的是，因时序音频特征和时序图像特征更能明显的表示当前时刻下目标人物的情绪。因此，可设定文本权重值对应的数值低于音频权重值以及图像权重值对应的数值。

S402、根据所述时序文本特征、所述文本权重值、所述时序音频特征以及所述音频权重值，计算所述第一融合特征的第一融合权重值，根据所述时序文本特征、所述文本权重值、所述时序图像特征以及所述图像权重值，计算所述第二融合特征的第二融合权重值，以及根据所述时序音频特征、所述音频权重值、所述时序图像特征以及所述图像权重值，计算所述第三融合特征的第三融合权重值。

S403、基于所述第一融合权重值、所述时序文本特征、以及所述时序音频特征得到第一融合特征，基于所述第二融合权重值、所述时序文本特征、以及所述时序图像特征得到第二融合特征，以及基于所述第三融合权重值、所述时序音频特征、以及所述时序图像特征得到第三融合特征。

在应用中，可认为上述第一融合特征是根据时序文本特征、文本权重值、时序音频特征以及音频权重值计算得到。对应的，可认为上述第二融合特征是根据文本特征、文本权重值、时序图像特征以及图像权重值计算得到，以及可认为第三融合特征是根据时序音频特征、音频权重值、时序图像特征以及图像权重值计算得到。

在具体应用中，上述融合特征的计算公式可以为：h¹＝tanh(W₁·r¹)；h²＝tanh(W₂·r²)；h¹²＝z*h¹+(1-z)*h²。其中，r是任意一种时序特征(时序文本特征、时序音频特征或者时序图像特征)的向量表示，tanh表示激活函数，*为哈达玛积，·为点乘，W₁与W₂均为融合模型中的模型参数。在模型训练时需要根据模型的训练损失进行反向传播迭代更新模型参数，而对于已训练的情绪识别模型，则不参与更新。z表示h¹对应的时序特征的权重值，1-z为归一化操作。目的在于使不同模态的特征(音频特征、图像特征、文本特征)相互之间产生对抗，使情绪识别模型可以更加显示的学习任意两种时序特征之间对于识别情绪的重要程度(权重值)。上述公式可以简化为：h¹²＝GATE(r¹，r²)，则不同时序音频特征、时序图像特征、时序文本特征之间的任意相互组合得到的融合特征，具体通过如下方式进行计算：h_i ^vt＝GATE(r_i ^v，r_i ^t)；h_i ^ta＝GATE(r_i ^t，r_i ^a)；h_i ^av＝GATE(r_i ^a，r_i ^v)。其中，/>表示第i个时刻下的时序图像特征，/>表示第i个时刻下的时序音频特征，r_i ^t表示第i个时刻下的时序文本特征，对应的h_i ^vt；h_i ^ta；h_i ^av则分别表示第i个时刻下的对应两两时序特征融合的融合特征。

需要说明的是，对于上述两两时序特征之间进行融合得到的融合特征，因输入的时序特征不同，可知，上述计算公式中通过时序特征进行计算得到的z值也会相应变化，最终对应得到的融合特征也会因z值的变化而改变。另外，因时序音频特征和时序图像特征情绪表达较为明显，而时序文本特征的情绪倾向则较为模糊。因此，可在神经网络模型中设置参与时序文本特征计算的权重值W(模型参数)，低于参与时序音频特征以及时序图像特征计算的权重值，并在更新相应权重值时，动态分配和更新多种时序特征对应的权重值。该更新方法可考虑相互时序特征之间的多级交互式加权融合方式，以便在融合多种时序特征的基础上，可以合理的加强不同时序特征相互融合时的交互性。有利于缓解多种情绪识别特征之间的语义鸿沟，在对当前时刻下目标人物的情绪进行分类，可以有效提高根据融合特征对目标人物进行情绪识别的准确率。

参照图5，在一具体实施例中，所述预设的时序模型还包括预设的第二时序模型，S104根据所述融合特征识别所述当前时刻下目标人物的情绪，还包括如下子步骤S501-S503，详述如下：

S501、将所述当前时刻下的所述第一融合特征、所述第二融合特征以及所述第三融合特征，输入至第二时序模型中，获得目标融合特征。

S502、根据所述目标融合特征识别所述当前时刻下的目标人物的情绪。

在应用中，上述第二时序模型的神经网络结构可以与第一时序模型的神经网络结构一致，具体可参照S103中对第一时序模型的解释说明。

在具体应用中，对于根据上述S403得到的多种融合特征得到目标融合特征的步骤具体可为：其中SE为特殊嵌入式表示，用于表示第i个时刻下的h_i ^vt；h_i ^ta；h_i ^av。而后将该嵌入式表示输入至第二时序模型中进行处理，使其可被一个特征向量(目标融合特征)进行表示。具体的，第二时序模型的融合公式具体可以为：o_i＝TRM(H_i)，o_i为第i个时刻下的多种融合特征的目标融合特征，TRM为第二时序模型。其与第一时序模型的神经网络结构一致，只不过此时输入层中输入的特征向量为h_i ^vt；h_i ^ta；h_i ^av，输出层中输出的特征向量为目标融合特征o_i。另外，多个输入的特征向量h_i ^vt；h_i ^ta；h_i ^av可认为说三维向量。之后，情绪识别模型中的分类器可根据目标融合特征对当前时刻(第i个时刻)下的目标人物的情绪进行识别。

在一具体实施例中，在S104根据所述融合特征识别所述当前时刻下目标人物的情绪，还包括如下步骤，详述如下：

具体的，在本申请的所有实施例中，基于终端设备得到对应的目标人物的情绪识别结果，具体来说，目标人物的情绪识别结果由终端工具进行处理得到。将目标人物的情绪识别结果上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该目标人物的情绪识别结果，以便查证目标人物的情绪识别结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

请参阅图6，图6是本申请实施例提供的一种人物情绪识别装置的结构框图。本实施例中该终端设备包括的各单元用于执行图1至图5对应的实施例中的各步骤。具体请参阅图1至图5以及图1至图5所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图6，人物情绪识别装置600包括：获取模块610、提取模块620、输入模块630和识别模块640，其中：

获取模块610，用于获取多个时刻下的多种待识别信息，所述多种待识别信息包括文本信息、音频文件以及视频图像。

提取模块620，用于从所述多个时刻下的多种待识别信息中，提取当前时刻下的多种识别信息，并从所述多种识别信息中提取多种识别特征。

输入模块630，用于将所述多种识别特征输入至预设的时序模型中，得到多种时序特征。

识别模块640，用于融合所述多种时序特征得到融合特征，并根据所述融合特征识别所述当前时刻下目标人物的情绪。

在一实施例中，提取模块620还用于：

在一实施例中，输入模块630还用于：

在一实施例中，所述融合特征包括第一融合特征、第二融合特征以及第三融合特征；所述多种时序特征还包括时序音频特征和时序图像特征，所述时序音频特征和所述时序图像特征由所述第一时序模型通过对当前时刻下的所述音频文件以及视频图像进行处理得到，识别模块640还用于：

在一实施例中，所述融合特征包括第一融合特征、第二融合特征以及第三融合特征；所述多种时序特征还包括时序音频特征和时序图像特征；识别模块640还用于：

在一实施例中，所述预设的时序模型还包括预设的第二时序模型，识别模块640还用于：

在一实施例中，人物情绪识别装置600还包括：

上传模块，用于将所述当前时刻下目标人物的情绪识别结果上传至区块链中。

应当理解的是，图6示出的人物情绪识别装置的结构框图中，各单元/模块用于执行图1至图5对应的实施例中的各步骤，而对于图1至图5对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图1至图5以及图1至图5所对应的实施例中的相关描述，此处不再赘述。

图7是本申请另一实施例提供的一种终端设备的结构框图。如图7所示，该实施例的终端设备70包括：处理器71、存储器72以及存储在存储器72中并可在处理器71运行的计算机程序73，例如人物情绪识别方法的程序。处理器71执行计算机程序73时实现上述各个人物情绪识别方法各实施例中的步骤，例如图1所示的S101至S104。或者，处理器71执行计算机程序73时实现上述图6对应的实施例中各单元的功能，例如，图6所示的单元610至640的功能，具体请参阅图6对应的实施例中的相关描述。

示例性的，计算机程序73可以被分割成一个或多个单元，一个或者多个单元被存储在存储器72中，并由处理器71执行，以完成本申请。一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序73在终端设备70中的执行过程。例如，计算机程序73可以被分割成获取单元、提取单元、输入单元以及识别单元，各单元具体功能如上。

终端设备可包括，但不仅限于，处理器71、存储器72。本领域技术人员可以理解，图7仅仅是终端设备70的示例，并不构成对终端设备70的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器71可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器72可以是终端设备70的内部存储单元，例如终端设备70的硬盘或内存。存储器72也可以是终端设备70的外部存储设备，例如终端设备70上配备的插接式硬盘，智能存储卡，安全数字卡，闪存卡等。进一步地，存储器72还可以既包括终端设备70的内部存储单元也包括外部存储设备。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种人物情绪识别方法，其特征在于，包括：

融合所述多种时序特征得到融合特征，并根据所述融合特征识别当前时刻下目标人物的情绪；所述融合特征包括第一融合特征、第二融合特征以及第三融合特征；所述时序特征为时序文本特征、时序音频特征以及时序图像特征，所述时序音频特征和所述时序图像特征由第一时序模型通过对当前时刻下的所述音频文件以及视频图像进行处理得到，以使得时序文本特征、时序音频特征以及时序图像特征为处于同一维度的特征向量；

所述融合所述多种时序特征得到融合特征，包括：

2.如权利要求1所述的人物情绪识别方法，其特征在于，所述从所述多个时刻下的多种待识别信息中，提取当前时刻下的多种识别信息，并从所述多种识别信息中提取多种识别特征，包括：

3.如权利要求2所述的人物情绪识别方法，其特征在于，所述预设的时序模型包括预设的第一时序模型，所述将所述多种识别特征输入至预设的时序模型中，得到多种时序特征，包括：

4.如权利要求3所述的人物情绪识别方法，其特征在于，

所述融合所述多种时序特征得到融合特征，包括：

5.如权利要求1或4所述的人物情绪识别方法，其特征在于，所述预设的时序模型还包括预设的第二时序模型，所述根据所述融合特征识别所述当前时刻下目标人物的情绪，包括：

6.如权利要求5所述的人物情绪识别方法，其特征在于，在根据所述融合特征识别所述当前时刻下目标人物的情绪之后，还包括：

7.一种人物情绪识别装置，其特征在于，包括：

识别模块，用于融合所述多种时序特征得到融合特征，并根据所述融合特征识别当前时刻下目标人物的情绪；所述融合特征包括第一融合特征、第二融合特征以及第三融合特征；所述时序特征为时序文本特征、时序音频特征以及时序图像特征，所述时序音频特征和所述时序图像特征由第一时序模型通过对当前时刻下的所述音频文件以及视频图像进行处理得到，以使得时序文本特征、时序音频特征以及时序图像特征为处于同一维度的特征向量；

所述识别模块还用于：

8.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。