CN113420556A

CN113420556A - 基于多模态信号的情感识别方法、装置、设备及存储介质

Info

Publication number: CN113420556A
Application number: CN202110835091.0A
Authority: CN
Inventors: 彭俊清; 王健宗; 刘源
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-09-21
Anticipated expiration: 2041-07-23
Also published as: CN113420556B

Abstract

本发明涉及语音语义技术，揭露了一种基于多模态信号的情感识别方法，包括：获取用户的语音、文本及脚步声三种模态的信息，分别对语音、文本及脚步声进行特征提取，根据提取的特征预测用户在三种模态下的情感状态，并结合用户在三种模态下的情感状态进行融合决策，以最终确定用户的情感状态。此外，本发明还涉及区块链技术，用户的语音、文本及脚步声的信息可存储于区块链的节点。本发明还提出一种基于多模态信号的情感识别装置、电子设备以及存储介质。本发明可以提高情感识别的精确度。

Description

基于多模态信号的情感识别方法、装置、设备及存储介质

技术领域

本发明涉及语音语义技术领域，尤其涉及一种基于多模态信号的情感识别方法、装置、电子设备及计算机可读存储介质。

背景技术

近年来，随着人工智能技术的不断发展，高精度的人机交互日益受到研究者的重视，它不仅要求计算机理解用户的情感和意图，而且需要对不同用户、不同环境、不同任务给予不同的反馈和支持，这就需要计算机理解用户的情感，并有效地表达出来。

现阶段情感识别多为基于表情，语音，肢体和脑电的情感识别，其中，关于声音的情感识别主要为语言类声音，即人的话语，可以分为语音和文本，目前已有大量的基于语音和文本的情感识别，但是对于其他包含情感和状态的非语言类声音，如脚步声、呼吸声等却很少有效利用，通常作为噪声去除掉了，导致声音中大量关于情感的信息丢失，难以完整地反映情感状态。

发明内容

本发明提供一种基于多模态信号的情感识别方法、装置及计算机可读存储介质，其主要目的在于解决进行情感识别的精确度较低的问题。

为实现上述目的，本发明提供的一种基于多模态信号的情感识别方法，包括：

获取用户的语音信息，提取所述语音信息中的语音特征；

识别所述语音信息的文本内容，将所述文本内容转换为文本向量矩阵，并从所述文本向量矩阵中提取所述文本内容的文本特征；

获取用户的脚步声信号，将所述脚步声信号转换为梅尔频率，并对所述梅尔频率进行声谱分析，得到脚步声特征；

分别利用预先训练的激活函数计算所述语音特征、所述文本特征和所述脚步声特征与预设的多个情感标签的相对概率值；

根据所述相对概率值对所述语音特征、所述文本特征和所述脚步声特征进行决策融合，从所述多个情感标签选择与所述决策融合的结果对应的情感标签为所述用户的情感状态。

可选地，所述提取所述语音信息中的语音特征，包括：

对所述语音信息进行分帧加窗，得到多个语音帧，并从所述多个语音帧中逐个选取其中一个语音帧为目标语音帧；

将所述目标语音帧映射为语音时域图，统计所述语音时域图的峰值、幅值、均值和过零率，根据所述幅值计算帧能量，并将所述峰值、所述幅值、所述均值、所述帧能量及所述过零率汇集为时域特征；

利用预设滤波器将所述语音信息转换为谱域图，统计所述谱域图的谱域密度、谱熵和共振峰参数，得到谱域特征；

通过傅里叶逆变换将所述谱域图转换为倒谱域图，统计所述倒谱域图的倒谱域密度、倒谱熵和倒谱周期，得到所述到谱域特征；

汇集所述时域特征、所述谱域特征和所述倒谱域特征汇集为语音特征。

可选地，所述将所述文本内容转换为文本向量矩阵，包括：

对所述文本内容进行分词处理，得到多个文本分词；

从所述多个文本分词中逐个选取其中一个文本分词为目标分词，并统计所述目标分词和所述目标分词的相邻文本分词在所述目标分词的预设邻域范围内共同出现的共现次数；

利用每一个文本分词对应的共现次数构建共现矩阵；

分别将所述多个文本分词转换为词向量，将所述词向量拼接为向量矩阵；

利用所述共现矩阵和所述向量矩阵进行乘积运算，得到文本向量矩阵。

可选地，所述从所述文本向量矩阵中提取所述文本内容的文本特征，包括：

从所述多个文本分词中逐个选取其中一个文本分词为目标分词，根据所述目标分词的词向量及所述文本向量矩阵，计算所述目标分词的关键值；

按照所述关键值从大到小的顺序从所述多个文本分词中选取预设数量的文本分词为特征分词；

将所述特征分词的词向量拼接得到所述文本内容的文本特征。

可选地，所述将所述脚步声信号转换为梅尔频率，包括：

对所述脚步声信号进行分帧加窗，得到多个脚步帧；

分别对每一个脚步帧进行傅里叶变换，得到每一个脚步帧对应的频域信号；

利用预设的梅尔刻度滤波器对所述频域信号进行过滤，得到每一个脚步帧对应的梅尔频率。

可选地，所述对所述梅尔频率进行声谱分析，得到脚步声特征，包括：

对所述梅尔频率取对数，并对所述对数进行离散余弦变换，得到离散频率；

对所述离散频率进行二阶差分处理，得到差分频率；

利用预设的滤波网络对所述差分频率进行多重滤波，得到滤波频率；

将所述滤波频率进行编码，并将编码后的所述滤波频率拼接为脚步声特征。

可选地，所述根据所述相对概率值计算每一个情感标签的得分，确定得分最高的情感标签为所述用户的情感状态，包括：

获取所述语音特征、所述文本特征和所述脚步声特征对应的预先训练的激活函数的识别率；

根据所述识别率计算所述语音特征、所述文本特征和所述脚步声特征对应的激活函数的差异权重；

根据所述差异权重和所述相对概率值，计算所述多个情感标签的得分；

对所述得分进行统计，确定得分最高的情感标签为所述用户的情感状态。

为了解决上述问题，本发明还提供一种基于多模态信号的情感识别装置，所述装置包括：

语音特征提取模块，用于获取用户的语音信息，提取所述语音信息中的语音特征；

文本特征提取模块，用于识别所述语音信息的文本内容，将所述文本内容转换为文本向量矩阵，并从所述文本向量矩阵中提取所述文本内容的文本特征；

脚步声特征提取模块，用于获取用户的脚步声信号，将所述脚步声信号转换为梅尔频率，并对所述梅尔频率进行声谱分析，得到脚步声特征；

特征分类模块，用于分别利用预先训练的激活函数计算所述语音特征、所述文本特征和所述脚步声特征与预设的多个情感标签的相对概率值；

融合决策模块，用于根据所述相对概率值计算每一个情感标签的得分，确定得分最高的情感标签为所述用户的情感状态。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

存储器，存储至少一个指令；及

处理器，执行所述存储器中存储的指令以实现上述所述的基于多模态信号的情感识别方法。

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于多模态信号的情感识别方法。

本发明实施例分别对语音、文本和脚步声进行特征提取及情感判别，并对三种模态信息的情感判别结果进行决策融合，得到识别结果，充分利用包含情感的多种模态的信号，通过多模态进行情感识别弥补单一模态分析的局限性，因此本发明提出的基于多模态信号的情感识别方法、装置、电子设备及计算机可读存储介质，可以解决进行情感识别的精确度较低的问题。

附图说明

图1为本发明一实施例提供的基于多模态信号的情感识别方法的流程示意图；

图2为本发明一实施例提供的将文本内容转换为文本向量矩阵的流程示意图；

图3为本发明一实施例提供的选取文本特征的流程示意图；

图4为本发明一实施例提供的基于多模态信号的情感识别装置的功能模块图；

图5为本发明一实施例提供的实现所述基于多模态信号的情感识别方法的电子设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例提供一种基于多模态信号的情感识别方法。所述基于多模态信号的情感识别方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之，所述基于多模态信号的情感识别方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。

参照图1所示，为本发明一实施例提供的基于多模态信号的情感识别方法的流程示意图。在本实施例中，所述基于多模态信号的情感识别方法包括：

S1、获取用户的语音信息，提取所述语音信息中的语音特征。

本发明实施例中，所述语音信息为用户在预设时间段内产生的用户语音。例如，用户在预设时间段内的演讲语音，用户在预设时间段内与他人交谈的语音等。

本发明实施例中，可通过具有数据抓取功能的计算机语句(java语句、python语句等)从预先构建的存储区域中获取用户授权的可被获取的语音信息，所述存储区域包括但不限于数据库、区块链、网络缓存。

本发明其他实施例中，还可通过具有录音功能的麦克风、录音笔等设备对用户在预设时间段内产生的用户语音进行记录，以并将记录用户语音作为所述语音信息。

本发明实施例中，为了根据所述语音信息对用户的情感进行识别，需提取所述语音信息的时域特征、谱域特征和倒谱域特征。

本发明其中一个实施中，所述提取所述语音信息中的语音特征，包括：

详细地，可通过汉明窗的方式对所述语音信息进行分帧加窗，得到多个语音帧，可实现利用信号的局部稳定性，提高对语言学习进行分析的精确度。

具体地，可利用matplotlib.pyplot包中的pcolormesh函数(预设第一函数)将所述目标语音帧映射为语音时域图，并通过数理统计，获取所述语音时域图的峰值、幅值均值和过零率，进而根据所述幅值计算帧能量。

示例性地，可利用如下能量算法计算所述帧能量：

其中，energ_y为第y个语音帧的帧能量，N为所述第y个语音帧的总时长，x_n为所述第y个语音帧在n时刻的幅值。

本发明实施例中，可利用预设滤波器将所述语音信息转换为谱域图(即频谱图)，并通过数理统计，获取所述倒谱域图的倒谱域密度、倒谱熵和倒谱周期等谱域特征，所述预设滤波器包括但不限于PE滤波器、DouMax滤波器。

进一步地，由于获取的所述语音信息中可能耦合多种背景噪声音频，而在对该语音信息进行分析时，背景噪声音频会对分析结果产生干扰，造成分析结果的精确度，因此，为了提高最终情感识别的精确度，本发明实施例通过傅里叶逆变换将所述谱域图转换为倒谱域图，将耦合进该语音信息中的多种音频信号进行分离，从而提高情感识别的精确度。

本发明其他实施例中，还可采用python库中的PyAudio Analysis工具包对所述语音信息进行处理，以获取该语音信息中的时域特征、谱域特征和倒谱域特征。

S2、识别所述语音信息的文本内容，将所述文本内容转换为文本向量矩阵，并从所述文本向量矩阵中提取所述文本内容的文本特征。

本发明实施例中，由于步骤S1中获取的所述语音特征是根据所述语音信号的时域。谱域和倒谱域分析得到的，仅是对用户产生该语音信息时声音的声学特征进行分析，并未对用户的语音信息的内容进行分析，因此，为了提高对用户进行情感识别的精确度，本发明实施例识别所述语音信息的文本内容，并对所述文本内容进行分析。

详细地，可采用声学模型对所述语音信息进行语音识别，得到文本内容，所述声学模型通过对每个字进行发声的建模，以建立包含多个字，及每个字对应的标准发声的数据库，通过对所述语音信息中每个时刻下用户发声的采集，以获取每个时刻下用户的发声，进而将该发声与预先构建的包含多个字，及每个字对应的标准发声的数据库中的字进行概率匹配，以此实现对语音信息进行语音识别，得到文本内容。

本发明实施例中，由于所述文本内容有自然语言组成，若直接对所述文本内容进行分析，会占用大量的计算资源，导致分析的效率低下，因此，可将所述文本内容转换为文本向量矩阵，进而将由自然语言表达的文本内容转换为数值形式。

本发明实施例中，可采用Glove(Global Vectors for Word Representation，全局词向量)、Embedding Layer等方法将所述文本内容转换为文本向量矩阵。

本发明其中一个实施例中，参图2所示，所述将所述文本内容转换为文本向量矩阵，包括：

S21、对所述文本内容进行分词处理，得到多个文本分词；

S22、从所述多个文本分词中逐个选取其中一个文本分词为目标分词，并统计所述目标分词和所述目标分词的相邻文本分词在所述目标分词的预设邻域范围内共同出现的共现次数；

S23、利用每一个文本分词对应的共现次数构建共现矩阵；

S24、分别将所述多个文本分词转换为词向量，将所述词向量拼接为向量矩阵；

S25、利用所述共现矩阵和所述向量矩阵进行乘积运算，得到文本向量矩阵。

详细地，可采用预设的标准词典对所述文本内容进行分词处理，得到多个文本分词，所述标准词典中包含多个标准分词。

例如，将所述文本内容按照不同的长度在所述标准词典中进行检索，若能检索到与所述文本内容相同的标准分词，则可确定检索到的该标准分词为所述文本内容的文本分词。

示例性地，可利用每一个文本分词对应的所述共现次数构建如下所示的共现矩阵：

其中，X_i,j为所述文本内容中关键词i与该关键词i的相邻文本分词j的共现次数。

本发明实施例中，可采用word2vec模型、NLP(Natural Language Processing，自然语言处理)模型等具有词向量转换功能的模型分别将所述多个文本分词转换为词向量，进而将词向量拼接为所述文本内容的向量矩阵，并将所述向量矩阵与所述共现矩阵进行乘积运算，得到文本向量矩阵。

进一步地，在将所述文本内容转换为文本向量矩阵后，可对所述文本向量矩阵进行特征提取，以获取所述文本内容的文本特征，所述文本特征包括但不限于文本场景、文本主题、文本关键词。

本发明其中一个实施例中，可利用预先训练的LSTM(Long Short-Term Memory，长短期记忆网络)模型对所述文本内容的文本向量矩阵进行特征提取，以获取所述文本向量矩阵中的文本特征。

本发明另一实施实施例中，参图3所示，所述从所述文本向量矩阵中提取所述文本内容的文本特征，包括：

S31、从所述多个文本分词中逐个选取其中一个文本分词为目标分词，根据所述目标分词的词向量及所述文本向量矩阵，计算所述目标分词的关键值；

S32、按照所述关键值从大到小的顺序从所述多个文本分词中选取预设数量的文本分词为特征分词；

S33、将所述特征分词的词向量拼接得到所述文本内容的文本特征。

详细地，由于所述文本内容中包含大量的文本分词，但并非每一个文本分词均是该文本内容的特征，因此，需要对所述多个文本分词进行筛选，本发明实施例从所述多个文本分词中逐个选取其中一个文本分词为目标分词，根据所述目标分词的词向量与所述文本向量矩阵计算所述目标分词的关键值，以根据所述关键值筛选出对该文本内容具有代表性的特征分词，以实现获取该文本内容的文本特征。

具体地，所述根据所述目标分词的词向量与所述文本向量矩阵计算所述目标分词的关键值，包括：

利用如下关键值算法计算所述目标分词的关键值：

其中，K为所述关键值，|W|为所述文本向量矩阵，T为矩阵转置符号，||为求模符号，

为所述目标分词的词向量。

本发明实施例中，按照每一个文本分词的关键值从大到小的顺序从所述将所述多个文本分词中选取预设数量的文本分词为特征分词。

例如，所述多个文本分词包括：文本分词A、文本分词B和文本分词C，其中，文本分词A的关键值为80，文本分词B的关键值为70，文本分词C的关键值为30，若预设数量为2，则按照所述关键值从大到小的顺序，选取文本分词A和文本分词B为特征分词，并将所述文本分词A和所述文本分词B的词向量进行拼接，得到所述文本内容的文本特征。

S3、获取用户的脚步声信号，将所述脚步声信号转换为梅尔频率，并对所述梅尔频率进行声谱分析，得到脚步声特征。

本发明其中一个实际应用场景中，脚步声会传递产生者的情感状态，例如，在脚步声平稳且缓慢的情况下，会传递出步行者平静的心情；在脚步声规律且轻快的情况下，会传递出步行者愉快的心情；在脚步声杂乱且急躁的情况下，会传递出步行者焦急的心情等，因此，本发明实施例在对用户进行情感识别时，获取用户的脚步声信号，并利用脚步声信号对用户进行情感识别，以提高情感识别的精确度。

本发明实施例中，所述脚步声信号是用户在所述预设时间内产生所述语音信息的同时产生的脚步声的音频信号。

详细地，所述获取用户的脚步声信号的步骤，与S1中获取用户的语音信息的步骤一致，在此不做赘述。

本发明实施例中，由于脚步声信号中只包含声音信息，不包含任何文本信息，因此，可将所述脚步声信号转换为梅尔频率，并对所述梅尔频率进行声谱分析，得到脚步声特征。

详细地，所述梅尔频率代表人耳对于频率的感受度，因此，将脚步声信号转换为梅尔频率，可确保脚步声的真实性，进而有利于提高利用该梅尔频率分析并判断用户情感的准确性。

本发明实施例中，所述将所述脚步声信号转换为梅尔频率，包括：

对所述脚步声信号进行分帧加窗，得到多个脚步帧；

详细地，所述对所述脚步声信号进行分帧加窗，得到多个脚步帧的步骤，与S1中对所述语音信息进行分帧加窗，得到多个语音帧的步骤一致，在此不做赘述。

具体地，可通过傅里叶变换将每一个脚步帧内的脚步声信号转换为频域信号，并利用具有梅尔刻度滤波器对所述频域信号进行过滤，得到每一个脚步帧对应的梅尔频率，其中，所述梅尔刻度滤波器是指按照标准梅尔频率进行刻度划分的滤波器。

本发明实施例中，所述对所述梅尔频率进行声谱分析，得到脚步声特征，包括：

对所述离散频率进行二阶差分处理，得到差分频率；

详细地，由于人耳在感受声音时，并不是线性的，因此，可对求取所述梅尔频率的对数，以对数形式对所述梅尔频率中的非线性关系进行描述，有利于提高对提取脚步声特征的精确度。

具体地，对所述对数进行离散余弦变换，可实现对转化为对数形式的所述梅尔频率的压缩和抽象，避免利用傅里叶变换对转化为对数形式的所述梅尔频率进行处理会的结果会包含虚数部分的情况，有利于降低计算的复杂度，提高对梅尔频率进行分析的效率。

进一步地，由于脚步声信号的时域连续性，对所述脚步声信号进行分帧加窗后提取的特征(离散频率)，只是反映了每一帧的特征，为了符合该脚步声信号的时域连续性，可通过对所述离散频率进行二阶差分处理，将每一帧的前后帧信息增加至该帧中。

本发明实施例中，所述滤波网络可以为PCANET网络，所述PCANET网络包括两层网络结构，每层网络结构至少由一个滤波器组成。

通过所述滤波网络中每一层网络结构中的多个滤波器分别对所述差分频率进行滤波，以实现对该差分频率的筛选，得到对所述脚步声信号有代表性的滤波频率，并按照预设编码方式对所述滤波频率进行编码，以及将编码后的所述滤波频率拼接为脚步声特征。

S4、分别利用预先训练的激活函数计算所述语音特征、所述文本特征和所述脚步声特征与预设的多个情感标签的相对概率值。

本发明实施例中，可分别利用预设的激活函数分别对所述语音特征、所述文本特征和所述脚步声特征进行计算，以计算所述语音特征、所述文本特征和所述脚步声特征中每一个特征与预设多个情感标签的相对概率，其中，所述相对概率是指每一个特征是某一种情感的概率值，当某一特征与某一情感标签之间的相对概率越高，则该特征是用于表达该情感标签的概率越高。

详细地，所述激活函数包括但不限于softmax激活函数、sigmoid激活函数、relu激活函数，所述预设的多个情感标签包括但不限于愤怒，高兴，悲伤，害怕，惊奇，中性。

例如，利用预先训练的激活函数A计算所述语音特征与预设的多个情感标签的相对概率，利用预先训练的激活函数B计算所述文本特征与预设的多个情感标签的相对概率，利用预先训练的激活函数C计算所述脚步声特征与与预设的多个情感标签的相对概率。

本发明其中一个实施例中，可利用如下激活函数计算相对概率值：

其中，p(a|x)为特征x和情感标签a之间的相对概率，w_a为情感标签a的权重向量，T为求转置运算符号，exp为求期望运算符号，A为预设的多个情感标签的数量。

S5、根据所述相对概率值对所述语音特征、所述文本特征和所述脚步声特征进行决策融合，从所述多个情感标签选择与所述决策融合的结果对应的情感标签为所述用户的情感状态。

本发明实施例中，由于所述语音特征、所述文本特征和所述脚步声特征中包含多个特征，且每个特征与所述预设的多个情感标签之间的相对概率值不相同，因此，为了准确地识别出当前用户的情感，需要根据所述相对概率值对所述语音特征、所述文本特征和所述脚步声特征进行决策融合，以得到所述用户的情感状态。

本发明实施例中，可采用差异性投票机制，利用所述语音特征、所述文本特征和所述脚步声特征与多个情感标签之间的相对概率值，计算每一个情感标签的得分，并对每一个情感标签的得分进行统计，进而确定得分最高的情感标签为所述用户的情感状态。

本发明其中一个实施例中，所述根据所述相对概率值计算每一个情感标签的得分，确定得分最高的情感标签为所述用户的情感状态，包括：

详细地，由于不同的激活函数在训练时的精确度不一致，因此，可获取预先训练的所述语音特征、所述文本特征和所述脚步声特征对应的激活函数的识别率，进而根据该识别率计算所述激活函数的差异权重。

例如，语音特征的激活函数的识别率为r_v，文本特征的激活函数的识别率为r_i，脚步声特征的激活函数的识别率为r_f。

可利用如下公式计算语音特征的激活函数的差异权重：

其中，D_v为语音特征的激活函数的差异权重，r_v为所述语音特征对应的激活函数的识别率，r_i为所述文本特征对应的激活函数的识别率，r_f为所述脚步声特征对应的激活函数的识别率。

本发明实施例中，由于每一个激活函数的识别率均不为100％，进而导致在对特征进行情感类型的识别时，会出现误判的情况，因此，本发明实施例根据所述识别率计算所述语音特征、所述文本特征和所述脚步声特征对应的激活函数的差异权重，以便于后续根据所述差异权重对每个情感标签的得分进行调整，有利于提高识别用户情感的准确性。

本发明实施例中，可利用如下得分算法根据所述差异权重和所述相对概率值，计算所述多个情感标签的得分：

V_k＝D_v*u_v+D_i*u_i+D_f*u_f

其中，V_k为所述多情感标签中第k个情感标签的得分，D_v为所述语音特征对应的激活函数的差异权重，u_v为所述语音特征与V_k的相对概率值，D_i为所述文本特征对应的激活函数的差异权重，u_i为所述文本特征与V_k的相对概率值，D_f为所述脚步声特征对应的激活函数的差异权重，u_f为所述脚步声特征与V_k的相对概率值。

进一步地，统计所述多个情感标签的得分，并确定所述得分最高的情感标签为所述用户的情感状态。

例如，所述多个情感标签包括标签A、标签B和标签C，其中，标签A的得分为90，标签B的得分为60，标签C的得分为30，则可确定所述标签A为所述用户的情感状态。

本发明实施例分别对语音、文本和脚步声进行特征提取及情感判别，并对三种模态信息的情感判别结果进行决策融合，得到识别结果，充分利用包含情感的多种模态的信号，通过多模态进行情感识别弥补单一模态分析的局限性，因此本发明提出的基于多模态信号的情感识别方法，可以解决进行情感识别的精确度较低的问题。

如图4所示，是本发明一实施例提供的基于多模态信号的情感识别装置的功能模块图。

本发明所述基于多模态信号的情感识别装置100可以安装于电子设备中。根据实现的功能，所述基于多模态信号的情感识别装置100可以包括语音特征提取模块101、文本特征提取模块102、脚步声特征提取模块103、特征分类模块104及融合决策模块105。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

所述语音特征提取模块101，用于获取用户的语音信息，提取所述语音信息中的语音特征；

所述文本特征提取模块102，用于识别所述语音信息的文本内容，将所述文本内容转换为文本向量矩阵，并从所述文本向量矩阵中提取所述文本内容的文本特征；

所述脚步声特征提取模块103，用于获取用户的脚步声信号，将所述脚步声信号转换为梅尔频率，并对所述梅尔频率进行声谱分析，得到脚步声特征；

所述特征分类模块104，用于分别利用预先训练的激活函数计算所述语音特征、所述文本特征和所述脚步声特征与预设的多个情感标签的相对概率值；

所述融合决策模块105，用于根据所述相对概率值计算每一个情感标签的得分，确定得分最高的情感标签为所述用户的情感状态。

详细地，本发明实施例中所述基于多模态信号的情感识别装置100中所述的各模块在使用时采用与上述图1至图3中所述的基于多模态信号的情感识别方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图5所示，是本发明一实施例提供的实现基于多模态信号的情感识别方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如基于多模态信号的情感识别程序。

其中，所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如执行基于多模态信号的情感识别程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备的各种功能和处理数据。

所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元，例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备，例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据，例如基于多模态信号的情感识别程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述通信总线12可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

所述通信接口13用于上述电子设备与其他设备之间的通信，包括网络接口和用户接口。可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的基于多模态信号的情感识别程序是多个指令的组合，在所述处理器10中运行时，可以实现：

获取用户的语音信息，提取所述语音信息中的语音特征；

根据所述相对概率值计算每一个情感标签的得分，确定得分最高的情感标签为所述用户的情感状态。

具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本发明还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：

获取用户的语音信息，提取所述语音信息中的语音特征；

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于多模态信号的情感识别方法，其特征在于，所述方法包括：

获取用户的语音信息，提取所述语音信息中的语音特征；

2.如权利要求1所述的基于多模态信号的情感识别方法，其特征在于，所述提取所述语音信息中的语音特征，包括：

3.如权利要求1所述的基于多模态信号的情感识别方法，其特征在于，所述将所述文本内容转换为文本向量矩阵，包括：

对所述文本内容进行分词处理，得到多个文本分词；

利用每一个文本分词对应的共现次数构建共现矩阵；

4.如权利要求3所述的基于多模态信号的情感识别方法，其特征在于，所述从所述文本向量矩阵中提取所述文本内容的文本特征，包括：

5.如权利要求1所述的基于多模态信号的情感识别方法，其特征在于，所述将所述脚步声信号转换为梅尔频率，包括：

对所述脚步声信号进行分帧加窗，得到多个脚步帧；

6.如权利要求5所述的基于多模态信号的情感识别方法，其特征在于，所述对所述梅尔频率进行声谱分析，得到脚步声特征，包括：

对所述离散频率进行二阶差分处理，得到差分频率；

7.如权利要求1至6中任一项所述的基于多模态信号的情感识别方法，其特征在于，所述根据所述相对概率值计算每一个情感标签的得分，确定得分最高的情感标签为所述用户的情感状态，包括：

8.一种基于多模态信号的情感识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的基于多模态信号的情感识别方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于多模态信号的情感识别方法。