CN116089853A

CN116089853A - 电子设备及基于多通路融合的多模态情感分类方法

Info

Publication number: CN116089853A
Application number: CN202211634753.9A
Authority: CN
Inventors: 许畅; 廖嘉璇
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-05-09

Abstract

本申请提供一种电子设备及基于多通路融合的多模态情感分类方法，所述电子设备通过响应用户输入的情感识别指令，获取待分类信号。并将分类信号中的语音信号、图像信号以及文本信号转化为分类数据。分别提取分类数据中语音数据、图像数据以及文本数据的情感特征，以得到音频情感特征、图像情感特征以及文本情感特征，并将上述情感特征进行特征融合，最后通过情感分类模型对情感融合特征进行情感预测，得到情感分类结果。本申请通过将音频、图像和文本三种模态的情感特征进行融合，并情感融合特征进行情感预测，能够从多个情感维度对情感数据进行识别，提高情感识别的准确度，加快情感分类效率，提高用户体验感。

Description

电子设备及基于多通路融合的多模态情感分类方法

技术领域

本申请涉及情感分类方法领域，尤其涉及一种电子设备及基于多通路融合的多模态情感分类方法。

背景技术

情感识别是通过观察表情、行为和情感产生的前提环境来推断情感状态。因为情感状态是内在的并包含生理和心理的变化，这样只能获得情感状态的一些可观测的东西，如表情、行为等等。为了更加准确的识别人类的情感，通常采用生理学的方法，第一种是检测测试者生理信号如呼吸、心律和体温等，第二种是检测测试者情感行为如面部特征表情识别、语音情感识别和姿态识别。

由于测试者的面部图像以及语音较易采集。所以，在情感识别领域，通常通过采集测试者的面部图像、说话语音以及说话的文本内容来进行情感识别。在情感识别领域，大多采用上述的其中一种作为检测的依据来辨别测试者情感。但是这样的单一模态情感识别结果的结果往往精度较低。因为人类在表达情感时往往具有模糊性，例如在处于愤怒、厌恶等负面情感状态时，测试者更倾向于控制自己的音调或者表情来隐藏自己的负面情绪。同时，单一模态信号相较于多模态信号而言，包含信息更少，不足以正确分析情感状态，造成情感分类的结果错误。

发明内容

本申请一些实施例提供一种基于多通路融合的多模态情感分类方法，以解决只根据单一模态的情感数据作为情感识别依据时，由于包含的情感信息较少，无法准确识别情感类别，造成情感分类的结果错误，降低用户体验感差的问题。

第一方面，本申请一些实施例提供一种电子设备，所述电子设备包括用户接口、存储器和控制器，其中，所述用户接口被配置为分别获取用户输入的语音信号、图像信号以及文本信号，所述存储器中存储有情感分类模型，所述控制器被配置为：

响应于用户输入的情感识别指令，获取待分类信号，所述待分类信号包括用户输入的语音信号、图像信号以及文本信号；

将所述待分类信号转化为分类数据，所述分类数据包括语音数据、图像数据以及文本数据；

对所述语音数据、所述图像数据以及文本数据进行情感特征提取，以得到音频情感特征、图像情感特征以及文本情感特征；

通过特征融合模块分别对所述音频情感特征、所述图像情感特征以及所述文本情感特征执行特征融合，得到情感融合特征；

通过所述情感分类模型对所述情感融合特征进行情感预测，得到情感分类结果。

第二方面，本申请一些实施例提供一种基于多通路融合的多模态情感分类方法，所述方法应用于电子设备，所述电子设备包括用户接口、存储器和控制器，其中，所述用户接口被配置为分别获取用户输入的语音信号、图像信号以及文本信号；所述存储器中存储有情感分类模型；所述方法包括：

由以上方案可知，本申请提供一种电子设备及基于多通路融合的多模态情感分类方法，所述电子设备通过响应用户输入的情感识别指令，获取待分类信号。并将分类信号中的语音信号、图像信号以及文本信号转化为分类数据。分别提取分类数据中语音数据、图像数据以及文本数据的情感特征，以得到音频情感特征、图像情感特征以及文本情感特征，并将上述情感特征进行特征融合，最后通过情感分类模型对情感融合特征进行情感预测，得到情感分类结果。本申请通过将音频、图像和文本三种模态的情感特征进行融合，并情感融合特征进行情感预测，能够从多个情感维度对情感数据进行识别，提高情感识别的准确度，加快情感分类效率，提高用户体验感。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中电子设备的使用场景；

图2为本申请实施例中电子设备的硬件配置图；

图3为本申请实施例中电子设备执行基于多通路融合的多模态情感分类方法的流程图；

图4为本申请实施例中电子设备获取音频情感特征的流程图；

图5为本申请实施例中电子设备获取图像情感特征的流程图；

图6为本申请实施例中残差神经网络的结构示意图；

图7为本申请实施例中电子设备获取文本情感特征的流程图；

图8为本申请实施例中电子设备获取情感融合特征的流程图；

图9为本申请实施例中电子设备通过构建注意力矩阵得到情感融合特征的流程示意图；

图10为本申请实施例中情感分类模型的训练损失计算流程图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请实施方式提供的电子设备可以具有多种实施形式，例如，可以是电视、激光投影设备、显示器(monitor)、电子白板(electronicbulletinboard)、电子桌面(electronictable)等。

图1为根据实施例中电子设备与控制装置之间操作场景的示意图。如图1所示，用户可通过控制设备300或控制装置100操作电子设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和电子设备200的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制电子设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制电子设备200。

在一些实施例中，也可以使用控制设备300(如移动电话、平板电脑、计算机、笔记本电脑等)以控制电子设备200。例如，使用在控制设备300上运行的应用程序控制电子设备200。

在一些实施例中，电子设备200可以不使用上述的控制设备300或控制装置100接收指令，而是通过触摸或者手势等接收用户的控制。

在一些实施例中，电子设备200还可以采用除了控制装置100和控制设备300之外的方式进行控制，例如，可以通过电子设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过电子设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，电子设备200还与服务器400进行数据通信。可允许电子设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向电子设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

如图2所示，电子设备200可以包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。

在一些实施例中，控制器250可以包括处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

显示器260可以包括以下组件，即：用于呈现画面的显示屏组件；驱动图像显示的驱动组件；用于接收源自控制器250输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面的组件等。

显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。电子设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。

用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

外部装置接口240可以包括但不限于如下：高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

控制器250，通过存储在存储器上中各种软件控制程序，来控制电子设备的工作和响应用户的操作。控制器250控制电子设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，控制器250包括中央处理器(CentralProcessingUnit，CPU)，视频处理器，音频处理器，图形处理器(GraphicsProcessingUnit，GPU)，RAMRandomAccessMemory，RAM)，ROM(Read-OnlyMemory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

情感是人对外部事件或对话活动的态度。人的情感一般分为：高兴、生气、悲伤、恐惧和惊喜等。机器对采集的人体信号进行分析，从而得到人的情感状态，这一过程就是情感识别。通常，能用来进行情绪识别的信号包括两个方面，一个是生理信号如呼吸、心率和体温，另一个是行为表现包括面部表情、语音和姿态等等。人脸与语音得益于简单的采集方式，经常被用来识别对象的情感。情感识别能帮助系统了解对象的情感状态以及其对某个话题或事件的态度。

情感识别是一种非常重要的技术手段，可以应用于多个领域，例如，在人工智能产品与用户交互的过程中，可以通过对用户的情感进行识别，以对用户的情感状态进行回应。在销售的过程中，可以根据用户对于销售产品的情感进一步制定销售策略。在医疗行业，可以通过对患者的情感识别，以确定患者的情绪状态等。

在情感识别领域，大多采用上述的其中一种作为检测的依据来辨别测试者情感。在一些实施例中，电子设备200可以通过获取用户的面部特征表情、说出语音或者作出的姿态作为情感识别的数据，并通过以上数据的一种进行对用户的情感进行识别。但是这样的单一模态情感识别结果的结果往往精度较低。因为用户在表达情感时往往具有模糊性，例如在处于愤怒、厌恶等负面情感状态时，用户更倾向于控制自己的音调或者表情来隐藏自己的负面情绪。同时，单一模态信号相较于多模态信号而言，包含信息更少，不足以正确分析情感状态，造成情感分类的结果错误。

为提高情感识别的准确性，本申请的部分实施例提供一种电子设备200，所述电子设备200应至少包括用户接口280、存储器以及控制器250，其中，所述控制器250被配置为执行一种基于多通路融合的多模态情感分类方法，如图3所示，包括以下内容：

S100：响应于用户输入的情感识别指令，获取待分类信号。

其中，所述情感识别指令用于对用户通过用户接口280输入的待分类信号进行情感识别。所述待分类信号包括用户输入的语音信号、图像信号以及文本信号。在待分类信号中，被测者可以向用户接口中的音频输入接口输入一段测试音频。在输入所述测试音频之后，控制器250可以控制音频处理器将被测者发出的测试音频处理为语音信号。

所述语音信号是根据被测者所发出的语音生成的信号，语音信号可以为被测者说出一段话、一个词语，也可以为被测者发出的叫声、呐喊声等。例如，被测者受到惊吓时或者收到惊喜时所发出的声音。

所述图像信号是根据捕捉被测者的面部表情的图像所生成的信号，图像信号中的面部表情可以为高兴、生气、悲伤、恐惧、惊喜、无奈、惊吓等表情。用户可以将被测者的面部表情图像通过用户接口280输入至电子设备200中。控制器250可以控制图形处理器将面部表情图像处理为图像信号。

在不同的场景中，所拍摄被测者的面部表情图像会因场景的不同导致亮度不同，例如，在夜晚环境下拍摄出的面部表情图像较暗，在光线较为充足的环境下拍摄出的面部表情图像较为清晰。为了保证图像信号的准确转换，在一些实施例中，控制器250还可以对面部表情图像进行亮度调整，通过识别面部表情图像的背景亮度，将背景亮度调整为标准亮度。控制器250还可以同步将面部表情图像的饱和度、亮度值、色调等图像数值根据标准图像数值进行调整，以便于图形处理器在非特殊场景下对面部表情图像进行转换，得到更加准确的图像信号。

所述文本信号是根据用户输入的测试音频对应的文字内容生成的语音信号。在控制器250接收到测试音频之后，控制器250还可以调用转文本程序，并基于转文本程序对测试音频进行识别，得到测试音频对应的文本内容，并根据所述文本内容生成文本信号。

在一些实施例中，控制器250还可以获取用户通过控制装置100上输入的于所述测试音频相对应的文本内容，或者通过具有触屏功能的电子设备200的虚拟键盘输入对应的文本内容。对于测试音频为叫声、呐喊声等，控制器250可以根据测试音频的音域和频段确定测试音频的拟声词，例如“啊”、“哇”等作为测试音频的文本内容。

为了确保情感分类结果的准确性，所述语音信号、图像信号以及文本信号的对应内容应该为同一被测者在同一时间发出。例如，被测者在发出痛苦表情的同时说出“我好痛苦。”此时，对应的语音信号需要根据被测者说出“我好痛苦。”的音频生成，图像信号需要根据带有被测者痛苦表情的图像生成，文本信号需要根据“我好痛苦。”的文本生成，以确保所有待分类信号都是基于同一时间被测者发出的语音、面部图像以及说话文本生成。

S200：将所述待分类信号转化为分类数据。

由于语音信号、图像信号和文本信号分别为不同模态的信号，因此，控制器250难以对语音信号、图像信号和文本信号执行同一处理。

为了便于控制器250对不同模态信号进行处理，在一些实施例中，控制器250可以先将语音信号、图像信号和文本信号转化为同一格式的分类数据，其中，所述分类数据包括语音数据、图像数据以及文本数据。

所述语音数据由待分类信号中的语音信号转化而来，所述图像数据由待分类信号中的图像信号转化而来，所述文本数据由待分类信号中的文本信号转化而来。在一些实施例中，控制器250可以通过抽样、量化或者编码的方式将待分类信号转化为分类数据。

S300：对所述语音数据、所述图像数据以及文本数据进行情感特征提取。

在语音数据、图像数据以及文本数据中，分别包含对应的情感特征，控制器250需要对语音数据、图像数据以及文本数据进行情感特征提取，以便于后续对分类数据中的情感特征进行情感预测。

对于三种不同模态的分类数据，可以采用不同的情感特征提取方法，在一些实施例中，如图4所示，对于语音数据的情感特征提取，控制器250还可以执行以下方法：

S3011：将所述语音数据输入至高斯滤波器，以对所述语音数据进行补偿，得到补偿频谱。

由于电子设备200的发声系统会抑制语音数据的高频部分，难以识别高频域的频谱，造成无法对语音数据的语音情感特征进行准确识别。在控制器250将语音数据输入至高斯滤波器之后，得到的补偿频谱能够更加平坦，同时，可以通过高斯滤波器对语音数据进行补偿，以弥补受发声系统抑制的高频部分，使音域的识别更加准确。

S3012：对所述补偿频谱依次执行分帧操作和加窗操作，得到加窗频谱。

控制器250会按照时间序列将补偿频谱中的N的采样点集合，作为一帧观测单位，以进行分帧操作。通常情况下N的数值可以取256或512，涵盖的时间约为20～30ms，数值越大说明该帧的涵盖的时间越长。

在一些实施例中，为了避免相邻两帧的音域差距较大，控制器250会在相邻两帧之间设置有一段重叠区域，所述重叠区域中包含有M个采样点，M的值为N的1/2到1/3之间，以使相邻两帧之间能够平滑过渡。

在对补偿频谱进行分帧操作之后，控制器250会将每一帧频谱带入窗函数，以消除每一帧的开始与结束两端之间会造成语音数据的不连续性，造成频谱泄露。在控制器250对分帧之后的补偿频谱带入窗函数之后，得到加窗频谱。在本实施例中，可以采用的窗函数有方窗函数、汉明窗函数和汉宁窗函数等，根据窗函数的频域特性，常采用汉明窗。

S3013：通过傅里叶变换将所述加窗频谱转化为语音能量谱。

在时域上的变换很难表现出语音数据的特征，所以，在本实施例中，控制器250会将加窗频谱中的每一帧都经过傅里叶变换，以得到在频谱上的能量分布，将语音数据转换为频域上的能量分布来处理特征。在控制器250对加窗频谱进行傅里叶变换之后，还需要对变换之后的频谱取模平方得到语音数据的语音能量谱，以便更好的处理语音数据的特征。

S3014：将所述语音能量谱输入至梅尔滤波器，以消除所述语音能量谱的谐波，得到梅尔滤波数据。

控制器250将语音能量谱输入至梅尔滤波器，并通过梅尔滤波器将能量谱进行平滑化，并输出梅尔滤波数据。在本实施例中，通过消除语音能量谱的谐波，并凸显出语音能量谱中能量相对集中的区域，降低提取音频情感特征的运算量。

S3015：对所述梅尔滤波数据依次执行对数运算以及离散余弦变换，得到所述音频情感特征。

在梅尔滤波器输出梅尔滤波数据之后，控制器250根据上述得到的梅尔滤波数据计算计算对数能量，得到梅尔滤波能量。

在一些实施例中，如果存在多个梅尔滤波器，控制器250则根据每个梅尔滤波器输出的梅尔滤波数据计算对数能量，并对每个对数能量进行求和，得到梅尔滤波能量。

在计算出梅尔滤波能量之后，控制器250会将带入梅尔滤波能量至离散余弦变换，以求得梅尔滤波能量的系数参数，并根据系数参数确定音频情感特征。

在一些实施例中，如图5所示，对于图像数据的图像情感特征提取，控制器250还可以执行以下方法：

S3021：构建残差神经网络。

为了提取图像数据中的更深层次特征，在构建残差神经网络时，控制器250通常会构建层数更多的深度神经网络。在残差神经网络中，每一层可以使用一维卷积或者三维卷积的方式逐层提取所述图像数据中的特征，达到提取深层次特征的目的。

当构建的深度神经网络层数较多时，在提取图像数据中的特征的过程中，可能会出现梯度消失或者梯度爆炸等问题，造成图像数据的特征提取不够准确。因此，在本实施例中，控制器250可以通过残差神经网络消除在训练的过程中出现的梯度消失以及梯度爆炸等问题。

S3022：将所述图像数据输入所述残差神经网络中，得到所述图像情感特征。

图6为残差神经网络的结构示意图，残差神经网络由残差神经单元与激活函数组成，所输入残差神经单元的神经元为x，期望输出为F(x)。在输入之前，神经元x会被复制为两份，其中一份传送至残差神经单元进行层间运算，输出F(x)。另一份作为分支机构，与输出的F(x)叠加。如果深度神经网络在某层训练的过程中，已经达到最优解，此时F(x)的输出为0，说明无残差，输出即为所复制的另一份神经元x，此时说明x为最优输出。以此解决深度神经网络的梯度消失以及梯度爆炸的问题。

在通过残差神经网络训练得到深度神经网络之后，控制器250将图像数据输入至深度神经网络中，通过深度神经网络提取图像情感特征。

在一些实施例中，如图7所示，对于文本数据的文本情感特征提取，控制器250还可以执行以下方法：

在一些实施例中，控制器250还可以根据所述文本数据的读音对所述文本数据进行韵律预测，得到韵律预测数据。

在本实施例中，控制器250可以对大段文本进行韵律预测，例如，文本数据为“我不是讨厌你，我是嫉妒你。”控制器250根据文本数据的拼音韵母对其进行韵律预测之后得到的韵律预测数据为“wobushitaoyanni1woshijiduni2”其中，“1”和“2”分别表示文本中的逗号与句号。在一些实施例中，还可以使用其他区别于字母的符号表示文本中的标点符号，例如“@”、“￥”、“#”等，本实施例对此不做具体限制。

S3031：根据所述文本数据进行分词操作，得到分词数据。

在本实施例中，文本数据可以包括多个语种，以中文为例，中文句子中没有词的界限，因此神经网络在处理中文的文本数据之前，需对文本数据进行分词操作，才能更好的中文文本数据进行情感识别。

在本实施例中，控制器250还可以根据韵律预测数据，识别文本数据中的有效词语与无效词语，无效词语如语气词“啊”、“哦”等，或者表达上下连接关系的词，如“的”、“和”等。有效词语如表示人物的词语，如“你”、“我”、“他”或“她”等，表示动作的词语，如“打”、“坐”、“走”等，表示地点的词语，如“在家”、“在学校”等。控制器250按照有效词语与无效词语对文本数据进行分词操作，以准确划分文本数据的词语特征，便于后续提取文本情感特征。

在一些实施例中，控制器250还可以根据韵律预测数据，将文本数据中的无效词语剔除，控制器250仅保留文本数据中的有效词语，控制器250可以仅通过区别文本数据中的有效词语来对文本数据进行分词操作，以得到分词数据。

S3032：根据张量构建规则对所述分词数据构建文本张量，得到文本情感特征；

其中，所述张量构建规则为对文本语言赋予对应的张量数值的规则。在得到分词数据之后，控制器250需要按照张量构建规则对分词数据中的每一个词语或字构建张量。例如，分词数据为“我/其实/不是/讨厌/你/，/我/是/嫉妒/你。”根据张量构建规则对上述分词数据构建文本张量之后，得到的张量编码为：

“101,2769,1071,2141,679,3221,6374,1328,872,8024,2769,3221,2065,1971,872。上述编码即为文本情感特征。

在一些实施例中，在控制器250可以通过文本识别模型如Roberta中文预训练模型等技术手段来获取文本情感特征。

在控制器250分别得到音频情感特征、图像情感特征以及文本情感特征之后，还需要对音频情感特征、图像情感特征以及文本情感特征进行模态融合，即：

S400：通过特征融合模块分别对所述音频情感特征、所述图像情感特征以及所述文本情感特征执行特征融合，得到情感融合特征。

此时，控制器250首先从情感分类模型中调用特征融合模块，并将音频情感特征、图像情感特征以及文本情感特征分别输入至特征融合模块，通过特征融合模块将不同模态的情感特征进行交互并执行特征融合，得到情感融合特征。情感融合特征中包含不同模态的情感特征，使情感分类模型对被测者情感的识别检测更加精准。

具体的，在一些实施例中，控制器250在将音频情感特征、图像情感特征以及文本情感特征分别输入至特征融合模块之后，通过情感分类模型的编码器模块对特征融合模块中的音频情感特征、图像情感特征以及文本情感特征进行编码。编码器模块包括有音频编码器、图像编码器以及文本编码器，音频编码器对音频情感特征进行编码，得到音频情感编码。图像编码器对图像情感特征进行编码，得到图像情感编码。文本编码器对文本情感特征进行编码，得到文本情感编码。

如图8所示，在对上述三种模态情感特征分别进行编码之后，控制器250还会通过情感分类模型在音频情感编码、图像情感编码以及文本情感编码中提取模态隐向量。其中，所述模态隐向量包括音频情感隐向量、图像情感隐向量以及文本情感隐向量；模态隐向量分别能够体现对应模态的情感特征。

在控制器250分别得到三种模态的隐向量之后，可以通过情感分类模型的注意力机制，融合音频情感隐向量、图像情感隐向量以及文本情感隐向量，使得上述三种模态隐向量之间的特征进行充分交互，以得到情感融合特征。在本实施中，情感融合特征结合了三种模态隐向量中的所有特征，达到三种模态的情感特征的饱满状态。

在一些实施例中，控制器250可以通过构建注意力矩阵的方式来融合音频情感隐向量、图像情感隐向量以及文本情感隐向量。在本实施例中，控制器250根据情感分类模型的注意力机制对模态隐向量建立模态矩阵。对应于音频、图像以及文本三种不同的模态，模态矩阵包括图像注意力矩阵、音频注意力矩阵和文本注意力矩阵。

控制器250可以通过对图像注意力矩阵、音频注意力矩阵和文本注意力矩阵进行拼接的方式来对模态隐向量进行融合。在矩阵拼接的过程中，控制器250可以先对其中任意两种模态的注意力矩阵进行拼接，所得到的双模态矩阵再与另一种模态的注意力矩阵进行拼接。上述矩阵的拼接方式可以存在多种排列组合的方式，本实施例以先拼接图像注意力矩阵与音频注意力矩阵，后拼接文本注意力矩阵为例作为示例性说明。

如图9所示，控制器250首先将图像注意力矩阵与音频注意力矩阵进行拼接，得到图音注意力矩阵，图音注意力矩阵中包含图像情感隐向量以及音频情感隐向量的情感特征。为了提高矩阵的拼接效果，以及图像情感特征与音频情感特征的交互效果，控制器250需要通过情感分类模型对图音注意力矩阵执行卷积操作，以深层次的提取图音情感特征，得到双模态矩阵。

在得到双模态矩阵之后，控制器250需要将双模态矩阵与文本注意力矩阵进行拼接，以对第三种模态的情感特征进行融合，得到图音文注意力矩阵。融合之后，控制器250通过情感分类模型执行上述同样的操作，对图音文注意力矩阵进行卷积操作，提取深层次的图音文情感特征，得到三模态矩阵。最后，控制器250根据三模态矩阵，提取情感融合特征。

在上述拼接矩阵的过程中，控制器250还可以计算对应注意力矩阵的隐向量的线性映射数据。例如，控制器250计算音频情感隐向量的音频线性映射数据以及根据图像情感隐向量计算图像线性映射数据，以更直观的体现出音频情感隐向量与图像情感隐向量的情感特征，便于两种模态的注意力矩阵的特征交互。

然后，控制器250计算音频线性映射数据与图像线性映射数据的交互特征，并根据所述交互特征，对图像注意力矩阵与音频注意力矩阵进行拼接，得到图音注意力矩阵。同样的，控制器250在对图音注意力矩阵进行卷积操作，得到双模态矩阵之后，还可以使用相同的方法对双模态矩阵以及文本注意力矩阵执行同样的操作，得到三模态矩阵。本实施例在此不做赘述。

S500：通过所述情感分类模型对所述情感融合特征进行情感预测，得到情感分类结果。

在情感分类模型输出情感融合特征之后，控制器250会将情感融合特征作为输入重新输入至情感分类模型的全连接层，通过全连接层对情感融合特征进行情感预测。全连接层会将情感融合特征映射为情感预测向量，所述情感预测向量可以是独热编码的形式，独热编码(one-hot编码)是分类变量作为二进制向量的表示，要求将情感预测向量对于每种情感的分类值映射到整数值，然后每个整数值被表示为二进制向量。

例如，对“喜悦”与“悲伤”作为情感特征进行独热编码后得到“喜悦”的编码为“10”，第一位为有效位，“悲伤”的编码为“01”，第二位为有效位。控制器250可以根据情感预测向量映射到对应的情感特征的独热编码上，进行情感特征匹配，以得到情感预测结果。

在一些实施例中，控制器250在执行情感识别与分类之前，还需要对情感分类模型进行训练，具体的，控制器250会先获取用于对情感分类模型进行训练的样本模态数据。样本模态数据为处于同一情感状态标签的音频样本数据、图像样本数据以及文本样本数据。

在获得样本模态数据之后，控制器250将音频样本数据、图像样本数据以及文本样本数据输入至到训练模型的编码器模块中，编码器模块中的音频编码器会提取音频样本数据的音频样本特征，编码器模块中的图像编码器会提取图像样本数据的图像样本特征，编码器模块中的文本编码器会提取文本样本数据的文本样本特征。

在进行编码之后，控制器250融合音频样本特征、图像样本特征以及文本样本特征，以得到融合样本特征。此时，控制器250将融合样本特征输入至待训练模型的全连接层，通过全连接层对所提取的融合样本特征进行情感分类，并通过待训练模型输出情感预测结果。由于待训练模型未训练至收敛，所以训练过程中输出的情感预测结果会存在一定的特征损失，一般会通过情感预测结果中所包含的预测结果标签计算损失。

具体的，控制器250通过交叉熵函数计算预测结果标签与情感状态标签之间的交叉熵损失，以得到预测结果标签所识别的情感结果与情感状态标签所代表的情感结果之间的损失。在计算出交叉熵损失之后，控制器250计算交叉熵损失与特征融合损失的和，以得到待训练模型的训练损失。

在一些实施例中，控制器250还可以通过设置损失阈值的方式来判断待训练模型的收敛程度，如果训练损失小于损失阈值，说明情感分类模型达到收敛状态，控制器250则输出所述待训练模型的训练参数，以得到情感分类模型。如果训练损失大于损失阈值，说明情感分类模型还未收敛，控制器250则对情感分类模型继续迭代训练。

在上述实施例中，特征融合损失为融合音频样本特征、图像样本特征以及文本样本特征，以得到融合样本特征过程中出现的损失。为了准确获取特征融合损失，如图10所示，在一些实施例中，控制器250还可以将融合样本特征输入至待训练模型的解码器模块中，使用解码器模块对融合样本特征解码，得到重构特征。其中，对应于编码器模块，解码器模块包括音频解码器、图像解码器和文本解码器。重构特征包括图像重构特征、音频重构特征以及文本重构特征。

在上述过程中，控制器250将融合样本特征分别输入至音频解码器、图像解码器和文本解码器，以得到对应的图像重构特征、音频重构特征以及文本重构特征。然后，控制器250需要将重构特征与融合样本特征进行比对，通过计算重构特征与融合样本特征之间的曼哈顿距离来得到融合前后的特征损失。控制器250分别计算图像重构特征与图像样本特征的图像重构损失、音频重构特征与音频样本特征的音频重构损失以及文本重构特征与文本样本特征的文本重构损失，并对图像重构损失、音频重构损失以及所述文本重构损失，得到特征融合损失，并根据特征融合损失计算训练损失。待训练模型通过对特征融合损失进行训练，进一步特征模型的训练精度，提高情感分类效率。

在本申请的一些实施例中，还提供一种基于多通路融合的多模态情感分类方法，应用于上述记载的任意一种电子设备200，所述方法包括：

S100：响应于用户输入的情感识别指令，获取待分类信号，所述待分类信号包括用户输入的语音信号、图像信号以及文本信号；

S200：将所述待分类信号转化为分类数据，所述分类数据包括语音数据、图像数据以及文本数据；

S300：对所述语音数据、所述图像数据以及文本数据进行情感特征提取，以得到音频情感特征、图像情感特征以及文本情感特征；

S400：通过融合特征模块分别对所述音频情感特征、所述图像情感特征以及所述文本情感特征执行特征融合，得到情感融合特征；

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品可以存储在计算机可读存储介质中。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释本公开内容，从而使得本领域技术人员更好的使用所述实施方式。

Claims

1.一种电子设备，其特征在于，包括：

用户接口，被配置为分别获取用户输入的语音信号、图像信号以及文本信号；

存储器，所述存储器中存储有情感分类模型；

控制器，被配置为：

通过融合特征模块分别对所述音频情感特征、所述图像情感特征以及所述文本情感特征执行特征融合，得到情感融合特征；

2.根据权利要求1所述的电子设备，其特征在于，所述控制器执行对所述语音数据、所述图像数据以及文本数据进行情感特征提取，还被配置为：

将所述语音数据输入至高斯滤波器，以对所述语音数据进行补偿，得到补偿频谱；

对所述补偿频谱依次执行分帧操作和加窗操作，得到加窗频谱；

通过傅里叶变换将所述加窗频谱转化为语音能量谱；

将所述语音能量谱输入至梅尔滤波器，以消除所述语音能量谱的谐波，得到梅尔滤波数据；

对所述梅尔滤波数据依次执行对数运算以及离散余弦变换，得到所述音频情感特征。

3.根据权利要求2所述的电子设备，其特征在于，所述控制器执行对所述语音数据、所述图像数据以及文本数据进行情感特征提取，还被配置为：

构建残差神经网络；

将所述图像数据输入所述残差神经网络中，得到所述图像情感特征。

4.根据权利要求3所述的电子设备，其特征在于，所述控制器执行对所述语音数据、所述图像数据以及文本数据进行情感特征提取，还被配置为：

根据所述文本数据进行分词操作，得到分词数据；

根据张量构建规则对所述分词数据构建文本张量，得到文本情感特征；所述张量构建规则为对文本语言赋予对应的张量数值的规则。

5.根据权利要求1所述的电子设备，其特征在于，所述控制器执行通过融合特征模块分别对所述音频情感特征、所述图像情感特征以及所述文本情感特征执行特征融合，还被配置为：

通过所述情感分类模型的编码器模块对所述音频情感特征、所述图像情感特征以及所述文本情感特征进行编码，分别得到音频情感编码、图像情感编码以及文本情感编码；

在所述音频情感编码、所述图像情感编码以及所述文本情感编码中提取模态隐向量；所述模态隐向量包括音频情感隐向量、图像情感隐向量以及文本情感隐向量；

通过注意力机制融合所述音频情感隐向量、所述图像情感隐向量以及所述文本情感隐向量，得到情感融合特征。

6.根据权利要求5所述的电子设备，其特征在于，所述控制器执行融合所述音频情感隐向量、所述图像情感隐向量以及所述文本情感隐向量，还被配置为：

根据所述注意力机制以及所述模态隐向量建立模态矩阵；所述模态矩阵包括图像注意力矩阵、音频注意力矩阵和文本注意力矩阵；

拼接所述图像注意力矩阵和所述音频注意力矩阵，以得到图音注意力矩阵；

对所述图音注意力矩阵执行卷积操作，得到双模态矩阵；

拼接所述双模态矩阵和所述文本注意力矩阵，得到图音文注意力矩阵；

对所述图音文注意力矩阵执行卷积操作，得到三模态矩阵；

根据所述三模态矩阵提取情感融合特征。

7.根据权利要求6所述的电子设备，其特征在于，所述控制器执行拼接所述图像注意力矩阵和所述音频注意力矩阵，还被配置为：

根据所述音频情感隐向量计算音频线性映射数据，以及，根据所述图像情感隐向量计算图像线性映射数据；

计算所述音频线性映射数据与所述图像线性映射数据的交互特征；

根据所述交互特征拼接所述图像注意力矩阵和所述音频注意力矩阵，得到图音注意力矩阵。

8.根据权利要求1所述的电子设备，其特征在于，所述控制器还被配置为：

获取样本模态数据；所述样本模态数据为处于同一情感状态标签的音频样本数据、图像样本数据以及文本样本数据；

将所述音频样本数据、所述图像样本数据以及所述文本样本数据输入至待训练模型的编码器模块中，以提取音频样本特征、图像样本特征以及文本样本特征；

融合所述音频样本特征、所述图像样本特征以及所述文本样本特征，得到融合样本特征；

将所述融合样本特征输入至所述待训练模型的全连接层，以得到所述待训练模型输出的情感预测结果；所述情感预测结果中包含预测结果标签；

计算所述预测结果标签与情感状态标签之间的交叉熵损失；

对所述交叉熵损失与特征融合损失求和，得到训练损失；所述特征融合损失为融合所述音频样本特征、所述图像样本特征以及所述文本样本特征的过程中的损失；

如果所述训练损失小于所述损失阈值，则输出所述待训练模型的训练参数，以得到情感分类模型。

9.根据权利要求8所述的电子设备，其特征在于，所述控制器还被配置为：

将所述融合样本特征输入至所述待训练模型的解码器模块中，以得到重构特征；所述重构特征包括图像重构特征、音频重构特征以及文本重构特征；

分别计算所述图像重构特征与所述图像样本特征的图像重构损失、所述音频重构特征与所述音频样本特征的音频重构损失以及文本重构特征与所述文本样本特征的文本重构损失；

叠加所述图像重构损失、所述音频重构损失以及所述文本重构损失，得到所述特征融合损失。

10.一种基于多通路融合的多模态情感分类方法，应用于电子设备，所述电子设备包括用户接口、存储器和控制器，其中，所述用户接口被配置为分别获取用户输入的语音信号、图像信号以及文本信号；所述存储器中存储有情感分类模型；其特征在于，所述方法包括：