CN112686048A

CN112686048A - 基于语音、语义、面部表情融合的情绪识别方法及装置

Info

Publication number: CN112686048A
Application number: CN202011540307.2A
Authority: CN
Inventors: 曲道奎; 卢裕; 张舟航; 杜振军; 陈烁; 沈露
Original assignee: Shenyang Siasun Robot and Automation Co Ltd
Current assignee: Shenyang Siasun Robot and Automation Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-04-20
Anticipated expiration: 2040-12-23
Also published as: CN112686048B

Abstract

本发明涉及智能识别技术领域，具体涉及一种基于语音、语义、面部表情融合的情绪识别方法及装置。该方法及装置通过对音频文件进行分类处理操作，得到待测语音数据以及待测语义文本数据；将待测语义文本数据输入训练好的语义情绪深度学习模型进行情绪识别，得到各情绪倾向对应的语义情绪得分；将待测语音数据输入训练好的语音情绪深度学习模型进行情绪识别，得到各情绪类型对应的语音情绪得分；对视频文件进行预处理，得到待测视频图像数据；将待测视频图像数据输入训练好的图像情绪深度学习模型进行情绪识别，得到各情绪类型对应的图像情绪得分，本发明基于语音、语义、面部表情融合的情绪识别方法及装置能够提高获取待测对象情绪的准确率。

Description

基于语音、语义、面部表情融合的情绪识别方法及装置

技术领域

本发明涉及智能识别技术领域，具体而言，涉及一种基于语音、语义、面部表情融合的情绪识别方法及装置。

背景技术

随着机器学习与人工智能，以及人类行为学研究的发展，人们对人类情绪表达的研究越发重视。传统技术进行情绪识别，一般都是单纯的使用语音或者视觉的方式去识别人们当前的情绪，这种单一的识别方式往往准确率不高，出现误识别的情况。

而单纯靠通过视觉方法识别人们的情绪，有的人在喜悦、愤怒、悲伤等情绪时，所表现出的面部表情是不同的；再或者只使用语音方式来识别人们的情绪，通常识别结果会受到方言，说话人口齿是否清晰，以及周围环境的影响，降低了语音识别的准确率。

还有就是通过多种传感器采集例如人体的肌电、心跳、脉搏、血压等生体信息，来判断人们的情绪，这种方法虽然准确度很高，但是成本很高，而且需要丰富的专业知识，使用复杂度高。

发明内容

本发明实施例提供了一种基于语音、语义、面部表情融合的情绪识别方法及装置，以至少解决传统识别技术方式识别准确率不高的技术问题。

根据本发明的一实施例，提供了一种基于语音、语义、面部表情融合的情绪识别方法，包括以下步骤：

获取待测的音频文件以及视频文件；

对音频文件进行分类处理操作，得到处理后的待测语音数据以及待测语义文本数据；

将待测语义文本数据输入训练好的语义情绪深度学习模型进行情绪识别，得到各情绪倾向对应的语义情绪得分；

将待测语音数据输入训练好的语音情绪深度学习模型进行情绪识别，得到各情绪类型对应的语音情绪得分；

对视频文件进行预处理，得到待测视频图像数据；

将待测视频图像数据输入训练好的图像情绪深度学习模型进行情绪识别，得到各情绪类型对应的图像情绪得分。

进一步地，该方法还包括：

针对每种情绪类型，分别对语音情绪得分以及图像情绪得分进行平滑处理，得到处理后各自对应的平滑语音情绪得分以及平滑图像情绪得分；

对平滑语音情绪得分以及平滑图像情绪得分进行加权计算，得到各情绪类型的加权情绪得分；

获取加权情绪得分中最高得分数值对应的情绪类型，以及语义情绪得分中最高得分数值对应的情绪倾向作为待测对象的情绪。

进一步地，分别对语音情绪得分以及图像情绪得分进行平滑处理，得到处理后各自对应的平滑语音情绪得分以及平滑图像情绪得分的步骤包括：

分别对语音情绪得分以及图像情绪得分采用中值滤波算法进行平滑处理，得到处理后各自对应的平滑语音情绪得分以及平滑图像情绪得分。

进一步地，对平滑语音情绪得分以及平滑图像情绪得分进行加权计算，得到各情绪类型的加权情绪得分的步骤包括：

对平滑语音情绪得分以及平滑图像情绪得分采用指数加权平均算法进行加权计算，得到各情绪类型的加权情绪得分。

进一步地，该方法还包括：

将采集到的原始语义文本数据进行向量化处理，得到向量训练数据；

将向量训练数据输入预先构建的原始语义情绪深度学习网络进行训练，得到基础语义情绪深度学习模型；

对基础语义情绪深度学习模型进行优化操作，得到语义情绪深度学习模型。

进一步地，该方法还包括：对待测语音数据进行语音特征预处理，得到待测语音特征数据。

进一步地，该方法还包括：

将采集到的原始语音数据进行声音特征提取，得到声音特征训练数据；

将声音特征训练数据输入预先构建的原始语音情绪深度学习网络进行训练，得到基础语音情绪深度学习模型；

对基础语音情绪深度学习模型进行优化操作，得到语音情绪深度学习模型。

进一步地，对视频文件进行预处理，得到待测视频图像数据的步骤包括：

将视频文件解压为帧图像数据；

将帧图像数据进行格式处理操作，得到待测视频图像数据。

进一步地，该方法还包括：

采集原始面部图像样本数据；

将采集到的原始面部图像样本数据进行格式处理操作，得到面部图像格式数据；

将面部图像格式数据输入预先构建的原始图像情绪深度学习网络进行训练，得到基础图像情绪深度学习模型；

对基础图像情绪深度学习模型进行优化操作，得到图像情绪深度学习模型。

根据本发明的另一实施例，提供了一种基于语音、语义、面部表情融合的情绪识别装置，包括：

文件获取模块，用于获取待测的音频文件以及视频文件；

语音本地处理模块，用于对音频文件进行分类处理操作，得到处理后的待测语音数据以及待测语义文本数据；

语义情绪处理模块，用于将待测语义文本数据输入训练好的语义情绪深度学习模型进行情绪识别，得到各情绪倾向对应的语义情绪得分；

语音情绪处理模块，用于将待测语音数据输入训练好的语音情绪深度学习模型进行情绪识别，得到各情绪类型对应的语音情绪得分；

视觉本地处理模块，用于对视频文件进行预处理，得到待测视频图像数据；

视觉情绪处理模块，用于将待测视频图像数据输入训练好的图像情绪深度学习模型进行情绪识别，得到各情绪类型对应的图像情绪得分。

本发明实施例中的基于语音、语义、面部表情融合的情绪识别方法及装置，通过对获取待测的音频文件进行分类处理操作，得到处理后的待测语音数据以及待测语义文本数据；同时，对视频文件进行预处理，得到待测视频图像数据，以保证数据的准确性和完整性，能够提高后续利用模型进行识别的效率；然后，通过将待测语义文本数据、待测语音数据以及待测视频图像数据，分别输入到各自对应的模型中进行情绪识别，以准确获取各情绪类型分别对应的语义情绪得分、语音情绪得分以及图像情绪得分，本发明基于语音、语义、面部表情融合的情绪识别方法及装置能够提高获取待测对象情绪的准确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明基于语音、语义、面部表情融合的情绪识别方法的场景示意图；

图2为本发明基于语音、语义、面部表情融合的情绪识别方法的流程图；

图3为本发明基于语音、语义、面部表情融合的情绪识别方法的平滑处理以及加权计算流程图；

图4为本发明基于语音、语义、面部表情融合的情绪识别方法的训练语义情绪深度学习模型流程图；

图5为本发明基于语音、语义、面部表情融合的情绪识别方法的训练语音情绪深度学习模型流程图；

图6为本发明基于语音、语义、面部表情融合的情绪识别方法的视频文件进行预处理流程图；

图7为本发明基于语音、语义、面部表情融合的情绪识别方法的训练图像情绪深度学习模型流程图；

图8为本发明基于语音、语义、面部表情融合的情绪识别装置的场景示意图；

图9为本发明基于语音、语义、面部表情融合的情绪识别装置的模块图；

图10为本发明基于语音、语义、面部表情融合的情绪识别装置的平滑处理以及加权计算模块图；

图11为本发明基于语音、语义、面部表情融合的情绪识别装置的训练语义情绪深度学习模型模块图；

图12为本发明基于语音、语义、面部表情融合的情绪识别装置的训练语音情绪深度学习模型模块图；

图13为本发明基于语音、语义、面部表情融合的情绪识别装置的视频文件进行预处理模块图；

图14为本发明基于语音、语义、面部表情融合的情绪识别装置的训练图像情绪深度学习模型模块图；

图15为本发明基于语音、语义、面部表情融合的情绪识别方法的图像情绪识别的部分网络结构图；

图16为本发明基于语音、语义、面部表情融合的情绪识别方法的构建深度神经网络示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明一实施例，提供了一种基于语音、语义、面部表情融合的情绪识别方法，参见图1至图2，包括以下步骤：

S1：获取待测的音频文件以及视频文件。

在本实施例中，待测的音频文件以及视频文件是通过传感器或摄像头等设备对待测对象进行语音以及面部动作的采集，分别存储为该音频文件以及该视频文件。

具体地，获取待测的音频文件以及视频文件的方式具体可以是手动导入或者自动定时从本地数据库中获取，或者自动定时从第三方视频数据库中爬取等，还可以是其他获取方式，此处不作具体限制，其中，第三方视频库具体可以是网络视频平台的数据库。

其中，手动导入为通过接收客户端的用户输入的文件地址，从该文件地址中获取本地数据库存储的音频文件以及视频文件。

其中，自动定时从本地数据库中获取具体可以是启动定时获取任务获取音频文件以及视频文件，其中，定时获取任务具体可以是按照预设的时间间隔进行读取。优选地，时间间隔可以设置为20分钟、10分钟或5分钟，但并不限于此，其具体可以根据实际应用的需要进行设置，此处不作具体限制。

S2：对音频文件进行分类处理操作，得到处理后的待测语音数据以及待测语义文本数据。

具体地，对音频文件进行分类处理操作，可以是将音频文件输入预先采用数学编程软件MATLAB R2016a构造好的语音分类模型中，提取音频文件中的语音信号，并对提取到的语音信号进行数据分析，输出语音信号对应的语义文本数据，以及对音频文件进行除杂过滤，得到清晰度较高的语音数据，还可以采用其他软件对音频文件进行分类处理操作，此处不作具体限制。

S3：将待测语义文本数据输入训练好的语义情绪深度学习模型进行情绪识别，得到各情绪倾向对应的语义情绪得分。

在本实施例中，情绪倾向具体可以是积极、消极以及中性等情绪倾向。

具体地，本实施例通过将待测语义文本数据输入训练好的语义情绪深度学习模型进行语义特征提取，然后，利用该训练好的语义情绪深度学习模型对提取出的语义特征进行进一步地特征分析，输出当前文本的感情倾向，即输出文本中所蕴含的积极、消极以及中性的情绪倾向对应的语义情绪得分，能够直观反映各情绪倾向的语义情绪得分，保证语义情绪识别的准确率。

例如，假设一个待测语义文本数据为“我今天非常的开心”，将该待测语义文本数据输入到训练好的语义情绪深度学习模型中进行语义特征提取，如“我、今天、非常、的、开心”，然后，对该语义特征提取进行进一步地特征分析，输出情绪倾向的语义情绪得分，例如分别为积极2分、中性1分、消极0分。

需要说明的是，本实施例还通过机器学习支持向量机(SVM)对待测语义文本数据进行情绪分析，以获取文本中所蕴含的积极、消极和中性的情绪倾向的判断结果；还可以是通过机器学习的方法与深度学习的方法相结合，对待测语义文本数据进行情绪分析，以保证语义情绪识别的准确率，还可以采用其他方式，此处不作具体限制。

S4：将待测语音数据输入训练好的语音情绪深度学习模型进行情绪识别，得到各情绪类型对应的语音情绪得分。

在本实施例中，情绪类型具体可以是高兴、惊讶、悲伤、中性、厌恶、害怕等情绪类型。

具体地，本实施例通过对待测语音数据进行声音特征提取，进一步地，利用该训练好的语音情绪深度学习模型对提取出的声音特征进行进一步地特征分析，输出当前语音数据的情绪倾向，即输出语音数据中所蕴含的高兴、惊讶、悲伤、中性、厌恶、害怕等的情绪类型对应的语音情绪得分，能够直观反映各情绪类型的语音情绪得分，保证语音情绪识别的准确率。

例如，假设一个待测语音数据为“我今天非常的开心”，对该待测语音数据输入进行声音特征提取，如MFCC、过零率等，然后，对该声音特征进行进一步地特征分析，输出情绪类型的语音情绪得分，例如分别为高兴2分、惊讶1分、悲伤0分、中性1分、厌恶0分、害怕0分。

S5：对视频文件进行预处理，得到待测视频图像数据。

在本实施例中，由于数据必须以正确的形式输入到机器学习算法或深度学习模型中才能获得较为准确的结果，所以本实施例对视频文件进行预处理，获取数据格式正确的待测视频图像数据，以保证后续对该待测视频图像数据的准确识别。

具体地，对视频文件进行预处理，具体将视频文件转换为图像数据，可以采用如视频转图片软件(Video to Picture)，或者是其他方式，此处不作具体限制。

进一步地，本实施例按照适用于训练好的图像情绪深度学习模型的数据格式，将图像数据进行格式转换，以得到格式适合的待测视频图像数据。

S6：将待测视频图像数据输入训练好的图像情绪深度学习模型进行情绪识别，得到各情绪类型对应的图像情绪得分。

在本实施例中，参见图15至图16，训练好的图像情绪深度学习模型具体可以包括识别待测视频图像数据的输入层，用于表情特征提取的卷积层，用于对特征序列线性分析采样层，用于特征序列平滑处理的平滑层，用于特征序列进行情绪分类的全连接层，以及输出情绪类型的图像情绪得分的输出层。

具体地，本实施例通过将待测视频图像数据输入训练好的图像情绪深度学习模型通过卷积进行面部表情特征提取，然后，将卷积结果序列进行组合作为一个具有时间维度的特征序列，进而，将时间维度的特征序列送入下一层的非线性采样层和平滑层进行处理，进一步地，全连接层进行分类得到“表情识别”的分类结果，最后通过输出层输出当前视频图像数据的情绪倾向，即输出视频图像数据中所蕴含的高兴、惊讶、悲伤、中性、厌恶、害怕等的情绪类型对应的图像情绪得分，能够直观反映各情绪类型的图像情绪得分，保证图像情绪识别的准确率。

本发明实施例中的基于语音、语义、面部表情融合的情绪识别方法，通过对获取待测的音频文件进行分类处理操作，得到处理后的待测语音数据以及待测语义文本数据；同时，对视频文件进行预处理，得到待测视频图像数据，以保证数据的准确性和完整性，能够提高后续利用模型进行识别的效率；然后，通过将待测语义文本数据、待测语音数据以及待测视频图像数据，分别输入到各自对应的模型中进行情绪识别，以准确获取各情绪类型分别对应的语义情绪得分、语音情绪得分以及图像情绪得分，本发明基于语音、语义、面部表情融合的情绪识别方法能够提高获取待测对象情绪的准确率；本发明计算复杂度低，简便实用，成本低。

需要说明的是，本实施例还通过将基于语音、语义、面部表情融合的情绪识别方法封装为软件开发工具包(SDK)，以便于用户可以在SDK中，分别使用语音或者语义或者视觉的方法进行情绪识别，还可以调用融合后的方法，获得当前的情绪，且SDK可以将主要的、比较耗时的算法部署在云端，以有效的节省了用户的计算复杂度以及资源，还节省了用户的成本和人力。

作为优选的技术方案中，参见图3，在步骤S6之后，该方法还包括：

S31：针对每种情绪类型，分别对语音情绪得分以及图像情绪得分进行平滑处理，得到处理后各自对应的平滑语音情绪得分以及平滑图像情绪得分。

具体地，由于通过使用深度学习模型进行情绪识别，对大量的声音特征或表情特征进行提取以及分析处理，会输出各个情绪类型分别对应的语音情绪得分以及图像情绪得分，数据复杂度较高，容易导致识别误差，为了进一步保证情绪识别的准确性，本实施例通过对获取到的语音情绪得分以及图像情绪得分进行分数筛选，以使每种情绪类型对应得分数据变的平滑，通过偏差修正来减少后续加权算法的误差，以保证情绪识别的准确率。

S32：对平滑语音情绪得分以及平滑图像情绪得分进行加权计算，得到各情绪类型的加权情绪得分。

具体地，为进一步减少情绪识别的误差，同时在一定程度上提高情绪识别效率，本实施例通过将在步骤S31中获取到的平滑语音情绪得分以及平滑图像情绪得分进行加权计算，由于加权计算的计算复杂度小，计算效率高，故能够准确快速的获取各情绪类型的加权情绪得分。

S33：获取加权情绪得分中最高得分数值对应的情绪类型，以及语义情绪得分中最高得分数值对应的情绪倾向作为待测对象的情绪。

具体地，将在步骤S32中获取到的各情绪类型的加权情绪得分进行两两之间的相互比较，以获取加权情绪得分中的最高得分数值，同理，可获取语义情绪得分中的最高得分数值。

进一步地，得分数值越高，则可以为该得分数值对应的情绪类型或情绪倾向在待测对象的情绪中表现得越明显，故本实施例通过将加权情绪得分中最高得分数值对应的情绪类型，以及语义情绪得分中最高得分数值对应的情绪倾向作为待测对象的情绪。

作为优选的技术方案中，针对每种情绪类型，分别对语音情绪得分以及图像情绪得分进行平滑处理，得到处理后各自对应的平滑语音情绪得分以及平滑图像情绪得分的步骤包括：

具体地，本实施例通过偏差修正来减少后续加权算法的误差，可以是采用中值滤波算法来对语音情绪得分以及图像情绪得分进行平滑处理，其中，中值滤波的算法简便易使用，具体是通过将与大多数语音情绪得分以及图像情绪得分中得分数值偏差比较大的数据进行筛选或过滤，以使过滤后的数据变的平滑，从而保证情绪识别的准确率，还可以通过其他算法对分别对语音情绪得分以及图像情绪得分进行平滑处理，此处不作具体限制。

作为优选的技术方案中，对平滑语音情绪得分以及平滑图像情绪得分进行加权计算，得到各情绪类型的加权情绪得分的步骤包括：

具体地，在经过平滑处理后产生的五种滤波后的平滑语音情绪得分以及平滑图像情绪得分，为进一步减少情绪识别的误差，同时在一定程度上提高情绪识别效率，本实施例通过“指数加权平均算法”的计算方法，预先为这五种情绪类型进行人工赋予不同的权值，并保证让这五种权值的合为1，最后将五种情绪的平滑语音情绪得分以及平滑图像情绪得分进行相加，然后，取平均值，进而可以获取到得分最高的情绪类型，以作为最终情绪类型来输出，以实现对当前被监测对象的情绪的准确识别。

作为优选的技术方案中，参见图4，在步骤S3之前，该方法还包括：

S41：将采集到的原始语义文本数据进行向量化处理，得到向量训练数据。

具体地，为了使原始语义文本数据能够更好在原始语义情绪深度学习网络进行识别训练，本实施例通过将采集到的原始语义文本数据进行向量化处理，通过原始语义文本数据进行训练或者采用第三方词典完成从原始语义文本数据至向量的转化，以得到向量训练数据便于后续原始语义情绪深度学习网络的识别。

其中，第三方词典具体可以是描述词汇情绪的情绪字典，包含有大量的情绪标签，也可用于推断出语句的情绪倾向。

S42：将向量训练数据输入预先构建的原始语义情绪深度学习网络进行训练，得到基础语义情绪深度学习模型。

具体地，将在步骤S41中获取到的向量训练数据作为原始语义情绪深度学习网络的输入，将预先经过人工标记的情绪倾向作为该原始语义情绪深度学习网络的输出，其中，本实施例是通过以CNN、LSTM等网络为基础完成模型的构建，能够通过使用足够大的数据集来完成原始语义情绪深度学习网络的训练，以获取基础语义情绪深度学习模型，并将基础语义情绪深度学习模型保存以备后用。

S43：对基础语义情绪深度学习模型进行优化操作，得到语义情绪深度学习模型。

具体地，对基础语义情绪深度学习模型进行优化操作，是为了能够进一步提高基础语义情绪深度学习模型中各算法的性能，故本实施例通过改变算法学习的速率，即学习率，来对基础语义情绪深度学习模型进行不断的训练和调整，以获取情绪识别准确率较高的语义情绪深度学习模型。

作为优选的技术方案中，该方法还包括：对待测语音数据进行语音特征预处理，得到待测语音特征数据。

具体地，对待测语音数据进行语音特征预处理，本实施例是通过使用库函数处理待测语音数据，从中抽取出所需要的特征，例如MFCC、过零率等多个特征，以及一些特征的统计学属性，即待测语音特征数据，还可以通过其他方式对待测语音数据进行语音特征预处理，此处不作具体限制。

作为优选的技术方案中，参见图5，在步骤S4之前，该方法还包括：

S51：将采集到的原始语音数据进行声音特征提取，得到声音特征训练数据。

具体地，将采集到的原始语音数据进行声音特征提取，本实施例是通过使用库函数对原始语音数据进行特征提取，以获取声音特征训练数据。

S52：将声音特征训练数据输入预先构建的原始语音情绪深度学习网络进行训练，得到基础语音情绪深度学习模型。

具体地，将在步骤S51中获取到的声音特征训练数据作为原始语音情绪深度学习网络的输入，将预先经过人工标记的情绪类型作为该原始语音情绪深度学习网络的输出，其中，本实施例是通过以CNN、LSTM等网络为基础完成模型的构建，能够通过使用足够大的数据集来完成原始语音情绪深度学习网络的训练，以获取基础语音情绪深度学习模型，并将基础语音情绪深度学习模型保存以备后用。

S53：对基础语音情绪深度学习模型进行优化操作，得到语音情绪深度学习模型。

具体地，对基础语音情绪深度学习模型进行优化操作，是为了能够进一步提高基础语音情绪深度学习模型中各算法的性能，故本实施例通过改变算法学习的速率，即学习率，来对基础语音情绪深度学习模型进行不断的训练和调整，以获取情绪识别准确率较高的语音情绪深度学习模型。

作为优选的技术方案中，参见图6，步骤S5对视频文件进行预处理，得到待测视频图像数据的步骤包括：

S61：将视频文件解压为帧图像数据；

S62：将帧图像数据进行格式处理操作，得到待测视频图像数据。

在本实施例中，由于数据必须以正确的形式输入到机器学习算法或深度学习模型中才能获得较为准确的结果，所以本实施例通过将视频文件解压为帧图像数据，并将帧图像数据进行格式处理操作，以获取数据格式正确的待测视频图像数据，以保证后续对该待测视频图像数据的准确识别。

具体地，将视频文件解压为帧图像数据，本实施例可以按照帧速率对视频文件进行解压，能够得到每一帧对应的图像。

进一步地，本实施例按照适用于训练好的图像情绪深度学习模型的数据格式，将解压好的帧图像数据进行格式转换，以得到格式适合的待测视频图像数据。

作为优选的技术方案中，参见图7，在步骤S6之前，该方法还包括：

S71：采集原始面部图像样本数据。

在本实施例中，由于不同人的相同情绪具有较强的特异性，除了高兴以外的其他表情，都存在此类的问题，因此本实施例通过使用深度学习技术可以在一定程度上提升表情识别的效果。

具体地，采集原始面部图像样本数据，本实施例是采集需要进行训练识别的5种情绪：“正常”、“喜悦”、“惊讶”、“悲伤”、“愤怒”所对应的图片，需要获取足够的原始面部图像样本数据进行训练，例如，首先每种情绪采集1000张图片。

S72：将采集到的原始面部图像样本数据进行格式处理操作，得到面部图像格式数据。

在本实施例中，由于数据必须以正确的形式输入到机器学习算法或深度学习模型中才能获得较为准确的结果，所以本实施例对采集到的原始面部图像样本数据进行格式处理，获取数据格式正确的面部图像格式数据，有利于后续对该面部图像格式数据的识别和训练。

具体地，将采集到的原始面部图像样本数据进行格式处理操作，本实施例通过对原始面部图像样本数据依次进行清理(Cleaning)、格式化(Formatting)、采样(Sampling)、分解(Decomposition)等步骤，以实现原始面部图像样本数据的格式转换，以获取面部图像格式数据，还可以采用其他方式，此处不作具体限制。

S73：将面部图像格式数据输入预先构建的原始图像情绪深度学习网络进行训练，得到基础图像情绪深度学习模型。

具体地，将在步骤S72中获取到的面部图像格式数据作为原始图像情绪深度学习网络的输入，将预先经过人工标记的情绪类型作为该原始图像情绪深度学习网络的输出，其中，本实施例是通过以CNN、LSTM等网络为基础完成模型的构建，能够通过使用足够大的数据集来完成原始图像情绪深度学习网络的训练，以获取基础图像情绪深度学习模型，并将基础图像情绪深度学习模型保存以备后用。

S74：对基础图像情绪深度学习模型进行优化操作，得到图像情绪深度学习模型。

具体地，对基础图像情绪深度学习模型进行优化操作，是为了能够进一步提高基础图像情绪深度学习模型中各算法的性能，故本实施例通过改变算法学习的速率，即学习率，来对基础图像情绪深度学习模型进行不断的训练和调整，以获取情绪识别准确率较高的图像情绪深度学习模型。

实施例2

根据本发明的另一实施例，提供了一种基于语音、语义、面部表情融合的情绪识别装置，参见图8至图9，包括：

文件获取模块901，用于获取待测的音频文件以及视频文件；

语音本地处理模块902，用于对音频文件进行分类处理操作，得到处理后的待测语音数据以及待测语义文本数据；

语义情绪处理模块903，用于将待测语义文本数据输入训练好的语义情绪深度学习模型进行情绪识别，得到各情绪倾向对应的语义情绪得分；

语音情绪处理模块904，用于将待测语音数据输入训练好的语音情绪深度学习模型进行情绪识别，得到各情绪类型对应的语音情绪得分；

视觉本地处理模块905，用于对视频文件进行预处理，得到待测视频图像数据；

视觉情绪处理模块906，用于将待测视频图像数据输入训练好的图像情绪深度学习模型进行情绪识别，得到各情绪类型对应的图像情绪得分。

本发明实施例中的基于语音、语义、面部表情融合的情绪识别装置，通过对获取待测的音频文件进行分类处理操作，得到处理后的待测语音数据以及待测语义文本数据；同时，对视频文件进行预处理，得到待测视频图像数据，以保证数据的准确性和完整性，能够提高后续利用模型进行识别的效率；然后，通过将待测语义文本数据、待测语音数据以及待测视频图像数据，分别输入到各自对应的模型中进行情绪识别，以准确获取各情绪类型分别对应的语义情绪得分、语音情绪得分以及图像情绪得分，本发明基于语音、语义、面部表情融合的情绪识别装置能够提高获取待测对象情绪的准确率；本发明计算复杂度低，简便实用，成本低。

需要说明的是，本实施例还通过将基于语音、语义、面部表情融合的情绪识别方法封装为SDK，以便于用户可以在SDK中，分别使用语音或者语义或者视觉的方法进行情绪识别，还可以调用融合后的方法，获得当前的情绪，且SDK可以将主要的、比较耗时的算法部署在云端，以有效的节省了用户的计算复杂度以及资源，还节省了用户的成本和人力。

作为优选的技术方案中，参见图10，该装置还包括：

平滑处理模块101，用于分别对语义情绪得分、语音情绪得分以及图像情绪得分进行平滑处理，得到处理后各自对应的平滑文本情绪得分、平滑语音情绪得分以及平滑图像情绪得分。

加权计算模块102，用于对平滑文本情绪得分、平滑语音情绪得分以及平滑图像情绪得分进行加权计算，得到各情绪类型的加权情绪得分。

具体地，为进一步减少情绪识别的误差，同时在一定程度上提高情绪识别效率，本实施例通过将在平滑处理模块101中获取到的平滑语音情绪得分以及平滑图像情绪得分进行加权计算，由于加权计算的计算复杂度小，计算效率高，故能够准确快速的获取各情绪类型的加权情绪得分。

得分比较模块103，用于将各情绪类型的加权情绪得分进行比较，并将得分数值最高对应的情绪类型作为待测对象的情绪。

具体地，将在加权计算模块102中获取到的各情绪类型的加权情绪得分进行两两之间的相互比较，以获取加权情绪得分中的最高得分数值，同理，可获取语义情绪得分中的最高得分数值。

作为优选的技术方案中，平滑处理模块101包括：

针对每种情绪类型，分别语音情绪得分以及图像情绪得分采用中值滤波算法进行平滑处理，得到处理后各自对应的平滑语音情绪得分以及平滑图像情绪得分。

作为优选的技术方案中，加权计算模块102包括：

作为优选的技术方案中，参见图11，该装置还包括：

向量化处理模块111，用于将采集到的原始语义文本数据进行向量化处理，得到向量训练数据；

语义网络训练模块112，用于将向量训练数据输入预先构建的原始语义情绪深度学习网络进行训练，得到基础语义情绪深度学习模型；

具体地，将在向量化处理模块111中获取到的向量训练数据作为原始语义情绪深度学习网络的输入，将预先经过人工标记的情绪倾向作为该原始语义情绪深度学习网络的输出，其中，本实施例是通过以CNN、LSTM等网络为基础完成模型的构建，能够通过使用足够大的数据集来完成原始语义情绪深度学习网络的训练，以获取基础语义情绪深度学习模型，并将基础语义情绪深度学习模型保存以备后用。

语义模型优化模块113，用于对基础语义情绪深度学习模型进行优化操作，得到语义情绪深度学习模型。

作为优选的技术方案中，该装置还包括：对待测语音数据进行语音特征预处理，得到待测语音特征数据。

作为优选的技术方案中，参见图12，该装置还包括：

声音特征提取模块121，用于将采集到的原始语音数据进行声音特征提取，得到声音特征训练数据；

语音网络训练模块122，用于将声音特征训练数据输入预先构建的原始语音情绪深度学习网络进行训练，得到基础语音情绪深度学习模型；

具体地，将在声音特征提取模块121中获取到的声音特征训练数据作为原始语音情绪深度学习网络的输入，将预先经过人工标记的情绪类型作为该原始语音情绪深度学习网络的输出，其中，本实施例是通过以CNN、LSTM等网络为基础完成模型的构建，能够通过使用足够大的数据集来完成原始语音情绪深度学习网络的训练，以获取基础语音情绪深度学习模型，并将基础语音情绪深度学习模型保存以备后用。

语音模型优化模块123，用于对基础语音情绪深度学习模型进行优化操作，得到语音情绪深度学习模型。

作为优选的技术方案中，参见图13，视觉本地处理模块905包括：

视频文件解压单元9051，用于将视频文件解压为帧图像数据；

数据格式处理单元9052，用于将帧图像数据进行格式处理操作，得到待测视频图像数据。

作为优选的技术方案中，参见图14，该装置还包括：

样本数据采集模块141，用于采集原始面部图像样本数据；

样本格式处理模块142，用于将采集到的原始面部图像样本数据进行格式处理操作，得到面部图像格式数据；

图像网络训练模块143，用于将面部图像格式数据输入预先构建的原始图像情绪深度学习网络进行训练，得到基础图像情绪深度学习模型；

具体地，将在样本格式处理模块142中获取到的面部图像格式数据作为原始图像情绪深度学习网络的输入，将预先经过人工标记的情绪类型作为该原始图像情绪深度学习网络的输出，其中，本实施例是通过以CNN、LSTM等网络为基础完成模型的构建，能够通过使用足够大的数据集来完成原始图像情绪深度学习网络的训练，以获取基础图像情绪深度学习模型，并将基础图像情绪深度学习模型保存以备后用。

图像模型优化模块144，用于对基础图像情绪深度学习模型进行优化操作，得到图像情绪深度学习模型。

与现有的情绪识别方法相比，本发明基于语音、语义、面部表情融合的情绪识别方法及装置的优点在于：

1.本实施例通过分别获取语音、语义及面部表情对应的情绪得分，进而将各自的情绪得分经过滤波算法进行平滑处理，并将处理后的平滑情绪得分通过“加权”算法，以获取最终的准确的情绪识别结果；

2.本实施例通过采集各自需要的语音、文本、表情图片等样本数据，并将样本数据应用于“机器学习”和“深度学习”的方法中训练对应的模型，并对训练后的模型进行优化、迭代，修正训练中的误差，以使训练好的模型达到一个比较高情绪识别率；

3.本实施例能够通过将基于语音、语义、面部表情融合的情绪识别方法封装为SDK，以便于用户可以在SDK中，分别使用语音或者语义或者视觉的方法进行情绪识别，还可以调用融合后的方法，获得当前的情绪，且SDK可以将主要的、比较耗时的算法部署在云端，以有效的节省了用户的计算复杂度以及资源，还节省了用户的成本和人力。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的系统实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于语音、语义、面部表情融合的情绪识别方法，其特征在于，包括以下步骤：

获取待测的音频文件以及视频文件；

对所述音频文件进行分类处理操作，得到处理后的待测语音数据以及待测语义文本数据；

将所述待测语义文本数据输入训练好的语义情绪深度学习模型进行情绪识别，得到各情绪倾向对应的语义情绪得分；

将所述待测语音数据输入训练好的语音情绪深度学习模型进行情绪识别，得到各情绪类型对应的语音情绪得分；

对所述视频文件进行预处理，得到待测视频图像数据；

将所述待测视频图像数据输入训练好的图像情绪深度学习模型进行情绪识别，得到各情绪类型对应的图像情绪得分。

2.根据权利要求1所述的基于语音、语义、面部表情融合的情绪识别方法，其特征在于，在所述将所述待测视频图像数据输入训练好的图像情绪深度学习模型进行情绪识别，得到各情绪类型对应的图像情绪得分的步骤之后，所述方法还包括：

针对每种情绪类型，分别对所述语音情绪得分以及所述图像情绪得分进行平滑处理，得到处理后各自对应的平滑语音情绪得分以及平滑图像情绪得分；

对所述平滑语音情绪得分以及所述平滑图像情绪得分进行加权计算，得到各情绪类型的加权情绪得分；

获取所述加权情绪得分中最高得分数值对应的情绪类型，以及所述语义情绪得分中最高得分数值对应的情绪倾向作为待测对象的情绪。

3.根据权利要求2所述的基于语音、语义、面部表情融合的情绪识别方法，所述针对每种情绪类型，分别对所述语音情绪得分以及所述图像情绪得分进行平滑处理，得到处理后各自对应的平滑语义情绪得分、平滑语音情绪得分以及平滑图像情绪得分的步骤包括：

分别对所述语音情绪得分以及所述图像情绪得分采用中值滤波算法进行平滑处理，得到处理后各自对应的平滑语音情绪得分以及平滑图像情绪得分。

4.根据权利要求2所述的基于语音、语义、面部表情融合的情绪识别方法，其特征在于，所述对所述平滑语音情绪得分以及所述平滑图像情绪得分进行加权计算，得到各情绪类型的加权情绪得分的步骤包括：

对所述平滑语音情绪得分以及所述平滑图像情绪得分采用指数加权平均算法进行加权计算，得到各情绪类型的加权情绪得分。

5.根据权利要求1所述的基于语音、语义、面部表情融合的情绪识别方法，其特征在于，在所述将所述待测语义文本数据输入训练好的语义情绪深度学习模型进行情绪识别，得到各情绪倾向对应的语义情绪得分的步骤之前，所述方法还包括：

将所述向量训练数据输入预先构建的原始语义情绪深度学习网络进行训练，得到基础语义情绪深度学习模型；

对所述基础语义情绪深度学习模型进行优化操作，得到所述语义情绪深度学习模型。

6.根据权利要求1所述的基于语音、语义、面部表情融合的情绪识别方法，其特征在于，在所述将所述待测语音数据输入训练好的语音情绪深度学习模型进行情绪识别，得到各情绪类型对应的语音情绪得分的步骤之前，所述方法还包括：对所述待测语音数据进行语音特征预处理，得到待测语音特征数据。

7.根据权利要求6所述的基于语音、语义、面部表情融合的情绪识别方法，其特征在于，在对所述待测语音数据进行语音特征预处理，得到待测语音特征数据的步骤之前，所述方法还包括：

将所述声音特征训练数据输入预先构建的原始语音情绪深度学习网络进行训练，得到基础语音情绪深度学习模型；

对所述基础语音情绪深度学习模型进行优化操作，得到所述语音情绪深度学习模型。

8.根据权利要求1所述的基于语音、语义、面部表情融合的情绪识别方法，其特征在于，所述对所述视频文件进行预处理，得到待测视频图像数据的步骤包括：

将所述视频文件解压为帧图像数据；

将所述帧图像数据进行格式处理操作，得到所述待测视频图像数据。

9.根据权利要求1所述的基于语音、语义、面部表情融合的情绪识别方法，其特征在于，在所述将所述待测视频图像数据输入训练好的图像情绪深度学习模型进行情绪识别，得到各情绪类型对应的图像情绪得分的步骤之前，所述方法还包括：

采集原始面部图像样本数据；

将所述面部图像格式数据输入预先构建的原始图像情绪深度学习网络进行训练，得到基础图像情绪深度学习模型；

对所述基础图像情绪深度学习模型进行优化操作，得到所述图像情绪深度学习模型。

10.一种基于语音、语义、面部表情融合的情绪识别装置，其特征在于，包括：

文件获取模块，用于获取待测的音频文件以及视频文件；

语音本地处理模块，用于对所述音频文件进行分类处理操作，得到处理后的待测语音数据以及待测语义文本数据；

语义情绪处理模块，用于将所述待测语义文本数据输入训练好的语义情绪深度学习模型进行情绪识别，得到各情绪倾向对应的语义情绪得分；

语音情绪处理模块，用于将所述待测语音数据输入训练好的语音情绪深度学习模型进行情绪识别，得到各情绪类型对应的语音情绪得分；

视觉本地处理模块，用于对所述视频文件进行预处理，得到待测视频图像数据；

视觉情绪处理模块，用于将所述待测视频图像数据输入训练好的图像情绪深度学习模型进行情绪识别，得到各情绪类型对应的图像情绪得分。