CN111563422A

CN111563422A - 基于双模态情绪识别网络的服务评价获取方法及其装置

Info

Publication number: CN111563422A
Application number: CN202010303431.0A
Authority: CN
Inventors: 翟懿奎; 蒋润锦; 周文略; 柯琪锐; 张昕; 王天雷; 梁艳阳; 徐颖
Original assignee: Wuyi University
Current assignee: Wuyi University
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-21
Anticipated expiration: 2040-04-17
Also published as: CN111563422B

Abstract

本申请公开了一种基于双模态情绪识别网络的服务评价获取方法及其装置，通过预先训练好的特征提取网络从所获取的视频信息和语音信息中提取出视频特征和语音特征，并将所述视频特征和所述语音特征进行融合，将得出的融合特征输入至预先训练好的深度卷积神经网络中，所述深度卷积神经网络包括标签互不相同的第一分类器和第二分类器，通过所述第一分类器和所述第二分类器分别得出不同类型的第一评价信息和第二评价信息，使得合并后的服务评价信息更加客观和具有参考价值，并且，通过预先训练好的深度卷积神经网络实现了服务评价信息的自动获取，使得获取过程高效、准确且不会对客户造成打扰。

Description

基于双模态情绪识别网络的服务评价获取方法及其装置

技术领域

本申请涉及数据处理技术领域，特别是基于双模态情绪识别网络的服务评价获取方法及其装置。

背景技术

目前，越来越多的政府服务服务人员的服务质量对政府部门的形象和口碑有直接的影响，因此服务质量是政务大厅窗口单位考核评定的重要依据。为了对服务人员的服务质量进行考核，传统的做法是靠上级主管人为评分，但是主观性太强，不能客观反映服务人员的服务质量。市面上也出现了很多电子评分设备，客户在服务人员完成服务后主动进行评价，但是大多数客户为了方便并不会如实评价，因此现有的评价获取方法无法做到客观有效。

发明内容

为了克服现有技术的不足，本申请的目的在于提供一种基于双模态情绪识别网络的服务质量感知方法及其装置，能够根据服务过程的语音和视频自动完成服务评价。

本申请解决其问题所采用的技术方案是：第一方面，本申请提供了一种基于双模态情绪识别网络的服务评价获取方法，包括以下步骤：

获取视频信息和语音信息，将所述视频信息和所述语音信息输入至预先训练好的特征提取网络，分别提取出视频特征和语音特征；

将所提取的视频特征和语音特征进行特征融合，得出融合特征；

将所述融合特征输入至预先训练好的深度卷积神经网络，所述深度卷积神经网络包括标签互不相同的第一分类器和第二分类器；

获取所述第一分类器输出的第一评价信息和第二分类器输出的第二评价信息，将所述第一评价信息和所述第二评价信息合并成为服务评价信息。

进一步，所述获取视频信息和语音信息后，还包括：对所述视频信息和语音信息进行预处理。

进一步，所述视频信息的预处理具体包括以下步骤：

将所述视频信息分成若干帧视频图像；

将所述视频图像进行图像分割，得出若干个目标图像；

从所述目标图像中获取人脸图像，并将所述人脸图像转换为灰度图像。

进一步，所述视频特征为由人脸表情特征，所述人脸表情特征通过预先训练好的残差卷积神经网络从所述灰度图像中提取得出。

进一步，所述语音信息的预处理具体包括以下步骤：

对所述语音信息进行分帧加窗处理，得出语音分析帧；

对所述语音分析帧进行短时傅里叶变换，得出语音声谱图。

进一步，所述语音特征的提取具体包括以下步骤：

获取所述语音声谱图，通过所述特征提取网络从所述语音声谱图中提取出语音情感特征；

将所述语音情感特征进行PAC降维处理，得出语音特征。

进一步，所述将所提取的视频特征和语音特征的特征融合方式包括以下至少之一：

加权融合；

乘积融合；

最大值融合；

合并融合。

进一步，还包括：获取与所述服务评价信息所对应的服务人员信息。

第二方面，本申请提供了一种基于双模态情绪识别网络的服务评价获取装置，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如上述所述的基于双模态情绪识别网络的服务评价获取方法。

第三方面，本申请提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行如上所述的基于双模态情绪识别网络的服务评价获取方法。

第四方面，本申请还提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使计算机执行如上所述的基于双模态情绪识别网络的服务评价获取方法。

本申请实施例中提供的一个或多个技术方案，至少具有如下有益效果：本申请通过预先训练好的特征提取网络从所获取的视频信息和语音信息中提取出视频特征和语音特征，并将所述视频特征和所述语音特征进行融合，将得出的融合特征输入至预先训练好的深度卷积神经网络中，所述深度卷积神经网络包括标签互不相同的第一分类器和第二分类器，通过所述第一分类器和所述第二分类器分别得出不同类型的第一评价信息和第二评价信息，使得合并后的服务评价信息更加客观和具有参考价值，并且，通过预先训练好的深度卷积神经网络实现了服务评价信息的自动获取，使得获取过程高效、准确且不会对客户造成打扰。

附图说明

下面结合附图和实例对本申请作进一步说明。

图1是本申请一个实施例提供的一种基于双模态情绪识别网络的服务评价获取方法的流程图；

图2是本申请另一个实施例提供的应用基于双模态情绪识别网络的服务评价获取方法的系统的模块示意图；

图3是本申请另一个实施例提供的应用基于双模态情绪识别网络的服务评价获取方法中残差块的结构示意图；

图4是另一个实施例提供的应用基于双模态情绪识别网络的服务评价获取方法中残差卷积神经网络结构图；

图5是本申请另一个实施例提供的一种基于双模态情绪识别网络的服务评价获取方法的流程图；

图6是本申请另一个实施例提供的一种基于双模态情绪识别网络的服务评价获取方法的流程图；

图7是本申请另一个实施例提供的一种基于双模态情绪识别网络的服务评价获取方法的流程图；

图8是本申请另一个实施例提供的一种基于双模态情绪识别网络的服务评价获取方法的特征融合的编码器网络结构；

图9是本申请另一个实施例提供的一种基于双模态情绪识别网络的服务评价获取方法的特征融合的编码器移除解码器后的网络结构；

图10是本申请另一个实施例提供的一种用于执行基于双模态情绪识别网络的服务评价获取方法的装置示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本申请实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。

参考图1，本申请的实施例提供了一种基于双模态情绪识别网络的服务评价获取方法，包括以下步骤：

步骤S110，获取视频信息和语音信息，将视频信息和语音信息输入至预先训练好的特征提取网络，分别提取出视频特征和语音特征；

步骤S120，将所提取的视频特征和语音特征进行特征融合，得出融合特征；

步骤S130，将融合特征输入至预先训练好的深度卷积神经网络，深度卷积神经网络包括标签互不相同的第一分类器和第二分类器；

步骤S140，获取第一分类器输出的第一评价信息和第二分类器输出的第二评价信息，将第一评价信息和第二评价信息合并成为服务评价信息。

需要说明的是，参考图2，图2为应用本实施例基于双模态情绪识别网络的服务评价获取方法的服务评价获取系统的模块图，在该服务评价获取系统200中，包括用于采集视频信息的视频采集模块210，用于采集语音信息的语音采集模块220，用于建立通信并进行数据收发的通信模块230，用于根据所采集的语音信息和视频信息获取服务评价信息的评价信息获取模块240，用于将多个服务评价信息汇总的服务评价汇总模块250。可以理解的是，视频采集模块210可以是常见的摄像头等视频采集设备，语音采集模块220可以是常见的麦克风等拾音设备，通信模块230可以是常见的无线网络模块、蓝牙模块等，评价信息获取模块240和服务评价汇总模块250可以是搭载有本申请实施例的深度卷积神经网络算法的计算机设备，本申请并不涉及具体的硬件改进，能够实现相应的功能即可，在此不再赘述。

需要说明的是，图2所示的服务评价获取系统可以用于服务窗口等应用场景，能够采集语音信息和视频信息即可。

在一实施例中，语音信息和视频信息可以是语音片段或者视频片段，例如在服务窗口中设置麦克风和摄像头，检测到服务位置上有客户出现时，开始拾音和录制视频，检测到客户离开后停止拾音和停止录制视频，将所获取的语音片段作为语音信息，将所获取的视频片段获取视频信息，也可以在上述语音信息和视频信息中随机选取若干个片段分别进行服务评价信息的获取，根据实际需求选取即可。

在一实施例中，将视频特征和语音特征进行特征融合，将两种模态间的互补信息结合起来，通过神经网络编码、深度的关联和理解后进行综合判断，从而大幅度的提高了准确率。在特征级融合中，很难将一种模态中的原始特征与另一种模态中的特征联系起来，本实施例通过多模态的深度学习可以通过深度体系结构捕捉各种模态之间的关系，并提高性能。

在一实施例中，深度卷积网络可以是任意常见的网络结构，能够根据标签不同的两个分类器实现分类即可，例如可以通过两个不同的数据集进行训练，在本实施例中所获取的语音信息和视频信息中，由于每个客户说话时的语气和面部表情均与其情绪和满意度相关，而深度卷积神经网络可以从语音信息和视频信息中识别出对应的分类，例如识别出代表生气的语气和表情，或者识别出代表满意的语气和表情，具体的分类根据实际需求调整即可。以下以一个具体示例对深度卷积神经网络的训练进行举例说明：

数据集1：数据是图像和语音信息，标签是情绪，例如开心、愤怒、难过、中性；数据集2：数据是图像和语音信息，标签是满意度，例如很满意、一般满意、不满意。数据集1中数据是客户的图像和语音信息，对应的标签是情绪，该标签是人为标注；同时制作数据集2，可以是复制数据集1中收集的客户图像和语音信息，但不复制标签；数据集1和数据集2中的图像、语音信息是相同的，但标签不同。数据集2的采集可以是通过收集每位客户的图像、语音信息的同时，获取每位客户在服务完成后给服务人员评价的满意度评价；收集到了足够数量的图像、语音信息并且标签是服务质量的数据后汇总成数据集 2。

需要说明的是，为使输出得到情感分类结果，可以在双输入自动编码器后连接softmax分类器，该部分训练集融合后的特征数据集 {(x⁽¹⁾,y⁽¹⁾),…,(x⁽ⁱ⁾,y⁽ⁱ⁾),…,(x^(m),y^(m))}中，y⁽ⁱ⁾∈{1,2,…,k}, k表示待分类的情感类型数，例如k＝4，这4种感情分别是开心、愤怒、难过、中性，softmax分类器使用假设函数h_θ(x)对样本进行分类概率计算，h_θ(x)为如下公式：

其中：p(y⁽ⁱ⁾＝j|x⁽ⁱ⁾)表示第i个样本的输入x⁽ⁱ⁾属于类别j的概率；θ代表模型参数，通过

对概率分布进行归一化。此时，系统代价函数公式如下：

其中：l{·}为指示性函数，即1{值为真的表达式}＝1，1{值为假的表达式}＝0。而对J(θ)的最小化问题，本实施例采用梯度下降法迭代求解，保证收敛到全局最优解。梯度参数如公式所示:

将

代入梯度下降法更新参数，为了确保唯一解，添加权重衰减项修改代价函数，使代价函数变为严格的凸函数，防止网络训练过程中参数值过大，代价函数如下公式所示：

通过最小化J(θ)训练Softmax分类器可得到一个可用的回归模型。加入衰减项λθ_j后,梯度如公式所示。

需要说明的是，本实施例优选采用以下公式计算交叉熵损伤：

其中，log里面的值代表数据正确分类的Softmax 值，它占的比重越大，这个样本的Loss也就越小。

在一实施例中，第一评价信息可以是上述训练过程中所述的情绪信息，第二评价信息可以是上述训练过程中所述的满意度信息，可以通过任意方式将第一评价信息和第二评价信息合并成为服务评价信息，例如加权求和、乘积等，根据实际需求选取即可，在此不再赘述。

在本申请的另一个实施例中，获取视频信息和语音信息后，还包括：对视频信息和语音信息进行预处理。

在一实施例中，预处理能够对采集到的初始数据进行调整，使之成为符合深度卷积神经网络输入的数据，可以根据实际需求选取任意的预处理方法，在此不再赘述。

参考图5，在本申请的另一个实施例中，视频信息的预处理具体包括但不限于以下步骤：

步骤S510，将视频信息分成若干帧视频图像；

步骤S520，将视频图像进行图像分割，得出若干个目标图像；

步骤S530，从目标图像中获取人脸图像，并将人脸图像转换为灰度图像。

在一实施例中，步骤S510至步骤S550为本申请实施例优选的视频预处理方法，由于本申请实施例需要从面部表情中识别出客户的情绪，因此需要首先从视频信息中获取以帧为单位的视频图像，并对从视频图像中识别出人脸图像，再转换成灰度图像，通过深度卷积神经网络对人脸图像进行识别，有利于提高识别的准确度。

在本申请的另一个实施例中，视频特征为由人脸表情特征，人脸表情特征通过预先训练好的残差卷积神经网络从灰度图像中提取得出。

在一实施例中，视频特征可以是任意类型的特征，能够用于表达人的情绪即可，例如是本实施例中的人脸表情特征，人脸表情是情绪的最直接体现，能够提高服务评价判断的参考价值。

在一实施例中，特征提取网络可以是任意网络，本实施例优选是残差卷积神经网络，具体的网络参数根据实际需求选取即可，例如选取如图3所示的残差块和图4所示的残差卷积神经网络结构，以下结合图3和图4以一个具体示例对残差卷积神经网络进行举例说明，本实施例的残差卷积神经网络为ResNet网络，通过如图3所示的残差块构建残差卷积神经网络，该网络结构共有两层，表达式为： F＝W₂σ(W₁X)；其中σ是激活函数Relu。然后通过一个跳跃连接，和第二个网络层的输出进行相加,获得输出y，表达式为 y＝F(x,Wi)+x；定义一个残差块的形式为y＝F(x,Wi)+x,其中x和y 分别为残差块的输入和输出向量,F(x,Wi)为所要学习的残差映射的表达式。本实施例的ResNet并不用于学习一个完整的输出H(x)，仅用于输出和输入的差别H(x)-x，即残差。该残差可以从某一层获得激活，然后反馈给另外一层，也可以反馈给网络的更深层，利用跳跃连接可以构建残差网络ResNet来训练更深的网络，在本实施例中，可以构建出如图4所示的ResNet-34作为特征提取网络。需要说明的是，残差网络与普通网络不同的地方就是引入了跳跃连接,这可以使上一个残差块的信息没有阻碍的流入到下一个残差块,提高了信息流通,并且也避免了由与网络过深所引起的消失梯度问题和退化问题。残差网络是由多个浅的网络融合而成，能够在训练时不会出现消失的梯度问题,所以能够加速网络的收敛。

在一实施例中，还包括使用构建的由灰度图像构成的数据库进行模型训练，其中目标函数采用Focal loss。该损失函数降低了大量简单负样本在训练中所占的权重，公式如下：FL(p_t)＝-α_t(1- p_t)^γlog(p_t)，其中，(1-p_t)^γ相当于在交叉熵损失中加入调节因子，目的是通过减少易分类样本的权重，从而使得模型在训练时更专注于难分类的样本。α系数用于调节积极和消极的比例，前景类别为α时，背景类别使用1-α。比如前景类别较少，α可以取接近1的值进行调节，而背景类别的权重为1-α，是一个接近0的数。可以通过α来调节样本比例的不均衡。例如可以选取参数γ＝2，α＝0.25，而当γ取 0的时候，focal loss即为交叉熵损失。当模型收敛后，将图4中所示的Fc层移除，并再次将数据集1中的图像进行输入，获得avgpool 输出的特征F1用于后续的特征融合。

参考图6，在本申请的另一个实施例中，语音信息的预处理具体包括以下步骤：

步骤S610，对语音信息进行分帧加窗处理，得出语音分析帧；

步骤S620，对语音分析帧进行短时傅里叶变换，得出语音声谱图。

对语音信息进行分帧加窗处理，可以将语音信息分为一个个语音分析帧。语音信号通常在10～30ms(毫秒)之内保持相对平稳，因此，对语音信息进行分帧，可以使用平稳过程的处理方法对语音信号进行短时处理，将语音信号划分为很多短时的语音段，成为一个个分析帧。同时，为了减少频谱能量泄漏，可以采用不同的截取函数对信号进行截断，截断函数称为窗函数，例如常见的矩形窗(Rectangle)、汉宁窗(Hanning)、汉明窗(Hamming)、高斯窗(Gaussian)等。对分帧后的语音信号进行加窗，利用窗函数和语音信号相乘得到加窗后的语音信号，经过加窗后的每一帧语音可以认为是短时平稳信号。

本领域技术人员可以理解的是，短时傅里叶变换可以通过时间窗内的一段信号来表示某一时刻的信号特征。在短时傅里叶变换过程中，窗的长度决定频谱图的时间分辨率和频率分辨率，窗长越长，截取的信号越长，信号越长，傅里叶变换后频率分辨率越高，时间分辨率越差；相反，窗长越短，截取的信号就越短，频率分辨率越差，时间分辨率越好。短时傅里叶变换中，时间分辨率和频率分辨率之间需要根据具体需求进行取舍即可。

以下以一个具体示例对短时傅里叶变换的语音特征提取步骤进行举例说明：

预先设定好与短时傅里叶变换相关的参数，例如源信号，窗函数，海明窗的窗长，重叠点数，采样频率，傅里叶点数等，其中傅里叶点数主要用于在傅里叶变换过程中使用，当信号长度小于傅里叶点数时，自动进行补零，然后再进行快速傅里叶变换。参数设定完成后，把源信号和窗函数转换为列向量，并计算列向量的信号长度，并根据信号长度nx、窗长WinLen以及重叠点数noverlap计算出窗滑动的次数n，即把源信号分成列时信号的列数，其中，次数n满足以下关系：n＝fix((nx-noverlap)/(WinLen-noverlap))；将每次窗函数滑动所选取的信号表示为列，获取每一列的值，得到一个列数为n，行数为WinLen的矩阵Fig；将转换为列向量的窗函数扩展为n列的矩阵w，并对矩阵Fig和w进行点乘，并对点乘的结果进行快速傅里叶变换，得到时频矩阵；根据时频矩阵获取语音声谱图。

参考图7，在本申请的另一个实施例中，语音特征的提取具体包括以下步骤：

步骤S710，获取语音声谱图，通过特征提取网络从语音声谱图中提取出语音情感特征；

步骤S720，将语音情感特征进行PAC降维处理，得出语音特征。

在一实施例中，语音声谱图能够用于提取语音情感特征，例如平缓且振幅较小的声音代表比较温和，振幅起伏较大的声音代表生气等；本实施例还优选将提取的语音情感特征进行PAC降维处理，获得用于表情分类的最终语音情感特征。

参考图8和图9，在本申请的另一个实施例中，将所提取的视频特征和语音特征的特征融合方式包括以下至少之一：

加权融合；

乘积融合；

最大值融合；

合并融合。

在一实施例中，特征融合可以是常见的任意方式，例如加权融合、乘积融合、最大值融合或合并融合，特征融合通常通过特征融合网络进行，以下以一个具体示例对本实施例中的特征融合网络进行举例说明：

在本实施例中，通过构建双输入自动编码器进行特征融合，网络结构采用编码器、瓶颈层和解码器三部分进行构建，网络结构如图8 所示。其中W1、W2所属部分作为编码器部分，W3所属部分作为瓶颈层，W₁ ^T、W₂ ^T，其中输入数据分别为F1与F2，F1为残差网络中获得avgpool输出的特征，F2为对经过PCA降维处理后得到的语音特征；在训练阶段通过特征重构的方式进行模型的训练，其中目标函数采用 L2损失函数。当模型收敛后，将解码器部分进行移除，网络结构如图9所示，将瓶颈层的输出作为融合后的特征。将F1与F2再次作为移除编码器后的模型的输入，从而瓶颈层的输出作为融合特征，记为 X，从而构成融合特征数据集(X，Y)，供系统进行训练与决策。

需要说明的是，

在本申请的另一个实施例中，还包括：获取与服务评价信息所对应的服务人员信息。

在一实施例中，获取服务人员信息可以用于对整个部门的服务评价信息进行计算，例如可以采取以下公式：

其中，A_i、B_i和C_i为预先设定的三种服务评价等级，例如满意、基本满意和不满意，N₁、N₂和N₃分别为对应的服务评价的数量，也可以采用其他方式进行计算，能够反映出多个服务人员共同构成的服务质量即可。

参考图10，本申请的另一个实施例还提供了一种基于双模态情绪识别网络的服务评价获取装置1000，包括：存储器1010、控制处理器1020及存储在存储器1020上并可在控制处理器1010上运行的计算机程序，控制处理器执行所述计算机程序时实现如上任意实施例中的基于双模态情绪识别网络的服务评价获取方法，例如，执行以上描述的图1中的方法步骤S110至S140，图5中的方法步骤S510至 S530，图6中的方法步骤S610至S620，图7中的方法步骤S710至 S720。

控制处理器1020和存储器1010可以通过总线或者其他方式连接，图10中以通过总线连接为例。

存储器1010作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器1010 可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中，存储器1010可选包括相对于控制处理器1020远程设置的存储器，这些远程存储器可以通过网络连接至该基于双模态情绪识别网络的服务评价获取装置1000。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

此外，本申请的另一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，被图10中的一个控制处理器1020执行，可使得上述一个或多个控制处理器1020执行上述方法实施例中的基于双模态情绪识别网络的服务评价获取方法，例如，执行以上描述的图1中的方法步骤S110至S140，图5中的方法步骤S510 至S530，图6中的方法步骤S610至S620，图7中的方法步骤S710 至S720。

需要说明的是，由于本实施例中的用于执行基于双模态情绪识别网络的服务评价获取方法的装置与上述的基于双模态情绪识别网络的服务评价获取方法基于相同的发明构思，因此，方法实施例中的相应内容同样适用于本装置实施例，此处不再详述。

通过以上的实施方式的描述，本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ReadOnly Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于双模态情绪识别网络的服务评价获取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于双模态情绪识别网络的服务评价获取方法，其特征在于，所述获取视频信息和语音信息后，还包括：

对所述视频信息和语音信息进行预处理。

3.根据权利要求2所述的一种基于双模态情绪识别网络的服务评价获取方法，其特征在于，所述视频信息的预处理具体包括以下步骤：

将所述视频信息分成若干帧视频图像；

将所述视频图像进行图像分割，得出若干个目标图像；

4.根据权利要求3所述的一种基于双模态情绪识别网络的服务评价获取方法，其特征在于：所述视频特征为由人脸表情特征，所述人脸表情特征通过预先训练好的残差卷积神经网络从所述灰度图像中提取得出。

5.根据权利要求2所述的一种基于双模态情绪识别网络的服务评价获取方法，其特征在于，所述语音信息的预处理具体包括以下步骤：

对所述语音信息进行分帧加窗处理，得出语音分析帧；

对所述语音分析帧进行短时傅里叶变换，得出语音声谱图。

6.根据权利要求5所述的一种基于双模态情绪识别网络的服务评价获取方法，其特征在于，所述语音特征的提取具体包括以下步骤：

将所述语音情感特征进行PAC降维处理，得出语音特征。

7.根据权利要求1所述的一种基于双模态情绪识别网络的服务评价获取方法，其特征在于，所述将所提取的视频特征和语音特征的特征融合方式包括以下至少之一：

加权融合；

乘积融合；

合并融合；

最大值融合。

8.根据权利要求1所述的一种基于双模态情绪识别网络的服务评价获取方法，其特征在于，还包括：获取与所述服务评价信息所对应的服务人员信息。

9.一种基于双模态情绪识别网络的服务评价获取装置，其特征在于，包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如权利要求1至8任一项所述的基于双模态情绪识别网络的服务评价获取方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至8任意一项所述的基于双模态情绪识别网络的服务评价获取方法。