CN112687260A

CN112687260A - 基于人脸识别的表情判断语音识别方法、服务器及空调

Info

Publication number: CN112687260A
Application number: CN202011288158.5A
Authority: CN
Inventors: 汪进; 文皓; 李保水; 刘健军
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-04-20

Abstract

本发明属于语音识别技术领域，公开了一种基于人脸识别的表情判断语音识别方法、服务器及空调，空调通过摄像头实时读取用户人脸信息；当用户进行语音输入后空调进行播报反馈时，空调识别用户表情；基于用户表情判断此次语义理解是否有误，如有误，保存此段对话音频和语义至数据库中，空调会继续让用户再次提问或者再次让用户执行指令；基于数据库的大数据分析，判断出交互需求误差较大的语音，对所述交互进行分析调整。本发明采用神经网路的人脸识别与语音结合的方式，判断空调在解析用户命令时是否理解到了真正意图，记录用户表情进行大数据分析，方便开发人员进行修正迭代，使空调产品更加智能化。

Description

基于人脸识别的表情判断语音识别方法、服务器及空调

技术领域

本发明属于语音识别技术领域，尤其涉及一种基于人脸识别的表情判断语音识别方法、服务器及空调。

背景技术

目前，空调通过摄像头实时进行图像人脸识别处理辨别用户表情的方法，以及空调通过语音实现人机交互的技术已趋于成熟。为提高识别准确性，空调通常使用语义解析对翻译出来的文本进一步理解意图，但无法判断理解的用户的真正意图是否正确。因此，亟需一种新的基于人脸识别的表情判断语音识别准确性提高方法。

通过上述分析，现有技术存在的问题及缺陷为：现有空调无法判断理解的用户的真正意图是否正确。造成判断效果差，准确率低。

发明内容

针对现有技术存在的问题，本发明提供了一种基于人脸识别的表情判断语音识别方法、服务器及空调。

本发明是这样实现的，一种基于人脸识别的表情判断语音识别准确性提高方法，所述基于人脸识别的表情判断语音识别准确性提高方法包括以下步骤：

步骤一，用户进行语音输入，空调检测并采集用户输入的语音需求；当用户进行语音输入后，空调解析语义，并根据语义进行播报反馈；

步骤二，空调通过摄像头实时读取用户人脸信息，并对实时拍摄的当前用户画面进行预处理；通过与人脸库进行相似度检索，分析并识别用户表情；

步骤三，基于用户表情判断语义理解是否有误；如有误，保存此段对话音频和语义至数据库中，空调会继续让用户再次提问或者再次让用户执行指令；

步骤四，基于数据库的大数据分析，判断出交互需求误差较大的语音，对所述交互进行分析调整。

进一步，步骤二中，所述用户表情的识别方法，包括：

根据人脸识别主干网络，通过不同表情进行训练得到不同表情识别的模型；

基于深度学习的人脸表情实时检测技术，通过摄像头实时读取空调回答完用户指令时读取用户人脸；经过表情模型识别得到用户的真正的用户情绪，通过人脸识别用户的表情来判断空调是否答对。

表情模型采用基于人脸识别模型基础，然后用不同人脸表情图像数据进行训练得到表情识别模型

进一步，所述人脸识别主干网络采用MobileNet V3，并将残差网络ResNet思想加入到主干网络；采用MobileNet V3移动端网络提取主干网络layer中3、5、7层的特征信息图片，对提取出来特征信息图片中特征区域进行BatchNorm2d；然后对不同目标特征anchor进行归一化，期间有pool流程；最后把预测到图片与已知带有灰尘区域图片进行对比并计算分类损失函数和回归损失函数(采用cicle loss(采用旷视提出的算法)和线性回归损失函数)。

其中，归一化和池化就是采用传统的归一化和池化算法。

进一步，所述用户表情的识别方法，还包括：

在训练过程中提取模型中每一层layer的parameters并判断是否可梯度下降，当判断模型可梯度下降并修改模型的学习率，当模型处于不同epoch阶段时，采用学习率大小不同，学习率采用multstep，或者采用线性调节学习率linestep。当损失函数值和召回率不再改变时训练完成。

本发明的另一目的在于提供一种空调，所述空调实施所述的基于人脸识别的表情判断语音识别方法。

本发明的另一目的在于提供一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行所述的基于人脸识别的表情判断语音识别方法。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的基于人脸识别的表情判断语音识别方法。

本发明的另一目的在于提供一种信息数据处理终端，所述信息数据处理终端用于实现所述的基于人脸识别的表情判断语音识别方法。

本发明的另一目的在于提供一种服务器，搭载在所述空调上，在所述空调播报时，基于空调检测并采集输入的用户语音需求；对所述需求进行解析语义，并根据解析的所述语义进行播报反馈；

所述服务器实时读取用户人脸信息，并对实时拍摄的当前所述用户人脸信息的画面进行预处理；通过与人脸库进行相似度检索，分析并识别所述用户表情。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的基于人脸识别的表情判断语音识别准确性提高方法，采用神经网路的人脸识别与语音结合的方式，判断空调在解析用户命令时是否理解到了真正意图，记录用户表情进行大数据分析，方便开发人员进行修正迭代，使空调产品更加智能化。

空调播报时，本发明基于空调的摄像头采集用户说完话听到空调回答用户的用户表情，服务器进行图像处理识别出用户表情；基于用户表情判断该段语音语义解析是否正确，如果答对，实时采集用户人脸表情，将有效信息与当前对话的语义存储起来用于大数据分析，方便开发人员后续产品迭代；当答错时，摄像头识别出答错的表情时，空调会让用户再次提问。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于人脸识别的表情判断语音识别准确性提高方法流程图。

图2是本发明实施例提供的基于人脸识别的表情判断语音识别准确性提高方法原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种基于人脸识别的表情判断语音识别方法、服务器及空调，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的基于人脸识别的表情判断语音识别准确性提高方法包括以下步骤：

S101，用户进行语音输入，空调检测并采集用户输入的语音需求；当用户进行语音输入后，空调解析语义，并根据语义进行播报反馈；

S102，空调通过摄像头实时读取用户人脸信息，并对实时拍摄的当前用户画面进行预处理；通过与人脸库进行相似度检索，分析并识别用户表情；

S103，基于用户表情判断语义理解是否有误；如有误，保存此段对话音频和语义至数据库中，空调会继续让用户再次提问或者再次让用户执行指令；

S104，基于数据库的大数据分析，判断出交互需求误差较大的语音，对所述交互进行分析调整。

下面结合实施例对本发明作进一步描述。

本发明采用神经网路的人脸识别与语音结合的方式，判断空调在解析用户命令时是否理解到了真正意图，记录用户表情进行大数据分析，方便开发人员进行修正迭代，使空调产品更加智能化。

本发明通过用户的表情以及结合语音识别用户说的话并提取用户的语义，通过用户的表情来导向语义解析的方向，这样结合提高语义解析的正确性，因为相同的话用不同的语气表达意思是不一样的，结合图像识别识别用户的表情，这样更准确表达用户的语义，这样提高空调的智能化。

本发明空调播报时，基于空调的摄像头采集用户说完话听到空调回答用户的用户表情，服务器进行图像处理识别出用户表情；2)基于用户表情判断该段语音语义解析是否正确，如果答对，实时采集用户人脸表情，将有效信息与当前对话的语义存储起来用于大数据分析，方便开发人员后续产品迭代；当答错时，摄像头识别出答错的表情时，空调会让用户再次提问。

本发明实施例提供的基于人脸识别的表情判断语音识别准确性提高方法的原理图如图2所示。包括：

1).空调通过摄像头实时读取用户人脸信息；

2).当用户进行语音输入后空调进行播报反馈时，空调识别用户表情；

识别表情的方法：基于深度学习的人脸表情实时检测技术，属于专有技术，具体如下：

通过摄像头实时读取空调回答完用户指令时读取用户人脸，通过人脸识别用户的表情来判断空调是否答对。人脸识别主干网络采用MobileNet V3并加入残差网络(ResNet)思想加入到主干网络，采用MobileNet V3(最新google提出的主干网络)，采用MobileNetV3移动端网络目的是降低硬件成本，提取主干网络layer中3、5、7等层的特征信息图片，对提取出来特征信息图片中特征区域进行BatchNorm2d，然后对不同目标特征anchor进行归一化，目的是可以对有不同火源区域尺度变为同一尺度的大小，期间有pool流程，主要是特征信息进行降维处理和减少输入信息计算，最后把预测到图片与已知带有灰尘区域图片进行对比并计算分类损失函数和回归损失函数，在训练过程中提取模型中每一层(layer)的parameters并判断是否可梯度下降，当判断模型可梯度下降并修改模型的学习率，学习率可以采用multstep(当模型处于不同epoch阶段时，采用学习率大小不同)，或者采用linestep(线性调节学习率等)。训练的目的是当损失函数值和召回率(这些值不改变也有可能存在梯度消失状态)等不再改变时就训练好了。

3).基于用户表情判断此次语义理解是否有误，如有误，保存此段对话音频和语义至数据库中，空调会继续让用户再次提问或者再次让用户执行指令。

4).基于数据库的大数据分析，判断出哪些语音交互需求误差较大，对此交互进行分析调整。

例如：解析不到命令词时空调会回复“哎呀，这个我也不懂诶”，这个时候检测到用户的表情为瘪嘴，认为用户不满意这个回答。经常出现这个情况时，认为用户不爱听这个回答，空调应增加更多回答，比如“您是不是想说播放林俊杰的《曹操》呀，如果是，请回答是”。

例如：用户想听“故事”却总是解析为听“古诗”，检测到用户表情为生气，认为用户不满意这个回答。空调应增加更多策略，比如根据表情自动切换为“故事”。

例如：用户第一个词语气较轻，解析不完全，检测用户表情为疑惑，认为用户不满意这个回答，空调应提高语音切分的灵敏度。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于人脸识别的表情判断语音识别方法，其特征在于，所述基于人脸识别的表情判断语音识别方法包括：

空调检测并采集输入的用户语音需求；对所述需求进行解析语义，并根据解析的所述语义进行播报反馈；

实时读取用户人脸信息，并对实时拍摄的当前所述用户人脸信息的画面进行预处理；通过与人脸库进行相似度检索，分析并识别所述用户表情；

基于所述用户表情判断所述解析的语义理解是否有误；如有误，保存对话音频和所述解析的语义至数据库中，继续提示用户再次提问或者再次提示用户执行指令。

2.如权利要求1所述的基于人脸识别的表情判断语音识别方法，其特征在于，所述如有误，保存对话音频和所述解析的语义至数据库中，继续提示用户再次提问或者再次提示用户执行指令后，基于数据库的大数据分析，判断出交互需求误差大的语音，对所述交互进行分析调整。

3.如权利要求1所述的基于人脸识别的表情判断语音识别方法，其特征在于，所述用户表情的识别方法，包括：

根据人脸识别主干网络，通过不同表情进行训练得到不同表情识别模型；

基于深度学习的人脸表情实时检测技术，通过摄像头实时读取空调回答完用户指令时读取用户人脸；经过表情识别模型识别得到用户的真正的用户情绪，通过人脸识别用户的表情判断空调是否答对。

4.如权利要求3所述的基于人脸识别的表情判断语音识别准确性提高方法，其特征在于，所述基于深度学习的人脸表情实时检测技术包括：

在训练过程中表情识别模型中每一层layer的parameters并判断是否可梯度下降，当判断模型可梯度下降并修改表情识别模型的学习率，当表情识别模型处于不同epoch阶段时，采用学习率大小不同，学习率采用multstep，或者采用线性调节学习率linestep；当损失函数值和召回率不再改变时训练完成。

5.如权利要求3所述的基于人脸识别的表情判断语音识别准确性提高方法，其特征在于，所述基于深度学习的人脸表情实时检测技术进一步包括：

人脸识别主干网络将残差网络思想加入到主干网络；采用移动端网络提取主干网络中3、5、7层的特征信息图片，对提取出来特征信息图片中特征区域进行BatchNorm2d；然后对不同目标特征进行归一化；最后把预测到图片与已知带有灰尘区域图片进行对比并计算分类损失函数和回归损失函数。

6.一种空调，其特征在于，所述空调实施权利要求1～4任意一项所述的基于人脸识别的表情判断语音识别方法。

7.一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1～5任意一项所述的基于人脸识别的表情判断语音识别方法。

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～5任意一项所述的基于人脸识别的表情判断语音识别方法。

9.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现权利要求1～5任意一项所述的基于人脸识别的表情判断语音识别方法。

10.一种服务器，其特征在于，搭载在权利要求6所述空调上，在所述空调播报时，基于空调检测并采集输入的用户语音需求；对所述需求进行解析语义，并根据解析的所述语义进行播报反馈；