CN106127156A

CN106127156A - 基于声纹和人脸识别的机器人交互方法

Info

Publication number: CN106127156A
Application number: CN201610473742.5A
Authority: CN
Inventors: 吴义坚; 赖伟; 张峰
Original assignee: SHANGHAI YUANQU INFORMATION TECHNOLOGY Co Ltd
Current assignee: SHANGHAI YUANQU INFORMATION TECHNOLOGY Co Ltd
Priority date: 2016-06-27
Filing date: 2016-06-27
Publication date: 2016-11-16

Abstract

本发明公开了一种基于声纹和人脸识别的机器人交互方法，其包括人脸识别部分和声纹识别部分；人脸识别部分是基于人的脸部特征，对输入的人脸图像或者视频流判断其是否存在人脸，来自用户集内哪位用户；声纹识别部分是通过一段语音信号来判断这段语音来自用户集内的哪位用户。本发明通过人脸识别技术、表情检测技术和声纹技术实现基于说话人身份和情绪的智能问答，能很好的与提问者进行交流。

Description

基于声纹和人脸识别的机器人交互方法

技术领域

本发明涉及一种交互方法，特别是涉及一种基于声纹和人脸识别的机器人交互方法。

背景技术

现有机器人问答系统的回答一般不考虑到提问者的身份，也不考虑提问者的表情和语气，做一个通用的回答，这种问答系统的智能化程度较低，不能很好的与提问者进行交流。

发明内容

本发明所要解决的技术问题是提供一种基于声纹和人脸识别的机器人交互方法，其通过人脸识别技术、表情检测技术和声纹技术实现基于说话人身份和情绪的智能问答，能很好的与提问者进行交流。

本发明是通过下述技术方案来解决上述技术问题的：一种基于声纹和人脸识别的机器人交互方法，其特征在于，其包括人脸识别部分和声纹识别部分；

人脸识别部分是基于人的脸部特征，对输入的人脸图像或者视频流判断其是否存在人脸，存在人脸则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息，并依据这些信息，进一步提取每个人脸中所蕴涵的身份特征，并将其与已知的人脸进行对比，从而识别每个人脸的身份和表情，来自用户集内哪位用户；

声纹识别部分是通过一段语音信号来判断这段语音来自用户集内的哪位用户，首先通过大量说话人的语料，进行系统模型空间训练，生成系统所需要的空间参数；然后对于需要识别的说话人进行注册，通过注册说话人声纹生成部分，生成用户集内每个注册说话人的声纹；最后，在实际应用中，对需要识别的说话人语音生成声纹，与用户集内每个注册说话人的声纹进行对比，得出是用户集内哪个说话人。

优选地，所述人脸识别部分采用的是基于人工神经网络模式识别的方法，通过采集的样本图像，抽取相关特征，学习产生分类器。

优选地，所述人脸识别部分具体包括以下三个步骤：

步骤一，首先建立人脸的面像档案；即用摄像机采集单位人员的人脸的面像文件或取他们的照片形成面像文件，并将这些面像文件生成面纹编码贮存起来；

步骤二，获取当前的人体面像；即用摄像机捕捉的当前出入人员的面像，或取照片输入，并将当前的面像文件生成面纹编码；

步骤三，用当前的面纹编码与档案库存的比对；上述的面纹编码方式是根据人脸脸部的本质特征和开头来工作的。

优选地，所述脸部特征利用主分量分析进行降维和提取特征。

优选地，所述脸部特征对人脸的表情关键点进行抽取和识别，根据不同表情的典型关键点的相对位置进行比对，进而判别出人脸的表情种类。

优选地，所述人脸的表情关键点采用以下步骤进行识别：一，图像获取：通过图像捕捉工具获取静态图像或动态图像序列；二，图像预处理：图像的大小和灰度的归一化、头部姿态的矫正、图像分割；三，特征提取：将点阵转化成更高级别图像表述。

优选地，所述声纹识别部分采用的是基于i-vector的说话人识别系统，该系统分为系统模型空间训练、注册说话人声纹生成和测试说话人识别三个部分。

优选地，所述系统模型空间训练的具体过程如下：

一，对大量的训练说话人的原始语料，进行特征提取，这里用梅尔频率倒谱系数或者线性预测倒谱系数作为提取的特征；

二，通过上一步生成的大量训练说话人的特征，生成一个覆盖面较广的描述整个说话人空间的通用背景模型；

三，在i-vector系统中，某个说话人的一段语料由一个均值超矢量M来表示；

四，为了进行信道补偿，对训练语料说话人的i-vector因子进行线性判别分析计算，生成信道补偿因子。

优选地，所述注册说话人声纹生成对于注册说话人语料，首先提取特征，计算BaumWelch统计量，然后通过i-vector空间矩阵和信道补偿因子，生成最终的注册说话人声纹。

优选地，所述测试说话人识别首先提取特征，计算Baum Welch统计量，然后通过i-vector空间矩阵和信道补偿因子，生成测试说话人声纹；然后计算测试说话人和每个注册说话人的余弦得分。

优选地，所述基于声纹和人脸识别的机器人交互方法通过人脸技术和声纹技术进行合并识别，达到最终的非常准确的人员识别的结果，当只有人脸信息或只有语音信息时，单独使用人脸识别技术或声纹识别技术识别；但如果同时得到人脸信息和语音信息，需要综合两者信息识别注册成员；识别步骤如下：一，从人脸识别引擎中获得每个注册成员的人脸识别M维得分；二，从声纹识别引擎中获得每个注册成员的声纹识别N维得分；三，通过主分量分析对M+N维得分数据进行运算，得出每个注册成员的融合得分；主分量分析的参数通过训练集生成；四，选出融合得分最高的注册成员作为识别的结果。

本发明的积极进步效果在于：本发明通过人脸识别技术、表情检测技术和声纹技术实现基于说话人身份和情绪的智能问答，能很好的与提问者进行交流，提高智能化程度，结构简单，成本低。

附图说明

图1为本发明系统模型空间训练的原理图。

图2为本发明注册说话人声纹生成的原理图。

具体实施方式

下面结合附图给出本发明较佳实施例，以详细说明本发明的技术方案。

本发明基于声纹和人脸识别的机器人交互方法包括人脸识别部分和声纹识别部分；

人脸识别部分是基于人的脸部特征，对输入的人脸图像或者视频流判断其是否存在人脸，存在人脸则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息，并依据这些信息，进一步提取每个人脸中所蕴涵的身份特征，并将其与已知的人脸进行对比，从而识别每个人脸的身份和表情，来自用户集内的哪位用户。人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部的一系列相关技术。

本发明人脸识别部分采用的是较前沿的基于人工神经网络模式识别的方法，通过采集的样本图像，抽取相关特征，学习产生分类器。技术的核心为“局部人体特征分析”和“图形/神经识别算法”，这种算法是利用人体面部各器官及特征部位的方法，如对应几何关系多数据形成识别参数与数据库中所有的原始参数进行比较、判断与确认，具有准确快速的优点。

人脸识别部分具体包括以下三个步骤：

（1）首先建立人脸的面像档案。即用摄像机采集单位人员的人脸的面像文件或取他们的照片形成面像文件，并将这些面像文件生成面纹(Faceprint)编码贮存起来。

（2）获取当前的人体面像。即用摄像机捕捉的当前出入人员的面像，或取照片输入，并将当前的面像文件生成面纹编码。

（3）用当前的面纹编码与档案库存的比对。即将当前的面像的面纹编码与档案库存中的面纹编码进行检索比对；上述的“面纹编码”方式是根据人脸脸部的本质特征和开头来工作的。这种面纹编码可以抵抗光线、皮肤色调、面部毛发、发型、眼镜、表情和姿态的变化，具有强大的可靠性，从而使它可以从百万人中精确地辨认出某个人。人脸的识别过程，利用普通的图像处理设备就能自动、连续、实时地完成。

本发明采用的脸部特征利用主分量分析进行降维和提取特征。主分量分析是一种应用十分广泛的数据降维技术，该方法选择与原数据协方差矩阵前几个最大特征值对应的特征向量构成一组基，以达到最佳表征原数据的目的。因为由主分量分析提取的特征向量返回成图像时，看上去仍像人脸，所以这些特征向量被称为“特征脸”。在人脸识别中，由一组特征脸基图像张成一个特征脸子空间，任何一幅人脸图像（减去平均人脸后）都可投影到该子空间，得到一个权值向量。计算此向量和训练集中每个人的权值向量之间的欧式距离，取最小距离所对应的人脸图像的身份作为测试人脸图像的身份。主分量分析是一种无监督学习方法，主分量是指向数据能量分布最大的轴线方向，因此可以从最小均方误差意义下对数据进行最优的表达。但是就分类任务而言，由主分量分析得到的特征却不能保证可以将各个类别最好地区分开来。线性鉴别分析是一种著名的模式识别方法，通过将样本线性变换到一个新的空间，使样本的类内散布程度达到最小，同时类间散布程度达到最大，即著名的 Fisher 准则。

在脸部特征中，对人脸的表情关键点进行抽取和识别，比如眉毛、眼睛、嘴部轮廓等；根据不同表情的典型关键点的相对位置进行比对，进而判别出人脸的表情种类。

人脸面部表情运动的描述系统是人脸运动编码系统FACS (Facial ActionCoding System)，根据面部肌肉的类型和运动特征定义了基本形变单元（Action Unit，AU），人脸面部的各种表情最终能分解对应到各个AU上来，分析表情特征信息，就是分析面部AU的变化情况。

先表情库的建立，然后表情识别，具体如下：（1）图像获取：通过摄像头等图像捕捉工具获取静态图像或动态图像序列；（2）图像预处理：图像的大小和灰度的归一化、头部姿态的矫正、图像分割等，目的是改善图像质量，消除噪声，统一图像灰度值及尺寸，为后序特征提取和分类识别打好基础；（3）特征提取：将点阵转化成更高级别图像表述，如形状、运动、颜色、纹理、空间结构等，在尽可能保证稳定性和识别率的前提下，对庞大的图像数据进行降维处理。

特征提取的主要方法有：提取几何特征、统计特征、频率域特征和运动特征等。（1）采用几何特征进行特征提取主要是对人脸表情的显著特征，如眼睛、眉毛、嘴巴等的位置变化进行定位、测量，确定其大小、距离、形状及相互比例等特征，进行表情识别。优点：减少了输入数据量。缺点：丢失了一些重要的识别和分类信息，结果的精确性不高。（2）基于整体统计特征的方法主要强调尽可能多的保留原始人脸表情图像中的信息，并允许分类器发现表情图像中相关特征，通过对整幅人脸表情图像进行变换，获取特征进行识别。

声纹识别部分又叫说话人识别，是通过一段语音信号来判断这段语音来自用户集内的哪位用户；首先通过大量说话人的语料，进行系统模型空间训练，生成系统所需要的空间参数；然后对于需要识别的说话人进行注册，通过注册说话人声纹生成部分，生成用户集内每个注册说话人的声纹。最后，在实际应用中，对需要识别的说话人语音生成声纹，与用户集内每个注册说话人的声纹进行对比，得出是用户集内哪个说话人。本发明采用的是业界最前沿的基于i-vector的说话人识别系统，该系统分为系统模型空间训练、注册说话人声纹生成和测试说话人识别三个部分。

系统模型空间训练如图1所示，具体过程如下：

（1）对大量的训练说话人1、2...N的原始语料，进行特征提取，这里可以用MFCC（Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数）或者LPCC（Linear PredictiveCoding Cepstrum，线性预测倒谱系数）作为提取的特征。

（2）通过上一步生成的大量训练说话人的特征，生成一个覆盖面较广的描述整个说话人空间的（Universal Background Model，通用背景模型），这里一般用GMM（GaussianMixture Model，高斯混合模型）来表示。UBM模型的初始化采用K-means算法，迭代更新采用EM（Expectation—Maximization Algorithm，期望最大化算法）算法。

这里，也可以将描述UBM的GMM改成DNN（Deep Neural Networks，深度神经网络），在运算复杂度增加的同时，能够很好的提高系统性能。

（3）在i-vector系统中，某个说话人的一段语料可由一个均值超矢量M来表示，这个超矢量可以写成如下的公式（1）：

M=m+T*w…………………………………………（1）

其中，m是高斯数为C、特征维数为F的用UBM的高斯均值表示的均值超矢量，矩阵T是i-vector空间，w是i-vector因子。

i-vector空间矩阵T的生成，首先计算训练数据库中每个说话人对应的BaumWelch统计量，然后通过EM算法进行迭代更新。通过i-vector空间矩阵，就可以生成每个说话人的i-vector因子。

（4）为了进行信道补偿，对训练语料说话人的i-vector因子进行LDA((LinearDiscriminant Analysis，线性判别分析)计算，生成信道补偿因子。

注册说话人声纹生成如图2所示，对于注册说话人语料，首先提取特征，计算BaumWelch统计量，然后通过i-vector空间矩阵和信道补偿因子，生成最终的注册说话人声纹。

测试说话人识别首先提取特征，计算Baum Welch统计量，然后通过i-vector空间矩阵和信道补偿因子，生成测试说话人声纹。然后计算测试说话人和每个注册说话人的余弦得分。余弦相似度越接近1，说明属于同一个说话人的可能性越大；余弦相似度越接近-1，说明属于不同说话人的可能性越大。余弦得分最高的一个注册说话人，如果得分同时高于阈值，则判断为改注册说话人，否则，判断为非注册的任何说话人。

提问者面对机器人，说出“我是宝宝/爸爸/妈妈，记住我的样子吧”，机器人拍摄足够的照片，记录下说话的语音，存储，抽取特征，建模，完成人脸特征的建立和声纹的建立。如果信息不充分（比如光线太暗或者说话太短），提示“我还没看清楚，请再试一试”或者“再多说两句”，最后成功提示“你好，宝宝/爸爸/妈妈，我现在认识你了”。之后提问者每次提问时，机器人会启动摄像头识别人脸和表情，并根据声音识别声纹，做出相应的回答。

本发明可以通过人脸技术和声纹技术进行合并识别，达到最终的非常准确的人员识别的结果，上文提出的人脸识别技术和声纹识别技术都可对已经进行注册成员进行识别；当只有人脸信息或只有语音信息时，可单独使用人脸识别技术或声纹识别技术识别。但如果同时得到人脸信息和语音信息，需要综合两者信息识别注册成员；识别步骤如下：一，从人脸识别引擎中获得每个注册成员的人脸识别M维得分；二，从声纹识别引擎中获得每个注册成员的声纹识别N维得分；三，通过主分量分析对M+N维得分数据进行运算，得出每个注册成员的融合得分；主分量分析的参数可通过训练集生成；四，选出融合得分最高的注册成员作为识别的结果。

以上所述的具体实施例，对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声纹和人脸识别的机器人交互方法，其特征在于，所述基于声纹和人脸识别的机器人交互方法包括人脸识别部分和声纹识别部分；

2.如权利要求1所述的基于声纹和人脸识别的机器人交互方法，其特征在于，所述人脸识别部分采用的是基于人工神经网络模式识别的方法，通过采集的样本图像，抽取相关特征，学习产生分类器。

3.如权利要求1所述的基于声纹和人脸识别的机器人交互方法，其特征在于，所述人脸识别部分具体包括以下三个步骤：

4.如权利要求1所述的基于声纹和人脸识别的机器人交互方法，其特征在于，所述脸部特征利用主分量分析进行降维和提取特征。

5.如权利要求1所述的基于声纹和人脸识别的机器人交互方法，其特征在于，所述脸部特征对人脸的表情关键点进行抽取和识别，根据不同表情的典型关键点的相对位置进行比对，进而判别出人脸的表情种类。

6.如权利要求5所述的基于声纹和人脸识别的机器人交互方法，其特征在于，所述人脸的表情关键点采用以下步骤进行识别：一，图像获取：通过图像捕捉工具获取静态图像或动态图像序列；二，图像预处理：图像的大小和灰度的归一化、头部姿态的矫正、图像分割；三，特征提取：将点阵转化成更高级别图像表述。

7.如权利要求1所述的基于声纹和人脸识别的机器人交互方法，其特征在于，所述声纹识别部分采用的是基于i-vector的说话人识别系统，该系统分为系统模型空间训练、注册说话人声纹生成和测试说话人识别三个部分。

8.如权利要求7所述的基于声纹和人脸识别的机器人交互方法，其特征在于，所述系统模型空间训练的具体过程如下：

9.如权利要求7所述的基于声纹和人脸识别的机器人交互方法，其特征在于，所述注册说话人声纹生成对于注册说话人语料，首先提取特征，计算Baum Welch统计量，然后通过i-vector空间矩阵和信道补偿因子，生成最终的注册说话人声纹。

10.如权利要求7所述的基于声纹和人脸识别的机器人交互方法，其特征在于，所述测试说话人识别首先提取特征，计算Baum Welch统计量，然后通过i-vector空间矩阵和信道补偿因子，生成测试说话人声纹；然后计算测试说话人和每个注册说话人的余弦得分。

11.如权利要求1所述的基于声纹和人脸识别的机器人交互方法，其特征在于，所述基于声纹和人脸识别的机器人交互方法通过人脸技术和声纹技术进行合并识别，达到最终的非常准确的人员识别的结果，当只有人脸信息或只有语音信息时，单独使用人脸识别技术或声纹识别技术识别；但如果同时得到人脸信息和语音信息，需要综合两者信息识别注册成员；识别步骤如下：一，从人脸识别引擎中获得每个注册成员的人脸识别M维得分；二，从声纹识别引擎中获得每个注册成员的声纹识别N维得分；三，通过主分量分析对M+N维得分数据进行运算，得出每个注册成员的融合得分；主分量分析的参数通过训练集生成；四，选出融合得分最高的注册成员作为识别的结果。