CN106127156A - 基于声纹和人脸识别的机器人交互方法 - Google Patents
基于声纹和人脸识别的机器人交互方法 Download PDFInfo
- Publication number
- CN106127156A CN106127156A CN201610473742.5A CN201610473742A CN106127156A CN 106127156 A CN106127156 A CN 106127156A CN 201610473742 A CN201610473742 A CN 201610473742A CN 106127156 A CN106127156 A CN 106127156A
- Authority
- CN
- China
- Prior art keywords
- face
- recognition
- vocal print
- speaker
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001755 vocal effect Effects 0.000 title claims abstract description 59
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 21
- 230000014509 gene expression Effects 0.000 claims abstract description 24
- 238000005516 engineering process Methods 0.000 claims abstract description 23
- 230000001815 facial effect Effects 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 17
- 208000031481 Pathologic Constriction Diseases 0.000 claims description 15
- 210000001215 vagina Anatomy 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 239000000463 material Substances 0.000 claims description 12
- 238000000513 principal component analysis Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000008921 facial expression Effects 0.000 claims description 6
- 210000000056 organ Anatomy 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000003909 pattern recognition Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 3
- 230000008451 emotion Effects 0.000 abstract description 3
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 210000004209 hair Anatomy 0.000 description 2
- 206010034719 Personality change Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 210000001097 facial muscle Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明公开了一种基于声纹和人脸识别的机器人交互方法,其包括人脸识别部分和声纹识别部分;人脸识别部分是基于人的脸部特征,对输入的人脸图像或者视频流判断其是否存在人脸,来自用户集内哪位用户;声纹识别部分是通过一段语音信号来判断这段语音来自用户集内的哪位用户。本发明通过人脸识别技术、表情检测技术和声纹技术实现基于说话人身份和情绪的智能问答,能很好的与提问者进行交流。
Description
技术领域
本发明涉及一种交互方法,特别是涉及一种基于声纹和人脸识别的机器人交互方法。
背景技术
现有机器人问答系统的回答一般不考虑到提问者的身份,也不考虑提问者的表情和语气,做一个通用的回答,这种问答系统的智能化程度较低,不能很好的与提问者进行交流。
发明内容
本发明所要解决的技术问题是提供一种基于声纹和人脸识别的机器人交互方法,其通过人脸识别技术、表情检测技术和声纹技术实现基于说话人身份和情绪的智能问答,能很好的与提问者进行交流。
本发明是通过下述技术方案来解决上述技术问题的:一种基于声纹和人脸识别的机器人交互方法,其特征在于,其包括人脸识别部分和声纹识别部分;
人脸识别部分是基于人的脸部特征,对输入的人脸图像或者视频流判断其是否存在人脸,存在人脸则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息,并依据这些信息,进一步提取每个人脸中所蕴涵的身份特征,并将其与已知的人脸进行对比,从而识别每个人脸的身份和表情,来自用户集内哪位用户;
声纹识别部分是通过一段语音信号来判断这段语音来自用户集内的哪位用户,首先通过大量说话人的语料,进行系统模型空间训练,生成系统所需要的空间参数;然后对于需要识别的说话人进行注册,通过注册说话人声纹生成部分,生成用户集内每个注册说话人的声纹;最后,在实际应用中,对需要识别的说话人语音生成声纹,与用户集内每个注册说话人的声纹进行对比,得出是用户集内哪个说话人。
优选地,所述人脸识别部分采用的是基于人工神经网络模式识别的方法,通过采集的样本图像,抽取相关特征,学习产生分类器。
优选地,所述人脸识别部分具体包括以下三个步骤:
步骤一,首先建立人脸的面像档案;即用摄像机采集单位人员的人脸的面像文件或取他们的照片形成面像文件,并将这些面像文件生成面纹编码贮存起来;
步骤二,获取当前的人体面像;即用摄像机捕捉的当前出入人员的面像,或取照片输入,并将当前的面像文件生成面纹编码;
步骤三,用当前的面纹编码与档案库存的比对;上述的面纹编码方式是根据人脸脸部的本质特征和开头来工作的。
优选地,所述脸部特征利用主分量分析进行降维和提取特征。
优选地,所述脸部特征对人脸的表情关键点进行抽取和识别,根据不同表情的典型关键点的相对位置进行比对,进而判别出人脸的表情种类。
优选地,所述人脸的表情关键点采用以下步骤进行识别:一,图像获取:通过图像捕捉工具获取静态图像或动态图像序列;二,图像预处理:图像的大小和灰度的归一化、头部姿态的矫正、图像分割;三,特征提取:将点阵转化成更高级别图像表述。
优选地,所述声纹识别部分采用的是基于i-vector的说话人识别系统,该系统分为系统模型空间训练、注册说话人声纹生成和测试说话人识别三个部分。
优选地,所述系统模型空间训练的具体过程如下:
一,对大量的训练说话人的原始语料,进行特征提取,这里用梅尔频率倒谱系数或者线性预测倒谱系数作为提取的特征;
二,通过上一步生成的大量训练说话人的特征,生成一个覆盖面较广的描述整个说话人空间的通用背景模型;
三,在i-vector系统中,某个说话人的一段语料由一个均值超矢量M来表示;
四,为了进行信道补偿,对训练语料说话人的i-vector因子进行线性判别分析计算,生成信道补偿因子。
优选地,所述注册说话人声纹生成对于注册说话人语料,首先提取特征,计算BaumWelch统计量,然后通过i-vector空间矩阵和信道补偿因子,生成最终的注册说话人声纹。
优选地,所述测试说话人识别首先提取特征,计算Baum Welch统计量,然后通过i-vector空间矩阵和信道补偿因子,生成测试说话人声纹;然后计算测试说话人和每个注册说话人的余弦得分。
优选地,所述基于声纹和人脸识别的机器人交互方法通过人脸技术和声纹技术进行合并识别,达到最终的非常准确的人员识别的结果,当只有人脸信息或只有语音信息时,单独使用人脸识别技术或声纹识别技术识别;但如果同时得到人脸信息和语音信息,需要综合两者信息识别注册成员;识别步骤如下:一,从人脸识别引擎中获得每个注册成员的人脸识别M维得分;二,从声纹识别引擎中获得每个注册成员的声纹识别N维得分;三,通过主分量分析对M+N维得分数据进行运算,得出每个注册成员的融合得分;主分量分析的参数通过训练集生成;四,选出融合得分最高的注册成员作为识别的结果。
本发明的积极进步效果在于:本发明通过人脸识别技术、表情检测技术和声纹技术实现基于说话人身份和情绪的智能问答,能很好的与提问者进行交流,提高智能化程度,结构简单,成本低。
附图说明
图1为本发明系统模型空间训练的原理图。
图2为本发明注册说话人声纹生成的原理图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
本发明基于声纹和人脸识别的机器人交互方法包括人脸识别部分和声纹识别部分;
人脸识别部分是基于人的脸部特征,对输入的人脸图像或者视频流判断其是否存在人脸,存在人脸则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息,并依据这些信息,进一步提取每个人脸中所蕴涵的身份特征,并将其与已知的人脸进行对比,从而识别每个人脸的身份和表情,来自用户集内的哪位用户。人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部的一系列相关技术。
本发明人脸识别部分采用的是较前沿的基于人工神经网络模式识别的方法,通过采集的样本图像,抽取相关特征,学习产生分类器。技术的核心为“局部人体特征分析”和“图形/神经识别算法”,这种算法是利用人体面部各器官及特征部位的方法,如对应几何关系多数据形成识别参数与数据库中所有的原始参数进行比较、判断与确认,具有准确快速的优点。
人脸识别部分具体包括以下三个步骤:
(1)首先建立人脸的面像档案。即用摄像机采集单位人员的人脸的面像文件或取他们的照片形成面像文件,并将这些面像文件生成面纹(Faceprint)编码贮存起来。
(2)获取当前的人体面像。即用摄像机捕捉的当前出入人员的面像,或取照片输入,并将当前的面像文件生成面纹编码。
(3)用当前的面纹编码与档案库存的比对。即将当前的面像的面纹编码与档案库存中的面纹编码进行检索比对;上述的“面纹编码”方式是根据人脸脸部的本质特征和开头来工作的。这种面纹编码可以抵抗光线、皮肤色调、面部毛发、发型、眼镜、表情和姿态的变化,具有强大的可靠性,从而使它可以从百万人中精确地辨认出某个人。人脸的识别过程,利用普通的图像处理设备就能自动、连续、实时地完成。
本发明采用的脸部特征利用主分量分析进行降维和提取特征。主分量分析是一种应用十分广泛的数据降维技术,该方法选择与原数据协方差矩阵前几个最大特征值对应的特征向量构成一组基,以达到最佳表征原数据的目的。因为由主分量分析提取的特征向量返回成图像时,看上去仍像人脸,所以这些特征向量被称为“特征脸”。在人脸识别中,由一组特征脸基图像张成一个特征脸子空间,任何一幅人脸图像(减去平均人脸后)都可投影到该子空间,得到一个权值向量。计算此向量和训练集中每个人的权值向量之间的欧式距离,取最小距离所对应的人脸图像的身份作为测试人脸图像的身份。主分量分析是一种无监督学习方法,主分量是指向数据能量分布最大的轴线方向,因此可以从最小均方误差意义下对数据进行最优的表达。但是就分类任务而言,由主分量分析得到的特征却不能保证可以将各个类别最好地区分开来。线性鉴别分析是一种著名的模式识别方法,通过将样本线性变换到一个新的空间,使样本的类内散布程度达到最小,同时类间散布程度达到最大,即著名的 Fisher 准则。
在脸部特征中,对人脸的表情关键点进行抽取和识别,比如眉毛、眼睛、嘴部轮廓等;根据不同表情的典型关键点的相对位置进行比对,进而判别出人脸的表情种类。
人脸面部表情运动的描述系统是人脸运动编码系统FACS (Facial ActionCoding System),根据面部肌肉的类型和运动特征定义了基本形变单元(Action Unit,AU),人脸面部的各种表情最终能分解对应到各个AU上来,分析表情特征信息,就是分析面部AU的变化情况。
先表情库的建立,然后表情识别,具体如下:(1)图像获取:通过摄像头等图像捕捉工具获取静态图像或动态图像序列;(2)图像预处理:图像的大小和灰度的归一化、头部姿态的矫正、图像分割等,目的是改善图像质量,消除噪声,统一图像灰度值及尺寸,为后序特征提取和分类识别打好基础;(3)特征提取:将点阵转化成更高级别图像表述,如形状、运动、颜色、纹理、空间结构等,在尽可能保证稳定性和识别率的前提下,对庞大的图像数据进行降维处理。
特征提取的主要方法有:提取几何特征、统计特征、频率域特征和运动特征等。(1)采用几何特征进行特征提取主要是对人脸表情的显著特征,如眼睛、眉毛、嘴巴等的位置变化进行定位、测量,确定其大小、距离、形状及相互比例等特征,进行表情识别。优点:减少了输入数据量。缺点:丢失了一些重要的识别和分类信息,结果的精确性不高 。(2)基于整体统计特征的方法主要强调尽可能多的保留原始人脸表情图像中的信息,并允许分类器发现表情图像中相关特征,通过对整幅人脸表情图像进行变换,获取特征进行识别。
声纹识别部分又叫说话人识别,是通过一段语音信号来判断这段语音来自用户集内的哪位用户;首先通过大量说话人的语料,进行系统模型空间训练,生成系统所需要的空间参数;然后对于需要识别的说话人进行注册,通过注册说话人声纹生成部分,生成用户集内每个注册说话人的声纹。最后,在实际应用中,对需要识别的说话人语音生成声纹,与用户集内每个注册说话人的声纹进行对比,得出是用户集内哪个说话人。本发明采用的是业界最前沿的基于i-vector的说话人识别系统,该系统分为系统模型空间训练、注册说话人声纹生成和测试说话人识别三个部分。
系统模型空间训练如图1所示,具体过程如下:
(1)对大量的训练说话人1、2...N的原始语料,进行特征提取,这里可以用MFCC(Mel-Frequency Cepstral Coefficients,梅尔频率倒谱系数)或者LPCC(Linear PredictiveCoding Cepstrum,线性预测倒谱系数)作为提取的特征。
(2)通过上一步生成的大量训练说话人的特征,生成一个覆盖面较广的描述整个说话人空间的(Universal Background Model,通用背景模型),这里一般用GMM(GaussianMixture Model,高斯混合模型)来表示。UBM模型的初始化采用K-means算法,迭代更新采用EM(Expectation—Maximization Algorithm,期望最大化算法)算法。
这里,也可以将描述UBM的GMM改成DNN(Deep Neural Networks,深度神经网络),在运算复杂度增加的同时,能够很好的提高系统性能。
(3)在i-vector系统中,某个说话人的一段语料可由一个均值超矢量M来表示,这个超矢量可以写成如下的公式(1):
M=m+T*w…………………………………………(1)
其中,m是高斯数为C、特征维数为F的用UBM的高斯均值表示的均值超矢量,矩阵T是i-vector空间,w是i-vector因子。
i-vector空间矩阵T的生成,首先计算训练数据库中每个说话人对应的BaumWelch统计量,然后通过EM算法进行迭代更新。通过i-vector空间矩阵,就可以生成每个说话人的i-vector因子。
(4)为了进行信道补偿,对训练语料说话人的i-vector因子进行LDA((LinearDiscriminant Analysis,线性判别分析)计算,生成信道补偿因子。
注册说话人声纹生成如图2所示,对于注册说话人语料,首先提取特征,计算BaumWelch统计量,然后通过i-vector空间矩阵和信道补偿因子,生成最终的注册说话人声纹。
测试说话人识别首先提取特征,计算Baum Welch统计量,然后通过i-vector空间矩阵和信道补偿因子,生成测试说话人声纹。然后计算测试说话人和每个注册说话人的余弦得分。余弦相似度越接近1,说明属于同一个说话人的可能性越大;余弦相似度越接近-1,说明属于不同说话人的可能性越大。余弦得分最高的一个注册说话人,如果得分同时高于阈值,则判断为改注册说话人,否则,判断为非注册的任何说话人。
提问者面对机器人,说出“我是宝宝/爸爸/妈妈,记住我的样子吧”,机器人拍摄足够的照片,记录下说话的语音,存储,抽取特征,建模,完成人脸特征的建立和声纹的建立。如果信息不充分(比如光线太暗或者说话太短),提示“我还没看清楚,请再试一试”或者“再多说两句”,最后成功提示“你好,宝宝/爸爸/妈妈,我现在认识你了”。之后提问者每次提问时,机器人会启动摄像头识别人脸和表情,并根据声音识别声纹,做出相应的回答。
本发明可以通过人脸技术和声纹技术进行合并识别,达到最终的非常准确的人员识别的结果,上文提出的人脸识别技术和声纹识别技术都可对已经进行注册成员进行识别;当只有人脸信息或只有语音信息时,可单独使用人脸识别技术或声纹识别技术识别。但如果同时得到人脸信息和语音信息,需要综合两者信息识别注册成员;识别步骤如下:一,从人脸识别引擎中获得每个注册成员的人脸识别M维得分;二,从声纹识别引擎中获得每个注册成员的声纹识别N维得分;三,通过主分量分析对M+N维得分数据进行运算,得出每个注册成员的融合得分;主分量分析的参数可通过训练集生成;四,选出融合得分最高的注册成员作为识别的结果。
以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种基于声纹和人脸识别的机器人交互方法,其特征在于,所述基于声纹和人脸识别的机器人交互方法包括人脸识别部分和声纹识别部分;
人脸识别部分是基于人的脸部特征,对输入的人脸图像或者视频流判断其是否存在人脸,存在人脸则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息,并依据这些信息,进一步提取每个人脸中所蕴涵的身份特征,并将其与已知的人脸进行对比,从而识别每个人脸的身份和表情,来自用户集内哪位用户;
声纹识别部分是通过一段语音信号来判断这段语音来自用户集内的哪位用户,首先通过大量说话人的语料,进行系统模型空间训练,生成系统所需要的空间参数;然后对于需要识别的说话人进行注册,通过注册说话人声纹生成部分,生成用户集内每个注册说话人的声纹;最后,在实际应用中,对需要识别的说话人语音生成声纹,与用户集内每个注册说话人的声纹进行对比,得出是用户集内哪个说话人。
2.如权利要求1所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述人脸识别部分采用的是基于人工神经网络模式识别的方法,通过采集的样本图像,抽取相关特征,学习产生分类器。
3.如权利要求1所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述人脸识别部分具体包括以下三个步骤:
步骤一,首先建立人脸的面像档案;即用摄像机采集单位人员的人脸的面像文件或取他们的照片形成面像文件,并将这些面像文件生成面纹编码贮存起来;
步骤二,获取当前的人体面像;即用摄像机捕捉的当前出入人员的面像,或取照片输入,并将当前的面像文件生成面纹编码;
步骤三,用当前的面纹编码与档案库存的比对;上述的面纹编码方式是根据人脸脸部的本质特征和开头来工作的。
4.如权利要求1所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述脸部特征利用主分量分析进行降维和提取特征。
5.如权利要求1所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述脸部特征对人脸的表情关键点进行抽取和识别,根据不同表情的典型关键点的相对位置进行比对,进而判别出人脸的表情种类。
6.如权利要求5所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述人脸的表情关键点采用以下步骤进行识别:一,图像获取:通过图像捕捉工具获取静态图像或动态图像序列;二,图像预处理:图像的大小和灰度的归一化、头部姿态的矫正、图像分割;三,特征提取:将点阵转化成更高级别图像表述。
7.如权利要求1所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述声纹识别部分采用的是基于i-vector的说话人识别系统,该系统分为系统模型空间训练、注册说话人声纹生成和测试说话人识别三个部分。
8.如权利要求7所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述系统模型空间训练的具体过程如下:
一,对大量的训练说话人的原始语料,进行特征提取,这里用梅尔频率倒谱系数或者线性预测倒谱系数作为提取的特征;
二,通过上一步生成的大量训练说话人的特征,生成一个覆盖面较广的描述整个说话人空间的通用背景模型;
三,在i-vector系统中,某个说话人的一段语料由一个均值超矢量M来表示;
四,为了进行信道补偿,对训练语料说话人的i-vector因子进行线性判别分析计算,生成信道补偿因子。
9.如权利要求7所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述注册说话人声纹生成对于注册说话人语料,首先提取特征,计算Baum Welch统计量,然后通过i-vector空间矩阵和信道补偿因子,生成最终的注册说话人声纹。
10.如权利要求7所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述测试说话人识别首先提取特征,计算Baum Welch统计量,然后通过i-vector空间矩阵和信道补偿因子,生成测试说话人声纹;然后计算测试说话人和每个注册说话人的余弦得分。
11.如权利要求1所述的基于声纹和人脸识别的机器人交互方法,其特征在于,所述基于声纹和人脸识别的机器人交互方法通过人脸技术和声纹技术进行合并识别,达到最终的非常准确的人员识别的结果,当只有人脸信息或只有语音信息时,单独使用人脸识别技术或声纹识别技术识别;但如果同时得到人脸信息和语音信息,需要综合两者信息识别注册成员;识别步骤如下:一,从人脸识别引擎中获得每个注册成员的人脸识别M维得分;二,从声纹识别引擎中获得每个注册成员的声纹识别N维得分;三,通过主分量分析对M+N维得分数据进行运算,得出每个注册成员的融合得分;主分量分析的参数通过训练集生成;四,选出融合得分最高的注册成员作为识别的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610473742.5A CN106127156A (zh) | 2016-06-27 | 2016-06-27 | 基于声纹和人脸识别的机器人交互方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610473742.5A CN106127156A (zh) | 2016-06-27 | 2016-06-27 | 基于声纹和人脸识别的机器人交互方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106127156A true CN106127156A (zh) | 2016-11-16 |
Family
ID=57265784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610473742.5A Pending CN106127156A (zh) | 2016-06-27 | 2016-06-27 | 基于声纹和人脸识别的机器人交互方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106127156A (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782606A (zh) * | 2017-01-17 | 2017-05-31 | 山东南工机器人科技有限公司 | 用于导讲机器人的语言交流与互动系统及其工作方法 |
CN107066514A (zh) * | 2017-01-23 | 2017-08-18 | 深圳亲友科技有限公司 | 老年人的情绪识别方法和系统 |
CN107230476A (zh) * | 2017-05-05 | 2017-10-03 | 众安信息技术服务有限公司 | 一种自然的人机语音交互方法和系统 |
CN107274906A (zh) * | 2017-06-28 | 2017-10-20 | 百度在线网络技术(北京)有限公司 | 语音信息处理方法、装置、终端及存储介质 |
CN107507620A (zh) * | 2017-09-25 | 2017-12-22 | 广东小天才科技有限公司 | 一种语音播报声音设置方法、装置、移动终端及存储介质 |
CN107808145A (zh) * | 2017-11-13 | 2018-03-16 | 河南大学 | 基于多模态智能机器人的交互身份鉴别与跟踪方法及系统 |
CN108186033A (zh) * | 2018-01-08 | 2018-06-22 | 杭州草莽科技有限公司 | 一种基于人工智能的幼儿情绪监控方法及其系统 |
CN108364346A (zh) * | 2018-03-08 | 2018-08-03 | 腾讯科技(深圳)有限公司 | 构建三维人脸模型的方法、装置和计算机可读存储介质 |
CN108520752A (zh) * | 2018-04-25 | 2018-09-11 | 西北工业大学 | 一种声纹识别方法和装置 |
CN108573695A (zh) * | 2017-03-08 | 2018-09-25 | 松下知识产权经营株式会社 | 装置、机器人、方法以及程序 |
CN109522799A (zh) * | 2018-10-16 | 2019-03-26 | 深圳壹账通智能科技有限公司 | 信息提示方法、装置、计算机设备和存储介质 |
CN109817221A (zh) * | 2018-12-26 | 2019-05-28 | 出门问问信息科技有限公司 | 多人视频方法、装置、设备及存储介质 |
CN110082723A (zh) * | 2019-05-16 | 2019-08-02 | 浙江大华技术股份有限公司 | 一种声源定位方法、装置、设备及存储介质 |
CN110287794A (zh) * | 2019-05-24 | 2019-09-27 | 华纳科技(深圳)有限公司 | 一种生产线人脸智能识别系统 |
CN110363148A (zh) * | 2019-07-16 | 2019-10-22 | 中用科技有限公司 | 一种人脸声纹特征融合验证的方法 |
WO2019205369A1 (zh) * | 2018-04-28 | 2019-10-31 | 平安科技(深圳)有限公司 | 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质 |
WO2020019831A1 (zh) * | 2018-07-23 | 2020-01-30 | 深圳大学 | 特定人群识别方法、电子装置及计算机可读存储介质 |
CN110956965A (zh) * | 2019-12-12 | 2020-04-03 | 电子科技大学 | 一种基于声纹识别的个性化智能家居安全控制系统及方法 |
CN111124109A (zh) * | 2019-11-25 | 2020-05-08 | 北京明略软件系统有限公司 | 一种交互方式的选择方法、智能终端、设备及存储介质 |
CN111386531A (zh) * | 2017-11-24 | 2020-07-07 | 株式会社捷尼赛思莱博 | 利用人工智能的多模式情绪识别装置、方法以及存储介质 |
CN111680589A (zh) * | 2020-05-26 | 2020-09-18 | 天津市微卡科技有限公司 | 一种机器人基于声纹认证完成人脸识别认知方法 |
CN111723679A (zh) * | 2020-05-27 | 2020-09-29 | 上海五零盛同信息科技有限公司 | 基于深度迁移学习的人脸和声纹认证系统及方法 |
WO2021013137A1 (zh) * | 2019-07-25 | 2021-01-28 | 华为技术有限公司 | 一种语音唤醒方法及电子设备 |
CN112613468A (zh) * | 2020-12-31 | 2021-04-06 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的疫情排查方法及相关设备 |
CN113076916A (zh) * | 2021-04-19 | 2021-07-06 | 山东大学 | 基于几何特征加权融合的动态人脸表情识别方法及系统 |
CN113158931A (zh) * | 2021-04-27 | 2021-07-23 | 河南能创电子科技有限公司 | 一种基于ai智能人脸识别技术的低压集抄运维实现方法 |
CN113299287A (zh) * | 2021-05-24 | 2021-08-24 | 山东新一代信息产业技术研究院有限公司 | 基于多模态的服务机器人交互方法、系统及存储介质 |
CN114360006A (zh) * | 2021-12-20 | 2022-04-15 | 南京爱特邦科技有限公司 | 一种人脸识别系统及其检测方法 |
CN114973490A (zh) * | 2022-05-26 | 2022-08-30 | 南京大学 | 一种基于人脸识别的监控预警系统 |
WO2022179253A1 (zh) * | 2021-02-26 | 2022-09-01 | 华为技术有限公司 | 一种设备的语音操作方法、装置和电子设备 |
CN115410561A (zh) * | 2022-11-02 | 2022-11-29 | 中汽数据有限公司 | 基于车载多模交互的语音识别方法及装置、介质和设备 |
WO2023137922A1 (zh) * | 2022-01-18 | 2023-07-27 | 平安科技(深圳)有限公司 | 语音消息生成方法和装置、计算机设备、存储介质 |
CN117708305A (zh) * | 2024-02-05 | 2024-03-15 | 天津英信科技有限公司 | 一种针对应答机器人的对话处理方法和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758263A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于得分差加权融合的多模态身份识别方法 |
CN102298694A (zh) * | 2011-06-21 | 2011-12-28 | 广东爱科数字科技有限公司 | 一种应用于远程信息服务的人机交互识别系统 |
CN103475490A (zh) * | 2013-09-29 | 2013-12-25 | 广州网易计算机系统有限公司 | 一种身份验证方法及装置 |
CN104333686A (zh) * | 2014-11-27 | 2015-02-04 | 天津天地伟业数码科技有限公司 | 基于人脸和声纹识别的智能监控摄像机及其控制方法 |
CN104598795A (zh) * | 2015-01-30 | 2015-05-06 | 科大讯飞股份有限公司 | 身份验证方法及系统 |
CN104834849A (zh) * | 2015-04-14 | 2015-08-12 | 时代亿宝(北京)科技有限公司 | 基于声纹识别和人脸识别的双因素身份认证方法及系统 |
CN204576520U (zh) * | 2015-04-14 | 2015-08-19 | 时代亿宝(北京)科技有限公司 | 基于声纹识别和人脸识别的双因素身份认证装置 |
CN105426723A (zh) * | 2015-11-20 | 2016-03-23 | 北京得意音通技术有限责任公司 | 基于声纹识别、人脸识别以及同步活体检测的身份认证方法及系统 |
CN105512535A (zh) * | 2016-01-08 | 2016-04-20 | 广东德生科技股份有限公司 | 一种用户认证的方法及装置 |
-
2016
- 2016-06-27 CN CN201610473742.5A patent/CN106127156A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758263A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于得分差加权融合的多模态身份识别方法 |
CN102298694A (zh) * | 2011-06-21 | 2011-12-28 | 广东爱科数字科技有限公司 | 一种应用于远程信息服务的人机交互识别系统 |
CN103475490A (zh) * | 2013-09-29 | 2013-12-25 | 广州网易计算机系统有限公司 | 一种身份验证方法及装置 |
CN104333686A (zh) * | 2014-11-27 | 2015-02-04 | 天津天地伟业数码科技有限公司 | 基于人脸和声纹识别的智能监控摄像机及其控制方法 |
CN104598795A (zh) * | 2015-01-30 | 2015-05-06 | 科大讯飞股份有限公司 | 身份验证方法及系统 |
CN104834849A (zh) * | 2015-04-14 | 2015-08-12 | 时代亿宝(北京)科技有限公司 | 基于声纹识别和人脸识别的双因素身份认证方法及系统 |
CN204576520U (zh) * | 2015-04-14 | 2015-08-19 | 时代亿宝(北京)科技有限公司 | 基于声纹识别和人脸识别的双因素身份认证装置 |
CN105426723A (zh) * | 2015-11-20 | 2016-03-23 | 北京得意音通技术有限责任公司 | 基于声纹识别、人脸识别以及同步活体检测的身份认证方法及系统 |
CN105512535A (zh) * | 2016-01-08 | 2016-04-20 | 广东德生科技股份有限公司 | 一种用户认证的方法及装置 |
Non-Patent Citations (4)
Title |
---|
王志良 等: "《人脸工程学》", 31 July 2008 * |
陈倩: "多生物特征融合身份识别研究", 《中国博士学位论文全文数据库信息科技辑》 * |
陈德裕 等: "《计算机导论(技术篇)》", 30 September 2015 * |
陈晨 等: "说话人识别方法综述", 《智能计算机与应用》 * |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782606A (zh) * | 2017-01-17 | 2017-05-31 | 山东南工机器人科技有限公司 | 用于导讲机器人的语言交流与互动系统及其工作方法 |
CN107066514A (zh) * | 2017-01-23 | 2017-08-18 | 深圳亲友科技有限公司 | 老年人的情绪识别方法和系统 |
CN108573695A (zh) * | 2017-03-08 | 2018-09-25 | 松下知识产权经营株式会社 | 装置、机器人、方法以及程序 |
CN107230476A (zh) * | 2017-05-05 | 2017-10-03 | 众安信息技术服务有限公司 | 一种自然的人机语音交互方法和系统 |
CN107274906A (zh) * | 2017-06-28 | 2017-10-20 | 百度在线网络技术(北京)有限公司 | 语音信息处理方法、装置、终端及存储介质 |
US10593333B2 (en) | 2017-06-28 | 2020-03-17 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for processing voice message, terminal and storage medium |
CN107507620A (zh) * | 2017-09-25 | 2017-12-22 | 广东小天才科技有限公司 | 一种语音播报声音设置方法、装置、移动终端及存储介质 |
CN107808145B (zh) * | 2017-11-13 | 2021-03-30 | 河南大学 | 基于多模态智能机器人的交互身份鉴别与跟踪方法及系统 |
CN107808145A (zh) * | 2017-11-13 | 2018-03-16 | 河南大学 | 基于多模态智能机器人的交互身份鉴别与跟踪方法及系统 |
CN111386531A (zh) * | 2017-11-24 | 2020-07-07 | 株式会社捷尼赛思莱博 | 利用人工智能的多模式情绪识别装置、方法以及存储介质 |
CN108186033A (zh) * | 2018-01-08 | 2018-06-22 | 杭州草莽科技有限公司 | 一种基于人工智能的幼儿情绪监控方法及其系统 |
CN108364346A (zh) * | 2018-03-08 | 2018-08-03 | 腾讯科技(深圳)有限公司 | 构建三维人脸模型的方法、装置和计算机可读存储介质 |
CN108364346B (zh) * | 2018-03-08 | 2023-05-12 | 腾讯科技(深圳)有限公司 | 构建三维人脸模型的方法、装置和计算机可读存储介质 |
CN108520752A (zh) * | 2018-04-25 | 2018-09-11 | 西北工业大学 | 一种声纹识别方法和装置 |
WO2019205369A1 (zh) * | 2018-04-28 | 2019-10-31 | 平安科技(深圳)有限公司 | 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质 |
WO2020019831A1 (zh) * | 2018-07-23 | 2020-01-30 | 深圳大学 | 特定人群识别方法、电子装置及计算机可读存储介质 |
CN109522799A (zh) * | 2018-10-16 | 2019-03-26 | 深圳壹账通智能科技有限公司 | 信息提示方法、装置、计算机设备和存储介质 |
CN109817221B (zh) * | 2018-12-26 | 2021-01-01 | 出门问问信息科技有限公司 | 多人视频方法、装置、设备及存储介质 |
CN109817221A (zh) * | 2018-12-26 | 2019-05-28 | 出门问问信息科技有限公司 | 多人视频方法、装置、设备及存储介质 |
CN110082723B (zh) * | 2019-05-16 | 2022-03-15 | 浙江大华技术股份有限公司 | 一种声源定位方法、装置、设备及存储介质 |
CN110082723A (zh) * | 2019-05-16 | 2019-08-02 | 浙江大华技术股份有限公司 | 一种声源定位方法、装置、设备及存储介质 |
CN110287794A (zh) * | 2019-05-24 | 2019-09-27 | 华纳科技(深圳)有限公司 | 一种生产线人脸智能识别系统 |
CN110363148A (zh) * | 2019-07-16 | 2019-10-22 | 中用科技有限公司 | 一种人脸声纹特征融合验证的方法 |
WO2021013137A1 (zh) * | 2019-07-25 | 2021-01-28 | 华为技术有限公司 | 一种语音唤醒方法及电子设备 |
CN111124109A (zh) * | 2019-11-25 | 2020-05-08 | 北京明略软件系统有限公司 | 一种交互方式的选择方法、智能终端、设备及存储介质 |
CN110956965A (zh) * | 2019-12-12 | 2020-04-03 | 电子科技大学 | 一种基于声纹识别的个性化智能家居安全控制系统及方法 |
CN111680589A (zh) * | 2020-05-26 | 2020-09-18 | 天津市微卡科技有限公司 | 一种机器人基于声纹认证完成人脸识别认知方法 |
CN111723679A (zh) * | 2020-05-27 | 2020-09-29 | 上海五零盛同信息科技有限公司 | 基于深度迁移学习的人脸和声纹认证系统及方法 |
CN112613468A (zh) * | 2020-12-31 | 2021-04-06 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的疫情排查方法及相关设备 |
CN112613468B (zh) * | 2020-12-31 | 2024-04-05 | 深圳平安智慧医健科技有限公司 | 基于人工智能的疫情排查方法及相关设备 |
WO2022179253A1 (zh) * | 2021-02-26 | 2022-09-01 | 华为技术有限公司 | 一种设备的语音操作方法、装置和电子设备 |
CN113076916A (zh) * | 2021-04-19 | 2021-07-06 | 山东大学 | 基于几何特征加权融合的动态人脸表情识别方法及系统 |
CN113158931A (zh) * | 2021-04-27 | 2021-07-23 | 河南能创电子科技有限公司 | 一种基于ai智能人脸识别技术的低压集抄运维实现方法 |
CN113299287A (zh) * | 2021-05-24 | 2021-08-24 | 山东新一代信息产业技术研究院有限公司 | 基于多模态的服务机器人交互方法、系统及存储介质 |
CN114360006A (zh) * | 2021-12-20 | 2022-04-15 | 南京爱特邦科技有限公司 | 一种人脸识别系统及其检测方法 |
WO2023137922A1 (zh) * | 2022-01-18 | 2023-07-27 | 平安科技(深圳)有限公司 | 语音消息生成方法和装置、计算机设备、存储介质 |
CN114973490A (zh) * | 2022-05-26 | 2022-08-30 | 南京大学 | 一种基于人脸识别的监控预警系统 |
CN115410561A (zh) * | 2022-11-02 | 2022-11-29 | 中汽数据有限公司 | 基于车载多模交互的语音识别方法及装置、介质和设备 |
CN115410561B (zh) * | 2022-11-02 | 2023-02-17 | 中汽数据有限公司 | 基于车载多模交互的语音识别方法及装置、介质和设备 |
CN117708305A (zh) * | 2024-02-05 | 2024-03-15 | 天津英信科技有限公司 | 一种针对应答机器人的对话处理方法和系统 |
CN117708305B (zh) * | 2024-02-05 | 2024-04-30 | 天津英信科技有限公司 | 一种针对应答机器人的对话处理方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106127156A (zh) | 基于声纹和人脸识别的机器人交互方法 | |
CN110188343B (zh) | 基于融合注意力网络的多模态情感识别方法 | |
Tamura et al. | Audio-visual speech recognition using deep bottleneck features and high-performance lipreading | |
Soltane et al. | Face and speech based multi-modal biometric authentication | |
CN100363938C (zh) | 基于得分差加权融合的多模态身份识别方法 | |
CN108256307B (zh) | 一种智能商务旅居房车的混合增强智能认知方法 | |
CN103996155A (zh) | 智能交互及心理慰藉机器人服务系统 | |
Kryszczuk et al. | Reliability-based decision fusion in multimodal biometric verification systems | |
Lucey et al. | Integration strategies for audio-visual speech processing: applied to text-dependent speaker recognition | |
CN113851131A (zh) | 一种跨模态唇语识别方法 | |
Faraj et al. | Synergy of lip-motion and acoustic features in biometric speech and speaker recognition | |
Shi et al. | Visual speaker authentication by ensemble learning over static and dynamic lip details | |
CN110085236B (zh) | 一种基于自适应语音帧加权的说话人识别方法 | |
Radha et al. | A person identification system combining recognition of face and lip-read passwords | |
Nanduri et al. | A Review of multi-modal speech emotion recognition and various techniques used to solve emotion recognition on speech data | |
Friedland et al. | Speaker recognition and diarization | |
Chandrakala et al. | Combination of generative models and SVM based classifier for speech emotion recognition | |
Bhardwaj et al. | Identification of speech signal in moving objects using artificial neural network system | |
Lu et al. | Audio-visual emotion recognition using boltzmann zippers | |
Richiardi | Probabilistic models for multi-classifier biometric authentication using quality measures | |
Nainan et al. | Synergy in voice and lip movement for automatic person recognition | |
Kannavara et al. | A comparative survey on biometric identity authentication techniques based on neural networks | |
Agarwal et al. | Learning to synthesize faces using voice clips for Cross-Modal biometric matching | |
Desyatchikov et al. | A system of algorithms for stable human recognition | |
Roy et al. | Speaker recognition using multimodal biometric system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161116 |
|
WD01 | Invention patent application deemed withdrawn after publication |