CN108399395A - 基于端到端深度神经网络的语音和人脸复合身份认证方法 - Google Patents
基于端到端深度神经网络的语音和人脸复合身份认证方法 Download PDFInfo
- Publication number
- CN108399395A CN108399395A CN201810204002.0A CN201810204002A CN108399395A CN 108399395 A CN108399395 A CN 108399395A CN 201810204002 A CN201810204002 A CN 201810204002A CN 108399395 A CN108399395 A CN 108399395A
- Authority
- CN
- China
- Prior art keywords
- face
- sample
- voice
- neural network
- deep neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 22
- 150000001875 compounds Chemical class 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 40
- 230000001755 vocal effect Effects 0.000 claims abstract description 27
- 230000001815 facial effect Effects 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 17
- 238000001228 spectrum Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 3
- 230000007812 deficiency Effects 0.000 abstract description 2
- 230000003993 interaction Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Collating Specific Patterns (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于端到端深度神经网络的语音和人脸复合身份认证方法,其包括采集文本相关语音信号和面部视频信号,提取语音声纹特征,提取多帧人脸特征,将语音声纹特征和多帧人脸特征进行连接得到身份特征向量,将身份特征向量进行降维处理,采用Triplets Loss方法进行身份识别。本发明通过结合语音和人脸特征进行身份认证,弥补单一特征带来的不足,可应用于门禁考勤和人机交互等场合,有效提高识别准确率。
Description
技术领域
本发明属于身份识别技术领域,尤其涉及一种基于端到端深度神经网络的语音和人脸复合身份认证方法。
背景技术
随着人工智能技术的发展,人脸识别和声纹识别等身份验证手段已广泛用于智能安防领域。其中,Google公司开发的基于卷积神经网络的人脸识别模型FaceNet直接进行端到端学习一个从图像到欧式空间的编码方法,然后基于这个编码进行人脸识别、人脸验证和人脸聚类等。FaceNet在LFW数据集上,准确率为0.9963,在YouTube Faces DB数据集上,准确率为0.9512。百度公司开发的Deep Speaker由深度神经网络层组成,它使用MFCC、基于余弦相似性的时间池和三元组损失(triplet loss)代价函数,学习到了与语言无关的声纹特征。当在普通话语境下训练时,Deep Speaker却能在英文确认和识别的任务上达到5.57%的错误率和88%的正确率。上述两种方法是目前人脸识别和声纹识别领域最优秀的方法之一。但在实际工程运用中,应用环境的光照变化,人脸姿势等因素对人脸识别有较大影响,而说话者声道状态和环境噪声也对声纹识别有较大影响。
发明内容
本发明的发明目的是:为了解决现有技术中存在的以上问题,本发明充分考虑工程应用环境的复杂性,提出了一种基于端到端深度神经网络的语音和人脸复合身份认证方法。
本发明的技术方案是:一种基于端到端深度神经网络的语音和人脸复合身份认证方法,包括以下步骤:
A、采集预先设定的文本相关语音信号,并同步采集待识别人的面部视频信号;
B、提取步骤A中文本相关语音信号的语音声纹特征;
C、提取步骤A中面部视频信号的多帧人脸特征;
D、将步骤B中语音声纹特征和步骤C中多帧人脸特征进行连接,得到身份特征向量;
E、将步骤D中身份特征向量进行降维处理;
F、根据步骤E中降维处理后的身份特征向量采用Triplets Loss方法进行身份识别。
进一步地,所述步骤B提取步骤A中文本相关语音信号的语音声纹特征,具体包括以下分步骤:
B1、对步骤A中文本相关语音信号进行预处理,得到MFCC特征向量;
B2、采用残差卷积深度神经网络ResCNN对步骤B1中MFCC特征向量进行声纹特征的提取。
进一步地,所述步骤B1对步骤A中文本相关语音信号进行预处理,得到MFCC特征向量,具体包括以下分步骤:
B11、对步骤A中文本相关语音信号进行预加重、分帧、加窗处理;
B12、对步骤B11处理后的每一帧文本相关语音信号进行快速傅里叶变换,计算频谱,得到幅度谱;
B13、对步骤B12中幅度谱进行Mel滤波处理;
B14、对步骤B13处理后的幅度谱作对数运算,再进行离散余弦变换得到MFCC特征向量;
B15、对步骤B14中MFCC特征向量进行去均值和方差并归一化处理。
进一步地,所述步骤C提取步骤A中面部视频信号的多帧人脸特征,具体包括以下分步骤:
C1、根据预设时间间隔从面部视频信号中采集图像帧,并进行人脸检测,当包含人脸的图像帧达到预设数量时完成采集;
C2、将步骤C1中包含人脸的图像帧进行人脸对齐并归一化处理;
C3、对步骤C2处理后的图像帧采用深度残差网络ResNet进行特征点检测和特征学习,得到对应的人脸特征;
C4、将步骤C3中人脸特征进行融合得到人脸特征向量。
进一步地,所述步骤F根据步骤E中降维处理后的身份特征向量采用TripLetsLoss方法进行身份识别,具体包括以下分步骤:
F1、采集包含人脸数据集和声纹数据集的训练数据集,并采用所述步骤B至步骤E的方法进行处理得到身份特征向量样本集;
F2、根据步骤F1中身份特征向量样本集生成triplet三元组集合;
F3、分别将triplet三元组集合中的每个元素训练共享参数网络,得到三个元素的特征表达;
F4、根据步骤F3中三个元素的特征表达构造优化Triplet loss目标函数,完成身份识别。
进一步地,所述优化Triplet loss目标函数具体为:
其中,为三个元素的特征表达,N为样本集中样本的总数量,为第i个三元组中的锚记样本,为此三元组中与属于同类样本的样本,为此三元组中与不属于同类样本的样本,a为锚记样本的标记,p为锚记样本同类样本的标记,n为与锚记样本不同类样本的标记,α为与距离和与距离的最小间隔,为二范数的平方。
本发明的有益效果是:本发明通过结合语音和人脸特征进行身份认证,弥补单一特征带来的不足,可应用于门禁考勤和人机交互等场合,有效提高识别准确率。
附图说明
图1是本发明的基于端到端深度神经网络的语音和人脸复合身份认证方法的流程示意图。
图2是本发明实施例中提取语音声纹特征流程示意图。
图3是本发明实施例中提取多帧人脸特征流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,为本发明的基于端到端深度神经网络的语音和人脸复合身份认证方法的流程示意图。一种基于端到端深度神经网络的语音和人脸复合身份认证方法,包括以下步骤:
A、采集预先设定的文本相关语音信号,并同步采集待识别人的面部视频信号;
B、提取步骤A中文本相关语音信号的语音声纹特征;
C、提取步骤A中面部视频信号的多帧人脸特征;
D、将步骤B中语音声纹特征和步骤C中多帧人脸特征进行连接,得到身份特征向量;
E、将步骤D中身份特征向量进行降维处理;
F、根据步骤E中降维处理后的身份特征向量采用Triplets Loss方法进行身份识别。
在本发明的一个可选实施例中,上述步骤A在开始身份认证时,采集系统预先设定的文本相关语音信号,并在检测到语音信号后同步采集待识别人的面部视频信号。
在本发明的一个可选实施例中,如图2所示,上述步骤B提取步骤A中文本相关语音信号的语音声纹特征,语音声纹特征的长度为m维,记为V=(v1,v2...vm);优选地,本发明在具体实验中设定m=256。
本发明提取步骤A中文本相关语音信号的语音声纹特征,具体包括以下分步骤:
B1、对步骤A中文本相关语音信号进行预处理,得到MFCC特征向量;
在本发明的一个可选实施例中,上述步骤B1对步骤A中文本相关语音信号进行预处理,得到MFCC特征向量,具体包括以下分步骤:
B11、对步骤A中文本相关语音信号进行预加重、分帧、加窗处理;
对步骤A中文本相关语音信号X=(xt1,xt2...xtL)进行预处理,包括预加重(Preemphasis),分帧(Frame Blocking),加窗(Windowing),其中xti为ti时刻语音信号的采样值,tL为语音信号采样结束时间。语音信号的采样频率fs=8KHz,设置帧长为160个点,帧移设置为帧长的1/2。
B12、对步骤B11处理后的每一帧文本相关语音信号进行快速傅里叶(FFT)变换,通过取绝对值或平方值计算频谱,进而计算得到幅度谱;
B13、对步骤B12中幅度谱添加Mel滤波器组,进行Mel滤波处理;
B14、对步骤B13处理后的幅度谱作对数运算(Logarlithm),再进行离散余弦变换(DCT)得到MFCC特征向量,记为M=(s1,s2...s26),其中si为第i维特征向量。
B15、对步骤B14中MFCC特征向量进行去均值和方差并归一化处理。
B2、采用残差卷积深度神经网络ResCNN对步骤B1中MFCC特征向量进行声纹特征的提取。
本发明中残差卷积深度神经网络ResCNN的结构如表1所示。
表1、残差卷积深度神经网络ResCNN结构表
表1中的第5层是池化层,将各帧得到的声纹特征向量进行平均,从而得到用于身份认证的特定文本的初步声纹特征,第6层变换主要实现声纹特征降维,最终得到声纹特征V=(v1,v2...v256)。
在本发明的一个可选实施例中,如图3所示,为了减少光照和人脸姿势对人脸识别的影响,本发明采取平均池化的方法进行多帧人脸特征融合。上述步骤C提取步骤A中面部视频信号的多帧人脸特征,具体包括以下分步骤:
C1、根据预设时间间隔从面部视频信号中采集图像帧,并进行人脸检测,当包含人脸的图像帧达到预设数量时完成采集;
在本发明的一个可选实施例中,上述步骤C1预设时间间隔为200毫秒,从面部视频信号中采集图像帧,并进行人脸检测,当包含人脸的图像帧达到预设数量时完成采集;优选地,本发明采集三张包含人脸的图像帧记为(face1,face2,face3)。
C2、将步骤C1中包含人脸的图像帧进行人脸对齐并归一化处理;
在本发明的一个可选实施例中,上述步骤C2将步骤C1中包含人脸的图像帧进行人脸对齐并归一化处理到的150×150大小。
C3、对步骤C2处理后的图像帧采用深度残差网络ResNet进行特征点检测和特征学习,得到对应的人脸特征;
在本发明的一个可选实施例中,上述步骤C3分别对步骤C2处理后的三张图像帧采用深度残差网络ResNet进行68个特征点检测和特征学习,得到3个1×128的人脸特征(D1,D2,D3)。
C4、将步骤C3中人脸特征进行融合得到人脸特征向量,记为F=(f1,f2...fn),其中其中表示第k张人脸的第i维特征。
本发明采用多脸融合识别方法提高了系统对环境光照的鲁棒性,可避免环境光照对单一人脸识别的影响。
在本发明的一个可选实施例中,上述步骤D将步骤B中语音声纹特征和步骤C中多帧人脸特征进行连接,得到身份特征向量;身份特征向量的长度为m+n维,记为T=(V,F)。
在本发明的一个可选实施例中,上述步骤E采用embedding方法将步骤D中身份特征向量进行特征降维处理,降维过程记为:
Te=T×We
其中,We表示embedding层的连接权重矩阵,降维处理后的身份特征向量长度为Te=(t1,t2...t256)。
在本发明的一个可选实施例中,上述步骤F根据步骤E中降维处理后的身份特征向量采用Triplets Loss方法进行身份识别,具体包括以下分步骤:
F1、采集包含人脸数据集和声纹数据集的训练数据集,并采用所述步骤B至步骤E的方法进行处理得到身份特征向量样本集,记为
F2、根据步骤F1中身份特征向量样本集生成triplet三元组集合,记为
F3、分别将triplet三元组集合中的每个元素训练共享参数网络,得到三个元素的特征表达,记为
F4、根据步骤F3中三个元素的特征表达构造优化Triplet loss目标函数,完成身份识别;优化Triplet loss目标函数具体为:
其中,为三个元素的特征表达,N为样本集中样本的总数量,为第i个三元组中的锚记样本,为此三元组中与属于同类样本的样本,为此三元组中与不属于同类样本的样本,a为锚记样本的标记,p为锚记样本同类样本的标记,n为与锚记样本不同类样本的标记,α为与距离和与距离的最小间隔,为二范数的平方。身份识别过程中参数的优化采用与神经网络相同的梯度下降法进行处理。
本发明采用基于Triplets Loss的人脸+声纹复合识别技术,可避免单一技术的局限性,从而提高识别的准确性,同时通过构建端到端的复合识别模型,复合识别模型可以采用经典预训练模型的参数作为对应ResNet,ResCNN初始化参数,使用收集的有限训练样本实现端到端的训练和识别,从而使模型更有效。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (6)
1.一种基于端到端深度神经网络的语音和人脸复合身份认证方法,其特征在于,包括以下步骤:
A、采集预先设定的文本相关语音信号,并同步采集待识别人的面部视频信号;
B、提取步骤A中文本相关语音信号的语音声纹特征;
C、提取步骤A中面部视频信号的多帧人脸特征;
D、将步骤B中语音声纹特征和步骤C中多帧人脸特征进行连接,得到身份特征向量;
E、将步骤D中身份特征向量进行降维处理;
F、根据步骤E中降维处理后的身份特征向量采用Triplets Loss方法进行身份识别。
2.如权利要求1所述的基于端到端深度神经网络的语音和人脸复合身份认证方法,其特征在于,所述步骤B提取步骤A中文本相关语音信号的语音声纹特征,具体包括以下分步骤:
B1、对步骤A中文本相关语音信号进行预处理,得到MFCC特征向量;
B2、采用残差卷积深度神经网络ResCNN对步骤B1中MFCC特征向量进行声纹特征的提取。
3.如权利要求2所述的基于端到端深度神经网络的语音和人脸复合身份认证方法,其特征在于,所述步骤B1对步骤A中文本相关语音信号进行预处理,得到MFCC特征向量,具体包括以下分步骤:
B11、对步骤A中文本相关语音信号进行预加重、分帧、加窗处理;
B12、对步骤B11处理后的每一帧文本相关语音信号进行快速傅里叶变换,计算频谱,得到幅度谱;
B13、对步骤B12中幅度谱进行Mel滤波处理;
B14、对步骤B13处理后的幅度谱作对数运算,再进行离散余弦变换得到MFCC特征向量;
B15、对步骤B14中MFCC特征向量进行去均值和方差并归一化处理。
4.如权利要求3所述的基于端到端深度神经网络的语音和人脸复合身份认证方法,其特征在于,所述步骤C提取步骤A中面部视频信号的多帧人脸特征,具体包括以下分步骤:
C1、根据预设时间间隔从面部视频信号中采集图像帧,并进行人脸检测,当包含人脸的图像帧达到预设数量时完成采集;
C2、将步骤C1中包含人脸的图像帧进行人脸对齐并归一化处理;
C3、对步骤C2处理后的图像帧采用深度残差网络ResNet进行特征点检测和特征学习,得到对应的人脸特征;
C4、将步骤C3中人脸特征进行融合得到人脸特征向量。
5.如权利要求1-4任一所述的基于端到端深度神经网络的语音和人脸复合身份认证方法,其特征在于,所述步骤F根据步骤E中降维处理后的身份特征向量采用TripLets Loss方法进行身份识别,具体包括以下分步骤:
F1、采集包含人脸数据集和声纹数据集的训练数据集,并采用所述步骤B至步骤E的方法进行处理得到身份特征向量样本集;
F2、根据步骤F1中身份特征向量样本集生成triplet三元组集合;
F3、分别将triplet三元组集合中的每个元素训练共享参数网络,得到三个元素的特征表达;
F4、根据步骤F3中三个元素的特征表达构造优化Triplet loss目标函数,完成身份识别。
6.如权利要求5所述的基于端到端深度神经网络的语音和人脸复合身份认证方法,其特征在于,所述优化Triplet loss目标函数具体为:
其中,为三个元素的特征表达,N为样本集中样本的总数量,为第i个三元组中的锚记样本,为此三元组中与属于同类样本的样本,为此三元组中与不属于同类样本的样本,a为锚记样本的标记,p为锚记样本同类样本的标记,n为与锚记样本不同类样本的标记,α为与距离和与距离的最小间隔,为二范数的平方。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810204002.0A CN108399395A (zh) | 2018-03-13 | 2018-03-13 | 基于端到端深度神经网络的语音和人脸复合身份认证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810204002.0A CN108399395A (zh) | 2018-03-13 | 2018-03-13 | 基于端到端深度神经网络的语音和人脸复合身份认证方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108399395A true CN108399395A (zh) | 2018-08-14 |
Family
ID=63092465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810204002.0A Pending CN108399395A (zh) | 2018-03-13 | 2018-03-13 | 基于端到端深度神经网络的语音和人脸复合身份认证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108399395A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109256135A (zh) * | 2018-08-28 | 2019-01-22 | 桂林电子科技大学 | 一种端到端说话人确认方法、装置及存储介质 |
CN109346088A (zh) * | 2018-12-06 | 2019-02-15 | 泰康保险集团股份有限公司 | 身份识别方法、装置、介质及电子设备 |
CN110364163A (zh) * | 2019-07-05 | 2019-10-22 | 西安交通大学 | 一种语音和唇语相融合的身份认证方法 |
CN110363148A (zh) * | 2019-07-16 | 2019-10-22 | 中用科技有限公司 | 一种人脸声纹特征融合验证的方法 |
CN110909613A (zh) * | 2019-10-28 | 2020-03-24 | Oppo广东移动通信有限公司 | 视频人物识别方法、装置、存储介质与电子设备 |
CN111160110A (zh) * | 2019-12-06 | 2020-05-15 | 北京工业大学 | 基于人脸特征和声纹特征识别主播的方法及装置 |
CN111709004A (zh) * | 2020-08-19 | 2020-09-25 | 北京远鉴信息技术有限公司 | 一种身份认证方法、装置、电子设备及可读存储介质 |
CN111949965A (zh) * | 2020-08-12 | 2020-11-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的身份验证方法、装置、介质及电子设备 |
CN112133311A (zh) * | 2020-09-18 | 2020-12-25 | 科大讯飞股份有限公司 | 说话人识别方法、相关设备及可读存储介质 |
CN112492383A (zh) * | 2020-12-03 | 2021-03-12 | 珠海格力电器股份有限公司 | 视频帧的生成方法及装置、存储介质、电子设备 |
CN112949720A (zh) * | 2021-03-04 | 2021-06-11 | 电子科技大学 | 一种基于三元组损失的未知辐射源辨别方法 |
CN114677634A (zh) * | 2022-05-30 | 2022-06-28 | 成都新希望金融信息有限公司 | 面签识别方法、装置、电子设备及存储介质 |
CN117155583A (zh) * | 2023-10-24 | 2023-12-01 | 清华大学 | 非完整信息深度融合的多模态身份认证方法及系统 |
CN110909613B (zh) * | 2019-10-28 | 2024-05-31 | Oppo广东移动通信有限公司 | 视频人物识别方法、装置、存储介质与电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6219639B1 (en) * | 1998-04-28 | 2001-04-17 | International Business Machines Corporation | Method and apparatus for recognizing identity of individuals employing synchronized biometrics |
CN103067460A (zh) * | 2012-12-14 | 2013-04-24 | 厦门天聪智能软件有限公司 | 面向司法社区矫正的生物识别远程身份验证方法 |
CN103440686A (zh) * | 2013-07-29 | 2013-12-11 | 上海交通大学 | 基于声纹识别、头像识别及位置服务的移动身份验证系统和方法 |
CN104376250A (zh) * | 2014-12-03 | 2015-02-25 | 优化科技(苏州)有限公司 | 基于音型像特征的真人活体身份验证方法 |
US9824692B1 (en) * | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
-
2018
- 2018-03-13 CN CN201810204002.0A patent/CN108399395A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6219639B1 (en) * | 1998-04-28 | 2001-04-17 | International Business Machines Corporation | Method and apparatus for recognizing identity of individuals employing synchronized biometrics |
CN103067460A (zh) * | 2012-12-14 | 2013-04-24 | 厦门天聪智能软件有限公司 | 面向司法社区矫正的生物识别远程身份验证方法 |
CN103440686A (zh) * | 2013-07-29 | 2013-12-11 | 上海交通大学 | 基于声纹识别、头像识别及位置服务的移动身份验证系统和方法 |
CN104376250A (zh) * | 2014-12-03 | 2015-02-25 | 优化科技(苏州)有限公司 | 基于音型像特征的真人活体身份验证方法 |
US9824692B1 (en) * | 2016-09-12 | 2017-11-21 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
Non-Patent Citations (3)
Title |
---|
CHAO LI等: "Deep Speaker:an End-to-End Neural Speaker Embedding System", 《ARXIV》 * |
FLORIAN SCHROFF等: "FaceNet:A Unified Embedding for Face Recognition and Clustering", 《ARXIV》 * |
JIAJIA GENG等: "Audio-visual Speaker Recognition via Multi-modal Correlated Neural Networks", 《INTERNATIONAL CONFERENCE ON WEB INTELLIGENCE WORKSHOPS》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109256135B (zh) * | 2018-08-28 | 2021-05-18 | 桂林电子科技大学 | 一种端到端说话人确认方法、装置及存储介质 |
CN109256135A (zh) * | 2018-08-28 | 2019-01-22 | 桂林电子科技大学 | 一种端到端说话人确认方法、装置及存储介质 |
CN109346088A (zh) * | 2018-12-06 | 2019-02-15 | 泰康保险集团股份有限公司 | 身份识别方法、装置、介质及电子设备 |
CN110364163A (zh) * | 2019-07-05 | 2019-10-22 | 西安交通大学 | 一种语音和唇语相融合的身份认证方法 |
CN110363148A (zh) * | 2019-07-16 | 2019-10-22 | 中用科技有限公司 | 一种人脸声纹特征融合验证的方法 |
CN110909613A (zh) * | 2019-10-28 | 2020-03-24 | Oppo广东移动通信有限公司 | 视频人物识别方法、装置、存储介质与电子设备 |
CN110909613B (zh) * | 2019-10-28 | 2024-05-31 | Oppo广东移动通信有限公司 | 视频人物识别方法、装置、存储介质与电子设备 |
WO2021082941A1 (zh) * | 2019-10-28 | 2021-05-06 | Oppo广东移动通信有限公司 | 视频人物识别方法、装置、存储介质与电子设备 |
CN111160110A (zh) * | 2019-12-06 | 2020-05-15 | 北京工业大学 | 基于人脸特征和声纹特征识别主播的方法及装置 |
CN111949965A (zh) * | 2020-08-12 | 2020-11-17 | 腾讯科技(深圳)有限公司 | 基于人工智能的身份验证方法、装置、介质及电子设备 |
CN111709004B (zh) * | 2020-08-19 | 2020-11-13 | 北京远鉴信息技术有限公司 | 一种身份认证方法、装置、电子设备及可读存储介质 |
CN111709004A (zh) * | 2020-08-19 | 2020-09-25 | 北京远鉴信息技术有限公司 | 一种身份认证方法、装置、电子设备及可读存储介质 |
CN112133311A (zh) * | 2020-09-18 | 2020-12-25 | 科大讯飞股份有限公司 | 说话人识别方法、相关设备及可读存储介质 |
CN112492383A (zh) * | 2020-12-03 | 2021-03-12 | 珠海格力电器股份有限公司 | 视频帧的生成方法及装置、存储介质、电子设备 |
CN112949720A (zh) * | 2021-03-04 | 2021-06-11 | 电子科技大学 | 一种基于三元组损失的未知辐射源辨别方法 |
CN114677634A (zh) * | 2022-05-30 | 2022-06-28 | 成都新希望金融信息有限公司 | 面签识别方法、装置、电子设备及存储介质 |
CN114677634B (zh) * | 2022-05-30 | 2022-09-27 | 成都新希望金融信息有限公司 | 面签识别方法、装置、电子设备及存储介质 |
CN117155583A (zh) * | 2023-10-24 | 2023-12-01 | 清华大学 | 非完整信息深度融合的多模态身份认证方法及系统 |
CN117155583B (zh) * | 2023-10-24 | 2024-01-23 | 清华大学 | 非完整信息深度融合的多模态身份认证方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108399395A (zh) | 基于端到端深度神经网络的语音和人脸复合身份认证方法 | |
US11386900B2 (en) | Visual speech recognition by phoneme prediction | |
CN107886064B (zh) | 一种基于卷积神经网络的人脸识别场景适应的方法 | |
TWI527023B (zh) | A voiceprint recognition method and apparatus | |
CN106847292B (zh) | 声纹识别方法及装置 | |
CN104732978B (zh) | 基于联合深度学习的文本相关的说话人识别方法 | |
WO2019153404A1 (zh) | 智能教室语音控制系统 | |
CN109166586A (zh) | 一种识别说话人的方法及终端 | |
CN104485103B (zh) | 一种基于矢量泰勒级数的多环境模型孤立词识别方法 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN108962237A (zh) | 混合语音识别方法、装置及计算机可读存储介质 | |
CN106782569A (zh) | 一种基于声纹注册的增强现实方法及装置 | |
CN108597505A (zh) | 语音识别方法、装置及终端设备 | |
CN109036460A (zh) | 基于多模型神经网络的语音处理方法和装置 | |
CN110286774B (zh) | 一种基于手腕运动传感器的手语识别方法 | |
CN106228045A (zh) | 一种身份识别系统 | |
CN110299132B (zh) | 一种语音数字识别方法和装置 | |
CN110544482B (zh) | 一种单通道语音分离系统 | |
CN106898355A (zh) | 一种基于二次建模的说话人识别方法 | |
CN110176250A (zh) | 一种基于局部学习的鲁棒声学场景识别方法 | |
Sukhwal et al. | Comparative study of different classifiers based speaker recognition system using modified MFCC for noisy environment | |
CN108831484A (zh) | 一种离线的且与语言种类无关的声纹识别方法及装置 | |
CN113886792A (zh) | 一种声纹识别和人脸识别相结合的印控仪应用方法和系统 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
CN114722812A (zh) | 一种多模态深度学习模型脆弱性的分析方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180814 |