CN110364163A - 一种语音和唇语相融合的身份认证方法 - Google Patents
一种语音和唇语相融合的身份认证方法 Download PDFInfo
- Publication number
- CN110364163A CN110364163A CN201910603999.1A CN201910603999A CN110364163A CN 110364163 A CN110364163 A CN 110364163A CN 201910603999 A CN201910603999 A CN 201910603999A CN 110364163 A CN110364163 A CN 110364163A
- Authority
- CN
- China
- Prior art keywords
- voice
- feature
- short
- time
- lip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000000203 mixture Substances 0.000 title abstract 4
- 239000013598 vector Substances 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 238000007500 overflow downdraw method Methods 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000013475 authorization Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000700605 Viruses Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种语音和唇语相融合的身份认证方法,涉及信息安全及模式认证领域。该语音和唇语相融合的身份认证方法包括以下步骤:1)提取待认证的语音倒频谱特征和唇语特征;2)采用并行策略融合所述语音倒频谱特征和所述唇语特征,得到复向量特征;3)利用复向量特征作为训练样本训练复数极限学习机的多输入多输出模型,根据输出的分布及其取值判断是否认证成功;若输出结果向量中的最大值与提示符一致且该值大于设定阈值,则认证成功;否则,认证失败。该语音和唇语相融合的身份认证方法,采用语音和唇语相结合的多模生物特征进行身份认证,提高了身份认证系统的强健性。
Description
技术领域
发明涉及信息安全及模式认证领域,具体涉及一种语音和唇语相融合的身份 认证方法。
背景技术
随着网络信息技术的飞速发展,世界进入了移动互联网时代。2017年上半年, 智能手机几乎人手一部。移动电商和网上银行等虚拟移动支付平台也随之兴起, 但是与此同时,网络病毒、黑客以及电信诈骗等网络犯罪时刻威胁着手机用户的 信息安全,甚至可能造成重大的经济损失。因此,亟待一个高度可靠的身份认证 系统,将生物特征认证和智能手机平台进行融合由此应运而生。
语音认证是被认为在智能手机认证上具有广泛应用前景的生物特征认证技 术之一。语音认证具有非接触、非侵入性和易于使用的特点。近年来也在取得了 技术上的重大的突破,例如在语音识别的Switchboard任务方面,最新的IBM已 经能将错误率控制在5.5%之下,有经验的转写人员在这个任务中可以达到4%之 下。因此,这类安静环境下的语音识别系统已经近似于人类水平。但单通道的语 音认证受环境影响较大,其认证准确率也有待进一步的提高。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供一种语音和唇语相融合的 身份认证方法。
为达到上述目的,本发明采用以下技术方案予以实现:
一种语音和唇语相融合的身份认证方法,包括以下步骤:
1)提取待认证的语音倒频谱特征和唇语特征;
2)采用并行策略融合所述语音倒频谱特征和所述唇语特征,得到复向量特 征;
3)利用复向量特征作为训练样本训练复数极限学习机的多输入多输出模型, 根据输出的分布及其取值判断是否认证成功;
若输出结果向量中的最大值与设定提示符一致且最大值大于设定阈值,则认 证成功;否则,认证失败。
进一步的,步骤1)中语音倒频谱特征的提取方法具体过程为:
利用双门限法对语音信号进行分段,并采用梅尔滤波器提取语音倒频谱特征。
进一步的,利用双门限法对语音信号进行分段的具体过程为:
用交叠分段的方法对语音信号进行分帧,得到短时序列;
用窗函数乘以短时序列,形成短时加窗语音信号;
利用短时加窗语音信号的短时能量和短时过零率截出语音段的起止点,起止 点之间的语音即为有效语音段。
进一步的,利用短时加窗语音信号的短时能量和短时过零率截出有效语音段 的起止点的具体过程包括以下步骤:
1)计算每帧音频的短时能量和短时过零率,计算公式如下所示,短时能量 为
短时过零率为
其中,xn(m)代表第n帧的第m个序列值,sgn[]代表符号函数;
2)根据语音能量的轮廓选取一个高门限T2,进行粗判断;语音起止点位于T2与短时能量包络交点N3和N4所对应的时间间隔之外,N3作为初判起点,N4作为 初判终点;
3)根据背景噪声的能量选取一个低门限T1,从初判起点N3往左,从初判终 点N4往右搜索,分别找到第一次与低门限T1相交的两个点N2和N5,于是N2至N5段 就是由短时能量确定的语音段;
4)以短时平均过零率为基准,从N2点往左和N5点往右搜索,找到短时平均 过零率低于阈值T3的两点N1和N6,即为语音段的起止点。
进一步的,采用梅尔滤波器提取语音倒频谱特征的具体过程为:
1)对每帧短时序列进行快速傅里叶变换,计算公式如下:
计算FFT后每帧序列的谱线能量,计算公式如下:
En(k)=[Xn(k)]2 (4);
2)采用Mel复频率将语音频率划分为若干个三角形的带通滤波器序列,得 到Mel滤波器组:
语音频率划分成一系列三角形的带通滤波器序列,其传递函数如下:
其中,f(m)为三角形的带通滤波器序列,0≤m<M,M为滤波器组数,fl和fh分别是滤波器组的最高和最低频率,fs为采样频率,N为FFT变换的序列点 数,
3)通过Mel滤波器组,计算频域中每帧的能量谱:
4)通过离散余弦变换将每帧的能量谱从频域重新变换到时域,得到复倒谱 系数:
其中,i为MFCC的系统阶数,取值范围为12~16;MFCC为一个矩阵,帧 数×阶数,每帧的特征为一个向量。
进一步的,步骤1)中唇语特征的提取方法为:
利用面部特征位置关系对视频信号进行唇部定位并采用局部投影时空特征 描述符提取唇语特征。
进一步的,利用面部特征位置关系对视频信号进行唇部定位的具体过程为:
利用定位眼睛中心位置定位嘴唇位置;
将包含嘴唇的区域调整到一个统一的尺寸,提取只包含嘴唇的区域,将该方 法应用于每个视频帧,得到只包含嘴唇区域的视频序列。
进一步的,采用局部投影时空特征描述符提取唇语特征的具体过程为:
比较只包含嘴唇区域的视频序列的临近像素值产生二值码,计算公式如下所 示:
其中,r为圆的半径,gi为该圆内的像素值,gc为中心像素点的值,p为该 圆内像素值gi的数量,临近像素值为该圆内的像素值;
依据三维坐标系XYT的嘴唇运动图像序列,得到沿着时间轴T的XY平面 嘴唇运动图像序列帧、沿着空间坐标轴X的YT平面嘴唇运动图像序列帧和沿着 空间坐标轴Y的XT平面的嘴唇运动图像序列帧,并获得相应坐标系的局部二值 模式图像,即LBP图像;
对于每张LBP图像,计算XY平面、XT平面和YT平面上的直方图,分别 为HistXY、HistXT和HistYT,根据式(11)和式(12),利用奇异值分解得到最优投 影向量和特征向量,
[U,S,VT]=svd(Hist) (11)
fVector=Hist*pVector (12)
其中,S是一个对角元素非负且递减的对角矩阵,U和V是酉阵,pVector是 V的第一个列向量,能够得到和HistXY、HistXT和HistYT相关的fVectorXY,fVectorXT和fVectorYT。
进一步的,步骤2)中采用并行策略融合所述语音倒频谱特征和所述唇语特 征,得到复向量特征的具体过程为:
设语音和唇语的特征向量分别为fv和fl,对维度小的特征向量补零,直至与 维度大的特征向量维度相等;
对两个特征向量分别进行归一化处理,计算公式如下:
采用加权融合的方法,设置权重为:
加权融合后的特征为:
利用广义主成分分析对融合后的特征向量进行抽取,以去除冗余的数据,具 体步骤如下:
对特征向量进行标准化处理:
计算样本协方差矩阵XXT,对其做特征值分解,得到特征值ξ1,ξ2,…,ξn和特征 向量λ1,λ2,…,λn(λ1>λ2>…>λn),取前d个特征值所对应的特征向量得到投影矩阵 W=[ξ1,ξ2,…,ξd],则得到的特征数据为
X=WTY (20)
X即为用于训练的特征数据。
进一步的,步骤3)利用复向量特征作为训练样本训练复数极限学习机的多 输入多输出模型的具体过程为:
用指定的提示符训练复数极限学习机;
对于样本i,给定训练集{xi,ti},i=1,2,…,m,m是样本的个数,xi∈Rn,n 是特征向量维数,ti∈{0,1}r={假,真}r,r是识别提示符的个数;
激活函数如下式所示:
其中,wj∈Rr×n是连接输入结点和隐含层结点jth的输入权值矩阵,bj是隐 含层结点jth的偏移量,βj是连接隐含层结点jth和输出结点的输出权值向量,g( ) 为激活函数,
Hβ=T (22)
其中,和
根据公式(21)求出得到:
其中,表示广义Moore-Penrose逆矩阵;
当且仅当输出结果向量中的最大值与提示符对应且该值大于预定阈值,则识 别通过。
与现有技术相比,本发明具有以下有益效果:
本发明的语音和唇语相融合的身份认证方法,提出视听语音认证 (Audio-visualspeech recognition),唇语不受声环境和噪声的影响,并且能够包 含与声信号最大量的互补信息,唇语中的动态信息不易受健康状况的影响,并且 能够适应一些特殊场景下的人机交互,如在嘈杂的环境中或受限制不能出声的情 况,而多模融合认证也具有更强的防伪性,采用语音和唇语相结合的多模生物特 征进行身份认证,提高了身份认证系统的强健性,利用复数极限学习机计算匹配 结果,复数极限学习机的整个学习过程通过数学变化一次完成,无需迭代,具有 很好的泛化性和可控性;进一步的,利用基于Mel滤波的语音特征提取语音信号, 更加接近人类的听觉感知特性,得到更有区分性的频域紧凑表达;进一步的,利 用线性保持投影变换算法和局部投影时空特征描述符算法进行唇语特征提取,能够提取到最具有判别性的特征来进行降维;进一步的,利用并行测量策略的特征 融合方法,并用广义主成分分析降维,更有效的利用特征;本发明能够保障智能 终端用户的信息安全,认证结果准确可靠,适用范围广。
附图说明
图1为基于Android智能手机的语音和唇语身份认证系统注册和认证流程;
图2为特征融合流程;
图3为提取的10个唇语特征向量结果图;
图4为唇部定位示意图;其中,(a)为定位眼睛示意图,(b)为定位唇部示 意图;(c)为唇部ROI示意图;
图5为三个平面上嘴唇运动图像序列帧;其中,(a)为XY平面上的嘴唇运 动图像序列帧,(b)为XT平面上的嘴唇运动图像序列帧,(c)YT平面上的嘴 唇运动图像序列帧;
图6为三个平面上的LBP图像序列帧;其中,(a)为XY平面上的LBP图 像序列帧,(b)为XT平面上的LBP图像序列帧,(c)为YT平面上的LBP图像 序列帧;
图7为本发明语音和唇语相融合的身份认证系统原理框图;
图8为Android智能手机系统总体界面框图;
图9为系统总体设计框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述 的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的 实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实 施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、 “第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该 理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能 够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有” 以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或 单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元, 而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步 骤或单元。
下面结合附图对本发明做进一步详细描述:
本发明的一种语音和唇语相融合的身份认证方法,具体过程如下:
一、提取语音特征,具体过程如下:
(1)本发明采用语音分帧并加窗对语音信号进行预处理:首先用交叠分段 的方法对语音信号进行分帧,一般每秒帧数约为33~100帧,帧移和帧长的比值 一般为0~1/2;然后用一定的窗函数w(n)乘以短时序列,从而形成短时加窗语 音信号。
(2)本发明采用基于短时能量和过零率双门限法进行端点检测:首先为短 时能量和过零率分别确定两个高低门限值,低门限值对信号的变化较敏感。当低 门限被超过时,很有可能是由很小的噪声所引起,未必是语音的开始,到高门限 被超过并且在接下来的时间段内一直超过低门限时,则意味着语音信号的开始。 超过高门限值的时间点作为起始端点,包括以下步骤:
步骤一:计算每帧的短时能量和短时过零率:
短时能量:
短时过零率:
其中,xn(m)代表第n帧的第m个序列值,sgn[]代表符号函数。
步骤二:根据语音能量的轮廓选取一个高门限T2,语音信号的能量包络大部 分都在此门限之上,进行粗判断。语音起止点位于T2与短时能量包络交点N3和N4所对应的时间间隔之外;
步骤三:根据背景噪声的能量确定一个低门限T1,并从初判起点(N3)往左, 从初判终点(N4)往右搜索,分别找到第一次与门限T1相交的两个点N2和N5, 于是N2至N5段就是用短时能量初步确定的语音段;
步骤四:以短时平均过零率为基准,从N2点往左和N5点往右搜索,找到短时 平均过零率低于某阈值T3的两点N1和N6,即为语音段的起止点。
本发明采用梅尔(Mel)频率倒谱系数(MFCC)进行特征提取,具体步骤 如下:
步骤一:对每帧序列进行基于快速傅里叶变换(FFT)的离散傅立叶变换, 其公式如下:
步骤二:计算每一帧FFT后的谱线能量:
En(k)=[Xn(k)]2 (4)
步骤三:复频率映射,因为人对语音频率内容的知觉不是线性的。为了模拟 这种功能,我们使用了以下的近似的公式来计算Mel复频率:
并以此将语音频率划分为一系列三角形的带通滤波器序列,即Mel滤波器组, 其中,每个带通滤波器的传递函数为:
其中,0≤m<M,M为滤波器组数fl和fh分别是滤波器组的最高和最低频率, fs为采样频率,N为FFT变换的序列点数,
步骤四:通过Mel滤波器组,计算频域中每帧的能量谱:
步骤五:离散余弦变换,将信号从频域重新变换到时域,变换的结果就称之 为复倒谱系数,通过余弦反变换实现,由下式所示:
其中,i为MFCC的系统阶数,通常取12~16。
算出的MFCC为一个矩阵:帧数×阶数,每帧的特征为一个向量。
二、唇语检测及特征提取,具体过程如下:
(1)本发明利用面部特征位置关系进行唇部ROI定位,如图4所示。首先 定位眼睛中心位置E1和E2,并计算两个眼睛中心的中点E(Ex,Ey);然后将图像围 绕E点旋转,直到眼睛中心处于同一水平位置;d为眼睛中心之间的距离,口腔 中心位于(Ex,Ey+1.2d),嘴唇区域的宽度和高度分别设置为1.12d和0.84d;最后, 将嘴唇的区域调整到一个统一的尺寸,提取需要的区域,并将该方法应用于每个 视频帧,得到只包含嘴唇区域的视频序列。
(2)本发明采用局部投影时空特征描述符(PLSD)进行唇语特征提取,PLSD 是局部二值模式(LBP)在时空特征层次的改进算法,通过比较临近像素值产生 二值码,如下公式:
其中,r表示圆的半径,gi表示该圆内的像素值,gc是中心像素点的值,p 代表该圆内像素值gi的数量;参加图3,图3为提取的10个唇语特征向量结果图。
参见图5,图5为三个平面上嘴唇运动图像序列帧;其中,(a)为XY平面 上的嘴唇运动图像序列帧,(b)为XT平面上的嘴唇运动图像序列帧,(c)YT 平面上的嘴唇运动图像序列帧,依据坐标系XYT的图像序列,得到沿着时间轴T 的XY平面以及分别沿着空间坐标系X和Y的YT平面和XT平面的嘴唇运动图 像序列帧。
为了提取时空特征,得到以下坐标系的LBP图像,参见图6,图6为三个平 面上的LBP图像序列帧;其中,(a)为XY平面上的LBP图像序列帧,(b)为 XT平面上的LBP图像序列帧,(c)为YT平面上的LBP图像序列帧。对于每张 LBP图像,计算三个平面上的直方图,分别为HistXY,HistXT和HistYT。Hist中的 每一列表示一帧的LBP直方图。根据公式(11)(12)可知,利用奇异值分解(SVD) 得到最优投影向量pVector和特征向量fVector。
[U,S,VT]=svd(Hist) (11)
fVector=Hist*pVector (12)
其中,S是一个对角元素非负且递减的对角矩阵,U和V是酉(矩)阵,pVector 是V的第一个列向量。因此,可以得到和HistXY,HistXT和HistYT相关的fVectorXY, fVectorXT和fVectorYT。
三、基于并行策略的特征融合,具体过程如下:
本发明采用基于并行策略的特征融合方法将语音和唇语的特征在特征层进 行融合,参见图2,图2为特征融合流程,该融合策略将两个实数特征向量融合 成一个复向量,以两个特征的实空间构成新的复空间,可以证明这是一个酉空间。
设语音和唇语的特征向量分别为fv和fl,其融合后的特征为:
γ=fv+jfl (13)
dim(γ)=max{dim(fv),dim(fl)} (14)
在特征融合之前需对两个特征向量进行一定的预处理,具体步骤如下:
步骤一:对维度较小的特征向量补零,直至与维度较大的向量维度相等。
步骤二:对两个向量分别进行归一化:
步骤三:为了消除由于其中一个向量补零而造成的数值不平衡,采用加权融 合的方法,令权重为:
则加权融合的特征为:
步骤四:将两个特征融合后,再利用广义主成分分析(GPCA)对融合后的 特征向量进行抽取,以去除冗余的数据,减小分类器的计算量。具体步骤如下:
对特征数据进行标准化处理:
计算样本协方差矩阵XXT,对其做特征值分解,得到特征值ξ1,ξ2,…,ξn和特征 向量λ1,λ2,…,λn(λ1>λ2>…>λn),取前d个特征值所对应的特征向量得到投影矩阵W=[ξ1,ξ2,…,ξd],则新的特征数据为
X=WTY (20)
X即为最后用于训练特征数据。
四、基于发音规则的提示符数据库;
本发明在后台数据库中先按照给定提示符训练数据,其中提示符可以选择英 文字母和给定的发音差异较大的中文提示符,参见表1,表1给出了一种提示符 库示例。在用户注册时,在将数据读入数据库之前先进行语音内容识别,以确认 用户输入的内容与提示符一致。在认证时,需要同时满足输入的用户特征与用户 本地数据库中的身份特征一致,以及输入内容与所给提示符一致,才能认证成功。
表1一种提示符库
五、基于复数极限学习机的匹配策略;
本发明使用复数极限学习机计算特征的匹配分数,复数极限学习机是基于单 隐含层前馈神经网络提出的,通过不断测试来设置合适的隐含层节点的个数,随 机的对输入权和隐含层偏差赋值,再由最小二乘法得到输出层权值。整个学习过 程通过数学变化一次完成,无需迭代,训练速度与传统的基于梯度下降的BP算 法相比有了显著提高(通常在10倍以上)。该算法具有更好的泛化性和可控性且 学习速率快。
对于样本i,给定训练集{xi,ti},i=1,2,…,m,m是样本的个数,并且xi∈Rn, n是特征向量维数,ti∈{0,1}r={假,真}r,r是识别提示符的个数;激活函数如下 式所示:
其中,wj∈Rr×n是连接输入结点和隐含层结点jth的输入权值矩阵,bj是隐 含层结点jth的偏移量,βj是连接隐含层结点jth和输出结点的输出权值向量g( ) 为激活函数,一般取sigmoid函数:
式(21)也可写成如下矩阵形式:
Hβ=T (22)
其中,和
为了训练该模型,根据公式求出得到:
其中,表示广义Moore-Penrose逆矩阵。
最后,当且仅当输出结果向量中的最大值与提示符对应且该值大于预定阈值, 则识别通过。
参见图7,图7为本发明语音和唇语相融合的身份认证系统原理框图;本发 明的语音和唇语相融合的身份认证系统包括语音特征提取模块、唇语特征提取模 块、特征层融合模块和复数极限学习机识别模块;语音特征提取模块用于提取语 音倒频谱特征;唇语特征提取模块用于提取唇语特征;特征层融合模块用于将所 述语音倒频谱特征和所述唇语特征利用并行策略融合,得到复向量特征;复数极 限学习机识别模块用于利用复向量特征作为训练样本训练其多输入多输出模型, 并根据其自身输出判定认证结果。
语音特征提取模块包括语音信号预处理模块、梅尔滤波器模块和语音特征参 数采集模块;唇语特征提取模块包括唇部视频预处理模块、局部投影时空特征描 述符模块和唇语特征参数采集模块;待认证的语音信号依次经过语音信号预处理 模块和Mel滤波器模块,输入语音特征参数采集模块;待认证的唇部视频序列依 次经过唇部视频预处理模块和局部投影时空特征描述符模块,输入唇语特征参数 采集模块;语音特征参数采集模块与唇语特征参数采集模块将采集到的信息输入 特征层融合模块进行特征融合,再将融合后的特征输入复数极限学习机识别模块, 得出认证结果。
本发明提供一种基于Android智能手机平台的身份认证系统,参见图1,图 1为基于Android智能手机的语音和唇语身份认证系统注册和认证流程;在注册 和认证时,系统都会先发送提示符给用户,类似于验证码。在注册时,每个提示 符都要录入且录入多次,存入数据库用于训练极速学习机;且在每次录制视频后 存入数据库前还需进行内容识别,以保证用户录入的内容与提示符一致。在认证 时,系统随机发送一个或多个提示符,用户必须按照提示符的内容说话,根据前 述的认证过程,只有当说话内容和说话人都匹配才认证通过。
参见图8,图8为本发明基于Android智能手机的语音和唇语身份认证系统 总体界面框图,系统主界面包括注册、认证、数据库和视频录入等四个界面。其 中认证界面和数据库界面都可以启动摄像头预览界面进行身份信息采集。主交互 界面可以实现界面间的切换,点击图片按钮后可以切换到不同的界面,同时实现 数据库的初始化,以及存储方式的初始化。用户登录注册界面可注册新的用户, 也可直接选用已注册的用户;认证主界面录入语音和唇语信息后认证用户。
参见图9,图9为本发明基于Java的应用程序开发,具体涉及到手机权限的 申请、摄像头模块的开发、基于JavaCV库的函数调用以及系统功能的模块化实 现;利用AndroidStudio软件平台进行应用程序开发,在Android7.0手机版本中 测试运行,并对软件的强健性和兼容性进行测试。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡 是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发 明权利要求书的保护范围之内。
Claims (10)
1.一种语音和唇语相融合的身份认证方法,其特征在于,包括以下步骤:
1)提取待认证的语音倒频谱特征和唇语特征;
2)采用并行策略融合所述语音倒频谱特征和所述唇语特征,得到复向量特征;
3)利用复向量特征作为训练样本训练复数极限学习机的多输入多输出模型,根据输出的分布及其取值判断是否认证成功;
若输出结果向量中的最大值与设定提示符一致且最大值大于设定阈值,则认证成功;否则,认证失败。
2.根据权利要求1所述的语音和唇语相融合的身份认证方法,其特征在于,步骤1)中语音倒频谱特征的提取方法具体过程为:
利用双门限法对语音信号进行分段,并采用梅尔滤波器提取语音倒频谱特征。
3.根据权利要求2所述的语音和唇语相融合的身份认证方法,其特征在于,利用双门限法对语音信号进行分段的具体过程为:
用交叠分段的方法对语音信号进行分帧,得到短时序列;
用窗函数乘以短时序列,形成短时加窗语音信号;
利用短时加窗语音信号的短时能量和短时过零率截出语音段的起止点,起止点之间的语音即为有效语音段。
4.根据权利要求3所述的语音和唇语相融合的身份认证方法,其特征在于,利用短时加窗语音信号的短时能量和短时过零率截出有效语音段的起止点的具体过程包括以下步骤:
1)计算每帧音频的短时能量和短时过零率,计算公式如下所示,短时能量为
短时过零率为
其中,xn(m)代表第n帧的第m个序列值,sgn[]代表符号函数;
2)根据语音能量的轮廓选取一个高门限T2,进行粗判断;语音起止点位于T2与短时能量包络交点N3和N4所对应的时间间隔之外,N3作为初判起点,N4作为初判终点;
3)根据背景噪声的能量选取一个低门限T1,从初判起点N3往左,从初判终点N4往右搜索,分别找到第一次与低门限T1相交的两个点N2和N5,于是N2至N5段就是由短时能量确定的语音段;
4)以短时平均过零率为基准,从N2点往左和N5点往右搜索,找到短时平均过零率低于阈值T3的两点N1和N6,即为语音段的起止点。
5.根据权利要求3所述的语音和唇语相融合的身份认证方法,其特征在于,采用梅尔滤波器提取语音倒频谱特征的具体过程为:
1)对每帧短时序列进行快速傅里叶变换,计算公式如下:
计算FFT后每帧序列的谱线能量,计算公式如下:
En(k)=[Xn(k)]2 (4);
2)采用Mel复频率将语音频率划分为若干个三角形的带通滤波器序列,得到Mel滤波器组:
语音频率划分成一系列三角形的带通滤波器序列,其传递函数如下:
其中,f(m)为三角形的带通滤波器序列,0≤m<M,M为滤波器组数,fl和fh分别是滤波器组的最高和最低频率,fs为采样频率,N为FFT变换的序列点数,
3)通过Mel滤波器组,计算频域中每帧的能量谱:
4)通过离散余弦变换将每帧的能量谱从频域重新变换到时域,得到复倒谱系数:
其中,i为MFCC的系统阶数,取值范围为12~16;MFCC为一个矩阵,帧数×阶数,每帧的特征为一个向量。
6.根据权利要求1所述的语音和唇语相融合的身份认证方法,其特征在于,步骤1)中唇语特征的提取方法为:
利用面部特征位置关系对视频信号进行唇部定位并采用局部投影时空特征描述符提取唇语特征。
7.根据权利要求6所述的语音和唇语相融合的身份认证方法,其特征在于,利用面部特征位置关系对视频信号进行唇部定位的具体过程为:
利用定位眼睛中心位置定位嘴唇位置;
将包含嘴唇的区域调整到一个统一的尺寸,提取只包含嘴唇的区域,将该方法应用于每个视频帧,得到只包含嘴唇区域的视频序列。
8.根据权利要求7所述的语音和唇语相融合的身份认证方法,其特征在于,采用局部投影时空特征描述符提取唇语特征的具体过程为:
比较只包含嘴唇区域的视频序列的临近像素值产生二值码,计算公式如下所示:
其中,r为圆的半径,gi为该圆内的像素值,gc为中心像素点的值,p为该圆内像素值gi的数量,临近像素值为该圆内的像素值;
依据三维坐标系XYT的嘴唇运动图像序列,得到沿着时间轴T的XY平面嘴唇运动图像序列帧、沿着空间坐标轴X的YT平面嘴唇运动图像序列帧和沿着空间坐标轴Y的XT平面的嘴唇运动图像序列帧,并获得相应坐标系的局部二值模式图像,即LBP图像;
对于每张LBP图像,计算XY平面、XT平面和YT平面上的直方图,分别为HistXY、HistXT和HistYT,根据式(11)和式(12),利用奇异值分解得到最优投影向量和特征向量,
[U,S,VT]=svd(Hist) (11)
fVector=Hist*pVector (12)
其中,S是一个对角元素非负且递减的对角矩阵,U和V是酉阵,pVector是V的第一个列向量,能够得到和HistXY、HistXT和HistYT相关的fVectorXY,fVectorXT和fVectorYT。
9.根据权利要求1所述的语音和唇语相融合的身份认证方法,其特征在于,步骤2)中采用并行策略融合所述语音倒频谱特征和所述唇语特征,得到复向量特征的具体过程为:
设语音和唇语的特征向量分别为fv和fl,对维度小的特征向量补零,直至与维度大的特征向量维度相等;
对两个特征向量分别进行归一化处理,计算公式如下:
采用加权融合的方法,设置权重为:
加权融合后的特征为:
利用广义主成分分析对融合后的特征向量进行抽取,以去除冗余的数据,具体步骤如下:
对特征向量进行标准化处理:
计算样本协方差矩阵XXT,对其做特征值分解,得到特征值ξ1,ξ2,…,ξn和特征向量λ1,λ2,…,λn(λ1>λ2>…>λn),取前d个特征值所对应的特征向量得到投影矩阵W=[ξ1,ξ2,…,ξd],则得到的特征数据为
X=WTY (20)
X即为用于训练的特征数据。
10.根据权利要求1所述的语音和唇语相融合的身份认证方法,其特征在于,步骤3)利用复向量特征作为训练样本训练复数极限学习机的多输入多输出模型的具体过程为:
用指定的提示符训练复数极限学习机;
对于样本i,给定训练集{xi,ti},i=1,2,…,m,m是样本的个数,xi∈Rn,n是特征向量维数,ti∈{0,1}r={假,真}r,r是识别提示符的个数;
激活函数如下式所示:
其中,wj∈Rr×n是连接输入结点和隐含层结点jth的输入权值矩阵,bj是隐含层结点jth的偏移量,βj是连接隐含层结点jth和输出结点的输出权值向量,g( )为激活函数,
Hβ=T (22)
其中,和
根据公式(21)求出得到:
其中,表示广义Moore-Penrose逆矩阵;
当且仅当输出结果向量中的最大值与提示符对应且该值大于预定阈值,则识别通过。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910603999.1A CN110364163A (zh) | 2019-07-05 | 2019-07-05 | 一种语音和唇语相融合的身份认证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910603999.1A CN110364163A (zh) | 2019-07-05 | 2019-07-05 | 一种语音和唇语相融合的身份认证方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110364163A true CN110364163A (zh) | 2019-10-22 |
Family
ID=68217959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910603999.1A Pending CN110364163A (zh) | 2019-07-05 | 2019-07-05 | 一种语音和唇语相融合的身份认证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110364163A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101462A (zh) * | 2020-09-16 | 2020-12-18 | 北京邮电大学 | 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 |
CN112749629A (zh) * | 2020-12-11 | 2021-05-04 | 东南大学 | 一种身份验证系统汉语唇语识别的工程优化方法 |
CN113347608A (zh) * | 2021-06-11 | 2021-09-03 | 焦作大学 | 一种用于车辆的物联网可信认证方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1304114A (zh) * | 1999-12-13 | 2001-07-18 | 中国科学院自动化研究所 | 基于多生物特征的身份鉴定融合方法 |
JP2002006884A (ja) * | 2000-06-21 | 2002-01-11 | Cyber Sign Japan Inc | 個人認証装置及び個人認証装置の設計方法 |
CN102034288A (zh) * | 2010-12-09 | 2011-04-27 | 江南大学 | 基于多生物特征识别的智能门禁系统 |
CN104680144A (zh) * | 2015-03-02 | 2015-06-03 | 华为技术有限公司 | 基于投影极速学习机的唇语识别方法和装置 |
WO2017198014A1 (zh) * | 2016-05-19 | 2017-11-23 | 阿里巴巴集团控股有限公司 | 一种身份认证方法和装置 |
CN108399395A (zh) * | 2018-03-13 | 2018-08-14 | 成都数智凌云科技有限公司 | 基于端到端深度神经网络的语音和人脸复合身份认证方法 |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN108960103A (zh) * | 2018-06-25 | 2018-12-07 | 西安交通大学 | 一种人脸和唇语相融合的身份认证方法及系统 |
CN109446948A (zh) * | 2018-10-15 | 2019-03-08 | 西安交通大学 | 一种基于Android平台的人脸和语音多生物特征融合认证方法 |
CN109711350A (zh) * | 2018-12-28 | 2019-05-03 | 武汉大学 | 一种基于唇部运动和语音融合的身份认证方法 |
CN109910818A (zh) * | 2019-02-15 | 2019-06-21 | 东华大学 | 一种基于人体多特征融合身份识别的车辆防盗系统 |
-
2019
- 2019-07-05 CN CN201910603999.1A patent/CN110364163A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1304114A (zh) * | 1999-12-13 | 2001-07-18 | 中国科学院自动化研究所 | 基于多生物特征的身份鉴定融合方法 |
JP2002006884A (ja) * | 2000-06-21 | 2002-01-11 | Cyber Sign Japan Inc | 個人認証装置及び個人認証装置の設計方法 |
CN102034288A (zh) * | 2010-12-09 | 2011-04-27 | 江南大学 | 基于多生物特征识别的智能门禁系统 |
CN104680144A (zh) * | 2015-03-02 | 2015-06-03 | 华为技术有限公司 | 基于投影极速学习机的唇语识别方法和装置 |
WO2017198014A1 (zh) * | 2016-05-19 | 2017-11-23 | 阿里巴巴集团控股有限公司 | 一种身份认证方法和装置 |
CN108399395A (zh) * | 2018-03-13 | 2018-08-14 | 成都数智凌云科技有限公司 | 基于端到端深度神经网络的语音和人脸复合身份认证方法 |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN108960103A (zh) * | 2018-06-25 | 2018-12-07 | 西安交通大学 | 一种人脸和唇语相融合的身份认证方法及系统 |
CN109446948A (zh) * | 2018-10-15 | 2019-03-08 | 西安交通大学 | 一种基于Android平台的人脸和语音多生物特征融合认证方法 |
CN109711350A (zh) * | 2018-12-28 | 2019-05-03 | 武汉大学 | 一种基于唇部运动和语音融合的身份认证方法 |
CN109910818A (zh) * | 2019-02-15 | 2019-06-21 | 东华大学 | 一种基于人体多特征融合身份识别的车辆防盗系统 |
Non-Patent Citations (2)
Title |
---|
曾向阳: "《智能水中目标识别》", 31 March 2016, 国防工业出版社 * |
杨艳 等: "基于PCA和LBP的自适应加权融合人脸识别算法", 《中原工学院学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101462A (zh) * | 2020-09-16 | 2020-12-18 | 北京邮电大学 | 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 |
CN112101462B (zh) * | 2020-09-16 | 2022-04-19 | 北京邮电大学 | 一种基于bmfcc-gbfb-dnn的机电设备视听信息融合方法 |
CN112749629A (zh) * | 2020-12-11 | 2021-05-04 | 东南大学 | 一种身份验证系统汉语唇语识别的工程优化方法 |
CN113347608A (zh) * | 2021-06-11 | 2021-09-03 | 焦作大学 | 一种用于车辆的物联网可信认证方法 |
CN113347608B (zh) * | 2021-06-11 | 2023-05-12 | 焦作大学 | 一种用于车辆的物联网可信认证方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sargin et al. | Audiovisual synchronization and fusion using canonical correlation analysis | |
Bigun et al. | Multimodal biometric authentication using quality signals in mobile communications | |
US5412738A (en) | Recognition system, particularly for recognising people | |
Frischholz et al. | BiolD: a multimodal biometric identification system | |
Sarfraz et al. | Head Pose Estimation in Face Recognition Across Pose Scenarios. | |
CN107404381A (zh) | 一种身份认证方法和装置 | |
CN110364163A (zh) | 一种语音和唇语相融合的身份认证方法 | |
CN108960103B (zh) | 一种人脸和唇语相融合的身份认证方法及系统 | |
CN111881726A (zh) | 一种活体检测方法、装置及存储介质 | |
CN109446948A (zh) | 一种基于Android平台的人脸和语音多生物特征融合认证方法 | |
Chetty et al. | Audio-visual multimodal fusion for biometric person authentication and liveness verification | |
Bredin et al. | Audiovisual speech synchrony measure: application to biometrics | |
Cheng et al. | Visual speaker authentication with random prompt texts by a dual-task CNN framework | |
Lao et al. | Vision-based face understanding technologies and their applications | |
Yin et al. | Fusion of face recognition and facial expression detection for authentication: a proposed model | |
Neelima et al. | Mimicry voice detection using convolutional neural networks | |
Bigun et al. | Combining biometric evidence for person authentication | |
Kartik et al. | Multimodal biometric person authentication system using speech and signature features | |
Luque et al. | Audio, video and multimodal person identification in a smart room | |
CN115995106A (zh) | 一种多模态的工地机器人安全保护方法 | |
Bredin et al. | Making talking-face authentication robust to deliberate imposture | |
Yu et al. | Biometric recognition by using audio and visual feature fusion | |
Kartik et al. | Noise robust multimodal biometric person authentication system using face, speech and signature features | |
Alam | On the use of fisher vector encoding for voice spoofing detection | |
Sahoo et al. | Bimodal biometric person authentication using speech and face under degraded condition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191022 |