CN109446948A - 一种基于Android平台的人脸和语音多生物特征融合认证方法 - Google Patents
一种基于Android平台的人脸和语音多生物特征融合认证方法 Download PDFInfo
- Publication number
- CN109446948A CN109446948A CN201811198842.7A CN201811198842A CN109446948A CN 109446948 A CN109446948 A CN 109446948A CN 201811198842 A CN201811198842 A CN 201811198842A CN 109446948 A CN109446948 A CN 109446948A
- Authority
- CN
- China
- Prior art keywords
- voice
- face
- user
- authenticated
- authentication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000004927 fusion Effects 0.000 title claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 36
- 239000013598 vector Substances 0.000 claims description 21
- 239000000203 mixture Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 14
- 239000012634 fragment Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000011897 real-time detection Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 14
- 239000000284 extract Substances 0.000 abstract description 2
- 230000001815 facial effect Effects 0.000 abstract 3
- 230000018109 developmental process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/70—Multimodal biometrics, e.g. combining information from different biometric modalities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/66—Substation equipment, e.g. for use by subscribers with means for preventing unauthorised or fraudulent calling
- H04M1/667—Preventing unauthorised calls from a telephone set
- H04M1/67—Preventing unauthorised calls from a telephone set by electronic means
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
- H04M1/72454—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72448—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
- H04M1/72463—User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions to restrict the functionality of the device
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Multimedia (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Environmental & Geological Engineering (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明提供本一种基于Android平台的人脸和语音多生物特征融合认证方法,首先采集用户人脸图像,并对用户人脸图像进行预处理,并采用Adaboost算法检测用户人脸图像中的人脸,并提取人脸LBP特征得到用户人脸特征,根据用户人脸特征生成用户的人脸特征模型,所有用户的用户人脸特征模型组成图像样本库;本发明用于手机认证,特别是移动金融类私密性应用的终端安全认证,弥补单模式认证的缺点,具有更高的可靠性和安全性,进一步保障了手机用户的信息安全。
Description
技术领域
本发明属于控制科学和模式识别领域,特别涉及一种基于Android平台的人脸和语音多生物特征融合认证方法。
背景技术
随着当今信息技术和社会的不断发展,人类迎来了移动互联网时代。至2017年,全球移动用户达到50亿,移动互联网用户达到76亿,移动互联网的迅猛发展,一个最具标志性的工具就是智能手机。智能手机被应用到生活的各个领域,尤其是近年来,发展迅猛,使用数量远超传统PC终端。2017年上半年,中国智能手机用户达到13亿,几乎人手一部智能手机。现代人们对智能手机的依赖性更强。以移动支付为代表的手机私密性应用,对手机访问的权限控制提出了更高要求,传统的文本密码已不能保证其安全性。如何在智能手机平台上有效进行身份认证和访问权限控制已成为广受关注的焦点问题。
人脸识别是近年来生物特征识别领域的一个研究热点,人脸认证已经广泛应该用到智能手机中,例如苹果公司刚上市的iPhone X采用人脸作为识别特征,支付宝的刷脸认证等。人脸识别的最大特点就是非接触性和速度快。但是,人脸具有开放性,他人以非活性的照片等就可以进行认证,另外人脸认证受环境因素的干扰也特别大,所以,单模式的人脸认证系统存在很大的缺陷,很难满足用户对安全性的需求。根据Unisys公司调查显示,人脸识别和语音识别都入围消费者喜欢的生物安全措施排名前三。语音识别具有非接触、非侵入性和易于使用的特点。利用人脸和语音多生物特征认证,能够互补单模式认证的缺点,等错误率几乎为零,具有高度安全性。人脸和语音多生物特征认证方法与智能手机相结合,有望在金融以及电子商务、政务、司法、社会事务管理、社会安全领域(如出入境管理)等诸多领域得到广泛应用,社会效益和经济效益显著。
发明内容
为了解决手机安全特别是金融方面的问题,基于单生物特征认证存在的缺陷,本发明的目的是提供一种人脸和语音多生物特征认证方法,用于手机认证,特别是移动金融类私密性应用的终端安全认证,弥补单模式认证的缺点,具有更高的可靠性和安全性。
为了达到上述目的,本发明采用的技术内容是:
一种基于Android平台的人脸和语音多生物特征融合认证方法,首先采集用户人脸图像,并对用户人脸图像进行预处理,并采用Adaboost算法检测用户人脸图像中的人脸,并提取人脸LBP特征得到用户人脸特征,根据用户人脸特征生成用户的人脸特征模型,所有用户的用户人脸特征模型组成图像样本库;
采集用户语音,并对用户语音进行预处理,并采用双门限法检测有效语音段的起始端点和结束端点,提取用户有效语音段;然后通过梅尔滤波器提取用户有效语音段的梅尔频率倒谱系数特征;根据高斯混合模型法训练梅尔频率倒谱系数特征得到用户语音模型,所有用户的用户语音模型组成语音样本库;
采集待认证目标人脸图像,并从中提取待认证目标人脸特征,将待认证目标人脸特征与图像样本库中的用户人脸特征模型进行匹配,获取人脸认证匹配分数;
采集待认证目标语音片段,提取待认证目标语音片段的梅尔频率倒谱系数特征,根据高斯混合模型法训练梅尔频率倒谱系数特征得到待认证目标语音模型与语音样本库中的用户语音模型进行匹配,获得语音认证匹配分数;
将人脸认证匹配分数和语音认证匹配分数进行加权处理,形成待认证目标特征向量,并用支持向量机分类器对待认证目标特征向量进行训练,得出最终的认证分数。
待认证目标人脸图像和待认证目标语音片段通过采集设备进行采集,所述采集设备为带有GPU图形处理器的支持录音以及摄像功能的Android智能手机,并具有至少200万像素的摄像头。
所述Adaboost算法中,采用积分图计算人脸的Haar特征作为训练样本组成样本集,初始化样本权重,对于每个人脸的Haar特征,训练一个弱分类器,把拥有最小错误率的弱分类器作为最佳弱分类器,重新调整样本权重,以此迭代至人脸的最后一个Haar特征,生成强分类器,实现人脸的实时检测。
所述提取人脸LBP包括以下步骤,首先在圆形LBP算子基础上加入等价模式和旋转因子得到新的LBP算子,利用新的LBP算子计算人脸图像得到人脸图像的LBP特征图谱;将得到的人脸图像的LBP特征图谱分成大小相等的区块;然后,计算每个区块的直方图,并依据空间排列顺序,将每个区块的直方图特征依次连接成一行,形成人脸图像的LBP特征向量;训练所述人脸图像的LBP特征向量,得到人脸特征模型。
某一实施方案中,所述双门限法检测有效语音段的起始端点和结束端点具体方法如下,计算语音段的短时能量和过零率,利用这两个特征分别确定语音幅值的高门限值和低门限值;当语音幅值超过高门限值且在接下来的一段时间(10~20帧)内一直超过低门限值,则超过高门限值的时刻作为有效语音段的起始端点,当语音幅值低于低门限值时,将该时刻作为有效语音段的结束端点。
另一实施方案中,所述双门限法检测有效语音段的起始端点和结束端点具体方法如下,计算语音段的短时能量和短时平均过零率,利用短时能量选取一个高门限和低门限值;语音幅值与高门限值相交的两个端点分别为初判起点和初判终点;从初判起点往左搜索,初判终点往右搜索,分别找到第一次与低门限相交的两个点,两个端点之间的语音段就是用双门限法所判定的语音段;利用短时平均过零率确定一个门限,从语音段的两个端点往外搜索,找到短时平均过零率低于该门限的两端点,即为语音段的起止点。
对提取到的有效语音段进行分帧加窗处理,并对有效语音段的每一帧进行快速傅立叶变换、复频率映射和离散余弦变化,得到有效语音段的梅尔频率倒谱系数特征。
根据高斯混合模型法训练语音模型具体步骤如下,先初始化高斯混合模型的参数,然后将有效语音段的梅尔频率倒谱系数特征输入高斯混合模型得到中间变量,根据中间变量更新高斯混合模型的参数,重复上述步骤,训练当前用户的所有样本后,即得到相应的语音模型。
计算待认证目标人脸特征和图像样本库中的用户人脸特征模型间的欧氏距离,得到人脸认证匹配分数;计算待认证目标语音模型和语音样本库中的用户语音模型的后验概率值,得到语音认证匹配分数;将人脸认证匹配分数和语音认证匹配分数进行加权处理得到新的向量输入支持向量机分类器,得到最终的认证分数。
所述人脸图像的预处理包括直方图均衡,中值滤波以及人脸图像归一化,用户语音的预处理都包括基于小波的去噪方法。
与现有技术相比,本发明采用人脸和语音多生物特征认证方法,算法先进且高效,弥补了单模式认证的不足之处。在AdaBoost算法的基础上,加入Haar特征,能取得较好的检测结果,并且对不同肤色的人群、有一定旋转角度的人脸以及光照变化具有较高的鲁棒性,检测率高,误检率低。在圆形LBP算子基础上加入等价模式和旋转因子,改进之后的LBP算子具备旋转不变性,解决LBP码过多的问题,提高算法效率以及精度。针对语音存在大量静音和过渡等无效信息的问题,引入端点检测技术并进行优化,去除无效语音,双门限法判断有效语音段的最小长度以减少漏判,降低了数据量且同时保证了特征的有效性。
本发明的方法中,人脸图像的预处理包括直方图均衡,中值滤波以及人脸图像归一化,用户语音的预处理都包括基于小波的去噪方法,根据噪声与信号在不同频带上的小波分解系数具有不同强度分布的特点,将各频带上噪声所对应的小波系数去除,保留原始信号的小波分解系数,然后对处理后的系数进行小波重构,得到纯净的语音信号。
附图说明
图1为系统软件开发平台示意图。
图2为人脸提取LBP特征图像,其中,图2(a)为原图;图2(b)为原始LBP;图2(c)为圆形LBP;图2(d)为等价LBP;图2(e)为等价+旋转LBP。
图3为双门限法端点检测示意图。
图4为提取语音MFCC特征流程图。
图5为人脸语音融合认证流程图。
图6为手机界面开发流程图。
具体实施方式
下面结合具体实施方式对本发明做进一步说明。
一、系统开发平台
本发明选用Android智能手机作为测试平台,带有GPU图形处理器、最低配置为200万像素的前置摄像头,支持录音以及摄像功能。如图1所示,软件开发平台示意图,基于Android智能机的人脸和语音多生物特征认证系统,根据人脸和语音数据库规模大小而选择不同的实验平台,实现前期算法模型的验证和参数的选择。人脸图像包含的特征信息多,图片较大,所以在Visual Studio上采用C++进行人脸认证模型算法的测试,语音相对较小,其相关算法设计和仿真在Matlab上进行。后期将验证通过的算法移植到Android Studio环境中,基于Java语言实现Android智能手机上层界面开发。上述所有开发均在Windows7操作系统下完成,并安装VMWare虚拟机进行测试。
手机界面分为注册模块和认证模块,通过setContentView方式切换界面,该函数切换速度高,手机界面使用流程图如图6。
用户在第一次使用时,进入注册模块。按要求输入注册名后开始录入人脸和语音。本发明要求训练样本数为5,即5张人脸图像和5段语音;而且经过验证,本发明训练样本数为5时,系统认证成功率为100%,单次认证耗时在340ms左右,精度和实时性均能满足应用需求,检测结果准确可靠,鲁棒性强,适用范围广,为社会经济安全提供保障,应用前景广阔;为了方便测试,录入人脸样本的方式分为“拍照”和“选图”两种方式,要求人脸置于图片中间部位,人脸偏转角度上下左右不得超过30°。录入语音样本时,系统随机生成不重复的5段8位数字串,用户按要求读出即可,采集用户语音过程中,采用随机生成数字串方法,可有效降低语音被伪造的风险。注册模块可以查询数据库,数据库存储用户列表和用户信息。
用户在认证时,首先输入用户名,调取数据库中用户人脸和语音信息,用来认证。系统自动调用前置摄像头,用户将人脸置于屏幕中间,在提示下读出一段语音,系统开始认证,。完成后,系统给出人脸、语音和融合三个匹配度,如果认证成功,用户可以选择要打开的金融类手机软件或其他应用。如果认证失败,用户没有权限打开软件。
二、人脸匹配
人脸匹配部分包括对图像进行预处理,利用Adaboost算法检测样本中的人脸,提取人脸LBP特征,利用局部二值模式训练用户人像模型,与用户人脸图像样本库进行匹配,最终获取匹配分数。
1.Adaboost算法检测人脸
基于Adaboost的人脸检测器主要包含训练和检测。本发明采用积分图计算人脸的Haar特征,然后训练级联分类器,实现人脸的实时检测。
该方法利用类Harr特征来检测人脸特征,每个Haar特征的值是白色部分的像素值之和减去灰色部分的像素值之和,使用积分图进行计算。Haar特征值的计算都在积分图上进行,连续区域像素值之和可以用该区域(矩形)四个角上的积分图值进行加减计算即可。
级联分类器中的每一个强分类器都是使用Adaboost方法训练出来的,Adaboost算法训练强分类器的步骤如下:
1)给定N个训练样本组成的样本集{(x1,y1),(x2,y2),...,(xN,yN)},其中x表示样本特征向量,y表示训练结果。yi=0表示为非人脸,yi=1表示为人脸,假设其迭代次数为T;
2)初始化样本权重w1,i=D(i),即训练样本的初始概率分布,其中i∈[1,N];
3)对于t=1,2,......T次迭代:
(1)利用下式,归一化样本权值:
(2)对于每个特征f,训练一个弱分类器hi(xi,f,p,θ),计算该分类器的错误率εf:
εf=∑iqt,i|h(xi-yi)|
其中,i表示样本个数,t表示迭代次数。
(3)把拥有最小错误率(εt=minεf)的弱分类器作为最佳弱分类器。
(4)利用最佳弱分类器的错误率值εi,重新调整样本权重,如下式:
其中,ei=0表示xi被正确分配,ei=1表示xi被错误分配。调整权重后增加了分类错误样本的权重,降低了分类正确样本的权重,使得在下一次迭代的时候,弱分类器在选择时会重视上一次被错误分类的样本。
4)生成的强分类器
其中,
2.局部二值模式(Local binary patterns,LBP)
本发明采用LBP算子对检测到的图像中人脸区域进行特征提取,对原始LBP算子优化处理进行特征提取,步骤如下:
1)首先计算图像在圆形LBP算子基础上加入等价模式和旋转因子后的LBP特征图谱,假定处理后的等价模式类为n类;
2)将得到的LBP特征图谱分成大小相等的区块,默认为8×8的64块区域;
3)分别计算每个区块特征图谱直方图,并归一化,可得直方图大小为1×n;
4)依据空间排列顺序,将上述每个区块的直方图特征依次连接成一行,形成大小为1×(n×64)的LBP特征向量;
5)训练上述特征向量,得到用户个体的特征模型。
人脸原图如图2(a),原始LBP特征图如图2(b),圆形LBP特征图如图2(c),等价LBP特征图如图2(d),等价+旋转LBP特征图如图2(e)。
人脸数据的匹配采用欧氏距离作为测试样本和模型间的匹配规则。
假设两个输入向量分别为X=(x1,x2,...,xn)T和Y=(y1,y2,...,yn)T。欧氏距离源自欧式空间中两点间的距离公式,是一种最易于理解的距离计算方法。计算公式如下:
将用户输入的人脸图像预处理并提取LBP特征后,与注册阶段训练好的模型文件做匹配,计算欧式距离值,得到人脸匹配分数。
三、语音匹配
语音匹配部分包括对用户语音进行预处理,双门限法检测语音端点,提取有效语音段,通过梅尔滤波器提取语音MFCC特征,根据高斯混合模型法训练语音模型,将测试语音特征与该用户语音样本模型进行匹配,最终获得匹配分数。
1.端点检测——基于短时能量和过零率双门限法
语音端点检测本质上是根据语音和噪声的相同参数所表现出的不同特征来进行区分。在双门限法中,短时能量可以较好地区分出浊音和静音。对于清音,由于其能量较小,在短时能量检测中会因为低于能量门限而被误判为静音;短时过零率则可以从语音中区分出静音和清音。结合上述两种参数,即可检测出语音段(清音和浊音)及静音段。
在基于短时能量和过零率的双门限端点检测算法中首先为短时能量和过零率分别确定两个高低门限值,低门限值对信号的变化较敏感。当低门限被超过时,很有可能是由很小的噪声所引起,未必是语音的开始,到高门限被超过并且在接下来的时间段内一直超过低门限时,则意味着语音信号的开始。超过高门限值的时间点作为起始端点,
设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式如下:
设第n帧语音信号xn(m)的短时过零率用Zn表示,则其计算公式如下:
式中sgn[]是符号函数,即
如图3所示,本发明利用语音信号时域特性实现基于双门限法的语音端点检测,具体步骤如下:
1)计算信号的短时能量和短时平均过零率;
2)根据语音能量的轮廓选取一个较高的门限T2,语音信号的能量包络大部分都在此门限之上,进行粗判断。语音起止点位于T2与短时能量包络交点N3和N4所对应的时间间隔之外;
3)根据背景噪声的能量确定一个较低的门限T1,并从初判起点(N3)往左,从初判终点(N4)往右搜索,分别找到第一次与门限T1相交的两个点N2和N5,于是N2至N5段就是用双门限法所判定的语音段;
4)以短时平均过零率为基准,从N2点往左和N5点往右搜索,找到短时平均过零率低于某阈值T3的两点N1和N6,即为语音段的起止点。
2.梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCC)
如图4所示,MFCC特征提取过程主要由帧提取、加窗、离散傅立叶变换、复频率映射、离散余弦反变换组成。
1)帧提取:本发明对输入的语音信号以256为单位分帧。
2)加窗:窗口定义为:W(n),0≤n≤255,信号加窗公式如下:
y(n)=x(n)×w(n),0≤n≤255
本发明采用汉明窗,表示如下:
3)快速傅立叶变换(Fast Fourier Transform,FFT):离散傅立叶变换由下式表示:
4)复频率映射:因为人对语音频率内容的知觉不是线性的。为了模拟这种功能,我们使用了以下的近似的公式来计算复频率:
5)离散余弦变换:将信号从频域重新变换到时域,变换的结果就称之为复倒谱系数。复倒谱系数很好地代表了具体说话人的特征。通过余弦反变换实现,由下式所示:
3.高斯混合模型法(Gauss of Mixture Model,GMM)
语音段内容识别成功后,对提取的语音段MFCC特征训练专属于特定用户的语音模型。采用高斯混合模型方法。GMM模型(假设由M个高斯组成)有三个参数{c,μ,σ},其中c代表每个高斯函数的权重,μ代表均值,σ代表协方差矩阵。
设有随机变量x,则GMM可以表示:
式中:K——高斯模型的个数,ck——第k个高斯函数的权重且和为1,——第k个高斯概率密度,其均值为μk,方差为σk,且第k个高斯分模型表示为:
即概率密度的估计就是求出ck、μk和σk各个变量值。求出的表达式后,求和式的各项结果就分别表示样本x属于各类的概率。
给定一系列训练样本,即多组观测值,GMM模型训练过程为:先初始化各个参数ck,μk,σk,输入一个观测值序列,得到中间变量,根据中间变量更新各个上述3个变量,即得到新的参数。重复上述步骤,训练所有样本后,即得到相应的语音模型。
语音认证系统的匹配阶段采用最大后验概率准则(Maximum A Posteriori,MAP):
最大似然估计目标是求得使似然函数P(x0|θ)最大θ的取值。最大后验概率公式如下:
由于x0是事先已知的,即P(x0)也是一个定值。因此最大后验概率估计的目标则是求得使P(x0|θ)P(θ)最大的θ的取值,也即使得似然函数和θ本身出现的概率均大,才能使得后验概率P(θ|x0)取值最大。
将用户输入的语音文件预处理并提取MFCC特征后,与注册阶段训练好的模型文件做匹配,计算后验概率值,得到语音匹配分数。
四、基于SVM分类器人脸和语音多特征融合认证
SVM是从线性可分情况下的最优分类面发展而来的,其基本思想是通过在原空间或经投影后的高维空间中构造最优分类面,将给定的属于两个类别的训练样本分开。
给定一组训练样本集{(x1,y1),...,(xi,yi),...,(xn,yn)},其中xi∈Rd,yi∈{-1,+1}为类别标识,+1表示识别的是注册者,-1则表示冒充者。
在训练阶段,先将l个样本(已知样本属性为注册者或冒充者)作为训练样本集,根据样本分布的线性或非线性情况选择适当的核函数后利用SVM进行训练。SVM训练的过程是引入Lagrange乘子α,求解出满足条件的乘子α及对应的支持向量。按照凸二次规划的最优理论,约束优化的二次规划问题转化为一个Wolfe对偶问题,数学模型表达如下:
式中W(α)表示自变量为α的Wolfe对偶问题,求解目的是W(α)使最小化;H是训练样本集得出的一个半正定的对称阵K(xi,xj)表示两个样本之间在选定的核函数条件下的内积值;α=[α1,α2,...,αl]是训练样本的Lagrange乘子。W(α)的约束条件为:
训练完成后,求得乘子αi,其中0≤αi≤C。当αl>0时,所对应的就是满足支持向量条件的样本点(即支持向量SV)。此时K(xj,x),就是基于s个支持向量的核函数。由求解出的任意一个支持向量代入超平面w*x+b=0获得参数b的数值。代入训练得到的所有参数,最后得到的决策函数:
上述融合认证流程图如图5。
Claims (10)
1.一种基于Android平台的人脸和语音多生物特征融合认证方法,其特征在于,首先采集用户人脸图像,并对用户人脸图像进行预处理,并采用Adaboost算法检测用户人脸图像中的人脸,并提取人脸LBP特征得到用户人脸特征,根据用户人脸特征生成用户的人脸特征模型,所有用户的用户人脸特征模型组成图像样本库;
采集用户语音,并对用户语音进行预处理,并采用双门限法检测有效语音段的起始端点和结束端点,提取用户有效语音段;然后通过梅尔滤波器提取用户有效语音段的梅尔频率倒谱系数特征;根据高斯混合模型法训练梅尔频率倒谱系数特征得到用户语音模型,所有用户的用户语音模型组成语音样本库;
采集待认证目标人脸图像,并从中提取待认证目标人脸特征,将待认证目标人脸特征与图像样本库中的用户人脸特征模型进行匹配,获取人脸认证匹配分数;
采集待认证目标语音片段,提取待认证目标语音片段的梅尔频率倒谱系数特征,根据高斯混合模型法训练梅尔频率倒谱系数特征得到待认证目标语音模型与语音样本库中的用户语音模型进行匹配,获得语音认证匹配分数;
将人脸认证匹配分数和语音认证匹配分数进行加权处理,形成待认证目标特征向量,并用支持向量机分类器对待认证目标特征向量进行训练,得出最终的认证分数。
2.根据权利要求1所述的一种基于Android平台的人脸和语音多生物特征融合认证方法,其特征在于,待认证目标人脸图像和待认证目标语音片段通过采集设备进行采集,所述采集设备为带有GPU图形处理器的支持录音以及摄像功能的Android智能手机,并具有至少200万像素的摄像头。
3.根据权利要求1所述的一种基于Android平台的人脸和语音多生物特征融合认证方法,其特征在于,所述Adaboost算法中,采用积分图计算人脸的Haar特征作为训练样本组成样本集,初始化样本权重,对于每个人脸的Haar特征,训练一个弱分类器,把拥有最小错误率的弱分类器作为最佳弱分类器,重新调整样本权重,以此迭代至人脸的最后一个Haar特征,生成强分类器,实现人脸的实时检测。
4.根据权利要求1所述的一种基于Android平台的人脸和语音多生物特征融合认证方法,其特征在于,所述提取人脸LBP包括以下步骤,首先在圆形LBP算子基础上加入等价模式和旋转因子得到新的LBP算子,利用新的LBP算子计算人脸图像得到人脸图像的LBP特征图谱;将得到的人脸图像的LBP特征图谱分成大小相等的区块;然后,计算每个区块的直方图,并依据空间排列顺序,将每个区块的直方图特征依次连接成一行,形成人脸图像的LBP特征向量;训练所述人脸图像的LBP特征向量,得到人脸特征模型。
5.根据权利要求1所述的一种基于Android平台的人脸和语音多生物特征融合认证方法,其特征在于,所述双门限法检测有效语音段的起始端点和结束端点具体方法如下,计算语音段的短时能量和过零率,利用这两个特征分别确定语音幅值的高门限值和低门限值;当语音幅值超过高门限值且在接下来的一段时间内一直超过低门限值,则超过高门限值的时刻作为有效语音段的起始端点,当语音幅值低于低门限值时,将该时刻作为有效语音段的结束端点。
6.根据权利要求1所述的一种基于Android平台的人脸和语音多生物特征融合认证方法,其特征在于,所述双门限法检测有效语音段的起始端点和结束端点具体方法如下,计算语音段的短时能量和短时平均过零率,利用短时能量选取一个高门限和低门限值;语音幅值与高门限值相交的两个端点分别为初判起点和初判终点;从初判起点往左搜索,初判终点往右搜索,分别找到第一次与低门限相交的两个点,两个端点之间的语音段就是用双门限法所判定的语音段;利用短时平均过零率确定一个门限,从语音段的两个端点往外搜索,找到短时平均过零率低于该门限的两端点,即为语音段的起止点。
7.根据权利要求1所述的一种基于Android平台的人脸和语音多生物特征融合认证方法,其特征在于,对提取到的有效语音段进行分帧加窗处理,并对有效语音段的每一帧进行快速傅立叶变换、复频率映射和离散余弦变化,得到有效语音段的梅尔频率倒谱系数特征。
8.根据权利要求1所述的一种基于Android平台的人脸和语音多生物特征融合认证方法,其特征在于,根据高斯混合模型法训练语音模型具体步骤如下,先初始化高斯混合模型的参数,然后将有效语音段的梅尔频率倒谱系数特征输入高斯混合模型得到中间变量,根据中间变量更新高斯混合模型的参数,重复上述步骤,训练当前用户的所有样本后,即得到相应的语音模型。
9.根据权利要求1所述的一种基于Android平台的人脸和语音多生物特征融合认证方法,其特征在于,计算待认证目标人脸特征和图像样本库中的用户人脸特征模型间的欧氏距离,得到人脸认证匹配分数;计算待认证目标语音模型和语音样本库中的用户语音模型的后验概率值,得到语音认证匹配分数;将人脸认证匹配分数和语音认证匹配分数进行加权处理得到新的向量输入支持向量机分类器,得到最终的认证分数。
10.根据权利要求1所述的一种基于Android平台的人脸和语音多生物特征融合认证方法,其特征在于,所述人脸图像的预处理包括直方图均衡,中值滤波以及人脸图像归一化,用户语音的预处理都包括基于小波的去噪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811198842.7A CN109446948A (zh) | 2018-10-15 | 2018-10-15 | 一种基于Android平台的人脸和语音多生物特征融合认证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811198842.7A CN109446948A (zh) | 2018-10-15 | 2018-10-15 | 一种基于Android平台的人脸和语音多生物特征融合认证方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109446948A true CN109446948A (zh) | 2019-03-08 |
Family
ID=65546727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811198842.7A Pending CN109446948A (zh) | 2018-10-15 | 2018-10-15 | 一种基于Android平台的人脸和语音多生物特征融合认证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446948A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934980A (zh) * | 2019-03-24 | 2019-06-25 | 哈尔滨理工大学 | 一种基于人脸和声纹组合验证的身份识别系统 |
CN110110653A (zh) * | 2019-04-30 | 2019-08-09 | 上海迥灵信息技术有限公司 | 多特征融合的情绪识别方法、装置和存储介质 |
CN110349312A (zh) * | 2019-07-09 | 2019-10-18 | 江苏万贝科技有限公司 | 一种基于家居的智能猫眼语音提醒识别系统及其方法 |
CN110364163A (zh) * | 2019-07-05 | 2019-10-22 | 西安交通大学 | 一种语音和唇语相融合的身份认证方法 |
CN111210129A (zh) * | 2019-12-28 | 2020-05-29 | 深圳供电局有限公司 | 一种基于网格化的配电网规划业务管理信息系统 |
CN111814128A (zh) * | 2020-09-01 | 2020-10-23 | 北京远鉴信息技术有限公司 | 基于融合特征的身份认证方法、装置、设备及存储介质 |
CN113270111A (zh) * | 2021-05-17 | 2021-08-17 | 广州国音智能科技有限公司 | 一种基于音频数据的身高预测方法、装置、设备和介质 |
CN117155583A (zh) * | 2023-10-24 | 2023-12-01 | 清华大学 | 非完整信息深度融合的多模态身份认证方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308653A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种应用于语音识别系统的端点检测方法 |
CN102034288A (zh) * | 2010-12-09 | 2011-04-27 | 江南大学 | 基于多生物特征识别的智能门禁系统 |
CN102855496A (zh) * | 2012-08-24 | 2013-01-02 | 苏州大学 | 遮挡人脸认证方法及系统 |
US9171347B2 (en) * | 2012-10-12 | 2015-10-27 | Document Security Systems, Inc. | System and method for analysis and authentication of covert security information using a smart device |
CN107133612A (zh) * | 2017-06-06 | 2017-09-05 | 河海大学常州校区 | 基于图像处理与语音识别技术的智能病房及其运行方法 |
-
2018
- 2018-10-15 CN CN201811198842.7A patent/CN109446948A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308653A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种应用于语音识别系统的端点检测方法 |
CN102034288A (zh) * | 2010-12-09 | 2011-04-27 | 江南大学 | 基于多生物特征识别的智能门禁系统 |
CN102855496A (zh) * | 2012-08-24 | 2013-01-02 | 苏州大学 | 遮挡人脸认证方法及系统 |
US9171347B2 (en) * | 2012-10-12 | 2015-10-27 | Document Security Systems, Inc. | System and method for analysis and authentication of covert security information using a smart device |
CN107133612A (zh) * | 2017-06-06 | 2017-09-05 | 河海大学常州校区 | 基于图像处理与语音识别技术的智能病房及其运行方法 |
Non-Patent Citations (1)
Title |
---|
张颖颖: ""基于LBP的人脸识别系统的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934980A (zh) * | 2019-03-24 | 2019-06-25 | 哈尔滨理工大学 | 一种基于人脸和声纹组合验证的身份识别系统 |
CN110110653A (zh) * | 2019-04-30 | 2019-08-09 | 上海迥灵信息技术有限公司 | 多特征融合的情绪识别方法、装置和存储介质 |
CN110364163A (zh) * | 2019-07-05 | 2019-10-22 | 西安交通大学 | 一种语音和唇语相融合的身份认证方法 |
CN110349312A (zh) * | 2019-07-09 | 2019-10-18 | 江苏万贝科技有限公司 | 一种基于家居的智能猫眼语音提醒识别系统及其方法 |
CN110349312B (zh) * | 2019-07-09 | 2021-09-17 | 江苏万贝科技有限公司 | 一种基于家居的智能猫眼语音提醒识别系统及其方法 |
CN111210129A (zh) * | 2019-12-28 | 2020-05-29 | 深圳供电局有限公司 | 一种基于网格化的配电网规划业务管理信息系统 |
CN111814128A (zh) * | 2020-09-01 | 2020-10-23 | 北京远鉴信息技术有限公司 | 基于融合特征的身份认证方法、装置、设备及存储介质 |
CN111814128B (zh) * | 2020-09-01 | 2020-12-11 | 北京远鉴信息技术有限公司 | 基于融合特征的身份认证方法、装置、设备及存储介质 |
CN113270111A (zh) * | 2021-05-17 | 2021-08-17 | 广州国音智能科技有限公司 | 一种基于音频数据的身高预测方法、装置、设备和介质 |
CN117155583A (zh) * | 2023-10-24 | 2023-12-01 | 清华大学 | 非完整信息深度融合的多模态身份认证方法及系统 |
CN117155583B (zh) * | 2023-10-24 | 2024-01-23 | 清华大学 | 非完整信息深度融合的多模态身份认证方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446948A (zh) | 一种基于Android平台的人脸和语音多生物特征融合认证方法 | |
Kim et al. | Person authentication using face, teeth and voice modalities for mobile device security | |
Ren et al. | Sound-event classification using robust texture features for robot hearing | |
Tresadern et al. | Mobile biometrics (mobio): Joint face and voice verification for a mobile platform | |
Fallah et al. | A new online signature verification system based on combining Mellin transform, MFCC and neural network | |
Soltane et al. | Face and speech based multi-modal biometric authentication | |
Kim et al. | Multimodal biometric authentication using teeth image and voice in mobile environment | |
Barpanda et al. | Iris feature extraction through wavelet mel-frequency cepstrum coefficients | |
Mandalapu et al. | Audio-visual biometric recognition and presentation attack detection: A comprehensive survey | |
Alsaedi et al. | Dynamic Audio-Visual Biometric Fusion for Person Recognition. | |
Shen et al. | Secure mobile services by face and speech based personal authentication | |
Sadak et al. | Dynamic and static feature fusion for increased accuracy in signature verification | |
Wayman | Digital signal processing in biometric identification: a review | |
Ali et al. | Intelligent system for imposter detection: Asurvey | |
Habeeb | Comparison between physiological and behavioral characteristics of biometric system | |
Bredin et al. | The biosecure talking-face reference system | |
Zhang et al. | Multimodal biometric authentication system for smartphone based on face and voice using matching level fusion | |
Shanthakumar | Performance Evolution of Face and Speech Recognition system using DTCWT and MFCC Features | |
Nainan et al. | Synergy in voice and lip movement for automatic person recognition | |
Rossant et al. | A robust iris identification system based on wavelet packet decomposition and local comparisons of the extracted signatures | |
Shenai et al. | Fast biometric authentication system based on audio-visual fusion | |
Nishino et al. | Multimodal person authentication system using features of utterance | |
Raoof | Security of iris recognition and voice recognition techniques | |
Soltane | Face, voice and signature multi-modal biometric verification fusion systems | |
de Negreiros et al. | Identification of Individuals Using Multimodal Data and LSTM Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |