CN110364163A

CN110364163A - 一种语音和唇语相融合的身份认证方法

Info

Publication number: CN110364163A
Application number: CN201910603999.1A
Authority: CN
Inventors: 张新曼; 申沅均; 陈奕宇; 公维勇; 王寅; 尚东鹏; 许学斌
Original assignee: GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY; Xian Jiaotong University
Current assignee: GUANGDONG XI'AN JIAOTONG UNIVERSITY ACADEMY; Xian Jiaotong University
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-10-22

Abstract

本发明公开了一种语音和唇语相融合的身份认证方法，涉及信息安全及模式认证领域。该语音和唇语相融合的身份认证方法包括以下步骤：1)提取待认证的语音倒频谱特征和唇语特征；2)采用并行策略融合所述语音倒频谱特征和所述唇语特征，得到复向量特征；3)利用复向量特征作为训练样本训练复数极限学习机的多输入多输出模型，根据输出的分布及其取值判断是否认证成功；若输出结果向量中的最大值与提示符一致且该值大于设定阈值，则认证成功；否则，认证失败。该语音和唇语相融合的身份认证方法，采用语音和唇语相结合的多模生物特征进行身份认证，提高了身份认证系统的强健性。

Description

一种语音和唇语相融合的身份认证方法

技术领域

发明涉及信息安全及模式认证领域，具体涉及一种语音和唇语相融合的身份认证方法。

背景技术

随着网络信息技术的飞速发展，世界进入了移动互联网时代。2017年上半年，智能手机几乎人手一部。移动电商和网上银行等虚拟移动支付平台也随之兴起，但是与此同时，网络病毒、黑客以及电信诈骗等网络犯罪时刻威胁着手机用户的信息安全，甚至可能造成重大的经济损失。因此，亟待一个高度可靠的身份认证系统，将生物特征认证和智能手机平台进行融合由此应运而生。

语音认证是被认为在智能手机认证上具有广泛应用前景的生物特征认证技术之一。语音认证具有非接触、非侵入性和易于使用的特点。近年来也在取得了技术上的重大的突破，例如在语音识别的Switchboard任务方面，最新的IBM已经能将错误率控制在5.5％之下，有经验的转写人员在这个任务中可以达到4％之下。因此，这类安静环境下的语音识别系统已经近似于人类水平。但单通道的语音认证受环境影响较大，其认证准确率也有待进一步的提高。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供一种语音和唇语相融合的身份认证方法。

为达到上述目的，本发明采用以下技术方案予以实现：

一种语音和唇语相融合的身份认证方法，包括以下步骤：

1)提取待认证的语音倒频谱特征和唇语特征；

2)采用并行策略融合所述语音倒频谱特征和所述唇语特征，得到复向量特征；

3)利用复向量特征作为训练样本训练复数极限学习机的多输入多输出模型，根据输出的分布及其取值判断是否认证成功；

若输出结果向量中的最大值与设定提示符一致且最大值大于设定阈值，则认证成功；否则，认证失败。

进一步的，步骤1)中语音倒频谱特征的提取方法具体过程为：

利用双门限法对语音信号进行分段，并采用梅尔滤波器提取语音倒频谱特征。

进一步的，利用双门限法对语音信号进行分段的具体过程为：

用交叠分段的方法对语音信号进行分帧，得到短时序列；

用窗函数乘以短时序列，形成短时加窗语音信号；

利用短时加窗语音信号的短时能量和短时过零率截出语音段的起止点，起止点之间的语音即为有效语音段。

进一步的，利用短时加窗语音信号的短时能量和短时过零率截出有效语音段的起止点的具体过程包括以下步骤：

1)计算每帧音频的短时能量和短时过零率，计算公式如下所示，短时能量为

短时过零率为

其中，x_n(m)代表第n帧的第m个序列值，sgn[]代表符号函数；

2)根据语音能量的轮廓选取一个高门限T₂，进行粗判断；语音起止点位于T₂与短时能量包络交点N₃和N₄所对应的时间间隔之外，N₃作为初判起点，N₄作为初判终点；

3)根据背景噪声的能量选取一个低门限T₁，从初判起点N₃往左，从初判终点N₄往右搜索，分别找到第一次与低门限T₁相交的两个点N₂和N₅，于是N₂至N₅段就是由短时能量确定的语音段；

4)以短时平均过零率为基准，从N₂点往左和N₅点往右搜索，找到短时平均过零率低于阈值T₃的两点N₁和N₆，即为语音段的起止点。

进一步的，采用梅尔滤波器提取语音倒频谱特征的具体过程为：

1)对每帧短时序列进行快速傅里叶变换，计算公式如下：

计算FFT后每帧序列的谱线能量，计算公式如下：

E_n(k)＝[X_n(k)]² (4)；

2)采用Mel复频率将语音频率划分为若干个三角形的带通滤波器序列，得到Mel滤波器组：

语音频率划分成一系列三角形的带通滤波器序列，其传递函数如下：

其中，f(m)为三角形的带通滤波器序列，0≤m<M，M为滤波器组数，f_l和f_h分别是滤波器组的最高和最低频率，f_s为采样频率，N为FFT变换的序列点数，

3)通过Mel滤波器组，计算频域中每帧的能量谱：

4)通过离散余弦变换将每帧的能量谱从频域重新变换到时域，得到复倒谱系数：

其中，i为MFCC的系统阶数，取值范围为12～16；MFCC为一个矩阵，帧数×阶数，每帧的特征为一个向量。

进一步的，步骤1)中唇语特征的提取方法为：

利用面部特征位置关系对视频信号进行唇部定位并采用局部投影时空特征描述符提取唇语特征。

进一步的，利用面部特征位置关系对视频信号进行唇部定位的具体过程为：

利用定位眼睛中心位置定位嘴唇位置；

将包含嘴唇的区域调整到一个统一的尺寸，提取只包含嘴唇的区域，将该方法应用于每个视频帧，得到只包含嘴唇区域的视频序列。

进一步的，采用局部投影时空特征描述符提取唇语特征的具体过程为：

比较只包含嘴唇区域的视频序列的临近像素值产生二值码，计算公式如下所示：

其中，r为圆的半径，g_i为该圆内的像素值，g_c为中心像素点的值，p为该圆内像素值g_i的数量，临近像素值为该圆内的像素值；

依据三维坐标系XYT的嘴唇运动图像序列，得到沿着时间轴T的XY平面嘴唇运动图像序列帧、沿着空间坐标轴X的YT平面嘴唇运动图像序列帧和沿着空间坐标轴Y的XT平面的嘴唇运动图像序列帧，并获得相应坐标系的局部二值模式图像，即LBP图像；

对于每张LBP图像，计算XY平面、XT平面和YT平面上的直方图，分别为Hist_XY、Hist_XT和Hist_YT，根据式(11)和式(12)，利用奇异值分解得到最优投影向量和特征向量，

[U,S,V^T]＝svd(Hist) (11)

fVector＝Hist*pVector (12)

其中，S是一个对角元素非负且递减的对角矩阵，U和V是酉阵，pVector是 V的第一个列向量，能够得到和Hist_XY、Hist_XT和Hist_YT相关的fVector_XY，fVector_XT和fVector_YT。

进一步的，步骤2)中采用并行策略融合所述语音倒频谱特征和所述唇语特征，得到复向量特征的具体过程为：

设语音和唇语的特征向量分别为f_v和f_l，对维度小的特征向量补零，直至与维度大的特征向量维度相等；

对两个特征向量分别进行归一化处理，计算公式如下：

采用加权融合的方法，设置权重为：

加权融合后的特征为：

利用广义主成分分析对融合后的特征向量进行抽取，以去除冗余的数据，具体步骤如下：

对特征向量进行标准化处理：

计算样本协方差矩阵XX^T，对其做特征值分解，得到特征值ξ₁,ξ₂,…,ξ_n和特征向量λ₁,λ₂,…,λ_n(λ₁>λ₂>…>λ_n)，取前d个特征值所对应的特征向量得到投影矩阵 W＝[ξ₁,ξ₂,…,ξ_d]，则得到的特征数据为

X＝W^TY (20)

X即为用于训练的特征数据。

进一步的，步骤3)利用复向量特征作为训练样本训练复数极限学习机的多输入多输出模型的具体过程为：

用指定的提示符训练复数极限学习机；

对于样本i，给定训练集{x_i,t_i},i＝1,2,…,m，m是样本的个数，x_i∈Rⁿ，n 是特征向量维数，t_i∈{0,1}^r＝{假,真}^r，r是识别提示符的个数；

激活函数如下式所示：

其中，w_j∈R^r×n是连接输入结点和隐含层结点jth的输入权值矩阵，b_j是隐含层结点jth的偏移量，β_j是连接隐含层结点jth和输出结点的输出权值向量，g( ) 为激活函数，

Hβ＝T (22)

其中，和

根据公式(21)求出得到：

其中，表示广义Moore-Penrose逆矩阵；

当且仅当输出结果向量中的最大值与提示符对应且该值大于预定阈值，则识别通过。

与现有技术相比，本发明具有以下有益效果：

本发明的语音和唇语相融合的身份认证方法，提出视听语音认证 (Audio-visualspeech recognition)，唇语不受声环境和噪声的影响，并且能够包含与声信号最大量的互补信息，唇语中的动态信息不易受健康状况的影响，并且能够适应一些特殊场景下的人机交互，如在嘈杂的环境中或受限制不能出声的情况，而多模融合认证也具有更强的防伪性，采用语音和唇语相结合的多模生物特征进行身份认证，提高了身份认证系统的强健性，利用复数极限学习机计算匹配结果，复数极限学习机的整个学习过程通过数学变化一次完成，无需迭代，具有很好的泛化性和可控性；进一步的，利用基于Mel滤波的语音特征提取语音信号，更加接近人类的听觉感知特性，得到更有区分性的频域紧凑表达；进一步的，利用线性保持投影变换算法和局部投影时空特征描述符算法进行唇语特征提取，能够提取到最具有判别性的特征来进行降维；进一步的，利用并行测量策略的特征融合方法，并用广义主成分分析降维，更有效的利用特征；本发明能够保障智能终端用户的信息安全，认证结果准确可靠，适用范围广。

附图说明

图1为基于Android智能手机的语音和唇语身份认证系统注册和认证流程；

图2为特征融合流程；

图3为提取的10个唇语特征向量结果图；

图4为唇部定位示意图；其中，(a)为定位眼睛示意图，(b)为定位唇部示意图；(c)为唇部ROI示意图；

图5为三个平面上嘴唇运动图像序列帧；其中，(a)为XY平面上的嘴唇运动图像序列帧，(b)为XT平面上的嘴唇运动图像序列帧，(c)YT平面上的嘴唇运动图像序列帧；

图6为三个平面上的LBP图像序列帧；其中，(a)为XY平面上的LBP图像序列帧，(b)为XT平面上的LBP图像序列帧，(c)为YT平面上的LBP图像序列帧；

图7为本发明语音和唇语相融合的身份认证系统原理框图；

图8为Android智能手机系统总体界面框图；

图9为系统总体设计框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、 “第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有” 以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述：

本发明的一种语音和唇语相融合的身份认证方法，具体过程如下：

一、提取语音特征，具体过程如下：

(1)本发明采用语音分帧并加窗对语音信号进行预处理：首先用交叠分段的方法对语音信号进行分帧，一般每秒帧数约为33～100帧，帧移和帧长的比值一般为0～1/2；然后用一定的窗函数w(n)乘以短时序列，从而形成短时加窗语音信号。

(2)本发明采用基于短时能量和过零率双门限法进行端点检测：首先为短时能量和过零率分别确定两个高低门限值，低门限值对信号的变化较敏感。当低门限被超过时，很有可能是由很小的噪声所引起，未必是语音的开始，到高门限被超过并且在接下来的时间段内一直超过低门限时，则意味着语音信号的开始。超过高门限值的时间点作为起始端点，包括以下步骤：

步骤一：计算每帧的短时能量和短时过零率：

短时能量：

短时过零率：

其中，x_n(m)代表第n帧的第m个序列值，sgn[]代表符号函数。

步骤二：根据语音能量的轮廓选取一个高门限T₂，语音信号的能量包络大部分都在此门限之上，进行粗判断。语音起止点位于T₂与短时能量包络交点N₃和N₄所对应的时间间隔之外；

步骤三：根据背景噪声的能量确定一个低门限T₁，并从初判起点(N₃)往左，从初判终点(N₄)往右搜索，分别找到第一次与门限T₁相交的两个点N₂和N₅，于是N₂至N₅段就是用短时能量初步确定的语音段；

步骤四：以短时平均过零率为基准，从N₂点往左和N₅点往右搜索，找到短时平均过零率低于某阈值T₃的两点N₁和N₆，即为语音段的起止点。

本发明采用梅尔(Mel)频率倒谱系数(MFCC)进行特征提取，具体步骤如下：

步骤一：对每帧序列进行基于快速傅里叶变换(FFT)的离散傅立叶变换，其公式如下：

步骤二：计算每一帧FFT后的谱线能量：

E_n(k)＝[X_n(k)]² (4)

步骤三：复频率映射，因为人对语音频率内容的知觉不是线性的。为了模拟这种功能，我们使用了以下的近似的公式来计算Mel复频率：

并以此将语音频率划分为一系列三角形的带通滤波器序列，即Mel滤波器组，其中，每个带通滤波器的传递函数为：

其中，0≤m<M，M为滤波器组数f_l和f_h分别是滤波器组的最高和最低频率， f_s为采样频率，N为FFT变换的序列点数，

步骤四：通过Mel滤波器组，计算频域中每帧的能量谱：

步骤五：离散余弦变换，将信号从频域重新变换到时域，变换的结果就称之为复倒谱系数，通过余弦反变换实现，由下式所示：

其中，i为MFCC的系统阶数，通常取12～16。

算出的MFCC为一个矩阵：帧数×阶数，每帧的特征为一个向量。

二、唇语检测及特征提取，具体过程如下：

(1)本发明利用面部特征位置关系进行唇部ROI定位，如图4所示。首先定位眼睛中心位置E₁和E₂，并计算两个眼睛中心的中点E(E_x,E_y)；然后将图像围绕E点旋转，直到眼睛中心处于同一水平位置；d为眼睛中心之间的距离，口腔中心位于(E_x,E_y+1.2d)，嘴唇区域的宽度和高度分别设置为1.12d和0.84d；最后，将嘴唇的区域调整到一个统一的尺寸，提取需要的区域，并将该方法应用于每个视频帧，得到只包含嘴唇区域的视频序列。

(2)本发明采用局部投影时空特征描述符(PLSD)进行唇语特征提取，PLSD 是局部二值模式(LBP)在时空特征层次的改进算法，通过比较临近像素值产生二值码，如下公式：

其中，r表示圆的半径，g_i表示该圆内的像素值，g_c是中心像素点的值，p 代表该圆内像素值g_i的数量；参加图3，图3为提取的10个唇语特征向量结果图。

参见图5，图5为三个平面上嘴唇运动图像序列帧；其中，(a)为XY平面上的嘴唇运动图像序列帧，(b)为XT平面上的嘴唇运动图像序列帧，(c)YT 平面上的嘴唇运动图像序列帧，依据坐标系XYT的图像序列，得到沿着时间轴T 的XY平面以及分别沿着空间坐标系X和Y的YT平面和XT平面的嘴唇运动图像序列帧。

为了提取时空特征，得到以下坐标系的LBP图像，参见图6，图6为三个平面上的LBP图像序列帧；其中，(a)为XY平面上的LBP图像序列帧，(b)为 XT平面上的LBP图像序列帧，(c)为YT平面上的LBP图像序列帧。对于每张 LBP图像，计算三个平面上的直方图，分别为Hist_XY，Hist_XT和Hist_YT。Hist中的每一列表示一帧的LBP直方图。根据公式(11)(12)可知，利用奇异值分解(SVD) 得到最优投影向量pVector和特征向量fVector。

[U,S,V^T]＝svd(Hist) (11)

fVector＝Hist*pVector (12)

其中，S是一个对角元素非负且递减的对角矩阵，U和V是酉(矩)阵，pVector 是V的第一个列向量。因此，可以得到和Hist_XY，Hist_XT和Hist_YT相关的fVector_XY， fVector_XT和fVector_YT。

三、基于并行策略的特征融合，具体过程如下：

本发明采用基于并行策略的特征融合方法将语音和唇语的特征在特征层进行融合，参见图2，图2为特征融合流程，该融合策略将两个实数特征向量融合成一个复向量，以两个特征的实空间构成新的复空间，可以证明这是一个酉空间。

设语音和唇语的特征向量分别为f_v和f_l，其融合后的特征为：

γ＝f_v+jf_l (13)

dim(γ)＝max{dim(f_v),dim(f_l)} (14)

在特征融合之前需对两个特征向量进行一定的预处理，具体步骤如下：

步骤一：对维度较小的特征向量补零，直至与维度较大的向量维度相等。

步骤二：对两个向量分别进行归一化：

步骤三：为了消除由于其中一个向量补零而造成的数值不平衡，采用加权融合的方法，令权重为：

则加权融合的特征为：

步骤四：将两个特征融合后，再利用广义主成分分析(GPCA)对融合后的特征向量进行抽取，以去除冗余的数据，减小分类器的计算量。具体步骤如下：

对特征数据进行标准化处理：

计算样本协方差矩阵XX^T，对其做特征值分解，得到特征值ξ₁,ξ₂,…,ξ_n和特征向量λ₁,λ₂,…,λ_n(λ₁>λ₂>…>λ_n)，取前d个特征值所对应的特征向量得到投影矩阵W＝[ξ₁,ξ₂,…,ξ_d]，则新的特征数据为

X＝W^TY (20)

X即为最后用于训练特征数据。

四、基于发音规则的提示符数据库；

本发明在后台数据库中先按照给定提示符训练数据，其中提示符可以选择英文字母和给定的发音差异较大的中文提示符，参见表1，表1给出了一种提示符库示例。在用户注册时，在将数据读入数据库之前先进行语音内容识别，以确认用户输入的内容与提示符一致。在认证时，需要同时满足输入的用户特征与用户本地数据库中的身份特征一致，以及输入内容与所给提示符一致，才能认证成功。

表1一种提示符库

五、基于复数极限学习机的匹配策略；

本发明使用复数极限学习机计算特征的匹配分数，复数极限学习机是基于单隐含层前馈神经网络提出的，通过不断测试来设置合适的隐含层节点的个数，随机的对输入权和隐含层偏差赋值，再由最小二乘法得到输出层权值。整个学习过程通过数学变化一次完成，无需迭代，训练速度与传统的基于梯度下降的BP算法相比有了显著提高(通常在10倍以上)。该算法具有更好的泛化性和可控性且学习速率快。

对于样本i，给定训练集{x_i,t_i},i＝1,2,…,m，m是样本的个数，并且x_i∈Rⁿ， n是特征向量维数，t_i∈{0,1}^r＝{假,真}^r，r是识别提示符的个数；激活函数如下式所示：

其中，w_j∈R^r×n是连接输入结点和隐含层结点jth的输入权值矩阵，b_j是隐含层结点jth的偏移量，β_j是连接隐含层结点jth和输出结点的输出权值向量g( ) 为激活函数，一般取sigmoid函数：

式(21)也可写成如下矩阵形式：

Hβ＝T (22)

其中，和

为了训练该模型，根据公式求出得到：

其中，表示广义Moore-Penrose逆矩阵。

最后，当且仅当输出结果向量中的最大值与提示符对应且该值大于预定阈值，则识别通过。

参见图7，图7为本发明语音和唇语相融合的身份认证系统原理框图；本发明的语音和唇语相融合的身份认证系统包括语音特征提取模块、唇语特征提取模块、特征层融合模块和复数极限学习机识别模块；语音特征提取模块用于提取语音倒频谱特征；唇语特征提取模块用于提取唇语特征；特征层融合模块用于将所述语音倒频谱特征和所述唇语特征利用并行策略融合，得到复向量特征；复数极限学习机识别模块用于利用复向量特征作为训练样本训练其多输入多输出模型，并根据其自身输出判定认证结果。

语音特征提取模块包括语音信号预处理模块、梅尔滤波器模块和语音特征参数采集模块；唇语特征提取模块包括唇部视频预处理模块、局部投影时空特征描述符模块和唇语特征参数采集模块；待认证的语音信号依次经过语音信号预处理模块和Mel滤波器模块，输入语音特征参数采集模块；待认证的唇部视频序列依次经过唇部视频预处理模块和局部投影时空特征描述符模块，输入唇语特征参数采集模块；语音特征参数采集模块与唇语特征参数采集模块将采集到的信息输入特征层融合模块进行特征融合，再将融合后的特征输入复数极限学习机识别模块，得出认证结果。

本发明提供一种基于Android智能手机平台的身份认证系统，参见图1，图 1为基于Android智能手机的语音和唇语身份认证系统注册和认证流程；在注册和认证时，系统都会先发送提示符给用户，类似于验证码。在注册时，每个提示符都要录入且录入多次，存入数据库用于训练极速学习机；且在每次录制视频后存入数据库前还需进行内容识别，以保证用户录入的内容与提示符一致。在认证时，系统随机发送一个或多个提示符，用户必须按照提示符的内容说话，根据前述的认证过程，只有当说话内容和说话人都匹配才认证通过。

参见图8，图8为本发明基于Android智能手机的语音和唇语身份认证系统总体界面框图，系统主界面包括注册、认证、数据库和视频录入等四个界面。其中认证界面和数据库界面都可以启动摄像头预览界面进行身份信息采集。主交互界面可以实现界面间的切换，点击图片按钮后可以切换到不同的界面，同时实现数据库的初始化，以及存储方式的初始化。用户登录注册界面可注册新的用户，也可直接选用已注册的用户；认证主界面录入语音和唇语信息后认证用户。

参见图9，图9为本发明基于Java的应用程序开发，具体涉及到手机权限的申请、摄像头模块的开发、基于JavaCV库的函数调用以及系统功能的模块化实现；利用AndroidStudio软件平台进行应用程序开发，在Android7.0手机版本中测试运行，并对软件的强健性和兼容性进行测试。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种语音和唇语相融合的身份认证方法，其特征在于，包括以下步骤：

1)提取待认证的语音倒频谱特征和唇语特征；

2.根据权利要求1所述的语音和唇语相融合的身份认证方法，其特征在于，步骤1)中语音倒频谱特征的提取方法具体过程为：

3.根据权利要求2所述的语音和唇语相融合的身份认证方法，其特征在于，利用双门限法对语音信号进行分段的具体过程为：

用交叠分段的方法对语音信号进行分帧，得到短时序列；

用窗函数乘以短时序列，形成短时加窗语音信号；

4.根据权利要求3所述的语音和唇语相融合的身份认证方法，其特征在于，利用短时加窗语音信号的短时能量和短时过零率截出有效语音段的起止点的具体过程包括以下步骤：

短时过零率为

其中，x_n(m)代表第n帧的第m个序列值，sgn[]代表符号函数；

5.根据权利要求3所述的语音和唇语相融合的身份认证方法，其特征在于，采用梅尔滤波器提取语音倒频谱特征的具体过程为：

1)对每帧短时序列进行快速傅里叶变换，计算公式如下：

计算FFT后每帧序列的谱线能量，计算公式如下：

E_n(k)＝[X_n(k)]² (4)；

3)通过Mel滤波器组，计算频域中每帧的能量谱：

6.根据权利要求1所述的语音和唇语相融合的身份认证方法，其特征在于，步骤1)中唇语特征的提取方法为：

7.根据权利要求6所述的语音和唇语相融合的身份认证方法，其特征在于，利用面部特征位置关系对视频信号进行唇部定位的具体过程为：

利用定位眼睛中心位置定位嘴唇位置；

8.根据权利要求7所述的语音和唇语相融合的身份认证方法，其特征在于，采用局部投影时空特征描述符提取唇语特征的具体过程为：

[U,S,V^T]＝svd(Hist) (11)

fVector＝Hist*pVector (12)

其中，S是一个对角元素非负且递减的对角矩阵，U和V是酉阵，pVector是V的第一个列向量，能够得到和Hist_XY、Hist_XT和Hist_YT相关的fVector_XY，fVector_XT和fVector_YT。

9.根据权利要求1所述的语音和唇语相融合的身份认证方法，其特征在于，步骤2)中采用并行策略融合所述语音倒频谱特征和所述唇语特征，得到复向量特征的具体过程为：

对两个特征向量分别进行归一化处理，计算公式如下：

采用加权融合的方法，设置权重为：

加权融合后的特征为：

对特征向量进行标准化处理：

计算样本协方差矩阵XX^T，对其做特征值分解，得到特征值ξ₁,ξ₂,…,ξ_n和特征向量λ₁,λ₂,…,λ_n(λ₁>λ₂>…>λ_n)，取前d个特征值所对应的特征向量得到投影矩阵W＝[ξ₁,ξ₂,…,ξ_d]，则得到的特征数据为

X＝W^TY (20)

X即为用于训练的特征数据。

10.根据权利要求1所述的语音和唇语相融合的身份认证方法，其特征在于，步骤3)利用复向量特征作为训练样本训练复数极限学习机的多输入多输出模型的具体过程为：

用指定的提示符训练复数极限学习机；

对于样本i，给定训练集{x_i,t_i},i＝1,2,…,m，m是样本的个数，x_i∈Rⁿ，n是特征向量维数，t_i∈{0,1}^r＝{假,真}^r，r是识别提示符的个数；

激活函数如下式所示：

其中，w_j∈R^r×n是连接输入结点和隐含层结点jth的输入权值矩阵，b_j是隐含层结点jth的偏移量，β_j是连接隐含层结点jth和输出结点的输出权值向量，g( )为激活函数，

Hβ＝T (22)

其中，和

根据公式(21)求出得到：

其中，表示广义Moore-Penrose逆矩阵；