CN101222703A

CN101222703A - 一种基于语音辨识的移动终端的身份验证方法

Info

Publication number: CN101222703A
Application number: CNA2007100666879A
Authority: CN
Inventors: 薛全; 严佳琦; 吴亦平; 王世杰
Original assignee: BODAO SOFTWARE Co Ltd HANGZHOU
Current assignee: BODAO SOFTWARE Co Ltd HANGZHOU
Priority date: 2007-01-12
Filing date: 2007-01-12
Publication date: 2008-07-16

Abstract

一种基于语音辨识的移动终端的身份验证方法，其特征在于其步骤依次为：(1)获取作为模板的参考音频样本，并将该参考音频样本进行音频参数化，生成作为参考矢量树，生成参考柱状图；(2)获取当前的音频样本，并将该音频样本进行音频参数化，生成当前矢量树，生成当前柱状图；(3)模板对比：根据距离计算方法计算参考柱状图和当前柱状图的距离；(4)根据所得距离并且与预先设定的阈值进行比较取得最后的判断结论；(5)结束。该方法根据人的音频特征进行身份验证，可靠性高而其实施简单便利。

Description

一种基于语音辨识的移动终端的身份验证方法

技术领域

本发明涉及一种身份验证的方法，具体涉及一种基于语音辨识的移动终端的身份验证方法。

背景技术

手机(以及其他的移动终端设备)作为无线移动通信终端设备已经成为人们日常工作、学习和生活的重要组成部分，语音通话、短信、彩信、彩铃等基本手机功能已经得到了相当广泛的推广和使用。随着手机功能的逐渐强大和完善，目前基于有线网络的很多应用将逐渐的过渡到无线网络，中、高档手机将提供针对移动商务的各种服务，为移动通信带来新的更大的需求，同时也给手机的身份验证等安全性能提出了更高的要求。在商务活动中，必然要进行身份识别与验证，由于有意或者无心造成的手机身份错认产生的经济纠纷，必须尽可能的避免，为用户提供一个安全便捷的移动交易环境。而现有手机开发技术中，正缺乏能够进行身份有效识别的手段和方法。

中国科学院声学研究所和北京中科信利技术有限公司在公开号为CN1455389的专利(专利号为02148684.0)公开了一种语音识别系统及用于语音识别系统的特征矢量集的压缩方法，该种用于语音识别系统的特征矢量集的压缩方法，在对语音特征矢量集聚类得到码本的过程中，增加了根据子集合中矢量数及矢量的总距离度量来动态合并和分裂子集合的步骤，减小了聚类后集合中矢量与其对应的码字的距离度量总和，提高了聚类算法的精度，将本发明方法压缩后的码本应用于语音识别系统中，可在保证语音系统识别性能的同时，大大降低了系统的存储量，本发明还公开一种语音识别系统，用特征码本和概率表代替声学模型，在解码的过程中不需要计算高斯概率，只须从预先存储的概率表中查找出所需的概率值，大大减少了解码运算量，因而可极大地提高系统的识别速度。其缺陷在于：数据运算量仍然过大，而且识别过程仍然较为复杂，这样，如需在类似于手机这种硬件资源不够丰富的电子终端上应用这种识别方法，依然比较困难。

综合上述，基于语音辨识的移动终端的身份验证方法尚需要进一步改进。

发明内容

本发明所要解决的技术问题是提供一种基于语音辨识的移动终端的身份验证的方法，用以在通过移动终端进行商务活动之前实现对手机用户的身份识别与管理，并且该方法可靠性好，且容易实施。

本发明解决上述技术问题所采用的技术方案为：一种基于语音辨识的移动终端的身份验证方法，其特征在于步骤依次为：

(1)获取作为模板的参考音频样本，并将该参考音频样本进行音频参数化，生成参考矢量树，生成参考柱状图；

(2)获取当前的音频样本，并将该音频样本进行音频参数化，生成当前矢量树，生成当前柱状图；

(3)模板对比：根据距离计算方法计算参考柱状图和当前柱状图的距离；

(4)根据所得距离并且与预先设定的阈值进行比较取得最后的判断结论，如通过论证，使移动终端启动服务程序，没有通过论证，则退出返回，终止服务程序；

(5)结束。

所述的音频参数化其步骤依次为：(1)音频加权平均窗口化，将一系列连续的音频数据分成若干小段；(2)梅尔比例化过程，对于每一个窗口，通过离散傅立叶变换DFT计算能量谱，该频谱系数是由一个频率刻度的非线性图来加权的；(3)通过另一个离散傅立叶变换DFT把加权的梅尔频谱转换成对数倒频谱系数，将所述音频转化成多维的特征矢量。

所述的生成柱状图的方法为：通过统计所有被量化类数据的叶子的概率来获取类属性，并依据每一片叶子包含特征矢量数目的概率生成柱状图。

所述的作为模板的参考音频样本通过一个或多个样本的训练来获得参考音频的矢量树和柱状图，对于多个样本的情况，具体方法在于通过多个样本的融合，从而合成一个新的模板样本，使身份认证更加准确。

所述的音频参数化采用n+1维的特征矢量，即n维的MFCC加上能量，且n为10～20之间的整数，包括端点，便于计算和储存。

所述的距离计算是采用欧几里得距离计算方法或者是采用余弦距离计算方法来计算两个样本柱状图的距离。

所述的音频样本获取界面在移动终端上，并利用移动终端内已有的录音功能录下语音文件，减少了手机端开发的工作。

所述的语音文件通过移动终端的彩信功能将其发送到远端语音辨识服务器，进行处理和对比，对比结果返回到移动终端，这样仅需要在手机上增加一个语音录入的界面即可以实现手机端语音的输入输出，充分利用服务器处理速度快、储存量大优势，降低对移动终端硬件上的要求

与现有技术相比，本发明的优点在于：该方法步骤简单，数据运算量小，易于实现，且可靠性高。另外，还可以考虑引入在远端语音辨识服务器具有的高效语音辨识软件的协助，实现一个在手机上可以使用的基于语音辨识的身份验证系统；通过利用手机内已有的录音、彩信功能，仅需要在手机上增加一个语音录入的界面即可以实现手机端语音的输入输出，减少了手机端开发的工作；仅需要用户在中、高档手机上安装语音辨识系统输入界面与验证返回输出结果界面，以及一个语音录入功能选择键，根据人的音频特征进行身份验证，可靠性高；本方法实施简单容易，只要在现有的移动终端中集成一段语音识别程序即可，并且通过本地或远程的识别来决定实现身份验证。

附图说明

图1：本发明的流程图；

图2为音频矢量树的结构示意图；

图3为与音频矢量树对应的柱状图示意图；

图4为音频参数化和矢量树的逻辑关系示意图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

将该语音辨识方法做成一个软件模块并内置于移动终端(如手机，以下以手机为例来说明)，以下为该移动终端基于语音辨识的身份验证的过程：具体步骤如下：

(1)连接和待机步骤：开机后，手机通过无线通信单元和网络连接单元，连接移动网络运营商或者服务商的服务器，开通彩信服务。如果连接全部成功，即到下一步，网络未覆盖或者没有开通彩信服务等情况，出现了部分或者全部不成功，则显示单元将给出提示和报错信息。

(2)读取步骤：手机身份识别机器在“待机状态”下进入语音录入界面，读取用户输入的系统保护密码(一段音频，比如用户说“进入系统”)。手机将获取的音频转化为语音文件，并将其发送到远端语音辨识服务器，由于目前手机的数字处理能力较弱，因此才将具体的语音辨识工作放在远端的服务器，随着手机的功能不断增强，以至可以在本地完成类似的工作，则在本地完成更为方便，即可以免去通过彩信发送语音数据的步骤。

(3)比较步骤：语音辨识服务器上的声音辨识系统软件根据事先输入的用户系统语音口令与当前得到的用户口令进行矢量树特征抽取、对比分析，如果在置信区间内则表明通过验证，并进入下一步，否则退出程序。

(4)确认步骤：手机身份语音辨识系统通过输出显示模块显示用户信息以及所选的服务类别，让用户确认，如果用户再次认可，手机语音辨识身份认证将启动移动商务模块，如果用户不如认可，则中止服务并退出相关程序。

下面详细地给出该基于语音辨识的身份验证方法的每个流程：

1音频参数化

获取一个采样频率为16KHz的音频文件，并将该音频文件参数化成梅尔倒频谱参数(MFCC)加上一个能量期。因此，该音频文件(波形)就被转化成一系列13维的特征矢量，即12维的MFCC加上能量，此处可以选择一系列n+1维的特征矢量，n一般10～20之间的整数，包括端点。该参数化对于语音识别和说话者身份识别是很高效的。

音频参数化的步骤：

(1)首先，音频在重叠步骤中是加权平均窗口化，将一系列连续的音频数据分成若干小段。每一个窗口是25mS宽的且是重叠的，每一秒内有500个窗口以及特征矢量。

(2)然后，对于每一个窗口，通过离散傅立叶变换(DFT)计算能量谱。该频谱系数是由一个频率刻度的非线性图来加权的，这个过程叫做梅尔比例化。

(3)最后是进一步通过另一个离散傅立叶变换(DFT)把加权的梅尔频谱转换成对数倒频谱系数。因此，该采样频率为16KHz的音频波形，在500Hz的速度下就被转化成13维的特征矢量。

2生成矢量树

矢量树的结构如图2所示。图中的方块代表子节点，从它引出的分枝叫做矢量树的叶子，用圆圈标识。每个叶子代表一个特征量，矢量树的层次和叶子的个数决定了对比中可用的特征量的多少。

在生成矢量树步骤中，涉及到2棵树，一棵是作为对比模板的参考矢量树简称参考树，一棵为当前音频采样样本所对应的当前矢量树，简称为当前树。

对于参考树的获得，可以是经过一个或多个样本训练来得到。

特征矢量的集合为树，每一个特征矢量对应树中的一片叶子，树只是特征矢量的空间组织形式，实际上，计算机比较的是多个叶子或多个特征矢量组成的字符串。

一个树型结构的量化器是距离测量方法的关键。一旦数据被参数化，量化树就会通过尽可能多的训练数据发展成离散状态。这样的树就是矢量量化器；判别性训练确保了它能利用不同的标志位把特征矢量从不同的类中区别出来。

基于树的量化器是被监测的，也就是说与普通的最小失真矢量量化器相比，矢量空间会被离散为更多的区域。被监测的训练就意味着在忽略其他可变性后，量化器能得到不同类样本之间的鉴定性区别。例如，在说话者识别方面，当忽略了巨大的但是不重要的口头音子(例如元音和摩擦音)之间的可变性时，该系统就能区分出说话者之间微小的嗓音的区别。

经过论证，与许多其他的方法相比，该树型结构能更好的处理维度的问题，这是因为每一个节点只考虑一维。与其他的必须计算所有维数的方法对比，对类的辨别没有影响的维数在本树型结构中是可以忽略的。

3生成柱状图

树把特征空间划分成若干个非重叠区域或者单元，每一个相当于树的一片叶子。通过用一个特殊的类给每一片叶子加上标注，该树能被当作分类器。这样的分类器并不健全，正如一般的类都会重叠，所以一片典型的叶子会包含许多不同类的数据。获取类属性的最好的办法就是观察所有被量化类数据的叶子的概率。200毫秒的数据会产生100个特征矢量(忽略窗口效应)，因而就有100个不同的叶子标注。如果用一个柱状图来描述叶子的概率，也就是说如果100个未知的矢量中有14个被分类属于叶子j，则叶子j在柱状图中的箱柱(概率值)就是0.14。该柱状图可以获得基本的类属性，起到了一个参考模板的作用。

依据每一片叶子包含特征矢量数目的概率生成柱状图，该柱状图在实际应用中作为参考模板，即基于该模板，通过计算“距离”来获得相似度。

柱状图的示意图如图3。

4柱状图距离计算和比较

参考音频模板对应第一棵树，具有对应的柱状图；

当前音频采样对应第二棵树，也具有对应的柱状图；通过计算2个柱状图的距离来比较柱状图的相似度。

树型量化器是特别实用的，它可以依赖数据数目来改变大小。每一片叶子都有一个柱状图中的箱柱与之相对应，因此树的大小会直接决定柱状图模板的大小。如果数据很少，柱状图中许多箱柱都为0，该图的效果并不好。修剪树会导致柱状图中箱柱减少，而该箱柱可以更好的特征化数据。按照这种方式，可以通过调整自由参数的数目来满足实际需要。

一旦模板(本段中的“模板”指上述的矢量树和柱状图)用在不同音频源的计算，测量模板之间的相似性就能成为声学相似性的度量。尽管很难选择一个合适的距离测量方法来比较模板，但是实际上一些简单的方法能起到很好的作用。目前已经有多种距离测量方法用于实践，下面介绍两种方法：

(1)欧几里得距离

D_{E}^{2} (p, q) = Σ_{i = 1}^{N} {[p (i) - q (i)]}^{2} - - - (1)

以上公式中的p(i)对应当前的采样样本柱形图的具体值，q(i)对应参考音频样本的柱形图的具体值。这种方法把柱状图看成是N维空间的矢量，并计算他们之间的距离值(即上式中等号左边的计算结果)。该方法已经成功的运用在语音身份识别方面。本发明主要采用这种距离测量方法。

(2)余弦距离

D_{C} (p, q) = \frac{Σ_{i = 1}^{N} p (i) q (i)}{\sqrt{Σ_{i = 1}^{N} p {(i)}^{2} \times Σ_{i = 1}^{N} q {(i)}^{2}}} - - - (2)

公式中的p(i)、q(i)的含义同上，这种方法也是把柱状图看成是N维空间的矢量，并计算他们之间角度的余弦值。这种方法对于矢量的相对大小不够灵敏，一般更多的运用在测量文本文档相似性方面。

最后根据计算得到的距离值与预先设定的可信值进行比较，当小于可信值时，可以认为当前采样的语音与参考模板的语音相同，否则认为不相同，并由此决定是否通过系统验证。

其中阈值的选择需要考虑具体情况。过大或过小的值都不利于得到满意的结果。

Claims

1.一种基于语音辨识的移动终端的身份验证方法，其特征在于步骤依次为：

(4)根据所得距离并且与预先设定的阈值进行比较取得最后的判断结论；

(5)结束。

2.根据权利要求1所述的身份验证方法，其特征在于所述的音频参数化其步骤依次为：(1)音频加权平均窗口化，将一系列连续的音频数据分成若干小段；

(2)梅尔比例化过程，对于每一个窗口，通过离散傅立叶变换DFT计算能量谱，该频谱系数是由一个频率刻度的非线性图来加权的；

(3)通过另一个离散傅立叶变换DFT把加权的梅尔频谱转换成对数倒频谱系数，将所述音频转化成多维的特征矢量。

3.根据权利要求1或2所述的身份验证方法，其特征在于所述的生成柱状图的方法：通过统计所有被量化类数据的叶子的概率来获取类属性，并依据每一片叶子包含特征矢量数目的概率生成柱状图。

4.根据权利要求3所述的身份验证方法，其特征在于所述的作为模板的参考音频样本通过多个样本的训练来获得参考音频的矢量树和柱状图，具体方法在于通过多个样本的融合，从而合成一个新的模板样本。

5.根据权利要求4所述的身份验证方法，其特征在于所述的音频参数化采用n+1维的特征矢量，就是n维MFCC加上能量，n为10～20之间的整数，包括端点。

6.根据权利要求5所述的身份验证方法，其特征在于所述的距离计算方法是采用欧几里得距离计算方法或者是采用余弦距离计算方法来计算所述的柱状图的距离。

7.根据权利要求6所述的身份验证方法，其特征在于所述的音频样本获取界面在移动终端上，并利用移动终端内已有的录音功能录下语音文件。

8.根据权利要求7所述的身份验证方法，其特征在于所述的语音文件通过移动终端的彩信功能将其发送到远端语音辨识服务器，进行处理和对比，对比结果返回到移动终端。