CN101350196A

CN101350196A - 任务相关的说话人身份确认片上系统及其确认方法

Info

Publication number: CN101350196A
Application number: CNA2007101192831A
Authority: CN
Inventors: 丁玉国; 刘志; 梁维谦; 董明; 张鹏
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-07-19
Filing date: 2007-07-19
Publication date: 2009-01-21

Abstract

任务相关的说话人身份确认片上系统，是针对现有技术应用说话人的语音特征来确认说话人的身份的工作平台是PC机或者大型服务器而提出的，其基于嵌入式语音处理芯片来实现任务相关的说话人的确认。本任务相关的说话人身份确认片上系统可以用于便携、低功耗、低成本的安保、考勤等身份确认产品中。同时也提出该任务相关的说话人身份确认片上系统的确认方法，包括用户训练步骤和用户确认步骤，均采用语音特征提取和采用动态规划的矢量匹配，具有良好的抗干扰性能。

Description

任务相关的说话人身份确认片上系统及其确认方法

技术领域

本发明涉及说话人确认系统，特别是涉及应用说话人的语音特征来确认说话人的身份的任务相关的说话人身份确认片上系统及其确认方法。

背景技术

目前用于身份确认的方法很多，包括密码输入、指纹识别、虹膜识别、人脸识别，这些识别系统都已经比较成熟。事实上，语音和指纹一样，每个人的声音具备自己独特的特征，其他人无法模仿代替，因此语音特征用于说话人身份确认是当前安全、保密方面的一个研究热点。目前，已经有很多基于PC/服务器等大系统的声纹确认发明，主要用于侦听、安保等产品。

中国专利号200610103612的专利申请公开了一种基于分布式结构的说话人确认方法，前端采集说话人语音，提取特征，压缩为比特流格式，并送入数据传输信道；数据传输信道负责系统前端与系统后端数据的传输；系统后端将比特流格式数据解压缩为特征，并进行说话人确认。中国专利号200310118507的专利申请公开了用语义信息确认来替代基于声纹确认的训练过程，在基于声纹确认的准备工作还没有完成之前来进行识别工作。同时语义信息确认帮助声纹确认搜集所需的训练语料，等基于声纹识别的准备工作完成之后，把二者结合起来，进一步增强系统的安全性。采取的技术方案是根据说话人的声纹特征通过GMM模型(高斯混合模型)建立声纹模型；通过电话等语音输入设备录入语音，对声音进行预处理；对处理后的声音根据一定的声纹模型进行声纹特征提取；同时进行文本判断；用声纹特征和文本判断来识别说话人身份。中国专利号200510061955公开了一种基于锚模型空间投影序数比较的快速说话人确认方法，首先对测试语音进行特征提取，得到一组特征向量序列，然后对锚模型中的每个高斯混合模型以及背景模型估算概率密度，得到映射后的得分向量，并比较测试语音与声明说话人的得分序数并计算序数的欧式距离，最后将序数距离与阈值比较得到最终结果。还有“声纹考勤机”公开了语音采集模块采用说话人输入的语音ID号码口令，将其转换成数字信号，并把数字信号传送至语音处理模块；语音预处理模块对输入语音的数字信号进行语音分析处理，并输出处理得到的语音的微特征参数传送至训练模块；训练模块接收语音预处理的数据，对指定的语音样本进行训练，形成声纹考勤模板，存入存储系统模块中的员工档案中；考勤时，识别模块调用存储系统中的利用训练模块生成的现有声纹考勤模板和从语音预处理模块得到的说话人语音微特征参数，找出合法ID，进入声纹识别模块进行说话人确认，声纹识别模块识别出说话人，找出说话人所对应的ID号，在将这个ID号所对应的员工信息显示在液晶显示模块的显示屏上。

以上这些发明都是基于PC/服务器等具备较强运算能力、较大存储空间的运算平台，这类产品最大的缺点是工作平台是PC机或者大型服务器，不可以应用在便携、移动的场合。

发明内容

鉴于上述现有技术应用领域的限制，本发明的目的是提供一种便携、低功耗的任务相关的说话人身份确认片上系统及其实现方法，该任务相关的说话人身份确认片上系统主要是基于嵌入式语音处理专用芯片来实现任务相关的说话人确认方法，且具有良好的抗干扰性能。

本发明提供的任务相关的说话人身份确认片上系统，包括为该系统提供电源的电源模块、启动模块，存储数据的存储器，上述系统还包括嵌入式语音处理芯片，上述嵌入式语音处理芯片包括电源管理模块，处理器系统，及与放音模块和拾音模块连接的音频采样接口模块，上述处理器系统与上述音频采样接口模块连接，上述电源模块与上述电源管理模块连接、上述启动模块与上述处理器系统连接，用于启动语音处理芯片。

一种任务相关的说话人身份确认方法，首先提供上述任务相关的说话人身份确认片上系统，而后进行用户训练步骤和用户确认步骤，上述用户训练步骤和用户确认步骤均采用用于提取语音特征参数的语音特征提取和采用动态规划(Dynamic Programming，简称DP)的矢量匹配。

优选地，上述动态规划对上述任务相关的说话人身份确认片上系统提取两次训练的上述语音特征参数进行匹配运算，计算上述两次训练的语音特征参数之间的失真距离。

优选地，如果上述失真距离小于预设阈值，则上述任务相关的说话人身份确认片上系统确认为训练成功，上述任务相关的说话人身份确认片上系统存储上述两次训练的语音特征参数；如果上述失真距离大于预设阈值，则上述任务相关的说话人身份确认片上系统确认为训练不成功，上述任务相关的说话人身份确认片上系统要求用户重新训练。

优选地，在上述用户确认步骤中，上述任务相关的说话人身份确认片上系统提取用户输入的语音特征参数，上述任务相关的说话人身份确认片上系统将上述用户输入的语音特征参数与上述存储的两次训练的语音特征参数进行匹配运算，得到两个失真距离；如果其中最小的失真距离小于预设阈值，则上述任务相关的说话人身份确认片上系统确认为身份确认成功；如果其中最小的失真距离大于预设阈值，则上述任务相关的说话人身份确认片上系统确认为身份确认失败。

优选地，上述语音特征参数为13维语音特征参数，包括12维美尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，以下简称MFCC)和短时归一化对数能量E。

基于嵌入式语音处理专用芯片，来实现任务相关的说话人身份确认系统，可以用于便携、低功耗、低成本的安保、考勤等身份确认产品中。

下面结合附图，对本发明的具体实施方式作进一步的详细说明。对于所属技术领域的技术人员而言，从对本发明的详细说明中，本发明的上述和其他目的、特征和优点将显而易见。

附图说明

图1为说话人确认系统结构图；

图2为特征参数提取流程图；

图3为动态规划方法计算失真距离的示意图；

图4为用户的完整训练流程图；

图5为用户的识别流程图。

具体实施方式

本发明优选实施例提供的身份确认片上系统采用声纹辨识的方式，事先将用户的语音特征参数存储在系统中。在进行身份确认的时候，辨识用户的输入声音声纹是否与预存的相符。

基于语音处理专用芯片实现任务相关的说话人身份确认片上系统，主要的技术难点在于：

●嵌入式芯片系统不同于PC/服务器，运算能力较低、RAM空间通常只有几十K字节。在小系统上开发说话人确认算法，目标要接近或达到基于PC/服务器的系统性能；

●基于嵌入式芯片开发说话人确认算法，最终产品的成本大大降低，就是为了应用到更多的民用产品中去。这样的产品在使用的时候，声音环境较复杂，可能会存在噪声变化等情况。算法开发需要考虑抗噪方面的性能。

本发明优选实施例基于语音处理专用芯片UniSpeech和UniLite，这两款芯片专为语音处理应用而设计，芯片采用高集成度的SOC(System onChip)系统结构以0.18um半导体工艺制造，以16位定点DSP(100MIPS)为核心，片内集成了直接双访问快速SRAM、ADC/DAC(有效精度达到12Bit)及相应的模拟信号放大器和抗混叠滤波器，外部只需扩展Flash存储器、电源芯片、启动芯片等少量芯片即可构成完整系统应用。

图1是以嵌入式语音处理专用芯片为核心构成完整系统应用的参考设计方案图。本优选实施例选用语音处理专用芯片UniLite 400。图中：

1.电源芯片即电源模块406，提供给系统三路稳定电源，分别为3.3V(20mA max)/2.5V(20mA max)/1.8V(60mA max)；

2.启动芯片即启动管理模块401，为UniLite 400启动所需的专用芯片，与DSP处理器系统402相连接。

3.SPI Flash存储器芯片403为UniLite 400工作必需的芯片，存储程序和数据信息。1MByte容量的SPI Flash芯片403，如SST25VF080；

4.功放芯片410为系统外接放音模块即扬声器407时所需的选配芯片。

扬声器407通过功放芯片410、DAC数模转换器与音频采样接口404连接；拾音模块即麦克风408经预放、ADC模数转换器与音频采样接口404连接；音频采样接口404与DSP处理器系统402相连接；连接DSP处理器系统402还有片上RAM&ROM 409。

当嵌入式语音处理专用芯片UniLite 400接收到语音，首先进行语音特征提取。本发明选择具备较好抗噪性能的MFCC特征作为说话人确认系统的特征参数。整个语音特征提取流程图如图2所示。经过预滤波，A/D转换器转换，预加重，分帧，加窗等进行音频预处理，经由快速傅立叶变换，三角窗滤波，离散余弦变换，谱加权及倒谱均值减等，来提取语音的特征参数，包括12维的MFCC特征参数和短时归一化对数能量E。

矢量匹配采用动态规划的方法。动态规划方法用于比对两次训练语音的特征参数，具有算法复杂度较小的特点，而且能够包容用户两次说话时的语速差异。语音识别中的动态规划方法也被称作动态时间归正技术(Dynamic Time Warping，简称DTW)。

假设存储的一段语音的特征参数包括M帧：R＝{r(m)，m＝1，2，…M}，另一段语音的特征参数包括N帧：T＝{t(n)，n＝1，2，…N}，为了比较两者的相似度，可以计算他们之间的失真D(T，R)，失真越小，两者相似度越高。将两者中的第i和第j帧之间的失真记作D(T(n)，R(n))，D(T(n)，R(n))采用欧氏距离测度。通过动态规划过程，在搜索路径中找到累积失真最小的路径，即最优的匹配结果。

假设识别特征序列的帧数较大(如果N＜M，可以将R和T交换)，把识别特征的各个帧号n＝1，2，…，N在一个二维直角坐标系中的横轴上表示出来，将训练特征的各个帧号m＝1，2，…，M在纵轴上标出。

DP算法可以归结为寻找一条通过此网格中的路径，该路径不是随意选择的，语音的发音快慢、状态对比都不是可以随意变化的。点(n，m)的前一个匹配位置只可以是(n-1，m-1)、(n-1，m)、(n-1，m-2)这其中的一个。这三点中的具体选择是根据下面的式子决定：

min{d(T(n-1)，R(m-1))，d(T(n-1)，R(m))，d(T(n-1)，R(m-2))}

根据此规则，可以从(0，0)到(N，M)找到一条匹配的路径，如图3所示，并据此路径来计算特征矢量序列的失真距离。

本发明在实际操作中，包括两种工作状态：用户训练和用户确认。

●用户训练

一个完整的训练流程如图4所示：

步骤4.1，身份确认语音系统启动训练过程；

步骤4.2，在用户训练状态，系统提醒用户进行第一次训练，用户用正常的语速讲话3～4秒，如“芝麻开门”；

步骤4.3，系统完成步骤4.2提醒用户进行第二次训练，在步骤4.3第二次训练中，工作人员需要重复步骤4.2第一次训练中同样内容的声音；

步骤4.4，系统提取两次训练语音的特征参数，保留两次训练模型，并对两次保留的特征参数进行匹配运算，判断训练模型对比是否通过；

如果采用矢量匹配动态规划运算得到两者失真距离小于预设阈值，身份确认语音处理系统确认为训练成功：两次为同一个人所训练，并且内容相同，则完成一次训练，进行步骤4.5，系统将用户两次训练语音的特征参数存储下来，存储两次训练的模型；

如果采用矢量匹配动态规划运算得到两者失真距离大于预设阈值，身份确认语音处理系统确认为训练不成功：两次训练为不同认输入，或者同一人两次输入的语音不相同。那么转为步骤4.2，系统要求用户重新训练。

●用户确认

参照图5。

步骤5.1，在用户确认操作中，启动身份确认语音系统，用户输入和训练过程中相同的语音；

步骤5.2，身份确认语音处理系统将用户输入语音的特征参数和训练过程中保留的两次语音特征参数进行匹配运算，得到两个失真距离，进行识别；

步骤5.3，判断模型对比是否通过；

如果其中最小的失真距离小于预设阈值，则执行步骤5.4，系统确认为身份确认成功：训练和确认为同一个人，并且语音内容相同；

否则，执行步骤5.5，如果其中最小的失真距离大于预设阈值，系统确认为身份确认失败：训练和确认为不同人，或者同一个人输入了不同内容的语音，则要求用户重新输入语音。

当然，本发明还可有其他实施例，在不背离本发明精神及其实质的情况下，所属技术领域的技术人员当可根据本发明作出各种相应的改变，但这些相应的改变都应属于本发明的权利要求的保护范围。

Claims

1.一种任务相关的说话人身份确认片上系统，包括为该系统提供电源的电源模块、启动模块，存储数据的存储器，其特征在于，上述系统还包括嵌入式语音处理芯片，上述嵌入式语音处理芯片包括电源管理模块，处理器系统，及与放音模块和拾音模块连接的音频采样接口模块，上述处理器系统与上述音频采样接口模块连接，上述电源模块与上述电源管理模块连接，上述启动模块与上述处理器系统连接，用于启动语音处理芯片。

2.一种任务相关的说话人身份确认方法，其特征在于，首先提供一种如权利要求1所述的任务相关的说话人身份确认片上系统，而后进行用户训练步骤和用户确认步骤，上述用户训练步骤和用户确认步骤均采用用于提取语音特征参数的语音特征提取和采用动态规划的矢量匹配。

3.根据权利要求2所述的身份确认方法，其特征在于，上述动态规划对上述任务相关的说话人身份确认片上系统提取两次训练的上述语音特征参数进行匹配运算，计算上述两次训练的语音特征参数之间的失真距离。

4.根据权利要求3所述的身份确认方法，其特征在于，如果上述失真距离小于预设阈值，则上述任务相关的说话人身份确认片上系统确认为训练成功，上述任务相关的说话人身份确认片上系统存储上述两次训练的语音特征参数；如果上述失真距离大于预设阈值，则上述任务相关的说话人身份确认片上系统确认为训练不成功，上述任务相关的说话人身份确认片上系统要求用户重新训练。

5.根据权利要求4所述的身份确认方法，其特征在于，在上述用户确认步骤中，上述任务相关的说话人身份确认片上系统提取用户输入的语音特征参数，上述任务相关的说话人身份确认片上系统将上述用户输入的语音特征参数与上述存储的两次训练的语音特征参数进行匹配运算，得到两个失真距离；如果其中最小的失真距离小于预设阈值，则上述任务相关的说话人身份确认片上系统确认为身份确认成功；如果其中最小的失真距离大于预设阈值，则上述任务相关的说话人身份确认片上系统确认为身份确认失败。

6.根据权利要求2至5任一项所述的身份确认方法，其特征在于，上述语音特征参数为13维语音特征参数，包括12维美尔频率倒谱系数和短时归一化对数能量。