CN101055718A

CN101055718A - 一种基于矢量量化的声纹识别方法

Info

Publication number: CN101055718A
Application number: CNA2007100405262A
Authority: CN
Inventors: 吕钊; 顾君忠; 吴悦; 李卓辉; 庄杰; 郭李华; 张卫祥; 王峰
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2007-05-11
Filing date: 2007-05-11
Publication date: 2007-10-17

Abstract

一种基于矢量量化的声纹识别方法，属于声纹识别的技术领域。在已有Matlab服务器上实现的声纹识别系统中，采用基于矢量量化的自适应初始码书的生成算法ACBI识别声纹，并在码字搜索过程中采用基于不等式的快速临近搜索算法FNS，使声纹识别的质量得到提高。有声纹验证的准确率高、识别速度快、码书的自适应性强、避免空胞腔现象和码书质量高等优点。

Description

一种基于矢量量化的声纹识别方法

技术领域

本发明涉及一种基于矢量量化的声纹识别方法，属于声纹识别的技术领域。

背景技术

在目前的声纹识别方法中，矢量量化方法是70年代后期发展起来的一种信源编码技术，根据讲话者语音特征参数空间分布来为用户建模。LBG算法是一种经典的矢量量化码书设计算法，它基于最佳矢量量化器中最佳划分和最佳码书这两个条件，已在统计聚类研究领域得到了广泛的应用。该算法不仅可独立生成码书，也可作为其他码书设计技术中的附加步骤。但是基于LBG的矢量量化算法存在以下缺点：1)在每次迭代的最佳划分阶段，从码书中搜索训练矢量的最近码字需要大量的储存空间和烦琐的计算。2)初始码书的选择影响码书训练的收敛速度和最终码书的性能。随机生成的初始码书容易出现空块(空胞腔)现象。3)码书的自适应能力差。基于矢量量化的自适应初始码书的生成算法ACBI是基于LBG的矢量量化算法的改进，它没有上述的缺点。穷尽搜索(Full Search，FS)是一种最原始最直观的最近邻码字搜索算法，它需要计算输入矢量与所有码字之间的失真并通过比较找出失真最小的码字。高效率矢量量化编码(或识别)系统往往采用大码书和高维矢量，这时计算复杂度将非常大，故减少码字搜索的计算负担是非常必要的。快速最临近搜索算法FNS是穷尽搜索算法FS的改进，它没有计算量大的缺点。

发明内容

本发明的目的是提出一种基于矢量量化的声纹识别方法。本发明在得到码书质量相当的情况下，大大降低运算复杂度，避免空胞腔现象，能够根据训练矢量集的特点来确定码书的长度，使得码书的自适应能力得到提高。

为实现上述目的，本发明采用的技术方案是：在已有Matlab服务器上实现的声纹识别系统中，采用基于矢量量化的自适应初始码书的生成算法ACBI识别声纹，并在码字搜索过程中采用基于不等式的快速临近搜索算法FNS，使声纹识别的质量得到提高。

现结合附图详细描述本发明的技术方案：所述的方法需要在由输入设备、操作系统、第一处理器、局域网、第二处理器、Matlab服务器、工作流引擎和输出设备组成的基于声纹特征的身份认证系统中施行，输入设备是手写输入板、键盘或触摸屏，操作系统是常用的Linux或Windows 98/2000/XP/Mobile桌面系统，第一处理器和第二处理器是PC机、掌上电脑或PDA的终端设备，工作流引擎是能解析工作流定义并执行工作流的管理系统，输入设备、操作系统和第一处理器组成客户端，第二处理器、Matlab服务器、工作流引擎和输出设备组成服务器端，客户端通过局域网与服务器端连接在一起，其特征在于，所述的方法的实现过程如下：

第1步在客户端用户使用输入设备输入用户名和口令，并进行录音；

第2步用户名和口令通过局域网传输给服务器端的Matlab服务器和第二处理器，第二处理器收到用户名和口令，判断该用户是否为系统的合法用户，如是，执行第3步，如否，执行第2.1步；

第2.1步不是合法用户，报错结束；

第3步Matlab服务器对客户端发来的语音文件进行语音预处理，提取特征参数；

第4步采用ACBI算法建立码书，并保存至码书库；

第5步在客户端用户使用输入设备输入用户名并录音；

第6步服务器端的第二处理器通过局域网收到客户端发来的用户名和语音文件，判断该用户是否为系统的合法用户，如否，执行第6.1步，如是，执行第7步；

第6.1步该用户不是否系统的合法用户，报错结束；

第7步Matlab服务器根据用户输入的语音文件用FNS算法计算失真值，判断与码书库中的码书是否匹配，如否，执行第7.1步，如是，执行第8步；

第7.1步不匹配，报错结束；

第8步Matlab服务器把用户名发给工作流引擎；

第9步工作流引擎给用户提供工作流程信息。

与背景技术相比，本发明具有以下优点：

1、通过采用ACBI算法和FNS算法有效地提高声纹验证的准确率和识别速度；

2、生成的初始码书与传统的LBG算法相比有更为合理的分布，能够有效降低LBG算法的迭代次数并提高收敛速度，改变码书长度人为设定的不科学性，提高码书的自适应性，并避免空胞腔现象，使码书的质量得到提高。

附图说明

图1为基于声纹特征的身份认证系统的结构框图。

图2为本发明的方法实现过程的流程图。

具体实施方式

现结合附图和实施例详细说明本发明的技术方案。

实施例1客户端的用户是普通用户

本实施例的方法需要在由输入设备、操作系统、第一处理器、局域网、第二处理器、Matlab服务器、工作流引擎和输出设备组成的基于声纹特征的身份认证系统中施行，输入设备是触摸屏，操作系统是常用的Windows Mobile系统，第一处理器和第二处理器是PC机，工作流引擎是能解析工作流定义并执行工作流的管理系统，输入设备、操作系统和第一处理器组成客户端，第二处理器、Matlab服务器、工作流引擎和输出设备组成服务器端，客户端通过局域网与服务器端连接在一起，其特征在于，所述的方法的实现过程描述如下：

第1步在客户端用户使用触摸屏输入用户名如“admin”、口令如“enhydra”，并进行录音；

第2步用户名和口令通过局域网传输给服务器端的Matlab服务器和第二处理器，第二处理器收到用户名“admin”和密码“enhydra”；

第3步Matlab服务器对客户端发来的语音文件“admin.wav”进行语音预处理，提取特征参数；

第4步采用ACBI算法建立码书如“admin.txt”，并保存至码书库；

第5步在客户端用户使用触摸屏输入用户名“admin”，并录音；

第6步服务器端的第二处理器通过局域网收到客户端发来的用户名“admin”，判断该用户是否为系统的合法用户；

第7步Matlab服务器根据用户输入的语音文件“admin.wav”用FNS算法计算失真值，判断与码书库中的码书“admin.txt”是否匹配；

第8步语音文件与码书匹配，Matlab服务器把用户名“admin”发给工作流引擎；

第9步工作流引擎给用户“admin”提供工作流程信息。

实施例2客户端的用户是除“admin”外的其他普通用户。

除以下不同外，其余部分与实施例1完全相同。

第5步中，另一个用户输入用户名“admin”。第7步中，Matlab服务器根据用户输入的语音文件“admin.wav” 用FNS算法计算失真值，判断与码书库中的码书“admin.txt”是否匹配，判断结果为不匹配，执行第7.1步，使用户无法登录系统，从而有效的防止他人盗用用户名和密码，做到声纹识别，提高系统的安全性。

Claims

1、一种基于矢量量化的声纹识别方法，需要在由输入设备、操作系统、第一处理器、局域网、第二处理器、Matlab服务器、工作流引擎和输出设备组成的基于声纹特征的身份认证系统中施行，输入设备是手写输入板、键盘或触摸屏，操作系统是常用的Linux或Windows98/2000/XP/Mobile桌面系统，第一处理器和第二处理器是PC机、掌上电脑或PDA的终端设备，工作流引擎是能解析工作流定义并执行工作流的管理系统，输入设备、操作系统和第一处理器组成客户端，第二处理器、Matlab服务器、工作流引擎和输出设备组成服务器端，客户端通过局域网与服务器端连接在一起，其特征在于，所述的方法的实现过程如下：