CN101055718A - 一种基于矢量量化的声纹识别方法 - Google Patents

一种基于矢量量化的声纹识别方法 Download PDF

Info

Publication number
CN101055718A
CN101055718A CNA2007100405262A CN200710040526A CN101055718A CN 101055718 A CN101055718 A CN 101055718A CN A2007100405262 A CNA2007100405262 A CN A2007100405262A CN 200710040526 A CN200710040526 A CN 200710040526A CN 101055718 A CN101055718 A CN 101055718A
Authority
CN
China
Prior art keywords
user
processor
server
carries out
code book
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007100405262A
Other languages
English (en)
Inventor
吕钊
顾君忠
吴悦
李卓辉
庄杰
郭李华
张卫祥
王峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CNA2007100405262A priority Critical patent/CN101055718A/zh
Publication of CN101055718A publication Critical patent/CN101055718A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于矢量量化的声纹识别方法,属于声纹识别的技术领域。在已有Matlab服务器上实现的声纹识别系统中,采用基于矢量量化的自适应初始码书的生成算法ACBI识别声纹,并在码字搜索过程中采用基于不等式的快速临近搜索算法FNS,使声纹识别的质量得到提高。有声纹验证的准确率高、识别速度快、码书的自适应性强、避免空胞腔现象和码书质量高等优点。

Description

一种基于矢量量化的声纹识别方法
                    技术领域
本发明涉及一种基于矢量量化的声纹识别方法,属于声纹识别的技术领域。
                    背景技术
在目前的声纹识别方法中,矢量量化方法是70年代后期发展起来的一种信源编码技术,根据讲话者语音特征参数空间分布来为用户建模。LBG算法是一种经典的矢量量化码书设计算法,它基于最佳矢量量化器中最佳划分和最佳码书这两个条件,已在统计聚类研究领域得到了广泛的应用。该算法不仅可独立生成码书,也可作为其他码书设计技术中的附加步骤。但是基于LBG的矢量量化算法存在以下缺点:1)在每次迭代的最佳划分阶段,从码书中搜索训练矢量的最近码字需要大量的储存空间和烦琐的计算。2)初始码书的选择影响码书训练的收敛速度和最终码书的性能。随机生成的初始码书容易出现空块(空胞腔)现象。3)码书的自适应能力差。基于矢量量化的自适应初始码书的生成算法ACBI是基于LBG的矢量量化算法的改进,它没有上述的缺点。穷尽搜索(Full Search,FS)是一种最原始最直观的最近邻码字搜索算法,它需要计算输入矢量与所有码字之间的失真并通过比较找出失真最小的码字。高效率矢量量化编码(或识别)系统往往采用大码书和高维矢量,这时计算复杂度将非常大,故减少码字搜索的计算负担是非常必要的。快速最临近搜索算法FNS是穷尽搜索算法FS的改进,它没有计算量大的缺点。
                发明内容
本发明的目的是提出一种基于矢量量化的声纹识别方法。本发明在得到码书质量相当的情况下,大大降低运算复杂度,避免空胞腔现象,能够根据训练矢量集的特点来确定码书的长度,使得码书的自适应能力得到提高。
为实现上述目的,本发明采用的技术方案是:在已有Matlab服务器上实现的声纹识别系统中,采用基于矢量量化的自适应初始码书的生成算法ACBI识别声纹,并在码字搜索过程中采用基于不等式的快速临近搜索算法FNS,使声纹识别的质量得到提高。
现结合附图详细描述本发明的技术方案:所述的方法需要在由输入设备、操作系统、第一处理器、局域网、第二处理器、Matlab服务器、工作流引擎和输出设备组成的基于声纹特征的身份认证系统中施行,输入设备是手写输入板、键盘或触摸屏,操作系统是常用的Linux或Windows 98/2000/XP/Mobile桌面系统,第一处理器和第二处理器是PC机、掌上电脑或PDA的终端设备,工作流引擎是能解析工作流定义并执行工作流的管理系统,输入设备、操作系统和第一处理器组成客户端,第二处理器、Matlab服务器、工作流引擎和输出设备组成服务器端,客户端通过局域网与服务器端连接在一起,其特征在于,所述的方法的实现过程如下:
第1步在客户端用户使用输入设备输入用户名和口令,并进行录音;
第2步用户名和口令通过局域网传输给服务器端的Matlab服务器和第二处理器,第二处理器收到用户名和口令,判断该用户是否为系统的合法用户,如是,执行第3步,如否,执行第2.1步;
第2.1步不是合法用户,报错结束;
第3步Matlab服务器对客户端发来的语音文件进行语音预处理,提取特征参数;
第4步采用ACBI算法建立码书,并保存至码书库;
第5步在客户端用户使用输入设备输入用户名并录音;
第6步服务器端的第二处理器通过局域网收到客户端发来的用户名和语音文件,判断该用户是否为系统的合法用户,如否,执行第6.1步,如是,执行第7步;
第6.1步该用户不是否系统的合法用户,报错结束;
第7步Matlab服务器根据用户输入的语音文件用FNS算法计算失真值,判断与码书库中的码书是否匹配,如否,执行第7.1步,如是,执行第8步;
第7.1步不匹配,报错结束;
第8步Matlab服务器把用户名发给工作流引擎;
第9步工作流引擎给用户提供工作流程信息。
与背景技术相比,本发明具有以下优点:
1、通过采用ACBI算法和FNS算法有效地提高声纹验证的准确率和识别速度;
2、生成的初始码书与传统的LBG算法相比有更为合理的分布,能够有效降低LBG算法的迭代次数并提高收敛速度,改变码书长度人为设定的不科学性,提高码书的自适应性,并避免空胞腔现象,使码书的质量得到提高。
                 附图说明
图1为基于声纹特征的身份认证系统的结构框图。
图2为本发明的方法实现过程的流程图。
               具体实施方式
现结合附图和实施例详细说明本发明的技术方案。
实施例1客户端的用户是普通用户
本实施例的方法需要在由输入设备、操作系统、第一处理器、局域网、第二处理器、Matlab服务器、工作流引擎和输出设备组成的基于声纹特征的身份认证系统中施行,输入设备是触摸屏,操作系统是常用的Windows Mobile系统,第一处理器和第二处理器是PC机,工作流引擎是能解析工作流定义并执行工作流的管理系统,输入设备、操作系统和第一处理器组成客户端,第二处理器、Matlab服务器、工作流引擎和输出设备组成服务器端,客户端通过局域网与服务器端连接在一起,其特征在于,所述的方法的实现过程描述如下:
第1步在客户端用户使用触摸屏输入用户名如“admin”、口令如“enhydra”,并进行录音;
第2步用户名和口令通过局域网传输给服务器端的Matlab服务器和第二处理器,第二处理器收到用户名“admin”和密码“enhydra”;
第3步Matlab服务器对客户端发来的语音文件“admin.wav”进行语音预处理,提取特征参数;
第4步采用ACBI算法建立码书如“admin.txt”,并保存至码书库;
第5步在客户端用户使用触摸屏输入用户名“admin”,并录音;
第6步服务器端的第二处理器通过局域网收到客户端发来的用户名“admin”,判断该用户是否为系统的合法用户;
第7步Matlab服务器根据用户输入的语音文件“admin.wav”用FNS算法计算失真值,判断与码书库中的码书“admin.txt”是否匹配;
第8步语音文件与码书匹配,Matlab服务器把用户名“admin”发给工作流引擎;
第9步工作流引擎给用户“admin”提供工作流程信息。
实施例2客户端的用户是除“admin”外的其他普通用户。
除以下不同外,其余部分与实施例1完全相同。
第5步中,另一个用户输入用户名“admin”。第7步中,Matlab服务器根据用户输入的语音文件“admin.wav”  用FNS算法计算失真值,判断与码书库中的码书“admin.txt”是否匹配,判断结果为不匹配,执行第7.1步,使用户无法登录系统,从而有效的防止他人盗用用户名和密码,做到声纹识别,提高系统的安全性。

Claims (1)

1、一种基于矢量量化的声纹识别方法,需要在由输入设备、操作系统、第一处理器、局域网、第二处理器、Matlab服务器、工作流引擎和输出设备组成的基于声纹特征的身份认证系统中施行,输入设备是手写输入板、键盘或触摸屏,操作系统是常用的Linux或Windows98/2000/XP/Mobile桌面系统,第一处理器和第二处理器是PC机、掌上电脑或PDA的终端设备,工作流引擎是能解析工作流定义并执行工作流的管理系统,输入设备、操作系统和第一处理器组成客户端,第二处理器、Matlab服务器、工作流引擎和输出设备组成服务器端,客户端通过局域网与服务器端连接在一起,其特征在于,所述的方法的实现过程如下:
第1步在客户端用户使用输入设备输入用户名和口令,并进行录音;
第2步用户名和口令通过局域网传输给服务器端的Matlab服务器和第二处理器,第二处理器收到用户名和口令,判断该用户是否为系统的合法用户,如是,执行第3步,如否,执行第2.1步;
第2.1步不是合法用户,报错结束;
第3步Matlab服务器对客户端发来的语音文件进行语音预处理,提取特征参数;
第4步采用ACBI算法建立码书,并保存至码书库;
第5步在客户端用户使用输入设备输入用户名并录音;
第6步服务器端的第二处理器通过局域网收到客户端发来的用户名和语音文件,判断该用户是否为系统的合法用户,如否,执行第6.1步,如是,执行第7步;
第6.1步该用户不是否系统的合法用户,报错结束;
第7步Matlab服务器根据用户输入的语音文件用FNS算法计算失真值,判断与码书库中的码书是否匹配,如否,执行第7.1步,如是,执行第8步;
第7.1步不匹配,报错结束;
第8步Matlab服务器把用户名发给工作流引擎;
第9步工作流引擎给用户提供工作流程信息。
CNA2007100405262A 2007-05-11 2007-05-11 一种基于矢量量化的声纹识别方法 Pending CN101055718A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007100405262A CN101055718A (zh) 2007-05-11 2007-05-11 一种基于矢量量化的声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007100405262A CN101055718A (zh) 2007-05-11 2007-05-11 一种基于矢量量化的声纹识别方法

Publications (1)

Publication Number Publication Date
CN101055718A true CN101055718A (zh) 2007-10-17

Family

ID=38795525

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100405262A Pending CN101055718A (zh) 2007-05-11 2007-05-11 一种基于矢量量化的声纹识别方法

Country Status (1)

Country Link
CN (1) CN101055718A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009138012A1 (zh) * 2008-05-14 2009-11-19 华为技术有限公司 声音处理的方法、设备及系统
CN102522086A (zh) * 2011-12-27 2012-06-27 中国科学院苏州纳米技术与纳米仿生研究所 一种有序序列相似性对比方法的声纹识别应用
CN107945787A (zh) * 2017-11-21 2018-04-20 上海电机学院 一种基于虚拟仪器技术的声控登陆管理系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009138012A1 (zh) * 2008-05-14 2009-11-19 华为技术有限公司 声音处理的方法、设备及系统
CN101287044B (zh) * 2008-05-14 2012-04-25 华为技术有限公司 声音处理的方法、设备及系统
CN102522086A (zh) * 2011-12-27 2012-06-27 中国科学院苏州纳米技术与纳米仿生研究所 一种有序序列相似性对比方法的声纹识别应用
CN107945787A (zh) * 2017-11-21 2018-04-20 上海电机学院 一种基于虚拟仪器技术的声控登陆管理系统及方法

Similar Documents

Publication Publication Date Title
Wu et al. Deep k-means: Re-training and parameter sharing with harder cluster assignments for compressing deep convolutions
CN1120470C (zh) 利用快速和精细匹配在人群中识别讲话者的方法和装置
US11989230B2 (en) Media search filtering mechanism for search engine
US20100191531A1 (en) Quantizing feature vectors in decision-making applications
US12087280B2 (en) System and method for robust wakeword detection in presence of noise in new unseen environments without additional data
CN101055718A (zh) 一种基于矢量量化的声纹识别方法
CN116153330B (zh) 一种智能电话语音机器人控制方法
Chen et al. SEC4SR: A security analysis platform for speaker recognition
TWI725877B (zh) 電子裝置與語音識別方法
JP4703648B2 (ja) ベクトルコードブック生成方法、データ圧縮方法及び装置、並びに分散型音声認識システム
KR100861653B1 (ko) 음성 특징을 이용한 네트워크 기반 분산형 음성 인식단말기, 서버, 및 그 시스템 및 그 방법
Pan et al. The implementation of speech recognition systems on FPGA-based embedded systems with SoC architecture
CN1522431A (zh) 使用行为模型来进行无干扰的说话者验证的方法和系统
CN114155866A (zh) 说话人验证方法及系统
CN1455388A (zh) 语音识别系统及用于语音识别系统的特征矢量集的压缩方法
KR101233296B1 (ko) 가중치 합을 이용한 거리 함수 생성 방법 및 시스템
Lan et al. Using genetic algorithm to improve the performance of speech recognition based on artificial neural network
Lei et al. An Energy and Memory Efficient Speaker Verification System Based on Binary Neural Networks
Pan et al. The application of improved genetic algorithm on the training of neural network for speech recognition
NL2029215B1 (en) Speech keyword recognition method based on gated channel transformation sandglass residual neural network
CN118297291B (zh) 一种基于智能语音分析的电信客服业务推荐方法及系统
Tsai et al. Speech utterance clustering based on the maximization of within-cluster homogeneity of speaker voice characteristics
KR100764346B1 (ko) 구간유사도 기반의 자동 음악요약 방법 및 시스템
Wang et al. Disentangled Training with Adversarial Examples for Robust Small-Footprint Keyword Spotting
Team et al. System Description for Voice Privacy Challenge

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20071017