CN101321387A

CN101321387A - 基于通信系统的声纹识别方法及系统

Info

Publication number: CN101321387A
Application number: CNA2008100293774A
Authority: CN
Inventors: 徐睿; 许杨; 陈尚燕; 齐芳; 廖铭; 苏保飞; 柳艳红
Original assignee: BEIJING D-EAR TECHNOLOGIES Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: BEIJING D-EAR TECHNOLOGIES Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2008-07-10
Filing date: 2008-07-10
Publication date: 2008-12-10

Abstract

本发明提供了一种基于通信系统的声纹识别方法，其包括如下步骤：(a)接受用户的语音信息；(b)自动采集所述用户的语音信息以提取用户声纹信息，并将所述用户声纹信息保存作为所述用户的合法确认信息；(c)将接收到的所述用户的语音信息与所述用户的合法确认信息进行比对，对所述比对做出一个评分值，并保存所述评分值；(d)将所述比对评分值与设定好的阈值进行比对，得出所述用户是否为合法用户的结果；(e)处理所述合法用户的授权业务。本发明采用声纹建模程序提取用户模型，声纹识别方法简单且准确，并能有效的阻止不同通信方式下的不同信道和不同背景噪声的影响。本发明还公开了一种基于通信系统的声纹识别系统。

Description

基于通信系统的声纹识别方法及系统

技术领域

本发明涉及用语音信号作为身份识别的技术，特别涉及一种基于通信系统的声纹识别的技术。

背景技术

在电信业这一行业，要求提供24小时电话客户服务，随时为有需要的客户提供业务中止、业务恢复、费用查询、帐户转帐、信用卡授权等等各类的授权服务。目前的服务模式一般为客户服务人员在电话中询问用户的姓名、身份证号码、预留密码等信息，作为确认用户合法身份的依据。但是，这些信息往往很容易被熟悉合法用户情况的人(包括亲属、同事、朋友等)所了解或者破解，因而导致授权服务身份认证存在漏洞，给用户导致直接的经济损失，也给有关的服务机构造成了商业纠纷和信誉损失。

目前，手机声纹密码系统大多处于理论研究阶段和应用于实验室环境下，在实际中应用的还非常少，现有的应用主要是环境侦听和军事用途。环境侦听的应用主要是：利用不同的人发出同样内容的声音其频谱不同来进行身份识别，当TETRA集群手机开启自动环境侦听，被叫方收到呼叫时把收到的语音编码的特征数据与预先存储在机内的语音编码特征数据进行比较，当数据吻合时开启环境侦听功能，被叫方勿须做任何操作，不会出现被叫的动静，就可把环境信息送往呼叫方；手机没有开启此项功能时正常通话，此方法使用户在不便与呼叫方进行直接交流时提供交流通路，适合对执行任务者进行侦听，占用资源少，不增加成本。但现有技术主要采用的是文本相关的说话人识别技术，没有考虑噪声和跨信道等环境因素的影响。军事上的应用是：用神经网络声纹提取专家子系统从已知的话音数据中提取与说话人相关的声纹参数；再用网络远程通信子系统连接声纹提取系统和声纹识别系统；以及用多CPU大规模并行处理智能识别系统进行实时声纹处理。此系统结构复杂，对硬件的性能要求比较高，仍处在实验阶段。

目前，现存的电话声纹密码系统存在一定的局限性，主要为：

(1)没有考虑噪声的影响。输入的语音通常会伴随着一定的环境噪声，并且不同的说话场所噪声的类型也不尽相同，给说话人识别增添了难度。

(2)没有考虑跨信道的影响。由于电话信道畸变、移动电话和固定电话传输信道特点不同、以及不同的采音设备(如不同的电话类型、不同的座机型号等)，都会对语音信号产生一定的影响，这将直接影响到最终的识别性能。

(3)是文本相关的说话人识别技术。用户必须按指定的文本内容说一段话，给用户使用带来一定的不便，容易导致口令外泄。

(4)实现系统较复杂，对硬件的性能要求较高，基本处在实验室阶段。

(5)还没有实现根据客户的需要随时提供各项服务的功能，如业务中止、业务恢复、费用查询、帐户转帐、信用卡授权等等各类的授权服务的功能。

(6)只实现了单一的通信方式，如手机、或者固定电话等中的一种，没有将所用通信方式都结合在一起来实现。

发明内容

本发明的目的在于构建一个基于电话通讯的客服业务的电话声纹识别方法，所述电话声纹识别方法克服了背景噪声和跨信道对声纹识别性能的影响，调整适用于通信信道的算法参数，提高系统的识别性能。

本发明的另一目的在于提供一种实现电话声纹识别方法的系统，所述电话声纹识别系统克服了背景噪声和跨信道对声纹识别性能的影响，调整适用于通信信道的算法参数，提高系统的识别性能。

为实现上述目的，本发明的技术方案为提供一种基于通信系统的声纹识别方法，其包括如下步骤：(a)接受用户的语音信息；(b)自动采集所述用户的语音信息以提取用户声纹信息，并将所述用户声纹信息保存作为所述用户的合法确认信息；(c)将接收到的所述用户的语音信息与所述用户的合法确认信息进行比对，对所述比对做出一个评分值，并保存所述评分值；(d)将所述比对评分值与设定好的阈值进行比对，得出所述用户是否为合法用户的结果；(e)处理所述合法用户的授权业务。

较佳地，在所述步骤(a)进一步包括：根据所述用户的语音信息判断所述用户是否为首次使用的步骤；若是，执行所述步骤(b)；否则，执行所述步骤(c)。

较佳地，在所述步骤(a)之前还包括：语音提示所述用户输入功能选择键确认选择“注册”或选择“登录”的步骤；若选择“注册”，执行所述步骤(b)；若选择“登陆”，则执行所述步骤(c)。

较佳地，在所述步骤(c)之前进一步包括：将所述接收到的用户的语音信息进行保存的步骤。

较佳地，在所述执行步骤(d)进一步包括：若评分值大于或等于所述阈值，则所述用户为合法用户，继续执行步骤(e)；否则，所述用户为非法用户，则执行步骤(a)。

较佳地，所述步骤(e)之前进一步包括：在一限定时间内对所述用户做出为非法用户次数达到限定次数时，则在所述限定时间内拒绝为所述用户提供授权业务。

较佳地，所述步骤(a)之前进一步包括如下步骤：(a01)提示用户输入语音信息，执行步骤(a02)；(a02)所述用户输入语音信息，执行步骤(a03)；(a03)对所述用户语音信息是否为静音进行检测；若是，执行步骤(a01)；否则，则执行步骤(a04)；(a04)对所述用户的有效音长度是否符合要求进行检测；若符合，则执行所述步骤(a)；否则，执行步骤(a01)，同时提示用户语音信息的有效音长度不符合要求。

本发明还提供了一种基于通信系统的声纹识别系统，包括初始化模块、界面显示模块、主流程模块、语音卡编程接口模块、数据库存储模块、声纹处理接口模块及磁盘文件存储模块；

所述界面显示模块，用于显示各个执行操作及工作状况；

所述初始化模块，用于定义所述界面显示模块、主流程模块、数据库存储模块、声纹处理接口模块及磁盘文件存储模块为初始化模式；

所述主流程模块，用于在所述初始化模块的初始化模式下将界面显示模块、主流程模块、语音卡编程接口模块、数据库存储模块、声纹处理接口模块及磁盘文件存储模块联系在一起，使整个应用程序按照系统功能运行；

所述语音卡编程接口模块，用于在主流程模块的引导下进行多种语音信息的采集；

所述声纹处理接口模块，用于在所述初始化模块的初始化模式下，通过主流程模块调用存储于数据库存储模块中作为用户合法确认信息的声纹信息与通过语音卡编程接口模块采集到的语音信息进行对所述用户是否为合法用户的确认。

所述数据库存储模块，用于在所述初始化模块的初始化模式下，将所述用户信息在主流程模块下的运行过程及结果进行存储。

所述磁盘文件存储模块，用于存储所述声纹处理接口模块处理的结果及将所述声纹处理接口模块确认的合法用户的信息进行分类存储。

较佳地，所述的声纹处理接口模块还包括可在提取用户语音时屏蔽背景噪音、并且能提取不同通信信道的语音的训练模型。

较佳地，所述的训练模型采用高斯混合模型-通用背景模型系统。

较佳地，所述的基于通信系统的声纹识别系统，还包括有效音和静音检测模块，用于在所述初始化模块的初始化模式下，将语音卡编程接口模块接收到的用户语音信息在主流程模块的引导下进行静音和有效音长度的检测。

较佳地，所述的声纹处理接口模块包括声纹建模模块及声纹识别模块；所述声纹建模模块，用于对用户语音信息建立合法用户模型和根据用户语音特点提取声纹模型；所述声纹识别模块，用于对当前用户输入的语音信息与用户存储在所述磁盘文件存储模块中的合法确认信息进行比对，并对所述比对得出一个评分值，将所述评分值与设定的阈值进行比较，从而判断当前用户是否为合法用户。

较佳地，所述界面显示模块为表格模式，分为通道号、通道类型、流程状态、主叫号码、声明电话号码及按键值六列通道，行数为在所述初始化模块初始化下检测到的所述通道的通道数。

本发明和现有技术相比，由于接收用户的语音信息后，声纹建模程序提取用户模型，声纹识别模块自动采集用户的语音以提取用户声纹，作为合法用户模型保存在数据库中；再次使用时，声纹识别模块把当前用户的语音提取出声纹模型，与数据库存储模块中保存的合法用户模型进行比对，给出一个评分值，判断是否高于阈值，以判断是否为合法用户，使用流程简便。对采集的用户语音进行检测，通过所述的有效音和静音检测模块，对背景噪音进行排除，增加了声音识别的准确率。声纹识别模块是采用高斯混合模型-通用背景模型系统，使说话人训练语音覆盖到的发音情况，用说话人自己的语音建模，未覆盖到的发音情况可以用说话人无关的特征分布近似，从而减小里因环境和信道的不同而影响话音辨别，提高了对语音的识别率。采用声纹识别不需记忆、不会遗忘、使用方便等优点。其中，说话人识别，包括说话人辨识和说话人确认，在进行远程身份确认时，是无法获取其他生物特征的，而说话人确认只需一个麦克风或电话、电话通过网络(通信网络或互联网络)就可以进行说话人的身份认证。

附图说明

图1为本发明基于通信系统声纹识别方法的流程图。

图2为本发明基于通信系统的声纹识别方法的工作原理图。

图3为本发明基于通信系统的声纹识别方法的声纹建模子流程图。

图4为本发明基于通信系统的声纹识别方法的声纹认证子流程图。

图5为本发明基于通信系统的声纹识别系统的硬件结构示意图。

图6为本发明基于通信系统的声纹识别系统的结构示意图。

具体实施方式

如图1所示，本发明基于通信系统的声纹识别方法包括如下步骤：

S101呼叫中心接受用户电话语音，进入步骤S2或步骤S10；

S102根据当前用户语音判断是否为首次使用；若是，执行步骤S4；否则，执行步骤S5；

S103根据用户语音在声纹建模模块中提取用户模型；

S104声纹建模模块自动采集用户的语音以提取用户声纹，作为合法用户模型保存在数据库中；

S105声纹识别模块根据当前用户的语音提取出声纹模型，与合法用户模型比对，评分，判断分值是否高于阈值；若是，执行步骤S6；否则，执行步骤S7；

S106判断为合法用户，并将评分值和结果保存在数据库中；

S107判断为非法用户，并将评分值、结果和规定时间内的执行次数保存在数据库中；

S108判断规定时间内的执行次数是否大于特定值，若是，执行步骤S9；否则，执行步骤S1；

S109拒绝给此用户授权，退出声纹识别系统；

S110客服系统接受用户电话语音；

S111客服系统引导用户输入用户身份信息，并根据用户身份信息在数据库中提取合法用户模型，执行步骤S105；

如图2所示，本发明声纹识别方法的工作原理流程包括如下步骤：

S201用户拨打特服号码，执行步骤S202；

S202系统播放提示音，执行步骤S203；

S203用户输入功能选择键，选择注册或登陆；若选择注册，执行步骤S204；若选择登陆，则执行步骤S210；

S204判断是否存在模型，若是，执行步骤S210；否则，执行步骤S205；

S205用户录音，执行步骤S206；

S206根据用户录音建立用户合法模型，执行步骤S207；

S207判断建模是否成功，若是，执行步骤S208；否则，执行步骤S209；

S208系统播放注册成功提示音；

S209判断建模次数是否大于3，若是，执行步骤S217；否则，执行步骤S205；

S210系统提示已有模型，用户判断是否覆盖模型；若是，执行步骤S205；否则，执行步骤S217；

S211判断是否存在模型，若是，执行步骤S212；否则，执行步骤S217；

S212用户录音，执行步骤S213；

S213根据用户录音对当前用户进行声纹识别，执行步骤S214；

S214判断识别是否成功，若是，执行步骤S216；否则，执行步骤S215；

S215判断声纹识别次数是否大于3，若是，执行步骤S217；否则，执行步骤S211；

S216系统播放登陆系统成功提示音；

S217退出系统。

如图3所示，本发明声纹识别方法的声纹建模子流程包括如下步骤：

S301系统提示录制语音，执行步骤S302；

S302系统录制用户语音，执行步骤S303；

S303对语音进行静音检测，若为静音，执行步骤S301；否则，执行步骤S304；

S304对录制的语音进行有效音长度检测，判断长度是否有效；若符合，执行步骤S307；否则，执行步骤S305；

S305判断录音是否超时，若是，则执行步骤S306；若否，则执行步骤S301；

S306系统提示：录音不成功，可能说话声音较低或说话时间太长或噪音太大，请重新操作；

S307系统提示：正在进行声纹建模，执行步骤S308；

S308系统进行声纹建模，执行步骤S309；

S309判断建模是否成功，若成功，执行步骤S309；否则，执行步骤S310；

S310判断建模次数是否超过3次，若是，执行步骤S311；否则，执行步骤S301；

S311系统提示建模失败，退出系统；

S312系统提示建模成功，进入下一步操作。

如图4所示，本发明声纹识别方法的声纹认证子流程包括如下步骤：

S401系统提示录制语音，执行步骤S402；

S402系统录制用户语音，执行步骤S403；

S403对语音进行静音检测，若为静音，执行步骤S401；否则，执行步骤S404；

S404对录制的语音进行有效音长度检测，判断长度是否有效；若符合，执行步骤S407；否则，执行步骤S405；

S405判断录音是否超时，若是，则执行步骤S406；若否，则执行步骤S401；

S406系统提示：录音不成功，可能说话声音较低或说话时间太长或噪音太大，请重新操作；

S407系统提示：正在进行声纹认证，执行步骤S308；

S408系统进行声纹认证，执行步骤S309；

S309判断认证是否成功，若成功，执行步骤S309；否则，执行步骤S310；

S310判断认证次数是否超过3次，若是，执行步骤S311；否则，执行步骤S301；

S311系统提示认证失败，退出系统；

S312系统提示认证成功，进入下一步操作。

如图4所示，本发明基于通信系统声纹识别系统的硬件结构示意图：包括声纹识别装置100和语音卡200、工控机300、服务器400、通信平台500、局域网600；语音卡200一端有PCI接口插入工控机300的PCI插槽，另一端经由同轴电缆接入局域网600，服务器400与局域网600相联，通信平台的通信网络接口方式为：数字交换机E1线路，采用中国七号信令协议。

如图5所示，本发明基于通信系统的声纹识别系统，包括初始化模块101、主流程模块102、语音卡编程接口模块103、声纹处理接口模块104、有效音和静音检测模块105、界面显示模块106、数据库存储模块107和磁盘文件存储模块108，具体地，如下：

所述初始化模块101，分别定义如下模块对象：用于定义所述界面显示模块、主流程模块、数据库存储模块、声纹处理接口模块及磁盘文件存储模块为初始化模式。在初始化类模块的实现中，调用的各个类的接口函数为：初始化声纹模块类对象、初始化COM环境建立数据库的连接、定义对话框类并显示对话框、初始化主流程模块类对象、调用对话框类的OnTimer(UINT nIDEvent)消息处理函数、调用对话框类的OnCommand(WPARAM wParam，LPARAM 1Param)消息处理函数。其中，在OnTime(UINT nIDEvent)消息处理函数中调用主流程模块的功能入口函数Start()，并将此消息处理函数改成循环递归调用的函数方式。这样，就使整个电话“声纹”密码系统不停的运转起来。方法非常的简洁，只要不退出应用程序或意外关机，系统就处在监控状态下，永不会停止。在OnCommand(WPARAM wParam，LPARAM 1Param)消息处理函数中，调用主流程模块类的退出函数。

所述主流程模块102，是中央管理模块，用于在所述初始化模块的初始化模式下将界面显示模块、主流程模块、语音卡编程接口模块、数据库存储模块、声纹处理接口模块及磁盘文件存储模块联系在一起，使整个应用程序按照系统功能运行。在主流程模块中，将系统实现的功能细分成一系列的小步骤，每个小步骤实现整体功能的一小部分，所有步骤加起来即可完成整个系统功能。将这些小的步骤用一个枚举变量进行定义，枚举变量的每一个值代表一个小步骤。这样，就使整个流程结构比较清晰而且灵活多变。若增加或减少一个步骤，只需增加或减少枚举变量中的一个值即可，便于应用程序实现功能的改进和完善。将这个枚举变量定义为工作状态。在主流程模块的声明中，定义的模块对象或指针为：语音卡接口类指针、界面显示模块类指针、工作状态对象、检验语音卡是否加载成功的BOOL型变量。此外，在声明中，为每个步骤或多个步骤的实现定义一个功能实现函数，添加数据库存储模块700类对象，声纹处理接口模块400类对象，磁盘文件存储模块800类对象，有效音和静音检测模块500类对象。将所有功能模块类对象全部添加进来，根据功能流程的需要调用这些功能模块，实现相应的功能，充分体现了各功能模块各尽其责、各思其职、互不干涉的思想。在主流程模块类的实现中，实现的功能函数为：构造函数和析构函数、初始化函数、启动流程函数、运行流程函数、退出流程函数、复位所有通道的函数、声纹建模函数、声纹认证函数、声纹录音函数、通道检测函数、存储函数、获得电话号码函数、获取模型文件函数。其中，在构造函数中为语音卡接口类指针分配内存空间，将界面显示模块类指针和工作状态对象赋值为NULL；在析构函数中，释放为语音卡接口类分配的内存空间。这样，就可以保证应用程序在运行过程中不会出现内存泄漏的情况，保证系统能够长时间持续运行。若出现内存泄漏，就会导致死机或退出程序等现象，致使系统性能不稳定。在初始化函数中，调用初始化语音卡函数、获得工作通路的总数、为工作状态对象分配内存空间。在退出流程函数中，调用退出语音卡函数、复位所有通道的函数、释放工作状态对象的内存空间。在启动流程函数中，调用语音卡持续函数、对工作通路进行轮检、每一工作通路调用运行流程函数。这个函数是将运行流程函数放在循环中，依次轮检每一个工作通路的工作状态。在运行流程函数中，将工作状态、语音卡接口类中定义的线路状态和语音卡接口类中定义的线路类型三个枚举变量组合在一起，用一个整数类型的变量表示运行流程中当前所处的状态。对于不同的状态，根据各自状态下所要实现的功能步骤，定义或调用相应的功能函数。对于各种工作状态、线路类型及线路状态，用C++的switch语句实现多分支选择及状态间的切换，从而将各个功能步骤连接在一起，构成一个大的整体，实现总体功能。在声纹建模函数和声纹认证函数中，调用声纹模块接口类的函数，实现建模和身份认证的功能；声纹录音函数中，调用语音卡接口类中的函数和有效音和静音检测类中的函数，分别实现采集语音数据的功能，和判断采集的语音数据是否可以用来建模或认证。其它的函数，如通道检测函数、存储函数、获得电话号码函数、获取模型文件函数，分别调用语音卡接口类的函数、存储类的函数，实现相应的功能。在流程中的提示语音，本系统都用宏的形式进行定义，这样便于修改和调用。对于一些简单的又比较常用的功能函数，如播放提示语音和切换流程状态，本系统也采用宏的形式进行定义。

所述语音卡编程接口模块103，用于在主流程模块的引导下进行多种语音信息的采集，可实现系统兼容多种语音卡的功能。由于语音卡的种类比较多，每一类语音卡都有各自的功能函数，几乎没有两类语音卡的功能函数是完全一致的。这就意味着，如果直接调用语音卡的功能函数，实现同样的一个功能，对于不同的语音卡分别调用不同的功能函数，这就意味着要随时改动语音卡接口类和主流程模块中的相应部分，导致整个系统对语音卡的种类不具有兼容性，系统不灵活。本发明采用编写通用的语音卡接口类，这个类只与让语音卡实现的功能有关，而与语音卡的种类无关，这样就找到了语音卡的共同点。主流程模块102在与语音卡通信时，只需根据功能需求调用相应的接口函数及接口数据，不需考虑因语音卡种类不同而接口函数不同。每一种的语音卡都以接口类作为基类，定义自己特有的功能函数。这样，系统就对多种语音卡就有了兼容性，系统显得更加灵活。声纹密码装置将语音卡接口类定义为一个抽象类，抽象类中所有的功能函数都定义为纯虚函数。在这个抽象类中定义的数据成员主要为：可用的工作通路数目和线路结构体的对象。线路结构体的结构为：

struct LINESTRUCT

{

int nType；//线路类型

int State；//线路状态

char CallerID[32]；//主叫号码

char Dtmf[32]；//按键输入的号码

char szID[32]；//声明电话号码

int ntimes；//认证次数

CByteBuffer databuf；//存放录音文件数据

int nValidLen；//录音文件数据长度

CMyVoiceHolder*pVoiceholder；//有效音检测

CVAD*pVAD；//静音检测

CModel mod；//磁盘文件存储类对象

CUserInfo user；//数据库用户信息类对象

bool bPlaying；//放音状态

bool bRecording；//录音状态

int nUserType；//用户类型

int nFuncType；//功能类型

int nMinLen；//最小录音长度

time_t start，finish；//录音超时检测

}

在流程工作状态中，定义线路类型和线路状态为：

enum LINETYPE{

CHT_TRUNK，//外线

CHT_USER，//悬空

CHT_RECORD，//内线

CHT_EMPTY，//录音

}

enum CHANNEL_STATE{

CHS_FREE＝0，//空闲

CHS_RECEIVEID，//接到电话

CHS_OFFHOOK，//摘机

CHS_HANGUP，//挂机

}

抽象类中定义的接口函数为：初始化函数、退出函数、通道检测类型的函数、振铃及摘挂机检测类型的函数、获取电话号码及按键号码函数、录音函数、放音函数、内存放音函数。这些接口函数全部定义成纯虚函数。对于所有类型的语音卡，都用这个抽象类作为基类，由此抽象类派生出相应的具体类。这样，通过找到个语音卡实现功能上的共性，定义一个适用于不同语音卡的抽象类，实现了语音卡接口类的统一，从而实现了系统可以兼容多种语音卡的功能。

所述声纹处理接口模块104，用于在所述初始化模块的初始化模式下，通过主流程模块调用存储于数据库存储模块中作为用户合法确认信息的声纹信息与通过语音卡编程接口模块采集到的语音信息进行对所述用户是否为合法用户的确认。声纹处理接口模块包括声纹建模模块和声纹识别模块；

优选地，声纹识别系统的声纹处理接口模块还包括可在提取用户语音时屏蔽背景噪音、并且能提取不同通信信道的语音的训练模型。

所述的声纹建模模块，用于对根据用户语音建立合法用户模型和根据用户语音特点提取声纹模型；所述的声纹识别模块，用于根据当前用户的语音在声纹建模模块中提取出声纹模型，与数据库中保存的合法用户模型进行比对，给出一个评分值，判断是否高于阈值，以判断用户是否合法。处理模块只调用核心的说话人模型训练API和说话人身份确认API，在核心接口设计时，只考虑这两个API。在定义核心接口类的成员函数中，省去了许多没有必要的函数，使得结构达到到最简。成员函数为：初始化函数、退出函数、训练函数、确认函数、设定阈值的函数。成员变量为：

{

float m_fVerifyTH；//阈值

VPR_HANDLE m_TheUBM；//ubm

VPR_HANDLE m_Mode lSet；//模型集

VPR_HANDLE m_VerifyEngine；//确认引擎

VPR_HANDLE m_hVoiceHolder；//语音文件操作

VPR_HANDLE m_hSpkMode l；//说话人模型

VPR_HANDLE m_TrainEngine；//训练引擎

}

初始化函数中，进行的工作为：初始化核心、设定UBM、设定模型集、创建语音文件操作指针、创建训练引擎、创建确认引擎。退出函数做的工作与初始化正好相反，保证不出现内存泄漏的情况。在训练函数、确认函数和设定阈值函数中，按照核心的要求设计相应的函数，实现训练模型和做出身份认证的功能。

优选地，声纹识别核心算法采用的是高斯混合模型-通用背景模型(GMM-UBM)系统。在基于GMM的说话人识别系统中，有限的训练语音不能覆盖说话人所有可能的发音情况。当测试语音与训练语音不同时，与模型匹配不好，从而影响系统的识别率。在GMM-UBM系统中，通用背景模型(UBM)是一个说话人无关、高阶的高斯混合模型(GMM)；通常用数百人、男女声均衡的数小时语音训练得到，用于表示说话人无关的特征分布。说话人模型是通过UBM根据说话人训练语音自适应得到。这样，说话人训练语音覆盖到的发音情况，可以用说话人自己的语音建模；未覆盖到的发音情况可以用说话人无关的特征分布近似，从而可以减小测试语音与训练语音不同带来的影响，提高识别率。因此，训练出一个覆盖各种不同信道的说话人无关的特征模型GMM，是解决跨信道问题的一种方法。具体做法为：

首先搭建语音数据采集系统，专门采集尽可能多的不同电话信道的和带有一定背景噪声的真实说话人语音，获取覆盖面较广的实际应用的环境的训练数据语音。然后，用这些语音文件训练出三个代表电话信道特点的通用背景模型USM，即GZ_MALE_UBM.UBM、GZ_FEMALE_UBM.UBM、GZ_TOTAL_UBM.UBM。

所述有效音和静音检测模块105，用于在所述初始化模块的初始化模式下，将语音卡编程接口模块接收到的用户语音信息在主流程模块的引导下进行静音和有效音长度的检测。

在有效音检测中，用基于能量的方法，采用累加能量的方式进行统计的，同时实现降噪的功能。众所周知，电话等通讯设备通常在各种场合应用，不可避免的会遇到各种背景噪声。如果不对背景噪声，进行适当的处理，将会很大的影响声纹识别性能，导致系统无法正常工作。因此，背景噪声是影响声纹识别性能的一个主要因素之一，这是影响声纹识别技术走出实验室的主要障碍。本发明采用基于能量的算法剔除大部分的背景噪声，提取有效语音。算法的过程为：

(1)计算每帧语音信号的短时平均能量(Short Time Average Energy)E_n，计算公式如下：

E_{n} = Σ_{m = n - N + 1}^{n} {[x (m) w (n - m)]}^{2}

其中，n为标志的某帧语音信号；x(m)为实时采集到的语音流信号；w(n)为矩形窗函数，计算公式为：

N为窗函数的长度。

采样率为8k，窗长为20ms，窗移为10ms。

(2)由于信道的噪声比较大，信号幅值大于f(E_n)的语音信号认为是有效语音，将其保留；信号幅值小于f(E_n)的语音信号认为是噪声信号，将其排除。

所述界面显示模块600，用于显示各个执行操作及工作状况。在设计中，采用表格的方式，每一行显示每个通道工作状况，每行共计6列，分别是：通道号、通道类型、流程状态、主叫号码、声明电话号码、按键值。行数就是在初始化时检测到的可用通道数。行数和列数可以根据需要随时改动。定义了初始化函数，对行数、列数、通道号和通道类型进行设置。在流程状态中显示的内容，根据流程状态随时改动，这里采用C++的switch语句进行切换。

所述数据库存储模块700，用于在所述初始化模块的初始化模式下，将所述用户信息在主流程模块下的运行过程及结果进行存储。用2个类实现，一个用于建立数据库的连接并将数据存储到指定的数据库内，一个用于存储用户信息及其使用过程的信息。用户信息类定义的成员变量为：

{

char m_szCallerID[32]；//主叫号码

char m_szMobileCode[32]；//声明电话号码

char m_szType[10]；//建模、认证、试认证、录音

float m_fScore；//识别得分，建模时为0

char m_szResult[10]；//通过、未通过

char m_szStartDate[18]；//开始时间

char m_szWaveFile[300]；//文件存放的地址

}

用户信息类定义的成员函数为：每个成员变量值的获取函数和设置函数，每个函数名命名为相应的成员变量名。由于这些函数只是文件名不同，实现的功能是相同的，采用定义一个函数宏实现。若改变实现功能只须改变函数宏，就可以将所有的成员函数改变。电话声纹密码系统将这部分数据是存放在服务器的SQL Server数据库表单中。根据需要存储的数据信息，本系统建立的表单结构为：

列名	数据类型	长度
列名	数据类型	长度	ID	int	4
StartDate	datetime	8	ID	int	4
StartDate	datetime	8	CallerID	char	32
MobileID	char	32	CallerID	char	32
MobileID	char	32	Type	char	10
WaveFile	char	300	Type	char	10
WaveFile	char	300	Score	float	8
Result	char	10	Score	float	8

其中，ID是主键，系统自动增加；StartDate是服务的开始时间；CallerID是呼入的电话号码；MobileID用户声明号码(即用户ID)；Type是用户进行操作的类型，有建模、认证、试认证和录音四种；WaveFile是语音文件存放的路径；Score是认证得分；Result是认证结果。声纹识别系统中，采用ADO技术访问SQL Server数据库中的表单，实现表单中记录的追加。

所述磁盘文件存储模块800，用于存储所述声纹处理接口模块处理的结果及将所述声纹处理接口模块确认的合法用户的信息进行分类存储。把系统运行的结果存储到指定的磁盘上，包括将建模成功的模型文件和认证时的语音文件存储在指定的地址上，在进行认证过程中，从指定的模型文件集合中，读取用户的模型文件。为了便于查询，在文件命名上进行了规定。模型文件以用户使用时申明的号码(用户ID)命名；在建模和认证阶段的录音文件的命名中，体现了用户ID和用户使用的时刻。

结合图1及图2对本发明原理作一详细的说明：所述的声纹识别模块是采用高斯混合模型-通用背景模型(GMM-UBM)系统，使说话人训练语音覆盖到的发音情况，用说话人自己的语音建模，未覆盖到的发音情况可以用说话人无关的特征分布近似，所以，声纹识别模块把当前用户的语音提通过系统已经建立好的通用背景模型(UBM)，GZ_FEMALE_UBM.ubm、GZ_TOTAL_UBM.ubm和GZ_MALE_UBM.ubm，取出用户声纹模型，再与数据库存储模块中保存的合法用户模型进行比对，给出一个评分值，判断是否高于阈值，以判断是否为合法用户，使用流程简便，避免因通信信道的不同而对话音辨别的影响。对采集的用户语音进行检测，通过所述的有效音和静音检测模块对背景噪音进行排除，增加了声音识别的准确率。若用户需办理远程业务时，如业务中止、业务恢复、费用查询、帐户转帐、信用卡授权等等各类的授权服务时，可采用所述声纹识别系统，而不用到各个业务点办理，也不需要输入繁琐的认证信息，流程简单，使用便捷可靠。

本发明声纹识别方法及系统所涉及的执行具体功能的具体模块的控制连接原理均为本领域普通技术人员所悉知，在此不再做详细的说明。

以上所揭露的仅为本发明的优选实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明申请专利范围所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于通信系统的声纹识别方法，其特征在于，包括如下步骤：

(a)接受用户的语音信息；

(b)自动采集所述用户的语音信息以提取用户声纹信息，并将所述用户声纹信息保存作为所述用户的合法确认信息；

(c)将接收到的所述用户的语音信息与所述用户的合法确认信息进行比对，对所述比对做出一个评分值，并保存所述评分值；

(d)将所述比对评分值与设定好的阈值进行比对，得出所述用户是否为合法用户的结果；

(e)处理所述合法用户的授权业务。

2.如权利要求1所述的基于通信系统的声纹识别方法，其特征在于：在所述步骤(a)进一步包括：根据所述用户的语音信息判断所述用户是否为首次使用的步骤；

若是，执行所述步骤(b)；

否则，执行所述步骤(c)。

3.如权利要求1所述的基于通信系统的声纹识别方法，其特征在于：在执行所述步骤(a)之前还包括：

语音提示所述用户输入功能选择键确认选择“注册”或选择“登录”的步骤；

若选择“注册”，执行所述步骤(b)；

若选择“登陆”，则执行所述步骤(c)。

4.如权利要求1所述的基于通信系统的声纹识别方法，其特征在于：所述步骤(c)之前进一步包括：将所述接收到的用户的语音信息进行保存的步骤。

5.如权利要求1所述的基于通信系统的声纹识别方法，其特征在于：在所述执行步骤(d)进一步包括：

若评分值大于或等于所述阈值，则所述用户为合法用户，继续执行步骤(e)；否则，所述用户为非法用户，则执行步骤(a)。

6.如权利要求1所述的基于通信系统的声纹识别方法，其特征在于：所述步骤(e)之前进一步包括：在一限定时间内对所述用户做出为非法用户次数达到限定次数时，则在所述限定时间内拒绝为所述用户提供授权业务。

7.如权利要求1所述的基于通信系统的声纹识别方法，其特征在于：所述步骤(a)之前进一步包括如下步骤：

(a01)提示用户输入语音信息，执行步骤(a02)；

(a02)所述用户输入语音信息，执行步骤(a03)；

(a03)对所述用户语音信息是否为静音进行检测；若是，执行步骤(a01)；否则，则执行步骤(a04)；

(a04)对所述用户的有效音长度是否符合要求进行检测；若符合，则执行所述步骤(a)；否则，执行步骤(a01)，同时提示用户语音信息的有效音长度不符合要求。

8.一种基于通信系统的声纹识别系统，其特征在于：包括初始化模块、界面显示模块、主流程模块、语音卡编程接口模块、数据库存储模块、声纹处理接口模块及磁盘文件存储模块；

所述界面显示模块，用于显示各个执行操作及工作状况；所述初始化模块，用于定义所述界面显示模块、主流程模块、数据库存储模块、声纹处理接口模块及磁盘文件存储模块为初始化模式；

9.如权利要求8所述的基于通信的声纹识别系统，其特征在于：所述的声纹处理接口模块还包括可在提取用户语音时屏蔽背景噪音、并且能提取不同通信信道的语音的训练模型。

10.如权利要求9所述的基于通信系统的声纹识别系统，其特征在于：所述的训练模型采用高斯混合模型-通用背景模型系统。

11.如权利要求8所述的基于通信系统的声纹识别系统，其特征在于：还包括有效音和静音检测模块，用于在所述初始化模块的初始化模式下，将语音卡编程接口模块接收到的用户语音信息在主流程模块的引导下进行静音和有效音长度的检测。

12.如权利要求8所述的基于通信系统的声纹识别系统，其特征在于：所述的声纹处理接口模块包括声纹建模模块及声纹识别模块；

所述声纹建模模块，用于对用户语音信息建立合法用户模型和根据用户语音特点提取声纹模型；

所述声纹识别模块，用于对当前用户输入的语音信息与用户存储在所述磁盘文件存储模块中的合法确认信息进行比对，并对所述比对得出一个评分值，将所述评分值与设定的阈值进行比较，从而判断当前用户是否为合法用户。

13.如权利要求8所述的基于通信系统的声纹识别系统，其特征在于：所述界面显示模块为表格模式，分为通道号、通道类型、流程状态、主叫号码、声明电话号码及按键值六列通道，行数为在所述初始化模块初始化下检测到的所述通道的通道数。