CN1308911C

CN1308911C - 一种说话者身份识别方法和系统

Info

Publication number: CN1308911C
Application number: CNB031415113A
Authority: CN
Inventors: 吴田平
Original assignee: SHANGHAI YEURON INFORMATION TECHNOLOGY Co Ltd
Current assignee: Youlang Information Science and Technology Co., Ltd., Shanghai
Priority date: 2003-07-10
Filing date: 2003-07-10
Publication date: 2007-04-04
Anticipated expiration: 2023-07-10
Also published as: CN1567431A

Abstract

一种说话者身份识别方法和系统，其系统由语音接收设备，语音获取模块，语音编辑、预处理模块，说话人训练、识别模块和后台数据库构成，其特征在于所述的语音接收设备接收被识别人的声音信号，所述的语音获取模块可以将接收到的语音形成语音文件并有秩序地存储起来，所述的语音编辑、预处理模块对语音文件进行处理、语音分析处理，并输出语音的微特征参数，所述的识别模块依靠训练生成的声纹模板、神经网络算法、以及语音预处理芯片处理得到的说话人语音微特征参数识别出说话人。本发明具有仿生性、增量式训练、可学习性、识别双向通话、强分辨能力和识别率、强鲁棒性、识别速度快、非语音信号过滤等特点。

Description

一种说话者身份识别方法和系统

技术领域：

本发明涉及语音识别技术，尤其涉及一种语音识别技术系统，特别是一种说话者身份识别方法。

背景技术：

说话者身份识别是一种非接触的识别技术，它的应用领域包括银行、证券、公安司法、保安、证件防伪、信息咨询等领域。

目前的说话者身份识别技术，其核心是建立在对随机过程进行统计的隐含马尔可夫(Hidden Markov Model，HMM)模型基础上，说到底其本质是一种非常技巧化的模式匹配方法，是一种基于概率统计过程的模式匹配方法。而这种方法，绝对不是人类大脑对外界环境包括语音和视觉图像进行感知和理解所采用的方法。在应用上，传统的说话者身份识别技术存在以下几个方法严重的缺陷：

1.双向通话问题

传统技术必须对一个相对固定长度的语音进行特征提取，然后对这样一个特征序列进行训练和识别。这不仅与人脑的感知不同(人脑是在当前语音输入下对说话人的即时感知)，而且对应用不利。比如，两个人在对话状态下就不能对目标对象进行感知。

2.可学习性问题

与不能处理双向通话问题一样，由于传统技术必须对一个相对固定长度的语音进行特征提取，然后对这样一个特征序列进行训练。无法随着样本的增加而使识别率提高。实际上，由于语音信号的动态性、复杂性和多变性，一段有限长度的语音特征并不能准确地表征一个说话人的个性特征。

3.识别率和分辨度低

识别率是指准确识别目标对象的概率，而分辨度是指对目标对象和非目标对象之间的区分能力。显然，分辨度高的情况下一般识别率也高。但是，传统技术的识别率和分辨度都很低。原因在于两个方面。首先，传统方法提取的特征不仅数目少，而且刚性强，柔性小，使得鲁棒性低；其次，基于概率统计的识别模型，各输出之间的差别非常小，使得难以达到非常高的分辨度，从而使识别率低，特别是从闭集训练空间扩展到开集识别空间后，虚识率就会非常高。

发明内容：

本发明为解决已有技术中的上述技术问题所采用的技术方案是：提供一种改进的说话者身份识别方法和实现这一方法的系统，所述的这种说话者身份识别方法及其系统由语音接收设备、语音获取模块、语音编辑和预处理模块、说话人训练和识别模块以及后台数据库构成，其特征在于：

A、所述的语音接收设备接收被识别人的声音信号，并把声音信号传送至所述的语音获取模块，所述的语音获取模块由高速数据采集机构成，所述的语音获取模块可以将接收到的语音形成语音文件，并有秩序地存储起来以用于所述的语音编辑和预处理模块的后续处理，所述的语音编辑和预处理模块由语音编辑器和语音信号预处理芯片构成，所述的语音编辑器对语音文件进行处理，并输出编辑后的语音，所述的语音信号预处理芯片对语音文件进行语音信号的语音分析处理，并输出语音的微特征参数，所述的语音信号预处理芯片进一步将语音信息传递给所述的说话者训练和识别模块，所述的说话者训练和识别模块由声纹训练机和声纹识别机构成，所述的声纹训练机接收所述的语音编辑器及所述的语音信号预处理芯片的处理结果，对语音样本进行训练，形成说话人的独有声纹编码，所述的声纹识别机利用训练生成的声纹模板、神经网络算法、以及语音信号预处理芯片处理得到的说话人语音微特征参数识别出说话人；

B、训练机训练过程包含建立说话者训练样本、首轮训练、识别测试样本重复训练、再次训练、计算标准丰度和计算识别阈值六个步骤；

C、识别机接受或者拒绝说话者的方法是，识别机识别语音时只要在一个识别窗口内输出丰度达到识别阈值就接受说话者，否则拒绝说话者。

所述的训练机建立的说话者训练样本包括公共反相样本库、说话者原始正相样本库、说话者初始正相样本、说话者初始反相样本、说话者新增正相样本、说话者新增反相样本；所述的公共反相样本库存放不同人的语音文件，说话者原始正相样本库存放未经编辑的说话者语音文件，说话者初始正相样本是去掉非语音信号的说话者语音文件，并且每个语音文件长度限制在标准长度内，说话者初始反相样本是公共反相样本的子集，说话者新增正相样本是被拒识的说话者语音文件，说话者新增反相样本是被误识的说话者语音文件；所述的训练机的首次训练是从说话者的初始反相样本中随机选取一定数量的语音文件，加上说话者的正相样本共同训练形成声纹模板，再用生成的声纹模板识别未参与训练的说话者初始反相样本，从说话者初始反相样本中去除输出丰度较低的反相样本；所述的训练机的识别测试样本重复训练是在首次训练后，用训练生成的说话者声纹模板识别正相测试样本集和反相测试样本集，其中正相测试样本集是仅包含说话者语音的文件集，反相测试样本集是未参与训练、不包含说话者语音的文件集，识别后计算正识和误识情况，如果满足要求则说话者训练结束，如果正识率低，则将输出丰度低的说话者语音文件加入到说话者初始正相样本中，如果误识率高，则将输出丰度高的非说话者语音文件加入到说话者初始反相样本中；并训练生成声纹模板；所述训练机的再次训练是将识别系统在实际应用过程中发现的拒识语音文件补充到说话者新增正相样本中，或将误识的语音文件补充到说话者的新增反相样本中进行再训练，重新生成声纹模板；所述的输出丰度是在一定时间长度范围内声纹模板对语音特征识别输出值累加之和，并换算为单位秒，对输出值累加的整个时间长度范围称为识别窗口；所述训练机的设定识别阈值的计算方法是：识别阈值＝标准丰度×阈值系数，其中标准丰度是说话者所有原始正相样本的单位识别窗口内的最大输出丰度的平均值，阈值系数是0到1之间的数值，通过调整阈值系数可以得到不同正识、误识识别效果；所述的识别机接受或者拒绝说话者的方法是，是识别机用说话者声纹模板扫描整个语音文件，并连续而平滑地移动识别窗口，只要在一个识别窗口内其输出丰度达到识别阈值就接受说话者，否则拒绝说话者。

本发明与已有技术相对照，效果是积极且明显的。本发明一种说话者身份识别方法借鉴或模仿了人类神经系统对语音和说话人的感知思想，它是从一个全方位的角度去“感知”相应的说话人，而不是建立在对一些固定参数的比较。通过人工神经系统的感知过程，本发明的说话者身份识别技术可以对一个动态的、复杂的频谱分布轨迹进行综合的评价，从而映射到所训练过的对象输出。这种方法，其最大的优点就是可学习性。像人类的学习过程一样，可以通过不断地补充样本来提高识别的性能。这一点非常重要。总得来说，本发明具有仿生性、增量式训练、可学习性、识别双向通话、强分辨能力和识别率、强鲁棒性、识别速度快、非语音信号过滤等特点。

本发明的目的、特征及优点将通过实施例结合附图进行详细说明。

附图说明：

图1是本发明一种说话者身份识别方法的一个优选实施例的功能模块示意图。

图2是本发明一种说话者身份识别方法的一个优选实施例的各模块逻辑关系示意图。

图3是本发明一种说话者身份识别方法的语音获取模块的一个优选实施例的实现示意图。

图4是本发明一种说话者身份识别方法的一个优选实施例的声纹训练原理示意图。

图5是本发明一种说话者身份识别方法的一个优选实施例的声纹训练流程示意图。

图6是本发明一种说话者身份识别方法的一个优选实施例的识别原理示意图。

图7是本发明一种说话者身份识别方法的一个优选实施例的识别技术示意图。

图8是本发明一种说话者身份识别方法的一个优选实施例的声纹训练、识别总流程图。

具体实施方式：

如图1、图2所示，本发明一种说话者身份识别方法，所述的这种说话者身份识别方法，其系统由语音接收设备1，语音获取模块2，语音编辑和预处理模块3，说话者训练和识别模块4和后台数据库构成，其特征在于所述的语音接收设备1接收被识别人的声音信号，并把声音信号传送至所述的语音获取模块2，所述的语音获取模块2由高速数据采集机21构成，所述的语音获取模块2可以将接收到的语音形成语音文件并有秩序地存储起来以用于所述的语音编辑和预处理模块3的后续处理，所述的语音编辑和预处理模块3由语音编辑器31和语音信号预处理芯片32构成，所述的语音编辑器31对语音文件进行处理，并输出编辑后的语音，所述的语音信号预处理芯片32对语音文件进行语音信号的语音分析处理，并输出语音的微特征参数，所述的语音信号预处理芯片32进一步将语音信息传递给所述的识别模块4，所述的说话者训练和识别模块4由声纹训练机41和声纹识别机42构成，所述的声纹训练机41接收所述的语音编辑器31及所述的语音信号预处理芯片32的处理结果，对语音样本进行训练，形成说话人的独有声纹编码，所述的声纹识别机42利用训练生成的声纹模板、神经网络算法、以及语音信号预处理芯片处理得到的说话人语音微特征参数识别出说话人。

本发明的工作原理及实现过程结合图3、图4、图5、图6、图7和图8如下所述：

在语音接收模块中可以划分为两种语音来源，一种是一般的语音接收设备，如话筒等，接收设备直接将接收到的语音流传给系统的其它部件，如语音编辑和预处理模块等；另一种是高速数据采集机HDC(High Data Collection，HDC)，它以硬件解码方式，通过信令分析将每路电话的语音数据按语音流文件模式存储每台HDC内，同时以文本方式记录该通话话单的相关信息，以备说话者身份识别机使用。本发明的优选实施例说话者身份识别系统选用同时有9台HDC机实时地获取新的话单，当然可以根据需要增加或减少HDC机的数目，但是只有一台电脑在进行识别。

语音识别系统和语音话单输入处理系统及后台数据库系统采用配置文件和从共享目录获取话单语音文件的方式进行协同工作。配置文件是纯文本文件，每一行表示一个摘机或挂机信号，并记录此摘机或挂机记录的其它相关信息，如开始时间，结束时间，文件名，文件存储路径等等，因此此配置文件可被称为相关信息文件。

语音编辑和预处理模块包括语音编辑器和语音预处理芯片两个模块，参见图2语音编辑和预处理模块及与其它模块的关系图。其中语音编辑器主要对原始的语音文件进行编辑、分割、转换等，由它编辑好的语音文件成为训练样本，供说话人声纹训练前的语音预处理使用。语音信号预处理芯片是做说话人声纹训练、识别前的语音分析和声纹特征提取，语音来源是训练样本或采集到的语音文件，语音信号预处理芯片的输出为声纹特征，以供说话人声纹训练或识别使用。

下面对语音编辑器和语音预处理芯片做详细介绍。

一、语音编辑器

语音编辑器是一个语音编辑和处理的软件，可进行语音查看、编辑、分割、转换等操作。程序支持的格式有三种：

1.wav格式。支持单双声道，支持声卡所能达到的所有频率，支持8位、16位。

2.raw格式。即A-Law格式。

3.rav格式。此格式是语音编辑器所支持的内部格式，它是在A律格式的数据前加上头部信息所组成的，特点是既有头部信息又保持raw文件的压缩性。

除了上述一般操作之外，还有以下特殊功能：

1.支持毫秒级的精确编辑

2.对语音数据进行采样频率、声道数和采样位数的转化。

3.具有录放功能，可以进行的循环、快进、快退等特效播放。

4.可以进行倒转、反向、静默等特效编辑，也可以生成静默。

5.可以对文件进行单个或者批量分割。分割时可以输入要分割的块数或者每块的时长进行分割。

6.A-Law格式的文件单个或者批量转换为wav格式(解压缩)或者rav格式(不解压缩)的文件。并有可选表示式。

对象原始语音经过处理后，就可以加入到训练样本集中作为训练样本。从系统要求上说，只需要规定训练样本集的根目录，所有训练样本集的样本只要位于训练样本集根目录或其下的子目录都可以。为了维护方便，可以每一个对象的语音样本存放在一个独立的子目录中，当需要增加或删除一个对象的语音样本时，只需要拷入或移去相应的子目录就可以了。根目录和每一个子目录名都可以任意命名。以下是各个目录建立的方法：

1.原始正相样本库的建立和维护

每一个训练对象都应有一个独立的原始正相样本库，该库也是由用户手工维护。其中的文件都是原始的A率编码的RAW格式文件。其文件名直接采用机器(HDC)生成的原始文件名，而且整个语音文件不作任何处理。

原始正相样本库的样本来自：(1)初始的原始正相样本；(2)新增的原始正相样本。初始原始正相样本称为“种子”原始样本，也就是未经语音编辑器编辑的“种子”样本，这些样本由系统功能以外的途径得到。而新增的原始正相样本由系统识别之后，再经人工判别后得到。

保留原始正相样本的目的在于：用于系统自动更新标准丰度，从而可以确定识别阈值；记录每个正相样本的来源，方便事后对正相样本正确性的复查。

2.公共反相样本库的建立和维护

当系统中存在的对象语音样本数目较多时，不同对象之间的样本可以作为反相样本，但是如果系统中存在的对象数目较少时，必须需要额外的反相样本，这就是公共反相样本。公共反相样本库在系统训练前建立，包括30～100个反相样本，每个样本的长度为标准样本长度(缺省是30秒)。公共反相样本库应该包括系统常见的信号，如不同人的正常语音信号。由于系统采用了非语音信号过滤技术，因此，非语音信号，如传真音、拨号音、忙音、占线音、上网音则不必加到公共反相样本中。公共反相样本的编辑、剪切、转换和附加标签利用系统提供的语音编辑器操作完成，标签统一使用“unknown”或“null”，文件的后缀名统一是“.rav”(RAV格式)。公共反相样本的维护也是由用户人工操作。

3.训练样本集的建立和维护

根据前面介绍，训练样本集包括4个子目录，分别是：初始正相样本子目录、新增正相样本子目录、初始反相样本子目录、新增反相样本子目录，缺省的具体名称是：ini-pos，new-pos，ini-neg，new-neg。各子目录的建立和维护见下。

4.初始正相样本：

根据前面的介绍，得到“种子”原始样本后(未经语音编辑器编辑的样本)，利用系统提供的语音编辑工具进行手工处理，主要包括：①去掉非对象的语音信号，如传真音、拨号音、忙音、占线音、上网音则不必加到公共反相样本中。；②转化为RAV格式；③附加对象的标签。④将单个文件切割为多个文件，每个文件的长度(近似)为标准长度(目前采用30秒，但可以取其它值)；⑤每个切割好的文件存放在该对象的训练样本集下的初始正相样本子目录中，这些处理的样本就是“种子”样本。许多情况下，“种子”样本可能只有1个，但是要求“种子”样本的总长度最好在30秒以上。

5.新增正相样本：

新增正相样本的来源(也就是所对应的原始正相样本)是：系统识别中标后，并且通过人工听辩处理确定为“正识”的语音样本，具体过程参见“说话人声纹训练、识别模块”部分。对这些样本的编辑处理和命名原则与初始正相样本相同。

6.初始反相样本：

初始反相样本是公共反相样本的子集。在系统得到初始正相样本(也就是种子样本)后，首先需要确定初始反相样本。此时新增反相样本和新增正相样本为空。用户首先将公共反相样本全部复制到该对象的初始反相样本子目录中，然后启动系统的“筛选反相样本”功能，系统将自动确定该对象的初始反相样本，它是公共反相样本的一个子集，系统将自动删除不需要的反相样本。这一个过程在训练机上完成。在同一时间系统只允许单个对象被训练，不允许同时训练两个以上的对象。

7.新增反相样本：

新增反相样本的来源(也就是所对应的原始语音文件)是：系统识别中标后，并且通过人工听辩处理确定为“虚识”的语音样本。

一个判定为虚识的语音样本可以添加到新增反相样本中，并进行重新训练。在训练机上，首先确定训练对象设置为所指定的对象，然后，启动系统的“新增反相样本”功能后选择这个虚识的语音样本，系统将自动将这个虚识的反相样本添加到新增反相样本库中(在添加过程中，系统将自动进行剪切、格式转换和添加标签等操作)。之后，用户可以重新训练该对象，也可以等以后积累更多的新增样本后再训练。

新增反相样本的文件名就是原始的文件名，其标签是“unknown”。

二、语音预处理

语音预处理是说话者身份识别的前提和基础，只有分析出可表示语音信号本质特征的参数，才有可能利用这些参数进行高效的说话者身份识别。本发明的优选实施例采用专门的语音信号预处理芯片对语音文件进行语音信号分析。

语音信号预处理芯片主要完成以下任务：

1.语音信号的数字化

2.语音的信号分析与特征参数提取

其中语音信号的数字化执行的任务包括放大及增益控制、预虑波、采样、A/D变换及编码，具体过程如下：

1.放大及增益控制：将语音信号适当增大，以便于之后的其它信号处理。

2.预虑波：预虑波的目的是(1)抑制输入信号各频域分量中频率超出f_s/2的所有分量(f_s为采样频率)，以防止混叠干扰。

(2)抑制50Hz的电源工频干扰。这样，预虑波必须是一个带通虑波器，其上下截止频率分别是f_H和f_L，一般可取f_H＝3400Hz，f_L＝60～100Hz，采样率为f_s＝8kHz。

3.语音信号经预虑波和采样后，有A/D变换器变换为二进制数字码。A/D变换器分为线性和非线性两类。目前采用的线性A/D变换器多为12位的，而非线性A/D变换器则多为8位的，它与12位线性变换器等效。

语音信号的信号分析与特征参数提取执行的任务包括，预加重、加窗、分帧、倒谱分析等，具体过程如下：

1.预加重

由于语音信号的平均功率谱受声门激励和口鼻辐射影响，高频端大约在800Hz以上按6dB/倍频程跌落，即6dB/oct(2倍频)或20dB/dec(10倍频)，所以求语音信号频谱时，频率越高相应的成分越小，为此要在预处理中进行预加重处理。预加重的目的在于提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，以便于频谱分析。具体方法是用具有6dB、倍频程的提升高频特性的预加重数字虑波器来实现，一般为一阶数字虑波器。

进行预加重数字虑波处理后，接下来要进行加窗和分帧处理。

2.加帧

一般每秒的帧数约为33～100帧，视实际情况而定。分帧虽然可以采用连续分段的方法，但一般要采用交叠分段的方法，这样可以使帧与帧之间平滑过度，保持其连续性。前一帧与后一帧的交叠部分称为帧移，帧移与帧长比值一般取为0～1/2。分帧的实现是用可移动的有限长度窗口进行加权，即用一定的窗函数w(n)来乘s(n)从而形成加窗语音信号：s_w(n)＝s(n)*w(n)

3.加窗

在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等，为了避免倒谱中的基音峰变得不清晰甚至消失，本优选实施例采用汉明窗，汉明窗窗口函数为：

经过上面介绍的过程，语音信号就被分割成一帧一帧的加过窗函数的短信号，在进行处理时，按帧从数据区中取出数据，处理完成后再取下一帧，最后得到由每一帧组成参数组成的语音特征参数的时间序列。

4.语音特征参数提取

语音的特征参数是以帧为单位的，每个帧皆可求出一组特征参数。语音特征参数的选择是整个说话者身份识别系统的基础，对说话者身份识别率有着极其重要的影响，目前较为常用的特征参数包括线性预测倒谱系数(Linear Prediction Cepstrum Coefficient，简写为LPCC)与Mel倒谱系数(Mel-Frequency Cepstrum Coefficient，简写为MFCC)等。前者是在利用线性预测编码(LPC)技术求倒谱系数；后者则直接通过离散傅利叶变换(DFT)求倒谱系数。由于MFCC参数将线性频标转化为Mel频标，强调了语音的低频信息，从而突出了有利于识别的信息，屏蔽了噪声的干扰，具有优良识别能力和抗噪性能，因此本发明的优选实施例采用MFCC参数。计算MFCC参数的大致步骤为：

(1)作快速傅利叶变换(FFT)，获得频谱分布信息。

(2)将频域信号通过按Mel频标分布排列的三角滤波器组，即将线性频标变换为Mel频标。

(3)然后将三角滤波器的输出经离散余弦变换(DCT)由(2)变换到倒谱域。

C_{k} = \overset{N}{Σ} \log (Y_{j}) \cos [k (j - 1 / 2) π / N], k = 1,2, . . ., P - - - (2)

式中P为MFCC参数的阶数，一般可在8至14间选择，N为三角滤波器个数，Y_j为第j个三角滤波器的输出{C_k}_{k＝1，2，...，P}即为所求的MFCC参数。本发明的优选实施例为每帧信号计算出16阶的MFCC系数，以此作为说话人训练或识别的特征参数。

三、说话人声纹训练、识别模块

(一)训练机

说话者身份识别系统的主要有两种工作状态，分别为训练和识别两个过程。所谓训练过程，就是利用对象的语音样本(正相样本)和非对象的语音样本(反相样本)来分割这样一个多维的频谱空间，使得对象语音样本所占据的频谱空间被映射到对象的输出，而非对象语音样本所占据的频谱空间被映射到非对象的输出，也就是将对象和其语音在频谱空间的分布区域建立关联。从数学模型上说，就是利用这些语音训练样本来调整一个复杂的神经网络权值，使得对象的语音样本映射到对象的激励输出，非对象的语音样本映射到对象的抑制输出。训练原理的示意图如图4所示，某对象A的语音，经语音特征参数提取，根据特征参数值调整权值使对象A的输出受到激励，同时使非对象A的输出受到抑制，之后得到对象A的输出和非对象A的输出。

当某个对象的正相样本语音编辑器编辑好以后，就可以通过训练机对对象进行训练。具体的训练步骤如下，并参考图5的系统训练过程图示：

1.建立训练集根目录

建立一个空目录，此目录将作为训练对象样本集根目录(以下简称根目录)。

2.编辑和建立正相样本

将编辑好的正相样本复制或转移到训练集根目录或根目录的任意子目录中。正相样本的编辑要求是：(1)不能出现非对象的语音，非对象的语音应该被剪切掉；(2)每个样本的长度为训练样本标准长度。系统建议为30秒；(3)每个对象样本的标签必须和训练对象的标签完全一样，编辑的过程由语音编辑器31完成；

3.复制反相样本

从公共反相样本库中任意选择5～10个反相样本复制到根目录或任意子目录中，比如ini-neg子目录中。反相样本的编辑要求是：(1)不能出现对象的语音；(2)每个样本的长度为训练样本标准长度；(3)每个反相样本的标签必须和训练对象的标签不相同，建议对于反相样本的标签统一取“unknown”或“null”。编辑也由语音编辑器31完成。

4.设置训练对象

如果对象列表中还没有待训练对象，应该首先增加相应的对象标签。将此标签对应的对象设置为当前训练对象，并将训练集根目录参数设置为对应的根目录。

5.启动首轮训练

启动“筛选反相样本”功能，进行首轮训练。在首轮训练时，实际上采用的训练参数是：wfr＝0.95，rmax＝200。(“wfr”：权值因子衰减因子；“rmax”：训练轮回。对于初始训练，建议wfr＝0.95，rmax＝200；对于累加训练，建议wfr＝0.88，rmax＝50，或者wfr＝0.9，rmax＝75。)筛选反相样本实际上启动了两个过程：训练和过滤反相样本。在训练过程中，系统从训练样本集中随机地选取一定数目的反相样本进行训练，其数目等于运行参数中的“NegSeeds”(筛选反相样本时参与训练的反相样本数)。训练结束后，系统立即利用当前的声纹模板识别没有参与训练的反相样本，将其中输出较低的反相样本删除，留下输出较高的反相样本，这个筛选阈值等于“运行参数”中的“NegTh”(筛选反相样本或者新增反相样本的丰度阈值)，这个阈值采用的是丰度阈值，丰度阈值是每一个对象的相应识别阈值，可自由设定。通过调整识别阈值，用户可以针对对象的重要性来选择相应的正识率和虚识率。累加的窗口长度为丰度法识别窗口长度。

6.计算标准丰度

为当前训练的声纹模板计算标准丰度。计算标准丰度时选择的批量识别目录必须选择相应对象的原始正相样本目录。

识别阈值等于标准丰度乘阈值系数。阈值系数缺省为0.5，但是用户可以根据对象的识别策略(或者说对象的重要性)来调整。

7.识别测试样本

首轮训练好之后，在上线之前，应该批量识别测试样本。有两种测试样本，分别是正相测试样本集和反相测试样本集。正相测试样本集只包括对象的语音，用来测试该声纹模板的正识率，由于对象样本获取的困难(特别是对于新训练的对象)，正相样本测试集可能很少，甚至没有，但即使获取很容易，也不需要很多，一般在几个到几十个范围。

而反相测试样本不应该包括对象的语音，用来测试其虚识率。反相测试样本集最好大一些，一般在100到1000之间。

具体的识别策略如下：

利用该声纹模板批量识别这两个测试集，得到此时的正识率和虚识率，并将阈值系数调整到最佳识别效果。所谓最佳效果是指：根据批量识别结果，在调整阈值系数的情况下，最佳可以达到的识别效果。如果此时的最佳识别效果不满足用户的要求，如果正识率太低，那么就将输出最小的正相样本增加到训练样本集；而如果虚识率太高，那么就将输出最大的反相样本增加到训练样本集。建议每次只增加一至两个样本，并且以增加正相样本优先。对于增加到训练样本集的正相测试样本，应该从正相测试样本集转移到原始正相样本集。

对于某些新对象，正相样本可能非常少。这时应该尽量调低阈值系数，通过增加虚识率来提高正识率。待获取到新的正相样本后，将新的正相样本补充到训练集重新训练，几次之后可以将阈值系数调整到正常值。这一策略，特别对于希望采用某种来源的种子样本来获取不同来源的新语音时更应该如此。比如，种子样本来源手机，希望识别固定电话语音，由于手机频谱和固定电话频谱响应相差较大，开始时应该尽量降低阈值系数，来尽量保证可以获取固定电话信号。此时虚识样本可能较多，但是在实际应用中还是可以通过许多方法来克服这个问题。待获取到新的语音时进行补充训练，可以逐渐改善识别效果。

8.训练并重复识别测试样本

在增加训练样本后，需要进行再训练。此时只要启动“训练”功能，也就是正常的训练功能(另一种特殊的训练功能就是前述的筛选反相样本)。对于正常训练功能，建议采用的训练参数是：wfr＝0.88，rmax＝50；或者wfr＝0.9，rmax＝75。

重复6、7、8，直到正识率和虚识率达到用户要求。一般需要重复1到3次。

9.再训练

通过测试样本检验合格后，可以进行上线识别。对于新上线的识别对象，在开始的一段时间内，应该监控识别效果，如果识别效果不好，应及时将错误识别(包括漏识和虚识)的样本补充到训练样本集进行再训练。补充新的训练样本后，应重复6、7、

8，并将最后训练的声纹模板上线。

将虚识样本补充到训练样本集比较容易实现，系统也可以自动完成对样本的剪辑工作，而且训练后一般不需要再次重复6、7、8步；

但是将漏识样本新增为正相训练样本则比较复杂。首先，如果系统没有其它辅助方式进行比较，就根本无法知道是否有漏识。对于这种情况，系统只能根据对正相测试样本的识别结果来估计正识率；如果连正相测试样本都没有，那么就只能采用下面方法：尽量降低阈值系数到虚识率刚好可以接受的地步，直到获取了新的正相样本并建立了正相测试样本集。新增正相样本的第二个复杂的方面是：新增正相样本后，可能会带来虚识率的提高，因此，新增正相样本后，重复6、7、8步再补充反相训练样本是需要的；第三方面是：正相样本不能自动编辑，必须进行手工编辑，删除非对象语音信号。不过借助与系统配套语音编辑器，整个编辑过程非常快。

(二)识别机

说话人声纹被训练成功后，当有新的未知对象的语音样本进来时，首先得到新语音样本的频谱特征，使用这些新的频谱特征去同步激励所有待识别对象的输出，在正确训练的情况，这时只有目标对象的输出被激励，而所有非目标对象的输出被抑制，从而可以快速地识别出目标对象。这就是识别原理，如图6所示。

本发明的优选实施例的说话者身份识别技术具体由三个部分构成，分别由前端信号处理、多层聚类神经网络和单层感知机网络所组成。前端信号处理部分完成对输入语音信号的预处理并通过多种特征提取网络完成对语音信号特征的提取；建立在一种全新的神经网络算法基础上的多层聚类神经网络完成语音信号特征模糊动态集合的聚类；单层感知机网络完成已聚类的激励群到说话人的转换，实现激励群映射到说话人输出，如图7所示。

本发明的优选实施例有两种中标方法。一种称为识别肯定度，另一种称为识别丰度法。在介绍这两种中标方法以前，首先介绍输出丰度。

所谓输出丰度，是指在一定的长度范围内，所有正的或负的输出累加之和。正的输出累加之后是正相输出丰度，简称为输出丰度或丰度。而负的输出累加之后是反相输出丰度，简称反相丰度。因此通常所说的丰度是指正相丰度。所有的丰度值通过内部的换算机制其量纲被换算为单位秒，因此丰度值的单位是秒。对输出进行累加的这个长度范围被称为识别窗口。识别窗口单位也是秒。

识别肯定度被定义为：

(正相丰度-反相丰度)/(正相丰度+反相丰度)

显然，识别肯定度是一个在〔-1，+1〕范围之间的值。+1表明肯定是对象，而-1表明肯定不是对象，0表示不能肯定。

如果在一个识别窗口内，只包含单个说话人的语音，使用识别肯定度较为有效。但是如果包含两个人的语音，显然识别肯定度不能使用。这时只能采用丰度识别法。对于系统要处理双方通话的应用环境来说，虽然可以将来、去路语音分离，但由于回波的存在，这种分离并不能彻底，因此，只能采取识别丰度来确定目标对象。

假设为每个识别对象设定一个阈值，只要在任一个识别窗口内，相应对象的(正相)丰度达到阈值，就认为是该对象中标。这就是丰度识别法。其中识别窗长度被设定为一个固定的标准值，而不是整个文件长度。这就是局部丰度识别法。

局部丰度识别法可以理解为：在一段语音范围内，对象语音的存在的相对有效时间是否达到了一定的阈值。丰度的量纲是秒，其意义是某个识别对象的加权激励时间的总和。系统假定每帧的最大激励输出对于输出丰度的贡献是帧频率的倒数，假设帧频率是100/秒，则每帧最大输出的丰度是10毫秒，而最大输出的1/10则只有1毫秒，这就是加权的含义。将整个识别窗口内的每帧输出丰度累加得到了该窗口内的总输出丰度，它的含义可以理解为在这个窗口内该对象的有效语音长度。每个识别对象可以设定不同的丰度识别阈值，比如5秒，10秒等等。比如识别丰度阈值取10秒，其相应的意义表示在一个识别窗口内，如果某个识别对象出现的加权时间总和超过10秒(可理解为该对象的有效语音长度超过10秒)就认为该识别对象就是目标对象。

在考虑具体的识别窗口长度以前，我们先定义训练样本标准长度。这个标准长度缺省建议值为30秒。在语音文件的编辑处理中，应该将所有参与训练的正相样本和反相样本都剪切到(近似)标准长度。如果标准长度为30秒，也就是说应该将正相样本和反相样本都剪切到30秒左右的长度。其中单个人的反相样本应该只取其中一段，也就是说，假如某个语音文件作为反相样本，但是这个语音文件可能包括好几个标准长度，那么只取其中输出最大的一段作为反相样本(这个编辑处理将由系统自动完成)。

局部丰度法的窗长度是可变的，但是系统建议窗长度取语音训练文件的标准长度，缺省建议值是30秒。在识别过程中，系统扫描整个语音文件，并连续而平滑地移动识别窗口，只要在任一个窗口内其输出丰度达到中标的阈值，就认为是中标，系统就停止扫描，输出结果。因此有时可能并不需要扫描整个文件，而在开始的30秒范围内就被识别出是中标。如果文件不足一个窗长度，则按照一个窗长度来处理，而中标阈值并不改变。

为了确定某个识别对象的中标阈值，首先定义一个概念，称为标准丰度。

标准丰度＝所有原始正相样本的单位识别窗口内最大输出丰度的平均值

所谓原始正相样本，就是未经过编辑处理的正相样本，实际上就是包含双方通话语音信息(既包含训练对象也包含其它说话人的语音信息)的正相样本。而通常所说的正相样本是指已去掉非训练对象语音的样本。因此，所谓某个识别对象的标准丰度，也就是相应说话人的原始正相样本，在单位的窗长度范围内的平均输出丰度。

阈值＝标准丰度×阈值系数。

其中阈值系数是0到1之间的数值。阈值系数越大，阈值越接近标准丰度，系统的虚识率越低，但是正识率也可能降低；阈值系数越小，阈值越接近0，系统的虚识率越高，但是正识率也越高。因此，通过调整阈值系数，可以控制调节识别的效果。对于特别重要的对象，或者声纹模板与识别的语音环境有所区别时(比如利用固定电话语音识别手机语音)，建议取较低的阈值系数，以保证足够高的正识率；而对于不太重要的识别对象，则可以适当提供阈值系数。

系统缺省的阈值系数是0.5，也就是阈值等于标准丰度的50％，建议的取值范围是0.3～0.7。

说话者身份识别系统的结果输出包括中标文件的相关信息记录和中标语音文件本身。类似与语音识别系统与前台语音获取系统之间的信息交互过程。

整个说话人声纹训练和识别整体流程图如图8所示。

本发明的说话者身份识别方法具有仿生性、增量式训练、可学习性、识别双向通话、强分辨能力和识别率、强鲁棒性、识别速度快、非语音信号过滤等特点。

Claims

1、一种说话者身份识别方法，由语音接收设备、语音获取模块、语音编辑和预处理模块、说话者训练和识别模块以及后台数据库实现，其特征在于：

2、如权利要求1所述的一种说话者身份识别方法，其特征在于：所述的训练机建立的说话者训练样本包括公共反相样本库、说话者原始正相样本库、说话者初始正相样本、说话者初始反相样本、说话者新增正相样本、说话者新增反相样本；所述的公共反相样本库存放不同人的语音文件，说话者原始正相样本库存放未经编辑的说话者语音文件，说话者初始正相样本是去掉非语音信号的说话者语音文件，并且每个语音文件长度限制在标准长度内，说话者初始反相样本是公共反相样本的子集，说话者新增正相样本是被拒识的说话者语音文件，说话者新增反相样本是被误识的说话者语音文件；所述的训练机的首次训练是从说话者的初始反相样本中随机选取一定数量的语音文件，加上说话者的正相样本共同训练形成声纹模板，再用生成的声纹模板识别未参与训练的说话者初始反相样本，从说话者初始反相样本中去除输出丰度较低的反相样本；所述的训练机的识别测试样本重复训练是在首次训练后，用训练生成的说话者声纹模板识别正相测试样本集和反相测试样本集，其中正相测试样本集是仅包含说话者语音的文件集，反相测试样本集是未参与训练、不包含说话者语音的文件集，识别后计算正识和误识情况，如果满足要求则说话者训练结束，如果正识率低，则将输出丰度低的说话者语音文件加入到说话者初始正相样本中，如果误识率高，则将输出丰度高的非说话者语音文件加入到说话者初始反相样本中；并训练生成声纹模板；所述训练机的再次训练是将识别系统在实际应用过程中发现的拒识语音文件补充到说话者新增正相样本中，或将误识的语音文件补充到说话者的新增反相样本中进行再训练，重新生成声纹模板；所述的输出丰度是在一定时间长度范围内声纹模板对语音特征识别输出值累加之和，并换算为单位秒，对输出值累加的整个时间长度范围称为识别窗口；所述训练机的设定识别阈值的计算方法是：识别阈值＝标准丰度×阈值系数，其中标准丰度是说话者所有原始正相样本的单位识别窗口内的最大输出丰度的平均值，阈值系数是0到1之间的数值，通过调整阈值系数可以得到不同正识、误识识别效果；所述的识别机接受或者拒绝说话者的方法，是识别机用说话者声纹模板扫描整个语音信号特征，并连续而平滑地移动识别窗口，只要在一个识别窗口内其输出丰度达到识别阈值就接受说话者，否则拒绝说话者。