CN102194455A

CN102194455A - 一种与说话内容无关的声纹鉴别认证方法

Info

Publication number: CN102194455A
Application number: CN2010101260493A
Authority: CN
Inventors: 不公告发明人
Original assignee: BOSHIJIN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Current assignee: BOSHIJIN (BEIJING) INFORMATION TECHNOLOGY Co Ltd
Priority date: 2010-03-17
Filing date: 2010-03-17
Publication date: 2011-09-21

Abstract

本发明属于模式识别和身份认证技术领域，特别涉及通过人类声纹信息进行鉴别与认证的方法。本发明包括人类声纹信息的提取和处理，声纹特征信息的抗噪、抗信道干扰处理，个人声纹信息模型建立，个人声纹信息的检测与认证，声纹信息背景库建立及调整方法，似然得分投影方法。本发明具有鉴别认证准确率高、鉴别认证速度快、对声纹信号要求低等优点，可广泛应用于司法、公安、银行、国防等需要声纹鉴别、认证的部门和单位。

Description

一种与说话内容无关的声纹鉴别认证方法

技术领域

本发明为一种与说话内容无关的声纹鉴别认证方法，属于模式识别和身份认证技术领域。

背景技术

在已有的技术中，基于通用背景模型(Universal Background Model，以下简称UBM)的一种与说话内容无关的声纹鉴别认证(Voiceprint Identification Certification)方法，包括通用背景模型训练方法，样本声纹模型自适应方法，及检材声纹鉴别认证方法三个部分。

通用背景模型UBM训练方法：

(1)从大量说话人的声纹信号中提取出声纹特征，形成多个说话人的特征矢量序列；

(2)使用提取出的特征矢量序列训练出一个大型的、能够表征人类声纹信息的背景空间模型。方法是对所有说话人的声纹特征矢量采用某种聚类方法(如K-均值算法、EM算法)进行聚类，得到M个高斯分量，其中第m个高斯分布均值向量为μ_m，协方差矩阵为∑_m，第m个高斯分布聚类中涵盖的特征矢量数目占总体特征矢量数目的百分比称为ω_m，则通用背景模型可表征为：

UBM = {μ_{m}^{ubm}, Σ_{m}^{ubm}, ω_{m}^{ubm} | 1 \leq m \leq M} .

样本声纹模型自适应方法：

(1)从样本语音信号中提取出声纹信息特征，形成样本特征矢量序列；

(2)将通用背景模型UBM根据样本特征矢量序列，自适应调整成符合样本特性的样本模型，自适应方法可采用现有的自适应方法得到(如MAP自适应方法)，最终形成的样本声纹模型为

其与通用背景模型的高斯分量具有一一对应关系。

检材声纹鉴别认证方法：

(1)从待鉴别认证的检材语音中提取声纹信息特征，形成待鉴别认证的声纹特征矢量序列；

(2)将检材的声纹特征矢量序列与样本声纹模型比较，得到一个匹配平均得分，再与背景模型比较，得到另一个匹配平均得分，最终将前者得分减去后者得分即得到最终得分结果，根据得分的高低给出鉴别认证结果。

缺点：(1)声纹信息特征并不完全符合高斯分布，与高斯模型不够吻合；(2)高斯模型各高斯分量间正交性差，区分性不够强；(3)缺少信道补偿能力，抗噪、抗信道干扰能力有限；(4)结果得分为似然比得分，难于被认证人员理解和掌握。

发明内容

本发明的目的在于提山一种与说话内容无关的声纹鉴别认证方法(1)通过对声纹信息特征的高斯化处理方法，使特征和模型间吻合，并能克服部分噪声干扰；(2)通过使用集内、集外区分性分析方法，使模型各分量间更具区分性；(3)通过信道补偿方法，使信道干扰减轻；(4)使用非线性弯折投影方法，将似然比得分折算成更加符合认证需要的百分比形式。

本发明的一种与说话内容无关的声纹鉴别认证方法，包括以下步骤：

(1)从大量说话人的声纹信号中提取声纹特征信息，形成背景特征矢量序列；

(2)将背景特征矢量序列做短时高斯化处理；

(3)将处理后的背景特征矢量序列通过异质线性区分性分析方法得到区分性矩阵和最终背景特征矢量序列；

(4)将最终背景特征矢量序列聚类成M类高斯混合空间背景模型；

(5)从大量不同信道、不同说话人的声纹信号中提取声纹特征信息，形成信道背景特征矢量序列，并将该特征矢量序列做高斯化处理及区分性处理，再通过因子分析技术得到信道信息矩阵；

(6)从样本说话人声纹信号中提取其声纹特征信息，形成样本特征矢量序列，并通过短时高斯化处理、区分性矩阵处理得到最终样本特征矢量序列；

(7)将样本特征矢量序列通过自适应模型调整方法从高斯混合空间背景模型调整为含有其个性信息的样本说话人模型；

(8)从检材说话人声纹信号中提取其声纹特征信息，形成检材特征矢量序列，并通过短时高斯化处理、区分性矩阵处理得到最终检材特征矢量序列；

(9)将最终检材特征矢量序列通过信道背景矩阵和样本说话人模型，调整为符合样本信道特征的个人特征矢量序列；

(10)计算检材调整后的特征矢量序列与样本说话人模型、背景模型的平均似然比得分的差，作为结果得分；

(11)将结果得分通过分数投影方法映射成为概率分数作为最终认证结果返回；

上述方法中的(2)、(5)、(6)、(7)、(8)步骤中的特征高斯化处理，该方法包括以下步骤：

①建立长度为N的高斯表；

②对每一维特征取长度为N的特征矢量序列，计算N/2处特征值的排序值，按照排序值查找高斯表中的值作为新特征值；

③移动到下一个长度为N的特征矢量序列(每次移动1帧)，重复步骤(2)，直到所有特征矢量序列完成高斯化处理；

上述方法中的(3)、(5)、(6)、(8)中异质线性区分性分析及其相应特征矢量序列处理方法，该方法包括以下步骤：

①将背景特征矢量序列聚类成M类，并记录每帧特征所属类别；

②通过背景特征矢量序列和分类结果，计算类内矩阵W，和类间矩阵B；

③利用公式：

求解使得类内矩阵差异最小，类间矩阵差异最大的矩阵

④在求解样本和检材特征后，经过短时高斯化处理，然后均乘以该矩阵，得到最终特征矢量序列；

上述方法中的(5)、(9)中因子分析技术，该方法包括以下步骤：

①提取出大量不同信道、不同说话人的声纹信息特征，使用模型自适应方法(如MAP)将每个人在每个信道下的特征通过背景模型调整成个人模型(只需要均值)；

②提取出所有人所有信道下的模型均值，组成超向量矩阵S，计算其特征向量矩阵V；

③通过自适应模型调整方法从背景模型训练出样本的个人模型；

④将提取的样本声纹特征，通过特征向量矩阵V，使用ML或MAP准则，训练出符合样本信道信息的信道补偿因子；

⑤对提取出的检材声纹特征做信道信息补偿处理；

上述方法中的(11)中分数的非线性弯折技术，该方法包括以下步骤：

①通过背景模型训练集外大量语音数据测试，得到两类错误率的统计规律，获得符合要求的准确率所处的偏转点数值；

②利用偏转点数值，使用非线性弯折技术，对测试得分进行投影得到最终结果。

本发明提出的一种与说话内容无关的声纹鉴别认证方法，解决了声纹信息特征与模型间的不吻合问题，增强了模型本身的区分性能，加强了对噪声和信道干扰的抵抗能力，改变了得分的方式，使得认证更加易于理解和掌握。并且在该方法下，通过近2万次测试(使用经验阈值)，认证准确率从原有方法的87.63，提高到95.57。

附图说明

图1所示为本发明方法提出的一种与说话内容无关的声纹鉴别认证方法的系统流程结构图。

具体实施方式

本发明提出的一种与说话内容无关的声纹鉴别认证方法，首先从大量说话人的原始声纹信号中提取出声纹特征矢量序列；对特征矢量序列做高斯化处理；通过聚类算法将处理后声纹特征矢量序列聚类成通用背景模型；根据聚类信息，通过异质线性分析方法得到区分性矩阵；利用区分性矩阵调整通用背景模型；再从大量不同信道、不同说话人的声纹信号中提取出声纹特征矢量序列，使用因子分析方法得到信道信息矩阵；从样本声纹信号中提取出声纹特征矢量序列，经过高斯化处理后，再与乘以区分性矩阵，将最终得到的特征矢量序列通过模型自适应方法训练成符合样本个性信息的样本声纹模型；从检材声纹信号中提取声纹特征矢量序列，经过高斯化处理后，再与乘以区分性矩阵，而后根据信道信息矩阵和样本模型对特征矢量序列进一步补偿，得到最终处理后的检材声纹特征矢量序列；计算最终处理后的声纹特征矢量序列与样本模型和背景模型的平均匹配得分差；将该得分差送入非线性弯折投影方程，得到最终的分数结果返回。

以下介绍本发明的一个实施例。

本发明的与说话内容无关的声纹鉴别认证实施例包括区分性矩阵建立和背景模型训练，信道信息矩阵建立，样本模型构建，检材与样本模型和背景模型匹配计算及得分投影，说明如下：

本实施例的区分性矩阵建立和背景模型训练步骤包括：

取60名男性说话人声纹信号和60名女性说话人声纹信号，将每个人的声纹信号中的静音段去除，保留每人1分钟左右的声纹信号。

将所有人的声纹信号进行分帧、加窗处理，帧长为16毫秒，帧移为帧长一半，窗函数使用汉明窗，对每一帧信号提取其16维美尔倒谱系数(MFCC)，并通过计算其一阶、二阶差分，将特征扩展为48维，所有声纹帧特征组成特征矢量序列；

对每一维特征矢量序列进行高斯化处理，得到处理后的特征X；

对特征矢量序列进行聚类，根据聚类信息得到区分性矩阵

利用该矩阵得到新的特征矢量序列，

对特征矢量序列Y进行聚类，得到背景模型，

UBM = {μ_{m}^{ubm}, Σ_{m}^{ubm}, ω_{m}^{ubm} | 1 \leq m \leq M};

本实施例的信道信息矩阵建立步骤包括：

(1)取100名男性声纹信号和100名女性声纹信号，每个人均含有八段来自不同信道的声纹信号，将每个人、每个信道下的声纹信号做去静音处理，每段声纹信号最终为1到2分钟不等。

(2)将每段声纹信号进行分帧、加窗处理，帧长为16毫秒，帧移为帧长一半，窗函数使用汉明窗，对每一帧信号提取其16维美尔倒谱系数(MFCC)，对通过计算其一阶、二阶差分，将特征扩展为48维，得到每段声纹信号的声纹特征序列；

(3)对每段声纹信号的声纹特征序列做高斯化处理，得到其特征矢量序列X_i，j，其中i代表第i个说话人，j代表该说话人声纹信号来源信道。

(4)利用模型自适应方法，使用特征矢量序列X_i，j将背景模型均值调整为符合第i个说话人在其第j个信道下的模型均值S_i，j；

(5)将所有段声纹信号模型均值组合成超向量矩阵S；

(6)对矩阵

做特征分解，得到信道信息矩阵V，其中J为声纹信号段的数目；

本实施例的样本模型构建步骤包括：

(1)将样本声纹信号进行分帧、加窗处理，帧长为16毫秒，帧移为帧长一半，窗函数使用汉明窗，对每一帧信号提取其16维美尔倒谱系数(MFCC)，对通过计算其一阶、二阶差分，将特征扩展为48维，得到样本声纹特征矢量序列；

(2)对样本特征做高斯化处理后，再乘以区分性矩阵

得到最终的样本声纹特征序列；

(3)使用最终得到的样本声纹特征矢量序列使用模型自适应方法对背景模型进行调整，得到样本声纹模型

Samp = {μ_{m}^{samp}, Σ_{m}^{samp}, ω_{m}^{samp} | 1 \leq m \leq M};

本实施例的检材与样本模型和背景模型匹配计算及得分投影步骤包括：

(1)将检材声纹信号进行分帧、加窗处理，帧长为16毫秒，帧移为帧长一半，窗函数使用汉明窗，对每一帧信号提取其16维美尔倒谱系数(MFCC)，对通过计算其一阶、二阶差分，将特征扩展为48维，得到检材声纹特征矢量序列；

(2)对检材声纹特征矢量序列做高斯化处理，再乘以区分性矩阵

最后再通过信道信息补偿矩阵V对特征矢量做信道补偿，得到最终的检材声纹特征矢量序列；

(3)计算最终的检材声纹特征矢量序列与样本模型和背景模型的匹配得分差；

(4)对该得分差使用非线性弯折投影方法得到最终的得分结果供认证人员分析；

(5)声纹鉴别认证过程结束。

Claims

1.一种与说话内容无关的声纹鉴别认证方法，其特征在于该方法包括以下步骤：

(2)将背景特征矢量序列做规整处理，如去均值处(CMS)、短时高斯化(ShortTime Gausianization)、特征映射(Feature Mapping)等；

(3)将规整处理后的背景特征矢量序列通过特征分解技术，如主分量分析(PCA)、核-主分量分析(KPCA)、线性分量分析(LDA)、异质线性分量分析(HLDA)等，得到区分性分析矩阵和降维的最终的背景特征矢量序列；

(4)将最终的背景特征矢量序列聚类成M类高斯混合空间背景模型；

(5)从大量不同信道、不同说话人的语音信号中提取声纹特征信息，形成信道背景特征矢量序列，并将该特征矢量序列做规整处理及区分性处理，再通过因子分析技术得到信道信息背景矩阵；

(6)从样本说话人语音信号中提取其声纹特征信息，形成样本特征矢量序列，并通过规整处理、区分性处理得到最终样本特征矢量序列；

(8)从检材说话人语音信号中提取其声纹特征信息，形成检材特征矢量序列，并通过规整处理、区分性处理得到最终检材特征矢量序列；

(9)将最终检材特征矢量序列通过信道背景矩阵和样本说话人模型，调整为符合样本信道特性的特征矢量序列；

(10)计算调整后的检材特征矢量序列与样本说话人模型、背景模型的平均似然比得分的差，作为结果得分；

(11)将结果得分通过分数投影方法映射成为概率分数作为最终鉴别结果返回；

2.如权力要求1所述方法，其特征在于步骤(2)、(5)、(6)、(7)、(8)中的特征规整处理，以短时高斯化为例，该方法包括以下步骤：

(1)建立长度为N的高斯表；

(2)对每一维特征取长度为N的特征矢量序列，计算N/2处特征值的排序值，按照排序值查找高斯表中的值作为新特征值；

(3)移动到下一个长度为N的特征矢量序列(每次移动1帧)，重复步骤(2)，直到所有特征矢量序列完成高斯化处理；

3.如权力要求1所述方法，其特征在于步骤(3)中特征分解技术，以异质线性分量分析及其相应特征矢量序列处理方法为例，该方法包括以下步骤：

(1)将背景特征矢量序列聚类成M类，并记录每帧特征所属类别；

(2)通过背景特征矢量序列和分类结果，计算类内矩阵W，和类间矩阵B；

(3)利用公式：

求解使得类内矩阵差异最小，类间矩阵差异最大的特征矩阵

(4)在求解样本和检材特征后，经过特征规整处理，然后均乘以该矩阵，得到最终特征矢量序列；

4.如权力要求1所述方法，其特征在于步骤(5)、(9)中因子分析技术，该方法包括以下步骤：

(1)提取出大量不同信道、不同说话人的声纹信息特征，使用模型自适应方法(如MAP)将每个人在每个信道下的特征通过背景模型调整成个人模型(只需要均值向量)；

(2)提取出所有人所有信道下的模型均值，组成超向量矩阵S，计算其特征向量矩阵V；

(3)通过自适应模型调整方法从背景模型训练出样本的个人模型；

(4)将提取的样本声纹特征，通过特征向量矩阵V，使用ML或MAP准则，训练出符合样本信道信息的信道补偿因子；

(5)对提取出的检材声纹特征做信道信息补偿处理；

5.如权力要求1所述方法，其特征在于步骤(11)中分数的非线性投影技术，该方法包括以下步骤：

(1)通过背景模型训练集外大量语音数据测试，得到两类错误率(错误接受率和错误拒绝率)的统计规律；

(2)设计一种非线性弯折函数，依据(1)中得到的统计规律设计函数参数；

(3)将得到的似然得分通过弯折函数，得到相似性得分。