CN101923855A

CN101923855A - 文本无关的声纹识别系统

Info

Publication number: CN101923855A
Application number: CN2009100532017A
Authority: CN
Inventors: 王一强; 冯瑞; 金城; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2009-06-17
Filing date: 2009-06-17
Publication date: 2010-12-22

Abstract

本发明属语音信号处理领域，涉及一种文本无关的声纹识别方法和系统，首先使用语音采集设备采集用户客人语音信号作为系统的输入，并为该客人的声音特征建立一种较精确的声学模型，模型将被存储在语音特征库中；当待识别人进行声纹识别时，系统将使用采集到的语音信号作为输入，在语音特征库中进行声学模型的匹配计算，最终将与之最为匹配的模型编号返回，以此来确定说话人的具体身份。其文本无关和语言无关性，具有良好的易用性和推广价值；且识别效率高，结果准确。

Description

文本无关的声纹识别系统

技术领域

本发明属于语音信号处理领域，使用文本无关的说话人识别技术，在身份识别与验证领域具有广阔的应用前景。

背景技术

伴随着信息技术和网络技术的迅猛发展，人们对身份识别技术的需求越来越多，对其安全可靠性的要求也越来越严格。基于传统密码认证的身份识别技术在实际信息网络应用中已经暴露出许多不足之处，而基于生物特征辨别的身份识别技术近年来也日益成熟并在实际应用中展现出极大的优越性。其中，声纹识别技术被认为是一种新的更有效的身份识别技术之一。

声纹是指说话人语音频谱的信息图。由于每个人的发音器官不同，所发出来的声音及其音调各不相同，因此，声纹作为基本特征来实现人的身份识别具有实际的不可替代性和稳定性。声纹识别可以分为文本有关的说话人识别和文本无关的说话人识别两种：前者要求用户根据规定的内容发音，并根据发音的内容建立模型进行匹配，虽然这样可以使得匹配效果较好，但需要用户完全配合，灵活性和容错性欠佳；后者由于不限定用户的发音，所以要建立精确模型的难度较高，识别效果可能不如前者，但相比前者具有更好的适应性和实用性。

发明内容

基于对上述现有技术的分析，本发明的目的在于提出一个准确、高效的说话人识别方法，利用语音信号处理技术，采用语音特征提取算法，为说话人建立较精确的模型，从而构建一个文本无关的说话人声纹识别系统。

本发明的技术方案是：一种文本无关的声纹识别方法，对待识别人进行身份鉴别，其具体步骤如下：

步骤1：采集所述待识别人的语音作为输入信号；

步骤2：对所述输入信号进行预处理和特征值提取；

步骤3：使用特征信息流建立所述待识别人的声学模型；

步骤4：将所述声学模型与语音特征库中的全部声学模型进行匹配计算；

步骤5：将计算所得最为匹配的模型编号返回，以此来确定所述待识别人的具体身份；

其中步骤4中所述语音特征库中的声学模型是采用预先收录的用户客人的语音信号建立的声学模型，其建模步骤为：

步骤41：对所述客人进行语音模型训练，采集所述客人的连续语音作为输入信号；

步骤42：为所述客人的连续语音信号进行预处理并提出其特征值；

步骤43：对所述客人的语音特征建立一个较精确的声学模型；

步骤44：将所述客人的声学模型存储在语音特征库中。

所述语音特征包括分帧、预加重、加窗、快速傅里叶变换FFT、美尔能量和美尔频率倒谱系数MFCC；每个经过建模训练的用户客人都在语音特征库中关联一个相应的语音特征声学模型，并以文件的形式被存储在语音特征库中。

在进行训练建模或声纹识别的过程中，对客人或待识别人两种说话人所说的语言种类和语言内容没有限制和要求，即所述说话人可以使用任何种类的语言，并且内容不做限定。说话人在训练建模或声纹识别的过程中，语言的长短、音量的高低与声纹识别的准确度呈正比关系。

一种依据上述声纹识别方法建立的文本无关的声纹识别系统，包括语音采集设备、声纹识别计算机、人机交互界面及其运行软件；所述语音采集设备采集说话人的语音信号，传送至所述声纹识别计算机进行训练建模或识别匹配，并将建立的声学模型存储在硬盘的语音特征库中，将识别匹配的结果送往人机交互界面以确定说话人身份。

本发明文本无关的声纹识别方法和系统的优点是：(1)文本无关和语言无关性。识别结果不依赖说话人所讲的语言种类和具体内容，只依赖于个体的发音特性，具有良好的易用性和推广价值。(2)识别效率高，结果准确。通常情况下，系统仅需要若干秒的语音信号作为输入，这意味着被识别者仅需要说几个词或者简短的一句话即可，并且系统的识别速度很快，基本上可以在语音结束的同时给出识别结果，其识别精度可以达到相当高的水平，在某次测试实验中(测试人数20)，准确率达到了100％。

附图说明

图1是本发明文本无关的声纹识别方法及系统的人机交互界面；

图2是本发明文本无关的声纹识别方法及系统的流程图。

具体实施方式

本发明文本无关的声纹识别方法的具体实现方法和原理是：

首先针对用户集进行说话人模型训练，具体程序为：(1)由外围音频采集设备对用户的说话人语音信号进行采集；(2)对连续语音信号进行预处理并提出其特征值；(3)使用特征信息流建立该用户说话人的声学模型；(4)将该声学模型存储在语音特征库中。

然后针对当前待识别用户进行模型匹配和识别，具体程序为：(1)利用外围音频采集设备采集说话人的语音信号；(2)进行预处理和特征值提取；(3)使用特征信息流建立当前说话人的模型；(4)对比语音特征库的声学模型来判断当前说话人的身份。

下面结合附图对本发明文本无关的声纹识别方法及系统详细说明。

1、文本无关的声纹识别系统描述

本发明所实现的文本无关的说话人识别系统使用Java编程语言编写，具有可视化的人机交互界面(如附图1所示)，其基本功能包括：

1)向语音库中添加新的说话人

用户可以通过两种方法向语音库中添加新的说话人模型：1、直接通过麦克风采集说话人的语音进行训练；2、通过录制了说话人语音的wav格式文件进行训练。

2)删除语音库中已存在的说话人

用户可以删除指定说话人在语音库中的模型。如果该模型被删除，则识别结果中将不会再显示出系统判定为此说话人的概率值。

3)识别当前说话人的身份

当用户选择说话人身份识别时，系统将针对语音库中所有的说话人对象给出一个可信度列表，该列表反应了各个对象被判定为当前说话人的概率大小，并按降序排列。

4)确认当前说话人的声明身份

当用户选择说话人身份确认时，首先需要提供一个声明身份(可以在界面中的列表中选择)，系统将判断当前说话人的身份是否和声明身份一致，并以“接受身份”或“拒绝身份”的方式给出结果。

附图2所示的是本发明所实现的文本无关的说话人识别系统流程图。系统将语音信号通过若干处理过程，转换为特征模型，再通过特征模型的匹配，得到最终的识别结果。具体的处理流程将可以分为三个大的步骤：

1)语音信号采集

语音信号采集将声音的模拟信号转变为数字信号，通常使用麦克风作为采集设备。本发明中使用的采样参数如下：采样频率16000Hz，采样精度16bit，信号通道为单声道。

2)前期处理和特征提取

前期处理的目的是将连续的语音信号转化为分段的、可处理的语音帧；特征提取的过程是将大量语音帧转化为可以反映出语音段性质的特征向量。这两个过程都涉及到一系列子步骤，譬如分帧，加窗，预加重，FFT变换，MFCC特征提取等，子步骤的意义和方法将在下文加以详述。

3)模型训练或匹配

模型训练的目的是使用大量语音的特征向量来构建出说话人的发声特性，尽量使这个特性能够与其他人的区分开；模型匹配的目的就是将当前说话人的发声特性模型与已有的模型进行对照，从而找到与之最为匹配(或称相似)的模型，从而判断说话人的身份。

2、前期处理和特征提取的原理

前期处理和特征提取可以细分为以下6个步骤，其中所用到的原理如下：

1)分帧

分帧的目的是将连续语音信号划分为段，以便于计算和处理的单元。由于一般人的发声在20～30ms内是稳定的，即在20～30ms的时间内，声音的变化不大且比较有规律，故设定帧的长度为20ms左右。同时，帧和帧之间需保证一定的重叠(即帧移)，以减小由于强行划分导致信息损失的可能。本发明中使用的帧长为32ms，帧移为10ms。

2)预加重

由于语音信号的平均功率谱受声门激励和口鼻辐射的影响，大约在800Hz以上的高频部分按6dB/倍频程跌落，若不做预处理，则在计算语音信号的频谱信息时，频率越高的部分相应的比例就会比有效值低很多。因此，需要引入预加重过程，通过提升高频部分的信号幅度，使信号的频谱变得相对平坦，保持在低频到高频的整个频带中，各个频带的信噪比一致，以便进行有效的频谱分析或声道参数分析。其公式如下(其中参数a＝0.97)：

S₂(n)＝S(n)-aS(n-1)

3)加窗

信号在时域上的变化通常很难看出信号的特性，所以通常将它转换成频域上的能量分布以便观察其特征。通常在转换时会假设一个帧内的信号是代表一个周期性信号，但这个周期性不存在，则会产生分析上的误差。所以在实际中，需要进行加窗操作来加强帧左端和右端的连续性，以此尽量降低分析误差。本发明中使用了Hamming窗，其公式如下(其中参数a＝0.46)：

w(n，a)＝(1-a)-a cos(2πn/(N-1))，0≤n≤N-1

4)快速傅里叶变换

快速傅里叶变换(即FFT)将语音信号有时域变换到频域，其公式如下：

X_{k} = Σ_{0}^{N - 1} s_{n} e^{- 2 πik (n / N)}, 0 \leq k \leq N - 1

5)计算美尔能量

美尔能量(Mel-Filter-Energy)是常用的语音信号的特征，具体求法是将能量频谱乘以一组20～40个三角带通滤波器，求得每一个滤波器输出的对数能量。

6)计算MFCC特征值

美尔频率倒谱系数(即MFCC)是用于说话人个性特征和说话人识别的最有效的特征之一，将美尔能量经过离散余弦变换即可得到MFCC特征值，其公式如下：

c_{m} = Σ_{1}^{N} E_{k} \cos [m \cdot (k - 0.5) \cdot π / N],

m＝1，2，...L

3、模型训练和匹配的原理

在得到MFCC的特征值以后，就可以利用它为说话人建立适当的模型。本发明使用高斯混合模型(Gaussian Mixture Model，GMM)来表示说话人的语音特性，它是一种无监督的基于参数估计的概率分布模型，目前已广泛应用于模式识别和数据分析等领域。使用GMM对说话人的语音特征建模的主要理论基础有两个：

1)说话人的声学特征参数在特征空间中的分布可以认为是由他发出的不同的音(或者由相似音组成的类)的特征矢量聚合而成。即说话人的声学特征分布可以划分为多个类或者部分，每个类或部分对应着说话人发出的某类未知音素，并且这些不同的类或者部分对于区别说话人身份有着重要的意义。

2)根据概率统计学的理论，任何一个随机分布都可以用若干个高斯分布的加权组合线性表示。所以理论上来说，GMM可以用于描述各种形式的语音特征分布。

作为概率统计模型，GMM通过高斯概率密度函数的线性加权组合刻画语音特征参数的统计分布。不同说话人的语音特征的统计分布也是有所不同的。因此通过比较不同说话人的GMM模型，就可以用于区分不同的说话人。

假设

是一个D维的特征向量，相应的GMM是由若干个高斯模型进行加权线性组合而成的，其关键参数如下：

M：模型中包含的单个高斯概率分布的个数

ω_i：每个高斯密度函数的权值

第i个高斯密度函数的均值(D维)和协方差矩阵(D×D)。

在大多数情况下，协方差矩阵可以使用一个对角阵来代替(即方差矩阵)，对角线上每个元素为向量相应维度上的方差。此举大大降低计算复杂度，使GMM可以满足某些实时处理的需求，实验表明，使用方差矩阵在识别效果上并不比协方差矩阵差。

这样，一个高斯混合模型可以记做：

对于特征向量

来说，它与此模型匹配的概率输出为：

p (\overset{ρ}{x} | λ) = Σ_{i = 1}^{M} ω_{i} b_{i} (\overset{ρ}{x})

其中：

b_{i} (\overset{ρ}{x}) = \frac{1}{{(2 π)}^{D / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{{(\overset{ρ}{x} - {\overset{ρ}{μ}}_{i})}^{T} {Σ_{i}}^{- 1} (\overset{ρ}{x} - {\overset{ρ}{μ}}_{i})}{2}}

3.1模型的训练算法：

若要使用GMM进行文本无关的说话人识别，首先需要为不同的识别对象训练各自的语音模型，训练的算法步骤如下：

1)算法输入：

一组特征值矢量的输入序列

其中

为D维向量

2)算法目标：

对于这组输入序列来说，使它成为模型λ的观测矢量的后验概率为：

p (O | λ) = {Π_{t = 1}^{T} p ({\overset{ρ}{x}}_{t} | λ)}^{2 / T}

GMM训练目标就是为模型λ寻找一组合适的参数，使得这个后验概率最大化。通常实际计算时可以将上式写为对数形式，即：

\log (p (O | λ)) = \frac{1}{T} Σ_{t = 1}^{T} \log (p ({\overset{ρ}{x}}_{t} | λ))

3)算法训练步骤：

GMM的训练方法使用EM(期望最大化)算法，具体步骤如下：

步骤1：GMM初始化：首先设定高斯混合模型的阶数M，设置每个高斯分布的加权值ω_i均为1/M，方差矩阵为单位阵，均值

其中

为训练样本的均值向量，

为一个很小的随机向量。

步骤2：迭代更新参数：EM算法使用迭代的方法对模型参数进行更新，具体如下：

步骤2.1：对于O中的一个特征向量

(k＝1，2，…，T)计算其在第i个高斯分布上的后验概率：

i＝1，2，Λ，M

步骤2.2：计算属于第i个高斯分布的特征向量的个数：

i＝1，2，Λ，M

步骤2.3：计算第i个高斯分布的权值：

ω_{i} = \frac{n_{i}}{T},

i＝1，2，Λ，M

步骤2.4：计算第i个高斯分布的均值：

i＝1，2，Λ，M

步骤2.5：计算第i个高斯分布的方差：

i＝1，2，Λ，M

迭代过程要一直持续到模型参数的变化很小为止，一般来说，5-10次迭代应该可以到达这样的状态。

4)算法输出

对应于特定输入样本的GMM模型

3.2模型的匹配算法

假设已有训练好的GMM模型共N类，分别为λ₁，λ₂，Λ，λ_N，进行说话人识别的过程如下：

1)输入：经过特征提取等预处理过程的特征向量序列Ω＝(y₁，y₂，Λ，y_p)，共P个。

2)步骤：

分别计算该特征向量序列对于某类GMM模型λ_i(i＝1，…，N)的后验概率的对数值：

\log (p (Ω | λ_{i})) = \frac{1}{p} Σ_{t = 1}^{p} \log (p ({\overset{ρ}{x}}_{t} | λ_{t})) i = 1, Λ, N

使得该对数值最大的那个类标号I即为对应的说话者标号，即有：

I＝arg_1≤i≤Nmax(p(Ω|λ_i))

如果这个最大的概率任然小于某个阈值的话，则可以认为当前说话人并不在已训练过的说话人集合当中，而这个阈值的选择需要根据应用场景进行选择，它对GMM的识错率和拒识率都有影响。

3)输出：所属模型的类标号，或者是未训练类标号。

Claims

1.一种文本无关的声纹识别方法，对待识别人进行身份鉴别，其特征在于，包括如下步骤：

步骤1：采集所述待识别人的语音作为输入信号；

步骤2：对所述输入信号进行预处理和特征值提取；

步骤3：使用特征信息流建立所述待识别人的声学模型；

步骤44：将所述客人的声学模型存储在语音特征库中。

2.根据权利要求1所述的文本无关的声纹识别方法，其特征在于：所述语音特征包括分帧、预加重、加窗、快速傅里叶变换FFT、美尔能量和美尔频率倒谱系数MFCC；每个经过建模训练的用户客人都在语音特征库中关联一个相应的语音特征声学模型，并以文件的形式被存储在语音特征库中。

3.根据权利要求1或2所述的文本无关的声纹识别方法，其特征在于：在进行训练建模或声纹识别的过程中，对客人或待识别人两种说话人所说的语言种类和语言内容没有限制和要求，即所述说话人可以使用任何种类的语言，并且内容不做限定。

4.根据权利要求3所述的文本无关的声纹识别方法，其特征在于：所述说话人在训练建模或声纹识别的过程中，语言的长短、音量的高低与声纹识别的准确度呈正比关系。

5.一种依据权利要求1至4所述声纹识别方法建立的文本无关的声纹识别系统，其特征在于：它包括语音采集设备、声纹识别计算机、人机交互界面及其运行软件；所述语音采集设备采集说话人的语音信号，传送至所述声纹识别计算机进行训练建模或识别匹配，并将建立的声学模型存储在硬盘的语音特征库中，将识别匹配的结果送往人机交互界面以确定说话人身份。