CN1302456C

CN1302456C - 一种声纹识别方法

Info

Publication number: CN1302456C
Application number: CNB2005100599131A
Authority: CN
Inventors: 郑方; 熊振宇; 宋战江
Original assignee: Individual
Current assignee: Beijing D Ear Technologies Co ltd
Priority date: 2005-04-01
Filing date: 2005-04-01
Publication date: 2007-02-28
Anticipated expiration: 2025-04-01
Also published as: CN1652206A

Abstract

本发明提出的声纹识别方法，属于基于生物特征的身份识别技术领域。该方法首先从多个说话人的声音波形中提取声学特征，形成多个说话人的特征矢量序列；根据特征矢量序列构建一个通用背景模型，根据通用背景模型，构建高斯混合树，并训练每个说话人的概率模型；从待识别的语音中提取声学特征，形成待识别语音的特征矢量序列，并重新排序，得到重排序特征矢量序列，为重排序特征矢量序列中的每个矢量，从高斯混合树中挑选核心的高斯混合，并计算待识别语音的重排序特征矢量分别与每个说话人概率模型匹配的概率似然分数；计算待识别语音的重排序特征矢量分别与每个说话人概率模型匹配的概率似然分数的总和，并进行剪枝，取分数最大的为识别结果。

Description

一种声纹识别方法

技术领域

本发明涉及一种声纹识别方法，属于基于生物特征的身份识别技术领域。

背景技术

在已有技术中，基于通用背景模型(Universal Background Model，以下简称UBM)的文本无关的声纹识别(Voiceprint Recognition)方法包括通用背景模型UBM的训练方法，说话人模型的训练方法和声纹的识别方法三个部分。

通用背景模型UBM的训练方法为：

(1)从多个说话人的声音波形中提取声学特征，形成多个说话人的特征矢量序列；

(2)根据多个说话人的特征矢量序列构建一个通用背景模型。其方法是对所有的说话人的特征矢量序列采用某种已有的聚类算法(如传统的LBG算法)进行聚类，得到K个高斯分布的混合，其中第k个高斯分布均值矢量为μ_k、对角方差矩阵为∑_k；记聚类时第k个高斯分布所涵盖的特征矢量数目占整个特征矢量序列中矢量总数的百分比为w_k，则通用背景模型为

UBM = {μ_{k}^{ubm}, Σ_{k}^{ubm}, w_{k}^{ubm} | 1 \leq k \leq K} .

其中说话人模型的训练方法为：

(1)从每个说话人的声音波形中提取声学特征，形成该说话人的特征矢量序列；

(2)将通用背景模型分别根据每个说话人的特征矢量序列进行自适应，得到每个人的声纹模型，把各个人的声纹模型放在一起组成一个模型库。其自适应方法可采用任何已有的自适应方法(如传统的MAP自适应方法)，说话人声纹模型M＝{μ_k，∑_k，w_k|1≤k≤K}中的高斯混合与通用背景模型

UBM = {μ_{k}^{ubm}, Σ_{k}^{ubm}, w_{k}^{ubm} | 1 \leq k \leq K}

中的高斯混合具有一一对应的关系。

其中声纹的识别方法为：

(1)从待识别的人的声音中提取声学特征形成待识别的特征矢量序列；

(2)将该待识别的特征矢量序列与该模型库中的声纹模型逐一进行匹配比较，得到特征矢量序列与每个说话人声纹模型的匹配得分(也称为对数似然得分，或似然得分，或得分)，并进行判决；计算特征矢量序列与说话人模型匹配分数的方法是：对待识别的特征矢量序列X＝{X₁，…，X_T}中的每一帧X_t，1≤t≤T，首先与通用背景模型匹配，找到通用背景模型

UBM = {μ_{k}^{ubm}, Σ_{k}^{ubm}, w_{k}^{ubm} | 1 \leq k \leq K}

中与X_t最匹配的N个高斯混合k₁，…，k_N，然后用说话人声纹模型M＝{μ_k，∑_k，w_k|1≤k≤K}中对应的高斯混合计算该说话人模型的匹配分数

S = (X_{1} | M) = \ln Σ_{n = 1}^{N} w_{k_{n}} \cdot p (X_{1} | μ_{k_{n}}, Σ_{k_{n}});

整个序列的分数则为：

S (\overset{&OverBar;}{X} | M) = Σ_{t = 1}^{T} S (X_{t} | M);

(3)根据声纹的识别方法的类型(闭集声纹鉴别、开集声纹鉴别和声纹确认)，在需要的时候进行拒识判决，从而得出结果。

缺点：基于通用背景模型的声纹识别方法的主要问题在于识别的计算量太大，其计算包括：(1)对每一帧语音特征矢量X_t，1≤t≤T，要从通用背景模型中选出最匹配的N个混合；而通用背景模型的混合数通常很大，一般为1,024或者2,048，导致计算量很大；(2)对所有说话人模型计算匹配分数；虽然每个说话人模型只需要计算N个高斯混合的分数(通常N＝4)，但是很大的说话人模型数同样会导致很大的计算量。

发明内容

本发明的目的是提出一种声纹识别方法，以克服现有基于通用背景模型的声纹识别方法运算量太大的缺点，提高声纹识别的运算速度。

本发明提出的声纹识别方法，包括以下步骤：

(2)根据上述特征矢量序列构建一个通用背景模型；

(3)根据上述通用背景模型，构建高斯混合树；

(4)根据上述通用背景模型，训练每个说话人的概率模型；

(5)从待识别的语音中提取声学特征，形成待识别语音的特征矢量序列，将该特征矢量重新排序，得到重排序特征矢量序列；

(6)为上述重排序特征矢量序列中的每个矢量，从上述构建的高斯混合树中挑选核心的高斯混合；

(7)根据上述核心高斯混合，计算上述待识别语音的重排序特征矢量分别与每个说话人概率模型匹配的概率似然分数；

(8)计算上述待识别语音的重排序特征矢量分别与每个说话人概率模型匹配的概率似然分数的总和，并进行剪枝，取分数最大的为识别结果。

上述方法中，步骤(5)将特征矢量重新排序，得到重排序特征矢量序列的方法包括以下步骤：

(1)在特征矢量序列X＝{X₁，...X_T}中，以间隔n从中挑选出矢量，形成矢量序O＝{X₁，X_1+n，X_1+2n，…}，建立序列Y，使Y＝O；

(2)在序列Y中从左往右依次取相邻矢量的序号的算术平均值，若离该平均值最近的序号对应的矢量不在上述Y中，则从X中取出该矢量加入到一个新的矢量序列Q中；

(3)将上述得到的矢量序列Q添加到矢量序列Y的后面；

(4)重复步骤(2)和(3)，直到矢量序列X＝{X₁，...X_T}中所有矢量全部重排到矢量序列Y中。

上述方法中，为每个特征矢量，从构建的高斯混合树中挑选核心高斯混合的方法，包括如下步骤：

(1)设高斯混合树的根节点的所有子节点为候选节点集合；

(2)对所述的每个特征矢量，计算候选节点集合中每个高斯分布的似然分数；

(3)若候选节点为叶节点，则选择似然分数最高的N个高斯分布作为核心高斯混合；若候选节点不是叶节点，则选出似然分数最高的K个节点，将K个节点的所有子节点作为候选节点集合，重复上述步骤(2)和(3)。

上述方法中，步骤(8)对概率似然分数的总和进行剪枝，取分数最大的为识别结果的方法，包括以下步骤：

(1)设所有说话人的概率模型集合为候选集合；

(2)依次对所述的重排序矢量序列中的每个矢量，计算候选集合中所有概率模型的似然分数，并设置阈值Θ_τ＝S(τ)-B，其中，S(τ)为计算重排序矢量序列中第τ帧后，候选集合中模型的最高似然分数，B为根据识别要求设定的常数；

(3)将所有似然分数小于上述阈值的说话人模型从候选集合中删除；

(4)重复步骤(2)和(3)，直到候选集合中只剩下一个模型，或所有矢量均被计算完。

本发明提出的声纹识别方法，提出了基于树的核心挑选(Tree-based Kemel Selection，TBKS)方法和基于观测矢量重排序的剪枝(Observation Reordering based Pruning，ORBP)方法用于基于通用背景模型的声纹识别系统，在基本不降低识别率的前提下，大幅度减少声纹识别所需的计算量，提高声纹识别的速度。本发明的声纹识别方法和一般的基于通用背景模型的声纹识别方法在一个有1031个说话人，1816条测试语句的的语音数据库上进行了测试。一般的基于通用背景模型的声纹识别方法识别正确率为95.32％，本发明的声纹识别方法识别正确率95.26％，运行速度提高了16倍。

附图说明

图1是本发明方法中涉及的高斯混合树的结构示意图。

具体实施方式

本发明提出的声纹识别方法，首先从从多个说话人的声音波形中提取声学特征，形成多个说话人的特征矢量序列；根据上述特征矢量序列构建一个通用背景模型；根据上述通用背景模型，构建高斯混合树；根据上述通用背景模型，训练每个说话人的概率模型；从待识别的语音中提取声学特征，形成待识别语音的特征矢量序列，将该特征矢量重新排序，得到重排序特征矢量序列；为上述重排序特征矢量序列中的每个矢量，从上述构建的高斯混合树中挑选核心的高斯混合；根据上述核心高斯混合，计算上述待识别语音的重排序特征矢量分别与每个说话人概率模型匹配的概率似然分数；计算上述待识别语音的重排序特征矢量分别与每个说话人概率模型匹配的概率似然分数的总和，并进行剪枝，取分数最大的为识别结果。

以下介绍本发明的一个实施例。

本发明的声纹识别方法实施例，包括通用背景模型的训练，通用背景模型高斯混合树的构建，说话人模型的训练和声纹识别，说明如下：

本实施例的通用背景模型训练具体步骤包括：

(1)取60个男说话人和60个女说话人的声音数据，对其原始语音波形数据进行分析，抛除其中的各个静音段；

(2)以32毫秒帧宽和帧宽的一半为帧移，对每一帧提取16维的线性预测倒谱参数(LPCC)，并计算其自回归分析参数，组成32维的特征矢量；所有帧的特征矢量组成特征矢量序列；

(3)构建该说话人的声纹模型：对说话人的特征矢量序列采用传统的LBG算法进行聚类，得到1,024个高斯分布的混合，其中第k个高斯分布均值矢量为μ_k、对角方差矩阵为∑_k；记LBG聚类时第k个高斯分布所涵盖的特征矢量数目占整个特征矢量序列中矢量总数的百分比为w_k，则通用背景模型为：UBM＝{μ_k，∑_k，w_k|1≤k≤K}。

本实施例的通用背景模型高斯混合树的构建具体步骤包括：

(1)指定树形结构为5层，第一层根节点有16个子节点，第二层每个节点有4个子节点，第三层每个节点有4个字节点，第四层节点数由高斯混合树的构建方法确定；

(2)采用前述高斯混合树的构建方法构建高斯混合树；

本实施例的说话人模型训练具体步骤包括：

(1)取1个说话人的声音数据，对其原始语音波形数据进行分析，抛除其中的各个静音段；

(3)用说话人的特征矢量序列对通用背景模型采用传统的MAP方法进行自适应，得到说话人模型；

(4)如果还有说话人没有训练，则转步骤1)进行下一个说话人的训练；否则训练过程结束。

本实施例的声纹识别包括以下步骤：

(1)采集待鉴别说话人的声音数据，对其原始语音波形数据进行分析，抛除其中的各个静音段；

(2)以与声纹模型训练时相同的帧宽和帧移，对每一帧提取16维的线性预测倒谱参数(LPCC)，并计算其自回归分析参数矢量，组成待识别的32维特征矢量；所有帧的待识别的特征矢量组成待识别的特征矢量序列X＝{X₁，…，X_T}；

(3)采用基于观测矢量重排序的剪枝方法，对X＝{X₁，…，X_T}进行重新排序，得到新的序列Y＝{Y₁，…，Y_T}；

(4)设定声纹模型库中所有说话人的声纹模型为候选者集合；

(5)对于每一帧语音特征Y_τ，1≤τ≤T，采用前述最匹配混合的搜索方法，找到通用背景模型中与这一帧语音特征最匹配的4个高斯混合，其标号为k₁，k₂，k₃，k₄，；

(6)从候选者集合中取一个说话人的声纹模型M＝{μ_k，∑_k，w_k|1≤k≤K}，计算其匹配得分

S (Y_{τ} | M) = Σ_{t = 1}^{4} (w_{k_{t}} \cdot p (Y_{τ} | μ_{k_{t}}, Σ_{k_{t}}));

并计算该模型的累积得分

S (M) = Σ_{t = 1}^{τ} \ln S (Y_{τ} | M);

(7)找到候选者集合累积得分最高的说话人模型，其累积得分为S_max(τ)，设定剪枝阈值Θ_τ＝S_max(τ)-B，将候选者集合中所有匹配分数低于阈值Θ_τ的声纹模型删除；

(8)重复以上步骤，直到候选者集合集合中只剩下一个说话人模型或者全部语音特征矢量序列都已经处理过；

(9)取出候选者集合中累积得分最大的分数S_max(T)和对应的说话人模型M_max作为识别结果；输出结果，声纹识别过程结束。

Claims

1、一种声纹识别方法，其特征在于该方法包括以下步骤：

(2)根据上述特征矢量序列构建一个通用背景模型；

(3)根据上述通用背景模型，构建高斯混合树；

(4)根据上述通用背景模型，训练每个说话人的概率模型；

(5)从待识别的语音中提取声学特征，形成待识别语音的特征矢量序列，将该特征矢量重新排序，得到重排序特征矢量序列，其方法包括以下步骤；

(a)在特征矢量序列X＝{X₁，...，X_T}中，以间隔n从中挑选出矢量，形成矢量序列O＝{X₁，X_1+n，X_1+2n，...}，建立序列Y，使Y＝O；

(b)在序列Y中从左往右依次取相邻矢量的序号的算术平均值，若离该平均值最近的序号对应的矢量不在上述Y中，则从X中取出该矢量加入到一个新的矢量序列Q中；

(c)将上述得到的矢量序列Q添加到矢量序列Y的后面；

(d)重复步骤(b)和(c)，直到矢量序列X＝{X₁，...，X_T}中所有矢量全部重排到矢量序列Y中；

2、如权利要求1所述的方法，其特征在于其中为每个特征矢量，从构建的高斯混合树中挑选核心高斯混合的方法，包括如下步骤：

(1)设高斯混合树的根节点的所有子节点为候选节点集合；

3、如权利要求1所述的方法，其特征在于其中步骤(8)对概率似然分数的总和进行剪枝，取分数最大的为识别结果的方法，包括以下步骤：

(1)设所有说话人的概率模型集合为候选集合；