CN103077719B

CN103077719B - 一种基于矩阵离线预计算的快速全空间因子处理方法

Info

Publication number: CN103077719B
Application number: CN201210581078.8A
Authority: CN
Inventors: 雷琴辉; 赵彬; 赵敏志; 于超敏; 赵志伟; 卢小亭; 王丹; 吴晓如
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2015-01-07
Anticipated expiration: 2032-12-27
Also published as: CN103077719A

Abstract

本发明涉及一种基于矩阵离线预计算的快速全空间因子处理方法，步骤为：资源加载，首先都需要加载通用背景模型（UBM），全空间因子矩阵T；获取需要做声纹验证或者注册的语音数据，并提取声纹识别所需PLP特征；提取零阶统计量N和一阶统计量F；计算并得到L矩阵；生成L矩阵的逆矩阵；利用一阶统计量、L矩阵的逆矩阵、协方差扩展矩阵、全空间因子矩阵得到本次语音对应的全空间因子W；如果完成所有语音计算则结束。本发明将全空间因子求解模块效率提升了几十倍，使得全空间因子分析与本征信道因子分析算法复杂度相当，从而使得声纹识别中可以采用两者融合的系统。

Description

一种基于矩阵离线预计算的快速全空间因子处理方法

技术领域

本发明涉及一种声纹识别系统中语音信号处理的声纹识别技术，特别是一种基于矩阵离线预计算的快速全空间因子处理方法。

背景技术

在声纹识别系统中，如果采用本征信道因子分析与全空间因子分析融合，可以提升声纹识别系统效果。但是在全空间因子分析中，全空间因子求解算法复杂度较高，运算密集；相比于本征信道因子分析，全空间因子分析运算复杂度大了近两个量级，从而制约了其在声纹识别中的推广。

下面对名词进行解释：

●声纹识别：属于生物识别技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。

●GMM模型：高斯混淆模型（Gaussian Mixture Model）简称GMM模型是指多个高斯模型通过线性叠加而得到的新的模型，在声纹识别系统中通常采用高斯混淆模型来表示特征的分布。

●UBM模型：通用背景模型（Universal Background Model）简称为UBM模型，混合高斯模型的核心是用一些高斯函数去拟合每个人说话时的特征，在训练模型的时候，由于注册时说话人的数据量不够，因此只能由一个通用的背景模型把少量的说话人的数据自适应到目标说话人模型上；在测试时，用测试语音相对于目标说话人模型和UBM模型求对数似然度得分，根据统一的门限判决是否是目标说话人。

●全空间因子分析：全空间因子分析（Total Factor Analysis）首先将信道信息和说话人信息利用一个因子来拟合，然后通过后端的LDA(线性区分性分析)等后端处理来区分出想要的说话人信息。

●本征信道因子分析：本征信道因子分析（Eigen Channel Factor Analysis）是将信道信息利用一个因子来拟合，从而将语音信号中的信道信息去除，仅保留语音中说话人相关的信息。

●PLP特征：由感知加权线性预测系数（Perceptual Linear Predictive）组成的特征向量，在声纹识别中采用PLP特征对语音进行描述。

暂未查找到针对采用全空间因子分析方法进行声纹识别，而采取相关效率改进的发明和方法。从所见报道来看，都处在使用最基本的处理方法（可参看图1），采用这种传统方法，全空间因子分析效率太低，严重制约该方法在实际声纹系统中的使用。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种基于矩阵离线预计算的快速全空间因子处理方法，将全空间椅子求解模块效率提升了几十倍，使得全空间因子分析与本征信道因子分析算法复杂度相当，从而使得声纹识别中可以采用两者融合的系统。

本发明技术解决方案：一种基于矩阵离线预计算的快速全空间因子处理方法，其特征在于实现步骤如下：

步骤1：资源加载，加载通用背景模型（UBM），全空间因子矩阵T，以及离线预计算之后的结果A（离线预计算资源）；资源加载是全局性的，在整个引擎初始化时加载一次即可；全局加载的通用背景模型、全空间因子矩阵、离线预计算资源将在后续步骤陆续被使用。

步骤2：获取需要声纹验证或者注册的语音数据，并提取声纹识别所需PLP特征；此处输入语音是全空间因子分析的对象；通过该步骤可以多次输入语音。

步骤3：使用步骤1中加载的通用背景模型（UBM），以及步骤2中提取的PLP特征，计算零阶统计量N和一阶统计量F；零阶统计量N在步骤4中用于计算L矩阵，一阶统计量F在步骤7中计算全空间因子W。

步骤4：采用步骤1中加载的离线预计算资源A，步骤3中得到的零阶统计量N，计算得到L矩阵；L矩阵求解公式如下所示：

L＝I+A·N 公式（6）

步骤5：生成L矩阵的逆矩阵，求解公式如下，其中|L|为L矩阵的行列式值，L^*为L矩阵的伴随矩阵：

L^{- 1} = \frac{1}{| L |} L^{*}

公式（7）

步骤6：采用步骤1中通用背景模型（UBM）生成协方差扩展矩阵V，下面是其生成方法:V是协方差扩展对角阵，是通用背景模型（UBM）各混合高斯（GMM）的逆协方差矩阵的组合，矩阵对角线上从左上到右下依次排列如下,其中D为特征维数，M为GMM个数，为第i个GMM模型的第j个协方差：

公式（8）

步骤7：利用步骤1中加载的全空间因子矩阵T，步骤3中提取的一阶统计量F，步骤5中L矩阵的逆矩阵L^-1,步骤6当中协方差扩展矩阵V，得到步骤2中所输入语音对应的全空间因子W，计算公式如下：

W＝L^-1T′VF 公式（9）

步骤8：利用步骤1中的通用背景模型UBM，步骤2中提取的PLP特征，步骤7中得到的全空间因子W，完成本次输入语音的后续声纹识别过程。

步骤9：在完成本次输入语音声纹识别后，如果没有其它需要做声纹识别的语音，则整个过程结束，如果还有语音需要进行声纹识别，则转到步骤2重新开始一次声纹识别流程。

所述步骤1所中离线预计算资源A的计算如下：

A_{m \cdot n \cdot k} = A_{n \cdot m \cdot k} = Σ_{j = 1}^{D} T_{((k - 1) D + j) \cdot m} V_{(k - 1) D + j} T_{((k - 1) D + j) \cdot n}

公式（10）

A是离线预计算资源，它是一个三维的对称矩阵，m，n，k是矩阵取值的下标，

T是一个二维矩阵，是描述语音全空间组成的因子，

V是协方差扩展矩阵，其定义如步骤6中描述，

D为PLP特征的维数，

j是矩阵取值下标。

本发明与现有技术相比具有的有益效果在于：

（1）本发明的基于矩阵离线预计算的快速全空间因子处理方法，L矩阵运算的复杂度大大降低，从而提高了全空间因子分析算法的效率，突破了声纹识别上的一个效率瓶颈。

（2）本发明的基于矩阵离线预计算的快速全空间因子处理方法，与本征信道分析效率相当，能够实现全空间因子分析与本征信道分析算法的融合。

附图说明

图1是传统全空间因子分析算法示意图；

图2是本发明实现流程图；

图3是本发明中的离线预计算资源生成示意图；

图4是本发明与传统方法复杂度分析示意图。

具体实施方式

为更进一步阐述本申请为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的(基于矩阵离线计算)其具体实施方式、步骤、结构、特征及其功效详细说明。

如图1所示，传统全空间因子求解方法（具体实施步骤如图1所示）：

W＝(I+T′VKT)^-1T′VF＝L^-1T′VF 公式（11）

其中：

L＝I+T′VKT 公式（12）

上面两个公式中各矩阵含义如下所述（假设因子个数为Fct，高斯混合度为M，特征维数为D，令MD=M×D）。

●W矢量：本次声纹识别所用语音在全空间上的空间因子，一维行向量，共Fct个元素。

●I矩阵：Fct×Fct单位阵。

●T矩阵：MD×Fct二维矩阵，该矩阵是全因子空间。

●V矩阵：对角阵，各混合高斯的逆协方差矩阵的组合，其定义参看步骤6。

●N矢量：由零阶统计量组成的有M个元素的一维列向量。

●K矩阵：由零阶统计量N扩展得到的MD×MD对角阵，与当前语音相关，对角线上从左上到右下依次排列。

公式（13）

●F矩阵：由一阶统计量组成MD×MD对角阵。

在传统方法中，整个L矩阵都是在线求解的，对每一条需要做声纹识别的语音都做全部运算，考虑到协方差矩阵V和零阶统计量扩展矩阵K为对角阵，且L矩阵为对称矩阵，在线计算L矩阵的算法复杂度为O(2×Fct×Fct×MD/2)。一般因子个数Fct=300，高斯混合度为M=512，特征维数为D=39，那么乘法和加法运算总和约为1.8G次乘/加法，运算量巨大，严重影响全空间因子求解效率和可用度。

如图2所示，为此本发明提出的基于矩阵离线预计算的快速全空间因子处理方法具体实现步骤。

根据公式7，令l_mn表示L矩阵m行n列的值，那么它的计算公式如下：

l_{m \cdot n} = \{\begin{matrix} Σ_{i = 1}^{MD} K_{i \cdot i} T_{i \cdot m} V_{i \cdot i} T_{i \cdot n} & m &NotEqual; n \\ 1 + Σ_{i = 1}^{MD} K_{i \cdot i} T_{i \cdot m} V_{i \cdot i} T_{i \cdot n} & m = n \end{matrix}

公式（14）

考虑公式（9）当中求和模块，可以将其做变化：

Σ_{i = 1}^{MD} N_{i \cdot i} T_{m \cdot i} V_{i \cdot i} T_{n \cdot i} = Σ_{k = 1}^{M} N_{k} Σ_{j = 1}^{D} T_{((k - 1) D + j) \cdot m} V_{(k - 1) D + j} T_{((k - 1) D + j) \cdot n}

公式（15）

构造一个离线预计算资源A，A采用三维矩阵表示，该矩阵定义如下：

A_{m \cdot n \cdot k} = A_{n \cdot m \cdot k} = Σ_{j = 1}^{D} T_{((k - 1) D + j) \cdot m} V_{(k - 1) D + j} T_{((k - 1) D + j) \cdot n}

公式（16）

这样公式9可以变为：

l_{m \cdot n} = l_{n \cdot m} = \{\begin{matrix} Σ_{k = 1}^{M} N_{k} A_{m \cdot n \cdot k} & m &NotEqual; n \\ 1 + Σ_{k = 1}^{M} N_{k} A_{m \cdot n \cdot k} & m = n \end{matrix}

公式（17）

L＝I+A·N 公式（18）

将A离线预计算好，存放在资源当中，A是一个Fct×Fct×M的三维矩阵，考虑到对称性，尺寸大小为O（Fct×Fct×M×4/2），按照Fct=300，M=512计算，离线矩阵大小为约90MByte，引擎初始化的时候加载进去，无需在线计算，通过公式（13），可以估算出L矩阵的新的算法复杂度为O(M×Fct×Fct/2)，约22M次乘/加法，相比于传统方法，效率提升了约80倍。

结合图1和图2因子分析算法示意图，下面将详细阐述全空间因子求解实施步骤。传统方法与改进防范两者总体流程一致，关键之处在于得到L矩阵的算法流程不同。

步骤14：资源加载，加载通用背景模型（UBM），全空间因子矩阵T，以及离线预计算之后的结果A（离线预计算资源）；资源加载是全局性的，在整个引擎初始化时加载一次即可；全局加载的通用背景模型、全空间因子矩阵、离线预计算资源将在后续步骤陆续被使用。

通用背景模型UBM为高斯混淆模型，用来描述通用的说话人声纹特征的概率密度分布；全空间因子矩阵T是一个二维矩阵，用来描述语音中所包含的声纹、信道等信息在全空间的分布；离线预计算资源A是一个三维矩阵，用来提升全空间因子计算效率，结合图3，其生成步骤如下。

步骤14-1：加载通用背景模型UBM，全空间因子矩阵T。

步骤14-2：依照步骤6，生成协方差扩展矩阵V。

步骤14-3：采用步骤14-1中加载的通用背景模型UMB，全空间因子矩阵T，以及步骤14-1中得到的协方差扩展矩阵V，得到离线预计算资源A，其实现算法如下：

A_{m \cdot n \cdot k} = A_{n \cdot m \cdot k} = Σ_{j = 1}^{D} T_{((k - 1) D + j) \cdot m} V_{(k - 1) D + j} T_{((k - 1) D + j) \cdot n}

公式（19）

其中：

T是一个二维矩阵，是描述语音全空间组成的因子，

V是协方差扩展矩阵，其定义如步骤6中描述，

D为PLP特征的维数，

j是矩阵取值下标。

步骤14-4：将离线预计算资源A输出并存储，作为离线资源供资源加载使用。

步骤15：获取需要声纹验证或者注册的中输入语音数据，并提取声纹识别所需PLP特征。此处输入语音数据是全空间因子分析的对象；通过该步骤可以多次输入语音数据。

步骤16：使用步骤14中加载的通用背景模型（UBM），以及步骤15中提取的PLP特征，计算零阶统计量N和一阶统计量F；零阶统计量N在步骤17中用于计算L矩阵，一阶统计量F在步骤20中计算全空间因子W。

步骤17：采用步骤14中加载的离线预计算资源A，步骤16中得到的零阶统计量N，计算得到L矩阵；L矩阵求解公式如下所示：

L＝I+A·N 公式（20）

步骤18：生成L矩阵的逆矩阵，求解公式如下，其中|L|为L矩阵的行列式值，L^*为L矩阵的伴随矩阵：

L^{- 1} = \frac{1}{| L |} L^{*}

公式（21）

步骤19：采用步骤14中通用背景模型（UBM）生成协方差扩展矩阵V，下面是其生成方法:V是协方差扩展对角阵，通用背景模型（UBM）各混合高斯（GMM）的逆协方差矩阵的组合，矩阵对角线上从左上到右下依次排列如下,其中D为特征维数，M为GMM个数，为第i个GMM模型的第j个协方差：

公式（22）

步骤20：利用步骤14中加载的全空间因子矩阵T，步骤16中提取的一阶统计量F，步骤18中L矩阵的逆矩阵L^-1,步骤19当中协方差扩展矩阵V，得到步骤15中所输入语音对应的全空间因子W，计算公式如下：

W＝L^-1T′VF 公式（23）

步骤21：利用步骤14中的通用背景模型UBM，步骤15中提取的PLP特征，步骤20中得到的全空间因子W，完成本次输入语音的后续声纹识别过程。

步骤22：在完成本次输入语音声纹识别后，如果没有其它需要做声纹识别的语音，则整个过程结束，如果还有语音需要进行声纹识别，则转到步骤15重新开始一次声纹识别流程。

如图4所示，是本发明与传统方法复杂度分析示意图，从图4可以看出，传统方法L矩阵求解所需乘/加法次数总和是本发明的80倍左右。图中实曲线和左侧主坐标对应传统方法L矩阵运算量与全空间因子个数（Fct）之间的关系；图中虚曲线与右边辅坐标对应本发明L矩阵运算量与全空间因子个数（Fct）之间的关系。

从公式（1）可以看出，传统的方法中L矩阵的计算在全空间因子分析中占据了较大的运算量，随着因子维数F的增加占的比重变大。

本发明基于矩阵离线预计算的快速全空间因子处理方法降低了因子维数F对效率的影响，可以采用因子维数较高的算法，提升全因子求解方法的效果。

本发明未详细阐述部分属于本领域技术人员的公知常识。

虽然本申请已以较佳实施例揭露如上，然并非用以限定本申请实施的范围，依据本申请的权利要求书及说明内容所作的简单的等效变化与修饰，仍属于本申请技术方案的范围。

Claims

1.一种基于矩阵离线预计算的快速全空间因子处理方法，其特征在于实现步骤如下：

步骤1：资源加载，加载通用背景模型(UBM)、全空间因子矩阵T及离线预计算之后的离线预计算资源，即结果A；资源加载是全局性的，在整个引擎初始化时加载一次即可；全局加载的通用背景模型、全空间因子矩阵、离线预计算资源将在后续步骤陆续被使用；

步骤2：获取需要声纹验证或者注册的输入语音数据，并提取声纹识别所需PLP特征；此处输入语音数据是全空间因子分析的对象，通过该步骤能够多次输入语音数据；

步骤3：使用步骤1中加载的通用背景模型(UBM)，以及步骤2中提取的PLP特征，计算零阶统计量N和一阶统计量F；零阶统计量N在步骤4中用于计算L矩阵，一阶统计量F在步骤7中计算全空间因子W；

L＝I+A·N 公式(1)

步骤5：生成L矩阵的逆矩阵，求解公式如下，其中|L|为L矩阵的行列式值，L^*为L矩阵的伴随矩阵；

L^{- 1} = \frac{1}{| L |} L^{*}

公式(2)

步骤6：采用步骤1中通用背景模型(UBM)生成协方差扩展矩阵V，生成协方差扩展矩阵V的方法为：V是协方差扩展对角阵，是通用背景模型(UBM)各混合高斯(GMM)的逆协方差矩阵的组合，矩阵对角线上从左上到右下依次排列如下，其中D为特征维数，M为GMM个数，为第i个GMM模型的第j个协方差，

步骤7：利用步骤1中加载的全空间因子矩阵T，步骤3中提取的一阶统计量F，步骤5中L矩阵的逆矩阵L^-1,步骤6当中协方差扩展矩阵V，得到输入语音对应的全空间因子W，计算公式如下：

W＝L^-1T^tVP 公式(4)

步骤8：利用步骤1中的通用背景模型(UBM)，步骤2中提取的PLP特征，步骤7中得到的全空间因子W，完成本次输入语音的后续声纹识别过程；

步骤9：在完成本次输入语音声纹识别后，如果没有其它需要做声纹识别的语音，则整个过程结束，如果还有语音需要进行声纹识别，则转到步骤2重新开始一次声纹识别流程；

所述步骤1所中离线预计算资源A的计算如下：

A_{m \cdot n \cdot k} = A_{n \cdot m \cdot k} = Σ_{j = 1}^{D} T_{((k - 1) D + j) \cdot m} V_{(k - 1) D + j} T_{((k - 1) D + j) \cdot n}

公式(5)

其中：

T是一个二维矩阵，是描述语音全空间组成的因子，

V是协方差扩展矩阵，

D为PLP特征的维数，

j是矩阵取值下标。