CN109616124A

CN109616124A - 基于ivector的轻量化声纹识别方法和系统

Info

Publication number: CN109616124A
Application number: CN201910073337.8A
Authority: CN
Inventors: 洪国强; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: Xiamen Express Business Information Consulting Co Ltd
Current assignee: Xiamen Express Business Information Consulting Co Ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-04-12

Abstract

本发明公开了一种基于ivector的轻量化声纹识别方法和系统，其通过采集语音信号，并对所述语音信号提取语音特征参数，基于所述语音特征参数进行UBM训练，并统计UBM训练步骤中各GM的贡献值，最后将贡献值小于预设的贡献度阈值的GM进行裁剪，能够根据需求对无关GM进行裁剪，从而减小算法体积，提高算法速度，使其应用场景更广。

Description

基于ivector的轻量化声纹识别方法和系统

技术领域

本发明涉及声纹识别技术领域，特别是一种基于ivector的轻量化声纹识别方法及其应用该方法的系统。

背景技术

在实际应用中，由于说话人语音中说话人信息和各种干扰信息掺杂在一起，不同的采集设备的信道之间也具有差异性，会使我们收集到的语音中掺杂信道干扰信息。这种干扰信息会引起说话人信息的扰动。传统的GMM-UBM方法，没有办法克服这一问题，导致系统性能不稳定。

ivector矢量中不仅包含说话人差异信息，同时也存在信道差异信息，从而对全局差异进行建模，将说话人差异信息和信道差异信息作为一个整体进行建模，其在文本无关、文本半相关(动态数字)、文本相关上都有很好的声纹识别效果。

但是，由于ivector算法是基于UBM的声纹识别算法，其模型大小和其UBM中采用的高斯分布(GM)个数成正比，而在采用2048个高斯分布(GM)时内存占用量达到了4G,所需内存空间和资源过大，造成了应用场景的限制，比如无法在嵌入式系统中的开发使用。

发明内容

本发明为解决上述问题，提供了一种基于ivector的轻量化声纹识别方法和系统，能够根据需求对无关GM进行裁剪，从而减小算法体积，提高算法速度，使其应用场景更广。

为实现上述目的，本发明采用的技术方案为：

一种基于ivector的轻量化声纹识别方法，其包括以下步骤：

a.采集语音信号，并对所述语音信号提取语音特征参数；

b.基于所述语音特征参数进行UBM训练；

c.统计UBM训练步骤中各GM的贡献值；

d.将贡献值小于预设的贡献度阈值的GM进行裁剪。

优选的，所述的步骤a中，对所述语音信号提取语音特征参数，进一步包括：

a-1)，通过高通滤波器对所述语音信号进行预加重，并进行分帧加窗处理；

a-2)，对分帧加窗后的各帧信号进行快速傅里叶变换，得到各帧的频谱信号；

a-3)，对所述频谱取模平方得到所述语音信号的幅度谱；

a-4)，将所述幅度谱通过Mel三角形滤波器组，得到对数能量；

a-5)，将所述对数能量经离散余弦变换得到MFCC梅尔倒频谱参数，即为所述语音特征参数。

优选的，所述的步骤b中，所述语音特征参数采用MFCC梅尔倒频谱参数，所述UBM训练进一步包括：

b-1)，对所述语音特征参数进行前端处理，得到特征向量feat；

b-2)，将所述特征向量feat在UBM通用背景模型中进行适应，得到GMM的后验概率post；

b-3)，根据所述特征向量feat和所述GMM的后验概率post，进行训练特征提取器extractor，并利用该特征提取器extractor进行提取所述语音信号的身份特征向量ivector；

b-4)，通过后端的PLDA算法进行判断两个不同的身份特征向量ivector的相似程度。

优选的，所述的步骤c中，统计UBM训练步骤中各GM的贡献值，是根据所述特征向量feat的数量和所述GMM的后验概率post的数量进行设置GM的裁剪比例，并根据所述裁剪比例进行设置所述贡献度阈值。

优选的，所述的步骤c中，统计UBM训练步骤中各GM的贡献值，是将每个GM适应的总次数作为所述贡献值。

对应的，本发明还提供一种基于ivector的轻量化声纹识别系统，其包括：

语音信号采集模块，用于采集语音信号；

特征参数提取模块，用于对所述语音信号提取语音特征参数；

UBM训练模块，其基于所述语音特征参数进行UBM训练；

GMM统计模块，用于统计UBM训练步骤中各GM的贡献值；

GMM裁剪模块，用于将贡献值小于预设的贡献度阈值的GM进行裁剪。

本发明的有益效果是：

(1)本发明的一种基于ivector的轻量化声纹识别方法和系统，其通过采集语音信号，并对所述语音信号提取语音特征参数，基于所述语音特征参数进行UBM训练，并统计UBM训练步骤中各GM的贡献值，最后将贡献值小于预设的贡献度阈值的GM进行裁剪，能够根据需求对无关GM进行裁剪，从而减小算法体积，提高算法速度，使其应用场景更广；

(2)本发明通过轻量化ivector，使其能在多场景应用，并裁去了无关的GM，增强了抗噪的能力；

(3)本发明无需针对某一特定的内容进行大量语音采集去训练模型，只需少量数据去裁剪多余的GM，使用更方便。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种基于ivector的轻量化声纹识别方法的流程简图；

图2为本发明一种基于ivector的轻量化声纹识别系统的结构示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在声纹识别中，特别是在文本半相关和文本相关这两种形式的声纹识别中，其文本较短，语音的feat特征数量有限，UBM步骤适应的GM有限，因此可利用本发明的方法原理对整体模型进行轻量化。

如图1所示，本发明的一种基于ivector的轻量化声纹识别方法，其包括以下步骤：

a.采集语音信号，并对所述语音信号提取语音特征参数；

b.基于所述语音特征参数进行UBM训练；

c.统计UBM训练步骤中各GM的贡献值；

d.将贡献值小于预设的贡献度阈值的GM进行裁剪。

本实施例中，所述语音特征参数采用MFCC(Mel-scale Frequency CepstralCoefficients,简称MFCC)梅尔倒频谱参数，具体如下：

所述的步骤a中，采集语音信号，至少包括100人以上的足够量的语音数据，并对语音数据进行预处理得到所需的语音信号。其中，对所述语音信号提取语音特征参数，进一步包括：

a-1)，通过高通滤波器对所述语音信号进行预加重，并进行分帧加窗处理；其中，预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。分帧是先将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512，帧长约为20～30ms左右。加窗是指将每一帧乘以汉明窗(Hamming Window)，以增加帧左端和右端的连续性；

a-2)，对分帧加窗后的各帧信号进行快速傅里叶变换，得到各帧的频谱信号；其中，快速傅氏变换(FFT)，是离散傅氏变换的快速算法，它是根据离散傅氏变换的奇、偶、虚、实等特性，对离散傅立叶变换的算法进行改进获得的；

a-3)，对所述频谱取模(绝对值)平方得到所述语音信号的幅度谱(即，功率谱)；

a-4)，将所述幅度谱通过Mel三角形滤波器组，得到对数能量；优选的，为了减小泄露，还包括进一步对mel三角形滤波器组进行加窗处理(采用melbankm函数中的窗函数)；

a-5)，将所述对数能量经离散余弦变换得到MFCC梅尔倒频谱参数，即为所述语音特征参数；其中，离散余弦变换(DCT for Discrete Cosine Transform)是与傅里叶变换相关的一种变换，它类似于离散傅里叶变换(DFT for Discrete Fourier Transform),但是只使用实数，在对语音、图像信号变换的确定的变换矩阵正交变换中，DCT变换被认为是一种准最佳变换。

所述的步骤b中，所述语音特征参数采用MFCC梅尔倒频谱参数，所述UBM训练进一步包括：

b-1)，对所述语音特征参数进行前端处理，得到特征向量feat；语音的前端处理是在特征提取之前，先对原始语音进行处理，部分消除噪声和不同说话人带来的影响，抑制各种干扰，使待识别的语音更干净更能反映语音的本质特征；语音前端处理算法在语音通信和语音修复中也有着广泛的应用。最常用的前端处理有端点检测(VAD，又称语音边界检测)、降噪(噪声抑制)和语音增强(例如基于短时谱估计增强算法中的谱减法)；

b-4)，通过后端的PLDA算法进行判断两个不同的身份特征向量ivector的相似程度；本实施例中，还进一步根据所述相似程度进行相似度打分，获取得分score。

其中，UBM是由多个GM组成，UBM的表达式为：

其中，M是GM的数量，每个GM的权重为w。

所述GMM的后验概率post的计算方法为：

其中，p_i(x_t)、p_j(x_t)是GM的概率密度函数，其计算公式为：

所述的步骤c中，统计UBM训练步骤中各GM的贡献值，是将每个GM适应的总次数作为所述贡献值；并且，根据所述特征向量feat的数量和所述GMM的后验概率post的数量进行设置GM的裁剪比例，并根据所述裁剪比例进行设置所述贡献度阈值。

所述的步骤d中，对GM进行裁剪，是将待裁剪的GM对应的S、m、T的行数据进行删除，其中，S＝m+Tw；m值是UBM中GM的均值u的组合，S是UBM对说话人语音适应后的UBM’的均值u的组合；T的维度为M*R*X,M为GM的数量，R为GM的维度，T中的每个R*X对应一个GM的转换；w是指每个GM的权重。

另外，本发明所述语音特征参数还可采用LPCC(Linear Prediction CepstrumCoefficient，简称LPCC)线性预测倒谱系数，或者采用局部归一化倒谱系数及小波包变换等其他特征，不以此为限。

如图2所示，本发明还提供前述的一种基于ivector的轻量化声纹识别方法相对应的系统，其包括：

语音信号采集模块，用于采集语音信号；

UBM训练模块，其基于所述语音特征参数进行UBM训练；

GMM统计模块，用于统计UBM训练步骤中各GM的贡献值；

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。并且，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于ivector的轻量化声纹识别方法，其特征在于，包括以下步骤：

a.采集语音信号，并对所述语音信号提取语音特征参数；

b.基于所述语音特征参数进行UBM训练；

c.统计UBM训练步骤中各GM的贡献值；

d.将贡献值小于预设的贡献度阈值的GM进行裁剪。

2.根据权利要求1所述的一种基于ivector的轻量化声纹识别方法，其特征在于：所述的步骤a中，对所述语音信号提取语音特征参数，进一步包括：

a-3)，对所述频谱取模平方得到所述语音信号的幅度谱；

a-4)，将所述幅度谱通过Mel三角形滤波器组，得到对数能量；

3.根据权利要求1所述的一种基于ivector的轻量化声纹识别方法，其特征在于：所述的步骤b中，所述语音特征参数采用MFCC梅尔倒频谱参数，所述UBM训练进一步包括：

4.根据权利要求3所述的一种基于ivector的轻量化声纹识别方法，其特征在于：所述的步骤c中，统计UBM训练步骤中各GM的贡献值，是根据所述特征向量feat的数量和所述GMM的后验概率post的数量进行设置GM的裁剪比例，并根据所述裁剪比例进行设置所述贡献度阈值。

5.根据权利要求3所述的一种基于ivector的轻量化声纹识别方法，其特征在于：所述的步骤c中，统计UBM训练步骤中各GM的贡献值，是将每个GM适应的总次数作为所述贡献值。

6.一种基于ivector的轻量化声纹识别系统，其特征在于，包括：

语音信号采集模块，用于采集语音信号；

UBM训练模块，其基于所述语音特征参数进行UBM训练；

GMM统计模块，用于统计UBM训练步骤中各GM的贡献值；