CN109994116B

CN109994116B - 一种基于会议场景小样本条件下的声纹准确识别方法

Info

Publication number: CN109994116B
Application number: CN201910182461.8A
Authority: CN
Inventors: 张晖; 高财政; 赵海涛; 孙雁飞; 朱洪波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-03-11
Filing date: 2019-03-11
Publication date: 2021-01-19
Anticipated expiration: 2039-03-11
Also published as: CN109994116A

Abstract

本发明公开了一种基于会议场景小样本条件下的声纹准确识别方法，包括以下步骤：步骤（1）：对每个说话人的特征向量矩阵执行差异化特征与样本点及独立化特征矩阵操作；再建立并保存针对每个说话人的预判模型；步骤（2）：将待测语音的特征向量样本点均值矩阵中经筛选剔除后保留的列向量组成特征向量矩阵，再对该特征向量矩阵依次执行差异化特征与样本点操作及独立化特征矩阵操作；分别计算识别集中每个说话人特征矩阵与待测语音对应特征矩阵的相似度，选取训练阶段适当数目的说话人作为预判的结果；再将待测语音对应特征矩阵带入到预判结果中各预判模型里计算选取概率，选取概率最高的那个预判模型作为识别结果。本发明具有识别准确率高的优点。

Description

一种基于会议场景小样本条件下的声纹准确识别方法

技术领域

本发明涉及智能会议领域，具体涉及一种基于会议场景小样本条件下的声纹准确识别方法。

背景技术

在会议场景下，由于会议安排时间大都非常紧凑，留给采集音频的时间很有限。其次，说话人主观上也不太愿意花费很长时间在采集音频上；再者，被采集语音的说话人也无法在短期时间内，将自己的声纹特征全都展现出来，因此很难在会议场景下采集到足够的训练样本。大多数情况下，采集到的语音大都是同一种腔调，无法完全展示说话人的声纹特征，无法完全囊括不同条件下说话人自身的差异特征。不仅在会议场景下，在其他场景下也是如此，根本无法完成采集足够样本的需求，这将直接导致了声纹识别系统中只能使用小样本完成模型的训练。

在声纹识别系统中采用小样本训练模型，将带来很多难以预想的问题：首先，样本点少，无法完全覆盖用户的声纹个性特征，从而，小样本下提取的特征将很难区分出不同的说话人，这将直接导致识别准确率低的问题；再者，小样本训练时，样本缺失将导致模型很难收敛，无法达到训练出能完整描述声纹特征分布模型的目标；此外，小样本条件下训练出的模型会偏离正确的声纹特征分布，无法达到最优的处理结果，还有可能带来非常严重的过拟合现象；除此之外，样本点少，将严重限制声纹识别技术的作用领域，由于样本点的不足，在多人声纹识别领域，系统所能区分的总人数非常有限，这将严重降低用户对声纹识别系统的使用体验。

发明内容

本发明的目的是提供一种声纹识别准确率高的基于会议场景小样本条件下的声纹准确识别方法。

为实现上述目的，本发明采用了如下技术方案：一种基于会议场景小样本条件下的声纹准确识别方法，包括以下步骤：

步骤(1)：先在训练阶段对基于会议场景小样本执行特征提取操作，具体步骤如下：

步骤(1.1)：先对经特征提取后的每个说话人的特征向量矩阵执行差异化特征与样本点操作，将每个说话人对应的特征向量矩阵转化成同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵；

步骤(1.2)：对经差异化特征与样本点操作后的特征矩阵执行独立化特征矩阵操作，将经差异化特征与样本点操作后的特征矩阵转化成矩阵中列向量是不独立的特征矩阵；

步骤(1.3)：将得到的每个说话人对应的矩阵中列向量是不独立的特征矩阵按照顺序一一输入进选定的模型里，然后按照模型对特征数据的格式要求转化特征矩阵，再按照模型训练步骤，分别训练出针对每个说话人独特的预判模型并保存预判模型；

步骤(2)：在识别阶段对待测语音样本执行特征提取操作，具体步骤如下：

步骤(2.1)：筛选特征数据：先将训练阶段每个说话人经特征提取后对应的特征向量样本点均值矩阵结合在一起组成筛选矩阵，然后将待测语音经特征提取后对应的特征向量样本点均值矩阵中的列向量与筛选矩阵中各特征向量样本点均值矩阵中的列向量一一相减，然后根据阈值，将待测语音经特征提取后对应的特征向量样本点均值矩阵中与所有说话人特征向量样本点均值差异度都大或者都小的列向量剔除出去，只保留其余列向量；

步骤(2.2)：预判识别结果：将待测语音的特征向量样本点均值矩阵中经筛选剔除后保留的列向量组成特征向量矩阵，再对该特征向量矩阵依次执行差异化特征与样本点操作及独立化特征矩阵操作，得到待测语音对应的矩阵中列向量是不独立的特征矩阵；然后分别计算训练阶段每个说话人对应的矩阵中列向量是不独立的特征矩阵与待测语音对应的矩阵中列向量是不独立的特征矩阵之间的相似度，并按相似度的大小选取训练阶段适当数目的说话人作为预判的结果；

步骤(2.3)：识别目标说话人：将待测语音对应的矩阵中列向量是不独立的特征矩阵带入到预判结果中各说话人对应的预判模型里，计算待测语音对应的矩阵中列向量是不独立的特征矩阵在每个预判模型中得到的概率，并选取概率最高的那个预判模型作为识别结果，该识别结果也就是目标说话人。

进一步地，前述的一种基于会议场景小样本条件下的声纹准确识别方法，其中：在步骤(1.1)中，差异化特征与样本点操作，具体方法如下：

假设通过特征提取操作后得到的其中一个目标说话人的特征向量矩阵为x_ij，其中，0≤i≤m,0≤j≤n，按照公式(1.1)、公式(1.2)分别计算说话人对应的特征间均值矩阵E_i与特征向量样本点间均值矩阵F_j；

然后根据公式(1.3)，计算行向量间数据差异最大化特征矩阵；

其中，x_ij为矩阵特征向量，E_i为特征间均值矩阵，a_ij为行向量间数据差异最大化特征矩阵；

然后根据公式(1.4)，计算列向量间数据差异最大化特征矩阵；

其中，x_ij为矩阵特征向量，F_j为特征向量样本点间均值矩阵，b_ij为列向量间数据差异最大化特征矩阵；

然后，根据公式(1.5)和公式(1.6)分别行向量间数据差异最大化特征矩阵a_ij和列向量间数据差异最大化特征矩阵b_ij执行归一化过程；

其中a_jmax是指a_ij矩阵中第j列中的最大值，a_jmin是指a_ij矩阵中第j列中的最小值，a_imax是指a_ij矩阵中第i行中的最大值，a_imin是指a_ij矩阵中第i行中的最小值，a_ij为行向量间数据差异最大化特征矩阵，b_ij为列向量间数据差异最大化特征矩阵；

最后，根据公式(1.7)的操作步骤合并归一化后的矩阵a_ij′、b_ij′，得到同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵w_ij，

其中，w_ij为合并后同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵，a_ij′为归一化后的行向量间数据差异最大化特征矩阵，b_ij′为归一化后的列向量间数据差异最大化特征矩阵。

进一步地，前述的一种基于会议场景小样本条件下的声纹准确识别方法，其中：在步骤(1.2)中，独立化特征矩阵操作，具体方法如下：

步骤(1.2.1)：计算新特征向量：

假设G_A＝{w₁,w₂,...,w_m}，w_i是列向量，列数为语音信号的帧数，首先计算w_i的均值，其中，1≤i≤n，得出均值

其中，1≤i≤n，然后计算w_i与

的差值，新的

步骤(1.2.2)：计算协方差：

根据上步计算出的新特征向量

可以求出特征的协方差矩阵S，计算过程如公式(1.8)所示：

步骤(1.2.3)：计算新特征矩阵：

利用幂法或逆幂法计算协方差矩阵S的特征值和特征向量，得出的特征值为λ_i∈{λ₁,λ₂,...,λ_m}，且满足λ₁＞λ₂＞...＞λ_m，与特征值对应的特征向量为y_i∈{y₁,y₂,...,y_m}，其中y_i对应的就是执行独立化特征矩阵操作后得到的特征矩阵。

进一步地，前述的一种基于会议场景小样本条件下的声纹准确识别方法，其中：在步骤(2.2)中，将待测语音的特征向量样本点均值矩阵中经筛选剔除后保留的列向量组成特征向量矩阵，并对该特征向量矩阵依次执行差异化特征与样本点操作及独立化特征矩阵操作，得到的特征矩阵为y_i′，将训练阶段每个说话人对应的矩阵中列向量是不独立的特征矩阵假设为A_i∈{A₁,A₂,...,A_H}，其中A_i表示第i个说话人对应的特征矩阵，H表示声纹识别系统中的总人数；假设B为经过上述操作得到的y_i′，A_i中的数据用a_ij表示，B中数据用b_ij表示，每个说话人对应的特征矩阵A_i与B矩阵的相似度计算方法，具体包括以下步骤：

步骤(2.2.1)：计算矩阵行的匹配程度，计算公式如下：

其中，d_ij表示矩阵行的匹配程度；

步骤(2.2.2)：从A_i矩阵中提取与B中行最匹配的子矩阵，计算公式如下：

C_i＝mind_ij (1.10)

其中：d_ij表示矩阵行的匹配程度，其中，j＝1,2,...,n，C_i对应的A_i矩阵中那一行就是与B矩阵中第i行最匹配的行，将C_i对应的A_i矩阵中的行组成一个最近似矩阵D，其中D与B行数相同，列数也相同，并且匹配度最高；

步骤(2.2.3)：计算D与B的相似度，计算公式如下：

其中，d_ij表示D矩阵中的数据，b_ij表示B矩阵中的数据。

通过上述技术方案的实施，本发明的有益效果是：通过特征提取方法使提取到的数据间差异度最大，使有限的样本也能区分出不同的说话人；使用会议场景下模型训练方法，训练出针对会议场景的非目标说话人通用模型，并使用小样本完成模型建立；再使用再训练的方法，利用识别阶段充足的测试样本进行优化模型，使说话人模型更能表征说话人的特征，从而大大提高了声纹识别系统的识别准确率，增强了用户对声纹识别系统的使用体验。

附图说明

图1为本发明所述的一种基于会议场景小样本条件下的声纹准确识别方法的流程示意图。

具体实施方式

下面结合附图和具体实施例对发明作进一步详细说明。

如图1所示，所述的一种基于会议场景小样本条件下的声纹准确识别方法，包括以下步骤：

其中，差异化特征与样本点操作的具体方法如下：

然后根据公式(1.3)，首先计算矩阵特征向量x_ij与特征间均值矩阵E_i之间的距离，然后计算以距离为指数以e为底的指数值，最后计算指数值与x_ij的乘积，得到一个行向量间数据差异最大化特征矩阵a_ij，与x_ij相比，a_ij里的元素在行向量间数据差异达到最大化；之所以选用以e为底的指数函数是考虑到在x_ij值小于E_i，指数为负数时，a_ij仍然能保持与x_ij同样的正负性；另外也考虑到相隔同等距离下，以e为底的指数函数会将两个值的差距达到最大化^[39]，

行向量间数据差异最大化特征矩阵计算公式如下；

然后根据公式(1.4)，首先计算矩阵特征向量x_ij与样本点间均值矩阵F_j之间的距离，然后根据公式计算得出列向量间数据差异最大化特征矩阵b_ij，与x_ij相比，b_ij里的元素在列向量间数据差异达到最大化；

列向量间数据差异最大化特征矩阵计算公式如下；

然后，根据公式(1.5)和公式(1.6)分别行向量间数据差异最大化特征矩阵a_ij和列向量间数据差异最大化特征矩阵b_ij执行归一化过程，通过归一化过程后，减小了差异化后矩阵中值过大或者值过小导致的特征太明显或特征太不明显等问题；

最后，根据公式(1.7)的操作步骤合并归一化后的矩阵a_ij′、b_ij′，得到同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵w_ij，也就是说完成了原特征向量矩阵在不同样本点间以及不同特征间的差异最大化过程；

其中，w_ij为合并后同时具备行向量间数据差异最大化和列向量间数据差异最大化的特征矩阵，a_ij′为归一化后的行向量间数据差异最大化特征矩阵，b_ij′为归一化后的列向量间数据差异最大化特征矩阵；

由于w_ij是由矩阵a_ij′和b_ij′通过合并公式得到的，但是此时矩阵的列向量是不独立的，不同特征间仍存在相关性，这将削弱特征间的区分度，导致特征矩阵中的值偏小、偏平均；所以非常有必要对特征矩阵执行独立化操作，其中，独立化特征矩阵操作的具体方法如下：

步骤(1.2.1)：计算新特征向量：

其中，1≤i≤n，然后计算w_i与

的差值，新的

步骤(1.2.2)：计算协方差：

根据上步计算出的新特征向量

可以求出特征的协方差矩阵S，计算过程如公式(1.8)所示：

步骤(1.2.3)：计算新特征矩阵：

利用幂法或逆幂法计算协方差矩阵S的特征值和特征向量，得出的特征值为λ_i∈{λ₁,λ₂,...,λ_m}，且满足λ₁＞λ₂＞...＞λ_m，与特征值对应的特征向量为y_i∈{y₁,y₂,...,y_m}，其中y_i对应的就是执行独立化特征矩阵操作后得到的特征矩阵；

步骤(2.1)：筛选特征数据：具体操作是：根据训练阶段每个说话人经特征提取后对应得到的特征间均值矩阵E_i与特征向量样本点间均值矩阵F_j，将每个说话人的E_i矩阵结合在一起组成筛选矩阵E_i∈{E₁,E₂,...,E_m}，同时将每个说话人的F_j矩阵也结合在一起组成筛选矩阵F_j∈{F₁,F₂,...,F_n}；然后，对待测语音执行传统的特征提取操作，提取得到的特征向量矩阵为x_ij；其中，0≤i≤w,0≤j≤n，然后分别根据公式(1.1)、公式(1.2)计算待测语音的特征间均值矩阵E_i′与特征向量样本点间均值矩阵F_j′；考虑到E_i′与E_i不一定拥有相同的行数，所以没法进行直接比较；但是，不管在训练阶段还是识别阶段，特征提取的维数是固定的，所以F_j与F_j′在维度上是相同的，因此可以将F_j′与F_j中的列向量一一相减，即：将待测语音经特征提取后对应的特征向量样本点均值矩阵中的列向量与筛选矩阵中各特征向量样本点均值矩阵中的列向量一一相减，从而得到识别阶段与训练阶段在样本点均值上的差异度，并根据阈值，将待测语音经特征提取后对应的特征向量样本点均值矩阵中与所有说话人特征向量样本点均值差异度都大或者都小的列向量剔除出去，只保留其余列向量；

步骤(2.2)：预判识别结果：将待测语音的特征向量样本点均值矩阵中经筛选剔除后保留的列向量组成特征向量矩阵，再对该特征向量矩阵依次执行差异化特征与样本点操作及独立化特征矩阵操作，得到待测语音对应的矩阵中列向量是不独立的特征矩阵，得到的特征矩阵为y_i′，为了方便描述，我们将训练阶段每个说话人执行上述操作后得到的特征矩阵假设为A_i∈{A₁,A₂,...,A_H},其中A_i表示第i个说话人对应的特征矩阵，H表示声纹识别系统中的总人数；假设B为经过上述操作得到的y_i′，从上述分析可以得知，A_i矩阵与B矩阵在行数上不相同，在列数上保持相同，假设A_i中的数据用a_ij表示，B中数据用b_ij表示，然后对其进行相似度计算；其中，每个说话人对应的特征矩阵A_i与B矩阵的相似度计算方法，具体包括以下步骤：

步骤(2.2.1)：计算矩阵行的匹配程度，计算公式如下：

其中，d_ij表示矩阵行的匹配程度；

C_i＝mind_ij (1.10)

其中：d_ij表示矩阵行的匹配程度，j＝1,2,...,n，C_i对应的A_i矩阵中那一行就是与B矩阵中第i行最匹配的行，将C_i对应的A_i矩阵中的行组成一个最近似矩阵D，其中D与B行数相同，列数也相同，并且匹配度最高；

步骤(2.2.3)：计算D与B的相似度，计算公式如下：

其中，d_ij表示D矩阵中的数据，b_ij表示B矩阵中的数据；

按照上述步骤分别计算每个说话人对应的特征矩阵A_i与B矩阵的相似度^[42]，计算结果为S_i∈{S₁,S₂,...,S_H}，其中S_i表示第i个说话人对应的特征矩阵与B矩阵的相似度，然后对S_i从大到小排序，排序结果为S_i′∈{S₁′,S₂′,...,S_H′}，其中S₁′表示与说话人对应的特征矩阵与B矩阵的相似度的最大值，该相似度所对应的说话人是在相似度上来说最匹配B矩阵的，然后在S_i′中选取适当数目的元素，这些元素所对应的说话人就是预判的结果；

本发明的优点是：通过特征提取方法使提取到的数据间差异度最大，使有限的样本也能区分出不同的说话人；使用会议场景下模型训练方法，训练出针对会议场景的非目标说话人通用模型，并使用小样本完成模型建立；再使用再训练的方法，利用识别阶段充足的测试样本进行优化模型，使说话人模型更能表征说话人的特征，从而大大提高了声纹识别系统的识别准确率，增强了用户对声纹识别系统的使用体验。

Claims

1.一种基于会议场景小样本条件下的声纹准确识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于会议场景小样本条件下的声纹准确识别方法，其特征在于：在步骤(1.1)中，差异化特征与样本点操作的具体方法如下：

假设通过特征提取操作后得到的其中一个目标说话人的特征向量矩阵为x_ij，其中，0≤i≤m,0≤j≤n；按照公式(1.1)、公式(1.2)分别计算说话人对应的特征间均值矩阵E_i与特征向量样本点间均值矩阵F_j；

3.根据权利要求2所述的一种基于会议场景小样本条件下的声纹准确识别方法，其特征在于：在步骤(1.2)中，独立化特征矩阵操作的具体方法如下：

步骤(1.2.1)：计算新特征向量：

假设G_A＝{w₁,w₂,...,w_m}，w_i是列向量，列数为语音信号的帧数，首先计算w_i的均值，其中1≤i≤n，得出均值

其中1≤i≤n，然后计算w_i与

的差值，新的

步骤(1.2.2)：计算协方差：

根据上步计算出的新特征向量

可以求出特征的协方差矩阵S，计算过程如公式(1.8)所示：

步骤(1.2.3)：计算新特征矩阵：

4.根据权利要求3所述的一种基于会议场景小样本条件下的声纹准确识别方法，其特征在于：在步骤(2.2)中，将待测语音的特征向量样本点均值矩阵中经筛选剔除后保留的列向量组成特征向量矩阵，并对该特征向量矩阵依次执行差异化特征与样本点操作及独立化特征矩阵操作，得到的特征矩阵为y_i′，将训练阶段每个说话人对应的矩阵中列向量是不独立的特征矩阵假设为A_i∈{A₁,A₂,...,A_H}，其中A_i表示第i个说话人对应的特征矩阵，H表示声纹识别系统中的总人数；假设B为经过上述操作得到的y_i′，A_i中的数据用a_ij表示，B中数据用b_ij表示，每个说话人对应的特征矩阵A_i与B矩阵的相似度计算方法，具体包括以下步骤：

步骤(2.2.1)：计算矩阵行的匹配程度，计算公式如下：

其中，d_ij表示矩阵行的匹配程度；

C_i＝mind_ij (1.10)

步骤(2.2.3)：计算D与B的相似度，计算公式如下：

其中，d_ij表示D矩阵中的数据，b_ij表示B矩阵中的数据。