CN112151040B

CN112151040B - 一种基于端到端联合优化及决策的鲁棒性说话人识别方法

Info

Publication number: CN112151040B
Application number: CN202011035890.1A
Authority: CN
Inventors: 曾春艳; 杨尧; 马超峰; 冯世雄
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2023-04-28
Anticipated expiration: 2040-09-27
Also published as: CN112151040A

Abstract

本发明涉及一种基于端到端联合优化及决策的鲁棒性说话人识别方法,采用卷积网络对语音信号进行特征提取和后端分类，旨在将原始的音频信号输入决策分析模型后直接输出识别结果，省略中间步骤，实现完全自动化的效果。其中使用参数化带通滤波器完成特征提取。后端分类决策则使用基于自注意力机制的深度残差网络，目的是更有效利用声学特征的深层次信息。本发明的说话人识别方法在背景噪声的环境下能够有效提升系统的识别性能，在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时，优化系统结构，提高了相应说话人识别产品的竞争力。

Description

一种基于端到端联合优化及决策的鲁棒性说话人识别方法

技术领域

本发明属于说话人识别技术领域，特别指一种基于端到端联合优化及决策的鲁棒性说话人识别方法。

背景技术

说话人识别，是一种基于语音信息实现的特殊生物识别技术。在说话人识别的研究工作中，一般是单独研究稳定且可靠的特征，或者寻找合适的模型。这样的研究思路导致特征和模型的分离，可能引起特征和模型之间的不匹配。并且说话人识别的流程中每一步均包含大量手工设置的超参数，因此很难找到一套相适应的超参数值。为了解决这一问题，本发明把说话人识别的特征提取和模型匹配过程统一到深度模型里面，构建完整的基于深度学习模型的端到端说话人识别架构。

发明内容

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于端到端联合优化及决策的鲁棒性说话人识别方法，其特征在于，包括

步骤1、采集语音信号x[n]并进行特征提取归一化后，按短样本的长度为l将其分割为M段短音频信号x_M[l]，其中x[n]＝{x₁[l],x₂[l],…,x_M[l]}，M取决于语音信号的长度，并将语音信号分为训练集和测试集；

步骤2、将训练集输入到自适应神经网络模型中，进行基于参数化滤波器的自适应特征提取和基于自注意力机制的深度残差网络的模型训练，得到训练后的端到端模型；

步骤3、测试集依次被输入到已训练好的端到端模型中进行决策，并得到M个样本的判决结果；假设模型库中有R个说话人，统计同一语音信号的单一决策结果中每一类别出现的概率y＝{y₁,y₂,…,y_R}，将决策结果中出现频率最高的作为该语音信号的最终识别结果；

Y＝max(y_i),i＝1,2,…,R (11)。

在上述的一种基于端到端联合优化及决策的鲁棒性说话人识别方法，步骤2中,基于参数化带通滤波函数的自适应特征学习提取出特征,步骤下：

A、CNN中最关键的部分之一是卷积层，尤其是第一层卷积层；为了使CNN的第一层卷积层从原始语音信号中挖掘出深层次说话人信息，本发明对卷积层中的卷积核(或称滤波器)进行调整，即使用一组参数化带通滤波器sinc函数代替标准CNN网络中的卷积核；其中sinc函数：

(A-1)CNN网络中每个卷积定义如下:

其中：y[n]表示卷积后的输出，x[n]表示原始语音信号，h[n]表示长度为L的滤波器；通常我们使用的卷积核中的参数都是需要从训练之中学习得到的，而本文采用的方法是使用函数g代替h执行卷积

y[n]＝x[n]*g[n,θ] (3)

其中：g[n,θ]＝2f₂sinc(2πf₂n)-2f₁sinc(2πf₁n)

有上公式可见，滤波器的参数仅仅是低截止频率和高截止频率(CutoffFrequency)；这一自定义卷积核操作不仅减少了参数，同时加速了模型的收敛速度；

(A-2)理想的带通滤波器的特点是应该有一个完全平坦的通带，在通带内没有放大或者衰减，并且在通带之外所有频率都被完全衰减掉，另外，通带外的转换在极小的频率范围完成；为了使得该滤波器近似理想状态，加窗操作是一种很好的选择；将函数g与窗口函数w相乘来执行窗口化，使得函数g更加平滑：

g_w[n,f₁,f₂]＝g[n,f₁,f₂]·w[n] (4)

其中：

在参数化滤波器中，f₁和f₂是两个需要优化的参数，它们满足以下三个约束条件：

1)f₁≥0，可引入新参数f₁ ^abs＝|f₁|来实现这一约束；

2)f₂≥f₁，可引入新参数f₂ ^abs＝f₁+|f₂-f₁|来实现这一约束，

3)f₁还需要满足小于奈奎斯特频率，训练发现这个约束会被自然的满足；

这样设计的滤波器是可微分的，则可以联合后端模型的其它参数实现同时优化。

在上述的一种基于端到端联合优化及决策的鲁棒性说话人识别方法，步骤2中,基于自注意力机制的深度残差网络的后端建模对提取的特征进行学习，步骤如下：

A、基于自注意力机制的深度残差网引入了Selective Kernel(SK)单元，用不同的卷积核提取特征，然后通过每个分支引导的不同信息构成的softmax进行融合；SK单元包括三个方面：分离(split)，融合(Fuse)，调整(Select)；具体如下：

(A-1)Split操作是将原特征图X∈R^{H′*W′*C′}分别通过3*3的卷积核和5*5的卷积核生成两个特征图：

和

(A-2)Fuse操作是进行特征融合，通过门控机制将上一层的输出进行有选择的筛选，使每一个分支都携带不同的信息流进入下一个神经元；

a)对不同分支的输出进行融合，即逐元素进行相加；

b)对两个输出进行全局平均池化(global average pooling，F_gp)操作，获得每一个通道上的全局信息；

c)对输出s做全连接，目的是找到每一个通道占的比重大小；其中F_fc为先降维再升维的两层全连接层，δ表示ReLU激活函数，BN表示Batch Noramlization，W维度是d*C；

z＝F_fc(s)+δ(BN(W_s)) (7)

为了研究d对模型效率的影响，引入衰减率r，C表示通道数；

d＝max(C/r,L) (8)

(A-3)Select操作是通过两个softmax计算出通道之间的权重信息；然后把这个权重信息与原先的

和

相乘，最后进行特征叠加得到V；这个过程可以看做是一个softattention；由于a_c和b_c的函数值相加等于1,因此能够实现对分支中的特征图设置权重，因为不同的分支卷积核尺寸不同，因此实现了让网络自己选择合适的卷积核；

其中：

B、将训练集输入到端到端网络中训练，对参数化滤波器中f₁和f₂是两个参数和自注意力机制的深度残差网络参数进行学习，得到端到端模型。

在上述的一种基于端到端联合优化及决策的鲁棒性说话人识别方法，步骤3中,采用投票法联合决策，步骤如下：

当输入语音信号x[n]经归一化后，按短样本的长度为l将被分割为M段短音频信号x_M[l]，其中x[n]＝{x₁[l],x₂[l],…,x_M[l]}，M取决于语音信号的长度；随后依次被输入到已训练好的端到端模型中进行决策，并得到M个样本的判决结果；假设模型库中有R个说话人，统计同一语音信号的单一决策结果中每一类别出现的概率y＝{y₁,y₂,…,y_R}，将决策结果中出现频率最高的作为该语音信号的最终识别结果；

Y＝max(y_i),i＝1,2,…,R (11)。

因此，本发明具有如下优点：本发明把说话人识别的特征提取和模型匹配过程统一到深度模型里面，提出了基于参数化带通滤波函数的自适应特征提取和基于自注意力机制的深度残差网络方法的端到端网络模型，联合优化特征提取和模型匹配的参数，取得了较好的实验效果。同时为了更好地利用特征块之间的关联性，在决策过程加入“投票法”决策机制，进一步提升本方法的泛化性。本发明的说话人识别方法在背景噪声的环境下能够有效提升系统的识别性能，在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时，优化系统结构，提高了相应说话人识别产品的竞争力。

附图说明

图1为基于深浅层特征融合的鲁棒性说话人识别方法原理示意图。

图2为基于自注意力机制的深度残差网络示意图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

本发明是一种基于端到端联合优化及决策的鲁棒性说话人识别方法，本发明的算法流程图如图1所示，可以分为四部分：1)基于参数化带通滤波函数的自适应特征学习；2)基于自注意力机制的深度残差网络的后端建模；3)“投票法”联合判决。

步骤一：基于参数化带通滤波函数的自适应特征学习，步骤如下：

A、CNN中最关键的部分之一是卷积层，尤其是第一层卷积层。为了使CNN的第一层卷积层从原始语音信号中挖掘出深层次说话人信息，本发明对卷积层中的卷积核(或称滤波器)进行调整，即使用一组参数化带通滤波器sinc函数代替标准CNN网络中的卷积核。其中sinc函数：

(A-1)CNN网络中每个卷积定义如下:

其中：y[n]表示卷积后的输出，x[n]表示原始语音信号，h[n]表示长度为L的滤波器。通常我们使用的卷积核中的参数都是需要从训练之中学习得到的，而本文采用的方法是使用函数g代替h执行卷积

y[n]＝x[n]*g[n,θ] (3)

其中：g[n,θ]＝2f₂sinc(2πf₂n)-2f₁sinc(2πf₁n)

有上公式可见，滤波器的参数仅仅是低截止频率和高截止频率(CutoffFrequency)。这一自定义卷积核操作不仅减少了参数，同时加速了模型的收敛速度。

(A-2)理想的带通滤波器的特点是应该有一个完全平坦的通带，在通带内没有放大或者衰减，并且在通带之外所有频率都被完全衰减掉，另外，通带外的转换在极小的频率范围完成。为了使得该滤波器近似理想状态，加窗操作是一种很好的选择。将函数g与窗口函数w相乘来执行窗口化，使得函数g更加平滑：

g_w[n,f₁,f₂]＝g[n,f₁,f₂]·w[n] (4)

其中：

1)f₁≥0，可引入新参数f₁ ^abs＝|f₁|来实现这一约束；

3)f₁还需要满足小于奈奎斯特频率，训练发现这个约束会被自然的满足。

步骤二：基于自注意力机制的深度残差网络的后端建模，步骤如下：

A、基于自注意力机制的深度残差网引入了Selective Kernel(SK)单元，用不同的卷积核提取特征，然后通过每个分支引导的不同信息构成的softmax进行融合。SK单元包括三个方面：分离(split)，融合(Fuse)，调整(Select)。具体如下：

和

(A-2)Fuse操作是进行特征融合，通过门控机制将上一层的输出进行有选择的筛选，使每一个分支都携带不同的信息流进入下一个神经元。

a)对不同分支的输出进行融合，即逐元素进行相加。

b)对两个输出进行全局平均池化(global average pooling，F_gp)操作，获得每一个通道上的全局信息。

c)对输出s做全连接，目的是找到每一个通道占的比重大小。其中F_fc为先降维再升维的两层全连接层，δ表示ReLU激活函数，BN表示Batch Noramlization，W维度是d*C。

z＝F_fc(s)+δ(BN(W_s)) (7)

为了研究d对模型效率的影响，引入衰减率r，C表示通道数。

d＝max(C/r,L) (8)

(A-3)Select操作是通过两个softmax计算出通道之间的权重信息。然后把这个权重信息与原先的

和

相乘，最后进行特征叠加得到V。这个过程可以看做是一个softattention。由于a_c和b_c的函数值相加等于1,因此能够实现对分支中的特征图设置权重，因为不同的分支卷积核尺寸不同，因此实现了让网络自己选择合适的卷积核。

其中：

步骤三：“投票法”联合决策，步骤如下：

A、当输入语音信号x[n]经归一化后，按短样本的长度为l将被分割为M段短音频信号x_M[l]，其中x[n]＝{x₁[l],x₂[l],…,x_M[l]}，M取决于语音信号的长度。随后依次被输入到已训练好的端到端模型中进行决策，并得到M个样本的判决结果。假设模型库中有R个说话人，统计同一语音信号的单一决策结果中每一类别出现的概率y＝{y₁,y₂,…,y_R}，将决策结果中出现频率最高的作为该语音信号的最终识别结果。

Y＝max(y_i),i＝1,2,…,R (11)

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于端到端联合优化及决策的鲁棒性说话人识别方法，其特征在于，包括

Y＝max(y_i),i＝1,2,…,R (11)；

步骤2中,基于参数化带通滤波函数的自适应特征学习提取出特征，步骤如下：

A、为了使CNN的第一层卷积层从原始语音信号中挖掘出深层次说话人信息，对卷积层中的卷积核进行调整，即使用一组参数化带通滤波器sinc函数代替标准CNN网络中的卷积核；其中sinc函数：

(A-1)CNN网络中每个卷积定义如下:

其中：y[n]表示卷积后的输出，x[n]表示原始语音信号，h[n]表示长度为L的滤波器；使用函数g代替h执行卷积

y[n]＝x[n]*g[n,θ] (3)

其中：g[n,θ]＝2f₂sinc(2πf₂n)-2f₁sinc(2πf₁n)

由上公式可见，滤波器的参数仅仅是低截止频率和高截止频率Cutoff Frequency；这一自定义卷积核操作不仅减少了参数，同时加速了模型的收敛速度；

(A-2)为了使得该滤波器近似理想状态，将函数g与窗口函数w相乘来执行窗口化，使得函数g更加平滑：

g_w[n,f₁,f₂]＝g[n,f₁,f₂]·w[n] (4)

其中：

1)f₁≥0，引入新参数f₁ ^abs＝|f₁|来实现这一约束；

2)f₂≥f₁，引入新参数来实现这一约束，

2.根据权利要求1所述的一种基于端到端联合优化及决策的鲁棒性说话人识别方法，其特征在于，步骤2中,基于自注意力机制的深度残差网络的后端建模对提取的特征进行学习，步骤如下：

步骤2.1、基于自注意力机制的深度残差网引入了Selective Kernel(SK)单元，用不同的卷积核提取特征，然后通过每个分支引导的不同信息构成的softmax进行融合；SK单元包括三个方面：分离split，融合Fuse，调整Select；具体如下：

(A1)Split操作是将原特征图X∈R^{H′*W′*C′}分别通过3*3的卷积核和5*5的卷积核生成两个特征图：和

(A2)Fuse操作是进行特征融合，通过门控机制将上一层的输出进行有选择的筛选，使每一个分支都携带不同的信息流进入下一个神经元；

a)对不同分支的输出进行融合，即逐元素进行相加；

b)对两个输出进行全局平均池化F_gp操作，获得每一个通道上的全局信息；

c)对输出s做全连接，目的是找到每一个通道占的比重大小；其中F_fc为先降维再升维的两层全连接层，δ表示ReLU激活函数，BN表示Batch Noramlization，W_s维度是d*C；

z＝F_fc(s)+δ(BN(W_s)) (7)

为了研究d对模型效率的影响，引入衰减率r，C表示通道数；

d＝max(C/r,L) (8)

(A3)Select操作是通过两个softmax计算出通道之间的权重信息；然后把这个权重信息与原先的和相乘，最后进行特征叠加得到V；这个过程看做是一个softattention；由于a_c和b_c的函数值相加等于1,因此能够实现对分支中的特征图设置权重，因为不同的分支卷积核尺寸不同，因此实现了让网络自己选择合适的卷积核；

其中：

步骤2.2、将训练集输入到端到端网络中训练，对参数化滤波器中f₁和f₂两个参数和自注意力机制的深度残差网络参数进行学习，得到端到端模型。

3.根据权利要求1所述的一种基于端到端联合优化及决策的鲁棒性说话人识别方法，其特征在于，步骤3中,采用投票法联合决策，步骤如下：

当输入语音信号x[n]经归一化后，按短样本的长度为l将被分割为M段短音频信号x_M[l]，其中x[n]＝{x₁[l],x₂[l],…,x_M[l]}，M取决于语音信号的长度；随后依次被输入到已训练好的端到端模型中进行决策，并得到M个样本的判决结果；假设模型库中有R个说话人，统计同一语音信号的单一决策结果中每一类别出现的概率y＝{y₁,y₂,…,y_R}，将决策结果中出现频率最高的作为该语音信号的最终识别结果。