CN113077795A

CN113077795A - 一种通道注意力传播与聚合下的声纹识别方法

Info

Publication number: CN113077795A
Application number: CN202110368665.8A
Authority: CN
Inventors: 李鹏华; 田鹏; 刘行谋; 陈旭赢; 李祖栋; 卢楠; 王宁; 鲁鑫; 高翔
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-04-06
Filing date: 2021-04-06
Publication date: 2021-07-06
Anticipated expiration: 2041-04-06
Also published as: CN113077795B

Abstract

本发明涉及一种通道注意力传播与聚合下的声纹识别方法，属于信号处理领域。该方法包括以下步骤：S1：原始语音离散信号的二阶小波散射变换；S2：多尺度特征的声纹映射编码；S3：声纹编码的相似度评估。本发明通过小波散射变换获取多尺度的短时语音特征，采用基于通道注意力传播和聚合的时延神经网络对多尺度特征进行映射得到声纹编码，以提高声纹识别的准确性与鲁棒性。本研究兼顾了长时与短时语音的处理，为含有短时语音数据的声纹识别，提供了新的技术手段，亦可迁移到其他语音处理领域，作为声纹编码的获取方法之一。

Description

一种通道注意力传播与聚合下的声纹识别方法

技术领域

本发明属于信号处理领域，涉及一种通道注意力传播与聚合下的声纹识别方法。

背景技术

声纹识别作为一种生物识别技术，相较于人脸识别，指纹识别等技术具有以下优点：(1)获取方便；(2)成本低；(3)用户接受程度高；(4)普适性广。近几年来，使用神经网络隐层输出为声纹编码的研究取得了显著进展。但由于对包含短时语音的声纹数据提取的声纹特征较少、声纹特征鲁棒性差，声纹识别系统的可靠运行依然面临重大挑战。

许多研究工作都采用Voxceleb或Librispeech等数据集进行建模和验证，这些数据集的音频平均时长为8.2秒，属于长语音，时长3秒以下的短时语音占比只有1％，并且仅利用梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)或者对数滤波器组特征(log-Filter Banks，fbanks)提取高维语音特征，使得研究人员放弃使用这部分数据，单一尺度的语音特征降低了声纹识别模型对短时语音声纹特征的建模能力与性能。现有模型都只针对网络最后一层的帧级特征提取说话者声纹的各种属性特征，并没有注意到其他网络层所提取的帧级特征与各个通道中所包含的丰富信息，即，未捕获并强调声纹特征的有用信息，使得网络输出的声纹编码的鲁棒性不足，降低了声纹识别的性能。

发明内容

有鉴于此，本发明的目的在于提供一种通道注意力传播与聚合下的声纹识别方法。

为达到上述目的，本发明提供如下技术方案：

一种通道注意力传播与聚合下的声纹识别方法，该方法包括以下步骤：

S1：原始语音离散信号的二阶小波散射变换；

S2：多尺度特征的声纹映射编码；

S3：声纹编码的相似度评估。

可选的，所述S1具体为：

小波散射变换系数是通过低通滤波器φ对小波系数的模求平均而得到的，记小波f(t)为中心频率归一化为1的带通滤波器，通过扩张小波f(t)得到小波滤波器组f_λ(t)：

f_λ(t)＝λf(λt) (1)

Q是每个尺度的小波数量，小波f(t)的带宽是

滤波器组由带通滤波器组成，这些带通滤波器以λ的频域为中心，并且带宽为

在零阶，由式(2)计算小波系数，该系数对于音频信号接近于零；在计算一阶小波系数时，设置Q₁＝8，相当于定义具有与梅尔频率滤波器组相同频率尺度的小波；同样是通过低通滤波器φ对小波系数的模求平均获得近似于梅尔频谱的系数：

S₀x(t)＝x*φ(t) (2)

由式(4)计算捕获发生在第一层各频带的高频调幅的二阶系数：

小波

具有的尺度Q₂与Q₁不同，设置Q₂＝1，定义具有更短时间支持的小波，用于表征瞬态特征；得到一个稀疏的表示，将信号的信息集中在尽可能少的小波系数中；这些小波系数由低通滤波器φ对小波系数的模求平均得到，与一阶系数相同，低通滤波器保证时移的局部不变性；

级联一阶与二阶散射变换的特征以形成给定帧的小波散射特征S：

S＝concatnate(S₁x(t,λ₁),S₂x(t,λ₁,λ₂)) (5)

该特征为相同信号提供了不同尺度特征；该散射特征包括了对数梅尔特征以及更高阶特征，保留了语音信号中的细节信息并且在时间和对数频率上具有局部平移不变性。

可选的，所述S2具体为：

设计残差连接下的平均分组交替规则，实现声纹特征的全局信息复用，构建适用于不同组别的小尺度卷积核，获取声纹特征的局部信息，降低残差网络参数量；采用“压缩-扩张”操作进一步筛选声纹特征的有用信息，提高声纹特征的可分性；

在残差连接交替卷积和注意力模块ResA2Net模块模块中，以倒谱系数表征的单个声纹特征通过点卷积运算，转换成n组特征子集，表示为

每个特征子集

的分辨率与输入的声纹特征保持一致，通道数降低为输入特征的1/n；针对每个

构建不同尺寸的卷积核K_i(·)，并采用级联交替的方式依次计算相应的特征映射；相应的特征映射Y_i表示为：

原始X-Vector系统中的帧级特征的时间上下文限制为15帧，引入一维“压缩-扩张”模块与扩张卷积级联，对全局的通道相互依赖性建模，将全局空间信息转换至通道描述中，学习通道间的非线性相互作用与非互斥关系；

一维“压缩-扩张”模块的第一部分是对输入y_t的“压缩”操作：

在“扩张”阶段，使用s中的描述计算每个通道的权重：

d＝σ(W₂f(W₁s+b₁)+b₂) (8)

其中σ(·)表示sigmoid函数，f(·)表示Mish激活函数，

一维“压缩-扩张”的操作充当一次残差连接，C和R分别表示输入通道的数量和降低后的尺寸大小，得到的向量d包含每个通道的权值d_c∈(0,1)，该权值通过通道间的直接相乘应用于原始输入得到ResA2Net模块的输出：

原始X-Vector系统使用最后一层的帧级特征层映射计算汇总统计信息，对于每一个帧级特征层，利用所提出的系统将其聚合连接；

C和T分别对应中间特征映射的通道数和时间维度，d为扩张卷积的扩张空间，S为训练集说话人数量；在多层特征聚合MFA后，将聚合后的帧级特征送入统计池化层，经过该层的输出即为声纹编码；

在网络权值初始化时，在全连接层的权重上引入正则性约束：

其中W是网络最后一层的权重，z为一个n维的向量

δw∈(0，1)并且是一个常量，||·||表示Frobenius范数；

提高以余弦相似度为后端相似度计算的声纹识别系统的识别准确率。

可选的，所述S3具体为：

根据基于小波散射变换与通道注意力传播和聚合的时延神经网络得到的声纹编码，按式(11)对不同声纹编码δ_k与δ_h进行相似度计算，以完成声纹识别：

本发明的有益效果在于：

本发明通过小波散射变换获取多尺度的短时语音特征，采用基于通道注意力传播和聚合的时延神经网络对多尺度特征进行映射得到声纹编码，以提高声纹识别的准确性与鲁棒性。本发明兼顾了长时与短时语音的处理，为含有短时语音数据的声纹识别，提供了新的技术手段，亦可迁移到其他语音处理领域，作为声纹编码的获取方法之一。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为ResA2Net模块结构；

图2为通道注意力传播和聚合的时延神经网络结构。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

针对含有短时语音的音频数据的声纹识别准确性不高问题，研究多尺度描述下包含短时语音数据的声纹识别方法。以原始语音的离散信号为对象，设计二阶小波散射变换从多个尺度获取声纹帧级特征；以多尺度的高维声纹帧级特征为对象，研究所有帧级特征层在个模型中的传播与聚合方式、全局上下文信息的通道注意力机制以及在正交约束下的声纹编码映射方法，实现包含短时语音数据的声纹识别。

一种通道注意力传播与聚合下的声纹识别方法，包括对语音原始数据的二阶小波散射变换、声纹编码映射、相似度评估计算三个步骤。

1)原始语音离散信号的二阶小波散射变换

f_λ(t)＝λf(λt) (1)

此处的

Q是每个尺度的小波数量，小波f(t)的带宽是

在零阶，由式(2)计算小波系数，该系数对于音频信号接近于零。在计算一阶小波系数时，设置Q₁＝8，相当于定义了具有与梅尔频率滤波器组相同频率尺度的小波。同样是通过低通滤波器φ对小波系数的模求平均获得近似于梅尔频谱的系数：

S₀x(t)＝x*φ(t) (2)

小波

具有的尺度Q₂与Q₁不同，这里设置Q₂＝1，定义了具有更短时间支持的小波，更适合表征瞬态特征。由此，得到了一个稀疏的表示，这意味着将信号的信息集中在了尽可能少的小波系数中。这些系数由低通滤波器φ对小波系数的模求平均得到，与一阶系数相同，低通滤波器保证了时移的局部不变性。

S＝concatnate(S₁x(t,λ₁),S₂x(t,λ₁,λ₂)) (5)

该特征为相同信号提供了不同尺度特征。该散射特征包括了对数梅尔特征以及更高阶特征，保留了语音信号中的细节信息并且在时间和对数频率上具有局部平移不变性。

2)多尺度特征的声纹映射编码

设计残差连接下的平均分组交替规则，实现声纹特征的全局信息复用，构建适用于不同组别的小尺度卷积核，获取声纹特征的局部信息，降低残差网络参数量；采用“压缩-扩张”操作进一步筛选声纹特征的有用信息，提高声纹特征的可分性。残差连接交替卷积和注意力模块(Residual Alternate Convolution and Attention Network,ResA2Net)模块的结构如图1所示：

其中C为通道拼接操作,

为逐元素相加。在该模块中，以倒谱系数表征的单个声纹特征通过点卷积运算，转换成n组特征子集(表示为

(i＝1,2,...,n))，每个特征子集

的分辨率与输入的声纹特征保持一致，通道数降低为输入特征的1/n。针对每个

构建不同尺寸的卷积核K_i(·)，并采用级联交替的方式依次计算相应的特征映射。相应的特征映射Y_i可表示为：

原始X-Vector系统中的帧级特征的时间上下文限制为15帧，由于网络明显受益于更加宽泛的时间上下文，所以引入一维“压缩-扩张”模块与扩张卷积级联，对全局的通道相互依赖性建模，将全局空间信息转换至通道描述中，学习通道间的非线性相互作用与非互斥关系。

在“扩张”阶段，使用s中的描述计算每个通道的权重：

d＝σ(W₂f(W₁s+b₁)+b₂) (8)

其中σ(·)表示sigmoid函数，f(·)表示Mish激活函数，

一维“压缩-扩张”的操作充当一次残差连接，C和R分别表示输入通道的数量和降低后的尺寸大小。该操作得到的向量d包含了每个通道的权值d_c∈(0,1)，该权重通过通道间的直接相乘应用于原始输入得到ResA2Net模块的输出：

原始X-Vector系统仅仅使用最后一层的帧级特征层映射计算汇总统计信息，由于到TDNN的层次结构性质，更深层次的网络层的特征包含了更为复杂的与说话者身份相关的信息，但是较浅的网络层包含的信息也能增强声纹编码的鲁棒性。所以对于每一个帧级特征层，都利用所提出的系统将其聚合连接，如图2所示。

其中C和T分别对应中间特征映射的通道数和时间维度，d为扩张卷积的扩张空间，S为训练集说话人数量。在多层特征聚合(Multi-layer Feature Aggregation，MFA)后，将聚合后的帧级特征送入统计池化层(Statistics Pooling Layer)，经过该层的输出即为声纹编码。

其中W是网络最后一层的权重，z为一个n维的向量

δw∈(0，1)并且是一个常量，||·||表示Frobenius范数。提高了以余弦相似度为后端相似度计算的声纹识别系统的识别准确率。

3)声纹编码的相似度评估

根据基于小波散射变换与通道注意力传播和聚合的时延神经网络得到的声纹编码，按下式对不同声纹编码(δ_k与δ_h)进行相似度计算，以完成声纹识别。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。