CN115472168B

CN115472168B - 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备

Info

Publication number: CN115472168B
Application number: CN202211018691.9A
Authority: CN
Inventors: 熊盛武; 闫垚楠; 吴清典; 字云飞
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2024-04-19
Anticipated expiration: 2042-08-24
Also published as: CN115472168A

Abstract

本发明公开了一种耦合BGCC和PWPE特征的短时语音声纹识别方法、系统及设备，使用Triplet‑DAM方法耦合新的BGCC和PWPE特征，用于文本无关的短时语音声纹识别。通过一维卷积的特征级耦合方法，耦合BGCC声学特征和PWPW的声学特征解决从短语音数据中识别说话人的问题，增强特征多样性；采用Triplet‑DAM以创造性的方式将这两个特征结合起来，通过引入池化后的自注意机制来捕获空间维度和通道维度的声学特征依赖性，空间和通道维度分别建模，再将两个模型融合。最后进行相似度打分，得到结果。本发明获得了一个鲁棒性、高性能、高精度的语音识别模型。

Description

耦合BGCC和PWPE特征的短时语音声纹识别方法、系统及设备

技术领域

本发明属于深度学习与声纹识别技术领域，涉及一种短时语音声纹识别方法、系统及设备，具体涉及一种用于文本无关的基于三重双注意机制耦合BGCC和PWPE特征的短时语音声纹识别方法、系统及设备。

背景技术

声纹识别，又称说话人识别，是从某段语音中识别出说话人身份的过程。与指纹类似，每个人说话过程中蕴含的语音特征和发声习惯等几乎是唯一的。与语音识别不同，语音识别是共性识别，即判定说话内容，说话人识别是个性识别，即判定说话人身份。然而声纹识别的性能取决于许多客观因素，如在嘈杂环境中的记录、语音通道不匹配和短语音问题。特别是在某些应用程序场景中，收集足够的语音数据是很困难的。在短时间语音环境下，语音缺乏足够的声学特征，声纹识别性能明显下降。

为了提高短时语音声纹识别算法的性能效率，研究学者提出基于GMM-UBM的在有限的注册和测试数据下的声纹识别以及iVector向量方法和因子分析子空间估计，以减少冗余模型参数的数量，从而得到更准确的说话人模型。在他们的工作中，前端特征提取方法基于傅里叶变换梅尔三角滤波和线性预测倒谱系数进行模型训练和测试以及模型推理。由于梅尔三角滤波器组具有快速的内部下降趋势和平滑性差，导致相邻子带之间的相关性丧失，从而影响精度。因此显然，上述方法大多受益于优化模型，增强数据特征，提取更多的说话人识别特征。然而，当音频语音变得更短时，仍然存在着重大的挑战。

目前，短时语音声纹识别系统中，没有更好的特征提取方法来从短时间语音信号中获得足够的、有区别的说话人信息模型，也没有更好的训练方法。

发明内容

本发明的目的是为了解决上述背景技术存在的不足，提出了一种用于文本无关的基于三重双注意机制耦合BGCC和PWPE特征的短时语音声纹识别方法、系统及设备。

本发明的方法所采用的技术方案是：一种耦合BGCC和PWPE特征的短时语音声纹识别方法，包括以下步骤：

步骤1：提取原始语音信号的BGCC声学特征和PWPE声学特征；

步骤2：构建特征耦合网络，将BGCC声学特征和PWPE声学特征耦合并投影到n维联合特征空间中；

所述特征耦合网络，由三个CNN网络组成，其中第一个CNN网络输入是BGCC声学特征，其采用64维BGF滤波器组的特征作为输入，之后经过一维卷积层和Relu层，重复四次；第三个CNN网络输入是PWPE声学特征，其以时频信息的48维有效特征作为输入，之后经过一维卷积层和Relu层，重复四次；BGCC声学特征和PWPE声学特征由中间第二个CNN网络耦合起来；在第一层中，第二个CNN网络将BGCC声学特征与PWPE声学特征串联作为输入，之后经过一维卷积层和Relu层，重复五次；在随后的每个一维卷积层中，它接受在BGCC声学特征和PWPE声学特征之前的相应层的输出；最后经过池化层得到最终耦合特征。

步骤3：在BGCC声学特征和PWPE声学特征的耦合的基础上，利用triple-DAM网络从帧级信息中提取相互依赖的深度特征，进行短时间音频信号的文本无关声纹识别。

本发明的系统所采用的技术方案是：一种耦合BGCC和PWPE特征的短时语音声纹识别系统，包括以下模块：

模块1，用于提取原始语音信号的BGCC声学特征和PWPE声学特征；

模块2，用于构建特征耦合网络，将BGCC声学特征和PWPE声学特征耦合并投影到n维联合特征空间中；

模块3，用于在BGCC特征和PWPE特征的耦合的基础上，用于构建triple-DAM网络，从帧级信息中提取相互依赖的深度特征，进行短时间音频信号的文本独立声纹识别。

本发明的设别所采用的技术方案是：一种耦合BGCC和PWPE特征的短时语音声纹识别设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述的耦合BGCC和PWPE特征的短时语音声纹识别方法。

本发明的有益效果在于：

(1)本发明提出了一种短时语音的BGCC声学特征提取方法，通过提出的BGF滤波器结构具有更平滑的响应，以增强相邻子带之间的相关性，从而实现丰富的特征提取，从而提高短时扬声器识别的性能；

(2)本发明提出了另一种用于短时语音的PWPE的声学特征提取方法，通过声噪声抑制，高频信息表示能力高，敏感信号奇点，低维数，非平稳信号分析，可以提高短时语音识别的效果，可以显著提高短时语音的说话人识别效果；

(3)本发明设计了耦合结构，分别利用BGCC和PWPE特征的优势来捕获高分辨的说话人依赖嵌入，以丰富和增强短时语音特征，同时利用耦合特征方法来寻求更大规模的特征表达；

(4)本发明在耦合的基础上，在耦合的基础上，设计了Triplet-DAM，从帧级信息中提取相互依赖的深度特征，并在少量训练样本中获得了一个鲁棒性、高性能、高精度的语音识别模型。

附图说明

图1为本发明实施例的BGCC声学特征提取方法流程图；

图2为本发明实施例的PWPE的树状结构示意图；

图3为本发明实施例的BGCC和PWPE的耦合过程；

图4为本发明实施例的特征耦合网络结构图；

图5为本发明实施例的triple-DAM网络结构图；

图6为本发明实施例的位置注意模块和通道注意模块的结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

一种耦合BGCC和PWPE特征的短时语音声纹识别方法，包括以下步骤：

步骤1：提取原始语音信号的BGCC声学特征和PWPE声学特征；

请见图1，本实施例中，采用短时语音的BGCC声学特征提取方法提取原始语音信号的BGCC声学特征；

具体实现过程是：对带帧的原始语音信号x(i)进行FFT变换，将数据从时域变换到频域S(j,k)：

S(j,k)＝FFT[x_w(j,k)]；

其中，原始语音信号x(i)经过预处理(预加重、分帧及加窗)成为x_w(j,i)，j、k分别为频域内的帧数和谱线数；

基于快速傅里叶变换输出功率谱E_power(j,k)：

E_power(j,k)＝[S(j,k)]2；

使用Bark-scaled高斯滤波器组，并归一化：

其中b指第b个BGF过滤器，m是BGF过滤器的数量；σ_l为标准差，k_l为第l条滤波器边界点(树皮尺度中心频率)；N预处理过程中将音频分成N份，Π为π＝3.1415926...，w(j,b)为BGF(Bark-scaled Gauss filter)功率，得到的单个BGF滤波器表达式可以写为(K_l-2、K_l-1、K_l、K_l+1、K_l+2)；

最后做一阶差分和二阶差分(图1中的delta1/2的含义)，获取动态特征，即短时语音的BGCC声学特征。

请见图2，本实施例中，采用短时语音的PWPE声学特征提取方法提取原始语音信号的PWPE声学特征；

具体实现包括以下步骤：

(1)将信号通过七级WPT，其叶节点代表了由PWPT分解得到的16个子信号，即有效帧，它们的中心频率与由Greenwood函数得到的16个临界频率相吻合；

其中，基于Greenwood模型构建24个听觉滤波器，覆盖人类的听力范围从20HzkHz到20kHz；使用前16个听觉滤波器构建PWPE；

本实施例构造了一个七级WPT，在“修剪”之后，其分解树如图2所示；其中，表示一个要被分解的信号s[n]、，每个节点的左右分支分别表示低通和高通滤波过程，定义如下：

其中，是经验值，就是每一个小波分量计算得到的小波系数值，也就是特征值；l＝0,1,...,L，k＝0,1,...,2^l-1，L是小波变换的总分解水平，h[]，g[]形成一个共轭镜滤波器组，其中h[]是低通滤波器，g[]是高通滤波器，由母小波及其尺度函数决定；

(4)获得有效帧后，对有效帧进行归一化，使有效帧的采样点服从N(0,1)分布，消除体积干扰；

(6)其中，f[]为具有有限长度和有限能量的有效帧，μ和σ分别为f的均值和标准差；是归一化后的有效帧；/>被PWPT分解的16个子帧经过归一化，记为w₁～w₁₆；为了提高熵特征对环境噪声的抵抗力，对每个子帧的分量都进行降噪处理，降噪过程记为：

其中，w_l[i]表示子帧w_l的系数。d_l[i]表示降噪后的系数。T为降噪阈值，定义为：

其中j(w_l)为w_l的长度，m(w_l)为w_l的绝对中值差。c为噪声因子，取为0.675。降噪后，计算d_l(l＝1,2,3,.....,16),的熵，其中熵系数h(d_l)计算如下：

其中，I表示d_l的长度。

(3)计算熵，得到PWPE特征向量v_pwpe＝[h(d₁),h(d₂),...,h(d₁₆)]。

请见图3，本实施例的耦合过程，整体由三个模型组成，每个模型结构，当单独查看时，都类似于CNN网络，在帧级上有几层一维卷积，然后是池化。

BGCC的声学特征采用了64维BGF滤波器组的特征，而PWPE则以时频信息的48维有效特征作为输入。这两个特性是由中间模块耦合起来的。在第一层中，耦合特征将BGCC与PWPE串联作为输入。在随后的每个一维卷积层中，它接受在BGCC特征和PWPE特征之前的相应层的输出，就像它之前的每个层的输出一样。

请见图4，本实施例的特征耦合网络，由三个CNN网络组成，其中第一个CNN网络输入是BGCC声学特征，其采用64维BGF滤波器组的特征作为输入，之后经过一维卷积层和Relu层，重复四次；第三个CNN网络输入是PWPE声学特征，其以时频信息的48维有效特征作为输入，之后经过一维卷积层和Relu层，重复四次；BGCC声学特征和PWPE声学特征由中间第二个CNN网络耦合起来；在第一层中，第二个CNN网络将BGCC声学特征与PWPE声学特征串联作为输入，之后经过一维卷积层和Relu层，重复五次；在随后的每个一维卷积层中，它接受在BGCC声学特征和PWPE声学特征之前的相应层的输出；最后经过池化层得到最终耦合特征。

步骤3：在耦合的基础上，使用triple-DAM网络，从帧级信息中提取相互依赖的深度特征，进行短时间音频信号的文本独立声纹识别。

本实施例在步骤3基础上，为了增强多种声学特征表示，引入了注意机制。通过引入池后的自我注意机制捕获声学特征空间和通道维度之间的依赖，空间和通道维度分别建模。最后，两个插件被融合。

请见图5，本实施例的triple-DAM网络，由三个克隆的耦合特征DAM模型组成，并且这三个克隆模型“共享权重”(他们的权重矩阵占据相同的内存空间。在训练阶段，对三个DAM中的任何一个进行的任何更改都会用“共享权重”进行更新，因此反映在整个DAM中)。

请见图6，本实施例其中一个DAM网络，将BGCC特征和PWPE特征的耦合特征通过池化后的自注意机制来捕获空间维度和通道维度之间的声学特征依赖性，将空间维度和通道维度分别建模，然后对两个注意模块的输出进行聚合。

本实施例的空间维度建模，从池化层输出局部特征r(c*w*1)，在r(c*w*1)中进行三个卷积层，得到x、y、z特征映射，然后将x、y、z重塑为(c*n)，然后x转置乘以y，用softmax得到空间注意映射p(n,n)，同时p转置乘以z矩阵，结果重塑为(c*w*1)，再乘以一个比例参数，然后添加到原始的输入特征映射中，得到最终的输出映射f_k，数学计算如下：

其中，x_s,y_k第s个位置的x特征映射，第k个位置的y特征映射(对应将r通过三个卷积层，得到x，y，z特征映射)，c、w、n是特征的维度；α为比例参数，初始化为0；p_s,k表示第s个位置对第k个位置的影响；

本实施例的通道维度建模，从池化层输出局部特征r(c*w*1)，在r(c*w*1)中进行三个卷积层，得到x、y、z特征映射，然后将x、y、z重塑为(c*n)，将x和y的转置乘以c*c的矩阵，然后对c*c的矩阵进行softmax运算，公式定义为：

其中，r_s,r_k分别表示第s位置的局部特征和第k个位置的局部特征；β为尺度参数，从0开始学习，p_s,k表示第s个位置对第k个位置的影响；

空间维度得到的输出映射与通道维度得到的输出映射进行一个sum fusion，然后通过一个fully connected层和layer normalization层，得到每个DAM网络的embedding结果。

每个DAM网络得到的特征，通过余弦三重态嵌入损失来训练triple-DAM模型，具体如下：

其中，(s_a、s_p、s_n)为声音样本，是一个三联体，τ是三联体的批次，来自受试者a的声音样本是锚样本s_a和阳性样本s_p，阴性样本s_n是来自另一个受试者b的声音样本，因此a≠b；f()是声音样本经过处理后得到的embedding结果；L()表示余弦三联体嵌入损失函数，α_margin是一个用户可调谐的超参数，其值为0.25，它决定了负语音样本和正语音样本之间的最小距离。

在训练阶段，损失函数(L())帮助网络分别学习锚定样本与正样本、锚定样本和负样本之间的相似性和不相似性；

在测试阶段，将已训练过的triple-DAM网络看成一个整体；将训练过的DAM的两个副本来匹配一个数据对d_t＝(s₁,s₂)，其中，s₁和s₂是两个分别录制的语音样本；然后使用训练过的DAM的两个副本分别提取s₁和s₂的嵌入；提取的嵌入使用余弦相似度度量进行比较，得到匹配分数；属于同一受试者的样本对的嵌入匹配得分约为1，而属于两个不同受试者的样本对的嵌入匹配得分约为-1。

本发明利用了BGCC和PWPE声学特征提取方法进行语音信号的特征提取，捕获到语音各个方面的足够信息。本发明利用将BGCC和PWPE特征空间中的语音特征耦合的方法，弥补现有短时音频扬声器识别中特征稀疏性和可区别声学特征提取提取不足的不足。本发明利用triple-DAM框架,从帧级信息中提取相互依赖的深度特征。最后，进行相似度打分，得到结果。

其实验结果如下：

(1)短时间VoxCeleb-2语音语料库的验证结果：

(2)对短时NIST SRE 2008语音数据集的验证结果：

从上表中可以看出，最右边是这个triple-DAM得出的数据最好。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种耦合BGCC和PWPE特征的短时语音声纹识别方法，其特征在于，包括以下步骤：

步骤1：提取原始语音信号的BGCC声学特征和PWPE声学特征；

所述特征耦合网络，由三个CNN网络组成，其中第一个CNN网络输入是BGCC声学特征，其采用64维BGF滤波器组的特征作为输入，之后经过一维卷积层和Relu层，重复四次；第三个CNN网络输入是PWPE声学特征，其以时频信息的48维有效特征作为输入，之后经过一维卷积层和Relu层，重复四次；BGCC声学特征和PWPE声学特征由中间第二个CNN网络耦合起来；在第一层中，第二个CNN网络将BGCC声学特征与PWPE声学特征串联作为输入，之后经过一维卷积层和Relu层，重复五次；在随后的每个一维卷积层中，它接受在BGCC声学特征和PWPE声学特征之前的相应层的输出；最后经过池化层得到最终耦合特征；

2.根据权利要求1所述的耦合BGCC和PWPE特征的短时语音声纹识别方法，其特征在于：步骤1中，采用短时语音的BGCC声学特征提取方法提取原始语音信号的BGCC声学特征；

所述短时语音的BGCC声学特征提取方法，具体实现过程是：对带帧的原始语音信号x(i)进行FFT变换，将数据从时域变换到频域S(j,k)：

S(j,k)＝FFT[x_w(j,k)]；

其中，原始语音信号x(i)经过预处理成为x_w(j,i)，j、k分别为频域内的帧数和谱线数；

基于快速傅里叶变换输出功率谱E_power(j,k)：

E_power(j,k)＝[S(j,k)]²；

使用一个1x5Bark-scaled高斯滤波器组，并归一化，因此，BGF功率的计算过程：

其中b指第b个BGF过滤器，m是BGF过滤器的数量；σ_l为标准差，k_l为第l条滤波器边界点；N预处理过程中将音频分成N份，Π为π，w(j,b)为BGF功率，得到的单个BGF滤波器表达式记为(K_l-2、K_l-1、K_l、K_l+1、K_l+2)；

最后做一阶差分和二阶差分，获取动态特征，即短时语音的BGCC声学特征。

3.根据权利要求1所述的耦合BGCC和PWPE特征的短时语音声纹识别方法，其特征在于，步骤1中，采用短时语音的PWPE声学特征提取方法提取原始语音信号的PWPE声学特征；

所述短时语音的PWPE声学特征提取方法，具体实现包括以下步骤：

其中，基于Greenwood模型构建24个听觉滤波器，覆盖人类的听力范围从20HzkHz到20kHz；使用前16个听觉滤波器构建PWPE由于有效的语音范围通常是30Hz到4kHz，因此只有前16个听觉滤波器被用于构建PWPE；为构建PWPE，首先构建一个七级的WPT；所述七级WPT，表示一个要被分解的信号s[n]、每个节点的左右分支分别表示低通和高通滤波过程，定义如下：

其中，为经验值，是每一个小波分量计算得到的小波系数值，也就是特征值；l＝0,1,...,L，k＝0,1,...,2^l-1，L是小波变换的总分解水平，h[]，g[]形成一个共轭镜滤波器组，其中h[]是低通滤波器，g[]是高通滤波器，由母小波及其尺度函数决定；

(2)获得有效帧后，对有效帧进行归一化，使有效帧的采样点服从N(0,1)分布，消除体积干扰；

其中，f[]为具有有限长度和有限能量的有效帧，μ和σ分别为f的均值和标准差；是归一化后的有效帧；/>被PWPT分解的16个子帧经过归一化，记为w₁～w₁₆；

对每个子帧的分量都进行降噪处理，降噪过程记为：

其中，w_l[i]表示子帧w_l的系数，d_l[i]表示降噪后的系数，T为降噪阈值，定义为：

其中j(w_l)为w_l的长度，m(w_l)为w_l的绝对中值差；c为噪声因子；

降噪后，计算d_l的熵，l＝1,2,3,.....,16；其中熵系数h(d_l)计算如下：

其中，I表示d_l的长度；

4.根据权利要求1所述的耦合BGCC和PWPE特征的短时语音声纹识别方法，其特征在于：步骤3中，利用triple-DAM网络从帧级信息中提取相互依赖的深度特征；

所述triple-DAM网络，由三个克隆的耦合特征DAM模型组成，且三个克隆的耦合特征DAM模型“共享权重”；

所述耦合特征DAM模型，将BGCC声学特征和PWPE声学特征的耦合特征通过池化后的自注意机制来捕获空间维度和通道维度之间的声学特征依赖性，将空间维度和通道维度分别建模，然后对两个注意模块的输出进行聚合；

所述空间维度建模，从池化层输出局部特征r(c*w*1)，在r(c*w*1)中进行三个卷积层，得到x、y、z特征映射，然后将x、y、z重塑为(c*n)，然后x转置乘以y，用softmax得到空间注意映射p(n,n)，同时p转置乘以z矩阵，结果重塑为(c*w*1)，再乘以一个比例参数，然后添加到原始的输入特征映射中，得到最终的输出映射f_k，数学计算如下：

其中，x_s,y_k是第s个位置的x特征映射，第k个位置的y特征映射，c、w、n是特征的维度；α为比例参数，初始化为0；p_s,k表示第s个位置对第k个位置的影响；

所述通道维度建模，从池化层输出局部特征r(c*w*1)，在r(c*w*1)中进行三个卷积层，得到x、y、z特征映射，然后将x、y、z重塑为(c*n)，将x和y的转置乘以c*c的矩阵，然后对c*c的矩阵进行softmax运算，公式定义为：

5.根据权利要求1-4任一项所述的耦合BGCC和PWPE特征的短时语音声纹识别方法，其特征在于：步骤3中所述triple-DAM网络训练方法；

其中，(s_a、s_p、s_n)为声音样本，是一个三联体，τ是三联体的批次，来自受试者a的声音样本是锚样本s_a和阳性样本s_p，阴性样本s_n是来自另一个受试者b的声音样本，因此a≠b；f()是声音样本经过处理后得到的embedding结果；L()表示余弦三联体嵌入损失函数，α_margin是一个用户可调谐的超参数；

在训练阶段，损失函数L()帮助网络分别学习锚定样本与正样本、锚定样本和负样本之间的相似性和不相似性；

在测试阶段，将已训练过的triple-DAM网络看成一个整体；将训练过的triple-DAM的两个副本来匹配一个数据对d_t＝(s₁,s₂)，其中，s₁和s₂是两个分别录制的语音样本；然后使用训练过的DAM的两个副本分别提取s₁和s₂的嵌入；提取的嵌入使用余弦相似度度量进行比较，得到匹配分数；属于同一受试者的样本对的嵌入匹配得分约为1，而属于两个不同受试者的样本对的嵌入匹配得分约为-1。

6.一种耦合BGCC和PWPE特征的短时语音声纹识别系统，其特征在于，包括以下模块：

7.一种耦合BGCC和PWPE特征的短时语音声纹识别设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任一项所述的耦合BGCC和PWPE特征的短时语音声纹识别方法。