CN114038469B

CN114038469B - 一种基于多类谱图特征注意力融合网络的说话人识别方法

Info

Publication number: CN114038469B
Application number: CN202110887726.1A
Authority: CN
Inventors: 贾勇; 焦旭; 张葛祥; 杨强; 姚光乐; 方祖林; 罗标; 汤刚; 何瑶
Original assignee: Chengdu Turing Zhiyang Information Technology Co ltd; Chengdu Univeristy of Technology
Current assignee: Chengdu Turing Zhiyang Information Technology Co ltd; Chengdu Univeristy of Technology
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2023-06-20
Anticipated expiration: 2041-08-03
Also published as: CN114038469A

Abstract

本发明公开了一种基于多类谱图特征注意力融合网络的说话人识别方法，采用改进的34层残差网络和3DCNN残差网络作为识别模型，将语音信号分别转化为语谱图、Mel‑Fbank谱图和Gam‑Fbank谱图作为网络的训练特征图，利用34层残差网络提取三种谱图的空间特征，接着将三种谱图堆叠后利用3DCNN残差网络提取谱图间相互关联特征，并在上述网络模型后端引入通道注意力机制，使得网络自主学习如何生成最佳特征向量，接着将四个模型生成的特征向量进行融合，最后将融合后的特征向量与数据库中的说话人特征向量进行余弦距离比较，以确定说话人身份。本发明弥补了说话人特征因单一而无法准确表达的缺陷，从而有效的提升了说话人识别的准确率。

Description

一种基于多类谱图特征注意力融合网络的说话人识别方法

技术领域

本发明涉及声纹识别领域，具体的说，涉及一种基于多类谱图特征注意力融合网络的说话人识别方法。

背景技术

说话人识别也称为声纹识别，是指通过对说话人语音信号的分析处理，确认说话人是否属于所记录的说话人集合，以及进一步确认说话人是谁。按其最终完成的任务不同，说话人识别可以分为两类：说话人确认和说话人辨认。

说话人识别领域应用十分广泛，包括公安领域、金融领域、军事领域以及医疗领域等等。但传统的说话人识别技术(如GMM-UBM、GMM-SVM、JFA、i-vector等)准确率低、鲁棒性弱、实用性不强，无法满足当前实际应用要求。近年来深度学习在特征表达和模式分类方面表现优异，为说话人识别技术的进一步发展提供了新方向。

单一的说话人特征无法较好的完整表达说话人身份，不能完整的表示说话人语音在不同维度上的信息，可能会产生过拟合。除单一特征外，许多学者将一个深度网络中不同层的输出作为特征，以此来丰富说话人的身份特征，但特征间冗余度较高，同时也会极大增加系统的计算量。因此，目前说话人识别算法无法较好的表达说话人身份信息，其识别的准确率有待提高。

发明内容

本发明针对现有技术存在的不足，提供了一种基于多类谱图特征注意力融合网络的说话人识别方法，只需将语音信号变换成三种不同的谱图，并将三种谱图在空间上进行堆叠，依次训练三个34层残差网络和一个3DCNN残差网络模型，最后将输出的特征向量进行融合识别，有效的解决了单一特征无法完整表达说话人身份的问题，提高了说话人识别的准确率。

本发明的具体技术方案如下：

一种基于多类谱图特征注意力融合网络的说话人识别方法，如图1所示，包括以下步骤：

步骤1：对语音信号进行端点检测，目的是去除收集到的语音所包含的静音片段，消除无声段噪声；

步骤2：对消除静音片段后的语音信号进行预加重，目的是去除口唇辐射的影响，增加语音的高频分辨率；

步骤3：对预加重后的语音信号进行分帧，由于语音信号在“短时间”内可以认为是稳态的、时不变的，所以在进行语音信号处理前需要分帧，帧长一般取10～30ms，并且为了使特征参数平滑地变化，往往设置在相邻的两帧之间有一部分重叠；

步骤4：对分帧后的每帧语音信号进行加窗，目的是为了减少语音信号截断导致的频谱泄露；

步骤5：对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱；

步骤6：分别计算生成语音信号的语谱图、Mel-Fbank谱图和Gam-Fbank谱图；

步骤7：分别利用语谱图、Mel-Fbank谱图和Gam-Fbank谱图作为神经网络的输入，训练三个残差34层网络模型；

步骤8：将三种谱图堆叠成谱图立方体作为神经网络的输入，训练3DCNN残差网络模型；

步骤9：在上述四个模型后端分别引入注意力机制，目的是分配给每个通道不同的权重，让网络关注重要的特征，抑制不重要的特征，从而生成最佳特征向量。

步骤10：将三个残差34层网络模型和3DCNN残差网络模型生成的特征向量进行特征融合；

步骤11：将融合后的特征向量与数据库中已有的特征向量进行相似度计算，设定阈值，从而判决出说话人。

作为优选：步骤2中语音信号进行预加重操作，预加重可通过一阶FIR滤波器来实现，其传递函数可表示为：

H(z)＝1-az^-1 (1)

式(1)中，a为预加重系数，通常可以取0.9<a<1.0。

作为优选：步骤4中对分帧后的信号进行加窗，应用汉宁窗，其表达式为：

其中，x(n)为每一帧时域采样信号，X(k)为语音的频谱，N离散傅里叶变换区间长度，k为频域离散刻度，n为时域离散刻度。

作为优选：步骤5中对处理好的每一帧时域信号x(n)通过离散傅里叶变换或快速傅里叶变换得到语音的频谱X(k)，可表示为：

作为优选：步骤6中语谱图的生成过程为：

A1)对输入的语音信号进行量化采样和预处理，对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱；

A2)取傅里叶变换后的频谱的对数能量，生成语谱图。

作为优选：步骤6中梅尔谱图的生成过程为：

B1)对输入的语音信号进行量化采样和预处理，对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱；

B2)将频谱输入Mel滤波器组进行滤波，生成Mel频谱,取Mel频谱的对数能量，生成梅尔谱图。

作为优选：步骤6中Gam-Fbank谱图的生成过程为：

C1)对输入的语音信号进行量化采样和预处理，对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音的频谱；

C2)将频谱输入Gammatone滤波器组进行滤波，生成Gammatonel频谱,取Gammatone频谱的对数能量，生成Gam-Fbank谱图。

作为优选：步骤B2中Mel滤波器是对人耳感知非线性频率变化的模拟，Mel刻度和频率的关系如下：

式中，m为Mel刻度，f为频率。

作为优选：步骤B2中Mel滤波器是一组三角带通滤波器Hm(k)，且需满足0≤m≤M，其中M表示滤波器的数量，通常为20～28。带通滤波器的传递函数可以表示为：

其中，H(k)为带通滤波器函数，f(m)为中心频率，m表示第m个滤波器，k为频域刻度。

作为优选：步骤C2中Gammatone滤波器组用于模拟耳蜗底膜的听觉特性，其时域表达式如下：

h(f，t)＝ct^n-1e^-2πbtcos(2πf_i+φ_i)t＞0，0＜i≤N (6)

式(6)中，c为调节比例的常数，n为滤波器的级数，b为衰减速度，i为滤波器序数，f_i为滤波器的中心频率，Φ_i为滤波器的频率，N为滤波器个数。

作为优选：步骤9中对于网络生成的特征

其融合特征向量/>

作为优选：步骤10中采用余弦距离计算相似度，可以表示为：

其中，

为两特征向量，d为所求的余弦距离。

有益效果在于：

本发明分别利用语谱图、Mel-Fbank谱图、Gam-Fbank谱图和三种谱图的堆叠作为神经网络的输入，将网络输出的特征进行融合，该方法表达了在不同维度上的说话人声音身份的信息，弥补了单一特征无法较好表达说话人身份的缺陷，从而大幅提升说话人识别的准确率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明方法的总体结构框图；

图2为语谱图、Mel-Fbank谱图、Gam-Fbank谱图的提取过程；

图3为梅尔滤波器组示意图；

图4为Gammatone滤波器组示意图；

图5为测试集准确率随训练轮数变化曲线图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

现在结合说明书附图对本发明做进一步的说明。

如图1所示，本发明提供了一种基于深度学习网络的多模型特征融合的说话人识别方法，包括以下步骤：

步骤1：对采集到的声音信号进行采样量化，本实施例的采样频率为1600Hz；

步骤2：对采样后的信号进行预加重，目的是为了去除口唇辐射的影响，增加语音的高频分辨率。预加重可通过一阶FIR滤波器来实现，其传递函数可表示为：

H(z)＝1-az^-1 (1)

式(1)中，a为预加重系数，通常可以取0.9<a<1.0；

步骤3：对预加重后的信号进行分帧，分帧是由于语音信号在“短时间”内可以认为是稳态的、时不变的，帧长一般取10～30ms，本实施例取10ms,并且为了使特征参数平滑地变化，往往设置在相邻的两帧之间有一部分重叠；

步骤4：对分帧后的信号进行加窗，是为了减少语音信号分帧导致的频谱泄露，本实例采用汉宁窗，窗长512，其表达式为：

步骤5：对处理好的每一帧时域信号x(n)通过离散傅里叶变换或快速傅里叶变换得到语音的频谱X(k)，可表示为：

步骤6：分别生成语音信号的语谱图、梅尔谱图和Gam-Fbank谱图，同时将三种谱图叠加，以作为神经网络的输入；

步骤7：利用Python编程语言搭建改进的34层残差网络(Thin ResNet-34)和3DCNN残差(3DCNN ResNet-34)网络，网络结构如表1所示；

表1

步骤8：利用语谱图、梅尔谱图、Gam-Fbank谱图分别训练三个34层残差网络模型，利用三种谱图的堆叠训练一个3DCNN残差网络模型；

步骤9：将融合后的特征向量

与数据库中已有的特征向量

进行余弦相似度计算，如式(4)所示，设定阈值，从而判决出说话人。

如图2所示，本实施例步骤6中谱图的生成过程为：

(1)对输入的语音信号进行预处理，生成时域信号，对每一帧语音信号进行快速傅里叶变换得到语音的频谱；

(2)取傅里叶变换后的频谱的对数能量，生成语谱图,如图所示；

(3)将傅里叶变换后的频域信号通过梅尔滤波器组，如图3所示，取其对数能量生成梅尔谱图；

(4)将傅里叶变换后的频域信号通过Gammatone滤波器组，如图4所示，取其对数能量生成Gam-Fbank谱图；

(5)将上述生成的三种谱图进行堆叠，形成谱图立方体。

本实施例中的步骤9中三个34层残差网络模型和3DCNN残差网络模型的向量维度N＝512。四个模型的输出的向量分别为

对四个输出向量进行拼接融合，其融合特征向量/>

设定阈值γ，当X和数据库中说话人特征向量Y的余弦距离大于等于阈值γ时，识别为目标说话人，否则识别为非目标说话人。

本实施例中使用Free ST Chinese Mandarin Corpus中文数据集做仿真测试，数据集中共包含855人，每人120条语音，本次仿真用500人作为训练集，50人作为测试集，得到仿真测试结果可以将原模型最大准确率提升2到3个百分点，测试集准确率随训练轮数变化曲线如图5所示。

以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种基于多类谱图特征注意力融合网络的说话人识别方法，其特征在于：包括以下步骤：

步骤1：对语音信号进行端点检测，去除收集到的语音信号中所包含的静音片段，消除无声段噪声；

步骤2：预加重，去除口唇辐射的影响，增加语音的高频分辨率；

步骤3：对预加重后的语音信号进行分帧，设置在相邻的两帧之间有一部分重叠；

步骤4：对分帧后的每帧语音信号进行加窗；

步骤5：对处理好的每一帧时域信号通过离散傅里叶变换或快速傅里叶变换得到语音信号的频谱；

步骤9：在三个残差34层网络模型和3DCNN残差网络模型的后端分别引入注意力机制，分配给每个通道不同的权重，关注重要的特征，抑制不重要的特征，从而生成最佳特征向量；

步骤11：将融合后的特征向量与数据库中已有的特征向量进行相似度计算，设定阈值，判决出说话人。

2.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法，其特征在于：所述步骤2预加重，所述预加重通过一阶FIR滤波器来实现，所述一阶FIR滤波器的传递函数模型表示为：

H(z)＝1-az^-1

其中，H(z)为预加重函数，z表示z变换域变量，a为预加重系数，并且0.9<a<1.0。

3.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法，其特征在于：所述步骤4中对分帧后的信号进行加窗，应用汉宁窗模型，所述汉宁窗模型的表达式为：

其中w(n)是汉宁窗函数，M是每帧的样本数，n为时域离散刻度。

4.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法，其特征在于：所述步骤5中对处理好的每一帧时域信号x(n)通过离散傅里叶变换或快速傅里叶变换得到语音的频谱X(k)，可表示为：

5.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法，其特征在于：步骤6中语谱图的生成过程为：

A2)取傅里叶变换后的频谱的对数能量，生成语谱图。

6.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法，其特征在于：步骤6中梅尔谱图的生成过程为：

7.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法，其特征在于：步骤6中Gam-Fbank谱图的生成过程为：

8.根据权利要求6所述的一种基于多类谱图特征注意力融合网络的说话人识别方法，其特征在于：所述步骤B2中Mel滤波器中的Mel刻度和频率的关系如下：

其中，m为Mel刻度，f为频率。

9.根据权利要求6所述的一种基于多类谱图特征注意力融合网络的说话人识别方法，其特征在于：步骤B2中Mel滤波器是一组三角带通滤波器Hm(k)，且满足0≤m≤M，其中M表示滤波器的数量，取值范围为20～28，所述三角带通滤波器的传递函数可以表示为：

10.根据权利要求7所述的一种基于多类谱图特征注意力融合网络的说话人识别方法，其特征在于：所述步骤C2中Gammatone滤波器组用于模拟耳蜗底膜的听觉特性，其时域表达式如下：

h(f，t)＝ct^n-1e^-2πbtcos(2πf_i+φ_i)t＞0，0＜i≤N

其中，c为调节比例的常数，n为滤波器的级数，b为衰减速度，i为滤波器序数，f_i为滤波器的中心频率，Φ_i为滤波器的频率，N为滤波器个数。

11.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法，其特征在于：步骤9中对于网络生成的特征

其融合特征向量

12.根据权利要求1所述的一种基于多类谱图特征注意力融合网络的说话人识别方法，其特征在于：步骤10中采用余弦距离计算相似度，采用以下方式进行：

其中，

为两特征向量，d为所求的余弦距离。