CN113763965B - 一种多重注意力特征融合的说话人识别方法 - Google Patents

一种多重注意力特征融合的说话人识别方法 Download PDF

Info

Publication number
CN113763965B
CN113763965B CN202110986397.6A CN202110986397A CN113763965B CN 113763965 B CN113763965 B CN 113763965B CN 202110986397 A CN202110986397 A CN 202110986397A CN 113763965 B CN113763965 B CN 113763965B
Authority
CN
China
Prior art keywords
speaker
feature
channel
attention mechanism
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110986397.6A
Other languages
English (en)
Other versions
CN113763965A (zh
Inventor
毛启容
秦友才
万子楷
任庆桦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202110986397.6A priority Critical patent/CN113763965B/zh
Publication of CN113763965A publication Critical patent/CN113763965A/zh
Application granted granted Critical
Publication of CN113763965B publication Critical patent/CN113763965B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches

Abstract

本发明提供了一种多重注意力特征融合的说话人识别方法,构建深度说话人表征模型,包括特征提取器和说话人分类器,Fbank特征作为深度说话人表征模型的输入,通过特征提取器将Fbank特征提取为说话人表征,在训练阶段,使用说话人分类器将说话人表征映射到说话人标签上,并构造损失函数对深度说话人表征模型进行优化;在测试阶段,采用余弦距离比较说话人表征之间的相似度,根据阈值判断是否为相同的说话人。本发明通过多重注意力特征融合对不同分支的特征进行加权融合,多重注意力特征融合包括空间注意力机制和通道注意力机制,增强了每个分支中的有效信息,获得更加鲁棒性的说话人识别性能。

Description

一种多重注意力特征融合的说话人识别方法
技术领域
本发明属于人工智能技术领域,具体涉及一种多重注意力特征融合的说话人识别方法。
背景技术
随着语音技术的发展,越来越多的设备都支持语音控制,例如智能手机、智能音箱和智能汽车。为了提高语音控制的安全性,说话人识别技术常常被加入到这些智能设备中作为前端服务,来确保仅有特定的说话人使用这些语音服务。说话人识别是一个非常热门的话题,许多的方法都被提出来解决这个问题。
说话人识别的核心步骤是从语音信号中提取说话人表征。早期,语音信号的概率密度函数被用来描述说话人的身份信息,高斯混合-通用背景模型(Gaussian MixtureModel-Universal Background Model,GMM-UBM)就是其中的代表模型,从大量说话人无关的语音学习语音信号的分布规律作为UBM,最大后验概率(Maximum A Posteriori,MAP)算法将UBM的参数调整为目标说话人的GMM参数。因GMM-UBM中的均值超矢量不仅包含说话人信息还包含噪音信息和信道信息,改进版本i-vector方法尝试将均值超矢量进行分解,并采用PLDA(Probabilistic Linear Discriminant Analysis)进行信道补偿,获得了显著的性能提升。随着深度学习被成功的运用到计算机视觉和自然语言处理,基于深度学习的说话人识别系统也被提出,其中,以d-vector和x-vector的代表深度说话人表征模型最为流行。最近,许多基于x-vector的改进方法被提出,在保持原有计算量和参数下取得了更好的性能,D-TDNN(Densely Connected Time Delay Neural Network)就是其中之一,D-TDNN通过堆叠TDNN来增加x-vector的网络深度,同时采用窄输出和密集连接来减少参数和计算量。目前,研究学者发现多分支特征能够帮助模型学习到更具区分性的说话人表征,该方法通过不同的卷积核参数将特征映射为不同的分支,每个分支单独的进行处理,最后在将每个分支的特征进行融合,在多分支特征融合时,传统方法采用相加或者拼接的方式,无法充分发挥多分支特征的特性。
发明内容
针对现有技术中存在不足,本发明提供了一种多重注意力特征融合的说话人识别方法,对不同分支的特征进行加权融合,充分发挥多分支特征的特性。
本发明是通过以下技术手段实现上述技术目的的。
一种多重注意力特征融合的说话人识别方法,具体为:
构建深度说话人表征模型,深度说话人表征模型包括特征提取器和说话人分类器,Fbank特征作为深度说话人表征模型的输入,通过特征提取器将Fbank特征提取为说话人表征,在训练阶段,使用说话人分类器将说话人表征映射到说话人标签上,并构造损失函数对深度说话人表征模型进行优化;在测试阶段,采用余弦距离比较说话人表征之间的相似度,根据阈值判断是否为相同的说话人;
所述深度说话人表征模型基于多重注意力特征融合,所述多重注意力特征包括空间注意力机制和通道注意力机制,从全局数据上学习不同分支的特征权重,对特征X1和X2进行相加融合,获得全局特征G,将所述G分别输入到空间注意力机制和通道注意力机制中,获得每个分支的特征权重,最终得到多重注意力特征融合的输出特征。
进一步地,所述空间注意力机制输入为全局特征G,输出为空间注意力权重和/>所述空间注意力机制由四层TDNN组成,通过所述TDNN将全局特征映射为不同分支的特征权重,每个分支的每个像素点都学习一个权重,每个分支相同位置的像素点之间使用SoftMax激活操作进行归一化;其中,T代表帧数,F代表频率维度。
更进一步地,对所述全局特征G,通过卷积核为1、空洞率为1的TDNN进行特征学习,先将频率维度F压缩为F,再将频率维度还原为原始尺寸F,其中F<F`。
进一步地,所述通道注意力机制的输入为全局特征G,输出为通道注意力权重和/>所述通道注意力机制包括池化函数和多层全连接层,池化函数对全局特征G进行压缩,获得中间特征/>再采用全连接层提取瓶颈特征/>从瓶颈特征Z`映射出不同分支的通道权重β1和β2;最后采用SoftMax激活函数将不同分支的通道权重规整至(0,1)范围内。
更进一步地,所述通道注意力机制为每个分支的每个通道学习一个权重。
进一步地,所述空间注意力机制、通道注意力机制以及TDNN组成一个结构块,重复堆叠所述结构块组成深度说话人表征模型,不同的结构块之间采用密集连接。
进一步地,所述损失函数采用角加边损失函数AAM-SoftMax。
进一步地,所述Fbank特征是通过对语音信号进行短时傅里叶变换得到语谱图,语谱图再通过梅尔滤波器获得的。
本发明的有益效果为:
(1)本发明通过多重注意力特征融合对不同分支的特征进行加权融合,和传统的融合方法相比,增强每个分支中的有效信息,抑制噪音等无效信息,获取更加鲁棒性的说话人识别性能。
(2)本发明的多重注意力特征融合包括空间注意力机制和通道注意力机制,空间注意力机制为不同分支的每个特征点都学习一个权重,能够有效的学习细腻的声纹特征;通道注意力机制则为不同分支的每个通道学习一个权重,为特征图添加了全局信息并调整了不同通道之间的比例关系。
附图说明
图1为本发明所述多重注意力特征融合的说话人识别方法流程图;
图2为本发明所述多重注意力特征融合结构图;
图3为本发明所述空间注意力机制结构示意图;
图4为本发明所述通道注意力机制结构示意图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
如图1所示,本发明一种多重注意力特征融合的说话人识别方法,对语音信号进行短时傅里叶变换得到语谱图,语谱图通过梅尔滤波器获得Fbank特征,Fbank特征作为深度说话人表征模型的输入特征,深度说话人表征模型包括特征提取器和说话人分类器,通过特征提取器将Fbank特征提取为说话人表征(speaker embedding),说话人表征代表一段语音信号中说话人的声纹信息;在深度说话人表征模型的训练阶段,使用说话人分类器将说话人表征映射到说话人标签上,并构造损失函数对深度说话人表征模型进行优化;在深度说话人表征模型的测试阶段,采用余弦距离比较说话人表征之间的相似度,根据阈值判断是否为相同的说话人。具体的做法主要分为以下几个步骤:
步骤(1),原始语音信号是时域波形图,尺寸为T×1,其中T为采样点个数;语音信号的特性往往表现在时频域,加之语音信号具有短时稳定的特性,即在短时(30ms以下)可被认为是稳定信号,将时域信号转化为时频域信号是语音技术的通用手段。短时傅里叶变换将时域波形图变换为时频域特征图(即语谱图),窗口长度设置为20ms,并按照10ms的间隔移动窗口;再使用梅尔滤波器将时频域特征图转化为符合人耳听觉特性的梅尔频率谱特征(Fbank特征);Fbank特征的尺寸为T×F,其中T代表帧数,F代表频率维度。假设为第i个语音信号的Fbank特征。
步骤(2),采用延时神经网络(TDNN)构建特征提取器,同时采用多重注意力特征融合的策略搭建深度说话人表征模型。多重注意力特征融合方法对深度说话人表征模型不同分支的特征加权融合,其结构图如图2所示,单分支特征通过不同参数的TDNN映射为特征/>和/>X1和X2代表不同分支的特征。多分支特征包含多尺度、多样性的说话人特征。空间注意力机制和通道注意力机制从全局数据上学习不同分支的特征权重,对特征X1和X2进行相加融合,获得全局特征/>将G分别输入到空间注意力机制和通道注意力机制中,获得每个分支的特征权重,最终得到多重注意力特征融合的输出特征为/>不同分支从不同的感受野中学习多样性的说话人特征,多重注意力特征融合将这些多样性特征融合到一起,提高说话人识别性能。
如图3所示,空间注意力机制输入为全局特征G,输出为空间注意力权重和/>空间注意力机制由四层TDNN组成,对全局特征G,通过卷积核为1、空洞率为1的TDNN进行特征学习,先将频率维度F压缩为F`(F>F`),再将频率维度还原为原始尺寸F;频率维度的缩放过程学习了瓶颈特征,瓶颈特征有利于加快模型收敛。通过TDNN将全局特征映射为不同分支的特征权重,每个分支的每个像素点都学习一个权重;每个分支相同位置的像素点之间使用SoftMax激活操作进行归一化,使不同分支相同位置的像素点权重之和为1。
空间注意力机制的具体计算流程为:
α1,α2=Softmax([α1,α2],dim=1) (5)
其中:Z1为中间层的瓶颈特征,Z2为中间层复原特征,W1、W2、W3、W4、b1、b2、b3、b4为TDNN的参数,f1、f2、f3、f4为TDNN的映射过程,dim表示SoftMax激活函数的操作维度。
如图4所示,通道注意力机制的输入为全局特征G,输出为通道注意力权重和/>通道注意力机制由池化函数、多层全连接层组成,池化函数对全局特征G进行压缩,获得中间特征/>再采用全连接层提取瓶颈特征/>相较中间特征Z,频率维度为原始的一半,即F=2×F`,从瓶颈特征Z`映射出不同分支的通道权重β1和β2;最后采用SoftMax激活函数将不同分支的通道权重规整至(0,1)范围内。
通道注意力机制的具体计算流程为:
β1,β2=Softmax([β1,β2],dim=1) (10)
其中:W5、W6、W7、b5、b6、b7为全连接层的参数,f5、f6、f7为全连接层的映射过程。
通道注意力机制为每个分支的每个通道学习一个权重,和空间注意力机制不同之处在于相同通道的特征仅有一个共享特征权重。通道注意力机制自适应调整每个分支通道的权重,同时将激励压缩得到的全局信息添加到原始特征中。
空间注意力机制学习特征之间细腻的局部信息,而通道注意力机制学习特征之间的全局信息,两种注意力机制相互补充相互促进,共同提高说话人识别性能。
将相同分支的空间注意力权重和通道注意力权重相加,获得多重注意力特征融合权重γ1和γ2。利用权重对于每个分支的原始特征进行加权求和,获得输出特征Y。
γ1=α11 (11)
γ2=α22 (12)
Y=γ1×X12×X2 (13)
空间注意力机制、通道注意力机制以及TDNN组成一个结构块,重复堆叠这些结构块组成深度说话人表征模型,不同的结构块之间采用密集连接,即前面结构块的输出被拼接到后面所有结构块的输入中。
步骤(3),在训练阶段,为了能够使用梯度下降法更新特征提取器的参数,在特征提取器后设置说话人分类器,将说话人表征映射到说话人标签上,并利用说话人标签信息构建损失函数,本发明采用一种角加边损失函数(AAM-SoftMax)作为损失函数对特征提取器进行优化,在L2正则化之后的权重和特征的基础上,引入使得角度空间中类间的决策边界最大化。具体的公式为:
其中,N为样本数,s为比例因子,ψ(·)为加边函数,θi,j表示权重wi,j和特征fi=f(xi;Θ)之间的角度,xi表示说话人分类器的第i个输入,f(xi;Θ)为非线性变换的全连接层,Θ为全连接层的参数。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims (7)

1.一种多重注意力特征融合的说话人识别方法,其特征在于:
构建深度说话人表征模型,深度说话人表征模型包括特征提取器和说话人分类器,Fbank特征作为深度说话人表征模型的输入,通过特征提取器将Fbank特征提取为说话人表征,在训练阶段,使用说话人分类器将说话人表征映射到说话人标签上,并构造损失函数对深度说话人表征模型进行优化;在测试阶段,采用余弦距离比较说话人表征之间的相似度,根据阈值判断是否为相同的说话人;
所述深度说话人表征模型基于多重注意力特征融合,所述多重注意力特征包括空间注意力机制和通道注意力机制,从全局数据上学习不同分支的特征权重,对特征X1和X2进行相加融合,获得全局特征G,将所述G分别输入到空间注意力机制和通道注意力机制中,获得每个分支的特征权重,最终得到多重注意力特征融合的输出特征;
所述空间注意力机制输入为全局特征G,输出为空间注意力权重和/>所述空间注意力机制由四层TDNN组成;对所述全局特征G,通过卷积核为1、空洞率为1的TDNN进行特征学习,先将频率维度F压缩为F`,再将频率维度还原为原始尺寸F;频率维度的缩放过程学习了瓶颈特征,瓶颈特征有利于加快模型收敛;通过所述TDNN将全局特征映射为不同分支的特征权重,每个分支的每个像素点都学习一个权重;其中,T代表帧数,F代表频率维度,且F>F`。
2.根据权利要求1所述的多重注意力特征融合的说话人识别方法,其特征在于,每个分支相同位置的像素点之间使用SoftMax激活操作进行归一化。
3.根据权利要求1所述的多重注意力特征融合的说话人识别方法,其特征在于,所述通道注意力机制的输入为全局特征G,输出为通道注意力权重和/>所述通道注意力机制包括池化函数和多层全连接层,池化函数对全局特征G进行压缩,获得中间特征/>再采用全连接层提取瓶颈特征/>从瓶颈特征Z`映射出不同分支的通道权重β1和β2;最后采用SoftMax激活函数将不同分支的通道权重规整至(0,1)范围内。
4.根据权利要求3所述的多重注意力特征融合的说话人识别方法,其特征在于,所述通道注意力机制为每个分支的每个通道学习一个权重。
5.根据权利要求1所述的多重注意力特征融合的说话人识别方法,其特征在于,所述空间注意力机制、通道注意力机制以及TDNN组成一个结构块,重复堆叠所述结构块组成深度说话人表征模型,不同的结构块之间采用密集连接。
6.根据权利要求1所述的多重注意力特征融合的说话人识别方法,其特征在于,所述损失函数采用角加边损失函数AAM-SoftMax。
7.根据权利要求1所述的多重注意力特征融合的说话人识别方法,其特征在于,所述Fbank特征是通过对语音信号进行短时傅里叶变换得到语谱图,语谱图再通过梅尔滤波器获得的。
CN202110986397.6A 2021-08-26 2021-08-26 一种多重注意力特征融合的说话人识别方法 Active CN113763965B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110986397.6A CN113763965B (zh) 2021-08-26 2021-08-26 一种多重注意力特征融合的说话人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110986397.6A CN113763965B (zh) 2021-08-26 2021-08-26 一种多重注意力特征融合的说话人识别方法

Publications (2)

Publication Number Publication Date
CN113763965A CN113763965A (zh) 2021-12-07
CN113763965B true CN113763965B (zh) 2023-12-19

Family

ID=78791332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110986397.6A Active CN113763965B (zh) 2021-08-26 2021-08-26 一种多重注意力特征融合的说话人识别方法

Country Status (1)

Country Link
CN (1) CN113763965B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114267361A (zh) * 2022-03-01 2022-04-01 江苏清微智能科技有限公司 一种高识别度的说话人识别系统
CN114678030A (zh) * 2022-03-17 2022-06-28 重庆邮电大学 基于深度残差网络和注意力机制的声纹识别方法及装置
CN116798630B (zh) * 2023-07-05 2024-03-08 广州视景医疗软件有限公司 基于机器学习的近视理疗依从性预测方法、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675891A (zh) * 2019-09-25 2020-01-10 电子科技大学 一种基于多层注意力机制的语音分离方法、模块
CN111967293A (zh) * 2020-06-22 2020-11-20 云知声智能科技股份有限公司 结合声纹识别和注意力检测的人脸认证方法及系统
CN112151040A (zh) * 2020-09-27 2020-12-29 湖北工业大学 一种基于端到端联合优化及决策的鲁棒性说话人识别方法
CN112712814A (zh) * 2020-12-04 2021-04-27 中国南方电网有限责任公司 一种基于深度学习算法的声纹识别方法
WO2021115159A1 (zh) * 2019-12-09 2021-06-17 中兴通讯股份有限公司 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质
CN113077797A (zh) * 2021-03-22 2021-07-06 山东师范大学 基于多源注意力网络的说话人识别方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354656B2 (en) * 2017-06-23 2019-07-16 Microsoft Technology Licensing, Llc Speaker recognition
US11276410B2 (en) * 2019-09-13 2022-03-15 Microsoft Technology Licensing, Llc Convolutional neural network with phonetic attention for speaker verification

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675891A (zh) * 2019-09-25 2020-01-10 电子科技大学 一种基于多层注意力机制的语音分离方法、模块
WO2021115159A1 (zh) * 2019-12-09 2021-06-17 中兴通讯股份有限公司 文字识别网络模型训练方法、文字识别方法、装置、终端及其计算机存储介质
CN111967293A (zh) * 2020-06-22 2020-11-20 云知声智能科技股份有限公司 结合声纹识别和注意力检测的人脸认证方法及系统
CN112151040A (zh) * 2020-09-27 2020-12-29 湖北工业大学 一种基于端到端联合优化及决策的鲁棒性说话人识别方法
CN112712814A (zh) * 2020-12-04 2021-04-27 中国南方电网有限责任公司 一种基于深度学习算法的声纹识别方法
CN113077797A (zh) * 2021-03-22 2021-07-06 山东师范大学 基于多源注意力网络的说话人识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Audio-Visual Feature Fusion for Vehicles Classification in a Surveillance System;tao wang 等;2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops;第381-386页 *

Also Published As

Publication number Publication date
CN113763965A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN113763965B (zh) 一种多重注意力特征融合的说话人识别方法
CN109326302B (zh) 一种基于声纹比对和生成对抗网络的语音增强方法
CN110390950B (zh) 一种基于生成对抗网络的端到端语音增强方法
CN111179911B (zh) 目标语音提取方法、装置、设备、介质和联合训练方法
CN108922513B (zh) 语音区分方法、装置、计算机设备及存储介质
CN109841226A (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN105321525B (zh) 一种降低voip通信资源开销的系统和方法
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN110459225B (zh) 一种基于cnn融合特征的说话人辨认系统
CN105206270A (zh) 一种组合pca和rbm的孤立数字语音识别分类系统及方法
CN111161744B (zh) 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN110111797A (zh) 基于高斯超矢量和深度神经网络的说话人识别方法
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN115602152B (zh) 一种基于多阶段注意力网络的语音增强方法
CN109036470B (zh) 语音区分方法、装置、计算机设备及存储介质
CN110544482A (zh) 一种单通道语音分离系统
CN113488060A (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
CN112017658A (zh) 一种基于智能人机交互的操作控制系统
CN108364641A (zh) 一种基于长时帧背景噪声估计的语音情感特征提取方法
CN115472182A (zh) 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN115064175A (zh) 一种说话人识别方法
CN114879845A (zh) 一种基于眼动仪的图片标签语音标注方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant