CN113488060B - 一种基于变分信息瓶颈的声纹识别方法及系统 - Google Patents

一种基于变分信息瓶颈的声纹识别方法及系统 Download PDF

Info

Publication number
CN113488060B
CN113488060B CN202110709415.6A CN202110709415A CN113488060B CN 113488060 B CN113488060 B CN 113488060B CN 202110709415 A CN202110709415 A CN 202110709415A CN 113488060 B CN113488060 B CN 113488060B
Authority
CN
China
Prior art keywords
speaker
layer
voiceprint recognition
embedding
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110709415.6A
Other languages
English (en)
Other versions
CN113488060A (zh
Inventor
熊盛武
王丹
董元杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202110709415.6A priority Critical patent/CN113488060B/zh
Publication of CN113488060A publication Critical patent/CN113488060A/zh
Application granted granted Critical
Publication of CN113488060B publication Critical patent/CN113488060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions

Abstract

本发明提供了一种基于变分信息瓶颈的声纹识别方法及系统,解决现有声纹识别模型提取的说话人嵌入鲁棒性差和区分性不强的问题。首先提出了一个由VovNet和超轻量级子空间注意力机制(ULSAM)组成的特征提取网络,用于提取多尺度多频率的帧级说话人信息;然后引入变分信息瓶颈作为一种正则化方法,对说话人特征向量进一步压缩,去除说话人无关的信息,只保留与判别说话人身份相关的信息,使得最终提取的说话人嵌入更具鲁棒性。相比于现有的声纹识别技术,本发明提升了声纹识别在噪声背景下的识别准确率,使得声纹识别技术更适用于实际生活场景。

Description

一种基于变分信息瓶颈的声纹识别方法及系统
技术领域
本发明涉及深度学习和声纹识别领域,尤其涉及一种基于变分信息瓶颈的声纹识别方法及系统。
背景技术
声纹识别,又称为说话人识别,是一种根据声音波形中反映说话人生理和行为特征的语音参数自动识别说话人身份的技术。深度学习的出现极大推动了声纹识别的发展,基于深度神经网络的端到端声纹识别已经成为目前的主流技术,即利用深度神经网络强大的学习能力,从语音信号中学习一种说话人表征向量,称为说话人嵌入。
基于深度说话人嵌入的声纹识别通常由三部分组成:特征提取网络、特征聚合层和训练损失函数。卷积神经网络(CNNs),如时延神经网络(TDNNs)和残差网络(ResNet),通常用于从声学特征中提取帧级说话人信息。随后,特征聚合层将帧级特征聚合成句子级特征,得到一个低维向量,称为深度说话人嵌入。常用的聚合方法包括平均池化、统计池化和注意力统计池化。训练声纹识别模型的损失函数主要分为分类损失和度量损失两大类,常用的分类损失函数包括 softmax损失及其一系列变体,例如A-softmax、AM-softmax和AAM-softmax;度量损失如三元组损失(Triplet loss)、广义端到端损失(GE2E)和角度原型损失(Angular Prototypical loss)均已表现出优异的性能。
本申请发明人在实施本发明的过程中,发现现有技术中存在如下技术问题:
上述基于深度神经网络的声纹识别技术已经具有较高的识别准确率,然而这种高准确率依赖于干净语音。在实际应用中,输入语音不可避免会包含各种背景噪声,导致声纹识别网络的识别准确率大幅降低。为了解决噪声干扰问题,目前已有的方法主要有两种:语音增强和数据增强。语音增强方法首先去除语音中的背景噪声,然后将去噪后的干净语音输入到声纹识别网络进行身份识别;数据增强方法人为向干净语音中叠加各种类型的噪声,然后用噪声数据和干净数据共同训练声纹识别模型,使得神经网络生成的说话人嵌入对噪声鲁棒。上述两种方法都存在各自的问题:在去噪过程中,去噪网络很可能去除语音中与说话人身份相关的信息,导致识别准确率下降;人为添加噪声难以覆盖生活中各种各样的噪声类型,并且随着数据量增加,训练声纹识别模型的资源需求计算量也会增加。
发明内容
本发明提出一种基于变分信息瓶颈的声纹识别方法及系统,用于解决或者至少部分解决实际应用场景中声纹识别准确率不高的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于变分信息瓶颈的声纹识别方法,包括:
S1:获取原始语音数据;
S2:构建引入变分信息瓶颈的声纹识别模型,其中,声纹识别模型包括声学特征参数提取层、帧级特征提取网络、特征聚合层、变分信息瓶颈层以及分类器,其中,声学特征参数提取层用于将输入的原始语音波形转换为声学特征参数 FBank,帧级特征提取网络用于采用一次聚合方式从声学特征参数FBank中提取多尺度多频率的帧级说话人信息,得到帧级特征向量,特征聚合层用于将帧级特征向量转换为低维句子级特征向量,变分信息瓶颈层用于对句子级特征向量中的信息进一步压缩,保留与说话人身份相关的信息,去除与说话人身份无关的信息,得到说话人嵌入,说话人嵌入为表示说话人身份的特征向量,分类器用于根据说话人嵌入得到声纹识别的结果;
S3:将获取的原始语音数据作为训练数据对声纹识别模型进行训练,利用神经网络反向传播算法更新模型参数,最小化损失函数直到损失函数收敛,保存模型参数,得到训练好的声纹识别模型;
S4:利用训练好的声纹识别模型对输入的语音数据进行识别。
在一种实施方式中,声学特征参数提取层的处理过程包括:输入原始语音波形,对语音依次进行预加重、分帧、加窗、离散傅里叶变换、幅值平方运算、应用梅尔滤波器组和取对数操作,得到声学特征参数FBank。
在一种实施方式中,步骤S2中帧级特征提取网络包括3个二维卷积层和4 个一次聚合模块,一次聚合模块即为OSA模块,每个OSA模块包含5个二维卷积层、1个1×1卷积层和一个超轻量级子空间注意力机制ULSAM;二维卷积层的卷积核大小为3×3,步长为32,每个卷积层的输出连接到下一个卷积层,同时通过短连接与最后一个卷积层的输出进行拼接;每个OSA模块后接一个最大池化层,其卷积核为3×3,步长为2;子空间注意力机制将特征图分为g个组,称为g个子空间,每个组有G个特征图,每个子空间生成一个注意力图,将g个注意力图拼接作为输出。
在一种实施方式中,步骤S2中特征聚合层包含1个池化层,池化层采用时域平均池化方法,信号输出尺寸为1×1。
在一种实施方式中,步骤S2中变分信息瓶颈层包括1个全连接层和1个仿射变换层,利用重参数方法实现反向传播;
其中,句子级特征向量首先输入到全连接层,该全连接层的节点数为1024;将全连接层的输出特征向量均分为两个向量,其中一个特征向量作为均值μ,另一个特征向量经过softplus函数转换作为方差σ;重参数方法首先生成一个均值为0,方差为1的高斯分布,从这个高斯分布中采样数据,记作∈,然后经过放缩平移后得到目标分布z,z的计算过程如下式:
Figure BDA0003132868540000031
其中,μ和σ分别是平移参数和放缩参数,即全连接层输出的均值和方差;
输出的特征向量z输入到仿射变换层,该仿射变换层是1个节点数为512的全连接层,将z映射为固定的512维向量;对向量z做L2归一化操作,得到表示说话人身份的特征向量,即说话人嵌入。
在一种实施方式中,S2中分类器使用余弦距离计算说话人嵌入之间的相似度分数,计算公式如下式:
Figure BDA0003132868540000032
其中xi,xj分别表示从两份语音数据对应的音频文件中提取到的说话人嵌入。
在一种实施方式中,步骤S3中训练模型的采用的损失函数包含两个部分,表达式如下:
Figure BDA0003132868540000033
其中,x、y、z分别表示输入语音、输出的说话人身份标签和说话人嵌入,p(x) 为输入数据的分布,x~p(x)表示x服从分布p(x),E(Z|X)表示将输入语音X映射到潜在变量Z的分布上,z~E(Z|X)表示z服从分布E(Z|X),q(y|z)表示标准极大似然估计,p(z|x)表示将x映射到z,
Figure BDA0003132868540000041
表示期望,p(z)为潜在变量的分布,r(z)表示 p(z)的变分近似,β表示惩罚强度;损失函数第一项为分类损失,采用softmax 损失函数;第二项为惩罚项,表示说话人嵌入和模型输出之间的互信息,β越大,惩罚强度越大。
在一种实施方式中,步骤S4包括:
S4.1:将待测语音数据输入到训练好的声纹识别模型,提取出与待测语音数据对应的说话人嵌入z,并计算说话人嵌入z与注册语音之间余弦相似度;
S4.2,根据计算出的余弦相似度判断说话人身份,将与z相似度最高的注册语音的说话人身份作为待测语音数据的说话人身份。
基于同样的发明构思,本发明第二方面提供了一种基于变分信息瓶颈的声纹识别系统,包括:
数据获取模块,用于获取原始语音数据;
模型构建模块,用于构建引入变分信息瓶颈的声纹识别模型,其中,声纹识别模型包括声学特征参数提取层、帧级特征提取网络、特征聚合层、变分信息瓶颈层以及分类器,其中,声学特征参数提取层用于将输入的原始语音波形转换为声学特征参数FBank,帧级特征提取网络用于从声学特征参数FBank中提取多尺度多频率的帧级说话人信息,得到帧级特征向量,特征聚合层用于将帧级特征向量转换为低维句子级特征向量,变分信息瓶颈层用于对句子级特征向量中的信息进一步压缩,保留与说话人身份相关的信息,去除与说话人身份无关的信息,得到说话人嵌入,说话人嵌入为表示说话人身份的特征向量,分类器用于根据说话人嵌入得到声纹识别的结果;
模型训练模块,用于将获取的原始语音数据作为训练数据对声纹识别模型进行训练,利用神经网络反向传播算法更新模型参数,最小化损失函数直到损失函数收敛,保存模型参数,得到训练好的声纹识别模型;
识别模块,用于利用训练好的声纹识别模型对输入的语音数据进行识别。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于变分信息瓶颈的声纹识别方法,构建了引入变分信息瓶颈的声纹识别模型,并利用该声纹识别模型对语音数据进行识别,其中,帧级特征提取网络使用一次聚合方式,减少特征冗余,保留浅层特征的原来的形式,能够提取多尺度多频率的说话人信息,使得最终的说话人嵌入更具有可区分性;并且引入变分信息瓶颈层,利用变分信息瓶颈原理对说话人特征进一步压缩,去除说话人嵌入中背景噪声等与说话人身份无关的信息,尽可能保留与预测说话人身份最相关的信息,使得最终的说话人嵌入对噪声不敏感,从而提高声纹识别模型的鲁棒性,提高了在实际应用场景中的识别准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施基于变分信息瓶颈的声纹识别模型的框架图,
图2为本分明实施FBank声学特征参数提取的流程图,
图3为本发明实施帧级说话人信息提取的网络结构图,
图4为本发明实施帧级说话人信息提取网络中OSA模块结构图,
图5为本发明实施帧级说话人信息提取网络中ULSAM结构图,
图6为本发明实施变分信息瓶颈正则化的示意图。
具体实施方式
本发明的目的在于,提供一种基于变分信息瓶颈的声纹识别方法及系统,提取更具鲁棒性和可区分性的说话人嵌入,使得声纹识别模型在包含背景噪声的实际应用场景中识别准确率大大提升。
本发明的主要构思如下:
首先提出了一个由VovNet和超轻量级子空间注意力机制(ULSAM)组成的特征提取网络,用于提取多尺度多频率的帧级说话人信息;然后引入变分信息瓶颈作为一种正则化方法,对说话人特征向量进一步压缩,去除说话人无关的信息,只保留与判别说话人身份相关的信息,使得最终提取的说话人嵌入更具鲁棒性。相比于现有的声纹识别技术,本发明提升了声纹识别在噪声背景下的识别准确率,使得声纹识别技术更适用于实际生活场景。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于变分信息瓶颈的声纹识别方法,包括:
S1:获取原始语音数据;
S2:构建引入变分信息瓶颈的声纹识别模型,其中,声纹识别模型包括声学特征参数提取层、帧级特征提取网络、特征聚合层、变分信息瓶颈层以及分类器,其中,声学特征参数提取层用于将输入的原始语音波形转换为声学特征参数 FBank,帧级特征提取网络用于采用一次聚合方式从声学特征参数FBank中提取多尺度多频率的帧级说话人信息,得到帧级特征向量,特征聚合层用于将帧级特征向量转换为低维句子级特征向量,变分信息瓶颈层用于对句子级特征向量中的信息进一步压缩,保留与说话人身份相关的信息,去除与说话人身份无关的信息,得到说话人嵌入,说话人嵌入为表示说话人身份的特征向量,分类器用于根据说话人嵌入得到声纹识别的结果;
S3:将获取的原始语音数据作为训练数据对声纹识别模型进行训练,利用神经网络反向传播算法更新模型参数,最小化损失函数直到损失函数收敛,保存模型参数,得到训练好的声纹识别模型;
S4:利用训练好的声纹识别模型对输入的语音数据进行识别。
请参见图1,为基于变分信息瓶颈的声纹识别模型的框架图,该声纹识别模块,包括一个声学特征参数提取层Lfbank,一个帧级特征提取器E,一个特征聚合层Lpooling,一个变分信息瓶颈层LVIB,一个后端分类器C。
所述声学特征参数提取层Lfbank用于将原始语音波形转换为声学特征参数 FBank,帧级特征提取器Eframe用于从声学特征参数中提取帧级说话人特征,特征聚合层Lpooling用于将帧级说话人特征聚合为句子级特征,变分信息瓶颈层LVIB进一步压缩句子级特征得到低维的说话人嵌入向量,后端分类器C对不同的说话人嵌入进行分类。
步骤S3中,将原始语音数据输入构建的声纹识别模型,首先通过声学特征参数提取层输出FBank特征,然后将Fbank特征输入帧级特征提取网络进行模型训练。
在一种实施方式中,声学特征参数提取层的处理过程包括:输入原始语音波形,对语音依次进行预加重、分帧、加窗、离散傅里叶变换、幅值平方运算、应用梅尔滤波器组和取对数操作,得到声学特征参数FBank。
具体实施时,如图2所示,为FBank声学特征参数提取的流程图,可以通过下述步骤来实现
步骤S1.1,预加重;
将语音波形输入到一个一阶高通滤波器,以增强语音信号中高频部分的能量;
步骤S1.2,分帧;
将预加重之后的语音信号分段,每一段称为一帧,帧长设置为25ms,帧移设置为10ms;
步骤S1.3,加窗;
分帧之后将每一帧语音信号与窗口函数相乘,窗口函数选取Hamming窗,表达式如下式:
Figure BDA0003132868540000071
其中,w(n)表示加窗后的语音信号,n表示语音帧的序列号,N表示窗口长度,n的取值范围为0≤n≤N-1;
步骤S1.4,离散傅里叶变换;
对加窗后的每一帧信号进行离散傅里叶变换,得到每一帧的频谱,然后对频谱取模平方得到每一帧语音信号的功率谱;
离散傅里叶变换的公式如下式:
Figure BDA0003132868540000072
其中,s(k)为进行傅里叶变换之后第k个频谱,DFT(·)为离散傅里叶变换函数,S(n)为加窗后的语音信号,j表示常量,n表示语音帧序列号,N表示语音序列长度,0≤k,n≤N-1;
步骤S1.5,幅值平方运算
将频谱转换为功率谱的公式如下式:
Figure BDA0003132868540000081
p(k)为第k个功率谱,s(k)为傅里叶变换之后第k个频谱,N表示语音序列长度;
步骤S1.6,应用梅尔滤波器组、取对数;
将功率谱输入到一组Mel刻度的三角滤波器(以40个三角滤波器为一组) 然后进行取对数操作,即可得到FBank特征。
在一种实施方式中,步骤S2中帧级特征提取网络包括3个二维卷积层和4 个一次聚合模块,一次聚合模块即为OSA模块,每个OSA模块包含5个二维卷积层、1个1×1卷积层和一个超轻量级子空间注意力机制ULSAM;二维卷积层的卷积核大小为3×3,步长为32,每个卷积层的输出连接到下一个卷积层,同时通过短连接与最后一个卷积层的输出进行拼接;每个OSA模块后接一个最大池化层,其卷积核为3×3,步长为2;子空间注意力机制将特征图分为g个组,称为g个子空间,每个组有G个特征图,每个子空间生成一个注意力图,将g个注意力图拼接作为输出。
具体实施过程中,请参见图3,为帧级特征提取网络的结构示意图。3个二维卷积层中,第一个卷积层和第三个卷积层步长为2,第二个卷积层步长为1,每个卷积层后都接有批量归一化层(BN),激活函数为修正线性单元(ReLu);如图4所示,每个OSA模块包含5个步长为32的3×3卷积层、1个1×1卷积层和一个超轻量级子空间注意力机制ULSAM,图中符号
Figure BDA0003132868540000082
表示按元素乘法,
Figure BDA0003132868540000083
表示按元素加法;每个3×3卷积层的输出连接到下一个卷积层,同时通过短连接与最后一个卷积层的输出进行拼接,OSA模块的输入也聚合到最后一个卷积层输出的特征图;每个OSA模块最后采用一个最大池化层降采样,其卷积核为3×3,步长为2;如图5所示,子空间注意力机制将特征图分为g个组,称为g个子空间,每个组有G个特征图,每个子空间生成一个注意力图,将g个注意力图拼接作为输出,图中DW 1×1表示卷积核为1×1的深度卷积,PW 1×1表示卷积核为1×1的逐点卷积,Max Pool表示卷积核为3×3,填充为1的最大池化层,符号
Figure BDA0003132868540000091
表示按元素乘法,
Figure BDA0003132868540000092
表示按元素加法,“Concat”表示拼接。其中,g和G为超参数,可以根据实际情况进行设置。
在一种实施方式中,步骤S2中特征聚合层包含1个池化层,池化层采用时域平均池化方法,信号输出尺寸为1×1。
具体来说,将特征提取器E(帧级特征提取网络)输出的帧级特征向量输入到特征聚合层Lpooling,得到低维句子级特征向量。
在一种实施方式中,步骤S2中变分信息瓶颈层包括1个全连接层和1个仿射变换层,利用重参数方法实现反向传播;
其中,句子级特征向量首先输入到全连接层,该全连接层的节点数为1024;将全连接层的输出特征向量均分为两个向量,其中一个特征向量作为均值μ,另一个特征向量经过softplus函数转换作为方差σ;重参数方法首先生成一个均值为0,方差为1的高斯分布,从这个高斯分布中采样数据,记作∈,然后经过放缩平移后得到目标分布z,z的计算过程如下式:
Figure BDA0003132868540000093
其中,μ和σ分别是平移参数和放缩参数,即全连接层输出的均值和方差;
输出的特征向量z输入到仿射变换层,该仿射变换层是1个节点数为512的全连接层,将z映射为固定的512维向量;对向量z做L2归一化操作,得到表示说话人身份的特征向量,即说话人嵌入。
如图6所示,为本发明实施变分信息瓶颈正则化的示意图。FC表示全连接层,softplus为深度学习的激活函数,Sample∈fromN(0,1),表示采用重参数方法生成一个均值为0,方差为1的高斯分布,并从这个高斯分布中采样数据。
在一种实施方式中,S2中分类器使用余弦距离计算说话人嵌入之间的相似度分数,计算公式如下式:
Figure BDA0003132868540000094
其中xi,xj分别表示从两份语音数据对应的音频文件中提取到的说话人嵌入。
具体来说,根据相似度分数,可以将相似度分数高的说话人嵌入分为同一类。
在一种实施方式中,步骤S3中训练模型的采用的损失函数包含两个部分,表达式如下:
Figure BDA0003132868540000101
其中,x、y、z分别表示输入语音、输出的说话人身份标签和说话人嵌入,p(x) 为输入数据的分布,x~p(x)表示x服从分布p(x),E(Z|X)表示将输入语音X映射到潜在变量Z的分布上,z~E(Z|X)表示z服从分布E(Z|X),q(y|z)表示标准极大似然估计,p(z|x)表示将x映射到z,
Figure BDA0003132868540000105
表示期望,p(z)为潜在变量的分布,r(z)表示 p(z)的变分近似,β表示惩罚强度;损失函数第一项为分类损失,采用softmax 损失函数;第二项为惩罚项,表示说话人嵌入和模型输出之间的互信息,β越大,惩罚强度越大。
具体实施过程中,训练模型的损失函数包含两个部分,第一部分为分类损失,表达式如下:
Figure BDA0003132868540000102
其中,x、y分别表示输入语音和输出的说话人身份标签,p(x,y)表示x、y 的联合分布,x,y~p(x,y)表示x、y服从分布p(x,y),q(y|x)表示标准极大似然估计,
Figure BDA0003132868540000106
表示期望;
第二部分为惩罚项,引入惩罚项之后的损失函数表达式如下:
Figure BDA0003132868540000103
其中,x、y、z分别是X、Y、Z对应的样本变量,z表示说话人嵌入,E(Z|X) 表示将输入语音X映射到潜在变量Z的分布上,惩罚项I(X;Z)表示输入语音和提取的说话人嵌入之间的互信息,β表示惩罚强度,β越大惩罚强度越大;
将互信息I(X;Z)展开为:
Figure BDA0003132868540000104
其中,p(x)为输入数据的分布,p(z)为潜在变量的分布,p(x,z)表示x、z的联合分布,p(z|x)表示将x映射到z;
由于p(z)无法直接计算得到,因此根据变分近似原理,使用变分近似r(z)代替p(z);
根据KL散度恒为正,p(z)和其变分近似r(z)的KL计算如下式:
Figure BDA0003132868540000111
由此得到互信息I(X;Z)的变分上界:
Figure BDA0003132868540000112
根据上述推断过程,引入变分信息瓶颈正则化方法的声纹识别模型训练损失函数表达式如下:
Figure BDA0003132868540000113
模型训练时,输入的Batch Size为128,采用随机梯度下降法(SGD)作为优化器,初始学习率为0.1,每30个周期下降10倍,总共训练100个周期,每 10个周期保存一次模型参数。
在一种实施方式中,步骤S4包括:
S4.1:将待测语音数据输入到训练好的声纹识别模型,提取出与待测语音数据对应的说话人嵌入z,并计算说话人嵌入z与注册语音之间余弦相似度;
S4.2,根据计算出的余弦相似度判断说话人身份,将与z相似度最高的注册语音的说话人身份作为待测语音数据的说话人身份。
相对于现有技术,本发明的有益效果是:
(1)本发明提出的特征提取网络使用一次聚合方式,减少特征冗余,保留浅层特征的原来的形式,能够提取多尺度多频率的说话人信息,使得最终的说话人嵌入更具有可区分性;
(2)本发明引入变分信息瓶颈层,利用变分信息瓶颈原理对说话人特征进一步压缩,去除说话人嵌入中背景噪声等与说话人身份无关的信息,尽可能保留与预测说话人身份最相关的信息,使得最终的说话人嵌入对噪声不敏感,从而提高声纹识别模型的鲁棒性。
实施例二
基于同样的发明构思,本实施例提供了一种基于变分信息瓶颈的声纹识别系统,包括:
数据获取模块,用于获取原始语音数据;
模型构建模块,用于构建引入变分信息瓶颈的声纹识别模型,其中,声纹识别模型包括声学特征参数提取层、帧级特征提取网络、特征聚合层、变分信息瓶颈层以及分类器,其中,声学特征参数提取层用于将输入的原始语音波形转换为声学特征参数FBank,帧级特征提取网络用于从声学特征参数FBank中提取多尺度多频率的帧级说话人信息,得到帧级特征向量,特征聚合层用于将帧级特征向量转换为低维句子级特征向量,变分信息瓶颈层用于对句子级特征向量中的信息进一步压缩,保留与说话人身份相关的信息,去除与说话人身份无关的信息,得到说话人嵌入,说话人嵌入为表示说话人身份的特征向量,分类器用于根据说话人嵌入得到声纹识别的结果;
模型训练模块,用于将获取的原始语音数据作为训练数据对声纹识别模型进行训练,利用神经网络反向传播算法更新模型参数,最小化损失函数直到损失函数收敛,保存模型参数,得到训练好的声纹识别模型;
识别模块,用于利用训练好的声纹识别模型对输入的语音数据进行识别。
由于本发明实施例二所介绍的系统,为实施本发明实施例一中基于变分信息瓶颈的声纹识别方法所采用的系统,故而基于本发明实施例一所介绍的方法,本领域所属技术人员能够了解该系统的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的系统都属于本发明所欲保护的范围。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于变分信息瓶颈的声纹识别方法,其特征在于,包括:
S1:获取原始语音数据;
S2:构建引入变分信息瓶颈的声纹识别模型,其中,声纹识别模型包括声学特征参数提取层、帧级特征提取网络、特征聚合层、变分信息瓶颈层以及分类器,其中,声学特征参数提取层用于将输入的原始语音波形转换为声学特征参数FBank,帧级特征提取网络用于采用一次聚合方式从声学特征参数FBank中提取多尺度多频率的帧级说话人信息,得到帧级特征向量,特征聚合层用于将帧级特征向量转换为低维句子级特征向量,变分信息瓶颈层用于对句子级特征向量中的信息进一步压缩,保留与说话人身份相关的信息,去除与说话人身份无关的信息,得到说话人嵌入,说话人嵌入为表示说话人身份的特征向量,分类器用于根据说话人嵌入得到声纹识别的结果;
S3:将获取的原始语音数据作为训练数据对声纹识别模型进行训练,利用神经网络反向传播算法更新模型参数,最小化损失函数直到损失函数收敛,保存模型参数,得到训练好的声纹识别模型;
S4:利用训练好的声纹识别模型对输入的语音数据进行识别。
2.如权利要求1所述的声纹识别方法,其特征在于,声学特征参数提取层的处理过程包括:输入原始语音波形,对语音依次进行预加重、分帧、加窗、离散傅里叶变换、幅值平方运算、应用梅尔滤波器组和取对数操作,得到声学特征参数FBank。
3.如权利要求1所述的声纹识别方法,其特征在于,步骤S2中帧级特征提取网络包括3个二维卷积层和4个一次聚合模块,一次聚合模块即为OSA模块,每个OSA模块包含5个二维卷积层、1个1×1卷积层和一个超轻量级子空间注意力机制ULSAM;二维卷积层的卷积核大小为3×3,步长为32,每个卷积层的输出连接到下一个卷积层,同时通过短连接与最后一个卷积层的输出进行拼接;每个OSA模块后接一个最大池化层,其卷积核为3×3,步长为2;子空间注意力机制将特征图分为g个组,称为g个子空间,每个组有G个特征图,每个子空间生成一个注意力图,将g个注意力图拼接作为输出。
4.如权利要求1所述的声纹识别方法,其特征在于,步骤S2中特征聚合层包含1个池化层,池化层采用时域平均池化方法,信号输出尺寸为1×1。
5.如权利要求1所述的声纹识别方法,其特征在于,步骤S2中变分信息瓶颈层包括1个全连接层和1个仿射变换层,利用重参数方法实现反向传播;
其中,句子级特征向量首先输入到全连接层,该全连接层的节点数为1024;将全连接层的输出特征向量均分为两个向量,其中一个特征向量作为均值μ,另一个特征向量经过softplus函数转换作为方差σ;重参数方法首先生成一个均值为0,方差为1的高斯分布,从这个高斯分布中采样数据,记作∈,然后经过放缩平移后得到目标分布z,z的计算过程如下式:
Figure FDA0003655917110000021
其中,μ和σ分别是平移参数和放缩参数,即全连接层输出的均值和方差;
输出的特征向量z输入到仿射变换层,该仿射变换层是1个节点数为512的全连接层,将z映射为固定的512维向量;对向量z做L2归一化操作,得到表示说话人身份的特征向量,即说话人嵌入。
6.如权利要求1所述的声纹识别方法,其特征在于,S2中分类器使用余弦距离计算说话人嵌入之间的相似度分数,计算公式如下式:
Figure FDA0003655917110000022
其中xi,xj分别表示从两份语音数据对应的音频文件中提取到的说话人嵌入。
7.如权利要求1所述的声纹识别方法,其特征在于,步骤S3中训练模型的采用的损失函数包含两个部分,表达式如下:
Figure FDA0003655917110000023
其中,x、y、z分别表示输入语音、输出的说话人身份标签和说话人嵌入,p(x)为输入数据的分布,x~p(x)表示x服从分布p(x),E(Z|X)表示将输入语音X映射到潜在变量Z的分布上,z~E(Z|X)表示z服从分布E(Z|X),q(y|z)表示标准极大似然估计,p(z|x)表示将x映射到z,
Figure FDA0003655917110000024
表示期望,p(z)为潜在变量的分布,r(z)表示p(z)的变分近似,β表示惩罚强度;损失函数第一项为分类损失,采用softmax损失函数;第二项为惩罚项,表示说话人嵌入和模型输出之间的互信息,β越大,惩罚强度越大。
8.如权利要求1所述的声纹识别方法,其特征在于,步骤S4包括:
S4.1:将待测语音数据输入到训练好的声纹识别模型,提取出与待测语音数据对应的说话人嵌入z,并计算说话人嵌入z与注册语音之间余弦相似度;
S4.2,根据计算出的余弦相似度判断说话人身份,将与z相似度最高的注册语音的说话人身份作为待测语音数据的说话人身份。
9.一种基于变分信息瓶颈的声纹识别系统,其特征在于,包括:
数据获取模块,用于获取原始语音数据;
模型构建模块,用于构建引入变分信息瓶颈的声纹识别模型,其中,声纹识别模型包括声学特征参数提取层、帧级特征提取网络、特征聚合层、变分信息瓶颈层以及分类器,其中,声学特征参数提取层用于将输入的原始语音波形转换为声学特征参数FBank,帧级特征提取网络用于采用一次聚合方式从声学特征参数FBank中提取多尺度多频率的帧级说话人信息,得到帧级特征向量,特征聚合层用于将帧级特征向量转换为低维句子级特征向量,变分信息瓶颈层用于对句子级特征向量中的信息进一步压缩,保留与说话人身份相关的信息,去除与说话人身份无关的信息,得到说话人嵌入,说话人嵌入为表示说话人身份的特征向量,分类器用于根据说话人嵌入得到声纹识别的结果;
模型训练模块,用于将获取的原始语音数据作为训练数据对声纹识别模型进行训练,利用神经网络反向传播算法更新模型参数,最小化损失函数直到损失函数收敛,保存模型参数,得到训练好的声纹识别模型;
识别模块,用于利用训练好的声纹识别模型对输入的语音数据进行识别。
CN202110709415.6A 2021-06-25 2021-06-25 一种基于变分信息瓶颈的声纹识别方法及系统 Active CN113488060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110709415.6A CN113488060B (zh) 2021-06-25 2021-06-25 一种基于变分信息瓶颈的声纹识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110709415.6A CN113488060B (zh) 2021-06-25 2021-06-25 一种基于变分信息瓶颈的声纹识别方法及系统

Publications (2)

Publication Number Publication Date
CN113488060A CN113488060A (zh) 2021-10-08
CN113488060B true CN113488060B (zh) 2022-07-19

Family

ID=77936174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110709415.6A Active CN113488060B (zh) 2021-06-25 2021-06-25 一种基于变分信息瓶颈的声纹识别方法及系统

Country Status (1)

Country Link
CN (1) CN113488060B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052689A (zh) * 2021-10-28 2023-05-02 中国科学院深圳先进技术研究院 一种声纹识别方法
CN114333900B (zh) * 2021-11-30 2023-09-05 南京硅基智能科技有限公司 端到端提取bnf特征的方法、网络模型、训练方法及系统
CN114495948B (zh) * 2022-04-18 2022-09-09 北京快联科技有限公司 一种声纹识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108648759A (zh) * 2018-05-14 2018-10-12 华南理工大学 一种文本无关的声纹识别方法
CN109671423A (zh) * 2018-05-03 2019-04-23 南京邮电大学 训练数据有限情形下的非平行文本语音转换方法
CN111931729A (zh) * 2020-09-23 2020-11-13 平安国际智慧城市科技股份有限公司 基于人工智能的行人检测方法、装置、设备及介质
CN112259104A (zh) * 2020-10-10 2021-01-22 西南政法大学 一种声纹识别模型的训练装置
CN112420056A (zh) * 2020-11-04 2021-02-26 乐易欢 基于变分自编码器的说话人身份鉴别方法、系统及无人机
CN112667071A (zh) * 2020-12-18 2021-04-16 宜通世纪物联网研究院(广州)有限公司 基于随机变分信息的手势识别方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109923560A (zh) * 2016-11-04 2019-06-21 谷歌有限责任公司 使用变分信息瓶颈来训练神经网络

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671423A (zh) * 2018-05-03 2019-04-23 南京邮电大学 训练数据有限情形下的非平行文本语音转换方法
CN108648759A (zh) * 2018-05-14 2018-10-12 华南理工大学 一种文本无关的声纹识别方法
CN111931729A (zh) * 2020-09-23 2020-11-13 平安国际智慧城市科技股份有限公司 基于人工智能的行人检测方法、装置、设备及介质
CN112259104A (zh) * 2020-10-10 2021-01-22 西南政法大学 一种声纹识别模型的训练装置
CN112420056A (zh) * 2020-11-04 2021-02-26 乐易欢 基于变分自编码器的说话人身份鉴别方法、系统及无人机
CN112667071A (zh) * 2020-12-18 2021-04-16 宜通世纪物联网研究院(广州)有限公司 基于随机变分信息的手势识别方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用层级交互注意力的文本摘要方法;黄于欣等;《计算机科学与探索》;20201231(第10期);全文 *

Also Published As

Publication number Publication date
CN113488060A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN113488060B (zh) 一种基于变分信息瓶颈的声纹识别方法及系统
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN108899051B (zh) 一种基于联合特征表示的语音情感识别模型及识别方法
CN109890043B (zh) 一种基于生成式对抗网络的无线信号降噪方法
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN109410974B (zh) 语音增强方法、装置、设备及存储介质
CN110728360A (zh) 一种基于bp神经网络的微能源器件能量识别方法
CN106952643A (zh) 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN111341319B (zh) 一种基于局部纹理特征的音频场景识别方法及系统
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN113763965A (zh) 一种多重注意力特征融合的说话人识别方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN114863938A (zh) 一种基于注意力残差和特征融合的鸟语识别方法和系统
CN112151067B (zh) 一种基于卷积神经网络的数字音频篡改被动检测方法
CN111860246A (zh) 面向深度卷积神经网络的心音信号分类的数据扩充方法
CN116863944A (zh) 基于非稳态音频增强和多尺度注意力的声纹识别方法及系统
CN116013339A (zh) 一种基于改进crn的单通道语音增强方法
CN113707172B (zh) 稀疏正交网络的单通道语音分离方法、系统、计算机设备
CN114626412A (zh) 用于无人值守传感器系统的多类别目标识别方法及系统
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant