CN113488058B - 一种基于短语音的声纹识别方法 - Google Patents
一种基于短语音的声纹识别方法 Download PDFInfo
- Publication number
- CN113488058B CN113488058B CN202110696040.4A CN202110696040A CN113488058B CN 113488058 B CN113488058 B CN 113488058B CN 202110696040 A CN202110696040 A CN 202110696040A CN 113488058 B CN113488058 B CN 113488058B
- Authority
- CN
- China
- Prior art keywords
- voice
- voiceprint recognition
- attention
- speaker
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000002776 aggregation Effects 0.000 claims description 14
- 238000004220 aggregation Methods 0.000 claims description 14
- 238000010606 normalization Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 230000009977 dual effect Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于短语音的声纹识别方法,解决现有声纹识别模型在短语音条件下识别准确率低的问题。本发明首先提出了一种基于频谱的数据增强方式,扩充训练数据集;然后使用MFCC和PNCC的融合特征提取帧级说话人特征;帧级特征提取网络为一种改进的残差网络(ResNet)—深度残差收缩网络(DRSN),该网络在ResNet基础上加入软阈值化作为收缩层,用于去除冗余信息;最后使用双重自注意力机制将帧级特征聚合为句子级特征,得到说话人嵌入。相比于现有的声纹识别技术,本发明提取的说话人嵌入包含更丰富的说话人信息,从而提升了声纹识别在短语音条件下的识别准确率,使得声纹识别技术更适用于实际生活场景。
Description
技术领域
本发明属于深度学习和声纹识别技术领域,具体涉及一种基于短语音的声纹识别方法。
背景技术
声纹识别在实际生活中有着非常广泛的应用前景,比如安防领域帮助刑侦破案和电信反欺诈,金融领域声纹登陆和支付,智能家居的个性化智能音箱等。然而,虽然基于深度学习的声纹识别已经具有很高的识别准确率,但是这些声纹识别系统通常为长语音识别,测试语音通常为5s以上。由于训练数据不足,并且实际应用中用户通常只能向声纹识别系统提供1-5秒的短语音,导致声纹识别性能急剧下降,从而限制了声纹识别的实际应用范围。
现有提高短语音声纹识别准确率的方法主要集中在使用更有效的特征提取网络和特征聚合策略,除此之外最新的方法是使用长语音补偿短语音,补偿方法包括知识蒸馏、元学习和生成对抗网络(GAN)。知识蒸馏方法用长语音数据集训练的教师网络,同时用短语音训练一个学生网络,然后用教师网络学到的知识传递给学生网络,以补偿语音信息不足的问题;元学习方法采用不平衡的长度对训练一个原型网络,不平衡长度对为一个长语音支持集和一个短语音查询集,并强制网络对支持集和查询集一起分类;GAN提出了一种对抗性学习的嵌入映射模型,对于从同一说话人的话语中提取的短嵌入对和长嵌入对,将短嵌入直接映射到增强的可分辨性的嵌入。
发明内容
本发明目的在于通过扩充训练数据以及改进特征提取网络和特征聚合策略,从长度有限的语音中提取尽可能多的说话人特征,丰富说话人特征表达,从而提高短语音声纹识别准确率;提出了一种基于短语音的声纹识别方法,使得提取的说话人特征包含更丰富的信息,从而提升短语音条件下声纹识别的准确率。
本发明的方法所采用的技术方案是:一种基于短语音的声纹识别方法,包括以下步骤:
步骤1:数据增强;
扩充公开语音数据集Voxceleb1和Voxceleb2,然后将数据集中的语音随机剪切为0~Ns短语音,其中N为预设值;
步骤2:声学参数提取;
从原始语音波形分别提取梅尔频率倒谱系数MFCC和和功率归一化倒谱系数PNCC;
步骤3:帧级特征提取;
将MFCC特征与PNCC特征融合,共同输入帧级特征提取网络,提取帧级说话人信息;
所述帧级特征提取网络包括1个一维卷积,1个特征融合模块和1个信道共享的深度残差收缩网络DRSN-CS;
步骤4:帧级特征聚合;
将帧级说话人信息输入到句子级特征聚合网络,采用双重注意力机制将帧级特征聚合为句子级特征;
所述句子级特征聚合网络包括1个双重注意力机制模块和2个全连接层FC;
所述双重注意力机制为两个并行的自注意力模块,分别为位置注意力模块和信道注意力模块;位置注意力模块包括4个一维卷积,通过自注意力机制学习空间特征的相关性;信道注意力机制包括2个一维卷积,通过自注意力机制学习信道特征的相关性;
步骤5:利用损失函数训练声纹识别模型直至损失函数收敛,保存声纹识别模型参数;
所述声纹识别模型由声学参数提取模块、帧级特征提取模块和帧级特征聚合模块组成;
步骤6:输入待测语音,利用训练好的声纹识别模型识别说话人身份。
相对于现有技术,本发明的有益效果是:
(1)本发明提出一种改进的基于频谱的数据增强方法,在原始语音的对数梅尔谱图上利用时域掩蔽、频域掩蔽和时域-频域对角线掩蔽三种变形方法来扩充数据;
(2)本发明使用MFCC和PNCC的融合特征作为输入,改善MFCC单独输入时抗噪性差的问题;
(3)本发明使用一种改进的残差网络(ResNet)——深度残差收缩网络(DRSN)作为特征提取器,在ResNet基础上加入软阈值化,去除特征中与目标任务无关的信息,减少特征冗余;
(4)本发明使用一种双重注意力机制将帧级特征聚合为句子级特征,使用自注意力机制分别从空间维度和信道维度提取更丰富的说话人信息。
附图说明
图1为本发明实施例的基于短语音的声纹识别方法的流程图;
图2为本分明实施例的MFCC声学特征参数提取的流程图;
图3为本分明实施例的PNCC声学特征参数提取的流程图;
图4为本发明实施例的深度残差收缩网络结构图;
图5为本发明实施例的残差收缩网络构建单元的网络结构图;
图6为本发明实施例的双重注意力机制的结构图。
具体实施方式
为了便于本领域的普通技术员工理解和实施本发明,下面结合附图及实施案例,对本发明做进一步的详细描述,应当理解,此处所描述的实施实例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于短语音的声纹识别方法,包括以下步骤:
步骤1:数据增强;
使用频谱增强方法扩充公开语音数据集Voxceleb1和Voxceleb2,然后将数据集中的语音随机剪切为0~Ns短语音,其中N为预设值;
本实施例步骤1的具体实现包括以下子步骤:
步骤1.1:将原始语音转换为对数梅尔谱图,在谱图的时域、频域和时域-频域的对角线分别进行掩蔽,得到新的对数梅尔谱图,从而得到新的语音数据;
步骤1.2:将原始数据集和扩充的数据集一起进行语音活动检测(VAD),去除静音片段;
步骤1.3:将去除静音后的语音随机剪切为0~5s的短语音。
步骤2:声学特征参数提取;
从原始语音波形分别提取梅尔频率倒谱系数MFCC和和功率归一化倒谱系数PNCC;
如图2所示,MFCC提取过程包括加重、分帧、加窗、短时傅里叶变换(FFT)、幅值平方运算、应用梅尔滤波器组、取对数和离散余弦变换(DCT);如图3所示,PNCC提取过程包括预加重、分帧、加窗、短时傅里叶变换、幅值平方运算、Gammatone滤波、非线性功率函数和离散余弦变换(DCT);
步骤3:帧级特征提取;
将MFCC特征与PNCC特征融合,共同输入帧级特征提取网络,提取帧级说话人信息;
本实施例的帧级特征提取网络包括1个一维卷积,1个特征融合模块和1个信道共享的深度残差收缩网络DRSN-CS;
本实施例步骤3的具体实现包括以下子步骤:
步骤3.1:将声学特征参数MFCC输入1个一维卷积层;
步骤3.2:在一维卷积层之后,将MFCC和PNCC相加,进行特征融合;
步骤3.3:将MFCC和PNCC的融合特征输入信道共享的深度残差收缩网络,得到帧级说话人特征向量。
如图4所示,本实施例信道共享的深度残差收缩网络(DRSN-CS),该网络由1个输入层,1个卷积层,6个信道共享阈值的残差收缩构建单元(RSBU-CS),1个批量归一化层(BN),1个整流线性单元ReLU激活函数,1个全局平均池化层GAP和1个全连接输出层(FC)组成,其中C表示特征图的通道数,K表示卷积层中卷积核的数目,“/2”表示以2的步幅移动卷积内核以减小输出特征映射的宽度;输入的MFCC和PNCC的融合特征依次经过1个输入层、1个卷积层、6个信道共享阈值的残差收缩构建单元RSBU-CS,然后将残差收缩构建单元的输出进行批量归一化、整流线性单元激活和全局平均池化操作,最后经过1个全连接层,得到帧级说话人特征;
如图5所示,每个信道共享阈值的残差收缩构建单元包括2个BN,2个ReLU激活函数,2个卷积层,1个恒等映射层和1个阈值估计模块,其中M是FC网络中的神经元数量,C×W×1中C、W和1分别表示特征图的通道数、宽度和高度,x、z和α是确定阈值时要使用的特征映射的指标,表示逐元素加法,/>表示逐元素乘法,/>表示软阈值;进入信道共享阈值的残差收缩构建单元的特征向量记为A,A首先进行批量归一化和整流线性单元激活操作,然后进入第1个卷积层;卷积层的输出再次进行批量归一化和整流线性单元激活操作,然后进入第2个卷积层;第2个卷积层的输出记为x,x进入阈值估计模块计算得到阈值/>x和/>进行软阈值化,软阈值化的结果通过恒等映射与A相加,得到RSBU-CS的输出;
阈值估计模块包括1个GAP,2个FC,1个BN,1个ReLU和1个sigmoid激活函数;x首先取绝对值,然后进行全局平均池化得到一个一维向量,一方面该一维向量经过FC—BN、ReLU、FC—Sigmoid路径得到缩放参数α,另一方面该一维向量取均值后与α相乘,得到最终的阈值
本实施例阈值估计模块用于估计软阈值,软阈值化是信号处理中一种用于信号降噪的算法:将绝对值小于某一阈值的特征赋值为零,将其他的特征朝着零的方向,收缩,软阈值函数表达式如下:
其中,x表示输入特征,y表示输出特征,τ表示阈值;
深度残差收缩网络将软阈值化作为非线性转换层嵌入残差模块,利用神经网络学习阈值τ,且根据噪声信息的大小为每个样本学习一组独立的阈值。
步骤4:帧级特征聚合;
将帧级说话人信息输入到句子级特征聚合网络,采用双重注意力机制将帧级特征聚合为句子级特征;
本实施例的句子级特征聚合网络包括1个双重注意力机制模块和2个全连接层FC;
本实施例双重注意力机制为两个并行的自注意力模块,分别为位置注意力模块和信道注意力模块;位置注意力模块包括4个一维卷积,通过自注意力机制学习空间特征的相关性;信道注意力机制包括2个一维卷积,通过自注意力机制学习信道特征的相关性;
本实施例步骤4的具体实现包括以下子步骤:
步骤4.1:将深度残差收缩网络的输出特征输入到1个卷积网络进行降维;
步骤4.2:将特征并行输入位置注意力模块和信道注意力模块;
请见图6,本实施例将特征输入位置注意力模块,将更广泛的上下文信息编码为局部信息;具体包括以下子步骤:
步骤A.1:将输入的维度为C×H×W特征A分别经过3个卷积层,得到特征B、C和D,其中B、C、D的维度为C×H×W;
步骤A.2:对特征B、C、D进行维度转换得到特征Br、Cr、Dr,其中Br、Cr、Dr的维度为C×N,其中N=H×W;
步骤A.3:对特征Br和Cr做矩阵乘法,得到任意两点特征之间的关联强度矩阵;
步骤A.4:对关联强度矩阵进行softmax操作,得到注意力图S,表示每个位置对其他位置的注意力,S中每个元素表达式如下:
其中,sji衡量第i个位置对第j个位置的影响;Bi表示特征Br的第i个位置的元素,Cj表示特征Cr的第j个位置元素,1≤i,j≤N;
步骤A.5:注意力图S和特征Dr进行矩阵乘法,利用注意力图S中的权值对特征Dr进行加权;
步骤A.6:将加权后的Dr乘以尺度参数α,然后与原始特征A进行逐元素加法,得到输出特征Ep,Ep的表达式如下:
其中,α初始化为0;Di表示特征Dr的第i个位置的元素,Aj表示特征A的第j个位置元素;
请见图6,本实施例将特征输入信道注意力模块,模拟信道之间的相互依赖关系;具体包括以下子步骤:
步骤B.1:将输入的维度为C×H×W特征A进行维度转换得到Ar,Ar维度为C×N,其中N=H×W;
步骤B.2:对特征A和Ar进行矩阵乘法得到关联强度矩阵;
步骤B.3:对关联强度矩阵进行softmax操作,得到维度为C×N的信道注意力图X,X中每个元素表达式如下:
其中,xji衡量第i个信道对第j个信道的影响;1≤i≤C,1≤j≤N;
步骤B.4:注意力图X和特征A进行矩阵乘法,利用注意力图X中的权值对特征A进行加权;
步骤B.5:将加权后的A乘以尺度参数β,然后与原始特征A进行逐元素加法,得到输出特征Ec,Ec的表达式如下:
其中β从0开始逐渐学习权重;
步骤4.3:将Ep和Ec相加,经过两个全连接层,得到最终的说话人嵌入。
步骤5:利用损失函数训练声纹识别模型直至损失函数收敛,保存声纹识别模型参数;
本实施例的声纹识别模型由声学参数提取模块、帧级特征提取模块和帧级特征聚合模块组成;
本实施例训练模型的损失函数为softmax,表达式如下:
其中,N表示每个批量中包含的句子数,C表示说话人总数,xi表示第i个句子的说话人嵌入,yi表示第i个句子对应的说话人,1≤i≤N,1≤y≤C,Wj T和bj是网络学习到的权重和偏差,T表示转置。
步骤6:输入待测语音,利用训练好的声纹识别模型识别说话人身份;
步骤6的具体实现包括以下子步骤:
步骤6.1:输入待测语音,根据步骤2进行数据预处理,得到测试短语音的MFCC特征和PNCC特征;
步骤6.2:将MFCC特征经过1个一维卷积层之后和PNCC特征融合;
步骤6.3:将融合特征输入到训练好的声纹识别模型,根据步骤3和步骤4提取说话人嵌入z,并计算说话人嵌入z与注册语音之间余弦相似度;
步骤6.4:根据余弦相似度判断说话人身份,与z相似度最高的注册语音的说话人身份即为测试语音的说话人身份。
本发明针对实际应用场景中用户提供给声纹识别系统的语音通常为1-5s短语音导致声纹识别准确率下降的问题,设计了一种基于短语音的声纹识别模型,其中包括设计数据增强方法扩充数据集,弥补短语音数据不足的问题;设计MFCC和PNCC融合特征作为神经网络的输入,并引入一种新的深度残差收缩网络作为作为特征提取网络,尽可能提取更丰富的说话人信息;使用双重注意力机制聚合帧级特征,将注意力尽可能放在与说话人身份相关的信息上,从而提高声纹识别模型在短语音场景下的识别准确率。
上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制。本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (9)
1.一种基于短语音的声纹识别方法,其特征在于,包括以下步骤:
步骤1:数据增强;
扩充公开语音数据集Voxceleb1和Voxceleb2,然后将数据集中的语音随机剪切为0~Ns短语音,其中N为预设值;
步骤2:声学参数提取;
从原始语音波形分别提取梅尔频率倒谱系数MFCC和功率归一化倒谱系数PNCC;
步骤3:帧级特征提取;
将MFCC特征与PNCC特征融合,共同输入帧级特征提取网络,提取帧级说话人信息;
所述帧级特征提取网络包括1个一维卷积,1个特征融合模块和1个信道共享的深度残差收缩网络DRSN-CS;
步骤4:帧级特征聚合;
将帧级说话人信息输入到句子级特征聚合网络,采用双重注意力机制将帧级特征聚合为句子级特征;
所述句子级特征聚合网络包括1个双重注意力机制模块和2个全连接层FC;
所述双重注意力机制为两个并行的自注意力模块,分别为位置注意力模块和信道注意力模块;位置注意力模块包括4个一维卷积,通过自注意力机制学习空间特征的相关性;信道注意力机制包括2个一维卷积,通过自注意力机制学习信道特征的相关性;
步骤4的具体实现包括以下子步骤:
步骤4.1:将深度残差收缩网络的输出特征输入到1个卷积网络进行降维;
步骤4.2:将特征并行输入位置注意力模块和信道注意力模块;
将特征输入位置注意力模块,将更广泛的上下文信息编码为局部信息;具体包括以下子步骤:
步骤A.1:将输入的维度为C×H×W特征A分别经过3个卷积层,得到特征B、C和D,其中B、C、D的维度为C×H×W;
步骤A.2:对特征B、C、D进行维度转换得到特征Br、Cr、Dr,其中Br、Cr、Dr的维度为C×N,其中N=H×W;
步骤A.3:对特征Br和Cr做矩阵乘法,得到任意两点特征之间的关联强度矩阵;
步骤A.4:对关联强度矩阵进行softmax操作,得到注意力图S,表示每个位置对其他位置的注意力,S中每个元素表达式如下:
其中,sji衡量第i个位置对第j个位置的影响;Bi表示特征Br的第i个位置的元素,Cj表示特征Cr的第j个位置元素,1≤i,j≤N;
步骤A.5:注意力图S和特征Dr进行矩阵乘法,利用注意力图S中的权值对特征Dr进行加权;
步骤A.6:将加权后的Dr乘以尺度参数α,然后与原始特征A进行逐元素加法,得到输出特征Ep,Ep的表达式如下:
其中,α初始化为0;Di表示特征Dr的第i个位置的元素,Aj表示特征A的第j个位置元素;
将特征输入信道注意力模块,模拟信道之间的相互依赖关系;具体包括以下子步骤:
步骤B.1:将输入的维度为C×H×W特征A进行维度转换得到Ar,Ar维度为C×N,其中N=H×W;
步骤B.2:对特征A和Ar进行矩阵乘法得到关联强度矩阵;
步骤B.3:对关联强度矩阵进行softmax操作,得到维度为C×N的信道注意力图X,X中每个元素表达式如下:
其中,xji衡量第i个信道对第j个信道的影响1≤i≤C,1≤j≤N;
步骤B.4:注意力图X和特征A进行矩阵乘法,利用注意力图X中的权值对特征A进行加权;
步骤B.5:将加权后的A乘以尺度参数β,然后与原始特征A进行逐元素加法,得到输出特征Ec,Ec的表达式如下:
其中β从0开始逐渐学习权重;
步骤4.3:将Ep和Ec相加,经过两个全连接层,得到最终的说话人嵌入;
步骤5:利用损失函数训练声纹识别模型直至损失函数收敛,保存声纹识别模型参数;
所述声纹识别模型由声学参数提取模块、帧级特征提取模块和帧级特征聚合模块组成;
步骤6:输入待测语音,利用训练好的声纹识别模型识别说话人身份。
2.根据权利要求1所述的基于短语音的声纹识别方法,其特征在于,步骤1的具体实现包括以下子步骤:
步骤1.1:将原始语音转换为对数梅尔谱图,在谱图的时域、频域和时域-频域的对角线分别进行掩蔽,得到新的对数梅尔谱图,从而得到新的语音数据;
步骤1.2:将原始数据和扩充的数据一起进行语音活动检测,去除静音片段;
步骤1.3:将去除静音后的语音随机剪切为0~5s的短语音。
3.根据权利要求1所述的基于短语音的声纹识别方法,其特征在于:步骤2中,MFCC提取过程包括加重、分帧、加窗、短时傅里叶变换、幅值平方运算、应用梅尔滤波器组、取对数和离散余弦变换。
4.根据权利要求1所述的基于短语音的声纹识别方法,其特征在于:步骤2中,PNCC提取过程包括预加重、分帧、加窗、短时傅里叶变换、幅值平方运算、Gammatone滤波、非线性功率函数和离散余弦变换。
5.根据权利要求1所述的基于短语音的声纹识别方法,其特征在于,步骤3的具体实现包括以下子步骤:
步骤3.1:将声学特征参数MFCC输入1个一维卷积层;
步骤3.2:在一维卷积层之后,将MFCC和PNCC相加,进行特征融合;
步骤3.3:将MFCC和PNCC的融合特征输入信道共享的深度残差收缩网络,得到帧级说话人特征向量。
6.根据权利要求5所述的基于短语音的声纹识别方法,其特征在于:步骤3.3中所述信道共享的深度残差收缩网络DRSN-CS,由1个输入层,1个卷积层,6个信道共享阈值的残差收缩构建单元RSBU-CS,1个批量归一化层BN,1个整流线性单元ReLU激活函数,1个全局平均池化层GAP和1个全连接输出层FC组成;输入的MFCC和PNCC的融合特征依次经过1个输入层、1个卷积层、6个信道共享阈值的残差收缩构建单元RSBU-CS,然后将残差收缩构建单元的输出进行批量归一化、整流线性单元激活和全局平均池化操作,最后经过1个全连接层,得到帧级说话人特征;
每个信道共享阈值的残差收缩构建单元RSBU-CS包括2个批量归一化层BN,2个整流线性单元ReLU激活函数,2个卷积层,1个恒等映射层和1个阈值估计模块;进入信道共享阈值的残差收缩构建单元的特征向量记为A,A首先进行批量归一化和整流线性单元激活操作,然后进入第1个卷积层;卷积层的输出再次进行批量归一化和整流线性单元激活操作,然后进入第2个卷积层;第2个卷积层的输出记为x,x进入阈值估计模块计算得到阈值x和进行软阈值化,软阈值化的结果通过恒等映射与A相加,得到RSBU-CS的输出;
9.根据权利要求1-8任意一项所述的基于短语音的声纹识别方法,其特征在于,步骤6的具体实现包括以下子步骤:
步骤6.1:输入待测语音,根据步骤2进行数据预处理,得到测试短语音的MFCC特征和PNCC特征;
步骤6.2:将MFCC特征经过1个一维卷积层之后和PNCC特征融合;
步骤6.3:将融合特征输入到训练好的声纹识别模型,根据步骤3和步骤4提取说话人嵌入z,并计算说话人嵌入z与注册语音之间余弦相似度;
步骤6.4:根据余弦相似度判断说话人身份,与z相似度最高的注册语音的说话人身份即为测试语音的说话人身份。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110696040.4A CN113488058B (zh) | 2021-06-23 | 2021-06-23 | 一种基于短语音的声纹识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110696040.4A CN113488058B (zh) | 2021-06-23 | 2021-06-23 | 一种基于短语音的声纹识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113488058A CN113488058A (zh) | 2021-10-08 |
CN113488058B true CN113488058B (zh) | 2023-03-24 |
Family
ID=77935863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110696040.4A Active CN113488058B (zh) | 2021-06-23 | 2021-06-23 | 一种基于短语音的声纹识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113488058B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113963241B (zh) * | 2021-12-22 | 2022-03-08 | 苏州浪潮智能科技有限公司 | Fpga硬件架构及其数据处理方法、存储介质 |
CN114913859B (zh) * | 2022-05-17 | 2024-06-04 | 北京百度网讯科技有限公司 | 声纹识别方法、装置、电子设备和存储介质 |
CN115223570A (zh) * | 2022-06-02 | 2022-10-21 | 康佳集团股份有限公司 | 基于深度神经网络的说话人验证方法、终端及存储介质 |
CN115472168B (zh) * | 2022-08-24 | 2024-04-19 | 武汉理工大学 | 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备 |
CN115424621B (zh) * | 2022-10-31 | 2023-04-07 | 北京科技大学 | 声纹识别模型的训练方法、声纹识别方法、装置及设备 |
CN116612767B (zh) * | 2023-07-17 | 2023-10-13 | 国网山东省电力公司菏泽供电公司 | 基于嵌入增强的超短时说话人确认方法、设备及介质 |
CN116631406B (zh) * | 2023-07-21 | 2023-10-13 | 山东科技大学 | 基于声学特征生成的身份特征提取方法、设备及存储介质 |
CN116825088B (zh) * | 2023-08-25 | 2023-11-07 | 深圳市国硕宏电子有限公司 | 一种基于深度学习的会议语音检测方法及系统 |
CN117292693B (zh) * | 2023-11-27 | 2024-02-09 | 安徽大学 | 融入自注意力机制的crnn珍稀动物识别与定位方法 |
CN118501691B (zh) * | 2024-07-12 | 2024-10-11 | 广东敏卓机电股份有限公司 | 一种微电机异音检测方法及装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106971730A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种基于信道补偿的声纹识别方法 |
US11501154B2 (en) * | 2017-05-17 | 2022-11-15 | Samsung Electronics Co., Ltd. | Sensor transformation attention network (STAN) model |
CN108764303A (zh) * | 2018-05-10 | 2018-11-06 | 电子科技大学 | 一种基于注意力机制的遥感图像自然语言生成方法 |
CN108648759A (zh) * | 2018-05-14 | 2018-10-12 | 华南理工大学 | 一种文本无关的声纹识别方法 |
CN109256135B (zh) * | 2018-08-28 | 2021-05-18 | 桂林电子科技大学 | 一种端到端说话人确认方法、装置及存储介质 |
CN109492830B (zh) * | 2018-12-17 | 2021-08-31 | 杭州电子科技大学 | 一种基于时空深度学习的移动污染源排放浓度预测方法 |
CN109801635A (zh) * | 2019-01-31 | 2019-05-24 | 北京声智科技有限公司 | 一种基于注意力机制的声纹特征提取方法及装置 |
CN110211595B (zh) * | 2019-06-28 | 2021-08-06 | 四川长虹电器股份有限公司 | 一种基于深度学习的说话人聚类系统 |
CN110570869B (zh) * | 2019-08-09 | 2022-01-14 | 科大讯飞股份有限公司 | 一种声纹识别方法、装置、设备及存储介质 |
CN110852272B (zh) * | 2019-11-11 | 2023-03-28 | 上海应用技术大学 | 行人检测方法 |
CN110853653B (zh) * | 2019-11-21 | 2022-04-12 | 中科智云科技有限公司 | 一种基于自注意力和迁移学习的声纹识别方法 |
CN112201256B (zh) * | 2020-10-09 | 2023-09-19 | 深圳前海微众银行股份有限公司 | 声纹分割方法、装置、设备及可读存储介质 |
-
2021
- 2021-06-23 CN CN202110696040.4A patent/CN113488058B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113488058A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113488058B (zh) | 一种基于短语音的声纹识别方法 | |
US10373609B2 (en) | Voice recognition method and apparatus | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN106782511A (zh) | 修正线性深度自编码网络语音识别方法 | |
CN101246685A (zh) | 计算机辅助语言学习系统中的发音质量评价方法 | |
CN113129908B (zh) | 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统 | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
CN116153337B (zh) | 合成语音溯源取证方法及装置、电子设备及存储介质 | |
US12087280B2 (en) | System and method for robust wakeword detection in presence of noise in new unseen environments without additional data | |
CN113516987B (zh) | 一种说话人识别方法、装置、存储介质及设备 | |
CN117789699B (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN118173092A (zh) | 一种基于ai语音交互的在线客服平台 | |
CN115472168B (zh) | 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备 | |
Nagakrishnan et al. | Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models | |
CN113012684B (zh) | 一种基于语音分割的合成语音检测方法 | |
CN115910022A (zh) | 一种说话人相关防语音合成攻击方法和系统 | |
CN114220438A (zh) | 基于bottleneck和通道切分的轻量级说话人识别方法及系统 | |
Shareef et al. | Comparison between features extraction techniques for impairments arabic speech | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
Srinivas | LFBNN: robust and hybrid training algorithm to neural network for hybrid features-enabled speaker recognition system | |
Thamburaj et al. | Automatic Speech Recognition Based on Improved Deep Learning | |
CN117393000B (zh) | 一种基于神经网络和特征融合的合成语音检测方法 | |
CN118230722B (zh) | 基于ai的智能语音识别方法及系统 | |
Lan et al. | Using genetic algorithm to improve the performance of speech recognition based on artificial neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |