CN116705036B - 一种基于多层次特征融合的短语音说话人识别方法 - Google Patents
一种基于多层次特征融合的短语音说话人识别方法 Download PDFInfo
- Publication number
- CN116705036B CN116705036B CN202310986807.6A CN202310986807A CN116705036B CN 116705036 B CN116705036 B CN 116705036B CN 202310986807 A CN202310986807 A CN 202310986807A CN 116705036 B CN116705036 B CN 116705036B
- Authority
- CN
- China
- Prior art keywords
- features
- voice
- deep
- feature map
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000004927 fusion Effects 0.000 title claims abstract description 29
- 238000007499 fusion processing Methods 0.000 claims abstract description 22
- 238000003062 neural network model Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000005457 optimization Methods 0.000 claims abstract description 6
- 238000011176 pooling Methods 0.000 claims description 44
- 238000001228 spectrum Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000033764 rhythmic process Effects 0.000 claims description 6
- 239000010410 layer Substances 0.000 description 51
- 230000007246 mechanism Effects 0.000 description 26
- 238000007500 overflow downdraw method Methods 0.000 description 11
- 239000004973 liquid crystal related substance Substances 0.000 description 10
- 238000012360 testing method Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开一种基于多层次特征融合的短语音说话人识别方法,涉及说话人识别技术领域,其方法包括:通过对包含目标短语音说话人的语音数据进行特征提取预处理,分别提取所述语音数据中的声学特征、韵律特征以及深层特征;通过对所述声学特征、所述韵律特征以及所述深层特征分别进行优化处理,得到优化后的声学特征、优化后的韵律特征以及优化后的深层特征;通过对所述优化后的声学特征、所述优化后的韵律特征以及所述优化后的深层特征进行融合处理,得到融合处理后的多通道特征;将所述融合处理后的多通道特征输入至训练好的深度神经网络模型中得到特征相似度值,并根据所述特征相似度值确定所述语音数据对应的目标短语音说话人。
Description
技术领域
本发明涉及说话人识别技术领域,特别是一种基于多层次特征融合的短语音说话人识别方法。
背景技术
说话人识别作为一种新的生物认证技术,在进行身份鉴定时展现了可靠的安全性与极高的准确性,它通过提取输入语音信号中能表征说话人个性特征的声学特征,从而完成身份认证。说话人识别所具有的方便性,经济性和准确性的特点使之成为语音技术中的热点研究内容。然而在大多数实际应用中,由于背景噪声、记录错误、语音重叠等的影响,语音中能够提取到的有用信息量降低,使得说话人识别性能急剧下降,而短语音说话人识别是近年来实际应用中遇到的最突出的现实问题。
短语音说话人识别技术的研究主要受语音特征提取和识别模型的影响,单一的特征无法充分地体现说话人的个性特点。所以在特征空间中,对多种特征进行筛选和融合,以此获得准确表征说话人个性的特征是短语音说话人中的研究关键点。
现有的特征融合方法大多是基于声学层特征,属于底层次特征,并没有使用高层次的说话人特征,因此很难较为丰富地描述短语音场景下的说话人身份。此外现有的特征融合方法也过于简单,融合后的特征依然含有很多说话人不相关信息,在短语音说话人识别场景中,很难区分不同说话人。
发明内容
本发明提供一种基于多层次特征融合的短语音说话人识别方法,以便解决如何利用说话人的不同层次特征进行特征互补以丰富短语音说话人个性信息提高短语音说话人识别的准确性的技术问题。
本发明实施例提供了一种基于多层次特征融合的短语音说话人识别方法,包括:
通过对包含目标短语音说话人的语音数据进行特征提取预处理,分别提取所述语音数据中的声学特征、韵律特征以及深层特征;
通过对所述声学特征、所述韵律特征以及所述深层特征分别进行优化处理,得到优化后的声学特征、优化后的韵律特征以及优化后的深层特征;
通过对所述优化后的声学特征、所述优化后的韵律特征以及所述优化后的深层特征进行融合处理,得到融合处理后的多通道特征;
将所述融合处理后的多通道特征输入至训练好的深度神经网络模型中得到特征相似度值,并根据所述特征相似度值确定所述语音数据对应的目标短语音说话人。
优选地,通过对包含目标短语音说话人的语音数据进行特征提取预处理,提取所述语音数据中的声学特征包括:
通过对所述语音数据进行预处理,得到序列语音帧;
通过对所述序列语音帧进行快速傅氏变换FFT处理,得到线性频谱,并对所述线性频谱进行取模处理,得到功率谱;
利用Mel滤波器组对所述功率谱进行频率转换,得到Mel频率,并对所述Mel频率进行对数计算,得到Fbank特征参数,并将所述Fbank特征参数作为声学特征。
优选地,通过对包含目标短语音说话人的语音数据进行特征提取预处理,提取所述语音数据中的韵律特征包括:
通过对所述语音数据进行预处理,得到序列语音帧;
通过对所述序列语音帧进行快速傅氏变换FFT处理,得到线性频谱,并对所述线性频谱进行对数计算,得到对数幅值谱;
将所述对数幅值谱通过快速傅里叶逆变换获得倒谱序列并加窗,并在包络线上寻找极大值获得相应的共振峰特征参数,并将所述共振峰特征参数作为韵律特征。
优选地,通过对包含目标短语音说话人的语音数据进行特征提取预处理,提取所述语音数据中的深层特征包括:
加载自监督语音预训练模型,将所述语音数据输入到所述自监督语音预训练模型,并将所述自监督语音预训练模型中最后一层隐藏层输出的向量作为深层特征。
优选地,通过对所述声学特征进行优化处理,得到优化后的声学特征包括:
利用所述声学特征生成声学特征图,通过对所述声学特征图在频率维度上进行最大池化和平均池化处理,并在通道维度上进行叠加处理,得到叠加后的二通道声学特征图;
将所述叠加后的二通道声学特征图进行卷积,并利用激活函数Sigmoid计算不同频率对应的权重;
将所生成的声学特征图乘以对应的频率权重,得到优化后的声学特征。
优选地,通过对所述韵律特征进行优化处理,得到优化后的韵律特征包括:
利用所述韵律特征生成韵律特征图,通过对所述韵律特征图在时间维度上进行最大池化和平均池化处理,并在通道维度上进行叠加处理,得到叠加后的二通道韵律特征图;
将所述叠加后的二通道韵律特征图进行卷积,并利用激活函数Sigmoid计算不同时间域对应的权重;
将所生成的韵律特征图乘以对应的时间域权重,得到优化后的韵律特征。
优选地,通过对所述深层特征进行优化处理,得到优化后的深层特征包括:
利用所述深层特征生成深层特征图,通过对所述深层特征图分别在其横轴和纵轴上进行最大池化和平均池化处理,并在通道维度上进行叠加处理,得到叠加后的二通道深层横轴特征图和纵轴特征图;
将所述叠加后的二通道深层横轴特征图和纵轴特征图进行卷积,并利用激活函数Sigmoid计算不同横轴对应的权重和不同纵轴对应的权重;
将所生成的深层特征图乘以对应的横轴权重和纵轴权重,得到优化后的深层特征。
优选地,所述通过对所述优化后的声学特征、所述优化后的韵律特征以及所述优化后的深层特征进行融合处理,得到融合处理后的多通道特征包括:
通过对所述优化后的声学特征、所述优化后的韵律特征以及所述优化后的深层特征在通道维度上进行叠加处理,得到叠加后的多通道特征图;
将所述叠加后的多通道特征图在空间维度上进行全局平均池化和全局最大池化,并通过由两个全连接层构成的多层感知机学习通道维度的特征和各个通道的重要性,得到全局平均池化且经过多层感知机作用后的第一结果和全局最大池化且经过多层感知机作用后的第二结果;
将所述第一结果和所述第二结果进行相加操作,经过Sigmoid激活函数获取各个通道对应权重,并将所述叠加后的多通道特征图乘以对应的通道权重,得到融合处理后多通道特征。
优选地,所述训练好的深度神经网络模型包括:
获取多个已标签短语音说话人的语音数据,并根据所述每个已标签短语音说话人的语音数据,得到每个已标签短语音说话人融合处理后多通道特征;
利用所述每个已标签短语音说话人融合处理后多通道特征对深度神经网络模型进行训练,得到训练后的深度神经网络模型。
本发明的有益效果是,基于多通道特征融合方法和通道注意力机制对说话人的不同层次的特征进行特征融合,极大丰富地描述短语音场景下的说话人身份,相对于单个层次的说话人特征作为说话识别系统的输入,多层次融合特征提高了短语音场景下说话人识别的准确率。
附图说明
图1是本发明提供的基于多层次特征融合的短语音说话人识别流程图;
图2 是本发明提供的声学特征注意力机制模块的示意图;
图3 是本发明提供的韵律特征注意力机制模块的示意图;
图4 是本发明提供的深层特征注意力机制模块的示意图;
图5 是本发明提供的多层次特征融合模块的示意图;
图6是本发明提供的基于多层次特征融合的短语音说话人识别方法的流程图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特有的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
图6是本发明提供的一种基于多层次特征融合的短语音说话人识别方法的流程图,如图6所示,所述方法可以包括:
步骤S101:通过对包含目标短语音说话人的语音数据进行特征提取预处理,分别提取所述语音数据中的声学特征、韵律特征以及深层特征;
步骤S102:通过对所述声学特征、所述韵律特征以及所述深层特征分别进行优化处理,得到优化后的声学特征、优化后的韵律特征以及优化后的深层特征;
步骤S103:通过对所述优化后的声学特征、所述优化后的韵律特征以及所述优化后的深层特征进行融合处理,得到融合处理后的多通道特征;
步骤S104:将所述融合处理后的多通道特征输入至训练好的深度神经网络模型中得到特征相似度值,并根据所述特征相似度值确定所述语音数据对应的目标短语音说话人。
具体地说,通过对包含目标短语音说话人的语音数据进行特征提取预处理,提取所述语音数据中的声学特征包括:通过对所述语音数据进行预处理,得到序列语音帧;通过对所述序列语音帧进行快速傅氏变换FFT处理,得到线性频谱,并对所述线性频谱进行取模处理,得到功率谱;利用Mel滤波器组对所述功率谱进行频率转换,得到Mel频率,并对所述Mel频率进行对数计算,得到Fbank特征参数,并将所述Fbank特征参数作为声学特征。
具体地说,通过对包含目标短语音说话人的语音数据进行特征提取预处理,提取所述语音数据中的韵律特征包括:通过对所述语音数据进行预处理,得到序列语音帧;通过对所述序列语音帧进行快速傅氏变换FFT处理,得到线性频谱,并对所述线性频谱进行对数计算,得到对数幅值谱;将所述对数幅值谱通过快速傅里叶逆变换获得倒谱序列并加窗,并在包络线上寻找极大值获得相应的共振峰特征参数,并将所述共振峰特征参数作为韵律特征。
具体地说,通过对包含目标短语音说话人的语音数据进行特征提取预处理,提取所述语音数据中的深层特征包括:加载自监督语音预训练模型,将所述语音数据输入到所述自监督语音预训练模型,并将所述自监督语音预训练模型中最后一层隐藏层输出的向量作为深层特征。
具体地说,通过对所述声学特征进行优化处理,得到优化后的声学特征包括:利用所述声学特征生成声学特征图,通过对所述声学特征图在频率维度上进行最大池化和平均池化处理,并在通道维度上进行叠加处理,得到叠加后的二通道声学特征图;将所述叠加后的二通道声学特征图进行卷积,并利用激活函数Sigmoid计算不同频率对应的权重;将所生成的声学特征图乘以对应的频率权重,得到优化后的声学特征。
具体地说,通过对所述韵律特征进行优化处理,得到优化后的韵律特征包括:利用所述韵律特征生成韵律特征图,通过对所述韵律特征图在时间维度上进行最大池化和平均池化处理,并在通道维度上进行叠加处理,得到叠加后的二通道韵律特征图;将所述叠加后的二通道韵律特征图进行卷积,并利用激活函数Sigmoid计算不同时间域对应的权重;将所生成的韵律特征图乘以对应的时间域权重,得到优化后的韵律特征。
具体地说,通过对所述深层特征进行优化处理,得到优化后的深层特征包括:利用所述深层特征生成深层特征图,通过对所述深层特征图分别在其横轴和纵轴上进行最大池化和平均池化处理,并在通道维度上进行叠加处理,得到叠加后的二通道深层横轴特征图和纵轴特征图;将所述叠加后的二通道深层横轴特征图和纵轴特征图进行卷积,并利用激活函数Sigmoid计算不同横轴对应的权重和不同纵轴对应的权重;将所生成的深层特征图乘以对应的横轴权重和纵轴权重,得到优化后的深层特征。
具体地说,所述通过对所述优化后的声学特征、所述优化后的韵律特征以及所述优化后的深层特征进行融合处理,得到融合处理后的多通道特征包括:通过对所述优化后的声学特征、所述优化后的韵律特征以及所述优化后的深层特征在通道维度上进行叠加处理,得到叠加后的多通道特征图;将所述叠加后的多通道特征图在空间维度上进行全局平均池化和全局最大池化,并通过由两个全连接层构成的多层感知机学习通道维度的特征和各个通道的重要性,得到全局平均池化且经过多层感知机作用后的第一结果和全局最大池化且经过多层感知机作用后的第二结果;将所述第一结果和所述第二结果进行相加操作,经过Sigmoid激活函数获取各个通道对应权重,并将所述叠加后的多通道特征图乘以对应的通道权重,得到融合处理后多通道特征。
进一步地,所述训练好的深度神经网络模型包括:获取多个已标签短语音说话人的语音数据,并根据所述每个已标签短语音说话人的语音数据,得到每个已标签短语音说话人融合处理后多通道特征;利用所述每个已标签短语音说话人融合处理后多通道特征对深度神经网络模型进行训练,得到训练后的深度神经网络模型。
综上所述,本发明在多层次特征融合前,采用的多层次特征,分别为说话人语音的声学特征、韵律特征、深层特征。在确定各层次待融合特征后,利用空间注意力机制分别对说话人的声学特征、韵律特征、深层特征进行优化,去除了各层特征中的冗余信息。在多层次特征融合时,结合多通道特征融合方法和通道注意力机制提出一种新的多层次特征融合方法,对说话人的声学特征、韵律特征、深层特征进行多层次融合。
下面结合附图1-图5对本发明的技术方案进行详细说明
基于多层次特征融合的短语音说话人识别方法,所述多层次特征分别为:说话人语音声学特征、说话人语音韵律特征、说话人语音深层特征即自监督语音预训练模型提取的说话人深度特征,并基于空间注意力机制和各层特征特点对说话人各层特征进行特征优化;所述特征融合方法结合多通道特征融合和通道注意力机制的多特征融合方法。具体包括以下步骤:
步骤1,提取说话人各层特征;
1.1对语音训练集进行预处理,提取说话人语音声学特征;
1.2对语音训练集进行预处理,提取说话人语音韵律特征;
1.3对语音训练集进行预处理,将原始语音输入自监督语音预训练模型,提取自监督语音预训练模型的最后一层隐藏层向量作为说话人语音的深度特征。
步骤2,结合空间注意力机制对各层特征进行优化:
2.1 利用空间注意力机制,获取声学特征中不同频段特征对应的特征权重,将权重乘以对应的特征。
2.2 利用空间注意力机制,获取韵律特征中不同时间刻度对应的特征权重,将权重乘以对应的特征。
2.3 利用空间注意力机制,分别求整个深层特征中不同区域对应的特征权重,将权重乘以对应的特征。
步骤3,对说话人多层次特征进行特征融合:
3.1 对说话人的声学特征、韵律特征、深层特征进行归一化并固定不同层次特征的特征大小;其次,将说话人的不同层次特征按通道维度堆叠成多通道特征,将堆叠后的多通道特征输入通道注意力机制模块,分别获取不同通道特征对应的通道权重,将权重乘以对应的特征,获得最后融合的多层次说话人特征;最后,将融合后的特征输入深度神经网络模型进行训练,当模型的识别率不再上升时完成训练。
优选的技术方案,所述说话人语音声学特征为Fbank特征、或者MFCC特征。
优选的技术方案,所述说话人语音韵律特征为基频特征、或者共振峰特征,将其每3帧为一组,取其最大值、最小值、平均值、标准差作为一组韵律层特征。
优选的技术方案,所述自监督语音预训练模型特征为Chinese-Hubert-Base、Chinese-Hubert-Large、Chinese-Wav2vec2-Base、Chinese-Wav2vec2-Large中的任意一个。
优选的技术方案,所述多层次特征融合方法为多通道特征融合方法和通道注意力机制结合。
本发明提供了一种基于多层次特征融合的短语音说话人识别方法,将说话人的声学特征、韵律特征与说话人深层特征即通过自监督预训练语音模型提取的深度特征,先基于各层特征特点并结合空间注意力机制方法,分别对各层特征进行优化,去除特征冗余性。再基于多通道特征融合方法和通道注意力机制对说话人各层特征进行特征融合,将融合后的特征做为说话人识别系统的输入特征。具体为:首先,提取说话人的声学特征,然后提取说话人的韵律特征。其次,提取说话人的深度特征,将预处理后的原始语音输入到自监督预训练语音模型,将模型的最后一层隐藏层输出作为说话人深度特征。最后,先将声学特征、韵律特征、深层特征进行归一化处理,其次将不同层次特征固定大小,分别输入到各层的注意力机制模块,最后将三层特征输入多层次特征融合模块得到各层特征对应的特征权重,将对应特征乘以对应的权重获得融合后的特征,将融合后特征输入到深度神经网络模型进行训练。
实施例:
如图1所示,基于多层次特征融合的短语音说话人识别方法,包括以下步骤:
步骤1,加载原始音频,对音频进行预处理并提取说话人语音声学特征,即Fbank特征,具体步骤如下:
A11:首先读取语音数据进行预处理,主要包括采样、分帧、加窗等,经处理后可以得到序列语音帧,其中/>为总帧数,/>为第/>帧;
A12:将预处理之后的语音帧进行FFT,得到语音帧的线性频谱,之后再对线性频谱进行取模,获取信号的功率谱,计算公式为:
其中表示第/>帧的线性频谱取模后得到的第/>帧功率谱;/>为傅里叶变换的点数。
A13:将FFT变换后的线性频谱通过一组人工设计的Mel滤波器组进行频率转换,将其转换为Mel频率,最后将Mel滤波器的输出获取对数频谱,得到Fbank特征参数,计算公式为:
其中,为功率谱经过Mel滤波器并取对数得到的对数频谱;/>为第m个三角带通滤波器。
本步骤所提取的说话人语音声学特征也可选取MFCC(Mel-FrequencyCepstralCoefficients, 美尔频率倒谱系数)特征参数。
步骤2,加载原始音频,对音频进行预处理并提取说话人语音韵律特征即共振峰特征,其次将共振峰特征参数每3帧为一组,求其最大值、最小值、平均值、标准差构成一组超音段特征参数,具体步骤如下:
A21:首先读取语音数据进行预处理,主要包括采样、分帧、加窗等,经处理后可以得到序列语音帧,其中/>为总帧数,/>为第/>帧;
A22:将预处理之后的语音帧进行FFT,得到语音帧的得到线性频谱,并将FFT变换后的线性频谱进行对数计算,获取对数幅值谱,计算公式为:
其中,为第/>帧线性频谱取对数得到的第/>帧对数幅值谱;
A23:将对数幅值谱通过快速傅里叶逆变换获得倒谱序列并加窗,计算公式为:
其中,为窗函数,/>为倒谱序列;/>为傅里叶变换的点数;
A24:在包络线上寻找极大值获得相应的共振峰特征参数,计算公式为:
其中,为共振峰特征参数,/>为求极大值函数
本步骤所提取的说话人语音韵律特征也可选取基频特征参数。
步骤3,加载原始音频,提取说话人深度特征,首先加载自监督语音预训练模型chinese-wav2vec2-large,其次将原始语音输入到模型,将模型最后的一层隐藏层输出向量作为说话人的深度特征。
其中,所加载的自监督语音预训练模型也可选取chinese-hubert-base、chinese-hubert-large、chinese-wav2vec2-base。
步骤4,将说话人语音声学特征输入基于声学特征的注意力机制模块,突出说话人声学特征中对于说话人识别更有贡献的频率,如图2所示,具体步骤如下:
A41:对输入的声学特征图,进行频率维度上的最大池化和平均池化;即二维声学特征图的纵轴,并在通道维度上进行叠加,计算公式为:
其中为声学特征图;/>为全局平均池化函数;/>为全局最大池化函数;/>为拼接函数;/>为声学特征按通道维度叠加后的特征。
A42:将叠加后的二通道特征图进行卷积,并利用激活函数Sigmoid计算不同频率对应的权重,计算公式为:
其中为卷积核大小为/>二维卷积核;/>为频率权重。
A43:将原声学特征图乘以对应的频率权重,得到加权后的声学层特征,计算公式为:
其中为经过注意力机制作用后的声学特征;
步骤5,将说话人语音韵律特征输入基于韵律特征的注意力机制模块,使其关注时间域中更重要的说话人韵律信息, 如图3所示,具体步骤如下:
A51:对输入的韵律特征图在时间维度上进行最大池化和平均池化;即二维韵律特征图的横轴,并在通道维度上进行叠加计算公式为:
其中为韵律特征图;/>为韵律特征按通道维度叠加后的特征。
A52:将叠加后的二通道特征图进行卷积,并利用激活函数Sigmoid计算不同时间域对应的权重,计算公式为:
其中为卷积核大小为/>二维卷积核;/>为时间域上的权重。
A53:将原韵律特征图乘以对应的时间域权重,得到加权后的韵律层特征,计算公式为:
其中为经过注意力机制作用后的韵律特征;
步骤6,将说话人语音深层特征输入基于深层特征的注意力机制模块,使其关注整个特征区域中更重要的说话人深度信息,如图4所示,具体步骤如下:
A61:对输入的深层特征图分别在其横轴和纵轴上进行最大池化和平均池化;然后分别在通道维度上进行叠加,计算公式为:
其中为深层特征图,/>、/>分别为深层特征图在横轴和纵轴进行最大池化和平均池化的结果。
A62:将叠加后的二通道横轴特征图和纵轴特征图进行卷积,并利用激活函数Sigmoid计算对应的权重,计算公式为:
其中为卷积核大小为/>二维卷积核;/>为特征图的横轴权重;/>为特征图的纵轴权重。
A63:将原深层特征图乘以对应的权重,得到加权后的深层特征,计算公式为:
其中为经过注意力机制作用后的深层特征;
步骤7,将经过注意力机制模快优化后的说话人语音声学特征、韵律特征、深层特征固定特征大小,最后输入多层次特征融合模块进行特征融合,如图5所示,具体步骤如下:
A71:首先对说话人语音的三种特征图在通道维度上进行叠加,计算公式为:
其中,、/>、/>分别为说话人声学特征、韵律特征、深层特征;其中/>为按通道维度进行叠加之后得到的特征图,/>为拼接函数。
A72:将叠加后的多通道特征图将分别在空间维度进行全局平均池化和全局最大池化,并且通过由两个全连接层构成的多层感知机学习通道维度的特征和各个通道的重要性,计算公式为:
其中、/>分别为全局平均池化和全局最大池化并经过多层感知机作用后的结果;为多层感知机。
A73:将多层感知机输出的结果,进行相加操作,经过Sigmoid激活函数获取各个通道对应权重,并乘以原始的多通道特征得到加权后的多通道层特征,计算公式为:
其中为说话人多层次融合特征。
本实施例构建的基于多层次特征融合的短语音说话人识别方法,使用了Free STChinese Mandarin Corpus中文数据集进行了测试。数据集中共包含855人,每人120条语音,使用855人中的80%作为训练集,20%作为测试集,其中开集测试对8000对,其中测试语音集语音长度分别设置为:2s、1.5s、1s、0.5s,当输入说话人识别系统的特征为MFCC或Fbank单层特征时,在不同长度的语音测试集上的等错误率分别为:4.70%、7.07%、18.27%、50%;5.33%、10.48%、23.38%、50%,当输入特征为多层次融合特征后的等错误率为:2.27%、6.54%、17.85%、50%。
综上所述,本发明具有以下优点:
第一,对说话人不同层次特征信息可以描述说话人不同个性信息并且说话人的高层次信息也可以进行说话人识别这两个特点,利用了说话人语音的声学特征、韵律特征、深层特征来进行特征融合,提高不同说话人特征的区分性。
第二,针对说话人不同层次的不同特点,具体为说话人声学特征中不同频率的特征信息对说话人识别贡献率不同,说话人韵律特征中不同时间刻度的特征信息对说话人贡献不同,说话人深层特征中不同区域的特征信息对说话人识别贡献不同;此外,注意力机制可以使得说话人识别模型关注更感兴趣的特征,利用了说话人不同层次的特点并结合注意力机制,去除了不同说话人特征的冗余性。
第三,利用多通道特征融合可以提高特征融合之后的质量并且不同层次的特征对短语音说话人识别的贡献程度不同这两个特点,利用了多通道注意力机制并结合多通道特征融合方法将说话人不同层次特征进行融合,提高了短语音说话人识别的性能。
以上参照附图说明了本发明的优选实施例,并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进,均应在本发明的权利范围之内。
Claims (5)
1.一种基于多层次特征融合的短语音说话人识别方法,其特征在于,包括:
通过对包含目标短语音说话人的语音数据进行特征提取预处理,分别提取所述语音数据中的声学特征、韵律特征以及深层特征;
通过对所述声学特征、所述韵律特征以及所述深层特征分别进行优化处理,得到优化后的声学特征、优化后的韵律特征以及优化后的深层特征;
通过对所述优化后的声学特征、所述优化后的韵律特征以及所述优化后的深层特征进行融合处理,得到融合处理后的多通道特征;
将所述融合处理后的多通道特征输入至训练好的深度神经网络模型中得到特征相似度值,并根据所述特征相似度值确定所述语音数据对应的目标短语音说话人;
所述得到优化后的声学特征包括:
利用所述声学特征生成声学特征图,通过对所述声学特征图在频率维度上进行最大池化和平均池化处理,并在通道维度上进行叠加处理,得到叠加后的二通道声学特征图;
将所述叠加后的二通道声学特征图进行卷积,并利用激活函数Sigmoid计算不同频率对应的权重;
将所生成的声学特征图乘以对应的频率权重,得到优化后的声学特征;
所述得到优化后的韵律特征包括:
利用所述韵律特征生成韵律特征图,通过对所述韵律特征图在时间维度上进行最大池化和平均池化处理,并在通道维度上进行叠加处理,得到叠加后的二通道韵律特征图;
将所述叠加后的二通道韵律特征图进行卷积,并利用激活函数Sigmoid计算不同时间域对应的权重;
将所生成的韵律特征图乘以对应的时间域权重,得到优化后的韵律特征;
所述得到优化后的深层特征包括:
利用所述深层特征生成深层特征图,通过对所述深层特征图分别在其横轴和纵轴上进行最大池化和平均池化处理,并在通道维度上进行叠加处理,得到叠加后的二通道深层横轴特征图和纵轴特征图;
将所述叠加后的二通道深层横轴特征图和纵轴特征图进行卷积,并利用激活函数Sigmoid计算不同横轴对应的权重和不同纵轴对应的权重;
将所生成的深层特征图乘以对应的横轴权重和纵轴权重,得到优化后的深层特征;
所述得到融合处理后的多通道特征包括:
通过对所述优化后的声学特征、所述优化后的韵律特征以及所述优化后的深层特征在通道维度上进行叠加处理,得到叠加后的多通道特征图;
将所述叠加后的多通道特征图在空间维度上进行全局平均池化和全局最大池化,并通过由两个全连接层构成的多层感知机学习通道维度的特征和各个通道的重要性,得到全局平均池化且经过多层感知机作用后的第一结果和全局最大池化且经过多层感知机作用后的第二结果;
将所述第一结果和所述第二结果进行相加操作,经过Sigmoid激活函数获取各个通道对应权重,并将所述叠加后的多通道特征图乘以对应的通道权重,得到融合处理后多通道特征。
2.根据权利要求1所述的方法,其特征在于,通过对包含目标短语音说话人的语音数据进行特征提取预处理,提取所述语音数据中的声学特征包括:
通过对所述语音数据进行预处理,得到序列语音帧
通过对所述序列语音帧进行快速傅氏变换FFT处理,得到线性频谱,并对所述线性频谱进行取模处理,得到功率谱;
利用Mel滤波器组对所述功率谱进行频率转换,得到Mel频率,并对所述Mel频率进行对数计算,得到Fbank特征参数,并将所述Fbank特征参数作为声学特征。
3.根据权利要求2所述的方法,其特征在于,通过对包含目标短语音说话人的语音数据进行特征提取预处理,提取所述语音数据中的韵律特征包括:
通过对所述语音数据进行预处理,得到序列语音帧
通过对所述序列语音帧进行快速傅氏变换FFT处理,得到线性频谱,并对所述线性频谱进行对数计算,得到对数幅值谱;
将所述对数幅值谱通过快速傅里叶逆变换获得倒谱序列并加窗,并在包络线上寻找极大值获得相应的共振峰特征参数,并将所述共振峰特征参数作为韵律特征。
4.根据权利要求3所述的方法,其特征在于,通过对包含目标短语音说话人的语音数据进行特征提取预处理,提取所述语音数据中的深层特征包括:
加载自监督语音预训练模型,将所述语音数据输入到所述自监督语音预训练模型,并将所述自监督语音预训练模型中最后一层隐藏层输出的向量作为深层特征。
5.根据权利要求1所述的方法,其特征在于,所述训练好的深度神经网络模型包括:
获取多个已标签短语音说话人的语音数据,并根据所述每个已标签短语音说话人的语音数据,得到每个已标签短语音说话人融合处理后多通道特征;
利用所述每个已标签短语音说话人融合处理后多通道特征对深度神经网络模型进行训练,得到训练后的深度神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310986807.6A CN116705036B (zh) | 2023-08-08 | 2023-08-08 | 一种基于多层次特征融合的短语音说话人识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310986807.6A CN116705036B (zh) | 2023-08-08 | 2023-08-08 | 一种基于多层次特征融合的短语音说话人识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116705036A CN116705036A (zh) | 2023-09-05 |
CN116705036B true CN116705036B (zh) | 2023-10-27 |
Family
ID=87827965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310986807.6A Active CN116705036B (zh) | 2023-08-08 | 2023-08-08 | 一种基于多层次特征融合的短语音说话人识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116705036B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008146054A (ja) * | 2006-12-06 | 2008-06-26 | Korea Electronics Telecommun | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
CN110517698A (zh) * | 2019-09-05 | 2019-11-29 | 科大讯飞股份有限公司 | 一种声纹模型的确定方法、装置、设备及存储介质 |
US10706857B1 (en) * | 2020-04-20 | 2020-07-07 | Kaizen Secure Voiz, Inc. | Raw speech speaker-recognition |
CN111755012A (zh) * | 2020-06-24 | 2020-10-09 | 湖北工业大学 | 一种基于深浅层特征融合的鲁棒性说话人识别方法 |
CN111968650A (zh) * | 2020-08-17 | 2020-11-20 | 科大讯飞股份有限公司 | 语音匹配方法、装置、电子设备及存储介质 |
CN116343798A (zh) * | 2022-11-28 | 2023-06-27 | 康佳集团股份有限公司 | 一种远场场景下说话人身份的验证方法和装置、电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9076446B2 (en) * | 2012-03-22 | 2015-07-07 | Qiguang Lin | Method and apparatus for robust speaker and speech recognition |
-
2023
- 2023-08-08 CN CN202310986807.6A patent/CN116705036B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008146054A (ja) * | 2006-12-06 | 2008-06-26 | Korea Electronics Telecommun | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 |
CN104900235A (zh) * | 2015-05-25 | 2015-09-09 | 重庆大学 | 基于基音周期混合特征参数的声纹识别方法 |
CN110517698A (zh) * | 2019-09-05 | 2019-11-29 | 科大讯飞股份有限公司 | 一种声纹模型的确定方法、装置、设备及存储介质 |
US10706857B1 (en) * | 2020-04-20 | 2020-07-07 | Kaizen Secure Voiz, Inc. | Raw speech speaker-recognition |
CN111755012A (zh) * | 2020-06-24 | 2020-10-09 | 湖北工业大学 | 一种基于深浅层特征融合的鲁棒性说话人识别方法 |
CN111968650A (zh) * | 2020-08-17 | 2020-11-20 | 科大讯飞股份有限公司 | 语音匹配方法、装置、电子设备及存储介质 |
CN116343798A (zh) * | 2022-11-28 | 2023-06-27 | 康佳集团股份有限公司 | 一种远场场景下说话人身份的验证方法和装置、电子设备 |
Non-Patent Citations (5)
Title |
---|
Combining feature sets with support vector machines: application to speaker recognition;A. O. Hatch;《IEEE Workshop on Automatic Speech Recognition and Understanding》;75-79 * |
Robust Speaker Recognition Using Fusion Of Low Level And High Level Feature Such As Prosodic Lexical Details;Jagdale, Sumati;《Shodhganga》;全文 * |
基于2DPCA特征降维的CNN说话人识别;张学祥;《软件导刊》;131-135 * |
基于特征加权与改进DCNN的说话人识别算法;倪美玉;《微型电脑应用》;145-148 * |
说话人身份识别深度网络中的聚合模型研究;邓飞;《计算机应用研究》;721-725 * |
Also Published As
Publication number | Publication date |
---|---|
CN116705036A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | ASVspoof 2019: A large-scale public database of synthesized, converted and replayed speech | |
Tirumala et al. | Speaker identification features extraction methods: A systematic review | |
CN107610707B (zh) | 一种声纹识别方法及装置 | |
CN102968986B (zh) | 基于长时特征和短时特征的重叠语音与单人语音区分方法 | |
Langari et al. | Efficient speech emotion recognition using modified feature extraction | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN110970036B (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
Nahar et al. | An efficient holy Quran recitation recognizer based on SVM learning model | |
Paulose et al. | Performance evaluation of different modeling methods and classifiers with MFCC and IHC features for speaker recognition | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
Nandi et al. | Parametric representation of excitation source information for language identification | |
Nivetha | A survey on speech feature extraction and classification techniques | |
Sen et al. | A convolutional neural network based approach to recognize bangla spoken digits from speech signal | |
Ranjan et al. | Text-dependent multilingual speaker identification for indian languages using artificial neural network | |
Radha et al. | Speech and speaker recognition using raw waveform modeling for adult and children’s speech: a comprehensive review | |
CN116705036B (zh) | 一种基于多层次特征融合的短语音说话人识别方法 | |
CN116665649A (zh) | 基于韵律特征的合成语音检测方法 | |
Choi et al. | Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech | |
Kethireddy et al. | Deep neural architectures for dialect classification with single frequency filtering and zero-time windowing feature representations | |
Nijhawan et al. | Speaker recognition using support vector machine | |
Aggarwal et al. | Fitness evaluation of Gaussian mixtures in Hindi speech recognition system | |
CN113808620B (zh) | 一种基于cnn和lstm的藏语语音情感识别方法 | |
Rafi et al. | Relative Significance of Speech Sounds in Speaker Verification Systems | |
Nagakrishnan et al. | Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models | |
Pittala et al. | Study of speech recognition using cnn |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |