CN111785262B - 一种基于残差网络及融合特征的说话人年龄性别分类方法 - Google Patents

一种基于残差网络及融合特征的说话人年龄性别分类方法 Download PDF

Info

Publication number
CN111785262B
CN111785262B CN202010578989.XA CN202010578989A CN111785262B CN 111785262 B CN111785262 B CN 111785262B CN 202010578989 A CN202010578989 A CN 202010578989A CN 111785262 B CN111785262 B CN 111785262B
Authority
CN
China
Prior art keywords
residual error
mfcc
layer
age
error network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010578989.XA
Other languages
English (en)
Other versions
CN111785262A (zh
Inventor
文军
汪伟
宋文豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010578989.XA priority Critical patent/CN111785262B/zh
Publication of CN111785262A publication Critical patent/CN111785262A/zh
Application granted granted Critical
Publication of CN111785262B publication Critical patent/CN111785262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于残差网络及融合特征的说话人年龄性别分类方法,本发明将MFCC参数和基频F0结合,将它们的复合特征作为说话人性别年龄分类的语音特征;本发明采用卷积残差网络训练说话人性别年龄识别模型,残差网络解决了深度神经网络中,因为网络层次的加深导致的梯度爆炸和消失,使得在训练中能够使用更深的网络,提取出更深层的语音特征,从而提高识别的准确度。本发明根据说话人的性别年龄,仅仅将说话人分为(未成年男女<18)、(18=<成年男女<55)、(老年男女>=55)共六个分类,以提高识别度。

Description

一种基于残差网络及融合特征的说话人年龄性别分类方法
技术领域
本发明属于声纹识别技术领域,尤其涉及一种基于残差网络及融合特征的说话人年龄性别分类方法。
背景技术
随着深度神经网络应用于声纹识别领域,声纹识别技术取得了较大的突破,逐步应用于实际场景,但相对于声纹识别技术,说话人性别年龄等属性分类的准确度还有待提高。当前对于说话人性别年龄分类主与声纹识别技术类似,主要是有传统的统计学方法和深度神经网络的方法,虽然在性别分类方面有较高的识别率,但由于说话人的语音特征与年龄的关系较复杂,年龄分类的准确度都不太高。
当前说话人性别年龄识别有以下几点难点:一是由于年龄预估的不确定性,当前对说话人性别年龄分类的研究为了保证性别分类的准确性,大多数是将说话人性别和年龄分开识别,这增加了系统的开销以及实际应用的难度;二是难以找到可以完全表征说话人性别和年龄的特征参数,这也增加了说话人性别年龄识别的难度;三是传统统计学方法的局限性,不能从大量的语音数据中准确地提取出说话人性别年龄的语音特征;四是语音数据集的缺失,目前想要进行说话人性别年龄识别,大部分需要自己采集语音数据,而由于采集设备的差异,也会导致识别结果有差异。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于残差网络及融合特征的说话人年龄性别分类方法,以实现对说话人性别年龄的识别分类。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种基于残差网络及融合特征的说话人年龄性别分类方法,包括以下步骤:
S1、对输入的语音数据进行预处理,并提取混合特征参数;
S2、利用所述混合特征参数对残差网络进行训练;
S3、利用经训练好的残差网络对说明人年龄性别进行分类。
本发明的有益效果是:本发明提出了一种端到端的说话人性别年龄分类方法,同时实现说话人的性别和年龄分类,本发明采用端到端方式,将训练、识别分类结合,直接得到最终的分类结果,端到端的学习方式避免了多个模块训练的目标不一致而导致的偏差,又减少了工程的复杂度。
进一步地,所述步骤S1包括以下步骤:
S101、对输入的语音数据进行采样,并对其进行预处理;
S102、根据所述预处理后的语音数据计算得到MFCC参数;
S103、根据所述MFCC参数利用差分运算计算得到MFCC一阶差分;
S104、提取语音数据的基频FO,并将所述MFCC参数以及MFCC一阶差分进行拼接,完成对混合特征参数的提取。
上述进一步方案的有益效果是:本发明提出了MFCC+MFCC一阶差分+F0基频的复合特征,相较于当前所采用的如MFCC特征进行识别分类,融合了对说话人性别敏感的F0基频特征,提取更能表征说话人信息的语音特征。
再进一步地,所述步骤S102包括以下步骤:
S1021、将预处理后的语音数据进行预加重处理,提高语音的高频信息;
S1022、将经预加重处理后的读音信息进行分帧处理;
S1023、将分帧后的每一帧语音进行加窗处理,增加每一帧的左端和右端的连续性;所述进行加窗处理的表达式如下:
S'(x)=S(x)*W(x,a)
Figure BDA0002552425630000031
其中,S'(x)表示加窗处理,S(x)表示分帧后的语音信号,W(x,a)表示窗函数,X表示帧长,x表示0到X-1的自然数,a为常数;
S1024、将经加窗处理后的每一帧进行傅里叶变换处理,使每帧的语音数据按时序连接成频谱;所述进行傅里叶变换处理的表达式如下:
Figure BDA0002552425630000032
其中,Xa(k)表示进傅里叶变换处理,x(n)表示输入的语音数据,N表示傅里叶变换的点数,n表示0到N-1的自然数,k表示采样点的编号,j表示虚数;
S1025、利用Mel滤波器组对所述频谱进行平滑处理,并将处理结果进行对数运算;
所述Mel滤波器的表达式如下:
Figure BDA0002552425630000033
Figure BDA0002552425630000034
其中,Hm(k)表示Mel滤波器,k表示采样点编号,fm表示第m个滤波器的中心频率,M表示滤波器个数;
所述进行对数运算的表达式如下:
Figure BDA0002552425630000041
其中,S(m)表示对数运算,N表示傅里叶变换的点数,k为自然数,Xa(k)表示傅里叶变换后的信号,Hm(k)表示第m个Mel滤波器,M表示滤波器个数;
S1026、将对数运算结果经离散余弦变换得到MFCC参数;
所述MFCC参数的表达式如下:
Figure BDA0002552425630000042
其中,C(n)表示经离散余弦变换得到的MFCC参数,M表示三角滤波器个数,N表示傅里叶变换的点数,s(m)表示经过对数运算的信号,n为0到N-1的自然数。
上述进一步方案的有益效果是:MFCC由于其优越性,被大量用于声纹识别领域,取得了较好的效果,并且在说话人年龄识别也有应用,结合其一阶差分,能够体现出语音得静态和动态特征,提高系统的识别性能,而基频F0与说话人性别有较大的区分性,本发明将MFCC参数和基频F0结合,将它们的复合特征作为说话人性别年龄分类的语音特征。
再进一步地,所述步骤S103中MFCC一阶差分的表达式如下:
Figure BDA0002552425630000043
其中,其中,dt表示第t个一阶差分,Ct表示第t个倒谱系数,k为自然数,K表示一阶导数的时间差,Ct+k表示第t+k个倒谱系数,Q表示倒谱系数的阶数。
上述进一步方案的有益效果是:标准的MFCC参数反映了语音参数的静态特征,可以用MFCC的一阶差分来描述其动态特征。
再进一步地,所述步骤S104包括以下步骤:
S1041、提取语音数据的基频FO,并将每一帧语音的基频FO标记为f,并将MFCC参数标记为n1,n2,n3,...,n13,将MFCC一阶差分标记为m1,m2,m3,...,m13
S1042、将基频FO、MFCC参数以及MFCC一阶差拼接为27维的新参数S,完成对混合特征参数的提取,其中,S={n1,n2,n3,...,n13,m1,m2,m3,...,m13,f},S表示每一帧语音的新特征。
上述进一步方案的有益效果是:基频F0与说话人性别有较大的区分性,本发明将MFCC参数和基频F0结合,将它们的复合特征作为说话人性别年龄分类的语音特征。
再进一步地,所述步骤S2包括以下步骤:
S201、构建残差网络,并初始化连接权值;
S202、将提取的混合特征参数依次输入至残差网络中的四个残差层中;
S203、利用三元组损失作为残差网络的损失函数;
S204、由残差层输入一个512维的特征向量,并利用全连接层整合四个残差层的特征信息以及利用采样层输出结果,完成对残差网络的训练。
上述进一步方案的有益效果是:本发明采用卷积残差网络训练说话人性别年龄识别模型。残差网络解决了深度神经网络中,因为网络层次的加深导致的梯度爆炸和消失,使得在训练中能够使用更深的网络,提取出更深层的语音特征,从而提高识别的准确度。
再进一步地,所述残差网络包括依次连接的第一残差层、第二残差层、第三残差层、第四残差层、全连接层以及采样层;
所述四个残差层均由一个卷积层和若干个残差块组成。
上述进一步方案的有益效果是:使用triplet loss损失函数,通过最大化类间相似度,最小化类内相似度,达到样本分类的效果,同时通过直接计算样本间的相似度进行样本分类。
再进一步地,所述第一残差层包括依次连接的1个3×3,步长为2的第一卷积层以及1个3×3,步长为1的残差块;
所述第二残差层包括依次连接的1个3×3,步长为2的第二卷积层以及2个3×3,步长为1的残差块;
所述第三残差层包括依次连接的1个3×3,步长为2的第三卷积层以及4个3×3,步长为1的残差块;
所述第四残差层包括依次连接的1个3×3,步长为2的第四卷积层以及1个3×3,步长为1的残差块。
上述进一步方案的有益效果是:经过4个残差层后,最后得以输出一个512维的特征向量,该特征向量可以表征语音的身份信息,通过triple loss计算相似度后进行分类。
再进一步地,所述第一残差层、第二残差层、第三残差层、第四残差层中的各残差块后均设置有非线性激活函数ReLu。
上述进一步方案的有益效果是:非线性激活函数ReLu增加了神经网络各层之间的非线性关系,同时它会使部分神经元的输出变为0,增加网络的稀疏性,减少了参数的相互依赖关系,能够更好挖掘相关特征,拟合训练数据。
再进一步地,所述步骤S3中的分类结果包括:未成年男女<18、18=<成年男女<55以及老年男女>=55六个分类。
上述进一步方案的有益效果是:本发明根据说话人的性别年龄,仅仅将说话人分为(未成年男女<18)、)(18=<成年男女<55)、(老年男女>=55)共六个分类,以提高识别度。
附图说明
图1为本发明的方法流程图。
图2为本实施例中MFCC参数提取流程图。
图3为本实施例中Mel滤波器组示意图。
图4为本实施例中残差网络的结构示意图。
图5为本实施例中的三元组损失函数的学习示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例
本发明提出了一种端到端的说话人性别年龄分类方法,同时实现说话人的性别和年龄分类,首先对原始语音进行处理,分别获取其MFCC系数(13维)、MFCC一阶差分(13维)及基频F0,对3个参数进行拼接得到27维混合参数,作为网络的输入。网络由4个残差层、一个全连接层和一个采样层组成,由第一步提取出的混合参数首先经过4个残差层提取说话人语音信息特征。4个残差层均由一个卷积层和若干个残差块组成,经过4个卷积层后,得到512维的特征参数。对提取出的特征参数进行输出,在采样t层进行打分并输出最后的判定结果。如图1所示,其实现方法如下:
S1、对输入的语音数据进行预处理,并提取混合特征参数,其实现方法如下:
S101、对输入的语音数据进行采样,并对其进行预处理;
S102、根据所述预处理后的语音数据计算得到MFCC参数,其实现方法如下:
S1021、将预处理后的语音数据进行预加重处理,提高语音的高频信息;
S1022、将经预加重处理后的读音信息进行分帧处理;
S1023、将分帧后的每一帧语音进行加窗处理,增加每一帧的左端和右端的连续性;所述进行加窗处理的表达式如下:
S'(x)=S(x)*W(x,a)
Figure BDA0002552425630000081
其中,S'(n)表示加窗处理,S(n)表示分帧后的语音信号,S'(x)表示加窗处理,S(x)表示分帧后的语音信号,W(x,a)表示窗函数,X表示帧长(即一帧内的采样点数),x表示0到X-1的自然数,a为常数,不同的a值产生不同的汉明窗,其值通常取0.46;
S1024、将经加窗处理后的每一帧进行傅里叶变换处理,使每帧的语音数据按时序连接成频谱;所述进行傅里叶变换处理的表达式如下:
Figure BDA0002552425630000082
其中,Xa(k)表示傅里叶变换处理,x(n)表示输入的语音数据,N表示傅里叶变换的点数,n为0到N-1的自然数,k表示采样点的编号,j表示虚数;
S1025、利用Mel滤波器组对所述频谱进行平滑处理,并将处理结果进行对数运算;
所述Mel滤波器的表达式如下:
Figure BDA0002552425630000091
Figure BDA0002552425630000092
其中,Hm(k)表示Mel滤波器,k表示采样点编号,fm表示第m个滤波器的中心频率,M表示滤波器个数;
所述进行对数运算的表达式如下:
Figure BDA0002552425630000093
其中,S(m)表示对数运算,N表示傅里叶变换的点数,k为自然数,Xa(k)表示傅里叶变换后的信号,Hm(k)表示第m个Mel滤波器,M表示滤波器个数;
S1026、将对数运算结果经离散余弦变换得到MFCC参数;
所述MFCC参数的表达式如下:
Figure BDA0002552425630000094
其中,C(n)表示经离散余弦变换得到的MFCC参数,M表示三角滤波器个数,N表示傅里叶变换的点数,s(m)表示经过对数运算的信号,n为自然数,且n=1,2,3,...,L,L表示MFCC系数的阶数。
S103、根据所述MFCC参数利用差分运算计算得到MFCC一阶差分;
MFCC一阶差分的表达式如下:
Figure BDA0002552425630000101
其中,dt表示第t个一阶差分,Ct表示第t个倒谱系数,k为自然数,K表示一阶导数的时间差,可取1或2,Ct+k表示第t+k个倒谱系数,Q表示倒谱系数的阶数取13。
S104、提取语音数据的基频FO,并将所述MFCC参数以及MFCC一阶差分进行拼接,完成对混合特征参数的提取,其实现方法如下:
S1041、提取语音数据的基频FO,并将每一帧语音的基频FO标记为f,并将MFCC参数标记为n1,n2,n3,...,n13,将MFCC一阶差分标记为m1,m2,m3,...,m13
S1042、将基频FO、MFCC参数以及MFCC一阶差拼接为27维的新参数S,完成对混合特征参数的提取,其中,S={n1,n2,n3,...,n13,m1,m2,m3,...,m13,f},S表示每一帧语音的新特征。
本实施例中,混合特征提取包括:基频F0提取、MFCC参数提取和MFCC一阶差分提取。
本实施例中,语音的基频提取方法有很多,可以使用离散小波变换得到语音的基频。离散小波变换能够在连续尺度上将语音信号分解为高频和低频两个部分,从而有效提取出基频。
本实施例中,梅尔倒谱系数(MFCC)是在Mel标度频率域提出的倒谱参数,描述了人耳频率的非线性特性,其与频率的关系可用下式表示:
Figure BDA0002552425630000102
其中,f表示语音频率,单位为Hz。
本实施例中,MFCC提取的基本流程如图2所示,预加重处理将语音通过一个高通滤波器:
H(Z)=1-μz-1
其中,μ的取值为(0.9,1),通常取0.97,通过预加重可以提高语音的高频部分,使语音信号的频谱变得平坦,在低频和高频整个频带中,可以使用相同的信噪比求频谱。
本实施例中,分帧的目的是将N个采样点集合成一个观测点,通常N取256或是512,涵盖的时间大约为20-30ms,同时为了防止相邻两帧的变化太大,所以会使相邻两帧有一定的重合区域,通常重合区域大约为帧长的1/3或1/2。比如以16KHz的采样频率的语音信号为例,假使帧长取512个采样点,那么其对应的时间长度为512/16=32ms。
本实施例中,将每一帧乘以汉明窗,增加每一帧的左端和右端的连续性,从而防止频率泄露。
本实施例中,快速傅里叶变换的目的是将语音的变化从时域上转换到频域上来,不同的能量分布就代表了不同的语音特征。
本实施例中,语音通过傅里叶变换后得到了频域上的能量谱,将其通过一组Mel尺度的三角滤波器组,对频率谱进行平滑,消除谐波的影响,突出原始语音的共振峰。三角滤波器组由M个三角滤波器组成,中心频率为f(m),m=1,2,3……,M,M通常取22-26,各f(m)之间的间隔随着m的增大而增大,如图3所示。对经过Mel滤波器组的输出的频谱取对数,并经过离散余弦变换得到MFCC系数。标准的MFCC参数反映了语音参数的静态特征,可以用MFCC的一阶差分来描述其动态特征。
S2、利用所述混合特征参数对残差网络进行训练,如图4所示,残差网络包括依次连接的第一残差层、第二残差层、第三残差层、第四残差层、全连接层以及采样层;四个残差层均由一个卷积层和若干个残差块组成,第一残差层包括依次连接的1个3×3,步长为2的第一卷积层以及1个3×3,步长为1的残差块;第二残差层包括依次连接的1个3×3,步长为2的第二卷积层以及2个3×3,步长为1的残差块;第三残差层包括依次连接的1个3×3,步长为2的第三卷积层以及4个3×3,步长为1的残差块;第四残差层包括依次连接的1个3×3,步长为2的第四卷积层以及1个3×3,步长为1的残差块,第一残差层、第二残差层、第三残差层、第四残差层以及各残差块后均设置有非线性激活函数ReLu。
利用混合特征参数对残差网络进行训练,其实现方法如下:
S201、构建残差网络,并初始化连接权值;
S202、将提取的混合特征参数依次输入至残差网络中的四个残差层中;
S203、利用三元组损失作为残差网络的损失函数;
本实施例中,定义网络的损失函数,采用三元组损失triplet loss作为网络损失函数,三元组损失triplet loss主要是随机取训练数据集中的一个样本anchor(锚点),positive(正样本)与anchor同属一类的样本,而negative(负样本)则与anchor不同类的样本,通过triplet loss的学习后使得positive和anchor之间的距离最小,而anchor和negative之间的距离最大,如图5所示。其目标函数如下:
Figure BDA0002552425630000121
距离采用欧式距离,+表示[]内的值小于0的时候,损失为0,大于0的时候,其值就是损失,a是指xa与xn之间的距离和xa与xp之间的距离之间有一个最小的间隔,a需要取合适的值,以保证损失函数收敛的同时能够有效区分不同类的样本。
本实施例中,混合参数经过残差层后,最后输出为一个512维的向量,在残差层后跟一个全连接层以整合残差层的特征信息,全连接层的输出被传递给采样层进行打分。
S204、由残差层输入一个512维的特征向量,并利用全连接层整合四个残差层的特征信息以及利用采样层输出结果,完成对残差网络的训练。
S3、利用经训练好的残差网络对说明人年龄性别进行分类。
本实施例中,等到网络收敛后,使用测试语音数据作为训练好的网络的输入,实现说话人性别年龄的分类,以混淆矩阵、FPR、TPR和ACC作为评估的标准。具体的定义如下:
Figure BDA0002552425630000131
Figure BDA0002552425630000132
Figure BDA0002552425630000133
式中,TP--真正(true positive),将正类预测为正类的数量,TN--真负(truenegative),将负类预测为负类的数量,FP—假正(false positive),将负类预测为正类的数量,FN—假负(false negative),将正类预测为负类的数量。
如上述所说,对于日常的说话人年龄性别分类不需要过于精确化年龄区间,本专利仅仅将年龄划分为未成年(<18)、成年(<=18且<55)、老年(>=55)共3个年龄段,这足以满足在实际生活应用中的需求,并降低了识别难度,提高了系统可行性。

Claims (10)

1.一种基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,包括以下步骤:
S1、对输入的语音数据进行预处理,并提取混合特征参数;
其中,混合特征参数包括:基频F0提取、MFCC参数提取和MFCC一阶差分提取;
S2、利用所述混合特征参数对残差网络进行训练;
S3、利用经训练好的残差网络对说明人年龄性别进行分类。
2.根据权利要求1所述的基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,所述步骤S1包括以下步骤:
S101、对输入的语音数据进行采样,并对其进行预处理;
S102、根据所述预处理后的语音数据计算得到MFCC参数;
S103、根据所述MFCC参数利用差分运算计算得到MFCC一阶差分;
S104、提取语音数据的基频FO,并将所述MFCC参数以及MFCC一阶差分进行拼接,完成对混合特征参数的提取。
3.根据权利要求1所述的基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,所述步骤S102包括以下步骤:
S1021、将预处理后的语音数据进行预加重处理,提高语音的高频信息;
S1022、将经预加重处理后的读音信息进行分帧处理;
S1023、将分帧后的每一帧语音进行加窗处理,增加每一帧的左端和右端的连续性;所述进行加窗处理的表达式如下:
S'(x)=S(x)*W(x,a)
Figure FDA0003722767150000011
其中,S'(x)表示加窗处理,S(x)表示分帧后的语音信号,W(x,a)表示窗函数,X表示帧长,x表示0到X-1的自然数,a为常数;
S1024、将经加窗处理后的每一帧进行傅里叶变换处理,使每帧的语音数据按时序连接成频谱;所述进行傅里叶变换处理的表达式如下:
Figure FDA0003722767150000021
其中,Xa(k)表示傅里叶变换处理,x(n)表示输入的语音数据,N表示傅里叶变换的点数,n为0到N-1的自然数,k表示采样点的编号,j表示虚数;
S1025、利用Mel滤波器组对所述频谱进行平滑处理,并将处理结果进行对数运算;
所述Mel滤波器的表达式如下:
Figure FDA0003722767150000022
Figure FDA0003722767150000023
其中,Hm(k)表示Mel滤波器,k表示采样点编号,fm表示第m个滤波器的中心频率,M表示滤波器个数;
所述进行对数运算的表达式如下:
Figure FDA0003722767150000024
其中,S(m)表示对数运算,N表示傅里叶变换的点数,k表示采样点编号,Xa(k)表示傅里叶变换后的信号,Hm(k)表示第m个Mel滤波器,M表示滤波器个数;
S1026、将对数运算结果经离散余弦变换得到MFCC参数;
所述MFCC参数的表达式如下:
Figure FDA0003722767150000031
其中,C(n)表示经离散余弦变换得到的MFCC参数,M表示滤波器个数,N表示傅里叶变换的点数,s(m)表示经过对数运算的信号,n为0到N-1的自然数。
4.根据权利要求2所述的基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,所述步骤S103中MFCC一阶差分的表达式如下:
Figure FDA0003722767150000032
其他
其中,dt表示第t个一阶差分,Ct表示第t个倒谱系数,k表示采样点编号,K表示一阶导数的时间差,Ct+k表示第t+k个倒谱系数,Q表示倒谱系数的阶数。
5.根据权利要求2所述的基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,所述步骤S104包括以下步骤:
S1041、提取语音数据的基频FO,并将每一帧语音的基频FO标记为f,并将MFCC参数标记为n1,n2,n3,...,n13,将MFCC一阶差分标记为m1,m2,m3,...,m13
S1042、将基频FO、MFCC参数以及MFCC一阶差分拼接为27维的新参数S,完成对混合特征参数的提取,其中,S={n1,n2,n3,...,n13,m1,m2,m3,...,m13,f}。
6.根据权利要求1所述的基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,所述步骤S2包括以下步骤:
S201、构建残差网络,并初始化连接权值;
S202、将提取的混合特征参数依次输入至残差网络中的四个残差层中;
S203、利用三元组损失作为残差网络的损失函数;
S204、由残差层输入一个512维的特征向量,并利用全连接层整合四个残差层的特征信息以及利用采样层输出结果,完成对残差网络的训练。
7.根据权利要求6所述的基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,所述残差网络包括依次连接的第一残差层、第二残差层、第三残差层、第四残差层、全连接层以及采样层;
所述四个残差层均由一个卷积层和若干个残差块组层。
8.根据权利要求7所述的基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,所述第一残差层包括依次连接的1个3×3,步长为2的第一卷积层以及1个3×3,步长为1的残差块;
所述第二残差层包括依次连接的1个3×3,步长为2的第二卷积层以及2个3×3,步长为1的残差块;
所述第三残差层包括依次连接的1个3×3,步长为2的第三卷积层以及4个3×3,步长为1的残差块;
所述第四残差层包括依次连接的1个3×3,步长为2的第四卷积层以及1个3×3,步长为1的残差块。
9.根据权利要求8所述的基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,所述第一残差层、第二残差层、第三残差层、第四残差层中的各残差块后均设置有非线性激活函数ReLu。
10.根据权利要求1所述的基于残差网络及融合特征的说话人年龄性别分类方法,其特征在于,所述步骤S3中的分类结果包括:未成年男女<18、18=<成年男女<55以及老年男女>=55六个分类。
CN202010578989.XA 2020-06-23 2020-06-23 一种基于残差网络及融合特征的说话人年龄性别分类方法 Active CN111785262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010578989.XA CN111785262B (zh) 2020-06-23 2020-06-23 一种基于残差网络及融合特征的说话人年龄性别分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010578989.XA CN111785262B (zh) 2020-06-23 2020-06-23 一种基于残差网络及融合特征的说话人年龄性别分类方法

Publications (2)

Publication Number Publication Date
CN111785262A CN111785262A (zh) 2020-10-16
CN111785262B true CN111785262B (zh) 2022-08-05

Family

ID=72757131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010578989.XA Active CN111785262B (zh) 2020-06-23 2020-06-23 一种基于残差网络及融合特征的说话人年龄性别分类方法

Country Status (1)

Country Link
CN (1) CN111785262B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112581942A (zh) * 2020-12-29 2021-03-30 云从科技集团股份有限公司 一种基于语音识别目标对象的方法、系统、设备及介质
CN117975971B (zh) * 2024-04-02 2024-07-05 暨南大学 一种基于隐私保护的声纹年龄段估计方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014084671A2 (ko) * 2012-11-29 2014-06-05 인텔렉추얼 디스커버리 주식회사 트랜스폼을 이용한 영상 부호화/복호화 방법 및 장치
CN107170456A (zh) * 2017-06-28 2017-09-15 北京云知声信息技术有限公司 语音处理方法及装置
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
CN110718223A (zh) * 2019-10-28 2020-01-21 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质
CN110931023A (zh) * 2019-11-29 2020-03-27 厦门快商通科技股份有限公司 性别识别方法、系统、移动终端及存储介质
CN110991633A (zh) * 2019-12-04 2020-04-10 电子科技大学 一种基于忆阻网络的残差神经网络模型及其应用方法
CN111081272A (zh) * 2019-12-16 2020-04-28 腾讯科技(深圳)有限公司 歌曲高潮片段识别方法及装置
CN111243602A (zh) * 2020-01-06 2020-06-05 天津大学 基于性别、国籍和情感信息的声纹识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180350459A1 (en) * 2017-06-05 2018-12-06 University Of Florida Research Foundation, Inc. Methods and apparatuses for implementing a semantically and visually interpretable medical diagnosis network
US11315570B2 (en) * 2018-05-02 2022-04-26 Facebook Technologies, Llc Machine learning-based speech-to-text transcription cloud intermediary

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014084671A2 (ko) * 2012-11-29 2014-06-05 인텔렉추얼 디스커버리 주식회사 트랜스폼을 이용한 영상 부호화/복호화 방법 및 장치
CN107170456A (zh) * 2017-06-28 2017-09-15 北京云知声信息技术有限公司 语音处理方法及装置
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
CN110718223A (zh) * 2019-10-28 2020-01-21 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质
CN110931023A (zh) * 2019-11-29 2020-03-27 厦门快商通科技股份有限公司 性别识别方法、系统、移动终端及存储介质
CN110991633A (zh) * 2019-12-04 2020-04-10 电子科技大学 一种基于忆阻网络的残差神经网络模型及其应用方法
CN111081272A (zh) * 2019-12-16 2020-04-28 腾讯科技(深圳)有限公司 歌曲高潮片段识别方法及装置
CN111243602A (zh) * 2020-01-06 2020-06-05 天津大学 基于性别、国籍和情感信息的声纹识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
An Improved Apriori Algorithm Based On the Boolean Matrix and Hadoop;Honglie Yu et al;《Procedia Engineering》;20111206;全文 *
Improving Transformer-based Speech Recognition Systems with Compressed Structure and Speech Attributes Augmentation;Sheng Lin et al;《INTERSPEECH 2019》;20190919;全文 *
基于深度学习的声纹识别关键技术研究;汪伟;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20220115;全文 *
基于深度学习的说话人识别技术应用;宋文豪;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200815;全文 *
基于深度神经网络的说话人识别算法研究;李浩;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200215;全文 *

Also Published As

Publication number Publication date
CN111785262A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN112581979B (zh) 一种基于语谱图的语音情绪识别方法
CN109036382B (zh) 一种基于kl散度的音频特征提取方法
CN108597496A (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
Todkar et al. Speaker recognition techniques: A review
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN112735435A (zh) 具备未知类别内部划分能力的声纹开集识别方法
CN112183582A (zh) 一种多特征融合的水下目标识别方法
Sukhwal et al. Comparative study of different classifiers based speaker recognition system using modified MFCC for noisy environment
CN116469395A (zh) 一种基于Fca-Res2Net融合自注意力的说话人识别方法
CN118212929A (zh) 一种个性化Ambisonics语音增强方法
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
Kamaruddin et al. Features extraction for speech emotion
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
CN116434759B (zh) 一种基于srs-cl网络的说话人识别方法
CN112908340A (zh) 一种基于全局-局部加窗的声音特征快速提取方法
CN117310668A (zh) 融合注意力机制与深度残差收缩网络的水声目标识别方法
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Feng et al. Speech emotion recognition based on LSTM and Mel scale wavelet packet decomposition
CN114038469B (zh) 一种基于多类谱图特征注意力融合网络的说话人识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant