CN113823292A - 基于通道注意力深度可分卷积网络的小样本话者辨认方法 - Google Patents

基于通道注意力深度可分卷积网络的小样本话者辨认方法 Download PDF

Info

Publication number
CN113823292A
CN113823292A CN202110954659.0A CN202110954659A CN113823292A CN 113823292 A CN113823292 A CN 113823292A CN 202110954659 A CN202110954659 A CN 202110954659A CN 113823292 A CN113823292 A CN 113823292A
Authority
CN
China
Prior art keywords
voice
speaker
depth
convolution
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110954659.0A
Other languages
English (en)
Other versions
CN113823292B (zh
Inventor
李艳雄
陈昊
曹文昌
黄启晟
江钟杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110954659.0A priority Critical patent/CN113823292B/zh
Publication of CN113823292A publication Critical patent/CN113823292A/zh
Application granted granted Critical
Publication of CN113823292B publication Critical patent/CN113823292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,步骤如下:从训练语音提取对数梅尔谱特征,训练得到通道注意力深度可分卷积网络;将注册(小样本)语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;将测试语音的对数梅尔谱特征输入已训练网络,得到它们的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。本发明方法既减小了网络规模又降低了网络训练难度,有效缓解小样本话者辨认的过拟合问题,获得更满意话者辨认结果。

Description

基于通道注意力深度可分卷积网络的小样本话者辨认方法
技术领域
本发明涉及小样本学习和语音信号处理领域,具体涉及一种基于通道注意力深度可分卷积网络的小样本话者辨认方法。
背景技术
每个人的声音特征是不同的,利用各个话者(说话人)声音特性的差异,能够有效地对不同语音对应的话者进行分类与识别,这就是话者识别任务。话者识别包括话者确认和话者辨认两种任务。前者是一个二分类问题,旨在确认测试语音是否来自所声称的话者;后者是一个多分类问题,旨在辨认测试语音来自声纹库中的哪个话者。
近些年深度神经网络已经被广泛应用到图像、文本、语音领域中,并取得了显著的效果。深度神经网络之所以有如此优秀的性能表现,主要依赖于各类高性能计算设备的更新发展与各种大规模标注数据集的出现。但是在现实生活中,并不是所有任务都有大规模数据集的支持。一方面在特定任务下能够获取的数据资源是十分有限的,另一方面想要构建大规模数据集,标注工作所耗费的人力和物力成本是巨大的。因此想要构建特定任务下的大规模数据集显然是很困难的。没有大规模数据集的支持,深度神经网络就会出现过拟合问题,其性能将会大幅下降。在此情况下提出的小样本学习能很好地应对数据集规模较小情况下的深度神经网络训练问题。因此,将小样本学习应用于图像处理、文本处理和语音处理等任务,是具有实际意义的。
卷积神经网络作为最常用的神经网络之一,其核心是利用卷积核对输入特征图的局部信息进行感知,再对信息进行加权,以此得到更高语义层次的深度特征。在常规卷积运算的基础上,人们提出了空洞卷积、分组卷积、深度可分卷积等卷积运算以适应不同的任务需求。其中,深度可分卷积一方面能够提高训练时的计算速度,另一方面,与传统卷积计算相比,大幅减小了计算量与参数量,在减小网络规模的同时获得了更高的精度。同时,通道注意力可以实现通道间的信息交互,从输入特征图中提取出对当前任务更为有益的信息,以此调整网络结构使其能专注当前任务,达到进一步降低网络训练难度的目的。由此看来深度可分卷积和通道注意力非常适合小样本学习任务。
发明内容
本发明的目的是为了解决样本量不足时的话者辨认问题,提供一种基于通道注意力深度可分卷积网络的小样本话者辨认方法。本发明将通道注意力深度可分卷积网络与小样本学习结合,设计了一种在低资源、少样本条件下进行话者辨认的方法。本发明一方面在减小网络规模的同时能够提升网络性能,缓解小样本数据集训练时产生的过拟合问题,另一方面实现了各特征通道间的信息交互,降低了训练难度,进一步提升了网络的泛化能力。
本发明的目的可以通过采取如下技术方案达到:
一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,所述小样本话者辨认方法包括以下步骤:
S1、从输入语音提取对数梅尔谱特征,其中,所述输入语音包括训练语音、注册语音和测试语音;
S2、初始化通道注意力深度可分卷积网络,所述神经网络包括顺序连接的3个深度可分卷积模块、1个通道注意力模块和1个输出模块;
S3、将训练语音的对数梅尔谱特征输入通道注意力深度可分卷积网络,迭代更新神经网络参数直至神经网络收敛;
S4、将注册语音的对数梅尔谱特征输入已训练的神经网络,得到注册语音的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;
S5、将测试语音的对数梅尔谱特征输入已训练网络,得到测试语音的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。
进一步地,所述步骤S1中对数梅尔谱特征提取过程如下:
S1.1、采用一阶高通滤波器对输入语音进行预加重处理,一阶高通滤波器的传递函数为H(z)=1-αz-1,其中0.9≤α≤1;
S1.2、对预加重后的输入语音进行分帧处理,得到短时语音帧;
S1.3、对短时语音帧进行加窗处理:选择汉明窗作为窗函数,将窗函数与每帧语音相乘得到加窗后的短时语音帧;
S1.4、对加窗的短时语音帧进行离散傅里叶变换,得到对应的线性谱,再采用梅尔滤波器将线性频谱转化为梅尔谱,最后对梅尔谱取对数得到对数梅尔谱。
进一步地,所述深度可分卷积模块包括顺序连接的深度可分卷积单元、批标准化单元和第一激励单元,
所述深度可分卷积单元不同于传统卷积单元,用于依次完成通道卷积和逐点卷积操作,其中,
所述通道卷积对特征图的每个通道分别进行卷积操作,卷积核个数等于通道数,将每个通道的结果依次拼接起来;
所述逐点卷积采用1×1的卷积核对每个通道逐点卷积,卷积核个数与卷积输出的通道维数相同;
所述批标准化单元既可以解决网络训练过程中出现的梯度爆炸问题,又能够加速网络训练,用于依次完成近似白化预处理和变换重构操作,其中,
所述近似白化预处理的公式如下:
Figure BDA0003219793320000041
所述变换重构的公式如下:
Figure BDA0003219793320000042
其中,E[x(i)]、
Figure BDA0003219793320000043
分别表示第i个语音样本对应特征矢量x(i)的均值与标准差,
Figure BDA0003219793320000044
是近似白化预处理后的结果,y(i)是重构后的特征向量,γ(i)、β(i)是可调节的重构参数;
所述第一激励单元采用ReLU作为激活函数,用于增加神经网络层与层之间的非线性关系。
进一步地,所述3个深度可分卷积模块中通道卷积所用卷积核大小均为3×3,卷积核个数与输入通道的维数m相同;逐点卷积所用的卷积核大小为1×1,卷积核个数与输出通道的维数n相同,分别取128、256、512;所述通道注意力模块包括两个节点数分别为128和512的全连接层;所述输出模块包括两个全连接层,第一全连接层的节点数为512,第一全连接层的输出结果作为该话者语音样本的深度特征,第二全连接层的节点数为训练集话者的个数;所述第一激励单元中激活函数选用ReLU,得到归一化概率,从而进行分类。
进一步地,所述通道注意力模块包括顺序连接的池化单元、全连接层和第二激励单元;
所述池化单元用于完成最大池化和平均池化两种池化操作,用于对输入特征的时间维度信息进行压缩;
所述全连接层的权值是共享的,对上述最大池化和平均池化操作后的特征向量分别进行线性映射,再对这两个线性映射后的向量进行元素求和;
所述第二激励单元选取Sigmoid作为激活函数,其表达式为:
Figure BDA0003219793320000045
对上述全连接层进行元素求和后的向量重新建模,通过Sigmoid激活函数获得每个通道归一化后的权重值,权重值取值范围为0~1,归一化后无用信息对应的权重将趋于0,重要信息对应的权重将趋于1,得到通道注意力权重向量。
进一步地,所述步骤S3的训练过程包括:
S3.1、选取与注册语音中的话者互不相同的其他话者的语音作为训练语音,采用k-way、n-shot的方式训练网络,即训练过程每次选取k个话者,每个话者选择n+m个语音样本,将k个话者对应的n个语音样本作为支撑集用于训练模型,k个话者对应的m个语音样本则用于构成询问集;
为保持训练与测试的一致性,k与n的值与测试语音的对应值相同;本发明中k=5,n=10,即每次训练时随机抽取5个不同的话者,每个话者选取11个语音样本,其中10个语音样本加入支撑集,1个语音样本加入询问集;
S3.2、采用步骤S1提取上述支撑集和询问集中的语音样本的对数梅尔谱特征;
S3.3、将上述支撑集语音样本的对数梅尔谱特征输入通道注意力深度可分卷积网络,从而更新神经网络参数;
S3.4、计算上述支撑集中各话者所有语音样本的深度特征的均值矢量作为该话者的中心矢量;
S3.5、计算上述询问集中各话者语音样本的深度特征与各话者中心矢量之间的欧式距离。
进一步地,所述步骤S3中用于神经网络训练的损失函数如下:
Figure BDA0003219793320000051
其中,X表示当前用于判决的话者,Cφ(X)表示支撑集当前话者中心矢量,i表示询问集中属于支撑集当前判决话者的语音样本个数,Qi表示询问集中属于支撑集当前判决话者的语音样本的特征矢量,j表示询问集中不属于支撑集的当前判决话者的语音样本个数,Qj表示询问集中不属于支撑集的当前判决话者的语音样本的特征矢量;euc(·)表示两个特征矢量之间的欧氏距离;
训练过程中,通过不断减小Loss值,缩小相同话者训练语音的深度特征与中心矢量之间的距离,增大来自不同话者训练语音的深度特征与中心矢量之间的距离。
进一步地,所述步骤S4的注册过程如下:
S4.1、将小样本语音数据集以k-way、n-shot的方式进行采样,即每次选取k个话者,每个话者选择n个语音样本,将k个话者对应的n个语音样本作为用于注册的支撑集,采用步骤S1提取该支撑集中各话者语音的对数梅尔谱特征;
S4.2、将支撑集中各话者语音的对数梅尔谱特征输入已训练的神经网络,得到各话者语音的深度特征;
S4.3、计算支撑集中各话者所有语音的深度特征的均值作为该话者的中心矢量。
进一步地,所述步骤S5的测试过程如下:
S5.1、采用步骤S1提取测试集各语音样本的对数梅尔谱特征;
S5.2、将测试集中各语音样本的对数梅尔谱特征输入已训练的神经网络,得到各话者语音的深度特征;
S5.3、计算测试集中各语音样本深度特征与各话者中心矢量之间的距离,基于距离最小的原则在输出层得到测试语音所属的话者类别。
本发明相对于现有技术具有如下的优点及效果:
1)本发明使用深度可分卷积代替传统卷积,一方面从音频样本有效提取更高语义层次的深度特征的同时提高了计算速度;另一方面大幅降低了训练时的参数量和计算量,缩小了网络规模,缓解了神经网络训练时的过拟合问题,提升了神经网络性能;
2)本发明引入通道注意力,可以从特征图获得对话者辨认有用的重要通道信息,降低网络的训练难度,提高了网络泛化能力。
附图说明
图1是本发明实施例公开的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法中训练流程图;
图2是本发明实施例公开的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法中注册与测试流程图;
图3是本发明实施例公开的基于通道注意力深度可分卷积网络的结构图;
图4是本发明实施例中深度可分卷积计算流程图;
图5是本发明实施例中通道注意力运算流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
图1和图2是一种基于通道注意力深度可分卷积网络的小样本话者辨认的一个实施例流程图,包含了训练、注册与测试过程,具体步骤如下:
S1、从输入语音提取对数梅尔谱特征,其中,输入语音包括训练语音、注册语音和测试语音;
本实施例中,步骤S1中提取对数梅尔谱特征具体包括以下步骤:
S1.1采用一阶高通滤波器对输入语音进行预加重处理,滤波器的传递函数为H(z)=1-αz-1,其中0.9≤α≤1;
S1.2、对预加重后的输入语音进行分帧处理,得到短时语音帧;
S1.3、对短时语音帧进行加窗处理:选择汉明窗作为窗函数,将窗函数与每帧语音相乘得到加窗后的短时语音帧;
S1.4、对加窗的短时语音帧进行离散傅里叶变换,得到对应的线性谱,再采用梅尔滤波器将线性频谱转化为梅尔谱,最后对梅尔谱取对数得到对数梅尔谱,把对数梅尔频谱按顺序排列即可得到一个特征矩阵,特征矩阵的行数表示帧的顺序,列数表示特征维度;
S2、初始化通道注意力深度可分卷积网络,具体包括3个深度可分卷积模块、1个通道注意力模块和1个输出模块。其中,通道注意力深度可分卷积网络如图3所示。
其中,所述深度可分卷积模块采用通道卷积和逐点卷积的方式,与传统卷积运算相比,大大减少了模型训练时所需的参数量,缩小了网络规模,使得模型变得轻量化,能够很好地缓解小样本数据训练神经网络时产生的过拟合问题,以提升网络的性能;采用批标准化的操作既可以解决网络训练过程中出现的梯度爆炸问题,又能够加速网络训练;通道注意力模块能够增加特征通道间的信息交互,有效地提取出特征图中有益于当前任务的局部信息,调整网络结构使其专注于当前任务,以此降低网络的训练难度,提升网络的泛化能力;
其中,深度可分卷积模块包括顺序连接的深度可分卷积单元、批标准化单元和第一激励单元。深度可分卷积模块的深度可分卷积过程如图4所示,
(1)深度可分卷积单元不同于传统卷积单元,用于依次完成通道卷积和逐点卷积操作,其中,
通道卷积对特征图的每个通道分别进行卷积操作,卷积核个数等于通道数,将每个通道的结果依次拼接起来;
逐点卷积采用1×1的卷积核对每个通道逐点卷积,卷积核个数与卷积输出的通道维数相同;
(2)批标准化单元既可以解决网络训练过程中出现的梯度爆炸问题,又能够加速网络训练,用于完成近似白化预处理和变换重构操作,其中,
近似白化预处理的公式如下:
Figure BDA0003219793320000091
变换重构的公式如下:
Figure BDA0003219793320000092
其中,E[x(i)]、
Figure BDA0003219793320000093
分别表示第i个语音样本对应特征矢量x(i)的均值与标准差,
Figure BDA0003219793320000094
是近似白化预处理后的结果,y(i)是重构后的特征向量,γ(i)、β(i)是可调节的重构参数。
(3)第一激励单元采用ReLU作为激活函数,用于增加神经网络层与层之间的非线性关系。
本实施例中,3个深度可分卷积模块中通道卷积所用卷积核大小均为3×3,卷积核个数与输入通道的维数m相同;逐点卷积所用的卷积核大小为1×1,卷积核个数与输出通道的维数n相同,分别取128、256、512;所述通道注意力模块包括两个节点数分别为128和512的全连接层;所述输出模块包括两个全连接层,第一全连接层的节点数为512,第一全连接层的输出结果作为该话者语音样本的深度特征,第二全连接层的节点数为训练集话者的个数;所述第一激励单元中激活函数选用ReLU,得到归一化概率,从而进行分类。
其中,通道注意力模块包括顺序连接的池化单元、全连接层和第二激励单元;通道注意力运算过程如图5所示。
(1)池化单元:
池化单元用于完成最大池化和平均池化两种池化操作,用于对输入特征的时间维度信息进行压缩。
(2)全连接层:
全连接层的权值是共享的,对上述最大池化和平均池化操作后的特征向量分别进行线性映射,再对这两个线性映射后的向量进行元素求和。
(3)第二激励单元:
第二激励单元选取Sigmoid作为激活函数,其表达式为:
Figure BDA0003219793320000101
对上述全连接层进行元素求和后的向量重新建模,通过Sigmoid激活函数获得每个通道归一化后的权重值,权重值取值范围为0~1,归一化后无用信息对应的权重将趋于0,重要信息对应的权重将趋于1,得到通道注意力权重向量。
S3、将训练语音的对数梅尔谱特征输入通道注意力深度可分卷积网络,迭代更新神经网络参数直至神经网络收敛;
在本实施例中,训练通道注意力深度可分卷积网络,具体步骤如下:
S3.1、选取与注册语音中的话者互不相同的其他话者的语音作为训练语音,采用k-way、n-shot的方式训练网络,即训练过程每次选取k个话者,每个话者选择n+m个语音样本,将k个话者对应的n个语音样本作为支撑集用于训练模型,k个话者对应的m个语音样本则用于构成询问集;
为保持训练与测试的一致性,k与n的值与测试语音的对应值相同;本发明中k=5,n=10,即每次训练时随机抽取5个不同的话者,每个话者选取11个语音样本,其中10个语音样本加入支撑集,1个语音样本加入询问集;
S3.2、采用步骤S1提取上述支撑集和询问集中的语音样本的对数梅尔谱特征;
S3.3、将上述支撑集语音样本的对数梅尔谱特征输入通道注意力深度可分卷积网络,从而更新神经网络参数;
S3.4、计算上述支撑集中各话者所有语音样本的深度特征的均值矢量作为该话者的中心矢量;
S3.5、计算上述询问集中各话者语音样本的深度特征与各话者中心矢量之间的欧式距离。
本实施例中,步骤S3中用于神经网络训练的损失函数如下:
Figure BDA0003219793320000111
其中,X表示当前用于判决的话者,Cφ(X)表示支撑集当前话者中心矢量,i表示询问集中属于支撑集当前判决话者的语音样本个数,Qi表示询问集中属于支撑集当前判决话者的语音样本的特征矢量,j表示询问集中不属于支撑集的当前判决话者的语音样本个数,Qj表示询问集中不属于支撑集的当前判决话者的语音样本的特征矢量;euc(·)表示两个特征矢量之间的欧氏距离;
训练过程中,通过不断减小Loss值,缩小相同话者训练语音的深度特征与中心矢量之间的距离,增大来自不同话者训练语音的深度特征与中心矢量之间的距离。
S4、将注册语音的对数梅尔谱特征输入已训练的神经网络,得到注册语音的深度特征,计算所有注册语音的深度特征的均值矢量并作为对应话者的中心矢量;
本实施例中,利用小样本数据集进行话者注册的具体步骤如下:
S4.1、将小样本语音数据集以k-way、n-shot的方式进行采样,即每次选取k个话者,每个话者选择n个语音样本,将k个话者对应的n个语音样本作为用于注册的支撑集,采用步骤S1提取该支撑集中各话者语音的对数梅尔谱特征;
S4.2、将支撑集中各话者语音的对数梅尔谱特征输入已训练的神经网络,得到各话者语音的深度特征;
S4.3、计算支撑集中各话者所有语音的深度特征的均值作为该话者的中心矢量;
S5、将测试语音的对数梅尔谱特征输入已训练网络,得到测试语音的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者;
本实施例中,利用测试集进行话者辨认的具体步骤如下:
S5.1、采用步骤S1提取测试集各语音样本的对数梅尔谱特征;
S5.2、将测试集中各语音样本的对数梅尔谱特征输入已训练的神经网络,得到各话者语音的深度特征;
S5.3、计算测试集中各语音样本深度特征与各话者中心矢量之间的距离,基于距离最小的原则在输出层得到测试语音所属的话者类别。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述小样本话者辨认方法包括以下步骤:
S1、从输入语音提取对数梅尔谱特征,其中,所述输入语音包括训练语音、注册语音和测试语音;
S2、初始化通道注意力深度可分卷积网络,所述神经网络包括顺序连接的3个深度可分卷积模块、1个通道注意力模块和1个输出模块;
S3、将训练语音的对数梅尔谱特征输入通道注意力深度可分卷积网络,迭代更新神经网络参数直至神经网络收敛;
S4、将注册语音的对数梅尔谱特征输入已训练的神经网络,得到注册语音的深度特征,计算所有注册语音的深度特征均值矢量并作为对应话者的中心矢量;
S5、将测试语音的对数梅尔谱特征输入已训练网络,得到测试语音的深度特征,计算测试语音深度特征与注册语音各话者中心矢量之间的距离,距离最小的中心矢量所对应的话者即为测试语音所属话者。
2.根据权利要求1所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述步骤S1中对数梅尔谱特征提取过程如下:
S1.1、采用一阶高通滤波器对输入语音进行预加重处理,一阶高通滤波器的传递函数为H(z)=1-αz-1,其中0.9≤α≤1;
S1.2、对预加重后的输入语音进行分帧处理,得到短时语音帧;
S1.3、对短时语音帧进行加窗处理:选择汉明窗作为窗函数,将窗函数与每帧语音相乘得到加窗后的短时语音帧;
S1.4、对加窗的短时语音帧进行离散傅里叶变换,得到对应的线性谱,再采用梅尔滤波器将线性频谱转化为梅尔谱,最后对梅尔谱取对数得到对数梅尔谱。
3.根据权利要求1所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述深度可分卷积模块包括顺序连接的深度可分卷积单元、批标准化单元和第一激励单元,
所述深度可分卷积单元,用于依次完成通道卷积和逐点卷积操作,其中,
所述通道卷积对特征图的每个通道分别进行卷积操作,卷积核个数等于通道数,将每个通道的结果依次拼接起来;
所述逐点卷积采用1×1的卷积核对每个通道逐点卷积,卷积核个数与卷积输出的通道维数相同;
所述批标准化单元用于依次完成近似白化预处理和变换重构操作,其中,
所述近似白化预处理的公式如下:
Figure FDA0003219793310000021
所述变换重构的公式如下:
Figure FDA0003219793310000022
其中,E[x(i)]、
Figure FDA0003219793310000023
分别表示第i个语音样本对应特征矢量x(i)的均值与标准差,
Figure FDA0003219793310000024
是近似白化预处理后的结果,y(i)是重构后的特征向量,γ(i)、β(i)是可调节的重构参数;
所述第一激励单元采用ReLU作为激活函数,用于增加神经网络层与层之间的非线性关系。
4.根据权利要求3所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,
所述3个深度可分卷积模块中通道卷积所用卷积核大小均为3×3,卷积核个数与输入通道的维数m相同;逐点卷积所用的卷积核大小为1×1,卷积核个数与输出通道的维数n相同,分别取128、256、512;所述通道注意力模块包括两个节点数分别为128和512的全连接层;所述输出模块包括两个全连接层,第一全连接层的节点数为512,第一全连接层的输出结果作为该话者语音样本的深度特征,第二全连接层的节点数为训练集话者的个数;所述激励单元中激活函数选用ReLU,得到归一化概率,从而进行分类。
5.根据权利要求4所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述通道注意力模块包括顺序连接的池化单元、全连接层和第二激励单元;
所述池化单元用于完成最大池化和平均池化两种池化操作,用于对输入特征的时间维度信息进行压缩;
所述全连接层的权值是共享的,对上述最大池化和平均池化操作后的特征向量分别进行线性映射,再对这两个线性映射后的向量进行元素求和;
所述第二激励单元选取Sigmoid作为激活函数,其表达式为:
Figure FDA0003219793310000031
对上述全连接层进行元素求和后的向量重新建模,通过Sigmoid激活函数获得每个通道归一化后的权重值,权重值取值范围为0~1,归一化后无用信息对应的权重将趋于0,重要信息对应的权重将趋于1,得到通道注意力权重向量。
6.根据权利要求1所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述步骤S3的训练过程包括:
S3.1、选取与注册语音中的话者互不相同的其他话者的语音作为训练语音,采用k-way、n-shot的方式训练网络,即训练过程每次选取k个话者,每个话者选择n+m个语音样本,将k个话者对应的n个语音样本作为支撑集用于训练模型,k个话者对应的m个语音样本则用于构成询问集;
S3.2、采用步骤S1提取上述支撑集和询问集中的语音样本的对数梅尔谱特征;
S3.3、将上述支撑集语音样本的对数梅尔谱特征输入通道注意力深度可分卷积网络,从而更新神经网络参数;
S3.4、计算上述支撑集中各话者所有语音样本的深度特征的均值矢量作为该话者的中心矢量;
S3.5、计算上述询问集中各话者语音样本的深度特征与各话者中心矢量之间的欧式距离。
7.根据权利要求6所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述步骤S3中用于神经网络训练的损失函数如下:
Figure FDA0003219793310000041
其中,X表示当前用于判决的话者,Cφ(X)表示支撑集当前话者中心矢量,i表示询问集中属于支撑集当前判决话者的语音样本个数,Qi表示询问集中属于支撑集当前判决话者的语音样本的特征矢量,j表示询问集中不属于支撑集的当前判决话者的语音样本个数,Qj表示询问集中不属于支撑集的当前判决话者的语音样本的特征矢量;euc(·)表示两个特征矢量之间的欧氏距离。
8.根据权利要求6所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,为保持训练与测试的一致性,k与n的值与测试语音的对应值相同,其中,k=5,n=10,即每次训练时随机抽取5个不同的话者,每个话者选取11个语音样本,其中10个语音样本加入支撑集,1个语音样本加入询问集。
9.根据权利要求6所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述步骤S4的注册过程如下:
S4.1、将小样本语音数据集以k-way、n-shot的方式进行采样,采用步骤S1提取支撑集中各话者语音的对数梅尔谱特征;
S4.2、将支撑集中各话者语音的对数梅尔谱特征输入已训练的神经网络,得到各话者语音的深度特征;
S4.3、计算支撑集中各话者所有语音的深度特征的均值作为该话者的中心矢量。
10.根据权利要求6所述的一种基于通道注意力深度可分卷积网络的小样本话者辨认方法,其特征在于,所述步骤S5的测试过程如下:
S5.1、采用步骤S1提取测试集各语音样本的对数梅尔谱特征;
S5.2、将测试集中各语音样本的对数梅尔谱特征输入已训练的神经网络,得到各话者语音的深度特征;
S5.3、计算测试集中各语音样本深度特征与各话者中心矢量之间的距离,基于距离最小的原则在输出层得到测试语音所属的话者类别。
CN202110954659.0A 2021-08-19 2021-08-19 基于通道注意力深度可分卷积网络的小样本话者辨认方法 Active CN113823292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110954659.0A CN113823292B (zh) 2021-08-19 2021-08-19 基于通道注意力深度可分卷积网络的小样本话者辨认方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110954659.0A CN113823292B (zh) 2021-08-19 2021-08-19 基于通道注意力深度可分卷积网络的小样本话者辨认方法

Publications (2)

Publication Number Publication Date
CN113823292A true CN113823292A (zh) 2021-12-21
CN113823292B CN113823292B (zh) 2023-07-21

Family

ID=78913357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110954659.0A Active CN113823292B (zh) 2021-08-19 2021-08-19 基于通道注意力深度可分卷积网络的小样本话者辨认方法

Country Status (1)

Country Link
CN (1) CN113823292B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457968A (zh) * 2022-08-26 2022-12-09 华南理工大学 基于混合分辨率深度可分卷积网络的声纹确认方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145971A (zh) * 2018-08-07 2019-01-04 桂林电子科技大学 基于改进匹配网络模型的单样本学习方法
CN111667838A (zh) * 2020-06-22 2020-09-15 清华大学 一种用于声纹识别的低功耗模拟域特征向量提取方法
CN112071329A (zh) * 2020-09-16 2020-12-11 腾讯科技(深圳)有限公司 一种多人的语音分离方法、装置、电子设备和存储介质
US20210012199A1 (en) * 2019-07-04 2021-01-14 Zhejiang University Address information feature extraction method based on deep neural network model
CN112308092A (zh) * 2020-11-20 2021-02-02 福州大学 一种基于多尺度注意力机制的轻量型车牌检测与识别方法
CN112528920A (zh) * 2020-12-21 2021-03-19 杭州格像科技有限公司 一种基于深度残差网络的宠物图像情绪识别方法
CN112786021A (zh) * 2021-01-26 2021-05-11 东南大学 一种基于分层量化的轻量级神经网络语音关键词识别方法
CN112951242A (zh) * 2021-02-02 2021-06-11 华南理工大学 一种基于孪生神经网络的短语音说话人匹配方法
US20210233513A1 (en) * 2019-01-29 2021-07-29 Tencent Technology (Shenzhen) Company Limited Audio recognition method and system and machine device

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145971A (zh) * 2018-08-07 2019-01-04 桂林电子科技大学 基于改进匹配网络模型的单样本学习方法
US20210233513A1 (en) * 2019-01-29 2021-07-29 Tencent Technology (Shenzhen) Company Limited Audio recognition method and system and machine device
US20210012199A1 (en) * 2019-07-04 2021-01-14 Zhejiang University Address information feature extraction method based on deep neural network model
CN111667838A (zh) * 2020-06-22 2020-09-15 清华大学 一种用于声纹识别的低功耗模拟域特征向量提取方法
CN112071329A (zh) * 2020-09-16 2020-12-11 腾讯科技(深圳)有限公司 一种多人的语音分离方法、装置、电子设备和存储介质
CN112308092A (zh) * 2020-11-20 2021-02-02 福州大学 一种基于多尺度注意力机制的轻量型车牌检测与识别方法
CN112528920A (zh) * 2020-12-21 2021-03-19 杭州格像科技有限公司 一种基于深度残差网络的宠物图像情绪识别方法
CN112786021A (zh) * 2021-01-26 2021-05-11 东南大学 一种基于分层量化的轻量级神经网络语音关键词识别方法
CN112951242A (zh) * 2021-02-02 2021-06-11 华南理工大学 一种基于孪生神经网络的短语音说话人匹配方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457968A (zh) * 2022-08-26 2022-12-09 华南理工大学 基于混合分辨率深度可分卷积网络的声纹确认方法

Also Published As

Publication number Publication date
CN113823292B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
Ma et al. Emotion recognition from variable-length speech segments using deep learning on spectrograms.
CN108319666B (zh) 一种基于多模态舆情分析的供电服务评估方法
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN111402928B (zh) 基于注意力的语音情绪状态评估方法、装置、介质及设备
CN111723874B (zh) 一种基于宽度和深度神经网络的声场景分类方法
WO2021127982A1 (zh) 语音情感识别方法、智能装置和计算机可读存储介质
CN114187898A (zh) 一种基于融合神经网络结构的端到端语音识别方法
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
CN114863938A (zh) 一种基于注意力残差和特征融合的鸟语识别方法和系统
CN113611286B (zh) 一种基于共性特征提取的跨语种语音情感识别方法和系统
CN113823292A (zh) 基于通道注意力深度可分卷积网络的小样本话者辨认方法
CN113851148A (zh) 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法
CN110609895B (zh) 一种主动选择示例以进行高效文本分类的样本自动生成方法
CN117056506A (zh) 一种基于长序列文本数据的舆情情感分类方法
CN114420151B (zh) 基于并联张量分解卷积神经网络的语音情感识别方法
CN112233668B (zh) 一种基于神经网络的语音指令及身份识别方法
CN115985320A (zh) 智能设备控制方法、装置、电子设备及存储介质
CN116047418A (zh) 基于小样本的多模态雷达有源欺骗干扰识别方法
CN113593525A (zh) 口音分类模型训练和口音分类方法、装置和存储介质
CN112951242A (zh) 一种基于孪生神经网络的短语音说话人匹配方法
CN112463965A (zh) 一种对文本的语义理解的方法及系统
CN113823271A (zh) 语音分类模型的训练方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant