CN116434758A - 声纹识别模型训练方法、装置、电子设备及存储介质 - Google Patents
声纹识别模型训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116434758A CN116434758A CN202310411536.1A CN202310411536A CN116434758A CN 116434758 A CN116434758 A CN 116434758A CN 202310411536 A CN202310411536 A CN 202310411536A CN 116434758 A CN116434758 A CN 116434758A
- Authority
- CN
- China
- Prior art keywords
- speaker
- training
- voiceprint recognition
- recognition model
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 172
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims abstract description 69
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 46
- 238000009826 distribution Methods 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 8
- 241000125205 Anethum Species 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 15
- 230000000694 effects Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 206010027951 Mood swings Diseases 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 210000000515 tooth Anatomy 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请提供的声纹识别模型训练方法、装置、电子设备及存储介质,包括:获取训练样本;将所述训练样本输入至待训练的声纹识别模型中;计算标签类别的协方差矩阵;根据说话人特征以及说话人特征对应的标签类别的协方差矩阵,确定第一损失函数;采用第一损失函数对声纹识别模型进行训练,得到训练完成的声纹识别模型;通过上述方式,利用对应标签类别的协方差矩阵实现对说话人特征的语义上的数据增强,将说话人特征以及对应标签类别的协方差矩阵融入到第一损失函数的计算中,在模型的训练过程中实现了特征空间上的数据增强,能够解决声纹识别模型数据增强困难的问题,具有实现了语义数据增强的效果,还具有提高了声纹识别模型的识别准确性的效果。
Description
技术领域
本申请涉及声纹识别技术领域,还涉及人工智能技术领域,具体涉及一种声纹识别模型训练方法、装置、电子设备及存储介质。
背景技术
声纹识别(Voiceprint Recognition,VPR)技术,也称为说话人识别(SpeakerRecognition,SR)技术,属于生物特征识别技术的一种,包括说话人辨认和说话人确认。人类声音的产生过程是语言中枢和发音器官之间的复杂生理过程,尽管每个人的声音受如年龄、身体状况、情绪波动等各种因素的影响而具有一定的可变性,但由于每个人的发声器官如舌头、牙齿、肺、鼻腔等的大小和形态基本都不相同,因此不同人的声音仍然是具有区分性的。声纹识别是计算机利用语音波形中所包含的反映特定说话人生理和行为特征的语音特征参数来自动识别说话人身份的技术。
另外,利用声纹识别技术,说话人确认是比较给定的两段语音,并验证它们是否来自同一个说话人。近年来,随着深度神经网络取得的巨大进展,说话人确认技术也深受影响,逐渐从传统的基于概率统计方法转移到基于深度学习的方法。目前说话人确认已经变成一种日常生活中的一项重要技术,如生物认证、智能控制等。但是当前的说话人确认系统在真实工业应用场景下的表现仍然不太令人满意,数据量的缺失是复杂场景下性能鲁棒性的一个关键挑战,因此音频数据的需求也与日俱增。
在用于声纹识别的神经网络以及用于说话人确认的神经网络的训练过程中,数据增强是一种解决数据缺失、增加训练样本数量和分布多样性的重要技术。现有技术中常用的数据增强包括加噪声、加混响和速度扰动,还有将语音识别中常用的SpecAugment(即在训练过程中对频谱直接进行掩码)技术应用到上述神经网络中。这些方法都是直接操作原始的语音信号,是信号级别的增强方法,因此生成的增强样本多样性会受到限制。除此之外,这些增强方法也会带来巨大的计算和I/O开销。
现有技术中还提出利用深度生成模型如Generative Adversarial Networks(GANs)、Variational Autoencoder(VAE)等网络来学习带噪声的说话人特征分布,并从这个分布中生成新的特征。但是这些方法需要利用复杂的深度生成模型去显式地增强样本,很大程度上减慢了声纹识别模型的训练过程。还有一种方法通过从指定噪声数据生成纯噪声分布,然后再从中生成新的噪声加到原始的数据特征上来增强数据,这种方法的缺点是这种分布需要依赖于额外的特定噪声数据集,并且生成样本的多样性也远远不够。
发明内容
鉴于以上问题,本申请实施例提供一种声纹识别模型训练方法、装置、电子设备及存储介质,以解决上述技术问题。
第一方面,本申请实施例提供一种声纹识别模型训练方法,包括:
获取训练样本,其中,所述训练样本包括语音数据以及所述语音数据对应的标签类别;
将所述训练样本输入至待训练的声纹识别模型中,通过声纹识别模型的说话人编码器获取每个训练样本对应的说话人特征,通过声纹识别模型的分类器对所述说话人特征进行识别;
根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵,其中,所述协方差矩阵用于表征对应标签类别所有说话人特征的语义变换方向;
根据所述说话人特征以及所述说话人特征对应的所述标签类别的协方差矩阵,确定第一损失函数;
采用第一损失函数对所述声纹识别模型进行训练,得到训练完成的所述声纹识别模型。
可选地,所述根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵之后,还包括:
根据所述说话人特征对应的标签类别的权重矩阵以及所述说话人特征计算所述说话人特征的难度系数,其中,所述难度系数用于表征对应说话人特征的识别难度;
相应地,所述根据所述说话人特征以及所述说话人特征对应的所述标签类别的协方差矩阵,确定第一损失函数,包括:
根据所述说话人特征、所述说话人特征对应的难度系数以及所述说话人特征对应的所述标签类别的协方差矩阵,确定第一损失函数。
可选地,所述第一损失函数为:
其中,N为训练样本的总数,C为标签类别的数量,fi为第i个训练样本的说话人特征,yi为第i个训练样本的标签类别,wyi为第i个训练样本的标签类别yi对应的权重矩阵,wj为第j个标签类别对应的权重矩阵,∑yi为第i个训练样本对应的标签类别yi的协方差矩阵,dilli为第i个训练样本的难度系数,m为第一超参数,s为第二超参数,λ为第三超参数。
可选地,所述根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵,包括:
根据标签类别对应的多个训练样本的说话人特征获取所述标签类别的类别均值中心μj,其中,fk为第j个标签类别中第k个训练样本的说话人特征,M为第j个标签类别的训练样本的数量;
根据所述类别均值中心以及所述标签类别的所有说话人特征,获取所述标签类别的协方差矩阵中每个矩阵元素∑j(m,n), 其中,∑j(m,n)为协方差矩阵∑j中第m行、第n列的矩阵元素,/>和/>分别为第j个标签类别中第k个训练样本的说话人特征在第m维和第n维的数值,/>和/>分别为第j个标签类别的类别均值中心μj在第m维和第n维的数值,D为说话人特征的维度。
可选地,所述采用第一损失函数对所述声纹识别模型进行训练,得到训练完成的所述声纹识别模型之后,还包括:
利用训练完成的声纹识别模型的说话人编码器对训练集中每个语音样本进行声纹特征提取,得到所述语音样本对应的说话人特征;
根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵,其中,所述协方差矩阵用于表征对应标签类别所有说话人特征的语义变换方向;
根据所述说话人特征以及对应的所述标签类别的协方差矩阵,为所述说话人特征建立高斯分布,从所述高斯分布中采样出具有无限语义转换的说话人增强特征。
可选地,所述根据所述标签类别对应的多个说话人特征以及协方差矩阵,为所述标签类别建立高斯分布,从所述高斯分布中采样出具有无限语义转换的说话人增强特征之后,还包括:
利用所述标签类别的多个说话人特征以及多个说话人增强特征构建所述标签类别的训练数据集;
利用所述训练数据集以及所述第一损失函数对所述声纹识别模型的分类器进行训练,得到优化的声纹识别模型。
第二方面,本申请实施例提供一种声纹识别方法,包括:
将待识别语音数据输入至声纹识别模型,输出所述待识别语音的识别结果,其中,所述声纹识别模型是根据上述的声纹识别模型训练方法训练获取的。
第三方面,本申请实施例提供一种声纹识别模型训练装置,包括:
训练样本构建模块,用于获取训练样本,其中,所述训练样本包括语音数据以及所述语音数据对应的标签类别;
声纹识别模块,用于将所述训练样本输入至待训练的声纹识别模型中,通过声纹识别模型的说话人编码器获取每个训练样本对应的说话人特征,通过声纹识别模型的分类器对所述说话人特征进行识别;
样本增强模块,用于根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵,其中,所述协方差矩阵用于表征对应标签类别所有说话人特征的语义变换方向;
损失计算模块,用于根据所述说话人特征以及所述说话人特征对应的所述标签类别的协方差矩阵,确定第一损失函数;
参数调节模块,用于采用第一损失函数对所述声纹识别模型进行训练,得到训练完成的所述声纹识别模型。
第四方面,本申请实施例提供一种电子设备,包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现上述的声纹识别模型训练方法或者实现上述的声纹识别方法。
第五方面,本申请实施例提供一种存储介质,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现能够实现上述的声纹识别模型训练方法或者实现上述的声纹识别方法。
本申请实施例提供的声纹识别模型训练方法、装置、电子设备及存储介质,包括如下步骤:获取训练样本;将所述训练样本输入至待训练的声纹识别模型中,通过声纹识别模型的说话人编码器获取每个训练样本对应的说话人特征,通过声纹识别模型的分类器对所述说话人特征进行识别;根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵;根据所述说话人特征以及所述说话人特征对应的所述标签类别的协方差矩阵,确定第一损失函数;采用第一损失函数对所述声纹识别模型进行训练,得到训练完成的所述声纹识别模型;通过上述方式,利用对应标签类别的协方差矩阵实现对说话人特征的语义上的数据增强,将说话人特征以及对应标签类别的协方差矩阵融入到第一损失函数的计算中,在模型的训练过程中实现了特征空间上的数据增强,能够解决声纹识别模型数据增强困难的问题,具有实现了语义数据增强的效果,还具有提高了声纹识别模型的识别准确性的效果。并且,本申请的训练方法无需直接对语音训练样本进行数据增强,有利于简化模型训练的过程,同时,数据增强可以体现在第一损失函数的构建中,无需改变声纹识别模型的结构,能够兼容各种不同网络结构的声纹识别模型。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一实施例提供的声纹识别模型训练方法的流程示意图。
图2示出了本申请一实施例提供的声纹识别模型训练装置的结构示意图。
图3示出了本申请一实施例提供的电子设备的结构示意图。
图4示出了本申请一实施例提供的存储介质的结构示意图。
具体实施方式
下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性地,仅用于解释本申请,而不能理解为对本申请的限制。
为了使本技术领域的人员更好地理解本申请的方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中,需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请实施例的描述中,“示例”或“例如”等词语用于表示举例、说明或描述。本申请实施例中描述为“举例”或“例如”的任何实施例或设计方案均不解释为比另一实施例或设计方案更优选或具有更多优点。使用“示例”或“例如”等词语旨在以清晰的方式呈现相对概念。
另外,本申请实施例中的“多个”是指两个或两个以上,鉴于此,本申请实施例中也可以将“多个”理解为“至少两个”。“至少一个”,可理解为一个或多个,例如理解为一个、两个或更多个。例如,包括至少一个,是指包括一个、两个或更多个,而且不限制包括的是哪几个,例如,包括A、B和C中的至少一个,那么包括的可以是A、B、C、A和B、A和C、B和C、或A和B和C。
需要说明的是,本申请实施例中,“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
需要指出的是,本申请实施例中“连接”可以理解为电连接,两个电学元件连接可以是两个电学元件之间的直接或间接连接。例如,A与B连接,既可以是A与B直接连接,也可以是A与B之间通过一个或多个其它电学元件间接连接。
图1为本申请一实施例的声纹识别模型训练方法的流程示意图。需注意的是,若有实质上相同的结果,本申请的方法并不以图1所示的流程顺序为限。如图1所示,该声纹识别模型训练方法包括步骤:
S11,获取训练样本,其中,所述训练样本包括语音数据以及所述语音数据对应的标签类别;
其中,每个标签类别对应一个说话人身份,例如,说话人身份可以为说话人A、说话人B或说话人C;训练样本包括多个说话人的语音数据,每个说话人对应多个语音数据。语音数据对应的标签类别为真实的标签类别。例如,在本实施例中,训练样本的总数为N,即语音数据的总数为N,说话人的数量为C,即标签类别的数量为C,每个说话人(标签类别)对应多个语音数据。
S12,将所述训练样本输入至待训练的声纹识别模型中,通过声纹识别模型的说话人编码器获取每个训练样本对应的说话人特征,通过声纹识别模型的分类器对所述说话人特征进行识别;
其中,声纹识别模型包括说话人编码器和分类器,说话人编码器用于提取语音数据中说话人的声纹特征,该声纹特征也称为说话人特征,分类器用于根据说话人特征进行说话人身份(说话人所属标签类别)识别,每个说话人特征的识别结果包括该说话人特征分别为每个标签类别的概率。例如,当标签类别分别包括说话人A、说话人B和说话人C时,识别结果包括该说话人特征为说话人A的概率、该说话人特征为说话人B的概率以及该说话人特征为说话人C的概率。
S13,根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵,其中,所述协方差矩阵用于表征对应标签类别所有说话人特征的语义变换方向;
其中,将语音数据输入到说话人编码器中,输出语音数据对应的说话人特征数据,说话人特征数据可以包括不同特征维度的特征向量,例如,不同特征维度可以包括说话人的口腔生理特征维度、说话人的声带生理特征维度、说话人年龄相关特征维度、说话人所处环境相关特征维度以及说话人的口腔生理特征和声带生理特征的交叉特征维度等。
其中,根据训练样本中语音数据的真实的标签类别,确定每个标签类别对应的说话人特征,再根据每个标签类别对应的多个说话人特征计算标签类别的协方差矩阵。
作为一种实施方式,标签类别的协方差矩阵可以通过如下方式计算:
S132,根据所述类别均值中心以及所述标签类别的所有说话人特征,获取所述标签类别的协方差矩阵中每个矩阵元素∑j(m,n), 其中,∑j(m,n)为协方差矩阵∑j中第m行、第n列的矩阵元素,/>和/>分别为第j个标签类别中第k个训练样本的说话人特征在第m维和第n维的数值,/>和/>分别为第j个标签类别的类别均值中心μj在第m维和第n维的数值,D为说话人特征的维度。
在本实施例中,标签类别的协方差矩阵表示该标签类别中每个说话人特征的语义变换方向。
S14,根据所述说话人特征以及所述说话人特征对应的所述标签类别的协方差矩阵,确定第一损失函数;
其中,协方差矩阵中每个矩阵元素∑j(m,n)代表说话人特征中对应的两个维度的特征向量(第m维和第n维)的一个语义变换方向,标签类别中每个说话人特征与一个矩阵元素的乘积可以表示一个该说话人特征的语义数据增强特征,通过上述方式,第一损失函数包含用于表征说话人特征的语义数据增强的部分,在第一损失函数的计算过程中,融入了每个说话人特征的多个语义数据增强特征,实现了在特征空间进行语义增强,根据第一损失函数训练得到的声纹识别模型能够更好的学习到说话人特征的增强特征,提高声纹识别模型的识别准确性。
S15,采用第一损失函数对所述声纹识别模型进行训练,得到训练完成的所述声纹识别模型;
其中,采用第一损失函数对所述声纹识别模型进行训练的过程中,当第一损失函数的结果达到收敛时,可以认为声纹识别模型的训练完成;或者,当训练迭代的次数达到预设次数阈值时,也可以认为声纹识别模型的训练完成。所得到的训练完成的声纹识别模型用户根据语音数据输出说话人身份。
在本实施例中,利用对应标签类别的协方差矩阵实现对说话人特征的语义上的数据增强,将说话人特征以及对应标签类别的协方差矩阵融入到第一损失函数的计算中,在模型的训练过程中实现了特征空间上的数据增强,能够解决声纹识别模型数据增强困难的问题,具有实现了语义数据增强的效果,还具有提高了声纹识别模型的识别准确性的效果。并且,本申请的训练方法无需直接对语音训练样本进行数据增强,有利于简化模型训练的过程,同时,数据增强可以体现在第一损失函数的构建中,无需改变声纹识别模型的结构,能够兼容各种不同网络结构的声纹识别模型。
作为一种实施方式,利用说话人特征识别的概率,为每个说话人特征定义一个难度系数,步骤S13之后、步骤S14之前,还包括如下步骤:
S21,根据所述说话人特征对应的标签类别的权重矩阵以及所述说话人特征计算所述说话人特征的难度系数,其中,所述难度系数用于表征对应说话人特征的识别难度;
其中,根据说话人特征对应的真实的标签类别确定权重矩阵,根据权重矩阵计算难度系数,第i个说话人特征fi的难度系数为dilli,yi为说话人特征fi的真实的标签类别,wyi为标签类别yi对应的分类器的权重矩阵,wyi为分类器的最后一个全连接层的权重矩阵为W中与标签类别yi对应的部分,/>为wyi的转置矩阵,/>表示说话人特征fi为标签类别yi的概率,当/>较大时,说明说话人特征fi的识别难度较低;当较小时,说明说话人特征fi的识别难度较高;因此,/>越高,难度系数dilli越低;越低,难度系数dilli越高。
相应地,步骤S14具体包括如下步骤:
S141,根据所述说话人特征、所述说话人特征对应的难度系数以及所述说话人特征对应的所述标签类别的协方差矩阵,确定第一损失函数;
其中,将难度系数融入到第一损失函数中,可以进一步实现基于样本难度设置不同的说话人的标签类别间的边界,利用这个第一损失函数可以学习到更好的说话人特征,进一步提高声纹识别模型的识别准确性。
在一些实施方式中,可以基于AM-Softmax损失函数构建第一损失函数,具体地,所述第一损失函数为:
其中,N为训练样本的总数,C为标签类别的数量,fi为第i个训练样本的说话人特征,yi为第i个训练样本的标签类别,wyi为第i个训练样本的标签类别yi对应的权重矩阵,wj为第j个标签类别对应的权重矩阵,∑yi为第i个训练样本对应的标签类别yi的协方差矩阵,dilli为第i个训练样本的难度系数,m为第一超参数,s为第二超参数,λ为第三超参数。
作为一种实施方式,在声纹识别模型训练完成之后,可以对训练完成的声纹识别模型进一步优化,在步骤S14之后,还包括如下步骤:
S31,利用训练完成的声纹识别模型的说话人编码器对训练集中每个语音样本进行声纹特征提取,得到所述语音样本对应的说话人特征;
其中,语音样本包括多个说话人身份的语音数据,每个说话人对应多个语音数据,每个说话人身份对应一个标签类别。
S32,根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵,其中,所述协方差矩阵用于表征对应标签类别所有说话人特征的语义变换方向;
其中,具体计算步骤参见上述步骤S13的描述。
S33,根据所述说话人特征以及对应的所述标签类别的协方差矩阵,为所述说话人特征建立高斯分布,从所述高斯分布中采样出具有无限语义转换的说话人增强特征;
其中,可以以说话人特征fi为中心构建高斯分布N(fi,λ∑yi),其中,fi为第i个说话人特征,∑yi为第i个说话人特征fi对应的标签类别yi的协方差矩阵,λ为超参数,fi沿着从N(fi,λ∑yi)中随机采样生成的该说话人特征的各语义变换方向的增强特征,实现对说话人特征fi的增强。
在本实施方式中,可以对每个说话人特征沿着协方差矩阵进行语义变换方向的无限次高斯分布采样,得到说话人增强特征。
进一步地,在步骤S22之后,还包括如下步骤:
S34,利用所述标签类别的多个说话人特征以及多个说话人增强特征构建所述标签类别的训练数据集;
其中,每个说话人特征均进行了数据增强,每个标签类别对应的训练数据包括说话人特征和该说话人特征对应的至少一个说话人增强特征,所有标签类别的训练数据形成训练数据集。
S35,利用所述训练数据集以及所述第一损失函数对所述声纹识别模型的分类器进行训练,得到优化的声纹识别模型;
其中,将训练数据集输入至声纹识别模型的分类器中,利用第一损失函数对分类器进行训练,由于每个标签类别的说话人特征得到了增强,丰富了分类器的训练样本,有利于提高识别准确性。
本申请实施例可以通过人工智能实现声纹识别模型的训练以及声纹识别。本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
申请一实施例提供了一种声纹识别方法,包括如下步骤:
将待识别语音数据输入至声纹识别模型,输出所述待识别语音的识别结果;
其中,所述声纹识别模型是根据上述的声纹识别模型训练方法训练获取的。
图2是本申请一实施例的声纹识别模型训练装置的结构示意图。如图2所示,该声纹识别模型训练装置20包括:训练样本构建模块21、声纹识别模块22、样本增强模块23、损失计算模块24以及参数调节模块25,其中,训练样本构建模块21,用于获取训练样本,其中,所述训练样本包括语音数据以及所述语音数据对应的标签类别;声纹识别模块22,用于将所述训练样本输入至待训练的声纹识别模型中,通过声纹识别模型的说话人编码器获取每个训练样本对应的说话人特征,通过声纹识别模型的分类器对所述说话人特征进行识别;样本增强模块23,用于根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵,其中,所述协方差矩阵用于表征对应标签类别所有说话人特征的语义变换方向;损失计算模块24,用于根据所述说话人特征以及所述说话人特征对应的所述标签类别的协方差矩阵,确定第一损失函数;参数调节模块25,用于采用第一损失函数对所述声纹识别模型进行训练,得到训练完成的所述声纹识别模型。
作为一种实施方式,所述损失计算模块24还用于:根据所述说话人特征对应的标签类别的权重矩阵以及所述说话人特征计算所述说话人特征的难度系数,其中,所述难度系数用于表征对应说话人特征的识别难度。
相应地,所述损失计算模块24还用于:根据所述说话人特征、所述说话人特征对应的难度系数以及所述说话人特征对应的所述标签类别的协方差矩阵,确定第一损失函数。
作为一种实施方式,所述第一损失函数为:
其中,N为训练样本的总数,C为标签类别的数量,fi为第i个训练样本的说话人特征,yi为第i个训练样本的标签类别,wyi为第i个训练样本的标签类别yi对应的权重矩阵,wj为第j个标签类别对应的权重矩阵,∑yi为第i个训练样本对应的标签类别yi的协方差矩阵,dilli为第i个训练样本的难度系数,m为第一超参数,s为第二超参数,λ为第三超参数。
作为一种实施方式,所述样本增强模块23还用于:根据标签类别对应的多个训练样本的说话人特征获取所述标签类别的类别均值中心μj,其中,fk为第j个标签类别中第k个训练样本的说话人特征,M为第j个标签类别的训练样本的数量;根据所述类别均值中心以及所述标签类别的所有说话人特征,获取所述标签类别的协方差矩阵中每个矩阵元素∑j(m,n),/> 其中,∑j(m,n)为协方差矩阵∑j中第m行、第n列的矩阵元素,/>和/>分别为第j个标签类别中第k个训练样本的说话人特征在第m维和第n维的数值,/>和/>分别为第j个标签类别的类别均值中心μj在第m维和第n维的数值,D为说话人特征的维度。
作为一种实施方式,该声纹识别模型训练装置20还包括优化训练模块,用于:利用训练完成的声纹识别模型的说话人编码器对训练集中每个语音样本进行声纹特征提取,得到所述语音样本对应的说话人特征;根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵,其中,所述协方差矩阵用于表征对应标签类别所有说话人特征的语义变换方向;根据所述说话人特征以及对应的所述标签类别的协方差矩阵,为所述说话人特征建立高斯分布,从所述高斯分布中采样出具有无限语义转换的说话人增强特征。
作为一种实施方式,所述优化训练模块还用于:利用所述标签类别的多个说话人特征以及多个说话人增强特征构建所述标签类别的训练数据集;利用所述训练数据集以及所述第一损失函数对所述声纹识别模型的分类器进行训练,得到优化的声纹识别模型。
图3是本申请一实施例的电子设备的结构示意图。如图3所示,该电子设备30包括处理器31及和处理器31耦接的存储器32。
存储器32存储有用于实现上述任一实施例的所述声纹识别模型训练方法或声纹识别方法的程序指令。
处理器31用于执行存储器32存储的程序指令以进行声纹识别模型训练或声纹识别。
其中,处理器31还可以称为CPU(Central Processing Unit,中央处理单元)。处理器31可能是一种集成电路芯片,具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图4,图4为本申请一实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现上述所有方法的程序指令41,所述存储介质可以是非易失性,也可以是易失性。其中,该程序指令41可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围。
以上,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制,虽然本申请已以较佳实施例揭示如上,然而并非用以限定本申请,任何本领域技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本申请的技术实质对以上实施例所作的任何简介修改、等同变化与修饰,均仍属于本申请技术方案的范围内。
Claims (10)
1.一种声纹识别模型训练方法,其特征在于,包括:
获取训练样本,其中,所述训练样本包括语音数据以及所述语音数据对应的标签类别;
将所述训练样本输入至待训练的声纹识别模型中,通过声纹识别模型的说话人编码器获取每个训练样本对应的说话人特征,通过声纹识别模型的分类器对所述说话人特征进行识别;
根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵,其中,所述协方差矩阵用于表征对应标签类别所有说话人特征的语义变换方向;
根据所述说话人特征以及所述说话人特征对应的所述标签类别的协方差矩阵,确定第一损失函数;
采用第一损失函数对所述声纹识别模型进行训练,得到训练完成的所述声纹识别模型。
2.根据权利要求1所述的声纹识别模型训练方法,其特征在于,所述根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵之后,还包括:
根据所述说话人特征对应的标签类别的权重矩阵以及所述说话人特征计算所述说话人特征的难度系数,其中,所述难度系数用于表征对应说话人特征的识别难度;
相应地,所述根据所述说话人特征以及所述说话人特征对应的所述标签类别的协方差矩阵,确定第一损失函数,包括:
根据所述说话人特征、所述说话人特征对应的难度系数以及所述说话人特征对应的所述标签类别的协方差矩阵,确定第一损失函数。
4.根据权利要求3所述的声纹识别模型训练方法,其特征在于,所述根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵,包括:
5.根据权利要求4所述的声纹识别模型训练方法,其特征在于,所述采用第一损失函数对所述声纹识别模型进行训练,得到训练完成的所述声纹识别模型之后,还包括:
利用训练完成的声纹识别模型的说话人编码器对训练集中每个语音样本进行声纹特征提取,得到所述语音样本对应的说话人特征;
根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵,其中,所述协方差矩阵用于表征对应标签类别所有说话人特征的语义变换方向;
根据所述说话人特征以及对应的所述标签类别的协方差矩阵,为所述说话人特征建立高斯分布,从所述高斯分布中采样出具有无限语义转换的说话人增强特征。
6.根据权利要求4所述的声纹识别模型训练方法,其特征在于,所述根据所述标签类别对应的多个说话人特征以及协方差矩阵,为所述标签类别建立高斯分布,从所述高斯分布中采样出具有无限语义转换的说话人增强特征之后,还包括:
利用所述标签类别的多个说话人特征以及多个说话人增强特征构建所述标签类别的训练数据集;
利用所述训练数据集以及所述第一损失函数对所述声纹识别模型的分类器进行训练,得到优化的声纹识别模型。
7.一种声纹识别方法,其特征在于,包括:
将待识别语音数据输入至声纹识别模型,输出所述待识别语音的识别结果,其中,所述声纹识别模型是根据权利要求1~6任一项所述的声纹识别模型训练方法训练获取的。
8.一种声纹识别模型训练装置,其特征在于,包括:
训练样本构建模块,用于获取训练样本,其中,所述训练样本包括语音数据以及所述语音数据对应的标签类别;
声纹识别模块,用于将所述训练样本输入至待训练的声纹识别模型中,通过声纹识别模型的说话人编码器获取每个训练样本对应的说话人特征,通过声纹识别模型的分类器对所述说话人特征进行识别;
样本增强模块,用于根据每个标签类别对应的多个说话人特征计算对应标签类别的协方差矩阵,其中,所述协方差矩阵用于表征对应标签类别所有说话人特征的语义变换方向;
损失计算模块,用于根据所述说话人特征以及所述说话人特征对应的所述标签类别的协方差矩阵,确定第一损失函数;
参数调节模块,用于采用第一损失函数对所述声纹识别模型进行训练,得到训练完成的所述声纹识别模型。
9.一种电子设备,其特征在于,包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现如权利要求1~6中任一项所述的声纹识别模型训练方法或者实现如权利要求7所述的声纹识别方法。
10.一种存储介质,其特征在于,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现能够实现如权利要求1~6中任一项所述的声纹识别模型训练方法或者实现如权利要求7所述的声纹识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310411536.1A CN116434758A (zh) | 2023-04-07 | 2023-04-07 | 声纹识别模型训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310411536.1A CN116434758A (zh) | 2023-04-07 | 2023-04-07 | 声纹识别模型训练方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116434758A true CN116434758A (zh) | 2023-07-14 |
Family
ID=87082950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310411536.1A Pending CN116434758A (zh) | 2023-04-07 | 2023-04-07 | 声纹识别模型训练方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116434758A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116741180A (zh) * | 2023-08-14 | 2023-09-12 | 北京分音塔科技有限公司 | 基于声纹增强和对抗的语音识别模型训练方法及装置 |
-
2023
- 2023-04-07 CN CN202310411536.1A patent/CN116434758A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116741180A (zh) * | 2023-08-14 | 2023-09-12 | 北京分音塔科技有限公司 | 基于声纹增强和对抗的语音识别模型训练方法及装置 |
CN116741180B (zh) * | 2023-08-14 | 2023-10-31 | 北京分音塔科技有限公司 | 基于声纹增强和对抗的语音识别模型训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7337953B2 (ja) | 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム | |
Sun et al. | Speech emotion recognition based on DNN-decision tree SVM model | |
CN110600047B (zh) | 基于Perceptual STARGAN的多对多说话人转换方法 | |
CN108962237A (zh) | 混合语音识别方法、装置及计算机可读存储介质 | |
US20200402497A1 (en) | Systems and Methods for Speech Generation | |
CN110310647B (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
TW201935464A (zh) | 基於記憶性瓶頸特徵的聲紋識別的方法及裝置 | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN112071330B (zh) | 一种音频数据处理方法、设备以及计算机可读存储介质 | |
Ohi et al. | Deep speaker recognition: Process, progress, and challenges | |
CN112233698A (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
Lee et al. | Deep representation learning for affective speech signal analysis and processing: Preventing unwanted signal disparities | |
KR102026226B1 (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
CN111128240B (zh) | 一种基于对抗语义擦除的语音情感识别方法 | |
Sunny et al. | Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms | |
CN116434758A (zh) | 声纹识别模型训练方法、装置、电子设备及存储介质 | |
Zheng et al. | MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios | |
CN106875944A (zh) | 一种语音控制家庭智能终端的系统 | |
CN111462762B (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
Day et al. | Robust text-independent speaker verification using genetic programming | |
CN109961152B (zh) | 虚拟偶像的个性化互动方法、系统、终端设备及存储介质 | |
CN107093430A (zh) | 一种基于小波包变换的声纹特征提取算法 | |
CN108831486B (zh) | 基于dnn与gmm模型的说话人识别方法 | |
Jiang et al. | Research on voiceprint recognition of camouflage voice based on deep belief network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |