CN113299295B - 声纹编码网络的训练方法及装置 - Google Patents
声纹编码网络的训练方法及装置 Download PDFInfo
- Publication number
- CN113299295B CN113299295B CN202110513396.XA CN202110513396A CN113299295B CN 113299295 B CN113299295 B CN 113299295B CN 202110513396 A CN202110513396 A CN 202110513396A CN 113299295 B CN113299295 B CN 113299295B
- Authority
- CN
- China
- Prior art keywords
- voice
- voiceprint
- coding
- training
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 173
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 176
- 239000012634 fragment Substances 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 28
- 238000012795 verification Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 230000009467 reduction Effects 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 230000005284 excitation Effects 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 63
- 238000010586 diagram Methods 0.000 description 8
- 238000012512 characterization method Methods 0.000 description 6
- 230000002596 correlated effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000010749 BS 2869 Class C1 Substances 0.000 description 1
- 239000010750 BS 2869 Class C2 Substances 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本说明书实施例提供了一种声纹编码网络的训练方法,包括:获取第一语音片段对应的声学特征和说话人标识;将该声学特征输入声纹编码网络,得到第一编码向量;确定第一训练损失,其负相关于该说话人标识对应的类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;确定第二训练损失,该第二训练损失正相关于第一语音片段与其同类语音片段各自所对应编码向量之间的同类间距离,且负相关于第一语音片段与其异类语音片段各自所对应编码向量之间的第一异类间距离;基于第一训练损失和第二训练损失,训练声纹编码网络和类别权重向量。
Description
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种声纹编码网络的训练方法及装置。
背景技术
声纹识别(Voiceprint Recognition,简称VPR)是生物识别技术的一种,声纹识别也称为说话人识别(Speaker Recognition),有两类,即说话人辨认(SpeakerIdentification)和说话人确认(Speaker Verification)。前者用以判断某段语音是若干人中的哪一个所说的,是多选一问题;而后者用以确认某段语音是否是指定的某个人所说的,是一对一判别问题。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。不管是辨认还是确认,都需要先对说话人的声纹进行建模,包括训练声纹编码模型来提取表征说话人特点的声纹特征。显然,声纹编码模型的训练效果,决定提取出的声纹特征的有效性,进而影响声纹识别结果的准确度。
然而,目前声纹编码模型的训练方式难以满足实际应用中对声纹识别结果的高要求。因此,需要一种方案,可以有效提高对声纹编码模型的训练效果,从而优化声纹识别结果的准确度和可用性。
发明内容
本说明书一个或多个实施例描述了声纹编码网络的训练方法及装置,可以使得训练出的声纹编码网络能够更加有效、精准地提取出说话人语音中的声纹特征,进而提高声纹识别结果的准确度和可用性。
根据第一方面,提供了一种声纹编码网络的训练方法,包括:获取第一语音片段对应的声学特征和说话人标识;将所述声学特征输入声纹编码网络,得到第一编码向量;基于所述说话人标识对应的类别权重向量以及所述第一编码向量,确定第一训练损失,该第一训练损失负相关于所述类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;基于与所述第一语音片段对应相同说话人标识的同类语音片段,以及对应不同说话人标识的异类语音片段,确定第二训练损失,该第二训练损失正相关于所述第一语音片段与同类语音片段各自所对应编码向量之间的同类间距离,且负相关于所述第一语音片段与异类语音片段各自所对应编码向量之间的第一异类间距离;基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量。
在一个实施例中,获取第一语音片段对应的声学特征和说话人标识,包括:获取所述第一语音片段,并对该第一语音片段进行预处理,所述预处理包括语音增强处理,和/或,静音抑制处理;基于预处理后的第一语音片段,提取所述声学特征。
在一个实施例中,所述声学特征包括,梅尔频谱倒谱系数MFCC特征,或梅尔标度滤波器组FBank特征。
在一个实施例中,所述声纹编码网络采用时延神经网络TDNN,或,压缩与激发残差网络SE-ResNet。
在一个实施例中,确定第一训练损失,包括:计算所述第一编码向量与对应多个说话人标识的多个类别权重向量之间的多个相似度,该多个相似度中包括所述第一相似度;利用预设缩减函数处理所述第一相似度,得到缩减相似度,所述预设缩减函数包括所述边际参数;利用所述多个相似度中除所述第一相似度以外的其他相似度,对所述缩减相似度进行归一化处理,得到预测概率,该预测概率指示正确识别出所述第一语音片段所对应说话人的概率;基于所述预测概率,确定所述第一训练损失。其中,基于第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量,包括:基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和多个类别权重向量。
在一个实施例中,所述第二训练损失还负相关于所述同类语音片段与异类语音片段各自所对应编码向量之间的第二异类间距离。
在一个实施例中,所述第二训练损失还正相关于所述第一异类间距离和第二异类间距离之间的相对大小,其中第二异类间距离为所述同类语音片段与异类语音片段各自所对应编码向量之间的向量间距离。
在一个实施例中,训练后的对应多个说话人标识的多个类别权重向量被作为分类网络中全连接层的多个参数向量;所述方法还包括:将待辨认的目标语音片段输入训练后的声纹编码网络,得到目标编码向量;将所述目标编码向量输入所述分类网络,得到目标说话人识别结果。
在一个实施例中,还包括:将用户录入的注册语音输入训练后的声纹编码网络,得到注册编码向量;将用户输入的验证语音,输入所述训练后的声纹编码网络,得到验证编码向量;基于所述注册编码向量和验证编码向量之间的相似度,判断输入所述验证语音的用户与录入所述注册语音的用户是否为同一用户。
根据第二方面,提供了一种声纹编码网络的训练装置,包括:获取单元,配置为获取第一语音片段对应的声学特征和说话人标识;编码单元,配置为将所述声学特征输入声纹编码网络,得到第一编码向量;第一损失确定单元,配置为基于所述说话人标识对应的类别权重向量以及所述第一编码向量,确定第一训练损失,该第一训练损失负相关于所述类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;第二损失确定单元,配置为基于与所述第一语音片段对应相同说话人标识的同类语音片段,以及对应不同说话人标识的异类语音片段,确定第二训练损失,该第二训练损失正相关于所述第一语音片段与同类语音片段各自所对应编码向量之间的同类间距离,且负相关于所述第一语音片段与异类语音片段各自所对应编码向量之间的第一异类间距离;训练单元,配置为基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量。
在一个实施例中,所述第一损失确定单元具体配置为:计算所述第一编码向量与对应多个说话人标识的多个类别权重向量之间的多个相似度,该多个相似度中包括所述第一相似度;利用预设缩减函数处理所述第一相似度,得到缩减相似度,所述预设缩减函数包括所述边际参数;利用所述多个相似度中除所述第一相似度以外的其他相似度,对所述缩减相似度进行归一化处理,得到预测概率,该预测概率指示正确识别出所述第一语音片段所对应说话人的概率;基于所述预测概率,确定所述第一训练损失;其中,所述训练单元具体配置为:基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和多个类别权重向量。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
采用本说明书实施例提供的方法和装置,在训练过程中通过对损失函数的优化设置,可以有效增加类间距离,缩小类内距离,从而使得训练出的声纹编码网络能够更加精准地提取出说话人声纹特征,进而提高声纹识别结果的准确度和可用性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据一个实施例的训练声纹编码网络的实施架构图;
图2示出根据一个实施例的声纹编码网络的训练方法流程图;
图3示出根据一个实施例的分类边界的变化示意图;
图4示出根据一个实施例的声纹编码网络的训练装置结构示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
本说明书实施例披露一种方案,可以优化对声纹编码网络的训练效果,从而有效提高声纹识别结果的准确度和可用性。图1示出根据一个实施例的训练声纹编码网络的实施架构图,如图1所示,获取针对说话人u1采集的语音片段v1,利用声纹编码网络对语音片段v1进行处理,得到编码向量x1;进一步,一方面基于该编码向量x1和类别权重向量w1确定训练损失A,另一方面,基于该编码向量x1,以及对应说话人u2(不同于说话人u1)的编码向量x2和对应说话人u1的编码向量x3,确定训练损失B,其中编码向量x3基于说话人u1说出的另一语音片段而确定;然后,基于训练损失A和训练损失B更新声纹编码网络和类别权重向量w1。如此,通过采用训练损失A更新声纹编码网络,可以使得不同类别的声纹编码向量间的更加疏离,同时,采用训练损失B更新声纹编码网络,可以使得相同类别的声纹编码向量间的更加紧凑,并且,训练损失A和训练损失B互为正则项,可以有效防止过拟合,从而充分提高声纹编码向量对用户声纹特点的表征准确度。
下面结合具体的实施例,介绍上述方案的实施步骤。
图2示出根据一个实施例的声纹编码网络的训练方法流程图。可以理解,所述训练方法的执行主体可以是任何具有计算、处理能力的平台、装置或设备集群。如图2所示,所述方法包括以下步骤:
步骤S210,获取第一语音片段对应的声学特征和说话人标识;步骤S220,将所述声学特征输入声纹编码网络,得到第一编码向量;步骤S230,基于所述说话人标识对应的类别权重向量以及所述第一编码向量,确定第一训练损失,该第一训练损失负相关于所述类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;步骤S240,基于与所述第一语音片段对应相同说话人标识的同类语音片段,以及对应不同说话人标识的异类语音片段,确定第二训练损失,该第二训练损失正相关于所述第一语音片段与同类语音片段各自所对应编码向量之间的同类间距离,且负相关于所述第一语音片段与异类语音片段各自所对应编码向量之间的第一异类间距离;步骤S250,基于第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量。
针对以上步骤,首先需要说明的是,上述“第一语音片段”、“第一编码向量”等中的“第一”,“第二训练损失”中的“第二”,以及文中他处的类似用语,均是为了区分同类事物,不具有排序等其他限定作用。
对以上步骤的展开介绍如下:
首先,在步骤S210,获取第一语音片段对应的声学特征和说话人标识。需理解,语音片段由说话人说话而形成,第一语音片段可以指代任意的一个语音片段。在一个实施例中,本步骤包括:获取训练样本集,其中各个训练样本集中包括对应的语音片段和说话人标识。相应,第一语音片段指代训练样本集中任一训练样本所包含的语音片段。在另一个实施例中,本步骤包括:从训练样本集中获取一批次训练样本,相应,第一语音片段可以指代该一批次训练样本中任一训练样本所包含的语音片段。
对于声学特征(acoustic feature)的获取,在一个实施例中,对第一语音片段进行预处理,再基于预处理后的第一语音片段,提取声学特征(或称频谱特征)。在一个具体的实施中,其中预处理可以包括用以提高语音质量的语音增强(speech enhancement)处理。在一个例子中,语音增强可以采用权重预测误差(weighted prediction error,简称WPE)算法实现。在另一个具体的实施例中,其中预处理可以包括静音抑制(Energy based voiceactivity detector,简称VAD)处理。在一个示例中,可以通过VAD处理,消除语音片段中首尾静音的部分。
在一个实施例中,上述声学特征包括梅尔频谱倒谱系数特征(Mel-frequencycepstral coefficient,简称MFCC)。梅尔频率是基于人耳听觉特性提出来的,它与赫兹Hz频率成非线性对应关系。从说话人音频中提取MFCC特征一般包括以下步骤:预加重,分帧,加窗,傅里叶变换,梅尔滤波器组,离散余弦变换(DCT)等。其中预加重用于在一定程度提升高频部分,使信号的频谱变得平坦;分帧用于将语音按时间分成一系列帧;加窗步骤是采用窗函数增加帧左端和右端的连续性。接着,将音频进行傅里叶变换,从而将时域信号转换为频域信号。然后,利用梅尔滤波器组将频域信号的频率对应到梅尔刻度上,从而获得梅尔频谱。之后,通过离散余弦变换获得梅尔频谱的倒谱系数,进而可以获得倒谱梅尔频谱。
在另一实施例中,上述声学特征采用梅尔标度滤波器组(Mel-scale FilterBank,简称FBank)特征。FBank特征是利用梅尔滤波器组将频域信号的频率对应到梅尔刻度上获得的声学特征。换而言之,MFCC特征在FBank特征的基础上进行了进一步的离散余弦变换,FBank特征是MFCC在离散余弦变换之前的特征。
在又一个实施例中,上述声学特征可以包括线性预测编码(Linear PredictiveCoding,简称LPC)特征,或感知线性预测(perceptual linear predictive,简称PLP)特征。这些特征可以通过常规方法提取。还有可能提取其他的声学特征作为声纹编码网络的处理基础,在此不做具体限定。
对于说话人标识,可以理解,说话人标识可以对说话人身份进行唯一标识。第一语音片段对应的说话人标识指示产生第一语音片段的说话人身份。在一个示例中,说话人标识可以是数字编号,或者,由字母数字等组成的序列号。在另一个示例中,说话人标识可以是手机号、证件号码等。
以上,对获取的第一语音片段、语音片段对应的声学特征和说话人标识进行介绍。接着,在步骤S220,将第一语音片段的声学特征输入声纹编码网络,得到第一编码向量。
在一个实施例中,声纹编码网络中包括表征层和池化层。在一个具体的实施例中,表征层实现为多层感知机,通过全连接前馈网络的形式逐层处理第一语音片段中各个音频帧的声学特征,得到各个音频帧对应的帧表征向量。在另一个具体的实施例中,表征层采用卷积操作的方式,处理各个音频帧的声学特征。在一个示例中,表征层可以实现为多层卷积残差网络,其中包括多个卷积层,各个卷积层具有相应的卷积核,利用这些卷积核对频谱特征进行卷积运算处理。各个卷积层采用的卷积核可以具有相同或不同的尺寸,例如,前面2个卷积层均采用3*1的卷积核,后面若干卷积层采用3*3的卷积核。不同层的卷积核具有不同的卷积参数。通过这样的多层卷积操作,针对个音频帧的声学特征,处理得到对应的帧表征向量。通过各种方式得到第一语音片段中多个音频帧对应的多个帧表征向量后,表征层将该多个音频帧输出到池化层,由池化层进行池化和聚合,得到第一语音片段对应的第一编码向量。
在另一个实施例中,上述声纹编码网络可以实现为时延神经网络(Time DelayNeural Networks,简称TDNN)。在一个具体的实施例中,可以实现为E-TDNN或F-TDNN。在还一个实施例中,上述声纹编码网络可以实现为压缩与激发残差网络(Squeeze-and-Excitation Residual Network,简称SE-ResNet)。
由上,利用声纹编码网络对第一语音片段的声学特征进行处理,可以得到第一编码向量。
之后,在步骤S230,基于第一编码向量以及第一类别权重向量,确定第一训练损失。其中第一类别权重向量对应上述第一语音片段的说话人标识(或者说说话人类别、说话人身份)。需理解,上述训练样本集中包含的全部语音片段涉及多个说话人标识,该多个说话人标识对应多个类别权重向量,各个类别权重向量中的向量元素均为需要学习、训练的参数。
将第一语音片段所在的训练样本记作当前一批次训练样本中的第j个训练样本,将第j个训练样本中包含的说话人标识记作yj。在一个实施例中,本步骤包括:计算第一编码向量xj和第一类别权重向量之间的第一相似度基于此第一相似度和预先设定的边际参数m,确定第一训练损失L1,其中第一训练损失L1负相关于第一相似度正相关于边际参数m。也就是说,希望第一相似度越高越好,并且,边际参数m的设置将促使第一相似度的进一步提高。
在另一个示例中,上述预设缩减函数可以实现为:
在公式(2)中,η是缩放系数,为超参。
关于m的取值,可以按需设定。在一个示例中,可以设定为常数,例如,将公式(1)中的m设定为1.1,或者,将公式(2)中的m设定为0.002。在另一个示例中,可以按照以下公式设定:
在公式(3)中,表示遍历训练集的累计次数,mmax和minc为超参,例如,可以基于公式(2)设定mmax=0.25,minc=0.07。通过设计公式(3)确定m的取值,可以有效加速训练过程中模型参数的收敛。
③利用归一化函数(如softmax函数)和相似度{si|i∈[1,N],i≠yj},对缩减相似度进行归一化处理,得到上述第一语音片段被正确识别为对应说话人标识yj的预测概率,再基于此预测概率和分类损失函数,确定上述第一训练损失L1。在一个示例中,其中分类损失函数可以采用交叉熵损失函数。在另一个示例中,分类损失函数可以采用铰链损失函数。
对于本步骤,根据一个具体的例子,在计算上述第一编码向量与N个类别权重向量中各个类别权重向量的相似度时,采用计算余弦相似度的方式;对基于计算出的N个相似度进行归一化处理时,采用softmax函数;在对相似度进行缩减处理时采用上述公式(2);确定第一训练损失L1时采用交叉熵损失函数。于是,可以将基于第一编码向量xj以及N个类别权重向量,计算第一训练损失L1的公式表示为:
由上,通过引入边际参数m确定第一训练损失L1,可以使得不同类别的编码向量之间的更加疏离。为便于直观理解,图3示出根据一个实施例的分类边界的变化示意图,假定在未引入边界参数m的情况下,类别C1和类别C2之间的决策边界(或称分类边界)是边界B1;而在引入边界参数m的情况下,类别C1和类别C2之间决策边界变为边界B2和边界B3,从而使得类间更加疏离,不同类别的区分度更高。
在执行步骤S220得到第一编码向量后,还执行步骤S240。需理解,步骤S230和S240可以先后或同时执行,对二者的相对执行顺序不作限定。
在步骤S240,确定第二训练损失,该第二训练损失正相关于第一语音片段与其同类语音片段vP所对应编码向量之间的同类间距离,且负相关于第一语音片段与其异类语音片段vN所对应编码向量之间的第一异类间距离。可以理解,同类语音片段具有与第一语音片段相同的说话人标识;异类语音片段具有与第一语音片段不同的说话人标识。如此,可以减少类内距离。
对于同类语音片段和异类语音片段的确定,在一个实施例中,当前批次的训练样本中包括多个与第一语音片段具有相同说话人标识的多个同类语音片段,以及多个与第一语音片段具有不同说话人标识的多个异类语音片段。相应,在一个具体的实施例中,上述同类语音片段vP是从多个同类语音片段中随机选取得到,上述异类语音片段vN是从多个异类语音片段中随机选取得到。在另一个具体的实施例中,可以从多个同类语音片段中选取与第一语音片段距离最近的语音片段,作为同类语音片段vP,并且,从多个异类语音片段中选取与第一语音片段距离最远的语音片段,作为异类语音片段vN。如此,可以加速模型收敛。需理解,语音片段之间的距离可以通过计算对应编码向量之间的向量间距离来衡量,向量间距离的计算方式有多种,如欧式距离、曼哈顿距离或切比雪夫距离,等等。此外,对于同类语音片段vP和异类语音片段vN所对应编码向量的确定,可以参见前述对确定第一语音片段所对应的第一编码向量的描述,在此不作赘述。
对第二训练损失L2的计算,在一个示例中,可以采用下示计算式:
在式(5)中,B表示一批次训练样本的样本数量;xj表示第j个训练样本中的语音片段对应的编码向量;xj,p表示第j个训练样本中语音片段的同类语音片段所对应的编码向量;xj,n表示第j个训练样本中语音片段的异类语音片段所对应的编码向量;d(·,·)表示向量间距离;α是超参数,例如,可以设定为0.3;[·]+=max(·,0)。
在一个实施例中,上述第二训练损失L2还负相关于上述同类语音片段vP与异类语音片段vN各自所对应编码向量之间的第二异类间距离。在一个示例中,可以采用下式计算第二训练损失L2:
在式(6)中,d(xj,p,xj,n)表示上述第二异类间距离;对其余符号的释义可以参见对公式(5)中相同符号的描述。
在另一个实施例中,上述第二训练损失L2还正相关于上述第一异类间距离和第二异类间距离之间的相对大小。如此可以更加有效地增加类内紧凑度。
在一个示例中,可以采用下式计算第二训练损失L2:
在式(7)中,|·|表示绝对值符号;对其余符号的释义可以参见对公式(5)中相同符号的描述。
由上,可以确定第二训练损失L2。
之后,在步骤S250,基于第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量。如此,可以有效提高类内紧凑度和增加类间距离,并且,第一训练损失和第二训练损失互为正则项,可以有效防止过拟合。
具体,以减小第一训练损失和第二训练损失为目标,训练上述声纹编码网络和类别权重向量。在一个实施例中,确定综合损失,该综合损失正相关于第一训练损失和第二训练损失,再以减小该综合损失为目标进行训练。在一个示例中,可以对第一训练损失和第二训练损失进行加权求和,得到上述综合损失,其中加权求和使用的权重可以是预先设定的,也可以设置为训练参数。另一方面,在一个实施例中,可以基于第一训练损失和第二训练损失,训练上述声纹编码网络和上述多个说话人标识对应的多个类别权重向量。
由上,基于训练样本集,重复执行上述步骤S210至步骤S250,可以实现对声纹编码网络和上述多个类别权重向量的多轮迭代训练。从而得到训练好的可以基于声学特征准确提取说话人声音特点的声纹编码网络,以及得到训练好的可以准确表征上述多个说话人标识所对应说话人声音特点的类别权重向量。
对于训练好的声纹编码网络和类别权重向量,包括多种使用方式。在一个实施例中,可以单独使用声纹编码网络,应用于声纹认证场景。具体,先将用户录入的注册语音(enrollment utterance)输入训练好的声纹编码网络,得到该注册语音的编码向量;之后,将用户输入的验证语音,输入训练好的声纹编码网络,得到该验证语音的编码向量;再基于注册语音和验证语音的编码向量之间的相似度,判断输入验证语音的用户是否为录入注册语音的用户,从而实现身份验证。进一步,在一个示例中,在相似度高于判别阈值(如0.8)的情况下,判别二者为同一用户,在相似度低于判别阈值的情况下,判别二者是不同用户。
在另一个实施例中,可以对训练好的声纹编码网络和多个类别权重向量进行联合使用,应用于用户辨认场景。具体,训练好的多个类别权重向量被作为分类网络中全连接层的多个参数向量,基于此,先将待辨认的目标语音片段输入训练后的声纹编码网络,得到目标编码向量,再将该目标编码向量输入上述分类网络,得到目标说话人标识,从而可获知目标说话人身份。
综上,采用本说明书实施例披露的声纹编码网络的训练方法及装置,可以使得训练出的声纹编码网络能够更加有效、精准地提取出说话人声纹特征,进而提高声纹识别结果的准确度和可用性。
与上述训练方法相对应的,本说明书实施例还披露训练装置。具体如下:
图4示出根据一个实施例的声纹编码网络的训练装置结构示意图。如图4所示,所述装置400包括:
获取单元410,配置为获取第一语音片段对应的声学特征和说话人标识;编码单元420,配置为将所述声学特征输入声纹编码网络,得到第一编码向量;第一损失确定单元430,配置为基于所述说话人标识对应的类别权重向量以及所述第一编码向量,确定第一训练损失,该第一训练损失负相关于所述类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;第二损失确定单元440,配置为基于与所述第一语音片段对应相同说话人标识的同类语音片段,以及对应不同说话人标识的异类语音片段,确定第二训练损失,该第二训练损失正相关于所述第一语音片段与同类语音片段各自所对应编码向量之间的同类间距离,且负相关于所述第一语音片段与异类语音片段各自所对应编码向量之间的第一异类间距离;训练单元450,配置为基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量。
在一个实施例中,所述获取单元410具体配置为:获取所述第一语音片段,并对该第一语音片段进行预处理,所述预处理包括语音增强处理,和/或,静音抑制处理;基于预处理后的第一语音片段,提取所述声学特征。
在一个实施例中,所述声学特征包括,梅尔频谱倒谱系数MFCC特征,或梅尔标度滤波器组FBank特征。
在一个实施例中,所述声纹编码网络采用时延神经网络TDNN,或,压缩与激发残差网络SE-ResNet。
在一个实施例中,所述第一损失确定单元430具体配置为:计算所述第一编码向量与对应多个说话人标识的多个类别权重向量之间的多个相似度,该多个相似度中包括所述第一相似度;利用预设缩减函数处理所述第一相似度,得到缩减相似度,所述预设缩减函数包括所述边际参数;利用所述多个相似度中除所述第一相似度以外的其他相似度,对所述缩减相似度进行归一化处理,得到预测概率,该预测概率指示正确识别出所述第一语音片段所对应说话人的概率;基于所述预测概率,确定所述第一训练损失。其中,所述训练单元450具体配置为:基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和多个类别权重向量。
在一个实施例中,所述第二训练损失还负相关于所述同类语音片段与异类语音片段各自所对应编码向量之间的第二异类间距离。
在一个实施例中,所述第二训练损失还正相关于所述第一异类间距离和第二异类间距离之间的相对大小,其中第二异类间距离为所述同类语音片段与异类语音片段各自所对应编码向量之间的向量间距离。
在一个实施例中,训练后的对应多个说话人标识的多个类别权重向量被作为分类网络中全连接层的多个参数向量;所述装置400还包括声纹识别单元,配置为:将待辨认的目标语音片段输入训练后的声纹编码网络,得到目标编码向量;将该目标编码向量输入所述分类网络,得到目标说话人识别结果。
在一个实施例中,所述装置400还包括声纹识别单元,配置为:将用户录入的注册语音输入训练后的声纹编码网络,得到注册编码向量;将用户输入的验证语音,输入所述训练后的声纹编码网络,得到验证编码向量;基于所述注册编码向量和验证编码向量之间的相似度,判断输入所述验证语音的用户与录入所述注册语音的用户是否为同一用户。
综上,采用本说明书实施例披露的上述装置,在训练过程中通过对损失函数的优化设置,可以有效增加类间距离,缩小类内距离,从而使得训练出的声纹编码网络能够更加精准地提取出说话人声纹特征,进而提高声纹识别结果的准确度和可用性。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (18)
1.一种声纹编码网络的训练方法,包括:
获取第一语音片段对应的声学特征和说话人标识;
将所述声学特征输入声纹编码网络,得到第一编码向量;
基于所述说话人标识对应的类别权重向量以及所述第一编码向量,确定第一训练损失,该第一训练损失负相关于所述类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;
基于与所述第一语音片段对应相同说话人标识的同类语音片段,以及对应不同说话人标识的异类语音片段,确定第二训练损失,该第二训练损失正相关于所述第一语音片段与同类语音片段各自所对应编码向量之间的同类间距离,且负相关于所述第一语音片段与异类语音片段各自所对应编码向量之间的第一异类间距离,所述第二训练损失还正相关于所述第一异类间距离和第二异类间距离之间的相对大小,其中第二异类间距离为所述同类语音片段与异类语音片段各自所对应编码向量之间的向量间距离;
基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量。
2.根据权利要求1所述的方法,其中,获取第一语音片段对应的声学特征和说话人标识,包括:
获取所述第一语音片段,并对该第一语音片段进行预处理,所述预处理包括语音增强处理,和/或,静音抑制处理;
基于预处理后的第一语音片段,提取所述声学特征。
3.根据权利要求1或2所述的方法,其中,所述声学特征包括,梅尔频谱倒谱系数MFCC特征,或梅尔标度滤波器组FBank特征。
4.根据权利要求1所述的方法,其中,所述声纹编码网络采用时延神经网络TDNN,或,压缩与激发残差网络SE-ResNet。
5.根据权利要求1所述的方法,其中,确定第一训练损失,包括:
计算所述第一编码向量与对应多个说话人标识的多个类别权重向量之间的多个相似度,该多个相似度中包括所述第一相似度;
利用预设缩减函数处理所述第一相似度,得到缩减相似度,所述预设缩减函数包括所述边际参数;
利用所述多个相似度中除所述第一相似度以外的其他相似度,对所述缩减相似度进行归一化处理,得到预测概率,该预测概率指示正确识别出所述第一语音片段所对应说话人的概率;
基于所述预测概率,确定所述第一训练损失;
其中,基于第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量,包括:
基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和多个类别权重向量。
6.根据权利要求1所述的方法,其中,所述第二训练损失还负相关于所述第二异类间距离。
7.根据权利要求1所述的方法,其中,训练后的对应多个说话人标识的多个类别权重向量被作为分类网络中全连接层的多个参数向量;所述方法还包括:
将待辨认的目标语音片段输入训练后的声纹编码网络,得到目标编码向量;
将所述目标编码向量输入所述分类网络,得到目标说话人识别结果。
8.根据权利要求1所述的方法,其中,还包括:
将用户录入的注册语音输入训练后的声纹编码网络,得到注册编码向量;
将用户输入的验证语音,输入所述训练后的声纹编码网络,得到验证编码向量;
基于所述注册编码向量和验证编码向量之间的相似度,判断输入所述验证语音的用户与录入所述注册语音的用户是否为同一用户。
9.一种声纹编码网络的训练装置,包括:
获取单元,配置为获取第一语音片段对应的声学特征和说话人标识;
编码单元,配置为将所述声学特征输入声纹编码网络,得到第一编码向量;
第一损失确定单元,配置为基于所述说话人标识对应的类别权重向量以及所述第一编码向量,确定第一训练损失,该第一训练损失负相关于所述类别权重向量与第一编码向量之间的第一相似度,且正相关于预先设定的边际参数;
第二损失确定单元,配置为基于与所述第一语音片段对应相同说话人标识的同类语音片段,以及对应不同说话人标识的异类语音片段,确定第二训练损失,该第二训练损失正相关于所述第一语音片段与同类语音片段各自所对应编码向量之间的同类间距离,且负相关于所述第一语音片段与异类语音片段各自所对应编码向量之间的第一异类间距离,所述第二训练损失还正相关于所述第一异类间距离和第二异类间距离之间的相对大小,其中第二异类间距离为所述同类语音片段与异类语音片段各自所对应编码向量之间的向量间距离;
训练单元,配置为基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和类别权重向量。
10.根据权利要求9所述的装置,其中,所述获取单元具体配置为:
获取所述第一语音片段,并对该第一语音片段进行预处理,所述预处理包括语音增强处理,和/或,静音抑制处理;
基于预处理后的第一语音片段,提取所述声学特征。
11.根据权利要求9或10所述的装置,其中,所述声学特征包括,梅尔频谱倒谱系数MFCC特征,或梅尔标度滤波器组FBank特征。
12.根据权利要求9所述的装置,其中,所述声纹编码网络采用时延神经网络TDNN,或,压缩与激发残差网络SE-ResNet。
13.根据权利要求9所述的装置,其中,所述第一损失确定单元具体配置为:
计算所述第一编码向量与对应多个说话人标识的多个类别权重向量之间的多个相似度,该多个相似度中包括所述第一相似度;
利用预设缩减函数处理所述第一相似度,得到缩减相似度,所述预设缩减函数包括所述边际参数;
利用所述多个相似度中除所述第一相似度以外的其他相似度,对所述缩减相似度进行归一化处理,得到预测概率,该预测概率指示正确识别出所述第一语音片段所对应说话人的概率;
基于所述预测概率,确定所述第一训练损失;
其中,所述训练单元具体配置为:
基于所述第一训练损失和第二训练损失,训练所述声纹编码网络和多个类别权重向量。
14.根据权利要求9所述的装置,其中,所述第二训练损失还负相关于所述第二异类间距离。
15.根据权利要求9所述的装置,其中,训练后的对应多个说话人标识的多个类别权重向量被作为分类网络中全连接层的多个参数向量;所述装置还包括声纹识别单元,配置为:
将待辨认的目标语音片段输入训练后的声纹编码网络,得到目标编码向量;
将所述目标编码向量输入所述分类网络,得到目标说话人识别结果。
16.根据权利要求9所述的装置,其中,还包括声纹识别单元,配置为:
将用户录入的注册语音输入训练后的声纹编码网络,得到注册编码向量;
将用户输入的验证语音,输入所述训练后的声纹编码网络,得到验证编码向量;
基于所述注册编码向量和验证编码向量之间的相似度,判断输入所述验证语音的用户与录入所述注册语音的用户是否为同一用户。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
18.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110513396.XA CN113299295B (zh) | 2021-05-11 | 2021-05-11 | 声纹编码网络的训练方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110513396.XA CN113299295B (zh) | 2021-05-11 | 2021-05-11 | 声纹编码网络的训练方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113299295A CN113299295A (zh) | 2021-08-24 |
CN113299295B true CN113299295B (zh) | 2022-12-30 |
Family
ID=77321411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110513396.XA Active CN113299295B (zh) | 2021-05-11 | 2021-05-11 | 声纹编码网络的训练方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113299295B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115171731A (zh) * | 2022-07-11 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 一种情绪类别确定方法、装置、设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017215240A1 (zh) * | 2016-06-14 | 2017-12-21 | 广州视源电子科技股份有限公司 | 基于神经网络的人脸特征提取建模、人脸识别方法及装置 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
CN109934177A (zh) * | 2019-03-15 | 2019-06-25 | 艾特城信息科技有限公司 | 行人再识别方法、系统及计算机可读存储介质 |
CN111145760A (zh) * | 2020-04-02 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 用于说话人识别的方法及神经网络模型 |
CN111489734A (zh) * | 2020-04-03 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 基于多说话人的模型训练方法以及装置 |
CN112071322A (zh) * | 2020-10-30 | 2020-12-11 | 北京快鱼电子股份公司 | 一种端到端的声纹识别方法、装置、存储介质及设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2517503B (en) * | 2013-08-23 | 2016-12-28 | Toshiba Res Europe Ltd | A speech processing system and method |
CN107492382B (zh) * | 2016-06-13 | 2020-12-18 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
CN106683680B (zh) * | 2017-03-10 | 2022-03-25 | 百度在线网络技术(北京)有限公司 | 说话人识别方法及装置、计算机设备及计算机可读介质 |
EP3794586B1 (en) * | 2018-05-18 | 2024-03-27 | Greeneden U.S. Holdings II, LLC | System and method for a multiclass approach for confidence modeling in automatic speech recognition systems |
CN110164452B (zh) * | 2018-10-10 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
US20210012200A1 (en) * | 2019-04-03 | 2021-01-14 | Mashtraxx Limited | Method of training a neural network and related system and method for categorizing and recommending associated content |
CN111312256B (zh) * | 2019-10-31 | 2024-05-10 | 平安科技(深圳)有限公司 | 语音身份识别的方法、装置及计算机设备 |
CN110930976B (zh) * | 2019-12-02 | 2022-04-15 | 北京声智科技有限公司 | 一种语音生成方法及装置 |
CN111724794A (zh) * | 2020-06-17 | 2020-09-29 | 哈尔滨理工大学 | 一种说话人识别方法 |
CN112634856B (zh) * | 2020-12-10 | 2022-09-02 | 思必驰科技股份有限公司 | 语音合成模型训练方法和语音合成方法 |
-
2021
- 2021-05-11 CN CN202110513396.XA patent/CN113299295B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017215240A1 (zh) * | 2016-06-14 | 2017-12-21 | 广州视源电子科技股份有限公司 | 基于神经网络的人脸特征提取建模、人脸识别方法及装置 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
CN109934177A (zh) * | 2019-03-15 | 2019-06-25 | 艾特城信息科技有限公司 | 行人再识别方法、系统及计算机可读存储介质 |
CN111145760A (zh) * | 2020-04-02 | 2020-05-12 | 支付宝(杭州)信息技术有限公司 | 用于说话人识别的方法及神经网络模型 |
CN111489734A (zh) * | 2020-04-03 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 基于多说话人的模型训练方法以及装置 |
CN112071322A (zh) * | 2020-10-30 | 2020-12-11 | 北京快鱼电子股份公司 | 一种端到端的声纹识别方法、装置、存储介质及设备 |
Non-Patent Citations (2)
Title |
---|
Feature Fusion and Voiceprint-Based Access Control for Wireless Insulin Pump Systems;YUAN PING等;《IEEE Access》;20190827;第7卷;第121286-121302页 * |
基于深度学习的声纹识别方法研究;董莺艳;《硕士电子期刊》;20190815(第8期);第1-73页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113299295A (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108447490B (zh) | 基于记忆性瓶颈特征的声纹识别的方法及装置 | |
CN108281146B (zh) | 一种短语音说话人识别方法和装置 | |
Tiwari | MFCC and its applications in speaker recognition | |
CN111145760B (zh) | 用于说话人识别的方法及神经网络模型 | |
CN110956966B (zh) | 声纹认证方法、装置、介质及电子设备 | |
CN109545227B (zh) | 基于深度自编码网络的说话人性别自动识别方法及系统 | |
CN112053695A (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
WO2020073518A1 (zh) | 声纹验证的方法、装置、计算机设备和存储介质 | |
Bharti et al. | Real time speaker recognition system using MFCC and vector quantization technique | |
CN110120230B (zh) | 一种声学事件检测方法及装置 | |
AU684214B2 (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
CN108875463B (zh) | 多视角向量处理方法和设备 | |
CN111199741A (zh) | 声纹识别方法、声纹验证方法、装置、计算设备及介质 | |
WO1995034063A1 (en) | Method of partitioning a sequence of data frames | |
Beckmann et al. | Speech-vgg: A deep feature extractor for speech processing | |
EP1417677A1 (en) | Voice registration method and system, and voice recognition method and system based on voice registration method and system | |
TW202213326A (zh) | 用於說話者驗證的廣義化負對數似然損失 | |
CN113299295B (zh) | 声纹编码网络的训练方法及装置 | |
Karthikeyan | Adaptive boosted random forest-support vector machine based classification scheme for speaker identification | |
Jolad et al. | An approach for speech enhancement with dysarthric speech recognition using optimization based machine learning frameworks | |
Матиченко et al. | The structural tuning of the convolutional neural network for speaker identification in mel frequency cepstrum coefficients space | |
Soni et al. | Text-dependent speaker verification using classical LBG, adaptive LBG and FCM vector quantization | |
Elnaggar et al. | A new unsupervised short-utterance based speaker identification approach with parametric t-SNE dimensionality reduction | |
Xu et al. | Voiceprint recognition of Parkinson patients based on deep learning | |
Sas et al. | Gender recognition using neural networks and ASR techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |