CN114333846A - 发声者识别方法、装置、电子设备和存储介质 - Google Patents
发声者识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114333846A CN114333846A CN202111646838.4A CN202111646838A CN114333846A CN 114333846 A CN114333846 A CN 114333846A CN 202111646838 A CN202111646838 A CN 202111646838A CN 114333846 A CN114333846 A CN 114333846A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- representation
- channel
- migration
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Stereophonic System (AREA)
Abstract
本申请公开了一种发声者识别方法、装置、电子设备和存储介质。其中,发声者识别方法包括:提取发声者的目标声纹表征;对目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,目标声纹表征属于第一信道,第一迁移声纹表征和参考声纹表征属于第二信道;比对第一迁移声纹表征与参考声纹表征,以得到发声者的识别结果。通过上述方式,本申请能够提升发声者识别结果的准确率。
Description
技术领域
本申请涉及技术语音技术领域,特别是涉及一种发声者识别方法、装置、电子设备和存储介质。
背景技术
发声者识别是指利用发声者的声音来检测发声者的身份的技术,例如声纹识别技术。相比于其他生物识别技术,发声者识别利用语音信号进行身份确认,具有成本低廉、采集简便、易于存储、难于模仿、交互友好等特点,同时也可以通过电话或网络等方式进行远程操作。因此,发声者识别在家居、安防、军事、经济等很多领域都具有良好而广阔的应用前景。
发声者识别按照应用场景可以分为同信道场景和跨信道场景。发声者注册时的语音为参考语音,发声者测试或应用时的语音为目标语音。同信道发声者识别是指目标语音和参考语音采用相同设备录制,其中,目标语音和参考语音属于同一信道;跨信道发声者识别是指目标语音和参考语音采用不同设备进行录制,即注册和测试时的录音设备发生了变化,即目标语音和参考语音属于不同的信道。由于跨信道的发声者识别中引入了新的变量(信道),从而会影响发声者识别效果。
目前,真实应用场景中往往遇到跨信道场景的发声者识别,因此解决这种跨信道场景的发声者识别问题,提升发声者识别效果,显得尤为重要。
发明内容
本申请主要解决的技术问题是提供一种发声者识别方法、装置、电子设备和存储介质,能够提升发声者识别结果的准确率。
为解决上述技术问题,本申请第一方面提供了一种发声者识别方法,该方法包括:提取发声者的目标声纹表征;对目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,目标声纹表征属于第一信道,第一迁移声纹表征和参考声纹表征属于第二信道;比对第一迁移声纹表征与参考声纹表征,以得到发声者的识别结果。
为解决上述技术问题,本申请第二方面提供了一种发声者识别装置,该装置包括:提取模块,用于提取发声者的目标声纹表征;信道迁移模块,用于对目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,目标声纹表征属于第一信道,第一迁移声纹表征和参考声纹表征属于第二信道;比对模块,用于比对第一迁移声纹表征与参考声纹表征,以得到发声者的识别结果。
为解决上述技术问题,本申请第三方面提供了一种电子设备,该电子设备包括相互耦接的存储器和处理器,存储器用于存储程序数据,处理器用于执行程序数据以实现前述的方法。
为解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,该计算机可读存储介质中存储有程序数据,程序数据在被处理器执行时,用以实现前述的方法。
本申请的有益效果是:区别于现有技术的情况,本申请通过提取发声者的目标声纹表征,然后对目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,目标声纹表征属于第一信道,但是经过信道迁移之后的第一迁移声纹表征和参考声纹表征属于第二信道,由此,可以实现在同一信道下比对第一迁移声纹表征与参考声纹表征,得到发声者的识别结果,解决了跨信道场景的发声者识别问题,提升了发声者识别结果的准确率。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要的附图作简单的介绍,显而易见地,下面描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请发声者识别方法一实施例的流程示意图;
图2是图1中步骤S11一实施方式的流程示意图;
图3是本申请发声者识别方法一实施例的流程示意图;
图4是图3中步骤S24一实施方式的流程示意图;
图5是本申请发声者识别方法一实施例的流程示意图;
图6是图5中步骤S31一实施例的流程示意图;
图7是本申请声纹模型的预训练的流程示意图;
图8是两种信道数据混合训练的示意图;
图9是本申请中循环生成对抗网络的示意图;
图10是图5中步骤S32一实施例的流程示意图;
图11是声纹模型和信道迁移模型的联合训练的流程示意图;
图12是图5中步骤S33一实施例的流程示意图;
图13是本申请发声者识别装置一实施例的结构示意框图;
图14是本申请电子设备一实施例的结构示意框图;
图15是本申请计算机可读存储介质一实施例的结构示意框图。
具体实施方式
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
录音设备变化(跨信道)问题是发音者识别领域经常遇到的难题,也是目前存在的挑战之一。目前,常用的做法是获取不同信道的输入,使模型更适配测试场景,比如在神经网络之前,采用因子分析技术时,通常在获得声纹表征后,会采用跨信道数据训练后的PLDA(Probabilistic Linear Discriminant Analysis,概率线性判别分析)模型,从而将信道空间和发音者空间进行剥离,从而有效应对录音设备变化场景。随着深度神经网络逐步取代传统方案,直接将跨信道数据进行区分性训练是最为行之有效的方案,但是训练较好的深度神经网络模型需要大量的训练数据,通常情况下是缺少或者没有跨信道数据。无论是哪种方法中利用的跨信道数据都需要同一发声者同时具备两种不同的信道的数据。
基于此,数据增广是缺乏训练数据时常用的手段,比如采用加噪、加混响以及语音合成技术获得更多样性的训练数据,使模型具有更好的泛化能力。然而,通常采用的加噪、加混响的方法对信道去除本身就有局限性,噪声和混响与信道还是存在较大差异,而以语音合成方法生成跨信道数据,从语音合成角度实现难度较大。
针对上述情况,本申请提供了一种发声者识别方法,通过对目标声纹表征进行信道迁移,可以得到与参考声纹表征同信道的第一迁移声纹表征,从而可以将同信道的第一迁移声纹表征与参考声纹表征进行比对,得到发声者的识别结果。由此,解决了跨信道问题,可以提升发声者的识别结果。另外,在训练过程中不再要求同一发声者同时具备两种不同的信道的数据,解决了跨信道场景下,训练数据缺乏的问题。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1至图2,图1是本申请发声者识别方法一实施例的流程示意图,图2是图1中步骤S11一实施方式的流程示意图。该方法可以包括以下步骤:
步骤S11:提取发声者的目标声纹表征。
发声者可以是人、动物(如猫、狗)等能够发出声音的主体。可选地,发声者可以是活体,也可以不是活体。
在本实施例中,步骤S11可以包括子步骤S111和S112:
步骤S111:获取发声者的目标声学特征。
在一示例中,首先需要获取目标发声者的目标语音数据,然后需要对目标语音数据进行分帧处理,得到对应的语音帧序列,再对分帧后的语音帧序列进行预加重;进而再依次提取出每一语音帧的声学特征,得到目标声学特征。其中,该声学特征指的是用于表征对应语音帧的声纹信息的特征数据。
声学特征可以包括但不限于:快速傅里叶变换(Fast Fourier Transform,FFT)特征、基频(Pitch)特征、线性预测倒谱编码(Linear Predictive Cepstral Coding,LPC)特征、梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)特征或对数梅尔滤波器组(Log Mel-filterbank,FBANK)特征中的任意一种。
步骤S112:对目标声学特征进行声纹提取,得到目标声纹表征。
在一示例中,可以将目标声学特征输入经训练后的声纹模型,由声纹模型执行对目标声学特征进行声纹提取的步骤。其中,声纹模型可以将帧级别的输入特征(声学特征)转化为句子级别的特征表达embeddding,即声纹表征。
步骤S12:对目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,目标声纹表征属于第一信道,第一迁移声纹表征和参考声纹表征属于第二信道。
在一示例中,可以将目标声纹表征输入经训练后的信道迁移模型,由信道迁移模型将第一信道的目标声纹表征迁移到第二信道,得到第一迁移声纹表征。信道迁移模型例如为循环生成对抗网络(简称Cycle Gan),此外,信道迁移模型也可以是循环生成对抗网络的其他衍生网络或其他迁移网络,此处不作限定。
其中,参考声纹表征对应参考语音数据(或称为注册语音数据)。参考语音数据为检验发声者身份的参考。若目标声纹表征与参考声纹表征一致,则说明该目标声纹表征对应的发声者与参考声纹表征对应的发声者为相同,否则,则不相同。由此,可以检验目标发声者的身份。
步骤S13:比对第一迁移声纹表征与参考声纹表征,以得到发声者的识别结果。
在一示例中,可以将第一迁移声纹表征与参考声纹表征进行相似度计算,然后基于得分,得到发声者的识别结果。例如,当得分大于预设分数阈值时,说明此时目标发声者的第一迁移声纹表征与参考声纹表征相似程度很高,由此,发声者的识别结果为参考声纹表征对应的发声者的身份。预设分数阈值的取值范围可以为80%~100%,但不限于此,具体可以根据实际情况进行选取。
以上,本实施例通过提取发声者的目标声纹表征,然后对目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,目标声纹表征属于第一信道,但是经过信道迁移之后的第一迁移声纹表征和参考声纹表征属于第二信道,由此,可以实现在同一信道下比对第一迁移声纹表征与参考声纹表征,得到发声者的识别结果,解决了跨信道场景的发声者识别问题,能够提升发声者识别结果的准确率。
请参阅图3至图4,图3是本申请发声者识别方法一实施例的流程示意图,图4是图3中步骤S24一实施方式的流程示意图。该方法可以包括以下步骤:
步骤S21:提取发声者的目标声纹表征。
关于本步骤的描述可以参见上述步骤S11,此处不再赘述。
步骤S22:对目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,目标声纹表征属于第一信道,第一迁移声纹表征和参考声纹表征属于第二信道。
关于本步骤的描述可以参见上述步骤S12,此处不再赘述。
步骤S23:对参考声纹表征进行信道迁移,得到第二迁移声纹表征,其中,第二迁移声纹表征属于第一信道。
区别于上述实施例,本实施例中,还可以对参考声纹表征进行信道迁移,以将参考声纹表征迁移到与目标声纹表征相同的信道,进而实现与目标声纹表征的同信道比对。
在一示例中,可以将参考声纹表征输入经训练后的信道迁移模型,由信道迁移模型将第二信道的参考声纹表征迁移到第一信道,得到第二迁移声纹表征。在其他实施例中,还可以仅比对第二迁移声纹表征与目标声纹表征,得到发声者的识别结果,由此,也可以实现同信道的比对。
步骤S24:比对第一迁移声纹表征与参考声纹表征、以及第二迁移声纹表征与目标声纹表征,得到发声者的识别结果。
具体地,比对第二迁移声纹表征与目标声纹表征,得到第一比对结果;以及,比对第一迁移声纹表征与参考声纹表征,得到第二比对结果,最后综合第一比对结果和第二比对结果,得到发声者的识别结果。
在一些实施方式中,步骤S24可以包括子步骤S241-S243:
步骤S241:将第二迁移声纹表征与目标声纹表征进行相似度计算,得到第一信道得分。
步骤S242:将第一迁移声纹表征与参考声纹表征进行相似度计算,得到第二信道得分。
在一示例中,相似度计算例如为余弦相似度计算,即计算两个向量的余弦值作为第一信道得分和/或第二信道得分。或者,还可以将余弦值进行归一化处理后的值作为第一信道得分和/或第二信道得分。
步骤S243:基于第一信道得分和第二信道得分,得到发声者的识别结果。
在一示例中,可以将第一信道得分和第二信道得分计算平均值,例如计算算术平均数、加权平均值等。
具体地,可以采用公式(1)计算融合得分,如下:
其中,score为融合得分,x为目标声学特征,y为参考声学特征,T(x)为目标声纹表征,T(y)为参考声纹表征,F(T(x))为第一迁移声纹表征,G(T(y))为第二迁移声纹表征,cos(T(x),G(T(y))为第一信道得分,cos(F(T(x)),T(y))为第二信道得分。
区别于上述实施例,本实施例中,通过分别将参考声纹表征迁移到第一信道,将目标声纹表征迁移到第二信道,然后分别对目标声纹表征计算第一信道得分,以及对参考声纹表征计算第二信道得分,然后融合计算第一信道得分和第二信道得分,通过得分融合的方式,可以获得更稳定的识别效果。
在一些实施方式中,发声者识别方法由多模型执行,其中,提取发声者的目标声纹表征是由声纹模型执行,信道迁移是由信道迁移模型执行。下面将对声纹模型和信道迁移模型进行训练的方法进行介绍。
请参阅图5,图5是本申请发声者识别方法一实施例的流程示意图。该方法可以包括以下步骤:
步骤S31:对声纹模型进行预训练。
步骤S32:利用经预训练的声纹模型得到第一样本声学特征的第一样本声纹表征,利用第一样本声纹表征训练信道迁移模型。
具体地,在对声纹模型进行预训练之后,可以先固定声纹模型的网络参数,只训练信道迁移模型,当信道迁移模型训练稳定后,再解冻声纹模型的网络参数,进行联合训练。
步骤S33:利用第二样本声学特征联合训练声纹模型和信道迁移模型。
其中,第一样本声学特征和第二样本声学特征均包括第一信道和第二信道的样本声学特征。
请参阅图6至图8,图6是图5中步骤S31一实施例的流程示意图,图7是本申请声纹模型的预训练的流程示意图,图8是两种信道数据混合训练的示意图。
在本实施例中,步骤S311~S315为上述步骤S31的一种实施方式。
步骤S311:获取至少两种信道的若干第三样本声学特征,其中,若干第三样本声学特征对应的发声者至少部分不相同。
在本实施例中,用于声纹模型和信道迁移模型的训练数据包含两种信道的数据,但是一个发声者可以不同时具备两种信道数据,换言之,两种信道的数据可以来自不同的发声者。由于不再限制同一发声者包含两种信道的数据,从而可以解决跨信道训练数据缺失的问题。
其中,关于获取第三样本声学特征的方式与上述步骤S111获取目标声学特征的方式类似,此处不再赘述。
步骤S312:利用声纹模型对各第三样本声学特征进行声纹提取,得到各第三样本声学特征的第三样本声纹表征。
步骤S313:预测得到各第三样本声纹表征的发声者类别概率。
如图7所示,在一些实施方式中,可以以时延神经网络(Time-Delay NeuralNetwork,TDNN)框架进行声纹模型的预训练。在训练过程中,时延神经网络之后还可以包括依次连接的统计池化层(statistics pooling)和两层全连接层,其中,第一个全连接层用于得到第三样本声纹表征,结合第二个全连接层还可以用于预测第三样本声纹表征的发声者类别概率。在实际应用过程中,只需要得到对应的目标声纹表征即可,故声纹模型包括依次连接的时延神经网络、统计池化层(statistics pooling)和一个全连接层。
TDNN为帧级别的网络结构,包括5层全连接层,输入输出节点数分别为64-512-1536-512-512-1500,每层全连接层后面添加ReLu激活层和BN(Batch Normalization,批规范化)层,由于xvector对全连接层输入采用扩帧策略,每层的输入扩帧数分别为5,3,3,1,1,跳帧数分别为1,2,3,1,1。TDNN的输出为帧级别声纹表征,所以可以在TDNN之后可以连接统计池化层(statistics pooling),用于将帧级别的信息转化为片段级别的信息,然后连接两层全连接层,该全连接层的输入输出节点数分别为3000-512-N,其中N为发声者分类数目,每层全连接层后面添加ReLu激活层和BN层。
如图7所示,第一个全连接层用于输出声纹表征,如参考声纹表征、目标声纹表征、第三声纹表征等。
在一些实施方式,发声者类别概率具体可以为发声者类别的后验概率。
如图8所示,训练数据包括两种信道数据,利用两种信道数据分别对应第一信道的声学特征(X声学特征)和第二的声学特征(Y声学特征)。预训练声纹模型的过程采用将X声学特征和Y声学特征同时输入声纹模型(例如TDNN)进行混合训练。其中,经过第一个全连接层可以得到对应的声纹表征11,再经过第二个全连接层可以分别得到第一信道的发声者类别12和第二信道的发声者类别13。
步骤S314:基于第三样本声纹表征的发声者类别概率,得到第三损失。
具体地,可以分别计算第三样本声纹表征对应的第一信道的发声者类别概率和第二信道的发声者类别概率,然后进行统计,得到第三损失。
具体地,可以采用公式(2)计算第三损失,如下:
Lossclass3=-log(PT(X))-log(PT(Y)), 公式(2)
其中,X为第一信道的声学特征,Y为第二信道的声学特征,PT为声纹模型T对应发声者类别概率,下同。Lossclass3为第三损失,PT(X)为第一信道的第三声学特征对应的发声者类别概率,PT(Y)为第二信道的第三声学特征对应的发声者类别概率。
步骤S315:利用第三损失,调整声纹模型的网络参数。
其中,当第三损失小于预设损失阈值或者累计训练次数大于设于次数时,停止调整声纹模型的网络参数,确定声纹模型预训练完成;否则,则在利用第三损失,调整声纹模型的网络参数后,继续对声纹模型进行训练,直到初步训练完成。
请参阅图9,图9是本申请中循环生成对抗网络的示意图。在对声纹模型和信道迁移模型的联合训练进行介绍之前,先简单介绍信道迁移模型采用的循环生成对抗网络的基本结构。
如图9所示,Cycle GAN最先应用于图像的风格迁移,例如将冬天的风景转换为夏天风景,照片转换为油画风格等。Cycle GAN本质上是两个镜像对称的GAN,构成了一个环形网络。两个GAN的生成器分别为G网络和F网络,同时判别器分别为Dx和Dy网络,生成器用于假样本生成,判别器则用于真假样本判别,同时Cycle GAN最大的特点在于采用环形的一致性限制策略,将两个GAN网络进行关联性结合,使整个对抗训练效果更佳。
关于损失计算,需要计算对抗损失(Adversarial Loss,包括判别器和生成器分别的损失),此外还需要计算循环一致性损失(Cycle Consistency Loss),以防止学习的映射G和F相互矛盾。
判别器用于对生成的真假样本进行有效区分,对应的对抗损失函数的公式如下所示:
其中,LGAN(F,DY,Y,X)为判别器Dy的损失函数,对应映射函数G:X->Y的对抗损失,x~pdata(x)为X域的数据分布,y~pdata(y)为Y域的数据分布。类似地,可以得到映射函数F:Y->X的对抗损失LGAN(F,Dx,Y,X),即判别器DX的损失函数。
循环一致性损失的计算公式,如下:
最后,整个Cycle Gan训练的总损失函数可通过下式表示:
其中,L(G,F,DX,DY)为总目标损失函数,LGAN(F,DY,Y,X)为Dy的损失函数,LGAN(F,Dx,Y,X)为判别器DX的损失函数,Lcyc(G,F)为循环一致性损失,λ为权重值。λ的可以根据实际情况进行选取,此处不作限制。
请参阅图10至图11,图10是图5中步骤S32一实施例的流程示意图,图11是声纹模型和信道迁移模型的联合训练的流程示意图。
在本实施例中,步骤S321-S325为上述步骤S32的一种实施方式。
步骤S321:将声纹模型对第一信道声学特征提取得到的声纹表征,作为第一声纹表征,将声纹模型对第二信道声学特征提取得到的声纹表征,作为第二声纹表征,第一信道声学特征为第一信道的第一样本声学特征和第二样本声学特征,第二信道声学特征为第二信道的第一样本声学特征和第二样本声学特征。
如图11所示,将第一信道声学特征(记为X声学特征)输入声纹模型,以利用声纹模型对第一信道声学特征提取得到第一声纹表征(记为Xxvector),Xxvector=T(X)。将第二信道声学特征(记为Y声学特征)输入声纹模型,以利用声纹模型对第二信道声学特征提取得到第二声纹表征(记为Yxvector),Yxvector=T(Y)。
步骤S322:利用信道迁移模型的第一生成网络将第一声纹表征进行信道迁移,得到第二信道的第三迁移声纹表征,以及利用信道迁移模型的第二生成网络将第三迁移声纹表征进行信道迁移,得到第一信道的第四迁移声纹表征。
信道迁移模型包括两个生成网络和两个判别网络。其中,第一生成网络可以将第一信道的声纹表征迁移为第二信道的声纹表征,相反,第二生成网络可以将第二信道的声纹表征迁移为第一信道的声纹表征。
在一实施方式中,第一生成网络F和第二生成网络G可以采用相同的结构,例如采用五层FN+ReLu结构,节点数目为512-256-128-128-256-512,第一判别器DX和第二判别网络DY也可以采用相同结构,例如采用三层FN+ReLu结构,节点数目为512-128-64-2。
如图11所示,将第一信道的第一声纹表征(Xxvector)输入第一生成网络(记为F),输出第二信道的第三迁移声纹表征(记为),然后,将输入第二生成网络(记为G),生成第一信道的第四迁移声纹表征(记为)。
步骤S323:利用第二生成网络将第二声纹表征进行信道迁移,得到第一信道的第五迁移声纹表征,以及利用第一生成网络将第五迁移声纹表征进行信道迁移,得到第六迁移声纹表征。
第二信道场景类似,将第二信道的第二声纹表征(Yxvector)输入第二生成网络(记为G),输出第一信道的第五迁移声纹表征(记为),然后,将输入第一生成网络(记为F),生成第二信道的第六迁移声纹表征(记为)
步骤S324:利用第三迁移声纹表征、第四迁移声纹表征、第五迁移声纹表征和第六迁移声纹表征,得到第一损失。
其中,可以利用第三迁移声纹表征、第四迁移声纹表征、第五迁移声纹表征和第六迁移声纹表征分别计算第一生成器对应的第一判别器DX和第二生成器对应的第二判别器DY的损失函数,以及计算循环一致性损失,然后综合上述三个损失函数得到信道迁移模型的总损失函数,从而得到第一损失。
具体地,可以采用上述公式(5)进行第一损失的计算,此处不再赘述。
步骤S325:利用第一损失,调整信道迁移模型的网络参数。
其中,当第一损失小于预设损失阈值或者累计训练次数大于设于次数时,停止调整信道迁移模型的网络参数,确定信道迁移模型初步训练完成;否则,则在利用第一损失,调整信道迁移模型的网络参数后,继续对信道迁移模型进行训练,直到初步训练完成。其中,参数调整或更新时,采取与Gan网络一样策略,即生成网络和判别网络交替更新的方式。
请参阅图12,图12是图5中步骤S33一实施例的流程示意图。
在本实施例中,步骤S331~S334为上述步骤S33的一种实施方式。
步骤S331:预测得到第一声纹表征对应的发声者类别概率、第二声纹表征对应的发声者类别概率、第三迁移声纹表征对应的发声者类别概率、以及第五迁移声纹表征对应的发声者类别概率。
关于如何预测声纹表征对应的发声者类别概率请参见上述步骤S314,此处不再赘述。
步骤S332:基于预测得到的发声者类别概率,得到第二损失。
这里,除了需要对第一声纹表征和第二声纹表征的发声者类别概率计算交叉熵损失外,还需要对第三迁移声纹表征和第五迁移声纹表征的发声者类别概率计算交叉熵损失。
具体地,可以采用公式(6)计算第二损失,如下:
Lossclass2=-log(PT+F(X))-log(PT+G(Y))-log(PT(X))-log(PT(Y)) 公式(6)
其中,Lossclass2为第二损失,PT+F为声纹模型T和第一生成网络F对应的发声者类别的概率,PT(X)为第一声纹表征对应的发声者类别概率,PT(Y)为第二声纹表征对应的发声者类别概率,PT+F(X)为声纹模型T和第一生成网络F对应的第三迁移声纹表征的发声者类别概率,PT+G(Y)为声纹模型T和第二生成网络对应第五迁移声纹表征的发声者类别概率。
步骤S333:利用第二损失,调整声纹模型的网络参数。
其中,当第二损失小于预设损失阈值或者累计训练次数大于设于次数时,停止调整声纹模型的网络参数,确定声纹模型训练完成;否则,则在利用第二损失,调整声纹模型的网络参数后,继续对声纹模型进行训练,直到训练完成。
在本实施例中,当信道迁移模型达到稳定之后,解冻声纹模型,使其跟随整个Gan网络一起训练,参数更新时,声纹模型跟随生成网络一起更新,判别网络独自更新,且两者依旧采用交替更新方式。在联合训练中,信道迁移模型仍可采用上述公式(5)的损失函数计算损失,并利用得到的损失值对信道迁移模型的网络参数进行调整。
以上,本申请提出了一种声纹模型和Cycle Gan相结合的框架。使其在录音设备发生变化时,在缺少跨信道数据情况下也能达到较好效果,节约了训练成本。
进一步地,首次基于Cycle Gan进行声纹表征层面上的自适应。相比于构造数据层面,网络更容易训练,效果更好。与Cycle Gan在原始数据层面,先迁移再模型训练的思想相比,该方法更容易训练,训练目标更直接。同时本申请首次采用声纹模型和Cycle Gan联合学习的思想,从而更进一步提升模型效果。
进一步地,提出了一种声纹模型和Cycle Gan更稳定的训练策略。为了获得更好效果,分两步训练:第一步,预训练声纹模型;第二步,预加载声纹模型固定参数,训练CycleGan网络;第三步,整体网络联合训练调优。
进一步地,提出了一种多模型得分融合的策略。具体地,将声纹表征迁移至第一信道或者第二信道,然后对目标样本和参考样本分别计算余弦得分,最后取平均方式,能够获得更为稳定的识别效果。
请参阅图13,图13是本申请发声者识别装置一实施例的结构示意框图。
发声者识别装置100包括提取模块110、信道迁移模块120和比对模块130。提取模块110用于提取发声者的目标声纹表征。信道迁移模块120用于对目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,目标声纹表征属于第一信道,第一迁移声纹表征和参考声纹表征属于第二信道。比对模块130用于比对第一迁移声纹表征与参考声纹表征,以得到发声者的识别结果。
在一些实施方式中,信道迁移模块120还用于对参考声纹表征进行信道迁移,得到第二迁移声纹表征,其中,第二迁移声纹表征属于第一信道;对应地,比对模块130还用于比对第一迁移声纹表征与参考声纹表征、以及第二迁移声纹表征与目标声纹表征,得到发声者的识别结果。
在一些实施方式中,比对模块130还用于将第二迁移声纹表征与目标声纹表征进行相似度计算,得到第一信道得分;将第一迁移声纹表征与参考声纹表征进行相似度计算,得到第二信道得分;基于第一信道得分和第二信道得分,得到发声者的识别结果。
在一些实施方式中,提取模块110还用于获取发声者的目标声学特征;对目标声学特征进行声纹提取,得到目标声纹表征。
在一些实施方式中,提取发声者的目标声纹表征是由声纹模型执行,信道迁移是由信道迁移模型执行。
在一些实施方式中,发声者识别方法还包括以下步骤,以对声纹模型和信道迁移模型进行训练:对声纹模型进行预训练;利用经预训练的声纹模型得到第一样本声学特征的第一样本声纹表征,利用第一样本声纹表征训练信道迁移模型;利用第二样本声学特征联合训练声纹模型和信道迁移模型。
在一些实施方式中,信道迁移模型为循环生成对抗网络,和/或第一样本声学特征和第二样本声学特征均包括第一信道和第二信道的样本声学特征,训练信道迁移模型,包括:将声纹模型对第一信道声学特征提取得到的声纹表征,作为第一声纹表征,将声纹模型对第二信道声学特征提取得到的声纹表征,作为第二声纹表征,第一信道声学特征为第一信道的第一样本声学特征和第二样本声学特征,第二信道声学特征为第二信道的第一样本声学特征和第二样本声学特征;利用信道迁移模型的第一生成网络将第一声纹表征进行信道迁移,得到第二信道的第三迁移声纹表征,以及利用信道迁移模型的第二生成网络将第三迁移声纹表征进行信道迁移,得到第一信道的第四迁移声纹表征;利用第二生成网络将第二声纹表征进行信道迁移,得到第一信道的第五迁移声纹表征,以及利用第一生成网络将第五迁移声纹表征进行信道迁移,得到第六迁移声纹表征;利用第三迁移声纹表征、第四迁移声纹表征、第五迁移声纹表征和第六迁移声纹表征,得到第一损失;利用第一损失,调整信道迁移模型的网络参数。
在一些实施方式中,在联合训练声纹模型和信道迁移模型的过程中,方法还包括:预测得到第一声纹表征对应的发声者类别概率、第二声纹表征对应的发声者类别概率、第三迁移声纹表征对应的发声者类别概率、以及第五迁移声纹表征对应的发声者类别概率;基于预测得到的发声者类别概率,得到第二损失;利用第二损失,调整声纹模型的网络参数。
在一些实施方式中,对声纹模型进行预训练,包括:获取至少两种信道的若干第三样本声学特征,其中,若干第三样本声学特征对应的发声者至少部分不相同;利用声纹模型对各第三样本声学特征进行声纹提取,得到各第三样本声学特征的第三样本声纹表征;预测得到各第三样本声纹表征的发声者类别概率;基于第三样本声纹表征的发声者类别概率,得到第三损失;利用第三损失,调整声纹模型的网络参数。
关于上述步骤的说明请参阅方法实施例中的对应位置,此处不再赘述。
请参阅图14,图14是本申请电子设备一实施例的结构示意框图。
电子设备200可以包括相互耦接的存储器210和处理器220,存储器210用于存储程序数据,处理器220用于执行程序数据以实现上述任一方法实施例中的步骤。电子设备200可以包括但不限于:个人电脑(例如,台式机、笔记本电脑、平板电脑、掌上电脑等)、手机、服务器、可穿戴设备,以及增强现实(augmented reality,简称:AR)、虚拟现实(virtualreality,简称:VR)设备、电视机等,在此不作限定。
具体而言,处理器220用于控制其自身以及存储器210以实现上述任一方法实施例中的步骤。处理器220还可以称为CPU(Central Processing Unit,中央处理单元)。处理器220可能是一种集成电路芯片,具有信号的处理能力。处理器220还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器220可以由多个集成电路芯片共同实现。
请参阅图15,图15是本申请计算机可读存储介质一实施例的结构示意框图。
计算机可读存储介质300存储有程序数据310,程序数据310被处理器执行时,用以实现上述任一方法实施例中的步骤。
计算机可读存储介质300可以为U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储计算机程序的介质,也可以为存储有该计算机程序的服务器,该服务器可将存储的计算机程序发送给其他设备运行,或者也可以自运行该存储的计算机程序。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (12)
1.一种发声者识别方法,其特征在于,包括:
提取发声者的目标声纹表征;
对所述目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,所述目标声纹表征属于第一信道,所述第一迁移声纹表征和参考声纹表征属于第二信道;
比对所述第一迁移声纹表征与所述参考声纹表征,以得到所述发声者的识别结果。
2.根据权利要求1中所述的方法,其特征在于,
在所述比对所述第一迁移声纹表征与所述参考声纹表征,以得到所述发声者的识别结果之前,还包括:
对所述参考声纹表征进行信道迁移,得到第二迁移声纹表征,其中,所述第二迁移声纹表征属于所述第一信道;
所述比对所述第一迁移声纹表征与所述参考声纹表征,以得到所述发声者的识别结果,包括:
比对所述第一迁移声纹表征与所述参考声纹表征、以及所述第二迁移声纹表征与所述目标声纹表征,得到所述发声者的识别结果。
3.根据权利要求2中所述的方法,其特征在于,
所述比对所述第一迁移声纹表征与所述参考声纹表征、以及所述第二迁移声纹表征与所述目标声纹表征,得到所述发声者的识别结果,包括:
将所述第二迁移声纹表征与所述目标声纹表征进行相似度计算,得到第一信道得分;
将所述第一迁移声纹表征与所述参考声纹表征进行相似度计算,得到第二信道得分;
基于所述第一信道得分和所述第二信道得分,得到所述发声者的识别结果。
4.根据权利要求1中所述的方法,其特征在于,所述提取发声者的目标声纹表征,包括:
获取所述发声者的目标声学特征;
对所述目标声学特征进行声纹提取,得到所述目标声纹表征。
5.根据权利要求1中所述的方法,其特征在于,所述提取发声者的目标声纹表征是由声纹模型执行,所述信道迁移是由信道迁移模型执行。
6.根据权利要求5中所述的方法,其特征在于,所述方法还包括以下步骤,以对所述声纹模型和所述信道迁移模型进行训练:
对所述声纹模型进行预训练;
利用经预训练的所述声纹模型得到第一样本声学特征的第一样本声纹表征,利用所述第一样本声纹表征训练所述信道迁移模型;
利用第二样本声学特征联合训练所述声纹模型和所述信道迁移模型。
7.根据权利要求6中所述的方法,其特征在于,所述信道迁移模型为循环生成对抗网络,和/或
所述第一样本声学特征和第二样本声学特征均包括所述第一信道和第二信道的样本声学特征,训练所述信道迁移模型,包括:
将所述声纹模型对第一信道声学特征提取得到的声纹表征,作为第一声纹表征,将所述声纹模型对第二信道声学特征提取得到的声纹表征,作为第二声纹表征,所述第一信道声学特征为第一信道的第一样本声学特征和第二样本声学特征,所述第二信道声学特征为第二信道的第一样本声学特征和第二样本声学特征;
利用所述信道迁移模型的第一生成网络将所述第一声纹表征进行信道迁移,得到所述第二信道的第三迁移声纹表征,以及利用所述信道迁移模型的第二生成网络将所述第三迁移声纹表征进行信道迁移,得到所述第一信道的第四迁移声纹表征;
利用所述第二生成网络将所述第二声纹表征进行信道迁移,得到所述第一信道的第五迁移声纹表征,以及利用所述第一生成网络将所述第五迁移声纹表征进行信道迁移,得到第六迁移声纹表征;
利用所述第三迁移声纹表征、所述第四迁移声纹表征、所述第五迁移声纹表征和所述第六迁移声纹表征,得到第一损失;
利用所述第一损失,调整所述信道迁移模型的网络参数。
8.根据权利要求7中所述的方法,其特征在于,在联合训练所述声纹模型和所述信道迁移模型的过程中,所述方法还包括:
预测得到所述第一声纹表征对应的发声者类别概率、所述第二声纹表征对应的发声者类别概率、所述第三迁移声纹表征对应的发声者类别概率、以及所述第五迁移声纹表征对应的发声者类别概率;
基于预测得到的所述发声者类别概率,得到第二损失;
利用所述第二损失,调整所述声纹模型的网络参数。
9.根据权利要求6中所述的方法,其特征在于,
所述对所述声纹模型进行预训练,包括:
获取至少两种信道的若干第三样本声学特征,其中,所述若干第三样本声学特征对应的发声者至少部分不相同;
利用声纹模型对各所述第三样本声学特征进行声纹提取,得到各所述第三样本声学特征的第三样本声纹表征;
预测得到各所述第三样本声纹表征的发声者类别概率;
基于所述第三样本声纹表征的发声者类别概率,得到第三损失;
利用所述第三损失,调整所述声纹模型的网络参数。
10.一种发声者识别装置,其特征在于,包括:
提取模块,用于提取发声者的目标声纹表征;
信道迁移模块,用于对所述目标声纹表征进行信道迁移,得到第一迁移声纹表征,其中,所述目标声纹表征属于第一信道,所述第一迁移声纹表征和参考声纹表征属于第二信道;
比对模块,用于比对所述第一迁移声纹表征与所述参考声纹表征,以得到所述发声者的识别结果。
11.一种电子设备,其特征在于,所述电子设备包括相互耦接的存储器和处理器,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如权利要求1-9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序数据,所述程序数据在被处理器执行时,用以实现如权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111646838.4A CN114333846A (zh) | 2021-12-30 | 2021-12-30 | 发声者识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111646838.4A CN114333846A (zh) | 2021-12-30 | 2021-12-30 | 发声者识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114333846A true CN114333846A (zh) | 2022-04-12 |
Family
ID=81017157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111646838.4A Pending CN114333846A (zh) | 2021-12-30 | 2021-12-30 | 发声者识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114333846A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114822576A (zh) * | 2022-04-30 | 2022-07-29 | 中国人民解放军总医院第一医学中心 | 基于磁共振脉冲序列噪声估计的通话系统语音增强方法 |
-
2021
- 2021-12-30 CN CN202111646838.4A patent/CN114333846A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114822576A (zh) * | 2022-04-30 | 2022-07-29 | 中国人民解放军总医院第一医学中心 | 基于磁共振脉冲序列噪声估计的通话系统语音增强方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
Mesaros et al. | Sound event detection: A tutorial | |
Zhou et al. | Deep Speaker Embedding Extraction with Channel-Wise Feature Responses and Additive Supervision Softmax Loss Function. | |
JP2021527840A (ja) | 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム | |
CN111694940B (zh) | 一种用户报告的生成方法及终端设备 | |
CN112233698B (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
US20230206928A1 (en) | Audio processing method and apparatus | |
CN113723166A (zh) | 内容识别方法、装置、计算机设备和存储介质 | |
CN113763979A (zh) | 音频降噪、音频降噪模型的处理方法、装置、设备和介质 | |
CN111048097A (zh) | 一种基于3d卷积的孪生网络声纹识别方法 | |
CN113314119A (zh) | 语音识别智能家居控制方法及装置 | |
Lee et al. | Deep representation learning for affective speech signal analysis and processing: Preventing unwanted signal disparities | |
CN111653274A (zh) | 唤醒词识别的方法、装置及存储介质 | |
Xue et al. | Cross-modal information fusion for voice spoofing detection | |
Ng et al. | Teacher-student training for text-independent speaker recognition | |
CN114333846A (zh) | 发声者识别方法、装置、电子设备和存储介质 | |
CN113113048B (zh) | 语音情绪识别方法、装置、计算机设备及介质 | |
Zhang et al. | An encrypted speech retrieval method based on deep perceptual hashing and CNN-BiLSTM | |
Hu et al. | Speech emotion recognition based on attention mcnn combined with gender information | |
CN116741154A (zh) | 数据选取方法、装置、电子设备及存储介质 | |
CN112037772A (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
Eltanashi et al. | Proposed speaker recognition model using optimized feed forward neural network and hybrid time-mel speech feature | |
KR20230120790A (ko) | 가변적 언어모델을 이용한 음성인식 헬스케어 서비스 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |