CN114333840A - 语音鉴别方法及相关装置、电子设备和存储介质 - Google Patents
语音鉴别方法及相关装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114333840A CN114333840A CN202111395015.9A CN202111395015A CN114333840A CN 114333840 A CN114333840 A CN 114333840A CN 202111395015 A CN202111395015 A CN 202111395015A CN 114333840 A CN114333840 A CN 114333840A
- Authority
- CN
- China
- Prior art keywords
- feature
- voice
- sub
- speech
- true
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种语音鉴别方法及相关装置、电子设备和存储介质,其中,语音鉴别方法包括:对语音数据进行第一特征提取,得到第一语音特征;基于第一语音特征,划分得到顺序排列的多个语音子特征;对于各个语音子特征,将语音子特征与其前一个语音子特征进行特征交互,得到语音子特征对应的交互子特征,并基于各个语音子特征对应的交互子特征,得到融合语音特征;基于融合语音特征进行真假预测,得到待鉴别语音的鉴别结果;其中,鉴别结果包括待鉴别语音为真实语音、待鉴别语音为虚假语音中任一者。上述方案,能够在面对已知或未知的虚假语音攻击方式时都能保证优秀的泛化能力,进而能够提升语音鉴别的准确性。
Description
技术领域
本申请涉及语音处理技术领域,特别是涉及一种语音鉴别方法及相关装置、电子设备和存储介质。
背景技术
语音鉴别如今已经广泛应用于门禁系统、养老识别系统等众多方面。随着语音技术的发展,特别是高效语音合成等算法的提出,高质量的合成语音足以让人难以分辨真假。这一现状给现有的验证系统也带来了极大挑战。
目前,语音鉴别通常依赖于在前端提取声学特征,一般包括短时幅频特征、短时相频特征等,但这些人工设计的特征往往具有明显的针对性,不具备良好的泛化能力,在面对合成得到的虚假语音时往往难以达到令人满意的检测能力。有鉴于此,如何提升语音鉴别的准确性成为亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种语音鉴别方法及相关装置、电子设备和存储介质,能够提升语音鉴别的准确性。
为了解决上述技术问题,本申请第一方面提供了一种语音鉴别方法,包括:对语音数据进行第一特征提取,得到第一语音特征;其中,语音数据包括从待鉴别语音的时域波形上采样得到的若干数据点;基于第一语音特征,划分得到顺序排列的多个语音子特征;对于各个语音子特征,将语音子特征与其前一个语音子特征进行特征交互,得到语音子特征对应的交互子特征,并基于各个语音子特征对应的交互子特征,得到融合语音特征;基于融合语音特征进行真假预测,得到待鉴别语音的鉴别结果;其中,鉴别结果包括待鉴别语音为真实语音、待鉴别语音为虚假语音中任一者。
为了解决上述技术问题,本申请第二方面提供了一种语音鉴别装置,包括:第一提取模块、特征划分模块、特征交互模块和真假预测模块,第一提取模块,用于对语音数据进行第一特征提取,得到第一语音特征;其中,语音数据包括从待鉴别语音的时域波形上采样得到的若干数据点;特征划分模块,用于基于第一语音特征,划分得到顺序排列的多个语音子特征;特征交互模块,用于对于各个语音子特征,将语音子特征与其前一个语音子特征进行特征交互,得到语音子特征对应的交互子特征,并基于各个语音子特征对应的交互子特征,得到融合语音特征;真假预测模块,用于基于融合语音特征进行真假预测,得到待鉴别语音的鉴别结果;其中,鉴别结果包括待鉴别语音为真实语音、待鉴别语音为虚假语音中任一者。
为了解决上述技术问题,本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的语音鉴别方法。
为了解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的语音鉴别方法。
上述方案,对语音数据进行第一特征提取,得到第一语音特征,且语音数据包括从待鉴别语音的时域波形上采样得到的若干数据点,并基于第一语音特征,划分得到顺序排列的多个语音子特征,在此基础上,对各个语音子特征,将语音子特征与其前一个语音子特征进行特征交互,得到语音子特征对应的交互子特征,并基于各个语音子特征对应的交互子特征,得到融合语音特征,以及基于融合语音特征进行真假预测,得到待鉴别语音的鉴别结果,且鉴别结果包括待鉴别语音为真实语音、待鉴别语音为虚假语音中任一者,一方面由于直接在原始的时域波形基础上进行真假鉴别,而不再依赖于人工设计的声学特征,能够最大程度地保留数据原始信息,另一方面通过将第一语音特征划分为多个语音子特征,并将相邻语音子特征进行特征交互,能够充分利用连续语音片段之间的依赖性,有利于提升特征接受域,且降低关键信息丢失的可能性,从而能够在面对已知或未知的虚假语音攻击方式时都能保证优秀的泛化能力,进而能够提升语音鉴别的准确性。
附图说明
图1是本申请语音鉴别方法一实施例的流程示意图;
图2是语音鉴别模型一实施例的框架示意图;
图3是双路径特征提取块一实施例的框架示意图;
图4是本申请语音鉴别方法另一实施例的流程示意图;
图5是训练语音鉴别模型一实施例的流程示意图;
图6是本申请语音鉴别装置一实施例的框架示意图;
图7是本申请电子设备一实施例的框架示意图;
图8是本申请计算机可读存储介质一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请语音鉴别方法一实施例的流程示意图。
具体而言,可以包括如下步骤:
步骤S11:对语音数据进行第一特征提取,得到第一语音特征。
本公开实施例中,语音数据包括从待鉴别语音的时域波形上采样得到的若干数据点。需要说明的是,本公开实施例中,待鉴别语音可以是真实语音,也可以是虚假语音,在此不做限定。具体地,真实语音表示真人发出的语音,而虚假语音可以包括通过语音合成技术合成得到的语音、通过音色转换技术转换得到的语音等,在此不做限定。
在一个实施场景中,语音数据中的若干数据点可以按照数据点在时域波形的时序进行排序。例如,数据点i是在是时域波形的t时刻采样得到的,数据点i+1是在时域波形的t+1时刻采样得到的,则在语音数据中数据点i位于数据点i+1之前。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,语音数据中的若干数据点其数值可以代表该数据点对应的采样时刻在时域波形上的幅值。例如,数据点i是在时域波波的t时刻采样得到的,而时域波形在t时刻的幅值为Ht,则数据点i的数值可以为Ht。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,可以以预设采样率对待鉴别语音的时域波形进行采样,得到若干数据点。具体地,预设采样率可以根据待鉴别语音的编码信息设置。例如,待鉴别语音的编码信息包括:16kHz采样率、16bit位深等,则预设采样率可以设置为与编码信息中采样率相同,即预设采样率也可以设置为16kHz。其他情况可以以此类推,在此不再一一举例。
需要说明的是,与诸如短时幅频特征、短时相频特征等人工设计的声学特征不同的是,第一语音特征是直接在包含若干数据点的语音数据的基础上进行特征提取而得到的。也就是说,第一语音特征并非特别针对幅度、相位等方面。此外,其所提取得到的第一语音特征可以以一维向量的形式予以表达。
在一个实施场景中,为了提升第一特征提取的效率,可以预先训练一个语音鉴别模型,且语音鉴别模型可以包括第一特征提取网络,用于执行第一特征提取这一操作。具体地,第一特征提取网络可以至少包括卷积层,且卷积层可以包括预设尺寸的一维卷积核。上述方式,通过将第一特征提取网络设置为至少包括卷积层,且卷积层包括预设尺寸的一维卷积核,能够在时间维度对若干数据点进行特征提取,从而得以提取局部连续数据点的特征信息,进而可以最大可能地保留数据原始信息。
在一个具体的实施场景中,一维卷积核的预设尺寸可以根据若干数据点的数量值进行设置。具体地,预设尺寸的数值可以小于数量值。请结合参阅图2,图2是语音鉴别模型一实施例的框架示意图。如图2所示,以语音数据包含80000个数据点为例,一维卷积核的预设尺寸可以设置为256。当然,预设尺寸也可以根据需要设置为128、512等等,在此不做限定。此外,一维卷积核的步幅可以设置为预设步幅。例如,为了尽可能地保留数据原始信息,预设步幅可以设置地适当小一些,如图2所示预设步幅可以设置为1。进一步地,一维卷积核的填充(即padding)可以设置为预设填充。示例性地,如图2所示预设填充可以设置为1,在此不做限定。需要说明的是,语音数据经卷积层处理之后,可以得到包含若干元素的一维向量,且一维向量中每个元素均代表语音数据中局部连续的数据点。
在一个具体的实施场景中,第一特征提取网络还可以包括与卷积层连接的池化层。具体地,池化层可以包括但不限于:最大池化、平均池化等,在此不做限定。需要说明的是,与卷积层类似地,该池化层的维度也是一维,且其尺寸可以根据实际应用需要进行设置。示例性地,如图2所示,池化层可以设置为一维最大池化层,且其尺寸可以设置为3,即对前述卷积层处理之后所得到的一维向量而言,每三个元素提取一个最大值,最终提取得到的元素又可以组成一个一维向量。当然,卷积层的尺寸也可以设置为其他数值,在此不做限定。
在一个具体的实施场景中,如图2所示,第一特征提取网络还可以包括与前述池化层连接的批归一化层。需要说明的是,批归一化层的维度也是一维。此外,批归一化层的具体处理过程,可以参阅其相关技术细节,在此不再赘述。
在一个具体的实施场景中,如图2所示,第一特征提取网络还可以包括与前述批归一化层连接的激活层。激活层可以包括但不限于LeakyRelu(Rectified Linear Unit,修正线性单元)等,在此不做限定。需要说明的是,不同于Relu将所有负值设为零,LeakyRelu是将所有负值赋予一个非零斜率。此外,Leaky Relu的参数α在此不做限定,示例性地,参数α可以设置为0.2。激活层的具体处理过程,可以参阅诸如Leaky Relu等激活函数的技术细节,在此不再赘述。
需要说明的是,如前述第一特征提取网络各个部分所述,第一特征提取网络仅仅是对语音数据进行简单的卷积、池化、归一化以及激活等处理,故第一语音特征可以视为语音数据的浅层特征。为了深化特征并提升特征接受域,本公开实施例,还可以基于第一语音特征进一步执行下述特征交互等操作。
步骤S12:基于第一语音特征,划分得到顺序排列的多个语音子特征。
在一个实施场景中,多个语音子特征的数量可以不做限定,如可以划分得到4个语音子特征,也可以划分得到6个语音子特征,还可以划分得到8个语音子特征,具体可以根据实际应用需要进行设置,在此不做限定。例如,在对特征接受域要求较高但对语音鉴别速度要求相对宽松的情况下,划分数量可以适当多一些,或者,在对接受域要求相对宽松但对语音鉴别速度要求较高的情况下,划分数量可以适当少一些,或者,在对接受域要求和语音鉴别速度要求均相对较高的情况下,划分数量可以适中一些,以在接受域要求和鉴别速度要求之间尽可能地达到平衡。需要说明的是,上述划分数量的举例仅仅是实际应用过程中几种可能的实施方式,并不因此而限定实际应用过程中具体的划分数量。
在一个实施场景中,为了便于后续特征交互,在特征划分阶段,可以以等分的方式进行划分,即各个语音子特征的尺寸均相同。也就是说,在第一语音特征以一维向量予以表达的情况下,各个语音子特征分别所包含的元素数量相同。
在一个实施场景中,为了提升特征交互的效率,可以预先训练一个语音鉴别模型,且语音鉴别模型包括交互特征提取网络。进一步地,交互特征提取网络可以包括双路径特征提取块。请结合参阅图3,图3是双路径特征提取块一实施例的框架示意图。如图3所示,双路径特征提取块可以包括卷积层,示例性地,该卷积层可以为一维卷积,其尺寸可以设置为1,在此不做限定。也就是说,第一语音特征可以先经过卷积层处理,在卷积层完之后,可以将处理之后的第一语音特征划分为多个语音子特征。示例性地,如图3所示,可以划分得到4个语音子特征,为了便于描述,可以依序分别命名x1,x2,x3,x4。其他情况可以以此类推,在此不再一一举例。对于经卷积层处理之后的第一语音特征其具体划分方式,可以参阅前述相关描述,在此不再赘述。
步骤S13:对于各个语音子特征,将语音子特征与其前一个语音子特征进行特征交互,得到语音子特征对应的交互子特征,并基于各个语音子特征对应的交互子特征,得到融合语音特征。
在一个实施场景中,可以将各个语音子特征分别作为当前子特征,并将当前子特征与当前子特征的前一个语音子特征进行融合(如,相加),得到当前子特征对应的融合子特征,再将当前子特征对应的融合子特征进行特征提取,即可得到当前子特征对应的交互子特征。上述方式,通过简单融合以及特征提取等操作,即可实现语音子特征与其前一个语音子特征进行交互,从而使得每一语音子特征对应的交互子特征不仅可以保留其自身的特征信息,也可以保留与其时序连续的语音子特征的特征信息,能够显著提升特征接受域。
在一个实施场景中,区别于前述简单融合以及特征提取等操作实现特征交互,还可以将各个语音子特征分别作为当前子特征,并提取当前子特征的前一个语音子特征的第一尺度特征,以及结合当前子特征与第一尺度特征,提取得到当前子特征对应的第二尺度特征,作为当前子特征对应的交互子特征,且第一尺度特征与当前子特征具有相同尺度,且与第二尺度特征具有不同尺度。上述方式,通过提取当前子特征的前一个语音子特征的第一尺度特征,且第一尺度特征与当前子特征具有相同尺度,基于此再结合当前子特征与第一尺度特征,提取得到当前子特征对应的第二尺度特征,作为当前子特征对应的交互子特征,故不仅可以尽可能地保留数据原始信息,还能够在不同尺度层面进行特征交互,有利于进一步地提升特征接受域。
在一个具体的实施场景中,可以将当前子特征与其前一个语音子特征提取得到的第一尺度特征进行融合(如,相加),得到当前子特征对应的融合子特征,并对融合子特征进行特征提取,得到当前子特征对应的第二尺度特征。上述方式,通过融合当前子特征与其前一个语音子特征提取得到的第一尺度特征,得到融合子特征,并对融合子特征进行特征提取,得到当前子特征对应的第二尺度特征,故通过简单的特征融合以及特征提取等操作即可实现不同尺度特征之间的交互,有利于降低特征交互的复杂度,提升特征交互的效率。
在一个具体的实施场景中,如前所述,为了提升特征交互的效率,可以预先训练一个语音鉴别模型,且语音鉴别模型包括交互特征提取网络,而交互特征提取网络又可以包括双路径特征提取块,双路径特征提取块除前述卷积层之外,还可以进一步包括第一卷积核和第二卷积核,第一卷积核用于提取各个语音子特征前一个语音子特征的第一尺度特征,而第二卷积核用于提取融合子特征的第二尺度特征作为交互子特征,且如前所述,融合子特征是由语音子特征及其前一个语音子特征提取得到的第一尺度特征融合得到的,且第一卷积核的尺寸小于第二卷积核的尺寸。示例性地,如图3所示,第一卷积核的尺寸可以为1,第二卷积核的尺寸可以为3,故经第一卷积核提取之后,第一尺度特征与语音子特征具有相同尺度,而经第二卷积核提取之后,第二尺度特征与语音子特征具有不同尺度,且第二尺度特征的尺度低于语音子特征的尺度。为了便于描述,可以将用于提取的i个语音子特征的第一尺度特征的第一卷积核记为Ki,并将用于提取第i个语音子特征对应的融合子特征的第二尺度特征的第二卷积核记为Li,则以划分为4个语音子特征为例,第i个语音子特征xi对应的交互子特征yi可以表示为:
上述公式(1)中,如前所述,对于首个语音子特征(即i=1)而言,可以直接采用第1个第二卷积核对其进行特征提取,得到第二尺度特征作为其对应的交互子特征,而对于后续语音子特征(即2≤i≤4),可以利用其前一个语音子特征(即xi-1)对应的第一卷积核(即Ki-1)对其前一个语音子特征(即xi-1)进行特征提取,得到第一尺度特征(即Ki-1(xi-1)),再将该第一尺度特征与其(即xi)进行融合,得到融合子特征(即xi+Ki-1(xi-1)),以及利用其对应的第二卷积核(即Li)对该融合子特征进行特征提取,得到第二尺度特征作为其对应的交互子特征。在划分为其他数量的语音子特征的情况下,特征交互过程可以以此类推,在此不再一一举例。需要说明的是,尽管各个第一卷积核的尺寸均相同,但各个第一卷积核的权重参数不一定相同,即在实际应用过程中,各个第一卷积核的权重参数可以相同,也可以不相同,或者可以不完全相同;与之类似地,尽管各个第二卷积核的尺寸相同,但各个第二卷积核的权重参数不一定相同,即在实际应用过程中,各个第二卷积核的权重参数可以相同,也可以不相同,或者可以不完全相同。上述方式,通过设置第一卷积核和第二卷积核分别提取第一尺度特征和第二尺度特征,且第一卷积核的尺寸小于第二卷积核的尺寸,能够实现各个语音子特征之间的信息交换,有利于在面对未知的虚假语音攻击方式时提升其鉴别性能。
需要说明的是,在前述两种特征交互过程中,若当前子特征为顺序排列的多个语音子特征中首个语音子特征,则由于其之前不存在语音子特征,则在前述两种交互过程中,可以将零向量作为其前一个语音子特征。
在一个实施场景中,在得到各个语音子特征对应的交互子特征之后,可以将各个语音子特征对应的交互子特征进行拼接,得到拼接语音特征,并将第一语音特征和拼接语音特征进行融合(如,相加),得到融合语音特征。上述方式,通过将各个语音子特征对应的交互子特征进行拼接,得到拼接语音特征,并将第一语音特征和拼接语音特征进行融合,得到融合语音特征,能够在特征交互过程中进一步尽可能地保留数据原始信息,提升特征接受域。
在一个具体的实施场景中,请结合参阅图3,如图3所示,语音子特征x1,x2,x3,x4分别对应的交互子特征为y1,y2,y3,y4,则可以将上述交互子特征进行拼接,为了便于描述,拼接之后的拼接语音特征可以记为Y,此外第一语音特征可以记为X,则在此基础上,再将拼接语音特征Y和第一语音特征X进行相加,以实现融合,即可得到融合语音特征Z。其他情况可以以此类推,在此不再一一举例。
在一个具体的实施场景中,在得到融合语音特征之后,还可以根据需要决定是否继续将最新得到的融合语音特征作为新的第一语音特征,并重新执行上述特征交互的过程,以在提升特征接受域的同时,进一步提升特征深度,具体可以参阅下述公开实施例,在此暂不赘述。
步骤S14:基于融合语音特征进行真假预测,得到待鉴别语音的鉴别结果。
本公开实施例中,鉴别结果包括待鉴别语音为真实语音、待鉴别语音为虚假语音中任一者。具体地,可以基于融合语音特征预测得到待鉴别语音分别为真实语音、虚假语音的概率值,并基于概率值较大一者,得到待鉴别语音的鉴别结果。例如,真实语音的概率值大于虚假语音的概率值,则可以确定待鉴别语音的鉴别结果包括待鉴别语音为真实语音,或者,虚假语音的概率值大于真实语音的概率值,则可以确定待鉴别语音的鉴别结果包括待鉴别语音为虚假语音。
在一个实施场景中,可以直接基于融合语音特征进行真假预测,得到待鉴别语音的鉴别结果。具体地,为了提升真假预测的效率,可以预先训练一个语音鉴别模型,且语音鉴别语音可以进一步包括真假预测网络。在此基础上,可以将融合语音特征输入真假预测网络进行二分类,得到待鉴别语音分别为真实语音和虚假语音的概率值,以确定其鉴别结果。需要说明的是,在此情况下,真假预测网络可以包括但不限于:全连接层、归一化层等,在此对真假预测网络的网络结构不做限定。
在一个实施场景中,为了进一步提取深层特征,在得到融合语音特征之后,还可以进一步对融合语音特征进行第二特征提取,得到第二语音特征,并基于第二语音特征进行真假预测,得到鉴别结果。上述方式,在得到融合语音特征之后,进一步对其进行第二特征提取,得到第二语音特征,并在第二语音特征的基础上进行真假预测,能够有利于提取深层特征,提升真假预测的准确性。
在一个具体的实施场景中,如前所述,为了提升真假预测的效率,可以预先训练一个语音鉴别模型,且语音鉴别语音可以进一步包括真假预测网络,请结合参阅图2,真假预测网络可以进一步包括第二特征提取网络,第二特征提取网络用于对融合语音特征进行第二特征提取,得到第二语音特征。如图2所示,与第一特征提取网络类似地,第二特征提取网络也可以包括卷积层、池化层、批归一化层、激活层,上述各网络层的设置方式,可以参阅前述第一提取网络中相关描述,在此不再赘述。需要说明的是,与第一特征提取网络不同的是,一方面第二特征提取网络中卷积层中其卷积核的尺寸可以与第一特征提取网络中卷积层中卷积核的尺寸不同,如图2所示,第一特征提取网络中卷积核尺寸可以设置为256,而由于经交互特征提取网络的特征加深,第二特征提取网络中卷积核的尺寸可以适当减小,如可以设置为3,在此不做限定;另一方面第二特征提取网络中还可以进一步包括时序层,该时序层可以包括长短期记忆网络、循环神经网络、门控循环单元中至少一者,以对待鉴别语音的时域特征进行捕捉,有利于进一步提升第二语音特征的准确性。示例性地,时序层中网络的节点数可以设置为512,即第二特征提取网络输出的第二语音特征可以表示为512维的特征向量。当然,节点数也可以根据实际情况设置为其他数值,在此不做限定。
在一个具体的实施场景中,真假预测网络可以进一步包括鉴别网络,用于基于第二语音特征进行真假预测,得到鉴别结果。请继续结合参阅图2,鉴别网络可以包括全连接层和批归一化层。示例性地,全连接层的节点数可以设置为80,即全连接层输出的特征可以表示为80维的特征向量。当然,节点数也可以根据实际情况设置为其他数值,在此不做限定。此外,在经上述鉴别网络处理之后,可以得到最终语音特征,该语音特征可以由一个分类器进行分类预测,得到待鉴别语音分别为真实语音、虚假语音的概率值,并基于概率值,确定待鉴别语音的鉴别结果。
上述方案,对语音数据进行第一特征提取,得到第一语音特征,且语音数据包括从待鉴别语音的时域波形上采样得到的若干数据点,并基于第一语音特征,划分得到顺序排列的多个语音子特征,在此基础上,对各个语音子特征,将语音子特征与其前一个语音子特征进行特征交互,得到语音子特征对应的交互子特征,并基于各个语音子特征对应的交互子特征,得到融合语音特征,以及基于融合语音特征进行真假预测,得到待鉴别语音的鉴别结果,且鉴别结果包括待鉴别语音为真实语音、待鉴别语音为虚假语音中任一者,一方面由于直接在原始的时域波形基础上进行真假鉴别,而不再依赖于人工设计的声学特征,能够最大程度地保留数据原始信息,另一方面通过将第一语音特征划分为多个语音子特征,并将相邻语音子特征进行特征交互,能够充分利用连续语音片段之间的依赖性,有利于提升特征接受域,且降低关键信息丢失的可能性,从而能够在面对已知或未知的虚假语音攻击方式时都能保证优秀的泛化能力,进而能够提升语音鉴别的准确性。
请参阅图4,图4是本申请语音鉴别方法另一实施例的流程示意图。
具体而言,可以包括如下步骤:
步骤S41:对语音数据进行第一特征提取,得到第一语音特征。
本公开实施例中,语音数据包括从待鉴别语音的时域波形上采样得到的若干数据点,具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S42:基于第一语音特征,划分得到顺序排列的多个语音子特征。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S43:对于各个语音子特征,将语音子特征与其前一个语音子特征进行特征交互,得到语音子特征对应的交互子特征,并基于各个语音子特征对应的交互子特征,得到融合语音特征。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S44:检测当前已经执行特征划分的总轮数,并判断总轮数是否不高于轮数阈值,若是则执行步骤S45,否则执行步骤S47。
具体地,每执行一次上述步骤S42,即可视为执行一轮特征划分。示例性地,在首次执行一次上述步骤S42时,可以基于的第一语音特征,划分得到顺序排列的四个语音子特征,则可以视为已经执行一轮特征划分。进一步地,在下一次执行步骤S42之后,即可视为已经执行两轮特征划分,以此类推,在此不再一一举例。此外,轮数阈值具体可以根据实际应用情况进行设置,如可以设置为5、6、7、8等等,在此不做限定。
在一个实施场景中,如前述公开实施例所述,为了提升语音鉴别的效率,可以预先训练一个语音鉴别模型,且语音鉴别模型包括第一特征提取网络、交互特征提取网络和真假预测网络。进一步地,交互特征提取网络可以包括至少一个顺序连接的双路径特征提取块,用于执行上述步骤S42和步骤S43相关操作,则在利用交互特征提取网络进行特征交互过程中,可以检测交互特征提取网络中是否所有双路径特征提取块都已经执行过特征提取操作,若是则可以视为已经完成特征交互操作,否则可以通过剩余未执行特征提取操作的双路径特征提取块继续进行特征交互。也就是说,此时轮数阈值即为交互特征提取网络中双路径特征提取模块的总数。示例性地,交互特征提取网络所采用的网络结构可以根据实际应用需要设置为如表1所示。表1是交互特征提取网络一实施例的网络配置表。如表1所示,对于每种配置而言,每一阶段可以包括顺序连接的多组网络单元,每组网络单元包括双路径提取模块和池化层(如,一维最大池化层),即在图3所示的双路径提取模块之后,可以进一步连接一个池化层,以进行特征降维,且随着网络深度的加深,双路径提取模块的特征维度也从128到256变大。此外,相邻网络单元也顺序连接。需要说明的是,表1所示仅仅是实际应用过程中两种可能的网络配置,并不因此而限定语音鉴别模型实际的网络配置。
表1交互特征提取网络一实施例的网络配置表
网络阶段 | 网络配置1 | 网络配置2 |
第一阶段 | [双路径特征提取块(128),池化层]*2 | [双路径特征提取块(128),池化层]*2 |
第二阶段 | [双路径特征提取块(128),池化层]*2 | [双路径特征提取块(128),池化层]*2 |
第三阶段 | [双路径特征提取块(256),池化层]*5 | [双路径特征提取块(256),池化层]*5 |
第四阶段 | [双路径特征提取块(256),池化层]*2 | - |
步骤S45:将最新得到的融合语音特征作为新的第一语音特征。
具体地,在总轮数不高于轮数阈值的情况下,可以将最新得到的融合语音特征作为新的第一语音特征,并重新执行上述特征划分、特征交互等操作步骤。
步骤S46:重新执行步骤S42以及后续步骤。
具体可以参阅前述公开实施例中相关描述,在此不再赘述。
步骤S47:基于融合语音特征进行真假预测,得到待鉴别语音的鉴别结果。
具体地,在总轮数高于轮数阈值的情况下,可以结束上述循环操作,并基于最新得到的融合语音特征进行真假预测,得到待鉴别语音的鉴别结果。需要说明的是,本公开实施例中,鉴别结果包括待鉴别语音为真实语音、待鉴别语音为虚假语音中任一者,具体可以参阅前述公开实施例中相关描述,在此不再赘述。
上述方案,在基于融合语音特征进行真假预测,得到待鉴别语音的鉴别结果之前,检测当前已经执行特征划分的总轮数,并响应于总轮数不高于轮数阈值,将最新得到的融合语音特征作为新的第一语音特征,以及重新执行基于第一语音特征,划分得到顺序排列的多个语音子特征的步骤以及后续步骤,故能够在语音鉴别过程中通过多次特征交互进一步提升特征接受域,并降低关键信息丢失的可能性,有利于进一步提升语音鉴别的准确性。
请参阅图5,图5是训练语音鉴别模型一实施例的流程示意图。本公开实施例中,语音鉴别模型是基于真假预测损失和特征比对损失训练得到的,一方面通过真假预测损失的约束,能够提升语音鉴别模型真假预测的准确性,另一方面通过特征比对损失的约束,能够尽可能地缩小类内特征之间的差异,并扩大类间特征之间的差异,从而能够促进真假预测的准确性。具体而言,本公开实施例可以包括如下步骤:
步骤S51:获取样本语音数据。
本公开实施例中,样本语音数据包括从样本语音的时域波形上采样得到的若干样本数据点,具体可以参阅前述公开实施例中关于语音数据的相关描述,在此不再赘述。
本公开实施例中,样本语音还可以标注有样本标记,且样本标记表示样本语音实际所属的真假类别。例如,可以用数字“1”标记样本语音为真实语音,用数字“0”标记样本语音为虚假语音,在此不做限定。
步骤S52:利用第一特征提取网络对样本语音数据进行第一特征提取,得到第一样本语音特征。
具体可以参阅前述公开实施例中关于第一特征提取的相关描述,在此不再赘述。
步骤S53:利用交互特征提取网络对第一样本语音特征进行交互处理,得到融合样本语音特征。
具体可以参阅前述公开实施例中关于特征交互的相关描述,在此不再赘述。
步骤S54:利用真假预测网络对融合样本语音特征进行真假预测,得到样本语音的预测标记。
本公开实施例中,预测标记表示样本语音预测所属的真假类别,例如,在预测标记为数字“1”时,可以认为样本语音预测为真实语音,而在预测标记为数字“0”时,可以认为样本语音预测为虚假语音。其他情况可以以此类推,在此不再一一举例。
步骤S55:基于样本标记与预测标记之间的差异,得到真假预测损失,并基于正例特征对之间的相似度以及负例特征对之间的相似度,得到特征比对损失。
在一个实施场景中,可以采用诸如Cross Entropy loss(即交叉熵损失)、AM-softmax-loss等分类损失函数处理样本标记与预测标记之间的差异,得到真假预测损失。示例性地,以AM-softmax-loss为例,真假预测损失可以表示为:
上述公式(2)中,N表示在通过mini-batch训练时,批样本中样本语音的数量,s为尺度因子,用于加速收敛,m为角度余量,通过控制m,可以达到使同类相似度比最大的非同类相似度更大的目的,C代表分类数量,本公开实施例中,C为2(即虚假语音和真实语音两种),表示第i个样本语音经模型输出的特征向量与第yi类的法向量之间的余弦角度,具体可以视为预测概率值(即预测为真实语音的预测概率值,或预测为虚假语音的预测概率值)。此外,上述尺度因子s、角度余量m的具体数值可以根据实际应用情况进行设置,在此对其具体数值不做限定。
本公开实施例中,正例特征对包括具有相同样本标记的样本语音对应的融合样本语音特征,负例特征对包括具有不同样本标记的样本语音对应的融合样本语音特征。需要说明的是,在语音鉴别模型进一步包括第二特征提取网络的情况下,融合样本语音特征经第二特征提取网络进行特征提取之后,可以进一步包括第二样本语音特征,则可以基于第二样本语音特征进行真假预测,具体可以参阅前述公开实施例中相关描述,在此不再赘述。在此基础上,正例特征对包括具有相同样本标记的样本语音对应的第二样本语音特征,负例特征对包括具有不同样本标记的样本语音对应的第二样本语音特征。
在一个实施场景中,可以采用诸如Circle-loss、Triplet-loss等特征比对损失函数处理正例特征对之间的相似度以及负例特征对之间的相似度,得到特征比对损失。示例性地,以Circle-loss为例,特征比对损失可以表示为:
上述公式(3)中,N表示在通过mini-batch训练时,批样本中样本语音的数量,s为尺度因子,用于加速收敛,m为角度余量,通过控制m,C代表分类数量,本公开实施例中,C为2(即虚假语音和真实语音两种)。sp表示正例特征对之间的相似度(即类内相似度),sn表示负例特征对之间的相似度(即类间相似度)。此外,上述尺度因子s、角度余量m的具体数值可以根据实际应用情况进行设置,在此对其具体数值不做限定。该损失函数的目标时将sp朝着1优化,并将sn朝着0优化,从而使得类内更加紧凑的同时,使得类间距离更大。
步骤S56:基于真假预测损失和特征比对损失,调整语音鉴别模型的网络参数。
具体地,可以利用第一权重、第二权重分别对真假预测损失、特征比对损失进行加权处理,得到加权损失,并基于加权损失,调整语音鉴别模型的网络参数,且第一权重高于第二权重。上述方式,通过对真假预测损失、特征比对损失进行加权,且真假预测损失的权重大于特征比对损失的权重,能够在训练过程中重点参考真假预测损失,并辅以参考特征比对损失,故能够在提升语音鉴别模型真假预测的准确性的同时,尽可能地缩小类内特征之间的差异,并扩大类间特征之间的差异,从而能够促进真假预测的准确性。
在一个实施场景中,示例性地,第一权重可以设置为4,第二权重可以设置为1。当然,实际应用过程中,第一权重、第二权重可以根据需要进行设置为请他数值,在此不做限定。
在一个实施场景中,可以基于梯度下降等优化方式,调整语音鉴别模型的网络参数,具体调整过程可以参阅诸如梯度下降等优化方式的技术细节,在此不再赘述。
上述方案,一方面通过真假预测损失的约束,能够提升语音鉴别模型真假预测的准确性,另一方面通过特征比对损失的约束,能够尽可能地缩小类内特征之间的差异,并扩大类间特征之间的差异,从而能够促进真假预测的准确性。
请参阅图6,图6是本申请语音鉴别装置60一实施例的框架示意图。语音鉴别装置60包括:第一提取模块61、特征划分模块62、特征交互模块63和真假预测模块64,第一提取模块61,用于对语音数据进行第一特征提取,得到第一语音特征;其中,语音数据包括从待鉴别语音的时域波形上采样得到的若干数据点;特征划分模块62,用于基于第一语音特征,划分得到顺序排列的多个语音子特征;特征交互模块63,用于对于各个语音子特征,将语音子特征与其前一个语音子特征进行特征交互,得到语音子特征对应的交互子特征,并基于各个语音子特征对应的交互子特征,得到融合语音特征;真假预测模块64,用于基于融合语音特征进行真假预测,得到待鉴别语音的鉴别结果;其中,鉴别结果包括待鉴别语音为真实语音、待鉴别语音为虚假语音中任一者。
上述方案,一方面由于直接在原始的时域波形基础上进行真假鉴别,而不再依赖于人工设计的声学特征,能够最大程度地保留数据原始信息,另一方面通过将第一语音特征划分为多个语音子特征,并将相邻语音子特征进行特征交互,能够充分利用连续语音片段之间的依赖性,有利于提升特征接受域,且降低关键信息丢失的可能性,从而能够在面对已知或未知的虚假语音攻击方式时都能保证优秀的泛化能力,进而能够提升语音鉴别的准确性。
在一些公开实施例中,特征交互模块63包括第一尺度提取子模块,用于分别将各个语音子特征作为当前子特征,并提取当前子特征的前一个语音子特征的第一尺度特征;特征交互模块63包括第二尺度提取子模块,用于结合当前子特征与第一尺度特征,提取得到当前子特征对应的第二尺度特征,作为当前子特征对应的交互子特征;其中,第一尺度特征与当前子特征具有相同尺度,且与第二尺度特征具有不同尺度。
因此,通过提取当前子特征的前一个语音子特征的第一尺度特征,且第一尺度特征与当前子特征具有相同尺度,基于此再结合当前子特征与第一尺度特征,提取得到当前子特征对应的第二尺度特征,作为当前子特征对应的交互子特征,故不仅可以尽可能地保留数据原始信息,还能够在不同尺度层面进行特征交互,有利于进一步地提升特征接受域。
在一些公开实施例中,第二尺度提取子模块包括融合单元,用于将当前子特征与其前一个语音子特征提取得到的第一尺度特征进行融合,得到当前子特征对应的融合子特征;第二尺度提取子模块包括提取单元,用于对融合子特征进行特征提取,得到当前子特征对应的第二尺度特征。
因此,通过简单融合以及特征提取等操作,即可实现语音子特征与其前一个语音子特征进行交互,从而使得每一语音子特征对应的交互子特征不仅可以保留其自身的特征信息,也可以保留与其时序连续的语音子特征的特征信息,能够显著提升特征接受域。
在一些公开实施例中,特征交互模块63包括特征拼接子模块,用于将各个语音子特征对应的交互子特征进行拼接,得到拼接语音特征;特征交互模块63包括特征融合子模块,用于将第一语音特征和拼接语音特征进行融合,得到融合语音特征。
因此,通过将各个语音子特征对应的交互子特征进行拼接,得到拼接语音特征,并将第一语音特征和拼接语音特征进行融合,得到融合语音特征,能够在特征交互过程中进一步尽可能地保留数据原始信息,提升特征接受域。
在一些公开实施例中,语音鉴别装置60还包括轮数检测模块,用于检测当前已经执行特征划分的总轮数;语音鉴别装置60还包括特征更新模块和循环执行模块,特征更新模块用于响应于总轮数不高于轮数阈值,将最新得到的融合语音特征作为新的第一语音特征,循环执行模块用于结合特征划分模块62、特征交互模块63重新执行基于第一语音特征,划分得到顺序排列的多个语音子特征的步骤以及后续步骤。
因此,在基于融合语音特征进行真假预测,得到待鉴别语音的鉴别结果之前,检测当前已经执行特征划分的总轮数,并响应于总轮数不高于轮数阈值,将最新得到的融合语音特征作为新的第一语音特征,以及重新执行基于第一语音特征,划分得到顺序排列的多个语音子特征的步骤以及后续步骤,故能够在语音鉴别过程中通过多次特征交互进一步提升特征接受域,并降低关键信息丢失的可能性,有利于进一步提升语音鉴别的准确性。
在一些公开实施例中,真假预测模块64包括深层特征提取子模块,用于对融合语音特征进行第二特征提取,得到第二语音特征;真假预测模块64包括鉴别结果获取子模块,用于基于第二语音特征进行真假预测,得到鉴别结果。
因此,在得到融合语音特征之后,进一步对其进行第二特征提取,得到第二语音特征,并在第二语音特征的基础上进行真假预测,能够有利于提取深层特征,提升真假预测的准确性。
在一些公开实施例中,鉴别结果是利用语音鉴别模型对语音数据进行鉴别得到的,且语音鉴别模型包括第一特征提取网络、交互特征提取网络和真假预测网络;其中,第一特征提取网络用于执行第一特征提取,交互特征提取网络用于执行基于第一语音特征,划分得到顺序排列的多个语音子特征的步骤以及后续步骤,真假预测网络用于执行真假预测。
因此,通过语音鉴别模型对语音数据进行鉴别得到鉴别结果,且语音鉴别模型包括第一特征提取网络、交互特征提取网络和真假预测网络,第一特征提取网络用于执行第一特征提取,交互特征提取网络用于执行基于第一语音特征,划分得到顺序排列的多个语音子特征的步骤以及后续步骤,真假预测网络用于执行真假预测,即在语音鉴别过程中,能够通过语音鉴别模型所包含的各个网络执行相应步骤,有利于提升语音鉴别效率。
在一些公开实施例中,交互特征提取网络包括至少一个顺序连接的双路径特征提取块,双路径特征提取块包括第一卷积核和第二卷积核,第一卷积核用于提取各个语音子特征前一个语音子特征的第一尺度特征,第二卷积核用于提取融合子特征的第二尺度特征作为交互子特征,融合子特征是由语音子特征及其前一个语音子特征提取得到的第一尺度特征融合得到的,且第一卷积核的尺寸小于第二卷积核的尺寸。
因此,通过设置第一卷积核和第二卷积核分别提取第一尺度特征和第二尺度特征,且第一卷积核的尺寸小于第二卷积核的尺寸,能够实现各个语音子特征之间的信息交换,有利于在面对未知的虚假语音攻击方式时提升其鉴别性能。
在一些公开实施例中,真假预测网络包括第二特征提取网络和鉴别网络,且第二特征提取网络包括长短期记忆网络、循环神经网络、门控循环单元中至少一者,第二特征提取网络用于对融合语音特征进行第二特征提取,得到第二语音特征,鉴别网络用于基于第二语音特征进行真假预测,得到鉴别结果。
因此,能够对待鉴别语音的时域特征进行捕捉,有利于进一步提升第二语音特征的准确性。
在一些公开实施例中,第一特征提取网络至少包括卷积层,卷积层包括预设尺寸的一维卷积核。
因此,通过将第一特征提取网络设置为至少包括卷积层,且卷积层包括预设尺寸的一维卷积核,能够在时间维度对若干数据点进行特征提取,从而得以提取局部连续数据点的特征信息,进而可以最大可能地保留数据原始信息。
在一些公开实施例中,语音鉴别模型是基于真假预测损失和特征比对损失训练得到的。
因此,一方面通过真假预测损失的约束,能够提升语音鉴别模型真假预测的准确性,另一方面通过特征比对损失的约束,能够尽可能地缩小类内特征之间的差异,并扩大类间特征之间的差异,从而能够促进真假预测的准确性。
在一些公开实施例中,语音鉴别装置60还包括样本数据获取模块,用于获取样本语音数据;其中,样本语音数据包括从样本语音的时域波形上采样得到的若干样本数据点,且样本语音标注有样本标记,样本标记表示样本语音实际所属的真假类别;语音鉴别装置60还包括样本特征提取模块,用于利用第一特征提取网络对样本语音数据进行第一特征提取,得到第一样本语音特征;语音鉴别装置60还包括样本特征交互模块,用于利用交互特征提取网络对第一样本语音特征进行交互处理,得到融合样本语音特征;语音鉴别装置60还包括样本真假预测模块,用于利用真假预测网络对融合样本语音特征进行真假预测,得到样本语音的预测标记;其中,预测标记表示样本语音预测所属的真假类别;语音鉴别装置60还包括模型损失计算模块,用于基于样本标记与预测标记之间的差异,得到真假预测损失,并基于正例特征对之间的相似度以及负例特征对之间的相似度,得到特征比对损失;其中,正例特征对包括具有相同样本标记的样本语音对应的融合样本语音特征,负例特征对包括具有不同样本标记的样本语音对应的融合样本语音特征;语音鉴别装置60还包括网络参数调整模块,用于基于真假预测损失和特征比对损失,调整语音鉴别模型的网络参数。
因此,一方面通过真假预测损失的约束,能够提升语音鉴别模型真假预测的准确性,另一方面通过特征比对损失的约束,能够尽可能地缩小类内特征之间的差异,并扩大类间特征之间的差异,从而能够促进真假预测的准确性。
在一些公开实施例中,网络参数调整模块包括损失加权子模块,用于利用第一权重、第二权重分别对真假预测损失、特征比对损失进行加权处理,得到加权损失;网络参数调整模块包括参数调整子模块,用于基于加权损失,调整语音鉴别模型的网络参数;其中,第一权重高于第二权重。
因此,通过对真假预测损失、特征比对损失进行加权,且真假预测损失的权重大于特征比对损失的权重,能够在训练过程中重点参考真假预测损失,并辅以参考特征比对损失,故能够在提升语音鉴别模型真假预测的准确性的同时,尽可能地缩小类内特征之间的差异,并扩大类间特征之间的差异,从而能够促进真假预测的准确性。
请参阅图7,图7是本申请电子设备70一实施例的框架示意图。电子设备70包括相互耦接的存储器71和处理器72,存储器71中存储有程序指令,处理器72用于执行程序指令以实现上述任一语音鉴别方法实施例中的步骤。具体地,电子设备70可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
具体而言,处理器72用于控制其自身以及存储器71以实现上述任一语音鉴别方法实施例中的步骤。处理器72还可以称为CPU(Central Processing Unit,中央处理单元)。处理器72可能是一种集成电路芯片,具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器72可以由集成电路芯片共同实现。
上述方案,一方面由于直接在原始的时域波形基础上进行真假鉴别,而不再依赖于人工设计的声学特征,能够最大程度地保留数据原始信息,另一方面通过将第一语音特征划分为多个语音子特征,并将相邻语音子特征进行特征交互,能够充分利用连续语音片段之间的依赖性,有利于提升特征接受域,且降低关键信息丢失的可能性,从而能够在面对已知或未知的虚假语音攻击方式时都能保证优秀的泛化能力,进而能够提升语音鉴别的准确性。
请参阅图8,图8是本申请计算机可读存储介质80一实施例的框架示意图。计算机可读存储介质80存储有能够被处理器运行的程序指令81,程序指令81用于实现上述任一语音鉴别方法实施例中的步骤。
上述方案,一方面由于直接在原始的时域波形基础上进行真假鉴别,而不再依赖于人工设计的声学特征,能够最大程度地保留数据原始信息,另一方面通过将第一语音特征划分为多个语音子特征,并将相邻语音子特征进行特征交互,能够充分利用连续语音片段之间的依赖性,有利于提升特征接受域,且降低关键信息丢失的可能性,从而能够在面对已知或未知的虚假语音攻击方式时都能保证优秀的泛化能力,进而能够提升语音鉴别的准确性。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (16)
1.一种语音鉴别方法,其特征在于,包括:
对语音数据进行第一特征提取,得到第一语音特征;其中,所述语音数据包括从待鉴别语音的时域波形上采样得到的若干数据点;
基于所述第一语音特征,划分得到顺序排列的多个语音子特征;
对于各个所述语音子特征,将所述语音子特征与其前一个所述语音子特征进行特征交互,得到所述语音子特征对应的交互子特征,并基于各个所述语音子特征对应的交互子特征,得到融合语音特征;
基于所述融合语音特征进行真假预测,得到所述待鉴别语音的鉴别结果;其中,所述鉴别结果包括所述待鉴别语音为真实语音、所述待鉴别语音为虚假语音中任一者。
2.根据权利要求1所述的方法,其特征在于,所述将所述语音子特征与其前一个所述语音子特征进行特征交互,得到所述语音子特征对应的交互子特征,包括:
分别将各个所述语音子特征作为当前子特征,并提取所述当前子特征的前一个所述语音子特征的第一尺度特征;
结合所述当前子特征与所述第一尺度特征,提取得到所述当前子特征对应的第二尺度特征,作为所述当前子特征对应的交互子特征;
其中,所述第一尺度特征与所述当前子特征具有相同尺度,且与所述第二尺度特征具有不同尺度。
3.根据权利要求2所述的方法,其特征在于,所述结合所述当前子特征与所述第一尺度特征,提取得到所述当前子特征对应的第二尺度特征,包括:
将所述当前子特征与其前一个所述语音子特征提取得到的第一尺度特征进行融合,得到所述当前子特征对应的融合子特征;
对所述融合子特征进行特征提取,得到所述当前子特征对应的第二尺度特征。
4.根据权利要求1所述的方法,其特征在于,所述基于各个所述语音子特征对应的交互子特征,得到融合语音特征,包括:
将各个所述语音子特征对应的交互子特征进行拼接,得到拼接语音特征;
将所述第一语音特征和所述拼接语音特征进行融合,得到所述融合语音特征。
5.根据权利要求1所述的方法,其特征在于,在所述基于所述融合语音特征进行真假预测,得到所述待鉴别语音的鉴别结果之前,所述方法还包括:
检测当前已经执行特征划分的总轮数;
响应于所述总轮数不高于轮数阈值,将最新得到的融合语音特征作为新的第一语音特征,并重新执行所述基于所述第一语音特征,划分得到顺序排列的多个语音子特征的步骤以及后续步骤。
6.根据权利要求1所述的方法,其特征在于,所述基于所述融合语音特征进行真假预测,得到所述待鉴别语音的鉴别结果,包括:
对所述融合语音特征进行第二特征提取,得到第二语音特征;
基于所述第二语音特征进行真假预测,得到所述鉴别结果。
7.根据权利要求1所述的方法,其特征在于,所述鉴别结果是利用语音鉴别模型对所述语音数据进行鉴别得到的,且所述语音鉴别模型包括第一特征提取网络、交互特征提取网络和真假预测网络;
其中,所述第一特征提取网络用于执行所述第一特征提取,所述交互特征提取网络用于执行所述基于所述第一语音特征,划分得到顺序排列的多个语音子特征的步骤以及后续步骤,所述真假预测网络用于执行所述真假预测。
8.根据权利要求7所述的方法,其特征在于,所述交互特征提取网络包括至少一个顺序连接的双路径特征提取块,所述双路径特征提取块包括第一卷积核和第二卷积核,所述第一卷积核用于提取各个所述语音子特征前一个所述语音子特征的第一尺度特征,所述第二卷积核用于提取融合子特征的第二尺度特征作为所述交互子特征,所述融合子特征是由所述语音子特征及其前一个所述语音子特征提取得到的第一尺度特征融合得到的,且所述第一卷积核的尺寸小于所述第二卷积核的尺寸。
9.根据权利要求7所述的方法,其特征在于,所述真假预测网络包括第二特征提取网络和鉴别网络,且所述第二特征提取网络包括长短期记忆网络、循环神经网络、门控循环单元中至少一者,所述第二特征提取网络用于对所述融合语音特征进行第二特征提取,得到第二语音特征,所述鉴别网络用于基于所述第二语音特征进行真假预测,得到所述鉴别结果。
10.根据权利要求7所述的方法,其特征在于,所述第一特征提取网络至少包括卷积层,所述卷积层包括预设尺寸的一维卷积核。
11.根据权利要求7所述的方法,其特征在于,所述语音鉴别模型是基于真假预测损失和特征比对损失训练得到的。
12.根据权利要求11所述的方法,其特征在于,所述语音鉴别模型的训练步骤包括:
获取样本语音数据;其中,所述样本语音数据包括从样本语音的时域波形上采样得到的若干样本数据点,且样本语音标注有样本标记,所述样本标记表示所述样本语音实际所属的真假类别;
利用所述第一特征提取网络对所述样本语音数据进行第一特征提取,得到第一样本语音特征;
利用所述交互特征提取网络对所述第一样本语音特征进行交互处理,得到融合样本语音特征;
利用所述真假预测网络对所述融合样本语音特征进行真假预测,得到所述样本语音的预测标记;其中,所述预测标记表示所述样本语音预测所属的真假类别;
基于所述样本标记与所述预测标记之间的差异,得到所述真假预测损失,并基于正例特征对之间的相似度以及负例特征对之间的相似度,得到所述特征比对损失;其中,所述正例特征对包括具有相同所述样本标记的样本语音对应的融合样本语音特征,所述负例特征对包括具有不同所述样本标记的样本语音对应的融合样本语音特征;
基于所述真假预测损失和所述特征比对损失,调整所述语音鉴别模型的网络参数。
13.根据权利要求12所述的方法,其特征在于,所述基于所述真假预测损失和所述特征比对损失,调整所述语音鉴别模型的网络参数,包括:
利用第一权重、第二权重分别对所述真假预测损失、所述特征比对损失进行加权处理,得到加权损失;
基于所述加权损失,调整所述语音鉴别模型的网络参数;
其中,所述第一权重高于所述第二权重。
14.一种语音鉴别装置,其特征在于,包括:
第一提取模块,用于对语音数据进行第一特征提取,得到第一语音特征;其中,所述语音数据包括从待鉴别语音的时域波形上采样得到的若干数据点;
特征划分模块,用于基于所述第一语音特征,划分得到顺序排列的多个语音子特征;
特征交互模块,用于对于各个所述语音子特征,将所述语音子特征与其前一个所述语音子特征进行特征交互,得到所述语音子特征对应的交互子特征,并基于各个所述语音子特征对应的交互子特征,得到融合语音特征;
真假预测模块,用于基于所述融合语音特征进行真假预测,得到所述待鉴别语音的鉴别结果;其中,所述鉴别结果包括所述待鉴别语音为真实语音、所述待鉴别语音为虚假语音中任一者。
15.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至13任一项所述的语音鉴别方法。
16.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至13任一项所述的语音鉴别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111395015.9A CN114333840A (zh) | 2021-11-23 | 2021-11-23 | 语音鉴别方法及相关装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111395015.9A CN114333840A (zh) | 2021-11-23 | 2021-11-23 | 语音鉴别方法及相关装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114333840A true CN114333840A (zh) | 2022-04-12 |
Family
ID=81047180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111395015.9A Pending CN114333840A (zh) | 2021-11-23 | 2021-11-23 | 语音鉴别方法及相关装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114333840A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115345968A (zh) * | 2022-10-19 | 2022-11-15 | 北京百度网讯科技有限公司 | 虚拟对象驱动方法、深度学习网络的训练方法及装置 |
-
2021
- 2021-11-23 CN CN202111395015.9A patent/CN114333840A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115345968A (zh) * | 2022-10-19 | 2022-11-15 | 北京百度网讯科技有限公司 | 虚拟对象驱动方法、深度学习网络的训练方法及装置 |
CN115345968B (zh) * | 2022-10-19 | 2023-02-07 | 北京百度网讯科技有限公司 | 虚拟对象驱动方法、深度学习网络的训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110362677B (zh) | 文本数据类别的识别方法及装置、存储介质、计算机设备 | |
CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
US20040260550A1 (en) | Audio processing system and method for classifying speakers in audio data | |
US20150199960A1 (en) | I-Vector Based Clustering Training Data in Speech Recognition | |
CN109360572B (zh) | 通话分离方法、装置、计算机设备及存储介质 | |
US20200125836A1 (en) | Training Method for Descreening System, Descreening Method, Device, Apparatus and Medium | |
CN109410956B (zh) | 一种音频数据的对象识别方法、装置、设备及存储介质 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
KR101140896B1 (ko) | 음성 세그먼트화를 위한 방법 및 장치 | |
CN114333840A (zh) | 语音鉴别方法及相关装置、电子设备和存储介质 | |
CN114169439A (zh) | 异常通信号码的识别方法、装置、电子设备和可读介质 | |
WO2024093578A1 (zh) | 语音识别方法、装置、电子设备、存储介质及计算机程序产品 | |
CN108847251A (zh) | 一种语音去重方法、装置、服务器及存储介质 | |
CN113450806A (zh) | 语音检测模型的训练方法以及相关方法、装置、设备 | |
CN111968650A (zh) | 语音匹配方法、装置、电子设备及存储介质 | |
CN115116458B (zh) | 语音数据转换方法、装置、计算机设备及存储介质 | |
Bui et al. | A non-linear GMM KL and GUMI kernel for SVM using GMM-UBM supervector in home acoustic event classification | |
CN113111855B (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
CN116386664A (zh) | 一种语音伪造检测方法、装置、系统及存储介质 | |
CN114495911A (zh) | 说话人聚类方法、装置及设备 | |
CN111081221B (zh) | 训练数据选择方法、装置、电子设备及计算机存储介质 | |
CN114023336A (zh) | 模型训练方法、装置、设备以及存储介质 | |
CN106373576A (zh) | 一种基于vq和svm算法的说话人确认方法及其系统 | |
CN113782033B (zh) | 一种声纹识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |