CN113284486B

CN113284486B - 一种环境对抗的鲁棒语音鉴别方法

Info

Publication number: CN113284486B
Application number: CN202110841144.XA
Authority: CN
Inventors: 易江燕; 陶建华; 傅睿博; 田正坤
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-11-16
Anticipated expiration: 2041-07-26
Also published as: CN113284486A

Abstract

本发明提供一种环境对抗的鲁棒语音鉴别方法，包括：采集语音鉴别模型训练数据；提取所述训练数据中每个语音句子的训练声学特征；将所述训练声学特征输入语音鉴别模型，所述语音鉴别模型包括：语音真假判别器和环境对抗判别器，联合优化语音鉴别模型的语音真假判别器和环境对抗判别器的损失函数；得到训练后的语音鉴别模型；采集语音鉴别模型预测数据；提取所述预测数据中每个语音句子的预测声学特征；将所述预测声学特征输入训练后的去除环境对抗判别器的所述语音鉴别模型，输出语音的判别结果。

Description

一种环境对抗的鲁棒语音鉴别方法

技术领域

本发明涉及语音鉴别领域，具体涉及一种环境对抗的鲁棒语音鉴别方法。

背景技术

随着语音合成与转换技术的日益成熟，该技术生成的语音已能达到欺骗人类或机器的程度，在智能导航、智能机器人、有声阅读、儿童手表、人机交互等领域有着广泛的应用。但是，不法分子的恶意利用却带来严重的危害，因此急需对生成语音进行鉴别。国内外关于语音鉴别的技术已从特征参数选取和模型结构设计两个层面展开了一些有益的尝试。

公开号CN112201258A公开了一种基于AMBP的噪声鲁棒性伪装语音检测方法，包括：S11.将含噪声的语音转换为语谱图；S12.采用自适应中位数二进制模式AMBP算法对语谱图进行特征提取，得到语音的纹理特征向量；S13.利用得到的语音纹理特征向量训练支持向量机，得到语音分类模型，并利用语音分类模型对语音进行检测分类，得到分类结果。

现有技术缺点：

现有语音鉴别技术主要聚焦于鉴别干净语音的真假，这导致当前鉴别模型鲁棒性差，难以有效鉴别加噪或加背景音乐的语音的真假。噪声或背景音乐会弱化生成语音的生成痕迹，因此相较于干净语音，带噪声或背景音乐的生成语音更难鉴别。公开号CN112201258A提出了将带噪语音转为语谱图提取特征，然后利用支持向量机进行鉴别，该方法很难学习到生成痕迹的鉴别性特征。

发明内容

有鉴于此，本发明提供一种环境对抗的鲁棒语音鉴别方法，所述方法包括：

S1：采集语音鉴别模型训练数据；

S2：提取所述训练数据中每个语音句子的训练声学特征；

S3：将所述训练声学特征输入语音鉴别模型，所述语音鉴别模型包括：语音真假判别器和环境对抗判别器；

S4：联合优化语音鉴别模型的语音真假判别器和环境对抗判别器的损失函数，得到训练后的语音鉴别模型；

S5：采集语音鉴别模型预测数据；

S6：提取所述预测数据中每个语音句子的预测声学特征；

S7：将所述预测声学特征输入训练后的去除环境对抗判别器的所述语音鉴别模型，输出语音的判别结果。

优选的，所述训练数据包括：干净的真假音频数据和加噪声的真假音频数据。

优选的，所述声学特征为常数Q谱系数，即CQCC。

优选的，所述语音鉴别模型还包括：共享隐层、语音真假判别器和环境对抗判别器；所述共享隐层分别与语音真假判别器和环境对抗判别器连接。

优选的，所述将所述训练声学特征输入语音鉴别模型，包括：将所述训练声学特征输入所述共享隐层，所述共享隐层的输出分别输入语音鉴别模型的语音真假判别器和环境对抗判别器。

优选的，所述共享隐层由八层残差网络隐层构成，语音真假判别器由两个自注意力网络隐层和一个输出层构成，环境对抗判别器由两个自注意力网络隐层和一个输出层构成。

优选的，所述语音真假判别器L _Det和环境对抗判别器的损失函数L _Env的具体公式为：

其中，d表示语音的真假类别，C表示语音的真假类别总数，e表示语音的环境类别，K表示语音的环境类别总数，i表示某一帧语音的序号，N表示所有语音帧总数，P表示概率；θ ^d表示语音真假判别器的参数，θ ^e表示环境对抗判别器的参数，θ ^s表示共享隐层的参数。

优选的，所述联合优化语音鉴别模型的语音真假判别器和环境对抗判别器的损失函数的具体公式为：

其中，α表示L _Det的权重，β表示L _Env的权重。

优选的，所述α和β的取值范围均为[0,1]。

优选的，所述联合优化语音鉴别模型的语音真假判别器和环境对抗判别器的损失函数，训练过程中语音鉴别模型参数的更新表示为：

其中，δ表示模型的学习速率。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

通过引入环境对抗训练策略，实现让模型不仅学习能鉴别真假语音的区分性特征，而且能学习不受环境干扰的特征，从而提高模型的鉴别准确率，增强模型的鲁棒性。

附图说明

图1为本发明实施例提供的一种环境对抗的鲁棒语音鉴别方法训练过程流程图；

图2为本发明实施例提供的一种环境对抗的鲁棒语音鉴别方法训练过程流程简图；

图3为本发明实施例提供的一种环境对抗的鲁棒语音鉴别方法预测过程流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例1：

如图1所示，本实施例提供一种环境对抗的鲁棒语音鉴别方法，所述方法包括：

S1：采集语音鉴别模型训练数据；

S2：提取所述训练数据中每个语音句子的训练声学特征；

S5：采集语音鉴别模型预测数据；

S6：提取所述预测数据中每个语音句子的预测声学特征；

在一些具体的实施例中，所述训练数据包括：干净的真假音频数据和加噪声的真假音频数据。

根据上述方案，进一步，所述声学特征为常数Q谱系数，即CQCC。

在一些具体的实施例中，所述语音鉴别模型还包括：共享隐层、语音真假判别器和环境对抗判别器；所述共享隐层分别与语音真假判别器和环境对抗判别器连接。

根据上述方案，进一步，所述将所述训练声学特征输入语音鉴别模型，包括：将所述训练声学特征输入所述共享隐层，所述共享隐层的输出分别输入语音鉴别模型的语音真假判别器和环境对抗判别器。

根据上述方案，进一步，所述共享隐层由八层残差网络隐层构成，语音真假判别器由两个自注意力网络隐层和一个输出层构成，环境对抗判别器由两个自注意力网络隐层和一个输出层构成。

具体的，所述语音真假判别器L _Det和环境对抗判别器的损失函数L _Env的具体公式为：

在一些实施例中，所述联合优化语音鉴别模型的语音真假判别器和环境对抗判别器的损失函数的具体公式为：

其中，α表示L _Det的权重，β表示L _Env的权重。

根据上述方案，进一步，所述α和β的取值范围均为[0,1]。

进一步，所述联合优化语音鉴别模型的语音真假判别器和环境对抗判别器的损失函数，训练过程中语音鉴别模型参数的更新表示为：

其中，δ表示模型的学习速率。

实施例2：

如图1-图3所示本申请实施例提供的环境对抗的鲁棒语音鉴别方法，包括：

如图2所示为训练过程：

S1：采集干净的真假音频数据和加噪声的真假音频数据作为语音鉴别模型训练数据；

S2：提取所述训练数据中每个语音句子的常数Q谱系数，即CQCC作为训练声学特征；

所述检测模型包括一个共享隐层和两个判别器，两个判别器包括：语音真假判别器和环境对抗判别器

S3：将所述训练声学特征输入所述语音鉴别模型的共享隐层，共享隐层由八层残差网络隐层构成，所述共享隐层的输出分别输入语音鉴别模型的语音真假判别器和环境对抗判别器，语音真假判别器由两个自注意力网络隐层和一个输出层构成，环境对抗判别器由两个自注意力网络隐层和一个输出层构成。

语音真假判别器和环境对抗器的训练损失函数分别表示为L _Det和L _Env

其中，d表示语音的真假类别，C表示语音的真假类别总数，e表示语音的环境类别，K表示语音的环境类别总数，i表示某一帧语音的序号，N表示所有语音帧总数，P表示概率；θ ^d表示语音真假判别器的参数，θ ^e表示环境对抗判别器的参数，θ ^s表示共享隐层的参数；

为了使得语音鉴别模型在训练的过程中，使得语音鉴别模型能最大程度区分语音的真假，但很难分别出这些真假语音的环境类别，即不仅学习能鉴别真假语音的区分性特征，而且能学习不受环境干扰的特征。该思想通过联合优化语音真假判别器和环境对抗判别器的损失函数来实现。训练语音鉴别模型的最终损失函数表示为：L _Total；

其中，α表示L _Det的权重，β表示L _Env的权重，所述α=0.7，β=0.3；

S5：优化所述语音鉴别模型的训练损失函数，具体过程为：

训练过程中语音鉴别模型参数的更新表示为：

其中，δ表示模型的学习速率；

得到训练后的语音鉴别模型；

如图2所示为预测过程：

S6：采集语音鉴别模型预测数据；

S7：提取所述预测数据中每个语音句子的预测声学特征，所述声学特征为常数Q谱系数，即CQCC；

S8：将所述预测声学特征输入训练后的去除环境对抗判别器的所述语音鉴别模型，输出语音的判别结果。

实施例3：

本发明还提供一种存储介质，用于执行和存储上述实施例1所述的方法。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD-ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种环境对抗的鲁棒语音鉴别方法，其特征在于，所述方法包括：

S1：采集语音鉴别模型训练数据；

S2：提取所述训练数据中每个语音句子的训练声学特征；

S5：采集语音鉴别模型预测数据；

S6：提取所述预测数据中每个语音句子的预测声学特征；

S7：将所述预测声学特征输入训练后的去除环境对抗判别器的所述语音鉴别模型，输出语音的判别结果；

所述语音鉴别模型还包括：共享隐层；所述共享隐层分别与语音真假判别器和环境对抗判别器连接；

所述将所述训练声学特征输入语音鉴别模型，包括：将所述训练声学特征输入所述共享隐层，所述共享隐层的输出分别输入语音鉴别模型的语音真假判别器和环境对抗判别器；

所述共享隐层由八层残差网络隐层构成，语音真假判别器由两个自注意力网络隐层和一个输出层构成，环境对抗判别器由两个自注意力网络隐层和一个输出层构成；所述训练数据包括：干净的真假音频数据和加噪声的真假音频数据；

所述声学特征为常数Q谱系数，即CQCC；

所述语音真假判别器L _Det和环境对抗判别器的损失函数L _Env的具体公式为：

所述联合优化语音鉴别模型的语音真假判别器和环境对抗判别器的损失函数的具体公式为：

其中，α表示L _Det的权重，β表示L _Env的权重；

所述α和β的取值范围均为[0,1]。

2.根据权利要求1所述的环境对抗的鲁棒语音鉴别方法，其特征在于，所述联合优化语音鉴别模型的语音真假判别器和环境对抗判别器的损失函数，训练过程中语音鉴别模型参数的更新表示为：

其中，δ表示模型的学习速率。