CN113284508B

CN113284508B - 基于层级区分的生成音频检测系统

Info

Publication number: CN113284508B
Application number: CN202110827718.8A
Authority: CN
Inventors: 陶建华; 田正坤; 易江燕
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-11-09
Anticipated expiration: 2041-07-21
Also published as: US11763836B2; US20230027645A1; CN113284508A

Abstract

本发明提供基于层级区分的生成音频检测系统，包括：音频预处理模块、CQCC特征提取模块、LFCC特征提取模块、第一阶段轻量初步筛选模型和第二阶段深度鉴别模型；音频预处理模块对采集到的音视频数据进行数据预处理，得到长度不超过限定的音频片段；将音频片段分别输入CQCC特征提取模块和LFCC特征提取模块，得到CQCC特征和LFCC特征；将CQCC特征或者LFCC特征输入第一阶段轻量初步筛选模型进行第一阶段筛选，筛选出第一阶段真实语音和第一阶段生成语音；将第一阶段生成语音的CQCC特征或者LFCC特征输入所述第二阶段深度鉴别模型，鉴别出第二阶段真实语音和第二阶段生成语音，第二阶段生成语音确认为生成语音。

Description

基于层级区分的生成音频检测系统

技术领域

本发明涉及生成音频检测领域，具体涉及基于层级区分的生成音频检测系统。

背景技术

考虑到互联网世界中存在大量音频，每天产生的新的音频以TB甚至PB为单位来进行计算。要想从这些数据中准确的筛选出生成语音，如果直接使用一个精度较高的系统进行筛选，其计算量是巨大的，对于计算资源和时间的消耗会成为巨大的困难。

基于深度学习合成的语音已经在听感层面极其接近于原声，这从一方面肯定了语音合成以及转换等技术手段的进步，从另一个方面，也对于信息安全（包括针对声纹系统的攻击和模拟声音诈骗等犯罪手段）产生了极大的威胁。但是由于互联网世界中的真实语音和生成语音的数量级过于巨大，逐句的对其进行细致的研究分析所消耗的计算代价是空前的，并且随着互联网的发展，这一需求极有可能呈现指数级别的增长，进而增加对计算资源的需求。

公开号为CN112351047A一种基于双引擎的声纹身份认证方法、装置、设备及存储介质，涉及身份识别领域。该基于双引擎的声纹身份认证方法，包括：将待验证语音输入第一声纹识别引擎，获取输出的第一验证分数；若第一验证分数小于第一阈值、且大于第二阈值，则将待验证语音输入第二声纹识别引擎，获取输出的第二验证分数；比较第二验证分数与第三阈值，若第二验证分数大于或等于所述第三阈值，则确定验证通过。目前在生成音频检测领域，我们并没有检索到直接相关的专利。在相关的声纹识别领域，我们检索到有利用双引擎来进行声纹识别的方法。其于双引擎的声纹身份认证方法,包括：将待验证语音输入第一声纹识别引擎,获取输出的第一验证分数；若第一验证分数小于第一阈值、且大于第二阈值,则将待验证语音输入第二声纹识别引擎,获取输出的第二验证分数；比较第二验证分数与第三阈值,若第二验证分数大于或等于所述第三阈值,则确定验证通过。该实施例中,结合双引擎对待验证语音进行身份验证,即在第一声纹识别引擎验证不通过的情况下,利用第二声纹识别引擎,获取输出的第二验证分数,最终以第二验证分数作为是否通过身份认证的判断依据,提高了声纹识别结果的准确度。

现有技术缺点：现有的声纹识别系统的识别一般都是一阶段的模型，其无论是单模型还是多模型的集成系统，其在判别时都需要直接对真假语音进行输入，由于一阶段模型往往具有很高的准确率，因而模型结构通常相对复杂，计算量比较大，直接应用于超大量的音频数据进行鉴别，需要的计算量也是巨大的。

发明内容

有鉴于此，本发明提供一种基于层级区分的生成音频检测系统，两阶段生成音频检测系统。

具体地，本发明是通过如下技术方案实现的：一种基于层级区分的生成音频检测系统包括：

音频预处理模块、CQCC特征提取模块、LFCC特征提取模块、第一阶段轻量初步筛选模型和第二阶段深度鉴别模型；

所述音频预处理模块对采集到的音视频数据进行数据预处理，得到长度不超过限定的音频片段；

将所述音频片段分别输入所述CQCC特征提取模块和LFCC特征提取模块，得到CQCC特征和LFCC特征；

将所述CQCC特征或者LFCC特征输入第一阶段轻量初步筛选模型进行第一阶段筛选，筛选出第一阶段真实语音和第一阶段生成语音，所述第一阶段真实语音不需要进行第二阶段语音鉴别，所述第一阶段生成语音进行第二阶段语音鉴别；

将所述第一阶段生成语音的CQCC特征或者LFCC特征输入所述第二阶段深度鉴别模型，鉴别出第二阶段真实语音和第二阶段生成语音，所述第二阶段生成语音确认为生成语音。

优选的，所述第一阶段轻量初步筛选模型为轻量级卷积鉴别模型，采用卷积神经网络来进行构建。

优选的，所述第二阶段深度鉴别模型采用复杂度较高的单模型系统或者采用多个模型的集成。

优选的，所述数据预处理的具体方法包括：

对采集到的音频数据规整为单声道采样率为16k的音频，并以Wav格式进行存储；然后对规整后的音频进行静音检测，提出纯静音片段，并将所述纯静音片段保存为长度不超过限定的音频片段；

对于来自视频的音频，首先使用工具抽取其音轨，再对抽取到的音频数据规整为单声道采样率为16k的音频，并以Wav格式进行存储；然后对规整后的音频进行静音检测，提出纯静音片段，并将所述纯静音片段保存为长度不超过限定的音频片段。

优选的，所述第一阶段轻量初步筛选模型的输入还包括：

LFCC特征及所述LFCC特征的一阶差分和二阶差分构成的拼接特征；

CQCC特征及所述CQCC特征的一阶差分和二阶差分构成的拼接特征。

优选的，所述第二阶段深度鉴别模型的输入还包括：

优选的，所述轻量级卷积模型的具体结构包括11层，其中3层2D卷积层，7层瓶颈残差模块以及1层平均池化层；

平均池化层后通过线性映射，映射到2个维度，分别表示真伪语音，最终通过softmax操作求得输入语音属于真伪语音的概率。

优选的，所述进行第一阶段筛选，筛选出第一阶段真实语音和第一阶段生成语音的具体方法为：

在开发音频数据集上，通过计算ROC曲线，得到一阶段判别阈值，如果第一阶段轻量初步筛选模型鉴别输入语音为生成的概率大于所述一阶段判别阈值，则将所述输入语音作为第一阶段生成语音，如果第一阶段轻量初步筛选模型鉴别输入语音为生成的概率小于所述一阶段判别阈值，则将所述输入语音作为第一阶段真实语音，不需要二次鉴别。

优选的，所述第二阶段深度鉴别模型的具体结构包括：两层二维卷积、一层线性映射、一层位置编码模块、12层Transformer编码层和最后的输出映射层。

优选的，所述鉴别出第二阶段真实语音和第二阶段生成语音的具体方法为：

在开发音频数据集上，通过计算ROC曲线，得到二阶段判别阈值，如果第二阶段深度鉴别模型鉴别第一阶段生成语音为生成的概率大于所述二阶段判别阈值，则将所述第一阶段生成语音为生成语音，如果第二阶段深度鉴别模型鉴别第一阶段轻量初步筛选模型为生成的概率小于所述二阶段判别阈值，则所述第一阶段生成语音为真实语音。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

先使用一个轻量级的模型对采集的互联网音频或者其他信道的音频进行初步筛选，然后使用一个或者多个精细的模型对初筛后的音频进行第二阶段的鉴别等。层级鉴别的思路大大降低了计算代价，甚至不会产生鉴别性能的下降。

附图说明

图1为本发明实施例提供的基于层级区分的生成音频检测系统的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例1：

如图1所示本申请实施例提供的基于层级区分的生成音频检测系统，包括：

音频预处理模块、音频特征提取模块1、音频特征提取模块2、第一阶段轻量初步筛选模型和第二阶段深度鉴别模型；所述第一阶段轻量初步筛选模型为轻量级卷积鉴别模型，典型地采用目前广泛使用的MobileNet来构建，具有结构简单，参数量小，计算量少的特点，因此能够对大量的数据进行快速的筛选；本申请优选的采用的是轻量初筛模型，整个申请针对的场景是海量数据，在海量数据上应用深度模型进行直接鉴别，其计算量是灾难级别的，因此本申请使用计算量较小的轻量模型进行初筛，仅针对初筛后不满足要求的语音使用深度鉴别模型进行二次鉴别。

在一些具体实施例中，所述轻量级卷积鉴别模型的具体结构包括11层，其中3层2D卷积层，7层瓶颈残差模块以及1层平均池化层；3层2D卷积层的卷积核的大小和步长分别是第一层卷积采用 13x9的卷积核（步长7x5）、9x7的卷积核（步长5x4）、7x5的卷积核（步长4x1）；

平均池化层后通过线性映射，映射到2个维度，分别表示真伪语音，最终通过softmax操作求得输入语音属于真伪语音的概率；

所述第二阶段深度鉴别模型的输出通常情况下仍然仅进行真伪两类鉴别，但是特定情况下，也可以针对生成音频生成的不同类别或者生成音频对象等不同属性进行多种类型的鉴别，常用的单模型包括SENet, LCNN，Transformer等。

在一些具体实施例中，具体结构包括：两层二维卷积、一层线性映射、一层位置编码模块、12层Transformer编码层和最后的输出映射层，通过softmax函数来计算真伪概率；

所述音频预处理模块对采集到的音视频数据进行数据预处理，得到长度不超过限定的音频片段，具体方法包括：

在一些具体实施例中，频特征提取模块1为CQCC特征提取模块或者LFCC特征提取模块。

在一些具体实施例中，音频特征提取模块2为CQCC特征提取模块或者LFCC特征提取模块；

第一阶段轻量初步筛选模型的输入还包括：

将所述LFCC特征及所述LFCC特征的一阶差分和二阶差分构成的拼接特征或者CQCC特征及所述CQCC特征的一阶差分和二阶差分构成的拼接特征输入第一阶段轻量初步筛选模型进行第一阶段筛选，筛选出第一阶段真实语音和第一阶段生成语音，具体方法为：在开发音频数据集上，通过计算ROC曲线，得到一阶段判别阈值为0.5，如果第一阶段轻量初步筛选模型鉴别输入语音为生成的概率大于所述一阶段判别阈值，则将所述输入语音作为第一阶段生成语音，如果第一阶段轻量初步筛选模型鉴别输入语音为生成的概率小于所述一阶段判别阈值，则将所述输入语音作为第一阶段真实语音，所述第一阶段真实语音不需要进行第二阶段语音鉴别，所述第一阶段生成语音进行第二阶段语音鉴别；

将所述第一阶段生成语音的所述LFCC特征及所述LFCC特征的一阶差分和二阶差分构成的拼接特征或者CQCC特征及所述CQCC特征的一阶差分和二阶差分构成的拼接特征输入所述第二阶段深度鉴别模型，鉴别出第二阶段真实语音和第二阶段生成语音，所述第二阶段生成语音确认为生成语音，具体方法为：在开发音频数据集上，通过计算ROC曲线，得到二阶段判别阈值，如果第二阶段深度鉴别模型鉴别第一阶段假的语音为真实的概率大于所述二阶段判别阈值，则将所述第一阶段生成语音为生成语音，如果第二阶段深度鉴别模型鉴别第一阶段轻量初步筛选模型为生成的概率小于所述二阶段判别阈值，则所述第一阶段生成语音为真实语音。

实施例2：

第一阶段轻量初步筛选模型采用MobileNetV2来构建，其模型结构有11层，其中3层2D卷积，7层瓶颈残差模块以及1层平均池化层。模型的参数量约为5M。第一阶段轻量初步筛选模型采用LFCC特征及其一阶二阶差分构成的拼接特征（共计60维）作为输入；输入语音伪长度为20秒的片段（小于20秒则使用0进行填充，超过20秒则进行截断）。模型输入仅仅包含一个通道，输出包含两个节点，分别表示真伪两类。

第二阶段深度鉴别模型采用Transformer模型来构建。深层鉴别模型从底层到顶层分别包含两层二维卷积，一层线性映射，一层位置编码模块，12层Transformer编码层以及最后的输出映射层，模型整体参数约为20M。其中卷积层均设置了步长为2，因此实际通过卷积层相当于进行了4倍的时序降采样。深层鉴别模型采用LFCC特征及其一阶二阶差分构成的拼接特征（共计60维）作为输入。最后的输出映射层输出为2类，分别表示真伪。

模型在推理时，分为两个阶段，第一个阶段是使用轻量级卷积模型对海量语音进行粗略鉴别，对于鉴别为生成概率小于0.5的语音则直接跳过，大于0.5的语音使用深度鉴别模型进行二次鉴别。对于进行二次鉴别的语音，使用二次鉴别结果作为最终鉴别结果。

实施例3：

生成语音种类十分丰富，典型地包括重放、神经合成、拼接等。针对海量数据的细分类别鉴别，使用层级多分类大数据生成音频检测系统。

第二阶段深度鉴别模型采用Transformer模型来构建。深层鉴别模型从底层到顶层分别包含两层二维卷积，一层线性映射，一层位置编码模块，12层Transformer编码层以及最后的输出映射层，模型整体参数约为20M。其中卷积层均设置了步长为2，因此实际通过卷积层相当于进行了4倍的时序降采样。深层鉴别模型采用LFCC特征及其一阶二阶差分构成的拼接特征（共计60维）作为输入。最后的输出映射层输出为4类，分别表示真实语音、重放、拼接以及神经合成。

模型在推理时，分为两个阶段，第一个阶段是使用轻量级的对海量语音进行粗略鉴别，对于鉴别为生成概率小于0.5的语音则直接跳过，大于0.5的语音使用深度鉴别模型进行二次鉴别。二次鉴别过程中针对模型的真伪和生成类型同时进行鉴别。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD-ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.基于层级区分的生成音频检测系统，其特征在于，所述基于层级区分的生成音频检测系统为两阶段生成音频检测系统，包括：

将所述第一阶段生成语音的CQCC特征或者LFCC特征输入所述第二阶段深度鉴别模型，鉴别出第二阶段真实语音和第二阶段生成语音，所述第二阶段生成语音确认为生成语音；

所述第一阶段轻量初步筛选模型为轻量级卷积模型，采用卷积神经网络来进行构建；

所述第二阶段深度鉴别模型采用复杂度较高的单模型系统或者采用多个模型的集成。

2.根据权利要求1所述的基于层级区分的生成音频检测系统，其特征在于，所述第一阶段轻量初步筛选模型的输入还包括：

3.根据权利要求1所述的基于层级区分的生成音频检测系统，其特征在于，所述第二阶段深度鉴别模型的输入还包括：

4.根据权利要求1所述的基于层级区分的生成音频检测系统，其特征在于，所述轻量级卷积模型的具体结构包括11层，其中3层2D卷积层，7层瓶颈残差模块以及1层平均池化层；

5.根据权利要求4所述的基于层级区分的生成音频检测系统，其特征在于，所述进行第一阶段筛选，筛选出第一阶段真实语音和第一阶段生成语音的具体方法为：

6.根据权利要求1所述的基于层级区分的生成音频检测系统，其特征在于，所述第二阶段深度鉴别模型的具体结构包括：两层二维卷积、一层线性映射、一层位置编码模块、12层Transformer编码层和最后的输出映射层。

7.根据权利要求6所述的基于层级区分的生成音频检测系统，其特征在于，所述鉴别出第二阶段真实语音和第二阶段生成语音的具体方法为：