CN117116292A

CN117116292A - 音频检测方法、装置、电子设备及存储介质

Info

Publication number: CN117116292A
Application number: CN202311058371.0A
Authority: CN
Inventors: 武钦芳; 许丽; 万根顺; 熊世富; 高建清
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-11-24

Abstract

本发明公开了一种音频检测方法、装置、电子设备及存储介质。音频检测方法包括：提取待检测音频数据的第一声学特征数据；基于第一声学特征数据，检测待检测音频数据的篡改类别；在篡改类别为目标篡改类别的情况下，利用与目标篡改类别对应的篡改定位方式检测待检测音频数据的篡改位置。本发明适用于检测不同篡改类别的音频数据，提高音频检测的效果。

Description

音频检测方法、装置、电子设备及存储介质

技术领域

本发明涉及数字音频、深度学习等技术领域，尤其涉及一种音频检测方法、装置、电子设备及存储介质。

背景技术

随着数字音频技术的发展，语音功能的应用越来越广泛，例如越来越多的聊天软件提供了语音聊天功能。音频数据所记录的内容通常是具有真实性的，但是如果音频数据被篡改，其真实性将受到影响。因此，为了确定音频数据的真实性，需要对音频数据进行检测以确定音频数据是否被篡改。

相关技术的音频检测技术通常只能检测一种篡改类别，适用场景单一，检测效果不佳，无法满足用户需求。

发明内容

本申请实施方式旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本申请实施方式的目的在于提出一种音频检测方法、装置、电子设备、存储介质及程序产品。

本申请实施方式提供一种音频检测方法，所述方法包括：提取待检测音频数据的第一声学特征数据；基于所述第一声学特征数据，检测所述待检测音频数据的篡改类别；在所述篡改类别为目标篡改类别的情况下，利用与所述目标篡改类别对应的篡改定位方式检测所述待检测音频数据的篡改位置。

本申请另一实施方式提供一种音频检测装置，所述装置包括：提取模块、第一检测模块和第二检测模块。提取模块，用于提取待检测音频数据的第一声学特征数据；第一检测模块，用于基于所述第一声学特征数据，检测所述待检测音频数据的篡改类别；第二检测模块，用于在所述篡改类别为目标篡改类别的情况下，利用与所述目标篡改类别对应的篡改定位方式检测所述待检测音频数据的篡改位置。

本申请实施方式提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项实施方式所述的方法的步骤。

本申请另一实施方式提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项实施方式所述的方法的步骤。

本申请另一实施方式提供一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被计算机设备的处理器执行时，使得所述计算机设备能够执行上述任一项实施方式所述的方法的步骤。

上述实施方式中，通过提取待检测音频数据的第一声学特征数据；基于第一声学特征数据，检测待检测音频数据的篡改类别；在篡改类别为目标篡改类别的情况下，利用与目标篡改类别对应的篡改定位方式检测待检测音频数据的篡改位置。本发明适用于检测和定位不同篡改类别的音频数据，提高音频检测的效果。

附图说明

图1为本申请实施方式提供的音频检测方法的流程示意图；

图2为本申请另一实施方式提供的音频检测方法的流程示意图；

图3为本申请实施方式提供的利用神经网络模型检测篡改类别的原理示意图；

图4为本申请实施方式提供的音频检测装置的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

随着数字音频技术的发展，越来越多的社交软件均提供语音和实时语聊功能。这些语音功能不仅可用于日常交流，还经常用于买卖、租赁和借贷等活动。当发生侵权纠纷时，语音可作为证据使用。但是，当语音数据存在篡改、伪造或者无法确定真伪的情况下，亦或者语音数据存在增加、删除和修改等影响语音数据真实性的情况下，语音数据的可信度将降低。因此，音频的真实性鉴别是音频能否作为证据证明事实的前提。

音频篡改操作包括对音频数据进行插入、删除、同段音频复制粘贴和异源音频拼接等篡改操作，以破坏、扭曲或者伪造新的语义来达到断章取义、掩盖细节的目的。因此，判断一段音频是否经过篡改，以及经过何种类型的篡改及篡改发生在何位置是音频鉴定面临的问题。

例如，插入这种篡改类别是指将一些音频片段插入当前的音频数据。删除这种篡改类别包括从当前的音频数据中删除一些音频片段。同段音频复制粘贴的篡改类别是指将当前的音频数据的某一片段复制粘贴到该当前的音频数据的其他位置。异源音频拼接的篡改类别是指将其他音频数据的某一片段拼接到当前的音频数据中。

在一些示例中，可以基于语音端点检测(voice activity detection，VAD)技术进行音频的篡改检测与定位，例如通过语音端点检测VAD技术将音频数据划分成若干有声段和/或静音段，然后提取有声段和/或静音段的声学特征，通过相似性计算方法比较段和段之间的相似度来判断音频是否经过某种形式的篡改。当相似度大于或小于预先设置的阈值时，则认为段和段之间发生了篡改。例如相似度大于预先设定的阈值可能表示篡改类别为同段音频复制粘贴，相似度小于预先设置的阈值可能表示篡改类别为插入类别或异源音频拼接类别。相似性计算方法包括基于皮尔逊相关系数、均方插值等进行相似度计算的方法。

通过语音端点检测VAD技术切分静音段和有声段并提取相应的声学特征，然后通过计算任意两个段(可能是两个静音段，也可能是两个有声段)之间的相似度并与预先设定的阈值进行比较来检测是否存在某种类型的篡改。但是，该方式通常只能检测单一的篡改类别，不能适用于检测多种篡改类别，当音频经过其他形式的篡改时无法直接进行检测。

鉴于上述描述的音频检测方案存在的缺点，本申请实施方式提供了一种优化的音频检测方法。

图1为本申请实施方式提供的音频检测方法的流程示意图。

如图1所示，本申请实施方式提供的音频检测方法100例如包括步骤S110-S130。

步骤S110，提取待检测音频数据的第一声学特征数据。

步骤S120，基于第一声学特征数据，检测待检测音频数据的篡改类别。

步骤S130，在篡改类别为目标篡改类别的情况下，利用与目标篡改类别对应的篡改定位方式检测待检测音频数据的篡改位置。

示例性地，通过对待检测音频数据进行特征提取得到表征其声学特征的第一声学特征数据。第一声学特征数据可以表征待检测音频数据的篡改类别，篡改类别例如包括未被篡改类别、已被篡改类别，已被篡改具体可以包括音频数据插入、音频数据删除、同段音频数据复制粘贴、异源音频数据拼接等等类别。

得到第一声学特征数据之后，对第一声学特征数据进行检测识别，以确定待检测音频数据的篡改类别。然后判断篡改类别是否为目标篡改类别，如果是目标篡改类别，表明待检测音频数据经过篡改，此时需要进一步检测待检测音频数据的篡改位置。在利用篡改定位方式检测待检测音频数据的篡改位置时，每一种目标篡改类别对应的篡改定位方式不同，因此可以确定与目标篡改类别对应的篡改定位方式检测待检测音频数据的篡改位置。在一示例中，待检测音频数据包括与时间相关的序列数据，篡改位置例如表征了待检测音频数据中被篡改的音频片段(子序列数据)处于待检测音频数据中的时刻或时间段。

根据本申请的实施例，通过检测待检测音频数据的篡改类别，然后利用与目标篡改类别对应的篡改定位方式检测待检测音频数据的篡改位置。可见本申请的音频检测方法适用于检测和定位不同篡改类别的音频数据，通过检测篡改类别后再利用对应的篡改定位方式进行篡改定位，适用于检测不同篡改类别的音频数据，提高了音频检测的效果。

图2为本申请另一实施方式提供的音频检测方法的流程示意图。

如图2所示，本申请实施方式提供的音频检测方法200例如包括步骤S210-S270。

步骤S210，接收待检测音频数据。

步骤S220，对待检测音频数据进行预处理。

步骤S230，提取待检测音频数据的第一声学特征数据。

步骤S240，基于第一声学特征数据，检测待检测音频数据的篡改类别。

步骤S250，确定篡改类别是否为目标篡改类别。如果是，则执行步骤S260，如果否，则执行步骤S270。

步骤S260，利用与目标篡改类别对应的篡改定位方式检测待检测音频数据的篡改位置。

步骤S270，确定针对待检测音频数据的检测结果为未被篡改。

示例性地，待检测音频数据可以是用户提供的需要验证真伪性的音频数据。待检测音频数据可能被篡改也可能未被篡改，因此在基于第一声学特征数据检测到待检测音频数据的篡改类别之后，需要进一步确定篡改类别是否为目标篡改类别。如果篡改类别为目标篡改类别则表示待检测音频数据被篡改；否则表示待检测音频数据未被篡改。目标篡改类别例如包括音频数据插入、音频数据删除、同段音频数据复制粘贴、异源音频数据拼接等等类别。

如果篡改类别为目标篡改类别，则利用与目标篡改类别对应的篡改定位方式检测待检测音频数据的篡改位置。如果篡改类别不是目标篡改类别，则确定针对待检测音频数据的检测结果为未被篡改，可以输出未被篡改的标志并结束流程，无需进行后续的篡改定位处理。

可以理解，本申请的实施例通过预先判断篡改类别是否目标篡改类别，如果确定是目标篡改类别再进行后续的篡改定位处理，如果不是目标篡改类别则表示待检测音频数据未被篡改，此时结束流程无需进行篡改定位处理。相关技术中直接对每个待检测音频数据进行篡改检测和定位而存在误判的情况(误判表示对于未被篡改的待检测音频数据也进行篡改检测和定位处理)，导致需要对未被篡改的待检测音频数据进行处理而浪费计算资源。与此不同地，本申请的实施例仅对被篡改的音频数据进行处理，避免了误判和浪费计算资源，提高了音频检测的效果和效率。

在本申请的另一示例中，提取待检测音频数据的第一声学特征数据例如具体包括以下内容。

待检测音频数据例如是与时间相关的时序数据，即待检测音频数据为时域中的数据。为了更加方便且准确地提取第一声学特征数据，可以将待检测音频数据从时域转换至频域，并对频域中的待检测音频数据进行频谱特征提取，从而得到第一声学特征数据。

在将待检测音频数据从时域转换至频域之前，可以对时域中的待检测音频数据进行预处理。预处理可以包括预加重、分帧、加窗中的至少一项。然后再将预处理后的待检测音频数据从时域转换至频域。预处理可以减少待检测音频数据中噪声段和静音段的影响，预处理操作除了包括预加重、分帧、加窗，还可以包括利用语音端点检测VAD技术将音频分割为若干有声段和静音段、对音频数据的音量进行标准化等等。本申请的实施例对预处理的方式不作具体限定。为了便于理解，本申请的实施例对预加重、分帧、加窗进行说明。

其中，对待检测音频数据进行预加重处理，可以是对音频中的高频信息进行加权，从而提高待检测音频数据中的高频分量值。

对待检测音频数据进行分帧处理，可以指将整段待检测音频数据进行切割，得到多个音频帧。每帧的长度通常小于一个音素的长度，例如每帧的长度为20毫秒、30毫秒、40毫秒、50毫秒等。分帧处理可以在预加重之后执行，当然根据实际情况也可以在预加重之前执行。

对待检测音频数据进行加窗处理，表示对每个分帧数据，在进行傅里叶变换将其从时域转换至频域之前，将该分帧数据乘以一个窗函数，目的在于使得每帧数据的幅度在该帧数据的两端逐渐减小，可以减小至0。加窗处理可以实现在傅里叶变换时频谱上的各个峰值更突出。

在一些实施例中，为了更进一步地区分待检测音频数据中的有声段和非有声段(包含静音段和噪声段)，预处理还可以包括利用其他更具鲁棒性的语音端点检测(VAD)技术对待检测音频数据进行处理。更具鲁棒性的语音端点检测VAD技术包括基于谱熵比的VAD技术、基于能熵比的VAD技术以及基于神经网络的VAD技术等。

对待检测音频数据进行预处理得到多个分帧数据之后，可以对每个分帧数据进行傅里叶变换，将每个分帧数据从时域转换至频域。然后在频域中对每个分帧数据进行频谱特征提取，得到第一声学特征数据。其中，第一声学特征数据用于音频篡改检测，第一声学特征数据一般为待检测音频数据的频谱特征，如梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient，MFCC)特征、感知线性预测(Power-Normalized CepstralCoefficients，PNCC)特征、功率正则化倒谱系数(Perceptual Linear Predictive，PLP)特征等。傅里叶变换包括快速傅里叶变换、离散傅里叶变换等。通过将待检测音频数据从时域转换至频域从而提取每帧数据的频谱特征作为第一声学特征数据。

在一示例中，在提取得到第一声学特征数据之后，可以直接利用提取的第一声学特征数据进行后续的篡改类别检测。

在另一示例中，为了提高第一声学特征数据的区分性，在提取到第一声学特征数据之后，可以对提取的第一声学特征数据进行差分处理得到差分处理后的第一声学特征数据。差分处理后的第一声学特征数据在一定程度上能够反映待检测音频数据的动态特性。差分处理至少包括一阶差分处理和/或二阶差分处理，根据实际情况还可以包括三阶差分处理、四阶差分处理等。差分处理后，基于差分处理后的第一声学特征数据进行后续的篡改类别检测。

本申请的实施例对接收到的待检测音频数据进行一系列预处理操作后，再将待检测音频数据从时域转换至频域中进行特征提取得到第一声学特征数据，提高了第一声学特征数据的准确性和提取效率，减少了音频检测的耗时。

在本申请的另一示例中，基于第一声学特征数据检测待检测音频数据的篡改类别例如具体包括以下内容。

例如，对第一声学特征数据进行特征提取得到高维特征数据。然后基于高维特征数据，对待检测音频数据进行分类得到篡改类别。

具体地，可以利用神经网络模型检测待检测音频数据的篡改类别。神经网络模型包括多个编码网络和解码网络。例如，神经网络模型可以是端到端模型，端到端模型包括Encoder端和Decoder端，Encoder端包括多个编码网络，Decoder端包括解码网络。

利用多个编码网络对第一声学特征数据进行全局特征和局部特征提取，得到由多个编码网络分别输出的多个输出特征数据。然后将多个输出特征数据进行特征融合，得到高维特征数据。得到高维特征数据之后，将高维特征数据输入解码网络中进行分类，得到分类结果，分类结果用于表征篡改类别。具体实现过程可以参考图3提出的一种示例。

图3为本申请实施方式提供的利用神经网络模型检测篡改类别的原理示意图。

如图3所示，以神经网络模型包括L个Encoder模块和一个Decoder模块为例进行说明。L通常为4至12，具体可以根据实际应用需求设定L，本申请实施例对L不作具体限定。

端到端模型利用Encoder端提取待检测音频的高维特征数据，例如将多个Encoder模块的输出特征数据融合起来，得到高维特征数据，特征融合包括特征拼接，当然也可以包括其他的融合方式。例如，特征融合包括利用concat模块将多个Encoder模块输出的多个输出特征数据拼接起来，得到更全面且更能表征音频特征的高维特征数据。concat模块可以属于Encoder端的一部分，也可以独立于Encoder端。

具体地，首先将提取的第一声学特征数据(如梅尔频率倒谱系数MFCC特征)输入Encoder端，使用L个Encoder模块进行局部和全局特征的学习。然后，将每个Encoder模块的输出的特征进行拼接得到高维特征数据。

在从待检测音频数据中提取表征篡改痕迹的特征时，局部特征和全局特征起着至关重要的作用。全局特征需要对全局上下文信息进行学习得到。为了更好地对局部特征和全局上下文信息进行学习，从而有效地提取更具鲁棒性的用于表征篡改痕迹的特征，本申请的实施例可以采用Transformer Encoder结构提取高维特征数据。其中，上文提及的每个Encoder模块均可以是Transformer Encoder结构。

L个Transformer Encoder结构例如分别属于不同层级，任意相邻的两个层级中的Transformer Encoder结构相互连接，通过L个Transformer Encoder结构相互连接进行信息交互实现了全局上下文信息的学习，从而学习得到全局特征。

Encoder端除了可以是Transformer Encoder结构，也可以是传统的端到端网络中的Encoder端。传统的端到端网络例如包括循环神经(Recurrent Neural Network，RNN)网络、长短期记忆(Long short-term memory，LSTM)网络、门控循环单元(Gated RecurrentUnit，GRU)网络等。本申请的实施例以Transformer Encoder结构为例进行说明。

示例性地，每个Transformer Encoder结构主要包含四个模块，分别是多头注意力模块、残差连接模块、归一化模块以及位置全连接前馈网络模块。

多头注意力模块可以用于学习局部特征。例如可以用于尽可能多地去学习音频中句子的语义关系。还可以与其他Transformer Encoder结构中的多头注意力模块配合以捕捉全局上下文信息，学习到尽可能多的语义表达信息。还可以让模型关注不同方面的信息，以体现出信息的差异性。

残差连接模块在神经网络中能够实现将前一层的输出直接与后一层的输入相加，从而形成的一种跨层连接的方式，实现L个Transformer Encoder结构相互连接。残差连接模块使得梯度更容易传递到前一层，使得神经网络的训练更加容易。另外，残差连接模块还能能够减少模型训练的误差，提高模型的泛化能力，使得模型能够更好地适应未见过的数据。

归一化模块用于加速模型训练，以提高模型的泛化能力。

位置全连接前馈网络模块可以由两个全连接层和一个激活函数组成，用于对音频序列中的每个位置进行非线性变换，从而帮助模型更好地学习序列中的关系。

每个Encoder模块输出的输出特征数据可以是多维特征。将多个Encoder模块的输出特征数据进行拼接的拼接方式可以包括，将多维特征拼接后使用降维算法(如主成分分析法、独立分量分析等)去除拼接数据中冗余且耦合的信息，以减少计算资源的耗费。拼接方式也可以是一些池化方法(如注意力池化方法)，可以通过池化层为不同的Encoder模块输出的特征提供不同的权重以将多个输出特征数据进行拼接。

通过特征拼接得到高维特征数据之后，将高维特征数据输入Decoder模块进行分类。Decoder模块用于判别待检测音频数据经过何种类型的篡改，Decoder模块执行的分类可以是关于N分类问题的分类。N分类例如包括类别0、类别1、类别2、……、类别N-1。类别0例如表示音频未经篡改，类别1例如表示插入的篡改类别，类别2例如表示删除的篡改类别，类别3例如表示同段音频数据复制粘贴的篡改类别，类别4例如表示异源音频数据拼接的篡改类别，还可以包括其他篡改类别，在此不再赘述。

Decoder模块可以包括LayerNorm层、全连接层、softmax层，也可以包括复杂的神经网络层(如Transformer Decoder层)，还可以包括分类算法(如支持向量机、贝叶斯分类算法等)，具体选择什么网络层或分类算法视实际情况而定。

可以理解，本申请的实施例通过多个Encoder模块提取音频的特征，然后对多个Encoder模块输出的特征进行融合(例如拼接)得到针对音频的高维特征数据。再将高维特征数据输入Decoder模块进行分类得到音频的篡改类别。可见，基于端到端的模型检测音频数据得到篡改类别，提高了音频检测的准确性，且可以过滤未篡改的音频数据，避免计算资源的浪费。

在本申请的另一示例中，神经网络模型可以经过以下方式训练得到，其中神经网络模型包括多个编码网络和解码网络。

例如，获取一批用于训练模型的音频样本数据，音频样本数据例如包括未被篡改的音频数据以及经过插入、删除、同段音频复制粘贴、异源音频拼接等篡改操作的音频数据。每个音频样本数据包括标签，标签表征了该音频样本数据的篡改类别，标签例如包括未篡改、音频数据插入、音频数据删除、同段音频数据复制粘贴、异源音频数据拼接等等。

对于经篡改的音频样本数据，除了收集得到经篡改的音频样本数据，还可以通过Adobe Audition、CoolEdit等音频编辑软件对未被篡改的音频数据进行篡改得到。其次，为了减少静音段和噪声影响，可以对音频样本数据进行一系列预处理操作(语音端点信息检测、音量标准化、预加重、分帧、加窗等)并提取其声学特征，如梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，MFCC)特征，随后将提取的声学特征输入待训练的神经网络模型(端到端模型)进行高维特征提取与篡改类别判别，以此训练模型。

例如，将带有标签的音频样本数据输入多个编码网络进行特征提取，得到样本高维特征数据。将样本高维特征数据输入解码网络进行分类，得到样本类别，样本类别包括未篡改、音频数据插入、音频数据删除、同段音频数据复制粘贴、异源音频数据拼接中的至少一个。接下来，基于样本类别和标签之间的偏差，调节神经网络模型的模型参数，由此训练得到神经网络模型。

本申请的实施例以每个编码网络包括Transformer Encoder结构进行说明，Transformer Encoder结构主要包含四个模块，分别是多头注意力模块、残差连接模块、归一化模块以及位置全连接前馈网络模块。

残差连接模块在神经网络中能够实现将前一层的输出直接与后一层的输入相加，从而形成的一种跨层连接的方式，实现多个Transformer Encoder结构相互连接。残差连接模块使得梯度更容易传递到前一层，使得神经网络的训练更加容易。另外，残差连接模块还能能够减少模型训练的误差，提高模型的泛化能力，使得模型能够更好地适应未见过的数据。

归一化模块用于加速模型训练，以提高模型的泛化能力。

在利用经训练的神经网络模型检测出待检测音频数据的篡改类别后，如果篡改类别为目标篡改类别(例如为音频数据插入、音频数据删除、同段音频数据复制粘贴、异源音频数据拼接等篡改类别)，需要利用与目标篡改类别对应的篡改定位方式检测待检测音频数据的篡改位置。例如，如果待检测音频数据的篡改类别为音频数据插入类别，则利用与音频数据插入类别对应的篡改定位方式检测待检测音频数据的篡改位置。如果待检测音频数据的篡改类别为音频数据删除类别，则利用与音频数据删除类别对应的篡改定位方式检测待检测音频数据的篡改位置。

利用篡改定位方式进行定位的过程例如包括对待检测音频数据进行数据拆解，得到多个音频数据片段，然后分别提取多个音频数据片段的声学特征数据，得到多个第二声学特征数据。接下来，基于多个第二声学特征数据之间的相似度，确定多个音频数据片段中发生篡改的音频数据片段。其中，多个音频数据片段包括多个静音数据片段和/或多个有声数据片段。相似度包括任意两个静音数据片段对应的第二声学特征数据之间的相似度和/或任意两个有声数据片段对应的第二声学特征数据之间的相似度。

例如，针对同段音频复制粘贴的篡改类别，与该篡改类别对应的篡改定位方式例如包括：首先使用语音端点检测VAD技术截取每个有声段；然后提取每个有声段的第二声学特征数据(如MFCC特征)；最后，使用相似性比较算法(如基于皮尔逊相关系数的比较算法)判定每两个有声段之间的相似度，如果相似度大于预先设置的阈值，则认为这两个有声段之间发生了同段音频复制粘贴篡改，从而实现对该两个有声段的定位，预先设置的阈值例如包括0.95、0.98等等。

针对异源音频拼接的篡改类别，与该篡改类别对应的篡改定位方式包括：首先使用语音端点检测VAD技术截取多个音频片段，多个音频片段包括静音段和有声段；然后提取每段(可能是静音段也可能是有声段)的第二声学特征数据；最后比较段和段之间(任意两个静音段或任意两个有声段)的第二声学特征数据的相似度来判定任意两个有声段之间是否发生了篡改，从而实现异源音频拼接篡改定位。应当理解，静音段通常指没有说话的音频段，但是由于音频采集设备的特性，不同采集设备的静音段的声学特性可能是不同的，或者采集环境的不同可能也会导致静音段的声学特性不同，因此将任意两个静音段进行相似度比较在一定程度上能够识别异源音频拼接。

针对插入篡改类别和删除篡改类别，对应的篡改定位方式例如均可以包括：利用训练好的模型提取待检测音频的频谱特征；将所提取的频谱特征输入由注意力机制和残差网络构成的深度学习网络进行浅层特征的学习；将得到的浅层特征输入到分类网络中进行分类，根据分类结果判断待检测音频数据是否经过插入或删除的篡改。

以上篡改定位方式仅作为示例，本申请的实施例对每种篡改定位方式的具体实现方式不作具体限定。针对其他篡改类别，可以使用对应的篡改定位方式进行定位，在此不再赘述。

可以理解，本申请的实施例对接收到的待检测音频数据进行一系列预处理操作并提取第一声学特征数据，然后将第一声学特征数据输入至预先构建的端到端模型进行高维特征提取与篡改类别判别，以便判别待检测音频数据是否经过篡改。若待检测音频数据未经过篡改则检测结束，并返回音频未经过篡改的标志。若判定待检测音频数据经过某种类型的篡改(如插入、删除、同段音频复制粘贴和异源音频拼接)，则根据篡改类别选择预先构建好的相应的篡改定位系统进行篡改位置检测。本申请实施例的音频检测方式能同时检测并定位多种篡改类别的音频，通过端到端模型快速检测篡改类别，无需在某种篡改定位系统中验证待检测音频数据是否经过该类型的篡改，减少了篡改定位系统的检测耗时。

图4为本申请实施方式提供的音频检测装置的示意图。

本申请实施方式提供一种音频检测装置400，请参阅图4，音频检测装置400包括：提取模块410、第一检测模块420和第二检测模块430。

示例性地，提取模块410用于提取待检测音频数据的第一声学特征数据。

示例性地，第一检测模块420用于基于第一声学特征数据，检测待检测音频数据的篡改类别。

示例性地，第二检测模块430用于在篡改类别为目标篡改类别的情况下，利用与目标篡改类别对应的篡改定位方式检测待检测音频数据的篡改位置。

可以理解，关于音频检测装置400的具体描述，可以参见上文中对音频检测方法的描述。

示例性地，基于第一声学特征数据，检测待检测音频数据的篡改类别包括：对第一声学特征数据进行特征提取，得到高维特征数据；基于高维特征数据，对待检测音频数据进行分类，得到篡改类别。

示例性地，对第一声学特征数据进行特征提取，得到高维特征数据包括：利用多个编码网络对第一声学特征数据进行全局特征和局部特征提取，得到由多个编码网络分别输出的多个输出特征数据；将多个输出特征数据进行特征融合，得到高维特征数据。

示例性地，基于高维特征数据，对待检测音频数据进行分类，得到篡改类别包括：将高维特征数据输入解码网络中进行分类，得到分类结果，其中，分类结果用于表征篡改类别。

示例性地，提取待检测音频数据的第一声学特征数据包括：将待检测音频数据从时域转换至频域；对频域中的待检测音频数据进行频谱特征提取，得到第一声学特征数据。

示例性地，将待检测音频数据从时域转换至频域包括：对时域中的待检测音频数据进行预处理，其中，预处理包括预加重、分帧、加窗中的至少一项；将预处理后的待检测音频数据从时域转换至频域。

示例性地，提取待检测音频数据的第一声学特征数据还包括：对第一声学特征数据进行差分处理，其中，差分处理至少包括一阶差分处理和/或二阶差分处理。

示例性地，利用与目标篡改类别对应的篡改定位方式检测待检测音频数据的篡改位置包括：对待检测音频数据进行数据拆解，得到多个音频数据片段；分别提取多个音频数据片段的声学特征数据，得到多个第二声学特征数据；基于多个第二声学特征数据之间的相似度，确定多个音频数据片段中发生篡改的音频数据片段。

示例性地，多个音频数据片段包括多个静音数据片段和/或多个有声数据片段；相似度包括任意两个静音数据片段对应的第二声学特征数据之间的相似度和/或任意两个有声数据片段对应的第二声学特征数据之间的相似度。

示例性地，音频检测装置还包括：确定模块，在篡改类别为未被篡改类别的情况下，确定针对待检测音频数据的检测结果为未被篡改。

示例性地，目标篡改类别包括以下至少一项：音频数据插入、音频数据删除、同段音频数据复制粘贴、异源音频数据拼接。

示例性地，神经网络模型包括多个编码网络和解码网络；神经网络模型是经过以下方式训练得到的：将带有标签的音频样本数据输入多个编码网络进行特征提取，得到样本高维特征数据，其中，标签表征了音频样本数据的篡改类别，标签包括未篡改、音频数据插入、音频数据删除、同段音频数据复制粘贴、异源音频数据拼接中的至少一个；将样本高维特征数据输入解码网络进行分类，得到样本类别，样本类别包括未篡改、音频数据插入、音频数据删除、同段音频数据复制粘贴、异源音频数据拼接中的至少一个；基于样本类别和标签之间的偏差，调节神经网络模型的模型参数，由此训练得到神经网络模型。

本申请实施方式提供一种电子设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述任一项实施方式中的方法的步骤。

本申请实施方式提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一项实施方式中的方法的步骤。

本申请的一个实施方式提供一种计算机程序产品，计算机程序产品中包括指令，指令被计算机设备的处理器执行时，使得计算机设备能够执行上述任一项实施方式的方法的步骤。

需要说明的是，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本申请而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本申请的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本申请中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，本申请实施例中所使用的“第一”、“第二”等术语，仅用于描述目的，而不可以理解为指示或者暗示相对重要性，或者隐含指明本实施例中所指示的技术特征数量。由此，本申请实施例中限定有“第一”、“第二”等术语的特征，可以明确或者隐含地表示该实施例中包括至少一个该特征。在本申请的描述中，词语“多个”的含义是至少两个或者两个及以上，例如两个、三个、四个等，除非实施例中另有明确具体的限定。

在本申请中，除非实施例中另有明确的相关规定或者限定，否则实施例中出现的术语“安装”、“相连”、“连接”和“固定”等应做广义理解，例如，连接可以是固定连接，也可以是可拆卸连接，或成一体，可以理解的，也可以是机械连接、电连接等；当然，还可以是直接相连，或者通过中间媒介进行间接连接，或者可以是两个元件内部的连通，或者两个元件的相互作用关系。对于本领域的普通技术人员而言，能够根据具体的实施情况理解上述术语在本申请中的具体含义。

在本申请中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种音频检测方法，其特征在于，所述方法包括：

提取待检测音频数据的第一声学特征数据；

基于所述第一声学特征数据，检测所述待检测音频数据的篡改类别；以及

在所述篡改类别为目标篡改类别的情况下，利用与所述目标篡改类别对应的篡改定位方式检测所述待检测音频数据的篡改位置。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一声学特征数据，检测所述待检测音频数据的篡改类别包括：

对所述第一声学特征数据进行特征提取，得到高维特征数据；以及

基于高维特征数据，对所述待检测音频数据进行分类，得到所述篡改类别。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一声学特征数据进行特征提取，得到高维特征数据包括：

利用多个编码网络对所述第一声学特征数据进行全局特征和局部特征提取，得到由所述多个编码网络分别输出的多个输出特征数据；以及

将所述多个输出特征数据进行特征融合，得到所述高维特征数据。

4.根据权利要求3所述的方法，其特征在于，所述基于高维特征数据，对所述待检测音频数据进行分类，得到所述篡改类别包括：

将所述高维特征数据输入解码网络中进行分类，得到分类结果，其中，所述分类结果用于表征所述篡改类别。

5.根据权利要求1-4中任意一项所述的方法，其特征在于，所述利用与所述目标篡改类别对应的篡改定位方式检测所述待检测音频数据的篡改位置包括：

对所述待检测音频数据进行数据拆解，得到多个音频数据片段；

分别提取所述多个音频数据片段的声学特征数据，得到多个第二声学特征数据；以及

基于所述多个第二声学特征数据之间的相似度，确定所述多个音频数据片段中发生篡改的音频数据片段。

6.根据权利要求5所述的方法，其特征在于，所述多个音频数据片段包括多个静音数据片段和/或多个有声数据片段；所述相似度包括任意两个静音数据片段对应的第二声学特征数据之间的相似度和/或任意两个有声数据片段对应的第二声学特征数据之间的相似度。

7.根据权利要求1-4中任意一项所述的方法，其特征在于，所述目标篡改类别包括以下至少一项：

音频数据插入、音频数据删除、同段音频数据复制粘贴、异源音频数据拼接。

8.根据权利要求4所述的方法，其特征在于，神经网络模型包括所述多个编码网络和所述解码网络；所述神经网络模型是经过以下方式训练得到的：

将带有标签的音频样本数据输入所述多个编码网络进行特征提取，得到样本高维特征数据，其中，所述标签表征了音频样本数据的篡改类别，所述标签包括未篡改、音频数据插入、音频数据删除、同段音频数据复制粘贴、异源音频数据拼接中的至少一个；

将所述样本高维特征数据输入所述解码网络进行分类，得到样本类别，所述样本类别包括未篡改、音频数据插入、音频数据删除、同段音频数据复制粘贴、异源音频数据拼接中的至少一个；以及

基于所述样本类别和所述标签之间的偏差，调节所述神经网络模型的模型参数，由此训练得到所述神经网络模型。

9.一种音频检测装置，其特征在于，所述装置包括：

提取模块，用于提取待检测音频数据的第一声学特征数据；

第一检测模块，用于基于所述第一声学特征数据，检测所述待检测音频数据的篡改类别；以及

第二检测模块，用于在所述篡改类别为目标篡改类别的情况下，利用与所述目标篡改类别对应的篡改定位方式检测所述待检测音频数据的篡改位置。

10.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法的步骤。