CN115641856B

CN115641856B - 一种语音的重复音频检测方法、装置及存储介质

Info

Publication number: CN115641856B
Application number: CN202211597936.8A
Authority: CN
Inventors: 郑榕; 孟凡芹
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-03-28
Anticipated expiration: 2042-12-14
Also published as: CN115641856A

Abstract

本申请提供了一种语音的重复音频检测方法、装置及存储介质，重复音频检测方法包括：对待检测语音进行分帧处理，对分帧处理后的待检测语音进行短时傅里叶变换特征提取；将多个短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中，确定出特征分段后的多个目标候选帧；将特征分段后多个目标候选帧输入至重复音频检测模型的编码器网络之中，确定出每个特征分段对应的嵌入表征特征向量；将各个特征分段对应的嵌入表征特征向量输入至重复音频检测模型的瓶颈网络之中，进行相似度计算，确定出待检测语音是否存在重复音频，若存在，则确定出重复音频的音频位置信息，提升了语音复制检测定位的检测速度以及准确性。

Description

一种语音的重复音频检测方法、装置及存储介质

技术领域

本申请涉及语音检测技术领域，尤其是涉及一种语音的重复音频检测方法、装置及存储介质。

背景技术

语音复制粘贴篡改是从音频信号的某处复制一个特定的片段，将其粘贴到同段音频的其他位置，以完全更改音频的语义信息。例如，复制同一段音频中的“不”字将音频“我同意”篡改成“我不同意”。通过专业的音频编辑软件复制和编辑来篡改的语音自然程度高并且被复制的语音可能非常稀疏，检出难度大。

现阶段，音频波形的音频复制粘贴篡改检测方法，包括计算任意两个片段之间波形的相似程度，从而判断待测音频中是否存在复制粘贴片段。然而，实际场景中特别是网络环境下，语音受到重采样重编码、噪声污染、传输丢包丢帧、语谱缺失处理以及播放设备非线性失真等影响，而且音频篡改者也可能加入各种后处理措施来影响或干扰检测算法。目前主流的算法可以归为三类：1）逐样本或帧级别的比对；2）声学特征相关性分析；3）动态时间规划距离分析。这些方法计算复杂度极高且在复杂场景下无法提供可靠的检测和定位能力。因此，如何提高对音频复制进行检测的准确率和效率成为了亟待解决的技术问题。

发明内容

有鉴于此，本申请的目的在于提供一种语音的重复音频检测方法、装置及存储介质，通过对短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，获取曲率变化明显的音频帧作为是否复制篡改的目标候选帧，提升了语音复制检测定位的检测速度以及准确性。

本申请实施例提供了一种语音的重复音频检测方法，所述重复音频检测方法包括：

获取待检测语音，对所述待检测语音进行分帧处理，对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取；

将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中，对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，确定出特征分段后的多个目标候选帧；

将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中，确定出每个特征分段对应的嵌入表征特征向量；

将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中，对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算，确定出所述待检测语音是否存在重复音频，若存在，则确定出所述重复音频的音频位置信息。

在一种可能的实施例中，针对于每一帧组，所述将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中，对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，确定出特征分段后的多个目标候选帧，包括：

在多个所述短时傅里叶变换特征中选取多个目标时刻对应的目标短时傅里叶变换特征；

针对每个所述目标短时傅里叶变换特征，基于该目标短时傅里叶变换特征相对应的所述目标时刻，确定出与所述目标时刻相隔预设时间段的两个邻域短时傅里叶变换特征，计算每个所述邻域短时傅里叶变换特征与该目标短时傅里叶变换特征的均方误差；

对多个所述均方误差进行平均值计算，确定出音频复制篡改的筛选阈值；

针对每个所述目标短时傅里叶变换特征，检测该目标短时傅里叶变换特征的两个所述邻域短时傅里叶变换特征的均方误差是否均大于所述筛选阈值，若是，则将该目标短时傅里叶变换特征确定为参考候选帧；

对每个所述参考候选帧进行非极大值抑制处理以及所述特征分段处理，确定出特征分段后的多个目标候选帧。

在一种可能的实施例中，所述对每个所述参考候选帧进行非极大值抑制处理以及所述特征分段处理，确定出特征分段后的多个目标候选帧，包括：

对每个所述参考候选帧进行所述非极大值抑制处理，确定出每个所述参考候选帧的响应值；

针对每个帧组，该帧组相对应在该帧组相对应的多个所述响应值之中筛选出最大响应值，将所述最大响应值相对应的参考候选帧确定为所述目标候选帧；

对多个所述目标候选帧进行所述特征分段处理，确定出特征分段后的多个目标候选帧。

在一种可能的实施方式中，所述将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中，对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算，确定出所述待检测语音是否存在重复音频，若存在，则确定出所述重复音频的音频位置信息，包括：

对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算，确定出相似度值；

检测所述相似度值是否大于预设相似度值；

若是，则该相似度值对应的特征分段后的所述目标候选帧确定为重复音频，并基于该重复音频相对应的时间信息确定出所述重复音频的音频位置信息。

在一种可能的实施方式中，通过以下步骤对所述重复音频检测模型进行训练：

获取样本语音以及所述样本语音对应的样本标签；

基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练，确定出所述样本语音的预测结果；

对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算，确定出损失值；其中，所述损失函数包括二分类交叉熵损失函数以及圆圈损失函数；

若所述损失值小于预设阈值，则停止对所述初始重复音频检测模型的训练，生成所述重复音频检测模型。

在一种可能的实施方式中，所述重复音频检测模型包括语义分割网络，所述基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练，确定出所述样本语音的预测结果，包括：

对所述样本语音进行特征处理，确定出特征分段的多个样本候选帧；

将所述特征分段的多个样本候选帧输入至所述语义分割网络的编码器模块之中，确定出每个特征分段对应的样本嵌入表征特征向量；

将各个所述样本嵌入表征特征向量输入至所述语义分割网络的瓶颈模块之中，确定出多个样本深度特征向量；

将多个所述样本深度特征向量输入至所述语义分割网络的解码器模块之中，进行上采样处理，通过跳跃连接与所述语义分割网络的编码器模块的多个所述样本嵌入表征特征向量进行多尺度特征融合，确定出多尺度特征；

基于所述多尺度特征，确定出所述预测结果。

在一种可能的实施方式中，所述对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算，确定出损失值，包括：

基于所述二分类交叉熵损失函数对所述样本语音、所述预测结果以及所述样本标签进行损失函数计算，确定出第一目标值；

基于所述圆圈损失函数对所述样本语音、所述预测结果以及所述样本标签进行损失函数计算，确定出第二目标值；

基于所述第一目标值以及所述第二目标值，确定出所述损失值。

本申请实施例还提供了一种语音的重复音频检测装置，所述重复音频检测装置包括：

特征提取模块，用于获取待检测语音，对所述待检测语音进行分帧处理，对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取；

目标候选帧确定模块，用于将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中，对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，确定出特征分段后的多个目标候选帧；

嵌入特征确定模块，用于将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中，确定出每个特征分段对应的嵌入表征特征向量；

检测模块，用于将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中，对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算，确定出所述待检测语音是否存在重复音频，若存在，则确定出所述重复音频的音频位置信息。

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的语音的重复音频检测方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的语音的重复音频检测方法的步骤。

本申请实施例提供的一种语音的重复音频检测方法、装置及存储介质，所述重复音频检测方法包括：获取待检测语音，对所述待检测语音进行分帧处理，对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取；将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中，对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，确定出特征分段后的多个目标候选帧；将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中，确定出每个特征分段对应的嵌入表征特征向量；将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中，对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算，确定出所述待检测语音是否存在重复音频，若存在，则确定出所述重复音频的音频位置信息。通过对短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，获取曲率变化明显的音频帧作为是否复制篡改的目标候选帧，提升了语音复制检测定位的检测速度以及准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种语音的重复音频检测方法的流程图；

图2为本申请实施例所提供的一种语音的重复音频检测方法的流程示意图；

图3为本申请实施例所提供的重复音频检测模型训练过程的流程示意图；

图4为本申请实施例所提供的一种语音的重复音频检测装置的结构示意图之一；

图5为本申请实施例所提供的一种语音的重复音频检测装置的结构示意图之二；

图6为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中的附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合特定应用场景“对重复音频进行检测”，给出以下实施方式，对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。

本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要对重复音频进行检测的场景，本申请实施例并不对具体的应用场景作限制，任何使用本申请实施例提供了一种语音的重复音频检测方法、装置及存储介质的方案均在本申请保护范围内。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于语音检测技术领域。

经研究发现，现阶段，音频波形的音频复制粘贴篡改检测方法，包括计算任意两个片段之间波形的相似程度，从而判断待测音频中是否存在复制粘贴片段。然而，实际场景中特别是网络环境下，语音受到重采样重编码、噪声污染、传输丢包丢帧、语谱缺失处理以及播放设备非线性失真等影响，而且音频篡改者也可能加入各种后处理措施来影响或干扰检测算法。目前主流的算法可以归为三类：1）逐样本或帧级别的比对；2）声学特征相关性分析；3）动态时间规划距离分析。这些方法计算复杂度极高且在复杂场景下无法提供可靠的检测和定位能力。因此，如何提高对音频复制进行检测的准确率和效率成为了亟待解决的技术问题。

基于此，本申请实施例提供了一种语音的重复音频检测方法、通过对短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，获取曲率变化明显的音频帧作为是否复制篡改的目标候选帧，提升了语音复制检测定位的检测速度以及准确性。

请参阅图1，图1为本申请实施例所提供的一种语音的重复音频检测方法的流程图。如图1中所示，本申请实施例提供的重复音频检测方法，包括：

S101：获取待检测语音，对所述待检测语音进行分帧处理，对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取。

该步骤中，获取待检测语音并对待检测语音进行分帧处理，对分帧处理后的待检测语音进行短时傅里叶变换特征提取。

这里，分帧处理以每5帧对待检测语音进行划分，或者是以每10帧对待检测语音进行划分得到多个帧组，这里不限制分帧的划分方式。

这里，由于短时傅里叶变换是和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。

S102：将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中，对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，确定出特征分段后的多个目标候选帧。

该步骤中，将提取出来的多个短时傅里叶变换特征输入到重复音频检测模型的检测网络之中，在检测网络之中对待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，得到特征分段后的多个目标候选帧。

这里，各个帧组的短时傅里叶变换特征为对待检测语音进行分帧处理，对分帧处理后的待检测语音进行特征短时傅里叶变换特征提取。

在一种可能的实施例中，针对每一帧组，所述将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中，对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，确定出特征分段后的多个目标候选帧，包括：

A：在多个所述短时傅里叶变换特征中选取多个目标时刻对应的目标短时傅里叶变换特征。

这里，在多个短时傅里叶变换特征中选取多个目标时刻对应的目标短时傅里叶变换特征。

其中，目标时刻t可为4s、8s、12s等。

其中，在多个短时傅里叶变换特征中选取多个目标时刻对应的目标短时傅里叶变换特征，是为了避免对所有的短时傅里叶变换特征都进行音频复制篡改检测，提高了计算速率。

B：针对每个所述目标短时傅里叶变换特征，基于该目标短时傅里叶变换特征相对应的所述目标时刻，确定出与所述目标时刻相隔预设时间段的两个邻域短时傅里叶变换特征，计算每个所述邻域短时傅里叶变换特征与该目标短时傅里叶变换特征的均方误差。

这里，对于每个目标短时傅里叶变换特征，根据该目标短时傅里叶变换特征相对应的目标时刻，确定出与目标时刻相隔预设时间段的两个邻域短时傅里叶变换特征，计算出每个邻域短时傅里叶变换特征与该目标短时傅里叶变换特征的均方误差。

其中，预设时间段可为3s、2s等其他时间段。

其中，与目标时刻相隔预设时间段的两个邻域短时傅里叶变换特征为在多个短时傅里叶变换特征中的特征，每个短时傅里叶变换特征都携带着音频时刻信息，若目标短时傅里叶变换特征（STFT特征）对应的目标时刻为t，预设时间段为3s，则该STFT特征的两个邻域短时傅里叶变换特征分别为t-3以及t+3相对应的短时傅里叶变换特征。

这里，选取t时刻的STFT特征，记为

，选择t-3和t+3时刻的邻域STFT特征，记为/>

和/>

，计算/>

与/>

、/>

的均方误差MSE(Mean SquareError)，确定出MSE（t,t+3）和MSE（t,t-3）。

C：对多个所述均方误差进行平均值计算，确定出音频复制篡改的筛选阈值。

这里，对多个均方误差进行平均值计算，确定出音频复制篡改的筛选阈值。

其中，对多个均方误差进行平均值计算得到的均方误差平均值，可以将该均方误差平均值的百分之八十，作为音频复制篡改的筛选阈值。

D：针对每个所述目标短时傅里叶变换特征，检测该目标短时傅里叶变换特征的两个所述邻域短时傅里叶变换特征的均方误差是否均大于所述筛选阈值，若是，则将该目标短时傅里叶变换特征确定为参考候选帧。

这里，对于每个目标短时傅里叶变换特征，检测该目标短时傅里叶变换特征的两个邻域短时傅里叶变换特征的均方误差是否均大于筛选阈值，若是，则将该目标短时傅里叶变换特征确定为参考候选帧。

E：对每个所述参考候选帧进行非极大值抑制处理以及所述特征分段处理，确定出特征分段后的多个目标候选帧。

这里，对每个参考候选帧进行非极大值抑制处理和特征分段处理，确定出特征分段后的多个目标候选帧。

其中，非极大值抑制处理用于抑制不是极大值的元素，可以理解为局部最大搜索。由于参考候选帧可能出现“扎堆”的现象，所以在第一遍检测之后，还需要用非极大值抑制，在一定区域内仅保留响应极大值（最“显著”）的参考候选帧，避免候选过于集中的问题，相应的也加快了后续流程处理的效率。

在一种可能的实施方式中，所述对每个所述参考候选帧进行非极大值抑制处理以及所述特征分段处理，确定出特征分段后的多个目标候选帧，包括：

a：对每个所述参考候选帧进行所述非极大值抑制处理，确定出每个所述参考候选帧的响应值。

这里，对每个参考候选帧进行非极大值抑制处理，确定出每个参考候选帧对应的响应值。

其中，时刻t的参考候选帧的响应值为MSE（t,t+3）+MSE（t,t-3）。

b：针对每个帧组，该帧组相对应在该帧组相对应的多个所述响应值之中筛选出最大响应值，将所述最大响应值相对应的参考候选帧确定为所述目标候选帧。

这里，针对每个帧组，每个帧组都有相对应的多个参考候选帧，在确定出参考候选帧的响应值之后，筛选出该帧组相对应的最大响应值所对应的参考候选帧，将最大响应值对应的参考候选帧确定为该帧组的目标候选帧。

这里，举例来讲，0-T为一个帧组，该帧组内有多个参考候选帧，需在多个参考候选帧中进行非极大值抑制处理，筛选出目标候选帧。

c：对多个所述目标候选帧进行所述特征分段处理，确定出特征分段后的多个目标候选帧。

这里，对多个目标候选帧进行特征分段，确定出特征分段后的多个目标候选帧。

S103：将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中，确定出每个特征分段对应的嵌入表征特征向量。

该步骤中，将特征分段后的多个目标候选帧输入到编码器网络之中，确定出每个特征分段对应的嵌入表征特征向量。

这里，将特征分段后的多个目标候选帧输入到编码器网络之中，在编码器网络之中对目标候选帧进行嵌入表征向量提取，确定出每个特征分段对应的嵌入表征特征向量。

S104：将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中，对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算，确定出所述待检测语音是否存在重复音频，若存在，则确定出所述重复音频的音频位置信息。

该步骤中，将各个特征分段对应的嵌入表征特征向量输入至重复音频检测模型的瓶颈网络之中，对任意两个特征分段相对应的嵌入表征特征向量进行相似度计算，确定出待检测语音是否存在重复音频，若存在，则确定出所述重复音频的音频位置信息。

（1）：对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算，确定出相似度值。

这里，对任意两个特征分段相对应的嵌入表征特征向量进行相似度计算，确定出相似度值。

其中，通过以下公式确定出相似度值：

其中，A为第i个特征分段的嵌入表征特征向量，B为第j个特征分段的嵌入表征特征向量，cos(A,B)为相似度值。

（2）：检测所述相似度值是否大于预设相似度值。

这里，针对每个相似度值，检测相似度值是否大于预设相似度值。

（3）：若是，则该相似度值对应的特征分段后的所述目标候选帧确定为重复音频，并基于该重复音频相对应的时间信息确定出所述重复音频的音频位置信息。

这里，若是，则将该相似度值对应的特征分段后的目标候选帧确定为重复音频，并基于该重复音频相对应的时间信息确定出重复音频的音频位置信息。

这里，当两个语音特征片段的相似度达到预设阈值时，确定这两个语音片段是重复音频。同时，两个音频分段特征所对应的音频位置可被确定出来，由此可获取音频分段特征对应的重复音频的时间信息，在重复音频检测的基础上进一步完成重复音频定位。实际场景中，语音传输丢帧、语谱图缺失或者播放设备非线性失真等情况下，可能某些复制段的特征点存在缺失，可相应地调整上述相似度的应用阈值。另外，在网络训练过程中，针对上述干扰情况和场景特点进行数据增强的网络训练，由此从模型上提升重复音频检测定位的泛化能力。

S1041：获取样本语音以及所述样本语音对应的样本标签。

这里获取到样本语音和样本语音对应的样本标签。

S1042：基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练，确定出所述样本语音的预测结果。

这里，利用样本语音和样本标签对初始重复音频检测模型进行训练，确定出样本语音的预测结果。

其中，初始重复音频检测模型为神经网络模型。

在一种可能的实施方式之中，所述重复音频检测模型包括语义分割网络，所述基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练，确定出所述样本语音的预测结果，包括：

1）：对所述样本语音进行特征处理，确定出特征分段的多个样本候选帧。

这里，对样本语音进行特征提取，确定出特征分段的多个样本候选帧的实现步骤与上述目标候选帧的实现步骤相一致此部分不在进行赘述。

2）：将所述特征分段的多个样本候选帧输入至所述语义分割网络的编码器模块之中，确定出每个特征分段对应的样本嵌入表征特征向量。

这里，将特征分段的多个样本候选帧输入到语义分割网络的编码器模块之中，确定出每个特征分段对应的样本嵌入表征特征向量。

其中，语义分割网络为Swin-Unet的U型网络。

其中，语义分割网络的编码器模块包括位移窗口以及补丁合并。

3）：将各个所述样本嵌入表征特征向量输入至所述语义分割网络的瓶颈模块之中，确定出多个样本深度特征向量。

这里，将各个样本嵌入表征特征向量输入至语义分割网络的瓶颈模块之中，确定出多个样本深度特征向量。

4）：将多个所述样本深度特征向量输入至所述语义分割网络的解码器模块之中，进行上采样处理，通过跳跃连接与所述语义分割网络的编码器模块的多个所述样本嵌入表征特征向量进行多尺度特征融合，确定出多尺度特征。

这里，将多个样本深度特征向量输入至语义分割网络的解码器模块之中，解码器模块与编码器模块跳跃连接，进行上采样处理，对多个样本嵌入表征特征向量以及多个样本深度特征向量进行多尺度特征融合，确定出多尺度特征。

5）：基于所述多尺度特征，确定出所述预测结果。

这里，根据多尺度特征，确定出预测结果。

这里，语义分割网络（Swin-Unet）利用注意力机制实现特征分割和定位，由编码器模块、瓶颈模块、解码器模块和跳跃连接组成。编码器模块、瓶颈模块和解码器模块都是基于Swin-transformer block（Shifted window Transformer block）构建的。将样本嵌入特征向量输入到基于注意力机制的编码器模块之中，以学习深度特征表示。提取的上下文特征由带补丁扩展层（Patch expanding）的解码器模块进行上采样，通过跳跃连接与编码器模块的多尺度特征进行融合，恢复特征的空间分辨率，进一步进行预测，有良好的预测精度和鲁棒泛化能力。

这里，在本方案中通过Swin-Unet网络对音频任务特点进行改进，用于音频复制检测任务，采用BCE-loss和Circle-loss的融合损失函数对复制检测的短时傅里叶变换特征（STFT特征）进行监督训练。基于网络中瓶颈模块的嵌入表征特征向量，计算两个语音特征片段的相似度达到预设阈值时，确定这两个语音片段是重复音频。并进一步获取音频分段特征对应的重复音频的时间信息，在重复音频检测的基础上进一步完成重复音频定位。

S1043：对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算，确定出损失值；其中，所述损失函数包括二分类交叉熵损失函数以及圆圈损失函数。

这里，对样本语音的样本候选帧、预测结果以及样本标签进行损失函数计算，确定出损失值。

这里，用损失函数融合的方式定义整体模型的目标函数，训练阶段分别采用二分类交叉熵损失函数(BCE-lossBinary Cross Entropy Loss）和圆圈损失函数（Circle-loss）对复制检测的STFT特征进行监督。这里Circle-loss提出了使用类标签的损失函数（分类学习）和使用正负样本对的损失函数（样本对学习）的统一的内在形式，将类间相似度与类内相似度嵌入到相似性配对中进行优化，且在相似度配对内部考虑各个相似度得分偏离理想状态的程度不同，给予不同的优化强度。

一：基于所述二分类交叉熵损失函数对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算，确定出第一目标值。

这里，利用类签损失函数对样本语音的样本候选帧、预测结果以及样本标签进行损失函数计算，确定出第一目标值。

其中，二分类交叉熵损失函数（BCE-loss）如下：

其中，x是样本语音的样本候选帧，y是样本标签，p(x)是预测结果，

为第一目标值。在使用BCE之前，需要将输出变量量化在[0，1]之间，可以使用Sigmoid激活函数。

二：基于所述圆圈损失函数对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算，确定出第二目标值。

这样，利用正负样本对损失函数对样本语音的样本候选帧、预测结果以及样本标签进行损失函数计算，确定出第二目标值。

其中，圆圈损失函数（circle-loss）基于triplet-loss改进而来的一种新型的损失函数。它的改进点在于，原本triplet-loss对于正负样本采用平均用力的方式进行优化。使得在模型收敛的时候，对于正负样本的区分力度不够。Circle-loss在正负样本对加入了一个权重，控制正负样本对各自的梯度贡献，最后就可以得到一个更有区分力度的模型。Circle-loss在实现的过程中，增大了模型对于各个分类在训练过程的难度，最终体现出来其模型有更强的区分力度，Circle-loss的激活函数采用SoftPlus。Circle-loss损失函数由正样本对和负样本对两部分构成。样本对之前都有调节因子，在训练的时候用于调参控制样本重要性。正负样本之前同时有加权因子，在训练的时候用于专注于学习收敛相对不佳的样本。

三：基于所述第一目标值以及所述第二目标值，确定出所述损失值。

这里，通过以下公式确定出损失值：

其中，

是权重系数，/>

为第一目标值，/>

为第二目标值，/>

为损失值。

S1044：若所述损失值小于预设阈值，则停止对所述初始重复音频检测模型的训练，生成所述重复音频检测模型。

这里，若损失值小于预设阈值，则停止对初始重复音频检测模型的训练，生成重复音频检测模型。

进一步的，请参阅图2，图2为本申请实施例所提供的一种语音的重复音频检测方法的流程示意图。如图2所示，对待检测语音进行分帧处理，对分帧处理后的待检测语音进行短时傅里叶变换特征提取，将短时傅里叶变换特征输入到重复音频检测模型的检测网络之中，对短时傅里叶变换特征进行音频复制篡改检测，得到参考候选帧，对参考候选帧进行非极大值抑制处理得到目标候选帧，将目标候选帧进行特征分段处理，得到特征分段后的多个目标候选帧，将特征分段后的目标候选帧输入到编码器网络之中，得到特征分段对应的嵌入表征特征向量，将特征分段对应的嵌入表征特征向量输入至瓶颈网络之中，输出是否存在重复音频，若是，则输出重复音频的音频位置信息。

进一步的，请参阅图3，图3为本申请实施例所提供的重复音频检测模型训练过程的流程示意图。如图3所示，获取样本语音以及样本标签，将样本语音和样本标签输入到初始重复音频检测模型之中，对样本语音进行音频复制篡改检测得到样本参考候选帧，对样本参考候选帧进行非极大值抑制处理得到样本候选帧，将样本候选帧进行特征分段处理，得到特征分段后的样本候选帧，将特征分段后的样本候选帧输入到编码器模块之中，得到每个特征分段对应的样本嵌入表征特征向量，将样本嵌入表征特征向量输入至瓶颈网络之中，确定出样本深度特征向量，将所样本深度特征向量输入至解码器模块之中，解码器模块与编码器模块通过跳跃连接，输出多尺度特征，将多尺度特征进行线性投影处理，输出预测结果，对样本语音的样本候选帧、预测结果以及样本标签进行损失函数计算，确定出损失值，若损失值小于预设阈值，则停止对初始重复音频检测模型的训练，生成重复音频检测模型。

本申请实施例提供的一种语音的重复音频检测方法，所述重复音频检测方法包括：获取待检测语音，对所述待检测语音进行分帧处理，对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取；将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中，对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，确定出特征分段后的多个目标候选帧；将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中，确定出每个特征分段对应的嵌入表征特征向量；将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中，对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算，确定出所述待检测语音是否存在重复音频，若存在，则确定出所述重复音频的音频位置信息。通过对短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，获取曲率变化明显的音频帧作为是否复制篡改的目标候选帧，提升了语音复制检测定位的检测速度以及准确性。

请参阅图4、图5，图4为本申请实施例所提供的一种语音的重复音频检测装置的结构示意图之一；图5为本申请实施例所提供的一种语音的重复音频检测装置的结构示意图之二。如图4中所示，所述语音的重复音频检测装置400包括：

特征提取模块410，用于获取待检测语音，对所述待检测语音进行分帧处理，对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取；

目标候选帧确定模块420，用于将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中，对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，确定出特征分段后的多个目标候选帧；

嵌入特征确定模块430，用于将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中，确定出每个特征分段对应的嵌入表征特征向量；

检测模块440，用于将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中，对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算，确定出所述待检测语音是否存在重复音频，若存在，则确定出所述重复音频的音频位置信息。

进一步的，目标候选帧确定模块420在用于针对于每一帧组，所述将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中，对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，确定出特征分段后的多个目标候选帧时，目标候选帧确定模块420具体用于：

进一步的，目标候选帧确定模块420在用于所述对每个所述参考候选帧进行非极大值抑制处理以及所述特征分段处理，确定出特征分段后的多个目标候选帧时，目标候选帧确定模块420具体用于：

进一步的，所述检测模块440在用于所述将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中，对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算，确定出所述待检测语音是否存在重复音频，若存在，则确定出所述重复音频的音频位置信息时，所述检测模块440具体用于：

检测所述相似度值是否大于预设相似度值；

进一步的，如图5所示，语音的重复音频检测装置400还包括模型训练模块450，模型训练模块450用于：

获取样本语音以及所述样本语音对应的样本标签；

进一步的，模型训练模块450在用于所述重复音频检测模型包括语义分割网络，所述基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练，确定出所述样本语音的预测结果时，模型训练模块450具体用于：

基于所述多尺度特征，确定出所述预测结果。

进一步的，模型训练模块450在用于所述对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算，确定出损失值时，模型训练模块450具体用于：

基于所述二分类交叉熵损失函数对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算，确定出第一目标值；

基于所述圆圈损失函数对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算，确定出第二目标值；

本申请实施例提供的一种语音的重复音频检测装置，所述重复音频检测装置包括：特征提取模块，用于获取待检测语音，对所述待检测语音进行分帧处理，对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取；目标候选帧确定模块，用于将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中，对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，确定出特征分段后的多个目标候选帧；嵌入特征确定模块，用于将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中，确定出每个特征分段对应的嵌入表征特征向量；检测模块，用于将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中，对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算，确定出所述待检测语音是否存在重复音频，若存在，则确定出所述重复音频的音频位置信息。通过对短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，获取曲率变化明显的音频帧作为是否复制篡改的目标候选帧，提升了语音复制检测定位的检测速度以及准确性。

请参阅图6，图6为本申请实施例所提供的一种电子设备的结构示意图。如图6中所示，所述电子设备600包括处理器610、存储器620和总线630。

所述存储器620存储有所述处理器610可执行的机器可读指令，当电子设备600运行时，所述处理器610与所述存储器620之间通过总线630通信，所述机器可读指令被所述处理器610执行时，可以执行如上述图1所示方法实施例中的语音的重复音频检测方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的语音的重复音频检测方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（RandomAccessMemory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音的重复音频检测方法，其特征在于，所述重复音频检测方法包括：

将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中，对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算，确定出所述待检测语音是否存在重复音频，若存在，则确定出所述重复音频的音频位置信息；

通过以下步骤对所述重复音频检测模型进行训练：

获取样本语音以及所述样本语音对应的样本标签；

基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练，确定出所述样本语音的预测结果；其中，所述初始重复音频检测模型为神经网络模型；

2.根据权利要求1所述的重复音频检测方法，其特征在于，针对于每一帧组，所述将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中，对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理，确定出特征分段后的多个目标候选帧，包括：

3.根据权利要求2所述的重复音频检测方法，其特征在于，所述对每个所述参考候选帧进行非极大值抑制处理以及所述特征分段处理，确定出特征分段后的多个目标候选帧，包括：

4.根据权利要求1所述的重复音频检测方法，其特征在于，所述将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中，对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算，确定出所述待检测语音是否存在重复音频，若存在，则确定出所述重复音频的音频位置信息，包括：

检测所述相似度值是否大于预设相似度值；

5.根据权利要求1所述的重复音频检测方法，其特征在于，所述基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练，确定出所述样本语音的预测结果，包括：

将所述特征分段的多个样本候选帧输入至语义分割网络的编码器模块之中，确定出每个特征分段对应的样本嵌入表征特征向量；

基于所述多尺度特征，确定出所述预测结果。

6.根据权利要求1所述的重复音频检测方法，其特征在于，所述对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算，确定出损失值，包括：

7.一种语音的重复音频检测装置，其特征在于，所述重复音频检测装置包括：

检测模块，用于将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中，对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算，确定出所述待检测语音是否存在重复音频，若存在，则确定出所述重复音频的音频位置信息；

重复音频检测装置还包括模型训练模块，模型训练模块用于：

获取样本语音以及所述样本语音对应的样本标签；

基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练，确定出所述样本语音的预测结果；其中，初始重复音频检测模型为神经网络模型；

8.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线进行通信，所述机器可读指令被所述处理器运行时执行如权利要求1至6任一所述的语音的重复音频检测方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至6任一所述的语音的重复音频检测方法的步骤。