CN115641856B - 一种语音的重复音频检测方法、装置及存储介质 - Google Patents
一种语音的重复音频检测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115641856B CN115641856B CN202211597936.8A CN202211597936A CN115641856B CN 115641856 B CN115641856 B CN 115641856B CN 202211597936 A CN202211597936 A CN 202211597936A CN 115641856 B CN115641856 B CN 115641856B
- Authority
- CN
- China
- Prior art keywords
- feature
- sample
- voice
- audio
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000001514 detection method Methods 0.000 claims abstract description 172
- 230000011218 segmentation Effects 0.000 claims abstract description 132
- 238000012545 processing Methods 0.000 claims abstract description 88
- 239000013598 vector Substances 0.000 claims abstract description 83
- 238000004364 calculation method Methods 0.000 claims abstract description 46
- 238000009432 framing Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 60
- 238000012549 training Methods 0.000 claims description 32
- 238000012512 characterization method Methods 0.000 claims description 21
- 230000004044 response Effects 0.000 claims description 21
- 230000001629 suppression Effects 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 15
- 230000003252 repetitive effect Effects 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000009191 jumping Effects 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种语音的重复音频检测方法、装置及存储介质,重复音频检测方法包括:对待检测语音进行分帧处理,对分帧处理后的待检测语音进行短时傅里叶变换特征提取;将多个短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中,确定出特征分段后的多个目标候选帧;将特征分段后多个目标候选帧输入至重复音频检测模型的编码器网络之中,确定出每个特征分段对应的嵌入表征特征向量;将各个特征分段对应的嵌入表征特征向量输入至重复音频检测模型的瓶颈网络之中,进行相似度计算,确定出待检测语音是否存在重复音频,若存在,则确定出重复音频的音频位置信息,提升了语音复制检测定位的检测速度以及准确性。
Description
技术领域
本申请涉及语音检测技术领域,尤其是涉及一种语音的重复音频检测方法、装置及存储介质。
背景技术
语音复制粘贴篡改是从音频信号的某处复制一个特定的片段,将其粘贴到同段音频的其他位置,以完全更改音频的语义信息。例如,复制同一段音频中的“不”字将音频“我同意”篡改成“我不同意”。通过专业的音频编辑软件复制和编辑来篡改的语音自然程度高并且被复制的语音可能非常稀疏,检出难度大。
现阶段,音频波形的音频复制粘贴篡改检测方法,包括计算任意两个片段之间波形的相似程度,从而判断待测音频中是否存在复制粘贴片段。然而,实际场景中特别是网络环境下,语音受到重采样重编码、噪声污染、传输丢包丢帧、语谱缺失处理以及播放设备非线性失真等影响,而且音频篡改者也可能加入各种后处理措施来影响或干扰检测算法。目前主流的算法可以归为三类:1)逐样本或帧级别的比对;2)声学特征相关性分析;3)动态时间规划距离分析。这些方法计算复杂度极高且在复杂场景下无法提供可靠的检测和定位能力。因此,如何提高对音频复制进行检测的准确率和效率成为了亟待解决的技术问题。
发明内容
有鉴于此,本申请的目的在于提供一种语音的重复音频检测方法、装置及存储介质,通过对短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,获取曲率变化明显的音频帧作为是否复制篡改的目标候选帧,提升了语音复制检测定位的检测速度以及准确性。
本申请实施例提供了一种语音的重复音频检测方法,所述重复音频检测方法包括:
获取待检测语音,对所述待检测语音进行分帧处理,对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取;
将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中,对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,确定出特征分段后的多个目标候选帧;
将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中,确定出每个特征分段对应的嵌入表征特征向量;
将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中,对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出所述待检测语音是否存在重复音频,若存在,则确定出所述重复音频的音频位置信息。
在一种可能的实施例中,针对于每一帧组,所述将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中,对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,确定出特征分段后的多个目标候选帧,包括:
在多个所述短时傅里叶变换特征中选取多个目标时刻对应的目标短时傅里叶变换特征;
针对每个所述目标短时傅里叶变换特征,基于该目标短时傅里叶变换特征相对应的所述目标时刻,确定出与所述目标时刻相隔预设时间段的两个邻域短时傅里叶变换特征,计算每个所述邻域短时傅里叶变换特征与该目标短时傅里叶变换特征的均方误差;
对多个所述均方误差进行平均值计算,确定出音频复制篡改的筛选阈值;
针对每个所述目标短时傅里叶变换特征,检测该目标短时傅里叶变换特征的两个所述邻域短时傅里叶变换特征的均方误差是否均大于所述筛选阈值,若是,则将该目标短时傅里叶变换特征确定为参考候选帧;
对每个所述参考候选帧进行非极大值抑制处理以及所述特征分段处理,确定出特征分段后的多个目标候选帧。
在一种可能的实施例中,所述对每个所述参考候选帧进行非极大值抑制处理以及所述特征分段处理,确定出特征分段后的多个目标候选帧,包括:
对每个所述参考候选帧进行所述非极大值抑制处理,确定出每个所述参考候选帧的响应值;
针对每个帧组,该帧组相对应在该帧组相对应的多个所述响应值之中筛选出最大响应值,将所述最大响应值相对应的参考候选帧确定为所述目标候选帧;
对多个所述目标候选帧进行所述特征分段处理,确定出特征分段后的多个目标候选帧。
在一种可能的实施方式中,所述将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中,对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出所述待检测语音是否存在重复音频,若存在,则确定出所述重复音频的音频位置信息,包括:
对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出相似度值;
检测所述相似度值是否大于预设相似度值;
若是,则该相似度值对应的特征分段后的所述目标候选帧确定为重复音频,并基于该重复音频相对应的时间信息确定出所述重复音频的音频位置信息。
在一种可能的实施方式中,通过以下步骤对所述重复音频检测模型进行训练:
获取样本语音以及所述样本语音对应的样本标签;
基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练,确定出所述样本语音的预测结果;
对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出损失值;其中,所述损失函数包括二分类交叉熵损失函数以及圆圈损失函数;
若所述损失值小于预设阈值,则停止对所述初始重复音频检测模型的训练,生成所述重复音频检测模型。
在一种可能的实施方式中,所述重复音频检测模型包括语义分割网络,所述基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练,确定出所述样本语音的预测结果,包括:
对所述样本语音进行特征处理,确定出特征分段的多个样本候选帧;
将所述特征分段的多个样本候选帧输入至所述语义分割网络的编码器模块之中,确定出每个特征分段对应的样本嵌入表征特征向量;
将各个所述样本嵌入表征特征向量输入至所述语义分割网络的瓶颈模块之中,确定出多个样本深度特征向量;
将多个所述样本深度特征向量输入至所述语义分割网络的解码器模块之中,进行上采样处理,通过跳跃连接与所述语义分割网络的编码器模块的多个所述样本嵌入表征特征向量进行多尺度特征融合,确定出多尺度特征;
基于所述多尺度特征,确定出所述预测结果。
在一种可能的实施方式中,所述对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出损失值,包括:
基于所述二分类交叉熵损失函数对所述样本语音、所述预测结果以及所述样本标签进行损失函数计算,确定出第一目标值;
基于所述圆圈损失函数对所述样本语音、所述预测结果以及所述样本标签进行损失函数计算,确定出第二目标值;
基于所述第一目标值以及所述第二目标值,确定出所述损失值。
本申请实施例还提供了一种语音的重复音频检测装置,所述重复音频检测装置包括:
特征提取模块,用于获取待检测语音,对所述待检测语音进行分帧处理,对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取;
目标候选帧确定模块,用于将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中,对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,确定出特征分段后的多个目标候选帧;
嵌入特征确定模块,用于将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中,确定出每个特征分段对应的嵌入表征特征向量;
检测模块,用于将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中,对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出所述待检测语音是否存在重复音频,若存在,则确定出所述重复音频的音频位置信息。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的语音的重复音频检测方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的语音的重复音频检测方法的步骤。
本申请实施例提供的一种语音的重复音频检测方法、装置及存储介质,所述重复音频检测方法包括:获取待检测语音,对所述待检测语音进行分帧处理,对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取;将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中,对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,确定出特征分段后的多个目标候选帧;将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中,确定出每个特征分段对应的嵌入表征特征向量;将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中,对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出所述待检测语音是否存在重复音频,若存在,则确定出所述重复音频的音频位置信息。通过对短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,获取曲率变化明显的音频帧作为是否复制篡改的目标候选帧,提升了语音复制检测定位的检测速度以及准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例所提供的一种语音的重复音频检测方法的流程图;
图2为本申请实施例所提供的一种语音的重复音频检测方法的流程示意图;
图3为本申请实施例所提供的重复音频检测模型训练过程的流程示意图;
图4为本申请实施例所提供的一种语音的重复音频检测装置的结构示意图之一;
图5为本申请实施例所提供的一种语音的重复音频检测装置的结构示意图之二;
图6为本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“对重复音频进行检测”,给出以下实施方式,对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。
本申请实施例下述方法、装置、电子设备或计算机可读存储介质可以应用于任何需要对重复音频进行检测的场景,本申请实施例并不对具体的应用场景作限制,任何使用本申请实施例提供了一种语音的重复音频检测方法、装置及存储介质的方案均在本申请保护范围内。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于语音检测技术领域。
经研究发现,现阶段,音频波形的音频复制粘贴篡改检测方法,包括计算任意两个片段之间波形的相似程度,从而判断待测音频中是否存在复制粘贴片段。然而,实际场景中特别是网络环境下,语音受到重采样重编码、噪声污染、传输丢包丢帧、语谱缺失处理以及播放设备非线性失真等影响,而且音频篡改者也可能加入各种后处理措施来影响或干扰检测算法。目前主流的算法可以归为三类:1)逐样本或帧级别的比对;2)声学特征相关性分析;3)动态时间规划距离分析。这些方法计算复杂度极高且在复杂场景下无法提供可靠的检测和定位能力。因此,如何提高对音频复制进行检测的准确率和效率成为了亟待解决的技术问题。
基于此,本申请实施例提供了一种语音的重复音频检测方法、通过对短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,获取曲率变化明显的音频帧作为是否复制篡改的目标候选帧,提升了语音复制检测定位的检测速度以及准确性。
请参阅图1,图1为本申请实施例所提供的一种语音的重复音频检测方法的流程图。如图1中所示,本申请实施例提供的重复音频检测方法,包括:
S101:获取待检测语音,对所述待检测语音进行分帧处理,对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取。
该步骤中,获取待检测语音并对待检测语音进行分帧处理,对分帧处理后的待检测语音进行短时傅里叶变换特征提取。
这里,分帧处理以每5帧对待检测语音进行划分,或者是以每10帧对待检测语音进行划分得到多个帧组,这里不限制分帧的划分方式。
这里,由于短时傅里叶变换是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位。
S102:将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中,对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,确定出特征分段后的多个目标候选帧。
该步骤中,将提取出来的多个短时傅里叶变换特征输入到重复音频检测模型的检测网络之中,在检测网络之中对待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,得到特征分段后的多个目标候选帧。
这里,各个帧组的短时傅里叶变换特征为对待检测语音进行分帧处理,对分帧处理后的待检测语音进行特征短时傅里叶变换特征提取。
在一种可能的实施例中,针对每一帧组,所述将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中,对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,确定出特征分段后的多个目标候选帧,包括:
A:在多个所述短时傅里叶变换特征中选取多个目标时刻对应的目标短时傅里叶变换特征。
这里,在多个短时傅里叶变换特征中选取多个目标时刻对应的目标短时傅里叶变换特征。
其中,目标时刻t可为4s、8s、12s等。
其中,在多个短时傅里叶变换特征中选取多个目标时刻对应的目标短时傅里叶变换特征,是为了避免对所有的短时傅里叶变换特征都进行音频复制篡改检测,提高了计算速率。
B:针对每个所述目标短时傅里叶变换特征,基于该目标短时傅里叶变换特征相对应的所述目标时刻,确定出与所述目标时刻相隔预设时间段的两个邻域短时傅里叶变换特征,计算每个所述邻域短时傅里叶变换特征与该目标短时傅里叶变换特征的均方误差。
这里,对于每个目标短时傅里叶变换特征,根据该目标短时傅里叶变换特征相对应的目标时刻,确定出与目标时刻相隔预设时间段的两个邻域短时傅里叶变换特征,计算出每个邻域短时傅里叶变换特征与该目标短时傅里叶变换特征的均方误差。
其中,预设时间段可为3s、2s等其他时间段。
其中,与目标时刻相隔预设时间段的两个邻域短时傅里叶变换特征为在多个短时傅里叶变换特征中的特征,每个短时傅里叶变换特征都携带着音频时刻信息,若目标短时傅里叶变换特征(STFT特征)对应的目标时刻为t,预设时间段为3s,则该STFT特征的两个邻域短时傅里叶变换特征分别为t-3以及t+3相对应的短时傅里叶变换特征。
这里,选取t时刻的STFT特征,记为,选择t-3和t+3时刻的邻域STFT特征,记为/>和/>,计算/>与/>、/>的均方误差MSE(Mean SquareError),确定出MSE(t,t+3)和MSE(t,t-3)。
C:对多个所述均方误差进行平均值计算,确定出音频复制篡改的筛选阈值。
这里,对多个均方误差进行平均值计算,确定出音频复制篡改的筛选阈值。
其中,对多个均方误差进行平均值计算得到的均方误差平均值,可以将该均方误差平均值的百分之八十,作为音频复制篡改的筛选阈值。
D:针对每个所述目标短时傅里叶变换特征,检测该目标短时傅里叶变换特征的两个所述邻域短时傅里叶变换特征的均方误差是否均大于所述筛选阈值,若是,则将该目标短时傅里叶变换特征确定为参考候选帧。
这里,对于每个目标短时傅里叶变换特征,检测该目标短时傅里叶变换特征的两个邻域短时傅里叶变换特征的均方误差是否均大于筛选阈值,若是,则将该目标短时傅里叶变换特征确定为参考候选帧。
E:对每个所述参考候选帧进行非极大值抑制处理以及所述特征分段处理,确定出特征分段后的多个目标候选帧。
这里,对每个参考候选帧进行非极大值抑制处理和特征分段处理,确定出特征分段后的多个目标候选帧。
其中,非极大值抑制处理用于抑制不是极大值的元素,可以理解为局部最大搜索。由于参考候选帧可能出现“扎堆”的现象,所以在第一遍检测之后,还需要用非极大值抑制,在一定区域内仅保留响应极大值(最“显著”)的参考候选帧,避免候选过于集中的问题,相应的也加快了后续流程处理的效率。
在一种可能的实施方式中,所述对每个所述参考候选帧进行非极大值抑制处理以及所述特征分段处理,确定出特征分段后的多个目标候选帧,包括:
a:对每个所述参考候选帧进行所述非极大值抑制处理,确定出每个所述参考候选帧的响应值。
这里,对每个参考候选帧进行非极大值抑制处理,确定出每个参考候选帧对应的响应值。
其中,时刻t的参考候选帧的响应值为MSE(t,t+3)+MSE(t,t-3)。
b:针对每个帧组,该帧组相对应在该帧组相对应的多个所述响应值之中筛选出最大响应值,将所述最大响应值相对应的参考候选帧确定为所述目标候选帧。
这里,针对每个帧组,每个帧组都有相对应的多个参考候选帧,在确定出参考候选帧的响应值之后,筛选出该帧组相对应的最大响应值所对应的参考候选帧,将最大响应值对应的参考候选帧确定为该帧组的目标候选帧。
这里,举例来讲,0-T为一个帧组,该帧组内有多个参考候选帧,需在多个参考候选帧中进行非极大值抑制处理,筛选出目标候选帧。
c:对多个所述目标候选帧进行所述特征分段处理,确定出特征分段后的多个目标候选帧。
这里,对多个目标候选帧进行特征分段,确定出特征分段后的多个目标候选帧。
S103:将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中,确定出每个特征分段对应的嵌入表征特征向量。
该步骤中,将特征分段后的多个目标候选帧输入到编码器网络之中,确定出每个特征分段对应的嵌入表征特征向量。
这里,将特征分段后的多个目标候选帧输入到编码器网络之中,在编码器网络之中对目标候选帧进行嵌入表征向量提取,确定出每个特征分段对应的嵌入表征特征向量。
S104:将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中,对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出所述待检测语音是否存在重复音频,若存在,则确定出所述重复音频的音频位置信息。
该步骤中,将各个特征分段对应的嵌入表征特征向量输入至重复音频检测模型的瓶颈网络之中,对任意两个特征分段相对应的嵌入表征特征向量进行相似度计算,确定出待检测语音是否存在重复音频,若存在,则确定出所述重复音频的音频位置信息。
在一种可能的实施方式中,所述将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中,对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出所述待检测语音是否存在重复音频,若存在,则确定出所述重复音频的音频位置信息,包括:
(1):对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出相似度值。
这里,对任意两个特征分段相对应的嵌入表征特征向量进行相似度计算,确定出相似度值。
其中,通过以下公式确定出相似度值:
其中,A为第i个特征分段的嵌入表征特征向量,B为第j个特征分段的嵌入表征特征向量,cos(A,B)为相似度值。
(2):检测所述相似度值是否大于预设相似度值。
这里,针对每个相似度值,检测相似度值是否大于预设相似度值。
(3):若是,则该相似度值对应的特征分段后的所述目标候选帧确定为重复音频,并基于该重复音频相对应的时间信息确定出所述重复音频的音频位置信息。
这里,若是,则将该相似度值对应的特征分段后的目标候选帧确定为重复音频,并基于该重复音频相对应的时间信息确定出重复音频的音频位置信息。
这里,当两个语音特征片段的相似度达到预设阈值时,确定这两个语音片段是重复音频。同时,两个音频分段特征所对应的音频位置可被确定出来,由此可获取音频分段特征对应的重复音频的时间信息,在重复音频检测的基础上进一步完成重复音频定位。实际场景中,语音传输丢帧、语谱图缺失或者播放设备非线性失真等情况下,可能某些复制段的特征点存在缺失,可相应地调整上述相似度的应用阈值。另外,在网络训练过程中,针对上述干扰情况和场景特点进行数据增强的网络训练,由此从模型上提升重复音频检测定位的泛化能力。
在一种可能的实施方式中,通过以下步骤对所述重复音频检测模型进行训练:
S1041:获取样本语音以及所述样本语音对应的样本标签。
这里获取到样本语音和样本语音对应的样本标签。
S1042:基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练,确定出所述样本语音的预测结果。
这里,利用样本语音和样本标签对初始重复音频检测模型进行训练,确定出样本语音的预测结果。
其中,初始重复音频检测模型为神经网络模型。
在一种可能的实施方式之中,所述重复音频检测模型包括语义分割网络,所述基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练,确定出所述样本语音的预测结果,包括:
1):对所述样本语音进行特征处理,确定出特征分段的多个样本候选帧。
这里,对样本语音进行特征提取,确定出特征分段的多个样本候选帧的实现步骤与上述目标候选帧的实现步骤相一致此部分不在进行赘述。
2):将所述特征分段的多个样本候选帧输入至所述语义分割网络的编码器模块之中,确定出每个特征分段对应的样本嵌入表征特征向量。
这里,将特征分段的多个样本候选帧输入到语义分割网络的编码器模块之中,确定出每个特征分段对应的样本嵌入表征特征向量。
其中,语义分割网络为Swin-Unet的U型网络。
其中,语义分割网络的编码器模块包括位移窗口以及补丁合并。
3):将各个所述样本嵌入表征特征向量输入至所述语义分割网络的瓶颈模块之中,确定出多个样本深度特征向量。
这里,将各个样本嵌入表征特征向量输入至语义分割网络的瓶颈模块之中,确定出多个样本深度特征向量。
4):将多个所述样本深度特征向量输入至所述语义分割网络的解码器模块之中,进行上采样处理,通过跳跃连接与所述语义分割网络的编码器模块的多个所述样本嵌入表征特征向量进行多尺度特征融合,确定出多尺度特征。
这里,将多个样本深度特征向量输入至语义分割网络的解码器模块之中,解码器模块与编码器模块跳跃连接,进行上采样处理,对多个样本嵌入表征特征向量以及多个样本深度特征向量进行多尺度特征融合,确定出多尺度特征。
5):基于所述多尺度特征,确定出所述预测结果。
这里,根据多尺度特征,确定出预测结果。
这里,语义分割网络(Swin-Unet)利用注意力机制实现特征分割和定位,由编码器模块、瓶颈模块、解码器模块和跳跃连接组成。编码器模块、瓶颈模块和解码器模块都是基于Swin-transformer block(Shifted window Transformer block)构建的。将样本嵌入特征向量输入到基于注意力机制的编码器模块之中,以学习深度特征表示。提取的上下文特征由带补丁扩展层(Patch expanding)的解码器模块进行上采样,通过跳跃连接与编码器模块的多尺度特征进行融合,恢复特征的空间分辨率,进一步进行预测,有良好的预测精度和鲁棒泛化能力。
这里,在本方案中通过Swin-Unet网络对音频任务特点进行改进,用于音频复制检测任务,采用BCE-loss和Circle-loss的融合损失函数对复制检测的短时傅里叶变换特征(STFT特征)进行监督训练。基于网络中瓶颈模块的嵌入表征特征向量,计算两个语音特征片段的相似度达到预设阈值时,确定这两个语音片段是重复音频。并进一步获取音频分段特征对应的重复音频的时间信息,在重复音频检测的基础上进一步完成重复音频定位。
S1043:对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出损失值;其中,所述损失函数包括二分类交叉熵损失函数以及圆圈损失函数。
这里,对样本语音的样本候选帧、预测结果以及样本标签进行损失函数计算,确定出损失值。
这里,用损失函数融合的方式定义整体模型的目标函数,训练阶段分别采用二分类交叉熵损失函数(BCE-lossBinary Cross Entropy Loss)和圆圈损失函数(Circle-loss)对复制检测的STFT特征进行监督。这里Circle-loss提出了使用类标签的损失函数(分类学习)和使用正负样本对的损失函数(样本对学习)的统一的内在形式,将类间相似度与类内相似度嵌入到相似性配对中进行优化,且在相似度配对内部考虑各个相似度得分偏离理想状态的程度不同,给予不同的优化强度。
在一种可能的实施方式中,所述对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出损失值,包括:
一:基于所述二分类交叉熵损失函数对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出第一目标值。
这里,利用类签损失函数对样本语音的样本候选帧、预测结果以及样本标签进行损失函数计算,确定出第一目标值。
其中,二分类交叉熵损失函数(BCE-loss)如下:
二:基于所述圆圈损失函数对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出第二目标值。
这样,利用正负样本对损失函数对样本语音的样本候选帧、预测结果以及样本标签进行损失函数计算,确定出第二目标值。
其中,圆圈损失函数(circle-loss)基于triplet-loss改进而来的一种新型的损失函数。它的改进点在于,原本triplet-loss对于正负样本采用平均用力的方式进行优化。使得在模型收敛的时候,对于正负样本的区分力度不够。Circle-loss在正负样本对加入了一个权重,控制正负样本对各自的梯度贡献,最后就可以得到一个更有区分力度的模型。Circle-loss在实现的过程中,增大了模型对于各个分类在训练过程的难度,最终体现出来其模型有更强的区分力度,Circle-loss的激活函数采用SoftPlus。Circle-loss损失函数由正样本对和负样本对两部分构成。样本对之前都有调节因子,在训练的时候用于调参控制样本重要性。正负样本之前同时有加权因子,在训练的时候用于专注于学习收敛相对不佳的样本。
三:基于所述第一目标值以及所述第二目标值,确定出所述损失值。
这里,通过以下公式确定出损失值:
S1044:若所述损失值小于预设阈值,则停止对所述初始重复音频检测模型的训练,生成所述重复音频检测模型。
这里,若损失值小于预设阈值,则停止对初始重复音频检测模型的训练,生成重复音频检测模型。
进一步的,请参阅图2,图2为本申请实施例所提供的一种语音的重复音频检测方法的流程示意图。如图2所示,对待检测语音进行分帧处理,对分帧处理后的待检测语音进行短时傅里叶变换特征提取,将短时傅里叶变换特征输入到重复音频检测模型的检测网络之中,对短时傅里叶变换特征进行音频复制篡改检测,得到参考候选帧,对参考候选帧进行非极大值抑制处理得到目标候选帧,将目标候选帧进行特征分段处理,得到特征分段后的多个目标候选帧,将特征分段后的目标候选帧输入到编码器网络之中,得到特征分段对应的嵌入表征特征向量,将特征分段对应的嵌入表征特征向量输入至瓶颈网络之中,输出是否存在重复音频,若是,则输出重复音频的音频位置信息。
进一步的,请参阅图3,图3为本申请实施例所提供的重复音频检测模型训练过程的流程示意图。如图3所示,获取样本语音以及样本标签,将样本语音和样本标签输入到初始重复音频检测模型之中,对样本语音进行音频复制篡改检测得到样本参考候选帧,对样本参考候选帧进行非极大值抑制处理得到样本候选帧,将样本候选帧进行特征分段处理,得到特征分段后的样本候选帧,将特征分段后的样本候选帧输入到编码器模块之中,得到每个特征分段对应的样本嵌入表征特征向量,将样本嵌入表征特征向量输入至瓶颈网络之中,确定出样本深度特征向量,将所样本深度特征向量输入至解码器模块之中,解码器模块与编码器模块通过跳跃连接,输出多尺度特征,将多尺度特征进行线性投影处理,输出预测结果,对样本语音的样本候选帧、预测结果以及样本标签进行损失函数计算,确定出损失值,若损失值小于预设阈值,则停止对初始重复音频检测模型的训练,生成重复音频检测模型。
本申请实施例提供的一种语音的重复音频检测方法,所述重复音频检测方法包括:获取待检测语音,对所述待检测语音进行分帧处理,对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取;将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中,对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,确定出特征分段后的多个目标候选帧;将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中,确定出每个特征分段对应的嵌入表征特征向量;将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中,对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出所述待检测语音是否存在重复音频,若存在,则确定出所述重复音频的音频位置信息。通过对短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,获取曲率变化明显的音频帧作为是否复制篡改的目标候选帧,提升了语音复制检测定位的检测速度以及准确性。
请参阅图4、图5,图4为本申请实施例所提供的一种语音的重复音频检测装置的结构示意图之一;图5为本申请实施例所提供的一种语音的重复音频检测装置的结构示意图之二。如图4中所示,所述语音的重复音频检测装置400包括:
特征提取模块410,用于获取待检测语音,对所述待检测语音进行分帧处理,对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取;
目标候选帧确定模块420,用于将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中,对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,确定出特征分段后的多个目标候选帧;
嵌入特征确定模块430,用于将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中,确定出每个特征分段对应的嵌入表征特征向量;
检测模块440,用于将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中,对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出所述待检测语音是否存在重复音频,若存在,则确定出所述重复音频的音频位置信息。
进一步的,目标候选帧确定模块420在用于针对于每一帧组,所述将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中,对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,确定出特征分段后的多个目标候选帧时,目标候选帧确定模块420具体用于:
在多个所述短时傅里叶变换特征中选取多个目标时刻对应的目标短时傅里叶变换特征;
针对每个所述目标短时傅里叶变换特征,基于该目标短时傅里叶变换特征相对应的所述目标时刻,确定出与所述目标时刻相隔预设时间段的两个邻域短时傅里叶变换特征,计算每个所述邻域短时傅里叶变换特征与该目标短时傅里叶变换特征的均方误差;
对多个所述均方误差进行平均值计算,确定出音频复制篡改的筛选阈值;
针对每个所述目标短时傅里叶变换特征,检测该目标短时傅里叶变换特征的两个所述邻域短时傅里叶变换特征的均方误差是否均大于所述筛选阈值,若是,则将该目标短时傅里叶变换特征确定为参考候选帧;
对每个所述参考候选帧进行非极大值抑制处理以及所述特征分段处理,确定出特征分段后的多个目标候选帧。
进一步的,目标候选帧确定模块420在用于所述对每个所述参考候选帧进行非极大值抑制处理以及所述特征分段处理,确定出特征分段后的多个目标候选帧时,目标候选帧确定模块420具体用于:
对每个所述参考候选帧进行所述非极大值抑制处理,确定出每个所述参考候选帧的响应值;
针对每个帧组,该帧组相对应在该帧组相对应的多个所述响应值之中筛选出最大响应值,将所述最大响应值相对应的参考候选帧确定为所述目标候选帧;
对多个所述目标候选帧进行所述特征分段处理,确定出特征分段后的多个目标候选帧。
进一步的,所述检测模块440在用于所述将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中,对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出所述待检测语音是否存在重复音频,若存在,则确定出所述重复音频的音频位置信息时,所述检测模块440具体用于:
对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出相似度值;
检测所述相似度值是否大于预设相似度值;
若是,则该相似度值对应的特征分段后的所述目标候选帧确定为重复音频,并基于该重复音频相对应的时间信息确定出所述重复音频的音频位置信息。
进一步的,如图5所示,语音的重复音频检测装置400还包括模型训练模块450,模型训练模块450用于:
获取样本语音以及所述样本语音对应的样本标签;
基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练,确定出所述样本语音的预测结果;
对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出损失值;其中,所述损失函数包括二分类交叉熵损失函数以及圆圈损失函数;
若所述损失值小于预设阈值,则停止对所述初始重复音频检测模型的训练,生成所述重复音频检测模型。
进一步的,模型训练模块450在用于所述重复音频检测模型包括语义分割网络,所述基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练,确定出所述样本语音的预测结果时,模型训练模块450具体用于:
对所述样本语音进行特征处理,确定出特征分段的多个样本候选帧;
将所述特征分段的多个样本候选帧输入至所述语义分割网络的编码器模块之中,确定出每个特征分段对应的样本嵌入表征特征向量;
将各个所述样本嵌入表征特征向量输入至所述语义分割网络的瓶颈模块之中,确定出多个样本深度特征向量;
将多个所述样本深度特征向量输入至所述语义分割网络的解码器模块之中,进行上采样处理,通过跳跃连接与所述语义分割网络的编码器模块的多个所述样本嵌入表征特征向量进行多尺度特征融合,确定出多尺度特征;
基于所述多尺度特征,确定出所述预测结果。
进一步的,模型训练模块450在用于所述对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出损失值时,模型训练模块450具体用于:
基于所述二分类交叉熵损失函数对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出第一目标值;
基于所述圆圈损失函数对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出第二目标值;
基于所述第一目标值以及所述第二目标值,确定出所述损失值。
本申请实施例提供的一种语音的重复音频检测装置,所述重复音频检测装置包括:特征提取模块,用于获取待检测语音,对所述待检测语音进行分帧处理,对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取;目标候选帧确定模块,用于将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中,对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,确定出特征分段后的多个目标候选帧;嵌入特征确定模块,用于将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中,确定出每个特征分段对应的嵌入表征特征向量;检测模块,用于将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中,对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出所述待检测语音是否存在重复音频,若存在,则确定出所述重复音频的音频位置信息。通过对短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,获取曲率变化明显的音频帧作为是否复制篡改的目标候选帧,提升了语音复制检测定位的检测速度以及准确性。
请参阅图6,图6为本申请实施例所提供的一种电子设备的结构示意图。如图6中所示,所述电子设备600包括处理器610、存储器620和总线630。
所述存储器620存储有所述处理器610可执行的机器可读指令,当电子设备600运行时,所述处理器610与所述存储器620之间通过总线630通信,所述机器可读指令被所述处理器610执行时,可以执行如上述图1所示方法实施例中的语音的重复音频检测方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的语音的重复音频检测方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种语音的重复音频检测方法,其特征在于,所述重复音频检测方法包括:
获取待检测语音,对所述待检测语音进行分帧处理,对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取;
将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中,对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,确定出特征分段后的多个目标候选帧;
将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中,确定出每个特征分段对应的嵌入表征特征向量;
将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中,对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出所述待检测语音是否存在重复音频,若存在,则确定出所述重复音频的音频位置信息;
通过以下步骤对所述重复音频检测模型进行训练:
获取样本语音以及所述样本语音对应的样本标签;
基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练,确定出所述样本语音的预测结果;其中,所述初始重复音频检测模型为神经网络模型;
对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出损失值;其中,所述损失函数包括二分类交叉熵损失函数以及圆圈损失函数;
若所述损失值小于预设阈值,则停止对所述初始重复音频检测模型的训练,生成所述重复音频检测模型。
2.根据权利要求1所述的重复音频检测方法,其特征在于,针对于每一帧组,所述将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中,对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,确定出特征分段后的多个目标候选帧,包括:
在多个所述短时傅里叶变换特征中选取多个目标时刻对应的目标短时傅里叶变换特征;
针对每个所述目标短时傅里叶变换特征,基于该目标短时傅里叶变换特征相对应的所述目标时刻,确定出与所述目标时刻相隔预设时间段的两个邻域短时傅里叶变换特征,计算每个所述邻域短时傅里叶变换特征与该目标短时傅里叶变换特征的均方误差;
对多个所述均方误差进行平均值计算,确定出音频复制篡改的筛选阈值;
针对每个所述目标短时傅里叶变换特征,检测该目标短时傅里叶变换特征的两个所述邻域短时傅里叶变换特征的均方误差是否均大于所述筛选阈值,若是,则将该目标短时傅里叶变换特征确定为参考候选帧;
对每个所述参考候选帧进行非极大值抑制处理以及所述特征分段处理,确定出特征分段后的多个目标候选帧。
3.根据权利要求2所述的重复音频检测方法,其特征在于,所述对每个所述参考候选帧进行非极大值抑制处理以及所述特征分段处理,确定出特征分段后的多个目标候选帧,包括:
对每个所述参考候选帧进行所述非极大值抑制处理,确定出每个所述参考候选帧的响应值;
针对每个帧组,该帧组相对应在该帧组相对应的多个所述响应值之中筛选出最大响应值,将所述最大响应值相对应的参考候选帧确定为所述目标候选帧;
对多个所述目标候选帧进行所述特征分段处理,确定出特征分段后的多个目标候选帧。
4.根据权利要求1所述的重复音频检测方法,其特征在于,所述将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中,对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出所述待检测语音是否存在重复音频,若存在,则确定出所述重复音频的音频位置信息,包括:
对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出相似度值;
检测所述相似度值是否大于预设相似度值;
若是,则该相似度值对应的特征分段后的所述目标候选帧确定为重复音频,并基于该重复音频相对应的时间信息确定出所述重复音频的音频位置信息。
5.根据权利要求1所述的重复音频检测方法,其特征在于,所述基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练,确定出所述样本语音的预测结果,包括:
对所述样本语音进行特征处理,确定出特征分段的多个样本候选帧;
将所述特征分段的多个样本候选帧输入至语义分割网络的编码器模块之中,确定出每个特征分段对应的样本嵌入表征特征向量;
将各个所述样本嵌入表征特征向量输入至所述语义分割网络的瓶颈模块之中,确定出多个样本深度特征向量;
将多个所述样本深度特征向量输入至所述语义分割网络的解码器模块之中,进行上采样处理,通过跳跃连接与所述语义分割网络的编码器模块的多个所述样本嵌入表征特征向量进行多尺度特征融合,确定出多尺度特征;
基于所述多尺度特征,确定出所述预测结果。
6.根据权利要求1所述的重复音频检测方法,其特征在于,所述对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出损失值,包括:
基于所述二分类交叉熵损失函数对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出第一目标值;
基于所述圆圈损失函数对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出第二目标值;
基于所述第一目标值以及所述第二目标值,确定出所述损失值。
7.一种语音的重复音频检测装置,其特征在于,所述重复音频检测装置包括:
特征提取模块,用于获取待检测语音,对所述待检测语音进行分帧处理,对分帧处理后的所述待检测语音进行短时傅里叶变换特征提取;
目标候选帧确定模块,用于将多个所述短时傅里叶变换特征输入至预先训练好的重复音频检测模型的检测网络之中,对所述待检测语音的各个帧组的短时傅里叶变换特征进行音频复制篡改检测以及特征分段处理,确定出特征分段后的多个目标候选帧;
嵌入特征确定模块,用于将特征分段后的多个所述目标候选帧输入至所述重复音频检测模型的编码器网络之中,确定出每个特征分段对应的嵌入表征特征向量;
检测模块,用于将各个特征分段对应的所述嵌入表征特征向量输入至所述重复音频检测模型的瓶颈网络之中,对任意两个特征分段相对应的所述嵌入表征特征向量进行相似度计算,确定出所述待检测语音是否存在重复音频,若存在,则确定出所述重复音频的音频位置信息;
重复音频检测装置还包括模型训练模块,模型训练模块用于:
获取样本语音以及所述样本语音对应的样本标签;
基于所述样本语音以及所述样本标签对初始重复音频检测模型进行训练,确定出所述样本语音的预测结果;其中,初始重复音频检测模型为神经网络模型;
对所述样本语音的样本候选帧、所述预测结果以及所述样本标签进行损失函数计算,确定出损失值;其中,所述损失函数包括二分类交叉熵损失函数以及圆圈损失函数;
若所述损失值小于预设阈值,则停止对所述初始重复音频检测模型的训练,生成所述重复音频检测模型。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至6任一所述的语音的重复音频检测方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6任一所述的语音的重复音频检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211597936.8A CN115641856B (zh) | 2022-12-14 | 2022-12-14 | 一种语音的重复音频检测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211597936.8A CN115641856B (zh) | 2022-12-14 | 2022-12-14 | 一种语音的重复音频检测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115641856A CN115641856A (zh) | 2023-01-24 |
CN115641856B true CN115641856B (zh) | 2023-03-28 |
Family
ID=84949280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211597936.8A Active CN115641856B (zh) | 2022-12-14 | 2022-12-14 | 一种语音的重复音频检测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115641856B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118298852B (zh) * | 2024-06-06 | 2024-09-10 | 中国科学院自动化研究所 | 一种基于高频特征的区域生成音频检测与定位方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103999150A (zh) * | 2011-12-12 | 2014-08-20 | 杜比实验室特许公司 | 媒体数据中的低复杂度重复检测 |
CN107705805A (zh) * | 2017-10-25 | 2018-02-16 | 北京奇虎科技有限公司 | 音频查重的方法及装置 |
CN109979418A (zh) * | 2019-03-06 | 2019-07-05 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN111583963A (zh) * | 2020-05-18 | 2020-08-25 | 合肥讯飞数码科技有限公司 | 一种重复音频检测方法、装置、设备及存储介质 |
CN113515662A (zh) * | 2021-07-09 | 2021-10-19 | 北京百度网讯科技有限公司 | 一种相似歌曲检索方法、装置、设备以及存储介质 |
CN113591474A (zh) * | 2021-07-21 | 2021-11-02 | 西北工业大学 | 一种基于加权融合的Loc2vec模型的重复数据检测方法 |
CN114255785A (zh) * | 2021-12-21 | 2022-03-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检测方法、装置、终端及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI412019B (zh) * | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
-
2022
- 2022-12-14 CN CN202211597936.8A patent/CN115641856B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103999150A (zh) * | 2011-12-12 | 2014-08-20 | 杜比实验室特许公司 | 媒体数据中的低复杂度重复检测 |
CN107705805A (zh) * | 2017-10-25 | 2018-02-16 | 北京奇虎科技有限公司 | 音频查重的方法及装置 |
CN109979418A (zh) * | 2019-03-06 | 2019-07-05 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN111583963A (zh) * | 2020-05-18 | 2020-08-25 | 合肥讯飞数码科技有限公司 | 一种重复音频检测方法、装置、设备及存储介质 |
CN113515662A (zh) * | 2021-07-09 | 2021-10-19 | 北京百度网讯科技有限公司 | 一种相似歌曲检索方法、装置、设备以及存储介质 |
CN113591474A (zh) * | 2021-07-21 | 2021-11-02 | 西北工业大学 | 一种基于加权融合的Loc2vec模型的重复数据检测方法 |
CN114255785A (zh) * | 2021-12-21 | 2022-03-29 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检测方法、装置、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115641856A (zh) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109346087B (zh) | 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 | |
Aravind et al. | Audio spoofing verification using deep convolutional neural networks by transfer learning | |
CN113205820B (zh) | 一种用于声音事件检测的声音编码器的生成方法 | |
CN111899758A (zh) | 语音处理方法、装置、设备和存储介质 | |
CN115641856B (zh) | 一种语音的重复音频检测方法、装置及存储介质 | |
Principi et al. | Acoustic template-matching for automatic emergency state detection: An ELM based algorithm | |
Sun et al. | Ai-synthesized voice detection using neural vocoder artifacts | |
KR20210036692A (ko) | 적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치 | |
CN111081223A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
Airaksinen et al. | Data augmentation strategies for neural network F0 estimation | |
Qais et al. | Deepfake audio detection with neural networks using audio features | |
Shim et al. | Self-supervised pre-training with acoustic configurations for replay spoofing detection | |
CN117370832A (zh) | 基于贝叶斯神经网络的水声目标识别方法及装置 | |
CN116935889A (zh) | 一种音频类别的确定方法、装置、电子设备及存储介质 | |
Xie et al. | Investigation of acoustic and visual features for frog call classification | |
Küçükuğurlu et al. | Duplicated audio segment detection with local binary pattern | |
Liu et al. | TranssionADD: A multi-frame reinforcement based sequence tagging model for audio deepfake detection | |
CN113380268A (zh) | 模型训练的方法、装置和语音信号的处理方法、装置 | |
JP6594278B2 (ja) | 音響モデル学習装置、音声認識装置、これらの方法及びプログラム | |
Shastri et al. | Adversarial Synthesis based Data Augmentation for Speech Classification | |
Dhakal | Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms | |
Khonglah et al. | Exploration of deep belief networks for vowel-like regions detection | |
Nesar et al. | Audio Event Recognition in Noisy Environments using Power Spectral Density and Dimensionality Reduction | |
Sadashiv TN et al. | Source and system-based modulation approach for fake speech detection | |
Salvi et al. | Are you Really Alone? Detecting the use of Speech Separation Techniques on Audio Recordings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |