CN110491413B - 一种基于孪生网络的音频内容一致性监测方法及系统 - Google Patents
一种基于孪生网络的音频内容一致性监测方法及系统 Download PDFInfo
- Publication number
- CN110491413B CN110491413B CN201910772343.2A CN201910772343A CN110491413B CN 110491413 B CN110491413 B CN 110491413B CN 201910772343 A CN201910772343 A CN 201910772343A CN 110491413 B CN110491413 B CN 110491413B
- Authority
- CN
- China
- Prior art keywords
- audio
- audio signals
- content
- consistent
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000005236 sound signal Effects 0.000 claims abstract description 186
- 230000011218 segmentation Effects 0.000 claims abstract description 51
- 238000007781 pre-processing Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开一种基于孪生网络的音频内容一致性监测方法及系统,所述方法包括获取音频信号;将所述音频信号进行数据切分,确定多组切分后的音频信号;提取每组所述切分后的音频信号的频域特征;获取以所述频域特征为输入,以所述频域特征的距离值为输出建立音频孪生网络模型;根据所述频域特征和所述音频孪生网络模型,确定所述频域特征的距离值;判断所述距离值与距离阈值的大小,确定所述音频信号的内容是否具有一致性;当所述音频信号的内容不具有一致性,输出报警信号。本发明提供一种基于孪生网络的音频内容一致性监测方法及系统,提高音频监测准确性和实时性。
Description
技术领域
本发明涉及音频分析技术领域,特别是涉及一种基于孪生网络的音频内容一致性监测方法及系统。
背景技术
音频内容的一致性监测的主要目标是从音频的物理特征上区分内容一致和不一致的音频,该技术在多个音频相关的业务领域中都有应用,包括音乐检索、广告监播、音频广播监测等。主流的音频内容一致性监测相关算法主要包括两个方面:音频的特征选择和音频特征的相似性度量。常用的音频特征包括时域的音频波形,频域的梅尔倒谱系数、短时傅里叶变换系数等。时域波形含有最全的音频信息,但是由于含有大量的音频共性信息,对于特定音频的表征能力较弱,在进行音频内容的一致性监测的过程中容易受到外界的干扰,造成监测的不准确性。
而频域特征对于音频的表征能力大大提高,并且,不同音频的频域特征具有较好的区分度;然而,提取的频域特征大多只能表征音频的整体物理特征,而对于音频的细节缺少充分的表达。例如,当音频在传输过程中混入一定等级的高斯白噪声,且并不影响人耳对于音频内容的识别时,频域特征的监测则会为音频内容不一致,发出报警信号,这样就造成了误判,进而会带来不必要的麻烦。
基于上述问题,现有技术通过设计任务目标和大量的训练数据,构建音频特征集合,从而提取出更符合目标要求的特征,从而提高监测的准确性。但是,以上方法计算复杂度明显增大,并且计算时间长,实时性差。
发明内容
本发明的目的是提供一种基于孪生网络的音频内容一致性监测方法及系统,能够解决音频监测准确性低和实时性差的问题。
为实现上述目的,本发明提供了如下方案:
一种基于孪生网络的音频内容一致性监测方法,包括:
获取音频信号;所述音频信号包括内容一致的音频信号和内容不一致的音频信号;
将所述音频信号进行数据切分,确定多组切分后的音频信号;每组所述切分后的音频信号包括切分后的内容一致的音频信号以及切分后的内容不一致的音频信号;
提取每组所述切分后的音频信号的频域特征;所述频域特征包括所述切分后的内容一致的音频信号的频域特征以及所述切分后的内容不一致的音频信号的频域特征;
获取以所述频域特征为输入,以所述频域特征的距离值为输出建立音频孪生网络模型;
根据所述频域特征和所述音频孪生网络模型,确定所述频域特征的距离值;
判断所述距离值与距离阈值的大小,得到第一判断结果;
当所述第一判断结果表示所述距离值小于所述距离阈值时,则确定所述音频信号的内容具有一致性;
当所述第一判断结果表示所述距离值不小于所述距离阈值时,则确定所述音频信号的内容不具有一致性,输出报警信号。
可选的,所述获取音频信号之后,包括:
对所述内容一致的音频信号进行扩充预处理;所述扩充预处理包括对所述内容一致的音频信号叠加高斯白噪声,调整所述内容一致的音频信号的音量和对所述内容一致的音频信号进行相位调节。
可选的,所述获取以所述频域特征为输入,以所述频域特征的距离值为输出建立音频孪生网络模型之后,还包括:
利用公式对所述音频孪生网络模型进行优化;其中,L(W(Y,X1,X2)i)=(1-W)LG(EW(X1,X2)i)+YLI(EW(X1,X2)i),L(W(Y,X1,X2)i)为第i个样本的损失;X1和X2为音频特征;N表示训练样本的总个数;Y表示X1和X2的原始音频内容是否一致,一致则设为1,不一致则设为0;LG和LI分别为内容一致和不一致时的误差函数;EW为X1和X2的向量距离值;L(W)为音频孪生网络损失函数,L为音频孪生网络损失值,W为网络权值。
可选的,所述将所述音频信号进行数据切分,确定多组切分后的音频信号,具体包括:
获取切分长度;
根据所述切分长度对所述音频信号进行数据切分,确定多组切分后的音频信号。
一种基于孪生网络的音频内容一致性监测系统,包括:
音频信号获取模块,用于获取音频信号;所述音频信号包括内容一致的音频信号和内容不一致的音频信号;
音频信号切分模块,用于将所述音频信号进行数据切分,确定多组切分后的音频信号;每组所述切分后的音频信号包括切分后的内容一致的音频信号以及切分后的内容不一致的音频信号;
频域特征提取模块,用于提取每组所述切分后的音频信号的频域特征;所述频域特征包括所述切分后的内容一致的音频信号的频域特征以及所述切分后的内容不一致的音频信号的频域特征;
音频孪生网络模型获取模块,用于获取以所述频域特征为输入,以所述频域特征的距离值为输出建立音频孪生网络模型;
距离值确定模块,用于根据所述频域特征和所述音频孪生网络模型,确定所述频域特征的距离值;
判断模块,用于判断所述距离值与距离阈值的大小,得到第一判断结果;
一致性确定模块,用于当所述第一判断结果表示所述距离值小于所述距离阈值时,则确定所述音频信号的内容具有一致性;
报警模块,用于当所述第一判断结果表示所述距离值不小于所述距离阈值时,则确定所述音频信号的内容不具有一致性,输出报警信号。
可选的,所述的一种基于孪生网络的音频内容一致性监测系统还包括:
预处理模块,用于对所述内容一致的音频信号进行扩充预处理;所述扩充预处理包括对所述内容一致的音频信号叠加高斯白噪声,调整所述内容一致的音频信号的音量和对所述内容一致的音频信号进行相位调节。
可选的,所述的一种基于孪生网络的音频内容一致性监测系统还包括:
优化模块,用于利用公式对所述音频孪生网络模型进行优化;L(W(Y,X1,X2)i)=(1-W)LG(EW(X1,X2)i)+YLI(EW(X1,X2)i),L(W(Y,X1,X2)i)为第i个样本的损失;X1和X2为音频特征;N表示训练样本的总个数;Y表示X1和X2的原始音频内容是否一致,一致则设为1,不一致则设为0;LG和LI分别为内容一致和不一致时的误差函数;EW为X1和X2的向量距离值;L(W)为音频孪生网络损失函数,L为音频孪生网络损失值,W为网络权值。
可选的,所述音频信号切分模块具体包括:
切分长度获取单元,用于获取切分长度;
音频信号切分单元,用于根据所述切分长度对所述音频信号进行数据切分,确定多组切分后的音频信号。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供了一种基于孪生网络的音频内容一致性监测方法及系统,通过对获取的音频信号进行切分和提取频域特征,并将提取的频域特征输入到音频孪生网络模型中,得到频域特征向量之间的距离值,并判断距离值与距离阈值的大小,从而快速的识别音频信号的内容是否具备一致性,在此过程中,无需设计任务目标以及大量的训练数据,通过建立音频孪生网络模型即可快速识别出音频信号的内容是否具备一致性,进而大大降低了计算的难度和复杂程度,减少了计算的时间,保证了实时性;并且通过将提取的频域特征输入到音频孪生网络模型中,能够充分体现音频细节的特征,避免了误判的现象,提高了音频监测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的一种基于孪生网络的音频内容一致性监测方法流程图;
图2为本发明所提供的一种基于孪生网络的音频内容一致性监测系统的结构示意图;
图3为本发明所提供的音频孪生网络原理示意图。
附图说明:
201-音频信号获取模块,202-音频信号切分模块,203-频域特征提取模块,204-音频孪生网络模型获取模块,205-距离值确定模块,206-判断模块,207-一致性确定模块,208-报警模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于孪生网络的音频内容一致性监测方法及系统,能够解决音频监测准确性低和实时性差的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明所提供的一种基于孪生网络的音频内容一致性监测方法流程图,如图1所示,本发明所提供的一种基于孪生网络的音频内容一致性监测方法,包括:
S101,获取音频信号;所述音频信号包括内容一致的音频信号和内容不一致的音频信号。
S102,将所述音频信号进行数据切分,确定多组切分后的音频信号;每组所述切分后的音频信号包括切分后的内容一致的音频信号以及切分后的内容不一致的音频信号。
S103,提取每组所述切分后的音频信号的频域特征;所述频域特征包括所述切分后的内容一致的音频信号的频域特征以及所述切分后的内容不一致的音频信号的频域特征。
S104,获取以所述频域特征为输入,以所述频域特征的距离值为输出建立音频孪生网络模型。
S105,根据所述频域特征和所述音频孪生网络模型,确定所述频域特征的距离值。
S106,判断所述距离值与距离阈值的大小,得到第一判断结果。
S107,当所述第一判断结果表示所述距离值小于所述距离阈值时,则确定所述音频信号的内容具有一致性。
S108,当所述第一判断结果表示所述距离值不小于所述距离阈值时,则确定所述音频信号的内容不具有一致性,输出报警信号。
为了能够充分体现音频细节的特征,避免了误判的现象,提高了音频监测的准确性,将所述获取音频信号之后还包括对所述内容一致的音频信号进行扩充预处理;所述扩充预处理包括对所述内容一致的音频信号叠加高斯白噪声,调整所述内容一致的音频信号的音量和对所述内容一致的音频信号进行相位调节。
在实际应用中,在信噪比为20dB~100dB范围内,叠加高斯白噪声,用来模拟实际应用中可能含有噪声干扰的音频。在0.5倍到2.0倍范围内,调整音频音量;在0ms到40ms范围内,通过对同一音频信号进行相位调节,增加音频延迟。
为了提高建立的音频孪生网络模型的准确性,在所述获取以所述频域特征为输入,以所述频域特征的距离值为输出建立音频孪生网络模型之后,还包括:
利用公式对所述音频孪生网络模型进行优化;其中,L(W(Y,X1,X2)i)=(1-W)LG(EW(X1,X2)i)+YLI(EW(X1,X2)i),L(W(Y,X1,X2)i)为第i个样本的损失;X1和X2为音频特征;N表示训练样本的总个数;Y表示X1和X2的原始音频内容是否一致,一致则设为1,不一致则设为0;LG和LI分别为内容一致和不一致时的误差函数;EW为X1和X2的向量距离值;L(W)为音频孪生网络损失函数,L为音频孪生网络损失值,W为网络权值。
在实际的应用中,将所述音频信号进行数据切分,确定多组切分后的音频信号,具体包括:
获取切分长度;
根据所述切分长度对所述音频信号进行数据切分,确定多组切分后的音频信号。
在一个实施例中,将所有音频信号切分为1秒长度的音频分组,对每个音频分组提取频域特征参数向量Fi,对提取的音频特征参数向量进行组合,形成三元组Si=(Y,Fm,Fn)i,Fm和Fn为频域特征参数向量,若Fm与Fn的内容一致则Y为1,否则Y为0,每个Si即为一个训练样本。
图3为本发明所提供的音频孪生网络原理示意图,如图3所示,所述音频孪生网络模型中的两个神经网络具有一样的网络结构,并且共享网络权值W。
两个频域特征分别输入到所述音频孪生网络模型中的两个神经网络提取神经网络特征,最终输出两个频域特征向量距离值。
在实际的应用中,获取的音频信号中内容一致的音频信号和内容不一致的音频信号的数量一样,且编码格式一样。采用以下方法选取距离阈值:
设定初始目标准确率,rp为期望的内容一致的音频信号的判断准确率,rn为期望的内容不一致的音频信号的判断准确率;
获取音频信号具有一致性时的距离阈值tp,使其满足以下条件:音频信号内容具有一致性时距离小于tp的样本数量与全部内容具有一致性样本数量的比值大于等于rp;
获取音频信号不具有一致性时的距离阈值tn,使其满足以下条件:音频信号内容不具有不一致性时距离大于tn的样本数量与全部不具有一致性样本数量的比值大于等于rn;
判断tn是否大于等于tp,得到第二判断结果。当所述第二判断结果表示tn是大于tp,则继续下一步操作;当所述第二判断结果表示tn是不大于tp,则降低第1步中的r,返回获取音频信号具有一致性时的距离阈值tp步骤。
根据tp和tn的平均值,确定距离阈值。
图2为本发明所提供的一种基于孪生网络的音频内容一致性监测系统的结构示意图,如图2所示,本发明还提供一种基于孪生网络的音频内容一致性监测系统,包括音频信号获取模块201、音频信号切分模块202、频域特征提取模块203、音频孪生网络模型获取模块204、距离值确定模块205、判断模块206、一致性确定模块207和报警模块208。
其中,音频信号获取模块201用于获取音频信号;所述音频信号包括内容一致的音频信号和内容不一致的音频信号。
音频信号切分模块202用于将所述音频信号进行数据切分,确定多组切分后的音频信号;每组所述切分后的音频信号包括切分后的内容一致的音频信号以及切分后的内容不一致的音频信号。
频域特征提取模块203用于提取每组所述切分后的音频信号的频域特征;所述频域特征包括所述切分后的内容一致的音频信号的频域特征以及所述切分后的内容不一致的音频信号的频域特征。
音频孪生网络模型获取模块204用于获取以所述频域特征为输入,以所述频域特征的距离值为输出建立音频孪生网络模型。
距离值确定模块205用于根据所述频域特征和所述音频孪生网络模型,确定所述频域特征的距离值。
判断模块206用于判断所述距离值与距离阈值的大小,得到第一判断结果。
一致性确定模块207用于当所述第一判断结果表示所述距离值小于所述距离阈值时,则确定所述音频信号的内容具有一致性。
报警模块208用于当所述第一判断结果表示所述距离值不小于所述距离阈值时,则确定所述音频信号的内容不具有一致性,输出报警信号。
所述的一种基于孪生网络的音频内容一致性监测系统还包括预处理模块。
预处理模块用于对所述内容一致的音频信号进行扩充预处理;所述扩充预处理包括对所述内容一致的音频信号叠加高斯白噪声,调整所述内容一致的音频信号的音量和对所述内容一致的音频信号进行相位调节。
所述的一种基于孪生网络的音频内容一致性监测系统还包括:优化模块。
优化模块用于利用公式对所述音频孪生网络模型进行优化;L(W(Y,X1,X2)i)=(1-W)LG(EW(X1,X2)i)+YLI(EW(X1,X2)i),L(W(Y,X1,X2)i)为第i个样本的损失;X1和X2为音频特征;N表示训练样本的总个数;Y表示X1和X2的原始音频内容是否一致,一致则设为1,不一致则设为0;LG和LI分别为内容一致和不一致时的误差函数;EW为X1和X2的向量距离值;L(W)为音频孪生网络损失函数,L为音频孪生网络损失值,W为网络权值。
在实际应用中,所述音频信号切分模块具体包括切分长度获取单元和音频信号切分单元。
切分长度获取单元用于获取切分长度;
音频信号切分单元用于根据所述切分长度对所述音频信号进行数据切分,确定多组切分后的音频信号。
音频广播包含了大量类型丰富的音频节目,是获得音频数据的快捷方式。在一个具体的实施例中,通过使用两台调频广播接收设备,同时录制相同节目内容,从而获得内容一致的音频样本,再通过对不同节目的内容进行随机组合,生成内容不一致的音频样本。
为了充分验证本发明的效果,本实施例中录制的音频内容包含新闻、流行乐、曲艺、访谈、纯音乐等,尽可能实现了音频样本对于各类音频的全面覆盖。每台设备共计录制100个小时(第1路的100个小时音频数据记作D1,第2路的100个小时音频数据记为D2),由于在录制过程,会随机地混入噪声和延迟,所以只采用音量调节的方式扩充音频数据。对D1以秒为单位随机进行[0.5,1.5]倍的音量调节,生成新的100个小时的音频数据D3。
将所有音频数据切分为1秒长度的音频分组,对每个音频分组提取50帧12维梅尔倒谱系数,逐帧进行排列,生成该分组的600维频域特征向量Fi,对提取的频域特征向量进行组合,形成三元组Si=(Y,Fm,Fn)i,即为一个训练样本。若Fm与Fn的内容一致则Y为1,该样本记为正样本,否则Y为0,该样本为负样本。由此得到正样本72万个,负样本72万个。将所有样本按照8:1的比例随机划分为训练集和测试集,训练集包括正样本和负样本各64万个,测试集包括正样本和负样本各8万个。
在本实施例中,孪生网络中的神经网络采用5层感知机,每层的节点数分别为600、1024、1024、1024和64。激活函数采用ReLU,采用Dropout防止过拟合,丢弃概率为0.25。距离函数EW采用欧式距离。定义误差函数如下:
其中,正样本的y为1,负样本的y值为0,margin为预先设定的最大距离边界,,本实施例中margin取值为5,EW为频域特征向量距离值,N表示训练样本的总个数,W为网络权值。
对所有的样本进行随机打乱,每次训练输入100个样本,对音频孪生网络模型进行训练。
经过判断确定距离阈值为2.31。
采用测试集中的样本作为输入数据,判断其内容一致性。
为了对本发明提出的算法进行效果验证,设计对比测试。一是,直接通过提取的频域特征计算欧式距离,与选取的距离阈值进行比较,从而输出一致性判决结果。二是,按照本发明所提供的的一种基于孪生网络的音频内容一致性监测方法及系统输出一致性判决结果。判决结果如表一:
表一
可见,在本实施例中,使用本发明提出的音频孪生网络提取的音频特征,比使用未经过网络的频域特征,对于测试音频数据的内容一致性判决,总体准确率提高4.4%,正样本准确率提高7.4%,负样本准确率提高1.3%。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (4)
1.一种基于孪生网络的音频内容一致性监测方法,其特征在于,包括:
获取音频信号;所述音频信号包括内容一致的音频信号和内容不一致的音频信号;
将所述音频信号进行数据切分,确定多组切分后的音频信号;每组所述切分后的音频信号包括切分后的内容一致的音频信号以及切分后的内容不一致的音频信号;
提取每组所述切分后的音频信号的频域特征;所述频域特征包括所述切分后的内容一致的音频信号的频域特征以及所述切分后的内容不一致的音频信号的频域特征;
获取以所述频域特征为输入,以所述频域特征的距离值为输出建立音频孪生网络模型;
根据所述频域特征和所述音频孪生网络模型,确定所述频域特征的距离值;
判断所述距离值与距离阈值的大小,得到第一判断结果;
当所述第一判断结果表示所述距离值小于所述距离阈值时,则确定所述音频信号的内容具有一致性;
当所述第一判断结果表示所述距离值不小于所述距离阈值时,则确定所述音频信号的内容不具有一致性,输出报警信号;
所述获取音频信号之后,包括:
对所述内容一致的音频信号进行扩充预处理;所述扩充预处理包括对所述内容一致的音频信号叠加高斯白噪声,调整所述内容一致的音频信号的音量和对所述内容一致的音频信号进行相位调节;
利用公式对所述音频孪生网络模型进行优化;其中,L(W(Y,X1,X2)i)=(1-W)LG(EW(X1,X2)i)+YLI(EW(X1,X2)i),L(W(Y,X1,X2)i)为第i个样本的损失;X1和X2为音频特征;N表示训练样本的总个数;Y表示X1和X2的原始音频内容是否一致,一致则设为1,不一致则设为0;LG和LI分别为内容一致和不一致时的误差函数;EW为X1和X2的向量距离值;L(W)为音频孪生网络损失函数,L为音频孪生网络损失值,W为网络权值;
获取的音频信号中内容一致的音频信号和内容不一致的音频信号的数量一样,且编码格式一样;采用以下方法选取距离阈值:
设定初始目标准确率,rp为期望的内容一致的音频信号的判断准确率,rn为期望的内容不一致的音频信号的判断准确率;
获取音频信号具有一致性时的距离阈值tp,使其满足以下条件:音频信号内容具有一致性时距离小于tp的样本数量与全部内容具有一致性样本数量的比值大于等于rp;
获取音频信号不具有一致性时的距离阈值tn,使其满足以下条件:音频信号内容不具有不一致性时距离大于tn的样本数量与全部不具有一致性样本数量的比值大于等于rn;
判断tn是否大于等于tp,得到第二判断结果;当所述第二判断结果表示tn是大于tp,则继续下一步操作;当所述第二判断结果表示tn是不大于tp,则降低第1步中的r,返回获取音频信号具有一致性时的距离阈值tp步骤;
根据tp和tn的平均值,确定距离阈值。
2.根据权利要求1所述的一种基于孪生网络的音频内容一致性监测方法,其特征在于,所述将所述音频信号进行数据切分,确定多组切分后的音频信号,具体包括:
获取切分长度;
根据所述切分长度对所述音频信号进行数据切分,确定多组切分后的音频信号。
3.一种基于孪生网络的音频内容一致性监测系统,其特征在于,包括:
音频信号获取模块,用于获取音频信号;所述音频信号包括内容一致的音频信号和内容不一致的音频信号;
音频信号切分模块,用于将所述音频信号进行数据切分,确定多组切分后的音频信号;每组所述切分后的音频信号包括切分后的内容一致的音频信号以及切分后的内容不一致的音频信号;
频域特征提取模块,用于提取每组所述切分后的音频信号的频域特征;所述频域特征包括所述切分后的内容一致的音频信号的频域特征以及所述切分后的内容不一致的音频信号的频域特征;
音频孪生网络模型获取模块,用于获取以所述频域特征为输入,以所述频域特征的距离值为输出建立音频孪生网络模型;
距离值确定模块,用于根据所述频域特征和所述音频孪生网络模型,确定所述频域特征的距离值;
判断模块,用于判断所述距离值与距离阈值的大小,得到第一判断结果;
一致性确定模块,用于当所述第一判断结果表示所述距离值小于所述距离阈值时,则确定所述音频信号的内容具有一致性;
报警模块,用于当所述第一判断结果表示所述距离值不小于所述距离阈值时,则确定所述音频信号的内容不具有一致性,输出报警信号;
所述的一种基于孪生网络的音频内容一致性监测系统还包括:
预处理模块,用于对所述内容一致的音频信号进行扩充预处理;所述扩充预处理包括对所述内容一致的音频信号叠加高斯白噪声,调整所述内容一致的音频信号的音量和对所述内容一致的音频信号进行相位调节;
优化模块,用于利用公式对所述音频孪生网络模型进行优化;其中,L(W(Y,X1,X2)i)=(1-W)LG(EW(X1,X2)i)+YLI(EW(X1,X2)i),L(W(Y,X1,X2)i)为第i个样本的损失;X1和X2为音频特征;N表示训练样本的总个数;Y表示X1和X2的原始音频内容是否一致,一致则设为1,不一致则设为0;LG和LI分别为内容一致和不一致时的误差函数;EW为X1和X2的向量距离值;L(W)为音频孪生网络损失函数,L为音频孪生网络损失值,W为网络权值;
获取的音频信号中内容一致的音频信号和内容不一致的音频信号的数量一样,且编码格式一样;采用以下方法选取距离阈值:
设定初始目标准确率,rp为期望的内容一致的音频信号的判断准确率,rn为期望的内容不一致的音频信号的判断准确率;
获取音频信号具有一致性时的距离阈值tp,使其满足以下条件:音频信号内容具有一致性时距离小于tp的样本数量与全部内容具有一致性样本数量的比值大于等于rp;
获取音频信号不具有一致性时的距离阈值tn,使其满足以下条件:音频信号内容不具有不一致性时距离大于tn的样本数量与全部不具有一致性样本数量的比值大于等于rn;
判断tn是否大于等于tp,得到第二判断结果;当所述第二判断结果表示tn是大于tp,则继续下一步操作;当所述第二判断结果表示tn是不大于tp,则降低第1步中的r,返回获取音频信号具有一致性时的距离阈值tp步骤;
根据tp和tn的平均值,确定距离阈值。
4.根据权利要求3所述的一种基于孪生网络的音频内容一致性监测系统,其特征在于,所述音频信号切分模块具体包括:
切分长度获取单元,用于获取切分长度;
音频信号切分单元,用于根据所述切分长度对所述音频信号进行数据切分,确定多组切分后的音频信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910772343.2A CN110491413B (zh) | 2019-08-21 | 2019-08-21 | 一种基于孪生网络的音频内容一致性监测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910772343.2A CN110491413B (zh) | 2019-08-21 | 2019-08-21 | 一种基于孪生网络的音频内容一致性监测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110491413A CN110491413A (zh) | 2019-11-22 |
CN110491413B true CN110491413B (zh) | 2022-01-04 |
Family
ID=68552481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910772343.2A Active CN110491413B (zh) | 2019-08-21 | 2019-08-21 | 一种基于孪生网络的音频内容一致性监测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110491413B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107404381A (zh) * | 2016-05-19 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 一种身份认证方法和装置 |
CN107545904A (zh) * | 2016-06-23 | 2018-01-05 | 杭州海康威视数字技术股份有限公司 | 一种音频检测方法及装置 |
CN109087669A (zh) * | 2018-10-23 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 音频相似度检测方法、装置、存储介质及计算机设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3569603A (en) * | 1968-08-01 | 1971-03-09 | Hammond Corp | Moving formant band-pass amplifier for an electronic musical instrument |
CN102142257B (zh) * | 2010-12-28 | 2013-07-03 | 北大方正集团有限公司 | 一种音频信号处理方法及装置 |
CN102956237B (zh) * | 2011-08-19 | 2016-12-07 | 杜比实验室特许公司 | 测量内容一致性的方法和设备 |
CN104810025B (zh) * | 2015-03-31 | 2018-04-20 | 天翼爱音乐文化科技有限公司 | 音频相似度检测方法及装置 |
US9924224B2 (en) * | 2015-04-03 | 2018-03-20 | The Nielsen Company (Us), Llc | Methods and apparatus to determine a state of a media presentation device |
US10713296B2 (en) * | 2016-09-09 | 2020-07-14 | Gracenote, Inc. | Audio identification based on data structure |
CN107274911A (zh) * | 2017-05-03 | 2017-10-20 | 昆明理工大学 | 一种基于声音特征的相似度分析方法 |
CN109243467B (zh) * | 2018-11-14 | 2019-11-05 | 龙马智声(珠海)科技有限公司 | 声纹模型构建方法、声纹识别方法及系统 |
CN109961802B (zh) * | 2019-03-26 | 2021-05-18 | 北京达佳互联信息技术有限公司 | 音质比较方法、装置、电子设备及存储介质 |
-
2019
- 2019-08-21 CN CN201910772343.2A patent/CN110491413B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107404381A (zh) * | 2016-05-19 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 一种身份认证方法和装置 |
CN107545904A (zh) * | 2016-06-23 | 2018-01-05 | 杭州海康威视数字技术股份有限公司 | 一种音频检测方法及装置 |
CN109087669A (zh) * | 2018-10-23 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 音频相似度检测方法、装置、存储介质及计算机设备 |
Non-Patent Citations (1)
Title |
---|
基于内容的音频检索关键技术分析;李爽等;《电子世界》;20170923(第18期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110491413A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107293286B (zh) | 一种基于网络配音游戏的语音样本收集方法 | |
Jiang et al. | An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means | |
CN102486920A (zh) | 音频事件检测方法和装置 | |
CN112750462B (zh) | 一种音频处理方法、装置及设备 | |
CN111640411B (zh) | 音频合成方法、装置及计算机可读存储介质 | |
CN107507625B (zh) | 声源距离确定方法及装置 | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
Dubey et al. | Non-intrusive speech quality assessment using several combinations of auditory features | |
US10665248B2 (en) | Device and method for classifying an acoustic environment | |
US20230326468A1 (en) | Audio processing of missing audio information | |
CN113823323B (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN105283916A (zh) | 电子水印嵌入装置、电子水印嵌入方法及电子水印嵌入程序 | |
CN108538312A (zh) | 基于贝叶斯信息准则的数字音频篡改点自动定位的方法 | |
CN113936667A (zh) | 一种鸟鸣声识别模型训练方法、识别方法及存储介质 | |
CN111210850B (zh) | 歌词对齐方法及相关产品 | |
CN109300470A (zh) | 混音分离方法和混音分离装置 | |
CN111477248B (zh) | 一种音频噪声检测方法及装置 | |
CN110739006B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN110491413B (zh) | 一种基于孪生网络的音频内容一致性监测方法及系统 | |
CN106503181A (zh) | 一种音频数据处理方法及装置 | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
KR101382356B1 (ko) | 오디오파일의 위변조 검출장치 | |
CN105632523A (zh) | 调节音频数据的音量输出值的方法和装置及终端 | |
CN112233693B (zh) | 一种音质评估方法、装置和设备 | |
Marković et al. | Reverberation-based feature extraction for acoustic scene classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |