CN110534121B

CN110534121B - 一种基于频域特征的音频内容一致性的监测方法及系统

Info

Publication number: CN110534121B
Application number: CN201910772471.7A
Authority: CN
Inventors: 王非非; 杜伟韬; 王剑; 杨占昕
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2021-09-03
Anticipated expiration: 2039-08-21
Also published as: CN110534121A

Abstract

本发明公开一种基于频域特征的音频内容一致性的监测方法及系统，所述方法包括获取音频信号；将音频信号进行延迟校准，确定延迟校准后的音频信号；将延迟校准后的音频信号进行数据切分，确定多组切分后的音频信号；提取每组切分后的音频信号的频域特征；根据每组频域特征确定频域特征相似度；根据多组频域特征相似度确定频域特征相似度平均值；判断频域特征相似度平均值与频域特征相似度阈值的大小，确定第一判断结果；根据第一判断结果，确定音频信号内容是否具有一致性，并当不具备一致性时，输出报警信号。本发明所提供的的一种基于频域特征的音频内容一致性的监测方法及系统提高了音频广播监测的精确度，实现音频广播的自动化监测。

Description

一种基于频域特征的音频内容一致性的监测方法及系统

技术领域

本发明涉及音频分析技术领域，特别是涉及一种基于频域特征的音频内容一致性的监测方法及系统。

背景技术

随着广播电视数字化、网络化、信息化等技术的迅速发展和创新，广播音频的业务覆盖网络已从之前的单纯调频广播网扩大至无线广播网、互联网、卫星直播网、有线电视网并存，受众种类和规模也随之不断扩大，同时人民群众对广播质量的要求也越来越高，广播音频的安全播出已成为各级广电部门的重要内容。

各级广播电台节目制作和播出能力的不断提升，面向的传输网络和受众的不断扩大，广播音频信号编码的格式、存储的介质和传输的方式呈现多样化，不同音频传输信号衰减、外来噪声串扰，给广播音频信号和音频文件会出现误码、爆音等故障，严重影响了广播音频质量和安全播出。此外，广播电台对音频广播节目的技术指标和参数缺乏科学有效的统筹，针对不同网络发送端的播出节目是否出现错播、插播、停播，不同网络用户端接收的广播音频质量如何，出现问题如何快速定位等，当前都无法合理高效的对音频信号和音频文件进行质量监测和预警。

基于以上问题，建立以音频节目内容一致性判决为核心技术的音频广播智能监控系统，同时完成多传输网络信源与各个接收端开路解调广播信号的内容比对监测具有重要意义。

然而，目前国内广电行业的重心主要在视频信号的监测领域，纯音频信号的监测设备相对较少，且音频监测设备方案设计和监测指标的差别也很大；当前国内外研发机构将计算机、网络通信、数字信号处理技术和音频信号处理融合，在音频信号监测方面做了大量研究开发；而音频比对相关的技术，也随技术的发展有了实现方式的更迭和进步。

现有技术中对音频节目内容一致性的判断主要依靠人耳判断，通过人耳对播出前后的音频信号进行比对，来判断是否一致或者质量是否有劣化等，但随着监听的信号数量和节点的不断增多，会出现因维护人员的客户和主观因素的影响而造成误判、漏听等现象，造成音频广播监测的精确度低，无法实现自动化监测。

随着进入数字音频时代后，现有的技术中通过对音频信号进行数字化处理和抽样，通过设定信号电平阈值，通过对采样信号的电平值进行比对，实现信号一致性判断，但这种方式存在局限性，比对的前提是基于信号纯净，没有任何其他干扰成分，才能保证一定的准确率，而实际上音频信号通过传输通路过程中会引入各种干扰成分，同时也存在人为的或非可控的因素而造成音频信号特性指标的变化，且广播音频信号动态范围大、频谱范围广、存在时延，在不同的传输网络上存在不同的串扰，因此会存在内容和时延上的差异性，不能够准确的判断音频内容是否一致，即不能准确的实现对音频广播的监测，也不能实现音频广播的自动化监测。

发明内容

本发明的目的是提供一种基于频域特征的音频内容一致性的监测方法及系统，解决了音频广播监测的精确度不高和不能实现音频广播的自动化监测的问题。

为实现上述目的，本发明所提供了如下方案：

一种基于频域特征的音频内容一致性的监测方法，所述音频内容一致性的监测方法包括：

获取音频信号；所述音频信号包括第一路音频信号以及第二路音频信号；

将所述音频信号进行延迟校准，确定延迟校准后的音频信号；

将所述延迟校准后的音频信号进行数据切分，确定多组切分后的音频信号；每组所述切分后的音频信号包括切分后的第一路音频信号以及切分后的第二路音频信号；

提取每组所述切分后的音频信号的频域特征；所述频域特征包括所述切分后的第一路音频信号的频域特征以及所述切分后的第二路音频信号的频域特征；

根据每组所述频域特征确定频域特征相似度；

根据多组所述频域特征相似度确定频域特征相似度平均值；

判断所述频域特征相似度平均值与频域特征相似度阈值的大小，确定第一判断结果；

当所述第一判断结果表示所述比较值大于所述频域特征相似度阈值时，则确定所述音频信号的内容具有一致性；

当所述第一判断结果表示所述比较值不大于所述频域特征相似度阈值时，确定所述音频信号的内容不具有一致性，输出报警信号。

可选的，所述将所述音频信号进行延迟校准，确定延迟校准后的音频信号，具体包括：

对所述音频信号进行时域算法处理，确定皮尔逊系数；

根据所述皮尔逊系数对所述音频信号进行延迟校准，确定延迟校准后的音频信号。

可选的，所述将所述延迟校准后的音频信号进行数据切分，确定多组切分后的音频信号，具体包括：

获取切分长度；

根据所述切分长度对所述延迟校准后的音频信号进行数据切分，确定多组切分后的音频信号。

可选的，所述提取每组所述切分后的音频信号的频域特征，具体包括：

对每组所述切分后的音频信号进行预加重处理，确定预加重后的音频信号；

对所述预加重后的音频信号进行加窗处理，确定加窗音频信号；

对所述加窗音频信号进行快速傅里叶变换确定对数能量；

将所述对数能量进行梅尔带通滤波之后，再进行离散余弦逆变换，提取所述频域特征。

可选的，所述根据每组所述频域特征确定频域特征相似度包括：

利用余弦相似度算法，根据每组所述切分后的音频信号对应的频域特征确定频域特征相似度，并将所述频域特征相似度映射到[0,1]区间上。

一种基于频域特征的音频内容一致性的监测系统，所述音频内容一致性的监测系统包括：

音频信号获取模块，用于获取音频信号；所述音频信号包括第一路音频信号以及第二路音频信号；

延迟校准模块，用于将所述音频信号进行延迟校准，确定延迟校准后的音频信号；

切分模块，用于将所述延迟校准后的音频信号进行数据切分，确定多组切分后的音频信号；每组所述切分后的音频信号包括切分后的第一路音频信号以及切分后的第二路音频信号；

提取模块，用于提取每组所述切分后的音频信号的频域特征；

频域特征相似度确定模块，用于根据每组所述频域特征确定频域特征相似度；

频域特征相似度平均值确定模块，用于根据多组所述频域特征相似度确定频域特征相似度平均值；

判断模块，用于判断所述频域特征相似度平均值与频域特征相似度阈值的大小，确定第一判断结果；

一致性确定模块，用于当所述第一判断结果表示所述比较值大于所述频域特征相似度阈值时，则确定所述音频信号的内容具有一致性；

报警模块，用于当所述第一判断结果表示所述比较值不大于所述频域特征相似度阈值时，则确定所述音频信号的内容不具有一致性，输出报警信号。

可选的，所述延迟校准模块具体包括：

皮尔逊系数确定单元，用于对所述音频信号进行时域算法处理，确定皮尔逊系数；

延迟校准后的音频信号确定单元，用于根据所述皮尔逊系数对所述音频信号进行延迟校准，确定延迟校准后的音频信号。

可选的，所述切分模块具体包括：

切分长度获取单元，用于获取切分长度；

切分单元，用于根据所述切分长度对所述延迟校准后的音频信号进行数据切分，确定多组切分后的音频信号。

可选的，所述提取模块具体包括：

预加重单元，用于对每组所述切分后的音频信号进行预加重处理，确定预加重后的音频信号；

加窗单元，用于对所述预加重后的音频信号进行加窗处理，确定加窗音频信号；

对数能量确定单元，用于对所述加窗音频信号进行快速傅里叶变换确定对数能量；

频域特征提取单元，用于将所述对数能量进行梅尔带通滤波之后，再进行离散余弦逆变换，提取所述频域特征。

可选的，所述频域特征相似度确定模块具体包括：

计算单元，用于利用余弦相似度算法，根据每组所述切分后的音频信号对应的频域特征确定频域特征相似度；

映射单元，用于将所述频域特征相似度映射到[0,1]区间上。

根据本发明所提供的具体实施例，本发明公开了以下技术效果：本发明所提供一种基于频域特征的音频内容一致性的监测方法及系统，通过对音频信号进行延时校准，保证了音频信号传输的一致性，并且对延迟校准后的音频信号进行切分，进一步的提取切分后的音频信号的频域特征，并且通过频域特征确定频域特征相似度，根据频域特征相似度确定频域特征相似度平均值，再通过判断频域特征相似度平均值与频域特征相似度阈值的大小，实现对音频内容一致性的判断，当音频内容不一致时，输出报警信号。进而，减少了工作人员判断的环节，提高了音频广播监测的准确性，进而提高音频广播监测的自动化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种基于频域特征的音频内容一致性的监测方法的流程示意图；

图2为本发明所提供的一种基于频域特征的音频内容一致性的监测方法中延时差计算过程；

图3为本发明所提供的一种基于频域特征的音频内容一致性的监测方法中频域特征提取示意图；图3(a)为本发明所提供的12维频域特征提取示意图；图3(b)为本发明所提供的24维频域特征提取示意图；图3(c)为本发明所提供的36维频域特征提取示意图；

图4为本发明所提供的一种基于频域特征的音频内容一致性的监测方法中频域特征相似度阈值选取示意图；

图5为本发明所提供的一种基于频域特征的音频内容一致性的监测方法中时延与频域特征相似度的关系示意图；

图6为本发明所提供的一种基于频域特征的音频内容一致性的监测方法中不同信噪比下频域特征相似度平均值的关系示意图；

图7为本发明所提供的一种基于频域特征的音频内容一致性的监测系统的结构示意图。

附图说明：1-音频信号获取模块，2-延迟校准模块，3-切分模块，4-提取模块，5-频域特征相似度确定模块，6-频域特征相似度平均值确定模块，7-判断模块，8-一致性确定模块，9-报警模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的一种基于频域特征的音频内容一致性的监测方法的流程示意图，如图1所示，本发明所提供的一种基于频域特征的音频内容一致性的监测方法，包括：

S100，获取音频信号；所述音频信号包括第一路音频信号以及第二路音频信号。

S101，将所述音频信号进行延迟校准，确定延迟校准后的音频信号。

S102，将所述延迟校准后的音频信号进行数据切分，确定多组切分后的音频信号；每组所述切分后的音频信号包括切分后的第一路音频信号以及切分后的第二路音频信号。

S103，提取每组所述切分后的音频信号的频域特征；所述频域特征包括所述切分后的第一路音频信号的频域特征以及所述切分后的第二路音频信号的频域特征。

S104，根据每组所述频域特征确定频域特征相似度。

S105，根据多组所述频域特征相似度确定频域特征相似度平均值。

S106，判断所述频域特征相似度平均值与频域特征相似度阈值的大小，确定第一判断结果。

S107，当所述第一判断结果表示所述比较值大于所述频域特征相似度阈值时，则确定所述音频信号的内容具有一致性。

S108，当所述第一判断结果表示所述比较值不大于所述频域特征相似度阈值时，确定所述音频信号的内容不具有一致性，输出报警信号。

S101，所述音频信号进行延迟校准，确定延迟校准后的音频信号具体包括：

对所述音频信号进行时域算法处理，确定皮尔逊系数；

在实际应用中，设a，b为两组数字信号，二者的皮尔逊相关系数定义如下：

其中，cov(a,b)为a，b的协方差，σ_a和σ_b分别为a和b的标准差。设输入的音频信号为X和Y，分别取X和Y的一段等长的音频数据

取y的中间N个样点得到

以x的中间N个样点

为基准音频，在

的区间上分别计算x′与y′的皮尔逊相关系数，得到

其绝对值最大的点所对应的d值，即为输入信号音频X和Y的延迟。若d>0，取

与X即为时延校准后的音频数据；若d<0，则取

与Y即为时延校准的音频数据。

S102，所述将所述延迟校准后的音频信号进行数据切分，确定多组切分后的音频信号,具体包括：

获取切分长度；

在实际应用中，切分长度可根据具体应用灵活选择，一般取音频信号采样率的整数倍。

S103，所述提取每组所述切分后的音频信号的频域特征具体包括：

对所述加窗音频信号进行快速傅里叶变换确定对数能量；

在实际应用中，采用梅尔倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)作为频域特征，MFCC计算以帧为单位，帧长固定，取值范围一般取20毫秒～40毫秒，每帧的MFCC参数维度可根据精度要求选择12、24或36。设分组长度为s毫秒，帧长为f毫秒，MFCC参数维数为v，则每个音频分组计算得到总的特征参数维度

在实际应用中，为降低计算复杂度，取多帧MFCC参数的平均值，因而每个音频分组得到的特征参数维度仍然为v。

S104，所述根据每组所述频域特征确定频域特征相似度包括：

在实际应用中，余弦相似度进行计算利用如下公式计算：

其中，X_i，i＝1，2，3...，N和Y_i，i＝1，2，3...，N为音频分组提取的频域特征向量。

为计算方便，将余弦距离的取值范围[-1.0,1]映射到[0,1]区间，即1为完全相同，0为完全不同。

在实际应用中，音频内容的一致性判决是一个二分类问题，需要明确给出“一致”或“不一致”两种状态。频域特征相似度阈值的确定具体包括：

(1)建立三组音频数据样本，分别记为A、B、C，其中A和B内容一致，但存在少量噪音干扰；A和C内容不一致。

(2)设定初始目标准确率r为95％；

(3)搜索音频匹配时的相似度阈值t1，使其满足以下条件：音频内容一致时大于t1的音频样本数量与全部匹配音频样本数量的比值大于等于r；

(4)搜索音频不匹配时的相似度阈值t2，使其满足以下条件：音频内容不一致时小于t2的音频样本数量与全部不匹配音频样本数量的比值大于等于r；

(5)检查t1是否大于等于t2，如果大于则继续下一步操作，如果小于则降低第1步中的r，重复第2、3步；

(6)取t1和t2的平均值，即为频域特征相似度阈值。

图7为本发明所提供的一种基于频域特征的音频内容一致性的监测系统的结构示意图，如图7所示一种基于频域特征的音频内容一致性的监测系统包括音频信号获取模块1、延迟校准模块2、切分模块3、提取模块4、频域特征相似度确定模块5、频域特征相似度平均值确定模块6、判断模块7、一致性确定模块8和报警模块9。

其中，音频信号获取模块1用于获取音频信号；所述音频信号包括第一路音频信号以及第二路音频信号。

延迟校准模块2用于将所述音频信号进行延迟校准，确定延迟校准后的音频信号。

切分模块3用于将所述延迟校准后的音频信号进行数据切分，确定多组切分后的音频信号；每组所述切分后的音频信号包括切分后的第一路音频信号以及切分后的第二路音频信号。

提取模块4用于提取每组所述切分后的音频信号的频域特征。

频域特征相似度确定模块5用于根据每组所述频域特征确定频域特征相似度。

频域特征相似度平均值确定模块6用于根据多组所述频域特征相似度确定频域特征相似度平均值。

判断模块7用于判断所述频域特征相似度平均值与频域特征相似度阈值的大小，确定第一判断结果；

一致性确定模块8用于当所述第一判断结果表示所述比较值大于所述频域特征相似度阈值时，则确定所述音频信号的内容具有一致性。

报警模块9用于当所述第一判断结果表示所述比较值不大于所述频域特征相似度阈值时，则确定所述音频信号的内容不具有一致性，输出报警信号。

所述延迟校准模块2具体包括皮尔逊系数确定单元和延迟校准后的音频信号确定单元。

皮尔逊系数确定单元用于对所述音频信号进行时域算法处理，确定皮尔逊系数。

延迟校准后的音频信号确定单元用于根据所述皮尔逊系数对所述音频信号进行延迟校准，确定延迟校准后的音频信号。

所述切分模块3具体包括切分长度获取单元和切分单元。

切分长度获取单元用于获取切分长度。

切分单元用于根据所述切分长度对所述延迟校准后的音频信号进行数据切分，确定多组切分后的音频信号。

所述提取模块4具体包括预加重单元、加窗单元、对数能量确定单元和频域特征提取单元。

预加重单元用于对每组所述切分后的音频信号进行预加重处理，确定预加重后的音频信号。

加窗单元用于对所述预加重后的音频信号进行加窗处理，确定加窗音频信号。

对数能量确定单元用于对所述加窗音频信号进行快速傅里叶变换确定对数能量。

频域特征提取单元用于将所述对数能量进行梅尔带通滤波之后，再进行离散余弦逆变换，提取所述频域特征。

所述频域特征相似度确定模块5具体包括计算单元和映射单元。

计算单元用于利用余弦相似度算法，根据每组所述切分后的音频信号对应的频域特征确定频域特征相似度；

映射单元用于将所述频域特征相似度映射到[0,1]区间上。

在一个实施例中，以实时音频广播内容一致性监测为例，对本发明所提供一种基于频域特征的音频内容一致性的监测方法进行详细说明。

实时音频广播内容一致性监测的两路输入音频分别为音频源数据流(播出源，不经过开路播出)和音频开路数据流(由天线发射，并由广播接收机接收处理得到的音频流)。音频源数据可以认为没有任何干扰的标准音频，另外一路开路接收数据可能存在以下几种情况：

错播或非法插播。由于发射台站工作人员操作失误，播放了与计划播放的内容不同的音频，称为错播；由于非法人员采用同频段、大功率的非法播出设备产生的广播信号替代了原有的广播内容，即为非法插播。在这两种情况下，都认为播出出现了故障。

白噪声干扰。开路音频数据由于受到信道噪声的影响，产生了人耳能够听到的白噪声，但音频本身并不存在内容上的错误，在噪声较小的情况下，可以认为播出正常。

接收延迟。开路音频数据和源音频数据存在着一定的延迟，且由于接收硬件设备采样时钟的精度差异，延迟可能会在小范围内动态变化。

对于上述应用涉及的技术参数作基本设定：音频为单声道，采样率为48000Hz。

获取两路输入音频等长的数据，选择计算窗长为2秒钟，对于48000Hz采样率的音频信号来说，窗长即为96000个样点。取第2路音频数据中心的96000个样点，在第1路音频数据上采用滑动窗口选择相应的数据，然后计算二者的相关系数，直到计算完所有数据，最后选择相关系数最大的窗口，具体计算过程如图2所示。

对于实时音频流，选择适当的音频切片大小，考虑广播监测的实时性要求，本实施例音频分组长度设定为2秒，即96000个采样点。

取音频参数的最小提取单元为20毫秒的音频帧，而在实际应用中，由于噪声干扰的存在，以帧为基本计算单元进行比较存在着较大的偶然性。因此，本设计采用100帧——即2秒音频数据——作为一个基本计算单元，每一个计算单元的相似度值为100帧音频数据相似度值的平均值。

MFCC提取的帧长取20毫秒，即960个样点，取提取过程中的帧叠为0，因此，每个音频分组共得到100帧MFCC参数。MFCC参数维度一般可取12、24和36，对三种情况进行分析。取一段20分钟长的音频数据，分别提取12维、24维、36维MFCC，MFCC提取算法的配置为：帧长20毫秒，最低频率为0Hz，最高频率为24KHz，滤波器个数为32，得到三种情况下的三维图像如图3所示。

图3为本发明所提供的一种基于频域特征的音频内容一致性的监测方法中频域特征提取示意图，X轴为MFCC序号，Y轴为帧序号，Z轴为MFCC系数值。从图3可以看出，音频能量在梅尔频率上并不是均匀分布的，而是集中在某几个频率范围内，对于MFCC来说，前6个系数幅度较大，集中了较多的音频能量。从三组系数的分布图可以看出，12维以后的更高维系数相对平坦，说明对于总体的影响相对较小，因而12维MFCC已经能够达到较高的精度。因此，本实施例采用12维的MFCC参数以节省计算资源。

利用公式

计算频域特征相似度。

其中，X_i，i＝1，2，3...，N和Y_i，i＝1，2，3...，N为提取的两组MFCC参数向量。

为计算方便，将余弦距离的取值范围[-1.0,1.0]映射到[0,1.0]区间，即1.0为完全相同，0为完全不同。

图4为本发明所提供的一种基于频域特征的音频内容一致性的监测方法中频域特征相似度阈值选取示意图，如图4所示，每段音频切分为时长为2秒的音频样本，共计生成约1200个样本。相似度60％处为音频A和音频B的比较结果，相似度20％处为音频A和音频C的比较结果。从图4中可以看出，音频匹配时的相似度曲线和音频不匹配时的相似度曲线存在着较为明显的差异。

根据频域特征相似度阈值的选取方法及图4所示，上面一条即为计算得到的t1，值为55％，下面一条为t2，值为26％，取二者的平均值40.5％，即为频域特征相似度阈值，在给定的频域特征相似度阈值情况下，内容一致样本的判决准确率为99.58％，内容不一致样本的判决准确率为99.42％，总体准确率为99.5％。

实际应用为实时广播，因而无法像音频文件那样得到全部音频数据，为此，采用以下方法对于音频内容的异常进行判断：

(1)设定异常计算器值为0；

(2)计算每个音频信号分组两路音频信号的特征相似度；

(3)将每个音频信号分组的频域特征相似度结果与频域相似度阈值比较，得到该音频信号分组的一致性判断结果；

(4)若(3)中的判断结果为不一致，则异常计算器值加1，若一致，则异常计算器重置为0；

(5)检测异常计算器值，若大于5(即连续5秒出现内容不一致)，则输出报警信号。

为验证上述步骤的效果，设计验证实验。为保证实验分析的准确性，采用先录制实时广播音频数据、再对音频文件进行分析的方法，替代直接对广播音频流进行分析。采用2台调频广播录制设备，每台设备按照同样的时间表分别从中央人民广播电台“中国之声”、“经济之声”、“音乐之声”、“经典音乐广播”、“中华之声”、“神州之声”、“华夏之声”、“香港之声”、“民族之声”、“文艺之声”10套节目录制时长为12个小时的音频。考虑录制过程中的严重噪声干扰，通过人工监听的方式从每套节目筛选出10个小时严格一致的音频，构成了一个总时长为100小时的音频数据集。

根据实施例，作定义如下，每个音频样本为一对时长为2秒的音频分组，内容一致的音频对称为正样本，内容不一致的样本称为负样本。

通过上述音频数据集可以得到18万个正样本，采用随机抽取的方法，从不同的节目间组合得到18万个负样本。取其中16万个正样本和16万个负样本，确定频域特征相似度阈值。对剩余2万个正样本和2万个负样本进行验证，结果如表一所示：

表一

从以上结果可以得到以下结论：时长为2秒的音频分组的判决准确为93.7％，考虑广播接收的偶然性错误，如果在实际应用中以10秒的连续错误(即5个音频分组)作为警报触发门限，则误警率为(1-93.7％)5＝9.9*10-7，即大约100万个样本(即大概560小时)出现一次误警，说明该算法具备真实场景下的实际应用能力。

图5为本发明所提供的一种基于频域特征的音频内容一致性的监测方法中时延与频域特征相似度的关系示意图，如图5所示，时域上的延迟校准能够提高MFCC参数比较的准确度。对于相同音频内容，超过±10毫秒的延迟会导致音频特征相似度下降30％，延迟校准能够明显改善延迟对于准确度的影响。

图6为本发明所提供的一种基于频域特征的音频内容一致性的监测方法中不同信噪比下频域特征相似度平均值的关系示意图，如图6所示，采用频域特征表征音频，能够提高算法的抗干扰能力。对一段时长为20分钟的音频添加不同等级的白噪声，然后与原始音频进行相似度计算，得到的不同信噪比下平均音频相似度。

从图6中可以看出，在信噪比大于50dB时，使用文的算法计算得到的音频相似度大于90％，而当信噪比降低到10dB时，音频相似度仍然大于50％，可以看出，本方法对噪声具有较好的鲁棒性。

采用余弦相似度并将结果映射到[0,1区间，与欧式距离等其他特征距离计算方法相比，能够提供更加直观的相似度结果，更加适合使用者的直观感受。

本发明所提供的频域相似度阈值选择方法，能够帮助基于该方法的不同应用最大化其计算准确度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于频域特征的音频内容一致性的监测方法，其特征在于，所述音频内容一致性的监测方法包括：

根据每组所述频域特征确定频域特征相似度；

根据多组所述频域特征相似度确定频域特征相似度平均值；

当所述第一判断结果表示比较值大于所述频域特征相似度阈值时，则确定所述音频信号的内容具有一致性；

当所述第一判断结果表示所述比较值不大于所述频域特征相似度阈值时，确定所述音频信号的内容不具有一致性，输出报警信号；

其中，频域特征相似度阈值的确定具体包括：

(1)建立三组音频数据样本，分别记为A、B、C，其中A和B内容一致，A和B存在噪音干扰；A和C内容不一致；

(2)设定初始目标准确率r为95％；

(3)搜索音频匹配时的相似度阈值t1，使t1满足的条件为：音频内容一致时，大于t1的音频样本数量与全部匹配音频样本数量的比值大于等于r；

(4)搜索音频不匹配时的相似度阈值t2，使t2满足的条件为：音频内容不一致时，小于t2的音频样本数量与全部不匹配音频样本数量的比值大于等于r；

(5)检查t1是否大于或等于t2，如果大于或等于，则继续下一步操作；如果小于，则降低第（ 1）步中的r，重复第(2)和第(3)步，直至t1大于或等于t2；

(6)取t1和t2的平均值，即为频域特征相似度阈值。

2.根据权利要求1所述的一种基于频域特征的音频内容一致性的监测方法，其特征在于，所述将所述音频信号进行延迟校准，确定延迟校准后的音频信号，具体包括：

对所述音频信号进行时域算法处理，确定皮尔逊系数；

3.根据权利要求1所述的一种基于频域特征的音频内容一致性的监测方法，其特征在于，所述将所述延迟校准后的音频信号进行数据切分，确定多组切分后的音频信号，具体包括：

获取切分长度；

4.根据权利要求1所述的一种基于频域特征的音频内容一致性的监测方法，其特征在于，所述提取每组所述切分后的音频信号的频域特征，具体包括：

对所述加窗音频信号进行快速傅里叶变换确定对数能量；

5.根据权利要求1所述的一种基于频域特征的音频内容一致性的监测方法，其特征在于，所述根据每组所述频域特征确定频域特征相似度，具体包括：

6.一种基于频域特征的音频内容一致性的监测系统，其特征在于，所述音频内容一致性的监测系统包括：

一致性确定模块，用于当所述第一判断结果表示比较值大于所述频域特征相似度阈值时，则确定所述音频信号的内容具有一致性；

报警模块，用于当所述第一判断结果表示所述比较值不大于所述频域特征相似度阈值时，则确定所述音频信号的内容不具有一致性，输出报警信号；

其中，频域特征相似度阈值的确定具体包括：

(2)设定初始目标准确率r为95％；

(6)取t1和t2的平均值，即为频域特征相似度阈值。

7.根据权利要求6所述的一种基于频域特征的音频内容一致性的监测系统，其特征在于，所述延迟校准模块具体包括：

8.根据权利要求6所述的一种基于频域特征的音频内容一致性的监测系统，其特征在于，所述切分模块具体包括：

切分长度获取单元，用于获取切分长度；

9.根据权利要求6所述的一种基于频域特征的音频内容一致性的监测系统，其特征在于，所述提取模块具体包括：

10.根据权利要求6所述的一种基于频域特征的音频内容一致性的监测系统，其特征在于，所述频域特征相似度确定模块具体包括：

映射单元，用于将所述频域特征相似度映射到[0,1]区间上。