CN110491413B

CN110491413B - 一种基于孪生网络的音频内容一致性监测方法及系统

Info

Publication number: CN110491413B
Application number: CN201910772343.2A
Authority: CN
Inventors: 王非非; 杜伟韬; 余心乐; 杨占昕
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2022-01-04
Anticipated expiration: 2039-08-21
Also published as: CN110491413A

Abstract

本发明公开一种基于孪生网络的音频内容一致性监测方法及系统，所述方法包括获取音频信号；将所述音频信号进行数据切分，确定多组切分后的音频信号；提取每组所述切分后的音频信号的频域特征；获取以所述频域特征为输入，以所述频域特征的距离值为输出建立音频孪生网络模型；根据所述频域特征和所述音频孪生网络模型，确定所述频域特征的距离值；判断所述距离值与距离阈值的大小，确定所述音频信号的内容是否具有一致性；当所述音频信号的内容不具有一致性，输出报警信号。本发明提供一种基于孪生网络的音频内容一致性监测方法及系统，提高音频监测准确性和实时性。

Description

一种基于孪生网络的音频内容一致性监测方法及系统

技术领域

本发明涉及音频分析技术领域，特别是涉及一种基于孪生网络的音频内容一致性监测方法及系统。

背景技术

音频内容的一致性监测的主要目标是从音频的物理特征上区分内容一致和不一致的音频，该技术在多个音频相关的业务领域中都有应用，包括音乐检索、广告监播、音频广播监测等。主流的音频内容一致性监测相关算法主要包括两个方面：音频的特征选择和音频特征的相似性度量。常用的音频特征包括时域的音频波形，频域的梅尔倒谱系数、短时傅里叶变换系数等。时域波形含有最全的音频信息，但是由于含有大量的音频共性信息，对于特定音频的表征能力较弱，在进行音频内容的一致性监测的过程中容易受到外界的干扰，造成监测的不准确性。

而频域特征对于音频的表征能力大大提高，并且，不同音频的频域特征具有较好的区分度；然而，提取的频域特征大多只能表征音频的整体物理特征，而对于音频的细节缺少充分的表达。例如，当音频在传输过程中混入一定等级的高斯白噪声，且并不影响人耳对于音频内容的识别时，频域特征的监测则会为音频内容不一致，发出报警信号，这样就造成了误判，进而会带来不必要的麻烦。

基于上述问题，现有技术通过设计任务目标和大量的训练数据，构建音频特征集合，从而提取出更符合目标要求的特征，从而提高监测的准确性。但是，以上方法计算复杂度明显增大，并且计算时间长，实时性差。

发明内容

本发明的目的是提供一种基于孪生网络的音频内容一致性监测方法及系统，能够解决音频监测准确性低和实时性差的问题。

为实现上述目的，本发明提供了如下方案：

一种基于孪生网络的音频内容一致性监测方法，包括：

获取音频信号；所述音频信号包括内容一致的音频信号和内容不一致的音频信号；

将所述音频信号进行数据切分，确定多组切分后的音频信号；每组所述切分后的音频信号包括切分后的内容一致的音频信号以及切分后的内容不一致的音频信号；

提取每组所述切分后的音频信号的频域特征；所述频域特征包括所述切分后的内容一致的音频信号的频域特征以及所述切分后的内容不一致的音频信号的频域特征；

获取以所述频域特征为输入，以所述频域特征的距离值为输出建立音频孪生网络模型；

根据所述频域特征和所述音频孪生网络模型，确定所述频域特征的距离值；

判断所述距离值与距离阈值的大小，得到第一判断结果；

当所述第一判断结果表示所述距离值小于所述距离阈值时，则确定所述音频信号的内容具有一致性；

当所述第一判断结果表示所述距离值不小于所述距离阈值时，则确定所述音频信号的内容不具有一致性，输出报警信号。

可选的，所述获取音频信号之后，包括：

对所述内容一致的音频信号进行扩充预处理；所述扩充预处理包括对所述内容一致的音频信号叠加高斯白噪声，调整所述内容一致的音频信号的音量和对所述内容一致的音频信号进行相位调节。

可选的，所述获取以所述频域特征为输入，以所述频域特征的距离值为输出建立音频孪生网络模型之后，还包括：

利用公式

对所述音频孪生网络模型进行优化；其中，L(W(Y，X₁，X₂)ⁱ)＝(1-W)L_G(E_W(X₁，X₂)ⁱ)+YL_I(E_W(X₁，X₂)ⁱ)，L(W(Y，X₁，X₂)ⁱ)为第i个样本的损失；X₁和X₂为音频特征；N表示训练样本的总个数；Y表示X₁和X₂的原始音频内容是否一致，一致则设为1，不一致则设为0；L_G和L_I分别为内容一致和不一致时的误差函数；E_W为X₁和X₂的向量距离值；L(W)为音频孪生网络损失函数，L为音频孪生网络损失值，W为网络权值。

可选的，所述将所述音频信号进行数据切分，确定多组切分后的音频信号，具体包括：

获取切分长度；

根据所述切分长度对所述音频信号进行数据切分，确定多组切分后的音频信号。

一种基于孪生网络的音频内容一致性监测系统，包括：

音频信号获取模块，用于获取音频信号；所述音频信号包括内容一致的音频信号和内容不一致的音频信号；

音频信号切分模块，用于将所述音频信号进行数据切分，确定多组切分后的音频信号；每组所述切分后的音频信号包括切分后的内容一致的音频信号以及切分后的内容不一致的音频信号；

频域特征提取模块，用于提取每组所述切分后的音频信号的频域特征；所述频域特征包括所述切分后的内容一致的音频信号的频域特征以及所述切分后的内容不一致的音频信号的频域特征；

音频孪生网络模型获取模块，用于获取以所述频域特征为输入，以所述频域特征的距离值为输出建立音频孪生网络模型；

距离值确定模块，用于根据所述频域特征和所述音频孪生网络模型，确定所述频域特征的距离值；

判断模块，用于判断所述距离值与距离阈值的大小，得到第一判断结果；

一致性确定模块，用于当所述第一判断结果表示所述距离值小于所述距离阈值时，则确定所述音频信号的内容具有一致性；

报警模块，用于当所述第一判断结果表示所述距离值不小于所述距离阈值时，则确定所述音频信号的内容不具有一致性，输出报警信号。

可选的，所述的一种基于孪生网络的音频内容一致性监测系统还包括：

预处理模块，用于对所述内容一致的音频信号进行扩充预处理；所述扩充预处理包括对所述内容一致的音频信号叠加高斯白噪声，调整所述内容一致的音频信号的音量和对所述内容一致的音频信号进行相位调节。

优化模块，用于利用公式

对所述音频孪生网络模型进行优化；L(W(Y，X₁，X₂)ⁱ)＝(1-W)L_G(E_W(X₁，X₂)ⁱ)+YL_I(E_W(X₁，X₂)ⁱ)，L(W(Y，X₁，X₂)ⁱ)为第i个样本的损失；X₁和X₂为音频特征；N表示训练样本的总个数；Y表示X₁和X₂的原始音频内容是否一致，一致则设为1，不一致则设为0；L_G和L_I分别为内容一致和不一致时的误差函数；E_W为X₁和X₂的向量距离值；L(W)为音频孪生网络损失函数，L为音频孪生网络损失值，W为网络权值。

可选的，所述音频信号切分模块具体包括：

切分长度获取单元，用于获取切分长度；

音频信号切分单元，用于根据所述切分长度对所述音频信号进行数据切分，确定多组切分后的音频信号。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种基于孪生网络的音频内容一致性监测方法及系统，通过对获取的音频信号进行切分和提取频域特征，并将提取的频域特征输入到音频孪生网络模型中，得到频域特征向量之间的距离值，并判断距离值与距离阈值的大小，从而快速的识别音频信号的内容是否具备一致性，在此过程中，无需设计任务目标以及大量的训练数据，通过建立音频孪生网络模型即可快速识别出音频信号的内容是否具备一致性，进而大大降低了计算的难度和复杂程度，减少了计算的时间，保证了实时性；并且通过将提取的频域特征输入到音频孪生网络模型中，能够充分体现音频细节的特征，避免了误判的现象，提高了音频监测的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种基于孪生网络的音频内容一致性监测方法流程图；

图2为本发明所提供的一种基于孪生网络的音频内容一致性监测系统的结构示意图；

图3为本发明所提供的音频孪生网络原理示意图。

附图说明：

201-音频信号获取模块，202-音频信号切分模块，203-频域特征提取模块，204-音频孪生网络模型获取模块，205-距离值确定模块，206-判断模块，207-一致性确定模块，208-报警模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的一种基于孪生网络的音频内容一致性监测方法流程图，如图1所示，本发明所提供的一种基于孪生网络的音频内容一致性监测方法，包括：

S101，获取音频信号；所述音频信号包括内容一致的音频信号和内容不一致的音频信号。

S102，将所述音频信号进行数据切分，确定多组切分后的音频信号；每组所述切分后的音频信号包括切分后的内容一致的音频信号以及切分后的内容不一致的音频信号。

S103，提取每组所述切分后的音频信号的频域特征；所述频域特征包括所述切分后的内容一致的音频信号的频域特征以及所述切分后的内容不一致的音频信号的频域特征。

S104，获取以所述频域特征为输入，以所述频域特征的距离值为输出建立音频孪生网络模型。

S105，根据所述频域特征和所述音频孪生网络模型，确定所述频域特征的距离值。

S106，判断所述距离值与距离阈值的大小，得到第一判断结果。

S107，当所述第一判断结果表示所述距离值小于所述距离阈值时，则确定所述音频信号的内容具有一致性。

S108，当所述第一判断结果表示所述距离值不小于所述距离阈值时，则确定所述音频信号的内容不具有一致性，输出报警信号。

为了能够充分体现音频细节的特征，避免了误判的现象，提高了音频监测的准确性，将所述获取音频信号之后还包括对所述内容一致的音频信号进行扩充预处理；所述扩充预处理包括对所述内容一致的音频信号叠加高斯白噪声，调整所述内容一致的音频信号的音量和对所述内容一致的音频信号进行相位调节。

在实际应用中，在信噪比为20dB～100dB范围内，叠加高斯白噪声，用来模拟实际应用中可能含有噪声干扰的音频。在0.5倍到2.0倍范围内，调整音频音量；在0ms到40ms范围内，通过对同一音频信号进行相位调节，增加音频延迟。

为了提高建立的音频孪生网络模型的准确性，在所述获取以所述频域特征为输入，以所述频域特征的距离值为输出建立音频孪生网络模型之后，还包括：

利用公式

在实际的应用中，将所述音频信号进行数据切分，确定多组切分后的音频信号，具体包括：

获取切分长度；

在一个实施例中，将所有音频信号切分为1秒长度的音频分组，对每个音频分组提取频域特征参数向量F_i，对提取的音频特征参数向量进行组合，形成三元组S_i＝(Y,F_m,F_n)ⁱ，F_m和F_n为频域特征参数向量，若F_m与F_n的内容一致则Y为1，否则Y为0，每个S_i即为一个训练样本。

图3为本发明所提供的音频孪生网络原理示意图，如图3所示，所述音频孪生网络模型中的两个神经网络具有一样的网络结构，并且共享网络权值W。

两个频域特征分别输入到所述音频孪生网络模型中的两个神经网络提取神经网络特征，最终输出两个频域特征向量距离值。

在实际的应用中，获取的音频信号中内容一致的音频信号和内容不一致的音频信号的数量一样，且编码格式一样。采用以下方法选取距离阈值：

设定初始目标准确率，r_p为期望的内容一致的音频信号的判断准确率，r_n为期望的内容不一致的音频信号的判断准确率；

获取音频信号具有一致性时的距离阈值t_p，使其满足以下条件：音频信号内容具有一致性时距离小于t_p的样本数量与全部内容具有一致性样本数量的比值大于等于r_p；

获取音频信号不具有一致性时的距离阈值t_n，使其满足以下条件：音频信号内容不具有不一致性时距离大于t_n的样本数量与全部不具有一致性样本数量的比值大于等于r_n；

判断t_n是否大于等于t_p，得到第二判断结果。当所述第二判断结果表示t_n是大于t_p，则继续下一步操作；当所述第二判断结果表示t_n是不大于t_p，则降低第1步中的r，返回获取音频信号具有一致性时的距离阈值t_p步骤。

根据t_p和t_n的平均值，确定距离阈值。

图2为本发明所提供的一种基于孪生网络的音频内容一致性监测系统的结构示意图，如图2所示，本发明还提供一种基于孪生网络的音频内容一致性监测系统，包括音频信号获取模块201、音频信号切分模块202、频域特征提取模块203、音频孪生网络模型获取模块204、距离值确定模块205、判断模块206、一致性确定模块207和报警模块208。

其中，音频信号获取模块201用于获取音频信号；所述音频信号包括内容一致的音频信号和内容不一致的音频信号。

音频信号切分模块202用于将所述音频信号进行数据切分，确定多组切分后的音频信号；每组所述切分后的音频信号包括切分后的内容一致的音频信号以及切分后的内容不一致的音频信号。

频域特征提取模块203用于提取每组所述切分后的音频信号的频域特征；所述频域特征包括所述切分后的内容一致的音频信号的频域特征以及所述切分后的内容不一致的音频信号的频域特征。

音频孪生网络模型获取模块204用于获取以所述频域特征为输入，以所述频域特征的距离值为输出建立音频孪生网络模型。

距离值确定模块205用于根据所述频域特征和所述音频孪生网络模型，确定所述频域特征的距离值。

判断模块206用于判断所述距离值与距离阈值的大小，得到第一判断结果。

一致性确定模块207用于当所述第一判断结果表示所述距离值小于所述距离阈值时，则确定所述音频信号的内容具有一致性。

报警模块208用于当所述第一判断结果表示所述距离值不小于所述距离阈值时，则确定所述音频信号的内容不具有一致性，输出报警信号。

所述的一种基于孪生网络的音频内容一致性监测系统还包括预处理模块。

预处理模块用于对所述内容一致的音频信号进行扩充预处理；所述扩充预处理包括对所述内容一致的音频信号叠加高斯白噪声，调整所述内容一致的音频信号的音量和对所述内容一致的音频信号进行相位调节。

所述的一种基于孪生网络的音频内容一致性监测系统还包括：优化模块。

优化模块用于利用公式

在实际应用中，所述音频信号切分模块具体包括切分长度获取单元和音频信号切分单元。

切分长度获取单元用于获取切分长度；

音频信号切分单元用于根据所述切分长度对所述音频信号进行数据切分，确定多组切分后的音频信号。

音频广播包含了大量类型丰富的音频节目，是获得音频数据的快捷方式。在一个具体的实施例中，通过使用两台调频广播接收设备，同时录制相同节目内容，从而获得内容一致的音频样本，再通过对不同节目的内容进行随机组合，生成内容不一致的音频样本。

为了充分验证本发明的效果，本实施例中录制的音频内容包含新闻、流行乐、曲艺、访谈、纯音乐等，尽可能实现了音频样本对于各类音频的全面覆盖。每台设备共计录制100个小时(第1路的100个小时音频数据记作D₁，第2路的100个小时音频数据记为D₂)，由于在录制过程，会随机地混入噪声和延迟，所以只采用音量调节的方式扩充音频数据。对D₁以秒为单位随机进行[0.5,1.5]倍的音量调节，生成新的100个小时的音频数据D₃。

将所有音频数据切分为1秒长度的音频分组，对每个音频分组提取50帧12维梅尔倒谱系数，逐帧进行排列，生成该分组的600维频域特征向量F_i，对提取的频域特征向量进行组合，形成三元组Si＝(Y,F_m,F_n)ⁱ，即为一个训练样本。若F_m与F_n的内容一致则Y为1，该样本记为正样本，否则Y为0，该样本为负样本。由此得到正样本72万个，负样本72万个。将所有样本按照8：1的比例随机划分为训练集和测试集，训练集包括正样本和负样本各64万个，测试集包括正样本和负样本各8万个。

在本实施例中，孪生网络中的神经网络采用5层感知机，每层的节点数分别为600、1024、1024、1024和64。激活函数采用ReLU，采用Dropout防止过拟合，丢弃概率为0.25。距离函数EW采用欧式距离。定义误差函数如下：

其中,正样本的y为1，负样本的y值为0，margin为预先设定的最大距离边界,，本实施例中margin取值为5，E_W为频域特征向量距离值，N表示训练样本的总个数，W为网络权值。

对所有的样本进行随机打乱，每次训练输入100个样本，对音频孪生网络模型进行训练。

经过判断确定距离阈值为2.31。

采用测试集中的样本作为输入数据，判断其内容一致性。

为了对本发明提出的算法进行效果验证，设计对比测试。一是，直接通过提取的频域特征计算欧式距离，与选取的距离阈值进行比较，从而输出一致性判决结果。二是，按照本发明所提供的的一种基于孪生网络的音频内容一致性监测方法及系统输出一致性判决结果。判决结果如表一：

表一

可见，在本实施例中，使用本发明提出的音频孪生网络提取的音频特征，比使用未经过网络的频域特征，对于测试音频数据的内容一致性判决，总体准确率提高4.4％，正样本准确率提高7.4％，负样本准确率提高1.3％。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于孪生网络的音频内容一致性监测方法，其特征在于，包括：

判断所述距离值与距离阈值的大小，得到第一判断结果；

当所述第一判断结果表示所述距离值不小于所述距离阈值时，则确定所述音频信号的内容不具有一致性，输出报警信号；

所述获取音频信号之后，包括：

对所述内容一致的音频信号进行扩充预处理；所述扩充预处理包括对所述内容一致的音频信号叠加高斯白噪声，调整所述内容一致的音频信号的音量和对所述内容一致的音频信号进行相位调节；

利用公式

对所述音频孪生网络模型进行优化；其中，L(W(Y，X₁，X₂)ⁱ)＝(1-W)L_G(E_W(X₁，X₂)ⁱ)+YL_I(E_W(X₁，X₂)ⁱ)，L(W(Y，X₁，X₂)ⁱ)为第i个样本的损失；X₁和X₂为音频特征；N表示训练样本的总个数；Y表示X₁和X₂的原始音频内容是否一致，一致则设为1，不一致则设为0；L_G和L_I分别为内容一致和不一致时的误差函数；E_W为X₁和X₂的向量距离值；L(W)为音频孪生网络损失函数，L为音频孪生网络损失值，W为网络权值；

获取的音频信号中内容一致的音频信号和内容不一致的音频信号的数量一样，且编码格式一样；采用以下方法选取距离阈值：

判断t_n是否大于等于t_p，得到第二判断结果；当所述第二判断结果表示t_n是大于t_p，则继续下一步操作；当所述第二判断结果表示t_n是不大于t_p，则降低第1步中的r，返回获取音频信号具有一致性时的距离阈值t_p步骤；

根据t_p和t_n的平均值，确定距离阈值。

2.根据权利要求1所述的一种基于孪生网络的音频内容一致性监测方法，其特征在于，所述将所述音频信号进行数据切分，确定多组切分后的音频信号，具体包括：

获取切分长度；

3.一种基于孪生网络的音频内容一致性监测系统，其特征在于，包括：

报警模块，用于当所述第一判断结果表示所述距离值不小于所述距离阈值时，则确定所述音频信号的内容不具有一致性，输出报警信号；

所述的一种基于孪生网络的音频内容一致性监测系统还包括：

预处理模块，用于对所述内容一致的音频信号进行扩充预处理；所述扩充预处理包括对所述内容一致的音频信号叠加高斯白噪声，调整所述内容一致的音频信号的音量和对所述内容一致的音频信号进行相位调节；

优化模块，用于利用公式

根据t_p和t_n的平均值，确定距离阈值。

4.根据权利要求3所述的一种基于孪生网络的音频内容一致性监测系统，其特征在于，所述音频信号切分模块具体包括：

切分长度获取单元，用于获取切分长度；