CN104505101B

CN104505101B - 一种实时音频比对方法

Info

Publication number: CN104505101B
Application number: CN201410814218.0A
Authority: CN
Inventors: 张丹; 胡志琳; 李佳骅; 石建
Original assignee: BEIJING REDROCKS Inc
Current assignee: GROWTH ENGINE (BEIJING) INFORMATION TECHNOLOGY Co.,Ltd.
Priority date: 2014-12-24
Filing date: 2014-12-24
Publication date: 2017-11-03
Anticipated expiration: 2034-12-24
Also published as: CN104505101A

Abstract

本发明的实时音频比对方法，用于判断两路信号是否为同样的内容：两路音频信号的初始同步和两路音频的周期比对；对两路音频信号分别读取N秒钟的音频，采样得到两组待同步的音频采样序列；通过移动延时值，将两路音频采样序列对齐，本次移动延时值是为粗同步；然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列，得到两个同步测试音频序列的特征值序列,延时值分别为D0、D1和D2；分别计算这两个同步测试音频序列特征值的相关性值L0、L1和L2；定期的对两路音频进行音频信号采样，计算两列采样音频序列的MEL倒谱特征值并相关性；如果相关性仍然大于门限A，说明这段时间内两路音频还是保持内容一致的。

Description

一种实时音频比对方法

技术领域

本发明涉及一种判断两路实时音频信号的内容是否相同的比对方法。

背景技术

两路实时音频信号一般是经过不同的传输通道传入的，因为信道传输的延时，会造成两路信号在到达时间上的不同步。因此对这两路实时音频要做的第一件事情是进行同步计算，找出两路信号的延时大小。同步的结果会极大影响后续比对的准确度。

所以在实时音频的比对中，同步算法是最关键的模块。

现有技术中，判断两路音频信号是否同步，具有多种方法：

1)有辅助信息的同步，例如“音频水印”技术，是在原始音频中插入一些额外的辅助信息，依靠这些辅助信息进行同步。这些特定的信息耳朵听不到，但是设备可以检测出来，用这些信息辅助进行同步。但这种方法一定程度上会降低声音的质量，另外前端需要安装特殊设备，提高了成本。

2)无辅助信息的同步，可以再细分为

a.时间域上的同步计算：根据音频信号的时间特性的相关性来计算延时。可以使用的时间特性包括时域的信号包络，或者是音频能量的变化趋势等。这类算法的优点是计算量小，因为不需要变换到频域。缺点是很容易受到噪声、信道衰减的影响，准确率低，难以收敛。

b.变换域上的同步计算:把音频信号变换到频域(或其他变换域)，根据频域特征值的相关性来计算延时。这类算法的优点是准确性较高。由于利用了频域的特性，符合人耳辩声的原理，受噪声和衰减的影响小。缺点是涉及到时频变换，计算量大。

因此，现有的各种技术都存在缺陷，有待于进一步改进和发展。

发明内容

本发明的目的是提供一种计算量小，精度高的两路实时音频信号的对比方法。

为了实现上述目的，本发明采用如下技术方案：

一种实时音频比对方法，用于对两路实时的音频信号进行比较分析，判断两路信号是否为同样的内容，具体包括：

两路音频信号的初始同步和两路音频的周期比对；

所述两路音频信号的初始同步，包括以下步骤：

对第一路音频信号和第二路音频信号，分别读取N秒钟的音频，对两段音频进行采样得到两组待同步的音频采样序列；首先假设两路音频信号的延时值D为D0，D0＝0，进入第一级同步，也就是粗同步的过程；

通过假设的延时值D0，移动两路音频采样序列，使其在时间上对齐；然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列，分别计算这两路同步测试音频序列的MEL倒谱特征值，得到两个同步测试音频序列的特征值序列；

对假定的延时值D0，减去和加上一个搜索步长S以后，分别得到两个新的假定延时值D1和D2。在延时值分别为D0、D1和D2时，分别计算这两个同步测试音频序列特征值的相关性值L0、L1和L2；

根据所述相关性值，判断下一步搜索方向继续搜索，一直搜索到确定了最终的取值区间范围；

在这个区间内，缩小每一次搜索的步长S，也就是进入第二次同步即细同步，细同步的搜索步长小于粗同步；

最后找出具体的满足条件(相关性大于门限A)的延时值D值；

所述两路音频的周期比对包括以下步骤：

定期地对两路音频进行音频信号采样，计算两列采样音频序列的MEL倒谱特征值，然后比较它们的相关性；如果相关性仍然大于门限A，说明这段时间内两路音频还是保持内容一致的。

所述的实时音频比对方法，其中，所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤：

以D0为假设延时，对齐所述两路音频采样序列，然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列，分别计算这两路同步测试音频序列的MEL倒谱特征值，得到两个同步测试音频序列的特征值序列；计算这两个特征值序列的相关性值L0。

假设两路音频信号的延时值为D1＝D0–S秒，以D1为延时对齐两列音频序列，然后从对齐后的两路音频序列的同一时间点处开始向后各取长度为M的音频采样序列，分别计算这两路同步测试音频序列的MEL倒谱特征值，得到两个同步测试音频序列的特征值序列；对这两个MEL倒谱特征值序列计算相关性得到相关性值L1。

假设两路音频信号的延时值为D2＝D0+S秒，以D2为延时对齐两列音频序列，然后从对齐后的两个音频序列的同一时间点处开始向后各取长度为M的音频采样序列，分别计算这两路同步测试音频序列的MEL倒谱特征值，得到两个同步测试音频序列的特征值序列。计算这两个序列计算相关性值L2。

所述的实时音频比对方法，其中，根据所述相关性值判断下一步搜索方向，具体包括以下步骤：

当出现L1<L0且L2<L0的情况，实际的延时值D一定就在D1～D2之间，表示第一级同步完成，将进入第二级同步；

当出现L2>L0>L1时，可判断D>D2，这时候应当继续向右侧搜索，取D0＝D2，重复第一级同步的步骤；

当出现L2<L0<L1时，可判断D<D1，这时候应当继续向左侧搜索，取D0＝D1，重复第一级同步的步骤。

本发明提供的实时音频对比方法，使用了频域的特征值(MEL倒谱)来进行比对。而普通的利用MEL倒谱比对的算法，在提高了精度的同时，计算量也增大了，相应的对硬件平台的要求也提高了。如果要降低硬件的成本，就必须有效的降低同步算法的计算量。本发明使用的“双向搜索”方法，可以只对少数假设点进行计算，就快速的判断出实际延时值所在的方向，进而定位取值区间。然后利用“两级同步”的方法，在找到的区间内缩小步长再次进行快速搜索，直到找到真实的延时值。整个方法避免了一个一个采样点去计算和比较，极大的节省了计算资源。

附图说明

图1为本发明实时音频比对方法的流程示意图；

图2为本发明延时值D落在了(D1,D2)区间内时，延时值同相关性的曲线图；

图3为本发明延时值D大于D2时，延时值同相关性的曲线图；

图4为本发明延时值D小于D1时，延时值同相关性的曲线图。

具体实施方式

下面对本发明做进一步详细说明。

本发明的实时音频比对方法，可以对两路实时的音频信号进行比较分析，判断两路信号是否为同样的内容,包括初始同步和周期性比对两个步骤。

第一个步骤，两路音频的初始同步。

本发明的初始同步算法采用“频域特征值求相关性”、“双向搜索”、“两级同步”的独创性方法，算法的流程，如图1所示，包括以下步骤:

步骤101、对第一路音频信号和第二路音频信号，分别读取N秒钟的音频，对两段音频进行采样，得到两组待同步的音频采样序列。首先假设两路音频信号的延时值D为D0，(D0＝0)。开始进入第一级同步，也就是粗同步，搜索步长为S。

步骤102，在假设延时值的基础上，移动两路音频采样序列，使其在时间上对齐。然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列，分别计算这两路同步测试音频序列的MEL倒谱特征值，得到两个同步测试音频序列的特征值序列，计算这两个同步测试音频序列特征值的相关性值L0；

再假设两路音频信号的延时值为D0–S秒(D1＝D0-S)。以D1为延时对齐两列音频序列。然后从对齐后的两路音频序列的同一时间点处开始向后各取长度为M的音频采样序列，分别计算这两路同步测试音频序列的MEL倒谱特征值，得到两个同步测试音频序列的特征值序列；对这两个MEL倒谱特征值序列计算相关性得到相关性值L1；

假设两路音频信号的延时值为D0+S秒(D2＝D0+S)。以D2为延时对齐两列音频序列。然后从对齐后的两个音频序列的同一时间点处开始向后各取长度为M的音频采样序列，分别计算这两路同步测试音频序列的MEL倒谱特征值，得到两个同步测试音频序列的特征值序列。计算这两个序列之间的相关性值L2；

步骤103，根据所述相关值，判断下一步搜索方向。

在步骤102中，本发明等距离的假设了三个可能的延时值D1D0和D2，并在这三个假设下计算了两个序列对应的相关性大小L1L0和L2，相关性大小L1L0和L2存在下面几种情况：

(1)实际的延时值D落在了(D1,D2)区间内，如图2所示，

假设这两个音频序列的内容是完全相同的，只是存在一个延时D秒。那么两路同步测试音频序列的MEL倒谱特征值的相关性(纵坐标)与计算相关性的时候所假设的延时大小(横坐标)之间的关系如图2中的曲线。假设的延时值越接近实际的延时D，相关性就越大，反之越小。

利用这种特点，本发明可以判断，当出现L1<L0且L2<L0的情况，那么实际的延时值D一定就在D1～D2之间某个地方。出现这种情况，表示第一级同步(粗同步)完成，将进入步骤104进行第二级同步(细同步)。

(2)实际的延时值D要大于D2，如图3所示，

当出现L2>L0>L1时，可判断D>D2。这时候应当继续向右侧搜索，取D0＝D2，重复步骤102。

(3)实际的延时值D要小于D1，如图4所示，

当出现L2<L0<L1时，可判断D<D1。这时候应当继续向左侧搜索，取D0＝D1，重复步骤102。

步骤104，通过前面的搜索，已经找到了延时值D所在的目标区间。为了找出具体的延时值D值，缩小每一次搜索的步长S，然后以目标区间的中间点开始进行第二级同步(细同步)搜索。搜索的判断方式与步骤103里的第一级同步搜索(粗同步)相同。当最终找到一个点Dx，对应的相关性值Lx大于某一个设定的门限A时，可以认为Dx就是真实的延时值。并且同时可以判定这两个序列是完全相同的。

如果搜索完了整个N秒的采样序列，都没有找到有符合要求的延时值，那么可以认为两组音频的内容不同(或者实际延时超出了最大可处理的延时范围)。

第二个步骤，两路音频信号的周期比对。

在完成了同步以后，至少可以说明同步时所用的两段音频采样序列内容相同。但是本发明的目标是对两路音频不间断的进行实时的比较，因此同步之后，还需要定期的对两路音频进行音频信号采样，计算两列采样音频序列的MEL倒谱特征值，然后比较他们的相关性。如果相关性仍然大于门限A，说明这段时间内两路音频还是保持内容一致的。如果相关性低于门限值A，有两种可能性：一是同步丢失了。因为传输信道存在延时抖动，两路音频之间的延时值并不是固定的，而是在不断变化中。另一种可能性就是两路音频现在的内容不一样了(比如某一路被插播了非法内容)。

不论是上述哪种原因造成的相关性过低，都需要重新进行同步计算。如果同步计算后能重新得到满足条件的延时值，说明音频是相同的，只是延时值发生了变化，不需要对外告警；否则，说明音频内容不同了，需要设备向外发出相应的告警信息。

本发明采用MEL倒谱序列作为音频的特征值，通过特征值的相关性判断两列音频是否内容相同。MEL倒谱序列是模拟了人耳的听觉特点之后，对声音的频谱所做的分段特征提取。这种特征值对于语音、音乐都有很好的代表性，即使在声音经过了压缩处理或者是传输信道较恶劣的情况下，都可以保证比对结果的准确性。

本发明的主要创新点在于，采用了一种独创的“频域特征值求相关性”、“双向搜索”和“两级同步”的算法来实现快速的同步。

由于本发明使用了频域的特征值(MEL倒谱)来进行比对，在提高了精度的同时，计算量也增大了。如果要降低硬件的成本，就必须有效的降低同步算法的计算量。本发明使用的“双向搜索”方法，可以只对少数假设点进行计算，就快速的判断出实际延时值所在的方向，进而定位取值区间。然后利用“两级同步”的方法，在找到的区间内缩小步长再次进行快速搜索，直到找到真实的延时值。整个方法避免了一个一个采样点去计算和比较，极大的节省了计算资源。实际使用效果良好，可以在一些嵌入式的硬件平台上实现完整的两路实时音频比对。

以上内容是对本发明的优选的实施例的说明，可以帮助本领域技术人员更充分地理解本发明的技术方案。但是，这些实施例仅仅是举例说明，不能认定本发明的具体实施方式仅限于这些实施例的说明。

Claims

1.一种实时音频比对方法，用于对两路实时的音频信号进行比较分析，判断两路信号是否为同样的内容，具体包括：

两路音频信号的初始同步和两路音频的周期比对；

所述两路音频信号的初始同步，包括以下步骤：

基于假设的延时值D0，移动两路音频采样序列，使其在时间上对齐；然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列，分别计算这两路同步测试音频序列的MEL倒谱特征值，得到两个同步测试音频序列的特征值序列；

对假定的延时值D0，减去和加上一个搜索步长S以后，分别得到两个新的假定延时值D1和D2；

在延时值分别为D0、D1和D2时，分别计算这两个同步测试音频序列特征值的相关性值L0、L1和L2；

最后找出具体的延时值D值；

所述两路音频的周期比对包括以下步骤：

2.根据权利要求1所述的实时音频比对方法，其特征在于，所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤：

3.根据权利要求2所述的实时音频比对方法，其特征在于，所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤：

4.根据权利要求3所述的实时音频比对方法，其特征在于，所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤：

假设两路音频信号的延时值为D2＝D0+S秒，以D2为延时对齐两列音频序列，然后从对齐后的两个音频序列的同一时间点处开始向后各取长度为M的音频采样序列，分别计算这两路同步测试音频序列的MEL倒谱特征值，得到两个同步测试音频序列的特征值序列；根据两个同步测试音频序列的特征值序列，计算这两个序列计算相关性值L2。

5.根据权利要求4所述的实时音频比对方法，其特征在于，根据所述相关性值判断下一步搜索方向，具体包括以下步骤：