CN104505101B - 一种实时音频比对方法 - Google Patents
一种实时音频比对方法 Download PDFInfo
- Publication number
- CN104505101B CN104505101B CN201410814218.0A CN201410814218A CN104505101B CN 104505101 B CN104505101 B CN 104505101B CN 201410814218 A CN201410814218 A CN 201410814218A CN 104505101 B CN104505101 B CN 104505101B
- Authority
- CN
- China
- Prior art keywords
- audio
- way
- synchronism detection
- sequence
- tonic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明的实时音频比对方法,用于判断两路信号是否为同样的内容:两路音频信号的初始同步和两路音频的周期比对;对两路音频信号分别读取N秒钟的音频,采样得到两组待同步的音频采样序列;通过移动延时值,将两路音频采样序列对齐,本次移动延时值是为粗同步;然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,得到两个同步测试音频序列的特征值序列,延时值分别为D0、D1和D2;分别计算这两个同步测试音频序列特征值的相关性值L0、L1和L2;定期的对两路音频进行音频信号采样,计算两列采样音频序列的MEL倒谱特征值并相关性;如果相关性仍然大于门限A,说明这段时间内两路音频还是保持内容一致的。
Description
技术领域
本发明涉及一种判断两路实时音频信号的内容是否相同的比对方法。
背景技术
两路实时音频信号一般是经过不同的传输通道传入的,因为信道传输的延时,会造成两路信号在到达时间上的不同步。因此对这两路实时音频要做的第一件事情是进行同步计算,找出两路信号的延时大小。同步的结果会极大影响后续比对的准确度。
所以在实时音频的比对中,同步算法是最关键的模块。
现有技术中,判断两路音频信号是否同步,具有多种方法:
1)有辅助信息的同步,例如“音频水印”技术,是在原始音频中插入一些额外的辅助信息,依靠这些辅助信息进行同步。这些特定的信息耳朵听不到,但是设备可以检测出来,用这些信息辅助进行同步。但这种方法一定程度上会降低声音的质量,另外前端需要安装特殊设备,提高了成本。
2)无辅助信息的同步,可以再细分为
a.时间域上的同步计算:根据音频信号的时间特性的相关性来计算延时。可以使用的时间特性包括时域的信号包络,或者是音频能量的变化趋势等。这类算法的优点是计算量小,因为不需要变换到频域。缺点是很容易受到噪声、信道衰减的影响,准确率低,难以收敛。
b.变换域上的同步计算:把音频信号变换到频域(或其他变换域),根据频域特征值的相关性来计算延时。这类算法的优点是准确性较高。由于利用了频域的特性,符合人耳辩声的原理,受噪声和衰减的影响小。缺点是涉及到时频变换,计算量大。
因此,现有的各种技术都存在缺陷,有待于进一步改进和发展。
发明内容
本发明的目的是提供一种计算量小,精度高的两路实时音频信号的对比方法。
为了实现上述目的,本发明采用如下技术方案:
一种实时音频比对方法,用于对两路实时的音频信号进行比较分析,判断两路信号是否为同样的内容,具体包括:
两路音频信号的初始同步和两路音频的周期比对;
所述两路音频信号的初始同步,包括以下步骤:
对第一路音频信号和第二路音频信号,分别读取N秒钟的音频,对两段音频进行采样得到两组待同步的音频采样序列;首先假设两路音频信号的延时值D为D0,D0=0,进入第一级同步,也就是粗同步的过程;
通过假设的延时值D0,移动两路音频采样序列,使其在时间上对齐;然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;
对假定的延时值D0,减去和加上一个搜索步长S以后,分别得到两个新的假定延时值D1和D2。在延时值分别为D0、D1和D2时,分别计算这两个同步测试音频序列特征值的相关性值L0、L1和L2;
根据所述相关性值,判断下一步搜索方向继续搜索,一直搜索到确定了最终的取值区间范围;
在这个区间内,缩小每一次搜索的步长S,也就是进入第二次同步即细同步,细同步的搜索步长小于粗同步;
最后找出具体的满足条件(相关性大于门限A)的延时值D值;
所述两路音频的周期比对包括以下步骤:
定期地对两路音频进行音频信号采样,计算两列采样音频序列的MEL倒谱特征值,然后比较它们的相关性;如果相关性仍然大于门限A,说明这段时间内两路音频还是保持内容一致的。
所述的实时音频比对方法,其中,所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤:
以D0为假设延时,对齐所述两路音频采样序列,然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;计算这两个特征值序列的相关性值L0。
所述的实时音频比对方法,其中,所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤:
假设两路音频信号的延时值为D1=D0–S秒,以D1为延时对齐两列音频序列,然后从对齐后的两路音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;对这两个MEL倒谱特征值序列计算相关性得到相关性值L1。
所述的实时音频比对方法,其中,所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤:
假设两路音频信号的延时值为D2=D0+S秒,以D2为延时对齐两列音频序列,然后从对齐后的两个音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列。计算这两个序列计算相关性值L2。
所述的实时音频比对方法,其中,根据所述相关性值判断下一步搜索方向,具体包括以下步骤:
当出现L1<L0且L2<L0的情况,实际的延时值D一定就在D1~D2之间,表示第一级同步完成,将进入第二级同步;
当出现L2>L0>L1时,可判断D>D2,这时候应当继续向右侧搜索,取D0=D2,重复第一级同步的步骤;
当出现L2<L0<L1时,可判断D<D1,这时候应当继续向左侧搜索,取D0=D1,重复第一级同步的步骤。
本发明提供的实时音频对比方法,使用了频域的特征值(MEL倒谱)来进行比对。而普通的利用MEL倒谱比对的算法,在提高了精度的同时,计算量也增大了,相应的对硬件平台的要求也提高了。如果要降低硬件的成本,就必须有效的降低同步算法的计算量。本发明使用的“双向搜索”方法,可以只对少数假设点进行计算,就快速的判断出实际延时值所在的方向,进而定位取值区间。然后利用“两级同步”的方法,在找到的区间内缩小步长再次进行快速搜索,直到找到真实的延时值。整个方法避免了一个一个采样点去计算和比较,极大的节省了计算资源。
附图说明
图1为本发明实时音频比对方法的流程示意图;
图2为本发明延时值D落在了(D1,D2)区间内时,延时值同相关性的曲线图;
图3为本发明延时值D大于D2时,延时值同相关性的曲线图;
图4为本发明延时值D小于D1时,延时值同相关性的曲线图。
具体实施方式
下面对本发明做进一步详细说明。
本发明的实时音频比对方法,可以对两路实时的音频信号进行比较分析,判断两路信号是否为同样的内容,包括初始同步和周期性比对两个步骤。
第一个步骤,两路音频的初始同步。
本发明的初始同步算法采用“频域特征值求相关性”、“双向搜索”、“两级同步”的独创性方法,算法的流程,如图1所示,包括以下步骤:
步骤101、对第一路音频信号和第二路音频信号,分别读取N秒钟的音频,对两段音频进行采样,得到两组待同步的音频采样序列。首先假设两路音频信号的延时值D为D0,(D0=0)。开始进入第一级同步,也就是粗同步,搜索步长为S。
步骤102,在假设延时值的基础上,移动两路音频采样序列,使其在时间上对齐。然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列,计算这两个同步测试音频序列特征值的相关性值L0;
再假设两路音频信号的延时值为D0–S秒(D1=D0-S)。以D1为延时对齐两列音频序列。然后从对齐后的两路音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;对这两个MEL倒谱特征值序列计算相关性得到相关性值L1;
假设两路音频信号的延时值为D0+S秒(D2=D0+S)。以D2为延时对齐两列音频序列。然后从对齐后的两个音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列。计算这两个序列之间的相关性值L2;
步骤103,根据所述相关值,判断下一步搜索方向。
在步骤102中,本发明等距离的假设了三个可能的延时值D1D0和D2,并在这三个假设下计算了两个序列对应的相关性大小L1L0和L2,相关性大小L1L0和L2存在下面几种情况:
(1)实际的延时值D落在了(D1,D2)区间内,如图2所示,
假设这两个音频序列的内容是完全相同的,只是存在一个延时D秒。那么两路同步测试音频序列的MEL倒谱特征值的相关性(纵坐标)与计算相关性的时候所假设的延时大小(横坐标)之间的关系如图2中的曲线。假设的延时值越接近实际的延时D,相关性就越大,反之越小。
利用这种特点,本发明可以判断,当出现L1<L0且L2<L0的情况,那么实际的延时值D一定就在D1~D2之间某个地方。出现这种情况,表示第一级同步(粗同步)完成,将进入步骤104进行第二级同步(细同步)。
(2)实际的延时值D要大于D2,如图3所示,
当出现L2>L0>L1时,可判断D>D2。这时候应当继续向右侧搜索,取D0=D2,重复步骤102。
(3)实际的延时值D要小于D1,如图4所示,
当出现L2<L0<L1时,可判断D<D1。这时候应当继续向左侧搜索,取D0=D1,重复步骤102。
步骤104,通过前面的搜索,已经找到了延时值D所在的目标区间。为了找出具体的延时值D值,缩小每一次搜索的步长S,然后以目标区间的中间点开始进行第二级同步(细同步)搜索。搜索的判断方式与步骤103里的第一级同步搜索(粗同步)相同。当最终找到一个点Dx,对应的相关性值Lx大于某一个设定的门限A时,可以认为Dx就是真实的延时值。并且同时可以判定这两个序列是完全相同的。
如果搜索完了整个N秒的采样序列,都没有找到有符合要求的延时值,那么可以认为两组音频的内容不同(或者实际延时超出了最大可处理的延时范围)。
第二个步骤,两路音频信号的周期比对。
在完成了同步以后,至少可以说明同步时所用的两段音频采样序列内容相同。但是本发明的目标是对两路音频不间断的进行实时的比较,因此同步之后,还需要定期的对两路音频进行音频信号采样,计算两列采样音频序列的MEL倒谱特征值,然后比较他们的相关性。如果相关性仍然大于门限A,说明这段时间内两路音频还是保持内容一致的。如果相关性低于门限值A,有两种可能性:一是同步丢失了。因为传输信道存在延时抖动,两路音频之间的延时值并不是固定的,而是在不断变化中。另一种可能性就是两路音频现在的内容不一样了(比如某一路被插播了非法内容)。
不论是上述哪种原因造成的相关性过低,都需要重新进行同步计算。如果同步计算后能重新得到满足条件的延时值,说明音频是相同的,只是延时值发生了变化,不需要对外告警;否则,说明音频内容不同了,需要设备向外发出相应的告警信息。
本发明采用MEL倒谱序列作为音频的特征值,通过特征值的相关性判断两列音频是否内容相同。MEL倒谱序列是模拟了人耳的听觉特点之后,对声音的频谱所做的分段特征提取。这种特征值对于语音、音乐都有很好的代表性,即使在声音经过了压缩处理或者是传输信道较恶劣的情况下,都可以保证比对结果的准确性。
本发明的主要创新点在于,采用了一种独创的“频域特征值求相关性”、“双向搜索”和“两级同步”的算法来实现快速的同步。
由于本发明使用了频域的特征值(MEL倒谱)来进行比对,在提高了精度的同时,计算量也增大了。如果要降低硬件的成本,就必须有效的降低同步算法的计算量。本发明使用的“双向搜索”方法,可以只对少数假设点进行计算,就快速的判断出实际延时值所在的方向,进而定位取值区间。然后利用“两级同步”的方法,在找到的区间内缩小步长再次进行快速搜索,直到找到真实的延时值。整个方法避免了一个一个采样点去计算和比较,极大的节省了计算资源。实际使用效果良好,可以在一些嵌入式的硬件平台上实现完整的两路实时音频比对。
以上内容是对本发明的优选的实施例的说明,可以帮助本领域技术人员更充分地理解本发明的技术方案。但是,这些实施例仅仅是举例说明,不能认定本发明的具体实施方式仅限于这些实施例的说明。
Claims (5)
1.一种实时音频比对方法,用于对两路实时的音频信号进行比较分析,判断两路信号是否为同样的内容,具体包括:
两路音频信号的初始同步和两路音频的周期比对;
所述两路音频信号的初始同步,包括以下步骤:
对第一路音频信号和第二路音频信号,分别读取N秒钟的音频,对两段音频进行采样得到两组待同步的音频采样序列;首先假设两路音频信号的延时值D为D0,D0=0,进入第一级同步,也就是粗同步的过程;
基于假设的延时值D0,移动两路音频采样序列,使其在时间上对齐;然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;
对假定的延时值D0,减去和加上一个搜索步长S以后,分别得到两个新的假定延时值D1和D2;
在延时值分别为D0、D1和D2时,分别计算这两个同步测试音频序列特征值的相关性值L0、L1和L2;
根据所述相关性值,判断下一步搜索方向继续搜索,一直搜索到确定了最终的取值区间范围;
在这个区间内,缩小每一次搜索的步长S,也就是进入第二次同步即细同步,细同步的搜索步长小于粗同步;
最后找出具体的延时值D值;
所述两路音频的周期比对包括以下步骤:
定期地对两路音频进行音频信号采样,计算两列采样音频序列的MEL倒谱特征值,然后比较它们的相关性;如果相关性仍然大于门限A,说明这段时间内两路音频还是保持内容一致的。
2.根据权利要求1所述的实时音频比对方法,其特征在于,所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤:
以D0为假设延时,对齐所述两路音频采样序列,然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;计算这两个特征值序列的相关性值L0。
3.根据权利要求2所述的实时音频比对方法,其特征在于,所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤:
假设两路音频信号的延时值为D1=D0–S秒,以D1为延时对齐两列音频序列,然后从对齐后的两路音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;对这两个MEL倒谱特征值序列计算相关性得到相关性值L1。
4.根据权利要求3所述的实时音频比对方法,其特征在于,所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤:
假设两路音频信号的延时值为D2=D0+S秒,以D2为延时对齐两列音频序列,然后从对齐后的两个音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;根据两个同步测试音频序列的特征值序列,计算这两个序列计算相关性值L2。
5.根据权利要求4所述的实时音频比对方法,其特征在于,根据所述相关性值判断下一步搜索方向,具体包括以下步骤:
当出现L1<L0且L2<L0的情况,实际的延时值D一定就在D1~D2之间,表示第一级同步完成,将进入第二级同步;
当出现L2>L0>L1时,可判断D>D2,这时候应当继续向右侧搜索,取D0=D2,重复第一级同步的步骤;
当出现L2<L0<L1时,可判断D<D1,这时候应当继续向左侧搜索,取D0=D1,重复第一级同步的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410814218.0A CN104505101B (zh) | 2014-12-24 | 2014-12-24 | 一种实时音频比对方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410814218.0A CN104505101B (zh) | 2014-12-24 | 2014-12-24 | 一种实时音频比对方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104505101A CN104505101A (zh) | 2015-04-08 |
CN104505101B true CN104505101B (zh) | 2017-11-03 |
Family
ID=52946842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410814218.0A Active CN104505101B (zh) | 2014-12-24 | 2014-12-24 | 一种实时音频比对方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104505101B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105244040B (zh) * | 2015-07-20 | 2018-12-11 | 杭州联汇数字科技有限公司 | 一种音频信号一致性对比方法 |
CN106534887B (zh) * | 2016-10-27 | 2019-07-12 | 工业和信息化部电信研究院 | 一种随机时间序列比较方法和装置 |
CN107481738B (zh) * | 2017-06-27 | 2021-06-08 | 中央电视台 | 实时音频比对方法及装置 |
EP3438978B1 (en) * | 2017-08-02 | 2023-12-27 | Rohde & Schwarz GmbH & Co. KG | Signal assessment system and signal assessment method |
CN110310661B (zh) * | 2019-07-03 | 2021-06-11 | 云南康木信科技有限责任公司 | 一种两路实时广播音频延时和相似度的计算方法 |
CN110365555B (zh) * | 2019-08-08 | 2021-12-10 | 广州虎牙科技有限公司 | 音频延时测试方法、装置、电子设备及可读存储介质 |
CN110534121B (zh) * | 2019-08-21 | 2021-09-03 | 中国传媒大学 | 一种基于频域特征的音频内容一致性的监测方法及系统 |
CN112259124B (zh) * | 2020-10-21 | 2021-06-15 | 交互未来(北京)科技有限公司 | 基于音频频域特征的对话过程捂嘴手势识别方法 |
CN114495984B (zh) * | 2022-04-01 | 2022-06-28 | 北京澜灵科技有限责任公司 | 一种实时音频流的比对方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1924850A (zh) * | 2005-08-31 | 2007-03-07 | 中国科学院自动化研究所 | 音频快速搜索方法 |
CN101086743A (zh) * | 2007-07-24 | 2007-12-12 | 北京中星微电子有限公司 | 模糊数据搜索方法和装置 |
CN101158967A (zh) * | 2007-11-16 | 2008-04-09 | 北京交通大学 | 一种基于分层匹配的快速音频广告识别方法 |
CN103870466A (zh) * | 2012-12-10 | 2014-06-18 | 哈尔滨网腾科技开发有限公司 | 一种音频样例的自动提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150310008A1 (en) * | 2012-11-30 | 2015-10-29 | Thomason Licensing | Clustering and synchronizing multimedia contents |
-
2014
- 2014-12-24 CN CN201410814218.0A patent/CN104505101B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1924850A (zh) * | 2005-08-31 | 2007-03-07 | 中国科学院自动化研究所 | 音频快速搜索方法 |
CN101086743A (zh) * | 2007-07-24 | 2007-12-12 | 北京中星微电子有限公司 | 模糊数据搜索方法和装置 |
CN101158967A (zh) * | 2007-11-16 | 2008-04-09 | 北京交通大学 | 一种基于分层匹配的快速音频广告识别方法 |
CN103870466A (zh) * | 2012-12-10 | 2014-06-18 | 哈尔滨网腾科技开发有限公司 | 一种音频样例的自动提取方法 |
Non-Patent Citations (1)
Title |
---|
基于倒谱分析和距离测度的音频检索方法;王炜等;《微计算机应用》;20060930;第27卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104505101A (zh) | 2015-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104505101B (zh) | 一种实时音频比对方法 | |
US11042616B2 (en) | Detection of replay attack | |
CN105472191B (zh) | 一种跟踪回声时延的方法和装置 | |
US9947338B1 (en) | Echo latency estimation | |
KR20120072145A (ko) | 음성 인식 방법 및 장치 | |
CN106067989B (zh) | 一种人像语音视频同步校准装置及方法 | |
US8489404B2 (en) | Method for detecting audio signal transient and time-scale modification based on same | |
CN106878205B (zh) | 一种定时偏差估计方法及装置 | |
CN102655002B (zh) | 音频处理方法和音频处理设备 | |
CN111640411B (zh) | 音频合成方法、装置及计算机可读存储介质 | |
CN108877809A (zh) | 一种说话人语音识别方法及装置 | |
CN104978966B (zh) | 音频流中的丢帧补偿实现方法和装置 | |
JP2002518881A (ja) | 試験信号から同期パターンを選択する方法 | |
US10522160B2 (en) | Methods and apparatus to identify a source of speech captured at a wearable electronic device | |
CN110930978A (zh) | 一种语种识别方法、装置和用于语种识别的装置 | |
CN103050116A (zh) | 语音命令识别方法及系统 | |
CN103474074A (zh) | 语音基音周期估计方法和装置 | |
CN104078051A (zh) | 一种人声提取方法、系统以及人声音频播放方法及装置 | |
CN104599677A (zh) | 基于语音重建的瞬态噪声抑制方法 | |
CN105609114B (zh) | 一种发音检测方法及装置 | |
CN109997186B (zh) | 一种用于分类声环境的设备和方法 | |
CN105721090B (zh) | 一种非法调频广播电台的检测和识别方法 | |
CN107202559A (zh) | 基于室内声学信道扰动分析的物体识别方法 | |
DK2064898T3 (da) | Apparat til bestemmelse af informationer til tidsmæssig orientering af to informationssignaler | |
US20230074279A1 (en) | Methods, non-transitory computer readable media, and systems of transcription using multiple recording devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200514 Address after: No. 238, 2f, complex building a 1, Yongtai garden, Qinghe, Haidian District, Beijing 100089 Patentee after: GROWTH ENGINE (BEIJING) INFORMATION TECHNOLOGY Co.,Ltd. Address before: 100033, Haidian District, Beijing, West House No. 3, 23, 1, room 1204 Patentee before: BEIJING REDROCKS Inc. |