CN104505101B - 一种实时音频比对方法 - Google Patents

一种实时音频比对方法 Download PDF

Info

Publication number
CN104505101B
CN104505101B CN201410814218.0A CN201410814218A CN104505101B CN 104505101 B CN104505101 B CN 104505101B CN 201410814218 A CN201410814218 A CN 201410814218A CN 104505101 B CN104505101 B CN 104505101B
Authority
CN
China
Prior art keywords
audio
way
synchronism detection
sequence
tonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410814218.0A
Other languages
English (en)
Other versions
CN104505101A (zh
Inventor
张丹
胡志琳
李佳骅
石建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GROWTH ENGINE (BEIJING) INFORMATION TECHNOLOGY Co.,Ltd.
Original Assignee
BEIJING REDROCKS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING REDROCKS Inc filed Critical BEIJING REDROCKS Inc
Priority to CN201410814218.0A priority Critical patent/CN104505101B/zh
Publication of CN104505101A publication Critical patent/CN104505101A/zh
Application granted granted Critical
Publication of CN104505101B publication Critical patent/CN104505101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明的实时音频比对方法,用于判断两路信号是否为同样的内容:两路音频信号的初始同步和两路音频的周期比对;对两路音频信号分别读取N秒钟的音频,采样得到两组待同步的音频采样序列;通过移动延时值,将两路音频采样序列对齐,本次移动延时值是为粗同步;然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,得到两个同步测试音频序列的特征值序列,延时值分别为D0、D1和D2;分别计算这两个同步测试音频序列特征值的相关性值L0、L1和L2;定期的对两路音频进行音频信号采样,计算两列采样音频序列的MEL倒谱特征值并相关性;如果相关性仍然大于门限A,说明这段时间内两路音频还是保持内容一致的。

Description

一种实时音频比对方法
技术领域
本发明涉及一种判断两路实时音频信号的内容是否相同的比对方法。
背景技术
两路实时音频信号一般是经过不同的传输通道传入的,因为信道传输的延时,会造成两路信号在到达时间上的不同步。因此对这两路实时音频要做的第一件事情是进行同步计算,找出两路信号的延时大小。同步的结果会极大影响后续比对的准确度。
所以在实时音频的比对中,同步算法是最关键的模块。
现有技术中,判断两路音频信号是否同步,具有多种方法:
1)有辅助信息的同步,例如“音频水印”技术,是在原始音频中插入一些额外的辅助信息,依靠这些辅助信息进行同步。这些特定的信息耳朵听不到,但是设备可以检测出来,用这些信息辅助进行同步。但这种方法一定程度上会降低声音的质量,另外前端需要安装特殊设备,提高了成本。
2)无辅助信息的同步,可以再细分为
a.时间域上的同步计算:根据音频信号的时间特性的相关性来计算延时。可以使用的时间特性包括时域的信号包络,或者是音频能量的变化趋势等。这类算法的优点是计算量小,因为不需要变换到频域。缺点是很容易受到噪声、信道衰减的影响,准确率低,难以收敛。
b.变换域上的同步计算:把音频信号变换到频域(或其他变换域),根据频域特征值的相关性来计算延时。这类算法的优点是准确性较高。由于利用了频域的特性,符合人耳辩声的原理,受噪声和衰减的影响小。缺点是涉及到时频变换,计算量大。
因此,现有的各种技术都存在缺陷,有待于进一步改进和发展。
发明内容
本发明的目的是提供一种计算量小,精度高的两路实时音频信号的对比方法。
为了实现上述目的,本发明采用如下技术方案:
一种实时音频比对方法,用于对两路实时的音频信号进行比较分析,判断两路信号是否为同样的内容,具体包括:
两路音频信号的初始同步和两路音频的周期比对;
所述两路音频信号的初始同步,包括以下步骤:
对第一路音频信号和第二路音频信号,分别读取N秒钟的音频,对两段音频进行采样得到两组待同步的音频采样序列;首先假设两路音频信号的延时值D为D0,D0=0,进入第一级同步,也就是粗同步的过程;
通过假设的延时值D0,移动两路音频采样序列,使其在时间上对齐;然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;
对假定的延时值D0,减去和加上一个搜索步长S以后,分别得到两个新的假定延时值D1和D2。在延时值分别为D0、D1和D2时,分别计算这两个同步测试音频序列特征值的相关性值L0、L1和L2;
根据所述相关性值,判断下一步搜索方向继续搜索,一直搜索到确定了最终的取值区间范围;
在这个区间内,缩小每一次搜索的步长S,也就是进入第二次同步即细同步,细同步的搜索步长小于粗同步;
最后找出具体的满足条件(相关性大于门限A)的延时值D值;
所述两路音频的周期比对包括以下步骤:
定期地对两路音频进行音频信号采样,计算两列采样音频序列的MEL倒谱特征值,然后比较它们的相关性;如果相关性仍然大于门限A,说明这段时间内两路音频还是保持内容一致的。
所述的实时音频比对方法,其中,所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤:
以D0为假设延时,对齐所述两路音频采样序列,然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;计算这两个特征值序列的相关性值L0。
所述的实时音频比对方法,其中,所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤:
假设两路音频信号的延时值为D1=D0–S秒,以D1为延时对齐两列音频序列,然后从对齐后的两路音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;对这两个MEL倒谱特征值序列计算相关性得到相关性值L1。
所述的实时音频比对方法,其中,所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤:
假设两路音频信号的延时值为D2=D0+S秒,以D2为延时对齐两列音频序列,然后从对齐后的两个音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列。计算这两个序列计算相关性值L2。
所述的实时音频比对方法,其中,根据所述相关性值判断下一步搜索方向,具体包括以下步骤:
当出现L1<L0且L2<L0的情况,实际的延时值D一定就在D1~D2之间,表示第一级同步完成,将进入第二级同步;
当出现L2>L0>L1时,可判断D>D2,这时候应当继续向右侧搜索,取D0=D2,重复第一级同步的步骤;
当出现L2<L0<L1时,可判断D<D1,这时候应当继续向左侧搜索,取D0=D1,重复第一级同步的步骤。
本发明提供的实时音频对比方法,使用了频域的特征值(MEL倒谱)来进行比对。而普通的利用MEL倒谱比对的算法,在提高了精度的同时,计算量也增大了,相应的对硬件平台的要求也提高了。如果要降低硬件的成本,就必须有效的降低同步算法的计算量。本发明使用的“双向搜索”方法,可以只对少数假设点进行计算,就快速的判断出实际延时值所在的方向,进而定位取值区间。然后利用“两级同步”的方法,在找到的区间内缩小步长再次进行快速搜索,直到找到真实的延时值。整个方法避免了一个一个采样点去计算和比较,极大的节省了计算资源。
附图说明
图1为本发明实时音频比对方法的流程示意图;
图2为本发明延时值D落在了(D1,D2)区间内时,延时值同相关性的曲线图;
图3为本发明延时值D大于D2时,延时值同相关性的曲线图;
图4为本发明延时值D小于D1时,延时值同相关性的曲线图。
具体实施方式
下面对本发明做进一步详细说明。
本发明的实时音频比对方法,可以对两路实时的音频信号进行比较分析,判断两路信号是否为同样的内容,包括初始同步和周期性比对两个步骤。
第一个步骤,两路音频的初始同步。
本发明的初始同步算法采用“频域特征值求相关性”、“双向搜索”、“两级同步”的独创性方法,算法的流程,如图1所示,包括以下步骤:
步骤101、对第一路音频信号和第二路音频信号,分别读取N秒钟的音频,对两段音频进行采样,得到两组待同步的音频采样序列。首先假设两路音频信号的延时值D为D0,(D0=0)。开始进入第一级同步,也就是粗同步,搜索步长为S。
步骤102,在假设延时值的基础上,移动两路音频采样序列,使其在时间上对齐。然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列,计算这两个同步测试音频序列特征值的相关性值L0;
再假设两路音频信号的延时值为D0–S秒(D1=D0-S)。以D1为延时对齐两列音频序列。然后从对齐后的两路音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;对这两个MEL倒谱特征值序列计算相关性得到相关性值L1;
假设两路音频信号的延时值为D0+S秒(D2=D0+S)。以D2为延时对齐两列音频序列。然后从对齐后的两个音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列。计算这两个序列之间的相关性值L2;
步骤103,根据所述相关值,判断下一步搜索方向。
在步骤102中,本发明等距离的假设了三个可能的延时值D1D0和D2,并在这三个假设下计算了两个序列对应的相关性大小L1L0和L2,相关性大小L1L0和L2存在下面几种情况:
(1)实际的延时值D落在了(D1,D2)区间内,如图2所示,
假设这两个音频序列的内容是完全相同的,只是存在一个延时D秒。那么两路同步测试音频序列的MEL倒谱特征值的相关性(纵坐标)与计算相关性的时候所假设的延时大小(横坐标)之间的关系如图2中的曲线。假设的延时值越接近实际的延时D,相关性就越大,反之越小。
利用这种特点,本发明可以判断,当出现L1<L0且L2<L0的情况,那么实际的延时值D一定就在D1~D2之间某个地方。出现这种情况,表示第一级同步(粗同步)完成,将进入步骤104进行第二级同步(细同步)。
(2)实际的延时值D要大于D2,如图3所示,
当出现L2>L0>L1时,可判断D>D2。这时候应当继续向右侧搜索,取D0=D2,重复步骤102。
(3)实际的延时值D要小于D1,如图4所示,
当出现L2<L0<L1时,可判断D<D1。这时候应当继续向左侧搜索,取D0=D1,重复步骤102。
步骤104,通过前面的搜索,已经找到了延时值D所在的目标区间。为了找出具体的延时值D值,缩小每一次搜索的步长S,然后以目标区间的中间点开始进行第二级同步(细同步)搜索。搜索的判断方式与步骤103里的第一级同步搜索(粗同步)相同。当最终找到一个点Dx,对应的相关性值Lx大于某一个设定的门限A时,可以认为Dx就是真实的延时值。并且同时可以判定这两个序列是完全相同的。
如果搜索完了整个N秒的采样序列,都没有找到有符合要求的延时值,那么可以认为两组音频的内容不同(或者实际延时超出了最大可处理的延时范围)。
第二个步骤,两路音频信号的周期比对。
在完成了同步以后,至少可以说明同步时所用的两段音频采样序列内容相同。但是本发明的目标是对两路音频不间断的进行实时的比较,因此同步之后,还需要定期的对两路音频进行音频信号采样,计算两列采样音频序列的MEL倒谱特征值,然后比较他们的相关性。如果相关性仍然大于门限A,说明这段时间内两路音频还是保持内容一致的。如果相关性低于门限值A,有两种可能性:一是同步丢失了。因为传输信道存在延时抖动,两路音频之间的延时值并不是固定的,而是在不断变化中。另一种可能性就是两路音频现在的内容不一样了(比如某一路被插播了非法内容)。
不论是上述哪种原因造成的相关性过低,都需要重新进行同步计算。如果同步计算后能重新得到满足条件的延时值,说明音频是相同的,只是延时值发生了变化,不需要对外告警;否则,说明音频内容不同了,需要设备向外发出相应的告警信息。
本发明采用MEL倒谱序列作为音频的特征值,通过特征值的相关性判断两列音频是否内容相同。MEL倒谱序列是模拟了人耳的听觉特点之后,对声音的频谱所做的分段特征提取。这种特征值对于语音、音乐都有很好的代表性,即使在声音经过了压缩处理或者是传输信道较恶劣的情况下,都可以保证比对结果的准确性。
本发明的主要创新点在于,采用了一种独创的“频域特征值求相关性”、“双向搜索”和“两级同步”的算法来实现快速的同步。
由于本发明使用了频域的特征值(MEL倒谱)来进行比对,在提高了精度的同时,计算量也增大了。如果要降低硬件的成本,就必须有效的降低同步算法的计算量。本发明使用的“双向搜索”方法,可以只对少数假设点进行计算,就快速的判断出实际延时值所在的方向,进而定位取值区间。然后利用“两级同步”的方法,在找到的区间内缩小步长再次进行快速搜索,直到找到真实的延时值。整个方法避免了一个一个采样点去计算和比较,极大的节省了计算资源。实际使用效果良好,可以在一些嵌入式的硬件平台上实现完整的两路实时音频比对。
以上内容是对本发明的优选的实施例的说明,可以帮助本领域技术人员更充分地理解本发明的技术方案。但是,这些实施例仅仅是举例说明,不能认定本发明的具体实施方式仅限于这些实施例的说明。

Claims (5)

1.一种实时音频比对方法,用于对两路实时的音频信号进行比较分析,判断两路信号是否为同样的内容,具体包括:
两路音频信号的初始同步和两路音频的周期比对;
所述两路音频信号的初始同步,包括以下步骤:
对第一路音频信号和第二路音频信号,分别读取N秒钟的音频,对两段音频进行采样得到两组待同步的音频采样序列;首先假设两路音频信号的延时值D为D0,D0=0,进入第一级同步,也就是粗同步的过程;
基于假设的延时值D0,移动两路音频采样序列,使其在时间上对齐;然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;
对假定的延时值D0,减去和加上一个搜索步长S以后,分别得到两个新的假定延时值D1和D2;
在延时值分别为D0、D1和D2时,分别计算这两个同步测试音频序列特征值的相关性值L0、L1和L2;
根据所述相关性值,判断下一步搜索方向继续搜索,一直搜索到确定了最终的取值区间范围;
在这个区间内,缩小每一次搜索的步长S,也就是进入第二次同步即细同步,细同步的搜索步长小于粗同步;
最后找出具体的延时值D值;
所述两路音频的周期比对包括以下步骤:
定期地对两路音频进行音频信号采样,计算两列采样音频序列的MEL倒谱特征值,然后比较它们的相关性;如果相关性仍然大于门限A,说明这段时间内两路音频还是保持内容一致的。
2.根据权利要求1所述的实时音频比对方法,其特征在于,所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤:
以D0为假设延时,对齐所述两路音频采样序列,然后从两路音频采样序列的同一时间点开始向后各取长度为M的同步测试音频序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;计算这两个特征值序列的相关性值L0。
3.根据权利要求2所述的实时音频比对方法,其特征在于,所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤:
假设两路音频信号的延时值为D1=D0–S秒,以D1为延时对齐两列音频序列,然后从对齐后的两路音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;对这两个MEL倒谱特征值序列计算相关性得到相关性值L1。
4.根据权利要求3所述的实时音频比对方法,其特征在于,所述计算这两个同步测试音频序列特征值的相关性值L0、L1和L2包括以下步骤:
假设两路音频信号的延时值为D2=D0+S秒,以D2为延时对齐两列音频序列,然后从对齐后的两个音频序列的同一时间点处开始向后各取长度为M的音频采样序列,分别计算这两路同步测试音频序列的MEL倒谱特征值,得到两个同步测试音频序列的特征值序列;根据两个同步测试音频序列的特征值序列,计算这两个序列计算相关性值L2。
5.根据权利要求4所述的实时音频比对方法,其特征在于,根据所述相关性值判断下一步搜索方向,具体包括以下步骤:
当出现L1<L0且L2<L0的情况,实际的延时值D一定就在D1~D2之间,表示第一级同步完成,将进入第二级同步;
当出现L2>L0>L1时,可判断D>D2,这时候应当继续向右侧搜索,取D0=D2,重复第一级同步的步骤;
当出现L2<L0<L1时,可判断D<D1,这时候应当继续向左侧搜索,取D0=D1,重复第一级同步的步骤。
CN201410814218.0A 2014-12-24 2014-12-24 一种实时音频比对方法 Active CN104505101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410814218.0A CN104505101B (zh) 2014-12-24 2014-12-24 一种实时音频比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410814218.0A CN104505101B (zh) 2014-12-24 2014-12-24 一种实时音频比对方法

Publications (2)

Publication Number Publication Date
CN104505101A CN104505101A (zh) 2015-04-08
CN104505101B true CN104505101B (zh) 2017-11-03

Family

ID=52946842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410814218.0A Active CN104505101B (zh) 2014-12-24 2014-12-24 一种实时音频比对方法

Country Status (1)

Country Link
CN (1) CN104505101B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105244040B (zh) * 2015-07-20 2018-12-11 杭州联汇数字科技有限公司 一种音频信号一致性对比方法
CN106534887B (zh) * 2016-10-27 2019-07-12 工业和信息化部电信研究院 一种随机时间序列比较方法和装置
CN107481738B (zh) * 2017-06-27 2021-06-08 中央电视台 实时音频比对方法及装置
EP3438978B1 (en) * 2017-08-02 2023-12-27 Rohde & Schwarz GmbH & Co. KG Signal assessment system and signal assessment method
CN110310661B (zh) * 2019-07-03 2021-06-11 云南康木信科技有限责任公司 一种两路实时广播音频延时和相似度的计算方法
CN110365555B (zh) * 2019-08-08 2021-12-10 广州虎牙科技有限公司 音频延时测试方法、装置、电子设备及可读存储介质
CN110534121B (zh) * 2019-08-21 2021-09-03 中国传媒大学 一种基于频域特征的音频内容一致性的监测方法及系统
CN112259124B (zh) * 2020-10-21 2021-06-15 交互未来(北京)科技有限公司 基于音频频域特征的对话过程捂嘴手势识别方法
CN114495984B (zh) * 2022-04-01 2022-06-28 北京澜灵科技有限责任公司 一种实时音频流的比对方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1924850A (zh) * 2005-08-31 2007-03-07 中国科学院自动化研究所 音频快速搜索方法
CN101086743A (zh) * 2007-07-24 2007-12-12 北京中星微电子有限公司 模糊数据搜索方法和装置
CN101158967A (zh) * 2007-11-16 2008-04-09 北京交通大学 一种基于分层匹配的快速音频广告识别方法
CN103870466A (zh) * 2012-12-10 2014-06-18 哈尔滨网腾科技开发有限公司 一种音频样例的自动提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310008A1 (en) * 2012-11-30 2015-10-29 Thomason Licensing Clustering and synchronizing multimedia contents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1924850A (zh) * 2005-08-31 2007-03-07 中国科学院自动化研究所 音频快速搜索方法
CN101086743A (zh) * 2007-07-24 2007-12-12 北京中星微电子有限公司 模糊数据搜索方法和装置
CN101158967A (zh) * 2007-11-16 2008-04-09 北京交通大学 一种基于分层匹配的快速音频广告识别方法
CN103870466A (zh) * 2012-12-10 2014-06-18 哈尔滨网腾科技开发有限公司 一种音频样例的自动提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于倒谱分析和距离测度的音频检索方法;王炜等;《微计算机应用》;20060930;第27卷(第5期);全文 *

Also Published As

Publication number Publication date
CN104505101A (zh) 2015-04-08

Similar Documents

Publication Publication Date Title
CN104505101B (zh) 一种实时音频比对方法
US11042616B2 (en) Detection of replay attack
CN105472191B (zh) 一种跟踪回声时延的方法和装置
US9947338B1 (en) Echo latency estimation
KR20120072145A (ko) 음성 인식 방법 및 장치
CN106067989B (zh) 一种人像语音视频同步校准装置及方法
US8489404B2 (en) Method for detecting audio signal transient and time-scale modification based on same
CN106878205B (zh) 一种定时偏差估计方法及装置
CN102655002B (zh) 音频处理方法和音频处理设备
CN111640411B (zh) 音频合成方法、装置及计算机可读存储介质
CN108877809A (zh) 一种说话人语音识别方法及装置
CN104978966B (zh) 音频流中的丢帧补偿实现方法和装置
JP2002518881A (ja) 試験信号から同期パターンを選択する方法
US10522160B2 (en) Methods and apparatus to identify a source of speech captured at a wearable electronic device
CN110930978A (zh) 一种语种识别方法、装置和用于语种识别的装置
CN103050116A (zh) 语音命令识别方法及系统
CN103474074A (zh) 语音基音周期估计方法和装置
CN104078051A (zh) 一种人声提取方法、系统以及人声音频播放方法及装置
CN104599677A (zh) 基于语音重建的瞬态噪声抑制方法
CN105609114B (zh) 一种发音检测方法及装置
CN109997186B (zh) 一种用于分类声环境的设备和方法
CN105721090B (zh) 一种非法调频广播电台的检测和识别方法
CN107202559A (zh) 基于室内声学信道扰动分析的物体识别方法
DK2064898T3 (da) Apparat til bestemmelse af informationer til tidsmæssig orientering af to informationssignaler
US20230074279A1 (en) Methods, non-transitory computer readable media, and systems of transcription using multiple recording devices

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200514

Address after: No. 238, 2f, complex building a 1, Yongtai garden, Qinghe, Haidian District, Beijing 100089

Patentee after: GROWTH ENGINE (BEIJING) INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 100033, Haidian District, Beijing, West House No. 3, 23, 1, room 1204

Patentee before: BEIJING REDROCKS Inc.