CN114401255A

CN114401255A - 一种音频信号对齐方法、装置、会议终端及存储介质

Info

Publication number: CN114401255A
Application number: CN202210298321.9A
Authority: CN
Inventors: 李正华; 李勤
Original assignee: Guangzhou Maile Information Technology Co ltd
Current assignee: Guangzhou Maile Information Technology Co ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-04-26
Anticipated expiration: 2042-03-25
Also published as: CN114401255B

Abstract

本发明公开了一种音频信号对齐方法、装置、会议终端及存储介质。方法包括：获取远端参考信号和近端音频信号的延时值；根据延时值和设定延时值，确定当前时间戳偏移量；在目标时间戳偏移量满足偏移条件时，基于目标时间戳偏移量调整下一帧远端参考信号的时间戳；基于调整后的时间戳调整下一帧远端参考信号在远端时间戳队列中的读指针位置。利用该方法，基于包括正向延时值和负向延时值的延时值调整读指针位置实现了双向延时值的调整，基于设定延时值调整读指针位置约束了远端参考信号和近端音频信号间的延时值，实现了任意长度延时值的调整，从而实现双向灵活调整任意长度的延时值的技术效果。

Description

一种音频信号对齐方法、装置、会议终端及存储介质

技术领域

本发明实施例涉及音频技术领域，尤其涉及一种音频信号对齐方法、装置、会议终端及存储介质。

背景技术

在音视频远程会议软件系统中，往往存在远端参考信号（扬声器播放的音频信号）与近端音频信号（麦克风采集的音频信号）两种音频信号流，为了实现音视频远程会议软件系统中的回声消除，需要将上述两种音频数据流进行音频信号对齐操作。

目前现有技术在进行音频信号对齐时，采用的是正向延时调整方法，然而，在远端参考信号和近端音频信号不满足因果现象时，该正向延时调整方法将导致音频信号对齐失败，进而导致回声消除不能有效工作。

发明内容

本发明实施例提供了一种音频信号对齐方法、装置、会议终端及存储介质，实现了双向灵活调整任意长度的延时。

第一方面，本发明实施例提供了一种音频信号对齐方法，包括：

获取远端参考信号和近端音频信号的延时值，所述延时值包括正向延时值和负向延时值；

根据所述延时值和设定延时值，确定当前时间戳偏移量；

在目标时间戳偏移量满足偏移条件时，基于所述目标时间戳偏移量调整下一帧远端参考信号的时间戳，所述目标时间戳偏移量基于所述当前时间戳偏移量确定；

基于调整后的时间戳调整所述下一帧远端参考信号在远端时间戳队列中的读指针位置，以保证从远端时间戳队列中读取所述下一帧远端参考信号的时间戳早于从近端时间戳队列中读取对应近端音频信号的时间戳，且时间戳差小于或等于所述设定延时值，所述时间戳差为所读取远端参考信号与所读取近端音频信号的时间戳的差值。

第二方面，本发明实施例还提供了一种音频信号对齐装置，包括：

获取模块，用于获取远端参考信号和近端音频信号的延时值，所述延时值包括正向延时值和负向延时值；

确定模块，用于根据所述延时值和设定延时值，确定当前时间戳偏移量；

第一调整模块，用于在目标时间戳偏移量满足偏移条件时，基于所述目标时间戳偏移量调整下一帧远端参考信号的时间戳，所述目标时间戳偏移量基于所述当前时间戳偏移量确定；

第二调整模块，用于基于调整后的时间戳调整所述下一帧远端参考信号在远端时间戳队列中的读指针位置，以保证从远端时间戳队列中读取所述下一帧远端参考信号的时间戳早于从近端时间戳队列中读取对应近端音频信号的时间戳，且时间戳差小于或等于所述设定延时值，所述时间戳差为所读取远端参考信号与所读取近端音频信号的时间戳的差值。

第三方面，本发明实施例还提供了一种会议终端，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例提供的音频信号对齐方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例提供的音频信号对齐方法。

本发明实施例提供了一种音频信号对齐方法、装置、会议终端及存储介质，首先获取远端参考信号和近端音频信号的延时值；然后根据所述延时值和设定延时值，确定当前时间戳偏移量；其次在目标时间戳偏移量满足偏移条件时，基于所述目标时间戳偏移量调整下一帧远端参考信号的时间戳，所述目标时间戳偏移量基于所述当前时间戳偏移量确定；最后基于调整后的时间戳调整所述下一帧远端参考信号在远端时间戳队列中的读指针位置，以保证从远端时间戳队列中读取所述下一帧远端参考信号的时间戳早于从近端时间戳队列中读取对应近端音频信号的时间戳，且时间戳差小于或等于所述设定延时值，所述时间戳差为所读取远端参考信号与所读取近端音频信号的时间戳的差值。利用上述技术方案，基于包括正向延时值和负向延时值的延时值调整读指针位置实现了双向延时值的调整，基于设定延时值调整读指针位置约束了远端参考信号和近端音频信号间的延时值，实现了任意长度延时值的调整，从而实现双向灵活调整任意长度的延时值的技术效果。

附图说明

图1a为本发明实施例一提供的一种音频信号对齐方法的流程示意图；

图1b为本发明实施例一提供的一种音频信号对齐方法结构示意图；

图1c为本发明实施例一提供的一种正向延时示意图；

图1d为本发明实施例提供的一种负向延时示意图；

图1e为本发明实施例一提供的一种对齐后的延时示意图；

图2为本发明实施例二提供的一种音频信号对齐装置的结构示意图；

图3为本发明实施例三提供的一种会议终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作（或步骤）描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”。

需要注意，本发明中提及的“第一”、“第二”等概念仅用于对相应内容进行区分，并非用于限定顺序或者相互依存关系。

需要注意，本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

实施例一

图1a为本发明实施例一提供的一种音频信号对齐方法的流程示意图，该方法可适用于进行音频信号对齐的情况，如调整远端参考信号和近端音频信号间的延时值，以实现音频信号对齐，保证近端音频信号和远端参考信呈因果关系对齐的情况。该方法可以由音频信号对齐装置来执行，其中该装置可由软件和/或硬件实现，并一般集成在会议终端上，在本实施例中会议终端可以认为是安装有音频会议软件系统的终端设备。本发明适用于在音频会议软件系统中存在远端参考信号（扬声器播放的音频信号）与近端音频信号（麦克风采集的音频信号）两种音频信号流，并存在回声消除的会议软件系统。

音频会议软件系统，包括音视频会议软件系统。音频会议系统包括音频会议软件系统和音频会议硬件系统，音频会议软件系统可以为会议终端上集成的软件系统。音频会议硬件系统可以包括麦克风、扬声器和会议终端，麦克风和扬声器可以外置于会议终端。音频会议硬件系统也可以包括会议终端，会议终端可以集成有麦克风和扬声器。

现有音频会议系统在进行回声消除前，需要先进行音频信号对齐，而音频信号对齐的前提是音视频远程会议软件系统先能准确估计出远端参考信号与近端音频信号之间存在的延时值。比如，扬声器播放一个“测试”两个字的音频时刻为T0，麦克风采集到“测试”两个字的音频并输入到会议软件系统的时刻为T1，那么此时的延时值即为|T1-T0|。

从自然现象出发，一般远端参考信号早于近端音频信号（称为满足因果条件），所以现有的大部分技术都是正向估计出远端参考信号早于近端音频信号多少延时。

但是音视频远程会议软件系统中往往存在一些音频缓存及移位等处理模块，再加上系统多线程进行不同音频流采集及传输，因此，在进行回声消除前，信号对齐处理时，有可能存在非因果现象（远端参考信号迟于近端音频信号），从而导致正向延时调整对齐失效，回声消除不能有效工作，进而出现回声泄漏现象。

图1b为本发明实施例一提供的一种音频信号对齐方法结构示意图，参见图1b，音频会议软件系统中回采的扬声器播放的远端音频信号为参考信号ref，又称远端参考信号。麦克采集到的近端音频信号称为mic，mic包含近端人说话的语音信号、近端房间的环境噪声以及扬声器播放的回声信号echo。ref与mic自然存在一种时间先后关系，扬声器先播放，麦克风才采集到扬声器播放的回声信号。那么，称在时间上先后发生的信号排序为因果关系（即远端参考信号早于近端音频信号）。图1c为本发明实施例一提供的一种正向延时示意图，图1d为本发明实施例提供的一种负向延时示意图；图1c示出的为满足因果现象，又称因果关系的音频信号。图1d示出的为不满足因果现象的音频信号。

参见图1b，音视频远程会议软件系统的外接设备硬件存在多路单节点麦克风和扬声器，不同路麦克风可以设置在会议室不同位置处，如不同参会人员所在位置处。多通道麦克风音频与系统回采扬声器播放的一路参考信号分别都以帧（固定时长）为单位进行处理。mic音频数据流即近端音频信号经音频数据管理输出后可以直接输入至时间戳队列对齐所对应模块，还输入至延时估计所对应模块。ref音频数据流，即远端参考信号输入至音频数据管理，经处理后输入值延时调整对应的模块，以便于进行音频信号对齐。

音视频远程会议软件系统包括如下流程：从会议近端涉及到的两种音频流（麦克风采集的近端音频信号mic及系统回采扬声器播放的参考原始信号，即远端参考信号ref）的输入，经过信号延时估计模块（延时估计所对应模块）计算出延时值，基于估计出来的延时值进行近、远端信号时间戳队列对齐处理，然后进行回声消除。

本发明基于先缓存一定量的远端参考信号，只单向（通常是正方向）调整读取远端参考信号的指针位置，保证远端参考信号早于近端音频信号。从而延时调整方向会出现调整错误，导致回声消除不能有效工作，从而出现回声泄漏现象。另外，基于每次音频处理是以帧（固定时长的数据，如10ms)为单位的限制，现有的大多数调整都是以固定帧长为单位进行调整；音频会议软件系统在终端平台上，有时会存在比较大的延时（如超过300ms)，此时需要缓存的参考信号数据长度会有限制等。了解到的现有技术存在：因系统缓存区缓存、移位等操作，或者系统多线程进行不同音频流采集及传输，导致远端近端两者数据可能存在非因果现象，正向延时调整对齐失效；另外，还受固定帧长、缓存数据长度等限制等不足，导致延时不能是任意长度、双向，快速准确的灵活调整。

基于上述技术缺陷，为了实现音频信号对齐，如图1a所示，本发明实施例一提供的一种音频信号对齐方法，包括如下步骤：

S110、获取远端参考信号和近端音频信号的延时值。

在本实施例中，延时值可以为反应远端参考信号和近端音频信号间延时的数值。本实施例中延时值的正负不作限定。所述延时值包括正向延时值和负向延时值。在远端参考信号早近端音频信号时，两者的延时值可以为正向延时值。在近端音频信号早于与远端音频信号时，两者的延时值可以为负向延时值。通过图1b所述音频会议软件系统延时估计出来的延时值存在正负值，分别对应图1c和图1d描述的真实延时情况。该延时值获取后可以用于进行时间戳延时对齐。

本实施例不限定如何确定延时值，只要保证能够获取到延时值即可。本步骤可以从进行延时估计的模块中获取延时值。

S120、根据所述延时值和设定延时值，确定当前时间戳偏移量。

在本发明中设定延时值可以认为是预先设定的允许远端参考信号和近端音频信号间存在的延时值。设定延时值可以取自设定的延时值区间，延时值区间的具体数值不作限定，可以基于实际情况设定。当前时间戳偏移量可以认为是进行下一帧远端音频信号时间戳调整的偏移量，数值可正可负。下一帧远端音频信号可以认为是下一帧输入至远端时间戳队列的远端音频信号。远端时间戳队列中存储有远端参考信号。

需要注意的是，本发明中时间戳是指音频经过DAC或ADC转换时的绝对时间点。如远端参考信号的时间戳为经过DAC转换时的绝对时间点。近端音频信号的时间戳为经过ADC转换时的绝对时间点。

在获取延时值后，本步骤可以首先将延时值与设定延时值比较，若延时值的绝对值大于设定延时值，则通过确定当前时间戳偏移量进行时间戳调整；否则不处理该延时值。

示例性的，基于远端参考信号和近端音频信号确定出的延时值为60ms，设定延时值为30ms，由于延时值大于设定延时值，故需要首先基于延时值和设定延时值的差值确定当前时间戳偏移量，进而基于确定的当前时间戳偏移量进行时间戳调整。

在进行时间戳调整时，本步骤可以基于延时值的正负，将延时值与设定延时值进行不同的数学运算，以得到当前时间戳偏移量，此处不对具体数学运算进行限定，只要能够保证基于确定出的当前时间戳偏移量调整后的音频信号能够满足因果关系，并且延时值在一定范围内，如在设定延时值内即可。

具体的，为了解决图1c和图1d所示的正向延时和负向延时给回声消除带来不收敛的影响，需要将T0至T1前之间的延时进行缩小调整。应回声消除收敛特性的需求，需要保证近、远端两路信号始终呈因果关系，图1e为本发明实施例一提供的一种对齐后的延时示意图。针对图1c和图1d两种延时情况，本发明可以基于确定出正负向延时的时间戳偏移量作用在远端参考信号的时间戳上，在经过时间戳队列调整延时快速对齐后，从远端时间戳队列中读取的远端参考信号ref’的时间点T0’是经过调整后的，此时远端信号早于近端信号一段固定时间差：

ΔT = T0’- T1；

在进行回声消除前远近端两者始终呈因果关系地保持在一定小的时间差即设定延时值ΔT（回声消除算法能快速收敛且收敛深度深的充分条件）。

在一个实施例中，所述根据所述延时值和设定延时值，确定当前时间戳偏移量，包括：

在所述延时值为正数时，基于所述延时值与所述设定延时值的差值，确定当前时间戳偏移量。

在基于差值确定当前时间戳偏移量时，可以将差值进行单位换算后确定为当前时间戳偏移量。单位换算后的当前时间戳偏移量能够被计算机所应用。

如图1e所示，远端参考信号（扬声器播放远端的音频信号DAC）发生的时刻早于近端麦克风采集信号（麦克风采集近端音频ADC）的时刻，且两者保持一定小的时间差ΔT。因此，在出现图1c和图1d所示的正负方向比较大的延时，如超过ΔT范围，即超过设定延时值，则将延时进行调整。在进行延时调整时，可以基于当前时间戳调整远端时间戳队列中的读指针位置实现。

在所述延时值为负数时，基于所述延时值的绝对值与所述设定延时值的和，确定当前时间戳偏移量。

在基于和确定当前时间戳偏移量时，可以将和进行单位换算后确定为当前时间戳偏移量。单位换算后的当前时间戳偏移量能够被计算机所应用。

示例性的，确定当前时间戳偏移量，即确定需要调整参考信号时间戳的偏移量timestampOffset，通过如下公式实现：

当远端参考信号ref早于近端音频信号mic时：ΔT0 = T0 - T1;timestampOffsetq = (ΔT0 - ΔT)* 10000 (ΔT0 > 0)；

当mic早于ref时：ΔT0 = T0 - T1; timestampOffsetq = (|ΔT0| + ΔT)*10000 (ΔT0 < 0)；

其中，ΔT0即延时值，ΔT0 > 0可以认为远端参考信号ref早于近端音频信号mic，ΔT0 < 0可以认为mic早于ref。设定延时值ΔT为正值，单位可以为毫秒ms，通常在20-30ms左右；timestampOffsetq可能正或负，单位：百纳秒100ns。

S130、在目标时间戳偏移量满足偏移条件时，基于所述目标时间戳偏移量调整下一帧远端参考信号的时间戳。

本实施例中，目标时间戳偏移量基于所述当前时间戳偏移量确定。如将当前时间戳偏移量直接作为目标时间戳偏移量，或者将当前时间戳偏移量进行运算后作为目标时间戳偏移量。

将timestampOffset偏移量作用在下一帧远端参考信号的时间戳上，输入到远端时间戳队列，通过将ref信号读取指针进行移位操作（或正或负方向）对齐后再读取出ref’以用于回声消除，即实现了远端时间戳队列调整ref读取指针位置，即读指针位置。

具体的，当下一帧远端参考信号ref从系统采集时输入时间戳附加了延时估计出来的当前时间戳偏移量后，远端时间戳队列将调整其读指针位置，保证从队列中拿取的ref的时刻早于从队列中读取mic的时刻，且两者时间差保持在ΔT，即当出现图1c的情况时，将读取ref的指针往T1方向后挪(ΔT0 - ΔT)ms；反之，当出现图1d的情况，将读取ref的指针往T0方向前挪(|ΔT0| + ΔT)ms。经过队列输出ref与mic，在进入回声消除处理前，两者延时情况如图1e所示。

之所以需要在麦克风多通道切换之前需要进行回声消除（AEC）的操作，是因为在多通道切换前需要判断输入的音频信号是去除扬声器播放的声音部分，保证传到远端的信号中只有会议中近端主讲人及周边人的音频信号。

在一个实施例中，若存在历史时间戳偏移量，所述目标时间戳偏移量为所述当前时间戳偏移量和所述历史时间戳偏移量的累加值；否则，所述目标时间偏移量为所述当前时间戳偏移量。

在一个示例中，若音频会议软件系统中确定出多次估计出来的延时，则目标时间戳偏移量是累积值，比如，A时间点估计出当前系统延时需要调整偏移量timestampOffsetq0，B时间由于系统其他原因导致延时需要调整的偏移量为timestampOffsetq1，则B时刻需要调整的偏移量则为：

timestampOffsetq = imestampOffsetq0 + timestampOffsetq1；

timestampOffsetq 、 imestampOffsetq0 和 timestampOffsetq1均有可能是正数或负数，单位是百纳秒100ns。

需要注意的是，历史时间戳偏移量的个数为多个时，目标时间戳偏移量为所有历史时间戳偏移量和当前时间戳偏移量的和。

偏移条件可以理解为判断是否进行下一帧远端参考信号时间戳偏移的条件。此处不对偏移条件进行限定，可以基于实际应用场景确定。如偏移条件可以保证偏移后的时间戳是正值即可。

不同的偏移条件对应有不同的判断策略，本实施例不对判断目标时间戳偏移量是否满足偏移条件进行限定。

在一个实施例中，所述偏移条件为所述目标时间戳偏移量为正数。

在一个实施例中，所述偏移条件为所述目标时间戳偏移量为负数，且所述目标时间戳偏移量的绝对值大于调整前所述下一帧远端参考信号的时间戳。相应的，在判断是否满足偏移条件时，可以将目标时间戳偏移量与对应偏移条件进行比对，以确定目标时间戳偏移量是否满足偏移条件。

通常远端参考信号发生，且调整其读取位置不会直接影响到近端音频信号的输出（丢失或者重复等），所以一般都调整远端参考信号的读取位置来调整其与近端音频信号之间的延时。

在基于目标时间戳偏移量调整下一帧远端参考信号的时间戳时，可以直接将目标时间戳偏移量与下一帧远端参考信号的时间戳的和确定为调整后的时间戳，即将所述目标时间戳偏移量与所述下一帧远端参考信号的时间戳的和，确定为所述下一帧远端参考信号的调整后的时间戳。

在一个示例中，在得到需要调整参考信号ref时间戳偏移量timestampOffset后，即目标时间戳偏移量，当下一帧ref，即下一帧远端参考信号到来后，设定其时间戳为Ts0，则目标时间戳偏移量timestampOffset作用于下一帧ref的时间戳：

Ts = Ts0 + timestampOffset；

Ts 因为是系统绝对值，其始终为正值，单位：百纳秒100ns，如果timestampOffset为负，且其绝对值大于Ts0 ，此时先不做调整。此外，本实施例也可以是仅在|timestampOffset| ＜ Ts0时进行调整。

S140、基于调整后的时间戳调整所述下一帧远端参考信号在远端时间戳队列中的读指针位置。

本步骤通过调整读指针位置以保证从远端时间戳队列中读取所述下一帧远端参考信号的时间戳早于从近端时间戳队列中读取对应近端音频信号的时间戳，如保证扬声器播放一个“测试”两个字的音频时刻为T0早于麦克风采集到“测试”两个字的音频并输入到会议软件系统的时刻为T1，该音频可以称为与远端参考信号对应的近端音频信号，且时间戳差小于或等于所述设定延时值，所述时间戳差为所读取远端参考信号与所读取近端音频信号的时间戳的差值。

远端时间戳队列可以存储有远端参考信号，近端时间戳队列可以存储有近端音频信号。本步骤可以通过基于调整后的时间戳调整读指针位置。

在一个实施例中，远端时间戳队列中所存储的远端参考信号的排列顺序基于调整后的时间戳确定。时间戳调整后，对应的读指针位置也即发生了改变。在从远端时间戳队列中读取远端参考信号时，可以基于远端时间戳队列中各远端参考信号的排序依次出栈。

本发明实施例一提供的一种音频信号对齐方法，首先获取远端参考信号和近端音频信号的延时值；然后根据所述延时值和设定延时值，确定当前时间戳偏移量；其次在目标时间戳偏移量满足偏移条件时，基于所述目标时间戳偏移量调整下一帧远端参考信号的时间戳，所述目标时间戳偏移量基于所述当前时间戳偏移量确定；最后基于调整后的时间戳调整所述下一帧远端参考信号在远端时间戳队列中的读指针位置，以保证从远端时间戳队列中读取所述下一帧远端参考信号的时间戳早于从近端时间戳队列中读取对应近端音频信号的时间戳，且时间戳差小于或等于所述设定延时值，所述时间戳差为所读取远端参考信号与所读取近端音频信号的时间戳的差值。利用上述方法，基于包括正向延时值和负向延时值的延时值调整读指针位置实现了双向延时值的调整，基于设定延时值调整读指针位置约束了远端参考信号和近端音频信号间的延时值，实现了任意长度延时值的调整，从而实现双向灵活调整任意长度的延时值的技术效果。进而保证近端音频信号和远端参考信号呈因果关系对齐，以用于回声消除。

以下对本发明进行示例性描述，本发明提供的音频信号对齐方法可以认为是一种音频会议系统时间戳队列调整延时快速对齐的方法，现有技术中客观存在系统对数据会进行缓存、移位等操作，导致延时差，即延时值可能存在有时是负向的情况。现有技术主要基于先缓存一定量的远端参考信号，只单向（正向）调整读取远端参考信号的指针位置，保证远端参考信号早于近端音频信号。

本发明根据延时估计出来的正负延时值计算出需要作用在参考信号，即远端参考信号时间戳（时间戳：会议系数中播放的音频在播放前经过数模转换DAC时的绝对时间点）上的偏移量，即当前时间戳偏移量，最后远端时间戳队列将当前时间戳偏移量作用在远端参考信号上并进行移位处理（正负向都可能存在），然后将经过调整后输出与麦克风呈因果性对齐的远端参考信号再输入到回声消除模块进行回声消除处理。

综上，本发明提出一种应用于音视频远程会议软件系统中快速、准确、双向地灵活调整任意长度的延时，从而保证近端远端信号呈因果关系对齐用于回声消除。通过具有双向性的延时值用于回声消除前的对齐处理，保证回声消除正常工作。基于远端时间戳队列双向调整延时，保证远端参考信号和近端音频信号满足因果关系。本发明当前时间戳偏移量是任意长度的，不受固定帧长限制。远端时间戳队列和近端时间戳队列缓存的数据量可以自定义，满足不同平台设备固有的延时长度，且调整读取数据的地址指针复杂度低。由于通过设定延时值调整时间戳队列读指针位置，使得针对不同设备带来的系统延时大小，时间戳队列都能设置对应的可调范围，不受固定缓冲区大小限制，且调整的复杂度低，在音频信号处理软件中易于实现；时间戳队列调整方向不受限制，灵活性强，适用于不同平台设备系统延时情况下的调整需求；时间戳对齐调整的大小不受音频信号处理的固定帧长限制，能调整任意长度的延时；对延时估计计算的正负双向延时值都能进行调整，即不管近、远端两路信号的关系是因果还是非因果性，都能保证近、远端两路信号始终是因果关系，保证回声消除正常工作。

实施例二

图2为本发明实施例二提供的一种音频信号对齐装置的结构示意图，该装置可适用于进行音频信号对齐的情况，如调整远端参考信号和近端音频信号间的延时值，以实现音频信号对齐，保证近端音频信号和远端参考信呈因果关系对齐的情况，其中该装置可由软件和/或硬件实现，并一般集成在会议终端上。

如图2所示，该装置包括：

获取模块21，用于获取远端参考信号和近端音频信号的延时值，所述延时值包括正向延时值和负向延时值；

确定模块22，用于根据所述延时值和设定延时值，确定当前时间戳偏移量；

第一调整模块23，用于在目标时间戳偏移量满足偏移条件时，基于所述目标时间戳偏移量调整下一帧远端参考信号的时间戳，所述目标时间戳偏移量基于所述当前时间戳偏移量确定；

第二调整模块24，用于基于调整后的时间戳调整所述下一帧远端参考信号在远端时间戳队列中的读指针位置，以保证从远端时间戳队列中读取所述下一帧远端参考信号的时间戳早于从近端时间戳队列中读取对应近端音频信号的时间戳，且时间戳差小于或等于所述设定延时值，所述时间戳差为所读取远端参考信号与所读取近端音频信号的时间戳的差值。

在本实施例中，该装置首先通过获取模块21获取远端参考信号和近端音频信号的延时值；其次通过确定模块22根据所述延时值和设定延时值，确定当前时间戳偏移量；然后通过第一调整模块23在目标时间戳偏移量满足偏移条件时，基于所述目标时间戳偏移量调整下一帧远端参考信号的时间戳，所述目标时间戳偏移量基于所述当前时间戳偏移量确定；最后通过第二调整模块24基于调整后的时间戳调整所述下一帧远端参考信号在远端时间戳队列中的读指针位置，以保证从远端时间戳队列中读取所述下一帧远端参考信号的时间戳早于从近端时间戳队列中读取对应近端音频信号的时间戳，且时间戳差小于或等于所述设定延时值，所述时间戳差为所读取远端参考信号与所读取近端音频信号的时间戳的差值。

本实施例提供了一种音频信号对齐装置，基于包括正向延时值和负向延时值的延时值调整读指针位置实现了双向延时值的调整，基于设定延时值调整读指针位置约束了远端参考信号和近端音频信号间的延时值，实现了任意长度延时值的调整，从而实现双向灵活调整任意长度的延时值的技术效果。进而保证近端音频信号和远端参考信号呈因果关系对齐，以用于回声消除。

在一个实施例中，确定模块22具体用于：

在一个实施例中，第一调整模块23具体用于：

将所述目标时间戳偏移量与所述下一帧远端参考信号的时间戳的和，确定为所述下一帧远端参考信号的调整后的时间戳。

在一个实施例中，所述偏移条件为所述目标时间戳偏移量为负数，且所述目标时间戳偏移量的绝对值大于调整前所述下一帧远端参考信号的时间戳。

在一个实施例中，远端时间戳队列中所存储的远端参考信号的排列顺序基于调整后的时间戳确定。

上述音频信号对齐装置可执行本发明任意实施例所提供的音频信号对齐方法，具备执行方法相应的功能模块和有益效果。

实施例三

图3为本发明实施例三提供的一种会议终端的结构示意图。如图3所示，本发明实施例三提供的会议终端包括：一个或多个处理器41和存储装置42；该会议终端中的处理器41可以是一个或多个，图3中以一个处理器41为例；存储装置42用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器41执行，使得所述一个或多个处理器41实现如本发明实施例中任一项所述的音频信号对齐方法。

所述会议终端还可以包括：输入装置43和输出装置44。

会议终端中的处理器41、存储装置42、输入装置43和输出装置44可以通过总线或其他方式连接，图3中以通过总线连接为例。

该会议终端中的存储装置42作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例所提供音频信号对齐方法对应的程序指令/模块（例如，附图2所示的音频信号对齐装置中的模块，包括：获取模块21、确定模块22、第一调整模块23和第二调整模块24）。处理器41通过运行存储在存储装置42中的软件程序、指令以及模块，从而执行会议终端的各种功能应用以及数据处理，即实现上述方法实施例中音频信号对齐方法。

存储装置42可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据会议终端的使用所创建的数据等。此外，存储装置42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置42可进一步包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置43可用于接收输入的数字或字符信息，以及产生与会议终端的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。

并且，当上述会议终端所包括一个或者多个程序被所述一个或者多个处理器41执行时，程序进行如下操作：

根据所述延时值和设定延时值，确定当前时间戳偏移量；

实施例四

本发明实施例四提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行音频信号对齐方法，该方法包括：

根据所述延时值和设定延时值，确定当前时间戳偏移量；

可选的，该程序被处理器执行时还可以用于执行本发明任意实施例所提供的音频信号对齐方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（Random Access Memory，RAM）、只读存储器（Read Only Memory，ROM）、可擦式可编程只读存储器（ErasableProgrammable Read Only Memory，EPROM）、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、无线电频率（RadioFrequency，RF）等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种音频信号对齐方法，其特征在于，包括：

根据所述延时值和设定延时值，确定当前时间戳偏移量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述延时值和设定延时值，确定当前时间戳偏移量，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述延时值和设定延时值，确定当前时间戳偏移量，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述目标时间戳偏移量调整下一帧远端参考信号的时间戳，包括：

5.根据权利要求1所述的方法，其特征在于，

所述偏移条件为所述目标时间戳偏移量为正数；或，

所述偏移条件为所述目标时间戳偏移量为负数且所述目标时间戳偏移量的绝对值大于调整前所述下一帧远端参考信号的时间戳。

6.根据权利要求1所述的方法，其特征在于，

若存在历史时间戳偏移量，所述目标时间戳偏移量为所述当前时间戳偏移量和所述历史时间戳偏移量的累加值；否则，所述目标时间偏移量为所述当前时间戳偏移量。

7.根据权利要求1所述的方法，其特征在于，远端时间戳队列中所存储的远端参考信号的排列顺序基于调整后的时间戳确定。

8.一种音频信号对齐装置，其特征在于，包括：

9.一种会议终端，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的音频信号对齐方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的音频信号对齐方法。