CN104902116B

CN104902116B - 一种音频数据与参考信号的时间对齐方法及装置

Info

Publication number: CN104902116B
Application number: CN201510140458.1A
Authority: CN
Inventors: 袁豪磊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2015-03-27
Filing date: 2015-03-27
Publication date: 2018-05-25
Anticipated expiration: 2035-03-27
Also published as: CN104902116A

Abstract

本发明公开了一种音频数据与参考信号的时间对齐方法及装置，属于通信领域。所述方法包括：获取当前采集的音频数据以及从参考队列中获取所述音频数据对应的参考信号；根据所述音频数据和所述参考信号之间的相关值，计算第一延时估计期望值；根据第二延时估计期望值和所述第一延时估计期望值检测所述音频数据与所述参考队列中的参考信号之间是否存在差拍现象，所述第二延时估计期望值是在当前之前最近一次计算得到的延时估计期望值；如果存在，则对齐所述音频数据与所述参考队列中的参考信号之间的时间关系。所述装置包括：获取模块、计算模块、检测模块和对齐模块。本发明提高了回声消除的鲁棒性。

Description

一种音频数据与参考信号的时间对齐方法及装置

技术领域

本发明涉及通信领域，特别涉及一种音频数据与参考信号的时间对齐方法及装置。

背景技术

语音通话软件是一种能够拨打网络电话或网络音频会议的应用，目前越来越多地被用户安装在移动终端中。同时，随着移动终端的物理尺寸往小型化方向发展，扬声器与麦克风之间的声耦合问题变得更为突出，使得麦克风采集的声音中包含扬声器播放的声音，让对方听到的声音中感觉有自己说话的回声，影响双方通话效果。

为了避免影响双方的通话效果，需要消除麦克风采集的音频数据中包含的回声，具体过程如下：移动终端接收一帧音频数据，将该帧音频数据作为参考信号缓存在参考队列中，并通过扬声器播放该帧音频数据；移动终端获取麦克风采集的一帧音频数据，其中该帧音频数据对应一参考信号，该帧音频数据包含的回声即为扬声器播放该一参考信号产生的声音；然后移动终端从参考队列中获取与该帧音频数据相关性最大的参考信号，将找出的参考信号作为该帧音频数据对应的参考信号，通过该参考信号消除该帧音频数据中的回声，然后将消除回声的该帧音频数据发送给对方用户对应的移动终端。

其中，需要说明的是：语音通话软件工作在操作系统之上，由应用处理器来对音频数据中的回声进行消除；当应用处理器的负荷较大时就会丢弃一部分接收的音频数据不输入到参考队列或丢弃一部分麦克风采集的音频数据不进行回声消除，如此就可能出现当麦克风采集一帧音频数据后，参考队列中没有该帧音频数据对应的参考信号，即出现了差拍现象；而移动终端从参考队列中找出的与该帧音频数据相关性最大的参考信号并非该帧音频数据对应的参考信号，利用该参考信号将无法消除该帧音频数据中的回声。

出现了差拍现象后，由于移动终端每接收到音频数据便将该音频数据作为参考信号缓存在参考对列中，而参考队列中缓存时间最长的参考信号被移出参考队列，使得在出现差拍后，参考队列中可能都没有麦克风每次采集的音频数据对应的参考信号，导致回声会一直延续下去，降低回声消除的鲁棒性。

发明内容

为了提高回声消除的鲁棒性，本发明提供了一种音频数据与参考信号的时间对齐方法及装置。所述技术方案如下：

一种音频数据与参考信号的时间对齐方法，所述方法包括：

获取当前采集的音频数据以及从参考队列中获取所述音频数据对应的参考信号；

根据所述音频数据和所述参考信号之间的相关值，计算第一延时估计期望值；

根据第二延时估计期望值和所述第一延时估计期望值检测所述音频数据与所述参考队列中的参考信号之间是否存在差拍现象，所述第二延时估计期望值是在当前之前最近一次计算得到的延时估计期望值；

如果存在，则对齐所述音频数据与所述参考队列中的参考信号之间的时间关系。

一种音频数据与参考信号的时间对齐装置，所述装置包括：

获取模块，用于获取当前采集的音频数据以及从参考队列中获取所述音频数据对应的参考信号；

计算模块，用于根据所述音频数据和所述参考信号之间的相关值，计算第一延时估计期望值；

检测模块，用于根据第二延时估计期望值和所述第一延时估计期望值检测所述音频数据与所述参考队列中的参考信号之间是否存在差拍现象，所述第二延时估计期望值是在当前之前最近一次计算得到的延时估计期望值；

对齐模块，用于如果存在，则对齐所述音频数据与所述参考队列中的参考信号之间的时间关系。

在本发明实施例中，由于根据第二延时估计期望值和第一延时估计期望值能够检测出该音频数据与参考队列中的参考信号之间是否存在差拍现象，从而在一出现差拍现象便能被检测出，然后对齐该音频数据与参考队列中的参考信号之间的时间关系，以消除该差拍现象，从而使得终端能够消除音频数据中的回声，提高了回声消除的鲁棒性。

附图说明

图1-1是本发明实施例提供的一种网络架构示意图；

图1-2是本发明实施例提供的一种终端结构示意图；

图1-3是本发明实施例1提供的一种音频数据与参考信号的时间对齐方法流程图；

图2-1是本发明实施例2提供的一种音频数据与参考信号的时间对齐方法流程图；

图2-2是本发明实施例2提供的一种参考队列结构示意图；

图3是本发明实施例3提供的一种音频数据与参考信号的时间对齐装置结构示意图；

图4是本发明实施例4提供的一种终端结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

参见图1-1，图1-1为本发明实施例应用的网络架构图，在该网络架构图中任意两个终端接入通信网络，通过通信网络进行通话。通话过程大体如下：终端通过通信网络接收与其通话的对端终端发送的音频数据，播放该音频数据。终端采集音频数据，通过通信网络将采集的音频数据发送给对端终端，实现其与对端终端之间的通话。

参见图1-2所示的终端结构，终端包括扬声器S、麦克风M和回声消除模块。其中，终端接收对端终端发送的音频数据，对该音频数据进行解码，然后交由扬声器S对解码的音频数据进行播放。麦克风M用于采集音频数据。麦克风M采集的音频数据中可能包括扬声器S播放的播放声音，该播放声音即为回声。

回声消除模块用于消除该音频数据中包含的回声。回声消除模块中包括参考队列，每当终端解码出接收的音频数据时便将解码的音频数据作为参考信号，将该参考信号从该参考队列的队头入队，缓存在该参考队列中，同时该参考队列位于队尾的参考信号出队。回声消除模块实时获取麦克风M采集的音频数据，从参考队列中获取该音频数据对应的参考信号，通过该参考信号消除该音频数据中的回声。然后终端对消除回声的音频数据进行编码并发送给对端终端。

其中，有时终端的负荷较大，终端可能丢失接收的音频数据或采集的音频数据，导致采集的音频数据与参考队列中的参考信号之间产生差拍现象，使得回声消除模块无法消除音频数据中的回声，降低了回声消除的鲁棒性。为了在差拍现象出现时，消除差拍现象，提高回声消除的鲁棒性，可以通过如下任一实施例来对齐采集的音频数据与参考队列中的参考信号之间的时间关系。

实施例1

参见图1-3，本发明实施例提供了一种音频数据与参考信号的时间对齐方法，包括：

步骤101：获取当前采集的音频数据以及从参考队列中获取该音频数据对应的参考信号。

步骤102：根据该音频数据和该参考信号之间的相关值，计算第一延时估计期望值。

步骤103：根据第二延时估计期望值和第一延时估计期望值检测该音频数据与参考队列中的参考信号之间是否存在差拍现象，第二延时估计期望值是在当前之前最近一次计算得到的延时估计期望值。

步骤104：如果存在，则对齐该音频数据与参考队列中的参考信号之间的时间关系。

实施例2

参见图2-1，本发明实施例提供了一种音频数据与参考信号的时间对齐方法，包括：

步骤201：获取当前采集的音频数据d(n)以及从参考队列中获取该音频数据d(n)对应的参考信号x(i)。

参见图1-2，终端中包括麦克风和扬声器，该麦克风用于实时采集音频数据d(n)，扬声器用于播放终端接收的音频数据x(n)。麦克风采集的音频数据d(n)中包括用户的声音、用户所在周围环境的声音，还可能包括扬声器播放的播放声音。

相应的，获取当前采集的音频数据d(n)，可以为：获取终端的麦克风当前采集的音频数据d(n)。

终端每接收到与其通话的对端终端发送的音频数据x(n)时，将该音频数据x(n)作为参考信号，从回声消除模块中的参考队列的队头入队，即输入到参考队列中，同时参考队列中位于队尾的参考信号出队。例如，参见图2-2所示的参考队列，该参考队列的长度为L，终端接收到音频数据x(n)，将音频数据x(n)作为参考信号并从该参考队列的队头入队，缓存的该参考队列中。

相应的，从参考队列中获取该音频数据d(n)对应的参考信号x(i)，可以为：分别对该音频数据x(n)和参考队列中的每个参考信号x(j)进行傅立叶变化，得到各自对应的频域信号D(n)和X(j)，j的取值范围为从n-L至n；根据该音频数据d(n)对应的频域信号D(n)和每个参考信号x(j)对应的频域信号X(j)，按如下公式(1)分别计算该音频数据d(n)与参考队列中的每个参考信号x(j)之间的相关值；从参考队列中选择与该音频数据d(n)之间的相关值最大的参考信号x(i)作为该音频数据d(n)对应的参考信号。

F＝|D^*(n)·X(j)|²……(1)；

在上述公式(1)中，F为相关值，D^*(n)为频域信号D(n)的共轭。相关值用于表示参考信号与音频数据中的回声之间的相似程度，相关值越大，表示参考信号与音频数据中的回声之间的相似程度就越大。

步骤202：根据该音频数据d(n)与该参考信号x(i)之间的相关值，计算第一延时估计期望值T(k)。

具体地，本步骤可以通过如下(1)-(4)的步骤来实现，包括：

(1)：将该音频数据d(n)与该参考信号x(i)之间的相关值确定为该音频数据d(n)的延时估计。

(2)：获取在第一时间段内麦克风采集的各音频数据的延时估计，第一时间段是在当前之前且离当前最近的预设时间长度的时间段。

在本发明实施例中，每当麦克风采集到音频数据时，便从上述步骤201开始执行，所以在当前之前已得到麦克风采集的各音频数据的延时估计。

(3)：根据该音频数据d(n)的延时估计和第一时间段内麦克风采集的各音频数据的延时估计，计算第一延时估计期望值T(k)。

具体地，计算该音频数据d(n)的延时估计和第一时间段内麦克风采集的各音频数据的延时估计的平均值，该平均值即为第一延时估计期望值T(k)。

其中，参见图1-2，回声消除模块包括延时估计器1、差拍检测单元2和自适应滤波器3。其中，延时估计器1用于执行上述步骤201和202，来计算第一延时估计期望值T(k)，将检测到的第一延时估计期望值T(k)输入给差拍检测单元2。差拍检测单元2用于执行如下步骤来检测出麦克风采集的音频数据与参考队列中的参考信号之间的是否存在差拍现象。自适应滤波器3中包括参考队列，用于消除麦克风采集的音频数据中的回声。

步骤203：根据第一延时估计期望值T(k)，确定该音频数据d(n)是否包括本端用户声音，如果不包括，执行步骤204。

具体地，本步骤可以通过如下(A)-(D)的步骤来实现，包括：

(A)：根据第一延时估计期望值T(k)和第二延时估计期望值T(k-1)，计算第一延时估计一阶差分值T₁(k)，其中，第二延时估计期望值T(k-1)是在当前之前最近一次计算得到的延时估计期望值。

其中，第一延时估计一阶差分值T₁(k)＝T(k)-T(k-1)。

(B)：获取在第一时间段内计算得到的第二延时估计一阶差分值，分别为T₁(k-1)、T₁(k-2)……。

(C)：根据第一延时估计一阶差分值T₁(k)和获取的第二延时估计一阶差分值T₁(k-1)、T₁(k-2)……，计算延时估计稳定度指标T₂(k)。

其中，延时估计稳定度指标N为第一延时估计一阶差分值和获取的第二延时估计一阶差分值的数目。

(D)：如果该延时估计稳定度指标T₂(k)小于预设阈值，则确定音频数据d(n)包括本端用户声音，否则，确定音频数据d(n)不包括本端用户声音。

其中，音频数据d(n)中包括本端用户声音的情况，分为如下两种：第一、本端用户在说话，对方用户未说话；第二、本端用户和对方用户相互同时在说话。本端用户为终端对应的用户，本端用户声音为终端对应的用户发出的声音。对方用户即为对端终端对应的用户。

对于本端用户在说话，对方用户未说话的情况，由于对端终端对本端用户说话的回声进行消除，使得对端终端不会发送音频数据给终端，终端的扬声器不会发出声音，即采集的音频数据d(n)中不包括回声，根据音频数据d(n)并通过上述步骤计算得到的第一延时估计期望值T(k)存在在很大的误差，不宜进行差拍检测。

对于本端用户和对方用户相互同时在说话的情况，麦克风采集的音频数据d(n)中包括本端用户声音和扬声器播放的播放声音，本端用户声音的大小在不断变化，时而超过扬声器的播放声音，即覆盖了播放声音，时而未超过扬声器的播放声音，使得根据音频数据d(n)并通过上述步骤计算得到的第一延时估计期望值T(k)也存在在很大的误差，不宜进行差拍检测。

进一步地，由于回声消除模块是一直不断地对麦克风采集的音频数据进行回声消除，所以当确定出音频数据d(n)包括本凋用户声音时，仍继续从参考队列的队头入队接收的参考信号，以及继续向回声消除模块输入麦克风采集的音频数据，并根据第二延时估计期望值T(k-1)和该音频数据d(n)的采集时间，从参考队列中选择一参考信号，根据选择的参考信号对该音频数据d(n)中的进行回声消除处理。

步骤204：根据第一延时估计期望值T(k)和第二延时估计期望值T(k-1)，检测该音频数据d(n)与参考队列中的参考信号之间是否存在差拍现象，如果存在，执行步骤205，如果不存在，执行步骤207。

具体地，比较第一延时估计期望值和第二延时估计期望值，如果两者不等，则检测出该音频数据d(n)与参考队列中的参考信号之间的存在差拍现象，如果两者相同，则检测出该音频数据d(n)与参考队列中的参考信号之间的不存在差拍现象。

步骤205：对齐音频数据d(n)与参考队列中的参考信号之间的时间关系。

具体地，如果第一延时估计期望值T(k)小于第二延时估计期望值T(k-1)，则停止向参考队列输入参考信号并继续向回声消除模块输入采集的音频数据，以对齐音频数据d(n)与参考队列中的参考信号之间的时间关系；如果第一延时估计期望值T(k)大于第二延时估计期望值T(k-1)，则停止向回声消除模块输入采集的音频数据并继续向参考队列输入参考信号，以对齐音频数据d(n)与参考队列中的参考信号之间的时间关系。

其中，回声消除模块中包括的自适应滤波器3负责消除音频数据中的回声，且其中包括参考队列。参见图1-2，自适应滤波器3通过开关K1连接至麦克风，通过开关K2连接至终端的接收天线，可以通过关断开关K2以及闭合开关K1，以停止向自适应滤波器3中的参考队列输入参考信号并继续向自适应滤波器3输入采集的音频数据；或者，可以通过关断开关K1闭合开关K2，以停止向自适应滤波器3输入采集的音频数据并继续向参考队列输入参考信号。

其中，需要说明的是：如果第一延时估计期望值T(k)小于第二延时估计期望值T(k-1)，则表明终端丢失了麦克风采集的音频数据，然而参考信号未丢失，且参考信号一直从队头输入到参考队列中，所以导致参考队列中的参考信号快于麦克风采集的音频数据，因此停止向参考队列输入参考信号，来对齐音频数据d(n)与参考队列中的参考信号之间的时间关系。如果第一延时估计期望值T(k)大于第二延时估计期望值T(k-1)，则表明终端丢失了接收的参考信号，然而麦克风集的音频数据未丢失，音频数据一直输入回声消除模块，所以导致参考队列中的参考信号慢于麦克风采集的音频数据，因此停止向回声消除模块输入麦克风采集的音频数据，来对齐音频数据d(n)与参考队列中的参考信号之间的时间关系。

步骤206：根据第一延时估计期望值T(k)，消除音频数据d(n)中的回声。

具体地，根据第一延时估计期望值T(k)和该音频数据d(n)的采集时间，从参考队列中选择一参考信号，根据选择的参考信号消除该音频数据d(n)中的回声。

步骤207：继续从参考队列的队头输入接收的参考信号，以及继续向回声消除模块输入麦克风采集的音频数据，并根据第二延时估计期望值T(k-1)，消除音频数据d(n)中的回声。

具体地，参见图1-2，可以控制开关K1和K2闭合，以继续从参考队列的队头输入接收的参考信号，以及继续向回声消除模块输入麦克风采集的音频数据，根据第二延时估计期望值T(k-1)和该音频数据d(n)的采集时间，从参考队列中选择一参考信号，根据选择的参考信号消除该音频数据d(n)中的回声。

当麦克风再次采集到音频数据时，从上述步骤201开始执行。

其中，需要说明的是：麦克风是一帧一帧地采集音频数据，一帧音频数据的大小可以根据需要设定，帧越大，整个参考队列所能表示的时间范围T_max也越大但是时间精度△T变小，反之则时间精度△T得以提高，但是最大搜索时间范围T_max相应地缩小，用公式表示这个约束关系就是：

T_max＝△T·L

其中，B表示每帧音频数据中所包含的采样点数，L表示参考队列的长度，fs表示音频采样频率。在本发明实施例中，可以设置fs＝16kHz，B＝64，L＝200，对应的时间精度为4ms，最大搜索时间范围T_max为800ms。

对于公式(2)中的数据块长度B和音频采样率fs的选取，除了上述方案中所列出的具体数值，还可以取其他的值。具体而言，音频采样率fs可以在8000Hz，16000Hz，22050Hz，24000Hz，44100Hz和48000kHz这几个常用值中选取；数据块长度B可以在32，64，128和256这几个常用值中选取。不同的B和fs的组合所对应的时间精度△T不同，时间精度△T过低会使得系统的准确性降低，反之时间精度△T过高会带来计算量的增加。几种常用的参数组合所对应的单步时间精度如表(1)所示。

表1

对于公式(2)中的参考队列长度L的选取，考虑到音频数据存在周期相关性，因此L的取值并非越大越好，根据实践经验，L的合理取值范围为1～0.8·fs/B，当L取值超过此范围时系统的工作开始趋于不稳定。

在本发明实施例中，由于根据第二延时估计期望值和第一延时估计期望值能够检测出该音频数据与参考队列中的参考信号之间是否存在差拍现象，从而在一出现差拍现象便能被检测出，然后对齐该音频数据与参考队列中的参考信号之间的时间关系，以消除该差拍现象，从而使得终端逐渐恢复消除音频数据中的回声，提高了回声消除的鲁棒性。另外，在检测差拍之前，还根据第一延时估计期望值T(k)，确定该音频数据d(n)是否包括本端用户声音，在不包括本端用户声音的情况下进行差拍现象的检测，提高了检测精度。

实施例3

参见图3，本发明实施例提供了一种音频数据与参考信号的时间对齐装置，包括：

获取模块301，用于获取当前采集的音频数据以及从参考队列中获取所述音频数据对应的参考信号；

计算模块302，用于根据所述音频数据和所述参考信号之间的相关值，计算第一延时估计期望值；

检测模块303，用于根据第二延时估计期望值和所述第一延时估计期望值检测所述音频数据与所述参考队列中的参考信号之间是否存在差拍现象，所述第二延时估计期望值是在当前之前最近一次计算得到的延时估计期望值；

对齐模块304，用于如果存在，则对齐所述音频数据与所述参考队列中的参考信号之间的时间关系。

可选的，所述检测模块303包括：

比较单元，用于比较第二延时估计期望值和所述第一延时估计期望值；

检测单元，用于如果两者不等，则检测出所述音频数据与所述参考队列中的参考信号之间存在差拍现象。

可选的，所述对齐模块304包括：

第一停止单元，用于如果所述第一延时估计期望值小于所述第二延时估计期望值，则停止向所述参考队列输入参考信号并继续向回声消除模块输入采集的音频数据，以对齐所述音频数据与所述参考队列中的参考信号之间的时间关系；

第二停止单元，用于如果所述第一延时估计期望值大于所述第二延时估计期望值，则停止向所述回声消除模块输入采集的音频数据并继续向所述参考队列输入参考信号，以对齐所述音频数据与所述参考队列中的参考信号之间的时间关系。

进一步地，所述装置还包括：

输入模块，用于如果不存在差拍现象，则继续向所述参考队列输入参考信号以及继续向所述回声消除模块输入采集的音频数据。

可选的，所述计算模块302包括：

第一确定单元，用于将所述音频数据与所述参考信号之间的相关值确定为所述音频数据的延时估计；

第一获取单元，用于获取在第一时间段内采集的各音频数据的延时估计，所述第一时间段是在当前之前且离当前最近的预设时间长度的时间段；

第一计算单元，用于根据所述音频数据的延时估计和所述第一时间段内采集的各音频数据的延时估计，计算第一延时估计期望值。

进一步地，所述装置还包括：

确定模块，用于根据所述第一延时估计期望值，确定所述音频数据中是否包括本端用户声音，如果不包括，则执行所述根据第二延时估计期望值和所述第一延时估计期望值检测所述音频数据与所述参考队列之间是否存在差拍现象的操作。

可选的，所述确定模块包括：

第二计算单元，用于根据所述第一延时估计期望值和所述第二延时估计期望值，计算第一延时估计一阶差分值；

第二获取单元，用于获取在第一时间段内计算得到的第二延时估计一阶差分值，所述第一时间段是在当前之前且离当前最近的预设时间长度的时间段；

第三计算单元，用于根据所述第一延时估计一阶差分值和所述第二延时估计一阶差分值，计算延时估计稳定度指标；

第二确定单元，用于如果所述延时估计稳定度指标小于预设阈值，则确定所述音频数据不包括本端用户声音。

进一步地，所述装置还包括：

消除模块，用于根据所述第一延时估计期望值消除所述音频数据中的回声。

在本发明实施例中，由于根据第二延时估计期望值和第一延时估计期望值能够检测出该音频数据与参考队列中的参考信号之间是否存在差拍现象，从而在一出现差拍现象便能被检测出，然后对齐该音频数据与参考队列中的参考信号之间的时间关系，以消除该差拍现象，从而使得终端逐渐恢复消除音频数据中的回声，提高了回声消除的鲁棒性。

实施例4

参见图4，其示出了本发明实施例所涉及的终端结构示意图，用于实施上述实施例中提供的一种音频数据与参考信号的时间对齐方法。具体来讲：

终端900可以包括RF(Radio Frequency，射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(wireless fidelity，无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图4中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(CodeDivision Multiple Access，码分多址)、WCDMA(Wideband Code Division MultipleAccess,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(ShortMessaging Service，短消息服务)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端900的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端900的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图4中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

终端900还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在终端900移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端900还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与终端900之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与终端900的通信。

WiFi属于短距离无线传输技术，终端900通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块170，但是可以理解的是，其并不属于终端900的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是终端900的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行终端900的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

终端900还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端900还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端900的显示单元是触摸屏显示器，终端900还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令：

可选的，所述根据第二延时估计期望值和所述第一延时估计期望值检测所述音频数据与所述参考队列中的参考信号之间是否存在差拍现象，包括：

比较第二延时估计期望值和所述第一延时估计期望值；

如果两者不等，则检测出所述音频数据与所述参考队列中的参考信号之间存在差拍现象。

可选的，所述对齐所述音频数据与所述参考队列中的参考信号之间的时间关系，包括：

如果所述第一延时估计期望值小于所述第二延时估计期望值，则停止向所述参考队列输入参考信号并继续向回声消除模块输入采集的音频数据，以对齐所述音频数据与所述参考队列中的参考信号之间的时间关系；

如果所述第一延时估计期望值大于所述第二延时估计期望值，则停止向所述回声消除模块输入采集的音频数据并继续向所述参考队列输入参考信号，以对齐所述音频数据与所述参考队列中的参考信号之间的时间关系。

进一步地，所述方法还包括：

如果不存在差拍现象，则继续向所述参考队列输入参考信号以及继续向所述回声消除模块输入采集的音频数据。

可选的，所述根据所述音频数据和所述参考信号之间的相关值，计算第一延时估计期望值，包括：

将所述音频数据与所述参考信号之间的相关值确定为所述音频数据的延时估计；

获取在第一时间段内采集的各音频数据的延时估计，所述第一时间段是在当前之前且离当前最近的预设时间长度的时间段；

根据所述音频数据的延时估计和所述第一时间段内采集的各音频数据的延时估计，计算第一延时估计期望值。

进一步地，所述根据第二延时估计期望值和所述第一延时估计期望值检测所述音频数据与所述参考队列之间是否存在差拍现象之前，还包括：

根据所述第一延时估计期望值，确定所述音频数据中是否包括本端用户声音，如果不包括，则执行所述根据第二延时估计期望值和所述第一延时估计期望值检测所述音频数据与所述参考队列之间是否存在差拍现象的操作。

可选的，所述根据所述第一延时估计期望值，确定所述音频数据中是否包括本端用户声音，包括：

根据所述第一延时估计期望值和所述第二延时估计期望值，计算第一延时估计一阶差分值；

获取在第一时间段内计算得到的第二延时估计一阶差分值，所述第一时间段是在当前之前且离当前最近的预设时间长度的时间段；

根据所述第一延时估计一阶差分值和所述第二延时估计一阶差分值，计算延时估计稳定度指标；

如果所述延时估计稳定度指标小于预设阈值，则确定所述音频数据不包括本端用户声音。

进一步地，所述对齐所述音频数据与所述参考队列中的参考信号之间的时间关系之后，还包括：

根据所述第一延时估计期望值消除所述音频数据中的回声。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频数据与参考信号的时间对齐方法，其特征在于，所述方法包括：

比较第二延时估计期望值和所述第一延时估计期望值，所述第二延时估计期望值是在当前之前最近一次计算得到的延时估计期望值；

如果比较结果为两者不等，则如果所述第一延时估计期望值小于所述第二延时估计期望值，则停止向所述参考队列输入参考信号并继续向回声消除模块输入采集的音频数据，以对齐所述音频数据与所述参考队列中的参考信号之间的时间关系；如果所述第一延时估计期望值大于所述第二延时估计期望值，则停止向所述回声消除模块输入采集的音频数据并继续向所述参考队列输入参考信号，以对齐所述音频数据与所述参考队列中的参考信号之间的时间关系。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

如果比较结果为两者相等，则继续向所述参考队列输入参考信号以及继续向所述回声消除模块输入采集的音频数据。

3.如权利要求1所述的方法，其特征在于，所述根据所述音频数据和所述参考信号之间的相关值，计算第一延时估计期望值，包括：

4.如权利要求1所述的方法，其特征在于，所述比较第二延时估计期望值和所述第一延时估计期望值之前，还包括：

根据所述第一延时估计期望值，确定所述音频数据中是否包括本端用户声音，如果不包括，则执行所述比较第二延时估计期望值和所述第一延时估计期望值的操作。

5.如权利要求4所述的方法，其特征在于，所述根据所述第一延时估计期望值，确定所述音频数据中是否包括本端用户声音，包括：

6.如权利要求1所述的方法，其特征在于，所述对齐所述音频数据与所述参考队列中的参考信号之间的时间关系之后，还包括：

根据所述第一延时估计期望值消除所述音频数据中的回声。

7.一种音频数据与参考信号的时间对齐装置，其特征在于，所述装置包括：

对齐模块，用于如果存在，则对齐所述音频数据与所述参考队列中的参考信号之间的时间关系；

其中，所述检测模块包括：

检测单元，用于如果两者不等，则检测出所述音频数据与所述参考队列中的参考信号之间存在差拍现象；

其中，所述对齐模块包括：

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

9.如权利要求7所述的装置，其特征在于，所述计算模块包括：

10.如权利要求7所述的装置，其特征在于，所述装置还包括：

11.如权利要求10所述的装置，其特征在于，所述确定模块包括：

12.如权利要求7所述的装置，其特征在于，所述装置还包括：