CN109640141A

CN109640141A - 一种音频时间戳的校正方法、校正装置及音视频终端

Info

Publication number: CN109640141A
Application number: CN201811558749.2A
Authority: CN
Inventors: 张弦; 周华辉; 侯刚; 王素云
Original assignee: Shenzhen Silver Peng Cloud Computing Co Ltd
Current assignee: Shenzhen Qixin haoshitong cloud computing Co., Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-04-16
Anticipated expiration: 2038-12-19
Also published as: CN109640141B

Abstract

本发明涉及无线通讯技术领域，尤其涉及一种音频时间戳的校正方法、校正装置及音视频终端。本实施例提供的音频时间戳的校正方法、校正装置及音视频终端，通过获取工作麦克风以及辅助麦克风发送的同一音频信号，并获取第一时间戳。再根据所述工作麦克风以及辅助麦克风对应的音频信号波形，确定时间差值，然后基于所述时间差值，确定第一传输时延。最后，根据所述第一传输时延，校正所述第一时间戳。本发明实施例在音视频终端上设置辅助麦克风，并通过所述辅助麦克风与工作麦克风获取的音频信号波形计算出传输时延，再基于所述传输时延校正第一时间戳，以消除在采集音频时的传输时延，提高音视频同步效果。

Description

一种音频时间戳的校正方法、校正装置及音视频终端

技术领域

本发明涉及无线通讯技术领域，尤其涉及一种音频时间戳的校正方法、校正装置及音视频终端。

背景技术

音视频的网络传输，是将音视频信息进行打包，通过网络传送至另外一个终端设备的过程。现有技术中，因传输过程的网络延迟通常会存在播放时音视频不同步的现象，通常会在发送端将音频信息与视频信息进行时间戳打包，通过网络传到接收端后对音视频信息的时间戳进行匹配，进而消除因网络延迟产生的时延，使得该音视频能够同步播放。

但是，上述方法无法消除音视频终端在采集音频信息时，因音频信息处理较复杂而产生的时延。

发明内容

本发明实施例提供一种音频时间戳的校正方法、校正装置及音视频终端，以消除音视频终端在采集音频时的传输时延，提高音视频同步效果。

第一方面，本发明实施例提供了一种音频时间戳的校正方法，应用于音视频终端，所述音视频终端连接有工作麦克风以及辅助麦克风，所述辅助麦克风采集的音频信号不进行处理，直接发送至音视频终端，所述校正方法包括：

获取工作麦克风以及辅助麦克风发送的同一音频信号，并获取第一时间戳；所述第一时间戳为音视频终端接收工作麦克风发送的音频信号的时刻；

根据所述工作麦克风以及辅助麦克风对应的音频信号波形，确定时间差值；所述时间差值为工作麦克风发送的音频信号传输至音视频终端的时间与辅助麦克风发送的音频信号传输至音视频终端的时间差值；

基于所述时间差值，确定第一传输时延；

根据所述第一传输时延，校正所述第一时间戳。

可选地，所述根据所述工作麦克风以及辅助麦克风对应的音频信号波形，确定时间差值，包括：

将所述工作麦克风以及辅助麦克风对应的音频信号波形进行相似性比对，确定时间差值。

可选地，在所述基于所述时间差值，确定第一传输时延之前，还包括

获取辅助麦克风预设的第二传输时延。

可选地，所述基于所述时间差值，确定第一传输时延，包括：

计算所述时间差值与第二传输时延，确定第一传输时延。

可选地，所述根据所述第一传输时延，校正第一时间戳，包括：

将所述第一时间戳减去第一传输时延，获取校正后的第一时间戳。

第二方面，本发明实施例提供了一种音频时间戳的校正装置，应用于音视频终端，所述音视频终端连接有工作麦克风以及辅助麦克风，所述辅助麦克风采集的音频信号不进行处理，直接发送至音视频终端，所述校正装置包括：

第一获取模块，用于获取工作麦克风以及辅助麦克风发送的同一音频信号，并获取第一时间戳；所述第一时间戳为音视频终端接收工作麦克风发送的音频信号的时刻；

第一确定模块，根据所述工作麦克风以及辅助麦克风对应的音频信号波形，确定时间差值；所述时间差值为工作麦克风发送的音频信号传输至音视频终端的时间与辅助麦克风发送的音频信号传输至音视频终端的时间差值；

第二确定模块，用于基于所述时间差值，确定第一传输时延；

校正模块，用于根据所述第一传输时延，校正所述第一时间戳。

可选地，所述第一确定模块具体用于将所述工作麦克风以及辅助麦克风对应的音频信号波形进行相似性比对，确定时间差值。

可选地，所述校正装置还包括：

第二获取模块，用于获取辅助麦克风预设的第二传输时延。

可选地，所述第二确定模块，包括：

计算单元，用于计算所述时间差值与第二传输时延，确定第一传输时延。

可选地，所述校正模块具体用于将所述第一时间戳减去第一传输时延，获取校正后的第一时间戳。

第三方面，本发明实施例提供了一种音视频终端，所述音视频终端包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前述的方法。

第四方面，本申请实施例提供一种存储介质，所述存储介质存储有可执行指令，所述可执行指令被智能终端执行时，使所述智能终端执行如上所述的校正方法。

第五方面，本申请实施例还提供了一种程序产品，所述机程序产品包括存储在存储介质上的程序，所述程序包括程序指令，当所述程序指令被智能终端执行时，使所述智能终端执行如上所述的校正方法。

本发明实施例的有益效果在于：本实施例提供的音频时间戳的校正方法、校正装置及音视频终端，通过获取工作麦克风以及辅助麦克风发送的同一音频信号，并获取第一时间戳，所述第一时间戳为音视频终端接收工作麦克风发送的音频信号的时刻。再根据所述工作麦克风以及辅助麦克风对应的音频信号波形，确定时间差值，所述时间差值为工作麦克风发送的音频信号传输至音视频终端的时间与辅助麦克风发送的音频信号传输至音视频终端的时间差值，然后基于所述时间差值，确定第一传输时延。最后，根据所述第一传输时延，校正所述第一时间戳。本发明实施例在音视频终端上设置辅助麦克风，并通过所述辅助麦克风与工作麦克风获取的音频信号波形计算出传输时延，再基于所述传输时延校正第一时间戳，以消除在采集音频时的传输时延，提高音视频同步效果。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本发明实施例提供的音频时间戳的校正方法的其中一种应用环境的示意图；

图2是本发明实施例提供的一种音频时间戳的校正方法的流程示意图；

图3是本发明实施例提供的一种音频时间戳的校正方法的原理示意图；

图4是本发明实施例提供的一种音频时间戳的校正方法的原理示意图；

图5是本发明实施例提供的一种音频时间戳的校正装置的结构示意图；

图6是本发明实施例提供的一种音频时间戳的校正装置的结构示意图；

图7是本发明实施例提供的音视频终端的硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，如果不冲突，本发明实施例中的各个特征可以相互结合，均在本发明的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。再者，本发明所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

本发明实施例提供的音频时间戳的校正方法、校正装置及音视频终端，适用于附图1所示的应用场景。在附图1所示的应用场景中，包括音视频终端10、音视频终端20、工作麦克风50以及辅助麦克风40。所述工作麦克风50与辅助麦克风40均与所述音视频终端连接10，用于采集音频信号并将所述音频信号发送至音视频终端10。其中，所述工作麦克风20为现有技术中的的音频采集设备，其所采集的音频信号发送至音视频发送终端10的过程中需要进过多次复杂处理，例如，工作麦克风采集到音频信号后，先经过回声抑制器60对该信号进行回声过滤，然后经过调音台70进行混音、音量调节等处理，再通过效果器80进行音频信号的修饰，最后传送至音视频终端10。所述辅助麦克风40所采集的音频信号不进行任何的声音处理过程，直接将该音频信号发送至音视频终端10。所述音视频终端10或者所述音视频终端20均可作为音视频发送终端以及音视频接收终端，所述音视频发送终端将采集到的音频信号以及视频信号通过网络30传送至音视频接收端，音视频接收终端播放该音频信号及视频信号，从而实现远程的视频交流，音视频接收终端与音视频发送终端为执行音视频信号传输时的作用而言，也即该音视频发送终端在下一次的音视频信号传输，可能为音视频接收终端，该音视频接收终端在下一次的音视频信号传输，可能为音视频发送终端。

而因音视频终端10通过网络30传输音视频信号至音视频终端20时，会因网络30传输过程所产生的时间差异导致音视频终端在播放时出现音视频不同步问题，所述网络可为无线网络，所述无线网络可以但不限于局域网、因特网、WIFI等其他能够实现信号传输与接收的无线网络。因此，在音视频终端10采集到音视频信号时会对其进行时间戳的设置。在音视频终端20在播放音视频信号时，需要等到对应的音视频信号的时间戳进行对齐之后才进行该音视频信号的播放，从而能够提高音视频终端20在播放音视频信号同步的效果，而因工作麦克风与音视频终端10之间进行音频信号处理需要消耗一定时间，会使得视频信号会先到达音视频终端10，也即该音频信号的时间戳会因该传输时延而导致与视频信号的时间戳出现差异，因此无法实现真正的音视频同步。

基于此，本申请实施例提供了一种音频时间戳的校正方法、校正装置及音视频终端。

其中，本申请实施例提供的应用于音视频终端的音频时间戳的校正方法是一种能够消除传输时延，提高音视频同步效果的方法，具体为：获取工作麦克风以及辅助麦克风发送的同一音频信号，并获取第一时间戳；所述第一时间戳为音视频终端接收工作麦克风发送的音频信号的时刻；根据所述工作麦克风以及辅助麦克风对应的音频信号波形，确定时间差值；所述时间差值为工作麦克风发送的音频信号传输至音视频终端的时间与辅助麦克风发送的音频信号传输至音视频终端的时间差值；基于所述时间差值，确定第一传输时延；根据所述第一传输时延，校正所述第一时间戳。

其中，本申请实施例提供的运行于音视频终端的音频时间戳的校正装置是由软件程序构成的能够实现本申请实施例提供的应用于音视频终端设备的音频时间戳的校正方法的虚拟装置，其与本申请实施例提供的应用于音视频终端的音频时间戳的校正方法基于相同的发明构思，具有相同的技术特征以及有益效果。

其中，本申请实施例提供的音视频终端能够执行本申请实施例提供的音频信号的校正方法，或者，运行本申请实施例提供的音频信号的校正装置。

具体地，下面结合附图，对本申请实施例作进一步阐述。

图2为本发明实施例提供的音频时间戳的校正方法的一个实施例的流程图，所述校正方法可由图1中的音视频终端执行。如附图2所示，所述音频时间戳的校正方法包括：

S210：获取工作麦克风以及辅助麦克风发送的同一音频信号，并获取第一时间戳；所述第一时间戳为音视频终端接收工作麦克风发送的音频信号的时刻；

在本实施例中，所述工作麦克风与辅助麦克风同时对外部声源进行音频信号的采集，定义工作麦克风与辅助麦克风采集到声源发出的音频信号为同一时刻(即声音在空中传播到工作麦克风以及辅助麦克风的时间差异忽略不计)。音视频终端记录接收到与所述工作麦克风对应的音频信号的时刻，定义该时刻为第一时间戳。

需要说明的，音视频终端在接收音频信号的同时也会接收与该音频信号对应视频信号。因视频信号从工作麦克风传输至音视频终端的传输较快，其消耗时间可忽略不计，而音频信号需要经过较处理，则使得所述第一时间戳会慢于对应的视频信号的视频时间戳。换句话说，所述视频时间戳可认为工作麦克风接收到视频信号的时刻，而音频信号的第一时间戳为音视频终端接收到音频信号的时刻，则需要将所述第一时间戳校正至工作麦克风接收到该音频信号时的时刻，才能与所述视频信号的视频时间戳相同，实现音视频同步效果。

S220：根据所述工作麦克风以及辅助麦克风对应的音频信号波形，确定时间差值；所述时间差值为工作麦克风发送的音频信号传输至音视频终端的时间与辅助麦克风发送的音频信号传输至音视频终端的时间差值；

其中，音视频终端设备在接收到工作麦克风与辅助麦克风发送的同一音频信号时，分别对所述工作麦克风发送的音频信号以及辅助麦克风发送音频信号进行波形的提取。两者波形形状大致相同，因工作麦克风发送的音频信号是经过中间设备的处理，则工作麦克风发送的音频信号对应的波形与辅助麦克风发送的音频信号对应的波形就会存在数值差异，而该数值差异并不影响音视频终端计算时间差值。

具体地，所述时间差值为工作麦克风发送的音频信号传输至音视频终端的时间与辅助麦克风发送的音频信号传输至音视频终端的时间差值；需要说明的是，因辅助麦克风采集的音频信号直接传送至音视频终端，该过程消耗的时间较小，当将该过程消耗的时间可忽略不计时，所述时间差值即为工作麦克风与音视频终端传输采集音频信号过程中消耗的时间。在另外一些实施例中，辅助麦克风的传输时延通过特定方式进行获知，再通过

S230：基于所述时间差值，确定第一传输时延；

具体地，所述辅助麦克的传输时延可以忽略不计时，所述时间差值即为第一传输时延；或者，所述辅助麦克风的传输时延为预设参数，也即辅助麦克风的传输时延为已知时，所述第一传输时延为时间差值与辅助麦克风的传输时延之和。需要说明的是，当所述辅助麦克风的传输时延大于所述工作麦克风时延时，所述时间差值取负值；当所述工作麦克风的传输时延小于所述辅助麦克风时延时，所述时间差值取正数。

其中，在计算出工作麦克风发送的音频信号传输至音视频终端的时间与辅助麦克风发送的音频信号传输至音视频终端的时间差值之后，包括两种方式对第一传输时延进行计算。所述第一传输时延是指所述工作麦克风发送音频信号至所述音视屏终端所消耗的时间。具体两种方式为：

1.所述辅助麦克风传输音频信号至音视频终端所消耗的时间较低，可忽略不计。

该种方式中，因所述辅助麦克风传输音频信号至音视频终端所消耗的时间忽略不计，所述时间差即为第一传输时延，所述音视频终端需要进行运算或者处理的过程较少，可提升音视频终端对音视屏信号的发送速度。

2.辅助麦克风存在第二传输时延。

具体地，辅助麦克风传输音频信号至音视频终端所消耗的时间为预设的数值，该预设的数值可为通过外部设备进行精确计算所获得，或者多次试验获取的经验值。

进一步地，在所述基于所述时间差值，确定第一传输时延之前，还包括：获取辅助麦克风预设的第二传输时延。则所述基于所述时间差值，确定第一传输时延，包括：计算所述时间差值与第二传输时延，确定第一传输时延。

其中，预先在音视频终端中设置辅助麦克风的传输时延的获取路径，在所述辅助麦克风与音视频终端连接时，自动检测所述辅助麦克风中预先设置的第二传输时延的数值，并将该数值进行提取。或者，在音视频终端中预设传输时延的输入路径，用户可通过手动输入经多次试验获取的第二传输时延的经验数值，音视频终端将该经验值存储至存储器中，在后续计算时直接调用该存储器中第二传输时延的经验数值。

S240：根据所述第一传输时延，校正所述第一时间戳；

在一些实施例中，所述根据所述第一传输时延，校正第一时间戳，包括：

具体地，将所述第一时间戳减去第一传输时延，获取校正后的第一时间戳。

进一步地，参考附图2，以所述附图2所示的例子对所述第一传输时延的获取过程进行解析，具体如下：

定义所述工作麦克风与辅助麦克风端为麦克风端，所述工作工作麦克风接收到音频信号时的时间戳为Ts1，工作麦克风的第一传输时延为T1，工作麦克风对应的第一时间戳为Ts2，所述辅助麦克风的预设第二传输时延为T2。

定义时间差值为t，因时间差值t与第二传输时延T2为已知量(t可通过计算所得，T2为预设数值)，则所述第一传世时延T1＝t+T2；

因此，时间戳Ts1＝Ts2-T1＝Ts2-t-T2；所述时间戳Ts1即为校正后的所述第一时间戳。

本实施例提供的音频时间戳的校正方法，通过获取工作麦克风以及辅助麦克风发送的同一音频信号，并获取第一时间戳，所述第一时间戳为音视频终端接收工作麦克风发送的音频信号的时刻。再根据所述工作麦克风以及辅助麦克风对应的音频信号波形，确定时间差值，所述时间差值为工作麦克风发送的音频信号传输至音视频终端的时间与辅助麦克风发送的音频信号传输至音视频终端的时间差值，然后基于所述时间差值，确定第一传输时延。最后，根据所述第一传输时延，校正所述第一时间戳。本发明实施例在音视频终端上设置辅助麦克风，并通过所述辅助麦克风与工作麦克风获取的音频信号波形计算出传输时延，再基于所述传输时延校正第一时间戳，以消除在采集音频时的传输时延，提高音视频同步效果。

具体地，所述根据所述工作麦克风以及辅助麦克风对应的音频信号波形，确定时间差值，包括：

进一步地，将所述工作麦克风以及辅助麦克风对应的音频信号波形进行相似性比对，确定时间差值，包括步骤：

先在所述工作麦克风中截取时间为K秒的波形；

假定一个时间差值的最大值X秒；

在辅助麦克风的波形中，对应工作麦克风所截取的波形的起始位置往前X秒或者往后X秒为截取波形的起始点的区间范围，以K秒为固定长度，截取若干段波形；

将辅助麦克风的若干段波形与所述工作麦克风所截取的波形求总体方差，总体方差最小值时，所述辅助麦克风对应的波形的起始点的横坐标即为时间差值。

举例说明，参阅附图4，现在所述工作麦克风中截取0.5ms的波形，则对应在辅助麦克风波形截取若干段0.5ms的波形，横坐标单位为ms，具体过程如下述步骤：

1、先假定声音的采样率为1000(实际采样率一般是16000或48000等，取1000是为了更好解释)；

2、假定工作麦克风的第一传输时延比辅助麦克风的第二传输时延不会大于1000ms，即采样数前后偏差在1000个采样以内，即最大时间差值假定为1000ms；

3、设定工作麦克风波形的一个采样点X＝n点的Y值为Yn；

4、设定参考麦克风的波形的某个X＝n点的Y值为Y’n；

5、设定我们只计算500个采样点来做比较。

因此，工作麦克风比辅助麦克风延迟w毫秒时，总体方差w取值范围在区间[0-1000]；

求出最小总体方差min(Aw),此时的w即为时间差值。

w1-w4为一段波形，w2-w5为一段波形，w3-w6为一段波形。当w＝w2时，Aw最小，则所述时间差值为w2。

在另外一些实施例中，也可采取间隔抽样进行取点，在所取点钟确定了w为最小值之后，在最小值前后各取几个点，截取几端波形，在进行上述计算，再最小值对应的w值，从而进一步精确w的取值。

相应地，如图5所示，本发明实施例还提供了一音频时间戳的校正装置，所述音频时间戳的校正装置1用于图1所示的音视频终端，所述音频时间戳的校正装置5包括：

第一获取模块51，用于获取工作麦克风以及辅助麦克风发送的同一音频信号，并获取第一时间戳；所述第一时间戳为音视频终端接收工作麦克风发送的音频信号的时刻；

第一确定模块52，根据所述工作麦克风以及辅助麦克风对应的音频信号波形，确定时间差值；所述时间差值为工作麦克风发送的音频信号传输至音视频终端的时间与辅助麦克风发送的音频信号传输至音视频终端的时间差值；

第二确定模块53，用于基于所述时间差值，确定第一传输时延；

校正模块54，用于根据所述第一传输时延，校正所述第一时间戳。

具体地，所述第一确定模块52具体用于将所述工作麦克风以及辅助麦克风对应的音频信号波形进行相似性比对，确定时间差值。

可选地，所述校正装置1还包括：

第二获取模块55，用于获取辅助麦克风预设的第二传输时延。

具体地，如图6所示，所述第二确定模块6，包括：

计算单元61，用于计算所述时间差值与第二传输时延，确定第一传输时延。

具体地，所述校正模块54具体用于将所述第一时间戳减去第一传输时延，获取校正后的第一时间戳。

在本实施例中，所述第一获取模块获取工作麦克风与辅助麦克风发送的同一个音频信号，同时，记录工作麦克风的第一时间戳，然后所述第一确定模块提取所述工作麦克风与辅助麦克风的波形，并对所述波形进行相似性比对，求出所述工作麦克风与辅助麦克风发送音频信号至音视频终端的时间差值，当所述辅助麦克风的传输时延忽略不计时，所述时间差值即为所述工作麦克风的第一传输时延；当所述辅助麦克风的传输时延为预设值时，所述预设值为已知，所述第一传输时延为时间差值与预设值的差值。在获得第一传输时延之后，将所述第一时间戳减去第一传输时延进行校正，则校正后的第一时间戳即为最终对音频信号进行打包的时间戳。

本实施例提供的音频时间戳的校正装置，通过获取工作麦克风以及辅助麦克风发送的同一音频信号，并获取第一时间戳，所述第一时间戳为音视频终端接收工作麦克风发送的音频信号的时刻。再根据所述工作麦克风以及辅助麦克风对应的音频信号波形，确定时间差值，所述时间差值为工作麦克风发送的音频信号传输至音视频终端的时间与辅助麦克风发送的音频信号传输至音视频终端的时间差值，然后基于所述时间差值，确定第一传输时延。最后，根据所述第一传输时延，校正所述第一时间戳。本发明实施例在音视频终端上设置辅助麦克风，并通过所述辅助麦克风与工作麦克风获取的音频信号波形计算出传输时延，再基于所述传输时延校正第一时间戳，以消除在采集音频时的传输时延，提高音视频同步效果。

需要说明的是，上述音频时间戳的校正装置可执行本发明实施例所提供的音频时间戳的校正方法，具备执行方法相应的功能模块和有益效果。未在人脸识别装置实施例中详尽描述的技术细节，可参见本发明实施例所提供的音频时间戳的校正方法。

本发明实施例还提供了一种音视频终端7，图是本发明实施例提供的音视频终端7的硬件结构示意图，如图7所示，该音视频终端7包括：

至少一个处理器71；以及，

与所述至少一个处理器71通信连接的存储器72；其中，

所述存储器72存储有可被所述至少一个处理器71执行的指令，所述指令被所述至少一个处理器71执行，以使所述至少一个处理器71能够执行如前述的音频时间戳的校正方法。

具体地，以附图7中一个处理器71为例。处理器71和存储器72可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器22作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的音频时间戳的校正方法对应的程序指令/模块(例如，附图2所示的步骤S210-S240)。处理器71通过运行存储在存储器72中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的音频时间戳的校正方法。

存储器72可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器72可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器72可选包括相对于处理器71远程设置的存储器，这些远程存储器可以通过网络连接至音视频终端7上。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器72中，当被所述一个或者多个处理器21执行时，执行上述任意方法实施例中的音频时间戳的校正方法，例如，执行以上描述的图2中的方法步骤S210至步骤S240。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

本实施例提供的音视频终端，通过获取工作麦克风以及辅助麦克风发送的同一音频信号，并获取第一时间戳，所述第一时间戳为音视频终端接收工作麦克风发送的音频信号的时刻。再根据所述工作麦克风以及辅助麦克风对应的音频信号波形，确定时间差值，所述时间差值为工作麦克风发送的音频信号传输至音视频终端的时间与辅助麦克风发送的音频信号传输至音视频终端的时间差值，然后基于所述时间差值，确定第一传输时延。最后，根据所述第一传输时延，校正所述第一时间戳。本发明实施例在音视频终端上设置辅助麦克风，并通过所述辅助麦克风与工作麦克风获取的音频信号波形计算出传输时延，再基于所述传输时延校正第一时间戳，以消除在采集音频时的传输时延，提高音视频同步效果。

通过以上的实施例的描述，本领域普通技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现所述实施例方法中的全部或部分流程是可以通过计算机程序指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如所述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

本发明实施例提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如图7中的一个处理器71，可使得上述一个或多个处理器可执行上述任意方法实施例中的音频时间戳的校正方法，例如，执行以上描述的图2中的方法步骤S210至步骤S240；实现图5中的模块51-55，图6中的单元61的功能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种音频时间戳的校正方法，应用于音视频终端，其特征在于，所述音视频终端连接有工作麦克风以及辅助麦克风，所述辅助麦克风采集的音频信号不进行处理，直接发送至音视频终端，所述校正方法包括：

基于所述时间差值，确定第一传输时延；

根据所述第一传输时延，校正所述第一时间戳。

2.根据权利要求1所述的校正方法，其特征在于：所述根据所述工作麦克风以及辅助麦克风对应的音频信号波形，确定时间差值，包括：

3.根据权利要求1所述的校正方法，其特征在于，在所述基于所述时间差值，确定第一传输时延之前，还包括

获取辅助麦克风预设的第二传输时延。

4.根据权利要求3所述的校正方法，其特征在于，所述基于所述时间差值，确定第一传输时延，包括：

计算所述时间差值与第二传输时延，确定第一传输时延。

5.根据权利要求1-4任一项所述的校正方法，其特征在于，所述根据所述第一传输时延，校正第一时间戳，包括：

6.一种音频时间戳的校正装置，应用于音视频终端，其特征在于，所述音视频终端连接有工作麦克风以及辅助麦克风，所述辅助麦克风采集的音频信号不进行处理，直接发送至音视频终端，所述校正装置包括：

7.根据权利要求6所述的校正装置，其特征在于：

所述第一确定模块具体用于将所述工作麦克风以及辅助麦克风对应的音频信号波形进行相似性比对，确定时间差值。

8.根据权利要求6所述的校正装置，其特征在于，所述校正装置还包括：

第二获取模块，用于获取辅助麦克风预设的第二传输时延。

9.根据权利要求8所述的校正装置，其特征在于，所述第二确定模块，包括：

10.根据权利要求6-9任一项所述的校正装置，其特征在于，所述校正模块具体用于将所述第一时间戳减去第一传输时延，获取校正后的第一时间戳。

11.一种音视频终端，其特征在于，所述音视频终端包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-5任一项所述的方法。