CN112511886B

CN112511886B - 一种基于音频伸缩的音视频同步播放方法

Info

Publication number: CN112511886B
Application number: CN202011336035.4A
Authority: CN
Inventors: 李宏元; 吴奕刚; 孙彦龙
Original assignee: Hangzhou Arcvideo Technology Co ltd
Current assignee: Hangzhou Arcvideo Technology Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2023-03-21
Anticipated expiration: 2040-11-25
Also published as: CN112511886A

Abstract

本发明公开了一种基于音频伸缩的音视频同步播放方法。它整个播放过程按Audio播放和Video播放两个线程来处理，Audio播放线程主导整个播放的时间控制，两个线程共享同一个缓冲区，缓冲区接收上游传送来的音视频数据，形成两个按时间戳顺序排列的sample队列，队列最前端的Sample为当前要播放处理的Sample，具体包括如下步骤：缓冲区初始化后，队列清空；设置媒体播放时间mediaPlayTime，即累计的音频sample时间，由Audio播放线程设置，初始值清零；设置一音频伸缩时值tDelta，表示当前Audio数据需要伸缩的幅度，这个值由Video播放线程设置，由Audio播放线程读取并以此控制播放。本发明的有益效果是：达到音视频的播放同步，原理简单，操作方便，易于实现，效果明显。

Description

一种基于音频伸缩的音视频同步播放方法

技术领域

本发明涉及媒体播放相关技术领域，尤其是指一种基于音频伸缩的音视频同步播放方法。

背景技术

在网络或其他媒体播放环境，因带宽或其他设备性能限制，视频数据有被丢包或者传送迟延的情况发生。对这种情况的简单处理就是等待或者丢帧。这样就会造成播放停滞或音视频不同步，影响到媒体受众的体验。

音频数据与视频数据同时丢失或延迟，会导致播放卡顿。媒体播放中，所幸音频流的数据量要比视频流的数据量少很多，故播放不流畅的问题大都源于视频数据的传送存在丢包或延时。

发明内容

本发明是为了克服现有技术中存在上述的不足，提供了一种操作简单且易于实现的基于音频伸缩的音视频同步播放方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于音频伸缩的音视频同步播放方法，整个播放过程按Audio播放和Video播放两个线程来处理，Audio播放线程主导整个播放的时间控制，两个线程共享同一个缓冲区，缓冲区接收上游传送来的音视频数据，形成两个按时间戳顺序排列的sample队列，队列最前端的Sample为当前要播放处理的Sample，具体包括如下步骤：

(1)缓冲区初始化后，队列清空；

(2)设置媒体播放时间mediaPlayTime，即累计的音频sample时间，由Audio播放线程设置，初始值清零；

(3)设置一音频伸缩时值tDelta，表示当前Audio数据需要伸缩的幅度，这个值由Video播放线程设置，由Audio播放线程读取并以此控制播放。

对于视频数据丢包或延迟不是十分严重的情况，可以把即将播放的音频数据适当拉伸(音频数据在时域扩展)，延长其播放时间，以等待视频数据包的同步到达；如果视频数据包已丢失或者因延时导致视频数据堆积，则可以适当收缩当前音频数据(音频数据在时域压缩)，压缩播放音频的播放时间，以配合视频播放的跳帧或加速处理，这样操作方便快捷且易于实现，能达到音视频的播放同步。

作为优选，在步骤(3)中，Audio播放线程工作原理如下：

(311)Audio播放线程定时查询sample数据，并向播放器或声卡填充sample数据，以保证audio的流畅播放，定时周期按sample数据长度设定；

(312)每次查询时，检测音频伸缩时值tDelta，如果tDelta为0，为正常速度播放，则音频Sample数据不需处理，直接送至声卡，mediaPlayTime的增量为此sample的时长；

(313)如果tDelta大于0，为相对慢速，则须将当前sample数据以WSOLA算法拉长后再送至声卡，即将当前sample数据按比例拉伸，然后调整播放时间mediaPlayTime，更新tDelta，在下一次sample查询时，再次拉伸，调整tDelta，直至tDelta为0，回归正常播放；

(314)如果tDelta小于0，为相对快速，则须将当前sample数据以WSOLA算法缩短后再送至声卡，即将当前sample数据按比例缩短，然后调整播放时间mediaPlayTime，更新tDelta，在下一次sample查询时，再次缩短，调整tDelta，直至tDelta为0，回归正常播放。

作为优选，在步骤(313)中，在下一次sample查询时，更新后的tDelta仍大于等于拉伸比例，则再次按相同比例拉伸，调整tDelta；如果更新后的tDelta小于拉伸比例，则再次按tDelta的值设定拉伸比例；直至tDelta为0，回归正常播放。

作为优选，在步骤(314)中，在下一次sample查询时，更新后的tDelta仍大于等于缩短比例，则再次按相同比例缩短，调整tDelta；如果更新后的tDelta小于缩短比例，则再次按tDelta的值设定缩短比例；直至tDelta为0，回归正常播放。

作为优选，在步骤(313)中，拉伸后的数据时长不再是原先的长度，需要将拉伸后的数据与后续的sample数据切割后再按原sample长度拼接，不同速度因子下的sample数据拼接处存在噪音，这个噪音通过拉伸时增加冗余的sample数据来消除。

作为优选，在步骤(314)中，缩短后的数据时长不再是原先的长度，需要将缩短后的数据与后续的sample数据切割后再按原sample长度拼接，不同速度因子下的sample数据拼接处存在噪音，这个噪音通过缩短时增加冗余的sample数据来消除。

作为优选，增加冗余的sample数据来消除方法如下：将前一sample末尾处的数据与当前sample的数据，再加上下一sample开始处的数据，一起拉伸或缩短，但结果只取中间拉伸或缩短后的结果数据，其他弃之不用。

作为优选，在步骤(3)中，Video播放线程工作原理如下：

(321)Video的播放在缓冲区初始化之后，查询当前播放时间mediaPlayTime和当前video sample的时间戳，计算两者之差值timeDiffer，如果timeDiffer超出某个阈值timeErrorThreshold，则播放难以保持流畅，须终止播放进程，初始化缓冲区，为下一次播放准备；如果此差值在timeErrorThreshold之内，则通过音频的伸缩改善播放效果；

(322)timeDiffer之绝对值在某个小于阈值timeErrorThreshold的阈值tm_offset_threshold之内，为正常情况，设置音频缩放时值tDelta为0，音频将以正常速度播放；

(323)timeDiffer大于阈值tm_offset_threshold，该tm_offset_threshold为正数，此种情况是video Sample延迟，通过拉伸音频以等待video sample达到同步，此时设置tDelta为timeDiffer，该tDelta为正数，音频将以相对慢速播放；

(324)timeDiffer小于阈值tm_offset_threshold，该tm_offset_threshold为负数，此种情况是video Sample有丢帧，通过缩短音频使音频快速播放与video sample达到同步，此时设置tDelta为timeDiffer，该tDelta为负数，音频将以相对快速播放；

(325)在设置好tDelta值之后，将当前video sample从队列中取出送到videosample渲染器渲染，由video播放定时器启动下一次video sample查询，直至播放终止。

本发明的有益效果是：把即将播放的音频数据适当拉伸，延长其播放时间，或者适当收缩当前音频数据，压缩播放音频的播放时间，达到音视频的播放同步，原理简单，操作方便，易于实现，效果明显。

附图说明

图1是本发明中Audio播放线程工作原理流程图；

图2是本发明中Video播放线程工作原理流程图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

一种基于音频伸缩的音视频同步播放方法，整个播放过程按Audio播放和Video播放两个线程来处理，Audio播放线程主导整个播放的时间控制，两个线程共享同一个缓冲区，缓冲区接收上游(网络或媒体文件)传送来的音视频数据(Audio/Video Sample，一个可用于显示的Video帧，或一段用于播放的PCM Audio数据)，形成两个按时间戳顺序排列的sample队列，队列最前端的Sample(即时间戳最小的Sample)为当前要播放处理的Sample，具体包括如下步骤：

(1)缓冲区初始化后，队列清空；

(2)设置媒体播放时间mediaPlayTime，即累计的音频sample时间(累计播放的sample时间，以毫秒计)，由Audio播放线程设置，初始值清零；

如图1所示，Audio播放线程工作原理如下：

(311)Audio播放线程定时查询sample数据，并向播放器或声卡填充sample数据，以保证audio的流畅播放，定时周期按sample数据长度设定；比如100毫秒，或200毫秒皆可；

(313)如果tDelta大于0，为相对慢速，则须将当前sample数据以WSOLA算法拉长后再送至声卡，即将当前sample数据按比例拉伸，然后调整播放时间mediaPlayTime，更新tDelta，在下一次sample查询时，再次拉伸，调整tDelta，直至tDelta为0，回归正常播放；在下一次sample查询时，更新后的tDelta仍大于等于拉伸比例，则再次按相同比例拉伸，调整tDelta；如果更新后的tDelta小于拉伸比例，则再次按tDelta的值设定拉伸比例；直至tDelta为0，回归正常播放。拉伸后的数据时长不再是原先的长度(100毫秒)，需要将拉伸后的数据与后续的sample数据切割后再按原sample长度拼接，不同速度因子下的sample数据拼接处可能不平滑，存在噪音，这个噪音通过拉伸时增加冗余的sample数据来消除。

例如：tDelta＝40(单位：毫秒)，而sample数据的时长为100毫秒，以1.2的比例拉长，sample数据时长变为120毫秒。此时，audio sample数据时长增加了20毫秒，相当于将下一sample延时20毫秒。然后调整播放时间：mediaPlayTime的增量不再是100，而是100x100/120＝83毫秒；更新tDelta：减少20毫秒，调整后为tDelta为20毫秒。

(314)如果tDelta小于0，为相对快速，则须将当前sample数据以WSOLA算法缩短后再送至声卡，即将当前sample数据按比例缩短，然后调整播放时间mediaPlayTime，更新tDelta，在下一次sample查询时，再次缩短，调整tDelta，直至tDelta为0，回归正常播放。在下一次sample查询时，更新后的tDelta仍大于等于缩短比例，则再次按相同比例缩短，调整tDelta；如果更新后的tDelta小于缩短比例，则再次按tDelta的值设定缩短比例；直至tDelta为0，回归正常播放。缩短后的数据时长不再是原先的长度(100毫秒)，需要将缩短后的数据与后续的sample数据切割后再按原sample长度拼接，不同速度因子下的sample数据拼接处可能不平滑，存在噪音，这个噪音通过缩短时增加冗余的sample数据来消除。

例如：tDelta＝-50(单位：毫秒)，而sample数据的时长为100毫秒，以0.8的比例缩短，将100毫秒时长的sample data以WSOLA算法按此比例缩短后，时长变为80毫秒，数据时长减少了20毫秒，相当于将下一sample提前20毫秒。然后调整播放时间：mediaPlayTime的增量不再是100，而是100+20＝120毫秒；更新tDelta：增加20毫秒，调整后为-30毫秒。在下一次sample查询时，再次缩放，调整tDelta为-10毫秒；再次查询，以0.9的比例缩短下一100毫秒的sample，其时长减少至90毫秒，tDelta回归为0，Audio播放回归到正常速度播放。

增加冗余的sample数据来消除方法如下：将前一sample末尾处的数据与当前sample的数据，再加上下一sample开始处的数据，一起拉伸或缩短，但结果只取中间拉伸或缩短后的结果数据，其他弃之不用。例如：若将某一100毫秒的sample数据拉伸或缩短，可以将前一sample末尾处的20毫秒数据与当前sample的数据，再加上下一sample开始处的20毫秒数据，总共140毫秒的数据一起伸缩，但结果只取中间100毫秒伸缩后的结果数据，其他弃之不用。这样与前一sample及与后一sample的拼接处就相对平滑。

如图2所示，Video播放线程工作原理如下：

(321)Video的播放在缓冲区初始化之后，查询当前播放时间mediaPlayTime和当前video sample的时间戳，计算两者之差值timeDiffer，如果timeDiffer超出某个阈值timeErrorThreshold(例如300毫秒)，则播放难以保持流畅，须终止播放进程，初始化缓冲区，为下一次播放准备；如果此差值在timeErrorThreshold之内，则通过音频的伸缩改善播放效果；

(322)timeDiffer之绝对值在某个小于阈值timeErrorThreshold的阈值tm_offset_threshold(例如100毫秒)之内，为正常情况，设置音频缩放时值tDelta为0，音频将以正常速度播放；

(325)在设置好tDelta值之后，将当前video sample从队列中取出送到videosample渲染器(renderer)渲染，由video播放定时器启动下一次video sample查询，直至播放终止。

实验表明，在保持原有音调的情况下，按WSOLA等算法以低于1.3倍的比例拉伸或者压缩一段音频数据，与源音频数据的播放相对比，受众对音频速率的改变不会有明显的觉察，仍感到十分自然。故可利用此特性加以改善播放性能是可行的。

本发明就是在视频数据丢失或迟延不是十分严重的情况下，通过伸缩音频数据以改善播放体验，让播放效果显得自然流畅。对于数据丢失严重，导致播放不能正常进行的情况，则不在本专案的范围之内。

Claims

1.一种基于音频伸缩的音视频同步播放方法，其特征是，整个播放过程按Audio播放和Video播放两个线程来处理，Audio播放线程主导整个播放的时间控制，两个线程共享同一个缓冲区，缓冲区接收上游传送来的音视频数据，形成两个按时间戳顺序排列的sample 队列，队列最前端的Sample为当前要播放处理的Sample，具体包括如下步骤：

（1）缓冲区初始化后，队列清空；

（2）设置媒体播放时间mediaPlayTime，即累计的音频sample时间，由Audio播放线程设置，初始值清零；

（3）设置一音频伸缩时值tDelta，表示当前Audio数据需要伸缩的幅度，这个值由Video播放线程设置，由Audio播放线程读取并以此控制播放；

其中，Audio播放线程工作原理如下：

（311）Audio播放线程定时查询sample数据，并向播放器或声卡填充sample数据，以保证audio的流畅播放，定时周期按sample数据长度设定；

（312）每次查询时，检测音频伸缩时值tDelta，如果tDelta 为0，为正常速度播放，则音频Sample数据不需处理，直接送至声卡，mediaPlayTime的增量为此sample的时长；

（313）如果tDelta 大于0，为相对慢速，则须将当前sample数据以WSOLA算法拉长后再送至声卡，即将当前sample数据按比例拉伸，然后调整播放时间mediaPlayTime，更新tDelta，在下一次sample 查询时，再次拉伸，调整tDelta，直至tDelta为0，回归正常播放；拉伸后的数据时长不再是原先的长度，需要将拉伸后的数据与后续的sample数据切割后再按原sample长度拼接，不同速度因子下的sample数据拼接处存在噪音，这个噪音通过拉伸时增加冗余的sample数据来消除；

（314）如果tDelta 小于0，为相对快速，则须将当前sample数据以WSOLA算法缩短后再送至声卡，即将当前sample数据按比例缩短，然后调整播放时间mediaPlayTime，更新tDelta，在下一次sample 查询时，再次缩短，调整tDelta，直至tDelta为0，回归正常播放；缩短后的数据时长不再是原先的长度，需要将缩短后的数据与后续的sample数据切割后再按原sample长度拼接，不同速度因子下的sample数据拼接处存在噪音，这个噪音通过缩短时增加冗余的sample数据来消除；

增加冗余的sample数据来消除方法如下：将前一sample末尾处的数据与当前sample的数据，再加上下一sample开始处的数据，一起拉伸或缩短，但结果只取中间拉伸或缩短后的结果数据，其他弃之不用；

Video播放线程工作原理如下：

（321）Video的播放在缓冲区初始化之后，查询当前播放时间mediaPlayTime和当前video sample的时间戳，计算两者之差值timeDiffer，如果timeDiffer超出某个阈值timeErrorThreshold，则播放难以保持流畅，须终止播放进程，初始化缓冲区，为下一次播放准备；如果此差值在timeErrorThreshold之内，则通过音频的伸缩改善播放效果；

（322）timeDiffer之绝对值在某个小于阈值timeErrorThreshold的阈值tm_offset_threshold之内，为正常情况，设置音频缩放时值 tDelta为0，音频将以正常速度播放；

（323）timeDiffer大于阈值tm_offset_threshold，该tm_offset_threshold为正数，此种情况是video Sample 延迟，通过拉伸音频以等待video sample达到同步，此时设置tDelta 为 timeDiffer，该tDelta为正数，音频将以相对慢速播放；

（324）timeDiffer小于阈值tm_offset_threshold，该tm_offset_threshold为负数，此种情况是video Sample 有丢帧，通过缩短音频使音频快速播放与video sample达到同步，此时设置 tDelta 为 timeDiffer，该tDelta为负数，音频将以相对快速播放；

（325）在设置好tDelta 值之后，将当前video sample 从队列中取出送到videosample 渲染器渲染，由video播放定时器启动下一次video sample查询，直至播放终止。

2.根据权利要求1所述的一种基于音频伸缩的音视频同步播放方法，其特征是，在步骤（313）中，在下一次sample 查询时，更新后的tDelta仍大于等于拉伸比例，则再次按相同比例拉伸，调整tDelta；如果更新后的tDelta小于拉伸比例，则再次按tDelta的值设定拉伸比例；直至tDelta为0，回归正常播放。

3.根据权利要求1所述的一种基于音频伸缩的音视频同步播放方法，其特征是，在步骤（314）中，在下一次sample 查询时，更新后的tDelta仍大于等于缩短比例，则再次按相同比例缩短，调整tDelta；如果更新后的tDelta小于缩短比例，则再次按tDelta的值设定缩短比例；直至tDelta为0，回归正常播放。