CN112995720A

CN112995720A - 一种音视频同步方法和装置

Info

Publication number: CN112995720A
Application number: CN201911290319.1A
Authority: CN
Inventors: 方伟; 陈国斌; 丁长文; 李敬来
Original assignee: Chengdu TD Tech Ltd
Current assignee: Chengdu TD Tech Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2021-06-18
Anticipated expiration: 2039-12-16
Also published as: CN112995720B

Abstract

本申请公开了一种音视频同步方法，包括：在进行实时视频业务时，服务器根据接收到的数据帧的类型，确定是否需要进行音视频同步处理；当需要进行音视频同步处理时，所述服务器采用预设的同步原则，对接收到的音频数据帧和视频数据帧进行同步处理，将同步处理后的视频数据帧以及对应的音频数据帧，保存至相应的文件中；其中，所述同步原则为当音频数据帧丢失时，相应地补偿语音静默帧，当视频数据帧丢失时，丢弃相应的音频数据帧；当不需要进行音视频同步处理时，所述服务器将接收到的所有数据帧，直接保存至相应的文件中。应用本申请公开的技术方案，能够有效解决实时视频业务中的录像文件播放时音视频不同步的问题。

Description

一种音视频同步方法和装置

技术领域

本申请涉及通信技术领域，特别涉及一种音视频同步方法和装置。

背景技术

目前实时视频业务播放一般都会进行音视频同步，以保证观看者的业务感知。

发明人在实现本发明的过程中发现：现有的实时视频业务实现方案存在：服务器端生成的相应录像文件在播放时音视频不同步的问题。通过研究分析发现该问题的原因如下：

现有的实时视频业务实现方案中，录制文件时通常只在发送端使用音视频同步处理机制，当音视频数据传输到服务器端进行文件录制时，基本没有音视频同步保证机制。这样，现有的视频业务依赖于发送端的音频设备和视频设备的同步处理或者依赖于传输管道来保证音视频流的同步。

而在实时视频通话过程中，发送端音频和视频采用不同的设备进行录制，比如音频采用外置MIC，视频采用外置摄像头，两个不同的设备产生的数据流无法严格保证音视频数据同步。也就是说，发送端无法确保：发送音视频数据时音视频流的完全同步。并且，传输管道的复杂性也容易导致音频或视频数据包丢失。而在服务器端进行相应文件录制时(比如采用MP4方式)，不管数据是否丢失，都会按序存储下来。这样，在音视频数据传输到服务器端时，如果服务器端在进行相应文件录制时不做音视频同步处理，就会由于中间发生音频或视频数据包丢失，而导致所录制的文件内容本身引入了音视频不同步的问题，从而导致相应文件播放时出现严重的音视频不同步问题，进而影响文件回放时的用户感知。

发明内容

有鉴于此，本发明的主要目的在于提供一种音视频同步方法和装置，能够有效解决实时视频业务中的录像文件播放时音视频不同步的问题。

为了达到上述目的，本发明提出的技术方案为：

一种音视频同步方法，包括：

在进行实时视频业务时，服务器根据接收到的数据帧的类型，确定是否需要进行音视频同步处理；

当需要进行音视频同步处理时，所述服务器采用预设的同步原则，对接收到的音频数据帧和视频数据帧进行同步处理，将同步处理后的视频数据帧以及对应的音频数据帧，保存至相应的文件中；其中，所述同步原则为当音频数据帧丢失时，相应地补偿语音静默帧，当视频数据帧丢失时，丢弃相应的音频数据帧；

当不需要进行音视频同步处理时，所述服务器将接收到的所有数据帧，直接保存至相应的文件中。

较佳地，所述确定是否需要进行音视频同步处理包括：

在接收到所述实时视频业务的首个数据帧之后，当该首个数据帧的缓存时长未达到预设的最大缓存时长时，如果所述服务器接收到与所述首个数据帧不同类型的数据帧，则确定需要进行音视频同步处理；当该首个数据帧的缓存时长达到所述最大缓存时间时，如果所述服务器未曾接收到与该首个数据帧不同类型的数据帧，则确定不需要进行音视频同步处理。

较佳地，所述服务器采用预设的同步原则，对所接收到的音频数据帧和视频数据帧进行同步处理包括：

所述服务器按照网络时间协议NTP时间的升序，对已接收到的视频数据帧和音频数据帧分别进行排序，得到视频数据帧缓存队列和音频数据帧缓存队列；

当接收到新的数据帧时，按照数据帧的NTP时间和数据帧类型，将该新的数据帧，增加到相应类型的所述视频数据帧缓存队列或所述音频数据帧缓存队列中；

依次对于所述视频数据帧缓存队列中的每个视频数据帧S_i，按照所述同步原则，利用当前所述音频数据帧缓存队列，为该视频数据帧S_i确定对应的音频数据帧；其中，为该视频数据帧S_i确定对应的音频数据帧包括：

x1、将所述音频数据帧缓存队列中未匹配到视频数据帧的首个音频数据帧作为当前的候选音频数据帧；

x2、如果当前的候选音频数据帧的NTP时间t_a小于所述视频数据帧S_i的NTP时间t₀，则将所述候选音频数据帧从所述音频数据帧缓存队列中删除，返回步骤x1；

x3、如果所述t_a等于所述t₀，则将所述处于队首的音频数据帧确定为与所述视频数据帧S_i对应的音频数据帧；

x4、如果所述t_a大于所述t₀，则在所述音频数据帧缓存队列中所述候选音频数据帧之前增加一个语音静默帧，作为与所述视频数据帧Si对应的音频数据帧。

较佳地，所述方法进一步包括：

所述服务器在接收到所述数据帧时，根据所述数据帧对应的发送报告，计算所述数据帧的NTP时间。

一种音视频同步装置，设置于服务器中，包括：处理器，所述处理器用于：

在进行实时视频业务时，根据接收到的数据帧的类型，确定是否需要进行音视频同步处理；

当需要进行音视频同步处理时，采用预设的同步原则，对接收到的音频数据帧和视频数据帧进行同步处理，将同步处理后的视频数据帧以及对应的音频数据帧，保存至相应的文件中；其中，所述同步原则为当音频数据帧丢失时，相应地补偿语音静默帧，当视频数据帧丢失时，丢弃相应的音频数据帧；

较佳地，所述处理器具体用于：确定是否需要进行音视频同步处理，包括：

在接收到所述实时视频业务的首个数据帧之后，当该首个数据帧的缓存时长未达到预设的最大缓存时长时，如果接收到与所述首个数据帧不同类型的数据帧，则确定需要进行音视频同步处理；当该首个数据帧的缓存时长达到所述最大缓存时间时，如果未曾接收到与该首个数据帧不同类型的数据帧，则确定不需要进行音视频同步处理。

较佳地，所述处理器具体用于：采用预设的同步原则，对所接收到的音频数据帧和视频数据帧进行同步处理，包括：

按照网络时间协议NTP时间的升序，对已接收到的视频数据帧和音频数据帧分别进行排序，得到视频数据帧缓存队列和音频数据帧缓存队列；

较佳地，所述处理器进一步用于：

在接收到所述数据帧时，根据所述数据帧对应的实时传输控制协议发送报告RTCPSR，计算所述数据帧的NTP时间。

本申请还公开了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如前所述的音视频同步方法的步骤。

本申请还公开了一种电子设备，包括如前所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

由上述技术方案可见，本申请提出的音视频同步方法和装置，在进行实时视频业务时，服务器根据接收到的数据帧的类型，确定是否需要进行音视频同步处理；当需要进行音视频同步处理时，所述服务器采用预设的同步原则，对接收到的音频数据帧和视频数据帧进行同步处理，将同步处理后的视频数据帧以及对应的音频数据帧，保存至相应的文件中；其中，所述同步原则为当音频数据帧丢失时，相应地补偿语音静默帧，当视频数据帧丢失时，丢弃相应的音频数据帧；当不需要进行音视频同步处理时，所述服务器将接收到的所有数据帧，直接保存至相应的文件中。如此，能够有效解决实时视频业务中的录像文件播放时音视频不同步的问题。

附图说明

图1为本发明实施例的方法流程示意图。

具体实施方式

为使本申请的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本申请作进一步详细说明。

图1为本发明实施例的流程示意图，如图1所示，该实施例实现的音视频同步方法，主要包括：

步骤101、在进行实时视频业务时，服务器根据接收到的数据帧的类型，确定是否需要进行音视频同步处理。

本步骤中，在进行实时视频业务的过程中，服务器接收到数据帧后不会直接将其保存至文件中，而是需要根据所接收的数据帧的类型，来判断是否需要进行音视频同步处理，以保障所录制的文件在播放时能够获得音视频同步的效果。

这里，在具体确定是否需要进行音视频同步处理时，将需要根据接收到的数据帧的类型数量，当仅接收到一种类型的数据帧，即仅接收到音频数据帧，或仅接收到视频数据帧时，说明此时的实时视频业务仅需要传输音频或仅需要传输视频，此时，不存在进行音视频同步的需求，因此，将确定当前不需要进行音视频同步处理。而当接收到两种类型的数据帧时，说明此时的实时视频业务即涉及音频数据的传输又涉及视频数据的传输，需要确保两种数据的同步，因此，将确定当前需要进行音视频同步处理。

较佳地，基于上述思想，可以采用下述方法确定是否需要进行音视频同步处理：

需要说明的是，本发明实施例中，当服务器接收到数据帧后，会和现有方案一样，需要缓存所接收的数据帧。和现有方案所不同的是：当接收到的首个数据帧的缓存时长没有达到预设的最大缓存时长时，如果接收到与该首个数据帧不同类型的数据帧，则说明当前进行的实时视频业务即存在音频的传输，还存在视频的传输，因此，此时需要触发对该实时视频业务的数据帧进行音视频同步处理。

所述最大缓存时长具体可由本领域技术人员根据实际需要进行设置合适取值，只要能够确保对是否需要进行音视频同步处理进行准确识别即可。

步骤102、当需要进行音视频同步处理时，所述服务器采用预设的同步原则，对接收到的音频数据帧和视频数据帧进行同步处理，将同步处理后的视频数据帧以及对应的音频数据帧，保存至相应的文件中，其中，所述同步原则为当音频数据帧丢失时，相应地补偿语音静默帧，当视频数据帧丢失时，丢弃相应的音频数据帧。当不需要进行音视频同步处理时，所述服务器将接收到的所有数据帧，直接保存至相应的文件中。

步骤102中，当在步骤101中确定需要进行音视频同步处理时，将基于所述同步原则，即当音频数据帧丢失时，相应地补偿语音静默帧，当视频数据帧丢失时，丢弃相应的音频数据帧，对接收到的音频数据帧和视频数据帧进行同步处理。上述同步原则的提出，是考虑到音频帧的丢失对用户的观看体验影响不大，而视频帧的丢失则可能会导致出现花屏，对用户的观看体验影响很大。采用上述同步原则，以视频帧为基准，可以确保接收到的视频帧都有对应的音频帧，从而可以有效保障相应文件播放时用户的观看效果。这样，在网络状况变差或终端侧利用不同设备采集音、视频数据时，如果服务器侧出现：接收到的音频数据帧和视频数据帧不同步，利用上述方法也可以避免该不同步被引入到相应的录像文件中，从而确保了相应录像文件的正常播放。

较佳地，本步骤中，所述服务器可以采用下述方法对所接收到的音频数据帧和视频数据帧进行同步处理：

所述服务器按照网络时间协议(NTP)时间的升序，对已接收到的视频数据帧和音频数据帧分别进行排序，得到视频数据帧缓存队列和音频数据帧缓存队列；

上述方法中，需要按照数据帧的NTP时间以及数据帧的类型，将接收的数据帧插入到相应类型的数据帧缓存队列中，以便以视频数据帧缓存队列为基准，利用音频数据帧缓存队列中的音频数据帧，为视频数据帧缓存队列中的每个视频数据帧确定相应的音频数据帧。

如果所述t_a小于所述t₀，说明与候选音频数据帧对应的视频数据帧丢失，此时，需要丢弃该候选音频数据帧，即：将所述候选音频数据帧从所述音频数据帧缓存队列中删除，以避免音频数据帧造成的音视频数据的不同步。

如果所述t_a大于所述t₀，说明与视频数据帧Si对应的音频数据帧丢失，此时，需要增加一个语音静默帧作为补偿，以确保画面的完整性。

本步骤中，当视频数据帧确定了相应的音频数据帧后，将会与对应的音频数据帧一起被保存至相应的录像文件中，这样，由于录像文件中的视频数据帧和音频数据帧在时间上是同步的，因此，即使服务器接收到的音视频数据不同步，仍然可以确保所录制的相应文件中的音视频数据同步，从而避免了文件播放时音视频失步问题的出现。

和现有协议一样，本发明实施例中，服务器在接收到所述数据帧时，会根据所述数据帧对应的发送报告，计算所述数据帧的NTP时间。

所述数据帧的NTP时间，即发送端发送该数据帧时的时间，具体计算方法同现有协议，具体如下：

服务器在收到音视频对应的实时传输控制协议发送报告(RTCP SR包)时，会分别计算对应音频包和视频包的NTP时间：

1、ntpTimeA为当前音频包对应的NTP时间，即发送端发送音频包时的时间，计算方式如下：

ntpTimeA＝mNTPAnchorA+(rtpTimeA-mRTPAnchorA)/mTimeScaleA

2、ntpTimeV为当前视频包对应的NTP时间，即发送端发送视频包时的时间，计算方式如下：

ntpTimeV＝mNTPAnchorV+(rtpTimeV-mRTPAnchorV)/mTimeScaleV

其中，

rtpTimeA为当前音频包携带的RTP时间戳

rtpTimeV为当前视频包携带的RTP时间戳

mRTPAnchorA为音频包对应参考的RTCP SR包里面携带的RTP时间戳；

mRTPAnchorV为视频包对应参考的RTCP SR包里面携带的RTP时间戳；

mTimeScaleA为一秒内的音频采样点数量，默认8000；

mTimeSacaleV为一秒内的视频采样点数量，默认90000；

mNTPAnchorA为音频包对应参考的RTCP SR包里面携带的NTP系统时间；

mNTPAnchorV为视频包对应参考的RTCP SR包里面携带的NTP系统时间。

一个数据帧的NTP时间由其对应的数据包的NTP时间决定。具体而言，一个音频数据帧由一个音频数据包携带，相应的，音频数据帧的NTP时间即为该音频数据包的NTP时间；一个视频数据帧可能由多个数据包携带，其中每个数据包携带的RTP时间戳相同，相应的，其中每个数据包对应的NTP时间也相同，因此，视频数据帧的NTP时间与其对应的任一音频数据包的NTP时间相同。

与上述方法实施例相对应，本申请还提供了一种音视频同步装置，设置于服务器中，包括：处理器，所述处理器用于：

较佳地，所述处理器进一步用于：

此外，本申请还提供了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如前所述的音视频同步方法的步骤。

此外，本申请还提供了一种电子设备，包括如上所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种音视频同步方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于：所述确定是否需要进行音视频同步处理包括：

3.如权利要求1所述的方法，其特征在于：所述服务器采用预设的同步原则，对所接收到的音频数据帧和视频数据帧进行同步处理包括：

4.如权利要求1所述的方法，其特征在于：所述方法进一步包括：

5.一种音视频同步装置，其特征在于，设置于服务器中，包括：处理器，所述处理器用于：

6.如权利要求5所述的装置，其特征在于，所述处理器具体用于：确定是否需要进行音视频同步处理，包括：

7.如权利要求5所述的装置，其特征在于，所述处理器具体用于：采用预设的同步原则，对所接收到的音频数据帧和视频数据帧进行同步处理，包括：

8.如权利要求5所述的装置，其特征在于，所述处理器进一步用于：

在接收到所述数据帧时，根据所述数据帧对应的实时传输控制协议发送报告RTCP SR，计算所述数据帧的NTP时间。

9.一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至4中任一项所述的音视频同步方法的步骤。

10.一种电子设备，其特征在于，包括如权利要求9所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。