CN108881992A

CN108881992A - 一种多媒体音视频数据同步计算方法

Info

Publication number: CN108881992A
Application number: CN201810742359.4A
Authority: CN
Inventors: 单春芳; 章晓晓; 赵建华; 徐晓峰; 李夏宾
Original assignee: GRANDSTREAM NETWORKS Inc; SHENZHEN GRANDSTREAM NETWORKS TECHNOLOGY Co Ltd
Current assignee: GRANDSTREAM NETWORKS Inc; SHENZHEN GRANDSTREAM NETWORKS TECHNOLOGY Co Ltd
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2018-11-23

Abstract

本发明披露了一种多媒体音视频数据同步计算方法，包括：步骤a：分别制作用于音频视频同步测试的音频素材和视频素材，将音频素材和视频素材合成生成音视频同步测试文件；步骤b：第一测试电脑和第二测试电脑的建立测试通讯连接，将音视频同步测试文件发送至第二测试电脑,第一测试电脑播放音视频同步测试文件，同时第一测试电脑在测试通讯软件中开启摄像头，用于获取自身播放的音视频数据；步骤c：第二测试电脑在测试通讯软件中查看视频和听取声音，把声音转化为可视化波形图，截取同一时刻的可视化波形图和测试通讯软件中播放的视频，计算音视频时间差值。通过本发明方法可以计算出音视频时长客观真实情况，为优化音视频同步提供准确可靠的依据。

Description

一种多媒体音视频数据同步计算方法

技术领域

本发明属于多媒体领域，尤其涉及通讯软件中的多媒体音视频数据同步计算技术。

背景技术

网络通信多样化的今天，音视频同步是最直观用户体验，由于不同的人群对听到的音频对应到实际播放的视频中感受到的不同步时间会存在差异，对听觉和视觉较灵敏的人群会感受到不同步的时间比较大，那感受产品的音视频同步的质量也比较差，而对听觉和视觉不灵敏的人群，体验也会不一样。

现在技术中，有些基于RTCP发送者报文的RTP时间戳和NTP时间戳来实现音视频同步，并不能反映用户实际听到的音频和看到的视频存在多大的不同步，有些需借助特定辅助设备来计算音视频同步时间差，存在安全风险。

发明内容

本发明目的在于提供一种多媒体音视频数据同步计算方法，通过自制音视频同步测试素材、测试电脑端对实际播放的音视频数据的采集，以实现声音和视频的同步时长计算。

为了实现本发明目的，公开了一种多媒体音视频数据同步计算方法，具体包括以下步骤：步骤a：分别制作用于音频视频同步测试的音频素材和视频素材，同时，将音频素材和视频素材合成到同一个文件中，生成音视频同步测试文件；步骤b：第一测试电脑和第二测试电脑的建立测试通讯连接，将音视频同步测试文件发送至第二测试电脑,第一测试电脑播放音视频同步测试文件，同时第一测试电脑在测试通讯软件中开启摄像头，用于获取自身播放的音视频数据；步骤c：第二测试电脑在测试通讯软件中查看视频和听取声音，把声音转化为可视化波形图，截取同一时刻的可视化波形图和测试通讯软件中播放的视频，计算音视频时间差值。

优选的，上述视频素材按帧率F进行分解，每秒第一张图片标记为视频素材V，并依序对视频素材V进行数字标识，视频素材V带有对应时间下的音频素材。

优选的，上述音频素材制作过程为：通过录音机录制数字声音，每个数字保存为一个声音文件，同时，对所述声音文件进行波形处理，去除噪音、拖音用以保留发声清晰的数字音的波形图。

优选的，用音视频合成工具合成音视频同步测试文件，在视频轨道中，每秒依序均匀放置F张所述视频素材；在音频轨道中，将数字标识的视频素材V放置对应的音频素材。且音频轨道中每一个音频素材的时长和视频轨道中的视频素材V的时长需一致。

优选的，上述步骤b中，第一测试电脑接收到音视频同步测试文件后，将系统的立体声混音作为默认声卡，并在测试通讯软件中将立体声混音作为声音设备。

优选的，上述步骤c中，第二测试电脑通过cool edit pro工具将第二测试电脑听到的声音转化为可视化的波形图。

优选的，上述步骤c中，查看截图中视频图像的时间信息：00:S1:N，计算Video_time = (N -1)*1000/F,将截图中cool edit pro显示的时间记为T1,将最近有声音的波形，听取的数字记为S2，波形中间点的时间记为T2,计算音频时长为Audio_time =（T1-T2）ms。

优选的，上述步骤c中，音视频不同步时间计算：如果S1 = S2，则△time =Video_time - Audio_time，差值为负，表示视频比音频快，差值为正，表示音频比视频快；如果S1>S2,表示视频比音频慢，则△time = (S1*1000+Video_time)-(S2*1000+Audio_time)；如果S1<S2,表示视频比音频快，则△time = (S2*1000+Audio_time)-(S1*1000+Video_time)。

本发明通过自己制作音视频同步测试文件，源端发送该视频和音频的内容，接收端同时采集视频图像及音频信息，根据视频图像计算视频时长，将音频信息转化为声音波长来计算音频时长，两者差值为音视频不同步时间。

本发明提供的方法可以客观计算出接收端的音视频同步的情况，对后续音视频同步优化设置提供准确的数据。

附图说明

图1 是本发明具体实施例中音视频数据同步计算方法架构示意图。

具体实施方式

本发明的基本原理：本发明通过自制音视频同步测试素材，通讯软件的发送端发送该自制测试素材，通讯软件的接收端采集视频图像及音频信息，根据视频图像计算视频的时长，并推算出预期的音频时长，将实际采集到的音频信息转化为声音波长计算实际的音频时长，预期时长和实际时长两者差值为音视频不同步时间。

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是此时所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了方便描述，附图中仅示出于本发明相关的部分而非全部结构。

步骤1：制作音视频同步测试时需要的视频素材，用于源发送端使用：先用python脚本生成300张带有数字编号、帧率、时间、以及每秒第一张带有特殊标记的图片；

素材信息说明：frame表示1秒播放多少张图片(可以自定义)；time分别表示分：秒：帧率。V表示此张图片带有我们需要关注的声音信息，每秒的第一张图片均会带有声音信息，因此在每秒的第一张图片中都会带上V的特殊标记；图片中数字表示第几张图片，从1开始，我们制作10秒的素材，帧率F为30fps（即：每秒30张图片），总共300张图片；

步骤2：制作音视频同步测试时需要的音频素材：用电脑自带的录音机录制1到10的数字声音，每一个数字保存为一个文件，使用音频工具对每一个声音文件进行波形处理，仅保留发声为比较清晰的数字音的波形图，去除声音以外的其他音，如噪音、拖音等，使得声音短暂并清晰。

步骤3：合成音频和视频素材到同一个文件中：用音视频合成工具合成音视频素材，在视频轨道中将步骤1生成的视频素材每秒均匀放置30张图片，依次将数字为1到300的图片按顺序放入。将步骤2中制作好的音频素材，按顺序在音频轨道中，在每张带有“V”的图片下放置相应音频素材文件，如第一秒中带有“V”的图片下放置声音是1的音频文件，第二秒钟带有“V”的图片下放置声音是2的音频文件，音频轨道中每一个音频文件的时长和在视频轨道中带有“V”图片的时长一致，均为60s/30d的时间，所有的音频文件和视频文件都放置好后，导出为MP4文件，该音视频同步测试文件即为音视频同步测试需要使用的素材。

步骤4：准备2台测试电脑A、B，A电脑用于发送源端的音视频数据,包括声音和视频数据，B电脑用于接收视频数据，也就是接收A电脑的声音和接收A电脑的视频。A电脑的声音采集步骤3中导出的音视频同步素材中的声音，A的摄像头采集音视频同步素材中的视频。

具体步骤包括：将音视频同步测试文件放入A电脑，A电脑将系统的立体声混音作为默认声卡，并在测试通讯软件中将立体声混音作为声音设备。A播放音视频同步的素材，并在通讯软件中打开摄像头，将摄像头对准A电脑正在播放的音视频同步的素材上。B电脑在测试通讯软件中查看视频和听取声音，通过cool edit pro工具将B电脑听到的声音转化为可视化的波形图。

步骤5：将步骤4中可视化波形图以及待测通讯软件中看到的视频均放置在桌面上并均可见，在某个时间点，在电脑B上按Print Screen同时截下视频跟音频的可视化波形图，并保存截图；

步骤6：计算视频跟音频时长：

视频时长计算：查看截图里视频图像的time信息，00:S1:N，Video_time = (N -1)*1000/30,单位：毫秒；

音频时长计算：查看截图里cool edit pro显示的时间，记为T1，找到最近有声音的波形，听取的数字记为S2，波形中间点的时间记为T2，音频时长为Audio_time =(T1-T2)ms。

步骤7：计算音视频不同步的时间：

音视频不同步时间计算：如果S1 = S2，则△time =Video_time - Audio_time，差值为负，表示视频比音频快，差值为正，表示音频比视频快；如果S1>S2,表示视频比音频慢，则△time = (S1*1000+Video_time)-(S2*1000+Audio_time)，单位ms；如果S1<S2,表示视频比音频快，则△time = (S2*1000+Audio_time)-(S1*1000+Video_time)，单位ms。

注意，上述仅为本发明的较佳实施例以及所运用技术原理。本领域技术人员会理解，本发明不限于所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种多媒体音视频数据同步计算方法，其特征在于，具体包括以下步骤：

步骤a：分别制作用于音频视频同步测试的音频素材和视频素材，同时，将所述音频素材和所述视频素材合成到同一个文件中，生成音视频同步测试文件；

步骤b：第一测试电脑和第二测试电脑的建立测试通讯连接，将所述音视频同步测试文件发送至所述第二测试电脑,所述第一测试电脑播放所述音视频同步测试文件，同时所述第一测试电脑在测试通讯软件中开启摄像头，用于获取自身播放的音视频数据；

步骤c：所述第二测试电脑在所述测试通讯软件中查看视频和听取声音，把所述声音转化为可视化波形图，截取同一时刻的所述可视化波形图和所述测试通讯软件中播放的视频，计算音视频时间差值。

2.根据权利要求1所述的方法，其特征在于，在所述步骤a中，所述视频素材按帧率F进行分解，每秒第一张图片标记为视频素材V，并依序对所述视频素材V进行数字标识，所述视频素材V带有对应时间下的所述音频素材。

3.根据权利要求2所述的方法，其特征在于，在所述步骤a中，所述音频素材制作过程为：通过录音机录制数字声音，每个数字保存为一个声音文件，同时，对所述声音文件进行波形处理，去除噪音、拖音用以保留发声清晰的数字音的波形图。

4.根据权利要求3所述的方法，其特征在于，在所述步骤a中，还包括：用音视频合成工具合成所述音视频同步测试文件，在视频轨道中，每秒依序均匀放置F张所述视频素材。

5.根据权利要求4所述的方法，其特征在于，在所述步骤a中，还包括：在音频轨道中，将所述数字标识的视频素材V放置对应的音频素材。

6.根据权利要求5所述的方法，其特征在于，所述步骤a中，所述音频轨道中每一个音频素材的时长和所述视频轨道中的所述视频素材V的时长需一致。

7.根据权利要求6所述的方法，其特征在于，所述步骤b中，所述第一测试电脑接收到所述音视频同步测试文件后，将系统的立体声混音作为默认声卡，并在所述测试通讯软件中将立体声混音作为声音设备。

8.根据权利要求7所述的方法，其特征在于，所述步骤c中，所述第二测试电脑通过cooledit pro工具将所述第二测试电脑听到的声音转化为可视化的波形图。

9.根据权利要求8所述的方法，其特征在于，所述步骤c中，查看所述截图中视频图像的时间信息：00:S1:N，计算Video_time = (N -1)*1000/F,将所述截图中cool edit pro显示的时间记为T1,将最近有声音的波形，听取的数字记为S2，波形中间点的时间记为T2,计算音频时长为Audio_time =（T1-T2）ms。

10.根据权利要求9所述的方法，其特征在于，所述步骤c中，音视频不同步时间计算：如果S1 = S2，则△time =Video_time - Audio_time，差值为负，表示视频比音频快，差值为正，表示音频比视频快；如果S1>S2,表示视频比音频慢，则△time = (S1*1000+Video_time)-(S2*1000+Audio_time)；如果S1<S2,表示视频比音频快，则△time = (S2*1000+Audio_time)-(S1*1000+Video_time)。