CN108881992A - 一种多媒体音视频数据同步计算方法 - Google Patents

一种多媒体音视频数据同步计算方法 Download PDF

Info

Publication number
CN108881992A
CN108881992A CN201810742359.4A CN201810742359A CN108881992A CN 108881992 A CN108881992 A CN 108881992A CN 201810742359 A CN201810742359 A CN 201810742359A CN 108881992 A CN108881992 A CN 108881992A
Authority
CN
China
Prior art keywords
audio
video
test
time
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810742359.4A
Other languages
English (en)
Inventor
单春芳
章晓晓
赵建华
徐晓峰
李夏宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GRANDSTREAM NETWORKS Inc
SHENZHEN GRANDSTREAM NETWORKS TECHNOLOGY Co Ltd
Original Assignee
GRANDSTREAM NETWORKS Inc
SHENZHEN GRANDSTREAM NETWORKS TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GRANDSTREAM NETWORKS Inc, SHENZHEN GRANDSTREAM NETWORKS TECHNOLOGY Co Ltd filed Critical GRANDSTREAM NETWORKS Inc
Priority to CN201810742359.4A priority Critical patent/CN108881992A/zh
Publication of CN108881992A publication Critical patent/CN108881992A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Circuits (AREA)

Abstract

本发明披露了一种多媒体音视频数据同步计算方法,包括:步骤a:分别制作用于音频视频同步测试的音频素材和视频素材,将音频素材和视频素材合成生成音视频同步测试文件;步骤b:第一测试电脑和第二测试电脑的建立测试通讯连接,将音视频同步测试文件发送至第二测试电脑,第一测试电脑播放音视频同步测试文件,同时第一测试电脑在测试通讯软件中开启摄像头,用于获取自身播放的音视频数据;步骤c:第二测试电脑在测试通讯软件中查看视频和听取声音,把声音转化为可视化波形图,截取同一时刻的可视化波形图和测试通讯软件中播放的视频,计算音视频时间差值。通过本发明方法可以计算出音视频时长客观真实情况,为优化音视频同步提供准确可靠的依据。

Description

一种多媒体音视频数据同步计算方法
技术领域
本发明属于多媒体领域,尤其涉及通讯软件中的多媒体音视频数据同步计算技术。
背景技术
网络通信多样化的今天,音视频同步是最直观用户体验,由于不同的人群对听到的音频对应到实际播放的视频中感受到的不同步时间会存在差异,对听觉和视觉较灵敏的人群会感受到不同步的时间比较大,那感受产品的音视频同步的质量也比较差,而对听觉和视觉不灵敏的人群,体验也会不一样。
现在技术中,有些基于RTCP发送者报文的RTP时间戳和NTP时间戳来实现音视频同步,并不能反映用户实际听到的音频和看到的视频存在多大的不同步,有些需借助特定辅助设备来计算音视频同步时间差,存在安全风险。
发明内容
本发明目的在于提供一种多媒体音视频数据同步计算方法,通过自制音视频同步测试素材、测试电脑端对实际播放的音视频数据的采集,以实现声音和视频的同步时长计算。
为了实现本发明目的,公开了一种多媒体音视频数据同步计算方法,具体包括以下步骤:步骤a:分别制作用于音频视频同步测试的音频素材和视频素材,同时,将音频素材和视频素材合成到同一个文件中,生成音视频同步测试文件;步骤b:第一测试电脑和第二测试电脑的建立测试通讯连接,将音视频同步测试文件发送至第二测试电脑,第一测试电脑播放音视频同步测试文件,同时第一测试电脑在测试通讯软件中开启摄像头,用于获取自身播放的音视频数据;步骤c:第二测试电脑在测试通讯软件中查看视频和听取声音,把声音转化为可视化波形图,截取同一时刻的可视化波形图和测试通讯软件中播放的视频,计算音视频时间差值。
优选的,上述视频素材按帧率F进行分解,每秒第一张图片标记为视频素材V,并依序对视频素材V进行数字标识,视频素材V带有对应时间下的音频素材。
优选的,上述音频素材制作过程为:通过录音机录制数字声音,每个数字保存为一个声音文件,同时,对所述声音文件进行波形处理,去除噪音、拖音用以保留发声清晰的数字音的波形图。
优选的,用音视频合成工具合成音视频同步测试文件,在视频轨道中,每秒依序均匀放置F张所述视频素材;在音频轨道中,将数字标识的视频素材V放置对应的音频素材。且音频轨道中每一个音频素材的时长和视频轨道中的视频素材V的时长需一致。
优选的,上述步骤b中,第一测试电脑接收到音视频同步测试文件后,将系统的立体声混音作为默认声卡,并在测试通讯软件中将立体声混音作为声音设备。
优选的,上述步骤c中,第二测试电脑通过cool edit pro工具将第二测试电脑听到的声音转化为可视化的波形图。
优选的,上述步骤c中,查看截图中视频图像的时间信息:00:S1:N,计算Video_time = (N -1)*1000/F,将截图中cool edit pro显示的时间记为T1,将最近有声音的波形,听取的数字记为S2,波形中间点的时间记为T2,计算音频时长为Audio_time =(T1-T2)ms。
优选的,上述步骤c中,音视频不同步时间计算:如果S1 = S2,则△time =Video_time - Audio_time,差值为负,表示视频比音频快,差值为正,表示音频比视频快;如果S1>S2,表示视频比音频慢,则△time = (S1*1000+Video_time)-(S2*1000+Audio_time);如果S1<S2,表示视频比音频快,则△time = (S2*1000+Audio_time)-(S1*1000+Video_time)。
本发明通过自己制作音视频同步测试文件,源端发送该视频和音频的内容,接收端同时采集视频图像及音频信息,根据视频图像计算视频时长,将音频信息转化为声音波长来计算音频时长,两者差值为音视频不同步时间。
本发明提供的方法可以客观计算出接收端的音视频同步的情况,对后续音视频同步优化设置提供准确的数据。
附图说明
图1 是本发明具体实施例中音视频数据同步计算方法架构示意图。
具体实施方式
本发明的基本原理:本发明通过自制音视频同步测试素材,通讯软件的发送端发送该自制测试素材,通讯软件的接收端采集视频图像及音频信息,根据视频图像计算视频的时长,并推算出预期的音频时长,将实际采集到的音频信息转化为声音波长计算实际的音频时长,预期时长和实际时长两者差值为音视频不同步时间。
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是此时所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了方便描述,附图中仅示出于本发明相关的部分而非全部结构。
图1 是本发明具体实施例中音视频数据同步计算方法架构示意图。
步骤1:制作音视频同步测试时需要的视频素材,用于源发送端使用:先用python脚本生成300张带有数字编号、帧率、时间、以及每秒第一张带有特殊标记的图片;
素材信息说明:frame表示1秒播放多少张图片(可以自定义);time分别表示分:秒:帧率。V表示此张图片带有我们需要关注的声音信息,每秒的第一张图片均会带有声音信息,因此在每秒的第一张图片中都会带上V的特殊标记;图片中数字表示第几张图片,从1开始,我们制作10秒的素材,帧率F为30fps(即:每秒30张图片),总共300张图片;
步骤2:制作音视频同步测试时需要的音频素材:用电脑自带的录音机录制1到10的数字声音,每一个数字保存为一个文件,使用音频工具对每一个声音文件进行波形处理,仅保留发声为比较清晰的数字音的波形图,去除声音以外的其他音,如噪音、拖音等,使得声音短暂并清晰。
步骤3:合成音频和视频素材到同一个文件中:用音视频合成工具合成音视频素材,在视频轨道中将步骤1生成的视频素材每秒均匀放置30张图片,依次将数字为1到300的图片按顺序放入。将步骤2中制作好的音频素材,按顺序在音频轨道中,在每张带有“V”的图片下放置相应音频素材文件,如第一秒中带有“V”的图片下放置声音是1的音频文件,第二秒钟带有“V”的图片下放置声音是2的音频文件,音频轨道中每一个音频文件的时长和在视频轨道中带有“V”图片的时长一致,均为60s/30d的时间,所有的音频文件和视频文件都放置好后,导出为MP4文件,该音视频同步测试文件即为音视频同步测试需要使用的素材。
步骤4:准备2台测试电脑A、B,A电脑用于发送源端的音视频数据,包括声音和视频数据,B电脑用于接收视频数据,也就是接收A电脑的声音和接收A电脑的视频。A电脑的声音采集步骤3中导出的音视频同步素材中的声音,A的摄像头采集音视频同步素材中的视频。
具体步骤包括:将音视频同步测试文件放入A电脑,A电脑将系统的立体声混音作为默认声卡,并在测试通讯软件中将立体声混音作为声音设备。A播放音视频同步的素材,并在通讯软件中打开摄像头,将摄像头对准A电脑正在播放的音视频同步的素材上。B电脑在测试通讯软件中查看视频和听取声音,通过cool edit pro工具将B电脑听到的声音转化为可视化的波形图。
步骤5:将步骤4中可视化波形图以及待测通讯软件中看到的视频均放置在桌面上并均可见,在某个时间点,在电脑B上按Print Screen同时截下视频跟音频的可视化波形图,并保存截图;
步骤6:计算视频跟音频时长:
视频时长计算:查看截图里视频图像的time信息,00:S1:N,Video_time = (N -1)*1000/30,单位:毫秒;
音频时长计算:查看截图里cool edit pro显示的时间,记为T1,找到最近有声音的波形,听取的数字记为S2,波形中间点的时间记为T2,音频时长为Audio_time =(T1-T2)ms。
步骤7:计算音视频不同步的时间:
音视频不同步时间计算:如果S1 = S2,则△time =Video_time - Audio_time,差值为负,表示视频比音频快,差值为正,表示音频比视频快;如果S1>S2,表示视频比音频慢,则△time = (S1*1000+Video_time)-(S2*1000+Audio_time),单位ms;如果S1<S2,表示视频比音频快,则△time = (S2*1000+Audio_time)-(S1*1000+Video_time),单位ms。
注意,上述仅为本发明的较佳实施例以及所运用技术原理。本领域技术人员会理解,本发明不限于所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。 因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种多媒体音视频数据同步计算方法,其特征在于,具体包括以下步骤:
步骤a:分别制作用于音频视频同步测试的音频素材和视频素材,同时,将所述音频素材和所述视频素材合成到同一个文件中,生成音视频同步测试文件;
步骤b:第一测试电脑和第二测试电脑的建立测试通讯连接,将所述音视频同步测试文件发送至所述第二测试电脑,所述第一测试电脑播放所述音视频同步测试文件,同时所述第一测试电脑在测试通讯软件中开启摄像头,用于获取自身播放的音视频数据;
步骤c:所述第二测试电脑在所述测试通讯软件中查看视频和听取声音,把所述声音转化为可视化波形图,截取同一时刻的所述可视化波形图和所述测试通讯软件中播放的视频,计算音视频时间差值。
2.根据权利要求1所述的方法,其特征在于,在所述步骤a中,所述视频素材按帧率F进行分解,每秒第一张图片标记为视频素材V,并依序对所述视频素材V进行数字标识,所述视频素材V带有对应时间下的所述音频素材。
3.根据权利要求2所述的方法,其特征在于,在所述步骤a中,所述音频素材制作过程为:通过录音机录制数字声音,每个数字保存为一个声音文件,同时,对所述声音文件进行波形处理,去除噪音、拖音用以保留发声清晰的数字音的波形图。
4.根据权利要求3所述的方法,其特征在于,在所述步骤a中,还包括:用音视频合成工具合成所述音视频同步测试文件,在视频轨道中,每秒依序均匀放置F张所述视频素材。
5.根据权利要求4所述的方法,其特征在于,在所述步骤a中,还包括:在音频轨道中,将所述数字标识的视频素材V放置对应的音频素材。
6.根据权利要求5所述的方法,其特征在于,所述步骤a中,所述音频轨道中每一个音频素材的时长和所述视频轨道中的所述视频素材V的时长需一致。
7.根据权利要求6所述的方法,其特征在于,所述步骤b中,所述第一测试电脑接收到所述音视频同步测试文件后,将系统的立体声混音作为默认声卡,并在所述测试通讯软件中将立体声混音作为声音设备。
8.根据权利要求7所述的方法,其特征在于,所述步骤c中,所述第二测试电脑通过cooledit pro工具将所述第二测试电脑听到的声音转化为可视化的波形图。
9.根据权利要求8所述的方法,其特征在于,所述步骤c中,查看所述截图中视频图像的时间信息:00:S1:N,计算Video_time = (N -1)*1000/F,将所述截图中cool edit pro显示的时间记为T1,将最近有声音的波形,听取的数字记为S2,波形中间点的时间记为T2,计算音频时长为Audio_time =(T1-T2)ms。
10.根据权利要求9所述的方法,其特征在于,所述步骤c中,音视频不同步时间计算:如果S1 = S2,则△time =Video_time - Audio_time,差值为负,表示视频比音频快,差值为正,表示音频比视频快;如果S1>S2,表示视频比音频慢,则△time = (S1*1000+Video_time)-(S2*1000+Audio_time);如果S1<S2,表示视频比音频快,则△time = (S2*1000+Audio_time)-(S1*1000+Video_time)。
CN201810742359.4A 2018-07-09 2018-07-09 一种多媒体音视频数据同步计算方法 Pending CN108881992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810742359.4A CN108881992A (zh) 2018-07-09 2018-07-09 一种多媒体音视频数据同步计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810742359.4A CN108881992A (zh) 2018-07-09 2018-07-09 一种多媒体音视频数据同步计算方法

Publications (1)

Publication Number Publication Date
CN108881992A true CN108881992A (zh) 2018-11-23

Family

ID=64299791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810742359.4A Pending CN108881992A (zh) 2018-07-09 2018-07-09 一种多媒体音视频数据同步计算方法

Country Status (1)

Country Link
CN (1) CN108881992A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871465A (zh) * 2019-01-31 2019-06-11 北京字节跳动网络技术有限公司 一种时间轴计算方法、装置、电子设备及存储介质
WO2020140478A1 (zh) * 2019-01-03 2020-07-09 李庆成 音视图数据的播放方法
CN112866893A (zh) * 2020-12-23 2021-05-28 广东思派康电子科技有限公司 一种测试蓝牙耳机音频时延的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103219029A (zh) * 2013-03-25 2013-07-24 广东欧珀移动通信有限公司 自动调节音视频同步的方法和系统
CN103313089A (zh) * 2012-03-16 2013-09-18 三洋科技中心(深圳)有限公司 音唇同步检测装置及方法
WO2015013752A1 (en) * 2013-08-01 2015-02-05 Brennan Broadcast Group Pty Ltd Synchronisation of video and audio capture
CN105100794A (zh) * 2014-05-13 2015-11-25 深圳Tcl新技术有限公司 音视频同步测试方法及装置
CN105898505A (zh) * 2016-04-27 2016-08-24 北京小米移动软件有限公司 视频即时通讯中测试音视频同步的方法、装置及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103313089A (zh) * 2012-03-16 2013-09-18 三洋科技中心(深圳)有限公司 音唇同步检测装置及方法
CN103219029A (zh) * 2013-03-25 2013-07-24 广东欧珀移动通信有限公司 自动调节音视频同步的方法和系统
WO2015013752A1 (en) * 2013-08-01 2015-02-05 Brennan Broadcast Group Pty Ltd Synchronisation of video and audio capture
CN105100794A (zh) * 2014-05-13 2015-11-25 深圳Tcl新技术有限公司 音视频同步测试方法及装置
CN105898505A (zh) * 2016-04-27 2016-08-24 北京小米移动软件有限公司 视频即时通讯中测试音视频同步的方法、装置及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020140478A1 (zh) * 2019-01-03 2020-07-09 李庆成 音视图数据的播放方法
CN109871465A (zh) * 2019-01-31 2019-06-11 北京字节跳动网络技术有限公司 一种时间轴计算方法、装置、电子设备及存储介质
CN109871465B (zh) * 2019-01-31 2021-04-20 北京字节跳动网络技术有限公司 一种时间轴计算方法、装置、电子设备及存储介质
CN112866893A (zh) * 2020-12-23 2021-05-28 广东思派康电子科技有限公司 一种测试蓝牙耳机音频时延的方法

Similar Documents

Publication Publication Date Title
US9055382B2 (en) Calibration of headphones to improve accuracy of recorded audio content
US8339458B2 (en) Technique for allowing the modification of the audio characteristics of items appearing in an interactive video using RFID tags
CN108881992A (zh) 一种多媒体音视频数据同步计算方法
Bates et al. Comparing ambisonic microphones–part 1
Fraj et al. Development and perceptual assessment of a synthesizer of disordered voices
Davis et al. Audio-visual speech perception off the top of the head
Nicol et al. A roadmap for assessing the quality of experience of 3D audio binaural rendering
CN113207009B (zh) 音视频交互系统音画失步的测试方法、装置及系统
Wang et al. Speaking rhythmically improves speech recognition under “cocktail-party” conditions
Miner et al. Computational requirements and synchronization issues for virtual acoustic displays
CN107785037A (zh) 使用音频时间码同步媒体内容的方法、系统和介质
CN109830247A (zh) 用于测试通话质量的方法和装置
Kishline et al. A multimedia speech corpus for audio visual research in virtual reality (l)
CN106205573B (zh) 一种音频数据处理方法和装置
Comanducci et al. Investigating networked music performances in pedagogical scenarios for the intermusic project
CN107968942B (zh) 一种直播平台音视频时间差测量方法与系统
KR100623214B1 (ko) 음성 및 오디오신호의 실시간 품질 분석기
US7015947B1 (en) Measurement of performance of communications systems
US20200111475A1 (en) Information processing apparatus and information processing method
Fielder Dynamic-range requirement for subjectively noise-free reproduction of music
Suzuki et al. AnnoTone: Record-time audio watermarking for context-aware video editing
Cuevas-Rodriguez et al. Evaluation of the effect of head-mounted display on individualized head-related transfer functions
Hiselius et al. To measure the impact of hearing protectors on the perception of speech in noise
JP2008258837A (ja) デジタルデータの送信装置,受信装置及び送受信システム
Goyal et al. A comparative study of audio latency feature of Motorola and Samsung mobile phones in forensic identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181123