CN112929654A - 检测音画同步的方法、装置、设备及存储介质 - Google Patents

检测音画同步的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112929654A
CN112929654A CN202110281997.2A CN202110281997A CN112929654A CN 112929654 A CN112929654 A CN 112929654A CN 202110281997 A CN202110281997 A CN 202110281997A CN 112929654 A CN112929654 A CN 112929654A
Authority
CN
China
Prior art keywords
video
image frame
audio
time point
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110281997.2A
Other languages
English (en)
Other versions
CN112929654B (zh
Inventor
徐坤辉
俞骁
罗志浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202110281997.2A priority Critical patent/CN112929654B/zh
Publication of CN112929654A publication Critical patent/CN112929654A/zh
Application granted granted Critical
Publication of CN112929654B publication Critical patent/CN112929654B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请公开了一种检测音画同步的方法、装置、设备及存储介质,属于计算机技术领域。所述方法包括:当接收到拾音设备发送的音频帧时,记录所述音频帧的音频采集时间点;当接收到摄像设备发送的视频图像帧时,将当前记录的音频采集时间点添加至所述视频图像帧得到检测图像帧;对至少一个所述检测图像帧和至少一个所述音频帧进行编码及合成操作,得到检测视频,其中所述检测图像帧在所述检测视频的播放位置具有对应的视频时间点;基于所述检测视频中同一检测图像帧的视频时间点和音频采集时间点的时间差,检测所述检测视频是否音频画面同步。采用本申请,能够提高检测画面和音频是否同步的效率。

Description

检测音画同步的方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种检测音画同步的方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,以及短视频的兴起,越来越多的视频应用程序(如短视频应用程序)越来越常见。在视频应用程序拍摄视频时,可以控制手机的摄像设备(如摄像头)进行拍摄,获取图像数据,同时控制手机的拾音设备(如麦克风)进行录制,获取音频数据,然后可以将获取的图像数据和音频数据合成视频。后续用户可以对合成的视频进行播放。
由于图像数据和音频数据是分别通过不同的设备进行获取的,如果视频应用程序在控制摄像设备获取图像数据的过程中,或在控制拾音设备获取音频数据的过程中出现了卡顿等问题,最后合成视频中可能存在声音和画面不同步的问题。
所以视频应用程序在发布之前,需要测试人员对视频应用程序拍摄视频的功能进行测试,即测试待发布的视频应用程序控制拍摄的视频是否存在声音和画面不同步的问题。在相关的检测技术中,测试人员可以通过待发布的短视频应用程序拍摄视频,然后播放视频,人工去对比播放的视频中画面和声音是否同步,例如观看视频中显示的人说话时的嘴型和播放的声音是否匹配。
在实现本申请的过程中,发明人发现现有技术至少存在以下问题:
在现有技术中,测试人员需要对视频中的画面和播放的音频进行观测,并主观判断确定待发布的视频应用程序是否存在音频和画面不同步的问题,这一过程过于繁琐,导致检测画面和音频是否同步的效率低。
发明内容
本申请实施例提供了一种检测音画同步的方法、装置、设备及存储介质,能够提高检测画面和音频是否同步的效率。所述技术方案如下:
一方面,提供了一种检测音画同步的方法,所述方法包括:
当接收到拾音设备发送的音频帧时,记录所述音频帧的音频采集时间点;
当接收到摄像设备发送的视频图像帧时,将当前记录的音频采集时间点添加至所述视频图像帧得到检测图像帧;
对至少一个所述检测图像帧和至少一个所述音频帧进行编码及合成操作,得到检测视频,其中所述检测图像帧在所述检测视频的播放位置具有对应的视频时间点;
基于所述检测视频中同一检测图像帧的视频时间点和音频采集时间点的时间差,检测所述检测视频是否音频画面同步。
可选的,所述将当前记录的音频采集时间点添加至所述视频图像帧得到检测图像帧,包括:
将所述当前记录的音频采集时间点添加到所述视频图像帧的描述数据中,得到所述检测图像帧。
可选的,所述将当前记录的音频采集时间点添加至所述视频图像帧得到检测图像帧,包括:
将所述当前记录的音频采集时间点以图像形式添加到所述视频图像帧中,得到所述检测图像帧。
可选的,所述基于所述检测视频中同一检测图像帧的视频时间点和音频采集时间点的时间差,检测所述检测视频是否音频画面同步,包括:
对于检测视频中的同一检测图像帧,确定所述检测图像帧的音频采集时间点以及所述检测图像帧在所述检测视频中的视频时间点,并确定所述音频采集时间点与所述视频时间点的时间差;
基于所述检测视频中各检测图像帧对应的时间差,检测所述检测视频是否音频画面同步。
可选的,所述基于所述检测视频中各检测图像帧对应的时间差,检测所述检测视频是否音频画面同步,包括:
确定所述检测视频中各检测图像帧对应的时间差中的最大时间差和最小时间差,并确定所述最大时间差和所述最小时间差的差值;
如果所述差值超出预设差值范围,则确定所述检测视频的音频画面不同步,如果所述差值未超出所述预设差值范围,则确定所述检测视频的音频画面同步。
另一方面,提供了一种检测音画同步的装置,其特征在于,所述装置包括:
记录模块,用于当接收到拾音设备发送的音频帧时,记录所述音频帧的音频采集时间点;
处理模块,用于当接收到摄像设备发送的视频图像帧时,将当前记录的音频采集时间点添加至所述视频图像帧得到检测图像帧;对至少一个所述检测图像帧和至少一个所述音频帧进行编码及合成操作,得到检测视频,其中所述检测图像帧在所述检测视频的播放位置具有对应的视频时间点;;
检测模块,用于基于所述检测视频中同一检测图像帧的视频时间点和音频采集时间点的时间差,检测所述检测视频是否音频画面同步。
可选的,所述处理模块,用于:
将所述当前记录的音频采集时间点添加到所述视频图像帧的描述数据中,得到所述检测图像帧。
可选的,所述处理模块,用于:
将所述当前记录的音频采集时间点以图像形式添加到所述视频图像帧中,得到所述检测图像帧。
可选的,所述检测模块,用于:
对于检测视频中的同一检测图像帧,确定所述检测图像帧的音频采集时间点以及所述检测图像帧在所述检测视频中的视频时间点,并确定所述音频采集时间点与所述视频时间点的时间差;
基于所述检测视频中各检测图像帧对应的时间差,检测所述检测视频是否音频画面同步。
可选的,所述检测模块,用于:
确定所述检测视频中各检测图像帧对应的时间差中的最大时间差和最小时间差,并确定所述最大时间差和所述最小时间差的差值;
如果所述差值超出预设差值范围,则确定所述检测视频的音频画面不同步,如果所述差值未超出所述预设差值范围,则确定所述检测视频的音频画面同步。
再一方面、提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上所述的检测音画同步的方法所执行的操作。
再一方面、提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如上所述的检测音画同步的方法所执行的操作。
本申请实施例提供的技术方案带来的有益效果是:
通过记录当前采集的音频帧的音频采集时间点,然后在采集到视频图像帧时,将当前的音频采集时间点添加至视频图像帧以得到检测图像帧,这样在每个检测图像帧中都能确定与检测图像帧在采集时间上接近的音频帧的采集时间。然后通过将得到的检测图像帧与采集的音频帧进行合成,得到检测视频,这样就可以通过对检测视频中同一检测图像帧对应的音频采集时间点进行判断,以检测合成的检测视频是否存在音频画面不同步的问题,可见本申请不需要测试人员根据视频的画面和声音进行主观的判断,能够提高检测画面和音频是否同步的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的检测音画同步的方法流程图;
图2是本申请实施例提供的检测音画同步的方法示意图;
图3是本申请实施例提供的检测音画同步的方法示意图;
图4是本申请实施例提供的检测音画同步的方法示意图;
图5是本申请实施例提供的检测音画同步的方法示意图;
图6是本申请实施例提供的检测音画同步的方法示意图;
图7是本申请实施例提供的检测音画同步的方法示意图;
图8是本申请实施例提供的检测音画同步的装置结构示意图;
图9是本申请实施例提供的终端的装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请提供的检测音画同步的方法可以由终端实现,终端具备处理器和存储器,还可具备有摄像头、麦克风等部件。终端可以通过摄像头获取图像数据,通过麦克风获取音频数据,然后通过处理器对获取的图像数据和音频数据进行处理得到视频数据,存储器可以对得到的视频数据进行存储。另外终端还可以具备有显示屏和扬声器,可以对存储器中存储的视频数据进行播放。其中,终端可以是手机、平板电脑、笔记本电脑、台式机以及各种智能设备等。
本申请提供的检测音画同步的方法可用于在视频拍摄硬件或软件发布之前,测试视频拍摄硬件或软件拍摄的视频是否存在音频和画面不同步的问题。其中,视频中音频和画面不同步指的是视频在播放时音频和画面匹配不上,例如播放视频画面中人说话的嘴型和当前播放的音频不匹配。音频和画面不同步的问题可能是由于拍摄视频的设备中处理器的处理能力较低等导致在对音频数据或图像数据进行处理时出现卡顿或延迟,或者是拍摄视频的应用程序中存在一些不确定的漏洞导致处理器在对音频数据或图像数据进行处理时出现卡顿等造成的。本申请提供的检测音画同步的方法可对终端拍摄的视频进行检测,以确定终端拍摄的视频是否存在音频和画面不同步的问题。
图1是本申请实施例提供的一种检测音画同步的方法流程图,该方法具体应用于终端的处理器。参见图1,该实施例包括:
步骤101、当接收到拾音设备发送的音频帧时,记录音频帧的音频采集时间点。
其中,该方法可以应用于终端,终端集成有拾音设备及摄像设备。在实施中,当终端开始拍摄视频之后,拾音设备开始采集音频帧,同时摄像设备开始采集视频图像帧,也就是说,终端开始同时采集音频帧与视频图像帧。
拾音设备在每采集到一帧音频帧时,可以将终端的晶体振荡器输出的时间或是终端的系统时间添加到采集的音频帧中,然后将音频帧传输至处理器进行编码处理,每当处理器接收到拾音设备采集的音频帧时,可以获取接收到的音频帧中添加的音频采集时间点,将获取的音频采集时间点进行记录。其中,可以预先设置一个音频采集时间记录模块,每当处理器接收到拾音设备采集的音频帧时,可以对音频采集时间记录模块中记录的音频采集时间点进行更新。
其中,音频采集时间记录模块可以通过以下三种方式对记录的音频采集时间点进行更新。
更新方式一:当处理器接收到拾音设备发送的第一个音频帧时,可以从第一个音频帧中获取对应的音频采集时间点,然后将对应的音频采集时间点记录到音频采集时间记录模块中。之后处理器在每次接收到拾音设备发送的音频帧时,都可以从接收的音频帧中获取对应的音频采集时间点,然后将音频采集时间记录模块中记录的音频采集时间点替换为当前获取的音频采集时间点,从而完成对音频采集时间记录模块中记录的音频采集时间点的更新。
更新方式二:当处理器接收到拾音设备发送的第一个音频帧时,可以从第一个音频帧中获取音频采集时间点,然后将对应的音频采集时间点记录到音频采集时间记录模块中。之后处理器在每次接收到拾音设备发送的音频帧时,可以将音频采集时间记录模块中记录的音频采集时间点增加预设时长,从而对音频采集时间记录模块中记录的音频采集时间点进行更新。其中,该预设时长可通过拾音设备的音频采样率确定。例如,音频帧的帧率为1000,则对应的预设时长即为1μs,这样处理器在每接收到拾音设备发送的音频帧时,音频采集时间记录模块中记录的音频采集时间点会增加1μs,作为当前接收到的音频帧的音频采集时间点。
更新方式三:在音频采集时间记录模块中记录的音频采集时间点可以是音频帧相对于视频拍摄过程的采集时间点。即终端启动视频拍摄操作后,拾音设备开始采集音频帧,摄像设备开始采集视频图像帧,此时终端的处理器可以启动一个计时器,每当处理器接收到拾音设备发送的音频帧时,音频采集时间记录模块可以将当前记录的时间更新为计时器中的计时时间,作为接收到的音频帧对应的音频采集时间点。
也就是说,前两种方式更新的音频采集时间点来源于拾音设备对音频帧采集时间的记录,但第三种方式更新的音频采集时间点基于处理器对音频帧的接收,具体是将处理器接收到音频帧的时间点作为音频采集时间点。另外,通过上述三种方式可以看出,音频采集时间点可以是绝对时间点,也可以是相对时间点。
步骤102、当接收到摄像设备发送的视频图像帧时,将当前记录的音频采集时间点添加至视频图像帧得到检测图像帧。
在实施中,摄像设备每采集到一帧视频图像帧后,可将采集到的视频图像帧发送到处理器,处理器在每接收到摄像设备发送的视频图像帧时,可以获取当前音频采集时间记录模块中记录的音频采集时间点。由于音频采集时间记录模块当前记录的是拾音设备最近一次采集到音频帧的时间点,所以在正常情况下音频采集时间记录模块中当前记录的音频采集时间点,是与处理器当前接收到的视频图像帧的采集时间点最为接近的采集时间点。如图2所示,在接收到摄像头发送的视频图像帧后,可以将当前记录的音频采集时间点添加到该当前视频图像帧中,得到检测图像帧。
可选的,将获取到的音频采集时间点添加到视频图像帧中,可通过以下两种添加方式。
添加方式一:将当前记录的音频采集时间点添加到视频图像帧的描述数据中,得到检测图像帧。
在每次接收到一个视频图像帧以及获取到当前记录的音频采集时间点(即当前音频帧的音频采集时间点)之后,可以将音频采集时间点添加到视频图像帧的描述数据中,其中,视频图像帧的描述数据可以为视频图像帧的metadata(元数据),这样就可以在视频图像帧添加与该视频图像帧在采集时间上接近的音频帧的音频采集时间点,然后可以将添加有音频采集时间点的视频图像帧作为检测图像帧进行后续的视频帧编码等。
添加方式二:将当前记录的音频采集时间点以图像形式添加到视频图像帧的图像中,得到检测图像帧。
在每次接收到视频图像帧并获取到当前记录的音频采集时间点之后,可以对视频图像帧的数据进行更新,如图3所示,可以将音频采集时间点与视频图像帧进行渲染,即在视频图像帧的画面的特定位置处添加音频采集时间点的图像,例如将视频图像的左下角位置处的像素的像素值进行更新,从而使视频图像的左下角位置处的像素组成音频采集时间点的图像。然后将渲染之后的视频图像帧作为检测图像帧进行后续的视频帧编码等。这样由检测图像帧合成的检测视频在播放时,每个检测图像帧中都可以显示有与对应检测图像帧在采集时间点上接近的音频时间点。
步骤103、对至少一个检测图像帧和至少一个所述音频帧进行编码及合成操作,得到检测视频。
其中,检测图像帧在检测视频的播放位置具有对应的视频时间点。该视频时间点即为检测图像帧在检测视频的播放位置对应的播放时间点。在实施中,在得到检测图像帧之后,可以将多个检测图像帧以及采集的多个音频帧进行合成得到包含音频帧和视频帧的一段视频,利用该段视频可以检测是否出现音画不同步的问题,因此该段视频称为检测视频。该步骤可利用现有的视频合成技术,此处不再赘述,例如将检测图像帧和采集的音频帧合成MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)格式的视频。
在合成视频过程中,处理器需要先分别对检测图像帧和音频帧进行编码,然后将编码后的检测图像帧和音频帧合成为检测视频。如果在合成视频过程中,处理器对检测图像帧进行编码产生了卡顿,或是拾音设备将音频帧传输至处理器的过程中产生了延时都可能造成合成的检测视频中存在音频画面不同步的问题。
如图4所示,图4是由于处理器对检测图像帧进行编码时产生了卡顿导致音频画面不同步问题的示意图。在拍摄视频的过程中,处理器在接收到视频图像帧A时,首先从音频采集时间记录模块获取当前记录的音频采集时间点添加到视频图像帧A中得到检测图像帧A,然后对检测图像帧A进行编码。假设如果在对检测图像帧A进行编码时产生了卡顿,则会导致检测图像帧A的编码时长增长,且在此期间内处理器可能存在丢帧问题(即可能不会对此期间内得到的检测图像帧进行编码,如图4中所示的检测图像帧A1以及检测图像帧A2并未参与编码),完成对检测图像帧A的编码后,会对当前得到的检测图像帧如检测图像帧B进行编码。编码后的检测图像帧会进一步与编码后的音频帧进行合成操作,得到包含声音以及画面的同一视频文件,该视频文件可以称为检测视频。也就是说,在检测图像帧A和检测图像帧B之间可能存在若干个检测图像帧丢失即并未参与编码合成操作,而由于对应的各个音频帧未发生丢帧,这样在最后合成的视频文件中检测图像帧B以及检测图像帧B之后的检测图像帧帧的播放时间相对于对应的音频帧的播放时间靠前,从而产生了音画不同步的问题。
如图5所示,图5是由于音频帧传输至处理器的过程中产生了延时导致音频画面不同步问题的示意图。假设拾音设备每个0.4s采集到一个音频帧,拾音设备在向处理器发送音频帧A的过程中产生了延时,这样处理器接收音频帧A的时间相对于正常接收音频帧A的时间会产生延后。而在音频帧A延时的时间段内,拾音设备仍然会采集音频帧,这样处理器在接收到音频帧A后,会立即接收到在音频帧A的延时时间段中由拾音设备采集的音频帧,如图5中的音频帧B、音频帧C。这样就导致处理器接收到音频帧A、音频帧B以及音频帧C之间的时间间隔相对于正常接收到两个音频帧的时间间隔会变短。而在合成的检测视频中,音频帧A对应的播放时间并不会由于音频A在视频拍摄过程中的延时而改变,但是会导致音频帧A、音频帧B、音频帧C对应的播放时间间隔相对于正常相邻的两个音频帧的播放时间间隔会变短。也就是说,音频B和音频帧C的播放时间,会相对正常的播放时间提前,从而产生了音画不同步的问题。如图5中所示,由于音频帧A的延时,导致音频帧B的播放时间为0.9、音频帧C的播放时间为1.0。但如果音频帧A不存在延时,则音频帧B的正常播放时间应该为1.2、音频帧C的正常播放时间应该为1.6。
步骤104、基于检测视频中同一检测图像帧的视频时间点和音频采集时间点的时间差,检测检测视频是否音频画面同步。
在实施中,在得到检测视频之后,可以通过对检测视频进行检测,确定检测视频中音频和画面是否同步,从而确定通过拍摄视频的硬件或软件是否存在音频画面不同步问题。其中,对检测视频进行检测的设备可以是用于拍摄检测视频的终端,也可以先将检测视频从拍摄检测视频的终端中导入到其他设备,例如通过无线、蓝牙等方式将检测视频导入到其他设备,然后在其他设备中根据检测视频中同一检测图像帧的视频时间点和音频采集时间点的时间差,对检测视频进行检测。
其中,同一检测图像帧并不局限于检测视频中的一个检测图像帧,可以是检测视频中的多个检测图像帧。例如可以对检测视频中多个检测图像帧分别对应的视频时间点和音频采集时间点进行求差,然后根据多个检测图像帧分别对应的时间差计算检测视频是否音频画面同步。例如,可以将多个检测图像帧对应的时间差再进行统计分析,如求平均值、求方差、求最大值与最小值之差等等,再将统计分析的值与预设的阈值进行比较,得到检测结果。
可选的,对于检测视频中的同一检测图像帧,确定检测图像帧的音频采集时间点以及检测图像帧在所述检测视频中的视频时间点,并确定音频采集时间点与视频时间点的时间差;基于检测视频中各检测图像帧对应的时间差,检测检测视频是否音频画面同步。
其中,对应上述步骤102中的将获取到的音频采集时间点添加到视频图像帧中的添加方式一,对应的检测方式可以如下:对于检测视频中的每个检测图像帧,提取检测图像帧的描述数据中的音频采集时间点,确定音频采集时间点与检测图像帧在检测视频中对应的视频时间点的时间差;基于检测视频中各检测图像帧对应的时间差,检测所述检测视频是否音频画面同步。
在实施中,如果检测视频中各检测图像帧中都添加有对应的音频采集时间点的元数据,则在得到检测视频之后,可以将检测视频中各检测图像帧的元数据中的音频采集时间点进行提取,得到各检测图像帧对应的音频采集时间点。并可以确定各检测图像帧在检测视频中对应的视频时间点。其中,该视频时间点可以为检测图像帧在检测视频中对应的播放时间点,可以通过检测视频的帧率以及视频图像帧在检测视频中的位置进行计算得到。在得到检测图像帧对应的音频采集时间点和对应的视频时间点后,可以确定各检测图像帧在检测视频中对应的视频时间点与音频采集时间点的差值。根据视频时间点与音频采集时间点的差值确定检测视频中是否存在音频画面同步条件。
例如,音频采集时间记录模块是以上述步骤101中的更新方式三更新的音频采集时间点,则可以确定检测视频中的各检测图像帧的视频播放时间点以及对应的音频采集时间点的差值,然后确定各差值是否在预设的差值范围内,如果各差值在预设的差值范围内,则可以确定检测视频不存在音画不同步的问题。
其中,对应上述步骤102中的将获取到的音频采集时间点添加到视频图像帧中的添加方式二,对应的检测音频画面不同步问题的处理可以如下:
对于检测视频中的每个检测图像帧,识别在检测图像帧中以图像形式添加的音频采集时间点,确定识别到的音频采集时间点与检测图像帧在检测视频中对应的视频时间点的时间差;基于检测视频中各检测图像帧对应的时间差,确定检测视频是否满足音频画面同步条件。
在实施中,在得到检测视频之后,可以对检测视频中检测图像帧进行图像识别,识别出以图像形式添加到检测图像帧中的音频采集时间点。其中,对检测图像帧进行图像识别可通过现有的图像识别算法实现,具体实现过程此处不再赘述。在识别到每个检测图像帧中的音频采集时间点时,可以根据每个检测图像帧在检测视频中的位置以及检测视频的帧率,计算每个检测图像帧对应的视频时间点(即播放时间点)。在得到检测图像帧对应的音频采集时间点和对应的视频时间点后,可以确定各检测图像帧在检测视频中对应的视频时间点与音频采集时间点的差值。根据视频时间点与音频采集时间点的差值确定检测视频中是否存在音频画面同步条件。
另外,还可以通过播放检测视频的方式,确定检测视频是否存在音频画面不同步的问题,相应的处理如下:
在实施中,如果检测图像帧中包括音频采集时间点的图像,则可以对检测视频进行播放,在播放时检测视频时还可以显示当前的播放时间点,可如图6所示。如果在拍摄视频的过程中,处理器对视频图像帧的编码以及对音频帧的编码没有发生卡顿,上述时间差会稳定在一个范围内。所以可以通过审核人员观测检测视频中显示的音频采集时间点的增长趋势与播放时间的增长趋势是否相同,即在相同的时间内检测视频中显示的音频采集时间点增长的值与播放时间的增长值是否相同,以确定检测视频是否存在音画不同步的问题。如果相同则说明检测视频满足音频画面同步条件,如果不相同则说明检测视频不满足音频画面同步条件。
可选的,基于检测视频中各检测图像帧对应的时间差,检测检测视频是否音频画面同步的处理还可以如下:
确定检测视频中各检测图像帧对应的时间差中的最大时间差和最小时间差,并确定最大时间差和所述最小时间差的差值;如果差值超出预设差值范围,则确定所述检测视频的音频画面不同步,如果差值未超出预设差值范围,则确定检测视频的音频画面同步。
在实施中,可以确定检测视频中各检测图像帧中对应的播放时间点与对应的音频采集时间点的时间差,然后确定时间差中的最大时间差和最小时间差。如果在拍摄视频的过程中,处理器对检测图像帧的编码以及对音频帧的编码没有发生卡顿,上述时间差的值会近似相等,即时间差中的最大时间差和最小时间差的差值,会小于预设差值范围。如果在对检测图像帧进行编码时或是在对音频帧进行编码时发生了卡顿,上述时间差会出现较大的变化,即时间差中的最大时间差和最小时间差的差值会等于或大于预设差值阈值。其中,该预设差值阈值可以由技术人员自行设置,此处不对预设差值阈值进行限定。
由于本申请中在视频图像帧添加的音频帧的采集时间点与视频图像帧的采集时间点近似相等,因此在正常情况下音频帧的采集时间点可以认为是对应的视频图像帧的采集时间点。所以在视频图像帧B和在视频图像帧A中添加的音频采集时间点的差值可认为是视频图像帧B和视频图像帧A在采集时间点上的差值,在检测图像帧A编码出现卡顿的情况下,该差值要大于视频图像帧B与视频图像帧A对应的播放时间点的差值。
如图4所示,当音频画面不同步问题是由于处理器对视频图像帧进行编码产生了卡顿而引起时,可以根据检测视频中同一检测图像帧的音频采集时间点以及视频时间点的差值检测是否存在音画不同步问题。如图4所示,处理器接收到视频图像帧A后在视频图像帧A中添加音频采集时间点0.8得到检测图像帧A,接收到视频图像帧A1后在视频图像帧A1中添加音频采集时间点1.2得到检测图像帧A1,接收到视频图像帧A2后在视频图像帧A2中添加音频采集时间点1.6得到检测图像帧A2,接收到视频图像帧B后在视频图像帧B中添加音频采集时间点2.0得到检测图像帧B。假设处理器在对检测图像帧A进行编码时发生卡顿,本来可以在时间点1.2结束对检测图像帧A的编码却因为卡顿延迟至时间点2.0。由于处理器是连续对当前得到的检测图像帧进行编码,从上述检测图像帧的生成过程可知,在时间点2.0s这一时刻得到的是检测图像帧B,从而处理器会跳过检测图像帧A1以及检测图像帧A2,对当前得到的检测图像帧B进行编码。编码得到的各个检测图像帧以及编码得到的音频帧会合并得到检测视频。
检测视频中的每个检测图像帧会有各自对应的播放时间点(也即视频时间点),播放时间点由检测图像帧在检测视频中的位置以及检测视频的帧率决定。若检测图像帧A的播放时间点为0.8s,假设根据检测视频的帧率确定检测图像帧B的播放时间点为1.2s,结合检测图像帧A的音频采集时间点0.8可以计算得到的检测图像帧A的时间差为0(0.8-0.8),结合检测图像帧B的音频采集时间点2.0可以计算得到检测图像帧B的时间差为0.8(2.0-1.2)。进一步地,可以确定上述两个时间差的差值为0.8(0.8-0),差值大于预设差值阈值0.5,因此可以确定检测视频存在画面和音频不同步的问题。
当音频画面不同步问题是由于音频帧的传输延时而引起时,同样可以根据检测视频中同一检测图像帧对应的音频采集时间点以及视频时间点的差值检测是否存在音画不同步问题。如图7所示,假设音频帧的采集帧率与视频图像帧的采集帧率一致,在正常情况下,处理器在接收到视频图像帧A后可将音频帧A的音频采集时间点0.8添加到视频图像帧A中得到检测图像帧A,在接收到视频图像帧B后可将音频帧B的音频采集时间点1.2添加到视频图像帧B中得到检测图像帧B,在接收到视频图像帧C后可将音频帧C的音频采集时间点1.6添加到视频图像帧C中得到检测图像帧C。但如果拾音设备在采集音频帧A后,向处理器传输音频帧A的过程中产生了延时。本来该将音频帧A的采集时间点0.8添加到视频图像帧A,却因为音频帧A产生了延时,而由于处理器没能及时收到音频帧A,因此在音频采集时间记录模块中仍然记录的为音频帧A前一音频帧X的采集时间点(即0.4),所以添加到视频图像帧A中的音频采集点仍然为音频帧X的音频采集时间点,同理采集时间在音频帧A延时时间段内的视频图像帧B和视频图像帧C中,添加的音频采集点也为音频帧X的采集时间点。
虽然在检测视频中的各个检测图像帧对应的播放时间都是正常的,但是由于音频帧A的延时,导致检测图像帧A、检测图像帧B和检测图像帧C中添加的音频采集时间点均为对应音频帧A前一音频帧X的采集时间点。若检测图像帧A的播放时间点为0.4s,假设根据检测视频的帧率确定检测图像帧B的播放时间点为0.8s、检测图像帧C的播放时间点为1.2s、检测图像帧D的播放时间点为1.6s。由图7可知,由于音频帧A在传输过程的延时,导致检测图像帧A、检测图像帧B、检测图像帧C中添加的音频采集时间点都为0.4,检测图像帧D中添加的音频采集时间点为0.8。如此,可以分别计算出检测图像帧A的播放时间点与对应添加的音频采集时间点的时间差为0(0.4-0.4),检测图像帧C的播放时间点与对应添加的音频采集时间点的时间差为0.8(1.2-0.4)。进一步地,可以确定上述两个时间差的差值为0.8(0.8-0),差值大于预设差值阈值0.5,因此可以确定检测视频存在画面和音频不同步的问题。
本申请实施例通过记录当前采集的音频帧的音频采集时间点,然后在采集到视频图像帧时,将当前的音频采集时间点添加至视频图像帧以得到检测图像帧,这样在每个检测图像帧中都能确定与视频图像帧在采集时间上接近的音频帧的采集时间。然后通过将得到的检测图像帧与采集的音频帧进行合成,得到检测视频,这样就可以通过对检测视频中同一检测图像帧对应的音频采集时间点进行判断,以检测合成的检测视频是否存在音频画面不同步的问题,可见本申请不需要测试人员根据视频的画面和声音进行主观的判断,能够提高检测画面和音频是否同步的效率。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
图8是本申请实施例提供的一种检测音画同步的装置,该装置可以是上述实施例中的终端,该装置包括:
记录模块810,用于当接收到拾音设备发送的音频帧时,记录所述音频帧的音频采集时间点;
处理模块820,用于当接收到摄像设备发送的视频图像帧时,将当前记录的音频采集时间点添加至所述视频图像帧得到检测图像帧;对至少一个所述检测图像帧和至少一个所述音频帧进行编码及合成操作,得到检测视频,其中所述检测图像帧在所述检测视频的播放位置具有对应的视频时间点;;
检测模块830,用于基于所述检测视频中同一检测图像帧的视频时间点和音频采集时间点的时间差,检测所述检测视频是否音频画面同步。
可选的,所述处理模块820,用于:
将所述当前记录的音频采集时间点添加到所述视频图像帧的描述数据中,得到所述检测图像帧。
可选的,所述处理模块820,用于:
将所述当前记录的音频采集时间点以图像形式添加到所述视频图像帧中,得到所述检测图像帧。
可选的,所述检测模块830,用于:
对于检测视频中的同一检测图像帧,确定所述检测图像帧的音频采集时间点以及所述检测图像帧在所述检测视频中的视频时间点,并确定所述音频采集时间点与所述视频时间点的时间差;
基于所述检测视频中各检测图像帧对应的时间差,检测所述检测视频是否音频画面同步。
可选的,所述检测模块830,用于:
确定所述检测视频中各检测图像帧对应的时间差中的最大时间差和最小时间差,并确定所述最大时间差和所述最小时间差的差值;
如果所述差值超出预设差值范围,则确定所述检测视频的音频画面不同步,如果所述差值未超出所述预设差值范围,则确定所述检测视频的音频画面同步。
需要说明的是:上述实施例提供的检测音画同步的装置在检测音画同步时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的检测音画同步的装置与检测音画同步的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图9示出了本申请一个示例性实施例提供的计算机设备结构框图。该计算机设备可以为上述实施例中的终端,其中该终端900可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。终端900用于实现上述实施例中提供的检测音画同步的方法。
通常,终端900包括有:处理器901和存储器902。
处理器901可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的检测音画同步的方法。
在一些实施例中,终端900还可选包括有:外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地,外围设备包括:射频电路904、触摸显示屏905、摄像头906、音频电路907、定位组件908和电源909中的至少一种。
外围设备接口903可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路904用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路904还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏905用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏905可以为一个,设置终端900的前面板;在另一些实施例中,显示屏905可以为至少两个,分别设置在终端900的不同表面或呈折叠设计;在再一些实施例中,显示屏905可以是柔性显示屏,设置在终端900的弯曲表面上或折叠面上。甚至,显示屏905还可以设置成非矩形的不规则图形,也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件(摄像设备)906用于采集图像或视频。可选地,摄像头组件906包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路(拾音设备)907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。
定位组件908用于定位终端900的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于:加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。
加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号,控制触摸显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器912可以检测终端900的机体方向及转动角度,陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器913可以设置在终端900的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在终端900的侧边框时,可以检测用户对终端900的握持信号,由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时,由处理器901根据用户对触摸显示屏905的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器914用于采集用户的指纹,由处理器901根据指纹传感器914采集到的指纹识别用户的身份,或者,由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器901授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时,指纹传感器914可以与物理按键或厂商Logo集成在一起。
光学传感器915用于采集环境光强度。在一个实施例中,处理器901可以根据光学传感器915采集的环境光强度,控制触摸显示屏905的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏905的显示亮度;当环境光强度较低时,调低触摸显示屏905的显示亮度。在另一个实施例中,处理器901还可以根据光学传感器915采集的环境光强度,动态调整摄像头组件906的拍摄参数。
接近传感器916,也称距离传感器,通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中,当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时,由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态;当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时,由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图9中示出的结构并不构成对终端900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述实施例中检测音画同步的方法。该计算机可读存储介质可以是非暂态的。例如,所述计算机可读存储介质可以是ROM(Read-OnlyMemory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种检测音画同步的方法,其特征在于,所述方法包括:
当接收到拾音设备发送的音频帧时,记录所述音频帧的音频采集时间点;
当接收到摄像设备发送的视频图像帧时,将当前记录的音频采集时间点添加至所述视频图像帧得到检测图像帧;
对至少一个所述检测图像帧和至少一个所述音频帧进行编码及合成操作,得到检测视频,其中所述检测图像帧在所述检测视频的播放位置具有对应的视频时间点;
基于所述检测视频中同一检测图像帧的视频时间点和音频采集时间点的时间差,检测所述检测视频是否音频画面同步。
2.根据权利要求1所述的方法,其特征在于,所述将当前记录的音频采集时间点添加至所述视频图像帧得到检测图像帧,包括:
将所述当前记录的音频采集时间点添加到所述视频图像帧的描述数据中,得到所述检测图像帧。
3.根据权利要求1所述的方法,其特征在于,所述将当前记录的音频采集时间点添加至所述视频图像帧得到检测图像帧,包括:
将所述当前记录的音频采集时间点以图像形式添加到所述视频图像帧中,得到所述检测图像帧。
4.根据权利要求1所述的方法,其特征在于,所述基于所述检测视频中同一检测图像帧的视频时间点和音频采集时间点的时间差,检测所述检测视频是否音频画面同步,包括:
对于检测视频中的同一检测图像帧,确定所述检测图像帧的音频采集时间点以及所述检测图像帧在所述检测视频中的视频时间点,并确定所述音频采集时间点与所述视频时间点的时间差;
基于所述检测视频中各检测图像帧对应的时间差,检测所述检测视频是否音频画面同步。
5.根据权利要求4所述的方法,其特征在于,所述基于所述检测视频中各检测图像帧对应的时间差,检测所述检测视频是否音频画面同步,包括:
确定所述检测视频中各检测图像帧对应的时间差中的最大时间差和最小时间差,并确定所述最大时间差和所述最小时间差的差值;
如果所述差值超出预设差值范围,则确定所述检测视频的音频画面不同步,如果所述差值未超出所述预设差值范围,则确定所述检测视频的音频画面同步。
6.一种检测音画同步的装置,其特征在于,所述装置包括:
记录模块,用于当接收到拾音设备发送的音频帧时,记录所述音频帧的音频采集时间点;
处理模块,用于当接收到摄像设备发送的视频图像帧时,将当前记录的音频采集时间点添加至所述视频图像帧得到检测图像帧;对至少一个所述检测图像帧和至少一个所述音频帧进行编码及合成操作,得到检测视频,其中所述检测图像帧在所述检测视频的播放位置具有对应的视频时间点;;
检测模块,用于基于所述检测视频中同一检测图像帧的视频时间点和音频采集时间点的时间差,检测所述检测视频是否音频画面同步。
7.根据权利要求6所述的装置,其特征在于,所述处理模块,用于:
将所述当前记录的音频采集时间点添加到所述视频图像帧的描述数据中,得到所述检测图像帧。
8.根据权利要求6所述的装置,其特征在于,所述处理模块,用于:
将所述当前记录的音频采集时间点以图像形式添加到所述视频图像帧中,得到所述检测图像帧。
9.根据权利要求6所述的装置,其特征在于,所述检测模块,用于:
对于检测视频中的同一检测图像帧,确定所述检测图像帧的音频采集时间点以及所述检测图像帧在所述检测视频中的视频时间点,并确定所述音频采集时间点与所述视频时间点的时间差;
基于所述检测视频中各检测图像帧对应的时间差,检测所述检测视频是否音频画面同步。
10.根据权利要求9所述的装置,其特征在于,所述检测模块,用于:
确定所述检测视频中各检测图像帧对应的时间差中的最大时间差和最小时间差,并确定所述最大时间差和所述最小时间差的差值;
如果所述差值超出预设差值范围,则确定所述检测视频的音频画面不同步,如果所述差值未超出所述预设差值范围,则确定所述检测视频的音频画面同步。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求5任一项所述的检测音画同步的方法所执行的操作。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求5任一项所述的检测音画同步的方法所执行的操作。
CN202110281997.2A 2021-03-16 2021-03-16 检测音画同步的方法、装置、设备及存储介质 Active CN112929654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110281997.2A CN112929654B (zh) 2021-03-16 2021-03-16 检测音画同步的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110281997.2A CN112929654B (zh) 2021-03-16 2021-03-16 检测音画同步的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112929654A true CN112929654A (zh) 2021-06-08
CN112929654B CN112929654B (zh) 2022-03-29

Family

ID=76175596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110281997.2A Active CN112929654B (zh) 2021-03-16 2021-03-16 检测音画同步的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112929654B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114173082A (zh) * 2021-11-16 2022-03-11 珠海视熙科技有限公司 一种控制视频图像输出的装置、摄像设备及会议系统
CN114845004A (zh) * 2022-07-04 2022-08-02 杭州兆华电子股份有限公司 一种音视频同步实现方法及声学成像方法
CN115623265A (zh) * 2022-11-15 2023-01-17 成都索贝数码科技股份有限公司 一种实时拍摄带有现场原声音轨短视频的方法
WO2023036275A1 (zh) * 2021-09-09 2023-03-16 北京字跳网络技术有限公司 视频处理方法、装置、电子设备、介质及程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080111887A1 (en) * 2006-11-13 2008-05-15 Pixel Instruments, Corp. Method, system, and program product for measuring audio video synchronization independent of speaker characteristics
CN104103302A (zh) * 2013-04-10 2014-10-15 纬创资通股份有限公司 影音同步检测装置与方法
CN106358039A (zh) * 2016-09-07 2017-01-25 深圳Tcl数字技术有限公司 音画同步测试方法及装置
CN110585702A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种音画同步数据处理方法、装置、设备及介质
CN110896503A (zh) * 2018-09-13 2020-03-20 浙江广播电视集团 视音频同步的监测方法及系统,以及视音频播出系统
CN111277823A (zh) * 2020-03-05 2020-06-12 公安部第三研究所 一种音视频同步测试的系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080111887A1 (en) * 2006-11-13 2008-05-15 Pixel Instruments, Corp. Method, system, and program product for measuring audio video synchronization independent of speaker characteristics
CN104103302A (zh) * 2013-04-10 2014-10-15 纬创资通股份有限公司 影音同步检测装置与方法
CN106358039A (zh) * 2016-09-07 2017-01-25 深圳Tcl数字技术有限公司 音画同步测试方法及装置
CN110896503A (zh) * 2018-09-13 2020-03-20 浙江广播电视集团 视音频同步的监测方法及系统,以及视音频播出系统
CN110585702A (zh) * 2019-09-17 2019-12-20 腾讯科技(深圳)有限公司 一种音画同步数据处理方法、装置、设备及介质
CN111277823A (zh) * 2020-03-05 2020-06-12 公安部第三研究所 一种音视频同步测试的系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023036275A1 (zh) * 2021-09-09 2023-03-16 北京字跳网络技术有限公司 视频处理方法、装置、电子设备、介质及程序产品
CN114173082A (zh) * 2021-11-16 2022-03-11 珠海视熙科技有限公司 一种控制视频图像输出的装置、摄像设备及会议系统
CN114845004A (zh) * 2022-07-04 2022-08-02 杭州兆华电子股份有限公司 一种音视频同步实现方法及声学成像方法
CN114845004B (zh) * 2022-07-04 2022-10-25 杭州兆华电子股份有限公司 一种音视频同步实现方法及声学成像方法
CN115623265A (zh) * 2022-11-15 2023-01-17 成都索贝数码科技股份有限公司 一种实时拍摄带有现场原声音轨短视频的方法

Also Published As

Publication number Publication date
CN112929654B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN108401124B (zh) 视频录制的方法和装置
CN109348247B (zh) 确定音视频播放时间戳的方法、装置及存储介质
CN112929654B (zh) 检测音画同步的方法、装置、设备及存储介质
CN110324689B (zh) 音视频同步播放的方法、装置、终端及存储介质
CN111065001B (zh) 视频制作的方法、装置、设备及存储介质
CN108965757B (zh) 视频录制方法、装置、终端及存储介质
CN109922356B (zh) 视频推荐方法、装置和计算机可读存储介质
CN110533585B (zh) 一种图像换脸的方法、装置、系统、设备和存储介质
CN111586431B (zh) 进行直播处理的方法、装置、设备及存储介质
CN108922506A (zh) 歌曲音频生成方法、装置和计算机可读存储介质
CN109451248B (zh) 视频数据的处理方法、装置、终端及存储介质
CN109982129B (zh) 短视频的播放控制方法、装置及存储介质
CN111142838A (zh) 音频播放方法、装置、计算机设备及存储介质
CN110769313A (zh) 视频处理方法及装置、存储介质
CN111092991B (zh) 歌词显示方法及装置、计算机存储介质
CN110808021B (zh) 音频播放的方法、装置、终端及存储介质
CN109819314B (zh) 音视频处理方法、装置、终端及存储介质
CN111314763A (zh) 流媒体播放方法及装置、存储介质与电子设备
CN110473562B (zh) 音频数据处理方法、装置以及系统
CN112738606A (zh) 音频文件的处理方法、装置、终端及存储介质
CN109005359B (zh) 视频录制方法、装置存储介质
CN110933454A (zh) 处理直播萌脸礼物的方法、装置、设备及存储介质
CN111711841B (zh) 图像帧播放方法、装置、终端及存储介质
CN111988664B (zh) 视频处理方法、装置、计算机设备及计算机可读存储介质
CN110277105B (zh) 消除背景音频数据的方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant