CN110267083A - 音视频同步的检测方法、装置、设备及存储介质 - Google Patents
音视频同步的检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110267083A CN110267083A CN201910526070.3A CN201910526070A CN110267083A CN 110267083 A CN110267083 A CN 110267083A CN 201910526070 A CN201910526070 A CN 201910526070A CN 110267083 A CN110267083 A CN 110267083A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- video
- audio
- mark point
- measured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/442—Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
- H04N21/44204—Monitoring of content usage, e.g. the number of times a movie has been viewed, copied or the amount which has been watched
Abstract
本发明实施例公开了一种音视频同步的检测方法、装置、设备及存储介质。包括:当播放音视频文件时,接收待测音频信号和待测视频信号;对所述待测音频信号进行采样处理,获得音频序列,对所述待测视频信号进行分帧处理,获得视频帧序列;根据所述音频序列的能量确定第一标记点,根据所述视频帧序列的灰度确定第二标记点;将所述第一标记点和所述第二标记点分别对应的时刻进行比对,根据比对的结果确定所述待测音频信号与所述待测视频信号之间的同步信息。本实施例提供的音视频同步的检测方法,可以降低音视频同步检测的成本,且相对于人工检测,可以提高音视频同步检测的准确性。
Description
技术领域
本发明实施例涉及多媒体技术领域,尤其涉及一种音视频同步的检测方法、装置、设备及存储介质。
背景技术
音视频媒体间同步是多媒体系统服务质量研究中的一项重要内容。在网络上传输多媒体数据时,由于终端对数据的处理方式,以及网络中的延时、抖动,会引起音视频流的不同步。进而会出现诸如视频通话过程中唇音不同步等缺陷的产生,尤其远程直播类产品对于音视频同步性能要求较高的应用中,会大大降低音视频设备的用户体验。
音视频同步检测是在产品研发过程中一项重要的过程。目前,现有的音视频同步监测技术主要分两类:一类是人工观察接收端的视频,并对视频进行剪辑,听伴随的音频以做出音视频是否同步的结论,这种方式不仅耗费人力成本,且准确性也较低。另一类是采用精密仪器检测音视频的同步,利用双踪存储示波器分别存储音频和视频信号波形,并根据音视频信号的刻度读取时间差,或者采用专业毫秒计进行测量,这种方式硬件成本高且测量精度也会受仪器精度及人为引入的误差所影响。
发明内容
本发明实施例提供一种音视频同步的检测方法、装置、设备及存储介质,可以提高音视频同步检测的准确性,且可以降低音视频同步检测的成本。
第一方面,本发明实施例提供了一种音视频同步的检测方法,包括:
当播放音视频文件时,接收待测音频信号和待测视频信号;
对所述待测音频信号进行采样处理,获得音频序列,对所述待测视频信号进行分帧处理,获得视频帧序列;
根据所述音频序列的能量确定第一标记点,根据所述视频帧序列的灰度确定第二标记点;所述第一标记点和所述第二标记点在所述音视频文件中对齐;
将所述第一标记点和所述第二标记点分别对应的时刻进行比对,根据比对的结果确定所述待测音频信号与所述待测视频信号之间的同步信息。
进一步地,所述第一标记点为所述音频序列中有效音频信号的中点;根据所述音频序列的能量确定第一标记点,包括:
获取所述音频序列的能量范围;
根据所述能量范围在所述音频序列中确定有效音频信号的起点位置和终点位置;
确定位于所述起点位置和所述终点位置之间的中点位置为有效音频信号的中点。
进一步地,获取所述音频序列的能量范围,包括:
计算所述音频序列的能量均值,并获取第一系数和第二系数;
根据所述能量均值、第一系数及第二系数,获得第一能量阈值和第二能量阈值;所述第一系数大于第二系数;
由所述第一能量阈值和所述第二能量阈值组成能量范围。
进一步地,确定所述有效音频信号的起点位置,包括:
在音频序列中查找连续第一设定数量的音频信号的能量均大于所述第一能量阈值的第一子序列,将所述第一子序列的起点作为初始起点位置;
获取从所述初始起点位置开始,前向连续音频信号的能量均大于所述第二能量阈值的第一音频信号数量;
根据所述第一音频信号数量对所述初始起点位置进行修正,获得有效音频信号的起点位置。
进一步地,确定所述有效音频信号的终点位置,包括:
在音频序列中查找连续第二设定数量的音频信号的能量均小于所述第一能量阈值的第二子序列,将所述第二子序列的起点作为初始终点位置;
获取从所述初始终点位置开始,后向连续音频信号的能量均小于所述第二能量阈值的第二音频信号数量;
根据所述第二音频信号数量对所述初始终点位置进行修正,获得有效音频信号的终点位置。
进一步地,根据所述视频帧序列的灰度确定第二标记点,包括:
计算所述视频帧序列中每个视频帧的灰度值;
在所述视频序列中查找视频帧子序列,所述视频帧子序列中的视频帧连续且数量为预设的值,所述视频帧的灰度值大于预设的灰度阈值,并将所述视频帧子序列的起点确定为第二标记点。
进一步地,将所述第一标记点和所述第二标记点分别对应的时刻进行比对,根据比对的结果确定所述待测音频信号与所述待测视频信号之间的同步信息,包括:
确定所述音频序列的采样率,并根据所述第一标记点在所述音频序列中的序号与所述采样率计算所述第一标记点对应的第一时刻;
确定所述视频帧序列的分帧率,根据所述第二标记点在所述视频帧序列中的序号和所述分帧率计算所述第二标记点对应的第二时刻;
根据所述第一时刻和所述第二时刻的比对结果确定音视频的同步信息。
进一步地,根据所述第一时刻和所述第二时刻的比对结果确定音视频的同步信息,包括:
若所述第一时刻大于所述第二时刻,则确定的同步信息为音频信号滞后视频信号;
若所述第一时刻小于所述第二时刻,则确定的同步信息为音频信号提前于视频信号;
若所述第一时刻等于所述第二时刻,则确定的同步信息为音频信号和视频信号同步。
第二方面,本发明实施例还提供了一种音视频同步的检测装置,包括:
待测音视频信号接收模块,用于当播放音视频文件时,接收待测音频信号和待测视频信号;
音频序列和视频帧序列获取模块,用于对所述待测音频信号进行采样处理,获得音频序列,对所述待测视频信号进行分帧处理,获得视频帧序列;
标记点确定模块,用于根据所述音频序列的能量确定第一标记点,根据所述视频帧序列的灰度确定第二标记点;所述第一标记点和所述第二标记点在所述音视频文件中对齐;
同步信息确定模块,用于将所述第一标记点和所述第二标记点分别对应的时刻进行比对,根据比对的结果确定所述待测音频信号与所述待测视频信号之间的同步信息。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例所述的音视频同步的检测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所述的音视频同步的检测方法。
本发明实施例,当播放音视频文件时,接收待测音频信号和待测视频信号,首先对待测音频信号进行采样处理,获得音频序列,对待测视频信号进行分帧处理,获得视频帧序列,然后根据音频序列的能量确定第一标记点,根据视频帧序列的灰度确定第二标记点,最后将第一标记点和第二标记点分别对应的时刻进行比对,根据比对的结果确定待测音频信号与待测视频信号之间的同步信息。本实施例提供的音视频同步的检测方法,将音频序列中的第一标记点和视频帧序列中的第二标记点分别对应的时刻进行比对,以获得待测音视频信号的同步信息,无需精密仪器进行检测,可以降低音视频同步检测的成本,且相对于人工检测,可以提高音视频同步检测的准确性。
附图说明
图1是本发明实施例一中的一种音视频同步的检测方法的流程图;
图2是本发明实施例二中的一种音视频同步的检测装置的结构示意图;
图3是本发明实施例三中的计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种音视频同步的检测方法的流程图,本实施例可适用于对终端设备播放后的音视频的同步进行检测的情况,该方法可以由音视频同步的检测装置来执行,该装置可由硬件和/或软件组成,并一般可集成在具有音视频同步的检测功能的设备中,该设备可以是服务器、移动终端或服务器集群等电子设备。如图1所示,该方法具体包括如下步骤:
步骤110,当播放音视频文件时,接收待测音频信号和待测视频信号。
其中,待测音频信号和待测视频信号可以是终端设备播放视频文件后产生的音频信号和视频信号。以直播视频流为例,通常采用FLV(FLASH VIDEO)的流媒体格式,FLV包含H.264等编码后的视频及高级音频编码(Advanced Audio Coding,AAC)等方式编码后的音频,H.264与AAC的关系是封装/打包。从FLV解包得到H.264和AAC之后,H.264解码为待测视频信号,AAC解码为待测音频信号。本申请中,播放音视频文件的过程就是解码的过程。
步骤120,对待测音频信号进行采样处理,获得音频序列,对待测视频信号进行分帧处理,获得视频帧序列。
具体的,按照设定采样率对待测音频信号进行采样,获得音频序列。按照设定帧率对待测视频信号进行分帧处理,获得视频帧序列。其中,设定采样率可以小于待测音频信号的频率,设定帧率可以小于待测视频信号的帧率。
可选的,在获得音频序列后,需要对音频序列进行去噪及归一化处理。
对音频序列去噪的过程可以是:将音频序列中各音频信号的值取绝对值,保留绝对值大于设定阈值的音频信号,将绝对值小于设定阈值的音频信号的值设为0。其中,设定阈值可以设置为大于音频序列绝对值均值且小于最大绝对值的值。
对音频序列的归一化处理可以对音频能量的归一化处理。归一化的方式可以是,将每个音频信号的值除以音频序列中的最大绝对值,获得归一化后的音频序列。例如:可以采用公式表示为:其中,S(i)表示归一化后的音频信号值,A(i)表示归一化前的音频信号值,i表示音频信号在音频序列中的序号,N表示音频序列中的样点数。
步骤130,根据音频序列的能量确定第一标记点,根据视频帧序列的灰度确定第二标记点。
其中,第一标记点和第二标记点在音视频文件中对齐。第一标记点可以是音频序列中能量最大的音频信号所在的点或者音频序列中有效音频信号的中点。第二标记点可以是视频帧序列中白帧的起点或终点。
本应用场景下,待测音频信号和待测视频信号具有如下特征:待测视频信号的帧率为60fps,视频内容为均匀的黑白交替帧,其中白帧间歇出现,持续时间为100ms,周期为1s;音频信号为间歇出现的1KHz单频信号,有效音频的持续时间为100ms,周期为1s。在音视频文件中,有效音频信号的中心处与视频信号全暗到全亮跳变处对齐。本实施例中,第一标记点为所述音频序列中有效音频信号的中点,第二标记点为白帧的起点。
可选的,根据音频序列的能量确定第一标记点,可通过如下方式实施:获取音频序列的能量范围;根据能量范围在所述音频序列中确定有效音频信号的起点位置和终点位置;确定位于起点位置和终点位置之间的中点位置为有效音频信号的中点。
具体的,对音频序列设置能量范围的方式可以是:计算音频序列的能量均值,并获取第一系数和第二系数;根据能量均值、第一系数及第二系数,获得第一能量阈值或第二能量阈值;由第一能量阈值和第二能量阈值组成能量范围。
其中,第一系数大于第二系数。第一系数和第二系数由音频序列的采样率、有效音频信号在一个周期中的占比以及噪声影响程度确定。能量均值由音频序列音频信号的总能量除以样点总数获得,可以采用如下公式表示:其中,E表示能量均值,N表示音频序列中的样点数,S2(i)表示每个音频信号的能量。假设第一系数为A,第二系数为B,则第一能量阈值为A*E,第二能量阈值为B*E。
确定有效音频信号的起点位置的方式可以是:在音频序列中查找连续第一设定数量的音频信号的能量均大于第一能量阈值的第一子序列,将第一子序列的起点作为初始起点位置;获取从初始起点位置开始,前向连续音频信号的能量均大于第二能量阈值的第一音频信号数量;根据第一音频信号数量对初始起点位置进行修正,获得有效音频信号的起点位置。
其中,第一设定数量可以由一个周期内有效音频信号的数量确定,如可以是有效音频信号数量的30%-50%之间的任意值。根据第一音频信号数量对初始起点位置进行修正的方式是,用初始起点位置对应的序号减去第一音频信号数量再加1,获得起点位置的序号。示例性的,假设在音频序列中从第x1个音频信号开始,后面连续n个音频信号的能量均大于A*E,其中n为第一设定数量,即S2(i)≥A*E,i=x1,x1+1,Lx1+n-1,则将x1作为初始起点位置。从x1开始前向若连续y1+1个音频信号的能量均大于第二能量阈值,即S2(i)≥B*E,i=x1-y1,x1-y1+1,Lx1-1,x1,则对初始起点位置进行修正,获得有效音频信号的起点位置为z=x1-y1。
可选的,确定有效音频信号的终点位置的方式可以是:在音频序列中查找连续第二设定数量的音频信号的能量均小于第一能量阈值的第二子序列,将第二子序列的起点作为初始终点位置;获取从初始终点位置开始,后向连续音频信号的能量均小于第二能量阈值的第二音频信号数量;根据第二音频信号数量对初始终点位置进行修正,获得有效音频信号的终点位置。
其中,第二设定数量可以由一个周期内有效音频信号的数量确定,如可以是有效音频信号数量的30%-50%之间的任意值。根据第二音频信号数量对初始终点位置进行修正的方式为:将初始终点位置对应的序号加上第二音频信号数量再减1获得终点位置。示例性的,在有效音频信号的起点位置之后,假设在音频序列中从第x2个音频信号开始,连续n个音频信号的能量均小于第一能量阈值,其中,n为第二设定阈值,即S2(i)<A*E,i=x2,x2+1,Lx2+n-1,则将x2确定为初始终点位置,从x2开始后向若连续y2+1个音频信号的能量均小于第二能量阈值,即则对初始终点位置进行修正,获得有效音频信号的终点位置为w=x2+y2。则有效音频信号的中点位置为:
可选的,根据视频帧序列的灰度确定第二标记点的方式可以是:计算视频帧序列中每个视频帧的灰度值;在视频序列中查找视频帧子序列,视频帧子序列中的视频帧连续且数量为预设的值,视频帧的灰度值大于预设的灰度阈值,并将视频帧子序列的起点确定为第二标记点。
具体的,在视频帧序列中查找连续设定数量的灰度值大于灰度阈值的起点,将该起点确定为第二标记点,即白帧的起点。其中,预设的值由白帧在一个周期内的数量确定,如可以是白帧数量的50%-80%之间的数。灰度阈值可以是大于200且小于255之间的任意值。
步骤140,将第一标记点和第二标记点分别对应的时刻进行比对,根据比对的结果确定待测音频信号与待测视频信号之间的同步信息。
其中,获取第一标记点对应的时刻的方式可以是:确定音频序列的采样率,并根据第一标记点在音频序列中的序号与采样率计算第一标记点对应的第一时刻。具体的,将第一标记点在音频序列中的序号乘以采样率获得第一标记点对应的第一时刻。获取第二标记点对应的时刻的方式可以是:确定视频帧序列的分帧率,根据第二标记点在视频帧序列中的序号和分帧率计算第二标记点对应的第二时刻。具体的,将第二标记点在视频帧序列中的序号乘以分帧率获得第二标记点对应的第二时刻。
根据第一时刻和第二时刻的比对结果确定音视频的同步信息的方式可以是:若第一时刻大于第二时刻,则确定的同步信息为音频信号滞后视频信号;若第一时刻小于第二时刻,则确定的同步信息为音频信号提前于视频信号;若第一时刻等于第二时刻,则确定的同步信息为音频信号和视频信号同步。
本实施例的技术方案,当播放音视频文件时,接收待测音频信号和待测视频信号,首先对待测音频信号进行采样处理,获得音频序列,对待测视频信号进行分帧处理,获得视频帧序列,然后根据能量在音频序列中确定第一标记点,根据灰度在视频帧序列中确定第二标记点,最后将第一标记点和第二标记点分别对应的时刻进行比对,根据比对的结果确定待测音频信号与待测视频信号之间的同步信息。本实施例提供的音视频同步的检测方法,将音频序列中的第一标记点和视频帧序列中的第二标记点分别对应的时刻进行比对,以获得待测音视频信号的同步信息,无需精密仪器进行检测,可以降低音视频同步检测的成本,且相对于人工检测,可以提高音视频同步检测的准确性。
实施例二
图2为本发明实施例二提供的一种音视频同步的检测装置的结构示意图。如图2所示,该装置包括:待测音视频信号接收模块210,音频序列和视频帧序列获取模块220,标记点确定模块230和同步信息确定模块240。
待测音视频信号接收模块210,用于当播放音视频文件时,接收待测音频信号和待测视频信号;
音频序列和视频帧序列获取模块220,用于对待测音频信号进行采样处理,获得音频序列,对待测视频信号进行分帧处理,获得视频帧序列;
标记点确定模块230,用于根据音频序列的能量确定第一标记点,根据视频帧序列的灰度确定第二标记点;第一标记点和第二标记点在音视频文件中对齐;
同步信息确定模块240,用于将第一标记点和第二标记点分别对应的时刻进行比对,根据比对的结果确定待测音频信号与待测视频信号之间的同步信息。
可选的,第一标记点为音频序列中有效音频信号的中点;标记点确定模块230,包括:
能量范围获取单元,用于获取音频序列的能量范围;
有效音频信号位置确定单元,用于根据能量范围在音频序列中确定有效音频信号的起点位置和终点位置;
有效音频信号终点确定单元,用于确定位于起点位置和终点位置之间的中点位置为有效音频信号的中点。
可选的,能量范围获取单元,还用于:
计算音频序列的能量均值,并获取第一系数和第二系数;
根据能量均值、第一系数及第二系数,获得第一能量阈值和第二能量阈值;第一系数大于第二系数;
由第一能量阈值和第二能量阈值组成能量范围。
可选的,有效音频信号位置确定单元,还用于:
在音频序列中查找连续第一设定数量的音频信号的能量均大于第一能量阈值的第一子序列,将第一子序列的起点作为初始起点位置;
获取从初始起点位置开始,前向连续音频信号的能量均大于第二能量阈值的第一音频信号数量;
根据第一音频信号数量对初始起点位置进行修正,获得有效音频信号的起点位置。
可选的,有效音频信号位置确定单元,还用于:
在音频序列中查找连续第二设定数量的音频信号的能量均小于第一能量阈值的第二子序列,将第二子序列的起点作为初始终点位置;
获取从初始终点位置开始,后向连续音频信号的能量均小于第二能量阈值的第二音频信号数量;
根据第二音频信号数量对初始终点位置进行修正,获得有效音频信号的终点位置。
可选的,标记点确定模块230,还用于:
计算视频帧序列中每个视频帧的灰度值;
在视频序列中查找视频帧子序列,视频帧子序列中的视频帧连续且数量为预设的值,视频帧的灰度值大于预设的灰度阈值,并将视频帧子序列的起点确定为第二标记点。
可选的,同步信息确定模块240,还用于:
确定音频序列的采样率,并根据第一标记点在音频序列中的序号与采样率计算第一标记点对应的第一时刻;
确定视频帧序列的分帧率,根据第二标记点在视频帧序列中的序号和分帧率计算第二标记点对应的第二时刻;
根据第一时刻和第二时刻的比对结果确定音视频的同步信息。
可选的,同步信息确定模块240,还用于:
若第一时刻大于第二时刻,则确定的同步信息为音频信号滞后视频信号;
若第一时刻小于第二时刻,则确定的同步信息为音频信号提前于视频信号;
若第一时刻等于第二时刻,则确定的同步信息为音频信号和视频信号同步。
上述装置可执行本发明前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明前述所有实施例所提供的方法。
实施例三
图3为本发明实施例三提供的一种计算机设备的结构示意图。图3示出了适于用来实现本发明实施方式的计算机设备312的框图。图3显示的计算机设备312仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。设备312典型的是承担音视频同步的检测功能的计算设备。
如图3所示,计算机设备312以通用计算设备的形式表现。计算机设备312的组件可以包括但不限于:一个或者多个处理器316,存储装置328,连接不同系统组件(包括存储装置328和处理器316)的总线318。
总线318表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
计算机设备312典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备312访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置328可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)330和/或高速缓存存储器332。计算机设备312可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统334可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线318相连。存储装置328可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块326的程序336,可以存储在例如存储装置328中,这样的程序模块326包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块326通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备312也可以与一个或多个外部设备314(例如键盘、指向设备、摄像头、显示器324等)通信,还可与一个或者多个使得用户能与该计算机设备312交互的设备通信,和/或与使得该计算机设备312能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口322进行。并且,计算机设备312还可以通过网络适配器320与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器320通过总线318与计算机设备312的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备312使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器316通过运行存储在存储装置328中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的音视频同步的检测方法。
实施例四
本发明实施例四还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的音视频同步的检测方法。
当然,本发明实施例所提供的一种计算机可读存储介质,其上存储的计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的音视频同步的检测方法中的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (11)
1.一种音视频同步的检测方法,其特征在于,包括:
当播放音视频文件时,接收待测音频信号和待测视频信号;
对所述待测音频信号进行采样处理,获得音频序列,对所述待测视频信号进行分帧处理,获得视频帧序列;
根据所述音频序列的能量确定第一标记点,根据所述视频帧序列的灰度确定第二标记点;所述第一标记点和所述第二标记点在所述音视频文件中对齐;
将所述第一标记点和所述第二标记点分别对应的时刻进行比对,根据比对的结果确定所述待测音频信号与所述待测视频信号之间的同步信息。
2.根据权利要求1所述的方法,其特征在于,所述第一标记点为所述音频序列中有效音频信号的中点;根据所述音频序列的能量确定第一标记点,包括:
获取所述音频序列的能量范围;
根据所述能量范围在所述音频序列中确定有效音频信号的起点位置和终点位置;
确定位于所述起点位置和所述终点位置之间的中点位置为有效音频信号的中点。
3.根据权利要求2所述的方法,其特征在于,获取所述音频序列的能量范围,包括:
计算所述音频序列的能量均值,并获取第一系数和第二系数;
根据所述能量均值、第一系数及第二系数,获得第一能量阈值和第二能量阈值;所述第一系数大于第二系数;
由所述第一能量阈值和所述第二能量阈值组成能量范围。
4.根据权利要求3所述的方法,其特征在于,确定有效音频信号的起点位置,包括:
在音频序列中查找连续第一设定数量的音频信号的能量均大于所述第一能量阈值的第一子序列,将所述第一子序列的起点作为初始起点位置;
获取从所述初始起点位置开始,前向连续音频信号的能量均大于所述第二能量阈值的第一音频信号数量;
根据所述第一音频信号数量对所述初始起点位置进行修正,获得有效音频信号的起点位置。
5.根据权利要求3所述的方法,其特征在于,确定有效音频信号的终点位置,包括:
在音频序列中查找连续第二设定数量的音频信号的能量均小于所述第一能量阈值的第二子序列,将所述第二子序列的起点作为初始终点位置;
获取从所述初始终点位置开始,后向连续音频信号的能量均小于所述第二能量阈值的第二音频信号数量;
根据所述第二音频信号数量对所述初始终点位置进行修正,获得有效音频信号的终点位置。
6.根据权利要求1所述的方法,其特征在于,根据所述视频帧序列的灰度确定第二标记点,包括:
计算所述视频帧序列中每个视频帧的灰度值;
在所述视频序列中查找视频帧子序列,所述视频帧子序列中的视频帧连续且数量为预设的值,所述视频帧的灰度值大于预设的灰度阈值,并将所述视频帧子序列的起点确定为第二标记点。
7.根据权利要求1所述的方法,其特征在于,将所述第一标记点和所述第二标记点分别对应的时刻进行比对,根据比对的结果确定所述待测音频信号与所述待测视频信号之间的同步信息,包括:
确定所述音频序列的采样率,并根据所述第一标记点在所述音频序列中的序号与所述采样率计算所述第一标记点对应的第一时刻;
确定所述视频帧序列的分帧率,根据所述第二标记点在所述视频帧序列中的序号和所述分帧率计算所述第二标记点对应的第二时刻;
根据所述第一时刻和所述第二时刻的比对结果确定音视频的同步信息。
8.根据权利要求7所述的方法,其特征在于,根据所述第一时刻和所述第二时刻的比对结果确定音视频的同步信息,包括:
若所述第一时刻大于所述第二时刻,则确定的同步信息为音频信号滞后视频信号;
若所述第一时刻小于所述第二时刻,则确定的同步信息为音频信号提前于视频信号;
若所述第一时刻等于所述第二时刻,则确定的同步信息为音频信号和视频信号同步。
9.一种音视频同步的检测装置,其特征在于,包括:
待测音视频信号接收模块,用于当播放音视频文件时,接收待测音频信号和待测视频信号;
音频序列和视频帧序列获取模块,用于对所述待测音频信号进行采样处理,获得音频序列,对所述待测视频信号进行分帧处理,获得视频帧序列;
标记点确定模块,用于根据所述音频序列的能量确定第一标记点,根据所述视频帧序列的灰度确定第二标记点;所述第一标记点和所述第二标记点在所述音视频文件中对齐;
同步信息确定模块,用于将所述第一标记点和所述第二标记点分别对应的时刻进行比对,根据比对的结果确定所述待测音频信号与所述待测视频信号之间的同步信息。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的音视频同步的检测方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的音视频同步的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910526070.3A CN110267083B (zh) | 2019-06-18 | 2019-06-18 | 音视频同步的检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910526070.3A CN110267083B (zh) | 2019-06-18 | 2019-06-18 | 音视频同步的检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110267083A true CN110267083A (zh) | 2019-09-20 |
CN110267083B CN110267083B (zh) | 2021-12-10 |
Family
ID=67918899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910526070.3A Active CN110267083B (zh) | 2019-06-18 | 2019-06-18 | 音视频同步的检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110267083B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110753165A (zh) * | 2019-11-07 | 2020-02-04 | 金华深联网络科技有限公司 | 一种推土机远程操控视频数据与音频数据同步的方法 |
CN110753166A (zh) * | 2019-11-07 | 2020-02-04 | 金华深联网络科技有限公司 | 一种清淤机器人远程操控视频数据与音频数据同步的方法 |
CN110798591A (zh) * | 2019-11-07 | 2020-02-14 | 金华深联网络科技有限公司 | 一种挖掘机远程操控视频数据与音频数据同步的方法 |
CN110830677A (zh) * | 2019-11-07 | 2020-02-21 | 金华深联网络科技有限公司 | 一种凿岩机器人远程操控视频数据与音频数据同步的方法 |
CN112040225A (zh) * | 2020-09-02 | 2020-12-04 | 广州市百果园信息技术有限公司 | 播放延时差测量方法、装置、设备、系统及存储介质 |
CN115499677A (zh) * | 2022-09-20 | 2022-12-20 | 上海哔哩哔哩科技有限公司 | 基于直播的音视频同步检测方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080079851A1 (en) * | 2006-09-29 | 2008-04-03 | Stanger Leon J | Audio video timing measurement and synchronization |
CN101616331A (zh) * | 2009-07-27 | 2009-12-30 | 北京汉邦高科数字技术有限公司 | 一种对视频帧率及音视频同步性能进行测试的方法 |
CN201467383U (zh) * | 2009-07-27 | 2010-05-12 | 北京汉邦高科数字技术有限公司 | 视频帧率测试仪 |
CN102056026A (zh) * | 2009-11-06 | 2011-05-11 | 中国移动通信集团设计院有限公司 | 音视频同步检测方法及其系统、语音检测方法及其系统 |
CN103648011A (zh) * | 2013-11-29 | 2014-03-19 | 乐视致新电子科技(天津)有限公司 | 一种基于hls协议的音视频同步装置和方法 |
CN105161120A (zh) * | 2015-08-27 | 2015-12-16 | 广州酷狗计算机科技有限公司 | 原伴唱切换方法及装置 |
CN105612743A (zh) * | 2013-08-30 | 2016-05-25 | 微软技术许可有限责任公司 | 编码的媒体的音频视频回放同步 |
US20170150141A1 (en) * | 2010-11-12 | 2017-05-25 | At&T Intellectual Property I, L.P. | Lip sync error detection and correction |
CN106792005A (zh) * | 2017-01-17 | 2017-05-31 | 南通同洲电子有限责任公司 | 一种基于音视频结合的内容检测方法 |
CN107770597A (zh) * | 2017-09-28 | 2018-03-06 | 北京小鸟科技股份有限公司 | 音视频同步方法及装置 |
CN109616098A (zh) * | 2019-02-15 | 2019-04-12 | 北京嘉楠捷思信息技术有限公司 | 基于频域能量的语音端点检测方法和装置 |
-
2019
- 2019-06-18 CN CN201910526070.3A patent/CN110267083B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080079851A1 (en) * | 2006-09-29 | 2008-04-03 | Stanger Leon J | Audio video timing measurement and synchronization |
CN101616331A (zh) * | 2009-07-27 | 2009-12-30 | 北京汉邦高科数字技术有限公司 | 一种对视频帧率及音视频同步性能进行测试的方法 |
CN201467383U (zh) * | 2009-07-27 | 2010-05-12 | 北京汉邦高科数字技术有限公司 | 视频帧率测试仪 |
CN102056026A (zh) * | 2009-11-06 | 2011-05-11 | 中国移动通信集团设计院有限公司 | 音视频同步检测方法及其系统、语音检测方法及其系统 |
US20170150141A1 (en) * | 2010-11-12 | 2017-05-25 | At&T Intellectual Property I, L.P. | Lip sync error detection and correction |
CN105612743A (zh) * | 2013-08-30 | 2016-05-25 | 微软技术许可有限责任公司 | 编码的媒体的音频视频回放同步 |
CN103648011A (zh) * | 2013-11-29 | 2014-03-19 | 乐视致新电子科技(天津)有限公司 | 一种基于hls协议的音视频同步装置和方法 |
CN105161120A (zh) * | 2015-08-27 | 2015-12-16 | 广州酷狗计算机科技有限公司 | 原伴唱切换方法及装置 |
CN106792005A (zh) * | 2017-01-17 | 2017-05-31 | 南通同洲电子有限责任公司 | 一种基于音视频结合的内容检测方法 |
CN107770597A (zh) * | 2017-09-28 | 2018-03-06 | 北京小鸟科技股份有限公司 | 音视频同步方法及装置 |
CN109616098A (zh) * | 2019-02-15 | 2019-04-12 | 北京嘉楠捷思信息技术有限公司 | 基于频域能量的语音端点检测方法和装置 |
Non-Patent Citations (1)
Title |
---|
郑睿等: "一种多媒体信息交互系统音视频同步方法", 《杭州电子科技大学学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110753165A (zh) * | 2019-11-07 | 2020-02-04 | 金华深联网络科技有限公司 | 一种推土机远程操控视频数据与音频数据同步的方法 |
CN110753166A (zh) * | 2019-11-07 | 2020-02-04 | 金华深联网络科技有限公司 | 一种清淤机器人远程操控视频数据与音频数据同步的方法 |
CN110798591A (zh) * | 2019-11-07 | 2020-02-14 | 金华深联网络科技有限公司 | 一种挖掘机远程操控视频数据与音频数据同步的方法 |
CN110830677A (zh) * | 2019-11-07 | 2020-02-21 | 金华深联网络科技有限公司 | 一种凿岩机器人远程操控视频数据与音频数据同步的方法 |
CN112040225A (zh) * | 2020-09-02 | 2020-12-04 | 广州市百果园信息技术有限公司 | 播放延时差测量方法、装置、设备、系统及存储介质 |
CN112040225B (zh) * | 2020-09-02 | 2022-08-05 | 广州市百果园信息技术有限公司 | 播放延时差测量方法、装置、设备、系统及存储介质 |
CN115499677A (zh) * | 2022-09-20 | 2022-12-20 | 上海哔哩哔哩科技有限公司 | 基于直播的音视频同步检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110267083B (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110267083A (zh) | 音视频同步的检测方法、装置、设备及存储介质 | |
JP5990345B1 (ja) | サラウンド音場の生成 | |
BR102012024233A2 (pt) | Alinhamento temporal de sinais de áudio gravados | |
CN108521612B (zh) | 视频摘要的生成方法、装置、服务器及存储介质 | |
CN102655585B (zh) | 视频会议系统及其时延测试方法、装置和系统 | |
CN110585702B (zh) | 一种音画同步数据处理方法、装置、设备及介质 | |
CN109600564A (zh) | 用于确定时间戳的方法和装置 | |
CN111640411B (zh) | 音频合成方法、装置及计算机可读存储介质 | |
CN109600665A (zh) | 用于处理数据的方法和装置 | |
US10284985B1 (en) | Crowd-sourced device latency estimation for synchronization of recordings in vocal capture applications | |
US9672833B2 (en) | Sinusoidal interpolation across missing data | |
WO2014083380A1 (en) | A shared audio scene apparatus | |
CN102325295B (zh) | 基于机器视觉技术的音响检测与补偿方法 | |
CN112104969B (zh) | 用于蓝牙耳机的检测方法及装置 | |
JP2015046758A (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN112687247A (zh) | 音频对齐方法、装置、电子设备及存储介质 | |
CN111145769A (zh) | 音频处理方法和装置 | |
CN114333859A (zh) | 一种音频水印添加、解析方法、设备及介质 | |
CN112901146A (zh) | 声波测井探测中坏道的识别方法及装置 | |
CN109633744A (zh) | 地震子波的提取方法、装置、设备及存储介质 | |
JP2017521638A (ja) | オーディオ信号を用いるデバイス間の距離の測定 | |
US20080279266A1 (en) | Determining Transmission Latency | |
US7587015B2 (en) | Asynchronous digital data capture | |
Li et al. | Non-Reference Subjective Evaluation Method for Binaural Audio in 6-DOF VR Applications | |
CN112671966A (zh) | 耳返时延检测装置、方法、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |