CN108924646B

CN108924646B - 一种音视频同步检测方法及系统

Info

Publication number: CN108924646B
Application number: CN201810789036.0A
Authority: CN
Inventors: 刘绍方; 刘敬医
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2021-02-09
Anticipated expiration: 2038-07-18
Also published as: CN108924646A

Abstract

本发明公开了一种音视频同步检测方法及系统，播放预设媒体文件，获取对预设媒体文件解码过程生成的RGB视频数据和PCM音频数据，并进行归一化处理得到相对应的归一化RGB视频数据和归一化PCM音频数据，比较归一化RGB视频数据和归一化PCM音频数据在相同时刻是否匹配来确定是否音视频同步，并在归一化RGB视频数据和归一化PCM音频数据在相同时刻匹配时，确定为音视频同步。相对于传统人工音视频同步检测而言，本发明提高了检测精度；相对于Electric Eye方案而言，本发明不需要提供额外的硬件检测设备，因此，能够大大降低检测难度和成本，从而有利于在实际检测过程中的推广和应用。

Description

一种音视频同步检测方法及系统

技术领域

本发明涉及音视频同步检测技术领域，更具体的说，涉及一种音视频同步检测方法及系统。

背景技术

当终端的解码器内核使用软解码方案对视频流数据和音频流数据独立进行解码渲染时，可能会因一些原因导致解码渲染过程中存在音视频不同步问题，比如，当音视频解码器软件存在缺陷时，使音频解码渲染的时间与视频解码渲染的时机不一样时，将会导致解码渲染过程中出现音视频不同步问题。

当前使用的检测方案主要为人工检测。然而人工检测存在检测精度粗，且在发现问题时不能及时保存解码渲染日志，以供后续进一步排查和解决的缺陷。基于此，Netflix公司提供了一种音视频同步检测方案项目Electric Eye方案，Electric Eye方案的检测原理为：检测设备采用外部摄像机采集解码器解码渲染得到的视频流，采用拾音器采集解码器解码渲染得到的音频流，然后采用自定义算法对视频流和音频流是否同步进行检测。但是，Electric Eye方案需要提供额外的硬件检测设备，并对检测设备与解码器的安装精度有较高的要求，同时，在实际使用过程中，还存在检测难度大、检测成本高等问题。

发明内容

有鉴于此，本发明公开一种音视频同步检测方法及系统，以解决人工检测方案中，检测精度粗，且在发现问题时不能及时保存解码渲染日志的问题，以及Electric Eye方案中需要提供额外的硬件检测设备等问题。

一种音视频同步检测方法，包括：

播放预设媒体文件，所述预设媒体文件包括：视频文件和音频文件；

获取对所述预设媒体文件软解码过程生成的RGB视频数据和PCM音频数据；

对所述RGB视频数据和所述PCM音频数据分别进行归一化处理，得到相对应的归一化RGB视频数据和归一化PCM音频数据；

采用预设音视频同步检测算法比较所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻是否匹配；

当所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻匹配时，则确定为音视频同步。

优选的，所述采用预设音视频同步检测算法比较所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻是否匹配的过程，包括：

计算所述归一化PCM音频数据的音频数据平均值，并利用所述音频数据平均值从预先建立的双关键字键树中，查找相对应的音频关键帧序号；所述双关键字键树用于表征归一化PCM音频数据与音频关键帧序号的对应关系，所述双关键字键树中的两个关键字分别为：第一关键字和第二关键字，所述第一关键字用于存储所述音频关键帧序号对应的最小PCM音频数据值，所述第二关键字用于存储所述音频关键帧序号对应的最大PCM音频数据值；

从所述归一化RGB视频数据中获取视频样本矩阵，以及所述视频样本矩阵中的各个像素值；

将所述视频样本矩阵与初始化的视频全零矩阵按位或计算；

求取按位或计算结果矩阵中的各个像素值的像素平均值；

根据所述像素平均值确定所述当前归一化RGB视频数据的视频关键帧序号；

将所述音频关键帧序号和所述视频关键帧序号进行比较，以确定所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻是否匹配，其中，当所述音频关键帧序号和所述视频关键帧序号相同时，确定为音视频同步；当所述音频关键帧序号和所述视频关键帧序号不相同时，确定为音视频不同步。

优选的，所述预设媒体文件的生成过程包括：

将视频码流数据划分成多个视频关键帧，并对每个所述视频关键帧进行插值和视频编码压缩，得到相对应的待合成封装的视频码流数据；

将音频码流数据划分成与所述视频关键帧等数量且具有不同音量的音频关键帧，对每个所述音频关键帧进行插值和音频编码压缩后，得到相对应的待合成封装的音频码流数据；

将相同时刻的所述待合成封装的视频码流数据和所述待合成封装的音频码流数据合成一个音视频片段，得到多个音视频片段；

对多个所述音视频片段进行处理，得到所述预设媒体文件。

优选的，在对所述RGB视频数据和所述PCM音频数据进行归一化处理之后，还包括：

采用预设黑屏检测算法，判断所述归一化处理后的RGB视频数据，在预设不少于一个坐标值处相对应的RGB视频数据是否都表征黑色；

如果是，则确定为出现黑屏问题。

优选的，所述采用预设黑屏检测算法，判断所述归一化处理后的RGB视频数据，在预设不少于一个坐标值处相对应的RGB视频数据是否都表征黑色的过程，包括：

从当前归一化RGB视频数据中获取满足预设范围要求的视频样本矩阵，以及所述视频样本矩阵范围中的各个像素值；

分别计算所述视频样本矩阵范围中每帧视频数据中像素值的平均值，得到相对应的帧平均像素值；

将各个所述帧平均像素值分别与黑屏临界值进行比较，并累计帧平均像素值低于所述黑屏临界值的帧数量；

判断所述帧数量是否超过阈值，并在所述帧数量超过所述阈值时，确定为出现黑屏问题；在所述帧数量未超过所述阈值时，确定为未出现黑屏问题。

优选的，还包括：

当所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻不匹配时，则确定为音视频不同步；

记录音视频不同步时对应的播放日志。

一种音视频同步检测系统，包括：

播放单元，用于播放预设媒体文件，所述预设媒体文件包括：视频文件和音频文件；

获取单元，用于获取对所述预设媒体文件软解码过程生成的RGB视频数据和PCM音频数据；

归一化单元，用于对所述RGB视频数据和所述PCM音频数据分别进行归一化处理，得到相对应的归一化RGB视频数据和归一化PCM音频数据；

比较单元，用于采用预设音视频同步检测算法比较所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻是否匹配；

第一确定单元，用于当所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻匹配时，则确定为音视频同步。

优选的，所述比较单元包括：

查找子单元，用于计算所述归一化PCM音频数据的音频数据平均值，并利用所述音频数据平均值从预先建立的双关键字键树中，查找相对应的音频关键帧序号；所述双关键字键树用于表征归一化PCM音频数据与音频关键帧序号的对应关系，所述双关键字键树中的两个关键字分别为：第一关键字和第二关键字，所述第一关键字用于存储所述音频关键帧序号对应的最小PCM音频数据值，所述第二关键字用于存储所述音频关键帧序号对应的最大PCM音频数据值；

第一获取子单元，用于从所述归一化RGB视频数据中获取视频样本矩阵，以及所述视频样本矩阵中的各个像素值；

第一计算子单元，用于将所述视频样本矩阵与初始化的视频全零矩阵按位或计算；

求取子单元，用于求取按位或计算结果矩阵范中的各个像素值的像素平均值；

确定子单元，用于根据所述像素平均值确定所述当前归一化RGB视频数据的视频关键帧序号；

第一比较子单元，用于将所述音频关键帧序号和所述视频关键帧序号进行比较，以确定所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻是否匹配，其中，当所述音频关键帧序号和所述视频关键帧序号相同时，确定为音视频同步；当所述音频关键帧序号和所述视频关键帧序号不相同时，确定为音视频不同步。

优选的，还包括：

预设媒体文件生成单元，用于将视频码流数据划分成多个视频关键帧，并对每个所述视频关键帧进行插值和视频编码压缩，得到相对应的待合成封装的视频码流数据；将音频码流数据划分成与所述视频关键帧等数量且具有不同音量的音频关键帧，对每个所述音频关键帧进行插值和音频编码压缩后，得到相对应的待合成封装的音频码流数据；将相同时刻的所述待合成封装的视频码流数据和所述待合成封装的音频码流数据合成一个音视频片段，得到多个音视频片段；对多个所述音视频片段进行处理，得到所述预设媒体文件。

优选的，还包括：

判断单元，用于在所述归一化单元对所述RGB视频数据和所述PCM音频数据进行归一化处理之后，采用预设黑屏检测算法，判断所述归一化处理后的RGB视频数据，在预设不少于一个坐标值处相对应的RGB视频数据是否都表征黑色；

第三确定单元，用于在所述判断单元判断为是的情况下，确定为出现黑屏问题。

优选的，所述判断单元包括：

第二获取子单元，用于从当前归一化RGB视频数据中获取满足预设范围要求的视频样本矩阵，以及所述视频样本矩阵范围中的各个像素值；

第二计算子单元，用于分别计算所述视频样本矩阵范围中每帧视频数据中像素值的平均值，得到相对应的帧平均像素值；

第二比较子单元，用于将各个所述帧平均像素值分别与黑屏临界值进行比较，并累计帧平均像素值低于所述黑屏临界值的帧数量；

判断子单元，用于判断所述帧数量是否超过阈值，并在所述帧数量超过所述阈值时，确定为出现黑屏问题；在所述帧数量未超过所述阈值时，确定为未出现黑屏问题。

优选的，还包括：

第二确定单元，用于当所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻不匹配时，则确定为音视频不同步；

记录单元，用于记录音视频不同步时对应的播放日志。

从上述的技术方案可知，本发明公开了一种音视频同步检测方法及系统，播放预设媒体文件，获取对预设媒体文件解码过程生成的RGB视频数据和PCM音频数据，对获取的RGB视频数据和PCM音频数据分别进行归一化处理，得到相对应的归一化RGB视频数据和归一化PCM音频数据，通过采用预设音视频同步检测算法比较归一化RGB视频数据和归一化PCM音频数据在相同时刻是否匹配来确定是否音视频同步，并在归一化RGB视频数据和归一化PCM音频数据在相同时刻匹配时，确定为音视频同步。相对于传统人工音视频同步检测而言，本发明提高了检测精度；相对于Electric Eye方案而言，本发明不需要提供额外的硬件检测设备，因此，能够大大降低检测难度和成本，从而有利于在实际检测过程中的推广和应用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据公开的附图获得其他的附图。

图1为本发明实施例公开的一种音视频同步检测方法的流程图；

图2为本发明实施例公开的一种采用预设音视频同步检测算法比较归一化RGB视频数据和归一化PCM音频数据在相同时刻是否匹配的方法流程图；

图3为本发明实施例公开的一种检测归一化处理后的RGB视频数据是否黑屏的方法流程图；

图4为本发明实施例公开的一种音视频同步检测系统的结构示意图；

图5为本发明实施例公开的一种图4所示实施例中比较单元的结构示意图；

图6为本发明实施例公开的一种图4所示实施例中判断单元的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种音视频同步检测方法及系统，以解决人工检测方案中，检测精度粗，且在发现问题时不能及时保存解码渲染日志的问题，以及Electric Eye方案中需要提供额外的硬件检测设备等问题。

参见图1，图1为本发明实施例公开的一种音视频同步检测方法的流程图，该方法应用于终端，终端可以是智能手机、IPAD、笔记本、台式电脑等等，该方法包括步骤：

步骤S101、播放预设媒体文件；

在实际应用中，可控制播放器内核播放预设媒体文件。

本步骤中，预设媒体文件包括：视频文件和音频文件。

在实际应用中，预设媒体文件的生成过程，也即预设媒体文件的制作、编码、合成、封装和处理上线过程，以及相关数据约束条件，可参见如下说明：

(1)将视频码流数据划分成多个视频关键帧；

具体的关键帧视频码流数据表示为：N阶视频矩阵V_f，其中，1≤f≤S；

预先构建视频数据帧的像素矩阵V_f[i,j]中，各个像素点的值为：

式中，V_f[i,j]表示视频关键帧(本发明中主要是I帧)图片中，帧号为f，坐标为[i,j]的像素矩阵，0x00表示像素点的值为黑色，0xFF表示像素点的值为白色，f为关键帧标识，r_f和r′_f分别表示关键帧f中像素点为黑色的上行号与下行号，c_f和c′_f分别表示关键帧f中像素点为黑色的左列号与右列号，i为第i个像素点，j为第j个像素点。

对于关键帧f中的其他像素值都设置为白色；

(2)对每个视频关键帧进行插值和视频编码压缩，比如采用视频编码算法H.264编码压缩，得到待合成封装的视频码流数据；

(3)将音频码流数据划分成与视频关键帧等数量且具有不同音量的音频关键帧；

其中，相邻音频关键帧之间存在间隔。

具体的，假设音频码流数据包括：S(S为正整数)种均值大小不同的PCM16LE单声道单频率数据，设每段音频采样点的PCM(pulse code modulation，脉冲编码调制数据)音频数据的个数为M。音频向量中各个PCM音频数据的值为：

其中，1≤f≤S且0≤k＜M；

从而将音频码流数据划分为S种不同音量的音频关键帧，相邻音频关键帧之间存在间隔；

(4)音频关键帧经过插值和AAC(Advanced Audio Coding，高级音频编码)音频编码压缩后，得到待合成封装的音频码流数据；

(5)将相同时刻的待合成封装的视频码流数据和待合成封装的音频码流数据合成一个音视频片段；

具体的，将相同时刻的待合成封装的视频码流数据和待合成封装的音频码流数据使用ffpmeg命令行工具生成一个音视频片段，从而得到多个音视频片段。

(6)对多个音视频片段进行拼接、合成和封装，从而得到MP4媒体文件；

(7)对MP4媒体文件按照流媒体传输协议处理后，得到本步骤中所述的预设媒体文件，通过将该预设媒体文件上线到终端的测试后台，可得到预设媒体文件中视频的ID值。

步骤S102、获取对预设媒体文件软解码过程生成的RGB视频数据和PCM音频数据；

具体的，获取解码器内核对预设媒体文件软解码过程生成的RGB视频数据和PCM音频数据。

软解码是指使用CPU(Central Processing Unit，中央处理器)对编码后的视频或者音频依据解码算法进行计算，得到解码后的视频或者音频，通常采用FFMPEG库进行软解码，软解码和硬解码进行对应，硬解码是利用解码芯片对编码后的视频或者音频进行解码，解码过程对应用程序透明。

RGB色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是目前运用最广的颜色系统之一。

本步骤中所述的RGB视频数据指的是解码之后的视频数据。

PCM(Pulse Code Modulation，脉冲编码调制)可以向用户提供多种业务，比如，可以提供从2M到155M速率的数字数据专线业务，话音、图像传送、远程教学等其他业务等。

本步骤中所述的PCM音频数据指的是解码之后的音频数据。

当解码器内核对预设媒体文件中的视频文件和音频文件分别进行软解码时，会生成与视频文件相对应的RGB视频数据，以及与音频文件相对应的PCM音频数据。终端在进行音视频同步检测时，会实时获取解码器内核对预设媒体文件软解码过程生成的RGB视频数据和PCM音频数据，并基于实时获取的RGB视频数据和PCM音频数据，进行音视频同步检测。

步骤S103、对RGB视频数据和PCM音频数据分别进行归一化处理，得到相对应的归一化RGB视频数据和归一化PCM音频数据；

归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，转化为无量纲的表达式，成为标量。

本发明通过对RGB视频数据进行归一化处理，将有量纲的RGB视频数据转化为无量纲的归一化RGB视频数据；通过对PCM音频数据进行归一化处理，将有量纲的PCM音频数据转化为无量纲的归一化PCM音频数据。

步骤S104、采用预设音视频同步检测算法比较归一化RGB视频数据和归一化PCM音频数据在相同时刻是否匹配；

步骤S105、当归一化RGB视频数据和归一化PCM音频数据在相同时刻匹配时，则确定为音视频同步。

需要说明的是，当音视频同步时，相同时刻的归一化RGB视频数据和归一化PCM音频数据相匹配；反之，当音视频不同步时，相同时刻的归一化RGB视频数据和归一化PCM音频数据不匹配。基于此，本发明通过比较相同时刻的归一化RGB视频数据和归一化PCM音频数据是否匹配，来确定在这一时刻音视频是否同步。

综上可知，本发明公开的音视频同步检测方法，通过播放预设媒体文件，获取对预设媒体文件解码过程生成的RGB视频数据和PCM音频数据，然后对获取的RGB视频数据和PCM音频数据分别进行归一化处理，得到相对应的归一化RGB视频数据和归一化PCM音频数据，通过采用预设音视频同步检测算法比较归一化RGB视频数据和归一化PCM音频数据在相同时刻是否匹配来确定是否音视频同步，并在归一化RGB视频数据和归一化PCM音频数据在相同时刻匹配时，确定为音视频同步。相对于传统人工音视频同步检测而言，本发明提高了检测精度；相对于Electric Eye方案而言，本发明不需要提供额外的硬件检测设备，因此，能够大大降低检测难度和成本，从而有利于在实际检测过程中的推广和应用。

上述实施例中，当归一化RGB视频数据和归一化PCM音频数据在相同时刻不匹配时，则确定为音视频不同步，此时，记录音视频不同步时对应的播放日志，以便后续进一步排查和解决。

综上可知，本发明公开的音视频同步检测方法，通过播放预设媒体文件，获取对预设媒体文件解码过程生成的RGB视频数据和PCM音频数据，然后对获取的RGB视频数据和PCM音频数据分别进行归一化处理，得到相对应的归一化RGB视频数据和归一化PCM音频数据，通过采用预设音视频同步检测算法比较归一化RGB视频数据和归一化PCM音频数据在相同时刻是否匹配来确定是否音视频同步，并在归一化RGB视频数据和归一化PCM音频数据在相同时刻匹配时，确定为音视频同步，在归一化RGB视频数据和归一化PCM音频数据在相同时刻不匹配时，确定为音视频不同步。相对于传统人工音视频同步检测而言，本发明不仅提高了检测精度，而且能够对检测过程中出现的问题及时进行保存，以供后续进一步排查和解决；相对于Electric Eye方案而言，本发明不需要提供额外的硬件检测设备，因此，能够大大降低检测难度和成本，从而有利于在实际检测过程中的推广和应用。

鉴于播放器内核的跨平台特性，针对播放检测过程，此处以Android平台为例进行说明。

使用播放器内核软解码方式对预设媒体文件中的视频文件进行解码和渲染过程中，建立自定义类PlayerGLSurfaceViewRender继承GLSurfaceView.Renderer类和SurfaceTexture.OnFrameAvailableListener接口，PlayerGLSurfaceViewRender是在实现过程中自定义的类名称，GLSurfaceView.Renderer和SurfaceTexture.OnFrameAvailableListener分别是android系统提供的类名称和接口名称。

在onDrawFrame函数进行回调时表示视频帧解码完成并等待渲染，此时通过调用GLES20.glReadPixels函数获取解码视频帧数据V_f[i,j]，当音频帧解码完成并等待渲染时，通过播放器内核增加的音频渲染回调函数OnGotAudioDat得到解码播放过程中的音频帧数据A_f[k]；然后通过音视频同步算法检测音视频是否同步。

为进一步优化上述实施例，在步骤S106之后，还可以包括：

将播放日志保存至预设日志文件夹中，该预设日志文件夹可以UTC(CoordinatedUniversal Time，世界统一时间)为文件名，以便后续相关工作人员查看音视频不同步时刻。

为方便理解，本发明中采用预设音视频同步检测算法确定音视频是否同步的过程，参见图2，本发明一具体实施例公开的一种采用预设音视频同步检测算法比较归一化RGB视频数据和归一化PCM音频数据在相同时刻是否匹配的方法流程图，该方法包括步骤：

步骤S201、计算归一化PCM音频数据的音频数据平均值，并利用音频数据平均值从预先建立的双关键字键树中，查找相对应的音频关键帧序号；

需要说明的是，本步骤中所述的当前归一化PCM音频数据指的是对当前PCM音频数据进行归一化处理后，得到的数据，为方便叙述，将对当前PCM音频数据进行归一化处理后的数据命名为“当前归一化PCM音频数据”。

在执行步骤S201之前，需要建立双关键字键树，具体如下：

建立归一化PCM音频数据与音频关键帧序号的对应关系表，该对应关系表采用双关键字键树的结构进行存储和表示，也就是说，所述双关键字键树用于表征归一化PCM音频数据与音频关键帧序号的对应关系，双关键字键树中包括两个关键字，分别为：第一关键字和第二关键字，所述第一关键字用于存储音频关键帧序号对应的最小PCM音频数据值，所述第二关键字用于存储音频关键帧序号对应的最大PCM音频数据值。

需要特别说明的是，双关键字键树中存储的是处于特定范围内PCM音频数据值之间的归一化PCM音频数据与音频关键帧序号的对应关系，如对于双关键字键树的节点{“id”:2,“range”:{“minimum”:100,“maximum”:200}}表示若音频数据平均值在[100,200]区间中，则该音频数据平均值对应的音频关键帧序号为2。

根据如下公式计算当前PCM音频数据的音频数据平均值

式中，M为PCM音频数据点的个数，A_f[k]为音频帧数据，0≤k＜M。

步骤S202、从归一化RGB视频数据中获取视频样本矩阵，以及所述视频样本矩阵中的各个像素值；

其中，视频样本矩阵的行数和列数具体依据实际需要而定，本发明在此不做限定。

步骤S203、将视频样本矩阵与初始化的视频全零矩阵按位或计算；

具体的，假设视频样本矩阵为V_f[L,L]，初始化的视频全零矩阵为S_f[L,L]，将视频样本矩阵与初始化的视频全零矩阵进行位或计算得到计算结果_f[L,L]，如下：

R_f[L,L]＝V_f[L,L]|S_f[L,L]

式中，L为视频样本矩阵的行数和列数，Vf[L,L]表示行数和列数都是L的方阵。

按位或运算符“|”是双目运算符。其功能是参与运算的两数各对应的二进位相或。只要对应的二个二进位有一个为1时，结果位就为1。当参与运算的是负数时，参与两个数均以补码出现。

步骤S204、求取按位或计算结果矩阵中的各个像素值的像素平均值；

具体的，根据如下公式求取按位或计算结果矩阵范围内的各个像素值的像素平均值

式中，i为第i个像素点，j为第j个像素点。

步骤S205、根据所述像素平均值确定所述当前归一化RGB视频数据的视频关键帧序号；

具体的，依次遍历每帧视频数据的像素平均值pf，取最小的pf对应的帧号f作为当前归一化RGB视频数据的视频关键帧序号。

步骤S206、将所述音频关键帧序号和所述视频关键帧序号进行比较，以确定所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻是否匹配。

其中，当所述音频关键帧序号和所述视频关键帧序号相同时，确定为音视频同步；当所述音频关键帧序号和所述视频关键帧序号不相同时，确定为音视频不同步。

综上可知，本发明通过将确定的音频关键帧序号和视频关键帧序号进行比较，来确定音视频是否同步，并在音频关键帧序号和视频关键帧序号相同时，确定为音视频同步，反之，当音频关键帧序号和视频关键帧序号不相同时，确定为音视频不同步。相对于传统人工音视频同步检测而言，本发明不仅提高了检测精度，而且能够对检测过程中出现的问题及时进行保存，以供后续进一步排查和解决；相对于Electric Eye方案而言，本发明不需要提供额外的硬件检测设备，因此，能够大大降低检测难度和成本，从而有利于在实际检测过程中的推广和应用。

进一步，本发明公开的音视频同步检测方法，还可以对终端进行黑屏检测。

因此，在上述实施例的基础上，在步骤S103之后，还可以包括：

采用预设黑屏检测算法，判断所述归一化处理后的RGB视频数据，在预设不少于一个坐标值处相对应的RGB视频数据是否都表征黑色；如果是，则确定为出现黑屏问题；如果否，则确定未出现黑屏问题。

具体的，参见图3，本发明一实施例公开的一种采用预设黑屏检测算法，判断归一化处理后的RGB视频数据，在预设不少于一个坐标值处相对应的RGB视频数据是否都表征黑色的方法流程图，该方法包括步骤：

步骤S301、从当前归一化RGB视频数据中获取满足预设范围要求的视频样本矩阵，以及所述视频样本矩阵范围中的各个像素值；

其中，预设范围要求依据实际需要而定，本发明在此不做限定。

步骤S302、分别计算所述视频样本矩阵范围中每帧视频数据中像素值的平均值，得到相对应的帧平均像素值；

具体的，根据如下公式计算得到每帧平均像素值v_f；

V_f[i,j]为视频样本矩阵中各个像素点的值，i为第i个像素点，j为第j个像素点，L为视频样本矩阵的行数和列数，Vf[L,L]表示行数和列数都是L的方阵。

步骤S303、将各个所述帧平均像素值分别与黑屏临界值进行比较，并累计帧平均像素值低于所述黑屏临界值的帧数量；

其中，黑屏临界值是用于表征是否出现黑屏的临界值，具体数值依据实际需要而定，本发明在此不做限定。

步骤S304、判断所述帧数量是否超过阈值，如果是，则执行步骤S305，反之，则执行步骤S306；

步骤S305、判定当前出现黑屏问题；

步骤S305、判定当前未出现问题。

综上可知，本发明公开的音视频同步检测方法，除了可以进行音视频同步检测外，还可以基于视频样本矩阵范围中，每帧视频数据中像素值的平均值，得到相对应的帧平均像素值，然后通过将各个帧平均像素值分别与黑屏临界值进行比较，来各个帧平均像素值是否低于黑屏临界值，并累计帧平均像素值低于所述黑屏临界值的帧数量，当帧数量超过阈值时，表明终端当前出现黑屏问题，反之，当帧数量未超过阈值时，表明终端当前未出现黑屏问题。相对于传统采用人工检测黑屏问题而言，本发明大大降低了检测难度和成本，能够较好的应用到工程检测中。

与上述方法实施例相对应，本发明还公开了一种音视频同步检测系统。

参见图4，本发明一实施例公开的一种音视频同步检测系统的结构示意图，该系统应用于终端，终端可以是智能手机、IPAD、笔记本、台式电脑等等，该系统包括：

播放单元401，用于播放预设媒体文件，所述预设媒体文件包括：视频文件和音频文件；

需要说明的是，在实际应用中，播放单元401可控制播放器内核播放预设媒体文件，其中，在播放预设媒体文件之前，需要先生成预设媒体文件。

因此，音视频同步检测系统还可以包括：

预设媒体文件生成单元的具体工作原理，请参见方法实施例对应部分，此处不再赘述。

获取单元402，用于获取对所述预设媒体文件软解码过程生成的RGB视频数据和PCM音频数据；

具体的，获取单元402获取解码器内核对预设媒体文件软解码过程生成的RGB视频数据和PCM音频数据。

获取单元402中所述的PCM音频数据指的是解码之后的音频数据。

归一化单元403，用于对所述RGB视频数据和所述PCM音频数据分别进行归一化处理，得到相对应的归一化RGB视频数据和归一化PCM音频数据；

比较单元404，用于采用预设音视频同步检测算法比较所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻是否匹配；

第一确定单元405，用于当所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻匹配时，则确定为音视频同步。

综上可知，本发明公开的音视频同步检测系统，通过播放预设媒体文件，获取对预设媒体文件解码过程生成的RGB视频数据和PCM音频数据，然后对获取的RGB视频数据和PCM音频数据分别进行归一化处理，得到相对应的归一化RGB视频数据和归一化PCM音频数据，通过采用预设音视频同步检测算法比较归一化RGB视频数据和归一化PCM音频数据在相同时刻是否匹配来确定是否音视频同步，并在归一化RGB视频数据和归一化PCM音频数据在相同时刻匹配时，确定为音视频同步。相对于传统人工音视频同步检测而言，本发明提高了检测精度；相对于Electric Eye方案而言，本发明不需要提供额外的硬件检测设备，因此，能够大大降低检测难度和成本，从而有利于在实际检测过程中的推广和应用。

述实施例中，当归一化RGB视频数据和归一化PCM音频数据在相同时刻不匹配时，则确定为音视频不同步，因此，音视频同步检测系统还可以包括：

第二确定单元，用于将在相同时刻不匹配的所述归一化RGB视频数据和所述归一化PCM音频数据确定为音视频不同步；

记录单元，用于记录音视频不同步时对应的播放日志。

综上可知，本发明公开的音视频同步检测系统，通过播放预设媒体文件，获取对预设媒体文件解码过程生成的RGB视频数据和PCM音频数据，然后对获取的RGB视频数据和PCM音频数据分别进行归一化处理，得到相对应的归一化RGB视频数据和归一化PCM音频数据，通过采用预设音视频同步检测算法比较归一化RGB视频数据和归一化PCM音频数据在相同时刻是否匹配来确定是否音视频同步，并在归一化RGB视频数据和归一化PCM音频数据在相同时刻匹配时，确定为音视频同步，在归一化RGB视频数据和归一化PCM音频数据在相同时刻不匹配时，确定为音视频不同步。相对于传统人工音视频同步检测而言，本发明不仅提高了检测精度，而且能够对检测过程中出现的问题及时进行保存，以供后续进一步排查和解决；相对于Electric Eye方案而言，本发明不需要提供额外的硬件检测设备，因此，能够大大降低检测难度和成本，从而有利于在实际检测过程中的推广和应用。

为进一步优化上述实施例，音视频同步检测系统还可以包括：

存储单元，用于将所述播放日志保存至预设日志文件中，该预设日志文件夹可以UTC(Coordinated Universal Time，世界统一时间)为文件名，以便后续相关工作人员查看音视频不同步时刻。

为方便理解，本发明中采用预设音视频同步检测算法确定音视频是否同步的过程，参见图5，本发明一实施例公开的一种比较单元的结构示意图，该比较单元可以包括：

查找子单元501，用于计算归一化PCM音频数据的音频数据平均值，并利用所述音频数据平均值从预先建立的双关键字键树中，查找相对应的音频关键帧序号；

需要说明的是，查找子单元501中所述的当前归一化PCM音频数据指的是对当前PCM音频数据进行归一化处理后，得到的数据，为方便叙述，将对当前PCM音频数据进行归一化处理后的数据命名为“当前归一化PCM音频数据”。

双关键字键树的建立过程具体如下：

根据如下公式计算当前PCM音频数据的音频数据平均值

第一获取子单元502，用于从归一化RGB视频数据中获取视频样本矩阵，以及所述视频样本矩阵中的各个像素值；

第一计算子单元503，用于将所述视频样本矩阵与初始化的视频全零矩阵按位或计算；

R_f[L,L]＝V_f[L,L]|S_f[L,L]

求取子单元504，用于求取按位或计算结果矩阵中的各个像素值的像素平均值；

式中，i为第i个像素点，j为第j个像素点。

确定子单元505，用于根据所述像素平均值确定所述当前归一化RGB视频数据的视频关键帧序号；

第一比较子单元506，用于将所述音频关键帧序号和所述视频关键帧序号进行比较，以确定所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻是否匹配。

进一步，本发明公开的音视频同步检测系统还可以对终端进行黑屏检测。

因此，在上述实施例的基础上，音视频同步检测系统还可以包括：

判断单元，用于在归一化单元403对所述RGB视频数据和所述PCM音频数据进行归一化处理之后，采用预设黑屏检测算法，判断所述归一化处理后的RGB视频数据，在预设不少于一个坐标值处相对应的RGB视频数据是否都表征黑色；

具体的，参见图6，本发明一实施例公开的一种判断单元的结构示意图，该判断单元包括：

第二获取子单元601，用于从当前归一化RGB视频数据中获取满足预设范围要求的视频样本矩阵，以及所述视频样本矩阵范围中的各个像素值；

第二计算子单元602，用于分别计算所述视频样本矩阵范围中每帧视频数据中像素值的平均值，得到相对应的帧平均像素值；

具体的，根据如下公式计算得到每帧平均像素值v_f；

第二比较子单元603，用于将各个所述帧平均像素值分别与黑屏临界值进行比较，并累计帧平均像素值低于所述黑屏临界值的帧数量；

判断子单元604，用于判断所述帧数量是否超过阈值，并在所述帧数量超过所述阈值时，确定为出现黑屏问题；在所述帧数量未超过所述阈值时，确定为未出现黑屏问题。

综上可知，本发明除了可以进行音视频同步检测外，还可以基于视频样本矩阵范围中，每帧视频数据中像素值的平均值，得到相对应的帧平均像素值，然后通过将各个帧平均像素值分别与黑屏临界值进行比较，来各个帧平均像素值是否低于黑屏临界值，并累计帧平均像素值低于所述黑屏临界值的帧数量，当帧数量超过阈值时，表明终端当前出现黑屏问题，反之，当帧数量未超过阈值时，表明终端当前未出现黑屏问题。相对于传统采用人工检测黑屏问题而言，本发明大大降低了检测难度和成本，能够较好的应用到事件工程检测中。

需要说明的是，系统实施例中各组成部分的工作原理，请参见方法实施例对应部分，此处不再赘述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种音视频同步检测方法，其特征在于，包括：

播放预设媒体文件，所述预设媒体文件包括：视频文件和音频文件，所述视频文件中的视频关键帧与所述音频文件中的音频关键帧的数量相同；

当所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻匹配时，则确定为音视频同步；

其中，所述采用预设音视频同步检测算法比较所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻是否匹配的过程，包括：

将所述归一化PCM音频数据的音频关键帧序号和所述归一化RGB视频数据的视频关键帧序号进行比较，以确定所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻是否匹配，其中，当所述音频关键帧序号和所述视频关键帧序号相同时，确定为音视频同步；当所述音频关键帧序号和所述视频关键帧序号不相同时，确定为音视频不同步。

2.根据权利要求1所述的音视频同步检测方法，其特征在于，所述将所述归一化PCM音频数据的音频关键帧序号和所述归一化RGB视频数据的视频关键帧序号进行比较，以确定所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻是否匹配的过程，具体包括：

将所述视频样本矩阵与初始化的视频全零矩阵按位或计算；

求取按位或计算结果矩阵中的各个像素值的像素平均值；

3.根据权利要求1所述的音视频同步检测方法，其特征在于，所述预设媒体文件的生成过程包括：

对多个所述音视频片段进行处理，得到所述预设媒体文件。

4.根据权利要求1所述的音视频同步检测方法，其特征在于，在对所述RGB视频数据和所述PCM音频数据进行归一化处理之后，还包括：

如果是，则确定为出现黑屏问题。

5.根据权利要求4所述的音视频同步检测方法，其特征在于，所述采用预设黑屏检测算法，判断所述归一化处理后的RGB视频数据，在预设不少于一个坐标值处相对应的RGB视频数据是否都表征黑色的过程，包括：

6.根据权利要求1所述的音视频同步检测方法，其特征在于，还包括：

记录音视频不同步时对应的播放日志。

7.一种音视频同步检测系统，其特征在于，包括：

播放单元，用于播放预设媒体文件，所述预设媒体文件包括：视频文件和音频文件，所述视频文件中的视频关键帧与所述音频文件中的音频关键帧的数量相同；

第一确定单元，用于当所述归一化RGB视频数据和所述归一化PCM音频数据在相同时刻匹配时，则确定为音视频同步；

其中，所述比较单元具体用于：

8.根据权利要求7所述的音视频同步检测系统，其特征在于，所述比较单元具体包括：

9.根据权利要求7所述的音视频同步检测系统，其特征在于，还包括：

10.根据权利要求7所述的音视频同步检测系统，其特征在于，还包括：

11.根据权利要求10所述的音视频同步检测系统，其特征在于，所述判断单元包括：

12.根据权利要求7所述的音视频同步检测系统，其特征在于，还包括：

记录单元，用于记录音视频不同步时对应的播放日志。