CN103051921A

CN103051921A - 一种精确检测视音频处理系统视频、音频同步误差的方法

Info

Publication number: CN103051921A
Application number: CN2013100016965A
Authority: CN
Inventors: 隗功赛; 王雨; 王付生
Original assignee: Beijing Dayang Technology Development Inc
Current assignee: Beijing Dayang Technology Development Inc
Priority date: 2013-01-05
Filing date: 2013-01-05
Publication date: 2013-04-17
Anticipated expiration: 2033-01-05
Also published as: CN103051921B

Abstract

本发明涉及一种精确检测视音频处理系统视频、音频同步误差的方法。所述方法包括：利用帧号生成同步检测序列的步骤；将同步检测序列输入被测视音频系统的步骤；从被测视音频系统接收经过其处理后的输出序列的步骤；根据接收到的同步检测序列计算同步误差的步骤。本发明首先利用帧号生成同步检测序列，而后将上述同步检测序列输入被测视音频系统，在被测视音频系统的输出侧，利用检测技术，从其输出的同步检测序列中恢复视频帧和音频帧的帧号，利用帧号及时间关系计算同步误差。本发明可以客观的定量的分析视音频同步误差，避免了主观判断法带来的主观性，测量出的同步误差具有较高的精度。

Description

一种精确检测视音频处理系统视频、音频同步误差的方法

技术领域

本发明涉及一种精确检测视音频处理系统视频、音频同步误差的方法，是一种电子检测的方法，是一种判断视频、音频是否同步的方法，是一种精确测量同步误差的方法。

背景技术

影视节目通常由视频和音频组成，视频内容和音频内容在情节上通常具有一定的对应关系。比如，新闻主持人在播新闻的时候，声音和嘴形是对应的，即，视音频是同步的。如果声音超前于视频内容或者滞后于视频内容，就是视音频不同步。

节目从信源到观众，要经历很多环节，比如，节目的采集、节目的编辑、节目的播出等等。这里，将每个环节都称为视音频处理系统。视音频处理系统的输入接口接入待处理的视音频数据，输出接口输出经过系统自身处理后的数据。多个视音频处理系统可以串接在一起，前一个系统的输出是后一个系统的输入。视音频处理系统在处理视音频数据的时候，可能会引入处理噪声。比如，对于有损压缩编码，压缩算法会对图像和声音引入噪声。

数据在经过视音频处理系统的时候，可能会引入同步误差。随着系统串接数目的增加，同步误差可能会不断的累积，也可能会相互抵消。同步误差是衡量视音频处理系统质量的一个重要指标。

当前，判断视音频是否同步的一种方法是主观判断法。步骤如下：给视音频处理系统接入节目源；将视音频处理系统的输出连接监视器（如果输出不能直接连接监视器，可以通过不产生同步误差的转换系统进行转接）；通过主观观察输出的画面和声音，来判断视音频是否保持同步。这种方法存在以下缺点：对于视音频同步的判断受限于人的主观性，有些人认为同步了，可是有些人却认为不同步；当不同步发生的时候，无法定量的给出同步误差，或者同步误差的精度不够；当同步误差小于主观可识别阈值的时候，无法判断是否同步。

发明内容

针对现有技术的缺陷，本发明的目的是提出一种精确检测视音频处理系统视频、音频同步误差的方法，本发明利用发出的专门视、音频帧编号确切的认定相同的视、音频帧，以此用专门的电子装置计算视音频误差。

本发明的目的是这样实现的：一种精确检测视音频处理系统视频、音频同步误差的方法，所述方法使用的硬件系统包括：与至少由一个子系统串联组成的被测视音频系统输入端连接的信号发生单元，所述的被测视音频系统的输出端与信号检测单元连接，其特征在于，所述方法包括如下步骤：

利用帧号生成同步检测序列的步骤：根据被测系统的特点和实际环境的特点，选择一种生成同步检测序列的方法，所述生成同步检测序列的方法是：特定序列法、数字水印法、数据相关法中的一种，利用选定的生成同步检测序列的方法生成同步检测序列；

将同步检测序列输入被测视音频系统的步骤：根据被测视音频系统的特点，选择以文件方式或者以信号方式输入同步检测序列，将同步检测序列以选定的方式输入被测视音频系统，按实际情况操作被测视音频系统，使其接受输入序列，产生处理后的输出序列；

从被测视音频系统接收经过其处理后的输出序列的步骤：根据被测视音频系统的特点，选择以文件方式或者以信号方式接收输出的结果序列，以选定的方式接收经过被测视音频系统处理后的同步检测序列；

根据接收到的同步检测序列计算同步误差的步骤：从输出序列中恢复视频帧和音频帧的帧号，利用帧号及时间关系计算同步误，计算同步误差的方法是帧号计时法或帧号比较法。

本发明产生的有益效果是：本发明首先利用帧号生成同步检测序列，而后将上述同步检测序列输入被测视音频系统，在被测视音频系统的输出侧，利用检测技术，从其输出的同步检测序列中恢复视频帧和音频帧的帧号，利用帧号及时间关系计算同步误差。本发明可以客观的定量的分析视音频同步误差，避免了主观判断法带来的主观性，测量出的同步误差具有较高的精度。本发明不仅仅适用于没有处理噪声的视音频处理系统，而且也可以用于会产生处理噪声的视音频处理系统。对于帧频率不是整数的视频制式，本发明同样适用。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1是本发明实施例一所述的方法使用的系统示意图；

图2是本发明实施例一所述的方法的同步误差的检测原理示意图；

图3是本发明实施例四所述的特定序列法中帧号是150的视频帧示意图；

图4是本发明实施例四所述的特定序列法中帧号是149、150、151的音频帧的帧同步声道和编码帧号声道示意图；

具体实施方式

实施例一：

本实施例是一种精确检测视音频处理系统视频、音频同步误差的方法，所述方法使用的硬件系统包括：与至少由一个子系统串联组成的被测视音频系统输入端连接的信号发生单元，所述的被测视音频系统的输出端与信号检测单元连接，如图1所示。本实施例所述的系统包括：与至少由一个子系统串联组成的被测视音频系统输入端连接的信号发生单元，所述的被测视音频系统的输出端与信号检测单元连接。所述的信号发生单元包括：生成一系列视频帧号的视频序列发生装置和生成序号与视频帧号相同的一系列音频帧号的音频序列发生装置，所述的视频序列发生装置和音频序列发生装置与用视频帧号序列和音频帧号序列生成专用测试信号或将视频帧号序列和音频帧号序列嵌入节目信号的信号生成装置连接。所述的信号检测单元包括：接收和提取视频帧号和音频帧号的信号接收和提取装置，所述的信号识别和提取装置与显示装置和计算视频帧和音频帧之间时间差值的误差计算装置连接，所述的误差计算装置与显示装置连接。

本实施例所述方法的基本原理是：首先利用帧号生成同步检测序列，而后将上述同步检测序列输入被测视音频系统，最终，在被测视音频系统的输出侧，利用检测技术，从其输出的结果序列中恢复视频帧和音频帧的帧号，利用帧号及时间关系计算同步误差。本实施例提供三种可供选择的生成同步检测序列的方法：第一种是使用特定视音频序列作为同步检测序列，该序列中，视频、音频对应的帧具有相同的帧号。第二种是利用数字水印技术，将帧号嵌入原始视音频序列中，从而生成同步检测序列，简称做数字水印法。第三种是利用数据相关性算法，将帧号嵌入原始视音频序列中，从而生成同步检测序列，简称做数据相关法。这三种方法分别适用于不同的应用场景，根据被测视音频系统的特点和实际环境的特点，可以从中选择一种最恰当的方法用于生成同步检测序列。特定序列法用特定的视音频序列完全替代视音频处理系统输入侧的原始序列。对于在原始视音频序列中嵌入帧号技术上不可行的情况，或者同步误差与视音频内容不相关的待测系统，或者测量非在线服务的系统，都可以使用特定序列法。对于比较容易在原始视音频序列中嵌入帧号的情况，或者同步误差与视音频内容相关的待测系统，或者测量在线服务的系统（待测系统处于在线运行状态），都可以使用数字水印法或数据相关法。对于比较容易在原始视音频序列中嵌入帧号的情况，或者同步误差与视音频内容相关的待测系统，或者测量在线服务的系统，如果不希望由于测量同步误差而引入额外噪声的情况（在原始视音频序列中嵌入帧号会引入额外噪声，该方法嵌入的帧号可以在输出侧利用逆运算剔除），可以优选使用数据相关法。三种方法都适用于会产生处理噪声的待测系统，比如有损压缩编码、白噪声等。基本原理如图2所示。所述方法包括如下步骤：

利用帧号生成同步检测序列的步骤：根据被测系统的特点和实际环境的特点，选择一种生成同步检测序列的方法，所述生成同步检测序列的方法是：特定序列法、数字水印法、数据相关法中的一种，利用选定的生成同步检测序列的方法生成同步检测序列。所述的特定序列法就是专门设计一种测试信号，这种测试信号的内容只是为了表达帧号，即各个视频帧和音频帧的帧号。这种专用的测试信号可以十分直接和方便的在显示器上显示出视频帧号和音频帧号。所述的数字水印法则是将帧号用水印法嵌入到常规的节目信号中，在检测单元中在将水印中的帧号恢复出来。而数据相关法则是利用视音频数据的特点，将帧号嵌入到常规节目的视音频信号，在检测单元中再将节目信号中嵌入的帧号恢复出来。

将同步检测序列输入被测视音频系统的步骤：根据被测视音频系统的特点，选择以文件方式或者以信号方式输入同步检测序列，将同步检测序列以选定的方式输入被测视音频系统，按实际情况操作被测视音频系统，使其接受输入序列，产生处理后的输出序列。如本方法基本原理描述段所述，如果允许将原始的视音频序列替换成特定的测试序列或者同步误差与视音频内容无关，那么就选择特定序列法；否则，从数字水印法和数据相关法两个之中选择。如果不希望由于测量同步误差而引入额外的噪声，则使用数据相关法，否则，使用数字水印法。

从被测视音频系统接收经过其处理后的输出序列的步骤：根据被测视音频系统的特点，选择以文件方式或者以信号方式接收输出的结果序列，以选定的方式接收经过被测视音频系统处理后的同步检测序列。如果待测系统只能以文件形式输入视音频数据，比如软件SDK，那么选择以文件方式输入同步检测序列。如果待测系统只能以物理信号形式输入视音频信号，比如硬件系统，那么选择以信号方式输入同步检测序列。如果两种方式都可以，则任选一种方式输入同步检测序列即可。对于结果序列的接受检测也是同样，如果待测系统只能以文件形式输出视音频数据，比如软件SDK，那么选择以文件方式检测输出序列。如果待测系统只能以物理信号形式输出视音频信号，比如硬件系统，那么选择以信号方式检测输出序列。如果待测系统既可输出文件也可输出物理信号，则任选一种方式检测输出序列均可。

根据接收到的同步检测序列计算同步误差的步骤：从输出序列中恢复视频帧和音频帧的帧号，利用帧号及时间关系计算同步误差，计算同步误差的方法是帧号计时法或帧号比较法。

本实施例及以下实施例所述的帧长是：在特定的制式下，该制式所对应的帧频率的倒数。比如，对于50i制式，帧长是1/25秒。

本实施例及以下实施例所述的视频帧是：一帧长的视频数据。在特定的制式下，一个视频帧对应一帧视频图像。

本实施例及以下实施例所述的音频帧是：一帧长的音频采样点。音频帧的采样点数取决于帧长、采样率、声道数。在特定的制式下，一帧长对应的音频采样点数可能不是整数。

所述的特定制式是高清、标清等广播电视制式。

实施例二：

本实施例是实施例一的改进，是实施例一关于计算同步误差的方法计算同步误差的方法的细化。本实施例所述的计算同步误差的方法是帧号计时法，所述帧号计时法计算同步误差的步骤如下：

记录每一帧视频帧和音频帧的帧号vi、aj，同时记录每个视频帧和音频帧的出现时间、

；

找到帧号相同的视频帧vn和音频帧an，将视频帧vn的出现时间

Figure 2013100016965100002DEST_PATH_IMAGE003

减去音频帧an的出现时间

的形成的差值，即为同步误差T。比如，视频帧v150出现的时间是2分40秒35毫秒，音频帧a150出现的时间是2分40秒38毫秒。同步误差等于-3毫秒。

实施例三：

本实施例是实施例一的改进，是实施例一关于计算同步误差的方法计算同步误差的方法的细化。本实施例所述的计算同步误差的方法是帧号比较法。所述帧号比较法计算同步误差的步骤如下：

以某一视频帧vi出现的时间为时间点，检测此时音频帧的帧号aj，同时检测此时的音频采样点是音频帧的第几个采样点，记为

；同步误差T的计算公式为

。以视频帧v150出现的时间为时间点，检测到此时音频帧的帧号为a149，同时检测到此时的音频采样点是音频帧的第20个采样点，该音频的采样率是48KHz，视频制式是PAL，则同步误差等于-39.58毫秒（-1*40毫秒+20/48KHz）。

实施例四：

本实施例是上述实施例的改进，是上述实施例关于特定序列生成同步检测序列的细化。本实施例使用特定序列法生成同步检测序列生成视音频同步序列：

赋予视频序列中每个视频帧一个帧号，帧号从0至255循环。每个视频帧被分成三个区域，帧定位区、编码帧号区、可读帧号区。帧定位区由四个黑色矩形和四个白色矩形组成，用于定位视频帧的水平和垂直方位。帧定位区的图像对于所有视频帧都一样。编码帧号区用于承载该视频帧的帧号，通过检测该区域可以计算出该视频帧的帧号。帧号的取值范围是0至255，可以用一个8比特的二进制数字表示。将编码帧号区等分成八个矩形，每个矩形用白色或者黑色表示一位二进制数字，白色矩形表示比特1，黑色矩形表示比特0。比如，帧号150，二进制是10010110，编码帧号区的颜色依次是白黑黑白黑白白黑。可读帧号区用于承载该视频帧的帧号，通过人眼观察该区域就可以看出该视频帧的帧号。该区域显示帧号的阿拉伯数字。如图3所示。

特定序列法按如下方式生成同步检测序列中的音频序列：

赋予音频序列中每个音频帧一个帧号，帧号从0至255循环。每个音频帧都由两个声道组成，帧同步声道、编码帧号声道。对于单声道声音，可以只进行编码帧号声道的操作；对于立体声声音，可以只进行帧同步声道和编码帧号声道的操作；对于多声道声音，比如5.1、7.1等，可以从中选择前两个声道进行帧同步声道和编码帧号声道的操作。每个音频帧每声道的采样点数目记为S，

。比如，对于采样率为48K，帧长为40毫秒，S等于1920。对于帧同步声道，每个音频帧的前

个采样点的幅度是零，其余采样点的幅度是满幅度的一半。通过检测该声道，可以确定音频帧的帧边界。

代表对N进行向下取整。编码帧号声道用于承载音频帧的帧号，通过检测该声道可以计算出音频帧的帧号。帧号的取值范围是0至255，可以用一个8比特的二进制数字表示。将每个音频帧的编码帧号声道的S个采样点等分成八份，每份采样点数目是

，第i份采样点的起始采样点索引是

。每份用满幅度的一半或者零幅度表示一位二进制数字，满幅度的一半表示比特1，零幅度表示比特0，未涉及到的采样点的幅度不做定义。比如，帧号150，二进制是10010110，该帧的编码帧号声道的幅度依次是满零零满零满满零。如图4所示。

具体步骤如下：

所述特定序列法按如下方式生成同步检测序列中的视频序列：

赋予视频序列中每个视频帧一个帧号，帧号从0至255循环；

每个视频帧被分成三个区域，帧定位区、编码帧号区、可读帧号区；

所述的帧定位区由四个黑色矩形和四个白色矩形组成，用于定位视频帧的水平和垂直方位，帧定位区的图像对于同步检测序列中所有视频帧都一样；

所述的编码帧号区用于承载该视频帧的帧号，将编码帧号区等分成八个矩形，每个矩形用白色或者黑色表示一位二进制数字，白色矩形表示比特1，黑色矩形表示比特0，形成一个用黑白矩形表示的8比特的二进制数字；

所述的可读帧号区用十进制阿拉伯数字表示该视频帧的帧号；

特定序列法按如下方式生成同步检测序列中的音频序列：

赋予音频序列中每个音频帧一个帧号，帧号从0至255循环；

每个音频帧都由1-2个声道组成，如果是一个声道则是编码声道，如果是两个声道则由帧同步声道和编码帧号声道组成；

每个音频帧每声道的采样点数目记为S，S=音频采样率×真长；

所述帧同步声道用于确定音频帧的边界：帧同步声道的每个音频帧的前S/2个采样点的幅度是零，其中S/2向下取整,其余采样点的幅度是满幅度的一半；

所述的编码帧号声道用于承载音频帧的帧号：将每个音频帧的编码帧号声道的S个采样点等分成八份，每份采样点数目是S/8，其中S/8向下取整，第i份采样点的起始采样点索引S/8×i，每份用满幅度的一半或者零幅度表示一位二进制数字，满幅度的一半表示比特1，零幅度表示比特0，未涉及到的采样点的幅度不做定义；

实施例五：

本实施例是实施例四的改进，是实施例四用特定序列法检测视音频序列的细化。本实施例所述特定序列法按如下方式检测视频序列中的帧号：

经过视音频处理系统以后，如果输出侧的视频形式不具有图像边界，或者图像在水平或者垂直方向存在较严重的偏移，或者需要精确的确定图像边界，可以通过检测视频帧的帧定位区来确定一帧图像的位置。恢复帧号不需要精确的确定图像边界。定位一帧图像以后，在编码帧号区的每个矩形内抽取样点。抽取模式可以按照二维正态分布进行，以降低边沿效应的影响，或者按照固定的模式抽取，以降低运算量。抽取完样点后，对样点的亮度分量计算平均值，然后和黑白阈值进行比较，就可以确定每个矩形是黑色还是白色。识别出八个矩形的颜色以后，也就确定了帧号的八个比特位，从而可以恢复出视频帧的帧号。通过人眼直接观察视频图像的可读帧号区，也可以直接读取到视频帧的帧号。

特定序列法按如下方式检测音频序列中的帧号：

通过检测帧同步声道，可以确定音频帧的起始边界，从而确定编码帧号声道的帧边界。恢复帧号不需要精确的确定帧边界。定位音频帧边界后，对每个音频帧的编码帧号声道的八段采样点分别进行抽点。抽取模式可以按照正态分布进行，以降低边沿效应的影响，或者按照固定的模式抽取，以降低运算量。如果在帧号生成阶段有未定义幅度值的采样点，应该避免抽取到这类采样点。抽取完样点后，对样点的幅度值计算平均值，然后和阈值进行比较，就可以确定每段所代表的比特值。确定帧号的八个比特位后，就可以恢复出音频帧的帧号。

特定序列法用特定的视音频序列完全替代视音频处理系统输入侧的原始序列。对于在原始视音频序列中嵌入帧号技术上不可行的情况，或者同步误差与视音频内容不相关的被测视音频系统，或者要求较低运算量的情况，或者要求较高实时性的情况，都可以使用该方法。该序列对单点噪声和短时间噪声具有较强的抵抗能力。

具体步骤如下：

检测视频序列中的帧号：

通过检测视频帧的帧定位区来确定一帧图像的位置。

在编码帧号区的每个矩形内抽取样点；

对样点的亮度分量计算平均值，然后和黑白阈值进行比较，以确定每个矩形是黑色还是白色。

根据八个矩形的颜色确定帧号的八个比特位，从而恢复出视频帧的帧号。

通过直接观察视频图像中可读帧号区的阿拉伯数字直接读取到视频帧的帧号。

检测音频序列中的帧号：

检测帧同步声道，以确定音频帧的起始边界，从而确定编码帧号声道的帧边界。

对每个音频帧的编码帧号声道的八段采样点分别进行抽点。

对样点的幅度值计算平均值，然后和阈值进行比较，以确定满幅度的一半还是零幅度。

根据八段的幅度确定帧号的八个比特位，从而恢复出音频帧的帧号。

通过直接观察视频图像读取视频帧的帧号。

实施例六：

本实施例是实施例一至三的改进，是实施例一至三所述数字水印法生成同步检测序列的细化。本实施例的具体实现是这样的：

本实施例使用数字水印法生成同步检测序列。

数字水印法按照如下方式对原始视音频序列嵌入帧号和恢复帧号：

选取视频帧中八个不交叠的子区域，选取规则可以参考特定序列法中的编码帧号区。将帧号的八比特数据与八个子区域进行对应，每个子区域携带一比特的水印信息。在输出侧，恢复八个子区域的水印信息，就可以确定帧号的八个比特，从而确定帧号。同理，将音频帧等分为八部分，每部分携带一比特水印信息，在输出侧恢复水印信息，从而恢复帧号。

数字水印技术已经是比较成熟的技术，数字水印的算法也很多。本实施例利用数字水印携带帧号信息，从而完成同步误差的计算。本实施例的应用场景，对数字水印算法的选择有其自身的一些要求：

1、由于水印具有不可剔除性，因此，如果对输出侧的视音频质量有一定的要求，可以选择隐藏式水印，或者附加噪声较低的水印。如果对输出侧的视音频质量不作要求，也可以选择可见式水印。

2、对于存在处理噪声的视音频处理系统，选择的水印算法要能够抵抗信号处理带来的损伤。

3、由于在输出侧没有原始图像参与运算，因此，选择的水印算法要能够支持盲检。

4、由于视频的每个子区域或者音频的每个子部分只需要携带一比特的信息，因此，选择的水印算法可以具有较低的水印容量，能够携带一比特信息就可以满足要求。这是对视音频数据分块带来的一个好处。

5、对于音频帧序列，除了要恢复帧号以外，还要能够恢复帧边界。因此，在嵌入帧号以后，可以利用尺度域数字水印再对数据进行一次处理，以便输出侧可以恢复音频帧的帧边界。对于视频帧序列，各种形式的视频数据自身通常都有较明显的帧边界，因此可以不进行此步操作。

6、如果在输出侧需要实时检测，那么水印的提取算法计算复杂度不能太高，一帧数据的帧号恢复时间平均应该低于帧长。

水印法利用现有的已经比较成熟的数字水印算法，将帧号嵌入原始的视音频序列中。对于比较容易在原始视音频序列中嵌入帧号的情况，或者同步误差与视音频内容相关的被测视音频系统，都可以使用该方法。该序列对噪声的抵抗能力取决于所采用的水印算法。

本实施例所述的数字水印法生成同步检测序列的具体步骤如下：

数字水印法按照如下方式对原始视频序列嵌入帧号：

赋予视频序列中每个视频帧一个帧号，帧号从0至255循环。

选取视频帧中八个不交叠的矩形子区域，将帧号的八比特数据与八个子区域进行对应，每个子区域携带一比特的水印信息。

数字水印法按照如下方式对原始音频序列嵌入帧号：

赋予音频序列中每个音频帧一个帧号，帧号从0至255循环。

将每个音频帧的帧号用水印嵌入法直接嵌入到到原始音频信号中。

实施例七：

本实施例是实施例六的改进，是实施例六关于数字水印的检测视音频序列的细化。本实施例所述的数字水印法按如下方式检测视音频序列中的帧号：

检测视频序列中的帧号：

使用和数字水印嵌入方法对应的检测方法恢复八个矩形子区域的水印信息，从而恢复出视频帧的帧号。

检测音频序列中的帧号：

使用和数字水印嵌入方法对应的检测方法对每个音频帧直接进行水印提取，从而恢复出音频帧的帧号。

实施例八：

本实施例是实施例一至三的改进，是实施例一至三所述数据相关法生成同步检测序列的细化。本实施例所述的数据相关法生成同步检测序列的步骤如下：

本实施例所述的数据相关性算法按照如下方式将原始音频序列嵌入帧号信息：

对每一帧音频数据的处理过程如下：一个音频帧的采样点数为N，末尾补上个零幅度采样点，使一帧的采样点数是8的整数倍。将末尾补零后的帧等分成8份，每份记为

，

是一个

的矩阵，。帧号是一个八比特的数字，从高到低每位记为

，

取值0或者1。利用转换矩阵对

进行转换，转换结果

。

和

是

的对角矩阵，生成方法在下面详述。是一个

的矩阵。将

依次拼接，并去除末尾的个采样点，就可以得到一帧数据转换后的结果。对于视频数据，如果把视频数据展开到一维，嵌入帧号的方法就和音频一致。也可以将算法展至二维，直接对二维的视频数据进行变换。

数据相关性算法按照如下方式检测帧号信息：

对每一帧音频数据的处理过程如下：将数据末尾补上

个零幅度采样点，并将其等分成8份，每份记为

。

分别与

和

计算相关系数

和，按如下判决，

。

是和

对应的相关向量，

。

就是恢复后的帧号的八比特数字，利用其可以恢复出帧号。完成帧号的判断后，可以对

反向补偿携带帧号所造成的噪声。对于视频数据，如果把视频数据展开到一维，恢复帧号的方法就和音频一致。也可以将算法展至二维，直接对二维的视频数据进行帧号提取和恢复。

所述的生成转换矩阵的方式如下：

恢复帧号的时候使用了长度是

的两个相关向量，嵌入帧号的时候使用了两个

的转换矩阵，其中方括号表示向下取整。

下面说明相关向量和转换矩阵的生成方法。选取长度为M的相关向量的步骤：选取两个长度为M的正交向量，如果正交向量含有负值或者零值，对两个向量进行等幅度的偏移，使其不含有负值或者零值。使用这个方法就可以确定两个相关向量。如果两个相关向量的均值相等，在恢复帧号的时候可以用内积运算代替求相关系数的计算，从而简化运算。下面给出一个简单的选取相关向量的方法。假定需要选取长度是10的两个相关向量。由于，在

的haar矩阵中选取两个等频的向量

和

。由于其长度是8，在末尾补零，成为

和

。由于其中含有负值和零值，对其进行偏移操作，成为

和

。至此，相关向量选取完成。上面的方法是从haar矩阵中选取了两个正交的向量，实际的选取可以不使用该方法，只要保证两个向量正交即可。转换矩阵是一个对角矩阵，主对角线上的各个元素就是相关向量的各元素。实际选取相关向量的时候，还可以考虑人类视觉频率响应和人类听觉频率响应的特点，使嵌入帧号造成的噪声对人的感官影响最小。对于音频数据，除了嵌入帧号以外，还要携带帧边界的信息。帧边界信息的嵌入方法和嵌入帧号的方法一样，只需要保证所用的相关向量和嵌入帧号所用的相关向量正交即可，相关长度可以扩展至半帧长。

数据相关法利用数据的相关性，将帧号从视音频序列中恢复出来。如果输入视音频和输出视音频都在无压缩域或者都在压缩域，在恢复出帧号以后，可以利用逆运算，对输出侧的数据进行补偿，以抵消嵌入帧号所引入的噪声，这一点是和水印法的最大区别。对于比较容易在原始视音频序列中嵌入帧号的情况，或者同步误差与视音频内容相关的被测视音频系统，或者不希望由于测量同步误差而引入额外噪声的情况，都可以使用该方法。该序列对单点噪声和短时间噪声具有较强的抵抗能力。

最后应说明的是，以上仅用以说明本发明的技术方案而非限制，尽管参照较佳布置方案对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案（比如使用其他方法利用帧号生成同步检测序列等）进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种精确检测视音频处理系统视频、音频同步误差的方法，所述方法使用的硬件系统包括：与至少由一个子系统串联组成的被测视音频系统输入端连接的信号发生单元，所述的被测视音频系统的输出端与信号检测单元连接，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的一种精确检测视音频处理系统视频、音频同步误差的方法，其特征在于，所述的计算同步误差的方法是帧号计时法，所述帧号计时法计算同步误差的步骤如下：

记录每一帧视频帧和音频帧的帧号vi、aj，同时记录个视频帧和音频帧的出现时间

、

Figure 2013100016965100001DEST_PATH_IMAGE002

；

找到帧号相同的视频帧vn和音频帧an，将视频帧vn的出现时间减去音频帧an的出现时间

Figure 2013100016965100001DEST_PATH_IMAGE004

的形成的差值，即为同步误差T。

3.根据权利要求1所述的一种精确检测视音频处理系统视频、音频同步误差的方法，其特征在于，所述的计算同步误差的方法是帧号比较法，所述帧号比较法计算同步误差的步骤如下：

以某一视频帧vi出现的时间为时间点，检测此时音频帧的帧号aj，同时检测此时的音频采样点是音频帧的第几个采样点，记为；同步误差T的计算公式为

Figure 2013100016965100001DEST_PATH_IMAGE006

。

4.根据权利要求1-3之一所述的一种精确检测视音频处理系统视频、音频同步误差的方法，其特征在于，所述的特定序列法生成同步检测序列的步骤如下：

赋予视频序列中每个视频帧一个帧号，帧号从0至255循环；

特定序列法按如下方式生成同步检测序列中的音频序列：

赋予音频序列中每个音频帧一个帧号，帧号从0至255循环；

每个音频帧每声道的采样点数目记为S，S=音频采样率×长；

所述的编码帧号声道用于承载音频帧的帧号：将每个音频帧的编码帧号声道的S个采样点等分成八份，每份采样点数目是S/8，其中S/8向下取整，第i份采样点的起始采样点索引S/8×i，每份用满幅度的一半或者零幅度表示一位二进制数字，满幅度的一半表示比特1，零幅度表示比特0，未涉及到的采样点的幅度不做定义。

5.根据权利要求4所述的一种精确检测视音频处理系统视频、音频同步误差的方法，其特征在于，所述的特定序列法按如下方式检测视音频序列中的帧号：

检测视频序列中的帧号：

通过检测视频帧的帧定位区来确定一帧图像的位置；

在编码帧号区的每个矩形内抽取样点；

对样点的亮度分量计算平均值，然后和黑白阈值进行比较，以确定每个矩形是黑色还是白色；

根据八个矩形的颜色确定帧号的八个比特位，从而恢复出视频帧的帧号；

通过直接观察视频图像中可读帧号区的阿拉伯数字直接读取到视频帧的帧号；

检测音频序列中的帧号：

检测帧同步声道，以确定音频帧的起始边界，从而确定编码帧号声道的帧边界；

对每个音频帧的编码帧号声道的八段采样点分别进行抽点；

对样点的幅度值计算平均值，然后和阈值进行比较，以确定满幅度的一半还是零幅度；

根据八段的幅度确定帧号的八个比特位，从而恢复出音频帧的帧号；

通过直接观察视频图像读取视频帧的帧号。

6.根据权利要求1-3之一所述的一种精确检测视音频处理系统视频、音频同步误差的方法，其特征在于，所述的数字水印法生成同步检测序列的步骤如下：

数字水印法按照如下方式对原始视频序列嵌入帧号：

赋予视频序列中每个视频帧一个帧号，帧号从0至255循环；

选取视频帧中八个不交叠的矩形子区域，将帧号的八比特数据与八个子区域进行对应，每个子区域携带一比特的水印信息；

数字水印法按照如下方式对原始音频序列嵌入帧号：

赋予音频序列中每个音频帧一个帧号，帧号从0至255循环；

将每一帧的帧号用水印嵌入法直接嵌入到原始音频信号中。

7.根据权利要求6所述的一种精确检测视音频处理系统视频、音频同步误差的方法，其特征在于，所述的数字水印法按如下方式检测视音频序列中的帧号：

检测视频序列中的帧号：

使用和数字水印嵌入方法对应的检测方法恢复八个矩形子区域的水印信息，从而恢复出视频帧的帧号；

检测音频序列中的帧号：

8.根据权利要求1-3之一所述的一种精确检测视音频处理系统视频、音频同步误差的方法，其特征在于：所述的数据相关法生成同步检测序列的步骤如下：

数据相关性算法按照如下方式对原始音频序列嵌入帧号信息：

对每一帧音频数据的处理过程如下：一个音频帧的采样点数为N，末尾补上个零幅度采样点，使一帧的采样点数是8的整数倍；

将末尾补零后的帧等分成8份，每份记为

Figure 2013100016965100001DEST_PATH_IMAGE008

，

是一个

的矩阵，

Figure 2013100016965100001DEST_PATH_IMAGE010

；

帧号是一个八比特的数字，从高到低每位记为

，

取值0或者1；

利用转换矩阵对

进行转换，转换结果；

和

是

的对角矩阵，

Figure 2013100016965100001DEST_PATH_IMAGE016

是一个

的矩阵；

将

依次拼接，并去除末尾的R个采样点，即得到一帧数据转换后的结果；

数据相关性算法按照如下方式对原始视频序列嵌入帧号信息：

对于视频数据，将视频数据展开到一维，嵌入帧号的方法与上述音频处理一致；

数据相关性算法按照如下方式检测帧号信息：

对每一帧音频数据的处理过程如下：将数据末尾补上R个零幅度采样点，并将其等分成8份，每份记为

；

分别与

Figure 2013100016965100001DEST_PATH_IMAGE018

和

计算相关系数

Figure 2013100016965100001DEST_PATH_IMAGE020

和

，按如下判决

Figure 2013100016965100001DEST_PATH_IMAGE022

，；

是和

对应的相关向量，

Figure 2013100016965100001DEST_PATH_IMAGE026

；

就是恢复后的帧号的八比特数字，利用其可以恢复出帧号；

完成帧号的判断后，对

反向补偿携带帧号所造成的噪声；

对于视频数据，将视频数据展开到一维，恢复帧号的方法就和音频一致。