CN104125470A

CN104125470A - 一种视频数据传输方法

Info

Publication number: CN104125470A
Application number: CN201410385517.7A
Authority: CN
Inventors: 高冬
Original assignee: CHENGDU RUIBO HUICHUANG INFORMATION TECHNOLOGY Co Ltd
Current assignee: CHENGDU RUIBO HUICHUANG INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-08-07
Filing date: 2014-08-07
Publication date: 2014-10-29
Anticipated expiration: 2034-08-07
Also published as: CN104125470B

Abstract

本发明提供了一种视频数据传输方法，该方法包括：利用运动向量场进行全局运动估计；对视频中的局部运动进行分割；对ROI图像进行修正；基于修正的ROI图像进行视频编码并传输。本发明准确完整地检测出视频中的关注区域；降低了编码比特率，同时保持了主观质量。

Description

一种视频数据传输方法

技术领域

本发明涉及视频编码，特别涉及一种视频数据传输方法。

背景技术

随着信息技术的发展，生活中人们接触到的视频信息量越来越庞大，如何高效提取视频中显著物体引起了越来越多研究者的关注，ROI(感兴趣区域)在视频信号处理方面有着广泛的应用，比如视频检索、视频压缩、视频监控、视频跟踪等领域。视频传输方面，由于现在视频分辨率越来越高，因此高效的视频传输方法也是研究的热点之一。同时结合人眼视觉模型的视频编码方法是下一代视频编解码的关键技术之一，因此ROI作为人眼视觉模型的一个重要方面也就显得尤为重要。

ROI在视频信号处理方面有着广泛的应用，因此对ROI技术的开发有非常重要的意义。目前图像ROI方法主要利用图像的颜色、亮度等特征计算图像的显著性，但是图像的ROI方法没有利用视频的运动特征，因此将图像ROI方法直接应用视频检测时效果不好。然而对视频ROI方法研究较少，并且存在方法复杂度较高的缺点，已有技术并未考虑视频的纹理特征以及人眼视觉所关注区域的整体性，导致压缩率不高或主观质量不佳。

因此，针对相关技术中所存在的上述问题，目前尚未提出有效的解决方案。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种视频数据传输方法，包括：

步骤一，利用视频码流中的运动向量场进行全局运动估计；

步骤二，在对运动矢量场进行全局运动估计之后，对视频中的局部运动进行分割；

步骤三，对得到的全局运动背景下提取的局部运动的ROI图像进行修正；

步骤四，基于修正的ROI图像进行视频编码并传输。

优选地，所述步骤一采用参数为8维向量v＝[v₀，v₁，…，v₇]的投影模型，该模型的透视变换定义为：

x_R＝(v₀x_C+v₁y_C+v₂)/(v₆x_C+v₇y_C+1)；

y_R＝(v₃x_C+v₄y_C+v₅)/(v₆x_C+v₇y_C+1)；

其中(x_C，y_C)和(x_R，y_R)分别为当前帧和参考帧的坐标，对于当前帧中每一个坐标为(x_C，y_C)的对应运动模型v的块，其运动分量定义为：

V_X(x_C，y_C；v)＝x_R-x_C；

V_Y(x_C，y_C；v)＝y_R-y_C；

其中V_X和V_Y分别代表运动向量V的水平和垂直分量，

去除向量场中全局运动模型的第一偏差值和第二偏差值；所述第一偏差值为视频编码过程中运动估计的运动向量噪声；所述第二偏差值为不符合背景运动模型的运动向量。

优选地，所述步骤二进一步包括：

步骤3.1以单个聚类即整帧所有的运动向量开始，计算它的中心V_c＝(Σ_kV_k)/N，然后分别以新的中心V_c±V_c/2生成两个新的聚类；

步骤3.2以最近最相似原则划分整帧的运动向量到现有的聚类中，然后更新第i个聚类的中心为其中N_i是第i个聚类C_i中运动向量的个数；

步骤3.3计算每个聚类的失真，即分别以为中心，继续把具有最大失真的聚类C_m划分为两个聚类，其中P＝((X_max-X_min)/2(M-1)，(Y_max-Y_min)/2(M-1))，M为划分之前聚类的总数，X_min，X_max，Y_min和 Y_max分别为中心点向量中最大和最小水平和垂直分量；

步骤3.4重复步骤3.2和3.3，直到聚类失真的变化小于预先设定的阈值。

优选地，所述步骤四进一步包括：

采用自适应频率系数压制的方法，针对每个变换单元，定义：

其中C_p为压制后的频率系数矩阵；表示两个矩阵对应元素相乘；W为频率系数压制矩阵，

W = [\begin{matrix} w_{0} & w_{1} & w_{2} & w_{3} \\ w_{1} & w_{2} & w_{3} & w_{4} \\ w_{2} & w_{3} & w_{4} & w_{5} \\ w_{3} & w_{4} & w_{5} & w_{6} \end{matrix}];

w_i(i∈[0，6])取0或者1，并且满足约束w_i+1≤w_i；

针对大小不同的变换单元，设定了5种频率系数压制矩阵：

其中i，j分别为块的横坐标和纵坐标，W(k)_ij是频率系数压制矩阵；N是块大小，取值分别为4，8，16和32；k是5种候选矩阵的索引；

对应于5种候选矩阵，将非ROI区域TU的视觉感知权重W_TU归一化为五个等级L_TU：

L_TU＝ceil[W_TU/(128S_TU/5)]，

其中S_TU分别对应四种块大小取值为1，4，16和64，

确定TU的频率系数压制矩阵：

W_TU＝W{min[max(L_TU+W_init，0)，4]}，

其中W_init是控制频率系数压制的强度的选择频率系数矩阵的起始索引，取[-4，4]之间的整数值，根据编码Q_P动态更新，W_init＝-(Q_P-C_nonVS)/S_TEP+O_GM,其中C_nonVS，S_TEP和O_GM分别表示非ROI区域常量值、步长和全局运动偏移。

本发明相比现有技术，具有以下优点：

在运动识别和编码过程中考虑视频的纹理特征以及人眼视觉所关注区域的整体性，与现有方法相比，本算法能更准确完整地检测出视频中的关注区域；比传统算法降低了编码比特率，从而提高传输效率，同时保持了几乎相同的主观质量。

附图说明

图1是根据本发明实施例的视频数据传输方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

由于编码的目标是为了在同样的视频质量下获取更高的压缩传输效率，因此本研究从人眼视觉感知的角度，在H.265码流压缩域进行显著性分析得到ROI图像。

本发明的一方面提供了一种视频数据传输方法。图1是根据本发明实施例的视频数据传输方法流程图。如图1所示，实施本发明的具体步骤如下：

1 全局运动估计

本发明采用具有8个参数的透视投影模型。该透视模型参数为一个8维向量v＝[v₀，v₁，…，v₇]。设定(x_C，y_C)和(x_R，y_R)分别为当前帧和参考帧的坐标，则该透视变换可以定义为：

x_R＝(v₀x_C+v₁y_C+v₂)/(v₆x_C+v₇y_C+1)；

y_R＝(v₃x_C+v₄y_C+v₅)/(v₆x_C+v₇y_C+1)；公式1

设定V_X和V_Y分别代表运动向量V的水平和垂直分量，则对于当前帧中每一个坐标为(x_C，y_C)对应运动模型v的块，该分量可以定义为：

V_X(x_C，y_C；v)＝x_R-x_C；

V_Y(x_C，y_C；v)＝y_R-y_C 公式2

由于运动向量的全局运动估计的目的就是从运动向量中推出参数向量v，而H.265码流已经提供了运动向量场，因此运动向量不需要重新估计。然而向量场中存在某些运动向量并不适合全局运动模型，称为偏差值；因此，为了提高全局运动估计的准确性，需要将它们去除。本发明中将这些偏差值分为如下两类。

类型1运动向量噪声。这些噪声通常是由于视频编码过程中运动估计在某些区域不准确，不能捕捉到真实的运动而产生的，比如具有较少或极少纹理的区域、一个运动物体的边界区域和具有重复纹理特征的区域等。

类型2不符合背景运动模型的运动向量。这样的运动向量又可以分为两种：真正相对背景运动物体的运动向量，距离摄像头很近而被混为背景的静止物体的运动向量。这种类型的偏差值特点是它们通常出现在一帧中被上述两种物体覆盖的空间连续区域，且与邻近向量相似。

为了准确地估计全局运动，必须尽可能去除这两种类型的运动向量偏差值，具体步骤如下。

步骤1去除类型1运动向量偏差值。通常来自一个运动模型的运动向量存在非常强的空间相关性。本发明比较当前运动向量与邻近8个运动向量的大小，通过和预先设定阈值比较来去除最不适合的运动向量偏差值。具体判断方式为‖V_C-V_N‖/‖V_C‖<T_MV，其中：V_C为当前运动向量；V_N为相邻运动向量；T_MV为阈值，本发明中设置为0.15。

步骤2采用联合运动分割的迭代计算方法来检测和去除类型2运动向量偏差值。在第一轮迭代中，运动区域分割图由前一帧的分割结果预测得到；而在后面的迭代过程中，则使用由上一轮迭代计算得到的当前帧的分割图。设定v_t为第t帧某次迭代中的全局运动参数向量，V(x，y，t)为第t帧坐标为(x，y)的块的运动向量。则全局运动可以通过V(x，y，t)补偿，即V_COM(x，y，t)＝V(x，y，t)-V(x，y；v_t)，其中：V_COM(x，y，t)是第t帧坐标为(x，y)块的补偿后的运动向量；v_t是由公式(1)和(2)计算得到的。

经过全局运动补偿之后，将利用补偿后的运动向量进行运动分割。由于分割的结果指出了当前帧中的运动区域，因此这些区域中的运动向量被当作类型2的运动向量偏差值，在进行下一轮全局运动估计迭代计算之前被去除。

除此之外，当第t帧的运动分割确定后，第t+1帧的运动向量偏差块坐标可以通过预测得到。若V(x_t，y_t，t)被检测出是类型2的运动向量偏差值，则对应第t+1帧中的块(x_t+1，y_t+1)可以如下进行预测：

(x_t+1，y_t+1)＝(x_t，y_t)-V(x_t，y_t，t)。

然而，第t+1帧中坐标为(x_t+1，y_t+1)的预测块可能同时覆盖几个块，所以本发明方法中设定为最大覆盖面积的块为预测的偏差块。于是在第t+1帧进行第一轮的全局运动估计迭代计算前，这些偏差块的运动向量都将被去除。通过这样的初始设定和全局运动补偿，后续迭代过程中的运动分割和类型2运动向量偏差值的去除都会更加准确。

步骤3全局运动模型参数估计。当所有运动向量偏差值被去除后，参数向量v_t将通过第t帧剩下的运动向量估计得到。对于一个给定的v_t，一帧中位置为(x，y)的运动向量V(x，y；v_t)可以通过式(1)和(2)计算得到，而真实的运动向量为V(x，y，t)。全局运动估计的目的就是找出使得两者差值最小的v_t。

平方差误差是全局运动估计中最常用的误差衡量标准，所以问题可以归结为：

v_t＝arg min_vΣ‖V(x，y，t)-V(x，y；v)‖²，其中所使用的运动向量为去除所有类型偏差值后的运动向量。因此寻找v_t的过程就演变为了模型拟合过程。

2 运动分割

在对运动向量场进行了全局运动补偿之后，接着进行运动分割，步骤如下。

步骤1以单个聚类(整帧所有的运动向量)开始，计算它的中心V_c＝(Σ_kV_k)/N，然后分别以新的中心V_c±V_c/2生成两个新的聚类。

步骤2以最近最相似原则划分整帧的运动向量到现有的聚类中，然后更新第i个聚类的中心为其中N_i是第i个聚类C_i中运动向量的个数。

步骤3计算每个聚类的失真，即分别以为中心，继续把具有最大失真的聚类C_m划分为两个聚类，其中P＝((X_max-X_min)/2(M-1)，(Y_max-Y_min)/2(M-1))，M为划分之前聚类的总数，X_min，X_max，Y_min和Y_max分别为中心点向量中最大和最小水平和垂直分量。

步骤4重复步骤2和3，直到聚类失真的变化小于预先设定的阈值。本发明中取初始失真变化的5％；或者使最小的聚类小于预先设定的阈值，取所有运动向量个数的5％。

3 视觉ROI图像修正

经过联合的全局运动估计和运动分割，设定背景区域权重值为0，前景区域权重值为128，就得到了在全局运动背景下提取出的局部运动前景的运动视觉ROI图像。但是根据运动向量分析得到的视觉ROI图像只考虑了视频序列的运动特征，并未考虑人眼所关注的复杂纹理区域以及前景运动物体的完整性。由于编码比特数在很大程度上反映了区域的复杂度和活动性，因此本发明结合了码流中编码比特数的分布特点对运动视觉ROI图像进行修正，过程如下：

a.对于第i个块，若其为运动显著区域，则设定权重值M_i为128；反之，则权重为0。

b.设B_i为第i个块的编码比特数，找到整帧最大值B_max，然后将B_i映射到(0，128)的范围，作为附加权重值。

c.将ROI权重按照下式进行附加权重值加成，

W_i＝M_i+127(B_i/B_max)

从而得到最终修正的视觉显著图像。

4 基于ROI图像的编码与传输

本发明编码方法中采用了一种针对非ROI区域进行自适应频率系数压制的方法。针对每个变换单元，定义：式中：表示两个矩阵对应元素相乘；C_p为压制后的频率系数矩阵；W为频率系数压制矩阵，

W

= [\begin{matrix} w_{0} & w_{1} & w_{2} & w_{3} \\ w_{1} & w_{2} & w_{3} & w_{4} \\ w_{2} & w_{3} & w_{4} & w_{5} \\ w_{3} & w_{4} & w_{5} & w_{6} \end{matrix}]

w_i(i∈[0，6])取0或者1，并且满足约束w_i+1≤w_i。这个约束表示频率系数压制是从高频分量开始逐渐过渡到低频分量的，因此总共有7种频率系数压制矩阵形式。在具体编码中，需要根据该块的ROI来决定w_i(i∈[0，6])的具体取值。

例如，对视觉最显著的区域，w_i(i∈[0，6])都可以取为1，而对视觉最不显著的区域，可以取w₀为1，w_i(i∈[1，6])都为0。由于采用了自适应四叉树编码结构，支持最小4×4到最大32×32的DCT变换单元。因此针对每种大小的变换单元，本发明设定了5种频率系数压制矩阵。设定i，j分别为块的横纵坐标，则按照下式计算：

其中：W(k)_ij是频率系数压制矩阵；N是块大小，取值分别为4，8，16和32；k是5种候选矩阵的索引。对应于5种候选矩阵，将非显著区域TU的视觉感知权重W_TU也归一化为五个等级L_TU：

L_TU＝ceil[W_TU/(128S_TU/5)]，

式中S_TU分别对应四种块大小取值为1，4，16和64，然后按下式确定TU的频率系数压制矩阵：W_TU＝W{min[max(L_TU+W_init，0)，4]}，

式中W_init是用于选择频率系数矩阵的起始索引，用来控制频率系数压制的强度，取[-4，4]之间的整数值。根据编码Q_P动态更新，W_init＝-(Q_P-C_nonVS)/S_TEP+O_GM

式中C_nonVS，S_TEP和O_GM分别表示非显著区域常值、步长和全局运动偏移，由视频场景的内容特征等因素来决定。针对包含全局运动的视频序列，分别定义为30，6和0；而针对背景静止的视频序列，则分别定义为24，6和-2。

综上所述，本发明提出了一种视频数据传输方法，在运动识别和编码过程中考虑视频的纹理特征以及人眼视觉所关注区域的整体性，与现有ROI区域检测方法相比，本算法能更准确完整地检测出视频中的关注区域；比传统算法降低了编码比特率，从而提高传输效率，同时保持了几乎相同的主观质量。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种视频数据传输方法，其特征在于，包括：

步骤一，利用视频码流中的运动向量场进行全局运动估计；

步骤四，基于修正的ROI图像进行视频编码并传输。

2.根据权利要求1所述的方法，其特征在于，所述步骤一采用参数为8维向量v＝[v₀，v₁，…，v₇]的投影模型，该模型的透视变换定义为：

x_R＝(v₀x_C+v₁y_C+v₂)/(v₆x_C+v₇y_C+1)；

y_R＝(v₃x_C+v₄y_C+v₅)/(v₆x_C+v₇y_C+1)；

V_X(x_C，y_C；v)＝x_R-x_C；

V_Y(x_C，y_C；v)＝y_R-y_C；

其中V_X和V_Y分别代表运动向量V的水平和垂直分量，

3.根据权利要求2所述的方法，其特征在于，所述步骤二进一步包括：

步骤3.3计算每个聚类的失真，即；分别以为中心，继续把具有最大失真的聚类C_m划分为两个聚类，其中P＝((X_max-X_min)/2(M-1)，(Y_max-Y_min)/2(M-1))，M为划分之前聚类的总数，X_min，X_max，Y_min和Y_max分别为中心点向量中最大和最小水平和垂直分量；

4.根据权利要求3所述的方法，其特征在于，所述步骤四进一步包括：

W = [\begin{matrix} w_{0} & w_{1} & w_{2} & w_{3} \\ w_{1} & w_{2} & w_{3} & w_{4} \\ w_{2} & w_{3} & w_{4} & w_{5} \\ w_{3} & w_{4} & w_{5} & w_{6} \end{matrix}];

w_i(i∈[0，6])取0或者1，并且满足约束w_i+1≤w_i；

针对大小不同的变换单元，设定了5种频率系数压制矩阵：

L_TU＝ceil[W_TU/(128S_TU/5)]，

其中S_TU分别对应四种块大小取值为1，4，16和64，

确定TU的频率系数压制矩阵：

W_TU＝W{min[max(L_TU+W_init，0)，4]}，