CN111294596B

CN111294596B - 基于2d马尔可夫和边缘方向特性的屏幕内容索引图预测方法

Info

Publication number: CN111294596B
Application number: CN202010091952.4A
Authority: CN
Inventors: 宋传鸣; 刘定坤; 刘丹; 王相海
Original assignee: Liaoning Normal University
Current assignee: Liaoning Normal University
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2023-04-14
Anticipated expiration: 2040-02-13
Also published as: CN111294596A

Abstract

本发明公开一种基于2D马尔可夫和边缘方向特性的屏幕内容索引图预测方法，根据待预测像素沿着边缘方向的线性相关性，建立了2D马尔可夫模型，并利用待预测像素周围、因果邻域内的4个像素，对待预测像素的索引值进行预测；其次，将0^。~180^。区间均匀划分为8个方向区间，再利用Bresenham直线光栅化算法设计了8个大小为4×4的方向模板，从而根据视频关键帧的主要边缘方向分布，自适应地为待预测像素选取4个因果预测像素；最后，采用最小二乘法为每个方向模板计算出一组1阶2D自适应线性相关系数，进而实现沿着主要边缘方向的、2D马尔可夫模型的屏幕内容索引图预测。

Description

基于2D马尔可夫和边缘方向特性的屏幕内容索引图预测方法

技术领域

本发明涉及屏幕内容视频编码领域，尤其是一种可有效抵抗边缘过渡或连接区域的反走样处理，准确性高、处理速度快及具备方向自适应能力的基于2D马尔可夫和边缘方向特性的屏幕内容索引图预测方法。

背景技术

数字图像与视频正日益深刻地改变着人类信息通信和交互的方式。一方面，云存储和移动通信的迅猛发展催生了虚拟桌面、桌面云、无线显示和云游戏等诸多应用，均要求把计算机屏幕的显示内容通过网络链路传输到远程客户端，以实现屏幕协同共享。另一方面，具有宽动态范围、广色域特性的8K、10K超高清分辨率屏幕和3D虚拟现实正获得市场主流地位，要求在设备之间或设备内部通过排线和接口电路以视频方式实时、低延时地传输显示流。由于屏幕内容图像和视频一般是各种应用软件生成的，如办公软件、3D游戏、数字动画、网络浏览器等，它往往由文本、图形和自然图像等若干不同类型的区域混合而成，并且数据量巨大。若要在目前的宽带网络或串行总线上同步即时传输如此海量的数据，将屏幕内容视频进行高效率压缩来降低带宽需求是一个必不可少的环节。不过，H.264/AVC、HEVC对屏幕内容中的线条、文字、图形等非连续色调内容的压缩效率远未满足应用需求且计算复杂度高。因此，复杂度适中、面向屏幕内容视频的高效率编码是视频编码领域极具挑战性的最新研究课题之一，学者们将其称为“屏幕内容视频编码”，简称“屏幕内容编码SCC(Screen Content Coding)”。

为保证不连续色调区域的主观保真度，通常采用无损或近无损编码算法对屏幕内容视频进行压缩，目前大致提出了六类方法：基于调色板的编码算法、基于模板匹配的编码算法、基于块匹配的编码算法、基于字典的编码算法、基于形状表示的编码算法和基于方向预测的编码算法。其中，基于调色板的编码算法选取若干种代表性的颜色作为基本颜色，分别为每种基本颜色指定一个索引值构成调色板，再将原图像的每个灰度值用对应的索引值替代便形成一张索引图，最后将熵编码后的调色板和索引图传输至解码端；基于模板匹配的编码算法利用待编码像素块的某个邻域的已编码像素集合构成一个模板，然后利用该模板在已编码的区域中搜索与待编码块最相似的1个或多个块，最后用最佳匹配块或多个相似块的均值作为待编码块的预测来降低其非局部信息冗余；基于块匹配的编码算法类似于传统的帧间运动估计，又称为“帧内块拷贝”，在当前帧的已编码区域搜索与待编码单元相似的块，再将两个块的距离及预测误差进行编码；基于字典的编码算法利用待编码像素所在的一个1D或2D的连续像素串作为模板，该像素串在空间域上可组织成任意形状，再在已编码区域中搜索与其最匹配的像素串，进而对匹配像素串的距离和匹配串长度进行编码；基于形状表示的编码算法认为任何一个复杂形状都可以分解为孤立点、水平线、垂直线和矩形4种基本形状，称之为“形状原语”，进而按照光栅扫描顺序提取形状原语并对其进行编码；基于方向预测的编码算法主要针对屏幕内容图像包含大量锐利边缘、局部方向性明显的特点，以最优率失真模型为指导，采用中值预测、边缘预测和帧内方向预测等模式进行预测编码。在上述六类算法中，基于块匹配的编码算法和基于调色板的编码算法是促使国际编码标准HEVC-SCC产生性能增益的主要原因。然而，前者很难用固定形状的像素集合实现对文本、图表和图标等内容的最佳匹配，计算量较大，并且传统视频编码的运动估计为它提供了很好的参考，技术方法较成熟；后者的计算量则明显低于帧内块拷贝，能够较好地满足屏幕内容编码对压缩效率、实时性和复杂性的需求，且对运动文本和线条的编码较为有效，成为目前HEVC-SCC标准中重要的空间域编码技术。

索引图是基于调色板的编码算法中数据量最大的一部分，其编码效率直接影响调色板编码算法的整体压缩性能，所以索引图编码是调色板编码的关键组成部分。若依据核心技术思路的不同来划分，现有的索引图编码方法主要分为4类：算术编码、行程编码、词典编码和预测编码。

首先，算术编码主要通过减少索引图的统计冗余来提高压缩效率，如WenpengDing等人采用上下文自适应的算术编码，Cuiling Lan等人采用上下文重映射和熵编码压缩索引图。不过，由于传统算术编码未考虑索引图中出现的重复图案，即所谓的局部和非局部数据相关性，无法充分利用屏幕内容特有的数据分布特点，编码效率有待提高。

其次，行程编码主要发掘索引值的局部相关性实现压缩。Zhan Ma等人采用1D行程方法将索引值组织成一系列2元、3元组序列进行编码。考虑到索引图中的重复图案大多是2D的，1D行程编码无法充分降低其数据冗余，Yiling Xu等人使用4元组来表示重复的2D图案，提出了索引图的2D行程编码方法。同时，Wei Pu等人进一步发现在索引图的相邻行(列)之间还存在较强的行(列)局部相关性，并提出若一个图像块的某一行(列)与其相邻的前一行(列)有相同索引值或者仅有1个索引值不同，则用垂直(水平)行程模式编码该行(列)像素的索引图。与Zhan Ma、Wei Pu等人的方法相比，该方法每次可编码多个索引值，预测效率更高，所需同步信息更少。虽然行程编码发掘了索引图的行、列相关性，且对规则区域和平滑区域的索引图非常有效，可是在索引图的边缘和纹理较复杂区域，其编码效率却偏低，根本原因在于该区域的索引行程较短，局部相关性较弱。

为发掘索引图的非局部相关性，词典编码方法利用索引图包含大量相同字符或者相同纹理结构来进行压缩，取得了不错的编码效率。Shuhui Wang等人提出兼顾使用帧内编码和基于LempelZiv字典的gzip算法，并通过率失真模型在两者之间进行自适应的优化选择。Tao Lin等人则应用基于字典的LZMA算法编码索引图。为加快像素串的匹配速度，BinLi等人提出了基于Hash表结构的1D字典编码以及2种字典模式；Weijia Zhu等人则进一步提出了屏幕内容的2D字典编码方法，将待编码单元的Hash值作为字典索引来查找最佳匹配块。然而，索引串越长，所需要的搜索时间或字典空间等代价就越高，且对索引图的局部相关性的处理效率不高。

为了能同时发掘索引图的局部和非局部冗余，Weijia Zhu等人提出了一种多级预测编码方法MSP(Multi-Stage Prediction)，先通过方向预测去除索引值的局部相关性，再采用模板匹配发掘非局部数据冗余(如全局重复模式)，对局部预测失败的索引值进行处理，其平均预测准确率达到了92％。类似地，Zhaotai Pan等人也提出了一种两级层次预测编码模式，第1级将每个与左侧相邻索引值相等的索引标识为符号“L”，将每个与上方相邻索引值相等的索引标识为符号“U”，然后将剩余索引标识为“O”，实现了对索引图的2D局部空间相关性进行分类；第2级对每一行预测符号进行聚类，若某个分类中的预测符号均为“L”，则将其标识为“X”，若其中的预测符号均为“U”，则将其标识为“Y”，否则将其标识为“Z”，从而利用全局模式相关性进行分层预测编码。可见，预测编码是同时发掘索引图局部与非局部相关性的有效策略。可是，上述两种方法均涉及多轮扫描，计算量偏高。在这种情况下，Weijia Zhu等人省略了MSP的模板预测，并简化其方向预测过程，计算量降低了80％，但预测方向较少、预测效率有所降低，适合于实时要求较高的应用；陈规胜等人则通过实验统计发现了索引图的“局部方向相关性”，进而在MSP基础上提出了二次方向预测方法TDP(Twice Directional Prediction)，其预测准确率达到了96.22％，计算量较MSP平均降低了94.39％。然而，索引图中尚有约3.78％的索引值不能借助局部方向相关性得到有效处理，其预测精度仍有一定的提升空间。经过统计发现，这些预测失败的索引主要分布在边缘的过渡区域或连接区域，其根本原因在于，屏幕内容中不连续色调的文本、图表、图形、图标等元素一般由显示适配器生成，包含的纹理信息较多，但复杂纹理少，重复图案多，对比度高，线条细腻，边缘锐利，且往往开启了边缘反走样处理，尤其在文字丰富的屏幕内容中更为常见。目前，鲜有研究人员专门针对索引图中存在边缘反走样的过渡或连接区域的索引值预测方法展开研究。

发明内容

本发明是为了解决现有技术所存在的上述技术问题，提供一种可有效抵抗边缘过渡或连接区域的反走样处理，准确性高、处理速度快及具备方向自适应能力的基于2D马尔可夫和边缘方向特性的屏幕内容索引图预测方法。

本发明的技术解决方案是：一种基于2D马尔可夫和边缘方向特性的屏幕内容索引图预测方法，按照如下步骤进行：

步骤1.输入一段待处理的屏幕内容视频V，令视频V长度为F帧，并令f←1，ch←1；

步骤2.提取视频V的第f帧、第ch个颜色分量；

步骤3.计算第f帧、第ch个颜色分量的索引图；

步骤3.1统计第f帧、第ch个颜色分量的像素值直方图，并选取出现次数最多的4种像素值作为基色，令其为BC₀、BC₁、BC₂和BC₃；

步骤3.2按照光栅扫描顺序，根据公式(1)～公式(2)将每个像素p量化为索引值Q(p)：

所述Q(p)表示像素p的索引值，I(p)表示像素p的像素值，j^*表示与像素值I(p)最接近的基色的下标且j^*∈{0,1,2,3}，Δ₁表示预设的量化步长；

步骤4.若f％L＝1，则第f帧为关键帧并转入步骤5，否则第f帧为非关键帧并转入步骤7，所述％表示模运算，L表示预设的2D马尔可夫模型的预测参数更新频率且1≤L≤F；

步骤5.利用关键帧的第ch个颜色分量训练2D马尔可夫模型的预测参数；

步骤5.1计算关键帧的第ch个颜色分量中全部像素的平均索引值μ；

步骤5.2利用Sobel算子计算每个像素p处沿着水平方向的1阶差分

和沿着竖直方向的1阶差分

进而根据公式(3)计算每个像素p处的梯度方向角θ_p：

步骤5.3根据每个像素p的梯度方向角θ_p和公式(4)，计算像素p的主方向角

步骤5.4建立8个训练集C₁、C₂、C₃、C₄、C₅、C₆、C₇、C₈，并初始化为空集；

步骤5.5将关键帧的第ch个颜色分量划分为若干个大小为4×4像素的、不重叠的子块，对于每个子块B，执行下述步骤5.5.1～步骤5.5.2，从而根据主要边缘方向将其加入相应的训练集，实现子块的分类；

步骤5.5.1统计子块B中所有像素的主方向角的直方图，并选取出现次数最多的主方向角作为子块B的主要边缘方向θ_texture；

步骤5.5.2若θ_texture＝π/8，则将子块B加入训练集C₁；若θ_texture＝π/4，则将子块B加入训练集C₂；若θ_texture＝3π/8，则将子块B加入训练集C₃；若θ_texture＝π/2，则将子块B加入训练集C₄；若θ_texture＝5π/8，则将子块B加入训练集C₅；若θ_texture＝3π/4，则将子块B加入训练集C₆；若θ_texture＝7π/8，则将子块B加入训练集C₇；若θ_texture＝π，则将子块B加入训练集C₈；

步骤5.6对于训练集C₁的第i₁个子块B，将子块B中每个像素的索引值减去μ，得到子块B′，并根据公式(5)定义的模板T₁，从子块B′中取出位于a、b、c、d、u处的索引值

和

组成第1类子块的训练索引值集合，所述i₁∈{1,2,3,…,N₁}，N₁表示训练集C₁包含的子块总数，

和

分别表示训练集C₁的第i₁个子块B′中位于a、b、c、d、u处的索引值；

步骤5.7对于训练集C₂的第i₂个子块B，将子块B中每个像素的索引值减去μ，得到子块B′，并根据公式(6)定义的模板T₂，从子块B′中取出位于a、b、c、d、u处的索引值

和

组成第2类子块的训练索引值集合，所述i₂∈{1,2,3,…,N₂}，N₂表示训练集C₂包含的子块总数，

和

分别表示训练集C₂的第i₂个子块B′中位于a、b、c、d、u处的索引值；

步骤5.8对于训练集C₃的第i₃个子块B，将子块B中每个像素的索引值减去μ，得到子块B′，并根据公式(7)定义的模板T₃，从子块B′中取出位于a、b、c、d、u处的索引值

和

组成第3类子块的训练索引值集合，所述i₃∈{1,2,3,…,N₃}，N₃表示训练集C₃包含的子块总数，

和

分别表示训练集C₃的第i₃个子块B′中位于a、b、c、d、u处的索引值；

步骤5.9对于训练集C₄的第i₄个子块B，将子块B中每个像素的索引值减去μ，得到子块B′，并根据公式(8)定义的模板T₄，从子块B′中取出位于a、b、c、d、u处的索引值

和

组成第4类子块的训练索引值集合，所述i₄∈{1,2,3,…,N₄}，N₄表示训练集C₄包含的子块总数，

和

分别表示训练集C₄的第i₄个子块B′中位于a、b、c、d、u处的索引值；

步骤5.10对于训练集C₅的第i₅个子块B，将子块B中每个像素的索引值减去μ，得到子块B′，并根据公式(9)定义的模板T₅，从子块B′中取出位于a、b、c、d、u处的索引值

和

组成第5类子块的训练索引值集合，所述i₅∈{1,2,3,…,N₅}，N₅表示训练集C₅包含的子块总数，

和

分别表示训练集C₅的第i₅个子块B′中位于a、b、c、d、u处的索引值；

步骤5.11对于训练集C₆的第i₆个子块B，将子块B中每个像素的索引值减去μ，得到子块B′，并根据公式(10)定义的模板T₆，从子块B′中取出位于a、b、c、d、u处的索引值

和

组成第6类子块的训练索引值集合，所述i₆∈{1,2,3,…,N₆}，N₆表示训练集C₆包含的子块总数，

和

分别表示训练集C₆的第i₆个子块B′中位于a、b、c、d、u处的索引值；

步骤5.12对于训练集C₇的第i₇个子块B，将子块B中每个像素的索引值减去μ，得到子块B′，并根据公式(11)定义的模板T₇，从子块B′中取出位于a、b、c、d、u处的索引值

和

组成第7类子块的训练索引值集合，所述i₇∈{1,2,3,…,N₇}，N₇表示训练集C₇包含的子块总数，

和

分别表示训练集C₇的第i₇个子块B′中位于a、b、c、d、u处的索引值；

步骤5.13对于训练集C₈的第i₈个子块B，将子块B中每个像素的索引值减去μ，得到子块B′，并根据公式(12)定义的模板T₈，从子块B′中取出位于a、b、c、d、u处的索引值

和

组成第8类子块的训练索引值集合，所述i₈∈{1,2,3,…,N₈}，N₈表示训练集C₈包含的子块总数，

和

分别表示训练集C₈的第i₈个子块B′中位于a、b、c、d、u处的索引值；

步骤5.14利用每类子块的训练索引值集合和公式(13)的定义，为每类子块计算一组2D马尔可夫模型的预测参数；

所述ρ_1,k、ρ_2,k、ρ_3,k、ρ_4,k表示第k类子块的2D马尔可夫模型的预测参数且k∈{1,2,3,4,5,6,7,8}，

和

分别表示训练集C_k的第i_k个子块B′中位于a、b、c、d、u处的索引值，N_k表示训练集C_k包含的子块总数；

步骤6.按照光栅扫描顺序，对关键帧的第ch个颜色分量中每个像素p的索引值Q(p)进行预测；

步骤6.1对于待预测的索引值Q(p)，采用二次方向预测方法TDP进行预测，令其预测值为P(p)；

步骤6.2输出预测误差Q(p)-P(p)，若关键帧的所有索引值都已处理完毕，则转入步骤8；否则，返回步骤6.1处理下一个像素的索引值；

步骤7.计算非关键帧的第ch个颜色分量中全部像素的平均索引值μ_n，并按照光栅扫描顺序，对每个像素p的索引值Q(p)进行预测；

步骤7.1对于像素p的索引值Q(p)，采用二次方向预测方法TDP进行预测，令其预测值为P(p)，若预测成功，则转入步骤7.5；若像素p处于非关键帧的前3行或者前3列或者后3列，则转入步骤7.5，否则转入步骤7.2；

步骤7.2令像素p左侧的相邻像素为q，采用后向差分法，分别计算像素q的索引值Q(q)沿着水平方向的1阶差分

和沿着竖直方向的1阶差分

进而根据公式(3)的定义计算像素q处的梯度方向角θ_q；

步骤7.3根据像素q的梯度方向角θ_q和公式(4)的定义，计算像素q的主方向角

并令像素p的主方向角

步骤7.4令

采用第k类子块的2D马尔可夫模型和模板T_k对像素p的索引值Q(p)进行预测，所述T_k∈{T₁,T₂,T₃,T₄,T₅,T₆,T₇,T₈}；

步骤7.4.1将模板T_k的元素u与像素p对齐，从而以模板T_k作为掩膜，在像素p的大小为4×4的因果邻域中，取出与模板T_k的元素a、b、c、d对应的像素a′、b′、c′、d′，令其索引值分别为Q(a′)、Q(b′)、Q(c′)、Q(d′)；

步骤7.4.2根据公式(14)，计算索引值Q(p)的预测值P(p)：

步骤7.5输出预测误差Q(p)-P(p)，若当前的非关键帧的全部索引值都已处理完毕，则转入步骤8，否则返回步骤7.1处理下一个像素的索引值；

步骤8.令ch←ch+1，若ch>3，则转入步骤9，否则转入步骤2；

步骤9.令f←f+1，ch←1，若f≤F，则转入步骤2，否则算法结束。

本发明与现有技术相比，具有如下优点：第一，发掘待预测像素沿着边缘方向的线性相关性，利用2D马尔可夫模型和相关性最大的4个像素，对待预测像素的索引值进行预测，可有效提高其预测准确度；第二，根据视频帧的边缘方向分布，将0°～180°角度区间均匀划分为8个方向区间，并利用Bresenham直线光栅化算法设计了8个方向模板，进而通过最小二乘法计算出8组1阶2D自适应线性相关系数，其方向自适应能力更强，对边缘反走样区像素值和索引值渐变的表示能力也更强；第三，考虑到屏幕内容视频的纹理分布往往不会发生短时突变，尤其是显示适配器在同一视频序列上所采用的边缘反走样算法是保持不变的，本发明仅利用少量关键帧的索引值来训练2D马尔可夫模型的预测参数，而非关键帧的索引值可直接通过其因果邻域的已知索引值和2D马尔可夫模型的预测参数完成预测编码，其时间复杂度明显低于传统MSP算法的模板预测。因此，本发明具有抵抗边缘过渡或连接区域的反走样处理，准确性高、处理速度快、具备方向自适应能力的特点。

具体实施方式

本发明的基于2D马尔可夫和边缘方向特性的屏幕内容索引图预测方法，按照如下步骤进行：

步骤2.提取视频V的第f帧、第ch个颜色分量；

步骤3.计算第f帧、第ch个颜色分量的索引图；

步骤5.2利用Sobel算子计算每个像素p处沿着水平方向的1阶差分

和沿着竖直方向的1阶差分

进而根据公式(3)计算每个像素p处的梯度方向角θ_p：

和

和

和

和

和

和

和

和

和

和

和

组成第6类子块的训练索引值集合，所述i6∈{1,2,3,…,N₆}，N₆表示训练集C₆包含的子块总数，

和

和

和

和

和

和

和沿着竖直方向的1阶差分

进而根据公式(3)的定义计算像素q处的梯度方向角θ_q；

并令像素p的主方向角

步骤7.4令

步骤7.4.2根据公式(14)，计算索引值Q(p)的预测值P(p)：

步骤8.令ch←ch+1，若ch>3，则转入步骤9，否则转入步骤2；

选用JCT-VC公布的19个标准测试视频序列的前90帧，分别采用MSP方法、二次方向预测方法TDP和本发明对各测试视频中每帧的亮度分量进行预测编码，得到的预测准确率如表1所示。从表1可见，本发明在所有测试视频序列上的预测准确率均高于MSP方法和二次方向预测方法TDP，分别比两者平均提高了3.53％和1.56％。一方面，对于WordEditing、SlideEditing、Video_Conferencing和PPT_Doc_xls四个包含大量英文文本、中文文本和数字字符的测试视频序列，本发明的预测准确率分别比MSP方法和二次方向预测方法TDP平均提高了2.92％和1.74％；另一方面，Map、Robot、BasketballDrillText和ChinaSpeed四个测试视频序列不仅包含文字字符，还包含由计算机生成的大量几何图元和复杂场景，为使曲线边缘看起来光滑，开启了反走样，本发明的预测准确率分别比MSP方法和二次方向预测方法TDP平均提高了8.06％和3.47％。因此，对于开启了边缘反走样的屏幕内容视频，本发明能够获得明显高于MSP算法和二次方向预测方法TDP的索引图预测效率。

表1不同方法的预测准确率统计表

。