CN117640939A

CN117640939A - 一种用于帧间图像的运动估计搜索方式判别方法

Info

Publication number: CN117640939A
Application number: CN202410101318.2A
Authority: CN
Inventors: 蒋先涛; 柳云夏; 郭咏梅; 郭咏阳
Original assignee: Ningbo Kangda Kaineng Medical Technology Co ltd
Current assignee: Ningbo Kangda Kaineng Medical Technology Co ltd
Priority date: 2024-01-25
Filing date: 2024-01-25
Publication date: 2024-03-01

Abstract

本发明公开了一种用于帧间图像的运动估计搜索方式判别方法，涉及图像处理技术领域，包括步骤：获取当前编码块各邻近编码块的编码深度以及运动矢量信息，并分别计算这两个量的平均值；根据编码深度平均值以及运动矢量平均值进行纹理复杂度估计；根据纹理复杂度估计结果选择目标运动估计搜索方式。本发明通过对目标编码块邻近编码编码深度、运动矢量的均值分析，对目标编码块的纹理复杂度进行判断，从而选择更为合适的运动估计搜索方式，从而降低运动估计的复杂度，降低帧间编码的整体计算复杂度，提高编码效率。

Description

一种用于帧间图像的运动估计搜索方式判别方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种用于帧间图像的运动估计搜索方式判别方法。

背景技术

当前 H.266/VVC是国际上最新一代视频编码标准，它能够提供更强大的压缩性能，有效减小医学视频数据的存储需求。这对于长期存储和传输医学影像数据非常重要，特别是对于远程医疗和会诊，医学教育和培训，手术过程记录，医学图像传感器和实时监测等领域。其中，运动估计（Motion Estimation）是视频编码中的一个关键步骤，用于寻找视频帧之间的运动信息，以便更有效地表示视频序列。

而为了降低编码整体的计算复杂度，研究人员已经探索了多种方法，一些前人研究中采用的降低H.266/VVC运动估计计算复杂度的方法：（1）快速算法：快速算法通过减少运动搜索的空间或采用近似方法来加速运动估计。这可以显著降低计算复杂度，提高编码速度。但快速算法可能会引入一定的误差，从而导致运动估计的准确性下降，因此在速度和准确性之间需要进行权衡。（2）并行化和硬件加速：利用并行计算和硬件加速技术，可以在多个处理单元或专用硬件上同时执行运动估计，显著提高计算效率。但该方法需要适应并行计算的算法设计和硬件支持，可能需要额外的硬件资源。

发明内容

为了以更小的代价进行运动估计，以达到提高编码效率的目的，本发明提出了一种用于帧间图像的运动估计搜索方式判别方法，包括步骤：

S1：获取当前编码块各邻近编码块的编码深度以及运动矢量信息，并分别计算这两个量的平均值；

S2：根据编码深度平均值以及运动矢量平均值进行纹理复杂度估计；

S3：根据纹理复杂度估计结果选择目标运动估计搜索方式。

进一步地，所述S2步骤中，纹理复杂度估计表示为如下公式：

式中，为纹理复杂度，/>为平滑运动，/>为一般运动，为剧烈运动，/>为编码深度平均值，/>为运动矢量平均值，/>和/>为所述邻近编码块运动矢量的上下限阈值。

进一步地，所述运动矢量的上下限阈值通过分析数据的信息熵，从中筛选使信息熵最小的阈值进行获取，所述信息熵用于表述系统复杂度。

进一步地，所述信息熵的阈值是通过对数据进行分割，并计算分割后数据子集的信息熵，基于总体信息熵最小分割点判定下进行获取。

进一步地，所述S3步骤中，目标运动估计搜索方式通过如下公式获取：

式中，为目标运动估计搜索方式，/>为六边形搜索法，/>为三步搜索法，为菱形搜索法，/>为全搜索法。

进一步地，所述S1步骤中，邻近编码块包括当前编码块左上方、上方、左方以及时域上的同位编码块。

进一步地，所述S1步骤中，运动矢量信息的均值采用邻近编码块X轴方向上的运动向量进行均值计算。

进一步地，所述S1步骤中，邻近编码块为已编码的编码块。

与现有技术相比，本发明至少含有以下有益效果：

（1）本发明所述的一种用于帧间图像的运动估计搜索方式判别方法，通过对目标编码块邻近编码编码深度、运动矢量的均值分析，对目标编码块的纹理复杂度进行判断，从而选择更为合适的运动估计搜索方式，从而降低运动估计的复杂度，降低帧间编码的整体计算复杂度，提高编码效率；

（2）基于已编码邻近编码块获取基础的编码深度以及运动矢量信息，进行目标编码块纹理复杂度估计的基础，减少了数据获取的难度的同时提高了纹理复杂度估计的可靠性。

附图说明

图1为一种用于帧间图像的运动估计搜索方式判别方法的步骤图；

图2为邻近编码块方位示意图。

具体实施方式

以下是本发明的具体实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

运动估计就是在参考图像中找到当前编码块所对应匹配块的过程，其本质上就是搜索并确定当前编码块下一编码帧最佳位移量的过程，基本思想是将图像序列每一帧分成许多互不重叠的预测单元，并选定已编码的图像作为参考图像，从参考图像中寻找当前图像中编码块的最佳匹配参考块，并假设块内所有像素的位移量都相同。针对每个编码块根据一定的匹配准则到参考帧的某一特定搜索范围内找出与当前编码块最相似的匹配块，而匹配块与当前编码块的相对位移即为运动矢量MV（Motion Vector）。视频编码中得到运动矢量的过程被称为运动估计。在自然图像中，一个运动物体包含多个编码块，这些编码块之间可能具有类似的运动信息，即编码图像中具有空间相邻特性的编码块可能具有较强的空间相关性。如果当前编码块使用相邻已编码块的MV进行自身MV的预测，并将得到的预测MV与实际MV的差值进行编码传输，就可以减少编码MV所需的比特数。其中MV的差值称为MV残差（MVD，Motion Vector Difference）。同时，由于运动的物体在空间和时间上都可能具有连续性，所以MV预测技术分为时域和空域预测两种。采用了时域和空域MV预测思想的合并（merge）技术和高级运动向量预测技术AMVP（Advanced Motion Vector Prediction）技术已经被广泛接受并收纳在HEVC准中，这两种技术的核心思想都是通过建立一个MV候选列表，并选取表中性能最优的一个 MV作为当前编码块的预测MV。在上述基础上，为了进一步提高运动估计的效率，如图1所示，本发明提出了一种用于帧间图像的运动估计搜索方式判别方法，包括步骤：

S3：根据纹理复杂度估计结果选择目标运动估计搜索方式。

上述想法的基础在于，视频编码中的纹理特征和运动估计之间存在着密切的关系：在图像或视频的高纹理区域，纹理特征更为丰富和复杂。由于高纹理区域中存在大量的细节和变化，运动估计可能变得更具有挑战性。高纹理区域中的小尺度纹理变化可能需要更高精度的运动估计，以捕捉到物体的准确运动。低纹理区域相对缺乏细节和变化，这可能导致运动估计难以准确地捕捉到物体的运动。在这种情况下，运动估计可能需要更多的平滑性约束或其他技术来处理低纹理区域的运动。

在此处，本发明将编码块（Coding Unit，CU）看作一个基本的处理单元。当考虑一个编码块时，由于其纹理特征与邻近的编码块之间存在一些关系，如图2 所示，当前CU块的邻近编码块包括左上方、上方、左方以及时域上的同位编码块记为。在空间域上，因为视频同一编码帧相邻位置上的图像具有一定相关性，这种相关性同样表现为相似的纹理特征，而在时间域上，前后编码帧同一位置的编码块同样具备相似的纹理特征，尤其是对于运动较小的场景。这种相似性可以用于运动补偿，以减少帧间预测的残差。时域上同位的编码块的信息也可以用于运动矢量预测，帮助编码器更好的运动估计，从而提高编码效率。

VVC标准中，CU块的深度范围为[0，4]，假设邻近块的编码深度分别为，邻近编码块的运动矢量在X轴上的分量为/>，则邻近编码块编码深度、X轴运动矢量的均值分别为：

在本发明的运动纹理描述中，将图像的运动分为三类：平滑运动（Smooth）、一般运动（General）和剧烈运动（Vigorous）。平滑运动指的是图像中的物体或场景相对较慢的运动，表现为图像中的像素值在时间上的渐变较为平缓。一般运动通常指的是图像中物体或场景的相对中等速度的运动。在图像序列中，一般运动表现为像素值的相对快速变化，但不至于导致图像中的物体或边缘出现严重的混叠或模糊。剧烈运动表示图像中物体或场景的快速运动，可能导致图像中的物体出现模糊或混叠现象。这种情况通常包括急剧的加速、变向或快速的振荡运动。则在编码过程中，当前块CU的运动纹理与邻近块的编码深度、运动向量的关系为：

式中，为纹理复杂度，/>为平滑运动，/>为一般运动，为剧烈运动，/>为编码深度平均值，/>为运动矢量平均值，/>和/>为所述邻近编码块运动矢量的上下限阈值。而运动矢量的上下限阈值则是通过分析数据的信息熵，从中筛选使信息熵最小的阈值进行获取。

在这里，信息量是对信息的度量，就跟时间的度量是秒一样，多少信息用信息量来衡量，我们接受到的信息量跟具体发生的事件有关。信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大，越大概率的事情发生了产生的信息量越小。信息量度量的是一个具体事件发生了所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。因此，此处我们通过对信息熵的约束来获取使纹理复杂度估计更为准确的上下限阈值。

不难看出，本发明所使用的运动估计搜索方法主要有三种，分别是三步搜索法（Three Step Search，TSS）、菱形搜索法（Diamond Search，DS）和六边形搜索法（HexagonalSearch，HS），另外，考虑到其它条件情况存在的可能性，还包括全搜索法（Full Search，FS）。其中，

三步搜索法：第一步，将搜索窗口的中心点作为搜索的起始点，从起始点开始依照顺时针的方向逐点向外搜索，计算每一个搜索点的SAD值（绝对差的总和）；第二步，比较所有点的SAD值，选取SAD值最小的点，即为最佳匹配点。其通过在多个预定义位置上进行搜索，然后在搜索过程中逐步缩小搜索范围。这样可以在减少计算复杂度的同时保持一定的搜索准确性。

菱形搜索法：第一步，首先以搜索窗口的中心点为中心，以菱形为模板，计算中心点到其周围八个点共九个点的SAD值，比较得到SAD值最小的点；第二步，如果搜索的中心点就是SAD值最小的点，则跳到第三步使用小菱形搜索模板，否则依旧回到第一步的搜索；第三步，利用搜索点数只有5个点的小菱形搜索模板，计算5个点的SAD值，取SAD值最小的点为最佳匹配点。其以初始搜索起点为中心，进行一系列菱形形状的搜索。菱形搜索的路径通常是从中心开始，向上、下、左、右、左上、左下、右上、右下等八个方向。在每一步的菱形搜索后，缩小搜索范围以提高搜索的效率。缩小搜索范围通常通过减小菱形的边长或者在搜索路径上增加更密集的点。

六边形搜索法：第一步，以搜索起点为中心，采用六边形模板进行搜索，计算区域中心及周围6个点处的匹配误差并比较，如最小MBD点位于模板中心点，则转至下一步骤，否则以上一次的MBD点作为中心点，以六边形模板为模板反复进行搜索；第二步，以上一次的MBD点为中心点，采用小菱形模板搜索，计算各点的匹配误差，找到MBD点，然后以MBD点为中心点，采用小正方形模板搜索，得到的MBD点就是最佳匹配点。其与传统的方形或菱形搜索相比，六边形搜索采用六边形形状的搜索路径，以提高搜索效率。

全搜索法：把搜索区域内所有的像素块逐个与当前宏块进行比较，查找具有最小匹配误差的一个像素块作为最佳匹配点。

不难看出，在这些搜索方法中，六边形搜索HS在搜索路径上采用六边形的形状，覆盖较大的搜索范围，适合处理相对较慢、平滑的运动。六边形搜索法的规则路径有助于有效覆盖连续、平滑的运动。三步搜索TSS在搜索路径上采用固定的三步形状，对于一般速度的运动具有一定的适应性。它相对简单，计算开销较小，适合处理一般性的运动场景。菱形搜索DS采用菱形的搜索路径，相对于方形搜索更具有适应性，适合处理剧烈、快速的运动。它的搜索路径能够较快地找到大致的运动矢量。因此，运动估计算法(Motion Estimation，ME)和图像纹理之间的对应关系最终表示为：

综上所述，本发明所述的一种用于帧间图像的运动估计搜索方式判别方法，通过对目标编码块邻近编码编码深度、运动矢量的均值分析，对目标编码块的纹理复杂度进行判断，从而选择更为合适的运动估计搜索方式，从而降低运动估计的复杂度，降低帧间编码的整体计算复杂度，提高编码效率。

基于已编码邻近编码块获取基础的编码深度以及运动矢量信息，进行目标编码块纹理复杂度估计的基础，减少了数据获取的难度的同时提高了纹理复杂度估计的可靠性。

需要说明，本发明实施例中所有方向性指示（诸如上、下、左、右、前、后……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”、“一”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

Claims

1.一种用于帧间图像的运动估计搜索方式判别方法，其特征在于，包括步骤：

S3：根据纹理复杂度估计结果选择目标运动估计搜索方式。

2.如权利要求1所述的一种用于帧间图像的运动估计搜索方式判别方法，其特征在于，所述S2步骤中，纹理复杂度估计表示为如下公式：

3.如权利要求2所述的一种用于帧间图像的运动估计搜索方式判别方法，其特征在于，所述运动矢量的上下限阈值通过分析数据的信息熵，从中筛选使信息熵最小的阈值进行获取，所述信息熵用于表述系统复杂度。

4.如权利要求3所述的一种用于帧间图像的运动估计搜索方式判别方法，其特征在于，所述信息熵的阈值是通过对数据进行分割，并计算分割后数据子集的信息熵，基于总体信息熵最小分割点判定下进行获取。

5.如权利要求2所述的一种用于帧间图像的运动估计搜索方式判别方法，其特征在于，所述S3步骤中，目标运动估计搜索方式通过如下公式获取：

式中，为目标运动估计搜索方式，/>为六边形搜索法，/>为三步搜索法，/>为菱形搜索法，/>为全搜索法。

6.如权利要求1所述的一种用于帧间图像的运动估计搜索方式判别方法，其特征在于，所述S1步骤中，邻近编码块包括当前编码块左上方、上方、左方以及时域上的同位编码块。

7.如权利要求1所述的一种用于帧间图像的运动估计搜索方式判别方法，其特征在于，所述S1步骤中，运动矢量信息的均值采用邻近编码块X轴方向上的运动向量进行均值计算。

8.如权利要求1所述的一种用于帧间图像的运动估计搜索方式判别方法，其特征在于，所述S1步骤中，邻近编码块为已编码的编码块。