CN112929662A

CN112929662A - 解决码流结构化图像编码方法中对象重叠问题的编码方法

Info

Publication number: CN112929662A
Application number: CN202110125199.0A
Authority: CN
Inventors: 陈志波; 孙思萌; 金鑫; 冯若愚
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-06-08
Anticipated expiration: 2041-01-29
Also published as: CN112929662B

Abstract

本发明公开了一种解决码流结构化图像编码方法中对象重叠问题的编码方法，一方面，本方案解决了码流结构化图像编码方法中编码对象重叠甚至密集的图像时编码效率很低的问题，维持的码流灵活的结构的同时有效的减少了编码冗余，提高了储存传输的效率。另一方面，对于头信息语法结构进行了设计，使其能够灵活地支持各种各样的应用场景，促使码流结构化图像编码方法具有更加广泛的应用价值。

Description

解决码流结构化图像编码方法中对象重叠问题的编码方法

技术领域

本发明涉及图像编码技术领域，尤其涉及一种解决码流结构化图像编码方法中对象重叠问题的编码方法。

背景技术

现有视频/图像压缩标准主要针对的是面向人眼的压缩，而随着机器学习的算法逐渐成熟，机器智能分析任务也逐渐开始被应用于人类社会生活生产的各个领域，例如智能工厂，智能城市，智能交通等等。为保证诸多开放性场景中智能分析结果的可解释性和鲁棒性，往往需要引入人机智能交互协同、混合增强智能等全新范式。

为更加高效地支持人机混合智能应用的应用场景，已有方法提出了语义结构化码流的概念，例如，一种任务驱动的码流结构化图像编码方法、支持机器智能的通用视频压缩编码方法。

以一种任务驱动的码流结构化图像编码方法为例，具体来说，该方法中引入目标检测的区域决策网络和对齐模块基于压缩特征提取对象可能存在区域的边界框，并对特征进行空间层面的分割。分割后的特征将被分别送入熵编码模块，输出的信息将被顺序放入码流中，形成结构化码流。然而，诸多实际应用场景中，例如监控场景、自动驾驶，往往存在待处理的图像中包含重叠的对象甚至及其密集的对象。语义结构化编码的方法在处理这一类图像时，往往采用直接基于检测结果对图像或者压缩特征进行空间层面的分割，这一操作将会导致重叠区域的重复编码，在重叠面积过大或者对象密集的情况下将严重影响编码的效率。

发明内容

本发明的目的是提供一种解决码流结构化图像编码方法中对象重叠问题的编码方法，可以有效减少结构化码流中各个对象对应的码流之间的冗余信息，以维持编码对象重叠甚至对象密集场景的图像时语义结构化编码方法的高效性和灵活性。

本发明的目的是通过以下技术方案实现的：

一种解决码流结构化图像编码方法中对象重叠问题的编码方法，包括：

在编码过程中，对于输入信息，提取出各个对象类别以及对象所在区域的边界框，并判断任意两个或多个边界框是否存在重叠；对于不存在重叠的边界框，将边界框信息与对象类别单独保存在头信息中，称为单独对象检测信息，从而编码为单个对象的对象码流部分；对于存在重叠的多个边界框，将其原始的边界框信息、对象类别以及并集边界框一同保存在头信息中，称为集合对象检测信息，从而编码为包含多个对象的集合对象码流部分；按照设定的头信息语法结构并结合单个对象的对象码流部分与包含多个对象的集合对象码流部分生成结构化码流；所述输入信息包括：输入图像或者通过神经网络模型得到的输入图像的压缩表征；

解码过程中，按照设定的头信息语法结构依次读取结构化码流中各个对象对应的类别与边界框的信息，或者相关的并集边界框信息，再进行后续重建与分析操作。

由上述本发明提供的技术方案可以看出，一方面，本方案解决了码流结构化图像编码方法中编码对象重叠甚至密集的图像时编码效率很低的问题，维持的码流灵活的结构的同时有效的减少了编码冗余，提高了储存传输的效率。另一方面，对于头信息语法结构进行了设计，使其能够灵活地支持各种各样的应用场景，促使码流结构化图像编码方法具有更加广泛的应用价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种解决码流结构化图像编码方法中对象重叠问题的编码方法的流程图；

图2为本发明实施例提供的重叠边界框合并方法示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种解决码流结构化图像编码方法中对象重叠问题的编码方法，如图1所示，主要包括：

一、编码部分。

在编码过程中，对于输入图像(或者通过神经网络模型得到的输入图像的压缩表征形式)，提取出各个对象类别以及对象所在区域的边界框，并判断任意两个或多个边界框是否存在重叠。

1)对于不存在重叠的边界框，将边界框信息与对象类别单独保存在头信息中，称为单独对象检测信息，从而编码为单个对象的对象码流部分。

2)对于存在重叠的多个边界框，将其原始的边界框信息、对象类别以及并集边界框一同保存在头信息中，称为集合对象检测信息，从而编码为包含多个对象的集合对象码流部分。

本发明实施例中，并集边界框确定方式包括：提取出各个对象所在区域的边界框后，对所有的边界框遍历，并将当前边界框坐标与其他所有边界框坐标对比，根据边界框的坐标判断其是否存在重叠区域，若存在则计算存在重叠的所有边界框的并集边界框；并集边界框将作为编码时对输入图像(或者通过神经网络模型得到的输入图像的压缩表征形式)在空间层面进行分割的依据，同时并集边界框和各自的原始边界框都将作为结构化码流的头信息进行存储传输。

示例性的，输入图像通过目标检测方法，例如Mask RCNN，得到图像中对象类别以及对象所在区域的边界框；假设检测得到n个对象，其中第i个对象的边界框定义为B_i＝(x_i,y_i,w_i,h_i)，其中x_i是边界框的左上角x坐标，y_i是边界框的左上角y坐标，w_i是边界框的宽度，h_i是边界框的高度。对比当前边界框B_i和其他所有边界框B_j，当判断两者有重叠则重新定义二者的边界框为并集边界框B_ij并和B_i和B_j及其对应的类别信息一并保存。

如图2所示，对象1与对象2对应的边界框(图中两个实线框)存在重叠，则根据两个边界框的坐标可以计算出一个并集边界框(图中的虚线框)。当然，同时重叠的边界框数目也可以是两个以上，具体的以实际情况为准，两个以上的重叠的边界框也是采用同样的方式计算对应的并集边界框。

传统方案中，如果两个边界框有重叠部分，那么按照已有的结构化码流编码方法，需要单独对这两个边界框选定的图像区域分别编码，显然重叠部分则需要编码两次，由此会产生冗余。本发明实施例中，对于重叠的多个边界框，计算它们并集边界框，并作为图像划分的依据，也就是说，对并集边界框的图像区域只需要做一次编码，从而减少冗余。此外，为了适应结构化码流中对部分码流或者部分压缩表征进行分析的功能，会保存原始边界框的信息，虽然相较于传统方案需要多存储一个并集边界框的信息(即两个坐标点)，但是，相较于传统方案对重叠区域重复编码所增加的冗余而言是可以忽略不计的，因此，本发明可以有效减少结构化码流中各个对象对应的码流之间的冗余信息。

3)按照设定的头信息语法结构并结合单个对象的对象码流部分与包含多个对象的集合对象码流部分生成结构化码流。

本发明实施例中，结构化码流中存在两种类型的对象码流，也即前文提到的单个对象的对象码流部分与多个对象的集合对象码流部分，这两类对象码流都按照前文提到的方式保存在头信息中。

表1给出了头信息的语法结构，语法结构说明如下：

detection_enabled_flag：目标检测开关标志

object_union_max_num：对象码流的总数目

object_union_enabled_flag：集合对象存在开关标志

object_max_num：对象的总数目

bboxes_union_length_minus1：并集边界框的码流长度

label_enabled_flag：类别开关标志

bbox_enabled_flag：边界框开关标志

object_label：类别信息

bbox_length_minus1：边界框的码流长度

表1头信息的语法表示

二、解码部分。

具体来说，前文给出了头信息语法结构，其依次包括：目标检测开关标志、对象码流的总数目、集合对象存在开关标志、对象总数目、并集边界框的码流长度、类别开关标志、边界框开关标志、类别信息、以及边界框的码流长度。

解码时，首先读取目标检测开关标志，目标检测开关标志标注了当前结构化码流是否支持基于目标检测的码流结构化编码功能；若支持，则读取对象码流的总数目；之后，对于各类对象码流，都将根据集合对象存在开关标志判断是单独对象检测信息或时集合对象检测信息：

若为单独对象检测信息，即标志为1，则直接根据类别开关标志依次读取类别信息，根据边界框开关标志和边界框的码流长度依次读取边界框信息；

若为集合对象检测信息，即标志为0，则首先需要读取包含的对象总数目，并根据给定码流长度读取并集边界框，再根据类别开关标志依次读取类别信息，根据边界框开关标志和边界框的码流长度依次读取包含对象边界框信息。

考虑到具体的应用，并集边界框后的后续处理存在一定的区别：

如果不需要重建完整图像，则此时不需要使用到并集边界框，利用原始的边界框将解码图像或者压缩表征中进一步分割出来(由于求并集这个处理当前解码图像或者压缩表征中存在多个对象)，然后输入其他分析任务即可；

如果需要重建完整图像，则需要根据并集边界框给出的空间坐标信息将之前分割下来的图像或者压缩表征还原，得到完整的图像或者压缩表征，然后再进行下一步任务分析或者重建。

为了便于理解，下面结合具体场景对本发明上述方案进行介绍。

1、当应用场景中采集到地图像对象稀疏时，结合本方案提出的方法，码流结构化编码能够高效地对各个对象进行分别编码，并形成结构化码流。若没有重叠的对象边界框，解码时，直接利用目标的对象码流就能够高效地支持部分重建或者部分分析。若有少数对象重叠，则结构化码流中包含了集合对象码流。若需要对对象集合中一种特定对象进行重建或者分析，则可以利用并集边界框，并结合集合对象检测信息中目标对象相关的所有信息，对对应的集合对象码流进行处理，从而得到包含单个对象的特征信息(通过神经网络相关的方法得到的输入图像压缩的表征形式)，然后进行重建或者分析。

当应用场景中采集到的图像对象非常密集时，例如监控场景下节日的人群、堵车的街道等等，结合本方案提出的方法，码流结构化编码方法将退化为只包含前景部分码流和背景部分码流。具体来说，由于图像中对象过于密集，所有对象都存在重叠，则使用本发明提出的采用并集边界框处理的方法，将会得到一个包含图像中所有对象的并集边界框，这种极端情况下得到的并集边界框称为前景边界框，对前景边界框圈定的图像区域进行编码得到前景码流，其余部分进行编码得到背景码流。在进行部分重建或者分析时，需要利用前景部分对应的码流及并集边界框，同时结合各个对象的原始边界框获得对应目标的压缩表征，用作重建或者分析。

值得注意的是，即使在密集场景下，对象集合中都包含各个对象的类别和边界框信息，对于部分机器智能任务例如车流量检测、人群密度估计等等，码流仍然能够高效灵活地支持。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种解决码流结构化图像编码方法中对象重叠问题的编码方法，其特征在于，包括：

2.根据权利要求1所述的一种解决码流结构化图像编码方法中对象重叠问题的编码方法，其特征在于，

并集边界框确定方式包括：提取出各个对象所在区域的边界框后，对所有的边界框遍历，并将当前边界框坐标与其他所有边界框坐标对比，根据边界框的坐标判断其是否存在重叠区域，若存在则计算存在重叠的所有边界框的并集边界框；

并集边界框将作为编码时对输入信息进行空间层面分割的依据。

3.根据权利要求1所述的一种解决码流结构化图像编码方法中对象重叠问题的编码方法，其特征在于，所述解码过程中，按照设定的头信息语法结构依次读取结构化码流中各个对象对应的类别与边界框的信息的步骤包括：

所述头信息语法结构中依次包括：目标检测开关标志、对象码流的总数目、集合对象存在开关标志、对象总数目、并集边界框的码流长度、类别开关标志、边界框开关标志、类别信息、以及边界框的码流长度；

首先读取目标检测开关标志，目标检测开关标志标注了当前结构化码流是否支持基于目标检测的码流结构化编码功能；若支持，则读取对象码流的总数目；之后，对于各类对象码流，都将根据集合对象存在开关标志判断是单独对象检测信息或时集合对象检测信息：

4.根据权利要求1或3所述的一种解决码流结构化图像编码方法中对象重叠问题的编码方法，其特征在于，

解码过程中，如果不需要重建完整图像，则此时不需要使用到并集边界框，利用原始的边界框将解码图像或者压缩表征做进一步分割；如果需要重建完整图像，则根据并集边界框信息将图像或者压缩表征还原，得到完整的图像或者压缩表征。