CN115914631A - 熵解码复杂度可控的编解码方法及系统 - Google Patents

熵解码复杂度可控的编解码方法及系统 Download PDF

Info

Publication number
CN115914631A
CN115914631A CN202211213970.0A CN202211213970A CN115914631A CN 115914631 A CN115914631 A CN 115914631A CN 202211213970 A CN202211213970 A CN 202211213970A CN 115914631 A CN115914631 A CN 115914631A
Authority
CN
China
Prior art keywords
target
discrete
image
autoregressive
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211213970.0A
Other languages
English (en)
Inventor
陈志波
冯若愚
金鑫
孙思萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202211213970.0A priority Critical patent/CN115914631A/zh
Publication of CN115914631A publication Critical patent/CN115914631A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种熵解码复杂度可控的编解码方法及系统,使用了可拓展性高的复杂度可控的熵解码方案,使得对语义结构化码流的解码能够支持任意外部设置的复杂度需求,从而适配于不同应用场景下的智能分析任务,提高了语义结构化图像编解码方案的泛用性和灵活性;同时,编码过程中的每一个目标都可以采取不同复杂度的熵编码参考依赖关系进行概率建模,进一步增强了编解码方案的灵活性和可拓展性,使其更加适应于真实应用场景。

Description

熵解码复杂度可控的编解码方法及系统
技术领域
本发明涉及图像压缩编码技术领域,尤其涉及一种熵解码复杂度可控的编解码方法及系统。
背景技术
现有图像压缩技术主要针对面向人眼视觉的图像压缩,而随着深度学习的快速发展,机器智能分析人物逐渐在人类社会生产生活的各个领域发挥重要作用,例如智慧工业、智慧城市等。传统的面向人眼的压缩方法需要将图像所有的信息进行压缩传输,在智能任务分析端需要对整幅图像进行解码得到完整图像再送入后续的智能任务分析模型。
为了更加高效地支持人机混合智能应用,已有方法提出了图像语义结构化码流的概念,例如,方案一:授权公告号为CN110225341 B的中国发明专利《一种任务驱动的码流结构化图像编码方法》,其中引入目标检测的区域决策网络和对齐模块,基于压缩特征提取对象存在区域的边界框,依据边界框对特征进行空间层面的分割。被分割后的特征将按顺序分别进行熵编码形成结构化码流。
然而,在方案一中,熵解码部分采用了基于超先验的方式进行概率估计建模,该熵解码方法虽然速度快,但编码效率较低,无法更高效的支持下游的智能分析任务。虽然也可以用基于空间自回归的方式(Minnen D,BalléJ,Toderici G D.Joint autoregressiveand hierarchical priors for learned image compression[J].Advances in neuralinformation processing systems,2018,31.)进行概率估计从而获得更高的压缩性能,但该方法熵解码速度非常慢,难以满足实际应用需求。
发明内容
本发明的目的是提供一种熵解码复杂度可控的编解码方法及系统,能够支持任意预先定义的复杂度需求,在引入极小码率的情况下适配于不同应用场景的智能分析任务,提高了语义结构化图像编码方法的泛用性和灵活性。
本发明的目的是通过以下技术方案实现的:
一种熵解码复杂度可控的编解码方法,包括:
编码部分:对输入图像进行目标检测,获得目标检测结果;使用深度图像编码器的变换操作得到输入图像的图像特征,将所述图像特征进行超先验变换与量化,获得离散超先验特征,将所述离散超先验特征进行超先验反变换获得整体的概率分布,以及将输入图像的尺寸信息、离散超先验特征以及目标检测结果分别进行编码,再拼接获得码流头信息;将所述图像特征进行量化,获得整体离散图像特征,结合目标检测结果对所述整体离散图像特征进行分组,获得每一目标的离散图像特征,依据预先定义的自回归参考关系集合以及选择的解码复杂度,确定每一目标对应的自回归参考关系,根据每一目标的自回归参考关系以及整体的概率分布确定每一目标的概率分布,并以此对相应目标的离散图像特征进行熵编码,获得每一目标对应的纹理部分码流,并将每一目标的自回归参考关系的索引进行编码再与相应目标的纹理部分码流组合形成目标对应码流;所有目标对应码流与所述码流头信息构成语义结构化码流;
解码部分:对语义结构化码流中的码流头信息进行熵解码,获得输入图像的尺寸信息、整体离散超先验特征以及目标检测结果;对所述整体离散超先验特征进行超先验反变换,获得整体的概率分布;对于每一目标,结合整体的概率分布从目标对应码流中熵解码出对应的离散图像特征,根据目标检测结果拼接所有目标对应的离散图像特征获得整体离散图像特征;再结合整体离散图像特征与输入图像的尺寸信息,通过深度图像解码器的反变换操作获得重建图像。
一种熵解码复杂度可控的编解码系统,包括:
编码单元,用于执行编码部分,所述编码部分包括:对输入图像进行目标检测,获得目标检测结果;使用深度图像编码器的变换操作得到输入图像的图像特征,将所述图像特征进行超先验变换与量化,获得离散超先验特征,将所述离散超先验特征进行超先验反变换获得整体的概率分布,以及将输入图像的尺寸信息、离散超先验特征以及目标检测结果分别进行编码,再拼接获得码流头信息;将所述图像特征进行量化,获得整体离散图像特征,结合目标检测结果对所述整体离散图像特征进行分组,获得每一目标的离散图像特征,依据预先定义的自回归参考关系集合以及选择的解码复杂度,确定每一目标对应的自回归参考关系,根据每一目标的自回归参考关系以及整体的概率分布确定每一目标的概率分布,并以此对相应目标的离散图像特征进行熵编码,获得每一目标对应的纹理部分码流,并将每一目标的自回归参考关系的索引进行编码再与相应目标的纹理部分码流组合形成目标对应码流;所有目标对应码流与所述码流头信息构成语义结构化码流;
解码单元,用于执行解码部分,所述解码部分包括:对语义结构化码流中的码流头信息进行熵解码,获得输入图像的尺寸信息、整体离散超先验特征以及目标检测结果;对所述整体离散超先验特征进行超先验反变换,获得整体的概率分布,;对于每一目标,结合整体的概率分布从目标对应码流中熵解码出对应的离散图像特征,根据目标检测结果拼接所有目标对应的离散图像特征获得整体离散图像特征;再结合整体离散图像特征与输入图像的尺寸信息,通过深度图像解码器的反变换操作获得重建图像。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,使用了可拓展性高的复杂度可控的熵解码方案,使得对语义结构化码流的解码能够支持任意外部设置的复杂度需求,从而适配于不同应用场景下的智能分析任务,提高了语义结构化图像编解码方案的泛用性和灵活性;同时,编码过程中的每一个目标都可以采取不同复杂度的熵编码参考依赖关系进行概率建模,进一步增强了编解码方案的灵活性和可拓展性,使其更加适应于真实应用场景。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种熵解码复杂度可控的编解码方法的流程图;
图2为本发明实施例提供的一种熵解码复杂度可控的编解码系统的示意图;
图3为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“和/或”是表示两者任一或两者同时均可实现,例如,X和/或Y表示既包括“X”或“Y”的情况也包括“X和Y”的三种情况。
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
下面对本发明所提供的一种熵解码复杂度可控的编解码方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种熵解码复杂度可控的编解码方法,针对语义结构化图像编码方法的改进以实现编解码复杂度的可控性,即在语义结构化编码方法的基础上引入了熵解码复杂度可控的功能。核心技术为:在整个编解码过程中,对于每个目标都可以选择不同的参考依赖关系从而实现不同的复杂度,从而达到解码复杂度和编码效率的平衡,图1展示了编解码方法的主要流程,主要包括编码与解码两个部分。
一、编码部分。
1、对输入图像进行目标检测,获得目标检测结果。
本发明实施例中,通过目标检测模型对所述输入图像进行目标检测,获得目标的数目、每一个目标的位置以及类别(目标检测结果);其中,第k个目标的位置及类别表示为:{ak,bk,hk,wk,clsk},ak,bk,hk,wk,clsk分别代表第k个目标的左上角坐标的横轴位置、左上角坐标的纵轴位置、高度、宽度以及类别。
本发明实施例中,所述目标检测模型可以通过现有的网络模型实现,故不做赘述。
2、使用深度图像编码器的变换操作得到输入图像的图像特征。
本发明实施例中,输入图像x的大小记为H×W×C,H和W分别代表图像的高度和宽度,C为通道数目(所有通道同时进行编解码),通过变换操作得到图像特征y,尺寸为
Figure BDA0003876058060000051
Cy为通道数目,B为变换完成后的下采样倍数。
本发明实施例中,所述深度图像编码器可以通过现有的网络模型实现,故不做赘述,所涉及的变换操作中可以为非线性变换操作。
3、将所述图像特征进行超先验变换与量化,获得离散超先验特征,将所述离散超先验特征进行超先验反变换获得整体的概率分布,以及将输入图像的尺寸信息、离散超先验特征以及目标检测结果分别进行编码,再拼接获得码流头信息。
如图1右侧部分所示,通过所述图像特征y进行超先验变换获得超先验特征z,将超先验特征z经过量化后得到离散超先验特征
Figure BDA0003876058060000053
之后,将输入图像的高度H与宽度W(输入图像的尺寸信息)、离散超先验特征
Figure BDA0003876058060000054
以及目标检测结果分别进行编码,再将编码获得的所有信息依次拼接,获得码流头信息;其中,通过第一熵模型对离散超先验特征
Figure BDA0003876058060000055
进行熵编码,其他信息使用常规编码即可,对目标检测结果分别进行编码时,对目标的数目,以及每一目标的位置以及类别均分别进行编码。码流头信息的语法结构定义如表1所示。
表1:码流头信息语法结构
Figure BDA0003876058060000052
其中:image_height_minus1表示图像的高H;image_width_minus1表示图像的宽W;side_information_length表示量化超先验特征
Figure BDA0003876058060000061
对应的码流长度;bounding_boxes_numbers表示图像中目标数目;bounding_box_x、bounding_box_y、bounding_box_h、bounding_box_w、bounding_box_category依次表示当前目标左上角的横坐标、左上角的纵坐标、高度、宽度、类别信息,此处仅提供了单个目标的示例,多个目标的以上5个信息为一组,按照顺序依次排列;u表示无符号的数据类型,以u(32)为例,它表示码流段对应的长度是32个bit。
本发明实施例中,码流长度用于后续解码,其原理为:在实际熵编码时,无法得知数据被编码之后的长度,而解码时需要先读取出对应长度的码流才能进行解码,因此,需要在存储完成熵编码的码流之前,加上相应码流长度,从而使解码端能正确解码出数据。
除此之外,还需要所述量化超先验特征进行超先验反变换获得整体的概率分布
Figure BDA0003876058060000062
并提供给组别特征熵编码使用。
本领域技术人员可以理解,编码的实现方式很多,熵编码属于编码的一种特定方式。也就是说,当描述为编码时,表示可以选择熵编码也可以选择其他方式编码。
4、将所述图像特征进行量化,获得整体离散图像特征,结合目标检测结果对所述整体离散图像特征进行分组,获得每一目标的离散图像特征,依据预先定义的自回归参考关系集合以及选择的解码复杂度,确定每一目标对应的自回归参考关系,根据每一目标的自回归参考关系以及整体的概率分布确定每一目标的概率分布,并以此对相应目标的离散图像特征进行熵编码,获得每一目标对应的纹理部分码流,并将每一目标的自回归参考关系的索引进行编码再与相应目标的纹理部分码流组合形成目标对应码流。
本发明实施例中,所述整体的概率分布是指整体离散图像特征的概率分布,可以通过整体的概率分布获得所有目标的概率分布。
如图1中间部分所示,将所述图像特征y量化后得到整体离散图像特征
Figure BDA0003876058060000063
根据之前的目标检测结果,对每一个目标,假设该目标索引为k,在离散图像特征
Figure BDA0003876058060000064
的空间维度上进行划分得到其对应的离散图像特征
Figure BDA0003876058060000065
将预先定义的自回归参考关系集合记为R={R1,R2,…,RM},Ri表示第i个自回归参考关系,不同自回归参考关系对应不同的复杂度,i为自回归参考关系的索引,i=1,2,…,M,M为自回归参考关系的数量;对于第k个目标,将选择的解码复杂度记为Tk,k=1,2,…,K,K为目标的数目;对于第k个目标,结合预先定义的自回归参考关系集合R与选择的解码复杂度Tk,确定对应复杂度的自回归参考关系为Rk,i,其中,Rk,i∈R,k,i为第k个目标的自回归参考关系的索引,指示了目标与自回归参考关系的对应关系。表2展示了参考关系索引和对应自回归参考关系的示例。
表2:自回归参考关系索引和对应自回归参考关系的示例
Figure BDA0003876058060000071
本发明实施例中,解码复杂度可以理解做解码所需的时间,一般来说复杂度越高,解码时间越长,那么编码效率越高;而复杂度越低,解码时间越短,但是编码效率越低。本发明实施例中,可以根据需求来自定义地调整编码的复杂度。自回归参考关系影响解码时间的长短,也就是复杂度的大小。预先定义的自回归参考关系集合是所有参考关系的集合,因此可以根据需要的复杂度在预先定义的自回归参考关系集合中选择合适的参考关系,从而达到理想的复杂度-编码效率的平衡。
本发明实施例中,对每一目标进行熵编码的流程相同,下面以第k个目标为例进行介绍。熵编码时需要使用前文获得的整体的概率分布
Figure BDA0003876058060000072
对于第k个目标,通过自回归模型结合第k个目标的自回归参考关系Rk,i以及整体的概率分布
Figure BDA0003876058060000073
对第k个目标的离散图像特征
Figure BDA0003876058060000074
进行概率建模,获得概率分布
Figure BDA0003876058060000075
通过第二熵模型,结合概率分布
Figure BDA0003876058060000076
对第k个目标的离散图像特征
Figure BDA0003876058060000077
进行熵编码,获得第k个目标对应的纹理部分码流;同时,还将第k个目标的自回归参考关系rk,i的索引k,i进行编码,并与纹理部分码流组合,形成第k个目标对应码流。每个目标对应码流的语法结构定义如表3所示。
表3:目标对应码流的语法结构
Figure BDA0003876058060000081
其中,entropy_coding_context_index表示自回归参考关系的索引,object_texture_length_minus1表示当前目标纹理部分对应码流的长度。需要说明的是,以上语法结构中仅提供了单个目标的相关示例。
本发明实施例中,所有目标对应码流与所述码流头信息构成语义结构化码流。
二、解码部分。
1、对语义结构化码流中的码流头信息进行熵解码,获得输入图像的尺寸信息(高度H与宽度W)、整体离散超先验特征
Figure BDA0003876058060000082
以及目标检测结果。
2、对所述整体离散超先验特征
Figure BDA0003876058060000083
进行超先验反变换,获得整体的概率分布
Figure BDA0003876058060000084
本发明实施例中,之前提及的超先验变换与此处的超先验反变换均可通过现有超先验模型实现,故不做赘述。
3、对于每一目标,结合整体的概率分布
Figure BDA0003876058060000085
从目标对应码流中熵解码出对应的离散图像特征,根据目标检测结果拼接所有目标对应的离散图像特征获得整体离散图像特征。
同样以第k个目标为例,先从目标对应码流中的解码出自回归参考关系的索引k,i,并以此确定自回归参考关系Rk,i;结合自回归参考关系Rk,i以及整体的概率分布
Figure BDA0003876058060000086
进行自回归的熵解码得到第k个目标对应的离散图像特征
Figure BDA0003876058060000087
具体的,需要通过自回归模型结合Rk,i
Figure BDA0003876058060000088
进行概率建模得到第k个目标对应的
Figure BDA0003876058060000089
再通过利用
Figure BDA00038760580600000810
对第k个目标对应的纹理部分码流进行熵解码,得到对应的离散图像特征
Figure BDA00038760580600000811
所有目标都参照以上方式,获得所有目标对应的离散图像特征。
如之前所述,目标检测结果中包含有每个目标的位置,因此,根据位置将所有目标对应的离散图像特征拼接起来,获得整体离散图像特征
Figure BDA00038760580600000812
本发明实施例中,使用的是无损熵编码与熵解码,熵编码的特征与熵解码得到的特征是完全相同的,因此,使用了相同的符号表示。
考虑到解码部分获得的整体的概率分布
Figure BDA00038760580600000813
与前述编码部分相同,并且,编码与解码部分中,利用整体的概率分布
Figure BDA00038760580600000814
获得各目标对应概率分布
Figure BDA00038760580600000815
的方式也是相同的,因此,图1中相关的流程做了汇总表示,即省略了由量化→超先验反变换→概率估计这部分,当然这也是相关的流程在在本领域通用的表示方式。
4、结合整体离散图像特征与输入图像的尺寸信息,通过深度图像解码器的反变换操作获得重建图像
Figure BDA0003876058060000091
本发明实施例中,所述深度图像解码器可以通过现有的网络模型实现,故不做赘述。
本发明实施例提供的上述方案,主要具有如下优点:
(1)引入熵解码复杂度可控的编解码方法,结合可拓展性高的多复杂度的熵编码方案,使得对语义结构化码流的解码能够支持任意预先定义的复杂度需求,在引入极小码率的情况下适配于不同应用场景的智能分析任务,提高了语义结构化图像编码方法的泛用性和灵活性。
(2)对语义结构化图像编码过程中的每一个目标都可以采取不同复杂度的熵编码参考依赖关系进行概率建模,这进一步增强了框架的灵活性和可拓展性,使其更加适应于真实应用场景。
实施例二
本发明还提供一种熵解码复杂度可控的编解码系统,其主要基于前述实施例提供的方法实现,如图2所示,该系统主要包括:
编码单元,用于执行编码部分,所述编码部分包括:对输入图像进行目标检测,获得目标检测结果;使用深度图像编码器的变换操作得到输入图像的图像特征,将所述图像特征进行超先验变换与量化,获得离散超先验特征,将输入图像的尺寸信息、离散超先验特征以及目标检测结果分别进行编码,再拼接获得码流头信息;将所述图像特征进行量化,获得整体离散图像特征,结合目标检测结果对所述整体离散图像特征进行分组,获得每一目标的离散图像特征,依据预先定义的自回归参考关系集合以及选择的解码复杂度,确定每一目标对应的自回归参考关系,根据每一目标的自回归参考关系以及整体离散图像特征的概率分布确定每一目标的概率分布,并以此对相应目标的离散图像特征进行熵编码,获得每一目标对应的纹理部分码流,并将每一目标的自回归参考关系的索引进行编码再与相应目标的纹理部分码流组合形成目标对应码流;所有目标对应码流与所述码流头信息构成语义结构化码流;
解码单元,用于执行解码部分,所述解码部分包括:对语义结构化码流中的码流头信息进行熵解码,获得输入图像的尺寸信息、整体离散超先验特征以及目标检测结果;对所述整体离散超先验特征进行超先验反变换,获得整体离散图像特征的概率分布,所述整体离散图像特征的概率分布用于编码部分中每一目标的离散图像特征的熵编码以及每一目标的纹理部分码流的熵解码;对于每一目标,结合整体离散图像特征的概率分布从目标对应码流中熵解码出对应的离散图像特征,根据目标检测结果拼接所有目标对应的离散图像特征获得整体离散图像特征;再结合整体离散图像特征与输入图像的尺寸信息,通过深度图像解码器的反变换操作获得重建图像。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图3所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (9)

1.一种熵解码复杂度可控的编解码方法,其特征在于,包括:
编码部分:对输入图像进行目标检测,获得目标检测结果;使用深度图像编码器的变换操作得到输入图像的图像特征,将所述图像特征进行超先验变换与量化,获得离散超先验特征,将所述离散超先验特征进行超先验反变换获得整体的概率分布,以及将输入图像的尺寸信息、离散超先验特征以及目标检测结果分别进行编码,再拼接获得码流头信息;将所述图像特征进行量化,获得整体离散图像特征,结合目标检测结果对所述整体离散图像特征进行分组,获得每一目标的离散图像特征,依据预先定义的自回归参考关系集合以及选择的解码复杂度,确定每一目标对应的自回归参考关系,根据每一目标的自回归参考关系以及整体的概率分布确定每一目标的概率分布,并以此对相应目标的离散图像特征进行熵编码,获得每一目标对应的纹理部分码流,并将每一目标的自回归参考关系的索引进行编码再与相应目标的纹理部分码流组合形成目标对应码流;所有目标对应码流与所述码流头信息构成语义结构化码流;
解码部分:对语义结构化码流中的码流头信息进行熵解码,获得输入图像的尺寸信息、整体离散超先验特征以及目标检测结果;对所述整体离散超先验特征进行超先验反变换,获得整体的概率分布;对于每一目标,结合整体的概率分布从目标对应码流中熵解码出对应的离散图像特征,根据目标检测结果拼接所有目标对应的离散图像特征获得整体离散图像特征;再结合整体离散图像特征与输入图像的尺寸信息,通过深度图像解码器的反变换操作获得重建图像。
2.根据权利要求1所述的一种熵解码复杂度可控的编解码方法,其特征在于,所述对输入图像进行目标检测,获得目标检测结果包括:
通过目标检测模型对所述输入图像进行目标检测,获得目标的数目、每一个目标的位置以及类别;其中,第k个目标的位置及类别表示为:{ak,bk,hk,wk,clsk},ak,bk,hk,wk,clsk分别代表第k个目标的左上角坐标的横轴位置、左上角坐标的纵轴位置、高度、宽度以及类别。
3.根据权利要求2所述的一种熵解码复杂度可控的编解码方法,其特征在于,所述将输入图像的尺寸信息、离散超先验特征以及目标检测结果分别进行编码,再拼接获得码流头信息包括:
将输入图像的高度H与宽度W、离散超先验特征
Figure FDA0003876058050000011
以及目标检测结果分别进行编码,再将编码获得的所有信息依次拼接,获得码流头信息;其中,通过第一熵模型对离散超先验特征
Figure FDA0003876058050000026
进行熵编码,对目标检测结果分别进行编码时,对目标的数目,以及每一目标的位置以及类别均分别进行编码。
4.根据权利要求1所述的一种熵解码复杂度可控的编解码方法,其特征在于,所述依据预先定义的自回归参考关系集合以及选择的解码复杂度,确定每一目标对应的自回归参考关系包括:
将预先定义的自回归参考关系集合记为R={R1,R2,...,RM},Ri表示第i个自回归参考关系,不同自回归参考关系对应不同的复杂度,i为自回归参考关系的索引,i=1,2,...,M,M为自回归参考关系的数量;对于第k个目标,将选择的解码复杂度记为Tk,k=1,2,...,K,K为目标的数目;
对于第k个目标,结合预先定义的自回归参考关系集合R与选择的解码复杂度Tk,确定对应复杂度的自回归参考关系为Rk,i,其中,Rk,i∈R,k,i为第k个目标的自回归参考关系的索引,指示了目标与自回归参考关系的对应关系。
5.根据权利要求1所述的一种熵解码复杂度可控的编解码方法,其特征在于,所述根据每一目标的参考关系以及整体的概率分布确定每一目标的概率分布,并以此对相应目标的离散图像特征进行熵编码包括:
对于第k个目标,通过自回归模型结合第k个目标的参考关系Rk,i以及整体的概率分布
Figure FDA0003876058050000021
对第k个目标的离散图像特征
Figure FDA0003876058050000022
进行概率建模,获得概率分布
Figure FDA0003876058050000023
通过第二熵模型,结合概率分布
Figure FDA0003876058050000024
对第k个目标的离散图像特征
Figure FDA0003876058050000025
进行熵编码。
6.根据权利要求1所述的一种熵解码复杂度可控的编解码方法,其特征在于,所述对于每一目标,结合整体的概率分布从目标对应码流中熵解码出对应的离散图像特征包括:
先从目标对应码流中的熵解码出参考关系的索引,并以此确定自回归参考关系;
结合自回归参考关系以及整体的概率分布进行自回归的熵解码得到每一目标对应的离散图像特征。
7.一种熵解码复杂度可控的编解码系统,其特征在于,基于权利要求1~6任一项所述的方法实现,该系统包括:
编码单元,用于执行编码部分,所述编码部分包括:对输入图像进行目标检测,获得目标检测结果;使用深度图像编码器的变换操作得到输入图像的图像特征,将所述图像特征进行超先验变换与量化,获得离散超先验特征,将所述离散超先验特征进行超先验反变换获得整体的概率分布,以及将输入图像的尺寸信息、离散超先验特征以及目标检测结果分别进行编码,再拼接获得码流头信息;将所述图像特征进行量化,获得整体离散图像特征,结合目标检测结果对所述整体离散图像特征进行分组,获得每一目标的离散图像特征,依据预先定义的自回归参考关系集合以及选择的解码复杂度,确定每一目标对应的自回归参考关系,根据每一目标的自回归参考关系以及整体的概率分布确定每一目标的概率分布,并以此对相应目标的离散图像特征进行熵编码,获得每一目标对应的纹理部分码流,并将每一目标的自回归参考关系的索引进行编码再与相应目标的纹理部分码流组合形成目标对应码流;所有目标对应码流与所述码流头信息构成语义结构化码流;
解码单元,用于执行解码部分,所述解码部分包括:对语义结构化码流中的码流头信息进行熵解码,获得输入图像的尺寸信息、整体离散超先验特征以及目标检测结果;对所述整体离散超先验特征进行超先验反变换,获得整体的概率分布;对于每一目标,结合整体的概率分布从目标对应码流中熵解码出对应的离散图像特征,根据目标检测结果拼接所有目标对应的离散图像特征获得整体离散图像特征;再结合整体离散图像特征与输入图像的尺寸信息,通过深度图像解码器的反变换操作获得重建图像。
8.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~6任一项所述的方法。
9.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~6任一项所述的方法。
CN202211213970.0A 2022-09-30 2022-09-30 熵解码复杂度可控的编解码方法及系统 Pending CN115914631A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211213970.0A CN115914631A (zh) 2022-09-30 2022-09-30 熵解码复杂度可控的编解码方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211213970.0A CN115914631A (zh) 2022-09-30 2022-09-30 熵解码复杂度可控的编解码方法及系统

Publications (1)

Publication Number Publication Date
CN115914631A true CN115914631A (zh) 2023-04-04

Family

ID=86475091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211213970.0A Pending CN115914631A (zh) 2022-09-30 2022-09-30 熵解码复杂度可控的编解码方法及系统

Country Status (1)

Country Link
CN (1) CN115914631A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116847091A (zh) * 2023-07-18 2023-10-03 华院计算技术(上海)股份有限公司 图像编码方法、系统、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116847091A (zh) * 2023-07-18 2023-10-03 华院计算技术(上海)股份有限公司 图像编码方法、系统、设备及介质
CN116847091B (zh) * 2023-07-18 2024-04-26 华院计算技术(上海)股份有限公司 图像编码方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
Fu et al. Octattention: Octree-based large-scale contexts model for point cloud compression
Hu et al. Towards coding for human and machine vision: A scalable image coding approach
KR20020031015A (ko) 에지 히스토그램 빈의 비선형 양자화 및 유사도 계산
CN105426883A (zh) 视频分类快速识别的方法及装置
Picard Content Access for Image/video Coding:" the Fourth Criterion"
Wang et al. End-to-end compression towards machine vision: Network architecture design and optimization
CN117376502B (zh) 一种基于ai技术的视频制作系统
CN115914631A (zh) 熵解码复杂度可控的编解码方法及系统
CN103020138A (zh) 一种视频检索的方法和装置
CN117056863B (zh) 一种基于多模态数据融合的大数据处理方法
CN116935292B (zh) 一种基于自注意力模型的短视频场景分类方法及系统
JP4734047B2 (ja) ビデオドキュメントを圧縮するためのプロセス及び装置
Mei et al. Learn a compression for objection detection-vae with a bridge
CN115880762B (zh) 面向人机混合视觉的可伸缩人脸图像编码方法、系统
Zhang et al. Global Priors with Anchored-stripe Attention and MultiScale Convolution for Remote Sensing Images Compression
CN115297327A (zh) 基于语义结构化编码的语义先验编解码方法与系统
CN100546386C (zh) 编码和解码坐标内插符的关键值数据的方法和装置
CN111898638A (zh) 融合不同视觉任务的图像处理方法、电子设备及介质
CN103533353A (zh) 一种近似视频编码系统
CN116095321A (zh) 显著性区域图像编解码方法、系统、设备及存储介质
CN115604476A (zh) 变码率语义结构化图像编解码方法与系统
CN113112464B (zh) 基于跨模态交流编码器的rgbd显著性物体检测方法及系统
CN115604475A (zh) 一种多模态信源联合编码方法
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
CN114600463A (zh) 视频编码和视频解码

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination