CN116472708A - 特征数据的编解码方法、装置、设备及存储介质 - Google Patents

特征数据的编解码方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116472708A
CN116472708A CN202080105790.3A CN202080105790A CN116472708A CN 116472708 A CN116472708 A CN 116472708A CN 202080105790 A CN202080105790 A CN 202080105790A CN 116472708 A CN116472708 A CN 116472708A
Authority
CN
China
Prior art keywords
characteristic data
data
channel
characteristic
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080105790.3A
Other languages
English (en)
Inventor
虞露
邵宇超
于化龙
谢志煌
戴震宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Zhejiang University ZJU
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Zhejiang University ZJU
Publication of CN116472708A publication Critical patent/CN116472708A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种特征数据的编解码方法、装置、设备及存储介质,其中,特征数据的处理方法包括:确定待编码的各通道对应的第一特征数据;对各通道对应的目标信息第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据;对各通道对应的目标信息第二特征数据进行空域的重表达,得到第三特征数据;其中,目标信息第三特征数据的高度符合第一高度,目标信息第三特征数据的宽度符合第一宽度,目标信息第三特征数据包括位于各通道的目标位置处的目标信息第二特征数据;基于目标信息第三特征数据进行编码,并写入码流。

Description

特征数据的编解码方法、装置、设备及存储介质 技术领域
本公开实施例涉及通信领域中的编解码技术,尤其涉及一种特征数据的编解码方法、装置、设备及存储介质。
背景技术
目前,在传统视频编解码的过程中,特征图编解码流程包含三个主要模块:预量化/反预量化、重打包/反重打包、传统视频编码/解码。经过预量化、重打包后的特征图数组数据以亮度色度(YUV)视频数据形式送入传统视频编码器进行压缩编码,传统视频编码器产生的码流包含在特征图数据码流中。其中,重打包/反重打包有多个模式可选,分别为特征图指定顺序叠加、特征图默认顺序或指定顺序平铺。
然而,在叠加模式中,仅适用单一的列表描述特征通道的顺序,没有对特征通道之间在视频编解码设备中的参考关系进行指导和设计,这使得叠加之后的特征通道之间的编码效率并不高。在平铺模式中,特征的多通道数据被按照单一的列表顺序平铺在一幅图像中,多通道数据紧密相邻,这就导致在使用现有特征数据的处理方法对平铺图像进行编码时,块划分操作会将多个通道的数据划分到同一个编码单元中。由于不同通道数据之间存在非连续性,这就使得同一个编码单元中的不同通道数据的相关性较差,从而不能有效发挥现有特征数据的处理方法的效率。
由此可知,相关技术中基于特征数据进行编码时至少存在编码效率低的问题。
发明内容
本公开实施例提供了一种特征数据的编解码方法、装置、设备及存储介质,通过空域的重表达技术将第二特征数据处理成高度符合第一高度且宽度符合第一宽度的第三特征数据,同时第三特征数据包括位于各通道的目标位置处的第二特征数据,即对第二特征数据进行目标尺寸的填充以及规定了填充的位置,确保一个编码单元中只有一个特征数据,且通过上述填充方式使得数据之间的跳变趋于平缓,从而降低编码时不同通道之间特征数据的相互影响,避免在对特征数据进行编码时同一个编码块中出现两个通道的特征数据,以高效利用现有视频编解码标准,从而提高特征数据的编码效率。
本公开实施例的技术方案可以如下实现:
第一方面,本公开实施例提供了一种特征数据的编码方法,包括:
确定待编码的各通道对应的第一特征数据;
对各通道对应的所述第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据;
对各通道对应的所述第二特征数据进行空域的重表达,得到第三特征数据;其中,所述第三特征数据的高度符合第一高度,所述第三特征数据的宽度符合第一宽度,所述第三特征数据包括位于各通道的目标位置处的所述第二特征数据;
基于所述第三特征数据进行编码,并写入码流。
第二方面,本公开实施例还提供了一种特征数据的解码方法,包括:
获取来自于特征数据的编码装置的码流;
对所述码流进行解码得到第三特征数据;
对所述第三特征数据进行空域的逆表达,得到各通道对应的第二特征数据;其中,所述第三特征数据的高度符合第一高度,所述第三特征数据的宽度符合第一宽度,所述第三特征数据包括位于各通道的目标位置处的所述第二特征数据;
对各通道对应的所述第二特征数据进行数据类型转化处理,得到各通道对应的第一特征数据。
第三方面,本公开实施例提供了一种特征数据的编码装置,包括:
第一获取模块,配置为:确定待编码的各通道对应的第一特征数据;
第一处理模块,配置为:对各通道对应的所述第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据;
第二处理模块,配置为:对各通道对应的所述第二特征数据进行空域的重表达,得到第三特征数据;其中,所述第三特征数据的高度符合第一高度,所述第三特征数据的宽度符合第一宽度,所述第三特征数据包括位于各通道的目标位置处的所述第二特征数据;
编码模块,配置为:基于所述第三特征数据进行编码,并写入码流。
第四方面,本公开实施例提供了一种特征数据的解码装置,包括:
第二获取模块,配置为:获取来自于特征数据的编码装置的码流;
解码模块,配置为:对所述码流进行解码得到第三特征数据;
第三处理模块,配置为:对所述第三特征数据进行空域的逆表达,得到各通道对应的第二特征数据;其中,所述第三特征数据的高度符合第一高度,所述第三特征数据的宽度符合第一宽度,所述第三特征数据包括位于各通道的目标位置处的所述第二特征数据;
第四处理模块,配置为:对各通道对应的所述第二特征数据进行数据类型转化处理,得到的各通道对应的第一特征数据。
第五方面,本公开实施例提供了一种特征数据的编码设备,包括:
第一存储器,用于存储可执行特征数据的编码指令;
第一处理器,用于执行所述第一存储器中存储的可执行特征数据的编码指令时,实现第一方面所述的特征数据的处理方法。
第六方面,本公开实施例还提供了一种特征数据的解码设备,包括:
第二存储器,用于存储可执行特征数据的解码指令;
第二处理器,用于执行所述第二存储器中存储的可执行特征数据的解码指令时,实现第二方面所述的特征数据的解码方法。
第七方面,本公开实施例提供了一种计算机可读存储介质,存储有可执行特征数据的编码指令,用于引起第一处理器执行时,实现第一方面所述的特征数据的编码方法。
第八方面,本公开实施例提供了一种计算机可读存储介质,存储有可执行特征数据的解码指令,用于引起第二处理器执行时,实现第二方面所述的特征数据的解码方法。
本公开实施例提供了一种特征数据的编解码方法、装置、设备及存储介质,特征数据的处理方法包括:确定待编码的各通道对应的第一特征数据;对各通道对应的目标信息第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据;对各通道对应的目标信息第二特征数据进行空域的重表达,得到第三特征数据;其中,目标信息第三特征数据的高度符合第一高度,目标信息第三特征数据的宽度符合第一宽度,目标信息第三特征数据包括位于各通道的目标位置处的目标信息第二特征数据;基于目标信息第三特征数据进行编码,并写入码流;也就是说,通过空域的重表达技术将第二特征数据处理成高度符合第一高度且宽度符合第一宽度的第三 特征数据,同时第三特征数据包括位于各通道的目标位置处的第二特征数据,即对第二特征数据进行目标尺寸的填充以及规定了填充的位置,确保一个编码单元中只有一个特征数据,且通过上述填充方式使得数据之间的跳变趋于平缓,从而降低编码时不同通道之间特征数据的相互影响,避免在对特征数据进行编码时同一个编码块中出现两个通道的特征数据,以高效利用现有视频编解码标准,从而提高特征数据的编码效率。
附图说明
图1为相关技术的编解码的流程框图;
图2为本公开实施例提供的示例性的特征数据的编码方法的流程示意图一;
图3为本公开实施例提供的示例性的特征数据的编码方法的流程示意图二;
图4为本公开实施例提供的示例性的空域放置与空域拼接的示意图;
图5为本公开实施例提供的示例性的特征数据的编码方法的流程示意图三;
图6为本公开实施例提供的示例性的特征数据的解码方法的流程示意图一;
图7为本公开实施例提供的示例性的特征数据的解码方法的流程示意图二;
图8为本公开实施例提供的示例性的编解码场景下的特征数据的处理方法的流程示意图;
图9为本公开实施例提供的一种特征数据的编码装置的结构示意图;
图10为本公开实施例提供的一种特征数据的解码装置的结构示意图;
图11为本公开实施例提供的一种特征数据的编码设备的结构示意图;
图12为本公开实施例提供的一种特征数据的解码设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开的具体技术方案做进一步详细描述。以下实施例用于说明本公开,但不用来限制本公开的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的,不是旨在限制本公开。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
需要指出,本公开实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。
对本公开实施例进行进一步详细说明之前,对本公开实施例中涉及的名词和术语进行说明,本公开实施例中涉及的名词和术语适用于如下的解释。
1)三维特征数据张量包括通道数,高度,宽度(3D Feature Data Tensor Expression Channel,Height,Width,C、H、W)。
如图1所示的相关技术的编解码的流程框图中,该流程涉及三个主要模块:预量化/反预量化;重打包/反重打包;传统视频编码/解码。
其中,预量化/反预量化用于当原始输入特征图为浮点型时,需要对特征图进行预量化,使其转化为符合传统视频编码器输入要求的整型数据。
重打包/反重打包用于重打包模块将原始特征图三维数组变换为符合传统视频编码器输入要求的yuv格式。同时通过改变特征图的组合方式,提高传统视频编码器对特征图数据的编码效率。重打包/反重打包有多个模式可选,分别为特征图指定顺序叠加、特征图默认顺序或指定顺序平铺。
特征图指定顺序叠加:在该模式下,特征图的每个通道对应传统视频编码器输入数据中的一帧。特征图的高、宽被填充至符合统视频编码器输入要求的高度与宽度。特征图通道顺序由repack_order_list记录,其中repack_order_list中的内容可以缺省为默认的顺序数组(例如[0,1,2,3,…])。
特征图默认顺序或指定顺序平铺:在该模式下,特征图多个通道平铺拼接成一个二维数组作为传统视频编码器输入数据中的一帧。拼接后的数组的高、宽被填充至符合统视频编码器输入要求的高度与宽度。拼接顺序为原始特征图通道顺序,由数组宽方向优先,高方向其次依次排列,当前帧铺满后再创造下一帧继续平铺,直到特征图所有通道均平铺完毕。其中通道顺序由repack_order_list记录,内容可以缺省为默认的顺序数组(例如[0,1,2,3,…])。
传统视频编码/解码用于经过预量化、重打包后的特征图数组数据以yuv视频数据形式送入传统视频编码器进行压缩编码,传统视频编码器产生的码流包含在特征图数据码流中。其中,对于HEVC视频编码器,特征图数组以4:0:0格式输入;对AVS3视频编码器,特征图数组以4:2:0格式输入。
相关技术的编解码的流程还可以通过如下步骤实现,在运动图像专家组沉浸式视频(MPEG Immersive Video)中,存在一种对同一时刻各个相机所拍摄到的图像内容进行重表达和重排列的技术,以便视觉信息的高效表达与高效编码。具体而言,在运动图像专家组沉浸式视频中,多台相机会在所需拍摄的场景中按一定位置关系摆放,这些相机也被称为参考视点。各个参考视点拍摄的内容之间存在一定的视觉冗余,因此在编码端需要对所有参考视点的图像进行重表达和重组织,来去除视点间的视觉冗余;在解码端需要对重表达和重组织后的信息进行解码与还原。
在编码端,对参考视点的图像进行重表达的方式是,在参考视点图像上截取呈矩形形状的大小各异的子块图像(Patch)。截取出所有必要的子块图像后,将这些子块图像由大至小排序。依照上述的顺序,将子块图像逐个摆放在一张待填充的有着较大分辨率的图像上,这张待填充的图像被称为地图集(Atlas)。在摆放子块图像时,每个子块图像的左上角的像素一定会落在待填充图像中划分好的8*8图像块的左上角像素上。每执行一次子块图像的摆放,就会记下当前摆放的子块图像的摆放序号、左上角像素的坐标、子块图像的分辨率大小,按顺序存进子块图像信息列表(Patch List)中。当所有子块图像摆放完毕之后,我们将会对地图集和子块图像信息列表送进传统视频编解码器进行编码。
在解码端,得到重建后的地图集以及子块图像信息列表后,将按照子块图像信息列表中所记载的摆放子块图像的顺序,对摆放在地图集中的子块图像内部的像素逐一地进行渲染,从而合成得到一张观众所在视点处的图像。
上述相关技术中的编解码的流程至少存在如下缺陷:
缺陷1:在叠加模式中,仅适用单一的列表描述特征通道的顺序,并没有根据特征通道之间的相关性进行特征通道的顺序的最优化排列,且没有对特征通道之间在视频编解码器中的参考关系进行指导和设计,这使得叠加之后的特征通道之间的编码效率并不高。
缺陷2:在平铺模式中,特征的多通道数据被按照单一的列表顺序平铺在一幅图像中,多通道数据紧密相邻,这就导致在使用现有编解码方法对平铺图像进行编码时,块 划分操作会将多个通道的数据划分到同一个编码单元中。由于不同通道数据之间存在非连续性,这就使得同一个编码单元中的不同通道数据的相关性较差,从而不能有效发挥现有编解码方法的效率,使得特征数据的压缩效果不够好。
缺陷3:运动图像专家组沉浸式视频(MPEG Immersive Video)中的对视觉信息进行重表达、重排列的方案,仅按照子块图像面积由大至小排序的策略进行顺序摆放。在摆放时,未考虑各子块间的纹理相似度以及空间位置相似度,这会导致重组织后的地图集图像在送进传统视频编解码器时,不能充分发挥现有编解码方法的效率。
为了解决相关技术中存在的问题,并充分挖掘和利用多通道特征数据之间的相似性,本公开提出空域特征数据重表达技术。该技术中所编码的特征数据为神经网络模型中间层输出的特征数据。本公开大致流程为:从神经网络模型中间层输出原始特征数据,一般形式为(C,H,W),其中C为特征数据通道数,H为高度,W为宽度。通过将原始特征数据进行空域的重表达,通过编码器编码生成码流,解码端解码并进行逆表达后重建生成原始特征数据,输入回神经网络模型中进行任务处理与分析。
本公开的实施例提供一种特征数据的编码方法,特征数据的处理方法应用于特征数据的编码装置;参照图2所示,该方法包括以下步骤:
步骤101、确定待编码的各通道对应的第一特征数据。
本公开实施例中,步骤101确定待编码的各通道对应的第一特征数据可以通过如下步骤实现:获取图像;提取图像的各通道对应的第一特征数据。
一些实施例中,特征数据的编码装置获取到图像后,将图像输入神经网络模型中,进而获取到神经网络模型的中间层输出的各通道对应的第一特征数据。这里,图像的各通道即图像的各特征图,一个通道是对某个特征的检测,通道中某一处数值的强弱就是对当前特征强弱的反应。
步骤102、对各通道对应的第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据。
本公开实施例中,特征数据的处理装置获取到各通道对应的第一特征数据后,由于第一特征数据的数据类型不符合特征数据的编码装置的数据输入条件,所以特征数据的处理装置对各通道对应的第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据。
示例性的,第一特征数据为浮点型数据,第二特征数据为整型数据。
步骤103、对各通道对应的第二特征数据进行空域的重表达,得到第三特征数据。
其中,第三特征数据的高度符合第一高度,第三特征数据的宽度符合第一宽度,第三特征数据包括位于各通道的目标位置处的第二特征数据。
本公开实施例中,特征数据的处理装置通过空域的重表达技术将第二特征数据处理成高度符合第一高度且宽度符合第一宽度的第三特征数据,同时第三特征数据包括位于各通道的目标位置处的第二特征数据,即对第二特征数据进行目标尺寸的填充以及规定了填充的位置,确保一个编码单元中只有一个特征数据,且通过上述填充方式使得数据之间的跳变趋于平缓,从而降低编码时不同通道之间特征数据的相互影响。
步骤104、基于第三特征数据进行编码,并写入码流。
本公开实施例所提供的特征数据的处理方法,确定待编码的各通道对应的第一特征数据;对各通道对应的目标信息第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据;对各通道对应的目标信息第二特征数据进行空域的重表达,得到第三特征数据;其中,目标信息第三特征数据的高度符合第一高度,目标信息第三特征数据的宽度符合第一宽度,目标信息第三特征数据包括位于各通道的目标位置处的目标信息第二特征数据;基于目标信息第三特征数据进行编码,并 写入码流;也就是说,通过空域的重表达技术将第二特征数据处理成高度符合第一高度且宽度符合第一宽度的第三特征数据,同时第三特征数据包括位于各通道的目标位置处的第二特征数据,即对第二特征数据进行目标尺寸的填充以及规定了填充的位置,确保一个编码单元中只有一个特征数据,且通过上述填充方式使得数据之间的跳变趋于平缓,从而降低编码时不同通道之间特征数据的相互影响,避免在对特征数据进行编码时同一个编码块中出现两个通道的特征数据,以高效利用现有视频编解码标准,从而提高特征数据的编码效率。
本公开的实施例提供一种特征数据的编码方法,特征数据的处理方法应用于特征数据的编码装置;参照图3所示,该方法包括以下步骤:
步骤201、确定待编码的各通道对应的第一特征数据。
步骤202、对各通道对应的第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据。
本公开实施例中,步骤202对各通道对应的第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据,可以通过如下步骤实现:对各通道对应的第一特征数据进行整型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据;其中,第二特征数据为整型数据。
一些实施例中,基于如下公式对第一特征数据进行整型转化处理,得到第二特征数据,
其中,x ij是第一特征数据中第i行第j列的特征值,x min是第一特征数据中的最小值,x max是第一特征数据中的最大值, 是第二特征数据中第i行第j列的特征值,n是比特数,int[]是整数化函数。
另一些实施例中,基于如下公式对第一特征数据进行整型转化处理,得到第二特征数据,
其中, 是第二特征数据中第i行第j列的特征值,x ij是第一特征数据中第i行第j列的特征值,int[]是整数化函数,log 2()返回输入以2为底的对数值,max_num为经过对数变换后的特征数据log 2(1+x ij)的最大值,BitDepth为定点化比特数。
步骤203、在空域上基于第二高度和第二宽度对各通道对应的第二特征数据进行填充,得到填充后的第二特征数据。
其中,第一高度为第二高度的整数倍,第一宽度为第二宽度的整数倍。
本公开实施例中,步骤203在空域上基于第二高度和第二宽度对各通道对应的第二特征数据进行填充,得到填充后的第二特征数据,可以通过如下步骤实现:在空域上基于目标位置、第二高度和第二宽度对各通道对应的第二特征数据进行填充,得到填充后的第二特征数据。
本公开实施例中,不同通道的目标位置相同。目标位置为各通道中不同通道的填充后的第二特征数据的起始位置,或者目标位置为各通道中不同通道的填充后的第二特征数据的中间位置。
这里,步骤203在空域上基于第二高度和第二宽度对各通道对应的第二特征数据进行填充,得到填充后的第二特征数据,可以称为空域放置,即将各个通道的特征数据在空域上填充到固定大小,其中特征数据放置于填充后特征数据的特定位置,例如,各个通道的特征数据可以放置在填充后特征数据的起始位置即(0,0)位置,并在特征数据右方 和下方填充到特定大小。
步骤204、在空域上将各通道对应的填充后的第二特征数据拼接成一张目标特征图。
其中,目标特征图具有第一高度和第一宽度。
这里,步骤204在空域上将各通道对应的填充后的第二特征数据拼接成一张目标特征图,可以称为空域拼接,即将填充后的特征数据在空域拼接成一整张大的特征图如4所示,进而得到重表达特征数据即第三特征数据。
这里,对图4进行简要说明,神经网络模型的输入是一张图像,中间层的输出是多张特征图。特征图中特征值的大小表征某个位置是否有某个特征。在得到原始特征数据的情况下,C1的下半部分C3的上半部分之间会有跳变。假设C1对应的原始特征数据的尺寸为13*17,将其填充到8*8的整数倍如64*64,这里,可以基于渐变方式填充或者基于C1最右边或者最下方的像素值复制方式进行填充,保证C1和C2或者C3和C4是完全独立的关系。最后,将特征数据放置在编码效率最高的位置,例如左上角的位置、正中间的位置等。示例性的,如图4所示,填充后的第二特征数据包括(C1、H、W)、(C2、H、W)、(C3、H、W)以及(C4、H、W);可见,填充后的第二特征数据是相同大小的数据块,也就是说,本公开针对一样大小的数据块进行编码的。
步骤205、获取目标特征图的特征数据,得到第三特征数据。
其中,第三特征数据的高度符合第一高度,第三特征数据的宽度符合第一宽度,第三特征数据包括位于各通道的目标位置处的第二特征数据。
步骤206、基于第三特征数据进行编码,并写入码流。
本公开的实施例提供一种特征数据的编码方法,特征数据的编码方法应用于特征数据的编码装置;参照图5所示,该方法包括以下步骤:
步骤301、确定待编码的各通道对应的第一特征数据。
步骤302、对各通道对应的第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据。
步骤303、对各通道对应的第二特征数据进行空域的重表达,得到第三特征数据。
其中,第三特征数据的高度符合第一高度,第三特征数据的宽度符合第一宽度,第三特征数据包括位于各通道的目标位置处的第二特征数据。
步骤304、获取各通道中单通道的第二特征数据的第三高度和第三宽度。
这里,第二特征数据和第一特征数据虽然为不同数据类型的数据,但是第二特征数据和第一特征数据具有相同的高度和宽度,也就是说,第一特征数据具有第三高度和第三宽度。
步骤305、获取第二高度与第三高度的高度差值。
步骤306、获取第二宽度与第三宽度的宽度差值。
步骤307、获取各通道中单通道的第一特征数据中的最大值和最小值。
这里,第二特征数据与第一特征数据中的最大值和最小值不同。
步骤308、基于第三特征数据进行编码,并写入码流。
步骤309、将各通道对应的通道数、第三高度、第三宽度、高度差值以及宽度差值写入码流。
这里,高度差值和宽度差值作为特征数据的解码装置执行空域拆分的参考因素,并在编码的过程中写入码流,能够减少数据传数量,提高编码效率。
步骤310、将最大值和最小值写入码流。
本公开的实施例提供一种特征数据的解码方法,特征数据的解码方法应用于特征数据的解码装置;参照图6所示,该方法包括以下步骤:
步骤401、获取来自于特征数据的编码装置的码流。
步骤402、对码流进行解码得到第三特征数据。
步骤403、对第三特征数据进行空域的逆表达,得到各通道对应的第二特征数据。
其中,第三特征数据的高度符合第一高度,第三特征数据的宽度符合第一宽度,第三特征数据包括位于各通道的目标位置处的第二特征数据。
步骤404、对各通道对应的第二特征数据进行数据类型转化处理,得到各通道对应的第一特征数据。
这里,特征数据的编码装置获取到图像后,将图像输入神经网络模型中,获得神经网络模型中间层输出的原始特征数据。进一步的,特征数据的编码装置通过将原始特征数据进行空域的重表达,通过编码器编码生成码流。接着,特征数据的解码装置获得码流,并进行解码,之后进行逆表达以重建原始特征数据,输入回神经网络模型中进行任务处理与分析。
需要说明的是,本公开中的特征数据的编码装置获取的第一特征数据即原始特征数据,与特征数据的解码装置重建的第一特征数据即重建特征数据,在理想情况下是一样的,或者是存在一定差异的。这里,存在差异的原因是特征数据的解码装置基于编码后的码流进行重建,但是码流经过编码会引入失真,所以原始特征数据和重建特征数据会存在一定差异。
本公开实施例所提供的特征数据的解码方法,通过获取来自于特征数据的编码装置的码流;对码流进行解码得到第三特征数据;对第三特征数据进行空域的逆表达,得到各通道对应的第二特征数据;其中,第三特征数据的高度符合第一高度,第三特征数据的宽度符合第一宽度,第三特征数据包括位于各通道的目标位置处的第二特征数据;对各通道对应的第二特征数据进行数据类型转化处理,得到各通道对应的第一特征数据;也就是说,通过空域的逆表达技术将解码得到的第三特征数据处理恢复成各通道对应的第二特征数据,并对各通道对应的第二特征数据进行数据类型转化处理,得到神经网络模型的中间层输出的各通道对应的第一特征数据,从而在降低编码时不同通道之间特征数据的相互影响,避免在对特征数据进行编码时同一个编码块中出现两个通道的特征数据,以高效利用现有视频编解码标准,从而提高特征数据的编码效率的基础上,实现对所编码的数据进行快速准确的解码,得到神经网络模型的中间层输出的各通道对应的原始特征数据。
本公开的实施例提供一种特征数据的解码方法,特征数据的解码方法应用于特征数据的解码装置;参照图7所示,该方法包括以下步骤:
步骤501、获取来自于特征数据的编码装置的码流。
步骤502、对码流进行解码得到第三特征数据。
步骤503、对码流进行解码得到各通道对应的通道数、第三高度、第三宽度、高度差值以及宽度差值。
其中,第二特征数据具有第三高度和第三宽度,高度差为填充后的第二特征数据的第二高度与第三高度的差值,宽度差值为填充后的第二特征数据的第二宽度与第三宽度的差值
步骤504、基于高度差值、宽度差值、通道数、第三高度、第三宽度、第一高度以及第一宽度,对第三特征数据进行空域拆分,得到各通道对应的填充后的第二特征数据。
这里,无论特征数据的编码装置基于何种拼接方式对填充后的第二特征数据进行处理,得到的第三特征数据,在特征数据的解码装置一侧,均可以基于第三特征数据的分辨率即第一高度和第一宽度,以及高度差值、宽度差值、通道数、第三高度、第三宽度,对第三特征数据进行拆分得到各通道对应的填充后的第二特征数据。
示例性的,以通道个数为4进行举例,各通道填充后的第二特征数据包括(C1,H’+H, W’+W),(C2,H’+H,W’+W)、(C3,H’+H,W’+W)和(C4,H’+H,W’+W)。
步骤505、基于第三高度、第三宽度以及各通道的目标位置,对各通道对应的填充后的第二特征数据进行空域裁减,得到各通道对应的第二特征数据。
其中,第三特征数据的高度符合第一高度,第三特征数据的宽度符合第一宽度,第三特征数据包括位于各通道的目标位置处的第二特征数据。
这里,可以以目标位置为起点,基于第三高度、第三宽度从填充后的第二特征数据中裁减出第二特征数据。
步骤506、对码流进行解码得到各通道中单通道的第一特征数据中的最大值和最小值。
步骤507、基于最大值和最小值对第二特征数据进行数据类型转化处理,得到各通道对应的第一特征数据。
本公开其他实施例中,步骤507基于最大值和最小值对第二特征数据进行数据类型转化处理,得到各通道对应的第一特征数据,可以通过如下步骤实现:基于最大值和最小值对第二特征数据进行浮点型转化处理,得到各通道对应的第一特征数据;其中,第一特征数据为浮点型数据。
一些实施例中,基于如下公式对第二特征数据进行浮点型转化处理,得到第一特征数据,
其中,x ij是第一特征数据中第i行第j列的特征值,x min是第一特征数据中的最小值,x max是第一特征数据中的最大值, 是第二特征数据中第i行第j列的特征值,n是比特数。
另一些实施例中,基于如下公式对第二特征数据进行浮点型转化处理,得到第一特征数据,
其中,x ij是第一特征数据中第i行第j列的特征值, 是第二特征数据中第i行第j列的特征值,x max是第一特征数据中的最大值,BitDepth为定点化比特数,float()将输入的整型数据转化为浮点型数据。
在一种可实现的场景中,参见图8所示,对本公开提供的特征数据的编解码方法进行进一步的说明,本公开所编码的第一特征数据又称为原始特征数据,为神经网络模型中间层输出的特征数据,原始特征数据从神经网络模型中间层输出,一般形式为(C,H,W),其中C为特征数据通道数,H为高度,W为宽度。本公开的特征数据的处理方法,在获取到原始特征数据后,对原始特征数据执行特征数据定点化,进而对定点化后的原始特征数据进行空域的重表达,空域的重表达包括空域放置和空域拼接,进而通过编码装置编码生成码流,解码装置解码并进行空域的逆表达,并执行特征数据浮点化以重建特征数据,输入回神经网络模型中进行任务处理与分析。
进一步的,对特征数据的处理方法进行详细说明:
空域放置的技术实现为:将各个通道的特征数据在空域上填充到固定大小,其中特征数据放置于填充后特征数据的特定位置,例如,各个通道的特征数据可以放置在填充后特征数据的(0,0)位置,并在特征数据右方和下方填充到特定大小
空域拼接的技术实现为:将填充后的特征数据在空域拼接成一整张大的特征图如图4所示,得到重表达特征数据。
本公开实施例中除了需要传统视频编码后生成的码流信息之外,还至少需要传输以下额外信息:单通道特征数据在填充后特征数据的空域放置起始坐标;单通道特征数据 的高H,宽W,通道数C;单通道特征数据填充后的高与原始高H的差值H’,宽与原始宽W的差值W’。其他额外数据还包括:输入网络的图像尺寸image_size;图像经过网络预处理后的尺寸processed_image_size;原始特征数据每个通道最大值x max和最小值x min
解码端得到特征数据码流后,需要通过空域拆分和裁剪,重建得到相应的特征数据,具体步骤如下:空域拆分包括:将解码后的重表达特征数据进行空域拆分,拆分成多通道的特征数据。具体来说,依据单通道特征数据填充后的高与原始高H的差值H’,宽与原始宽W的差值W’,通道数C,以及拼接后特征大图的分辨率W1xH1,将特征数据拆分成(C,H’+H,W’+W);空域裁减包括依据单通道特征数据在填充后特征数据的空域放置起始左边和单通道特征数据的高H和宽W,进行空域裁剪,得到裁剪后的特征数据(C,H,W)。
在一种实现方式中,空域特征数据重表达信息可以记录在补充增强信息中(例如H.265/HEVC、H.266/VVC的Supplemental Enhancement Information(SEI)或AVS标准的扩展数据(Extension Data))。例如,在AVC/HEVC/VVC/EVC的sei_rbsp()中sei_message()的sei_paylod(),如表中增加一种新的SEI类别,即Feature map spatial reexpression indication SEI message,payloadType可以定义为任意其他SEI没有使用过的编号,例如184,此时,语法结构如表1所示。
表1-1 sei_payload()语法结构
其中语法元素的语义为:
feature_channel_number:用于描述特征数据的通道数为feature_channel_number+1;
feature_height:用于描述单通道特征数据的高为feature_height+1;
feature_width:用于描述单通道特征数据的宽为feature_width+1;
feature_height_difference:用于描述单通道特征数据填充后的高与原始高feature_height的差值为feature_height_difference;
feature_width_difference:用于描述单通道特征数据填充后的宽与原始宽feature_width的差值为feature_width_difference;
feature_padding_initial_position_y:用于描述通道特征数据在填充后特征数据的空域放置起始纵坐标为feature_padding_initial_position_y;
feature_padding_initial_position_x:用于描述通道特征数据在填充后特征数据的空域放置起始横坐标为feature_padding_initial_position_x;
空域特征数据重表达技术可以在其前面包含特征数据定点化步骤,在其后面可以包含编码步骤。
空域特征数据重表达及编码流程中,特征数据定点化及浮点化处理的具体步骤如下:
特征数据定点化,例如,可通过将特征数据每个通道进行缩放,并存储x min,x max,将此数据传输到解码端,供后处理使用,量化公式如下:
其中,x ij是未经过量化的特征数据(H,W)中第i行第j列的特征值,x min是特征数据中的最小值,x max是特征数据中的最大值, 是定点化后特征数据(H,W)中第i行第j列的特征值,n是比特数,int[]是整数化函数。
特征数据浮点化,将裁剪后的特征数据进行浮点化处理,得到重建特征数据,例如,可以依据x max和x min进行浮点化,浮点化公式如下:
其中,x ij是未经过定点化的特征数据(H,W)中第i行第j列的特征值,x min是特征数据中的最小值,x max是特征数据中的最大值。
示例性的,在一个应用场景实施例中,针对人脸识别场景,图像采集设备在火车站等场所中采集到人像,输入到人脸识别的神经网络模型中,例如该神经网络模型有10层,由于图像采集设备本地的算力不够,只能执行5层,在神经网络模型的中间层输出原始特征数据后,图像采集设备对原始特征数据进行特征数据定点化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据,进而图像采集设备通过空域的重表达技术将第二特征数据处理成高度符合第一高度且宽度符合第一宽度的第三特征数据,同时第三特征数据包括位于各通道的目标位置处的第二特征数据,即对第二特征数据进行目标尺寸的填充以及规定了填充的位置,确保一个编码单元中只有一个特征数据,且通过上述填充方式使得数据之间的跳变趋于平缓;进一步的,图像采集设备将第三特征数据发送至特征数据的处理装置,特征数据的处理装置对第三特征数据进行编码并写入码流。之后,特征数据的处理装置将码流发送至特征数据的处理装置,这里,特征数据的处理装置可以设置在云服务器内,也就是说,在得到码流之后,将其交由云端进行处理。云服务器通过特征数据的处理装置对码流进行解码得到第三特征数据,进而云服务器对第三特征数据进行空域的逆表达包括空域拆分和空域裁减,得到各通道对应的第二特征数据;接着,云服务器对各通道的第二特征数据进行浮点化处理,得到各通道对应的第一特征数据;最后,云服务器将各通道对应的第一特征数据输入至神经网络的第6层,不断执行到第10层,得到人脸识别的结果。
本公开至少具有如下有益效果:空域特征数据重表达技术可以降低编码时不同通道之间特征数据的相互影响,避免在对特征数据进行编码时同一个编码块中出现两个通道的特征数据,以高效利用现有视频编解码标准,从而提高特征数据的编码效率。通过将额外信息引入码流中,引入空域特征数据重表达技术,对特征数据进行空域放置和拼接 以提高特征数据的编码效率。
图9为本公开实施例提供的特征数据的编码装置的组成结构示意图,如图9所示,设备对应的特征数据的编码装置700包括第一获取模块701、第一处理模块702、第二处理模块703和编码模块704,其中:
第一获取模块701,配置为:确定待编码的各通道对应的第一特征数据;
第一处理模块702,配置为:对各通道对应的第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据;
第二处理模块703,配置为:对各通道对应的第二特征数据进行空域的重表达,得到第三特征数据;其中,第三特征数据的高度符合第一高度,第三特征数据的宽度符合第一宽度,第三特征数据包括位于各通道的目标位置处的第二特征数据;
编码模块704,配置为:基于第三特征数据进行编码,并写入码流。
在本公开其他实施例中,第二处理模块703,配置为:在空域上基于第二高度和第二宽度对各通道对应的第二特征数据进行填充,得到填充后的第二特征数据;其中,第一高度为第二高度的整数倍,第一宽度为第二宽度的整数倍;在空域上将各通道对应的填充后的第二特征数据拼接成一张目标特征图;其中,目标特征图具有第一高度和第一宽度;获取目标特征图的特征数据,得到第三特征数据。
在本公开其他实施例中,第二处理模块703,配置为:在空域上基于目标位置、第二高度和第二宽度对各通道对应的第二特征数据进行填充,得到填充后的第二特征数据。
在本公开其他实施例中,不同通道的目标位置相同。
在本公开其他实施例中,目标位置为各通道中不同通道的填充后的第二特征数据的起始位置,或者目标位置为各通道中不同通道的填充后的第二特征数据的中间位置。
在本公开其他实施例中,第一获取模块701,配置为:获取各通道中单通道的第二特征数据的第三高度和第三宽度;获取第二高度与第三高度的高度差值;获取第二宽度与第三宽度的宽度差值。
在本公开其他实施例中,编码模块704,配置为:将各通道对应的通道数、第三高度、第三宽度、高度差值以及宽度差值写入码流。
在本公开其他实施例中,第一获取模块701,配置为:获取各通道中单通道的第一特征数据中的最大值和最小值。
在本公开其他实施例中,编码模块704,配置为:将最大值和最小值写入码流。
在本公开其他实施例中,第一处理模块702,配置为:对各通道对应的第一特征数据进行整型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据;其中,第二特征数据为整型数据。
在本公开其他实施例中,第一处理模块702,配置为:基于如下公式对第一特征数据进行整型转化处理,得到第二特征数据,
其中,x ij是第一特征数据中第i行第j列的特征值,x min是第一特征数据中的最小值,x max是第一特征数据中的最大值, 是第二特征数据中第i行第j列的特征值,n是比特数,int[]是整数化函数。
在本公开其他实施例中,第一处理模块702,配置为:基于如下公式对第一特征数据进行整型转化处理,得到第二特征数据,
其中, 是第二特征数据中第i行第j列的特征值,x ij是第一特征数据中第i行第j列的特征值,int[]是整数化函数,log 2()返回输入以2为底 的对数值,max_num为经过对数变换后的特征数据log 2(1+D)的最大值,BitDepth为定点化比特数。
在本公开其他实施例中,第一获取模块701,配置为:获取图像;提取所述图像的各通道对应的所述第一特征数据。
本公开实施例所提供的特征数据的编码装置,通过确定待编码的各通道对应的第一特征数据;对各通道对应的目标信息第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据;对各通道对应的目标信息第二特征数据进行空域的重表达,得到第三特征数据;其中,目标信息第三特征数据的高度符合第一高度,目标信息第三特征数据的宽度符合第一宽度,目标信息第三特征数据包括位于各通道的目标位置处的目标信息第二特征数据;基于目标信息第三特征数据进行编码,并写入码流;也就是说,通过空域的重表达技术将第二特征数据处理成高度符合第一高度且宽度符合第一宽度的第三特征数据,同时第三特征数据包括位于各通道的目标位置处的第二特征数据,即对第二特征数据进行目标尺寸的填充以及规定了填充的位置,确保一个编码单元中只有一个特征数据,且通过上述填充方式使得数据之间的跳变趋于平缓,从而降低编码时不同通道之间特征数据的相互影响,避免在对特征数据进行编码时同一个编码块中出现两个通道的特征数据,以高效利用现有视频编解码标准,从而提高特征数据的编码效率。
图10为本公开实施例提供的特征数据的解码装置的组成结构示意图,如图10所示,云服务器对应的特征数据的解码装置800包括第二获取模块801、解码模块802、第三处理模块803和第四处理模块804,其中:
第二获取模块801,配置为:获取来自于特征数据的编码装置的码流;
解码模块802,配置为:对码流进行解码得到第三特征数据;
第三处理模块803,配置为:对第三特征数据进行空域的逆表达,得到各通道对应的第二特征数据;其中,第三特征数据的高度符合第一高度,第三特征数据的宽度符合第一宽度,第三特征数据包括位于各通道的目标位置处的第二特征数据;
第四处理模块804,配置为:对各通道对应的第二特征数据进行数据类型转化处理,得到的各通道对应的第一特征数据。
在本公开其他实施例中,解码模块802,配置为:对码流进行解码得到各通道对应的通道数、第三高度、第三宽度、高度差值以及宽度差值;其中,第二特征数据具有第三高度和第三宽度,高度差为填充后的第二特征数据的第二高度与第三高度的差值,宽度差值为填充后的第二特征数据的第二宽度与第三宽度的差值。
在本公开其他实施例中,第三处理模块803,配置为:基于高度差值、宽度差值、通道数、第三高度、第三宽度、第一高度以及第一宽度,对第三特征数据进行空域拆分,得到各通道对应的填充后的第二特征数据;基于第三高度、第三宽度以及各通道的目标位置,对各通道对应的填充后的第二特征数据进行空域裁减,得到各通道对应的第二特征数据。
在本公开其他实施例中,解码模块802,配置为:对码流进行解码得到各通道中单通道的第一特征数据中的最大值和最小值。
在本公开其他实施例中,第四处理模块804,配置为:基于最大值和最小值对第二特征数据进行数据类型转化处理,得到各通道对应的第一特征数据。
在本公开其他实施例中,第四处理模块804,配置为:基于最大值和最小值对第二特征数据进行浮点型转化处理,得到各通道对应的第一特征数据;其中,第一特征数据为浮点型数据。
在本公开其他实施例中,第四处理模块804,配置为:基于如下公式对第二特征数 据进行浮点型转化处理,得到第一特征数据,
其中,x ij是第一特征数据中第i行第j列的特征值,x min是第一特征数据中的最小值,x max是第一特征数据中的最大值, 是第二特征数据中第i行第j列的特征值,n是比特数。
在本公开其他实施例中,第四处理模块804,配置为:基于如下公式对第二特征数据进行浮点型转化处理,得到第一特征数据,
其中,x ij是第一特征数据中第i行第j列的特征值, 是第二特征数据中第i行第j列的特征值,max_num为经过对数变换后的特征数据log 2(1+x ij)的最大值,BitDepth为定点化比特数,float()将输入的整型数据转化为浮点型数据。
本公开实施例所提供的特征数据的解码装置,通过获取来自于特征数据的编码处理装置的码流;对码流进行解码得到第三特征数据;对第三特征数据进行空域的逆表达,得到各通道对应的第二特征数据;其中,第三特征数据的高度符合第一高度,第三特征数据的宽度符合第一宽度,第三特征数据包括位于各通道的目标位置处的第二特征数据;对各通道对应的第二特征数据进行数据类型转化处理,得到的各通道对应的第一特征数据;也就是说,通过空域的逆表达技术将解码得到的第三特征数据处理恢复成各通道对应的第二特征数据,并对各通道对应的第二特征数据进行数据类型转化处理,得到神经网络模型的中间层输出的各通道对应的第一特征数据,从而在降低编码时不同通道之间特征数据的相互影响,避免在对特征数据进行编码时同一个编码块中出现两个通道的特征数据,以高效利用现有视频编解码标准,从而提高特征数据的编码效率的基础上,实现对所编码的数据进行快速准确的解码,得到神经网络模型的中间层输出的各通道对应的原始特征数据。
在实际应用中,如图11所示,本公开实施例还提供了一种特征数据的编码设备900,包括:
第一存储器901,用于存储可执行特征数据的编码指令;
第一处理器902,用于执行第一存储器中存储的可执行特征数据的编码指令时,实现本公开实施例提供的特征数据的编码方法。
其中,第一处理器可以通过软件、硬件、固件或者其组合实现,可以使用电路、单个或多个专用集成电路(application specific integrated circuits,ASIC)、单个或多个通用集成电路、单个或多个微处理器、单个或多个可编程逻辑器件、或者前述电路或器件的组合、或者其他适合的电路或器件,从而使得该处理器可以执行前述设备对应的特征数据的处理装置的实施例中的特征数据的编码方法的相应步骤。
在实际应用中,如图12所示,本公开实施例还提供了一种特征数据的解码设备1000,包括:
第二存储器1001,用于存储可执行特征数据的解码指令;
第二处理器1002,用于执行第一存储器中存储的可执行特征数据的解码指令时,实现本公开实施例提供的特征数据的解码方法。
其中,第二处理器可以通过软件、硬件、固件或者其组合实现,可以使用电路、单个或多个专用集成电路(application specific integrated circuits,ASIC)、单个或多个通用集成电路、单个或多个微处理器、单个或多个可编程逻辑器件、或者前述电路或器件的组合、或者其他适合的电路或器件,从而使得该处理器可以执行前述云服务器对应的特征数据的处理装置的实施例中的特征数据的解码方法的相应步骤。
在本公开实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务器,或者网络设备等)或processor(处理器)执行本实施例方法的全部或部分步骤。而前述的存储介质包括:磁性随机存取存储器(FRAM,ferromagnetic random access memory)、只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory)等各种可以存储程序代码的介质,本公开实施例不作限制。
本公开实施例还提供了一种计算机可读存储介质,存储有可执行特征数据的编码指令,用于引起第一处理器执行时,实现本公开实施例提供的特征数据的编码方法。
本公开实施例还提供了一种计算机可读存储介质,存储有可执行特征数据的解码指令,用于引起第二处理器执行时,实现本公开实施例提供的特征数据的解码理方法。
工业实用性
本公开实施例提供了一种特征数据的编解码方法、装置、设备、及存储介质,通过确定待编码的各通道对应的第一特征数据;对各通道对应的目标信息第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据;对各通道对应的目标信息第二特征数据进行空域的重表达,得到第三特征数据;其中,目标信息第三特征数据的高度符合第一高度,目标信息第三特征数据的宽度符合第一宽度,目标信息第三特征数据包括位于各通道的目标位置处的目标信息第二特征数据;基于目标信息第三特征数据进行编码,并写入码流;也就是说,通过空域的重表达技术将第二特征数据处理成高度符合第一高度且宽度符合第一宽度的第三特征数据,同时第三特征数据包括位于各通道的目标位置处的第二特征数据,即对第二特征数据进行目标尺寸的填充以及规定了填充的位置,确保一个编码单元中只有一个特征数据,且通过上述填充方式使得数据之间的跳变趋于平缓,从而降低编码时不同通道之间特征数据的相互影响,避免在对特征数据进行编码时同一个编码块中出现两个通道的特征数据,以高效利用现有视频编解码标准,从而提高特征数据的编码效率。

Claims (24)

  1. 一种特征数据的编码方法,包括:
    确定待编码的各通道对应的第一特征数据;
    对各通道对应的所述第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据;
    对各通道对应的所述第二特征数据进行空域的重表达,得到第三特征数据;其中,所述第三特征数据的高度符合第一高度,所述第三特征数据的宽度符合第一宽度,所述第三特征数据包括位于各通道的目标位置处的所述第二特征数据;
    基于所述第三特征数据进行编码,并写入码流。
  2. 根据权利要求1所述方法,所述对各通道对应的所述第二特征数据进行空域的重表达,得到第三特征数据,包括:
    在空域上基于第二高度和第二宽度对各通道对应的所述第二特征数据进行填充,得到填充后的第二特征数据;
    在空域上将各通道对应的所述填充后的第二特征数据拼接成一张目标特征图;其中,所述目标特征图具有所述第一高度和所述第一宽度;
    获取所述目标特征图的特征数据,得到所述第三特征数据。
  3. 根据权利要求2所述方法,所述第一高度为第二高度的整数倍,所述第一宽度为第二宽度的整数倍。
  4. 根据权利要求2所述方法,所述在空域上基于第二高度和第二宽度对各通道对应的所述第二特征数据进行填充,得到填充后的第二特征数据,包括:
    在空域上基于所述目标位置、所述第二高度和所述第二宽度对各通道对应的所述第二特征数据进行填充,得到所述填充后的第二特征数据。
  5. 根据权利要求4所述方法,不同通道的所述目标位置相同。
  6. 根据权利要求5所述方法,所述目标位置为各通道中不同通道的所述填充后的第二特征数据的起始位置,或者所述目标位置为各通道中不同通道的所述填充后的第二特征数据的中间位置。
  7. 根据权利要求2所述方法,所述对各通道对应的所述第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据之后,所述方法还包括:
    获取各通道中单通道的所述第二特征数据的第三高度和第三宽度;
    获取所述第二高度与所述第三高度的高度差值;
    获取所述第二宽度与所述第三宽度的宽度差值;
    将各通道对应的通道数、所述第三高度、所述第三宽度、所述高度差值以及所述宽度差值写入所述码流。
  8. 根据权利要求1所述方法,所述对各通道对应的所述第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据之后,所述方法还包括:
    获取各通道中单通道的所述第一特征数据中的最大值和最小值;
    将所述最大值和所述最小值写入所述码流。
  9. 根据权利要求1至7中任一项所述方法,所述对各通道对应的所述第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据,包括:
    对各通道对应的所述第一特征数据进行整型转化处理,得到符合特征数据的编码 装置的数据输入条件的第二特征数据;其中,所述第二特征数据为整型数据。
  10. 根据权利要求9所述方法,对各通道对应的所述第一特征数据进行整型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据,包括:
    基于如下公式对所述第一特征数据进行整型转化处理,得到所述第二特征数据,
    其中,x ij是所述第一特征数据中第i行第j列的特征值,x min是所述第一特征数据中的最小值,x max是所述第一特征数据中的最大值, 是所述第二特征数据中第i行第j列的特征值,n是比特数,int[]是整数化函数。
  11. 根据权利要求9所述方法,对各通道对应的所述第一特征数据进行整型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据,包括:
    基于如下公式对所述第一特征数据进行整型转化处理,得到所述第二特征数据,
    其中, 是所述第二特征数据中第i行第j列的特征值,x ij是所述第一特征数据中第i行第j列的特征值,int[]是整数化函数,log 2()返回输入以2为底的对数值,max_num为经过对数变换后的特征数据log 2(1+D)的最大值,BitDepth为定点化比特数。
  12. 根据权利要求1所述方法,所述确定待编码的各通道对应的第一特征数据,包括:
    获取图像;
    提取所述图像的各通道对应的所述第一特征数据。
  13. 一种特征数据的解码方法,包括:
    获取来自于特征数据的编码装置的码流;
    对所述码流进行解码得到第三特征数据;
    对所述第三特征数据进行空域的逆表达,得到各通道对应的第二特征数据;其中,所述第三特征数据的高度符合第一高度,所述第三特征数据的宽度符合第一宽度,所述第三特征数据包括位于各通道的目标位置处的所述第二特征数据;
    对各通道对应的所述第二特征数据进行数据类型转化处理,得到各通道对应的第一特征数据。
  14. 根据权利要求13所述的方法,所述对所述第三特征数据进行空域的逆表达,得到各通道对应的第二特征数据之前,所述方法还包括:
    对所述码流进行解码得到各通道对应的通道数、第三高度、第三宽度、高度差值以及宽度差值;其中,所述第二特征数据具有所述第三高度和所述第三宽度,所述高度差为填充后的所述第二特征数据的第二高度与所述第三高度的差值,所述宽度差值为填充后的所述第二特征数据的第二宽度与所述第三宽度的差值;
    相应的,所述对所述第三特征数据进行空域的逆表达,得到各通道对应的第二特征数据,包括:
    基于所述高度差值、所述宽度差值、所述通道数、所述第三高度、所述第三宽度、所述第一高度以及所述第一宽度,对所述第三特征数据进行空域拆分,得到各通道对应的填充后的第二特征数据;
    基于所述第三高度、所述第三宽度以及各通道的所述目标位置,对各通道对应的所述填充后的第二特征数据进行空域裁减,得到各通道对应的所述第二特征数据。
  15. 根据权利要求13所述的方法,所述对各通道对应的所述第二特征数据进行数据类型转化处理,得到各通道对应的第一特征数据之前,所述方法还包括:
    对所述码流进行解码得到各通道中单通道的所述第一特征数据中的最大值和最小值;
    相应的,所述对各通道对应的所述第二特征数据进行数据类型转化处理,得到各通道对应的第一特征数据,包括:
    基于所述最大值和所述最小值对所述第二特征数据进行数据类型转化处理,得到各通道对应的所述第一特征数据。
  16. 根据权利要求15所述的方法,所述基于所述最大值和所述最小值对所述第二特征数据进行数据类型转化处理,得到各通道对应的所述第一特征数据,包括:
    基于所述最大值和所述最小值对所述第二特征数据进行浮点型转化处理,得到各通道对应的所述第一特征数据;其中,所述第一特征数据为浮点型数据。
  17. 根据权利要求16所述的方法,基于所述最大值和所述最小值对所述第二特征数据进行浮点型转化处理,得到各通道对应的所述第一特征数据,包括:
    基于如下公式对所述第二特征数据进行浮点型转化处理,得到所述第一特征数据,
    其中,x ij是所述第一特征数据中第i行第j列的特征值,x min是所述第一特征数据中的最小值,x max是所述第一特征数据中的最大值, 是所述第二特征数据中第i行第j列的特征值,n是比特数。
  18. 根据权利要求16所述的方法,基于所述最大值和所述最小值对所述第二特征数据进行浮点型转化处理,得到各通道对应的所述第一特征数据,包括:
    基于如下公式对所述第二特征数据进行浮点型转化处理,得到所述第一特征数据,
    其中,x ij是所述第一特征数据中第i行第j列的特征值, 是所述第二特征数据中第i行第j列的特征值,x max是所述第一特征数据中的最大值,BitDepth为定点化比特数,float()将输入的整型数据转化为浮点型数据。
  19. 一种特征数据的编码装置,包括:
    第一获取模块,配置为:确定待编码的各通道对应的第一特征数据;
    第一处理模块,配置为:对各通道对应的所述第一特征数据进行数据类型转化处理,得到符合特征数据的编码装置的数据输入条件的第二特征数据;
    第二处理模块,配置为:对各通道对应的所述第二特征数据进行空域的重表达,得到第三特征数据;其中,所述第三特征数据的高度符合第一高度,所述第三特征数据的宽度符合第一宽度,所述第三特征数据包括位于各通道的目标位置处的所述第二特征数据;
    编码模块,配置为:基于所述第三特征数据进行编码,并写入码流。
  20. 一种特征数据的解码装置,包括:
    第二获取模块,配置为:获取来自于特征数据的编码装置的码流;
    解码模块,配置为:对所述码流进行解码得到第三特征数据;
    第三处理模块,配置为:对所述第三特征数据进行空域的逆表达,得到各通道对应的第二特征数据;其中,所述第三特征数据的高度符合第一高度,所述第三特征数据的宽度符合第一宽度,所述第三特征数据包括位于各通道的目标位置处的所述第二特征数据;
    第四处理模块,配置为:对各通道对应的所述第二特征数据进行数据类型转化处理,得到的各通道对应的第一特征数据。
  21. 一种特征数据的编码设备,包括:
    第一存储器,用于存储可执行特征数据的编码指令;
    第一处理器,用于执行所述第一存储器中存储的可执行特征数据的编码指令时,实现权利要求1至12中任一项所述的方法。
  22. 一种特征数据的解码设备,包括:
    第二存储器,用于存储可执行特征数据的解码指令;
    第二处理器,用于执行所述第二存储器中存储的可执行特征数据的解码指令时,实现权利要求13至18中任一项所述的方法。
  23. 一种计算机可读存储介质,存储有可执行特征数据的编码指令,用于引起第一处理器执行时,实现权利要求1至12任一项所述的方法。
  24. 一种计算机可读存储介质,存储有可执行特征数据的解码指令,用于引起第二处理器执行时,实现权利要求13至18中任一项所述的方法。
CN202080105790.3A 2020-10-07 2020-10-07 特征数据的编解码方法、装置、设备及存储介质 Pending CN116472708A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/119850 WO2022073159A1 (zh) 2020-10-07 2020-10-07 特征数据的编解码方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116472708A true CN116472708A (zh) 2023-07-21

Family

ID=81125688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080105790.3A Pending CN116472708A (zh) 2020-10-07 2020-10-07 特征数据的编解码方法、装置、设备及存储介质

Country Status (4)

Country Link
US (1) US20230247230A1 (zh)
EP (1) EP4199512A4 (zh)
CN (1) CN116472708A (zh)
WO (1) WO2022073159A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100723408B1 (ko) * 2004-07-22 2007-05-30 삼성전자주식회사 컬러영상의 변환/역변환 및 양자화/역양자화 방법 및장치와, 이를 이용한 컬러영상의 부호화/복호화 방법 및장치
CN102333223A (zh) * 2011-10-25 2012-01-25 北京华兴宏视技术发展有限公司 视频数据编码方法、解码方法、编码系统和解码系统
CN111726633B (zh) * 2020-05-11 2021-03-26 河南大学 基于深度学习和显著性感知的压缩视频流再编码方法
CN111669601B (zh) * 2020-05-21 2022-02-08 天津大学 一种3d视频智能多域联合预测编码方法及装置

Also Published As

Publication number Publication date
WO2022073159A1 (zh) 2022-04-14
EP4199512A4 (en) 2023-09-20
EP4199512A1 (en) 2023-06-21
US20230247230A1 (en) 2023-08-03

Similar Documents

Publication Publication Date Title
CN106134191B (zh) 用于低延迟亮度补偿处理以及基于深度查找表的编码的方法
US10063883B2 (en) Methods and apparatuses for coding and decoding depth map
US20210329270A1 (en) Method and apparatus for point cloud coding
US20240007680A1 (en) Techniques and apparatus for automatic roi chunking for content-aware point cloud compression using hevc tiles
US11711535B2 (en) Video-based point cloud compression model to world signaling information
KR20210134771A (ko) 디지털 비디오의 파라미터 세트 시그널링
JP2022502955A (ja) ビデオエンコードおよびデコード方法、および装置
US20220078423A1 (en) Context adaptive transform set
US20230247200A1 (en) Encoding method, decoding method, encoder, decoder, and storage medium
CN105122796B (zh) 三维或多视图编码及解码系统中照度补偿的方法
CN110022481B (zh) 视频码流的解码、生成方法及装置、存储介质、电子装置
KR20110091849A (ko) 중첩 변환 처리에서의 감소된 dc 이득 부정합 및 dc 누설
US20230370600A1 (en) A method and apparatus for encoding and decoding one or more views of a scene
CN116472708A (zh) 特征数据的编解码方法、装置、设备及存储介质
CN113615201A (zh) 点云压缩的方法和装置
WO2022183346A1 (zh) 特征数据的编码方法、解码方法、设备及存储介质
KR20240090254A (ko) 피쳐 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
US20230412817A1 (en) Encoding method, decoding method, and decoder
CN118044203A (zh) 特征编码/解码方法和装置以及存储比特流的记录介质
US20220303578A1 (en) Image processing apparatus and method
US20240064334A1 (en) Motion field coding in dynamic mesh compression
US20240195947A1 (en) Patch-based depth mapping method and apparatus for high-efficiency encoding/decoding of plenoptic video
US20220092827A1 (en) Method, apparatus, system and computer-readable recording medium for feature information
KR102615404B1 (ko) 피쳐 정보에 대한 방법, 장치, 시스템 및 컴퓨터 판독 가능한 기록 매체
KR20240110006A (ko) 부호화 구조의 채널간 참조에 기반한 피쳐 부호화/복호화 방법, 장치, 비트스트림을 저장한 기록 매체 및 비트스트림 전송 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination