CN117280689A - 图像解码方法、图像编码方法、图像解码装置以及图像编码装置 - Google Patents

图像解码方法、图像编码方法、图像解码装置以及图像编码装置 Download PDF

Info

Publication number
CN117280689A
CN117280689A CN202280029296.2A CN202280029296A CN117280689A CN 117280689 A CN117280689 A CN 117280689A CN 202280029296 A CN202280029296 A CN 202280029296A CN 117280689 A CN117280689 A CN 117280689A
Authority
CN
China
Prior art keywords
feature
image
feature map
image decoding
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280029296.2A
Other languages
English (en)
Inventor
张汉文
林宗顺
王楚童
安倍清史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority claimed from PCT/JP2022/018475 external-priority patent/WO2022225025A1/ja
Publication of CN117280689A publication Critical patent/CN117280689A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开涉及图像解码方法、图像编码方法、图像解码装置以及图像编码装置。图像解码装置从图像编码装置接收包含与图像有关的多个特征映射的编码数据的比特流,基于接收到的所述比特流来将所述多个特征映射解码,从解码出的所述多个特征映射选择第1特征映射,向基于所述第1特征映射执行第1任务处理的第1任务处理装置输出所述第1特征映射,从解码出的所述多个特征映射选择第2特征映射,向基于所述第2特征映射执行第2任务处理的第2任务处理装置输出所述第2特征映射。

Description

图像解码方法、图像编码方法、图像解码装置以及图像编码 装置
技术领域
本公开涉及图像解码方法、图像编码方法、图像解码装置以及图像编码装置。
背景技术
神经网络是经由模仿人脑的处理方法的过程来试图识别数据集中的成为基础的关系的一系列算法。在该意义下,神经网络本质上是指有机的或人工的神经元的系统。深度学习中的神经网络的不同类型例如卷积神经网络(CNN)、循环神经网络(RNN)、人工神经网络(ANN)使我们与世界相互作用的方法发生变化。这些不同类型的神经网络成为深度学习革命、无人航空器、自主行驶车、声音识别等动力应用的核心。由层叠的多个层构成的CNN是在视觉图像的解析中最一般被应用的深度神经网络的类。
特征图像是表示图像或其中所含的目标的特征的特有的表现。例如,在神经网络的卷积层中,作为将所期望的滤波器应用于图像整体的输出而得到特征图像。在多个卷积层中应用多个滤波器来得到多个特征图像,通过将这些多个特征图像排列,能创建特征映射。
特征映射通常与执行神经网络任务等任务处理的任务处理装置建立关联。该设置通常能得到用于特定的机器分析任务的最佳的推论结果。
在将在编码器侧创建的特征映射在解码器侧利用的情况下,编码器通过将所创建的特征映射编码,将包含特征映射的编码数据的比特流向解码器发送。解码器基于接收到的比特流来将特征映射解码。解码器将解码出的特征映射输入到执行神经网络任务等给定的任务处理的任务处理装置。
在背景技术中,在解码器侧,在多个任务处理装置使用多个特征映射执行多个神经网络任务的情况下,需要与多个任务处理装置各自对应地安装多组编码器与解码器的组,系统结构复杂化。
另外,背景技术所涉及的图像编码系统架构例如在专利文献1、2公开。
现有技术文献
专利文献
专利文献1:美国专利第2010/0046635号说明书
专利文献2:美国专利第2021/0027470号说明书
发明内容
本公开的目的在于,简化系统结构。
本公开的一方式所涉及的图像解码方法中,图像解码装置执行以下处理:从图像编码装置接收包含与图像有关的多个特征映射的编码数据的比特流,基于接收到的所述比特流来将所述多个特征映射解码,从解码出的所述多个特征映射选择第1特征映射,向基于所述第1特征映射执行第1任务处理的第1任务处理装置输出所述第1特征映射,从解码出的所述多个特征映射选择第2特征映射,向基于所述第2特征映射执行第2任务处理的第2任务处理装置输出所述第2特征映射。
附图说明
图1是表示本公开的第1实施方式所涉及的图像解码方法的处理过程的流程图。
图2是表示本公开的第1实施方式所涉及的图像编码方法的处理过程的流程图。
图3是表示背景技术所涉及的图像处理系统的结构例的图。
图4是表示本公开的第1实施方式所涉及的图像处理系统的结构例的图。
图5是表示编码装置以及解码装置的第1结构例的图。
图6是表示编码装置以及解码装置的第2结构例的图。
图7是表示本公开的第1实施方式所涉及的视频解码器的结构的框图。
图8是表示本公开的第1实施方式所涉及的视频编码器的结构的框图。
图9是表示特征映射的创建处理的第1例的图。
图10是表示特征映射的创建处理的第1例的图。
图11是表示选择部的动作的第1例的图。
图12是表示选择部的动作的第2例的图。
图13是表示特征映射的创建处理的第2例的图。
图14是表示特征映射的创建处理的第2例的图。
图15是表示神经网络任务的一例的图。
图16是表示神经网络任务的一例的图。
图17是表示利用帧间预测以及帧内预测双方的示例的图。
图18是表示本公开的第2实施方式所涉及的图像解码方法的处理过程的流程图。
图19是表示本公开的第2实施方式所涉及的图像编码方法的处理过程的流程图。
图20是表示本公开的第2实施方式所涉及的图像处理系统的结构例的图。
图21是表示本公开的第2实施方式所涉及的解码装置的结构的框图。
图22是表示本公开的第2实施方式所涉及的编码装置的结构的框图。
图23是表示特征映射的其他示例的图。
图24是表示特征图像的尺寸与编码块尺寸的关系的图。
图25是表示特征图像的尺寸与编码块尺寸的关系的图。
图26是表示扫描顺序的第1例的图。
图27是表示扫描顺序的第2例的图。
图28是表示向多个片段的分割的示例的图。
图29是表示向多个片段的分割的示例的图。
图30是表示向多个片段的分割的示例的图。
图31是表示将1个特征图像分割成多个编码块来编码的情况的扫描顺序的图。
图32是表示将1个特征图像分割成多个编码块来编码的情况的扫描顺序的图。
具体实施方式
(成为本公开的基础的见解)
图3是表示背景技术所涉及的图像处理系统1100的结构例的图。图像处理系统1100在解码器侧具备执行神经网络任务等给定的任务处理的多个任务处理部1103A~1103N。例如,任务处理部1103A执行脸的界标(Landmark)的检测处理,任务处理部1103B执行脸的朝向的检测处理。此外,图像处理系统1100与多个任务处理部1103A~1103N各自对应地具备编码装置1101A~1101N与解码装置1102A~1102N的组。
例如,编码装置1101A基于所输入的图像或特征来创建特征映射A,通过将所创建的特征映射A编码,将包含特征映射A的编码数据的比特流向解码装置1102A发送。解码装置1102A基于接收到的比特流来将特征映射A解码,将解码出的特征映射A输入到任务处理部1103A。任务处理部1103A通过使用所输入的特征映射A执行给定的任务处理来输出其推定结果。
图3所示的背景技术的课题在于,需要与多个任务处理部1103A~1103N各自对应地安装多组编码装置1101A~1101N与解码装置1102A~1102N的组,系统结构复杂化。
为了解决上述课题,本发明的发明者导入如下新的方法:图像编码装置将多个特征映射包含在相同的比特流中向图像解码装置发送,图像解码装置从解码出的多个特征映射选择所期望的特征映射并分别输入到多个任务处理装置。由此,不需要与多个任务处理装置各自对应地安装多组图像编码装置与图像解码装置的组,图像编码装置与图像解码装置的组有1组就足够,能简化系统结构。
接下来说明本公开的各方式。
本公开的一方式所涉及的图像解码方法中,图像解码装置执行以下处理:从图像编码装置接收包含与图像有关的多个特征映射的编码数据的比特流,基于接收到的所述比特流来将所述多个特征映射解码,从解码出的所述多个特征映射选择第1特征映射,向基于所述第1特征映射执行第1任务处理的第1任务处理装置输出所述第1特征映射,从解码出的所述多个特征映射选择第2特征映射,向基于所述第2特征映射执行第2任务处理的第2任务处理装置输出所述第2特征映射。
根据本方式,图像解码装置从解码出的多个特征映射选择第1特征映射并向第1任务处理装置输出,从解码出的多个特征映射选择第2特征映射并向第2任务处理装置输出。由此,由于不需要与多个任务处理装置各自对应地安装多组图像编码装置与图像解码装置的组,因此,能简化系统结构。
在上述方式中,所述图像解码装置基于所述多个特征映射各自的索引信息来选择所述第1特征映射以及所述第2特征映射。
根据本方式,通过使用索引信息,能适当地执行特征映射的选择。
在上述方式中,所述图像解码装置基于所述多个特征映射各自的尺寸信息来选择所述第1特征映射以及所述第2特征映射。
根据本方式,通过使用尺寸信息,能简易地执行特征映射的选择。
在上述方式中,所述图像解码装置通过利用了所述第1特征映射的帧间预测来将所述第2特征映射解码。
根据本方式,通过在特征映射的解码中使用帧间预测,能削减编码量。
在上述方式中,所述图像解码装置通过帧内预测来将所述第1特征映射以及所述第2特征映射解码。
根据本方式,通过在特征映射的解码中使用帧内预测,能将多个特征映射分别独立地解码。
在上述方式中,所述多个特征映射各自包含与所述图像有关的多个特征图像。
根据本方式,任务处理装置由于能使用各特征映射中所含的多个特征图像来执行任务处理,因此,能提升任务处理的精度。
在上述方式中,所述图像解码装置将所述多个特征图像解码,通过将解码出的所述多个特征图像以给定的扫描顺序排列来构建所述多个特征映射的每一个特征映射。
根据本方式,通过将多个特征图像以给定的扫描顺序排列,能适当地构建特征映射。
在上述方式中,所述多个特征映射各自包含多个片段,所述多个片段各自包含所述多个特征图像,所述图像解码装置通过将解码出的所述多个特征图像以给定的扫描顺序排列来构建所述多个片段的每一个片段,通过将所述多个片段以给定的顺序排列来构建所述多个特征映射的每一个特征映射。
根据本方式,能进行以片段为单位将数据流切分的处理,或者,能以片段为单位来控制解码处理,能实现灵活的系统结构。
在上述方式中,所述图像解码装置基于解码出的所述多个特征图像各自的尺寸来切换所述给定的扫描顺序的升序或降序。
根据本方式,通过基于各特征图像的尺寸切换扫描顺序的升序或降序,能适当地构建特征映射。
在上述方式中,所述比特流包含设定所述给定的扫描顺序的升序或降序的顺序信息,所述图像解码装置基于所述顺序信息来切换所述给定的扫描顺序的升序或降序。
根据本方式,通过基于顺序信息切换扫描顺序的升序或降序,能适当地构建特征映射。
在上述方式中,所述多个特征图像包含尺寸不同的多种特征图像,所述图像解码装置以与所述多种特征图像的多个尺寸之中最小的尺寸对应的固定的解码块尺寸将所述多个特征图像解码。
根据本方式,通过以固定的解码块尺寸将多个特征图像解码,能简化图像解码装置的装置结构。
在上述方式中,所述多个特征图像包含尺寸不同的多种特征图像,所述图像解码装置以与所述多种特征图像的多个尺寸对应的多个解码块尺寸将所述多个特征图像解码。
根据本方式,通过以与各特征图像的尺寸对应的解码块尺寸将各特征图像解码,能削减每个解码块中需要的报头,此外,由于变得能以大面积进行编码,因此,能提升压缩效率。
在上述方式中,所述给定的扫描顺序是光栅扫描顺序。
根据本方式,通过使用光栅扫描顺序,能进行利用GPU等的高速的处理。
在上述方式中,所述给定的扫描顺序是Z扫描顺序。
根据本方式,通过使用Z扫描顺序,能应对一般的视频编解码器。
在上述方式中,所述比特流包含所述图像的编码数据,所述图像解码装置基于接收到的所述比特流来将所述图像解码,使用公共的解码处理部来执行所述多个特征映射的解码和所述图像的解码。
根据本方式,通过使用公共的解码处理部执行特征映射的解码和图像的解码,能简化图像解码装置的装置结构。
在上述方式中,所述第1任务处理以及所述第2任务处理包含目标检测、目标分割、目标跟踪、动作识别、姿势推定、姿势跟踪、以及混合视觉中的至少一者。
根据本方式,能提升这些各处理的精度。
本公开的一方式所涉及的图像编码方法中,图像编码装置将与图像有关的第1特征映射编码,将与所述图像有关的第2特征映射编码,生成包含所述第1特征映射以及所述第2特征映射的编码数据的比特流,将所生成的所述比特流向图像解码装置发送。
根据本方式,图像编码装置将包含第1特征映射以及第2特征映射的编码数据的比特流向图像解码装置发送。由此,由于不需要与安装于图像解码装置侧的多个任务处理装置各自对应地安装多组图像编码装置与图像解码装置的组,因此,能简化系统结构。
本公开的一方式所涉及的图像解码装置中,从图像编码装置接收包含与图像有关的多个特征映射的编码数据的比特流,基于接收到的所述比特流来将所述多个特征映射解码,从解码出的所述多个特征映射选择第1特征映射,向基于所述第1特征映射执行第1任务处理的第1任务处理装置输出所述第1特征映射,从解码出的所述多个特征映射选择第2特征映射,向基于所述第2特征映射执行第2任务处理的第2任务处理装置输出所述第2特征映射。
根据本方式,图像解码装置从解码出的多个特征映射选择第1特征映射并向第1任务处理装置输出,从解码出的多个特征映射选择第2特征映射并向第2任务处理装置输出。由此,由于不需要与多个任务处理装置各自对应地安装多组图像编码装置与图像解码装置的组,因此,能简化系统结构。
本公开的一方式所涉及的图像编码装置将与图像有关的第1特征映射编码,将与所述图像有关的第2特征映射编码,生成包含所述第1特征映射以及所述第2特征映射的编码数据的比特流,将所生成的所述比特流向图像解码装置发送。
根据本方式,图像编码装置将包含第1特征映射以及第2特征映射的编码数据的比特流向图像解码装置发送。由此,由于不需要与安装于图像解码装置侧的多个任务处理装置各自对应地安装多组图像编码装置与图像解码装置的组,因此,能简化系统结构。
(本公开的实施方式)
以下,使用附图来详细说明本公开的实施方式。另外,不同的附图中标注相同的附图标记的要素表示相同或相应的要素。
另外,以下说明的实施方式均表示本公开的一具体例。以下的实施方式所示的数值、形状、构成要素、步骤、步骤的顺序等是一例,并不是限定本公开的主旨。此外,关于以下的实施方式中的构成要素之中未记载于表示最上位概念的独立技术方案的构成要素,说明为任意的构成要素。此外,在全部实施方式中,还能将各个内容组合。
(第1实施方式)
图4是表示本公开的第1实施方式所涉及的图像处理系统1200的结构例的图。图像处理系统1200具备:作为图像编码装置的编码装置1201;作为图像解码装置的解码装置1202;和作为任务处理装置的多个任务处理部1203A~1203N。
编码装置1201基于所输入的图像或特征来创建多个特征映射A~N。编码装置1201通过将所创建的特征映射A~N编码来生成包含特征映射A~N的编码数据的比特流。编码装置1201将所生成的比特流向解码装置1202发送。解码装置1202基于接收到的比特流来将特征映射A~N解码。解码装置1202从解码出的特征映射A~N选择特征映射A作为第1特征映射,并且作为第1任务处理装置而向任务处理部1203A输入所选择的特征映射A。此外,解码装置1202从解码出的特征映射A~N选择特征映射B作为第2特征映射,并且作为第2任务处理装置而向任务处理部1203B输入所选择的特征映射B。任务处理部1203A基于所输入的特征映射A来执行神经网络任务等第1任务处理,输出其推定结果。任务处理部1203B基于所输入的特征映射B来执行神经网络任务等第2任务处理,输出其推定结果。
图5是表示编码装置1201以及解码装置1202的第1结构例的图。编码装置1201具备图像编码部1305、特征提取部1302、特征变换部1303、特征编码部1304以及发送部1306。解码装置1202具备接收部1309、图像解码部1308以及特征解码部1307。
对图像编码部1305以及特征提取部1302从摄像机1301输入图像的数据。图像编码部1305将输入图像编码,将其编码数据输入到发送部1306。另外,图像编码部1305可以直接使用一般的视频编解码器或静止图像编解码器。特征提取部1302从输入图像提取表示该图像的特征的多个特征图像,将所提取的多个特征图像输入到特征变换部1303。特征变换部1303通过排列多个特征图像来生成特征映射。特征变换部1303针对一个输入图像而生成多个特征映射,将所生成的多个特征映射输入到特征编码部1304。特征编码部1304将所输入的多个特征映射编码,将其编码数据输入到发送部1306。发送部1306生成包含输入图像的编码数据和多个特征映射的编码数据的比特流,将所生成的比特流向解码装置1202发送。
接收部1309接收从编码装置1201发送的比特流,将接收到的比特流输入到图像解码部1308以及特征解码部1307。图像解码部1308基于所输入的比特流来将图像解码。特征解码部1307基于所输入的比特流来将多个特征映射解码。
另外,在图5所示的示例中,设为对图像以及特征映射双方进行编码以及解码的结构,但在不需要用于人的视觉的图像显示的情况下,也可以设为仅对特征映射进行编码以及解码的结构。在该情况下,也可以设为省略图像编码部1305以及图像解码部1308的结构。
图6是表示编码装置1201以及解码装置1202的第2结构例的图。关于编码装置1201,从图5所示的结构省略特征编码部1304。此外,关于解码装置1202,从图5所示的结构省略特征解码部1307。
特征变换部1303针对一个输入图像而生成多个特征映射,将所生成的多个特征映射输入到图像编码部1305。图像编码部1305将输入图像以及多个特征映射编码,将输入图像以及多个特征映射的编码数据输入到发送部1306。发送部1306生成包含输入图像以及多个特征映射的编码数据的比特流,将所生成的比特流向解码装置1202发送。
接收部1309接收从编码装置1201发送的比特流,将接收到的比特流输入到图像解码部1308。图像解码部1308基于所输入的比特流来将图像以及多个特征映射解码。即,在图6所示的结构中,解码装置1202使用作为公共的解码处理部的图像解码部1308来执行图像的解码和多个特征映射的解码。
图8是表示本公开的第1实施方式所涉及的视频编码器的结构的框图。此外,图2是表示本公开的第1实施方式所涉及的图像编码方法的处理过程2000的流程图。
如图8所示那样,视频编码器具备编码装置1201、解码部2402、选择部2403和多个任务处理部2404A~2404N。选择部2403可以安装于解码部2402内。视频编码器构成为基于所输入的图像或特征来创建多个特征映射A~N,通过将所创建的多个特征映射A~N编码来生成比特流,将所生成的比特流向解码装置1202发送。进而,视频编码器可以构成为基于所生成的比特流来将多个特征映射A~N解码,将解码出的多个特征映射A~N输入到任务处理部2404A~2404N,通过任务处理部2404A~2404N执行神经网络任务来输出推定结果。
在图2的步骤S2001,对编码装置1201输入图像或特征。编码装置1201基于所输入的图像或特征来创建多个特征映射A~N。编码装置1201通过将所创建的特征映射A~N以块为单位进行编码来生成包含特征映射A~N的编码数据的比特流。编码装置1201将所生成的比特流向解码装置1202发送。
更具体地,编码装置1201将与输入图像有关的多个特征映射编码。各特征映射示出与图像有关的特有的属性,各特征映射例如被算术编码。算术编码例如是上下文自适应二进制算术编码(CABAC)。
图9以及图10是表示特征映射的创建处理的第1例的图。特征映射使用具有多个卷积层、多个池化层以及全连接层的卷积神经网络来创建。特征映射包含与输入图像有关的多个特征图像F1~F108。各特征图像的解析度以及特征图像的数量可以按神经网络的每个阶层而不同。例如,上位的卷积层X以及池化层X中的特征图像F1~F12的水平尺寸X1以及垂直尺寸X2比下位的卷积层Y以及池化层Y中的特征图像F13~F36的水平尺寸Y1以及垂直尺寸Y2大。此外,水平尺寸Y1以及垂直尺寸Y2比全连接层中的特征图像F37~F108的水平尺寸Z1以及垂直尺寸Z2大。
例如,多个特征图像F1~F108按照神经网络的阶层的顺序来排列。即,排列成神经网络的阶层的升序(尺寸从大到小的顺序)或降序(尺寸从小到大的顺序)。
图13以及图14是表示特征映射的创建处理的第2例的图,示出从输入图像提取特征的滤波处理的示例。所提取的特征表示与输入图像有关的能测定且特征性的属性。如图13以及图14所示那样,通过对输入图像应用所期望的滤波器尺寸的点滤波器、垂直线条滤波器或水平线条滤波器,能生成提取了点分量的特征图像、提取了垂直线条分量的特征图像或提取了水平线条分量的特征图像。通过将所生成的多个特征图像排列,能基于滤波处理来生成特征映射。
参考图8,对解码部2402输入包含多个特征映射A~N的编码数据的比特流。解码部2402从所输入的比特流根据需要将图像解码,将用于人的视觉的图像信号向显示装置输出。此外,解码部2402从所输入的比特流将多个特征映射A~N解码,将解码出的特征映射A~N输入到选择部2403。相同的时间实例的多个特征映射A~N能独立进行解码。独立解码的一例是使用帧内预测。此外,相同的时间实例的多个特征映射A~N能相关地进行解码。相关解码的一例是使用帧间预测,能通过利用了第1特征映射的帧间预测来将第2特征映射解码。选择部2403从解码出的多个特征映射A~N中选择所期望的特征映射,将所选择的特征映射输入到各任务处理部2404A~2404N。
图17是表示利用帧间预测以及帧内预测双方的示例的图。基于输入图像I01来生成多个特征映射FM01a~FM01f,基于输入图像I02来生成多个特征映射FM02a~FM02f,基于输入图像I03来生成多个特征映射FM03a~FM03f。图17中的带网纹的阴影的特征映射或特征图像通过帧内预测被编码,不带网纹的阴影的特征映射或特征图像通过帧间预测被编码。帧间预测可以利用与相同时间(相同的时间实例)的输入图像对应的其他特征映射或特征图像,也可以利用与不同的时间(不同时间实例)的输入图像对应的其他特征映射或特征图像。
图11是表示选择部2403的动作的第1例的图。选择部2403基于附加于各特征映射A~N的索引信息IA~IN来进行特征映射A~N的选择。索引信息IA~IN可以是ID、类别、式、或区分多个特征映射A~N各自的任意的固有的表现。选择部2403保持表示索引信息IA~IN与任务处理部2404A~2404N的对应关系的表格信息,基于附加于构成各特征映射A~N的比特流的报头等的索引信息IA~IN、和该表格信息,选择应输入到各任务处理部2404A~2404N的特征映射A~N。另外,该表格信息可以也在比特流的报头等中记述。
图12是表示选择部2403的动作的第2例的图。选择部2403基于各特征映射A~N的解析度或特征图像数等尺寸信息SA~SN来进行特征映射A~N的选择。解析度是112×112、56×56或14×14等特征映射的像素数。特征图像数是各特征映射中所含的多个特征图像的数量。能输入到各任务处理部2404A~2404N的特征映射的尺寸相互不同,选择部2403保持其设定信息。选择部2403基于附加于构成各特征映射A~N的比特流的报头等的尺寸信息SA~SN、和该设定信息,选择应输入到各任务处理部2404A~2404N的特征映射A~N。另外,该设定信息可以也在比特流的报头等中记述。
另外,选择部2403可以基于索引信息IA~IN以及尺寸信息SA~SN的组合来进行特征映射A~N的选择。
在图2的步骤S2002,任务处理部2404A基于所输入的特征映射A来执行至少伴随推定的神经网络任务等第1任务处理。神经网络任务的一例是目标检测、目标分割、目标跟踪、动作识别、姿势推定、姿势跟踪、机器与人的混合视觉、或这些的任意的组合。
图15是作为神经网络任务的一例而示出目标检测以及目标分割的图。在目标检测中,检测输入图像中所含的目标的属性(在该示例中是电视机以及人物)。也可以除了输入图像中所含的目标的属性以外,还检测输入图像中的目标的位置、个数。由此,例如,也可以将识别对象的目标的位置缩小范围,或者将识别对象以外的目标排除。作为具体的用途,例如考虑摄像机中的脸的检测、自动驾驶中的步行者等的检测。在目标分割中,将与目标对应的区域的像素片段化(即划分)。由此,例如,考虑如下等用途,即,在自动驾驶中将障碍物和道路分离,进行汽车的安全的行驶的辅助,或者检测工厂中的产品的缺陷,进行卫星图像中的地形的识别。
图16是作为神经网络任务的一例而示出目标跟踪、动作识别以及姿势推定的图。在目标跟踪中,对输入图像中所含的目标的移动进行追踪。作为用途,例如考虑店铺等设施的利用者数的计数、运动选手的活动的分析这样的用途。若进一步将处理高速化,则变得能实时进行目标的追踪,还能应用到自动聚焦等摄像机处理。在动作识别中,检测目标的动作的类别(该示例中是“正在骑自行车”、“正在步行”)。例如,通过利用在监控摄像机中,能应用于抢劫、盗窃等犯罪行为的防止以及检测、工厂中的作业遗忘防止这样的用途中。在姿势推定中,通过关键点以及关节的检测来检测目标的姿势。例如,考虑工厂中的作业效率的改善等产业领域、异常行为的探测这样的安全领域、健康以及运动这样的领域中的活用。
任务处理部2404A输出表示神经网络任务的执行结果的信号。该信号可以包含检测到的目标的数量、检测到的目标的可靠等级、检测到的目标的边界信息或位置信息、以及检测到的目标的分类类别中的至少一者。
在图2的步骤S2003,任务处理部2404B基于所输入的特征映射B来执行至少伴随推定的神经网络任务等第2任务处理。与第1任务处理同样,神经网络任务的一例是目标检测、目标分割、目标跟踪、动作识别、姿势推定、姿势跟踪、机器与人的混合视觉、或这些的任意的组合。任务处理部2404B输出表示神经网络任务的执行结果的信号。
另外,在图8所示的结构中,通过具备解码部2402、选择部2403和多个任务处理部2404A~2404N,能凭借神经网络任务的执行来输出推定结果,但在视频解码器中不需要执行神经网络任务的情况下,也可以设为省略解码部2402、选择部2403和多个任务处理部2404A~2404N的结构。同样地,在图2所示的处理过程2000,在不需要执行神经网络任务的情况下,可以设为省略步骤S2002和步骤S2003的结构。
图7是表示本公开的第1实施方式所涉及的视频解码器的结构的框图。此外,图1是表示本公开的第1实施方式所涉及的图像解码方法的处理过程1000的流程图。
如图7所示那样,视频解码器具备解码装置1202、选择部1400和多个任务处理部1203A~1203N。选择部1400可以安装于解码装置1202内。视频解码器构成为基于接收到的比特流将多个特征映射A~N解码,将解码出的多个特征映射A~N输入到任务处理部1203A~1203N,通过任务处理部1203A~1203N执行神经网络任务来输出推定结果。
对解码装置1202输入包含多个特征映射A~N的编码数据的比特流。解码装置1202从所输入的比特流根据需要将图像解码,将用于人的视觉的图像信号向显示装置输出。此外,解码装置1202从所输入的比特流将多个特征映射A~N解码,将解码出的特征映射A~N输入到选择部1400。相同的时间实例的多个特征映射A~N能独立进行解码。独立解码的一例是使用帧内预测。此外,相同的时间实例的多个特征映射A~N能相关地进行解码。相关解码的一例是使用帧间预测,能通过利用了第1特征映射的帧间预测来将第2特征映射解码。选择部1400从解码出的多个特征映射A~N中选择所期望的特征映射,将所选择的特征映射输入到各任务处理部1203A~1203N。
图17是表示利用帧间预测以及帧内预测双方的示例的图。基于输入图像I01来生成多个特征映射FM01a~FM01f,基于输入图像I02来生成多个特征映射FM02a~FM02f,基于输入图像I03来生成多个特征映射FM03a~FM03f。图17中的带网纹的阴影的特征映射或特征图像通过帧内预测被编码,不带网纹的阴影的特征映射或特征图像通过帧间预测被编码。帧间预测可以利用与相同时间(相同的时间实例)的输入图像对应的其他特征映射或特征图像,也可以利用与不同的时间(不同的时间实例)的输入图像对应的其他特征映射或特征图像。
图11是表示选择部1400的动作的第1例的图。选择部1400基于附加于各特征映射A~N的索引信息IA~IN来进行特征映射A~N的选择。索引信息IA~IN可以是ID、类别、式、或区分多个特征映射A~N各自的任意的固有的表现。选择部1400保持表示索引信息IA~IN与任务处理部1203A~1203N的对应关系的表格信息,基于附加于构成各特征映射A~N的比特流的报头等的索引信息IA~IN、和该表格信息,选择应输入到各任务处理部1203A~1203N的特征映射A~N。另外,该表格信息可以也在比特流的报头等中记述。
图12是表示选择部1400的动作的第2例的图。选择部1400基于各特征映射A~N的解析度或特征图像数等尺寸信息SA~SN来进行特征映射A~N的选择。解析度是112×112、56×56或14×14等特征映射的像素数。特征图像数是各特征映射中所含的多个特征图像的数量。能输入到各任务处理部1203A~1203N的特征映射的尺寸相互不同,选择部1400保持其设定信息。选择部1400基于附加于构成各特征映射A~N的比特流的报头等的尺寸信息SA~SN、和该设定信息,选择应输入到各任务处理部1203A~1203N的特征映射A~N。另外,该设定信息可以也在比特流的报头等中记述。
另外,选择部1400可以基于索引信息IA~IN以及尺寸信息SA~SN的组合来进行特征映射A~N的选择。
在图1的步骤S1002,任务处理部1203A基于所输入的特征映射A来执行至少伴随推定的神经网络任务等第1任务处理。神经网络任务的一例是目标检测、目标分割、目标跟踪、动作识别、姿势推定、姿势跟踪、机器与人的混合视觉、或这些的任意的组合。神经网络任务的一例与图15以及图16同样。
任务处理部1203A输出表示神经网络任务的执行结果的信号。该信号可以包含检测到的目标的数量、检测到的目标的可靠等级、检测到的目标的边界信息或位置信息、以及检测到的目标的分类类别中的至少一者。
在图1的步骤S1003,任务处理部1203B基于所输入的特征映射B来执行至少伴随推定的神经网络任务等第2任务处理。与第1任务处理同样,神经网络任务的一例是目标检测、目标分割、目标跟踪、动作识别、姿势推定、姿势跟踪、机器与人的混合视觉、或这些的任意的组合。任务处理部1203B输出表示神经网络任务的执行结果的信号。
根据本实施方式,编码装置1201将包含第1特征映射A以及第2特征映射B的编码数据的比特流向解码装置1202发送。此外,解码装置1202从解码出的多个特征映射A~N选择第1特征映射A并向第1任务处理部1203A输出,从解码出的多个特征映射A~N选择第2特征映射B并向第2任务处理部1203B输出。由此,由于不需要与多个任务处理部1203A~1203N各自对应地安装多组编码装置与解码装置的组,因此,能简化系统结构。
(第2实施方式)
一般,由于视频编解码器在存储器容量上有限制,因此,图像的编码多以Z扫描顺序进行。但在使用具备大容量的存储器的GPU来构建系统的情况下,不是Z扫描顺序,而是使用光栅扫描顺序将输入的图像或特征连续载入到GPU的存储器的话,更能进行高速的处理。为此,在本实施方式中,说明在将多个特征图像以给定的扫描顺序排列来构建特征映射的处理中能切换一般的Z扫描顺序和高速的光栅扫描顺序的系统。本实施方式能应用于具备至少1个任务处理部的图像处理系统。
图20是表示本公开的第2实施方式所涉及的图像处理系统2100的结构例的图。图像处理系统2100具备:作为图像编码装置的编码装置2101;作为图像解码装置的解码装置2102;和作为任务处理装置的任务处理部2103。与上述第1实施方式同样地,也可以具备多个任务处理部2103。
编码装置2101基于所输入的图像或特征来创建特征映射。编码装置2101通过将所创建的特征映射编码来生成包含特征映射的编码数据的比特流。编码装置2101将所生成的比特流向解码装置2102发送。解码装置2102基于接收到的比特流来将特征映射解码。解码装置2102将解码出的特征映射输入到任务处理部2103。任务处理部2103基于所输入的特征映射来执行神经网络任务等给定的任务处理,输出其推定结果。
图22是表示本公开的第2实施方式所涉及的编码装置2101的结构的框图。此外,图19是表示本公开的第2实施方式所涉及的图像编码方法的处理过程4000的流程图。
如图22所示那样,编码装置2101具备扫描顺序设定部3201、扫描部3202以及熵编码部3203。此外,编码装置2101也可以具备重构建部3204以及任务处理部3205。
对扫描顺序设定部3201输入特征映射。如图10所示那样,特征映射通过将多个特征图像F1~F108以给定的扫描顺序排列来构建。
图23是表示特征映射的其他示例的图。特征映射包含与输入图像有关的多个特征图像F1~F36。各特征图像的解析度以及特征图像的数量可以关于神经网络的全阶层而相同。特征图像F1~F36均具有相同的水平尺寸X1以及垂直尺寸X2。
在图19的步骤S4001,扫描顺序设定部3201在编码装置2101与解码装置2102之间,遵循预先确定的规则来设定用于将特征映射分割成多个特征图像的扫描顺序。另外,扫描顺序设定部3201可以任意设定用于将特征映射分割成多个特征图像的扫描顺序,将表示该扫描顺序的设定信息附加于比特流的报头并发送到解码装置2102。在该情况下,解码装置2102通过将解码的多个特征图像按该设定信息所示的扫描顺序排列,能构建特征映射。
图26是表示扫描顺序的第1例的图。扫描顺序设定部3201将光栅扫描顺序设定为扫描顺序。
图27是表示扫描顺序的第2例的图。扫描顺序设定部3201将Z扫描顺序设定为扫描顺序。
扫描部3202按由扫描顺序设定部3201设定的扫描顺序将特征映射分割成多个片段,将各片段分割成多个特征图像。
图28~图30是表示向多个片段的分割的示例的图。在图28所示的示例中,特征映射被分割成3个片段SG1~SG3。在图29所示的示例中特征映射被分割成7个片段SG1~SG7。在图30所示的示例中,特征映射被分割成6个片段SG1~SG6。特征图像的扫描按每个片段进行,属于相同片段的多个特征图像在比特流内始终连续进行编码。另外,各片段例如能设为被称作片段的能独立进行编码以及解码的单位。
另外,在图22所示的示例中,扫描顺序设定部3201和扫描部3202构成为不同的处理块,但也可以设为汇总为单一的处理块而进行处理的结构。
扫描部3202将分割的多个特征图像依次输入到熵编码部3203。熵编码部3203通过将各特征图像以编码块尺寸进行编码以及算术编码来生成比特流。算术编码例如是上下文自适应二进制算术编码(CABAC)。编码装置2101将熵编码部3203所生成的比特流向解码装置2102发送。
图24以及图25是表示特征图像的尺寸与编码块尺寸的关系的图。特征映射通过尺寸不同的多种特征图像来构建。
如图24所示那样,熵编码部3203以与多种特征图像的多个尺寸(以下称作“特征图像尺寸”)之中最小的特征图像尺寸对应的固定的编码块尺寸来将多个特征图像编码。或者,如图25所示那样,熵编码部3203也可以是以与该多个特征图像尺寸对应的多个编码块尺寸来将多个特征图像编码。
图31以及图32是表示将1个特征图像分割成多个编码块进行编码的情况的扫描顺序的图。熵编码部3203可以如图31所示那样,按照以特征图像为单位的光栅扫描顺序进行编码,也可以如图32所示那样,按照跨多个特征图像而以编码块的行为单位的光栅扫描顺序进行编码。
进而,编码装置2101也可以构成为对分割后的特征映射进行重构建,将重构建的特征映射输入到任务处理部3205,通过任务处理部3205执行神经网络任务来输出推定结果。
在图19的步骤S4002,对重构建部3204从扫描部3202输入分割成多个片段的多个特征图像。重构建部3204通过将所输入的多个特征图像以给定的扫描顺序排列来重构建多个片段的每一个片段,通过将多个片段以给定的顺序排列来重构建特征映射。另外,重构建部3204可以设为如下结构:为了重构建与解码装置2102所生成的特征映射相同的特征映射,将熵编码部3203的输出作为输入,执行与解码装置2102所执行的处理同样的处理。
例如,多个特征图像遵循神经网络的阶层的顺序来排列。即,排列成神经网络的阶层的升序(尺寸从大到小的顺序)或降序(尺寸从小到大的顺序)。
扫描顺序设定部3201基于所输入的多个特征图像各自的尺寸来设定扫描顺序的升序或降序,重构建部3204对应于由扫描顺序设定部3201设定的扫描顺序来切换升序或降序。例如,重构建部3204在多个特征图像按尺寸从大到小的顺序输入的情况下切换成升序,在多个特征图像按尺寸从小到大的顺序输入的情况下切换成降序。或者,也可以将设定给定的扫描顺序的升序或降序的顺序信息附加于比特流的报头等,重构建部3204基于该顺序信息来切换扫描顺序的升序或降序。重构建部3204将通过将多个特征图像以给定的扫描顺序排列而重构建的特征映射输入到任务处理部3205。
在图19的步骤S4003,任务处理部3205基于所输入的特征映射来执行至少伴随推定的神经网络任务等给定的任务处理。神经网络任务的一例是目标检测、目标分割、目标跟踪、动作识别、姿势推定、姿势跟踪、机器与人的混合视觉、或这些的任意的组合。
任务处理部3205输出表示神经网络任务的执行结果的信号。该信号可以包含检测到的目标的数量、检测到的目标的可靠等级、检测到的目标的边界信息或位置信息、以及检测到的目标的分类类别中的至少一者。
另外,在图22所示的结构中,通过具备重构建部3204和任务处理部3205,能凭借神经网络任务的执行来输出推定结果,但在视频编码器中不需要执行神经网络任务的情况下,也可以设为省略重构建部3204和任务处理部3205的结构。同样地,在图19所示的处理过程4000,在不需要执行神经网络任务的情况下,也可以设为省略步骤S4002和步骤S4003的结构。
图21是表示本公开的第2实施方式所涉及的解码装置2102的结构的框图。此外,图18是表示本公开的第2实施方式所涉及的图像解码方法的处理过程3000的流程图。
如图21所示那样,解码装置2102具备熵解码部2201、扫描顺序设定部2202以及扫描部2203。
在图18的步骤S3001,熵解码部2201从由编码装置2101接收到的比特流将多个特征图像以解码块为单位进行解码。
图24以及图25是表示特征图像的尺寸与解码块尺寸的关系的图。特征映射通过尺寸不同的多种特征图像来构建。
如图24所示那样,熵解码部2201以与多种特征图像的多个特征图像尺寸之中最小的特征图像尺寸对应的固定的解码块尺寸将多个特征图像解码。或者,也可以如图25所示那样,熵解码部2201以与该多个特征图像尺寸对应的多个解码块尺寸将多个特征图像解码。
图31以及图32是表示将1个特征图像分割成多个编码块进行编码的情况的扫描顺序的图。熵解码部2201可以如图31所示那样,按照以特征图像为单位的光栅扫描顺序进行解码,也可以如图32所示那样,按照跨多个特征图像而以编码块的行为单位的光栅扫描顺序进行解码。
对扫描顺序设定部2202从熵解码部2201输入多个解码块或多个特征图像。
在图18的步骤S3002,扫描顺序设定部2202在编码装置2101与解码装置2102之间,遵循预先确定的规则来设定用于从多个特征图像构建特征映射的扫描顺序。另外,在表示任意的扫描顺序的上述的设定信息附加于比特流的报头的情况下,解码装置2102通过将解码出的多个特征图像按该设定信息所示的扫描顺序排列,能构建特征映射。
图26是表示扫描顺序的第1例的图。扫描顺序设定部2202将光栅扫描顺序设定为扫描顺序。
图27是表示扫描顺序的第2例的图。扫描顺序设定部2202将Z扫描顺序设定为扫描顺序。
对扫描部2203输入分割成多个片段的多个特征图像。扫描部2203通过以由扫描顺序设定部2202设定的扫描顺序排列多个特征图像来构建特征映射。
例如,多个特征图像遵循神经网络的阶层的顺序来排列。即,排列成神经网络的阶层的升序(尺寸从大到小的顺序)或降序(尺寸从小到大的顺序)。
扫描顺序设定部2202基于所输入的多个特征图像各自的尺寸来设定扫描顺序的升序或降序,扫描部2203对应于由扫描顺序设定部2202设定的扫描顺序来切换升序或降序。例如,扫描部2203在多个特征图像按尺寸从大到小的顺序输入的情况下切换成升序,在多个特征图像按尺寸从小到大的顺序输入的情况下切换成降序。或者,也可以从比特流的报头等将设定给定的扫描顺序的升序或降序的顺序信息解码,扫描部2203基于该顺序信息来切换扫描顺序的升序或降序。扫描部2203将通过将多个特征图像以给定的扫描顺序排列而构建的特征映射输入到任务处理部2103。
另外,在图21所示的示例中,扫描顺序设定部2202和扫描部2203构成为不同的处理块,但也可以设为汇总为单一的处理块而进行处理的结构。
在图18的步骤S3003,任务处理部2103基于所输入的特征映射来执行至少伴随推定的神经网络任务等给定的任务处理。神经网络任务的一例是目标检测、目标分割、目标跟踪、动作识别、姿势推定、姿势跟踪、机器与人的混合视觉、或这些的任意的组合。
任务处理部2103输出表示神经网络任务的执行结果的信号。该信号可以包含检测到的目标的数量、检测到的目标的可靠等级、检测到的目标的边界信息或位置信息、以及检测到的目标的分类类别中的至少一者。
根据本实施方式,能通过将多个特征图像以给定的扫描顺序排列来适当地构建特征映射。
产业上的可利用性
本公开对具备发送图像的编码器和接收图像的解码器的图像处理系统的应用特别有用。

Claims (19)

1.一种图像解码方法,图像解码装置执行以下处理:
从图像编码装置接收包含与图像有关的多个特征映射的编码数据的比特流,
基于接收到的所述比特流来将所述多个特征映射解码,
从解码出的所述多个特征映射选择第1特征映射,向基于所述第1特征映射执行第1任务处理的第1任务处理装置输出所述第1特征映射,
从解码出的所述多个特征映射选择第2特征映射,向基于所述第2特征映射执行第2任务处理的第2任务处理装置输出所述第2特征映射。
2.根据权利要求1所述的图像解码方法,其中,
所述图像解码装置基于所述多个特征映射各自的索引信息来选择所述第1特征映射以及所述第2特征映射。
3.根据权利要求1所述的图像解码方法,其中,
所述图像解码装置基于所述多个特征映射各自的尺寸信息来选择所述第1特征映射以及所述第2特征映射。
4.根据权利要求1所述的图像解码方法,其中,
所述图像解码装置通过利用了所述第1特征映射的帧间预测来将所述第2特征映射解码。
5.根据权利要求1所述的图像解码方法,其中,
所述图像解码装置通过帧内预测来将所述第1特征映射以及所述第2特征映射解码。
6.根据权利要求1所述的图像解码方法,其中,
所述多个特征映射各自包含与所述图像有关的多个特征图像。
7.根据权利要求6所述的图像解码方法,其中,
所述图像解码装置执行以下处理:
将所述多个特征图像解码,
通过将解码出的所述多个特征图像以给定的扫描顺序排列来构建所述多个特征映射的每一个特征映射。
8.根据权利要求7所述的图像解码方法,其中,
所述多个特征映射各自包含多个片段,
所述多个片段各自包含所述多个特征图像,
所述图像解码装置执行以下处理:
通过将解码出的所述多个特征图像以给定的扫描顺序排列来构建所述多个片段的每一个片段,
通过将所述多个片段以给定的顺序排列来构建所述多个特征映射的每一个特征映射。
9.根据权利要求7所述的图像解码方法,其中,
所述图像解码装置基于解码出的所述多个特征图像各自的尺寸来切换所述给定的扫描顺序的升序或降序。
10.根据权利要求7所述的图像解码方法,其中,
所述比特流包含设定所述给定的扫描顺序的升序或降序的顺序信息,
所述图像解码装置基于所述顺序信息来切换所述给定的扫描顺序的升序或降序。
11.根据权利要求7所述的图像解码方法,其中,
所述多个特征图像包含尺寸不同的多种特征图像,
所述图像解码装置以与所述多种特征图像的多个尺寸之中最小的尺寸对应的固定的解码块尺寸将所述多个特征图像解码。
12.根据权利要求7所述的图像解码方法,其中,
所述多个特征图像包含尺寸不同的多种特征图像,
所述图像解码装置以与所述多种特征图像的多个尺寸对应的多个解码块尺寸将所述多个特征图像解码。
13.根据权利要求7所述的图像解码方法,其中,
所述给定的扫描顺序是光栅扫描顺序。
14.根据权利要求7所述的图像解码方法,其中,
所述给定的扫描顺序是Z扫描顺序。
15.根据权利要求1所述的图像解码方法,其中,
所述比特流包含所述图像的编码数据,
所述图像解码装置执行以下处理:
基于接收到的所述比特流来将所述图像解码,
使用公共的解码处理部来执行所述多个特征映射的解码和所述图像的解码。
16.根据权利要求1~15的任一项所述的图像解码方法,其中,
所述第1任务处理以及所述第2任务处理包含目标检测、目标分割、目标跟踪、动作识别、姿势推定、姿势跟踪、以及混合视觉中的至少一者。
17.一种图像编码方法,图像编码装置执行以下处理:
将与图像有关的第1特征映射编码,
将与所述图像有关的第2特征映射编码,
生成包含所述第1特征映射以及所述第2特征映射的编码数据的比特流,
将所生成的所述比特流向图像解码装置发送。
18.一种图像解码装置,执行以下处理:
从图像编码装置接收包含与图像有关的多个特征映射的编码数据的比特流,
基于接收到的所述比特流来将所述多个特征映射解码,
从解码出的所述多个特征映射选择第1特征映射,向基于所述第1特征映射执行第1任务处理的第1任务处理装置输出所述第1特征映射,
从解码出的所述多个特征映射选择第2特征映射,向基于所述第2特征映射执行第2任务处理的第2任务处理装置输出所述第2特征映射。
19.一种图像编码装置,执行以下处理:
将与图像有关的第1特征映射编码,
将与所述图像有关的第2特征映射编码,
生成包含所述第1特征映射以及所述第2特征映射的编码数据的比特流,
将所生成的所述比特流向图像解码装置发送。
CN202280029296.2A 2021-04-23 2022-04-21 图像解码方法、图像编码方法、图像解码装置以及图像编码装置 Pending CN117280689A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163178751P 2021-04-23 2021-04-23
US63/178,788 2021-04-23
US63/178,751 2021-04-23
PCT/JP2022/018475 WO2022225025A1 (ja) 2021-04-23 2022-04-21 画像復号方法、画像符号化方法、画像復号装置、及び画像符号化装置

Publications (1)

Publication Number Publication Date
CN117280689A true CN117280689A (zh) 2023-12-22

Family

ID=89218287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280029296.2A Pending CN117280689A (zh) 2021-04-23 2022-04-21 图像解码方法、图像编码方法、图像解码装置以及图像编码装置

Country Status (1)

Country Link
CN (1) CN117280689A (zh)

Similar Documents

Publication Publication Date Title
US20240037797A1 (en) Image decoding method, image coding method, image decoder, and image encoder
CN101426141A (zh) 图像编码装置和编码方法,图像译码装置和译码方法
CN1130847A (zh) 用于编码包含在视频信号中的区域的轮廓的装置
Li et al. Contextual hourglass network for semantic segmentation of high resolution aerial imagery
WO2005117448A1 (ja) 移動物体検出装置および移動物体検出方法
CN112587129B (zh) 一种人体动作识别方法及装置
CN112801063B (zh) 神经网络系统和基于神经网络系统的图像人群计数方法
CN111914731A (zh) 一种基于自注意力机制的多模态lstm的视频动作预测方法
CN1656515A (zh) 估计当前运动矢量的单元和方法
Chen et al. Self-supervised remote sensing images change detection at pixel-level
Huang et al. Hierarchical graph embedded pose regularity learning via spatio-temporal transformer for abnormal behavior detection
CN107005702A (zh) 用于处理数字图像的块的系统和方法
WO2023203509A1 (en) Image data compression method and device using segmentation and classification
CN115049739A (zh) 一种基于边缘检测的双目视觉立体匹配方法
Osman et al. Early pedestrian intent prediction via features estimation
CN117280689A (zh) 图像解码方法、图像编码方法、图像解码装置以及图像编码装置
Salazar-Gomez et al. Transfusegrid: Transformer-based lidar-rgb fusion for semantic grid prediction
Lu et al. Efficient object detection for high resolution images
EP3561726A1 (en) A device and a method for processing data sequences using a convolutional neural network
Van Opdenbosch et al. A joint compression scheme for local binary feature descriptors and their corresponding bag-of-words representation
CN114120076A (zh) 基于步态运动估计的跨视角视频步态识别方法
CN115631343A (zh) 基于全脉冲网络的图像生成方法、装置、设备及存储介质
KR20190048597A (ko) 딥 러닝을 이용한 이종 센서 정보 융합 장치 및 방법
CN114581396A (zh) 三维医学图像的识别方法、装置、设备、存储介质及产品
Hou Deep Learning-Based Low Complexity and High Efficiency Moving Object Detection Methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination