CN113240796A - 视觉任务处理方法及装置、计算机可读介质和电子设备 - Google Patents

视觉任务处理方法及装置、计算机可读介质和电子设备 Download PDF

Info

Publication number
CN113240796A
CN113240796A CN202110528183.4A CN202110528183A CN113240796A CN 113240796 A CN113240796 A CN 113240796A CN 202110528183 A CN202110528183 A CN 202110528183A CN 113240796 A CN113240796 A CN 113240796A
Authority
CN
China
Prior art keywords
task
target
link
network
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110528183.4A
Other languages
English (en)
Other versions
CN113240796B (zh
Inventor
周宇豪
李姬俊男
张旭东
郭彦东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202110528183.4A priority Critical patent/CN113240796B/zh
Publication of CN113240796A publication Critical patent/CN113240796A/zh
Application granted granted Critical
Publication of CN113240796B publication Critical patent/CN113240796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供一种视觉任务处理方法、视觉任务处理装置、计算机可读介质和电子设备,涉及计算机视觉技术领域。该方法包括:根据待处理视觉任务的任务目标在预设目标中确定关联目标;基于任务目标和关联目标构建跨任务学习链路,并对跨任务学习链路进行训练得到训练后的跨任务学习链路;提取训练后的跨任务学习链路中与待处理视觉任务对应的目标链路,并基于目标链路对待处理视觉任务进行处理。本公开通过在预设目标中确定关联目标,并基于待处理视觉任务的任务目标和关联目标构建跨任务学习链路,可以通过多种能够相互转换的视觉任务之间的联系提升对目标任务进行处理的精确度。

Description

视觉任务处理方法及装置、计算机可读介质和电子设备
技术领域
本公开涉及计算机视觉技术领域,具体涉及一种视觉任务处理方法、视觉任务处理装置、计算机可读介质和电子设备。
背景技术
计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图像或视频进行处理以获得相应场景的三维信息,就像人类和许多其他类生物每天所做的那样。例如,室内视觉定位及导航技术一般采用基于图像采集设备,如手机、RGB相机等采集环境图像,配合图像算法和数学推理来对用户位置进行定位和更新。在相关技术中,为了对采集到的图像或视频进行处理,通常会采用机器学习、神经网络等人工智能的算法或模型。
发明内容
本公开的目的在于提供一种视觉任务处理方法、视觉任务处理装置、计算机可读介质和电子设备,进而至少在一定程度上提高对待处理视觉任务进行处理后,处理结果的精确度。
根据本公开的第一方面,提供一种视觉任务处理方法,包括:根据待处理视觉任务的任务目标在预设目标中确定关联目标;基于任务目标和关联目标构建跨任务学习链路,并对跨任务学习链路进行训练得到训练后的跨任务学习链路;提取训练后的跨任务学习链路中与待处理视觉任务对应的目标链路,并基于目标链路对待处理视觉任务进行处理。
根据本公开的第二方面,提供一种视觉任务处理装置,包括:目标确定模块,用于根据待处理视觉任务的任务目标在预设目标中确定关联目标;链路训练模块,用于基于任务目标和关联目标构建跨任务学习链路,并对跨任务学习链路进行训练得到训练后的跨任务学习链路;任务处理模块,用于提取训练后的跨任务学习链路中与待处理视觉任务对应的目标链路,并基于目标链路对待处理视觉任务进行处理。
根据本公开的第三方面,提供一种计算机可读介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述的方法。
根据本公开的第四方面,提供一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的方法。
本公开的一种实施例所提供的视觉任务处理方法,根据待处理视觉任务的任务目标在预设目标中确定关联目标,进而基于待处理视觉任务的任务目标和关联目标构建跨任务学习链路,并对跨任务学习链路进行训练得到训练后的跨任务学习链路,进而通过训练后的跨任务学习链路中的目标链路实现对待处理任务的处理。通过在预设目标中确定关联目标,并基于待处理视觉任务的任务目标和关联目标构建跨任务学习链路,可以通过多种能够相互转换的视觉任务之间的联系提升对目标任务进行处理的精确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本公开实施例的一种示例性系统架构的示意图;
图2示出了可以应用本公开实施例的一种电子设备的示意图;
图3示意性示出本公开示例性实施例中一种视觉任务处理方法的流程图;
图4示意性示出本公开示例性实施例中一种跨任务学习链路;
图5示意性示出了多任务学习、迁移学习、跨任务一致性学习的原理示意图;
图6示意性示出本公开示例性实施例中一种建立的第一网络的示意图;
图7示意性示出本公开示例性实施例中一种训练第二网络的原理示意图;
图8示出本公开示例性实施例中的一个RGB图像对应的真值图像和预测图像;
图9示出本公开示例性实施例中的一个RGB图像对应的真值图像和测试结果;
图10示出本公开示例性实施例中的目标链路的预测结果与相关技术的预测结果;
图11示意性示出本公开示例性实施例中视觉任务处理装置的组成示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本公开实施例的一种视觉任务处理方法及装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是各种具有图像处理功能的电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本公开实施例所提供的视觉任务处理方法一般由服务器105执行,相应的,视觉任务处理装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的视觉任务处理方法也可以由终端设备101、102、103执行,相应地,视觉任务处理装置也可以设置于终端设备101、102、103中。本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,可以是服务器105根据待处理视觉任务的任务目标在预设目标中确定关联目标,基于任务目标和关联目标构建跨任务学习链路,并对跨任务学习链路进行训练得到训练后的跨任务学习链路,然后将从训练后的跨任务学习链路中提取的与待处理视觉任务对应的目标链路,然后通过网络104将目标链路发送至终端设备101、102、103中,以使终端设备101、102、103等可以基于目标链路对待处理视觉任务进行处理。
本公开的示例性实施方式提供一种用于实现视觉任务处理方法的电子设备,其可以是图1中的终端设备101、102、103或服务器105。该电子设备至少包括处理器和存储器,存储器用于存储处理器的可执行指令,处理器配置为经由执行可执行指令来执行视觉任务处理方法。
下面以图2中的移动终端200为例,对电子设备的构造进行示例性说明。本领域技术人员应当理解,除了特别用于移动目的的部件之外,图2中的构造也能够应用于固定类型的设备。在另一些实施方式中,移动终端200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。各部件间的接口连接关系只是示意性示出,并不构成对移动终端200的结构限定。在另一些实施方式中,移动终端200也可以采用与图2不同的接口连接方式,或多种接口连接方式的组合。
如图2所示,移动终端200具体可以包括:处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus,USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(subscriber identification module,SIM)卡接口295等。其中传感器模块280可以包括深度传感器2801、压力传感器2802、陀螺仪传感器2803等。
处理器210可以包括一个或多个处理单元,例如:处理器210可以包括应用处理器(Application Processor,AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit,GPU)、图像信号处理器(Image Signal Processor,ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor,DSP)、基带处理器和/或神经网络处理器(Neural-Network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
NPU为神经网络(Neural-Network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现移动终端200的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。在一些实施例汇总,可以基于NPU进行跨任务学习链路的构建、训练过程;同时,也可以通过NPU在训练后的跨任务学习链路中提取与待处理视觉任务对应的目标链路。
处理器210中设置有存储器。存储器可以存储用于实现六个模块化功能的指令:检测指令、连接指令、信息管理指令、分析指令、数据传输指令和通知指令,并由处理器210来控制执行。
移动终端200通过GPU、显示屏290及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏290和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器210可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
移动终端200可以通过ISP、摄像模组291、视频编解码器、GPU、显示屏290及应用处理器等实现拍摄功能。其中,ISP用于处理摄像模组291反馈的数据;摄像模组291用于捕获静态图像或视频;数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号;视频编解码器用于对数字视频压缩或解压缩,移动终端200还可以支持一种或多种视频编解码器。
在一些实施例中,可以通过GPU、ISP、摄像模组291、视频编解码器等进行视觉任务的任务输入、任务输出等的采集、预处理等过程。
移动终端200可以通过音频模块270、扬声器271、受话器272、麦克风273、耳机接口274及应用处理器等实现音频功能。例如音乐播放、录音等。
深度传感器2801用于获取景物的深度信息。在一些实施例中,深度传感器可以设置于摄像模组291。
陀螺仪传感器2802可以用于确定移动终端200的运动姿态。在一些实施方式中,可以通过陀螺仪传感器2802确定移动终端200围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器2802可以用于拍摄防抖、导航、体感游戏场景等。
压力传感器2803用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器2803可以设置于显示屏290。压力传感器2803的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。
此外,还可以根据实际需要在传感器模块280中设置其他功能的传感器,例如气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器、骨传导传感器等。
计算机视觉的主要任务是通过对采集的图片或视频进行处理以获得相应场景的三维信息。
以室内视觉定位技术为例,在相关技术中,室内视觉导航系统的定位精度和效率主要依赖于采集的图像的平面特征,例如SIFT、ORB点特征或者LSD线特征等。这些特征信息通过提取RGB图像上的显著区域作为关键点或面,计算帧与帧之间的特征匹配来构建位姿关系,从而实现定位和导航。但是,当室内环境出现白墙、玻璃等弱纹理区域时,平面特征容易提取困难,从而不足以构建帧间位姿关系导致定位丢失。因此,为了辅助RGB图像的定位和解决弱纹理的难例情况,现有室内定位系统通常都会获取图像相同时刻的深度信息或法向量信息来提高室内导航的精度和鲁棒性。当前,图像法向量信息的提取方式分为两种:一种是通过深度传感器如RGBD深度相机或激光传感器来获得。但是,额外使用上述传感器会导致整体导航系统繁重,且成本极高。另一种提取方式则是基于计算机视觉和深度学习技术,使用深度神经网络从RGB图像的彩色信息中直接提取出图像的法向量信息。使用基于深度学习的法向量提取方法可以避免其他传感器的使用,但是其法向量预测精度将直接影响室内视觉导航系统的定位精度和鲁棒性。
目前,图像法向量的提取方法分为传统基于概率统计的法向量估计方法和基于深度学习和神经网络的图像法向量预测方法。其中,基于深度学习和神经网络的图像法向量预测方法也有很多种,其一般范式是通过UNet、GAN等神经网络来从RGB图像中生成曲面法向量图。
例如,公开号为CN111539922A的专利申请提出了一种基于多任务的单目深度估计与表面法向量估计方法,该方法基于特征交互问题和任务相似性,联合使用TRLNet和PAPNet来同时提取RGB图像的表面法向量信息和深度信息。然而,虽然法向量图和深度图预测是两种相似的视觉任务,可以通过同一个神经网络来获取该两种任务输出,但是相较于单一任务,使用多任务输出网络会使得每个任务的输出精度降低,从而影响基于图像法向量辅助的视觉导航精度。另外,该专利技术需对神经网络进行多次模块设计和调参,人工干预较重。
再如,公开号为CN111709450A的专利申请提出了一种基于多尺度特征融合的点云法向量估计方法及系统,通过将将RGB图像上的2D点投影至3D空间,然后基于3D点云和对应的神经网络进行法向量估计。然而,这种方法是针对3D点云的曲面法向量进行估计,无法直接对RGB图像进行预测任务。同时,将RGB图像的2D点转成3D点云需要已知图像的内外参信息,法向量预测流程计算消耗较大,无法满足导航系统的实时性要求。
综上,现有图像法向量预测和提取方案大多是集中于不同属性的法向量提取和多视觉任务的神经网络设计上。
除此之外,其他大量视觉任务的处理过程均存在类似的情况。例如,在计算机视觉中对图像的深度进行预测的过程等。然而,这种集中于不同属性的任务处理方法,以及设计多视觉任务的神经网络进行任务处理的方法,其任务处理的精度仍然有很大的提升空间。
基于上述一个或多个问题,本示例实施方式提供了一种视觉任务处理方法。该视觉任务处理方法可以应用于上述服务器105,也可以应用于上述终端设备101、102、103中的一个或多个,本示例性实施例中对此不做特殊限定。参考图3所示,该视觉任务处理方法可以包括以下步骤S310至S330:
在步骤S310中,根据待处理视觉任务的任务目标在预设目标中确定关联目标。
其中,视觉任务是指通过对采集的图像或视频进行处理以获得相应场景的三维信息,因此待处理视觉任务的任务输入通常为采集到的RGB图像。在一些实施例中,由于不同相机采集到的图像或视屏还可能是其他格式的,因此待处理视觉任务的任务输入也可以包括其他格式的图像。
在一示例性实施例中,为了可以提升待处理视觉任务的处理精度,提出一种跨任务一致性的任务处理模型。其中,跨任务一致性是指通过多种可以与待处理视觉任务的任务目标相互转换的关联目标,来提升待处理视觉任务的处理精度的过程。
在一示例性实施例中,可以在预设目标中确定一个或者多个与待处理视觉任务的任务目标相互转换的关联目标。具体的,可以先以待处理视觉任务的任务输入为输入以预设目标为输出建立第一网络,并对第一网络进行训练,得到训练后的第一网络。随后,针对每个训练后的第一网络,以第一网络的预设目标为输入,以待处理视觉任务的任务目标为输出建立第二网络,并对第二网络进行迁移学习训练得到训练后的第二网络。之后,可以基于第一网络和第一网络对应的第二网络在预设目标中确定关联目标。
其中,某一第一网络对应的第二网络是指,以该第一网络的预设目标为输入,以任务目标为输出建立并进行迁移训练后得到的训练后的第二网络。
在一示例性实施例中,在基于第一网络和第一网络对应的第二网络在预设目标中确定关联目标时,可以先通过第一网络对测试图像进行处理得到处理后的图像,再通过第一网络对应的第二网络对第一网络处理后的图像进行进一步处理得到预测图像。在得到预测图像之后,基于预测图像确定预设目标中的关联目标。其中,预测图像是指测试图像先经过第一网络处理,并通过第二网络对第一网络处理后的图像进行处理得到的图像。
在一示例性实施例中,在基于预测图像在预设目标中确定关联目标时,如果预测图像与任务目标对应的真值图像的相似度满足预设条件,则可以确定预测图像对应的第一网络的预设目标为关联目标。反之,如果预测图像与任务目标对应的真值图像的相似度不满足预设条件,则可以认为预设目标与任务目标关联程度较低,因此不能作为关联目标用于提升待处理任务的处理精度。其中,测试图像和真值图像为预先设定的,用于确定关联程度的样本图像。例如,在任务目标为法向量图像时,真值图像即为预先设定的,测试图像对应的真实的法向量图像。
在步骤S320中,基于任务目标和关联目标构建跨任务学习链路,并对跨任务学习链路进行训练得到训练后的跨任务学习链路。
在一示例性实施例中,在得到关联目标后,可以基于任务目标、关联目标共同构建跨任务学习链路。具体的,可以以待处理视觉任务的任务输入为输入,以待处理视觉任务的任务目标为输出建立第一链路,然后在第一链路之后连接第二链路。其中,第二链路可以包括至少一个链路分支,且每个链路分支分别为以待处理视觉任务的任务目标为输入,并以一个关联目标为输出。
举例而言,假设待处理视觉任务的任务输入为x,任务目标为y1,且共确定了3个关联目标,y2、y3、y4。在这种情况下,可以构建如图4所示的跨任务学习链路。如图4所示,构建的跨任务学习链路共包括4条链路,其中,第一链路为以任务输入x为输入,任务目标y1为输出的第一链路,即链路
Figure BDA0003066890670000091
第二链路则共有3个分支,第一分支以任务目标y1为输入,关联目标y2为输出,即链路
Figure BDA0003066890670000101
第二分支以任务目标y1为输入,关联目标y3为输出,即链路
Figure BDA0003066890670000102
第三分支以任务目标y1为输入,关联目标y4为输出,即链路
Figure BDA0003066890670000103
其中,第一链路和第二链路的每个分支,都可以采用UNet作为Encoder-Decoder网络。每个UNet网络的Encoder模块均使用相同的ResNet50结构。需要说明的是,针对不同的输入和输出,Encoder模块的输入通道数和Decoder模块的输出通道数可以进行不同的设置。例如在x为RGB图像,y1为法向量图像,y2为深度图像时,以x为输入,y1为输出的第一链路,第一链路的输入通道为3,输出通道也为3(RGB图和法向量图的通道数都为3),而以y1为输入,以y2为输出的第二链路的一个分支,其输入通道和输出通道则分别为3和1(深度图仅有一个通道数)。
在一示例性实施例中,在构建好跨任务学习链路后,可以以第二链路的迁移像素误差为损失函数,对跨任务学习链路进行训练,以得到训练后的跨任务学习链路。其中,迁移像素误差可以通过以下公式(1)表示:
Figure BDA0003066890670000104
其中,yi表示各个关联目标,
Figure BDA0003066890670000105
表示第一链路的任务目标的预测值,γ1为任务目标的真值。
Figure BDA0003066890670000106
表示第二链路各个分支基于任务目标进行关联目标预测的预测误差的加总。
在步骤S330中,提取训练后的跨任务学习链路中与待处理视觉任务对应的目标链路,并基于目标链路对待处理视觉任务进行处理。
在一示例性实施例中,在得到训练后的跨任务学习链路后,可以在跨任务学习链路中提取与待处理视觉任务对应的目标链路,以对待处理视觉任务进行处理。
在一示例性实施例中,在得到训练后的跨任务学习链路后,可以提取其中以待处理视觉任务的任务输入为输入,以任务目标为输出的链路,作为目标链路。例如,在如图4所示的跨任务学习链路中,若待处理视觉任务的任务输入为x,任务输出为y1,则可以提取第一链路作为目标链路。
此外,由于待处理视觉任务通常为输入和输出相同的一类任务,因此在针对某一待处理视觉任务进行处理后,可以将训练好的跨任务学习链路中的目标链路保存起来。若再次接收到输入和输出与该待处理视觉任务相同的视觉任务时,可以直接获取与待处理视觉任务对应的目标链路,并直接通过该目标链路对待处理视觉任务进行处理。通过存储目标链路,可以避免针对同类待处理视觉任务进行多次训练,节约计算资源。
以下以待处理视觉任务的任务输入为RGB图像,任务目标为法向量图像为例,对本公开实施例的技术方案进行详细阐述。
跨任务一致性是指多种视觉任务之间具有相似视觉属性。基于这一概念,可以通过相似的视觉任务提升待处理视觉任务的处理精度。具体的,参照图5a所示,多任务学习是指通过一个神经网络同时获得多个输出。例如,如申请号为CN111539922A的专利申请中,可以通过联合使用TRLNet和PAPNet来同时提取RGB图像的表面法向量信息和深度信息;参照图5b所示,迁移学习是指通过神经网络构建两个已知视觉任务之间的联系,若y2本身可以根据y1求导来获得,二者具有很强的关联性,则可以由x生成y1,再将y1转换成y2;参照图5c所示,跨任务一致性则将不同视觉任务之间的关联进行量化,并利用量化后的关联来最优化学习策略,进而待处理视觉任务的性能和精度。例如,RGB图像可以转换为深度图像、边缘阴影图像和法向量图像,若三者之间存在可以相互转换的关联关系,则可以通过使得边缘阴影图像和深度图像同时转换为法向量图像来辅助神经网络训练以增强呈现效果。
在上述概念的基础上,为了基于跨任务一致性构建跨任务学习链路,可以先在预设目标中确定关联目标,即确定与法向量图像存在关联关系的关联目标。假设预设目标包括深度图像、三维曲率图像、边缘阴影图像。如图6所示,以RGB图像为输入,以预设目标为输出,使用相似的Encoder-Decoder网络,例如UNet网络,分别构建每个预设目标对应的第一网络。
在一示例性实施例中,在使用UNet网络时,UNet网络的Encoder结构可以使用相同的ResNet50结构。此外,由于网络的输入和输出维度不同,所以Decoder的结构对不同任务各不相同,例如,由RGB图像生成深度图的UNet的输出通道为1,而由RGB图生成三维曲率图的UNet网络输出通道数为3。
在构建第一网络后,可以使用监督学习的方式对每个第一网络单独进行训练,得到训练后的第一网络。之后,基于每个第一网络的输出,即预设目标,以预设目标为输入,以任务目标为输出,建立第一网络对应的第二网络,然后进行迁移学习训练得到每个预设目标对应的第二网络。
以预设目标为深度图像为例,参照图7所示,对第二网络的训练过程进行说明。参照图7所示,冻结以RGB图像为输入、以深度图像为输出的第一网络的权重,同时建立以深度图像为输入,以法向量图像为输出的第二网络,然后通过迁移学习训练第二网络得到训练后的第二网络。
在得到预设目标对应的训练后的第一网络和第二网络后,可以基于相似度确定预设目标是否可以作为关联目标。具体的,可以将作为测试图像的RGB图像输入第一网络进行处理,然后通过第二网络对第一网络处理后的图像进行进一步处理得到预测图像,最后将预测图像与该RGB图像对应的真值图像进行对比,以确定相似度。在相似度满足达到预设条件时,确定该相似度对应的预设目标为关联目标。
例如,如图8所示,以三维曲率图像为预设目标时,生成的法向量图像对应的预测图像1,以边缘阴影图像为预设目标时,生成的法向量图像对应的预测图像2,和以深度图像为预设目标时,生成的法向量图像对应的预测图像3,与法向量图像对应的真值图像相似,因此可以说明深度图像、三维曲率图像和边缘阴影图像与法向量图具有关联性,即深度图像、三维曲率图像和边缘阴影图像均可以作为关联目标。
随后,可以基于深度图像、三维曲率图像和边缘阴影图像这三个关联目标构建跨任务学习链路。具体的,可以构建如图4所示的跨任务学习链路。其中,输入RGB图像为x,法向量图像为目标任务y1,深度图像、三维曲率图像和边缘阴影图像分别为关联目标y2、y3和y4。构建得到的跨任务学习链路包括第一链路和包括三个分支的第二链路。
其中,第一链路为由RGB图像x生成法向量图y1的链路,即链路
Figure BDA0003066890670000121
第二链路包括三个分支,分别为:由法向量图y1生成深度图y2的链路,即链路
Figure BDA0003066890670000122
由法向量图y1生成三维曲率图像y3的链路,即链路
Figure BDA0003066890670000123
由法向量图y1生成边缘阴影图像y4的链路,即链路
Figure BDA0003066890670000124
在构建好跨任务学习链路后,可以以迁移像素误差为损失函数对跨任务学习链路进行训练。具体的,可以使用Taskonomy数据集对进行训练。Taskonomy数据集收集了来自500多个建筑的450万幅RGB图像,每张图像标注了法向量图像、深度图像、三维曲率图像、边缘阴影图像以及2D&3D特征真值。在训练时,训练参数采用Mini-batch更新模型参数和Adam算法来使得跨任务学习链路的损失函数下降,并设置训练学习率和训练步数分别为0.01和50万步数。
在训练结束后,可以提取以RGB图像为输入,法向量图像为输出的第一链路为目标链路,并将目标链路的权重进行固化,得到用于处理待处理视觉任务的目标链路。需要说明的是,在得到目标链路后,还可以通过一些测试集对目标链路进行测试。例如,针对上述实施例,可以得到如图9所示的测试结果。
此外,由于法向量图像可以用于视觉导航,因此在得到训练后的目标链路适配至视觉导航中进行应用。
在上述实施例中,通过使用基于跨任务一致性构建的跨任务学习链路,可以从单幅RGB图像中生成高精度的法向量图像。图10示出了上述实施例中得到的基于跨任务一致性训练的目标链路与多任务神经网络、传统神经网络的横向比较结果,基于图10可知,使用多任务神经网路和传统UNet网络从单幅RGB图像预测的法向量图像均出现纹理缺失和预测错误的情况,而上述实施例得到的法向量图像与原图纹理基本一致,证明了本实施例得到的目标链路在通过RGB图像生成法向量图像的视觉任务上,可以取得精度更高的效果。此外,上述跨任务学习链路可以在直接使用传统网络结构的基础上提升法向量预测的性能和精度,因此也无需对网络模型进行复杂的人工设计和修改,避免了大量的人力、物力。
需要说明的是,除了上述通过RGB图像生成法向量图像的视觉任务之外,本公开实施例中的待处理视觉任务还可以包括其他视觉任务。例如,可以将通过RGB图像生成深度图像的视觉任务作为待处理视觉任务,将法向量图像、三维曲率图像等作为预设目标。此外,还可以根据处理需求将其他视觉任务确定为待处理视觉任务,本公开对此不做特殊限定。
需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
进一步的,参考图11所示,本示例的实施方式中还提供一种视觉任务处理装置1100,包括目标确定模块1110、链路训练模块1120和任务处理模块1130。其中:
目标确定模块1110可以用于根据待处理视觉任务的任务目标在预设目标中确定关联目标。
链路训练模块1120可以用于基于任务目标和关联目标构建跨任务学习链路,并对跨任务学习链路进行训练得到训练后的跨任务学习链路。
任务处理模块1130可以用于提取训练后的跨任务学习链路中与待处理视觉任务对应的目标链路,并基于目标链路对待处理视觉任务进行处理。
在一示例性实施例中,目标确定模块1110可以用于以待处理视觉任务的任务输入为输入,以预设目标为输出建立第一网络,并对第一网络进行训练,得到训练后的第一网络;针对每个训练后的第一网络,以第一网络的预设目标为输入,以任务目标为输出建立第二网络,并对第二网络进行迁移学习训练得到训练后的第二网络;基于第一网络和第一网络对应的第二网络,在预设目标中确定关联目标。
在一示例性实施例中,目标确定模块1110可以用于基于所述第一网络和所述第一网络对应的第二网络对测试图像进行处理得到预测图像。
在一示例性实施例中,目标确定模块1110可以用于在预测图像与任务目标对应的真值图像的相似度满足预设条件时,确定预测图像对应的第一网络的预设目标为关联目标。
在一示例性实施例中,链路训练模块1120可以用于以待处理视觉任务的任务输入为输入,以任务目标为输出建立第一链路;在第一链路之后连接第二链路;第二链路包括至少一个链路分支;每个链路分支以任务目标为输入,以一个关联目标为输出。
在一示例性实施例中,链路训练模块1120可以用于基于第二链路的迁移像素误差确定损失函数,并基于损失函数对跨任务学习链路进行训练得到训练后的跨任务学习链路。
在一示例性实施例中,任务处理模块1130可以用于提取训练后的跨任务学习链路中,以待处理视觉任务的任务输入为输入,以任务目标为输出的链路,作为待处理视觉任务对应的目标链路。
上述装置中各模块的具体细节在方法部分实施方式中已经详细说明,未披露的细节内容可以参见方法部分的实施方式内容,因而不再赘述。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
本公开的示例性实施方式还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤,例如可以执行图3中任意一个或多个步骤。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
此外,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (10)

1.一种视觉任务处理方法,其特征在于,包括:
根据待处理视觉任务的任务目标在预设目标中确定关联目标;
基于所述任务目标和所述关联目标构建跨任务学习链路,并对所述跨任务学习链路进行训练得到训练后的跨任务学习链路;
提取所述训练后的跨任务学习链路中与所述待处理视觉任务对应的目标链路,并基于所述目标链路对所述待处理视觉任务进行处理。
2.根据权利要求1所述的方法,其特征在于,所述根据待处理视觉任务的任务目标在预设目标中确定关联目标,包括:
以所述待处理视觉任务的任务输入为输入,以所述预设目标为输出建立第一网络,并对所述第一网络进行训练,得到训练后的第一网络;
针对每个训练后的所述第一网络,以所述第一网络的预设目标为输入,以所述任务目标为输出建立第二网络,并对所述第二网络进行迁移学习训练得到训练后的第二网络;
基于所述第一网络和所述第一网络对应的第二网络,在所述预设目标中确定关联目标。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一网络和所述第一网络对应的第二网络,在所述预设目标中确定关联目标,包括:
基于所述第一网络和所述第一网络对应的第二网络对测试图像进行处理得到预测图像;
基于所述预测图像在所述预设目标中确定关联目标。
4.根据权利要求3所述的方法,其特征在于,所述基于所述预测图像在所述预设目标中确定关联目标,包括:
在所述预测图像与任务目标对应的真值图像的相似度满足预设条件时,确定所述预测图像对应的第一网络的预设目标为关联目标。
5.根据权利要求1所述的方法,其特征在于,所述基于所述任务目标和所述关联目标构建跨任务学习链路,包括:
以所述待处理视觉任务的任务输入为输入,以所述任务目标为输出建立第一链路;
在所述第一链路之后连接第二链路;所述第二链路包括至少一个链路分支;每个所述链路分支以所述任务目标为输入,以一个所述关联目标为输出。
6.根据权利要求5所述的方法,其特征在于,所述对所述跨任务学习链路进行训练得到训练后的跨任务学习链路,包括:
基于所述第二链路的迁移像素误差确定损失函数,并基于所述损失函数对所述跨任务学习链路进行训练得到训练后的跨任务学习链路。
7.根据权利要求5所述的方法,其特征在于,所述提取所述训练后的跨任务学习链路中与所述待处理视觉任务对应的目标链路,包括:
提取所述训练后的跨任务学习链路中,以所述待处理视觉任务的任务输入为输入,以所述任务目标为输出的链路,作为所述待处理视觉任务对应的目标链路。
8.一种视觉任务处理装置,其特征在于,包括:
目标确定模块,用于根据待处理视觉任务的任务目标在预设目标中确定关联目标;
链路训练模块,用于基于所述任务目标和所述关联目标构建跨任务学习链路,并对所述跨任务学习链路进行训练得到训练后的跨任务学习链路;
任务处理模块,用于提取所述训练后的跨任务学习链路中与所述待处理视觉任务对应的目标链路,并基于所述目标链路对所述待处理视觉任务进行处理。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的方法。
CN202110528183.4A 2021-05-14 2021-05-14 视觉任务处理方法及装置、计算机可读介质和电子设备 Active CN113240796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110528183.4A CN113240796B (zh) 2021-05-14 2021-05-14 视觉任务处理方法及装置、计算机可读介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110528183.4A CN113240796B (zh) 2021-05-14 2021-05-14 视觉任务处理方法及装置、计算机可读介质和电子设备

Publications (2)

Publication Number Publication Date
CN113240796A true CN113240796A (zh) 2021-08-10
CN113240796B CN113240796B (zh) 2023-12-12

Family

ID=77134330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110528183.4A Active CN113240796B (zh) 2021-05-14 2021-05-14 视觉任务处理方法及装置、计算机可读介质和电子设备

Country Status (1)

Country Link
CN (1) CN113240796B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764281A (zh) * 2018-04-18 2018-11-06 华南理工大学 一种基于半监督自步学习跨任务深度网络的图像分类方法
US20200090048A1 (en) * 2017-05-19 2020-03-19 Deepmind Technologies Limited Multi-task neural network systems with task-specific policies and a shared policy
US10839269B1 (en) * 2020-03-20 2020-11-17 King Abdulaziz University System for fast and accurate visual domain adaptation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200090048A1 (en) * 2017-05-19 2020-03-19 Deepmind Technologies Limited Multi-task neural network systems with task-specific policies and a shared policy
CN108764281A (zh) * 2018-04-18 2018-11-06 华南理工大学 一种基于半监督自步学习跨任务深度网络的图像分类方法
US10839269B1 (en) * 2020-03-20 2020-11-17 King Abdulaziz University System for fast and accurate visual domain adaptation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DAVID FENG等: "DSD: Depth Structural Descriptor for Edge-Based Assistive Navigation", 《DSD: DEPTH STRUCTURAL DESCRIPTOR FOR EDGE-BASED ASSISTIVE NAVIGATION》 *

Also Published As

Publication number Publication date
CN113240796B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
US11594006B2 (en) Self-supervised hierarchical motion learning for video action recognition
EP3872764A1 (en) Method and apparatus for constructing map
CN111931764B (zh) 一种目标检测方法、目标检测框架及相关设备
CN112562019A (zh) 图像色彩调整方法及装置、计算机可读介质和电子设备
CN112598780B (zh) 实例对象模型构建方法及装置、可读介质和电子设备
CN112927363B (zh) 体素地图构建方法及装置、计算机可读介质和电子设备
CN111967515B (zh) 图像信息提取方法、训练方法及装置、介质和电子设备
CN112598597A (zh) 一种降噪模型的训练方法及相关装置
CN109754464B (zh) 用于生成信息的方法和装置
JP2022553252A (ja) 画像処理方法、画像処理装置、サーバ、及びコンピュータプログラム
CN111950570B (zh) 目标图像提取方法、神经网络训练方法及装置
WO2022179603A1 (zh) 一种增强现实方法及其相关设备
WO2023083030A1 (zh) 一种姿态识别方法及其相关设备
CN114677422A (zh) 深度信息生成方法、图像虚化方法和视频虚化方法
CN112037305B (zh) 对图像中的树状组织进行重建的方法、设备及存储介质
CN113920023A (zh) 图像处理方法及装置、计算机可读介质和电子设备
CN113902636A (zh) 图像去模糊方法及装置、计算机可读介质和电子设备
CN111814811B (zh) 图像信息提取方法、训练方法及装置、介质和电子设备
CN113610911A (zh) 深度预测模型的训练方法及装置、介质和电子设备
CN116883961A (zh) 一种目标感知方法以及装置
CN109816791B (zh) 用于生成信息的方法和装置
CN114049417B (zh) 虚拟角色图像的生成方法、装置、可读介质及电子设备
CN113240796B (zh) 视觉任务处理方法及装置、计算机可读介质和电子设备
CN116310615A (zh) 图像处理方法、装置、设备及介质
CN111582208B (zh) 用于生成生物体姿态关键点信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant