CN110913246B - 图像处理方法及装置、电子设备和存储介质 - Google Patents

图像处理方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
CN110913246B
CN110913246B CN201911194742.1A CN201911194742A CN110913246B CN 110913246 B CN110913246 B CN 110913246B CN 201911194742 A CN201911194742 A CN 201911194742A CN 110913246 B CN110913246 B CN 110913246B
Authority
CN
China
Prior art keywords
image
network
target
training
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911194742.1A
Other languages
English (en)
Other versions
CN110913246A (zh
Inventor
杨凯
张展鹏
成慧
吴华栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Priority to CN201911194742.1A priority Critical patent/CN110913246B/zh
Publication of CN110913246A publication Critical patent/CN110913246A/zh
Application granted granted Critical
Publication of CN110913246B publication Critical patent/CN110913246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公开涉及一种图像处理方法及装置、电子设备和存储介质,其中,所述方法包括:获取采集的目标图像;对所述目标图像进行特征提取,得到所述目标图像中目标对象的对象特征;其中,所述对象特征与所述目标图像的图像背景不相关。本公开实施例可以通过对象特征对目标图像进行压缩,提高智能设备执行目标操作的准确性。

Description

图像处理方法及装置、电子设备和存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种图像处理方法及装置、电子设备和存储介质。
背景技术
强化学习是机器学习的一个重要方法,强化学习可以在智能设备与环境的交互过程中,不断对智能设备的行为进行优化。强化学习结合计算机视觉实现智能设备的自主操作是近年来人工智能领域的一个热门研究方向,可以使实智能设备具有更加广泛的应用前景。
但是,如何将强化学习结合计算机视觉使智能设备具有优越的自主操作能力是一个尚待解决的问题。
发明内容
本公开提出了一种图像处理技术方案。
根据本公开的一方面,提供了一种图像处理方法,包括:获取采集的目标图像;对所述目标图像进行特征提取,得到所述目标图像中目标对象的对象特征;其中,所述对象特征与所述目标图像的图像背景不相关。
在一个或多个可选实施例中,所述对所述目标图像进行特征提取,得到所述目标图像中目标对象的对象特征,包括:利用编码网络对所述目标图像进行特征提取,得到所述目标图像中目标对象的对象特征;其中,所述编码网络是基于在仿真场景中获取的训练图像对训练网络进行训练得到的。
通过在仿真场景中获取的训练图像对训练网络进行训练得到编码网络,可以减少对真实场景进行图像采集以获取训练图像所耗费的人力物力资源,减少训练的时间和成本。
在一个或多个可选实施例中,所述方法还包括:获取在仿真场景中提取的训练图像;
利用构建的训练网络中的编码器对所述训练图像进行特征提取,得到所述训练图像中仿真对象的对象特征;利用所述训练网络中的解码器对所述仿真对象的对象特征进行解码,得到所述解码器的输出图像;基于所述输出图像和所述训练图像对应的标签图像,对所述训练网络的网络参数进行调整,得到编码解码网络;其中,所述编码网络是由所述编码器训练得到的,所述标签图像不包括所述训练图像中的背景信息。
这里,由于标签图像不包括训练图像中背景信息,从而训练好的编码网络得到的对象特征与目标图像的图像背景不相关,对象特征可以不受背景信息的影响,使得在利用对象特征控制智能设备对目标对象执行目标操作时,可以不受应用场景的限制,从而使网络获得一定的泛化能力以覆盖未见过的现实任务场景。
在一个或多个可选实施例中,所述获取在仿真场景中提取的训练图像,包括:构建所述智能设备执行目标操作的初始场景;在所述初始场景中随机添加仿真对象以及背景信息,得到所述仿真场景;在所述仿真场景中以预设的图像采集角度获取所述训练图像。
通过构建与真实场景相似的仿真场景,可以模拟真实场景中目标图像的采集角度,减少对真实场景进行图像采集以获取训练图像所耗费的人力物力资源。
在一个或多个可选实施例中,所述基于所述输出图像和所述训练图像对应的标签图像,对所述训练网络的网络参数进行调整,得到编码解码网络,包括:获取所述训练图像对应的掩膜图像;其中,所述掩膜图像用于指示所述仿真对象的位置;基于所述掩膜图像、所述输出图像和所述训练图像对应的标签图像,确定所述训练网络的损失;基于所述训练网络的损失,对所述训练网络的网络参数进行调整,得到编码解码网络。通过利用掩膜图像计算训练网络的损失,可以使训练网络可以快速地完成训练,得到更好的编码解码网络。
在一个或多个可选实施例中,所述基于所述掩膜图像、所述输出图像和所述训练图像对应的标签图像,确定所述训练网络的损失,包括:
在相同的像素点位置上,确定所述输出图像与所述标签图像之间的像素差值;基于所述输出图像与所述训练图像之间的像素差值以及所述掩膜图像的像素值,确定所述训练网络的损失。这样,可以针对每个相同的像素点位置,得到在该像素点位置上对应的损失,从而可以得到较为准确的训练网络的损失。
在一个或多个可选实施例中,所述方法还包括:
在添加仿真对象的所述初始场景中,以所述预设的图像采集角度获取所述标签图像。这样,标签图像不包括训练图像的图像背景,从而利用标签图像对上述训练网络进行训练,可以使训练网络不受训练图像的图像背景的影响,提高提取的对象特征的准确性。
在一个或多个可选实施例中,所述方法还包括:基于所述目标对象的对象特征,控制智能设备对所述目标对象执行目标操作。从而可以利用目标对象的对象特征,实现通过目标对象的对象特征控制智能设备对目标对象执行多样化的目标操作。
在一个或多个可选实施例中,所述基于所述目标对象的对象特征,控制智能设备对所述目标对象执行目标操作,包括:基于所述目标对象的对象特征,确定所述智能设备的目标动作信息;基于所述目标动作信息控制所述智能设备对所述目标对象执行所述目标操作。这样,通过目标对象的对象特征,可以确定智能设备的目标动作信息,从而可以进一步根据该目标动作信息指示的动作,更好地控制智能设备对目标对象执行目标操作。
在一个或多个可选实施例中,所述基于所述目标对象的对象特征,确定所述智能设备的目标动作信息,包括:将所述目标对象的对象特征输入预先训练好的强化学习网络,得到所述强化学习网络输出的目标动作信息;其中,所述预先训练好的强化学习网络是基于仿真场景中训练图像的对象特征进行训练得到的。这样,利用强化学习网络,可以由目标对象的对象特征预测智能设备更加准确的目标动作信息。
在一个或多个可选实施例中,所述方法还包括:获取在仿真场景中提取的训练图像中仿真对象的对象特征以及位置信息;基于所述训练图像的对象特征,利用所述强化学习网络中的学生网络得到第一目标动作结果;基于所述仿真对象的位置信息,利用所述强化学习网络中的教师网络得到第二目标动作结果;基于所述第一目标动作结果以及所述第二目标动作结果,对所述强化学习网络的网络参数进行调整,得到训练好的强化学习网络。这样,实现利用教师网络指导学生网络进行训练,得到性能优越的学生网络。
在一个或多个可选实施例中,所述基于所述第一目标动作结果以及所述第二目标动作结果,对所述强化学习网络的网络参数进行调整,得到编码解码网络,包括:基于所述仿真对象的位置信息以及所述第一目标动作结果,利用所述强化学习网络中的评价网络得到评价值;基于所述第一目标动作结果、所述第二目标动作结果和所述评价值,对所述强化学习网络的网络参数进行调整,得到训练好的强化学习网络。这样,评价网络可以对学生网络得到的第一目标动作结果进行评价,即,评价网络可以对学生网络的网络性能进行评价,使学生网络的性能更加优越。
在一个或多个可选实施例中,所述目标操作包括以下至少一种操作:抓取操作;放置操作;移动操作。这样,从而通过目标动作信息可以实现控制智能设备对目标对象进行抓取、放置、移动等目标操作。
在一个或多个可选实施例中,所述智能设备是机械臂;基于所述目标动作信息控制所述智能设备对所述目标对象执行所述目标操作,包括:基于所述目标动作信息控制所述机械臂对所述目标对象进行抓取操作。
根据本公开的一方面,提供了一种图像处理装置,包括:
获取模块,用于获取采集的目标图像;
特征提取模块,用于对所述目标图像进行特征提取,得到所述目标图像中目标对象的对象特征;其中,所述对象特征与所述目标图像的图像背景不相关。
在一个或多个可选实施例中,所述特征提取模块,用于利用编码网络对所述目标图像进行特征提取,得到所述目标图像中目标对象的对象特征;其中,所述编码网络是基于在仿真场景中获取的训练图像对训练网络进行训练得到的。
在一个或多个可选实施例中,所述装置还包括:第一训练模块,用于获取在仿真场景中提取的训练图像;利用构建的训练网络中的编码器对所述训练图像进行特征提取,得到所述训练图像中仿真对象的对象特征;利用所述训练网络中的解码器对所述仿真对象的对象特征进行解码,得到所述解码器的输出图像;基于所述输出图像和所述训练图像对应的标签图像,对所述训练网络的网络参数进行调整,得到编码解码网络;其中,所述编码网络是由所述编码器训练得到的,所述标签图像不包括所述训练图像中的背景信息。
在一个或多个可选实施例中,所述获取模块,具体用于构建所述智能设备执行目标操作的初始场景;在所述初始场景中随机添加仿真对象以及背景信息,得到所述仿真场景;在所述仿真场景中以预设的图像采集角度获取所述训练图像。
在一个或多个可选实施例中,所述训练模块,具体用于获取所述训练图像对应的掩膜图像;其中,所述掩膜图像用于指示所述仿真对象的位置;基于所述掩膜图像、所述输出图像和所述训练图像对应的标签图像,确定所述训练网络的损失;基于所述训练网络的损失,对所述训练网络的网络参数进行调整,得到编码解码网络。
在一个或多个可选实施例中,所述训练模块,具体用于在相同的像素点位置上,确定所述输出图像与所述标签图像之间的像素差值;基于所述输出图像与所述训练图像之间的像素差值以及所述掩膜图像的像素值,确定所述训练网络的损失。
在一个或多个可选实施例中,所述训练模块,还用于在添加仿真对象的所述初始场景中,以所述预设的图像采集角度获取所述标签图像。
在一个或多个可选实施例中,所述装置还包括:控制模块,用于基于所述目标对象的对象特征,控制智能设备对所述目标对象执行目标操作。
在一个或多个可选实施例中,所述控制模块,具体用于基于所述目标对象的对象特征,确定所述智能设备的目标动作信息;基于所述目标动作信息控制所述智能设备对所述目标对象执行所述目标操作。
在一个或多个可选实施例中,所述控制模块,具体用于将所述目标对象的对象特征输入预先训练好的强化学习网络,得到所述强化学习网络输出的目标动作信息;其中,所述预先训练好的强化学习网络是基于仿真场景中训练图像的对象特征进行训练得到的。
在一个或多个可选实施例中,所述装置还包括:第二训练模块,用于获取在仿真场景中提取的训练图像中仿真对象的对象特征以及位置信息;基于所述训练图像的对象特征,利用所述强化学习网络中的学生网络得到第一目标动作结果;基于所述仿真对象的位置信息,利用所述强化学习网络中的教师网络得到第二目标动作结果;基于所述第一目标动作结果以及所述第二目标动作结果,对所述强化学习网络的网络参数进行调整,得到训练好的强化学习网络。
在一个或多个可选实施例中,所述第二训练模块,具体用于基于所述仿真对象的位置信息以及所述第一目标动作结果,利用所述强化学习网络中的评价网络得到评价值;基于所述第一目标动作结果、所述第二目标动作结果和所述评价值,对所述强化学习网络的网络参数进行调整,得到训练好的强化学习网络。
在一个或多个可选实施例中,所述目标操作包括以下至少一种操作:抓取操作;放置操作;移动操作。
在一个或多个可选实施例中,所述智能设备是机械臂;所述控制模块,具体用于基于所述目标动作信息控制所述机械臂对所述目标对象进行抓取操作。
根据本公开的另一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:执行上述图像处理方法。
根据本公开的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述图像处理方法。
在本公开实施例中,可以获取采集的目标图像,然后对目标图像进行特征提取,得到目标图像中目标对象的对象特征,以使智能设备基于对象特征对目标对象执行目标操作,这样,可以通过对象特征对目标图像进行压缩,减小控制智能设备执行目标操作的复杂度,同时,对象特征与目标图像的图像背景不相关,可以降低环境噪声的影响,提高智能设备执行目标操作的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1示出根据本公开实施例的图像处理方法的流程图。
图2示出根据本公开实施例提供的学生网络结构一示例的框图。
图3示出根据本公开实施例的得到编码网络过程的流程图。
图4示出根据本公开实施例的获取训练图像过程的框图。
图5示出根据本公开实施例的训练网络结果的框图。
图6示出根据本公开实施例的图像处理装置的框图。
图7示出根据本公开实施例的电子设备示例的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
另外,为了更好地说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
本公开实施例提供的图像处理方案,可以获取采集的目标图像,然后对目标图像进行特征提取,可以得到目标图像中目标对象的对象特征,从而可以使得控制设备基于目标对象的对象特征,控制智能设备对目标对象执行目标操作,或者智能设备基于目标对象的对象特征,对目标对象执行目标操作,例如,控制智能设备对目标对象进行抓取操作,实现计算机视觉与强化学习相结合。
在相关技术中,通常需要针对不同的应用场景,对智能设备执行任务的过程进行不同的设置,即,在将计算机视觉与强化学习结合的过程中,控制智能设备执行任务的相关方法不具有通用性,会造成资源的浪费。而本公开实施例提供通过提取目标图像的对象特征,可以使智能设备在执行任务的过程中,不受不同应用场景中背景的影响,可以应用在不同的应用场景中,并且,对象特征可以压缩目标图像的信息,可以减少控制智能设备智能执行目标操作的复杂度,提高控制智能设备智能执行目标操作的准确率。
本公开实施例提供的图像处理方案,可以应用于计算机视觉与强化学习的相关任务的场景中,例如,利用智能设备抓取物体,再例如,利用智能设备分拣包裹等。本公开实施例不对具体的应用场景进行限制,只要包括本公开实施例提供的图像处理方案均在本公开的保护范围内。
下面对本公开实施例提供的图像处理方案进行说明。
图1示出根据本公开实施例的图像处理方法的流程图。该图像处理方法可以由终端设备、服务器或其它类型的电子设备执行,其中,终端设备可以为用户设备(UserEquipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(PersonalDigital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该图像处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。下面以电子设备作为执行主体为例对本公开实施例的图像处理方法进行说明。
步骤S11,获取采集的目标图像。
在本公开实施例中,电子设备可以对当前场景进行图像采集,获取采集的目标图像,或者,电子设备也可以从其他设备处获取由其他设备采集的目标图像,例如,获取摄像头等其他电子设备对当前场景进行采集得到的目标图像。目标图像可以是对当前场景进行一次图像采集得到的图像,还可以是在对当前场景拍摄的视频中抽取的任意一个视频帧。这里,目标图像可以是具有色彩特征的图像,即,可以是由红(R)、绿(G)、蓝(B)三个颜色相互叠加得到的图像。
这里,在获取采集的目标图像之后,为了更好地对目标图像进行特征提取,可以对目标图像进行预处理。例如,可以对目标图像进行图像放缩、图像增强、图像亮度、饱和度调整等一种或多种预处理操作,得到符合特征提取要求的目标图像,例如,得到图像尺寸等于标准图像尺寸的目标图像。通过预处理操作,可以在对目标图像进行特征提取时,使提取的特征更加准确。
步骤S12,对所述目标图像进行特征提取,得到所述目标图像中目标对象的对象特征;其中,所述对象特征与所述目标图像的图像背景不相关。
在本公开实施例中,可以对目标图像或对预处理后的目标图像进行特征提取,得到目标图像中目标对象的对象特征。这里,目标对象可以是当前场景中关注的物体,例如,在人脸识别场景中,目标对象可以是人脸,在机械臂抓取场景中,目标对象可以机械臂的抓取物体。目标对象的对象特征可以是与目标图像的图像背景不相关的特征,可以理解为,目标对象的对象特征不受当前场景的影响,与目标对象本身相关性较高,从而对象特征可以准确地对目标对象进行表征。
在一个可能实现方式中,可以利用编码网络对目标图像进行特征提取,得到目标图像中目标对象的对象特征。编码网络是基于在仿真场景中获取的训练图像对训练网络进行训练得到的。
在该实现方式中,在对目标图像进行特征提取时,可以利用预先训练好的编码网络对目标图像进行特征提取,得到目标图像中目标对象的对象特征。编码网络可以是机器学习网络,例如,深度学习网络、神经网络等。这里,编码网络可以是基于仿真场景中获取的训练图像对训练网络进行训练得到的,即,在对训练网络进行训练得到编码网络的过程中,使用的训练图像来源于仿真场景。该仿真场景是对现实场景的模拟,可以包括对智能设备进行仿真的仿真设备、不同种类的仿真对象、放置仿真对象的托盘、进行训练图像采集的视觉传感器等。在得到编码网络的过程中,可以在仿真场景中获取大量的独立同分布的训练图像,进而减少对真实场景进行图像采集以获取训练图像所耗费的人力物力资源,减少训练的时间和成本。
这里,独立同分布的训练图像,可以理解为,在仿真场景中采集的不同的训练图像具有相同的概率分布,即,生成每个训练图像的概率分布相同,并且相互独立。由于编码网络是通过利用在仿真场景中获取的训练图像进行训练得到,因此可实现将仿真场景泛化到真实场景中,提高编码网络的训练效率。
这里,电子设备在得到目标对象的对象特征之后,可以基于目标对象的对象特征控制智能设备工作,或者,还可以将目标对象的对象特征传输给控制设备,使控制设备基于目标对象的对象特征控制智能设备工作,或者,还可以将目标对象的对象特征传输给智能设备,使智能设备根据目标对象的对象特征进行工作,本公开实施例不对具体的智能设备工作方式进行限制。
在一个可能的实现方式中,可以基于上述目标对象的对象特征,控制智能设备对目标对象执行目标操作。
在本公开实施例中,智能设备可以是具有计算处理能力的设备,例如,智能机器人、机械臂等智能设备。上述电子设备可以集成在智能设备中,根据目标对象的对象特征,控制智能设备对目标对象执行目标操作。或者,上述电子设备可以与智能设备分离设置,电子设备可以与智能设备通过有线或无线方式进行通信,电子设备可以基于目标对象的对象特征,向电子设备发出控制指令,控制智能设备对目标对象执行目标操作。这里,电子设备可以基于目标对象的对象特征,控制智能设备针对目标对象进行多样化的目标操作,例如,控制智能设备移动目标对象、控制智能设备对目标对象进行抓取、控制智能设备绕开目标对象等目标操作,可以根据具体的应用场景进行设置,实现通过目标对象的对象特征控制智能设备对目标对象执行多样化的目标操作。
在一个可能的实现方式中,可以基于目标对象的对象特征,确定智能设备的目标动作信息,然后基于确定的目标动作信息,控制智能设备对目标对象执行目标操作。
在该实现方式中,可以根据目标对象的对象特征,生成智能设备的目标动作信息,该目标动作信息可以指示智能设备进行目标操作时发生的动作,例如,在控制智能设备移动目标对象的应用场景中,目标动作信息可以指示智能设备的移动方向、移动距离等,从而可以控制智能设备朝指定方向、指定距离移动目标对象。这样,通过目标对象的对象特征,可以确定智能设备的目标动作信息,从而可以进一步根据该目标动作信息指示的动作,更好地控制智能设备对目标对象执行目标操作。
在一个示例中,可以将目标对象的对象特征输入预先训练好的强化学习网络,得到强化学习网络输出的目标动作信息;其中,所述预先训练好的强化学习网络是基于仿真场景中训练图像的对象特征进行训练得到的。
在该示例中,可以利用强化学习网络由目标对象的对象特征得到目标动作信息。目标对象的对象特征可以作为强化学习网络的输入信息,目标动作信息可以是强化学习网络的输出信息。在一些实现方式中,还可以将智能设备的上一个动作信息与目标对象的对象特征共同作为强化学习网络的输入信息,得到强化学习网络输出的目标动作信息,从而上一个动作信息可以提供动作参考信息,目标对象的对象特征可以提供目标对象的位置等信息,由智能设备的上一个动作信息和目标对象的对象特征可以预测更加准确的目标动作信息。
这里,强化学习网络可以是根据实际应用场景进行构建的,也可以是现有的一些常用模型,例如,马尔可夫决策模型、深度神经网络、深度确定性策略梯度网络等。
这里,预先训练好的强化学习网络可以是基于仿真场景中训练图像的对象特征进行训练得到的,即,在强化学习网络的训练过程中,可以先提取仿真场景中训练图像的对象特征,例如,可以利用上述训练网络中的编码器对训练图像进行特征提取,得到训练图像的对象特征,然后将训练图像的对象特征输入构建的强化学习网络中,利用训练图像的对象特征对构建的强化学习网络进行训练,可以得到训练好的强化学习网络。在强化学习网络的训练过程中,还可以将仿真场景中仿真设备当前的动作信息与训练图像的对象特征,共同作为强化学习网络的输入,对强化学习网络进行训练,得到控制仿真设备操作仿真对象的强化学习策略。然后可以将训练好的强化学习网络应用在真实场景中,使智能设备对真实场景中的目标对象按照得到的强化学习操作进行目标操作。
在一些实现方式中,可以将上述训练网络与强化学习网络同时进行训练,即,可以用训练网络中的编码器提取训练图像的对象特征,然后再将训练图像的对象特征输入强化学习网络中,利用大量的训练图像不断对训练网络和强化学习网络进行训练,可以得到训练好的编码网络以及强化学习网络。这里,可以在仿真环境中完成编码网络和强化学习网络的训练,从而可以通过随机化得到多样的训练场景,不需要采集大量现实环境的数据,有效减少训练的时间和成本,减少训练的难度,提高训练的效率。同时,训练好的编码网络和强化学习网络泛化到真实场景中,从而起到对真实场景的泛化作用。
在一个可能的实现方式中,还提供了上述强化学习网络的训练过程,可以获取在仿真场景中提取的训练图像中仿真对象的对象特征以及位置信息,然后基于训练图像的对象特征,利用强化学习网络中的学生网络得到第一目标动作结果,并基于仿真对象的位置信息,利用强化学习网络中的教师网络得到第二目标动作结果。然后再基于第一目标动作结果以及第二目标动作结果,对强化学习网络的网络参数进行调整,得到训练好的强化学习网络。
在该实现方式中,强化学习网络可以包括学生网络和教师网络。其中,教师网络可以是在学生网络之前训练好的网络,例如,可以构建至少一级网络层(如,全联层、激活层、归一化层等),将仿真场景中智能设备的仿真设备的初始动作信息以及仿真对象的位置信息作为教师网络的输入信息,对教师网络进行训练,训练好的教师网络可以输出指示仿射设备的目标动作的动作结果。然后在对学生网络进行训练时,可以将训练图像中仿真对象的对象特征以及仿射设备的初始动作信息作为学生网络的输入信息,由学生网络得到仿真设备的第一目标动作结果。同时,将训练图像中仿真对象的位置信息以及仿射设备的初始动作信息作为训练好的教师网络的输入信息,由训练好的教师网络得到仿真设备的第二目标动作结果,该第二目标动作结果可以认为是比较准确的动作结果。从而可以将第一目标动作结果与第二目标动作结果进行对比,根据对比结果对强化学习网络的网络参数进行调整,可以得到训练好的强化学习网络,实现利用教师网络指导学生网络进行训练。在实际应用中,可以只利用强化学习网络中的学生网络得到智能设备的目标动作信息。
这里,对象特征与初始动作信息的特征向量长度可能相差较大,例如,对象特征的特征向量长度是64×1,初始动作信息的特征向量长度是6×1,从而分别为对象特征和初始动作信息设置不同的特征提取层。图2示出根据本公开实施例提供的学生网络结构一示例的框图。在利用不同的特征提取层对对象特征和初始动作信息分别进行特征提取之后,可以得到长度相近的特征向量1和特征向量2,再将两个特征向量进行拼接,这样可以使初始动作信息的特征向量不会由于与对象特征的特征向量的长度相差较大而被忽略。
在该实现方式的一个示例中,可以基于仿真对象的位置信息以及第一目标动作结果,利用所述强化学习网络中的评价网络得到评价值,然后基于第一目标动作结果、第二目标动作结果和评价值,对强化学习网络的网络参数进行调整,得到训练好的强化学习网络。
在该示例中,强化学习网络还可以包括评价网络,评价网络可以对学生网络得到的第一目标动作结果进行评价,即,评价网络可以对学生网络的网络性能进行评价。这里,可以将仿真对象的位置信息、仿真设备的初始动作信息以及学生网络输出的第一目标动作结果作为评价网络的输入信息,然后利用评价网络对输入信息进行特征提取,例如,进行全连接操作、激活操作、归一化操作、降维操作等,可以得到一个评价值,然后可以根据第一目标动作结果、第二目标动作结果和评价值,共同得到一个损失值,然后可以根据该损失值对强化学习网络的网络参数进行调整,使得训练好的强化学习网络具有更好的性能。这里,可以利用损失值对整个强化学习网络参数进行调整,也可以利用损失值对强化学习网络中的学生网络进行调整。
这里,强化学习网络的损失值可以通过以下公式(1)进行计算:
Figure BDA0002294408710000118
其中,
Figure BDA0002294408710000112
可以表示作用于网络参数
Figure BDA0002294408710000113
的损失值;
Figure BDA0002294408710000114
表示教师网络得到的第二目标动作结果,sL表示教师网络的输入信息,
Figure BDA0002294408710000115
表示教师网络的网络参数;
Figure BDA0002294408710000116
表示学生网络得到的第一目标动作结果,sH表示学生网络的输入信息,
Figure BDA0002294408710000117
表示学生网络的网络参数;Q(sL,a|θQ)表示评价网络得到的评价值,sL、a表示评价网络的输入信息,其中,sL是教师网络的输入信息,a是学生网络得到的第一目标动作结果,θQ表示评价网络的网络参数;N表示训练图像的个数;i是小于等于N的正整数;α和β可以是权重参数。
在一个示例中,目标操作包括以下至少一种操作:抓取操作;放置操作;移动操作。
在该示例中,列举了控制智能设备对目标对象可能执行的一些目标操作。举例来说,可以基于目标动作信息控制智能设备对目标对象进行抓取操作、放置操作、移动操作,从而通过目标动作信息可以实现控制智能设备对目标对象进行抓取、放置、移动等目标操作。
在一个应用场景中,上述智能设备可以是机械臂。在控制机械臂对目标对象进行抓取的场景中,目标动作信息可以指示机械臂的抓取位置以及机械臂每个关节的旋转角度,然后根据该目标动作信息可以控制智能设备在抓取位置对目标对象进行抓取。
通过本公开实施例提供的图像处理方法,可以利用在目标图像中提取的目标对象的对象信息为智能设备提供目标对象的位置等特征信息,并且该对象特征信息与目标图像的图像背景不相关,从而不受应用场景进行影响,有利于实现对各种现实应用场景的泛化能力,减少控制智能设备智能执行目标操作的复杂度,提高控制智能设备智能执行目标操作的准确率。
本公开实施例还提供了对训练网络进行训练得到编码网络的过程。图3示出根据本公开实施例的得到编码网络过程的流程图,包括:
步骤S21,获取在仿真场景中提取的训练图像。
在本公开实施例中,可以利用仿真场景中提取的训练图像对构建的训练网络进行训练,以得到编码网络。这里,仿真场景可以是基于真实场景进行构建的,例如,在控制机械臂抓取目标对象的应用场景中,可以构建与机械臂抓取目标对象的真实场景相似的仿真场景,然后在该仿真场景中进行图像采集,得到大量的独立同分布的训练图像。
在一个可能的实现方式中,可以构建智能设备执行目标操作的初始场景,然后在初始场景中随机添加仿真对象以及背景信息,得到仿真场景,再在仿真场景中以预设的图像采集角度获取训练图像。
在该实现方式中,可以构建与真实场景相似的仿真场景,以在控制机械臂抓取仿真对象的应用场景为例,首先可以构建与机械臂抓取仿真对象相似的初始场景,该初始场景可以包括机械臂、放置仿真对象的操作面、进行图像采集的视觉传感器等。这里,初始场景可以不包括背景信息和目标对象。然后可以在初始场景中放置仿真对象的操作面上随机添加仿真对象,并为初始场景渲染背景信息,可以得到仿真场景。然后,可以在仿真场景中以预设的图像采集角度对仿真场景进行图像采集,得到训练图像。这里,预设的图像采集角度可以为仿真场景中设置的视觉传感器的图像采集角度,可以通过设置视觉传感器的位置和姿态得到,从而可以模拟真实场景中目标图像的采集角度。仿真对象可以是对真实场景中的目标对象进行模拟的虚拟对象,例如,球体、方块等仿真对象。背景信息可以包括光照、色彩、背景材质、视觉传感器位置和姿态影响下的视觉范围等环境信息。
图4示出根据本公开实施例的获取训练图像过程的框图。如图4所示,在初始场景中采集的图像可以用G0表示,G0中不包括仿真对象和背景信息。在初始场景中随机添加仿真对象后采集的图像可以用G1表示,G1不包括背景信息。再在初始场景中随机添加背景信息后采集的图像可以用G2表示,G2可以是训练图像。其中,G1可以作为监督信号,即训练图像对应的标签图像。
步骤S22,利用构建的训练网络中的编码器对所述训练图像进行特征提取,得到所述训练图像中仿真对象的对象特征。
在本公开实施例中,在获取训练图像之后,可以将训练图像输入构建的训练网络的编码器中,利用编码器对训练图像进行特征提取,得到训练图像中仿真对象的对象特征。这里,训练网络可以包括编码器,编码器可以包括至少一个网络层,例如,包括至少一个全连接层、至少一个卷积层和/或至少一个池化层等网络层。编码器可以对训练图像进行特征提取,得到仿真对象的对象特征,例如,利用编码器可以由图像尺寸为128×128×3的训练图像得到特征长度64的对象特征。
步骤S23,利用所述训练网络中的解码器对所述仿真对象的对象特征进行解码,得到所述解码器的输出图像。
在本公开实施例中,训练网络还可以包括解码器。解码器可以包括至少一个网络层,例如,包括至少一个反卷积层、至少一个上采样层等网络层,利用解码器可以由训练图像的对象特征得到一个图像尺寸与训练图像一致的输出图像。
图5示出根据本公开实施例的训练网络结果的框图。可以将训练图像输入编码器中,得到编码器输出的训练图像的对象特征,然后利用解码器对训练图像的对象特征进行解码,可以得到解码器输出的输出图像。
步骤S24,基于所述输出图像和所述训练图像对应的标签图像,对所述训练网络的网络参数进行调整,得到编码解码网络;其中,所述编码网络是由所述编码器训练得到的,所述标签图像不包括所述训练图像中的背景信息。
在本公开实施例中,在得到解码器输出的输出图像之后,可以将输出图像与训练图像对应的标签图像进行比较,得到比较结果。再根据比较结果对训练网络的网络参数进行调整。通过不断对训练网络进行训练,最终可以得到训练好的编码解码网络。训练好的编码解码网络的网络结构与训练网络类似,包括编码网络和解码网络,编码网络对应训练好的编码器,解码网络对应训练好的解码器。这里,训练图像对应的标签图像可以是在初始场景中添加仿真对象后采集的图像,标签图像中不包括训练图像中背景信息,即,标签图像可以是图4中的G1。由于标签图像不包括训练图像中背景信息,从而训练好的编码网络得到的对象特征与目标图像的图像背景不相关,对象特征可以不受背景信息的影响,使得在利用对象特征控制智能设备对目标对象执行目标操作时,可以不受应用场景的限制,从而使网络获得一定的泛化能力以覆盖未见过的现实任务场景。
在该实现方式的一个示例中,可以获取训练图像对应的掩膜图像,其中,掩膜图像用于指示仿真对象的位置。然后基于掩膜图像、输出图像和训练图像对应的标签图像,确定训练网络的损失。再基于训练网络的损失,对训练网络的网络参数进行调整,得到编码解码网络。
在该示例中,掩膜图像可以是指示仿真对象的位置的图像,例如,可以将训练图像中表示仿真对象的像素点的像素值设置为1,将训练图像中不表示仿真对象的其他像素点的像素值设置为0,通过这种方式可以得到训练图像对应的掩膜图像。为了使训练网络可以快速地完成训练,得到更好的编码解码网络,可以在对训练网络的网络参数进行调整时,将输出图像与标签图像之间的比较结果结合获取的掩膜图像,得到训练网络的损失,根据得到的训练网络的损失,对训练网络的网络参数进行调整,使由训练图像得到的输出图像不断趋近于训练图像对应的标签图像。
在该实现方式的一个示例中,可以在添加仿真对象的所述初始场景中,以所述预设的图像采集角度获取标签图像。
在该示例中,训练图像对应的标签图像可以是在初始场景中添加仿真对象得到的场景中,利用场景中的视觉传感器拍摄的图像。训练图像是在初始场景中添加仿真对象和背景信息得到的仿真场景中采集的图像。标签图像不包括训练图像的图像背景,从而利用标签图像对上述训练网络进行训练,可以使训练网络不受训练图像的图像背景的影响,提高提取的对象特征的准确性。
这里,预设的图像采集角度可以为仿真场景中设置的视觉传感器的图像采集角度,可以与训练图像的图像采集角度相同,可以通过设置视觉传感器的位置和姿态得到,从而可以模拟真实场景中目标图像的采集角度。
在该实现方式的一个示例中,在相同的像素点位置上,确定输出图像与标签图像之间的像素差值,然后基于所述输出图像与训练图像之间的像素差值以及掩膜图像的像素值,确定训练网络的损失,再基于损失对训练网络的网络参数进行调整,得到编码解码网络。
在该示例中,在确定训练网络的损失时,可以针对每个相同的像素点位置,计算输出图像以及标签图像在该像素点位置上的像素差值,然后将在该像素点位置上计算的像素差值与该像素点位置上的掩膜图像的像素值相结合,可以得到在该像素点位置上对应的损失,然后根据统计的多个像素点位置上的损失,可以得到较为准确的训练网络的损失。这里,训练网络的损失可以通过以下公式(2)进行计算:
Figure BDA0002294408710000151
其中,LDC表示训练网络的损失;N表示批尺寸;C表示通道;W表示宽度;H表示高度;Micwh表示掩膜图像在像素点icwh处的像素值;I′icwh表示输出图像在像素点icwh处的像素值;
Figure BDA0002294408710000152
表示标签图像在像素点icwh处的像素值;sign表示符号函数;其中,0<i≤N;0<c≤C;0<w≤W;0<h≤H。
通过上述方式,可以由训练网络得到编码解码网络,在对目标图像进行特征提取时,可以利用编码解码网络中的编码网络对目标图像进行特征提取,编码网络提取的目标对象的对象特征与目标图像的图像背景不相关,从而可以应用于多种应用场景,实现在将计算机视觉与强化学习结合的过程中,得到具有通用性的控制智能设备执行任务方法,节省资源。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。
此外,本公开还提供了装置、电子设备、计算机可读存储介质、程序,上述均可用来实现本公开提供的任一种图像处理方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
图6示出根据本公开实施例的图像处理装置的框图,如图6所示,所述装置包括:
获取模块31,用于获取采集的目标图像;
特征提取模块32,用于对所述目标图像进行特征提取,得到所述目标图像中目标对象的对象特征;其中,所述对象特征与所述目标图像的图像背景不相关。
在一个或多个可选实施例中,所述特征提取模块32,用于利用编码网络对所述目标图像进行特征提取,得到所述目标图像中目标对象的对象特征;其中,所述编码网络是基于在仿真场景中获取的训练图像对训练网络进行训练得到的。
在一个或多个可选实施例中,所述装置还包括:
第一训练模块,用于获取在仿真场景中提取的训练图像;利用构建的训练网络中的编码器对所述训练图像进行特征提取,得到所述训练图像中仿真对象的对象特征;利用所述训练网络中的解码器对所述仿真对象的对象特征进行解码,得到所述解码器的输出图像;基于所述输出图像和所述训练图像对应的标签图像,对所述训练网络的网络参数进行调整,得到编码解码网络;其中,所述编码网络是由所述编码器训练得到的,所述标签图像不包括所述训练图像中的背景信息。
在一个或多个可选实施例中,所述获取模块31,具体用于构建所述智能设备执行目标操作的初始场景;在所述初始场景中随机添加仿真对象以及背景信息,得到所述仿真场景;在所述仿真场景中以预设的图像采集角度获取所述训练图像。
在一个或多个可选实施例中,所述训练模块,具体用于获取所述训练图像对应的掩膜图像;其中,所述掩膜图像用于指示所述仿真对象的位置;基于所述掩膜图像、所述输出图像和所述训练图像对应的标签图像,确定所述训练网络的损失;基于所述训练网络的损失,对所述训练网络的网络参数进行调整,得到编码解码网络。
在一个或多个可选实施例中,所述训练模块,具体用于在相同的像素点位置上,确定所述输出图像与所述标签图像之间的像素差值;基于所述输出图像与所述训练图像之间的像素差值以及所述掩膜图像的像素值,确定所述训练网络的损失。
在一个或多个可选实施例中,所述训练模块,还用于在添加仿真对象的所述初始场景中,以所述预设的图像采集角度获取所述标签图像。
在一个或多个可选实施例中,所述装置还包括:
控制模块,用于基于所述目标对象的对象特征,控制智能设备对所述目标对象执行目标操作。
在一个或多个可选实施例中,所述控制模块,具体用于基于所述目标对象的对象特征,确定所述智能设备的目标动作信息;基于所述目标动作信息控制所述智能设备对所述目标对象执行所述目标操作。
在一个或多个可选实施例中,所述控制模块,具体用于将所述目标对象的对象特征输入预先训练好的强化学习网络,得到所述强化学习网络输出的目标动作信息;其中,所述预先训练好的强化学习网络是基于仿真场景中训练图像的对象特征进行训练得到的。
在一个或多个可选实施例中,所述装置还包括:
第二训练模块,用于获取在仿真场景中提取的训练图像中仿真对象的对象特征以及位置信息;基于所述训练图像的对象特征,利用所述强化学习网络中的学生网络得到第一目标动作结果;基于所述仿真对象的位置信息,利用所述强化学习网络中的教师网络得到第二目标动作结果;基于所述第一目标动作结果以及所述第二目标动作结果,对所述强化学习网络的网络参数进行调整,得到训练好的强化学习网络。
在一个或多个可选实施例中,所述第二训练模块,具体用于基于所述仿真对象的位置信息以及所述第一目标动作结果,利用所述强化学习网络中的评价网络得到评价值;基于所述第一目标动作结果、所述第二目标动作结果和所述评价值,对所述强化学习网络的网络参数进行调整,得到训练好的强化学习网络。
在一个或多个可选实施例中,所述目标操作包括以下至少一种操作:
抓取操作;放置操作;移动操作。
在一个或多个可选实施例中,所述智能设备是机械臂;所述控制模块,具体用于基于所述目标动作信息控制所述机械臂对所述目标对象进行抓取操作。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本公开实施例还提出一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为上述方法。
电子设备可以被提供为终端、服务器或其它形态的设备。
图7是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图7,电子设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理,一个有线或无线网络接口1950被配置为将电子设备1900连接到网络,和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (11)

1.一种图像处理方法,其特征在于,包括:
获取采集的目标图像;
对所述目标图像进行特征提取,得到所述目标图像中目标对象的对象特征;其中,所述对象特征与所述目标图像的图像背景不相关;
基于所述目标对象的对象特征,确定智能设备的目标动作信息;
基于所述目标动作信息控制所述智能设备对所述目标对象执行目标操作;
其中,所述基于所述目标对象的对象特征,确定智能设备的目标动作信息,包括:
将所述目标对象的对象特征输入预先训练好的强化学习网络,得到所述强化学习网络输出的目标动作信息;其中,所述预先训练好的强化学习网络是基于仿真场景中训练图像的对象特征进行训练得到的;
所述方法还包括:
获取在仿真场景中提取的训练图像中仿真对象的对象特征以及位置信息;
基于所述训练图像的对象特征,利用所述强化学习网络中的学生网络得到第一目标动作结果;
基于所述仿真对象的位置信息,利用所述强化学习网络中的教师网络得到第二目标动作结果;
基于所述第一目标动作结果以及所述第二目标动作结果,对所述强化学习网络的网络参数进行调整,得到训练好的强化学习网络。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标图像进行特征提取,得到所述目标图像中目标对象的对象特征,包括:
利用编码网络对所述目标图像进行特征提取,得到所述目标图像中目标对象的对象特征;其中,所述编码网络是基于在仿真场景中获取的训练图像对训练网络进行训练得到的。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取在仿真场景中提取的训练图像;
利用构建的训练网络中的编码器对所述训练图像进行特征提取,得到所述训练图像中仿真对象的对象特征;
利用所述训练网络中的解码器对所述仿真对象的对象特征进行解码,得到所述解码器的输出图像;
基于所述输出图像和所述训练图像对应的标签图像,对所述训练网络的网络参数进行调整,得到编码解码网络;其中,所述编码网络是由所述编码器训练得到的,所述标签图像不包括所述训练图像中的背景信息。
4.根据权利要求3所述的方法,其特征在于,所述获取在仿真场景中提取的训练图像,包括:
构建智能设备执行目标操作的初始场景;
在所述初始场景中随机添加仿真对象以及背景信息,得到所述仿真场景;
在所述仿真场景中以预设的图像采集角度获取所述训练图像。
5.根据权利要求3所述的方法,其特征在于,所述基于所述输出图像和所述训练图像对应的标签图像,对所述训练网络的网络参数进行调整,得到编码解码网络,包括:
获取所述训练图像对应的掩膜图像;其中,所述掩膜图像用于指示所述仿真对象的位置;
基于所述掩膜图像、所述输出图像和所述训练图像对应的标签图像,确定所述训练网络的损失;
基于所述训练网络的损失,对所述训练网络的网络参数进行调整,得到编码解码网络。
6.根据权利要求5所述的方法,其特征在于,所述基于所述掩膜图像、所述输出图像和所述训练图像对应的标签图像,确定所述训练网络的损失,包括:
在相同的像素点位置上,确定所述输出图像与所述标签图像之间的像素差值;
基于所述输出图像与所述训练图像之间的像素差值以及所述掩膜图像的像素值,确定所述训练网络的损失。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在添加仿真对象的所述初始场景中,以所述预设的图像采集角度获取所述标签图像。
8.根据权利要求1所述的方法,其特征在于,所述基于所述第一目标动作结果以及所述第二目标动作结果,对所述强化学习网络的网络参数进行调整,得到训练好的强化学习网络,包括:
基于所述仿真对象的位置信息以及所述第一目标动作结果,利用所述强化学习网络中的评价网络得到评价值;
基于所述第一目标动作结果、所述第二目标动作结果和所述评价值,对所述强化学习网络的网络参数进行调整,得到训练好的强化学习网络。
9.一种图像处理装置,其特征在于,包括:
获取模块,用于获取采集的目标图像;
特征提取模块,用于对所述目标图像进行特征提取,得到所述目标图像中目标对象的对象特征;其中,所述对象特征与所述目标图像的图像背景不相关;
控制模块,用于基于所述目标对象的对象特征,确定智能设备的目标动作信息;基于所述目标动作信息控制所述智能设备对所述目标对象执行目标操作;
其中,所述控制模块,具体用于将所述目标对象的对象特征输入预先训练好的强化学习网络,得到所述强化学习网络输出的目标动作信息;其中,所述预先训练好的强化学习网络是基于仿真场景中训练图像的对象特征进行训练得到的;
所述装置还包括:
第二训练模块,用于获取在仿真场景中提取的训练图像中仿真对象的对象特征以及位置信息;基于所述训练图像的对象特征,利用所述强化学习网络中的学生网络得到第一目标动作结果;基于所述仿真对象的位置信息,利用所述强化学习网络中的教师网络得到第二目标动作结果;基于所述第一目标动作结果以及所述第二目标动作结果,对所述强化学习网络的网络参数进行调整,得到训练好的强化学习网络。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至8中任意一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的方法。
CN201911194742.1A 2019-11-28 2019-11-28 图像处理方法及装置、电子设备和存储介质 Active CN110913246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911194742.1A CN110913246B (zh) 2019-11-28 2019-11-28 图像处理方法及装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911194742.1A CN110913246B (zh) 2019-11-28 2019-11-28 图像处理方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN110913246A CN110913246A (zh) 2020-03-24
CN110913246B true CN110913246B (zh) 2022-06-28

Family

ID=69820324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911194742.1A Active CN110913246B (zh) 2019-11-28 2019-11-28 图像处理方法及装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN110913246B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465935A (zh) * 2020-11-19 2021-03-09 科大讯飞股份有限公司 虚拟形象合成方法、装置、电子设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521205B (zh) * 2011-11-23 2014-12-10 河海大学常州校区 基于多Agent强化学习的机器人联合搜索方法
US10452071B1 (en) * 2016-02-29 2019-10-22 AI Incorporated Obstacle recognition method for autonomous robots
CN108229344A (zh) * 2017-12-19 2018-06-29 深圳市商汤科技有限公司 图像处理方法和装置、电子设备、计算机程序和存储介质
CN109902767B (zh) * 2019-04-11 2021-03-23 网易(杭州)网络有限公司 模型训练方法、图像处理方法及装置、设备和介质

Also Published As

Publication number Publication date
CN110913246A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN109377544B (zh) 一种人脸三维图像生成方法、装置和可读介质
CN111208783B (zh) 一种动作模仿方法、装置、终端及计算机存储介质
CN111798400A (zh) 基于生成对抗网络的无参考低光照图像增强方法及系统
CN111476709B (zh) 人脸图像处理方法、装置及电子设备
CN109889849B (zh) 视频生成方法、装置、介质及设备
CN113361710B (zh) 学生模型训练方法、图片处理方法、装置及电子设备
JP2014527210A (ja) オプティカルフローを決定するためのコンテンツ適応型システム、方法、及び装置
CN112861830B (zh) 特征提取方法、装置、设备、存储介质以及程序产品
US20220067888A1 (en) Image processing method and apparatus, storage medium, and electronic device
CN110378250B (zh) 用于场景认知的神经网络的训练方法、装置及终端设备
CN114445562A (zh) 三维重建方法及装置、电子设备和存储介质
CN110121719A (zh) 用于深度学习的装置、方法和计算机程序产品
CN110913246B (zh) 图像处理方法及装置、电子设备和存储介质
CN112975968B (zh) 基于第三视角可变主体演示视频的机械臂模仿学习方法
CN112969032A (zh) 光照模式识别方法、装置、计算机设备及存储介质
CN112489144A (zh) 图像处理方法、图像处理装置、终端设备及存储介质
CN112070835A (zh) 机械臂位姿预测方法、装置、存储介质及电子设备
CN116611491A (zh) 目标检测模型的训练方法、装置、电子设备和存储介质
CN116363429A (zh) 图像识别模型的训练方法、图像识别方法、装置及设备
CN115690238A (zh) 图像生成及模型训练方法、装置、设备和存储介质
CN112288748B (zh) 一种语义分割网络训练、图像语义分割方法及装置
CN114842411A (zh) 一种基于互补时空信息建模的群体行为识别方法
CN111144492B (zh) 面向移动端虚拟现实与增强现实的场景图谱生成方法
JP6892557B2 (ja) 学習装置、画像生成装置、学習方法、画像生成方法及びプログラム
CN113610720A (zh) 视频去噪方法及装置、计算机可读介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant