CN111178299A - 图像处理方法、装置、电子设备和存储介质 - Google Patents

图像处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111178299A
CN111178299A CN201911420421.9A CN201911420421A CN111178299A CN 111178299 A CN111178299 A CN 111178299A CN 201911420421 A CN201911420421 A CN 201911420421A CN 111178299 A CN111178299 A CN 111178299A
Authority
CN
China
Prior art keywords
data
target
image
neural network
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911420421.9A
Other languages
English (en)
Other versions
CN111178299B (zh
Inventor
吴华栋
张展鹏
成慧
杨凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Priority to CN201911420421.9A priority Critical patent/CN111178299B/zh
Publication of CN111178299A publication Critical patent/CN111178299A/zh
Application granted granted Critical
Publication of CN111178299B publication Critical patent/CN111178299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公开实施例提出了一种图像处理方法、装置、电子设备和计算机存储介质,该方法包括:将待处理图像输入至神经网络,所述神经网络是基于第一数据和第二数据训练得到的,所述第一数据表示仿真环境的场景图像数据,所述第二数据表示所述场景图像数据的标注的目标可受性数据,所述目标可受性数据用于表征目标的可操作性;基于所述神经网络对所述待处理图像进行图像处理,得到待处理图像的目标可受性数据。如此,本公开实施例中,利用仿真环境的数据便可以训练得到用于图像处理的神经网络,从而,针对真实场景的待处理图像得到相应的目标可受性数据。

Description

图像处理方法、装置、电子设备和存储介质
技术领域
本公开涉及计算机视觉技术,尤其涉及一种图像处理方法、装置、电子设备和计算机存储介质。
背景技术
在相关技术中,基于深度学习与数据驱动的机械臂物体操作逐渐称为研究的热点;如何使相关的机械臂物体操作方法能够适应于大量的不同的真实场景中,是亟待解决的技术问题。
发明内容
本公开实施例期望提供图像处理的技术方案。
本公开实施例提供了一种图像处理方法,所述方法包括:
将待处理图像输入至神经网络,所述神经网络是基于第一数据和第二数据训练得到的,所述第一数据表示仿真环境的场景图像数据,所述第二数据表示所述场景图像数据的标注的目标可受性数据,所述目标可受性数据用于表征目标的可操作性;
基于所述神经网络对所述待处理图像进行图像处理,得到待处理图像的目标可受性数据。
可选地,所述神经网络是基于以下步骤训练得到的:
将第一数据输入至神经网络;
利用所述神经网络对第一数据进行处理,得到所述场景图像数据的目标可受性预测数据;
根据所述场景图像数据的目标可受性预测数据、以及所述第二数据,调整所述神经网络的网络参数值;
重复执行上述步骤,直至网络参数值调整后的神经网络满足训练结束条件,得到训练完成的神经网络。
可以看出,本公开实施例中,通过神经网络的训练,可以得到用于图像处理的神经网络,从而,针对真实场景的待处理图像得到相应的目标可受性数据。
可选地,所述仿真环境包括:图像采集设备和至少一个目标;所述场景图像数据包括:所述图像采集设备采集的图像数据。
可以看出,由于仿真环境的场景图像数据包括图像采集设备采集的图像数据,因而,在基于仿真环境的场景图像数据训练神经网络后,有利于使神经网络能够从图像采集设备采集的图像中得出目标可受性数据,即,有利于针对真实的图像采集设备采集的图像,确定出相应的目标的可操作性。
可选地,所述仿真环境包括:目标操作设备;
所述方法还包括:在将待处理图像输入至神经网络之前,根据第三数据得出场景图像数据的标注的目标可受性数据,所述第三数据包括:仿真环境中标注的目标操作位置和/或目标操作角度。
可以看出,本公开实施例中,可以根据仿真环境中标注的目标操作位置和/或目标操作角度得出场景图像数据的标注的目标可受性数据,而上述标注的目标操作位置和/或目标操作角度可以由用户根据操作任务等实际情况进行设置,因而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,能够更加准确地从真实场景的待处理图像中确定出目标的可操作性。
可选地,所述根据第三数据得出场景图像数据的标注的目标可受性数据,包括:将所述仿真环境中的目标操作位置和/或目标操作角度代入至预设的概率分布函数中,得出所述场景图像数据的标注的目标可受性数据。
可选地,所述方法还包括:
获取所述概率分布函数的多个候选参数;
根据每个候选参数对应的场景图像数据的标注的目标可受性数据与对应的场景图像数据的目标可受性预测数据的差异值,确定每个候选参数的评分;
根据各个候选参数的评分,选取一个候选参数作为所述概率分布函数的参数。
可以看出,由于概率分布函数的参数是根据各个候选参数的评分确定的,而每个候选参数的评分是根据场景图像数据的标注的目标可受性数据与场景图像数据的目标可受性数据的差异值得出的,因而,在从候选参数中选取概率分布函数的参数后,基于该选取的参数训练的神经网络能够更加准确地处理真实场景的待处理图像。
可选地,所述候选参数的评分与所述差异值成负相关,所述根据各个候选参数的评分,选取一个候选参数作为所述概率分布函数的参数,包括:
在各个候选参数中,选取评分最高的候选参数作为所述概率分布函数的参数。
可以看出,候选参数评分最高时,场景图像数据的标注的目标可受性数据与场景图像数据的目标可受性预测数据的差异值最小,因而,基于该选取的参数训练的神经网络能够更加准确地处理真实场景的待处理图像。
可选地,所述目标操作位置和/或目标操作角度是根据第四数据、以及所述场景图像数据得出的,所述第四数据包括:目标操作设备的工作参数。
可以理解地,结合目标操作设备的工作参数和场景图像数据,可以通过人工或自动计算得到目标操作设备操作标注目标时,较为合理(如成功率最高)的目标操作位置和/或目标操作角度,有利于合理地得出符合实际要求的场景图像数据的标注的目标可受性数据,进而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,可以从真实场景的待处理图像中合理地确定出目标的可操作性。
可选地,所述第四数据还包括:目标操作设备执行的任务类型。
可以理解地,结合目标操作设备执行的任务类型,有利于合理地得出符合任务要求的场景图像数据的标注的目标可受性数据,进而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,可以从真实场景的待处理图像中合理地确定出符合任务需求目标的可操作性;进一步地,本公开实施例可以针对目标操作设备执行的各种任务类型,生成场景图像数据的标注的目标可受性数据,进而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,可以适用于目标操作设备的各种任务类型,适用范围较广。
可选地,所述仿真环境是在初始仿真环境的基础上通过领域随机化方法得出的。
可以看出,由于初始仿真环境与真实场景可能存在细微的差异,而采用领域随机化方法对初始仿真环境进行更改,有利于使得仿真环境与真实场景更加符合,进而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,可以针对真实场景的待处理图像,准确地得出目标的可操作性。
可选地,所述场景图像数据的标注的目标可受性数据和待处理图像的目标可受性数据是基于三维物理空间得出的数据。
在本公开实施例中,由于场景图像数据的标注的目标可受性数据是基于三维物理空间得出的数据,因而,在训练数据采集和神经网络应用阶段,均无需进行位置标定和坐标转换,从而,实现较为简单并且运算量较小。
可选地,所述场景图像数据的标注的目标可受性数据或待处理图像的目标可受性数据包括:可操作点的水平面位置坐标和/或可操作点的操作角度。
在本公开实施例中,由于场景图像数据的标注的目标可受性数据和待处理图像的目标可受性数据,不仅可包括可操作点的水平面位置坐标,还可包括可操作点的操作角度,因而,场景图像数据的标注的目标可受性数据可以更加精确地反映仿真环境的目标操作性,待处理图像的目标可受性数据可以更加精确地反映真实环境的目标操作性,因而,便于后续快速且准确地进行目标的操作。
可选地,所述方法还包括:根据所述待处理图像的目标可受性数据,生成目标操作指令。如此,便于后续进行针对目标的操作。
可选地,所述根据所述待处理图像的目标可受性数据,生成目标操作指令,包括:
根据所述待处理图像的目标可受性数据,确定成功率最高的目标操作,根据所述成功率最高的目标操作,生成目标操作指令。
可以理解地,根据成功率最高的目标操作,生成目标操作指令,可以提高目标操作成功的可能性。
可选地,所述基于所述神经网络对所述待处理图像进行图像处理,得到待处理图像的目标可受性数据,包括:
将所述待处理图像输入所述神经网络进行编码处理,得到表示待处理图像中的可操作性信息的特征向量;根据所述特征向量进行解码处理,得到待处理图像的目标可受性数据。
可以看出,本发明实施例可以将待处理图像转换为便于处理的向量,进而在向量的基础上可以得到待处理图像的目标可受性数据,具有便于实现的特点。
本公开实施例还提供了一种图像处理装置,所述装置包括:第一处理模块和第二处理模块,其中,
第一处理模块,用于将待处理图像输入至神经网络,所述神经网络是基于第一数据和第二数据训练得到的,所述第一数据表示仿真环境的场景图像数据,所述第二数据表示所述场景图像数据的标注的目标可受性数据,所述目标可受性数据用于表征目标的可操作性;
第二处理模块,用于基于所述神经网络对所述待处理图像进行图像处理,得到待处理图像的目标可受性数据。
可选地,所述神经网络是基于以下步骤训练得到的:
将第一数据输入至神经网络;
利用所述神经网络对第一数据进行处理,得到所述场景图像数据的目标可受性预测数据;
根据所述场景图像数据的目标可受性预测数据、以及所述第二数据,调整所述神经网络的网络参数值;
重复执行上述步骤,直至网络参数值调整后的神经网络满足训练结束条件,得到训练完成的神经网络。
可以看出,本公开实施例中,通过神经网络的训练,可以得到用于图像处理的神经网络,从而,针对真实场景的待处理图像得到相应的目标可受性数据。
可选地,所述仿真环境包括:图像采集设备和至少一个目标;所述场景图像数据包括:所述图像采集设备采集的图像数据。
可以看出,由于仿真环境的场景图像数据包括图像采集设备采集的图像数据,因而,在基于仿真环境的场景图像数据训练神经网络后,有利于使神经网络能够从图像采集设备采集的图像中得出目标可受性数据,即,有利于针对真实的图像采集设备采集的图像,确定出相应的目标的可操作性。
可选地,所述仿真环境包括:目标操作设备;
所述第一处理模块,还用于在将待处理图像输入至神经网络之前,根据第三数据得出场景图像数据的标注的目标可受性数据,所述第三数据包括:仿真环境中标注的目标操作位置和/或目标操作角度。
可以看出,本公开实施例中,可以根据仿真环境中标注的目标操作位置和/或目标操作角度得出场景图像数据的标注的目标可受性数据,而上述标注的目标操作位置和/或目标操作角度可以由用户根据操作任务等实际情况进行设置,因而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,能够更加准确地从真实场景的待处理图像中确定出目标的可操作性。
可选地,所述第一处理模块,用于将所述仿真环境中的目标操作位置和/或目标操作角度代入至预设的概率分布函数中,得出所述场景图像数据的标注的目标可受性数据。
可选地,所述第一处理模块,还用于获取所述概率分布函数的多个候选参数;根据每个候选参数对应的场景图像数据的标注的目标可受性数据与对应的场景图像数据的目标可受性预测数据的差异值,确定每个候选参数的评分;根据各个候选参数的评分,选取一个候选参数作为所述概率分布函数的参数。
可以看出,由于概率分布函数的参数是根据各个候选参数的评分确定的,而每个候选参数的评分是根据场景图像数据的标注的目标可受性数据与场景图像数据的目标可受性数据的差异值得出的,因而,在从候选参数中选取概率分布函数的参数后,基于该选取的参数训练的神经网络能够更加准确地处理真实场景的待处理图像。
可选地,所述候选参数的评分与所述差异值成负相关,所述第一处理模块,用于在各个候选参数中,选取评分最高的候选参数作为所述概率分布函数的参数。
可以看出,候选参数评分最高时,场景图像数据的标注的目标可受性数据与场景图像数据的目标可受性预测数据的差异值最小,因而,基于该选取的参数训练的神经网络能够更加准确地处理真实场景的待处理图像。
可选地,所述目标操作位置和/或目标操作角度是根据第四数据、以及所述场景图像数据得出的,所述第四数据包括:目标操作设备的工作参数。
可以理解地,结合目标操作设备的工作参数和场景图像数据,可以通过人工或自动计算得到目标操作设备操作标注目标时,较为合理(如成功率最高)的目标操作位置和/或目标操作角度,有利于合理地得出符合实际要求的场景图像数据的标注的目标可受性数据,进而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,可以从真实场景的待处理图像中合理地确定出目标的可操作性。
可选地,所述第四数据还包括:目标操作设备执行的任务类型。
可以理解地,结合目标操作设备执行的任务类型,有利于合理地得出符合任务要求的场景图像数据的标注的目标可受性数据,进而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,可以从真实场景的待处理图像中合理地确定出符合任务需求目标的可操作性;进一步地,本公开实施例可以针对目标操作设备执行的各种任务类型,生成场景图像数据的标注的目标可受性数据,进而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,可以适用于目标操作设备的各种任务类型,适用范围较广。
可选地,所述仿真环境是在初始仿真环境的基础上通过领域随机化方法得出的。
可以看出,由于初始仿真环境与真实场景可能存在细微的差异,而采用领域随机化方法对初始仿真环境进行更改,有利于使得仿真环境与真实场景更加符合,进而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,可以针对真实场景的待处理图像,准确地得出目标的可操作性。
可选地,所述场景图像数据的标注的目标可受性数据和待处理图像的目标可受性数据是基于三维物理空间得出的数据。
在本公开实施例中,由于场景图像数据的标注的目标可受性数据是基于三维物理空间得出的数据,因而,在训练数据采集和神经网络应用阶段,均无需进行位置标定和坐标转换,从而,实现较为简单并且运算量较小。
可选地,所述场景图像数据的标注的目标可受性数据或待处理图像的目标可受性数据包括:可操作点的水平面位置坐标和/或可操作点的操作角度。
在本公开实施例中,由于场景图像数据的标注的目标可受性数据和待处理图像的目标可受性数据,不仅可包括可操作点的水平面位置坐标,还可包括可操作点的操作角度,因而,场景图像数据的标注的目标可受性数据可以更加精确地反映仿真环境的目标操作性,待处理图像的目标可受性数据可以更加精确地反映真实环境的目标操作性,因而,便于后续快速且准确地进行目标的操作。
可选地,所述第二处理模块,还用于根据所述待处理图像的目标可受性数据,生成目标操作指令。如此,便于后续进行针对目标的操作。
可选地,所述第二处理模块,用于根据所述待处理图像的目标可受性数据,确定成功率最高的目标操作,根据所述成功率最高的目标操作,生成目标操作指令。
可以理解地,根据成功率最高的目标操作,生成目标操作指令,可以提高目标操作成功的可能性。
可选地,所述第二处理模块,用于将所述待处理图像输入所述神经网络进行编码处理,得到表示待处理图像中的可操作性信息的特征向量;根据所述特征向量进行解码处理,得到待处理图像的目标可受性数据。
可以看出,本发明实施例可以将待处理图像转换为便于处理的向量,进而在向量的基础上可以得到待处理图像的目标可受性数据,具有便于实现的特点。
本公开实施例还提供了一种电子设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行上述任意一种所述的图像处理方法。
本公开实施例还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任意一种所述的图像处理方法。
在本公开实施例提出的图像处理方法、装置、电子设备和计算机存储介质中,可以将待处理图像输入至神经网络,所述神经网络是基于第一数据和第二数据训练得到的,所述第一数据表示仿真环境的场景图像数据,所述第二数据表示所述场景图像数据的标注的目标可受性数据,所述目标可受性数据用于表征目标的可操作性;基于所述神经网络对所述待处理图像进行图像处理,得到待处理图像的目标可受性数据。如此,本公开实施例中,利用仿真环境的数据便可以训练得到用于图像处理的神经网络,从而,针对真实场景的待处理图像得到相应的目标可受性数据;另外,仿真环境的物体、场景、视角或操作任务类型均可以根据实际需求任意设置,因而,本公开实施例能够快速、高效、自动地采集训练神经网络的数据,并且,训练完成的神经网络能够适应于具有不同物体、场景或视角的真实场景图像,即,针对具有不同物体、场景或视角的真实场景图像,均能准确得出目标可受性数据。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
图1为本公开实施例的图像处理方法的流程图;
图2为本公开实施例利用神经网络得出可操作性响应图的具体示例图;
图3为基于本公开实施例的图像处理方法操作目标的整体流程图;
图4为本公开实施例的神经网络训练方法的流程图;
图5为本公开实施例的图像处理装置的组成结构示意图;
图6为本公开实施例的电子设备的结构示意图。
具体实施方式
以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本公开,并不用于限定本公开。另外,以下所提供的实施例是用于实施本公开的部分实施例,而非提供实施本公开的全部实施例,在不冲突的情况下,本公开实施例记载的技术方案可以任意组合的方式实施。
需要说明的是,在本公开实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其他要素,或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元,例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
例如,本公开实施例提供的图像处理方法包含了一系列的步骤,但是本公开实施例提供的图像处理方法不限于所记载的步骤,同样地,本公开实施例提供的图像处理装置包括了一系列模块,但是本公开实施例提供的装置不限于包括所明确记载的模块,还可以包括为获取相关信息、或基于信息进行处理时所需要设置的模块。
本公开实施例可以应用于终端和服务器等硬件或硬件组成的计算机系统中,并可以与众多其它通用或专用计算系统环境或配置一起操作,或者可通过处理器运行计算机可执行代码的方式实现本公开实施例。这里,终端可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统,等等,服务器可以是服务器计算机系统小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
在相关技术中,基于深度学习与数据驱动的机械臂物体操作方法的相关研究主要分为监督学习和强化学习,其中监督学习又可分为模仿学习和自监督学习等方向。模仿学习的方法需要采集大量的专家示教信息来进行学习,并且通常假设环境状态是已知和有限的,因此对于现实中开放而复杂的场景模型的效果并不够好;自监督学习通过机器人试错实验来采集大量带标注的数据,由于试错实验成功率低,采集数据非常低效,而且在真实环境中进行试错实验会存在不可避免的机械损耗和一定的安全风险;强化学习方法通过机器人大量的探索来学会完成指定的任务,由于需要进行的探索次数非常多,动作较为随机,因此在现实中完成是非常危险和耗时的。
针对上述技术问题,在本公开的一些实施例中,提出了一种图像处理方法,可以应用于任何需要操纵物体的场景,例如,可以适用于机械臂物体操作场景。
图1为本公开实施例的图像处理方法的流程图,如图1所示,该流程可以包括:
步骤101:将待处理图像输入至神经网络,所述神经网络是基于第一数据和第二数据训练得到的,所述第一数据表示仿真环境的场景图像数据,所述第二数据表示所述场景图像数据的标注的目标可受性数据,所述目标可受性数据用于表征目标的可操作性。
本公开实施例中,待处理图像可以是真实世界中图像采集设备采集到的图像,也可以是从本地存储区域或网络获取的图像,本公开实施例并不对待处理图像的来源进行限定;其中,图像采集设备可以是摄像头等用于采集图像的设备,图像采集设备可以包括一个摄像头(如机器人的RGB(Red-Green-Blue)相机),也可以包括两个或两个以上的摄像头;另外,本公开实施例并不对图像采集设备采集到的图像的格式进行限定;例如,待处理图像的格式可以是联合图像专家小组(Joint Photographic Experts GROUP,JPEG)图像、位图(Bitmap,BMP)、便携式网络图形(Portable Network Graphics,PNG)或其他格式,图像采集设备采集到的图像的色彩模式可以是RGB色彩模式或其它色彩模式。
仿真环境可以是模拟真实场景的虚拟环境,也可以是通过计算机图形学(Computer Graphics,CG)直接生成的虚拟环境,本公开实施例对此并不进行限定。仿真环境可以包括一个或多个虚拟的目标,例如,仿真环境可以包括桌子、摄像头、地面、机械臂等。仿真环境的场景图像数据可以表示仿真环境的整个场景的图像,也可以表示仿真环境的部分场景的图像;仿真环境的场景图像数据可以是基于任意的视角获取的至少部分场景图像。
本公开实施例中,目标可以表示可操作的物体,可选地,目标可以是能够利用机械臂操作的物体;例如,目标可以是高尔夫球、剪刀、手机等物体,本公开实施例并不对目标的种类进行限定;在仿真环境中,目标的个数可以是一个或多个。
目标的可操作性表示目标能够被设备如机械臂操作的特性,本公开实施例中并不对目标的可操作性的种类进行限定,例如,目标的可操作性的种类可以是抓取、推动等。进一步地,目标的可操作性还可以表示操作的具体实现方式,在一个示例中,目标的可操作性可以表示抓取位置和/或抓取角度,另一个示例中,目标的可操作性可以表示推动位置和/或推动角度。
标注表示针对数据注明相应信息,通过数据标注,可以使神经网络识别出相应的标注信息。场景图像数据的标注的目标可受性数据表示:针对场景图像数据标注出的用于表示目标可操作性的数据。例如,标注的目标可受性数据可以表征目标上的操作位置以及操作角度。在实际应用中,可以在获取仿真环境的场景图像数据后,可以根据以下至少一项标注出目标可受性数据:场景图像数据的目标形状、场景图像数据的目标尺寸、场景图像数据中除目标外的环境或物体的信息、用于操作目标的设备的参数。
作为一种实施方式,可以在得到仿真环境的场景图像数据后,可以对仿真环境的场景图像数据进行归一化处理,然后基于归一化处理后的场景图像数据进行神经网络的训练。
步骤102:基于所述神经网络对所述待处理图像进行图像处理,得到待处理图像的目标可受性数据。
本公开实施例中,上述神经网络的功能为从图像中提取出图像的目标可受性数据,因而,在利用神经网络对待处理图像进行图像处理后,可以得到待处理图像的目标可受性数据。
待处理图像的目标可受性数据可以表示一个目标的可操作性,也可以表示多个目标的可操作性。可以看出,在得到待处理图像的目标可受性数据后,便于确认如何操作待处理图像中对应的一个或多个目标。
在一实施方式中,可以将待处理图像输入所述神经网络进行编码处理,得到表示待处理图像中的可操作性信息的特征向量;该特征向量为一个隐式地表示待处理图像中的可操作性信息的向量;然后根据该特征向量进行解码处理,得到待处理图像的目标可受性数据。这里,待处理图像的目标可受性数据或场景图像数据的标注的目标可受性数据可以通过三维的可操作性响应图进行表示。
可以看出,本发明实施例可以将待处理图像转换为便于处理的向量,进而在向量的基础上可以得到待处理图像的目标可受性数据,具有便于实现的特点。
本公开实施例中,并不对神经网络的种类和架构进行限定,例如,上述神经网络为全卷积神经网络或其它网络结构。
图2为本公开实施例利用神经网络得出可操作性响应图的具体示例图,如图2所示,上述神经网络包括解码器和解码器两个部分;其中,编码器用于将待处理图像进行编码数据,得到一个特征向量,该特征向量可以隐式地表示待处理图像中的可操作性信息;解码器可以根据该特征向量进行解码处理,得到三维的可操作性响应图,用于直观地表示目标可操作性。
在具体的示例中,编码器包括多个卷积层,每个卷积层后均连接有批标准化(Batch Normalization,BN)层;卷积层使用大小为3*3的卷积核,步长为2。解码器包括多个反卷积层和双线性插值层,在每个反卷积层后均连接由BN层,反卷积层使用大小为3*3的卷积核,步长为2;最后一个反卷积层使用tanh函数作为激活函数,其它反卷积层使用Leaky_relu(Leaky Rectified linear unit,带泄露修正线性单元)函数作为激活函数;在编码器和解码器中,BN层使用Leaky_relu函数作为激活函数。
作为一种实施方式,目标操作设备的操作位置的高度是已知且固定的,三维的可操作性响应图中,三个轴分别为水平面的X方向轴和Y方向轴、以及垂直方向的操作角度轴;在三维的可操作性响应图中,点(i,j,k)表示水平面位置坐标为(i,j)且操作角度为k的目标操作,在一个示例中,k的取值范围为[0,π];在另一个示例中,可以将[0,π]划分为A个角度区间,A为大于2的整数,例如,A等于18。对于三维的可操作性响应图中的确定出的点,均可以得出对应的值,三维的可操作性响应图中的点(i,j,k)的值表示点(i,j,k)对应的目标操作成功率。
作为一种实施方式,在得到待处理图像后,可以对待处理图像进行归一化处理,然后利用神经网络对归一化处理后的待处理图像进行图像处理。
在实际应用中,步骤101至步骤102可以利用电子设备中的处理器实现,上述处理器可以为特定用途集成电路(Application Specific Integrated Circuit,ASIC)、数字信号处理器(Digital Signal Processor,DSP)、数字信号处理装置(Digital SignalProcessing Device,DSPD)、可编程逻辑装置(Programmable Logic Device,PLD)、FPGA、中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器中的至少一种。
可以看出,在本公开实施例中,利用仿真环境的数据便可以训练得到用于图像处理的神经网络,从而,针对真实场景的待处理图像得到相应的目标可受性数据;也就是说,本公开实施例无需采集专家示教信息,并且也无需在真实的环境中采集大量探索和试错,实现较为方便;另外,仿真环境的物体、场景、视角或操作任务类型均可以根据实际需求任意设置,因而,本公开实施例能够快速、高效、自动地采集训练神经网络的数据,并且,训练完成的神经网络能够适应于具有不同物体、场景或视角的真实场景图像,即,针对具有不同物体、场景或视角的真实场景图像,均能准确得出目标可受性数据。
在一实施方式中,仿真环境可以包括:图像采集设备和至少一个目标;仿真环境的场景图像数据包括:图像采集设备采集的图像数据。
本公开实施例中,图像采集设备采集的图像数据不是真实场景的图像数据,而是根据目标参数、环境光参数、图像采集设备的拍摄参数等计算出的数据。在具体的示例中,目标参数可以包括以下至少之一:目标的位置、目标的颜色、目标的大小、目标的纹理,环境光参数可以包括环境光照的方向和/或强度,图像采集设备的拍摄参数可以包括以下至少之一:图像采集设备的拍摄位置、图像采集设备的拍摄角度、图像采集设备的型号、图像采集设备采集的图像的类型、图像采集设备采集的图像的分辨率;这里,图像采集设备采集的图像的类型可以是彩色图像或深度图像。
在实际应用中,在建立仿真环境时,仿真环境中目标参数、环境光参数、图像采集设备的拍摄参数均可以进行设置,因而,在仿真环境建立后,仿真环境中目标参数、环境光参数、图像采集设备的拍摄参数均为已知值,此时,根据已知信息可以计算出图像采集设备采集的图像数据。
这里,目标为需要进行操作的物体;需要说明的是,在搭建仿真环境时,除了设置目标外,还可以设置除去目标外的环境或物体的信息,例如,目标为乒乓球时,可以设置场景中地面的颜色和/或纹理,也可以设置场景中桌子的颜色和/或纹理。
可以看出,由于仿真环境的场景图像数据包括图像采集设备采集的图像数据,因而,在基于仿真环境的场景图像数据训练神经网络后,有利于使神经网络能够从图像采集设备采集的图像中得出目标可受性数据,即,有利于针对真实的图像采集设备采集的图像,确定出相应的目标的可操作性。
在一实施方式中,上述仿真环境还包括目标操作设备;这里,目标操作设备可以是机械臂或其它用于操作物体的设备。在一个具体的示例中,仿真环境可以包括一个底座设置在地面的机械臂,放置在桌子上的摄像头、以及在地面上设置的至少一个目标。
相应地,上述图像处理方法还包括:在将待处理图像输入至神经网络之前,根据第三数据得出场景图像数据的标注的目标可受性数据,所述第三数据包括:仿真环境中标注的目标操作位置和/或目标操作角度。
这里,目标操作位置表示对目标进行操作的位置,例如,目标操作位置表示目标上对目标进行抓取或推动的位置(如目标被操作表面的中心),目标操作位置可以用坐标或其它方式进行表示;目标操作角度表示目标操作设备操作目标的角度,例如,目标操作角度表示目标操作设备抓取或推动目标的角度(如机械臂末端抓取目标时的角度)。
在一实施方式中,场景图像数据的标注的目标可受性数据可以包括第三数据、以及根据第三数据标注的目标操作成功率;这里,在得出仿真环境中标注的目标操作位置和/或目标操作角度后,可以根据仿真环境中标注的目标操作位置和/或目标操作角度,评估目标上任意目标操作位置和/或任意目标操作角度对应的目标操作成功率,如此,可以得到场景图像数据的标注的目标可受性数据。
在一个具体的实施例中,场景图像数据的标注的目标可受性数据可以表示为三维的可操作性响应图
Figure BDA0002352232890000131
预先标注的目标操作位置和角度可以通过s*进行表示,s*=(x*,y*,r*),其中,x*和y*表示目标操作位置在水平面的投影坐标,r*表示标注的操作角度;则三维的可操作性响应图
Figure BDA0002352232890000132
中,点(i,j,k)的值
Figure BDA0002352232890000133
可以通过以下公式(1)得出:
Figure BDA0002352232890000134
其中,
Figure BDA0002352232890000135
表示点(i,j,k)对应的目标操作成功率,σ表示高斯分布的参数。
可以看出,本公开实施例中,可以根据仿真环境中标注的目标操作位置和/或目标操作角度得出场景图像数据的标注的目标可受性数据,而上述标注的目标操作位置和/或目标操作角度可以由用户根据操作任务等实际情况进行设置,因而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,能够更加准确地从真实场景的待处理图像中确定出目标的可操作性。
在一实施方式中,所述目标操作位置和/或目标操作角度是根据第四数据、以及所述场景图像数据得出的,第四数据包括:目标操作设备的工作参数。
这里,目标操作设备的工作参数用于表征目标操作设备对目标进行操作的参数。示例性地,目标操作设备为具有末端执行器和至少一个关节的机械臂时,目标操作设备的工作参数包括但不限于:关节角度、关节线速度、关节角速度、目标操作设备的负载、末端执行器位置和姿态等信息。
可以理解地,结合目标操作设备的工作参数和场景图像数据,可以通过人工或自动计算得到目标操作设备操作标注目标时,较为合理(如成功率最高)的目标操作位置和/或目标操作角度,有利于合理地得出符合实际要求的场景图像数据的标注的目标可受性数据,进而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,可以从真实场景的待处理图像中合理地确定出目标的可操作性。
在一实施方式中,上述第四数据还包括目标操作设备执行的任务类型,目标操作设备执行的任务类型可以根据实际需求设置;示例性地,目标操作设备执行的任务类型可以是抓取、推动或其它任务类型。
下面分别从抓取任务和推动任务的角度进行示例说明。
对于抓取任务,可以根据目标的几何形状进行确定目标的抓取位置和/或抓取角度,例如,对于长方体或类似长方体的物体,可以将短边方向作为抓取方向,进而确定抓取位置和/或抓取角度;对于球形物体,可以将任意角度作为抓取角度;这里的抓取角度为上述目标操作角度。
对于推动任务,需要预先确定需要推动的目标、以及推动目的地,这样,可以根据需要推动的目标、以及推动目的地之间的连线,确定目标的推动位置和推动角度。
可以理解地,结合目标操作设备执行的任务类型,有利于合理地得出符合任务要求的场景图像数据的标注的目标可受性数据,进而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,可以从真实场景的待处理图像中合理地确定出符合任务需求目标的可操作性;进一步地,本公开实施例可以针对目标操作设备执行的各种任务类型,生成场景图像数据的标注的目标可受性数据,进而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,可以适用于目标操作设备的各种任务类型,适用范围较广。
在一实施方式中,上述仿真环境是在初始仿真环境的基础上通过领域随机化(Domain Randomization)方法得出的。
在实际应用中,初始仿真环境的建立方式可以参照上述仿真环境的建立方式,这里不再赘述。在得到初始仿真环境后,可以采用领域随机化(Domain Randomization)方法随机更改初始仿真环境中的信息,得到仿真环境。例如,在建立初始仿真环境后,可以采用领域随机化方法对以下至少一项进行随机更改:目标的数量、目标的类型、背景环境信息、环境光照的强度、环境光照的方向、目标操作设备的工作参数、图像采集设备的位置、图像采集设备的拍摄角度,具体的示例中,背景环境信息包括但不限于场景中地面的颜色、场景中地面的纹理、桌子的颜色、桌子的纹理或其它信息,在对初始仿真环境更改后,便得到仿真环境。
可以看出,由于初始仿真环境与真实场景可能存在细微的差异,而采用领域随机化方法对初始仿真环境进行更改,有利于使得仿真环境与真实场景更加符合,进而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,可以针对真实场景的待处理图像,准确地得出目标的可操作性。
对于根据第三数据得出场景图像数据的标注的目标可受性数据的实现方式,示例性地,可以将仿真环境中的目标操作位置和/或目标操作角度代入至预设的概率分布函数中,得出场景图像数据的标注的目标可受性数据。
本公开实施例中,预设的概率分布函数可以是高斯分布函数或其它概率分布函数,在实际应用中,可以根据实际需求设置概率分布函数。
可以看出,由于场景图像数据的标注的目标可受性数据是根据概率分布函数得出的,而概率分布函数可以根据实际需求进行设置,因而,基于场景图像数据的标注的目标可受性数据训练得到的神经网络对待处理图像进行处理后,得到的目标可受性数据更加符合实际需求。
进一步地,还可以获取上述概率分布函数的多个候选参数;针对每个候选参数均可以得出对应的场景图像数据的标注的目标可受性数据;基于每个候选参数进行神经网络的训练后,还可以得出场景图像数据的目标可受性数据。
本公开实施例中,可以根据每个候选参数对应的场景图像数据的标注的目标可受性数据与对应的场景图像数据的目标可受性预测数据的差异值,确定每个候选参数的评分,在确定每个候选参数的评分后,可以根据各个候选参数的评分,选取一个候选参数作为所述概率分布函数的参数。
可以看出,由于概率分布函数的参数是根据各个候选参数的评分确定的,而每个候选参数的评分是根据场景图像数据的标注的目标可受性数据与场景图像数据的目标可受性预测数据的差异值得出的,因而,在从候选参数中选取概率分布函数的参数后,基于该选取的参数训练的神经网络能够更加准确地处理真实场景的待处理图像。
在一实施方式中,候选参数的评分与所述差异值成负相关,即,每个候选参数对应的场景图像数据的标注的目标可受性数据与对应的场景图像数据的目标可受性预测数据的差异值越小时,则候选参数的评分越高,每个候选参数对应的场景图像数据的标注的目标可受性数据与对应的场景图像数据的目标可受性预测数据的差异值越大时,则候选参数的评分越低。
对于根据各个候选参数的评分,选取一个候选参数作为所述概率分布函数的参数的实现方式,示例性地,可以在各个候选参数中,选取评分最高的候选参数作为所述概率分布函数的参数。
可以看出,候选参数评分最高时,场景图像数据的标注的目标可受性数据与场景图像数据的目标可受性预测数据的差异值最小,因而,基于该选取的参数训练的神经网络能够更加准确地处理真实场景的待处理图像。
在一实施方式中,场景图像数据的标注的目标可受性数据和待处理图像的目标可受性数据是基于三维物理空间得出的数据。
在实际应用中,可以在三维物理空间中定义场景图像数据的标注的目标可受性数据和待处理图像的目标可受性数据,对于相同的仿真环境或真实场景,由于在三维物理空间中定义场景图像数据的标注的目标可受性数据,因而,场景图像数据的标注的目标可受性数据或待处理图像的目标可受性数据是相同的;具体地,场景图像数据的标注的目标可受性数据或待处理图像的目标可受性数据与图像采集设备的拍摄参数无关,图像采集设备处于不同位置或不同拍摄角度时,对于相同的仿真环境或真实场景,得出的场景图像数据的标注的目标可受性数据或待处理图像的目标可受性数据是相同的。
在相关技术中,通常在图像空间中定义场景图像数据的标注的目标可受性数据和待处理图像的目标可受性数据,因而需要对图像采集设备和目标操作设备进行位置标定,并根据位置标定后的图像采集设备和目标操作设备,将场景图像数据的标注的目标可受性数据转换至图像空间,在利用神经网络得出待处理图像的目标可受性数据后,同样需要进行位置标定和坐标转换,实现较为复杂并且运算量较大。而在本公开实施例中,由于场景图像数据的标注的目标可受性数据是基于物理空间得出的数据,因而,在训练数据采集和神经网络应用阶段,均无需进行位置标定和坐标转换,从而,实现较为简单并且运算量较小。
在一实施方式中,三维物理空间的三个维度可包括在水平面的X方向位置和Y方向位置,还可包括目标操作设备的操作角度,场景图像数据的标注的目标可受性数据或待处理图像的目标可受性数据包括:可操作点的水平面位置坐标和/或可操作点的操作角度。例如,目标操作设备的操作位置可以是机械臂的末端执行器的位置,目标操作设备的操作位置的高度可以是已知且固定不变的。
在相关技术中,通常仅在二维空间中定义场景图像数据的标注的目标可受性数据和待处理图像的目标可受性数据,因而,基于训练完成的神经网络进行目标的操作时,目标操作设备不能通过一次尝试准确地得出目标的可操作性数据,需要通过运算并进行多次尝试,才能得出合理的目标操作,实现较为复杂且运算量较大;而在本公开实施例中,由于场景图像数据的标注的目标可受性数据和待处理图像的目标可受性数据,不仅可包括可操作点的水平面位置坐标,还可包括可操作点的操作角度,因而,因而,场景图像数据的标注的目标可受性数据可以更加精确地反映仿真环境的目标操作性,待处理图像的目标可受性数据可以更加精确地反映真实环境的目标操作性,因而,便于后续快速且准确地进行目标的操作。
在一实施方式中,还可以根据待处理图像的目标可受性数据,生成目标操作指令。如此,便于后续进行针对目标的操作。
对于根据待处理图像的目标可受性数据,生成目标操作指令的实现方式,示例性地,可以根据待处理图像的目标可受性数据,确定成功率最高的目标操作,根据成功率最高的目标操作,生成目标操作指令;
在实际实施时,待处理图像的目标可受性数据可以包括针对目标的多种目标操作,针对目标的多种目标操作可以是操作位置不同的目标操作,也可以操作角度不同的目标操作。
在得出待处理图像的目标可受性数据后,得出待处理图像的目标可受性数据可以包括:目标操作位置和/或目标操作角度、以及与目标操作位置和/或目标操作角度对应的目标操作成功率。具体地,在仿真环境中,场景图像数据的标注的目标可受性数据可以包括:场景图像数据的标注的目标可受性数据表征的各种目标操作的成功率,如此,基于场景图像数据的标注的目标可受性数据训练得到的神经网络,得出的待处理图像的目标可受性数据中,可以包括待处理图像的目标可受性数据表征的各种目标操作的成功率。
可以理解地,根据成功率最高的目标操作,生成目标操作指令,可以提高目标操作成功的可能性。
本公开实施例中,在利用电子设备生成目标操作指令后,电子设备还可以将目标操作发送至目标操作设备,目标操作设备接收到目标操作指令后,可以根据目标操作指令操作目标。
图3为基于本公开实施例的图像处理方法操作目标的整体流程图,在利用图像采集设备采集到待处理图像后,将待处理图像输入至神经网络,神经网络对待处理图像进行处理后,输出三维的可操作性响应图;然后,可以对三维的可操作性响应图进行评估,确定出成功率最高的目标操作;根据成功率最高的目标操作得出目标操作指令,将目标操作指令发送至目标操作设备,以实现对目标的操作。
图4为本公开实施例的神经网络训练方法的流程图,如图4所示,该流程可以包括:
步骤401:将第一数据输入至神经网络;利用所述神经网络对第一数据进行处理,得到所述场景图像数据的目标可受性预测数据。
步骤402:根据所述场景图像数据的目标可受性预测数据、以及所述第二数据,调整所述神经网络的网络参数值。
步骤403:判断网络参数值调整后的神经网络是否满足训练结束条件,如果否,则重新执行步骤401至步骤403,如果是,则执行步骤404。
步骤404:将网络参数值调整后的神经网络作为训练完成的神经网络。
作为一种实施方式,在将第一数据输入至神经网络前,这里的神经网络可以是未经训练的神经网络,也可以是经过神经网络训练,但所述训练不包含本公开的训练内容的神经网络。
对于步骤402的实现方式,示例性地,可以根据场景图像数据的目标可受性预测数据与场景图像数据的标注的目标可受性数据之间的差异,以减少该差异为目标来调整所述神经网络的网络参数值,其中,该差异可以通过神经网络的损失函数值来描述。具体的损失函数值确定方法可以根据神经网络的类型确定,本公开实施例不做限定。
这里,训练结束条件可以是调整神经网络的网络参数的次数等于设定迭代次数,也可以是神经网络的损失函数达到收敛条件,当然,训练结束条件也可以是在固定的测试集上测试达到设定的准确率。这里,设定迭代次数表示调整神经网络的网络参数的次数的最大值,设定迭代次数为大于1的整数;收敛条件可以是调整神经网络的损失函数的值小于设定损失,设定损失可以根据实际应用需求预先设置。需要说明的是,上述仅仅是对训练结束条件进行了示例性说明,本公开实施例的训练结束条件并不局限于此;设定的准确率可以是预先设置的百分比值,具体地,设定的百分比值可以是50%及大于50%的值。
可以看出,本公开实施例中,通过神经网络的训练,可以得到用于图像处理的神经网络,从而,针对真实场景的待处理图像得到相应的目标可受性数据。
本公开实施例中,输入至神经网络的图像可以表示为I,利用神经网络得出的目标可受性预测数据可以表示为三维的可操作性响应图Y,神经网络对待处理图像的处理可以通过以下公式(2)进行说明:
Y=fθ(I) (2)
其中,fθ(I)表示对输入至神经网络的图像进行图像处理的函数,θ表示神经网络的网络参数。
在三维的可操作性响应图Y中,点(i,j,k)的值Yijk表示点(i,j,k)对应的目标操作成功率。
在对神经网络进行训练时,可以基于随机梯度下降法或其它方法进行训练。在一个示例中,神经网络的损失函数可以通过以下公式(3)计算得出:
Figure BDA0002352232890000181
其中,H和W分别表示三维的可操作性响应图在水平面的长度和宽度,在实际应用中,可以将[0,π]划分为A个角度区间,A表示角度区间的个数,A为大于2的整数。
在另一个示例中,神经网络的损失函数可以通过以下公式(4)计算得出:
Figure BDA0002352232890000182
其中,Mijk可以通过以下公式(5)计算得出:
Figure BDA0002352232890000191
其中,s表示三维的可操作性响应图Y中的点(i,j,k),s*表示预先标注的目标操作位置和角度;s*=(x*,y*,r*),其中,x*和y*表示目标操作位置在水平面的投影坐标,r*表示标注的操作角度;L(s,s*)表示向量(i,j,k)与向量(x*,y*,r*)之间的欧式距离,C为常数,例如,C等于100。
在一个示例中,在对神经网络进行训练的过程中,可以使用Adam优化器进行训练,学习率设定为10e-4,批(Batch)的大小为32,其它参数可以进行随机初始化设定。
在对待处理进行图像处理,得到三维的可操作性响应图Y后,可以根据以下公式(6)得出成功率最高的目标操作:
Figure BDA0002352232890000192
其中,h表示成功率最高的目标操作的位置的水平面X轴坐标,w表示成功率最高的目标操作的位置的水平面Y轴坐标,a表示成功率最高的目标操作的操作角度。
本公开实施例中,还对本公开的图像处理方法和其它得出目标可受性数据的现有方法进行了比较,如表1所示。
方法 单目标抓取成功率
方法一 59.8%
方法二 89.2%
方法三 91.0%
本方法 97.2%
表1
表1表示采用几种方法得到的单目标抓取的成功率的对比表,表1中,方法一表示在真实场景中使用试错法采集机械臂抓取数据,并用该数据训练神经网络,以及利用该神经网络得出目标可操作性数据的方法;方法二表示使用真实数据集训练神经网络,以及利用该神经网络得出目标可操作性数据的方法;方法三表示在仿真环境中使用试错法采集机械臂抓取数据集,然后训练神经网络,以及利用该神经网络得出目标可操作性数据的方法;本方法表示本公开实施例的图像处理方法,可以看出,与其它的现有技术相比,本公开实施例的图像处理方法具有最高的单目标抓取的成功率。
本公开实施例中,参数σ对计算点(i,j,k)的值起到重要作用,σ可以用于表征三维的可操作性响应图可操作点的大小;当σ较大时,基于训练完成的神经网络进行图像处理时,待处理图像的目标可受性数据容易出现错误,具体可以表现为待处理图像对应的三维的可操作性响应图中,可操作点区域较大;当σ较大时,在场景图像数据的标注的目标可受性数据中,预先标注的目标操作位置和角度会显得较为稀疏,导致增大了神经网络的训练难度。
针对上述问题,可以基于前述实施例记载的方法,在σ的候选集φ中选取出评分最高的σ。在一个具体的示例中,对于任意的σr∈φ,可以通过N1代(epoch)训练,可以得到训练完成的神经网络,这里,使用训练数据集的全部数据对神经网络进行一次完整训练,称为进行一代训练;利用训练完成的神经网络对所述待处理图像进行图像处理,可以得到σr对应的待处理图像的目标可受性数据;然后,根据以下公式(7)计算出σr的评分:
Figure BDA0002352232890000201
其中,μ为常数,
Figure BDA00023522328900002013
表示基于参数σr得出的损失函数的损失值,
Figure BDA0002352232890000202
表征神经网络的收敛性,当σr较大时,例如,σr大于或等于设定的σ值时,
Figure BDA0002352232890000203
为一个较小值,例如,
Figure BDA0002352232890000204
小于第一设定收敛参数值;当σr较小时,例如,σr小于设定的σ值时,
Figure BDA0002352232890000205
为一个较大值,例如,
Figure BDA0002352232890000206
大于或等于第二设定收敛参数值,第一设定收敛参数值小于第二设定收敛参数值。在一个具体的示例中,
Figure BDA0002352232890000207
为固定值255,当σr大于或等于设定的σ值时,
Figure BDA0002352232890000208
接近于255,例如,
Figure BDA0002352232890000209
的取值范围为251至254;当σr小于设定的σ值时,
Figure BDA00023522328900002010
接近于0,例如,
Figure BDA00023522328900002011
的取值范围为1至4。
根据前述记载的内容,可以在σ的候选集φ中选取出评分最高的候选参数,然后,可以将评分最高的候选参数作为公式(1)中高斯分布的参数;
在一个示例中,在将评分最高的候选参数作为公式(1)中高斯分布的参数后,可以进行N2个epoch的训练,得到训练完成的神经网络,N2大于N1,例如,N1等于4,N2等于40。
在一个具体的示例中,在σ的候选集φ中选取出评分最高的候选参数的效果可以通过表2进行说明。
Figure BDA00023522328900002012
Figure BDA0002352232890000211
表2
表2为采用几种方法得到的单目标抓取和多目标抓取的成功率的对比表,表2中,可受空间感知网络(Affordance Space Perception Network,ASPN)(σ=1)、ASPN(σ=6)和本方法均表示本公开实施例的图像处理方法,但是ASPN(σ=1)对应的σ的取值为1,ASPN(σ=6)对应的σ的取值为6,本方法对应的σ的取值为按照前述实施例记载的内容选取出的评分最高的候选参数;通过表2可以看出,对于单目标抓取和多目标抓取,与其他方法相比,通过在σ的候选集φ中选取出评分最高的候选参数均具有最高的抓取成功率。
在前述实施例提出的图像处理方法的基础上,本公开实施例提出了一种图像处理装置。
图5为本公开实施例的图像处理装置的组成结构示意图,如图5所示,该装置可以包括:第一处理模块501和第二处理模块502,其中,
第一处理模块501,用于将待处理图像输入至神经网络,所述神经网络是基于第一数据和第二数据训练得到的,所述第一数据表示仿真环境的场景图像数据,所述第二数据表示所述场景图像数据的标注的目标可受性数据,所述目标可受性数据用于表征目标的可操作性;
第二处理模块502,用于基于所述神经网络对所述待处理图像进行图像处理,得到待处理图像的目标可受性数据。
可选地,所述神经网络是基于以下步骤训练得到的:
将第一数据输入至神经网络;
利用所述神经网络对第一数据进行处理,得到所述场景图像数据的目标可受性预测数据;
根据所述场景图像数据的目标可受性预测数据、以及所述第二数据,调整所述神经网络的网络参数值;
重复执行上述步骤,直至网络参数值调整后的神经网络满足训练结束条件,得到训练完成的神经网络。
可选地,所述仿真环境包括:图像采集设备和至少一个目标;所述场景图像数据包括:所述图像采集设备采集的图像数据。
可选地,所述仿真环境包括:目标操作设备;
所述第一处理模块501,还用于在将待处理图像输入至神经网络之前,根据第三数据得出场景图像数据的标注的目标可受性数据,所述第三数据包括:仿真环境中标注的目标操作位置和/或目标操作角度。
可选地,所述第一处理模块501,用于将所述仿真环境中的目标操作位置和/或目标操作角度代入至预设的概率分布函数中,得出所述场景图像数据的标注的目标可受性数据。
可选地,所述第一处理模块501,还用于获取所述概率分布函数的多个候选参数;根据每个候选参数对应的场景图像数据的标注的目标可受性数据与对应的场景图像数据的目标可受性预测数据的差异值,确定每个候选参数的评分;根据各个候选参数的评分,选取一个候选参数作为所述概率分布函数的参数。
可选地,所述候选参数的评分与所述差异值成负相关,所述第一处理模块501,用于在各个候选参数中,选取评分最高的候选参数作为所述概率分布函数的参数。
可选地,所述目标操作位置和/或目标操作角度是根据第四数据、以及所述场景图像数据得出的,所述第四数据包括:目标操作设备的工作参数。
可选地,所述第四数据还包括:目标操作设备执行的任务类型。
可选地,所述仿真环境是在初始仿真环境的基础上通过领域随机化方法得出的。
可选地,所述场景图像数据的标注的目标可受性数据和待处理图像的目标可受性数据是基于三维物理空间得出的数据。
可选地,所述场景图像数据的标注的目标可受性数据或待处理图像的目标可受性数据包括:可操作点的水平面位置坐标和/或可操作点的操作角度。
可选地,所述第二处理模块502,还用于根据所述待处理图像的目标可受性数据,生成目标操作指令。
可选地,所述第二处理模块502,用于根据所述待处理图像的目标可受性数据,确定成功率最高的目标操作,根据所述成功率最高的目标操作,生成目标操作指令。
可选地,所述第二处理模块502,用于将所述待处理图像输入所述神经网络进行编码处理,得到表示待处理图像中的可操作性信息的特征向量;根据所述特征向量进行解码处理,得到待处理图像的目标可受性数据。
实际应用中,第一处理模块501和第二处理模块502均可以利用电子设备中的处理器实现,上述处理器可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。
另外,在本实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
具体来讲,本实施例中的一种图像处理方法对应的计算机程序指令可以被存储在光盘,硬盘,U盘等存储介质上,当存储介质中的与一种图像处理方法对应的计算机程序指令被一电子设备读取或被执行时,实现前述实施例的任意一种图像处理方法。
基于前述实施例相同的技术构思,参见图6,其示出了本公开实施例提供的一种电子设备600,可以包括:存储器601和处理器602;其中,
所述存储器601,用于存储计算机程序和数据;
所述处理器602,用于执行所述存储器中存储的计算机程序,以实现前述实施例的任意一种图像处理方法。
在实际应用中,上述存储器601可以是易失性存储器(volatile memory),例如RAM;或者非易失性存储器(non-volatile memory),例如ROM,快闪存储器(flash memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,并向处理器602提供指令和数据。
上述处理器602可以为ASIC、DSP、DSPD、PLD、FPGA、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的增强现实云平台,用于实现上述处理器功能的电子器件还可以为其它,本公开实施例不作具体限定。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述
本申请所提供的各方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的各产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的各方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本公开各个实施例所述的方法。
上面结合附图对本公开的实施例进行了描述,但是本公开并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本公开的启示下,在不脱离本公开宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本公开的保护之内。

Claims (18)

1.一种图像处理方法,其特征在于,所述方法包括:
将待处理图像输入至神经网络,所述神经网络是基于第一数据和第二数据训练得到的,所述第一数据表示仿真环境的场景图像数据,所述第二数据表示所述场景图像数据的标注的目标可受性数据,所述目标可受性数据用于表征目标的可操作性;
基于所述神经网络对所述待处理图像进行图像处理,得到待处理图像的目标可受性数据。
2.根据权利要求1所述的方法,其特征在于,所述神经网络是基于以下步骤训练得到的:
将第一数据输入至神经网络;
利用所述神经网络对第一数据进行处理,得到所述场景图像数据的目标可受性预测数据;
根据所述场景图像数据的目标可受性预测数据、以及所述第二数据,调整所述神经网络的网络参数值;
重复执行上述步骤,直至网络参数值调整后的神经网络满足训练结束条件,得到训练完成的神经网络。
3.根据权利要求1或2所述的方法,其特征在于,所述仿真环境包括:图像采集设备和至少一个目标;所述场景图像数据包括:所述图像采集设备采集的图像数据。
4.根据权利要求3所述的方法,其特征在于,所述仿真环境包括:目标操作设备;
所述方法还包括:在将待处理图像输入至神经网络之前,根据第三数据得出场景图像数据的标注的目标可受性数据,所述第三数据包括:仿真环境中标注的目标操作位置和/或目标操作角度。
5.根据权利要求4所述的方法,其特征在于,所述根据第三数据得出场景图像数据的标注的目标可受性数据,包括:将所述仿真环境中的目标操作位置和/或目标操作角度代入至预设的概率分布函数中,得出所述场景图像数据的标注的目标可受性数据。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述概率分布函数的多个候选参数;
根据每个候选参数对应的场景图像数据的标注的目标可受性数据与对应的场景图像数据的目标可受性预测数据的差异值,确定每个候选参数的评分;
根据各个候选参数的评分,选取一个候选参数作为所述概率分布函数的参数。
7.根据权利要去6所述的方法,其特征在于,所述候选参数的评分与所述差异值成负相关,所述根据各个候选参数的评分,选取一个候选参数作为所述概率分布函数的参数,包括:
在各个候选参数中,选取评分最高的候选参数作为所述概率分布函数的参数。
8.根据权利要求4所述的方法,其特征在于,所述目标操作位置和/或目标操作角度是根据第四数据、以及所述场景图像数据得出的,所述第四数据包括:目标操作设备的工作参数。
9.根据权利要求8所述的方法,其特征在于,所述第四数据还包括:目标操作设备执行的任务类型。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述仿真环境是在初始仿真环境的基础上通过领域随机化方法得出的。
11.根据权利要求1所述的方法,其特征在于,所述场景图像数据的标注的目标可受性数据和待处理图像的目标可受性数据是基于三维物理空间得出的数据。
12.根据权利要求11所述的方法,其特征在于,所述场景图像数据的标注的目标可受性数据或待处理图像的目标可受性数据包括:可操作点的水平面位置坐标和/或可操作点的操作角度。
13.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待处理图像的目标可受性数据,生成目标操作指令。
14.根据权利要求13所述的方法,其特征在于,所述根据所述待处理图像的目标可受性数据,生成目标操作指令,包括:
根据所述待处理图像的目标可受性数据,确定成功率最高的目标操作,根据所述成功率最高的目标操作,生成目标操作指令。
15.根据权利要求1所述的方法,其特征在于,所述基于所述神经网络对所述待处理图像进行图像处理,得到待处理图像的目标可受性数据,包括:
将所述待处理图像输入所述神经网络进行编码处理,得到表示待处理图像中的可操作性信息的特征向量;
根据所述特征向量进行解码处理,得到待处理图像的目标可受性数据。
16.一种图像处理装置,其特征在于,所述装置包括:第一处理模块和第二处理模块,其中,
第一处理模块,用于将待处理图像输入至神经网络,所述神经网络是基于第一数据和第二数据训练得到的,所述第一数据表示仿真环境的场景图像数据,所述第二数据表示所述场景图像数据的标注的目标可受性数据,所述目标可受性数据用于表征目标的可操作性;
第二处理模块,用于基于所述神经网络对所述待处理图像进行图像处理,得到待处理图像的目标可受性数据。
17.一种电子设备,其特征在于,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行权利要求1至15任一项所述的图像处理方法。
18.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至15任一项所述的图像处理方法。
CN201911420421.9A 2019-12-31 2019-12-31 图像处理方法、装置、电子设备和存储介质 Active CN111178299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911420421.9A CN111178299B (zh) 2019-12-31 2019-12-31 图像处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911420421.9A CN111178299B (zh) 2019-12-31 2019-12-31 图像处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111178299A true CN111178299A (zh) 2020-05-19
CN111178299B CN111178299B (zh) 2023-04-07

Family

ID=70652451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911420421.9A Active CN111178299B (zh) 2019-12-31 2019-12-31 图像处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111178299B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223028A (zh) * 2022-06-02 2022-10-21 支付宝(杭州)信息技术有限公司 场景重建及模型训练方法、装置、设备、介质及程序产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107443384A (zh) * 2017-09-15 2017-12-08 深圳市唯特视科技有限公司 一种转换仿真结果到真实世界的视觉运动控制方法
CN108229478A (zh) * 2017-06-30 2018-06-29 深圳市商汤科技有限公司 图像语义分割及训练方法和装置、电子设备、存储介质和程序
US10131051B1 (en) * 2016-08-12 2018-11-20 Amazon Technologies, Inc. Anticipation-based robotic object grasping
US20190022863A1 (en) * 2017-07-20 2019-01-24 Tata Consultancy Services Limited Systems and methods for detecting grasp poses for handling target objects
CN109584298A (zh) * 2018-11-07 2019-04-05 上海交通大学 面向机器人自主物体拾取任务的在线自学习方法
CN109800864A (zh) * 2019-01-18 2019-05-24 中山大学 一种基于图像输入的机器人主动学习方法
CN109997108A (zh) * 2016-07-18 2019-07-09 L·奥德纳 训练机器人操作臂
CN110293552A (zh) * 2018-03-21 2019-10-01 北京猎户星空科技有限公司 机械臂控制方法、装置、控制设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109997108A (zh) * 2016-07-18 2019-07-09 L·奥德纳 训练机器人操作臂
US10131051B1 (en) * 2016-08-12 2018-11-20 Amazon Technologies, Inc. Anticipation-based robotic object grasping
CN108229478A (zh) * 2017-06-30 2018-06-29 深圳市商汤科技有限公司 图像语义分割及训练方法和装置、电子设备、存储介质和程序
US20190022863A1 (en) * 2017-07-20 2019-01-24 Tata Consultancy Services Limited Systems and methods for detecting grasp poses for handling target objects
CN107443384A (zh) * 2017-09-15 2017-12-08 深圳市唯特视科技有限公司 一种转换仿真结果到真实世界的视觉运动控制方法
CN110293552A (zh) * 2018-03-21 2019-10-01 北京猎户星空科技有限公司 机械臂控制方法、装置、控制设备及存储介质
CN109584298A (zh) * 2018-11-07 2019-04-05 上海交通大学 面向机器人自主物体拾取任务的在线自学习方法
CN109800864A (zh) * 2019-01-18 2019-05-24 中山大学 一种基于图像输入的机器人主动学习方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DIRK KRAFT等: ""Learning Objects and Grasp Affordances through Autonomous Exploration"", 《ICVS 2009: COMPUTER VISION SYSTEMS》 *
J. CAI等: ""MetaGrasp: Data Efficient Grasping by Affordance Interpreter Network"", 《2019 INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA)》 *
S. JAMES等: ""Sim-To-Real via Sim-To-Sim: Data-Efficient Robotic Grasping via Randomized-To-Canonical Adaptation Networks"", 《ARXIV:1812.07252V3》 *
刘理想: ""基于DNN的服务机器人抓取位姿估计"", 《中国优秀博硕士学位论文全文数据库(硕士)·信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223028A (zh) * 2022-06-02 2022-10-21 支付宝(杭州)信息技术有限公司 场景重建及模型训练方法、装置、设备、介质及程序产品
CN115223028B (zh) * 2022-06-02 2024-03-29 支付宝(杭州)信息技术有限公司 场景重建及模型训练方法、装置、设备、介质及程序产品

Also Published As

Publication number Publication date
CN111178299B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111738261B (zh) 基于位姿估计和校正的单图像机器人无序目标抓取方法
KR101791590B1 (ko) 물체 자세 인식장치 및 이를 이용한 물체 자세 인식방법
WO2020033822A1 (en) Capture and adaptive data generation for training for machine vision
US11475589B2 (en) 3D pose estimation by a 2D camera
CN111127548B (zh) 抓取位置检测模型训练方法、抓取位置检测方法及装置
CN111274943A (zh) 一种检测方法、装置、电子设备及存储介质
US11554496B2 (en) Feature detection by deep learning and vector field estimation
JP5833507B2 (ja) 画像処理装置
CN113034581B (zh) 基于深度学习的空间目标相对位姿估计方法
CN112947458B (zh) 基于多模态信息的机器人准确抓取方法及计算机可读介质
CN112085789A (zh) 位姿估计方法、装置、设备及介质
CN114387513A (zh) 机器人抓取方法、装置、电子设备及存储介质
US20220402125A1 (en) System and method for determining a grasping hand model
CN114049318A (zh) 一种基于多模态融合特征的抓取位姿检测方法
CN116503399A (zh) 基于yolo-afps的绝缘子污闪检测方法
Lei et al. Radial coverage strength for optimization of monocular multicamera deployment
CN115082498A (zh) 一种机器人抓取位姿估计方法、装置、设备及存储介质
Billings et al. SilhoNet-fisheye: Adaptation of a ROI based object pose estimation network to monocular fisheye images
CN111178299B (zh) 图像处理方法、装置、电子设备和存储介质
US20210314551A1 (en) 3d pose detection by multiple 2d cameras
US11790642B2 (en) Method for determining a type and a state of an object of interest
Lin 3D object detection and 6D pose estimation using RGB-D images and mask R-CNN
Yamada et al. Pose estimation of a simple-shaped object based on poseclass using RGBD camera
CN112991445A (zh) 模型训练方法、姿态预测方法、装置、设备及存储介质
Drögemüller et al. Automatic generation of realistic training data for learning parallel-jaw grasping from synthetic stereo images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant