CN112287955A - 基于图像的处理、训练、前景提取方法、装置及系统 - Google Patents
基于图像的处理、训练、前景提取方法、装置及系统 Download PDFInfo
- Publication number
- CN112287955A CN112287955A CN201910673026.5A CN201910673026A CN112287955A CN 112287955 A CN112287955 A CN 112287955A CN 201910673026 A CN201910673026 A CN 201910673026A CN 112287955 A CN112287955 A CN 112287955A
- Authority
- CN
- China
- Prior art keywords
- image
- foreground
- target
- model
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 75
- 238000000605 extraction Methods 0.000 title claims abstract description 72
- 238000012545 processing Methods 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 89
- 238000003672 processing method Methods 0.000 claims abstract description 23
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000012636 effector Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001617 migratory effect Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种基于图像的处理、训练、前景提取方法、装置及系统。其中,基于图像的处理方法包括:获取包括前景的初始图像;其中,所述前景代表目标物;提取所述初始图像中的前景,生成只包括所述前景或单一背景的目标图像;获取目标模型;将所述目标图像输入所述目标模型中,输出目标结果。采用本发明的技术方案,可以提高在各种复杂背景情况下生成的目标结果的精度。
Description
技术领域
本申请涉及人工智能技术领域,特别是一种基于图像的处理、训练、前景提取方法、装置及系统。
背景技术
随着科技水平的提高,整个社会都向着智能化、自动化的方向发展。
人工智能为智能体未来发展带来了无限的可能,通过对神经网络模型进行训练,从而使得基于该网络模型控制的智能体能够自主的进行各种学习。
但是应该看到,当物体处于复杂背景下时,基于图像输入的神经网络模型的输出结果还存在一定的问题。
发明内容
基于此,本发明提供一种基于图像的处理、训练、前景提取方法、装置及系统。
本发明提供一种基于图像的处理方法所述方法包括:
获取包括前景的初始图像;其中,所述前景代表目标物;
提取所述初始图像中的前景,生成只包括所述前景或单一背景的目标图像;
获取目标模型;
将所述目标图像输入所述目标模型中,输出目标结果。
优选的,所述提取所述初始图像中的前景包括:
基于前景提取模型提取所述初始图像中的所述前景;或
基于前景提取模型提取所述初始图像中的多个前景;
筛选所述多个前景,得到所述代表目标物的所述前景。
优选的,所述提取所述初始图像中的前景包括:
基于图像处理的方法提取所述初始图像中的所述前景。
优选的,所述提取所述初始图像中的前景包括:
对所述初始图像进行裁剪,得到包围所述目标物的最小包围框的所述目标图像。
优选的,所述目标结果为:
目标物的识别图像;或
目标物的姿态相关的结果;或
目标物关联的轨迹规划相关的结果。
本发明提供一种基于图像的处理的训练方法,所述方法包括:
获取只包括前景或单一背景的第二样本图像集;
获取目标模型的初始模型;
基于所述第二样本图像集,训练所述目标模型的初始模型,得到目标模型;其中,所述目标模型,用于对输入的目标图像,输出目标结果。
本发明提供一种前景提取的训练方法,所述方法包括:
获取包括前景和复杂背景的第一样本图像集;
获取只包括前景或单一背景的第二样本图像集;
获取前景提取模型的初始模型;
基于所述第一样本图像集和所述第二样本图像集,训练所述前景提取模型的初始模型,生成前景提取模型;或
获取包括前景和复杂背景的第一样本图像集;
获取前景提取模型的初始模型;
基于所述第一样本图像集,训练所述前景提取模型的初始模型,生成前景提取模型。
优选的,所述方法包括:
获取初始样本图像集;
分别提取所述始样本图像集,生成第二样本图像集。
优选的,所述方法包括:
将所述前景对应的目标物设置在单一背景的环境下;
采集单一背景下的包括前景的第二样本图像集。
本发明提供一种基于图像的处理装置,所述装置包括:
初始图像获取模块,用于获取包括前景的初始图像;其中,前景代表目标物;
目标图像生成模块,用于提取所述初始图像中的前景,生成只包括所述前景或单一背景的目标图像;
目标模型获取模块,用于获取目标模型;
目标结果生成模块,用于将目标图像输入目标模型中,输出目标结果。
本发明提供一种基于图像的处理训练装置,所述装置包括:
第二样本获取模块,用于获取只包括前景或包括前景且单一背景的第二样本图像集;
目标模型获取模块,用于获取目标模型的初始模型;
目标模型训练模块,用于基于所述第二样本图像集,训练所述目标模型的初始模型,得到目标模型;其中,所述目标模型,用于对输入的目标图像,输出目标结果。
本发明提供一种前景提取训练装置,所述装置包括:
第一样本获取模块,用于获取包括前景和复杂背景的第一样本图像;
初始模型获取模块,用于获取前景提取模型的初始模型;
识别模型训练模块,用于基于第一样本图像集,训练所述前景提取模型的初始模型,得到前景提取模型;或
第一样本获取模块,用于获取包括前景和复杂背景的第一样本图像;
第二样本获取模块,用于获取只包括前景或单一背景的第二样本图像;
初始模型获取模块,用于获取前景提取模型的初始模型;
识别模型训练模块,用于基于所述第一样本图像集和所述第二样本图像集,进行初始模型的训练,得到前景提取模型。
优选的,所述装置包括:
初始样本获取模块,用于获取初始样本图像集;
第二样本生成模块,用于分别提取所述始样本图像集,生成第二样本图像集。
本发明提供一种系统,所述系统包括:
图像传感器,用于采集包括前景的初始图像;
所述控制装置,用于获取所述初始图像;其中,所述前景代表目标物;提取所述初始图像中的前景,生成只包括所述前景或单一背景的所述目标图像;获取目标模型;将所述目标图像输入所述目标模型中,输出目标结果。
本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上面任一项所述的基于图像的处理方法;上述前景提取训练方法;上述基于图像的处理的训练方法;和/或上述第二样本集生成方法。
本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上面任一项所述的基于图像的处理方法;上述前景提取训练方法;上述基于图像的处理的训练方法;和/或上述第二样本集生成方法。
通过预先提取前景,去掉了复杂的背景,在此基础上进行后续的目标结果的生成,可以提高在各种复杂背景情况下生成的目标结果的精度。另外,也可以提高模型的泛化能力。
附图说明
图1为一个实施例中基于图像的处理方法的第一流程示意图;
图2为一个实施例中前景提取训练方法的第一流程示意图;
图3为一个实施例中前景提取训练方法的第二流程示意图;
图4为一个实施例中基于图像的处理的训练方法的第一流程示意图;
图5为一个实施例中第二样本集的生成方法的第一流程示意图;
图6为一个实施例中第二样本集的生成方法的第二流程示意图;
图7为一个实施例中基于图像的处理装置的第一结构框图;
图8为一个实施例中前景提取训练装置的第一结构框图;
图9为一个实施例中前景提取训练装置的第二结构框图;
图10为一个实施例中基于图像的处理的训练装置的第一结构框图;
图11为一个实施例中第二样本集的生成装置的第一结构框图;
图12为一个实施例中系统的第一结构示意图;
图13为一个实施例中计算机设备的结构示意图;
图14为一个实施例中基于图像的处理方法的应用环境的第一结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于图像的处理方法,可以应用于如图14所示的应用环境中,应用环境中可以包括终端600和/或服务器700,终端600通过网络与服务器700进行通信。该方法既可以应用在终端600,也可以应用于服务器700。其中,终端600可以但不限于是各种工业计算机、个人计算机、笔记本电脑、智能手机和平板电脑。服务器700可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图1所示,提供一种基于图像的处理方法,以该方法应用于图14中的终端为例,该方法包括以下步骤:
步骤S110获取包括前景的初始图像;其中,前景代表目标物。
具体的,可以获取通过图像传感器实时采集并发送的包括前景的初始图像;或者从存储器或服务器中获取上述初始图像。
该初始图像通常包括“前景”和“背景”,其中,“前景”为对应目标图像,而除目标物以外的其他部分图像则为“背景”。
其中,“目标物”泛指任何物,包括有生命的个体或没有生命的个体,在有生命的个体中,即可以指动物,也可以指人。
具体的,该初始图像可以包括整个目标物,也可以为目标物在遇到部分被遮挡情况的图像,比如,机械手抓取目标物后对目标物的部分遮挡,物体因为拍摄的视觉角度造成的部分遮挡,或者物体在摆放过程中由其它物体对其造成的真实的部分遮挡。
具体的,目标物可以为静止的物体,也可以为运动中的物体;当为运动中的物体,为了采集运动中的物体的多张初始图像,可以通过但不限于如下方式实现:设置多个图像传感器分别采集运动到不同位置的目标物;图像传感器跟随目标物运动;用一个位置相对固定的图像传感器采集视野范围内的运动物体的多张连续图像,比如:采用具有快速快门的图像传感器,或附带频闪闪光器的图像传感器。
具体的,初始图像可以是2D图像、3D图像(比如:点云图像或深度图像)。图像传感器可以包括但不限于:照相机(比如:RGB彩色相机,深度相机,红外相机)、摄像机、扫描器或其他带有相关功能的设备(手机、计算机等)等等。
步骤S120提取初始图像中的前景,生成只包括前景或单一背景的目标图像。
其中,单一背景的目标图像是指只包括前景和单一背景的目标图像。
具体的,单一背景可以是指背景形成统一的颜色或图案等等。
具体的,提取可以包括但不限于如下方法:
在一个实施例中,可以是将前景按照外轮廓从初始图像中抠出;比如:基于传统的各种图像的处理方法(比如:二值化、边缘检测、连通域等等)识别出初始图像中的前景部分,然后将前景部分抠出;
进一步,在一个实施例中,也可以将上述抠出的前景映射到一个单一背景的预设大小的矩形图像上,从而生成单一背景的目标图像;或者
在一个实施例中,将原本一定大小的初始图像进行一定的裁剪,使得裁剪后的图像为包围目标物的最小包围框图像(比如:初始图像为一张100*200的图像,而裁剪后的图像为50*80大小,则可以将该裁剪后的图像看作上述只包括前景的目标图像);或者
在一个实施例中,对初始图像进行处理使得处理后的图像只包括前景和单一的背景等等。
具体的,可以基于前景提取模型获得(后面实施例会有进一步的描述);或
基于传统的图像处理方法,比如:以二值化图像基于图像的处理方法为例,可以将前景设置为白色,而背景统一调整成黑色。
步骤S130获取目标模型;
从存储器或服务器获取预先经过训练的目标模型;
步骤S140将目标图像输入目标模型中,输出目标结果。
具体的,该目标模型可以为各种实现不同目的现在已有或者将来开发的各种模型;
在一个实施例中,该目标模型可以为目标物识别模型(比如:语义分割模型、目标检测模型),即根据输入的目标图像,输出目标物的识别图像,比如;通过语义分割模型输出目标物的识别图像,语义分割方法在处理图像时,是将图像中每个像素分配到某个对象类别;或基于目标检测模型输出包括包围目标物的包围框的图像。
在一个实施例中,步骤S120前景提取可以为上面实施例所述的对初始图像的裁剪。
在一个实施例中,该目标模型为姿态识别相关的模型,该目标结果为姿态识别相关的结果;
具体的,该姿态识别相关的结果可以但不限于是:目标物的二维坐标信息;目标物的三维姿态信息;目标图像中目标物关联的特征信息(比如:某些特征线和/或特征点);或第一部分三维姿态信息和预处理信息的结合等等。
其中,目标物的二维坐标信息或目标物的三维姿态信息是指通过模型直接得到目标物的三维姿态信息或二维坐标信息;而对于得到的目标物关联的特征信息的识别结果,还需要后续进一步的处理方法(比如:结合目标物的3D模型),才能根据图像中的二维的特征信息结果得到最终目标物的姿态识别结果;目标物的第一部分三维姿态信息和预处理信息的结合是指通过模型直接输出部分目标物的三维姿态信息,另外一部分为预处理结果,需要对预处理识别结果进行进一步的处理,才能得到最终的目标物的整体的三维姿态信息,比如:基于模型输出目标物的旋转姿态和目标物的包括框(该包围框即为预处理结果),需要再根据包围框提取目标物的位置信息,从而得到整个目标物的姿态信息;
具体的,三维姿态信息可以为针对目标物的预设坐标系的3d坐标;刚体在3维空间的运动可以用3d坐标(共6个自由度)描述,具体的,可以分为旋转和平移,各为3个自由度。刚体在3维空间的平移是普通的线性变换,可以使用一个3x1的向量描述平移位置;而旋转姿态常用的描述方式包括但不限于:旋转矩阵、旋转向量、四元数、欧拉角和李代数。
具体的,该特征信息的识别结果可以但不限于:关键点和/或关键线的2d坐标,其中,关键线的2d坐标是由多个连续的关键点的2d坐标组合而成;或为叠加关键点和/或关键线标注后的图像数据;或为用于提取上述关键点和/或关键线的预测图。
具体的,关键线可以但不限于是:根据物体的CAD等模型设定的目标物的一些显著边缘线,甚至可以扩展定义为一些关键线的组合,甚至是多个关键线组合起来得到的某个几何图形。
具体的,该关键点可以为归属目标物上的关键点;或者为归属包围目标物的包围框的关键点;在一个实施例中,当该关键点识别结果为归属包围目标物的包围框的关键点的姿态识别结果。具体的,可以为包围目标物的3d包围框的8个顶点在2d图像上的投影点的2d坐标;或者模型可以直接输出叠加投影点或包括框标注后的图像数据;在一个实施例中,除上述8个顶点外还可以加上目标物的中心点(即一共9个关键点)。在一个实施例中,当识别结果为图像数据中目标物关联的特征信息的识别结果,还需要对特征信息进行进一步处理,从而得到目标物的三维姿态信息。
由于基于前景图像进行姿态识别,省略了复杂的背景,因此可以提高在各种复杂背景情况下识别出目标物的姿态的精度。
在一个实施例中,该目标模型为轨迹规划模型,该目标结果为目标物关联的轨迹规划相关的结果;
具体的,以机械手抓取某一物体为例,该目标物可以为机械手的末端执行器和/或待抓取的物体,即可以将包括代表机械手的末端执行器和/或待抓取的物体的前景图像,输入轨迹规划模型,从而生成机械手的规划轨迹的指令;
具体的,规划轨迹的行为可以包括但不限于:从散装物或规则排列的物中抓取目标物的轨迹规划;装配目标物的轨迹规划;放下目标物的轨迹规划,从一个位置运动到另一个位置的轨迹规划,或在运动中障碍物的躲避;抓取静止或运动中的物体的轨迹规划;或者上述各个轨迹规划中的部分或全部动作的组合。
在一个实施例中,该轨迹规划的指令可以为达到目标位置或者实现某一目标动作由机械手需到达的多个目标点的位置或位姿组成的一条完整的轨迹;或者该轨迹规划的指令可以为为了使得机械手到达上述多个目标点的位置或位姿而直接生成的机械手的各个驱动单元的控制脉冲调整方波(PWM)、电流或速率等等,将生成的相关指令发送给机械手的各个驱动单元的控制器。
进一步,在一个实施例中,上述基于图像的处理方法还可以包括以下步骤:
步骤S150将目标结果发送给展示器进行展示。
具体的,可以只将目标结果发送给展示器进行展示;或者将叠加或附加目标结果的初始图像或目标图像发送给展示器进行展示。
具体的,展示器可以为各种类型的显示器或者各种包括显示器的其它设备。
通过预先提取前景,去掉了复杂的背景,在此基础上进行后续的目标结果的生成,可以提高在各种复杂背景情况下生成的目标结果的精度。另外,也可以提高模型的泛化能力。
在一个实施例中,根据上面实施例所述,步骤S120可以包括如下方法步骤:
步骤S121基于前景提取模型提取初始图像中的前景;即将初始图像输入前景提取模型(比如:语义分割模型),可以输出代表目标物的前景和背景的图像。
进一步,在一个实施例中,模型输出的结果可能包括多个前景部分,因此该方法还可以包括如下方法步骤:
步骤S122对前景进行筛选,得到代表目标物的前景。
可以采用各种方法对前景进行筛选,比如:根据预设面积阈值(该阈值可以为某个具体的数值或者数值范围)进行筛选,即分别计算多个前景部分的面积,以筛选的符合预设面积阈值的前景作为代表目标物的前景。
在一个实施例中,如图2所示,还可以提供一种上面实施例所述的基于前景提取模型的前景提取的训练方法,以该方法应用于图14中的终端为例,该方法包括:
步骤S210获取包括前景和复杂背景的第一样本图像集;
从存储器或者从服务器获取复杂背景的第一样本图像集;
具体的,第一样本图像集可以为真实的通过图像传感器采集的和/或模仿真实场景生,成,的各种虚拟的复杂背景下的图像。
步骤S230获取前景提取模型的初始模型;
步骤S250以第一样本图像集,训练前景提取模型的初始模型,生成前景提取模型。
在一个实施例中,如图3所示,还可以提供一种上面实施例所述的基于前景提取模型的前景提取的训练方法,以该方法应用于图14中的终端为例,该方法包括:
步骤S220获取包括前景和复杂背景的第一样本图像集;
步骤S240获取只包括前景或包括前景且单一背景的第二样本图像集;
有关第二样本图像后面会有进一步详细的描述;
步骤S260获取前景提取模型的初始模型;
步骤S280以第一样本图像集和第二样本图像集,训练前景提取模型的初始模型,生成前景提取模型。
具体的上述模型训练的方法可以采用各种现有及将来开发的人工智能的训练方法,比如:监督学习、半监督学习、无监督学习、迁移学习。
具体的,该网络模型可以包括但不限于卷积神经网络(CNN),常见的CNN模型可以包括但不限于:LeNet,AlexNet,ZFNet,VGG,GoogLeNet,Residual Net,DenseNet,R-CNN,SPP-NET,Fast-RCNN,Faster-RCNN,FCN,Mask-RCNN,YOLO,YOLOv2,YOLOv3,SSD,FPN,CPN,以及其他现在已知或将来开发的网络模型结构。以监督学习为例,可以图像样本集为输入,以图像中目标物的识别结果(具体的,该识别结果可以但不限于是:语义分割后的图像、形成目标物的包围框的图像、目标物的边缘提取等等)作为标注对模型进行训练。
由于同时采用背景复杂的第一样本图像集和第二样本图像集进行前景提取模型的训练,相对于上面实施例所述的只采用单一的第一样本图像集进行的提取,可以提高模型的泛化性和提取精度。
在一个实施例中,如图4所示,提供一种上面实施例提到的基于图像的处理的训练方法,以该方法应用于图14中的终端为例,该方法包括以下步骤:
步骤S310获取只包括前景或单一背景的第二样本图像集;
从存储器或者从服务器获取由第二样本图像集构成的第二样本图像集;
有关第二样本图像的获取方法在后面的实施例中会有进一步详细的描述。
步骤S320获取目标模型的初始模型;
步骤S330基于第二样本图像集,训练目标模型的初始模型,得到目标模型。
将第二样本图像集作为训练数据样本,输入到第二初始网络模型进行训练,生成目标模型。
具体的,目标模型可以为各种功能的模型,比如:目标物识别模型、姿态识别模型或轨迹规划模型。
具体的,上述模型的训练方法可以根据模型功能的不同采用各种现有及将来开发的人工智能的训练方法,比如,当为姿态识别模型,训练方法可以为:监督学习、半监督学习、无监督学习或迁移学习等等;又比如,当为轨迹规划模型,训练方法可以为:模仿学习、强化学习或监督学习等等。
采用上面的方法,由于基于只包括目标物或单一背景的样本图像进行模型训练,因此可以提高模型输出的精度;另外,也可以提高模型的泛化能力。
另外,可以加快模型学习的速度,减少了样本数据的数量,进而降低了对计算机硬件的要求。
在一个实施例中,如图5所示,提供一种上面实施例所述的第二样本图像集的生成方法,以该方法应用于图14中的终端为例,该方法包括以下步骤:
步骤S410获取包括目标物的初始样本图像集;
从存储或者服务器获取多张初始图像;
具体的,该图像可以为真实的初始图像,也可以为虚拟的初始图像。
步骤S430分别提取初始样本图像集中的前景,生成第二样本图像集;
具体的,提取可以是将目标物从初始图像中抠出;或者将原本一定大小的初始图像进行一定的裁剪,使得裁剪后的图像为包围目标物外框的最小截面图像等等。
进一步,在一个实施例中,可以将提取出的前景,映射到一个预设大小的单一背景的图像上,从而生成第二样本图像集。
进一步,在一个实施例中,可以将提取出的前景,而剩余的部分作为背景全部调整成单一的背景颜色,从而生成第二样本图像集。
进一步,在一个实施例中,也可以将上述抠出或剪裁后的图像看作只包括前景的第二样本图像集。
在一个实施例中,如图6所示,提供一种上面实施例所述的第二样本图像集的生成方法,该方法包括以下步骤:
步骤S420将目标物设置在单一背景的环境下;
即将目标物置于单一背景的真实环境下。
步骤S440采集单一背景下的第二样本图像集。
将目标物放置在单一背景的真实环境下,通过图像传感器采集包括目标物的多张初始图像,从而形成单一背景下的真实的多张样本图像。
应该理解的是,虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其他的顺序执行。而且,图1-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供一种基于图像的处理装置,该装置包括:初始图像获取模块110,用于获取包括前景的初始图像;其中,前景代表目标物;
目标图像生成模块120,用于提取初始图像中的前景;生成包括所述前景而单一背景的目标图像;
目标模型获取模块130,用于获取目标模型;
目标结果生成模块140,用于将目标图像输入目标模型中,输出目标结果。
在一个实施例中,如图8所示,提供一种前景提取训练装置,该装置包括:
第一样本获取模块210,用于获取包括前景和复杂背景的第一样本图像;
初始模型获取模块230,用于获取前景提取模型的初始模型;
识别模型训练模块250,用于基于第一样本图像集,进行初始模型的训练,得到前景提取模型。
在一个实施例中,如图9所示,提供一种前景提取训练装置,该装置包括:
第一样本获取模块220,用于获取包括前景和复杂背景的第一样本图像;
第二样本获取模块240,用于获取只包括前景或单一背景的第二样本图像;
初始模型获取模块260,用于获取前景提取模型的初始模型;
识别模型训练模块280,用于基于第一样本图像集和第二样本图像集,进行初始模型的训练,得到前景提取模型;或
在一个实施例中,如图10所示,提供一种基于图像的处理的训练装置,该装置包括:
第二样本获取模块310,用于获取只包括前景或包括前景且单一背景的第二样本图像集;
目标模型获取模块320,用于获取目标模型的初始模型;
目标模型训练模块330,用于基于第二样本图像集,进行初始模型的训练,得到目标模型。
在一个实施例中,如图11所示,提供一种第二样本生成装置,该第二样本生成装置包括:
初始样本获取模块410,用于获取初始样本图像集;
第二样本生成模块430,用于提取初始样本图像集中的前景,生成第二样本图像集。
关于上述各个装置的具体限定可以参见上文中对于基于图像的处理方法、前景提取训练方法、基于图像的处理的训练方法和样本生成方法的限定,在此不再赘述。上述各个装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,如图12所示,提供一种系统,该系统包括姿态识别第一控制装置400和图像传感器700。
图像传感器700,用于获取目标物的初始图像,将初始图像发送给控制装置。
控制装置400,用于获取包括前景的初始图像;其中,前景代表目标物;提取初始图像中的前景,生成包括所述前景而单一背景的目标图像;获取目标模型;将目标图像输入目标模型中,输出目标结果。
进一步,在一个实施例中,系统还可以包括展示器800;
展示器800,用于展示目标结果。
具体的,控制装置可以只将目标结果发送给展示器进行展示;或者将叠加或附加目标结果的初始图像或目标图像发送给展示器进行展示
上述各个控制装置可以为可编程逻辑控制器(Programmable Logic Controller,PLC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、计算机(PersonalComputer,PC)、工业控制计算机(Industrial Personal Computer,IPC)或服务器等等。控制装置根据预先固定的程序,结合人工输入的信息、参数或者外部的图像传感器采集的数据等生成程序指令。
关于上述各个控制装置的具体限定可以参见上文中对于基于图像的处理方法的限定,在此不再赘述。
在一个实施例中,如图13所示,提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述基于图像的处理方法;前景提取训练方法;基于图像的处理的训练方法;和/或第二样本集生成方法的步骤。
在一个实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述基于图像的处理方法;前景提取训练方法;基于图像的处理的训练方法;和/或第二样本集生成方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其他介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,本实施例所述的各个控制装置和/或图像传感器等等,即可以是真实环境下的真实实体,也可以是仿真平台下的虚拟器件,通过仿真环境以达到连接真实器件的效果。将依赖虚拟环境完成行为训练后的产品,移植到真实环境下,对真实的器件进行控制或者再训练,可以节省训练过程的资源和时间。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其他实施例的相关描述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
除非另有定义,本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本说明书中在本发明的说明书中所使用的属于只是为了描述具体的实施方式的目的,不是用于限制本发明。
本发明的权利要求书和说明书及上述附图中的术语“第一”、“第二”、“第三”、“S110”、“S120”“S130”等等(如果存在)是用来区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如:包括了一系列步骤或者模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或者模块,而是包括没有清楚地列出的或对于这些过程、方法、系统、产品或设备固有的其他步骤或模块。
需要说明的是,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的结构和模块并不一定是本发明所必须的。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (16)
1.一种基于图像的处理方法,其特征在于,所述方法包括:
获取包括前景的初始图像;其中,所述前景代表目标物;
提取所述初始图像中的前景,生成只包括所述前景或单一背景的目标图像;
获取目标模型;
将所述目标图像输入所述目标模型中,输出目标结果。
2.根据权利要求1所述的基于图像的处理方法,其特征在于,所述提取所述初始图像中的前景包括:
基于前景提取模型提取所述初始图像中的所述前景;或
基于前景提取模型提取所述初始图像中的多个前景;
筛选所述多个前景,得到所述代表目标物的所述前景。
3.根据权利要求1所述的基于图像的处理方法,其特征在于,所述提取所述初始图像中的前景包括:
基于图像处理的方法提取所述初始图像中的所述前景。
4.根据权利要求1所述的基于图像的处理方法,其特征在于,所述提取所述初始图像中的前景包括:
对所述初始图像进行裁剪,得到包围所述目标物的最小包围框的所述目标图像。
5.根据权利要求1-4任一项所述的基于图像的处理方法,其特征在于,所述目标结果为:
目标物的识别图像;或
目标物的姿态相关的结果;或
目标物关联的轨迹规划相关的结果。
6.一种基于图像的处理的训练方法,其特征在于,所述方法包括:
获取只包括前景或单一背景的第二样本图像集;
获取目标模型的初始模型;
基于所述第二样本图像集,训练所述目标模型的初始模型,得到目标模型;其中,所述目标模型,用于对输入的目标图像,输出目标结果。
7.一种前景提取的训练方法,其特征在于,所述方法包括:
获取包括前景和复杂背景的第一样本图像集;
获取只包括前景或单一背景的第二样本图像集;
获取前景提取模型的初始模型;
基于所述第一样本图像集和所述第二样本图像集,训练所述前景提取模型的初始模型,生成前景提取模型;或
获取包括前景和复杂背景的第一样本图像集;
获取前景提取模型的初始模型;
基于所述第一样本图像集,训练所述前景提取模型的初始模型,生成前景提取模型。
8.一种权利要求6或7所述的第二样本图像集的生成方法,其特征在于,所述方法包括:
获取初始样本图像集;
分别提取所述始样本图像集,生成第二样本图像集。
9.一种权利要求6或7所述的第二样本图像集的生成方法,其特征在于,所述方法包括:
将所述前景对应的目标物设置在单一背景的环境下;
采集单一背景下的包括前景的第二样本图像集。
10.一种基于图像的处理装置,其特征在于,所述装置包括:
初始图像获取模块,用于获取包括前景的初始图像;其中,前景代表目标物;
目标图像生成模块,用于提取所述初始图像中的前景,生成只包括所述前景或单一背景的目标图像;
目标模型获取模块,用于获取目标模型;
目标结果生成模块,用于将目标图像输入目标模型中,输出目标结果。
11.一种基于图像的处理训练装置,其特征在于,所述装置包括:
第二样本获取模块,用于获取只包括前景或包括前景且单一背景的第二样本图像集;
目标模型获取模块,用于获取目标模型的初始模型;
目标模型训练模块,用于基于所述第二样本图像集,训练所述目标模型的初始模型,得到目标模型;其中,所述目标模型,用于对输入的目标图像,输出目标结果。
12.一种前景提取训练装置,其特征在于,所述装置包括:
第一样本获取模块,用于获取包括前景和复杂背景的第一样本图像;
初始模型获取模块,用于获取前景提取模型的初始模型;
识别模型训练模块,用于基于第一样本图像集,训练所述前景提取模型的初始模型,得到前景提取模型;或
第一样本获取模块,用于获取包括前景和复杂背景的第一样本图像;
第二样本获取模块,用于获取只包括前景或单一背景的第二样本图像;
初始模型获取模块,用于获取前景提取模型的初始模型;
识别模型训练模块,用于基于所述第一样本图像集和所述第二样本图像集,进行初始模型的训练,得到前景提取模型。
13.一种权利要求11或12所述的第二样本集的生成装置,其特征在于,所述装置包括:
初始样本获取模块,用于获取初始样本图像集;
第二样本生成模块,用于分别提取所述始样本图像集,生成第二样本图像集。
14.一种系统,其特征在于,所述系统包括:
图像传感器,用于采集包括前景的初始图像;
所述控制装置,用于获取所述初始图像;其中,所述前景代表目标物;提取所述初始图像中的前景,生成只包括所述前景或单一背景的所述目标图像;获取目标模型;将所述目标图像输入所述目标模型中,输出目标结果。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-5任一项所述的基于图像的处理方法;权利要求6所述的前景提取训练方法;权利要求7所述的基于图像的处理的训练方法;和/或权利要求8所述的第二样本集生成方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的基于图像的处理方法;权利要求6所述的前景提取训练方法;权利要求7所述的基于图像的处理的训练方法;和/或权利要求8所述的第二样本集生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910673026.5A CN112287955A (zh) | 2019-07-24 | 2019-07-24 | 基于图像的处理、训练、前景提取方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910673026.5A CN112287955A (zh) | 2019-07-24 | 2019-07-24 | 基于图像的处理、训练、前景提取方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112287955A true CN112287955A (zh) | 2021-01-29 |
Family
ID=74419084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910673026.5A Pending CN112287955A (zh) | 2019-07-24 | 2019-07-24 | 基于图像的处理、训练、前景提取方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287955A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024026990A1 (zh) * | 2022-08-04 | 2024-02-08 | 上海扩博智能技术有限公司 | 识别模型的自动迭代训练方法、系统、设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046206A (zh) * | 2015-06-24 | 2015-11-11 | 北京系统工程研究所 | 基于视频中运动先验信息的行人检测方法及装置 |
CN107451601A (zh) * | 2017-07-04 | 2017-12-08 | 昆明理工大学 | 基于时空上下文全卷积网络的运动工件识别方法 |
-
2019
- 2019-07-24 CN CN201910673026.5A patent/CN112287955A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046206A (zh) * | 2015-06-24 | 2015-11-11 | 北京系统工程研究所 | 基于视频中运动先验信息的行人检测方法及装置 |
CN107451601A (zh) * | 2017-07-04 | 2017-12-08 | 昆明理工大学 | 基于时空上下文全卷积网络的运动工件识别方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024026990A1 (zh) * | 2022-08-04 | 2024-02-08 | 上海扩博智能技术有限公司 | 识别模型的自动迭代训练方法、系统、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7236545B2 (ja) | ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム | |
US10832039B2 (en) | Facial expression detection method, device and system, facial expression driving method, device and system, and storage medium | |
CN111797650B (zh) | 障碍物的识别方法、装置、计算机设备和存储介质 | |
Do et al. | Affordancenet: An end-to-end deep learning approach for object affordance detection | |
CN110059558B (zh) | 一种基于改进ssd网络的果园障碍物实时检测方法 | |
US11151734B2 (en) | Method and system for generating synthetic point cloud data using a generative model | |
CN111968235A (zh) | 一种物体姿态估计方法、装置、系统和计算机设备 | |
CN111666921A (zh) | 车辆控制方法、装置、计算机设备和计算机可读存储介质 | |
CN107180226A (zh) | 一种基于组合神经网络的动态手势识别方法 | |
JP2023162341A (ja) | 拡張データによって機械モデルを訓練するためのシステムおよび方法 | |
CN109176512A (zh) | 一种体感控制机器人的方法、机器人及控制装置 | |
CN112639846A (zh) | 一种训练深度学习模型的方法和装置 | |
KR20200118076A (ko) | 생체 검출 방법 및 장치, 전자 기기 및 저장 매체 | |
CN112287730A (zh) | 姿态识别方法、装置、系统、存储介质及设备 | |
KR20210061839A (ko) | 전자 장치 및 그 제어 방법 | |
CN112917470A (zh) | 一种机械手的示教方法、装置、系统、存储介质及设备 | |
CN113222961B (zh) | 智能船体检测系统及方法 | |
CN112287955A (zh) | 基于图像的处理、训练、前景提取方法、装置及系统 | |
JPWO2020105146A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN112307799A (zh) | 姿态识别方法、装置、系统、存储介质及设备 | |
CN113570615A (zh) | 一种基于深度学习的图像处理方法、电子设备及存储介质 | |
CN111008622B (zh) | 一种图像对象检测方法、装置以及计算机可读存储介质 | |
Ji et al. | Human‐like sign‐language learning method using deep learning | |
CN115131407B (zh) | 面向数字仿真环境的机器人目标跟踪方法、装置和设备 | |
CN113551661A (zh) | 位姿识别、轨迹规划方法、装置、系统、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |