CN113838076A - 目标图像中的对象轮廓的标注方法及装置、存储介质 - Google Patents

目标图像中的对象轮廓的标注方法及装置、存储介质 Download PDF

Info

Publication number
CN113838076A
CN113838076A CN202010591353.9A CN202010591353A CN113838076A CN 113838076 A CN113838076 A CN 113838076A CN 202010591353 A CN202010591353 A CN 202010591353A CN 113838076 A CN113838076 A CN 113838076A
Authority
CN
China
Prior art keywords
target
image
generator
discriminator
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010591353.9A
Other languages
English (en)
Inventor
相岩
张晓�
徐科
朱方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanechips Technology Co Ltd
Original Assignee
Sanechips Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanechips Technology Co Ltd filed Critical Sanechips Technology Co Ltd
Priority to CN202010591353.9A priority Critical patent/CN113838076A/zh
Priority to EP21829598.8A priority patent/EP4174769A1/en
Priority to PCT/CN2021/095562 priority patent/WO2021258955A1/zh
Priority to US18/000,737 priority patent/US20230106178A1/en
Publication of CN113838076A publication Critical patent/CN113838076A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种目标图像中的对象轮廓的标注方法及装置、存储介质和电子装置,方法包括获取目标图像的目标图像特征,目标图像中包括目标对象,目标对象为目标类型;将目标图像特征输入到目标生成器中;获取目标生成器生成的目标图像的目标掩膜,目标掩膜用于标注目标对象的轮廓的方法,通过本发明实施例,解决了弱监督情况下识别对象轮廓效率低的问题,进而达到了提高对象轮廓识别效率的效果。

Description

目标图像中的对象轮廓的标注方法及装置、存储介质
技术领域
本发明实施例涉及计算机领域,具体而言,涉及一种目标图像中的对象轮廓的标注方法及装置、存储介质和电子装置。
背景技术
现有技术中,通常需要标注分割出一张图片中的目标对象。例如,标注出一张图片中的人物的轮廓。而现有技术中,可以采用弱监督学习的方式来标注人物的轮廓。
然而,现有的弱监督学习的方式,通常采用的是图像级别的分类标签。若是采用上述方法,则训练的模型标注分割对象的准确度低。
也就是说,现有技术中,使用弱监督情况下实现对图片中目标对象的分割预测确定目标对象轮廓的过程中,存在确定轮廓准确度低的问题。
发明内容
本发明实施例提供了一种目标图像中的对象轮廓的标注方法及装置、存储介质和电子装置,以至少解决相关技术中弱监督情况下确定目标对象的轮廓准确度低的问题。
根据本发明实施例的一个方面,提供了一种目标图像中的对象轮廓的标注方法,包括:获取目标图像的目标图像特征,其中,所述目标图像中包括目标对象,所述目标对象为目标类型;将所述目标图像特征输入到目标生成器中,其中,所述目标生成器为使用样本图像训练的对抗生成式网络中的生成器,所述对抗生成式网络包括所述目标生成器与判别器,所述目标生成器用于在获取到所述样本图像的第一图像特征后,生成所述样本图像的第一掩膜,所述判别器用于在接收到擦除与所述第一掩膜对应的像素的样本图像后,识别擦除所述像素后的所述样本图像中的样本对象的类型,所述样本对象的类型用于训练所述目标生成器中的参数;获取所述目标生成器生成的所述目标图像的目标掩膜,其中,所述目标掩膜用于标注所述目标对象的轮廓。
在一个示例性实施例中,在将所述目标图像特征输入到所述目标生成器中之前,所述方法还包括:获取所述样本图像的第一图像特征;将所述第一图像特征输入到目标生成器中,生成所述样本图像的所述第一掩膜;擦除与所述第一掩膜对应的像素,得到第一图像;将所述第一图像与所述样本图像输入到所述判别器中,以训练所述判别器;将所述第一图像输入到所述目标生成器中,以训练所述目标生成器。
在一个示例性实施例中,所述将所述第一图像与所述样本图像输入到所述判别器中,以训练所述判别器包括:在将所述第一图像与所述样本图像输入到所述判别器中之后,计算所述判别器的第一损失;使用所述第一损失调整所述判别器中的参数。
在一个示例性实施例中,所述将所述第一图像输入到所述目标生成器中,以训练所述目标生成器包括:获取所述判别器输入所述第一图像后,输出的所述第一图像中的第一对象的第一类型;计算所述目标生成器在所述第一类型下的第二损失;使用所述第二损失调整目标所述生成器中的参数。
在一个示例性实施例中,所述获取目标图像的目标图像特征包括:获取所述目标图像;将所述目标图像输入到目标模型中,其中,所述目标模型为删除预训练的第一模型的全连接层后得到的模型;获取所述目标模型输出的所述目标图像的所述目标图像特征。
在一个示例性实施例中,在将所述目标图像输入到所述目标模型中之前,所述方法还包括:获取所述样本图像;使用所述样本图像训练第二模型,得到训练后的所述第一模型;删除所述第一模型的全连接层,得到所述目标模型,其中,所述第二模型为训练前的所述第一模型。
在一个示例性实施例中,所述判别器与所述第一模型的卷积层包括不同膨胀系数的空洞卷积。
根据本发明实施例的另一方面,提供了一种目标图像中的对象轮廓的标注装置,包括:第一获取单元,用于获取目标图像的目标图像特征,其中,所述目标图像中包括目标对象,所述目标对象为目标类型;第一输入单元,用于将所述目标图像特征输入到目标生成器中,其中,所述目标生成器为使用样本图像训练的对抗生成式网络中的生成器,所述对抗生成式网络包括所述目标生成器与判别器,所述目标生成器用于在获取到所述样本图像的第一图像特征后,生成所述样本图像的第一掩膜,所述判别器用于在接收到擦除与所述第一掩膜对应的像素的样本图像后,识别擦除所述像素后的所述样本图像中的样本对象的类型,所述样本对象的类型用于训练所述目标生成器中的参数;第二获取单元,用于获取所述目标生成器生成的所述目标图像的目标掩膜,其中,所述目标掩膜用于标注所述目标对象的轮廓。
在一个示例性实施例中,上述装置还包括:第三获取单元,用于在将所述目标图像特征输入到所述目标生成器中之前,获取所述样本图像的第一图像特征;第二输入单元,用于将所述第一图像特征输入到所述目标生成器中,生成所述样本图像的所述第一掩膜;擦除单元,用于擦除与所述第一掩膜对应的像素,得到第一图像;第三输入单元,用于将所述第一图像与所述样本图像输入到所述判别器中,以训练所述判别器;第四输入单元,用于将所述第一图像输入到所述目标生成器中,以训练所述目标生成器。
在一个示例性实施例中,上述第三输入单元包括:第一计算模块,用于在将所述第一图像与所述样本图像输入到所述判别器中之后,计算所述判别器的第一损失;第一调整模块,用于使用所述第一损失调整所述判别器中的参数。
在一个示例性实施例中,上述第四输入单元包括:第一获取模块,用于获取所述判别器输入所述第一图像后,输出的所述第一图像中的第一对象的第一类型;第二计算模块,用于计算所述目标生成器在所述第一类型下的第二损失;第二调整模块,用于使用所述第二损失调整所述目标生成器中的参数。
在一个示例性实施例中,上述第三获取单元包括:第二获取模块,用于获取所述目标图像;输入模块,用于将所述目标图像输入到目标模型中,其中,所述目标模型为删除预训练的第一模型的全连接层后得到的模型;第三获取模块,用于获取所述目标模型输出的所述目标图像的所述目标图像特征。
在一个示例性实施例中,上述第三获取单元还包括:第四获取模块,用于在将所述目标图像输入到所述目标模型中之前,获取所述样本图像;训练模块,用于使用所述样本图像训练第二模型,得到训练后的所述第一模型;删除模块,用于删除所述第一模型的全连接层,得到所述目标模型,其中,所述第二模型为训练前的所述第一模型。
在一个示例性实施例中,所述判别器与所述第一模型的卷积层包括不同膨胀系数的空洞卷积。
根据本发明实施例的一个方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明实施例的一个方面,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,由于在训练目标生成器的过程中,使用目标生成器生成样本图像的第一掩膜,并擦出了第一掩膜对应的像素,从而可以使判别器判别过程中,可以兼顾图像的整体进行鉴别,进而促进目标生成器生成更加准确的掩膜,提高了目标生成器的准确度,进而提高了目标生成器标注目标图像中的目标对象的轮廓的准确度的效果。因此,可以解决弱监督情况下识别对象轮廓效率低的问题,进而达到了提高目标对象轮廓识别效率的效果。
附图说明
图1是根据本发明实施例的一种目标图像中的对象轮廓的标注方法的应用场景示意图;
图2是根据本发明实施例的另一种目标图像中的对象轮廓的标注方法的应用场景示意图;
图3是根据本发明实施例的目标图像中的对象轮廓的标注方法的流程示意图;
图4是根据本发明实施例的目标图像中的对象轮廓的标注方法的模型结构示意图;
图5是根据本发明实施例的另一种目标图像中的对象轮廓的标注方法的流程示意图;
图6是根据本发明实施例的一种目标图像中的对象轮廓的标注方法的模型组合结构示意图;
图7是根据本发明实施例的一种目标图像中的对象轮廓的标注装置的结构框图;
图8是根据本发明实施例的另一种目标图像中的对象轮廓的标注装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种目标图像中的对象轮廓的标注方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的目标图像中的对象轮廓的标注方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本申请实施例可以运行于图2所示的网络架构上,如图2所示,该网络架构包括:终端202、网络204与服务器206,终端202与服务器206之间可以通过网络204进行数据交互。
在本实施例中提供了一种运行于上述移动终端或网络架构的目标图像中的对象轮廓的标注方法,图3是根据本发明实施例的目标图像中的对象轮廓的标注方法的流程图,如图3所示,该流程包括如下步骤:
步骤S302获取目标图像的目标图像特征,其中,所述目标图像中包括目标对象,所述目标对象为目标类型;
步骤S304,将所述目标图像特征输入到目标生成器中,其中,所述目标生成器为使用样本图像训练的对抗生成式网络中的生成器,所述对抗生成式网络包括所述目标生成器与判别器,所述目标生成器用于在获取到所述样本图像的第一图像特征后,生成所述样本图像的第一掩膜,所述判别器用于在接收到擦除与所述第一掩膜对应的像素的样本图像后,识别擦除所述像素后的所述样本图像中的样本对象的类型,所述样本对象的类型用于训练所述目标生成器中的参数;
步骤S306,获取所述目标生成器生成的所述目标图像的目标掩膜,其中,所述目标掩膜用于标注所述目标对象的轮廓。
通过上述步骤,由于在训练目标生成器的过程中,使用目标生成器生成样本图像的第一掩膜,并擦除了第一掩膜对应的像素,从而可以使判别器训练过程中,可以兼顾图像的整体进行鉴别,进而促进目标生成器生成更加准确的掩膜,提高了目标生成器的准确度,进而提高了目标生成器标注目标图像中的目标对象的轮廓的准确度的效果。因此,可以解决识别对象轮廓效率低的问题,进而达到了提高对象轮廓识别效率的效果。
其中,上述步骤的执行主体可以为基站、终端、服务器等,但不限于此。
其中,目标生成器的目的在于生成输入图片较好的分割掩膜,使得判别器对擦除掩膜后的图片中的目标对象无法进行类别判断,判别器的目的则是尽量完整的识别出图片中的目标对象的目标类别。也就是说,对于一张图像,图像中包括一个对象,目标生成器的目的在于生成足够好的第一掩膜,擦除第一掩膜对应的图像中的像素后,使判别器无法判断出图像中的对象的类型。而判别器的目的是,通过图像中没有被擦除的对象的内容,判断出图像中的对象的类型。
本申请可以但不限于应用于识别图像中的对象的轮廓的过程中。例如,对于输入一张图像,图像中包括目标对象,目标对象被标注有目标类型,本申请可以通过将该图像输入到训练后的生成器中由生成器生成目标掩膜,目标掩膜标注出该图片中的目标对象的轮廓,实现对该图像进行语义分割。
例如,对于一个图像,图像中包括一只猫,图像标注有猫的标签,将该图像输入到目标生成器中后,由目标生成器生成目标掩膜,目标掩膜标注出猫的轮廓。
其中,在将所述目标图像特征输入到所述目标生成器中之前,所述方法还包括:获取所述样本图像;获取所述样本图像的第一图像特征;将所述第一图像特征输入到所述生成式对抗网络中,由所述目标生成器生成所述样本图像的所述第一掩膜;擦除与所述第一掩膜对应的像素,得到第一图像;将所述第一图像与所述样本图像输入到所述判别器中,以训练所述判别器;将所述第一图像输入到所述目标生成器中,以训练所述目标生成器。
也就是说,本申请中的目标生成器与判别器是经过预先训练的网络。预先训练时,使用的样本图像,样本图像中包括第一对象,第一对象被标注有类型,将样本图像输入到目标生成器中后,目标生成器会生成样本图像的掩膜,掩膜标注出样本图像中的目标位置,然后,通过擦除目标位置的像素,得到第一图像,将第一图像与样本图像输入到判别器中训练判别器,在训练判别器后,判别器可以输出第一图像中的第一对象的类型,使用该类型与第一图像训练目标生成器,可以训练得到输出的掩膜更好的目标生成器。
或者,本申请中还可以获取到多张样本图像,将多张样本图像中的一部分样本图像输入到目标生成器中,由目标生成器生成第一掩膜,然后擦除该部分样本图像的第一掩膜对应的像素,然后,将擦除像素的该部分样本图像与剩余未输入到目标生成器中的样本图像输入到判别器中,以训练判别器。
其中,所述将所述第一图像与所述样本图像输入到所述判别器中,以训练所述判别器包括:在将所述第一图像与所述样本图像输入到所述判别器中之后,计算所述判别器的第一损失;使用所述第一损失调整所述判别器中的参数。具体可以为在所述第一损失大于第一阈值的情况下,调整所述判别器中的参数,其中,调整参数后的所述判别器的所述第一损失小于或者等于所述第一阈值。
在此过程中,需要计算判别器的第一损失。第一损失越大,说明模型的收敛效果越差,因此,需要调整模型中的参数的值,通过不断调整参数的值,并不断的计算损失,直到第一损失小于或者等于第一阈值,则说明模型的参数是合适的,模型足够收敛。
其中,所述将所述第一图像输入到所述目标生成器中,以训练所述目标生成器包括:获取所述判别器输入所述第一图像后,输出的所述第一图像中的第一对象的第一类型;计算所述目标生成器在所述第一类型下的第二损失;使用所述第二损失调整所述目标生成器中的参数,具体可以为在所述第二损失大于第二阈值的情况下,调整所述目标生成器的参数,其中,调整参数后的所述目标生成器的所述第二损失小于或者等于所述第二阈值。
目标生成器的训练过程同样需要计算损失。在判别器输出第一图像的类型后,计算目标生成器在该类型下的第二损失,第二损失越大,说明模型的收敛效果越差,因此,需要调整模型中的参数的值,通过不断调整参数的值,并不断的计算损失,直到第二损失小于或者等于第二阈值,则说明模型的参数是合适的,模型足够收敛。
其中,所述获取目标图像的目标图像特征包括:获取所述目标图像;将所述目标图像输入到目标模型中,其中,所述目标模型为删除预训练的第一模型的全连接层后得到的模型;获取所述目标模型输出的所述目标图像的所述目标图像特征。
也就是说,目标图像的目标图像特征是通过一个目标模型来获取的。目标模型是一个预训练的模型。使用该目标模型,在输入目标图像后,目标模型可以获取目标图像的目标图像特征。
其中,在将所述目标图像输入到所述目标模型中之前,所述方法还包括:获取所述样本图像;使用所述样本图像训练第二模型,得到训练后的所述第一模型;删除所述第一模型的全连接层,得到所述目标模型。
也就是说,本申请中的目标模型是使用样本图像训练第二模型得到第一模型之后,将第一模型的全连接层删除后得到的模型。
以下结合一个具体示例说明上述目标图像中的对象轮廓的标注方法。
本申请实施例的思想在于,神经网络在进行图像分类训练时,训练出来的网络往往并不会关注到目标整体所在位置所有的特征,因此在训练过程中采用擦除的方式,删除掉输入图片中网络所关注的特征所在的像素,而神经网络为了更好的去识别图片中的目标,就不得不去关注图片中目标所在位置其他部分的特征。通过上述方式不断迭代,最终神经网络会关注到目标整体所在的位置所有的特征,而该位置分布是与目标的语义分割掩膜的分布相一致,从而通过类别标签最终获取到图片中的目标分割掩膜。而本申请实施例采用生成对抗的训练方式来实现上述思想:目标生成器用于生成样本图片中目标的都第一掩膜,判别器则是对擦除掉第一掩膜对应像素后的样本图片进行分类判断。在训练过程中,目标生成器为了与判别器对抗,会生成更好的第一掩膜,以减少图片中目标的像素数量,削弱判别器对图片中目标的感知;判别器则为了更好的识别图片中的物体,会逐渐关注到图片中目标所在所有位置的特征。最终达到纳什均衡后,目标生成器生成了足够好的掩膜,使得判别器无法对擦除掩膜后的图片进行分类判断。上述的纳什均衡是一种最佳策略的组合,指目标生成器与判别器中的参数为最佳。具体指目标生成器生成了刚好遮挡住图片中的物体的第一掩膜。在擦除第一掩膜对应的像素后,图片中的物体刚好被擦除。而判别器无法判断出物体的类型,因为物体已经被擦除。而如果第一掩膜没有完全遮挡住物体,判别器可以通过识别物体未遮挡住的部分判断出物体的类型。
本申请实施例的网络结构如图4所示主要可分为三个部分:预训练的特征提取网络,语义分割生成网络(目标生成器)以及判别网络(判别器)。
预训练的特征提取网络可采用常规的图像分类网络(第二模型)(如Inception,ResNet等,这里不做限定),在数据集上进行分类预训练,在训练至网络收敛之后(得到第一模型之后),删除网络最后的全连接层,得到目标模型,将目标模型输出的卷积特征作为目标生成器的输入。在第二模型训练时会使用不同膨胀参数的空洞卷积(dilatedconvolution)对预训练的特征提取网络中的卷积进行替换,由于使用空洞卷积相较于一般的卷积有着更大的感受野,因此第二网络模型可以对图片中的目标有着更全面的感知,使得训练后的目标网络的感知范围更趋向于目标的语义分割掩膜,方便后续语义分割生成网络更快收敛,保证对抗训练的稳定性。
语义分割生成网络也可以称为分割预测生成网络(目标生成器)使用预训练的特征提取网络的卷积特征作为输入,网络使用反卷积层逐渐增大特征图的宽高,直到与输入到预训练的网络的图片尺寸一致,最终对图片中的目标进行语义分割预测。
判别网络也同样采用常规的图像分类网络(如Inception,ResNet等,这里不做限定)对图片中的目标进行判断(包含背景类别),判别网络的输入主要有两部分(如图4所示):擦除掉预测掩膜对应像素的图片A′以及真实图片B。同样,为了提升判别网络的识别精度,判别网络也会使用不同膨胀系数的空洞卷积,以更好的能对图片中的目标进行更全面的感知。
对于训练的过程,主要分为两个步骤:首先,在数据集上对特征提取网络进行预训练,待训练至收敛之后,删除掉该网络的全连接层,将该网络的最后的卷积激活特征作为分割预测网络的输入;然后,对分割预测生成网络以及判别网络进行对抗式训练。如图4所示,图片A经过特征提取网络以及分割预测生成网络之后,会对图片A中的目标的掩膜M进行预测,之后擦除掉图片A中掩膜M所对应的像素,得到图片A′。首先使用A′和真实图片B通过最小化分类损失对判别器进行训练,之后再只使用A′通过最小化非当前类别损失对目标生成器进行训练。通过反复迭代,最终达到收敛。
如图5所示,步骤S502,训练之前,需要获取样本图像。在样本收集过程中,为了在训练中达到更好的分割效果,需要尽量多的采集在应用场景中可能出现的样本图像。可以通过以下渠道来获取图片:利用各种公开的包含人的室内场景图片;实际在应用场景中采集图片;通过第三方数据公司进行购买;通过图像生成算法(如GAN)进行生成;基于学术目的的网络爬虫采集等。
S504,采集数据后,需要对数据进行清洗与标定。为了更好的训练网络,需要对采集到的数据验证检查,以保证样本的完整性,均匀性,正确性等。完整性即数据集应当尽量包含应用场景中所有可能包含的场景,以保证训练模型的泛化能力,如目标由于过快运动引起在样本图片出现运动模糊也应当包含在数据集中。均匀性即数据集中的不同类别的样本在数量上应当尽量保持一致,不应相差较大。正确即在数据标注中应当有明确的标注标准,防止标注的混乱。
在获取到样本数据后,可以执行步骤S506,训练模型。首先是对第二模型进行训练,得到第一模型,进而得到目标模型。
首先在数据集上对预训练的特征提取网络(第二模型)进行分类训练,训练采用交叉熵进行损失计算,其计算公式如下:
Figure BDA0002556274450000111
其中z为网络预测的非softmax输出,c为label的类别。
待训练收敛后,得到第一模型,删去第一模型中最后用来进行分类的全连接层,得到目标模型,目标模型的输出作为后续分割预测网络的输入。若数据量不足,可对输入数据进行数据增强来提高网络的性能。
接着,需要训练目标生成器与判别器。预训练的特征提取网络训练完成后,将对分割预测生成网络和判别网络进行对抗训练。此时会将预训练的特征提取网络与分割预测网络作为一个整体进行训练,但是相较于分割预测网络,预训练的特征提取网络层会有较小的学习率。
(1)针对每一个数据集batch,首先对判别器进行训练,将真实数据以及擦除掩膜对应像素的图片送入判别器,经过softmax函数之后使用交叉熵进行损失计算;
(2)之后对目标生成器进行训练,将擦除掩膜预测像素的图片送入判别器之后经过softmin函数,对判别器输出的擦除掩膜预测像素的图片的类型使用交叉熵进行损失计算。
(3)如此反复上述步骤(1)、(2),直到模型收敛.
上述过程即完成了模型的训练。
后续可以进行S508,模型的部署与验证。在训练完成后,如需对网络进行部署,如图6所示将特征提取网络(目标网络)以及分割预测生成网络(目标生成器)进行组合,即可得到完整的分割预测网络。只需输入原始的图片数据,即可获得对应的语义分割预测结果,该网络可以应用于绝大部分语义分割应用场景。例如,对于一张图片,图片中包括对象,语义分割预测结果可以包括图像中的对象的轮廓,从而可以标记出图像中的对象。
为了验证模型的实际效果,会使用网络输出掩膜和人工实际标注的掩膜进行比较,可用平均交并比(Mean Interaction of Union,MIoU)对掩膜预测质量进行评估,其定义如下:
Figure BDA0002556274450000121
其中N+1表示类别数量(包含空类),N为整数。p ij为图像中实际为i类预测为j类的像素,pii为实际为i类预测也是i类的像素,i,j为整数。
本申请实施例中所述方法,使用对抗生成式网络,通过擦除掉掩膜对应像素的方式进行训练。相较于有监督的语义分割生训练方法,本申请由于只使用了分类标签,从而大大减少了神经网络标注所需的工作量,减少了人工成本。同时相较于其他基于类别激活图(CAM)的半监督语义分割方法,本发明实施例无需过多的人工先验经验,无需增加额外参数,在拥有相同数量级训练数据的情况下,网络训练出来更具鲁棒性,网络泛性更好,进而识别图像中的对象的轮廓有更准确的识别效果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种目标图像中的对象轮廓的标注装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是根据本发明实施例的目标图像中的对象轮廓的标注装置的结构框图,如图7所示,该装置包括
第一获取单元702,用于获取目标图像的目标图像特征,其中,所述目标图像中包括目标对象,所述目标对象为目标类型;
第一输入单元704,用于将所述目标图像特征输入到目标生成器中,其中,所述目标生成器为使用样本图像训练的对抗生成式网络中的生成器,所述对抗生成式网络包括所述目标生成器与判别器,所述目标生成器用于在获取到所述样本图像的第一图像特征后,生成所述样本图像的第一掩膜,所述判别器用于在接收到擦除与所述第一掩膜对应的像素的样本图像后,识别擦除所述像素后的所述样本图像中的样本对象的类型,所述类型用于训练所述生成器中的参数;
第二获取单元706,用于获取所述目标生成器生成的所述目标图像的目标掩膜,其中,所述目标掩膜用于标注所述目标对象的轮廓。
图8是根据本发明实施例的目标图像中的对象轮廓的标注装置的结构框图,如图8所示,该装置除包括图7所示的所有模块外,还包括:
第三获取单元802,用于在将所述目标图像特征输入到所述目标生成器中之前,获取所述样本图像;
第四获取单元804,用于获取所述样本图像的第一图像特征;
第二输入单元806,用于将所述第一图像特征输入到所述生成式对抗网络中,由所述目标生成器生成所述样本图像的所述第一掩膜;
擦除单元808,用于擦除与所述第一掩膜对应的像素,得到第一图像;
第三输入单元810,用于将所述第一图像与所述样本图像输入到所述判别器中,以训练所述判别器;
第四输入单元812,用于将所述第一图像输入到所述目标生成器中,以训练所述目标生成器。
其中,所述第三输入单元包括:第一计算模块,用于在将所述第一图像与所述样本图像输入到所述判别器中之后,计算所述判别器的第一损失;第一调整模块,用于在所述第一损失大于第一阈值的情况下,调整所述判别器中的参数,其中,调整参数后的所述判别器的所述第一损失小于或者等于所述第一阈值。
其中,所述第四输入单元包括:第一获取模块,用于获取所述判别器输入所述第一图像后,输出的所述第一图像中的第一对象的第一类型;第二计算模块,用于计算所述目标生成器在所述第一类型下的第二损失;第二调整模块,用于在所述第二损失大于第二阈值的情况下,调整所述目标生成器的参数,其中,调整参数后的所述目标生成器的所述第二损失小于或者等于所述第二阈值。
其中,所述第四获取单元包括:第二获取模块,用于获取所述目标图像;输入模块,用于将所述目标图像输入到目标模型中,其中,所述目标模型为删除预训练的第一模型的全连接层后得到的模型;第三获取模块,用于获取所述目标模型输出的所述目标图像的所述目标图像特征。
其中,所述第四获取单元还包括:第四获取模块,用于在将所述目标图像输入到所述目标模型中之前,获取所述样本图像;训练模块,用于使用所述样本图像训练第二模型,得到训练后的所述第一模型;删除模块,用于删除所述第一模型的全连接层,得到所述目标模型
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种目标图像中的对象轮廓的标注方法,其特征在于,包括:
获取目标图像的目标图像特征,其中,所述目标图像中包括目标对象,所述目标对象为目标类型;
将所述目标图像特征输入到目标生成器中,其中,所述目标生成器为使用样本图像训练的对抗生成式网络中的生成器,所述对抗生成式网络包括所述目标生成器与判别器,所述目标生成器用于在获取到所述样本图像的第一图像特征后,生成所述样本图像的第一掩膜,所述判别器用于在接收到擦除与所述第一掩膜对应的像素的样本图像后,识别擦除所述像素后的所述样本图像中的样本对象的类型,所述样本对象的类型用于训练所述目标生成器中的参数;
获取所述目标生成器生成的所述目标图像的目标掩膜,其中,所述目标掩膜用于标注所述目标对象的轮廓。
2.根据权利要求1所述的方法,其特征在于,在将所述目标图像特征输入到所述目标生成器中之前,所述方法还包括:
获取所述样本图像的第一图像特征;
将所述第一图像特征输入到所述目标生成器中,生成所述样本图像的所述第一掩膜;
擦除与所述第一掩膜对应的像素,得到第一图像;
将所述第一图像与所述样本图像输入到所述判别器中,以训练所述判别器;
将所述第一图像输入到所述目标生成器中,以训练所述目标生成器。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一图像与所述样本图像输入到所述判别器中,以训练所述判别器包括:
在将所述第一图像与所述样本图像输入到所述判别器中之后,计算所述判别器的第一损失;
使用所述第一损失调整所述判别器中的参数。
4.根据权利要求2所述的方法,其特征在于,所述将所述第一图像输入到所述目标生成器中,以训练所述目标生成器包括:
获取所述判别器输入所述第一图像后,输出的所述第一图像中的第一对象的第一类型;
计算所述目标生成器在所述第一类型下的第二损失;
使用所述第二损失调整所述目标生成器中的参数。
5.根据权利要求2所述的方法,其特征在于,所述获取目标图像的目标图像特征包括:
获取所述目标图像;
将所述目标图像输入到目标模型中,其中,所述目标模型为删除预训练的第一模型的全连接层后得到的模型;
获取所述目标模型输出的所述目标图像的所述目标图像特征。
6.根据权利要求5所述的方法,其特征在于,在将所述目标图像输入到所述目标模型中之前,所述方法还包括:
获取所述样本图像;
使用所述样本图像训练第二模型,得到训练后的所述第一模型,其中,所述第二模型为训练前的所述第一模型;
删除所述第一模型的全连接层,得到所述目标模型。
7.根据权利要求5或6所述的方法,其特征在于,所述判别器与所述第一模型的卷积层包括不同膨胀系数的空洞卷积。
8.一种目标图像中的对象轮廓的标注装置,其特征在于,包括:
第一获取单元,用于获取目标图像的目标图像特征,其中,所述目标图像中包括目标对象,所述目标对象为目标类型;
第一输入单元,用于将所述目标图像特征输入到目标生成器中,其中,所述目标生成器为使用样本图像训练的对抗生成式网络中的生成器,所述对抗生成式网络包括所述目标生成器与判别器,所述目标生成器用于在获取到所述样本图像的第一图像特征后,生成所述样本图像的第一掩膜,所述判别器用于在接收到擦除与所述第一掩膜对应的像素的样本图像后,识别擦除所述像素后的所述样本图像中的样本对象的类型,所述样本对象的类型用于训练所述目标生成器中的参数;
第二获取单元,用于获取所述目标生成器生成的所述目标图像的目标掩膜,其中,所述目标掩膜用于标注所述目标对象的轮廓。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
CN202010591353.9A 2020-06-24 2020-06-24 目标图像中的对象轮廓的标注方法及装置、存储介质 Pending CN113838076A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202010591353.9A CN113838076A (zh) 2020-06-24 2020-06-24 目标图像中的对象轮廓的标注方法及装置、存储介质
EP21829598.8A EP4174769A1 (en) 2020-06-24 2021-05-24 Method and apparatus for marking object outline in target image, and storage medium and electronic apparatus
PCT/CN2021/095562 WO2021258955A1 (zh) 2020-06-24 2021-05-24 目标图像中的对象轮廓的标注方法及装置、存储介质和电子装置
US18/000,737 US20230106178A1 (en) 2020-06-24 2021-05-24 Method and apparatus for marking object outline in target image, and storage medium and electronic apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010591353.9A CN113838076A (zh) 2020-06-24 2020-06-24 目标图像中的对象轮廓的标注方法及装置、存储介质

Publications (1)

Publication Number Publication Date
CN113838076A true CN113838076A (zh) 2021-12-24

Family

ID=78964952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010591353.9A Pending CN113838076A (zh) 2020-06-24 2020-06-24 目标图像中的对象轮廓的标注方法及装置、存储介质

Country Status (4)

Country Link
US (1) US20230106178A1 (zh)
EP (1) EP4174769A1 (zh)
CN (1) CN113838076A (zh)
WO (1) WO2021258955A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023124697A1 (zh) * 2021-12-31 2023-07-06 上海商汤智能科技有限公司 图像增强方法和装置、存储介质和电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419086A (zh) * 2022-01-20 2022-04-29 北京字跳网络技术有限公司 边缘提取方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049308B1 (en) * 2017-02-21 2018-08-14 A9.Com, Inc. Synthesizing training data
CN109903291B (zh) * 2017-12-11 2021-06-01 腾讯科技(深圳)有限公司 图像处理方法及相关装置
CN109741395B (zh) * 2018-12-14 2021-07-23 北京市商汤科技开发有限公司 双心室量化方法、装置、电子设备及存储介质
CN109886970B (zh) * 2019-01-18 2023-06-09 南京航空航天大学 太赫兹图像中目标物体的检测分割方法及计算机存储介质
CN110188835B (zh) * 2019-06-05 2021-03-16 国家广播电视总局广播电视科学研究院 基于生成式对抗网络模型的数据增强行人再识别方法
CN110675353A (zh) * 2019-08-31 2020-01-10 电子科技大学 一种基于条件生成对抗网络的选择分割图像合成方法
CN111259772B (zh) * 2020-01-13 2023-05-30 广州虎牙科技有限公司 图像标注方法、装置、设备和介质
CN111325726A (zh) * 2020-02-19 2020-06-23 腾讯医疗健康(深圳)有限公司 模型训练方法、图像处理方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023124697A1 (zh) * 2021-12-31 2023-07-06 上海商汤智能科技有限公司 图像增强方法和装置、存储介质和电子设备

Also Published As

Publication number Publication date
US20230106178A1 (en) 2023-04-06
WO2021258955A1 (zh) 2021-12-30
EP4174769A1 (en) 2023-05-03

Similar Documents

Publication Publication Date Title
CN109034078B (zh) 年龄识别模型的训练方法、年龄识别方法及相关设备
WO2020098250A1 (zh) 字符识别方法、服务器及计算机可读存储介质
CN110766038B (zh) 无监督式的地貌分类模型训练和地貌图构建方法
CN104700099B (zh) 识别交通标志的方法和装置
CN108805016B (zh) 一种头肩区域检测方法及装置
CN106845621A (zh) 基于深度卷积神经网络的密集人群人数计数方法及系统
CN107690660A (zh) 图像识别方法及装置
CN110728295B (zh) 半监督式的地貌分类模型训练和地貌图构建方法
CN112862093B (zh) 一种图神经网络训练方法及装置
CN109284779A (zh) 基于深度全卷积网络的物体检测方法
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN109919252A (zh) 利用少数标注图像生成分类器的方法
CN111382808A (zh) 一种车辆检测处理方法及装置
CN110909794A (zh) 一种适用于嵌入式设备的目标检测系统
CN111833372A (zh) 一种前景目标提取方法及装置
CN111291773A (zh) 特征识别的方法及装置
CN113838076A (zh) 目标图像中的对象轮廓的标注方法及装置、存储介质
CN110390261A (zh) 目标检测方法、装置、计算机可读存储介质及电子设备
CN109583367A (zh) 图像文本行检测方法及装置、存储介质和电子设备
CN109978058B (zh) 确定图像分类的方法、装置、终端及存储介质
CN113420871B (zh) 图像质量的评估方法、装置、存储介质及电子装置
CN112528058B (zh) 基于图像属性主动学习的细粒度图像分类方法
CN112802076A (zh) 反射图像生成模型及反射去除模型的训练方法
CN114170484B (zh) 图片属性预测方法、装置、电子设备和存储介质
CN116129158A (zh) 一种输电线路铁塔小部件图像识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination