CN117011579A - 图像识别网络的训练方法和装置、存储介质及电子设备 - Google Patents
图像识别网络的训练方法和装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN117011579A CN117011579A CN202211483321.2A CN202211483321A CN117011579A CN 117011579 A CN117011579 A CN 117011579A CN 202211483321 A CN202211483321 A CN 202211483321A CN 117011579 A CN117011579 A CN 117011579A
- Authority
- CN
- China
- Prior art keywords
- image
- instance
- sample
- network
- sample image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 144
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000012545 processing Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 230000011218 segmentation Effects 0.000 description 23
- 238000002372 labelling Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 20
- 238000001514 detection method Methods 0.000 description 10
- 241000283070 Equus zebra Species 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000007499 fusion processing Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 241001494479 Pecora Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像识别网络的训练方法和装置、存储介质及电子设备。其中,该方法包括:将第一样本图像及第二样本图像输入图像识别网络,得到识别损失值,其中,第一样本图像携带有实例标签;在识别损失值并未达到阈值条件的情况下,对图像识别网络中的网络参数进行调整,并利用调整后的网络参数确定参考标签生成网络;将第二样本图像输入参考标签生成网络,得到为第二样本图像生成的参考实例标签;利用携带有参考实例标签的第二样本图像对第二图像样本集进行更新;在识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络为达到收敛条件的目标图像识别网络。本发明解决了现有训练方法训练效果较差的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种图像识别网络的训练方法和装置、存储介质及电子设备。
背景技术
在图像识别技术领域中,存在需要借助神经网络模型执行对图像中属于特定类别集合的物体进行分割的识别任务,从而为属于同一类的对象的单独实例提供了不同的标签,这类任务通常被称之为实例分割任务。
相关技术手段中对执行实例分割任务的网络进行训练之前,通常需要获取带有人工标注的图像样本对初始模型进行训练。但是由于对图像中包括的实例进行标注的工作量较大,因此初始训练过程中,可以用于训练的标注样本数量十分有限,通过有限的标注样本进行训练会导致实例分割网络产生过拟合的技术问题,换句话说,相关技术利用有限标注样本进行模型训练的方法存在训练效果较差的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图像识别网络的训练方法和装置、存储介质及电子设备,以至少解决相关技术利用有限标注样本进行网络训练的方法存在训练效果较差的技术问题。
根据本发明实施例的一个方面,提供了一种图像识别网络的训练方法,包括:获取第一图像样本集以及第二图像样本集,其中,上述第一图像样本集中包括多个第一样本,每个上述第一样本中包括携带有实例标签的第一样本图像,上述实例标签用于指示上述第一样本图像中的实例对象的实例类别以及上述实例对象在上述第一样本图像中的图像位置,上述第二图像样本集中包括多个第二样本,每个上述第二样本中包括未携带实例标签的第二样本图像;将从上述第一图像样本集中获取到的上述第一样本图像,及从上述第二图像样本集中获取到的上述第二样本图像输入处于训练状态的图像识别网络,得到识别损失值,其中,上述图像识别网络用于识别出样本图像中实例对象的实例类别及上述实例对象在样本图像中的图像位置;在上述识别损失值并未达到阈值条件的情况下,对上述图像识别网络中的网络参数进行调整,并利用调整后的网络参数确定参考标签生成网络,其中,上述参考标签生成网络用于为输入的图像生成参考实例标签;将上述第二样本图像输入上述参考标签生成网络,得到为上述第二样本图像生成的参考实例标签;利用携带有上述参考实例标签的上述第二样本图像对上述第二图像样本集进行更新;在上述识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络为达到收敛条件的目标图像识别网络。
根据本发明实施例的另一方面,提供了一种图像识别网络的训练装置,包括:获取单元,用于获取第一图像样本集以及第二图像样本集,其中,上述第一图像样本集中包括多个第一样本,每个上述第一样本中包括携带有实例标签的第一样本图像,上述实例标签用于指示上述第一样本图像中的实例对象的实例类别以及上述实例对象在上述第一样本图像中的图像位置,上述第二图像样本集中包括多个第二样本,每个上述第二样本中包括未携带实例标签的第二样本图像;训练单元,用于将从上述第一图像样本集中获取到的上述第一样本图像,及从上述第二图像样本集中获取到的上述第二样本图像输入处于训练状态的图像识别网络,得到识别损失值,其中,上述图像识别网络用于识别出样本图像中实例对象的实例类别及上述实例对象在样本图像中的图像位置;更新单元,用于在上述识别损失值并未达到阈值条件的情况下,对上述图像识别网络中的网络参数进行调整,并利用调整后的网络参数确定参考标签生成网络,其中,上述参考标签生成网络用于为输入的图像生成参考实例标签;将上述第二样本图像输入上述参考标签生成网络,得到为上述第二样本图像生成的参考实例标签;利用携带有上述参考实例标签的上述第二样本图像对上述第二图像样本集进行更新;确定单元,用于在上述识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络为达到收敛条件的目标图像识别网络。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述图像识别网络的训练方法。
根据本申请实施例的又一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上图像识别网络的训练方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的图像识别网络的训练方法。
在本发明实施例中,采用将第一样本图像及第二样本图像输入图像识别网络,得到识别损失值,其中,第一样本图像携带有实例标签;在识别损失值并未达到阈值条件的情况下,对图像识别网络中的网络参数进行调整,并利用调整后的网络参数确定参考标签生成网络;将第二样本图像输入参考标签生成网络,得到为第二样本图像生成的参考实例标签;利用携带有参考实例标签的第二样本图像对第二图像样本集进行更新;在识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络为达到收敛条件的目标图像识别网络。从而通过携带标注标签和未携带标注标签的样本对图像识别网络进行训练,在未达到收敛条件的情况下,再利用根据图像识别网络确定的参考标签生成网络,用以生成在下一轮训练过程中对图像识别网络进行训练的样本,进而解决了相关技术中只能采用少量标注样本对网络进行训练的问题,通过少量携带标注标签和大量未携带标注标签的图像样本对图像识别网络进行训练,提升了训练得到的图像识别网络的图像识别性能,进而解决了相关技术利用有限标注样本进行网络训练的方法存在训练效果较差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的图像识别网络的训练方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的图像识别网络的训练方法的流程图;
图3是根据本发明实施例的一种可选的图像识别网络的训练方法的示意图;
图4是根据本发明实施例的另一种可选的标签确定模型的训练方法的示意图;
图5是根据本发明实施例的又一种可选的标签确定模型的训练方法的示意图;
图6是根据本发明实施例的又一种可选的标签确定模型的训练方法的示意图;
图7是根据本发明实施例的又一种可选的标签确定模型的训练方法的示意图;
图8是根据本发明实施例的另一种可选的标签确定模型的训练方法的流程图;
图9是根据本发明实施例的一种可选的图像识别网络的训练装置的结构示意图;
图10是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
以下对本申请将使用的名词进行说明:
实例分割:对图像中属于特定类别集合的物体进行分割,为属于同一类的对象的单独实例提供了不同的标签;
掩码:mask,分割标注;
单阶段:实例分割是通过将实例分割作为自底向上的像素分配问题来关注像素,一般采用全局掩码;
双阶段:一般采用先检测,然后在检测框内分割局部掩码的自顶向下方法称为双阶段实例分割,例如maskrcnn模型;
半监督学习:训练数据有少量人工标注(Dlabeled简写Dl),其余均为无标签样本(Dunlabeled简写Du)的模式;
端到端:一次训练完成,不需要人工参与中间训练过程;
伪标签(pseudo label):通过模型和规则等方法,为无标签样本获取非人工标注(可能存在噪声)的标签;
SOLO:一种先进的单阶段实例分割方法;
Strong aug:强数据增强,例如拼接,马赛克等;
Weakly aug:弱数据增强,例如颜色抖动,翻转;
根据本发明实施例的一个方面,提供了一种图像识别网络的训练方法,作为一种可选的实施方式,上述图像识别网络的训练方法可以但不限于应用于如图1所示的由服务器102和终端设备104所构成的图像识别网络的训练系统中。如图1所示,服务器102通过网络110与终端设备104进行连接,上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述终端设备可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视、车载设备等。上述终端设备上可以安装有客户端,例如具有识图功能的搜索客户端、具有识图功能的即时通信客户端等。上述终端设备上还设置有显示器、处理器和存储器,显示器可以用于显示上述具有识图功能的搜索客户端、具有识图功能的即时通信客户端的程序界面,以及显示与待识别的图像,处理器可以用于对待识别的图像利用训练好的识别网络进行识图处理;存储器用于待识别图像进行存储。可以理解的是,可以先在服务器102中对用于图像识别的网络进行训练,在训练完成的情况下,服务器102可以通过网络110向终端设备104发送训练好的目标图像识别网络,在上述终端设备104中获取到训练完成的目标图像识别网络后,可以对用户提供的图像进行图像识别,以确定图像中包括的实例的类型以及实例在图像中的位置。服务器102可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述服务器包括数据库和处理引擎。其中,上述数据库中可包括用于训练的样本图像集合;上述处理引擎用于执行上述图像识别网络的训练过程。
根据本发明实施例的一个方面,上述图像识别网络的训练系统还可以执行以下步骤:服务器102执行步骤S102至S108,获取第一图像样本集以及第二图像样本集,其中,第一图像样本集中包括多个第一样本,每个第一样本中包括携带有实例标签的第一样本图像,实例标签用于指示第一样本图像中的实例对象的实例类别以及实例对象在第一样本图像中的图像位置,第二图像样本集中包括多个第二样本,每个第二样本中包括未携带实例标签的第二样本图像;将从第一图像样本集中获取到的第一样本图像,及从第二图像样本集中获取到的第二样本图像输入处于训练状态的图像识别网络,得到识别损失值,其中,图像识别网络用于识别出样本图像中实例对象的实例类别及实例对象在样本图像中的图像位置;在识别损失值并未达到阈值条件的情况下,对图像识别网络中的网络参数进行调整,并利用调整后的网络参数确定参考标签生成网络,其中,参考标签生成网络用于为输入的图像生成参考实例标签;将第二样本图像输入参考标签生成网络,得到为第二样本图像生成的参考实例标签;利用携带有参考实例标签的第二样本图像对第二图像样本集进行更新;在识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络为达到收敛条件的目标图像识别网络;接着,服务器102执行步骤S110,通过网络110向终端设备104发送目标图像识别网络;最后,终端设备104执行步骤S112,利用目标图像识别网络进行图像识别。
在本发明实施例中,采用将第一样本图像及第二样本图像输入图像识别网络,得到识别损失值,其中,第一样本图像携带有实例标签;在识别损失值并未达到阈值条件的情况下,对图像识别网络中的网络参数进行调整,并利用调整后的网络参数确定参考标签生成网络;将第二样本图像输入参考标签生成网络,得到为第二样本图像生成的参考实例标签;利用携带有参考实例标签的第二样本图像对第二图像样本集进行更新;在识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络为达到收敛条件的目标图像识别网络。从而通过携带标注标签和未携带标注标签的样本对图像识别网络进行训练,在未达到收敛条件的情况下,再利用根据图像识别网络确定的参考标签生成网络,用以生成在下一轮训练过程中对图像识别网络进行训练的样本,进而解决了相关技术中只能采用少量标注样本对网络进行训练的问题,通过少量携带标注标签和大量未携带标注标签的图像样本对图像识别网络进行训练,提升了训练得到的图像识别网络的图像识别性能,进而解决了相关技术利用有限标注样本进行网络训练的方法存在训练效果较差的技术问题。
上述仅是一种示例,本实施例中对此不作任何限定。
作为一种可选的实施方式,如图2所示,上述图像识别网络的训练方法包括以下步骤:
S202,获取第一图像样本集以及第二图像样本集;
其中,第一图像样本集中包括多个第一样本,每个第一样本中包括携带有实例标签的第一样本图像,实例标签用于指示第一样本图像中的实例对象的实例类别以及实例对象在第一样本图像中的图像位置,第二图像样本集中包括多个第二样本,每个第二样本中包括未携带实例标签的第二样本图像;
S204,将从第一图像样本集中获取到的第一样本图像,及从第二图像样本集中获取到的第二样本图像输入处于训练状态的图像识别网络,得到识别损失值;
其中,图像识别网络用于识别出样本图像中实例对象的实例类别及实例对象在样本图像中的图像位置;
S206,在识别损失值并未达到阈值条件的情况下,对图像识别网络中的网络参数进行调整,并利用调整后的网络参数确定参考标签生成网络;其中,参考标签生成网络用于为输入的图像生成参考实例标签;将第二样本图像输入参考标签生成网络,得到为第二样本图像生成的参考实例标签;利用携带有参考实例标签的第二样本图像对第二图像样本集进行更新;
S208,在识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络为达到收敛条件的目标图像识别网络。
在上述步骤S202中,第一图像样本集和第二图像样本集中包括的样本图像中可以至少包括两部分区域,其中,第一区域为本实施方式中需要识别的实例对象所占据的图像区域,第二区域为除了实例对象之外的其他图像区域。以图3为例,图中占据中心区域的可以表现图像主题的对象即为实例对象,如图3中的实例对象为位于图像中央的两匹斑马;而除了图3中显示的斑马对象之外的其他区域即为图像背景所占据的区域,如图3中的背景区域主要是草丛和树木所占据的图像区域。
可以理解的是,在本实施方式中,上述实例标签即可以为用于指示上述实例对象的实例类别以及实例对象在样本图像中所占据的位置。例如,根据图3中的实例对象,可以确定图3中的实例对象的类别对应于“斑马”,假设“斑马”类别对应的类别代码为“100”,即利用“100”作为图3的实例标签中的实例类别;假设图3中的实例对象“斑马”所占据的像素点包:括“(100pt,110pt),(100pt,111pt),(100pt,112pt),(100pt,113pt)……”的情况下,可以将上述像素点集合作为图3的实例标签中的图像位置。以上标签的标注方式仅为一种示例,不对本实施方式中具体的标注方式进行限制。
需要说明的是,上述第一图像样本中的第一样本可以是携带了实例标签的第一样本图像,上述实例标签可以是真实的标注结果,第二图像样本中的第二样本可以是未携带有实例标签的第二样本图像;进一步地,上述第二图像样本可以是不携带任何标注结果的样本图像,还可以是携带有“伪标签”的样本图像,其中,上述伪标签可以是一种标签生成模型根据第二样本图像输出的识别结果,该识别结果的置信度小于或等于1。
进一步地,在上述步骤S204中,从上述第一样本图像中获取第一样本图像并从第二图像样本集中获取第二样本图像,进而将携带有实例标签的第一样本图像和未携带实例标签的第二样本图像输入处于训练状态的以图像识别网络,进而得到训练损失。
可以理解的是,上述第一样本图像中获取第一样本图像并从第二图像样本集中获取第二样本图像之后,可以先对第一样本图像和第二样本图像进行一定的预处理操作,再将预处理得到的图像输入上述图像识别网络。上述预处理操作可以包括但不限于是对第一样本图像和第二样本图像进行图像增强处理、对第一样本图像和第二样本图像进行图像特征融合处理等,本实施例不对上述预处理操作的具体操作方式进行限定。
可选地,在上述步骤S206中,在识别损失值并未达到阈值条件的情况下,可以先对图像识别网络进行参数调整,进而根据调整后的网络参数确定出用于生成参考实例标签的参考标签生成网络。可以理解的是,在本实施方式中,在得到上述参考标签生成网络之后,可以根据上述参考标签生成网络对上述未携带有实例标签的第二图像样本集中的第二样本图像进行识别,以得到与上述第二样本图像对应的参考实例标签。
进一步地,在得到与上述第二样本图像对应的参考实例标签的情况下,可以返回上述步骤S204,根据携带了参考实例标签的第二样本图像和携带了实例标签的第一样本图像对图像识别网络进行进一步训练。
上述图像识别模型可以是一种单阶段的图像识别模型,上述单阶段图像识别模型可以根据图像特征直接输出图像识别结果,例如SOLO模型、condinst模型等。
通过本申请的上述实施方式,采用将第一样本图像及第二样本图像输入图像识别网络,得到识别损失值,其中,第一样本图像携带有实例标签;在识别损失值并未达到阈值条件的情况下,对图像识别网络中的网络参数进行调整,并利用调整后的网络参数确定参考标签生成网络;将第二样本图像输入参考标签生成网络,得到为第二样本图像生成的参考实例标签;利用携带有参考实例标签的第二样本图像对第二图像样本集进行更新;在识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络为达到收敛条件的目标图像识别网络。从而通过携带标注标签和未携带标注标签的样本对图像识别网络进行训练,在未达到收敛条件的情况下,再利用根据图像识别网络确定的参考标签生成网络,用以生成在下一轮训练过程中对图像识别网络进行训练的样本,进而解决了相关技术中只能采用少量标注样本对网络进行训练的问题,通过少量携带标注标签和大量未携带标注标签的图像样本对图像识别网络进行训练,提升了训练得到的图像识别网络的图像识别性能,进而解决了相关技术利用有限标注样本进行网络训练的方法存在训练效果较差的技术问题。
以下对上述步骤S202至S208中的图像识别模型进行进一步说明。作为一种可选的方式,上述在识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络达到收敛条件之后,还包括:
S1,获取待识别的目标图像;
S2,根据目标图像识别网络的特征提取层提取目标图像中的图像特征;
S3,将图像特征输入目标图像识别网络的类别识别层,确定出目标图像中包括的实例对象的目标实例类别;
S4,将图像特征输入目标图像识别网络的位置识别层,确定出目标图像中包括的实例对象在目标图像中的目标图像位置;
S5,将目标实例类别以及目标图像位置确定为目标图像的识别结果。
作为一种具体地方式,上述目标图像识别网络可以是一种SOLO网络,用于对图像执行实例分割任务,以得到图像中包括的实例对象的类型以及实例对象在图像中所占据的图像位置。
以下结合图4、图5对上述图像识别网络进行进一步说明。
需要说明的是,在相关技术中,在解决实例分割的问题时,通常采用双阶段实例分割算法,例如图4中的(a)图所示,示出了一种双阶段实例分割算法Mask R-CNN,其进行实例分割的逻辑是,先确定出实例对象所在的检测框的范围,再基于确定的检测框的范围对范围中的实例对象的类型以及其所在的具体位置进行检测。在这种多阶段的检测方式中,如果检测框出现偏移,则采用局部预测无法精确预测实例对象所在的mask。
在本实施方式中,所采用的实例分割算法单阶SOLO是boxffee的,即不依赖预测的检测框对实例进行局部分割,局部分割的结果也并不依赖于检测框的预测准确性。如图4中的(b)图所示,对实例对象的类别的预测以及mask的预测并不依赖于检测框的预测,对mask的预测是全局的。
进一步地,如图5所示,SOLO算法根据实例的位置和大小确定某一个实例,因此SOLO基于FCN(全卷积网络),有两个分支,分别是类别分枝和mask预测分枝,实例对应的位置上的特征F经过卷积得到类别预测,该特征同时对mask feature进行卷积,得到该位置上的实例的mask预测。对应地,在本实施方式中,SOLO的有监督损失Ls分为两部分,分别为Lc和Lm,其中,Ls=Lc+Lm。损失Lc用于监督分类分枝,Lm用于监督分割mask分枝。进一步地,上述损失Lc采用focalloss,Lm采用dice loss。
通过本申请的上述实施方式,以获取待识别的目标图像;根据目标图像识别网络的特征提取层提取目标图像中的图像特征;将图像特征输入目标图像识别网络的类别识别层,确定出目标图像中包括的实例对象的目标实例类别;将图像特征输入目标图像识别网络的位置识别层,确定出目标图像中包括的实例对象在目标图像中的目标图像位置;将目标实例类别以及目标图像位置确定为目标图像的识别结果,从而在单阶段示例分割模型上采用半监督的训练方式,可以显著提升模型训练速度,还可以提升示例分割结果的准确性。
作为一种可选的实施方式,上述将从第一图像样本集中获取到的第一样本图像,及从第二图像样本集中获取到的第二样本图像输入处于训练状态的图像识别网络,得到识别损失值包括:
S1,根据从第一图像样本集中获取到的第一样本图像,及从第二图像样本集中获取到的第二样本图像生成第三样本图像,其中,第三样本图像中包括第一样本图像中的第一实例对象以及第二样本图像中的第二实例对象;
S2,根据处于训练状态的图像识别网络提取第三样本图像的图像特征,并根据图像特征分别识别第三样本图像中包括的实例对象的预测实例类别,以及实例对象在第三样本图像中的预测图像位置;
S3,根据处于训练状态的图像识别网络的预测结果以及第三样本图像对应的实例标签确定识别损失值。
在本实施方式中,在获取到上述第一样本图像和第二样本图像后,可以根据上述第一样本图像和上述第二样本图像进一步生成第三样本图像,并将生成的第三样本图像输入上述图像识别网络中,以得到对第三样本图像的预测结果。在本实施方式中,上述第三样本图像中包括了上述第一样本图像中的实例对象。
接着根据第三样本图像的预测结果与第三样本图像对应的实例标签确定出上述识别损失值。可以理解的是,由于上述第三样本图像中包括了上述第一样本图像中的实例对象,进而上述第三样本图像对应的实例标签也可以根据上述第一样本图像对应的实例标签确定。
通过本申请的上述实施方式,以根据从第一图像样本集中获取到的第一样本图像,及从第二图像样本集中获取到的第二样本图像生成第三样本图像;根据处于训练状态的图像识别网络提取第三样本图像的图像特征,并根据图像特征分别识别第三样本图像中包括的实例对象的预测实例类别,以及实例对象在第三样本图像中的预测图像位置;根据处于训练状态的图像识别网络的预测结果以及第三样本图像对应的实例标签确定识别损失值,进而在只能获取少量标注样本的情况下,结合携带标注样本和无标注样本对图像识别网络进行训练,继而能够得到更鲁棒的模型,解决现有的训练方式中由于实际标注样本过少而存在的过拟合的技术问题。
作为一种可选的实施方式,上述根据从第一图像样本集中获取到的第一样本图像,及从第二图像样本集中获取到的第二样本图像生成第三样本图像包括:
S1,获取第一样本图像中的第一实例对象对应的实例图像;
S2,在第二样本图像中的目标位置添加实例图像;
S3,将携带了实例图像的第二样本图像确定为第三样本图像;
S4-1,在第二样本图像具有对应的参考实例标签的情况下,根据第二样本图像对应的参考实例标签以及第一样本图像对应的实例标签确定第三样本图像对应的实例标签;
S4-2,在第二样本图像中的实例对象不具有对应的参考实例标签的情况下,根据第一样本图像对应的实例标签确定第三样本图像对应的实例标签。
以下结合图6对上述方法进行说明。如图6所示,第一样本图像中显示有第一实例对象,且第一实例对象具有对应的人工标注的实例标签;同时上述第二样本图像中显示有第二实例对象,第二实例对象不具有对应的人工标注的实例标签。进一步地,将第一样本图像中的第一实例对象对应的实例图像添加至第二样本图像中,进而得到图6中的第三样本图像,第三样本图像中同时包括上述第一实例对象以及第二实例对象,其中,第一实例对象具有对应的标注标签。
进一步地,在上述第二样本图像中的第二实例图像具有对应的参考实例标签的情况下,可以将第二实例图像具有对应的参考实例标签同时作为上述第三样本图像的实例标签。其中,上述参考实例标签可以是通过模型预测得到的实例标签。
可选地,上述在第二样本图像的目标位置添加实例图像之前,还包括以下之一:
S1,在第二样本图像中不包括实例对象的区域中确定目标位置;
S2,获取实例对象在第一样本图像中的参考实例位置;将第二样本图像中与参考实例位置对应的图像区域确定为目标位置。
可以理解的是,在上述第一种确定目标位置的方式中,可以在第二样本图像中不包括实例对象的位置确定出目标位置,从而避免实例对象的堆叠而对实例分割结果带来的干扰,在上述方式中,可以根据实际的实例添加位置更新对应的实例标签;在上述第二种确定目标位置的方式中,可以根据实例对象在第一样本图像中的具体位置直接在第二样本图像的对应位置确定出上述目标位置,进而在上述方式中,可以将上述第一样本图像对应的实例标签迁移至上述第三样本图像中。
通过本申请的上述实施方式,以获取第一样本图像中的第一实例对象对应的实例图像;在第二样本图像中的目标位置添加实例图像;将携带了实例图像的第二样本图像确定为第三样本图像;在第二样本图像具有对应的参考实例标签的情况下,根据第二样本图像对应的参考实例标签以及第一样本图像对应的实例标签确定第三样本图像对应的实例标签;在第二样本图像中的实例对象不具有对应的参考实例标签的情况下,根据第一样本图像对应的实例标签确定第三样本图像对应的实例标签,从而根据携带有标注标签的第一样本图像和未携带标注标签的第二样本图像生成携带有标签的第三样本图像,从而扩充了可以用于训练的样本数量,进而在只能获取少量标注样本的情况下,结合携带标注样本和无标注样本对图像识别网络进行训练,进而能够得到更鲁棒的模型,解决现有的训练方式中由于实际标注样本过少而存在的过拟合的技术问题。
作为一种可选的实施方式,上述将携带了实例图像的第二样本图像确定为第三样本图像之前,还包括:
S1,对第二样本图像进行图像增强处理;
S2,利用与参数调整前的图像识别网络对应的参考标签生成网络对图像增强处理后的第二样本图像进行识别,得到多个候选实例对象各自对应的分类置信度和区域置信度;
S3,获取多个候选实例对象各自对应的分类置信度和区域置信度的乘积,并将多个候选实例对象各自对应的乘积确定为与多个候选实例对象各自对应的标签置信度;
S4,将标签置信度大于或等于置信度阈值的候选实例确定为第二样本图像中包括的第二实例对象,根据第二实例对象对应的分类置信度和区域置信度确定第二样本图像对应的参考实例标签。
以下对本实施方式中确定出第二样本图像对应的参考示例标签的方式进行说明。
在本实施方式中,可以先对第二样本图像进行图像增强处理,上述图像增强可以包括但不限于是一种弱数据增强处理,例如可以对图像颜色进行颜色抖动处理,或对图像进行翻转处理。本实施方式不对图像增强的具体方式进行限定。
在对不携带实例标签的第二样本图像进行图像增强处理之后,可以利用与参数调整前的图像识别网络对应的参考标签生成网络对其进行识别。需要说明的是,在本实施方式中,可以包括多次训练过程,每次训练过程中,对应于当前训练的图像识别模型,可以配置一个对应的参考标签生成模型,并基于该参考标签生成模型的识别结果为第二样本图像配置对应的参考实例标签。
以下对一种具体地生成第三样本图像的过程进行说明。
首先,获取第二图像样本集中的第二样本图像,并对第二样本图像进行弱增强处理,具体形式为对第二样本图像进行颜色gamma变换。具体变换公式如下:
Xw=Xgamma
其中,X为第二样本图像中的每一个像素点的像素值,Xw为颜色gamma变换之后的第二样本图像中的每一个像素点的像素值,取值gamma<1时,图像变暗,取值gamma>1时,图像变亮,在本实施方式中,gamma可以取区间[0.8,1.2]中的任意数值。
接着,将颜色gamma变换后的第二样本图像输入与当前训练的图像识别网络对应的参考标签生成网络中,进而得到与第二样本图像对应的参考实例标签。
可以理解的是,参考标签生成网络可以与上述图像识别网络具有相同的网络结构,进而可以根据输入的第二样本图像输出分类得分Sc和分割的mask的平均得分Smask。
接着利用如下公式确定与第二样本图像对应的参考实例标签:
S=Sc*Smask
在上述公式中,S指示一个候选实例对象的得分,在S大于0.8的情况下,即将上述得分S对应的候选实例对象确定为第二样本图像中包括的第二实例对象。
以下对上述分类得分Sc和上述分割的mask的平均得分Smask进行进一步说明。在本实施方式中,上述参考标签生成网络对第二样本图像进行识别后,可以预测第二样本图像中包括的实例对象的实例类别以及不同图像区域中分割mask的得分。
具体地,假设针对第二样本图像中的识别结果,其分类得分情况如下:实例类别预测为“斑马”的得分为0.9,实例类别预测为“羊”的得分为0.1;
在上述第一区域中的每一个像素点都有对应的分割的mask得分,用于指示当前像素点为实例对象对应的像素点的概率。例如,针对像素点(100pt,110pt),其mask得分为0.9,指示当前像素点为实例对象所在的图像中的像素点的概率为90%。进一步地,假设在第二样本图像中中存在第一区域,该区域中每一个像素点的分割mask得分的平均值为0.9,进而根据上述公式:
S=Sc*Smask
可以确定,在上述第一区域具有“斑马”实例对象的得分为0.9*0.9,即0.81;在上述第一区域具有“羊”实例对象的得分为0.1*0.9,即0.09,由于“斑马”实例对象的得分大于阈值0.8,进而将实例类别“斑马”以及上述第一区域所在的图像范围作为上述第二样本图像的参考实例标签。
通过上述方式,可以利用与当前图像识别网络对应的参考标签生成网络生成与不携带实例标签的第二样本图像的参考实例标签。
接着,由于在训练初期,上述参考标签生成网络未充分训练时,对无标签样本可能无法得到正确的实例结果,因此在本实施方式中,进一步采用了基于实例混合的强增强方法。将样本集合中的携带了实例标签的第一样本图像与上述携带了参考实例标签的第二样本图像进行融合得到上述第三样本图像。其中,从第一样本图像中随机提取一半的实例对象融合到第二样本图像的对应位置上,由于第一样本图像是有标签的样本,因此融合的实例具有真实的标签。对于第二样本图像中的实例,可以通过上述方式,采用弱增强处理后,通过参考标签生成网络识别得到的结果,作为伪标签。因此可以将第三样本图像输入至图像识别网络中进行有监督的训练。
通过本申请的上述实施方式,以获取第一样本图像中的第一实例对象对应的实例图像;在第二样本图像中的目标位置添加实例图像;将携带了实例图像的第二样本图像确定为第三样本图像;在第二样本图像具有对应的参考实例标签的情况下,根据第二样本图像对应的参考实例标签以及第一样本图像对应的实例标签确定第三样本图像对应的实例标签;在第二样本图像中的实例对象不具有对应的参考实例标签的情况下,根据第一样本图像对应的实例标签确定第三样本图像对应的实例标签,从而根据携带有标注标签的第一样本图像和未携带标注标签的第二样本图像生成携带有标签的第三样本图像,从而扩充了可以用于训练的样本数量,进而在只能获取少量标注样本的情况下,结合携带标注样本和无标注样本对图像识别网络进行训练,进而能够得到更鲁棒的模型,解决现有的训练方式中由于实际标注样本过少而存在的过拟合的技术问题。
作为一种可选的实施方式,上述根据处于训练状态的图像识别网络的预测结果以及第三样本图像对应的实例标签确定识别损失值包括:
S1,获取处于训练状态的图像识别网络对第三样本图像中包括的第一实例对象的第一识别结果和第二实例对象的第二识别结果;
S2,根据第一识别结果与实例标签确定第一损失值,并根据第二识别结果与参考实例标签确定第二损失值;
S3,根据第二损失值的损失置信度与第二损失值的乘积以及第一损失值确定识别损失值,其中,损失置信度根据参考实例标签的标签置信度确定。
需要说明的是,对于上述融合处理后的第三样本图像中的实例,其中一部分是采用弱增强后,通过参考标签生成网络得到的结果,作为参考实例标签,即一种伪标签。这一过程可能存在假阳性样本,因此,在利用上述对融合处理后的第三样本图像对图像识别网络进行训练的过程中,针对假实例以及对应的伪标签采用降低其损失比重的方式,从而降低错误实例带来对训练造成的负面影响。
因此融合处理后的第三样本图像中的实例,来自与第一样本图像的实例损失权重为1,而来自第二样本图像中的样本中的伪标签,采用参考标签生成网络对弱增强样本预测得到的Score(即上述得分S)作为权重。进而确定利用上述第三样本图像对图像识别网络进行训练的样本损失中的伪标签损失可以通过如下公式得到:
Lu=s(Lc+Lm)
其中s=Sc*Smask,Sc为分类得分,为分割的mask的平均得分。
进而,上述训练过程的总损失可以通过如下方式得到:
L=Lu+Ll
其中,Ll为第一样本图像的实例对应的损失值。
通过本申请的上述实施方式,获取处于训练状态的图像识别网络对第三样本图像中包括的第一实例对象的第一识别结果和第二实例对象的第二识别结果;根据第一识别结果与实例标签确定第一损失值,并根据第二识别结果与参考实例标签确定第二损失值;根据第二损失值的损失置信度与第二损失值的乘积以及第一损失值确定识别损失值,其中,损失置信度根据参考实例标签的标签置信度确定,从而在只能获取少量标注样本的情况下,结合携带标注样本和无标注样本对图像识别网络进行训练,进而能够得到更鲁棒的模型,解决现有的训练方式中由于实际标注样本过少而存在的过拟合的技术问题。且通过为参考实例标签对应的损失值赋以对应的置信度,进而减少参考实例标签中可能携带的噪声对训练结果的影响。
作为一种可选的实施方式,上述利用调整后的网络参数确定参考标签生成网络包括:
S1,获取参数调整前的图像识别网络对应的参考标签生成网络的生成参数;
S2,获取参数调整后的图像识别网络的网络参数;
S3,根据生成参数和网络参数确定参考标签生成网络。
可以理解的是,在本实施方式中,可以根据参数调整前的图像识别网络对应的参考标签生成网络的生成参数以及图像识别网络的网络参数确定当前参考标签生成网络。
在本实施方式中,参数调整后的图像识别网络可以用于确定上述参考标签生成网络,进一步地,可以通过确定的参考标签生成网络进一步确定下一轮训练过程中用于训练图像识别网络的图像样本。
以下对上述对应关系进行进一步说明。例如,在当前训练过程中,确定图像识别网络A未达到收敛条件,进而根据图像识别网络A通过参数调整,得到图像识别网络B;进而根据图像识别网络B确定与之对应的参考标签生成网络B,再基于参考标签生成网络B确定用于对图像识别网络B进行训练的样本集,并利用确定的样本集对图像识别网络B进行训练;
在图像识别网络B未达到收敛条件的情况下,根据图像识别网络B通过参数调整,得到图像识别网络C;进而根据图像识别网络C确定与之对应的参考标签生成网络C,再基于参考标签生成网络C确定用于对图像识别网络C进行训练的样本集,并利用确定的样本集对图像识别网络C进行训练……
根据上述实施方式,上述图像识别网络B与上述参考标签生成网络B为具有对应关系的网络,上述图像识别网络C与上述参考标签生成网络C为具有对应关系的网络。
作为一种可选的实施方式,上述根据生成参数和网络参数确定参考标签生成网络包括:
S1,获取第一更新系数;
S2,确定生成参数与第一更新系数的第一乘积结果,以及网络参数与第二更新系数的第二乘积结果,其中,第一更新系数和第二更新系数的和为1;
S3,将根据第一乘积结果和第二乘积结果确定参考标签生成网络。
以下对上述图像识别网络与参考标签生成网络之间的确认关系进行说明。
假设上述第一更新系数为α,对应的,上述第二更新系数为1-α;
上述图像识别网络与参考标签生成网络之间的确认关系可以通过如下方式确认:
T(t+1)=αT(t)+(1-α)*S(t+1)
其中,上式中的T为上述参考标签生成网络的生成参数,上式中的S为上述图像识别网络的网络参数,T(t+1)为参数调整后的图像识别网络对应的参考标签生成网络的生成参数,S(t+1)参数调整后的图像识别网络的网络参数,T(t)为参数调整前的图像识别网络对应的参考标签生成网络的生成参数。
通过本申请的上述实施方式,以获取第一更新系数;确定生成参数与第一更新系数的第一乘积结果,以及网络参数与第二更新系数的第二乘积结果,其中,第一更新系数和第二更新系数的和为1;将根据第一乘积结果和第二乘积结果确定参考标签生成网络,从而利用训练过程不断迭代优化的参考标签生成网络进行伪标签的生成,用以训练图像识别网络,进而实现对图像识别网络的快速训练,提升训练效率。
以下结合图7、图8对本申请的一个完整实施过程进行说明:
如图7所示,对本实施例中的多个数据流过程进行说明。Studuent(S)和Teacher(T)是相同网络结构的单阶段实例分割算法(本实施例采用SOLO模型)。如图7中所示,本实施例中有三种数据流:
其中,第一数据流为D1(x,y),其中包括为带有标注标签的图像,x代表图像,y代表对应的标注标签;将第一数据流Dl输入至S中,采用有监督损失对S模型进行训练,其训练损失为Ls;
进一步地,如图所示,第二数据流为无标签数据Du(x),将x采用弱增强后(本实施方式采用颜色gamma变换)输入到T中,T得到的结果作为伪标签y~;
此外,还可以对无标签数据Du(x)采用强增强处理,采用(2)得到伪标签进行监督学习,损失为Lu。
其中T不参与梯度反传训练,只对S模型进行训练。T中的模型参数通过S进行EMA(移动指数滑动平均)更新,公式如下:
T(t+1)=αT(t)+(1-α)*S(t+1)
其中,t是当前迭代步骤。随着训练的进行,Teacher更新模型参数,使得Teacher得到的分割伪标签结果越来越好,进而基于Teacher得到的分割伪标签对S进行训练的训练结果也越来越好。
以下结合图8对本申请的一个完整过程进行说明:
S802,利用参考标签生成网络为不携带标注标签的第二图像样本预测伪标签;
具体地,在本实施方式中,先对不携带标注标签的第二图像样本进行弱增强处理。具体形式为对第二样本图像进行颜色gamma变换。具体变换公式如下:
Xw=Xgamma
在本实施方式中,gamma可以取区间[0.8,1.2]中的任意数值。
接着,将颜色gamma变换后的第二样本图像输入与当前训练的图像识别网络对应的参考标签生成网络中,进而得到与第二样本图像对应的参考实例标签。
接着利用如下公式确定与第二样本图像对应的参考实例标签:
S=Sc*Smask
在上述公式中,S指示一个候选实例对象的得分,在S大于0.8的情况下,即将上述得分S对应的候选实例对象确定为第二样本图像中包括的第二实例对象。
S804,利用第二图像样本和第一图像样本确定第三图像样本;
S806,利用第三图像样本对图像识别网络进行训练;
由于在训练初期,网络未充分训练时,对无标签样本可能无法得到正确的实例结果,因此实施方式采用了基于实例混合的强增强方法,将同一训练集中的Xl(第一样本图像)与Xu(第二样本图像)图像进行融合得到X(第三样本图像),其中X1中随机提取一半的实例融合到Xu的对应位置上,由于Xl是有标签的样本,因此融合的实例具有真实的标签。对于Xu中的实例,可以采用弱增强通过T网络得到的结果,作为伪标签。因此可以将X输入至T中进行有监督的训练。
接着,由于对于强增强X中的实例,采用了弱增强通过T网络得到的结果,作为伪标签。这一过程可能存在假阳性样本,因此对假实例采用降低其损失比重的方式,从而降低错误实例带来对训练造成的负面影响。因此融合处理后的第三样本图像中的实例,来自与第一样本图像的实例损失权重为1,而来自第二样本图像中的样本中的伪标签,采用参考标签生成网络对弱增强样本预测得到的Score(即上述得分S)作为权重。进而确定利用上述第三样本图像对图像识别网络进行训练的样本损失中的伪标签损失可以通过如下公式得到:
Lu=s(Lc+Lm)
其中s=Sc*Smask,Sc为分类得分,为分割的mask的平均得分。
进而,上述训练过程的总损失可以通过如下方式得到:
L=Lu+Ll
其中,Ll为第一样本图像的实例对应的损失值。
S808,判断当前图像识别网络达到收敛条件?在达到收敛条件的情况下,执行步骤S814,确定当前图像识别网络为目标图像识别网络并结束;在未达到收敛条件的情况下,执行步骤S810,更新当前图像识别网络的网络参数;具体可以采用梯度反传的方式进行参数更新;
S812,更新参考标签生成网络的生成参数;
假设上述第一更新系数为α,对应的,上述第二更新系数为1-α;
上述图像识别网络与参考标签生成网络之间的确认关系可以通过如下方式确认:
T(t+1)=αT(t)+S(t+1)
其中,上式中的T为上述参考标签生成网络的生成参数,上式中的S为上述图像识别网络的网络参数,T(t+1)为参数调整后的图像识别网络对应的参考标签生成网络的生成参数,S(t+1)参数调整后的图像识别网络的网络参数,T(t)为参数调整前的图像识别网络对应的参考标签生成网络的生成参数。
可以理解的是,在执行完上述步骤S812后,可以进一步根据生成参数更新后的参考标签生成网络返回步骤S802,进一步基于第二图像样本生成新的伪标签,以进入下一轮训练。
通过本申请的上述实施方式,在只能获取少量标注样本的情况下,采用端到端的训练无标签样本,能够得到更鲁棒的模型,不易发生过拟合;此外,训练过程中采用mean-teacher结构,动态更新伪标签,随着训练,伪标签的准确度升高,进一步影响Student模型的识别效果;此外,在每轮训练过程中,实时产生伪标签,且在当前训练过程中直接使用产生的伪标签,而在下一轮训练中使用重新生成的新的伪标签进行训练,进而不需要对伪标签进行存储;此外,本实施例所采用的图像识别网络不同于双阶段网络的半监督方法,不关注检测框,更全局的预测mask,更适用于半监督实例分割,并且一般速度相对双阶段识别网络更快。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述图像识别网络的训练方法的图像识别网络的训练装置。如图9所示,该装置包括:
获取单元902,用于获取第一图像样本集以及第二图像样本集,其中,第一图像样本集中包括多个第一样本,每个第一样本中包括携带有实例标签的第一样本图像,实例标签用于指示第一样本图像中的实例对象的实例类别以及实例对象在第一样本图像中的图像位置,第二图像样本集中包括多个第二样本,每个第二样本中包括未携带实例标签的第二样本图像;
训练单元904,用于将从第一图像样本集中获取到的第一样本图像,及从第二图像样本集中获取到的第二样本图像输入处于训练状态的图像识别网络,得到识别损失值,其中,图像识别网络用于识别出样本图像中实例对象的实例类别及实例对象在样本图像中的图像位置;
更新单元906,用于在识别损失值并未达到阈值条件的情况下,对图像识别网络中的网络参数进行调整,并利用调整后的网络参数确定参考标签生成网络,其中,参考标签生成网络用于为输入的图像生成参考实例标签;将第二样本图像输入参考标签生成网络,得到为第二样本图像生成的参考实例标签;利用携带有参考实例标签的第二样本图像对第二图像样本集进行更新;
确定单元908,用于在识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络为达到收敛条件的目标图像识别网络。
可选地,在本实施例中,上述各个单元模块所要实现的实施例,可以参考上述各个方法实施例,这里不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述图像识别网络的训练方法的电子设备,该电子设备可以是图10所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图10所示,该电子设备包括存储器1002和处理器1004,该存储器1002中存储有计算机程序,该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取第一图像样本集以及第二图像样本集,其中,第一图像样本集中包括多个第一样本,每个第一样本中包括携带有实例标签的第一样本图像,实例标签用于指示第一样本图像中的实例对象的实例类别以及实例对象在第一样本图像中的图像位置,第二图像样本集中包括多个第二样本,每个第二样本中包括未携带实例标签的第二样本图像;
S2,将从第一图像样本集中获取到的第一样本图像,及从第二图像样本集中获取到的第二样本图像输入处于训练状态的图像识别网络,得到识别损失值,其中,图像识别网络用于识别出样本图像中实例对象的实例类别及实例对象在样本图像中的图像位置;
S3,在识别损失值并未达到阈值条件的情况下,对图像识别网络中的网络参数进行调整,并利用调整后的网络参数确定参考标签生成网络,其中,参考标签生成网络用于为输入的图像生成参考实例标签;将第二样本图像输入参考标签生成网络,得到为第二样本图像生成的参考实例标签;利用携带有参考实例标签的第二样本图像对第二图像样本集进行更新;
S4,在识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络为达到收敛条件的目标图像识别网络。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,电子设备也可以是车载终端、智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图10其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图10中所示更多或者更少的组件(如网络接口等),或者具有与图10所示的不同的配置。
其中,存储器1002可用于存储软件程序以及模块,如本发明实施例中的图像识别网络的训练方法和装置对应的程序指令/模块,处理器1004通过运行存储在存储器1002内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图像识别网络的训练方法。存储器1002可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1002可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1002具体可以但不限于用于存储观察视角画面中的各个元素、图像识别网络的训练信息等信息。作为一种示例,如图10所示,上述存储器1002中可以但不限于包括上述图像识别网络的训练装置中的获取单元902、训练单元904、更新单元906以及确定单元908。此外,还可以包括但不限于上述图像识别网络的训练装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1006包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1006为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器1008,和连接总线1010,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序/指令,该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时,执行本申请实施例提供的各种功能。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
根据本申请的一个方面,提供了一种计算机可读存储介质,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图像识别网络的训练方方法。
可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取第一图像样本集以及第二图像样本集,其中,第一图像样本集中包括多个第一样本,每个第一样本中包括携带有实例标签的第一样本图像,实例标签用于指示第一样本图像中的实例对象的实例类别以及实例对象在第一样本图像中的图像位置,第二图像样本集中包括多个第二样本,每个第二样本中包括未携带实例标签的第二样本图像;
S2,将从第一图像样本集中获取到的第一样本图像,及从第二图像样本集中获取到的第二样本图像输入处于训练状态的图像识别网络,得到识别损失值,其中,图像识别网络用于识别出样本图像中实例对象的实例类别及实例对象在样本图像中的图像位置;
S3,在识别损失值并未达到阈值条件的情况下,对图像识别网络中的网络参数进行调整,并利用调整后的网络参数确定参考标签生成网络,其中,参考标签生成网络用于为输入的图像生成参考实例标签;将第二样本图像输入参考标签生成网络,得到为第二样本图像生成的参考实例标签;利用携带有参考实例标签的第二样本图像对第二图像样本集进行更新;
S4,在识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络为达到收敛条件的目标图像识别网络。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种图像识别网络的训练方法,其特征在于,包括:
获取第一图像样本集以及第二图像样本集,其中,所述第一图像样本集中包括多个第一样本,每个所述第一样本中包括携带有实例标签的第一样本图像,所述实例标签用于指示所述第一样本图像中的实例对象的实例类别以及所述实例对象在所述第一样本图像中的图像位置,所述第二图像样本集中包括多个第二样本,每个所述第二样本中包括未携带实例标签的第二样本图像;
将从所述第一图像样本集中获取到的所述第一样本图像,及从所述第二图像样本集中获取到的所述第二样本图像输入处于训练状态的图像识别网络,得到识别损失值,其中,所述图像识别网络用于识别出样本图像中实例对象的实例类别及所述实例对象在样本图像中的图像位置;
在所述识别损失值并未达到阈值条件的情况下,对所述图像识别网络中的网络参数进行调整,并利用调整后的网络参数确定参考标签生成网络,其中,所述参考标签生成网络用于为输入的图像生成参考实例标签;将所述第二样本图像输入所述参考标签生成网络,得到为所述第二样本图像生成的参考实例标签;利用携带有所述参考实例标签的所述第二样本图像对所述第二图像样本集进行更新;
在所述识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络为达到收敛条件的目标图像识别网络。
2.根据权利要求1所述的方法,其特征在于,将从所述第一图像样本集中获取到的所述第一样本图像,及从所述第二图像样本集中获取到的所述第二样本图像输入处于训练状态的图像识别网络,得到识别损失值包括:
根据从所述第一图像样本集中获取到的所述第一样本图像,及从所述第二图像样本集中获取到的所述第二样本图像生成第三样本图像,其中,所述第三样本图像中包括所述第一样本图像中的第一实例对象以及所述第二样本图像中的第二实例对象;
根据所述处于训练状态的图像识别网络提取所述第三样本图像的图像特征,并根据所述图像特征分别识别所述第三样本图像中包括的实例对象的预测实例类别,以及所述实例对象在所述第三样本图像中的预测图像位置;
根据所述处于训练状态的图像识别网络的预测结果以及所述第三样本图像对应的实例标签确定所述识别损失值。
3.根据权利要求2所述的方法,其特征在于,根据从所述第一图像样本集中获取到的所述第一样本图像,及从所述第二图像样本集中获取到的所述第二样本图像生成第三样本图像包括:
获取所述第一样本图像中的第一实例对象对应的实例图像;
在所述第二样本图像中的目标位置添加所述实例图像;
将携带了所述实例图像的第二样本图像确定为所述第三样本图像;
在所述第二样本图像具有对应的参考实例标签的情况下,根据所述第二样本图像对应的参考实例标签以及所述第一样本图像对应的实例标签确定所述第三样本图像对应的实例标签;
在所述第二样本图像中的实例对象不具有对应的参考实例标签的情况下,根据所述第一样本图像对应的实例标签确定所述第三样本图像对应的实例标签。
4.根据权利要求3所述的方法,其特征在于,根据所述处于训练状态的图像识别网络的预测结果以及所述第三样本图像对应的实例标签确定所述识别损失值包括:
获取所述处于训练状态的图像识别网络对所述第三样本图像中包括的第一实例对象的第一识别结果和第二实例对象的第二识别结果;
根据所述第一识别结果与所述实例标签确定第一损失值,并根据所述第二识别结果与所述参考实例标签确定第二损失值;
根据所述第二损失值的损失置信度与第二损失值的乘积以及所述第一损失值确定所述识别损失值,其中,所述损失置信度根据所述参考实例标签的标签置信度确定。
5.根据权利要求3所述的方法,其特征在于,将携带了所述实例图像的第二样本图像确定为所述第三样本图像之前,还包括:
对所述第二样本图像进行图像增强处理;
利用与参数调整前的图像识别网络对应的参考标签生成网络对图像增强处理后的所述第二样本图像进行识别,得到多个候选实例对象各自对应的分类置信度和区域置信度;
获取所述多个候选实例对象各自对应的分类置信度和区域置信度的乘积,并将所述多个候选实例对象各自对应的乘积确定为与所述多个候选实例对象各自对应的标签置信度;
将标签置信度大于或等于置信度阈值的候选实例确定为所述第二样本图像中包括的第二实例对象,根据所述第二实例对象对应的分类置信度和区域置信度确定所述第二样本图像对应的参考实例标签。
6.根据权利要求1所述的方法,其特征在于,利用调整后的网络参数确定参考标签生成网络包括:
获取参数调整前的所述图像识别网络对应的参考标签生成网络的生成参数;
获取参数调整后的所述图像识别网络的网络参数;
根据所述生成参数和所述网络参数确定所述参考标签生成网络。
7.根据权利要求6所述的方法,其特征在于,根据所述生成参数和所述网络参数确定所述参考标签生成网络包括:
获取第一更新系数;
确定所述生成参数与所述第一更新系数的第一乘积结果,以及所述网络参数与第二更新系数的第二乘积结果,其中,所述第一更新系数和第二更新系数的和为1;
将根据所述第一乘积结果和第二乘积结果确定所述参考标签生成网络。
8.根据权利要求1所述的方法,其特征在于,在所述识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络达到收敛条件之后,还包括:
获取待识别的目标图像;
根据所述目标图像识别网络的特征提取层提取所述目标图像中的图像特征;
将所述图像特征输入所述目标图像识别网络的类别识别层,确定出所述目标图像中包括的实例对象的目标实例类别;
将所述图像特征输入所述目标图像识别网络的位置识别层,确定出所述目标图像中包括的实例对象在所述目标图像中的目标图像位置;
将所述目标实例类别以及所述目标图像位置确定为所述目标图像的识别结果。
9.一种图像识别网络的训练装置,其特征在于,包括:
获取单元,用于获取第一图像样本集以及第二图像样本集,其中,所述第一图像样本集中包括多个第一样本,每个所述第一样本中包括携带有实例标签的第一样本图像,所述实例标签用于指示所述第一样本图像中的实例对象的实例类别以及所述实例对象在所述第一样本图像中的图像位置,所述第二图像样本集中包括多个第二样本,每个所述第二样本中包括未携带实例标签的第二样本图像;
训练单元,用于将从所述第一图像样本集中获取到的所述第一样本图像,及从所述第二图像样本集中获取到的所述第二样本图像输入处于训练状态的图像识别网络,得到识别损失值,其中,所述图像识别网络用于识别出样本图像中实例对象的实例类别及所述实例对象在样本图像中的图像位置;
更新单元,用于在所述识别损失值并未达到阈值条件的情况下,对所述图像识别网络中的网络参数进行调整,并利用调整后的网络参数确定参考标签生成网络,其中,所述参考标签生成网络用于为输入的图像生成参考实例标签;将所述第二样本图像输入所述参考标签生成网络,得到为所述第二样本图像生成的参考实例标签;利用携带有所述参考实例标签的所述第二样本图像对所述第二图像样本集进行更新;
确定单元,用于在所述识别损失值达到阈值条件的情况下,确定包含当前的网络参数的图像识别网络为达到收敛条件的目标图像识别网络。
10.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至8任一项中所述的方法。
11.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至8任一项中所述方法的步骤。
12.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211483321.2A CN117011579A (zh) | 2022-11-24 | 2022-11-24 | 图像识别网络的训练方法和装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211483321.2A CN117011579A (zh) | 2022-11-24 | 2022-11-24 | 图像识别网络的训练方法和装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117011579A true CN117011579A (zh) | 2023-11-07 |
Family
ID=88571622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211483321.2A Pending CN117011579A (zh) | 2022-11-24 | 2022-11-24 | 图像识别网络的训练方法和装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117011579A (zh) |
-
2022
- 2022-11-24 CN CN202211483321.2A patent/CN117011579A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112990211B (zh) | 一种神经网络的训练方法、图像处理方法以及装置 | |
CN108427708B (zh) | 数据处理方法、装置、存储介质和电子装置 | |
CN112183577A (zh) | 一种半监督学习模型的训练方法、图像处理方法及设备 | |
CN112434721A (zh) | 一种基于小样本学习的图像分类方法、系统、存储介质及终端 | |
CN107330731B (zh) | 一种识别广告位点击异常的方法和装置 | |
CN113159283B (zh) | 一种基于联邦迁移学习的模型训练方法及计算节点 | |
CN113807399B (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN111931002B (zh) | 一种匹配方法以及相关设备 | |
CN114997412A (zh) | 一种推荐方法、训练方法以及装置 | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN114693624B (zh) | 一种图像检测方法、装置、设备及可读存储介质 | |
CN114550053A (zh) | 一种交通事故定责方法、装置、计算机设备及存储介质 | |
CN114580794B (zh) | 数据处理方法、装置、程序产品、计算机设备和介质 | |
CN116310318B (zh) | 交互式的图像分割方法、装置、计算机设备和存储介质 | |
CN113191241A (zh) | 一种模型训练方法及相关设备 | |
CN115631008A (zh) | 商品推荐方法、装置、设备及介质 | |
CN113537267A (zh) | 对抗样本的生成方法和装置、存储介质及电子设备 | |
CN113705402B (zh) | 视频行为预测方法、系统、电子设备及存储介质 | |
CN113627421B (zh) | 一种图像处理方法、模型的训练方法以及相关设备 | |
CN117726884A (zh) | 对象类别识别模型的训练方法、对象类别识别方法及装置 | |
CN111488887B (zh) | 基于人工智能的图像处理方法、装置 | |
CN109543114A (zh) | 异构信息网络链接预测方法、可读存储介质和终端 | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
WO2023143570A1 (zh) | 一种连接关系预测方法及相关设备 | |
CN116958729A (zh) | 对象分类模型的训练、对象分类方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |