CN116958732A - 图像识别模型的训练方法和装置、存储介质及电子设备 - Google Patents
图像识别模型的训练方法和装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116958732A CN116958732A CN202310391579.8A CN202310391579A CN116958732A CN 116958732 A CN116958732 A CN 116958732A CN 202310391579 A CN202310391579 A CN 202310391579A CN 116958732 A CN116958732 A CN 116958732A
- Authority
- CN
- China
- Prior art keywords
- image
- sample image
- network
- recognition
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 259
- 238000000034 method Methods 0.000 title claims abstract description 104
- 238000000605 extraction Methods 0.000 claims description 39
- 238000004590 computer program Methods 0.000 claims description 24
- 238000011176 pooling Methods 0.000 claims description 20
- 238000002372 labelling Methods 0.000 description 30
- 230000008569 process Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 12
- 238000001514 detection method Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000012447 hatching Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种图像识别模型的训练方法和装置、存储介质及电子设备。其中,该方法包括:获取样本图像集合,样本图像集合中包括第一样本图像和第二样本图像,第一样本图像为携带强标签的样本图像,第二样本图像包括携带弱标签的样本图像和无标签样本图像,强标签用于指示第一样本图像中包括的图像对象的全部对象属性信息,弱标签用于指示样本图像中包括的图像对象的部分对象属性信息;将样本图像集合中包括的样本图像输入包括第一特征识别网络和第二特征识别网络的老师识别模型,并获取老师识别模型输出的辅助识别结果;利用样本图像集合和辅助识别结果对学生识别模型进行训练。本公开解决了相关训练方法得到对精确的标注数据依赖度高的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种图像识别模型的训练方法和装置、存储介质及电子设备。
背景技术
在计算机视觉任务中,包括多种对图像中包括的对象进行识别和检测的任务类型,例如目标检测任务,可以用于检测图像中包括的对象的对象位置和对象类别,又如语义分割任务,可以用于图像像素按照表达的语义含义的不同进行分组或分割。
在训练神经网络模型执行上述任务的过程中,通常需要大量的标注数据对模型进行训练,在标注数据的数据量较少或者标注数据不准确的情况下,对模型的训练结果较差。也就是说,现有的图像识别模型的训练方法存在对精确的标注数据的依赖度高的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图像识别模型的训练方法和装置、存储介质及电子设备,以至少解决训练方法训练得到的图像识别模型的识别准确率较低的技术问题。
根据本发明实施例的一个方面,提供了一种图像识别模型的训练方法,包括:获取样本图像集合,其中,上述样本图像集合中包括第一样本图像和第二样本图像,上述第一样本图像为携带强标签的样本图像,上述第二样本图像包括携带弱标签的样本图像和无标签样本图像,上述强标签用于指示上述第一样本图像中包括的图像对象的全部对象属性信息,上述弱标签用于指示上述样本图像中包括的图像对象的部分对象属性信息;将上述样本图像集合中包括的样本图像输入老师识别模型,并获取上述老师识别模型输出的辅助识别结果,其中,在输入的上述样本图像为上述第二样本图像的情况下,上述辅助识别结果包括上述老师识别模型中的第一特征识别网络为上述第二样本图像预测的第一对象属性标签,以及上述老师识别模型中的第二特征识别网络为上述第二样本图像预测的第二对象属性标签,上述第一特征识别网络与上述第二特征识别网络为利用不同样本图像训练得到的特征识别网络;利用上述样本图像集合和上述辅助识别结果对学生识别模型进行训练,将满足收敛条件的上述学生识别模型确定为目标图像识别模型,其中,上述学生识别模型用于识别图像内图像对象的显示信息。
根据本发明实施例的另一个方面,提供了一种图像识别方法,包括:获取待识别的目标图像;通过目标图像识别模型中的特征提取网络获取上述目标图像的图像特征,其中,上述第一图像特征用于指示上述样本图像中包括的图像对象的对象特征,上述目标图像识别模型为根据样本图像集合和老师识别模型输出的辅助识别结果,对学生识别模型进行训练得到的图像识别模型,上述辅助识别结果为老师识别模型根据上述样本图像集合输出的识别结果;通过上述目标图像识别模型中的特征识别网络根据上述图像特征确定目标图像识别结果,其中,上述目标图像识别结果用于指示上述目标图像中包括的图像对象的对象位置和对象类别。
根据本发明实施例的又一方面,还提供了一种图像识别模型的训练装置,包括:第一获取单元,用于获取样本图像集合,其中,上述样本图像集合中包括第一样本图像和第二样本图像,上述第一样本图像为携带强标签的样本图像,上述第二样本图像包括携带弱标签的样本图像和无标签样本图像,上述强标签用于指示上述第一样本图像中包括的图像对象的全部对象属性信息,上述弱标签用于指示上述样本图像中包括的图像对象的部分对象属性信息;第二获取单元,用于将上述样本图像集合中包括的样本图像输入老师识别模型,并获取上述老师识别模型输出的辅助识别结果,其中,在输入的上述样本图像为上述第二样本图像的情况下,上述辅助识别结果包括上述老师识别模型中的第一特征识别网络为上述第二样本图像预测的第一对象属性标签,以及上述老师识别模型中的第二特征识别网络为上述第二样本图像预测的第二对象属性标签,上述第一特征识别网络与上述第二特征识别网络为利用不同样本图像训练得到的特征识别网络;训练单元,用于利用上述样本图像集合和上述辅助识别结果对学生识别模型进行训练,将满足收敛条件的上述学生识别模型确定为目标图像识别模型,其中,上述学生识别模型用于识别图像内图像对象的显示信息。
根据本发明实施例的又一方面,还提供了一种图像识别装置,包括:第一获取单元,用于获取待识别的目标图像;第二获取单元,用于通过目标图像识别模型中的特征提取网络获取上述目标图像的图像特征,其中,上述第一图像特征用于指示上述样本图像中包括的图像对象的对象特征,上述目标图像识别模型为根据样本图像集合和老师识别模型输出的辅助识别结果,对学生识别模型进行训练得到的图像识别模型,上述辅助识别结果为老师识别模型根据上述样本图像集合输出的识别结果;识别单元,用于通过上述目标图像识别模型中的特征识别网络根据上述图像特征确定目标图像识别结果,其中,上述目标图像识别结果用于指示上述目标图像中包括的图像对象的对象位置和对象类别。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述图像识别模型的训练方法或图像识别方法。
根据本申请实施例的又一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上图像识别模型的训练方法或图像识别方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的图像识别模型的训练方法或图像识别方法。
在本发明实施例中,采用获取样本图像集合;将样本图像集合中包括的样本图像输入老师识别模型,并获取老师识别模型输出的辅助识别结果,其中,在输入的样本图像为第二样本图像的情况下,辅助识别结果包括老师识别模型中的第一特征识别网络为第二样本图像预测的第一对象属性标签,以及老师识别模型中的第二特征识别网络为第二样本图像预测的第二对象属性标签,第一特征识别网络与第二特征识别网络为利用不同样本图像训练得到的特征识别网络;利用样本图像集合和辅助识别结果对学生识别模型进行训练,将满足收敛条件的学生识别模型确定为目标图像识别模型,其中,学生识别模型用于识别图像内图像对象的显示信息,从而实现了对图像识别模型的训练。
在上述训练方法中,先获取包括了全标记数据和部分标记数据的样本图像集合,并通过老师识别模型对获取的部分标记数据进行优化,通过老师识别模型中包括的两个不同的特征识别网络分别输出不同类别的辅助识别结果,进而根据辅助识别结果和样本图像集合对学生识别模型进行训练,避免了对高精度标注数据的高度依赖,通过各种类型的标注数据对图像模型进行混合训练,提高了训练过程对标注数据类型的适应性,实现了适应于不同类型的标注数据对图像识别模型的高精度训练,解决了现有图像识别模型的训练方法对高精度标注数据的依赖程度较高的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的图像识别模型的训练方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的图像识别模型的训练方法的流程图;
图3是根据本发明实施例的一种可选的图像识别模型的训练方法的示意图;
图4是根据本发明实施例的另一种可选的图像识别模型的训练方法的示意图;
图5是根据本发明实施例的又一种可选的图像识别模型的训练方法的示意图;
图6是根据本发明实施例的又一种可选的图像识别模型的训练方法的示意图;
图7是根据本发明实施例的又一种可选的图像识别模型的训练方法的示意图;
图8根据本发明实施例的一种可选的图像识别模型的训练装置的结构示意图;
图9是根据本发明实施例的一种可选的电子设备的结构示意图;
图10根据本发明实施例的一种可选的图像识别装置的结构示意图;
图11是根据本发明实施例的另一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种图像识别模型的训练方法,作为一种可选的实施方式,上述图像识别模型的训练方法可以但不限于应用于如图1所示的由终端设备102、服务器104以及网络110所构成的图像识别模型的训练系统中。如图1所示,终端设备102通过网络110与服务器104进行连接通讯,上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述终端设备可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视、车载设备等。上述终端设备上可以安装有客户端,其中,终端设备104中可以安装有用于实现对图像类别进行识别的客户端,例如一种搜图客户端、即时通讯客户端(可以提供搜图识图功能)等。
上述终端设备102上还设置有显示器、处理器和存储器,显示器可以用于显示上述图像识别程序的程序界面,上述处理器可以用于对获取的待识别的图片进行通过目标图像识别模型进行识别;存储器用于对通过服务器104训练得到的目标图像识别模型进行存储。可以理解的是,在上述服务器104在对图像识别模型完成训练的情况下,终端设备102中通过网络110接收服务器104发送的图像识别模型,终端设备102接收到用户发送的图像识别请求的情况下,通过接收的图像识别模型对识别请求中包括的图像的类别进行识别。
上述服务器104可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述服务器包括数据库和处理引擎。其中,上述处理引擎用于对模型训练过程进行处理;上述数据库中可用于存储用于训练图像识别模型的样本图库。
根据本发明实施例的一个方面,上述图像识别模型的训练系统还可以执行以下步骤:首先,服务器104执行步骤S102至步骤S106,获取样本图像集合,其中,样本图像集合中包括第一样本图像和第二样本图像,第一样本图像为携带强标签的样本图像,第二样本图像包括携带弱标签的样本图像和无标签样本图像,强标签用于指示第一样本图像中包括的图像对象的全部对象属性信息,弱标签用于指示样本图像中包括的图像对象的部分对象属性信息;将样本图像集合中包括的样本图像输入老师识别模型,并获取老师识别模型输出的辅助识别结果,其中,在输入的样本图像为第二样本图像的情况下,辅助识别结果包括老师识别模型中的第一特征识别网络为第二样本图像预测的第一对象属性标签,以及老师识别模型中的第二特征识别网络为第二样本图像预测的第二对象属性标签,第一特征识别网络与第二特征识别网络为利用不同样本图像训练得到的特征识别网络;利用样本图像集合和辅助识别结果对学生识别模型进行训练,将满足收敛条件的学生识别模型确定为目标图像识别模型,其中,学生识别模型用于识别图像内图像对象的显示信息。接着,服务器104执行步骤S108,通过网络110将上述目标图像识别模型发送给终端设备102;最后,终端设备102执行步骤S110,根据目标图像识别模型进行图像识别。
通过本申请的上述实施方式,采用获取样本图像集合;将样本图像集合中包括的样本图像输入老师识别模型,并获取老师识别模型输出的辅助识别结果,其中,在输入的样本图像为第二样本图像的情况下,辅助识别结果包括老师识别模型中的第一特征识别网络为第二样本图像预测的第一对象属性标签,以及老师识别模型中的第二特征识别网络为第二样本图像预测的第二对象属性标签,第一特征识别网络与第二特征识别网络为利用不同样本图像训练得到的特征识别网络;利用样本图像集合和辅助识别结果对学生识别模型进行训练,将满足收敛条件的学生识别模型确定为目标图像识别模型,其中,学生识别模型用于识别图像内图像对象的显示信息,从而实现了对图像识别模型的训练。
在上述训练方法中,先获取包括了全标记数据和部分标记数据的样本图像集合,并通过老师识别模型对获取的部分标记数据进行优化,通过老师识别模型中包括的两个不同的特征识别网络分别输出不同类别的辅助识别结果,进而根据辅助识别结果和样本图像集合对学生识别模型进行训练,避免了对高精度标注数据的高度依赖,通过各种类型的标注数据对图像模型进行混合训练,提高了训练过程对标注数据类型的适应性,实现了适应于不同类型的标注数据对图像识别模型的高精度训练,解决了现有图像识别模型的训练方法对高精度标注数据的依赖程度较高的技术问题。
上述仅是一种示例,本实施例中对此不作任何限定。
作为一种可选的实施方式,如图2所示,上述图像识别模型的训练方法可以包括以下步骤:
S202,获取样本图像集合,其中,样本图像集合中包括第一样本图像和第二样本图像,第一样本图像为携带强标签的样本图像,第二样本图像包括携带弱标签的样本图像和无标签样本图像,强标签用于指示第一样本图像中包括的图像对象的全部对象属性信息,弱标签用于指示样本图像中包括的图像对象的部分对象属性信息;
S204,将样本图像集合中包括的样本图像输入老师识别模型,并获取老师识别模型输出的辅助识别结果,其中,在输入的样本图像为第二样本图像的情况下,辅助识别结果包括老师识别模型中的第一特征识别网络为第二样本图像预测的第一对象属性标签,以及老师识别模型中的第二特征识别网络为第二样本图像预测的第二对象属性标签,第一特征识别网络与第二特征识别网络为利用不同样本图像训练得到的特征识别网络;
S206,利用样本图像集合和辅助识别结果对学生识别模型进行训练,将满足收敛条件的学生识别模型确定为目标图像识别模型,其中,学生识别模型用于识别图像内图像对象的显示信息。
可以理解的是,上述步骤S202中的样本图像集合中可以包括至少两类图像样本。第一种图像样本可以携带有强标签,第二种图像样本可以携带有弱标签。进一步地,上述强标签可以是用于指示图像中包括的图像对象的全部对象属性信息,弱标签可以是用于指示上述图像中包括的图像对象的部分对象属性信息。
上述对象属性信息可以是用于指示图像对象的相关图像特征的属性信息,例如,上述对象属性信息可以是包括但不限于是对象在图像中所占据的图像位置、还可以是图像对象的对象类型、对象数量、对象面积等属性信息。
需要说明的是,上述全部对象属性信息的具体内容可以与待训练的学生识别模型的模型任务相关,在待训练的学生识别模型可以用于识别图像中包括的图像对象的对象位置和对象类型的情况下,上述全部对象属性信息可以是上述对象类型和对象位置;在待训练的学生识别模型可以用于识别图像中包括的图像对象所占据的对象像素和对象类型的情况下,上述全部对象属性信息可以是上述对象像素的像素信息和对象类型;在待训练的学生识别模型可以用于识别图像中包括的图像对象的对象数量和各个对象的对象类型的情况下,上述全部对象属性信息可以是上述对象类型和对象数量。以上全部对象属性信息中包括的具体对象属性信息仅为一种示例,在本实施方式中不对上述全部对象属性信息的具体类型进行限定。
对应地,上述部分对象属性信息可以是相较于上述全部对象属性信息中包括的对象属性信息的子集。例如,上述全部对象属性信息是上述对象类型和对象位置的情况下,上述部分对象属性信息可以是仅包括对象类型或仅包括对象位置的属性信息,也可以是不包括任何对象属性信息;又如,在上述全部对象属性信息是上述对象像素的像素信息以及和对象类型的情况下,上述部分对象属性信息可以是仅包括对象像素的像素信息或仅包括对象类型,也可以不包括任何对象属性信息。在本实施方式中不对上述部分对象属性信息的具体类型进行限定。
在一种可选的方式中,携带有上述强标签的第一样本图像可以是一种全标记数据;在弱标签中包括的对象属性信息少于强标签中携带的对象属性信息,且大于或等于1的情况下,上述携带有弱标签的第二样本图像可以是一种弱标记数据;在弱标签中包括的对象属性信息少于强标签中携带的对象属性信息,且等于0的情况下,上述携带有弱标签的第二样本图像可以是一种无标记数据。在本实施方式中,可以通过上述全标记数据、弱标记数据以及无标记数据,联合老师识别模型对上述学生识别模型进行训练。
进一步地,在上述步骤S204中,可以通过老师识别模型对第二样本图像进行识别,以输出用于对学生识别模型进行训练的辅助识别结果。上述老师识别模型可以包括但不限于是一种用于执行图像识别任务的神经网络模型,例如可以包括但不限于用于执行目标检测任务、语义分割任务、实例分割任务和全景分割任务等感知相关的任务。
需要说明的是,在上述步骤S204中采用的老师识别模型可以执行的图像识别任务可以与待训练的学生识别模型对应。例如,在待训练的学生识别模型为用于执行目标检测任务的模型的情况下,上述老师识别模型可以同样是与上述待训练的学生识别模型执行目标检测任务的模型;在待训练的学生识别模型为用于执行目标检测任务的模型的情况下,上述老师识别模型可以同样是执行目标检测任务的模型。
可选地,在上述老师识别模型与上述待训练的学生识别模型执行的图像识别任务相同的情况下,上述老师识别模型可以一种经过预训练得到的图像识别模型,从而具备初步的图像识别能力;在另一种方式中,上述老师识别模型还可以是一种与上述待训练的学生识别模型进行同步训练的识别模型;在又一种方式中,上述老师识别模型还可以是一种模型结构更复杂,模型规模更大的图像识别模型,从而通过输出相对准确的识别结果以对学生识别模型进行训练,提升学生识别模型的输出的结果的准确性。以上对老师识别模型和学生识别模型的模型结构之间关系的说明仅为一种示例,不对具体实施方式中二者之间的关系进行限定。
可以理解地,上述步骤S204中至少包括两个不同的特征识别网络,分别用于根据第二样本图像输出不同的对象属性标签,具体可以是用于结合特征提取网络输出的图像特征输出图像识别结果的图像识别网络。其中,第一特征识别网络和第二特征识别网络可以分别是不同类型的特征识别网络;在另一种方式中,上述第一特征识别网络和第二特征识别网络还可以分别是训练程度不同的特征识别网络;在又一种方式中,上述第一特征识别网络和第二特征识别网络还可以分别是利用不同训练样本训练得到的特征识别网络。在本实施方式中,不对上述第一特征识别网络和第二特征识别网络的具体区别进行限定。
进一步地,由于老师识别模型中可以包括不同的特征识别网络,进而可以在对第二样本图像识别提取到图像特征的情况下,根据不同的特征识别网络输出不同的对象属性标签,进而实现对图像样本标签的扩充。
最后,在上述步骤S206中,在获取到老师识别模型输出的辅助识别结果的情况下,可以将辅助识别结果作为伪标签进而对学生识别网络进行训练。同时,在本实施方式中,还可以进一步结合样本图像集合中包括的第一样本图像对学生识别模型进行训练,进而提升对学生识别模型的训练效果。
以下结合图3对本申请的一个完整训练框架进行说明。如图3所示,在本实施方式中,可以通过老师识别模型301辅助对学生识别模型305进行训练。如图3中,老师识别模型301中至少包括特征提取网络302以及第一特征识别网络303和第二特征识别网络304。其中,第一特征识别网络可以是通过全监督训练方式训练完成的特征识别网络,第二特征识别网络可以是通过弱监督训练方式训练完成的特征识别网络。进一步地,在本实施方式中,样本图像集合中可以进一步包括第一样本图像306和第二样本图像307。
在训练过程中,可以将第一样本图像306直接用于训练学生识别模型305;并在获取的样本图像为不携带完整图像标签的第二样本图像307的情况下,可以先将第二样本图像输入老师识别模型301,以通过老师识别模型301中的第一特征识别网络303和第二特征识别网络304分别输出辅助识别结果,并结合辅助识别结果以及第二样本图像携带的不完整的图像标签对学生识别模型305进行训练。
通过本申请的上述实施方式,采用获取样本图像集合;将样本图像集合中包括的样本图像输入老师识别模型,并获取老师识别模型输出的辅助识别结果,其中,在输入的样本图像为第二样本图像的情况下,辅助识别结果包括老师识别模型中的第一特征识别网络为第二样本图像预测的第一对象属性标签,以及老师识别模型中的第二特征识别网络为第二样本图像预测的第二对象属性标签,第一特征识别网络与第二特征识别网络为利用不同样本图像训练得到的特征识别网络;利用样本图像集合和辅助识别结果对学生识别模型进行训练,将满足收敛条件的学生识别模型确定为目标图像识别模型,其中,学生识别模型用于识别图像内图像对象的显示信息,从而实现了对图像识别模型的训练。
在上述训练方法中,先获取包括了全标记数据和部分标记数据的样本图像集合,并通过老师识别模型对获取的部分标记数据进行优化,通过老师识别模型中包括的两个不同的特征识别网络分别输出不同类别的辅助识别结果,进而根据辅助识别结果和样本图像集合对学生识别模型进行训练,避免了对高精度标注数据的高度依赖,通过各种类型的标注数据对图像模型进行混合训练,提高了训练过程对标注数据类型的适应性,实现了适应于不同类型的标注数据对图像识别模型的高精度训练,解决了现有图像识别模型的训练方法对高精度标注数据的依赖程度较高的技术问题。
作为一种可选的实施方式,上述在输入的样本图像为第二样本图像的情况下,将样本图像集合中包括的样本图像输入老师识别模型,并获取老师识别模型输出的辅助识别结果包括:
S1,在第二样本图像为携带弱标签的样本图像的情况下,辅助识别结果包括第一特征识别网络为第二样本图像预测的第一对象位置标签,其中,弱标签用于指示样本图像中包括的图像对象的对象类别;
S2,在第二样本图像为无标签样本图像的情况下,辅助识别结果包括第一特征识别网络为第二样本图像预测的第二对象类别标签和第二对象位置标签,以及第二特征识别网络为第二样本图像预测的第三对象类别标签和第三对象位置标签;
其中,第一对象属性标签包括第一对象位置标签、第二对象类别标签和第二对象位置标签,第二对象属性标签包括第三对象类别标签和第三对象位置标签。
需要说明的是,在本实施方式中,上述第二样本图像包括携带弱标签的样本图像和无标签样本图像。可以理解的是,在无标签样本图像中,由于仅指示样本图像中包括了图像对象,而并未标注出该图像对象的其他属性信息,因此可以认为上述无标签样本图像可以是未携带位置标签和类别标签的样本图像。
具体地,在本实施方式中,上述强标签可以用于指示图像中包括的图像对象的具体对象位置,以及分别对应于每一个对象位置的图像对象的对象类型;上述弱标签用于指示图像中包括的图像对象的对象类型,无标签样本图像仅指示图像中包括了图像对象。
可以理解的是,在本实施方式中,在第二样本图像包括的样本图像不同(携带弱标签的样本图像和无标签样本图像)的情况下,老师识别模型分别输出的辅助识别结果的结果类型也不同。在第二样本图像为携带弱标签的样本图像的情况下,上述辅助识别结果可以是第一特征识别网络预测的第一对象位置标签,进而结合弱标签可以确定出伪标签:即将弱标签和第一对象位置标签确定为伪标签;在第二样本图像为无标签样本图像的情况下,上述辅助识别结果可以是第一特征识别网络预测的第二对象位置标签和第二对象类别标签,以及第二特征识别网络预测的第三对象位置标签和第三对象类别标签,进而将第一特征识别网络的预测结果和第二特征识别结果分别确定为用于对学生识别模型进行训练的伪标签。
通过本申请的上述实施方式,在第二样本图像为携带弱标签的样本图像的情况下,辅助识别结果包括第一特征识别网络为第二样本图像预测的第一对象位置标签;在第二样本图像为无标签样本图像的情况下,辅助识别结果包括第一特征识别网络为第二样本图像预测的第二对象类别标签和第二对象位置标签,以及第二特征识别网络为第二样本图像预测的第三对象类别标签和第三对象位置标签,从而通过老师识别模型中包括的两个不同的特征识别网络分别输出不同类别的辅助识别结果,进而根据辅助识别结果和样本图像集合对学生识别模型进行训练,避免了对高精度标注数据的高度依赖,通过各种类型的标注数据对图像模型进行混合训练,提高了训练过程对标注数据类型的适应性,实现了适应于不同类型的标注数据对图像识别模型的高精度训练,解决了现有图像识别模型的训练方法对高精度标注数据的依赖程度较高的技术问题。
作为一种可选的实施方式,上述在第二样本图像为携带弱标签的样本图像的情况下,利用样本图像集合和辅助识别结果对学生识别模型进行训练包括:
S1,将第二样本图像输入学生识别模型,得到学生识别模型输出的第一参考对象类别和第一参考对象位置;
S2,根据弱标签指示的图像对象的对象类别,与学生识别模型输出的第一参考对象类别之间的差异获取第一训练损失;
S3,根据辅助识别结果中包括的第一对象位置标签所指示的预测对象位置,与学生识别模型输出的第一参考对象位置之间的差异获取第二训练损失;
S4,在第一训练损失和第二训练损失的加权求和结果指示学生识别模型未满足收敛条件的情况下,调整学生识别模型中的模型参数。
可以理解的是,在本实施方式中,在第二样本图像为携带弱标签的样本图像的情况下,可以结合老师识别模型的第一特征识别网络输出的位置标签与第二样本图像原本的类别标签结合作为伪标签对学生识别模型进行训练。
作为一种可选的实施方式,上述在第二样本图像为无标签样本图像的情况下,利用样本图像集合和辅助识别结果对学生识别模型进行训练包括:
S1,将第二样本图像输入学生识别模型,得到学生识别模型输出的第二参考对象类别和第二参考对象位置;
S2,根据辅助识别结果中包括的第二对象类别标签所指示的预测对象类别,与学生识别模型输出的第二参考对象类别之间的差异获取第三训练损失;根据辅助识别结果中包括的第二对象位置标签所指示的预测对象位置,与学生识别模型输出的第二参考对象位置之间的差异获取第四训练损失;
S3,根据辅助识别结果中包括的第三对象类别标签所指示的预测对象类别,与学生识别模型输出的第二参考对象类别之间的差异获取第五训练损失;根据辅助识别结果中包括的第三对象位置标签所指示的预测对象位置,与学生识别模型输出的第二参考对象位置之间的差异获取第六训练损失;
S4,在根据第三训练损失、第四训练损失、第五训练损失和第六训练损失确定学生识别模型未满足收敛条件的情况下,调整学生识别模型中的模型参数。
可以理解的是,在本实施方式中,在本实施方式中,在第二样本图像为无标签样本图像的情况下,可以结合老师识别模型的第一特征识别网络和第二特征识别网络分别输出的类别标签和位置标签对学生识别模型进行训练。
在一种可选的方式中,根据第三训练损失、第四训练损失、第五训练损失和第六训练损失确定学生识别模型是否满足收敛条件的方式可以是通过上述第三训练损失、第四训练损失、第五训练损失和第六训练损失的加权求和值确定学生识别模型是否满足收敛条件;在另一种方式中,还可以是先按照第一特征识别网络输出的第二对象类别标签和第二对象位置标签对学生识别模型进行训练,即根据第三训练损失、第四训练损失判断学生识别模型是否满足收敛条件;在不满足收敛条件的情况下,再按照第二特征识别网络输出的第三对象类别标签和第三对象位置标签对学生识别模型进行训练,即根据第五训练损失、第六训练损失判断学生识别模型是否满足收敛条件。
以下对上述实施方式进行具体说明。当输入为无标注数据Du={I+时(即第二样本图像为无标签样本图像),用半监督范式训练学生识别模型。首先老师识别模型中的第一特征识别网络和第二特征识别网络分别对无监督数据Du={I+预测伪标签。老师识别模型的神经网络的前向计算输入一个批次的图像,经过特征提取网络提取网络得到全图的特征图,特征图作为密集头模块(一种特征解析网络)的输入,经过密集头网络得到先验锚点相对于真实标注框的偏移量,并计算密集头网络的损失。将密集头网络输出的预测框和全图特征图进行候选区域池化操作,得到大小相同的候选区域特征图。然后,把候选区域特征图送入第一特征识别网络得到分类和定位结果作为全监督学习的伪标签,同时把候选区域特征图送入第二特征识别网络得到分类和定位结果作为弱监督学习的伪标签。最后,把全监督学习和弱监督学习的伪标签合并Dup={I,{t,x1,y1,x2,y2}n},训练整个学生识别模型。
学生识别模型的神经网络的前向计算输入一个批次的图像,经过特征提取网络得到全图的特征图,特征图作为密集头模块的输入,经过密集头网络得到先验锚点相对于真实标注框的偏移量,并计算密集头网络的损失。将密集头网络输出的预测框和全图特征图进行候选区域池化操作,得到大小相同的候选区域特征图,最后送入学生识别模型的特征提取网络得到分类和定位结果,并计算分类损失和定位。具体地,学生识别模型的半监督学习的训练损失函数定义为:
其中,
通过本申请的上述实施方式,通过老师识别模型中包括的两个不同的特征识别网络分别输出不同类别的辅助识别结果,进而根据辅助识别结果和样本图像集合对学生识别模型进行训练,避免了对高精度标注数据的高度依赖,通过各种类型的标注数据对图像模型进行混合训练,提高了训练过程对标注数据类型的适应性,实现了适应于不同类型的标注数据对图像识别模型的高精度训练,解决了现有图像识别模型的训练方法对高精度标注数据的依赖程度较高的技术问题。
作为一种可选的实施方式,上述在第二样本图像为携带弱标签的样本图像的情况下,获取老师识别模型输出的辅助识别结果之后,还包括:
S1,获取老师识别模型中的第二特征识别网络为第二样本图像预测的第二参考对象类别和第二参考对象位置;
S2,根据弱标签指示的图像对象的对象类别与第二参考对象类别之间的差异获取第一网络训练损失;
S3,根据辅助识别结果中包括的第一对象位置标签所指示的预测对象位置,与第二参考对象位置之间的差异获取第二网络训练损失;
S4,在第一网络训练损失和第二网络训练损失的加权求和结果指示第二特征识别网络未满足收敛条件的情况下,调整第二特征识别网络中的模型参数;在第一网络训练损失和第二网络训练损失的加权求和结果指示第二特征识别网络满足收敛条件的情况下,确定第二特征识别网络为训练完成的第二特征识别网络。
可以理解的是,在本实施方式中,在第二样本图像为携带弱标签的样本图像的情况下,可以通过老师识别模型中的第一特征识别网络的输出结果同时对第二特征识别网络进行训练。
需要说明的是,上述对老师识别模型中的第二特征识别网络进行训练的同时,可以是根据上述第一特征识别网络的输出结果对学生识别模型进行训练。
以下结合具体实施方式对通过弱标记数据(即第二样本图像为携带弱标签的样本图像)对老师识别模型中的第二特征识别网络和学生识别模型进行联合训练的方式进行说明。
当输入为弱标记数据Dw={I,{t}n},用弱监督学习范式训练老师识别模型的第二特征识别网络。老师识别模型神经网络的前向计算输入一个批次的图像,经过特征提取网络得到全图的特征图,特征图作为密集头模块的输入,经过密集头网络得到先验锚点相对于真实标注框的偏移量,并计算密集头网络的损失。将密集头网络输出的预测框和全图特征图进行候选区域池化操作,得到大小相同的候选区域特征图,最后送入第二特征识别网络得到分类和定位结果,并计算分类损失和定位损失。具体地,老师识别模型的第二特征识别网络的弱监督学习的训练损失函数定义为:
其中,yi,k表示第i张图像的第k个类别的预测得分,ti,k表示第i张图像的第k个类别的真实标签。Si,j,k表示第i张图像的第j个预测框的第k个类别的预测得分,Ti,j,k表示第i张图像的第j个框的真实标签,表示第i个预测框的左上角横坐标、左上角纵坐标、宽度和高度,/>表示第i个预测框对应的真实框的左上角横坐标、左上角纵坐标、宽度和高度。/>表示第i个预测框和对应的真实框的左上角横坐标差、左上角纵坐标差、宽度差和高度差。
同时,老师识别模型对弱标记数据进行缺失标签的预测,即弱标注数据中出现的类别的物体包围框{x1,y1,x2,y2}n。原始的弱标注数据和预测的包围框形成新的数据Dwp={I,{t,x1,y1,x2,y2}n},训练整个学生识别模型。学生识别模型的神经网络的前向计算输入一个批次的图像,经过特征提取网络得到全图的特征图,特征图作为密集头模块的输入,经过密集头网络得到先验锚点相对于真实标注框的偏移量,并计算密集头网络的损失。将密集头网络输出的预测框和全图特征图进行候选区域池化操作,得到大小相同的候选区域特征图,最后送入学生识别模型的特征识别网络中得到分类和定位结果,并计算分类损失和定位。具体地,学生识别模型的弱监督学习的训练损失函数定义为:
通过本申请的上述实施方式,以获取老师识别模型中的第二特征识别网络为第二样本图像预测的第二参考对象类别和第二参考对象位置;根据弱标签指示的图像对象的对象类别与第二参考对象类别之间的差异获取第一网络训练损失;根据辅助识别结果中包括的第一对象位置标签所指示的预测对象位置,与第二参考对象位置之间的差异获取第二网络训练损失;在第一网络训练损失和第二网络训练损失的加权求和结果指示第二特征识别网络未满足收敛条件的情况下,调整第二特征识别网络中的模型参数;在第一网络训练损失和第二网络训练损失的加权求和结果指示第二特征识别网络满足收敛条件的情况下,确定第二特征识别网络为训练完成的第二特征识别网络的方式,可以通过大规模弱标记数据(标记不全)对第二特征识别网络进行训练,可以很大程度学习发现新类别和改进长尾类别。
作为一种可选的实施方式,上述利用样本图像集合和辅助识别结果对学生识别模型进行训练包括:
S1,从样本图像集合中获取第一样本图像,其中,第一样本图像携带的强标签指示的对象属性信息为第一样本图像中包括的图像对象的对象类别和对象位置;
S2,将第一样本图像输入学生识别模型,得到学生识别模型输出的第三参考对象类别和第三参考对象位置;
S3,根据强标签指示的图像对象的对象类别,与学生识别模型输出的第三参考对象类别之间的差异获取第七训练损失;
S4,根据强标签指示的图像对象的对象位置,与学生识别模型输出的第三参考对象位置之间的差异获取第八训练损失;
S5,在第七训练损失和第八训练损失的加权求和结果指示学生识别模型未满足收敛条件的情况下,调整学生识别模型中的模型参数。
需要说明的是,在本实施方式中,对学生识别模型进行训练的过程还可以是利用第一样本图像对学生识别模型进行直接训练。可以理解的是,由于第一样本图像中携带的图像标签为强标签,因此结合全标签数据对学生识别模型进行训练的效果最好。
在一种可选的实施方式中,上述从样本图像集合中获取第一样本图像之后,还包括:
S1,获取老师识别模型中的第一特征识别网络为第一样本图像预测的第三参考对象类别和第三参考对象位置;
S2,根据强标签指示的图像对象的对象类别与第三参考对象类别之间的差异获取第三网络训练损失;
S3,根据强标签指示的图像对象的对象位置与第三参考对象位置之间的差异获取第四网络训练损失;
S4,在第三网络训练损失和第四网络训练损失的加权求和结果指示第一特征识别网络未满足收敛条件的情况下,调整第一特征识别网络中的模型参数;在第三网络训练损失和第四网络训练损失的加权求和结果指示第一特征识别网络满足收敛条件的情况下,确定第一特征识别网络为训练完成的第一特征识别网络。
可以理解的是,在本实施方式中,在利用第一样本图像对图像识别网络进行训练的过程中,还可以通过第一样本图像对老师识别模型中的第一特征识别网络进行训练,进而提升第一特征识别网络输出预测结果的准确性。
以下对通过第一样本图像对图像辅助识别网络中的第一特征识别网络和图像识别网络进行联合训练的方式进行说明。
在一种可选的实施方式中,在获取的图像样本为第一样本图像的情况下,可以通过第一样本图像对老师识别模型的各个模型结构进行训练。
当输入为全标记数据Df={I,{t,x,y,w,h}n},用全监督学习范式分别训练老师识别模型的第一特征识别网络和学生识别模型的全部网络。老师识别模型和学生识别模型的神经网络的前向计算输入一个批次的图像,经过特征提取网络得到全图的特征图,特征图作为密集头模块的输入,经过密集头网络得到先验锚点相对于真实标注框的偏移量,并计算密集头网络的损失。将密集头网络输出的预测框和全图特征图进行候选区域池化操作,得到大小相同的候选区域特征图,最后送入第一特征识别网络得到分类和定位结果,并计算分类损失和定位。具体地,老师识别模型的第一特征识别网络和学生识别模型的全监督学习的训练损失函数都定义为:
其中,Si,j,k表示第i张图像的第j个预测框的第k个类别的预测得分,Ti,j,k表示第i张图像的第j个框的真实标签,表示第i个预测框的左上角横坐标、左上角纵坐标、宽度和高度,/>表示第i个预测框对应的真实框的左上角横坐标、左上角纵坐标、宽度和高度。/>表示第i个预测框和对应的真实框的左上角横坐标差、左上角纵坐标差、宽度差和高度差。
通过本申请的上述实施方式,在获取的样本图像为强标签的样本图像的情况下,训练老师识别模型的骨干网络、密集头网络和第一特征识别网络。同时全标记数据也用来训练整个学生识别模型。因此,有限的全标记数据主要来学习检测基本类别并为其他类别生成候选区域。
作为一种可选的实施方式,上述将样本图像集合中包括的样本图像输入老师识别模型,并获取老师识别模型输出的辅助识别结果包括:
S1,根据老师识别模型的特征提取网络获取样本图像的第一图像特征,其中,第一图像特征用于指示样本图像中包括的图像对象的对象特征;
S2,将图像特征输入老师识别模型中的密集头网络,得到第一预测图像位置,其中,第一预测图像位置用于指示样本图像中包括的图像对象所在图像区域;
S3,根据第一预测图像位置和第一图像特征进行候选区域池化得到的多个第一候选区域特征图;
S4,根据第一特征识别网络对多个第一候选区域特征图进行特征识别,得到第一对象属性标签,其中,第一特征识别网络为根据第一样本图像训练得到的特征识别网络;
S5,根据第二特征识别网络对多个第一候选区域特征图进行特征识别,得到第二对象属性标签,其中,第二特征识别网络为根据第二样本图像训练得到的特征识别网络。
需要说明的是,在本实施方式中,上述老师识别模型中可以具体为一种为待训练的学生识别模型提供优质训练样本以及协同训练的识别模型,其中,可以进一步包括四个部分:用于提取图像特征的特征提取网络、用于解析图像特征的密集头网络、用于输出识别结果的第一特征识别网络和第二特征识别网络。更进一步地,上述第一特征识别网络可以是通过全监督训练得到的特征识别网络,上述第二特征识别网络可以是通过弱监督训练得到的特征识别网络。
以下结合图4对上述老师识别模型进行具体说明。如图4所示,老师识别模型401中,可以进一步包括用于提取图像特征的特征提取网络402、用于解析图像特征的密集头网络403、用于根据解析结果输出识别结果的第一感兴趣头网络404以及用于根据解析结果输出识别结果的第二感兴趣头网络405。其中,第一感兴趣头网络404可以是一种通过全监督训练得到的第一特征识别网络;第二感兴趣头网络405可以是一种通过全监督训练得到的第二特征识别网络。
在一种具体的示例中,上述特征提取网络可以是一种Resnet或者Swin骨干网络特征提取网络;上述密集头网络403可以是一种RPN或者CenterNet的密集头模块;上述第一感兴趣头网络404可以是一种HTCR-CNN感兴趣区域头网络;上述二感兴趣头网络405可以是一种USOD感兴趣区域头网络。以上老师识别模型的模型结构仅为一种示例,本实施方式不对上述老师识别模型的具体结构进行限定。
作为一种可选的实施方式,上述将满足收敛条件的学生识别模型确定为目标图像识别模型之后,还包括:
S1,获取待识别的目标图像;
S2,根据目标图像识别模型的目标特征提取网络获取目标图像的第二图像特征,其中,第二图像特征用于指示目标图像中包括的图像对象的对象特征;
S3,将第二图像特征输入目标图像识别模型中的密集头网络,得到第二预测图像位置,其中,第二预测图像位置用于指示目标图像中包括的图像对象所在图像区域;
S4,根据第二预测图像位置和第二图像特征进行候选区域池化得到的多个第二候选区域特征图;
S5,根据目标图像识别模型中的目标特征识别网络对多个第二候选区域特征图进行特征识别,得到目标图像识别结果,其中,目标图像识别结果用于指示目标图像中包括的图像对象的对象位置和对象类别。
需要说明的是,在本实施方式中,上述训练过程中的学生识别模型以及训练得到的目标图像识别模型可以进一步包括三个部分:用于提取图像特征的特征提取网络、用于解析图像特征的密集头网络、用于输出识别结果的特征识别网络。
以下结合图5对上述通过老师识别模型训练得到的学生识别模型进行具体说明。如图5所示,学生识别模型501中,可以进一步包括用于提取图像特征的特征提取网络502、用于解析图像特征的密集头网络503、用于根据解析结果输出识别结果的感兴趣头网络504。
在一种具体的示例中,上述图5中的特征提取网络502可以是一种Resnet或者Swin骨干网络特征提取网络;上述密集头网络503可以是一种RPN或者CenterNet的密集头模块;上述感兴趣头网络504可以是一种HTCR-CNN感兴趣区域头网络或USOD感兴趣区域头网络。以上老师识别模型的模型结构仅为一种示例,本实施方式不对上述学生识别模型的具体结构进行限定。
以下结合图6、图7对本申请的完整训练过程进行说明。如图6所示,申请提供了一种半监督训练的方式,在训练过程中包括了参与训练的老师识别模型601和学生识别模型609,老师识别模型601中包括了通过全监督训练得到的主干网络602、密集头网络603、第一感兴趣区域头网络604,以及通过弱监督训练得到第二感兴趣头网络605;在学生识别模型609中,包括了主干网络606、密集头网络607以及感兴趣头网络608。
在本实施方式的训练过程中,可以在上述混合学习框架中输入三种不同类型的数据,如有限的全标记数据、大规模弱标记数据和未标记数据。
当输入为全标记数据Df={I,{t,x,y,w,h}n},进行全监督学习(Fully-SupervisedLearning)部分,训练老师识别模型601的骨干网络602(Backbone)、密集头网络603(DenseHead)和全监督感兴趣区域头网络(即第一感兴趣区域头网络604)(RoIHead)。同时全标记数据也用来训练整个学生识别模型609。因此,有限的全标记数据主要来学习检测基本类别并为其他类别生成候选区域。
当输入为弱标记数据Dw={I,{t}n},进行弱监督学习(Weakly-SupervisedLearning),训练老师识别模型601的弱监督感兴趣区域头网络(即第二感兴趣头网络605)(RoIHead)。同时,老师识别模型601对弱标记数据进行缺失标签的预测,即弱标注数据中出现的类别的物体包围框{x,y,w,h}n。原始的弱标注数据和预测的包围框形成新的数据Dwp={I,{t,x,y,w,h}n},训练整个学生识别模型609。大规模弱标记数据可以很大程度学习发现新类别和改进长尾类别。
当输入为无标注数据Du={I},进行半监督学习(Semi-Supervised Learning),老师识别模型601中全监督学习的感兴趣头部网络和弱监督学习的感兴趣头部网络分别对无监督数据Du={I}预测伪标签,并把伪标签合并Dup={I,{t,x,y,w,h}n},训练整个学生识别模型609。未标记数据可以进一步提高开集类的性能和健壮性。
上述实施方式提出的混合监督学习框架可以适用于不同的全监督和弱监督目标检测模型和损失。
在一种可选的实施方式中,可以通过上述混合标记数据同时对上述训练模型进行训练,即随机从上述标记集合中获取一个标记数据,并根据标记数据的标记类型对上述混合学习框架进行训练;在另一种可选的方式中,还可以按照一定训练顺序对上述混合学习框架进行训练,例如可以先通过全标记数据对上述混合学习框架进行训练,再通过弱标记数据对上述混合学习框架进行训练,最后再利用无标记数据混合学习框架进行训练。
通过本申请的上述实施方式,构建了一套整合开源、业务、互联网数据,支持强监督、半监督、弱监督、无监督混合监督学习的训练框架,汇总各种标注信息,支持通用计算机视觉能力孵化。如图6所示,混合监督学习框架有机结合了强监督、半监督、弱监督三种训练范式,基于该范式,达成万类以上检测识别能力的输出。首先,全监督学习用强标注的标签数据初始化模型。同时,弱监督学习挖掘弱标记数据以发现稀有和新颖的类别。最后,半监督学习利用未标记的数据并预测所有基本、稀有和新颖类别的缺失标签。基于本申请的上述混合监督学习范式,达成上万类以上的检测识别能力的输出。同时,本发明方法不依赖全监督模型打伪标签的质量,也不依赖预训练的图文模型对未训练过的类别打伪标签。解决了现有的图像识别模型的训练过程对标注数据依赖程度较高的技术问题。
以下结合图7对本申请的一个完整过程进行说明。
当输入为全标记数据Df={I,{t,x,y,w,h}n},用全监督学习范式分别学习老师识别模型701的全监督网络和学生识别模型709的全部网络。老师识别模型701和学生识别模型709的神经网络的前向计算输入一个批次的图像,经过Resnet或者Swin骨干网络特征提取网络得到全图的特征图,特征图作为RPN或者CenterNet的密集头模块的输入,经过密集头网络得到先验锚点相对于真实标注框的偏移量,并计算密集头网络的损失。将密集头网络输出的预测框和全图特征图进行候选区域池化操作,得到大小相同的候选区域特征图,最后送入HTCR-CNN感兴趣区域头网络得到分类和定位结果,并计算分类损失和定位。具体地,老师识别模型701的全监督部分和学生识别模型709的全监督学习的训练损失函数可以通过上述公式(13)到公式(16)得到;
当输入为弱标记数据Dw={I,{t}n},用弱监督学习范式训练老师识别模型701的弱监督模块(即第二感兴趣头网络705)。老师识别模型701神经网络的前向计算输入一个批次的图像,经过Resnet或者Swin骨干网络702特征提取网络得到全图的特征图,特征图作为RPN或者CenterNet的密集头网络703的输入,经过密集头网络703得到先验锚点相对于真实标注框的偏移量,并计算密集头网络的损失。将密集头网络输出的预测框和全图特征图进行候选区域池化操作(ROI Pooling),得到大小相同的候选区域特征图,最后送入UWSOD感兴趣区域头网络(即第二感兴趣头网络705)得到分类和定位结果,并计算分类损失和定位损失(该损失为与第一感兴趣头网络704的输出结果之间的损失)。具体地,老师识别模型701的弱监督部分的弱监督学习的训练损失函数可以通过上述公式(5)到公式(8)确定;
同时,老师识别模型701对弱标记数据进行缺失标签的预测,即弱标注数据中出现的类别的物体包围框{x1,y1,x2,y2}n。原始的弱标注数据和预测的包围框形成新的数据Dwp={I,{t,x1,y1,x2,y2}n+,训练整个学生识别模型709。学生识别模型709的神经网络的前向计算输入一个批次的图像,经过Resnet或者Swin骨干网络706特征提取网络得到全图的特征图,特征图作为RPN或者CenterNet的密集头网络707的输入,经过密集头网络707得到先验锚点相对于真实标注框的偏移量,并计算密集头网络的损失。将密集头网络输出的预测框和全图特征图进行候选区域池化操作(ROI Pooling),得到大小相同的候选区域特征图,最后送入HTCR-CNN感兴趣区域头网络(即感兴趣头网络708)得到分类和定位结果,并计算分类损失和定位。具体地,学生识别模型709的弱监督学习的训练损失函数可以根据上述公司(9)到公式(12)确定
当输入为无标注数据Du={I+,用半监督范式训练学生识别模型709。首先老师识别模型701中全监督学习的感兴趣头部网络和弱监督学习的感兴趣头部网络分别对无监督数据Du={I}预测伪标签。老师识别模型701的神经网络的前向计算输入一个批次的图像,经过Resnet或者Swin骨干网络特征提取网络得到全图的特征图,特征图作为RPN或者CenterNet的密集头模块的输入,经过密集头网络得到先验锚点相对于真实标注框的偏移量,并计算密集头网络的损失。将密集头网络输出的预测框和全图特征图进行候选区域池化操作(ROI Pooling),得到大小相同的候选区域特征图。然后,把候选区域特征图送入HTCR-CNN感兴趣区域头网络得到分类和定位结果作为全监督学习的伪标签,同时把候选区域特征图送入USOD感兴趣区域头网络得到分类和定位结果作为弱监督学习的伪标签。最后,把全监督学习和弱监督学习的伪标签合并Dup={I,{t,x1,y1,x2,y2}n},训练整个学生识别模型709。
学生识别模型709的神经网络的前向计算输入一个批次的图像,经过Resnet或者Swin骨干网络特征提取网络得到全图的特征图,特征图作为RPN或者CenterNet的密集头模块的输入,经过密集头网络得到先验锚点相对于真实标注框的偏移量,并计算密集头网络的损失。将密集头网络输出的预测框和全图特征图进行候选区域池化操作(ROI Pooling),得到大小相同的候选区域特征图,最后送入HTCR-CNN感兴趣区域头网络得到分类和定位结果,并计算分类损失和定位。具体地,学生识别模型709的半监督学习的训练损失函数可以通过上述公式(1)到公式(4)确定。通过本申请的上述实施方式,构建了一套整合开源、业务、互联网数据,支持强监督、半监督、弱监督、无监督混合监督学习的训练框架,汇总各种标注信息,支持通用计算机视觉能力孵化。如图6所示,混合监督学习框架有机结合了强监督、半监督、弱监督三种训练范式,基于该范式,达成万类以上检测识别能力的输出。首先,全监督学习用强标注的标签数据初始化模型。同时,弱监督学习挖掘弱标记数据以发现稀有和新颖的类别。最后,半监督学习利用未标记的数据并预测所有基本、稀有和新颖类别的缺失标签。基于本申请的上述混合监督学习范式,达成上万类以上的检测识别能力的输出。同时,本发明方法不依赖全监督模型打伪标签的质量,也不依赖预训练的图文模型对未训练过的类别打伪标签。解决了现有的图像识别模型的训练过程对标注数据依赖程度较高的技术问题。
作为一种可选的实施方式,本申请还提供了一种图像识别方法,其特征在于,包括:
S1,获取待识别的目标图像;
S2,通过目标图像识别模型中的特征提取网络获取目标图像的图像特征,其中,图像特征用于指示样本图像中包括的图像对象的对象特征,目标图像识别模型为根据样本图像集合和老师识别模型输出的辅助识别结果,对学生识别模型进行训练得到的图像识别模型,辅助识别结果为老师识别模型根据样本图像集合输出的识别结果;
S3,通过目标图像识别模型中的特征识别网络根据图像特征确定目标图像识别结果,其中,目标图像识别结果用于指示目标图像中包括的图像对象的对象位置和对象类别。
作为一种可选的实施方式,上述通过目标图像识别模型中的特征识别网络根据图像特征确定目标图像识别结果包括:
S1,将图像特征输入目标图像识别模型中的密集头网络,得到预测图像位置,其中,预测图像位置用于指示目标图像中包括的图像对象所在图像区域;
S2,根据预测图像位置和图像特征进行候选区域池化得到的多个候选区域特征图;
S3,根据特征识别网络对多个候选区域特征图进行特征识别,得到目标图像识别结果。
需要说明的是,在本实施方式中,上述目标图像识别模型可以包括三个部分:用于提取图像特征的特征提取网络、用于解析图像特征的密集头网络、用于输出识别结果的特征识别网络。
以下结合图5对上述通过老师识别模型训练得到的目标图像识别模型进行具体说明。如图5所示,训练过程中的学生识别模型501中,可以进一步包括用于提取图像特征的特征提取网络502、用于解析图像特征的密集头网络503、用于根据解析结果输出识别结果的感兴趣头网络504。可以理解的是,训练完毕的目标图像识别模型的模型结构也可以与图5中的模型结构相同。
在一种具体的示例中,上述图5中的特征提取网络502可以是一种Resnet或者Swin骨干网络特征提取网络;上述密集头网络503可以是一种RPN或者CenterNet的密集头模块;上述感兴趣头网络504可以是一种HTCR-CNN感兴趣区域头网络或USOD感兴趣区域头网络。以上老师识别模型的模型结构仅为一种示例,本实施方式不对上述图像识别模型的具体结构进行限定。
作为一种可选的实施方式,上述通过目标图像识别模型中的特征提取网络获取目标图像的图像特征之前,还包括:
S1,获取样本图像集合,其中,样本图像集合中包括第一样本图像和第二样本图像,第一样本图像为携带强标签的样本图像,第二样本图像包括携带弱标签的样本图像和无标签样本图像,强标签用于指示第一样本图像中包括的图像对象的全部对象属性信息,弱标签用于指示样本图像中包括的图像对象的部分对象属性信息;
S2,将样本图像集合中包括的样本图像输入老师识别模型,并获取老师识别模型输出的辅助识别结果,其中,在输入的样本图像为第二样本图像的情况下,辅助识别结果包括老师识别模型中的第一特征识别网络为第二样本图像预测的第一对象属性标签,以及老师识别模型中的第二特征识别网络为第二样本图像预测的第二对象属性标签,第一特征识别网络与第二特征识别网络为利用不同样本图像训练得到的特征识别网络;
S3,利用样本图像集合和辅助识别结果对学生识别模型进行训练,将满足收敛条件的学生识别模型确定为目标图像识别模型,其中,学生识别模型用于识别图像内图像对象的显示信息。
可选地,在本实施例中,上述图像识别模型的训练方法所要实现的实施例,可以参考上述各个方法实施例,这里不再赘述。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述图像识别模型的训练方法的图像识别模型的训练装置。如图8所示,该装置包括:
第一获取单元802,用于获取样本图像集合,其中,样本图像集合中包括第一样本图像和第二样本图像,第一样本图像为携带强标签的样本图像,第二样本图像包括携带弱标签的样本图像和无标签样本图像,强标签用于指示第一样本图像中包括的图像对象的全部对象属性信息,弱标签用于指示样本图像中包括的图像对象的部分对象属性信息;
第二获取单元804,用于将样本图像集合中包括的样本图像输入老师识别模型,并获取老师识别模型输出的辅助识别结果,其中,在输入的样本图像为第二样本图像的情况下,辅助识别结果包括老师识别模型中的第一特征识别网络为第二样本图像预测的第一对象属性标签,以及老师识别模型中的第二特征识别网络为第二样本图像预测的第二对象属性标签,第一特征识别网络与第二特征识别网络为利用不同样本图像训练得到的特征识别网络;
训练单元806,用于利用样本图像集合和辅助识别结果对学生识别模型进行训练,将满足收敛条件的学生识别模型确定为目标图像识别模型,其中,学生识别模型用于识别图像内图像对象的显示信息。
可选地,在本实施例中,上述各个单元模块所要实现的实施例,可以参考上述各个方法实施例,这里不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述图像识别模型的训练方法的电子设备,该电子设备可以是图9所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图9所示,该电子设备包括存储器902和处理器904,该存储器902中存储有计算机程序,该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取样本图像集合,其中,样本图像集合中包括第一样本图像和第二样本图像,第一样本图像为携带强标签的样本图像,第二样本图像包括携带弱标签的样本图像和无标签样本图像,强标签用于指示第一样本图像中包括的图像对象的全部对象属性信息,弱标签用于指示样本图像中包括的图像对象的部分对象属性信息;
S2,将样本图像集合中包括的样本图像输入老师识别模型,并获取老师识别模型输出的辅助识别结果,其中,在输入的样本图像为第二样本图像的情况下,辅助识别结果包括老师识别模型中的第一特征识别网络为第二样本图像预测的第一对象属性标签,以及老师识别模型中的第二特征识别网络为第二样本图像预测的第二对象属性标签,第一特征识别网络与第二特征识别网络为利用不同样本图像训练得到的特征识别网络;
S3,利用样本图像集合和辅助识别结果对学生识别模型进行训练,将满足收敛条件的学生识别模型确定为目标图像识别模型,其中,学生识别模型用于识别图像内图像对象的显示信息。
可选地,本领域普通技术人员可以理解,图9所示的结构仅为示意,电子设备也可以是车载终端、智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图9其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图9中所示更多或者更少的组件(如网络接口等),或者具有与图9所示不同的配置。
其中,存储器902可用于存储软件程序以及模块,如本发明实施例中的图像识别模型的训练方法和装置对应的程序指令/模块,处理器904通过运行存储在存储器902内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图像识别模型的训练方法。存储器902可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器902可进一步包括相对于处理器904远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器902具体可以但不限于用于存储目标逻辑文件等文件信息。作为一种示例,如图9所示,上述存储器902中可以但不限于包括上述图像识别模型的训练装置中的第一获取单元802、第二获取单元804、以及训练单元806。此外,还可以包括但不限于上述图像识别模型的训练装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置906包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置906为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器908,和连接总线910,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序/指令,该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时,执行本申请实施例提供的各种功能。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
根据本申请的一个方面,提供了一种计算机可读存储介质,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图像识别模型的训练方法。
可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取样本图像集合,其中,样本图像集合中包括第一样本图像和第二样本图像,第一样本图像为携带强标签的样本图像,第二样本图像包括携带弱标签的样本图像和无标签样本图像,强标签用于指示第一样本图像中包括的图像对象的全部对象属性信息,弱标签用于指示样本图像中包括的图像对象的部分对象属性信息;
S2,将样本图像集合中包括的样本图像输入老师识别模型,并获取老师识别模型输出的辅助识别结果,其中,在输入的样本图像为第二样本图像的情况下,辅助识别结果包括老师识别模型中的第一特征识别网络为第二样本图像预测的第一对象属性标签,以及老师识别模型中的第二特征识别网络为第二样本图像预测的第二对象属性标签,第一特征识别网络与第二特征识别网络为利用不同样本图像训练得到的特征识别网络;
S3,利用样本图像集合和辅助识别结果对学生识别模型进行训练,将满足收敛条件的学生识别模型确定为目标图像识别模型,其中,学生识别模型用于识别图像内图像对象的显示信息。
根据本发明实施例的另一个方面,还提供了一种用于实施上述图像识别方法的图像识别装置。如图10所示,该装置包括:
第一获取单元1002,用于获取待识别的目标图像;
第二获取单元1004,用于通过目标图像识别模型中的特征提取网络获取目标图像的图像特征,其中,图像特征用于指示样本图像中包括的图像对象的对象特征,目标图像识别模型为根据样本图像集合和老师识别模型输出的辅助识别结果,对学生识别模型进行训练得到的图像识别模型,辅助识别结果为老师识别模型根据样本图像集合输出的识别结果;
识别单元1006,用于通过目标图像识别模型中的特征识别网络根据图像特征确定目标图像识别结果,其中,目标图像识别结果用于指示目标图像中包括的图像对象的对象位置和对象类别。
可选地,在本实施例中,上述各个单元模块所要实现的实施例,可以参考上述各个方法实施例,这里不再赘述。
根据本发明实施例的又一个方面,还提供了一种用于实施上述图像识别方法的电子设备,该电子设备可以是图11所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图11所示,该电子设备包括存储器1102和处理器1104,该存储器1102中存储有计算机程序,该处理器1104被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待识别的目标图像;
S2,通过目标图像识别模型中的特征提取网络获取目标图像的图像特征,其中,图像特征用于指示样本图像中包括的图像对象的对象特征,目标图像识别模型为根据样本图像集合和老师识别模型输出的辅助识别结果,对学生识别模型进行训练得到的图像识别模型,辅助识别结果为老师识别模型根据样本图像集合输出的识别结果;
S3,通过目标图像识别模型中的特征识别网络根据图像特征确定目标图像识别结果,其中,目标图像识别结果用于指示目标图像中包括的图像对象的对象位置和对象类别。
可选地,本领域普通技术人员可以理解,图11所示的结构仅为示意,电子设备也可以是车载终端、智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图11其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图11中所示更多或者更少的组件(如网络接口等),或者具有与图11所示不同的配置。
其中,存储器1102可用于存储软件程序以及模块,如本发明实施例中的图像识别方法和装置对应的程序指令/模块,处理器1104通过运行存储在存储器1102内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图像识别方法。存储器1102可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1102可进一步包括相对于处理器1104远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1102具体可以但不限于用于存储目标逻辑文件等文件信息。作为一种示例,如图11所示,上述存储器1102中可以但不限于包括上述图像识别装置中的第一获取单元1002、第二获取单元1004、以及识别单元1006。此外,还可以包括但不限于上述图像识别装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1106包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1106为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器1108,和连接总线1110,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序/指令,该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理器执行时,执行本申请实施例提供的各种功能。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
根据本申请的一个方面,提供了一种计算机可读存储介质,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图像识别方法。
可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待识别的目标图像;
S2,通过目标图像识别模型中的特征提取网络获取目标图像的图像特征,其中,图像特征用于指示样本图像中包括的图像对象的对象特征,目标图像识别模型为根据样本图像集合和老师识别模型输出的辅助识别结果,对学生识别模型进行训练得到的图像识别模型,辅助识别结果为老师识别模型根据样本图像集合输出的识别结果;
S3,通过目标图像识别模型中的特征识别网络根据图像特征确定目标图像识别结果,其中,目标图像识别结果用于指示目标图像中包括的图像对象的对象位置和对象类别。可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (17)
1.一种图像识别模型的训练方法,其特征在于,包括:
获取样本图像集合,其中,所述样本图像集合中包括第一样本图像和第二样本图像,所述第一样本图像为携带强标签的样本图像,所述第二样本图像包括携带弱标签的样本图像和无标签样本图像,所述强标签用于指示所述第一样本图像中包括的图像对象的全部对象属性信息,所述弱标签用于指示所述样本图像中包括的图像对象的部分对象属性信息;
将所述样本图像集合中包括的样本图像输入老师识别模型,并获取所述老师识别模型输出的辅助识别结果,其中,在输入的所述样本图像为所述第二样本图像的情况下,所述辅助识别结果包括所述老师识别模型中的第一特征识别网络为所述第二样本图像预测的第一对象属性标签,以及所述老师识别模型中的第二特征识别网络为所述第二样本图像预测的第二对象属性标签,所述第一特征识别网络与所述第二特征识别网络为利用不同样本图像训练得到的特征识别网络;
利用所述样本图像集合和所述辅助识别结果对学生识别模型进行训练,将满足收敛条件的所述学生识别模型确定为目标图像识别模型,其中,所述学生识别模型用于识别图像内图像对象的显示信息。
2.根据权利要求1所述的方法,其特征在于,在输入的所述样本图像为所述第二样本图像的情况下,将所述样本图像集合中包括的样本图像输入老师识别模型,并获取所述老师识别模型输出的辅助识别结果包括:
在所述第二样本图像为携带所述弱标签的样本图像的情况下,所述辅助识别结果包括所述第一特征识别网络为所述第二样本图像预测的第一对象位置标签,其中,所述弱标签用于指示所述样本图像中包括的图像对象的对象类别;
在所述第二样本图像为所述无标签样本图像的情况下,所述辅助识别结果包括所述第一特征识别网络为所述第二样本图像预测的第二对象类别标签和第二对象位置标签,以及所述第二特征识别网络为所述第二样本图像预测的第三对象类别标签和第三对象位置标签;
其中,所述第一对象属性标签包括所述第一对象位置标签、所述第二对象类别标签和所述第二对象位置标签,所述第二对象属性标签包括所述第三对象类别标签和所述第三对象位置标签。
3.根据权利要求2所述的方法,其特征在于,在所述第二样本图像为携带所述弱标签的样本图像的情况下,所述利用所述样本图像集合和所述辅助识别结果对学生识别模型进行训练包括:
将所述第二样本图像输入所述学生识别模型,得到所述学生识别模型输出的第一参考对象类别和第一参考对象位置;
根据所述弱标签指示的所述图像对象的所述对象类别,与所述学生识别模型输出的所述第一参考对象类别之间的差异获取第一训练损失;
根据所述辅助识别结果中包括的所述第一对象位置标签所指示的预测对象位置,与所述学生识别模型输出的所述第一参考对象位置之间的差异获取第二训练损失;
在所述第一训练损失和所述第二训练损失的加权求和结果指示所述学生识别模型未满足收敛条件的情况下,调整所述学生识别模型中的模型参数。
4.根据权利要求2所述的方法,其特征在于,在所述第二样本图像为所述无标签样本图像的情况下,所述利用所述样本图像集合和所述辅助识别结果对学生识别模型进行训练包括:
将所述第二样本图像输入所述学生识别模型,得到所述学生识别模型输出的第二参考对象类别和第二参考对象位置;
根据所述辅助识别结果中包括的所述第二对象类别标签所指示的预测对象类别,与所述学生识别模型输出的所述第二参考对象类别之间的差异获取第三训练损失;根据所述辅助识别结果中包括的所述第二对象位置标签所指示的预测对象位置,与所述学生识别模型输出的所述第二参考对象位置之间的差异获取第四训练损失;
根据所述辅助识别结果中包括的所述第三对象类别标签所指示的预测对象类别,与所述学生识别模型输出的所述第二参考对象类别之间的差异获取第五训练损失;根据所述辅助识别结果中包括的所述第三对象位置标签所指示的预测对象位置,与所述学生识别模型输出的所述第二参考对象位置之间的差异获取第六训练损失;
在根据第三训练损失、所述第四训练损失、所述第五训练损失和所述第六训练损失确定所述学生识别模型未满足收敛条件的情况下,
调整所述学生识别模型中的模型参数。
5.根据权利要求3所述的方法,其特征在于,在所述第二样本图像为携带所述弱标签的样本图像的情况下,所述获取所述老师识别模型输出的辅助识别结果之后,还包括:
获取所述老师识别模型中的第二特征识别网络为所述第二样本图像预测的第二参考对象类别和第二参考对象位置;
根据所述弱标签指示的所述图像对象的所述对象类别与所述第二参考对象类别之间的差异获取第一网络训练损失;
根据所述辅助识别结果中包括的所述第一对象位置标签所指示的预测对象位置,与所述第二参考对象位置之间的差异获取第二网络训练损失;
在所述第一网络训练损失和所述第二网络训练损失的加权求和结果指示所述第二特征识别网络未满足收敛条件的情况下,调整所述第二特征识别网络中的模型参数;在所述第一网络训练损失和所述第二网络训练损失的加权求和结果指示所述第二特征识别网络满足收敛条件的情况下,确定所述第二特征识别网络为训练完成的所述第二特征识别网络。
6.根据权利要求1所述的方法,其特征在于,所述利用所述样本图像集合和所述辅助识别结果对学生识别模型进行训练包括:
从所述样本图像集合中获取所述第一样本图像,其中,所述第一样本图像携带的所述强标签指示的所述对象属性信息为所述第一样本图像中包括的图像对象的对象类别和对象位置;
将所述第一样本图像输入所述学生识别模型,得到所述学生识别模型输出的第三参考对象类别和第三参考对象位置;
根据强标签指示的所述图像对象的对象类别,与所述学生识别模型输出的所述第三参考对象类别之间的差异获取第七训练损失;
根据所述强标签指示的所述图像对象的对象位置,与所述学生识别模型输出的所述第三参考对象位置之间的差异获取第八训练损失;
在所述第七训练损失和所述第八训练损失的加权求和结果指示所述学生识别模型未满足收敛条件的情况下,调整所述学生识别模型中的模型参数。
7.根据权利要求6所述的方法,其特征在于,所述从所述样本图像集合中获取所述第一样本图像之后,还包括:
获取所述老师识别模型中的第一特征识别网络为所述第一样本图像预测的第三参考对象类别和第三参考对象位置;
根据所述强标签指示的所述图像对象的所述对象类别与所述第三参考对象类别之间的差异获取第三网络训练损失;
根据所述强标签指示的所述图像对象的所述对象位置与所述第三参考对象位置之间的差异获取第四网络训练损失;
在所述第三网络训练损失和所述第四网络训练损失的加权求和结果指示所述第一特征识别网络未满足收敛条件的情况下,调整所述第一特征识别网络中的模型参数;在所述第三网络训练损失和所述第四网络训练损失的加权求和结果指示所述第一特征识别网络满足收敛条件的情况下,确定所述第一特征识别网络为训练完成的所述第一特征识别网络。
8.根据权利要求1至7任一项中所述的方法,其特征在于,所述将所述样本图像集合中包括的样本图像输入老师识别模型,并获取所述老师识别模型输出的辅助识别结果包括:
根据所述老师识别模型的特征提取网络获取所述样本图像的第一图像特征,其中,所述第一图像特征用于指示所述样本图像中包括的图像对象的对象特征;
将所述图像特征输入所述老师识别模型中的密集头网络,得到第一预测图像位置,其中,所述第一预测图像位置用于指示所述样本图像中包括的图像对象所在图像区域;
根据所述第一预测图像位置和所述第一图像特征进行候选区域池化得到的多个第一候选区域特征图;
根据所述第一特征识别网络对所述多个第一候选区域特征图进行特征识别,得到所述第一对象属性标签,其中,所述第一特征识别网络为根据所述第一样本图像训练得到的特征识别网络;
根据所述第二特征识别网络对所述多个第一候选区域特征图进行特征识别,得到所述第二对象属性标签,其中,所述第二特征识别网络为根据所述第二样本图像训练得到的特征识别网络。
9.根据权利要求1至7任一项中所述的方法,其特征在于,将满足收敛条件的所述学生识别模型确定为目标图像识别模型之后,还包括:
获取待识别的目标图像;
根据所述目标图像识别模型的目标特征提取网络获取所述目标图像的第二图像特征,其中,所述第二图像特征用于指示所述目标图像中包括的图像对象的对象特征;
将所述第二图像特征输入所述目标图像识别模型中的密集头网络,得到第二预测图像位置,其中,所述第二预测图像位置用于指示所述目标图像中包括的图像对象所在图像区域;
根据所述第二预测图像位置和所述第二图像特征进行候选区域池化得到的多个第二候选区域特征图;
根据所述目标图像识别模型中的目标特征识别网络对所述多个第二候选区域特征图进行特征识别,得到目标图像识别结果,其中,所述目标图像识别结果用于指示所述目标图像中包括的图像对象的对象位置和对象类别。
10.一种图像识别方法,其特征在于,包括:
获取待识别的目标图像;
通过目标图像识别模型中的特征提取网络获取所述目标图像的图像特征,其中,所述图像特征用于指示样本图像中包括的图像对象的对象特征,所述目标图像识别模型为根据样本图像集合和老师识别模型输出的辅助识别结果,对学生识别模型进行训练得到的图像识别模型,所述辅助识别结果为所述老师识别模型根据所述样本图像集合输出的识别结果;
通过所述目标图像识别模型中的特征识别网络根据所述图像特征确定目标图像识别结果,其中,所述目标图像识别结果用于指示所述目标图像中包括的图像对象的对象位置和对象类别。
11.根据权利要求10所述的方法,其特征在于,所述通过所述目标图像识别模型中的特征识别网络根据所述图像特征确定目标图像识别结果包括:
将所述图像特征输入所述目标图像识别模型中的密集头网络,得到预测图像位置,其中,所述预测图像位置用于指示所述目标图像中包括的图像对象所在图像区域;
根据所述预测图像位置和所述图像特征进行候选区域池化得到的多个候选区域特征图;
根据所述特征识别网络对所述多个候选区域特征图进行特征识别,得到所述目标图像识别结果。
12.根据权利要求10所述的方法,其特征在于,所述通过目标图像识别模型中的特征提取网络获取所述目标图像的图像特征之前,还包括:
获取所述样本图像集合,其中,所述样本图像集合中包括第一样本图像和第二样本图像,所述第一样本图像为携带强标签的样本图像,所述第二样本图像包括携带弱标签的样本图像和无标签样本图像,所述强标签用于指示所述第一样本图像中包括的图像对象的全部对象属性信息,所述弱标签用于指示所述样本图像中包括的图像对象的部分对象属性信息;
将所述样本图像集合中包括的样本图像输入所述老师识别模型,并获取所述老师识别模型输出的辅助识别结果,其中,在输入的所述样本图像为所述第二样本图像的情况下,所述辅助识别结果包括所述老师识别模型中的第一特征识别网络为所述第二样本图像预测的第一对象属性标签,以及所述老师识别模型中的第二特征识别网络为所述第二样本图像预测的第二对象属性标签,所述第一特征识别网络与所述第二特征识别网络为利用不同样本图像训练得到的特征识别网络;
利用所述样本图像集合和所述辅助识别结果对学生识别模型进行训练,将满足收敛条件的所述学生识别模型确定为所述目标图像识别模型,其中,所述学生识别模型用于识别图像内图像对象的显示信息。
13.一种图像识别模型的训练装置,其特征在于,包括:
第一获取单元,用于获取样本图像集合,其中,所述样本图像集合中包括第一样本图像和第二样本图像,所述第一样本图像为携带强标签的样本图像,所述第二样本图像包括携带弱标签的样本图像和无标签样本图像,所述强标签用于指示所述第一样本图像中包括的图像对象的全部对象属性信息,所述弱标签用于指示所述样本图像中包括的图像对象的部分对象属性信息;
第二获取单元,用于将所述样本图像集合中包括的样本图像输入老师识别模型,并获取所述老师识别模型输出的辅助识别结果,其中,在输入的所述样本图像为所述第二样本图像的情况下,所述辅助识别结果包括所述老师识别模型中的第一特征识别网络为所述第二样本图像预测的第一对象属性标签,以及所述老师识别模型中的第二特征识别网络为所述第二样本图像预测的第二对象属性标签,所述第一特征识别网络与所述第二特征识别网络为利用不同样本图像训练得到的特征识别网络;
训练单元,用于利用所述样本图像集合和所述辅助识别结果对学生识别模型进行训练,将满足收敛条件的所述学生识别模型确定为目标图像识别模型,其中,所述学生识别模型用于识别图像内图像对象的显示信息。
14.一种图像识别装置,其特征在于,包括:
第一获取单元,用于获取待识别的目标图像;
第二获取单元,用于通过目标图像识别模型中的特征提取网络获取所述目标图像的图像特征,其中,所述图像特征用于指示样本图像中包括的图像对象的对象特征,所述目标图像识别模型为根据样本图像集合和老师识别模型输出的辅助识别结果,对学生识别模型进行训练得到的图像识别模型,所述辅助识别结果为所述老师识别模型根据所述样本图像集合输出的识别结果;
识别单元,用于通过所述目标图像识别模型中的特征识别网络根据所述图像特征确定目标图像识别结果,其中,所述目标图像识别结果用于指示所述目标图像中包括的图像对象的对象位置和对象类别。
15.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至9或10至12任一项中所述的方法。
16.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至9或10至12中任一项所述方法的步骤。
17.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至9或10至12任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310391579.8A CN116958732A (zh) | 2023-04-03 | 2023-04-03 | 图像识别模型的训练方法和装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310391579.8A CN116958732A (zh) | 2023-04-03 | 2023-04-03 | 图像识别模型的训练方法和装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958732A true CN116958732A (zh) | 2023-10-27 |
Family
ID=88448116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310391579.8A Pending CN116958732A (zh) | 2023-04-03 | 2023-04-03 | 图像识别模型的训练方法和装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958732A (zh) |
-
2023
- 2023-04-03 CN CN202310391579.8A patent/CN116958732A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472090B (zh) | 基于语义标签的图像检索方法以及相关装置、存储介质 | |
CN108229478B (zh) | 图像语义分割及训练方法和装置、电子设备、存储介质和程序 | |
CN112183577A (zh) | 一种半监督学习模型的训练方法、图像处理方法及设备 | |
CN110555420B (zh) | 一种基于行人区域特征提取和重识别融合模型网络及方法 | |
CN110765882B (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
CN110866469B (zh) | 一种人脸五官识别方法、装置、设备及介质 | |
CN110175657B (zh) | 一种图像多标签标记方法、装置、设备及可读存储介质 | |
CN113052295B (zh) | 一种神经网络的训练方法、物体检测方法、装置及设备 | |
CN113657087B (zh) | 信息的匹配方法及装置 | |
CN114550053A (zh) | 一种交通事故定责方法、装置、计算机设备及存储介质 | |
CN113591839B (zh) | 一种特征提取模型构建方法、目标检测方法及其设备 | |
CN112966548A (zh) | 一种大豆地块识别方法及系统 | |
WO2024060684A1 (zh) | 模型训练方法、图像处理方法、设备及存储介质 | |
CN112668638A (zh) | 一种图像美学质量评估和语义识别联合分类方法及系统 | |
CN113255501A (zh) | 生成表格识别模型的方法、设备、介质及程序产品 | |
CN115222061A (zh) | 基于持续学习的联邦学习方法以及相关设备 | |
CN112668675B (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN112614570B (zh) | 样本集标注、病理图像分类、分类模型构建方法及装置 | |
CN111898528B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN116958730A (zh) | 图像识别模型的训练方法和装置、存储介质及电子设备 | |
CN114387600B (zh) | 文本特征识别方法、装置、计算机设备和存储介质 | |
CN115205606A (zh) | 一种图像的多标签分类的方法、装置及相关产品 | |
CN116958732A (zh) | 图像识别模型的训练方法和装置、存储介质及电子设备 | |
CN114627085A (zh) | 目标图像的识别方法和装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |