CN114998908A - 样本图像标注、模型训练方法、装置、设备以及存储介质 - Google Patents

样本图像标注、模型训练方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN114998908A
CN114998908A CN202210565038.8A CN202210565038A CN114998908A CN 114998908 A CN114998908 A CN 114998908A CN 202210565038 A CN202210565038 A CN 202210565038A CN 114998908 A CN114998908 A CN 114998908A
Authority
CN
China
Prior art keywords
image
sample
feature
sample image
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210565038.8A
Other languages
English (en)
Inventor
王鹏
谢群义
钦夏孟
姚锟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202210565038.8A priority Critical patent/CN114998908A/zh
Publication of CN114998908A publication Critical patent/CN114998908A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7753Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种样本图像标注、模型训练方法、装置、设备以及存储介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR等场景。具体实现方案为:提取未标注的第一样本图像的图像特征;根据所述图像特征,获得表征所述第一样本图像中对象位置的位置特征、以及表征所述第一样本图像中对象分类的多种分类特征;根据所述多种分类特征,确定所述第一样本图像的伪标注信息;根据所述图像特征、位置特征以及多种分类特征,获得表征所述伪标注信息正确性的置信度;根据所述置信度和所述伪标注信息,对所述第一样本图像进行标注。应用本公开实施例提供的方案,能够提高样本图像标注的准确性。

Description

样本图像标注、模型训练方法、装置、设备以及存储介质
技术领域
本公开涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于OCR(Optical Character Recognition,光学字符识别)等场景。
背景技术
随着人工智能技术的快速发展,神经网络模型在各个领域的应用越来越广泛。不同的神经网络模型对输入图像进行图像处理从而实现不同的功能,例如,OCR模型能够实现字符识别。在应用各种神经网络模型进行图像处理之前,需要先对神经网络模型进行训练。一种情况下,在采用有监督训练方式对神经网络模型进行训练时,需要应用样本图像以及样本图像的标注信息,这样训练过程中可以根据神经网络模型对样本图像进行图像处理的输出结果与上述标注信息之间的差异进行模型参数调整,使得神经网络模型能够得到训练。
因此,在训练神经网络模型之前,需要人工对各个样本图像进行标注。
发明内容
本公开提供了一种样本图像标注、模型训练方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种样本图像标注方法,包括:
提取未标注的第一样本图像的图像特征;
根据所述图像特征,获取所述第一样本图像中对象的位置特征、和所述对象的多种分类特征;
根据所述多种分类特征,确定所述第一样本图像的伪标注信息;
根据第一参考特征,获取所述伪标注信息的置信度,所述第一参考特征包括:所述图像特征、所述位置特征和所述多种分类特征;
根据所述置信度和所述伪标注信息,对所述第一样本图像进行标注。
根据本公开的第二方面,提供了一种模型训练方法,包括:
将第二样本图像输入待训练的图像标注模型中检测子网络的图像特征提取层,得到所述第二样本图像的样本图像特征,其中,所述图像标注模型还包括:置信度预测子网络,所述检测子网络还包括:位置特征获得层和多个分类特征获得层;
将所述样本图像特征输入所述位置特征获得层和所述多个分类特征获得层,分别得到所述第二样本图像中对象的样本位置特征和所述对象的多种样本分类特征;
获取所述第二样本图像的标注信息;
基于所述第一参考特征,确定所述检测子网络进行对象检测的网络损失,所述第一参考特征包括:所述标注信息和所述多种样本分类特征;
将所述第二参考特征输入所述置信度预测子网络,得到所述标注信息的样本置信度,所述第二参考特征包括:所述样本图像特征、所述样本位置特征和所述多种样本分类特征;
基于所述网络损失和所述样本置信度,调整所述图像标注模型的网络参数。
根据本公开的第三方面,提供了一种样本图像标注装置,包括:
图像特征提取模块,用于提取未标注的第一样本图像的图像特征;
第一特征获得模块,用于根据所述图像特征,获取所述第一样本图像中对象的位置特征、和所述对象的多种分类特征;
伪标注信息确定模块,用于根据所述多种分类特征,确定所述第一样本图像的伪标注信息;
置信度获得模块,用于根据第一参考特征,获取所述伪标注信息的置信度,所述第一参考特征包括:所述图像特征、所述位置特征和所述多种分类特征;
样本图像标注模块,用于根据所述置信度和所述伪标注信息,对所述第一样本图像进行标注。
根据本公开的第四方面,提供了一种模型训练装置,包括:
样本图像特征获得模块,用于将第二样本图像输入待训练的图像标注模型中检测子网络的图像特征提取层,得到所述第二样本图像的样本图像特征,其中,所述图像标注模型还包括:置信度预测子网络,所述检测子网络还包括:位置特征获得层和多个分类特征获得层;
第二特征获得模块,用于将所述样本图像特征输入所述位置特征获得层和所述多个分类特征获得层,分别得到所述第二样本图像中对象的样本位置特征和所述对象的多种样本分类特征;
标注信息获得模块,用于获取所述第二样本图像的标注信息;
网络损失确定模块,用于基于所述第一参考特征,确定所述检测子网络进行对象检测的网络损失,所述第一参考特征包括:所述标注信息和所述多种样本分类特征;
样本置信度获得模块,用于将所述第二参考特征输入所述置信度预测子网络,得到所述标注信息的样本置信度,所述第二参考特征包括:所述样本图像特征、所述样本位置特征和所述多种样本分类特征;
网络参数调整模块,用于基于所述网络损失和所述样本置信度,调整所述图像标注模型的网络参数。
根据本公开的第五方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述样本图像标注或模型训练方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述样本图像标注或模型训练方法。
根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述样本图像标注或模型训练方法。
由上可见,应用本公开实施例提供的方案对样本图像进行标注时,除了根据分类特征确定伪标注信息,还会根据图像特征、位置特征以及多种分类特征,获得表征伪标注信息正确性的置信度。这样可以根据置信度确定伪标注信息是否足够准确,从而在对第一样本图像进行标注时能够根据置信度选择准确度较高的伪标注信息作为第一样本图像的标注信息,由于置信度是根据第一参考特征获得的,第一参考特征中包含多种特征,表征了第一样本图像的多种图像信息,这样在确定置信度时参考的图像信息较为充分,提高了对样本图像进行标注的准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的第一种样本图像标注方法的流程示意图;
图2a是本公开实施例提供的第二种样本图像标注方法的流程示意图;
图2b是本公开实施例提供的第一种图像标注模型的网络结构示意图;
图3a是本公开实施例提供的第一种模型训练方法的流程示意图;
图3b是本公开实施例提供的第二种图像标注模型的网络结构示意图。
图4是本公开实施例提供的第二种模型训练方法的流程示意图;
图5是本公开实施例提供的第一种模型子网络训练方法的流程示意图;
图6是本公开实施例提供的第二种模型子网络训练方法的流程示意图;
图7是本公开实施例提供的一种样本图像标注装置的结构示意图;
图8是本公开实施例提供的一种模型训练装置的结构示意图;
图9是用来实现本公开实施例样本图像标注、模型训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开实施例提供了一种模型训练方案,应用该方案能够训练得到用于对样本图像进行标注的网络模型。为便于表述可以将上述网络模型称为图像标注模型。在训练得到图像标注模型后,可以应用上述图像标注模型对样本图像进行标注,得到样本图像的标注信息。
模型训练方案的执行主体可以是服务器等电子设备。
本公开实施例还提供了一种样本图像标注方案,用于对样本图像进行标注,生成样本图像的标注信息。
样本图像标注方案的执行主体可以是手机、平板电脑、计算机等电子设备。另外,上述电子设备中可以运行有前述训练好的图像标注模型,这样电子设备具体可以通过上述图像标注模型实现样本图像标注。
在应用本公开实施例提供的方案完成样本图像标注后,这些标注后的样本图像可以用于不同的对图像进行处理的网络模型的训练。例如,上述网络模型可以是OCR模型,Tensorflow物体识别模型等,本公开实施例并不对模型实现的具体功能进行限定。
下面通过具体实施例对本公开实施例提供的样本图像标注、模型训练方法进行详细说明。
本公开的一个实施例中,参见图1,提供了第一种样本图像标注方法的流程示意图,该方法包括以下步骤S101-S105。
步骤S101:提取未标注的第一样本图像的图像特征。
未标注的第一样本图像可以理解为还不存在标注信息的样本图像。
未标注的第一样本图像可以从多种图像来源取得,图像来源可以是预先设置的图库,也可是互联网等。
本公开实施例中样本图像是与对象相关的图像,对于不同的应用场景,上述对象不同。例如,上述对象可以是字符、车辆、人、动物等,本公开实施例并不对此进行限定。
本公开的一个实施例中,得到第一样本图像后,可以检测第一样本图像中存在对象的图像区域,按照存在对象的可能性大小为不同的图像区域生成对应的特征值,根据特征值形成scoremap(得分图)表示的图像特征。
当然,还可以采用现有技术中其他提取图像特征的方式得到第一样本图像的图像特征,这里不再详述。
另外,上述第一样本图像的图像特征可以以特征图的形式表示。例如,可以是512x512的特征图。
步骤S102:根据图像特征,获取第一样本图像中对象的位置特征、和对象的多种分类特征。
上述位置特征可以根据第一样本图像中对象所在图像区域的位置得到。本公开的一个实施例中,延用步骤S101中提及的实施例,在得到scoremap表示的图像特征后,可以对scoremap中大于预设阈值的特征值对应的图像区域进行回归,得到定位此图像区域的矩形区域。在此情况下,位置特征可以用所得矩形区域的四个顶点的位置表示。例如,四个顶点在第一样本图像所处的预设坐标系下的坐标分别为(x1,y1),(x2,y2),(x3,y3),(x4,y4),则形成的位置特征可以表示为(x1,y1,x2,y2,x3,y3,x4,y4)。
一种情况下,上述八个坐标分量可以分别在不同的特征图中表示,这种情况下,上述位置特征对应多通道特征图,如,128x128的八通道特征图。
上述分类特征可以与预先设定的对象可能属于的类别相关。
本公开的一个实施例中,根据对象分类所依据的分类属性不同,可以从图像特征中得到不同的分类特征,例如,当分类属性是对象的高度时得到的分类特征与分类属性为对象的颜色时得到的分类特征为不同的分类特征,由此获得多种分类特征。
本公开的另一个实施例中,还可以采用不同的分类方式对对象进行分类,得到多种分类特征。例如,上述不同的分类方式可以是基于相同分类思想但是参数不同的分类方式,如,基于网络模型的分类方式中模型参数不同的分类方式;上述不同的分类方式还可以是基于不同分类思想的分类方式,如,基于网络模型的分类方式中采用不同网络结构的分类方式。
一种情况下,上述分类特征也可以以特征图的形式表示,例如,128x128的特征图。
步骤S103:根据多种分类特征,确定第一样本图像的伪标注信息。
本公开的一个实施例中可以根据多种分类特征,预测第一样本图像中对象属于各个分类的概率,并将其中最高概率的分类作为对象的预测分类,并确定为第一样本图像的伪标注信息。
以下举例说明根据分类特征预测分类的一种实现方式。
例如,可以计算多种样本特征的特征向量与表示特定分类的特征向量之间的距离,根据计算出的所有距离确定第一样本图像中的对象属于该分类的概率,并选择计算得到的最大概率对应的分类作为对象所属的分类。
另外,其他类型的特征的特征向量也可以用于计算距离以确定对象的分类,例如,其他类型的特征可以是位置特征等,详见后续实施例。
确定伪标注信息的具体实现方式可以参见后续实施例,此处暂不详述。
步骤S104:根据第一参考特征,获取伪标注信息的置信度。
第一参考特征包括:图像特征、位置特征和多种分类特征。
具体的,可以根据图像特征、位置特征及多种分类特征,预测第一样本图像中对象所属的分类,根据计算得到的分类与伪标注信息表示对象所属分类的差异,确定表征伪标注信息正确性的置信度。
步骤S105:根据置信度和伪标注信息,对第一样本图像进行标注。
得到置信度和伪标注信息后,可以根据置信度大小,判断是否采用伪标注信息对第一样本图像进行标注。
具体的,可以预设阈值程度,对置信度大小进行判断,实现方式见后续实施例,此处暂不详述。
由上可见,应用本公开实施例提供的方案对样本图像进行标注时,除了根据分类特征确定伪标注信息,还会根据图像特征、位置特征以及多种分类特征,获得表征伪标注信息正确性的置信度。这样可以根据置信度确定伪标注信息是否足够准确,从而在对第一样本图像进行标注时能够根据置信度选择准确度较高的伪标注信息作为第一样本图像的标注信息,由于置信度是根据第一参考特征获得的,第一参考特征中包含多种特征,表征了第一样本图像的多种图像信息,这样在确定置信度时参考的图像信息较为充分,提高了对样本图像进行标注的准确性。
另外,在样本图像的标注信息较为准确的情况下,采用样本图像进行网络模型训练,网络模型基于样本图像的标注信息学习到的图像知识也较为准确,从而能够提高模型训练的效果。
下面对步骤S105中确定标注信息的具体实现方式进行说明。
本公开的一个实施例中,响应于确定所述置信度大于预设的阈值程度,确定所述伪标注信息为所述第一样本图像的标注信息;响应于确定所述置信度小于或等于所述阈值程度,对所述第一样本图像进行标注,得到标注信息。
置信度大于预设的阈值程度的情况下,可以认为由本公开实施例提供的方案获得的伪标注信息具有较高的置信度,即伪标注信息对第一样本图像的描述较为准确,所以,可以将伪标注信息作为标注信息,形成第一样本图像的标注。标注信息置信度较高,提升了样本图像标注的准确性。并且,在此过程中可以直接采用伪标注信息进行标注,降低了标注花费的成本。
置信度小于或等于预设的阈值程度的情况下,说明应用本公开实施例提供的方案难以准确地预测出第一样本图像的标注信息,第一样本图像属于困难样本,为保证第一样本图像的标注的准确性,以人工方式进行标注,可以将第一样本图像交给具有专业分类知识的标注人员,由标注人员根据经验确定标注信息并对第一样本图像进行标注。这样在伪标注信息置信度较低的情况下,仍然能够获得较为准确的标注。
下面对步骤S103中确定伪标注信息的具体实现方式进行说明。
本公开的一个实施例中,根据多种分类特征,确定第一样本图像的伪标注信息时,可以获取多种分类特征的融合特征;根据融合特征,确定伪标注信息。
具体的,可以为每一种分类特征设置权重系数,并按照权重系数对所有的分类特征进行线性加权计算,将计算结果作为融合特征。其中,每一分类特征的权重系数可以是相同的或者是随机生成的,本公开实施例并不对权重系数的具体数值进行限定。
在得到融合特征的情况下,可以根据融合特征预测第一样本图像中对象的分类类型,并选择预测概率最高分类类型作为伪标注信息。因为融合特征中融合了多种分类特征中包含的分类信息,在用于进行分类时参考的信息较为充分,因此根据融合特征确定第一样本图像中对象的分类更为准确,相应地,获得的伪标注信息也更为准确。
在上述基础上,获得伪标注信息的置信度时也可以考虑上述融合特征,也就是,前述步骤S104,具体可以是根据图像特征、位置特征、多种分类特征以及融合特征,获得表征伪标注信息正确性的置信度。
这种情况下,获得置信度的方式类似前述步骤S104,区别仅在于预测第一样本图像中对象所属的分类参考的特征还包括上述融合特征,此处不再详述。
另外,将融合特征用于获得置信度时也能够提高伪标注信息的置信度,使得获取置信度时参考的特征信息也更为充足,提高了获取置信度的准确性。
本公开的一个实施例中,参见图2a,提供了第二种样本图像标注方法的流程示意图,下面结合图2b所示的网络结构示意图,对本实施例提供的样本图像标注方法进行详细说明。
具体的,该方法包括以下步骤S201-S205。
步骤S201:将未标注的第一样本图像输入预先训练的图像标注模型中检测子网络的图像特征提取层,得到图像特征。
其中,图像标注模型还包括:置信度预测子网络,检测子网络还包括:位置特征获得层和多个分类特征获得层。
第一样本图像即图2a中的样本图像。
具体的,图像特征提取层可以基于卷积变换实现图像特征提取,这种情况下,图像特征提取层可以包含多个卷积核,各个卷积核的大小以及其他网络参数可以在网络训练过程中设定,或者由开发人员根据经验设定,此处不再详述。
步骤S202:将图像特征输入位置特征获得层和多个分类特征获得层,分别得到位置特征和多种分类特征。
在得到图像特征后,将图像特征输入位置特征获得层,该位置特征获得层对图像特征进行分析,得到表征第一样本图像中对象位置的位置特征。其中,位置特征获得层中涉及的网络参数可以通过预先进行模型训练得到。
另外,在得到图像特征后,还将图像特征分别输入各个分类特征获得层,各个分类特征获得层均对图像特征分别进行分析,每一个分类特征获得层分别输出一种分类特征。与位置特征获得层相类似,分类特征获得层中涉及的网络参数可以通过预先进行模型训练得到。
各个分类特征获得层在图2b中示例性地用分类特征获得层1,分类特征获得层N表示,N可以取2、3、……、100、……等等,并公开实施例并不对此进行限定;可以理解的是,虽然图中仅描述了两个分类特征获得层,但是当N大于2是,会有N个分类特征获得层输出N个分类特征用于后续处理流程。
步骤S203:根据多种分类特征,确定第一样本图像的伪标注信息。
上述步骤S203与前述步骤S103相同,此处不再详述。
另外,本步骤中确定伪标注信息时,也可以由图像标注模型得到上述伪标注信息。也就是,图像标注模型除了能够完成本实施例中所提及的获得特征等功能外,还能够预测第一样本图像的伪标注信息。
步骤S204:将第一参考特征输入置信度预测子网络,得到置信度。
置信度预测子网络用于对表征伪标注信息正确性的置信度进行预测,作为其输入信息的第一参考特征可以包括图像特征、位置特征以及多种分类特征。将上述输入信息输入到置信度检测子网络之后,置信度检测子网络对输入信息进行综合分析,然后根据分析结果预测表征伪标注信息正确性的置信度。其中,置信度检测子网络的网络参数可以通过预先进行模型训练得到。
步骤S205:根据置信度和伪标注信息,对第一样本图像进行标注。
上述步骤S205与前述步骤S105相同,此处不再详述。
由上可见,本实施例提供的方案中,基于预先训练的图像标注模型得到第一样本图像的伪标注的置信度,由于通过预先训练图像标注模型学习到确定置信度和伪标注信息的先验知识,因此,可以较为准确地得到置信度和伪标注信息,进而应用本实施例提供的方案能够提高所获得置信度的准确定,从而能够进一步提高对样本图像进行标注的准确性。
下面对图2a所示实施例中提及的图像标注模型的训练方法进行说明。
本公开的一个实施例中,参见图3a,提供了第一种模型训练方法的流程示意图,下面结合前述图2b所示的模型结构示意图对模型训练方法进行说明。
具体的,该方法包括以下步骤S301-S306。
步骤S301:将第二样本图像输入待训练的图像标注模型中检测子网络的图像特征提取层,得到第二样本图像的样本图像特征。
其中,图像标注模型还包括:置信度预测子网络,检测子网络还包括:位置特征获得层和多个分类特征获得层。
第二样本图像即图2a中的样本图像。
上述步骤S301与前述步骤S201类似,区别仅在于第二样本图像与第一样本图像、待训练的图像标注模型与预先训练的图像标注模型等名称概念上的替换,此处不再详述。
步骤S302:将样本图像特征输入位置特征获得层和多个分类特征获得层,分别得到第二样本图像中对象的样本位置特征和对象的多种样本分类特征。
上述步骤S302与前述步骤S202类似,区别仅在于样本图像特征与图像特征、样本位置特征与位置特征、多种样本分类特征与的多种分类特征等名称概念上的替换,此处不再详述。
步骤S303:获取第二样本图像的标注信息。
第二样本图像既可以是已标注的样本图像,也可以是未标注的样本图像,因此,标注信息的获得方式根据第二样本图像是否具有标注的具体情况有所不同,参见后续实施例,此处暂不详述。
在图2a中,标注信息为根据分类特征获得层得到的伪标注信息;另外,标注信息也可是人工获得的,具体参见后续实施例。
步骤S304:基于第一参考特征,确定检测子网络进行对象检测的网络损失。
第一参考特征包括:标注信息和多种样本分类特征。
本公开的一个实施例中,可以根据多种样本特征得到图像标注模型预测的第二样本图像中对象所属的分类,根据该分类与标注信息中指定的分类之间的差异确定网络损失。
一种实现方式中,在计算网络损失时可以基于预设的损失函数计算得到,例如,上述预设的损失函数可以是交叉熵损失函数,例如计算多种样本分类特征与标注信息之间的sigmoid交叉熵作为网络损失;损失函数也可以是Softmax损失函数等。
步骤S305:将第二参考特征输入置信度预测子网络,得到标注信息的样本置信度。
第二参考特征包括:样本图像特征、样本位置特征和多种样本分类特征。
上述步骤S305与前述步骤S204类似,区别仅在于将样本图像特征与图像特征、样本位置特征与位置特征、多种样本分类特征与多种分类特征、标注信息与伪标注信息等名称概念上的替换,此处不再详述。
步骤S306:基于网络损失和样本置信度,调整图像标注模型的网络参数。
本公开的一个实施例中,样本置信度可以采用置信度预测子网络预测的、上述检测子网络产生的网络损失表示,在此情况下,可以根据步骤S304中计算的网络损失和预测的网络损失之间的差异调整图像标注模型的网络系数,即将差异最小化情况下图像标注模型的网络系数可以作为调整后的网络系数。
下面通过不同实现方式对调整网络参数的方式进行说明。
一种实现方式中,在调整网络参数时,可以调整检测子网络和置信度预测子网络的网络系数,这种情况下,检测子网络和置信度预测子网络的网络系数均可以根据上述计算所得差异进行调整,实现了两个子网络的联合训练。
另一种实现方式中,还可以预先对检测子网络进行训练,这种情况下,在采用本公开实施例提供的方案进行模型训练时,仅对置信度预测子网络进行训练,也就是,调整模型参数时仅调整置信度预测子网络的模型参数。
由上可见,本公开实施例提供的方案可以根据网络损失和样本置信度调整图像标注模型的模型参数,使得模型参数调整后图像标注模型能够预测得到样本置信度更为准确地反映对象检测时产生的网络损失,即置信度更能够说明对象检测的结果是否符合预期。在此情况下,训练后的图像标注模型预测的样本置信度更为准确。
以下说明第二样本图像为未标注图像时,图3a实施例中下述步骤的实现方式。
本公开的一个实施例中,若第二样本图像为未标注图像,前述步骤S303获取第二样本图像的标注信息,可以基于以下方式实现:
根据多种样本分类特征,确定第二样本图像的伪标注信息,并将所确定的伪标注信息作为第二样本图像的标注信息。
以上确定伪标注信息的方式类似前述步骤S103,区别仅在于多种样本分类特征与多种分类特征、第二样本图像与第一样本图像等名称概念上的替换,此处不再详述。
在此情况下,未标注的第二样本图像也可以用于模型训练,并由图像标注模型提供伪标注信息,所提供的伪标注信息可以用于计算网络损失,并参与后续调整模型参数的过程,使得图像标注模型能够通过训练学习到为样本图像提供标注的能力,较为准确地对样本图像进行标注。
本公开的一个实施例中,检测子网络还包括:融合特征获得层。参见图3b,在此情况下,前述步骤S103根据多种样本分类特征,确定第二样本图像的伪标注信息,可以按照以下方式实现:
将多种样本分类特征输入融合特征获得层进行特征融合,得到样本融合特征;根据样本融合特征,确定伪标注信息。
确定第二样本图像的伪标注信息,与前述实施例中根据融合特征,确定第一样本图像的伪标注信息的方式类似,区别仅在于第二样本图像与第一样本图像、样本融合特征与融合特征等名称概念上的替换,此处不再详述。
在此情况下,第一参考特征还可以包括样本融合特征,前述步骤S304可以按照以下方式实现:
基于标注信息、多种样本分类特征以及样本融合特征,确定检测子网络进行对象检测的网络损失。
因为样本融合特征也可以被认为是一种融合后的样本分类特征,因此,计算网络损失的方式与前述步骤S304类似,区别仅在于得到图像标注模型预测的第二样本图像中对象所属的分类所依据的特征还包括样本融合特征,此处不再详述。
在采用损失函数对网络损失进行计算的实现方式中,样本融合特征与多种样本分类特征可以视为同类参数,计算规则一致,此处不再详述。
另外,第二参考特征还可以包括样本融合特征,前述步骤305可以按照以下方式实现:
将样本图像特征、样本位置特征、多种样本分类特征以及样本融合特征输入置信度预测子网络,得到置信度预测子网络输出的表征标注信息正确性的样本置信度。
置信度预测子网络预测样本置信度的方式与前述步骤S104类似,区别仅在于采用的特征还包括样本融合特征,此处不再详述。
由上可见,在第二样本图像为未标注图像的情况下,以上多种样本分类特征会被输入融合特征获得层,得到样本融合特征,并且样本融合特征会用于确定伪标注信息、计算网络损失、以及得到样本置信度。
样本融合特征参考多种样本分类特征的信息预测第二样本图像中的对象分类并形成伪标注信息,因此也能够使得获得的伪标注信息更为准确。
另外,在计算网络损失时需要比较检测子网络的输出与预期输出的差异,由于本实施例中第二样本图像未被标注,无法通过标注确定预期输出,因此通过得到的样本融合特征确定伪标注信息,从而通过伪标注确定预期输出,实现了在此情况下计算网络损失的过程。
再者,在确定样本置信度时除了样本图像特征、样本位置特征、多种样本分类特征,还参考样本融合特征,实际由置信度预测子网络计算样本置信度时参考的特征信息更为充分,得到的样本置信度更为准确。
以下说明第二样本图像为已标注图像时,图3a实施例中下述步骤的实现方式。
本公开的一个实施例中,若第二样本图像为已标注图像,第一参考特征还包括样本位置特征,前述步骤S304,可以按照以下方式实现:
基于标注信息、多种样本分类特征以及样本位置特征,确定检测子网络进行对象检测的网络损失。
此种方式与步骤S304中确定网络损失的方式类似,区别仅在于得到图像标注模型预测的第二样本图像中对象所属的分类所依据的特征还包括样本位置特征,此处不再详述。
由上可见,在第二样本图像为已标注图像的情况下,确定网络损失时除考虑标注信息、多种样本分类特征以外,还考虑样本位置特征,与前述实施例中第二样本图像为未标注图像的情况下采用样本融合特征不同。由于采用不同类型的特征,已标注图像和未标注图像两种情况下得到的网络损失之间体现更为明显的差异化,有利于后续通过调整模型参数相应地改变差异化的程度,使得未标注的第二样本图像的对象检测结果与已标注的第二样本图像的对象检测结果拟合,图像标注模型对未标注的样本图像进行对象检测的准确性与对已标注图像进行检测的准确性一致,达到更好的训练效果。
另外,若第二样本图像为已标注图像,前述步骤S303获取第二样本图像的标注信息时,其标注信息可以直接根据第二样本图像已有的标注得到。
下面通过图4所示的实施例对上述模型训练的整体流程进行说明。
参见图4,左上方的虚线框中的流程表示图像标注模型中检测子网络的训练过程。已标注图像和未标注图像为用模型训练的样本图像,即前述实施例中的第二样本图像。EnDet表示提取到的第二样本图像的样本图像特征。
Figure BDA0003657584850000151
表示将样本图像特征输入位置特征获得层得到的样本位置特征,
Figure BDA0003657584850000152
Figure BDA0003657584850000153
表示将样本图像特征输入不同的分类特征获得层得到的多种样本分类特征。Fmil表示
Figure BDA0003657584850000154
Figure BDA0003657584850000155
特征融合后得到的融合特征。ldet表示当第二样本图像为已标注图像时,基于标注信息、多种样本分类特征
Figure BDA0003657584850000156
Figure BDA0003657584850000157
以及样本位置特征
Figure BDA0003657584850000158
确定的网络损失。
Figure BDA0003657584850000159
表示当第二样本图像为未标注图像时,基于伪标注信息、多种样本分类特征
Figure BDA00036575848500001510
Figure BDA00036575848500001511
以及样本融合特征Fmil确定的网络损失。limgcls为用于确定伪标注信息时产生的损失,表示基于Fmil预测的第二样本图像中的对象分类。
由上,在第二样本图像已标注或未标注的情况下,检测子网络都可以产生网络损失。该网络损失可以用于调整检测子网络的网络参数;或者,检测子网络可以预先被训练好,在无需再接受调整。
所得网络损失的另一作用为调整图像标注模型中的置信度预测子网络,参见图4上方右侧虚线框中的流程。
如图,训练置信度预测子网络采用的特征和网络损失与检测子网络中得到的特征和网络损失一致,区别在于还使用了根据第二样本图像得到的不包含位置信息的图像特征Fimg,作为置信度预测子网络学习知识的一部分。
Figure BDA0003657584850000161
和ldet作为监督信息,置信度预测模型右侧输入的五种上述特征用于预测在检测子网络中产生的损失,若置信度预测模型的输入特征得自于已标注的样本图像,则采用ldet作为监督信息,计算ldet与置信度预测模型的输出差异;若置信度预测模型的输入特征得自于未标注的样本图像,则采用
Figure BDA0003657584850000162
作为监督信息,计算
Figure BDA0003657584850000163
与置信度预测模型的输出差异。
置信度预测模型的输出作为置信度,确定图4中的高置信度样本、以及低置信度样本,可以按照前述实施例的方式,采用预设程度阈值对此两种样本进行区分。高置信度样本可以保留,低置信度样本则进行人工标注,得到手工标注样本。
所得高置信度样本、手工标注样本均可继续用于模型训练,此时,此两种样本均为已标注图像。
另外,图5、图6展示了图4中左侧检测子网络的训练方法。图5为检测子网络训练的第一阶段,与图4中训练检测子网络类似,区别在于,第一阶段中仅采用已标注图像对检测子网络子网络进行训练,因此,计算的网络损失仅有ldet,该阶段旨在令检测子网络根据已有标注学习对样本图像进行对象检测的知识。
图6为第二阶段和第三阶段的训练示意图。与图4中训练检测子网络类似,此二阶段均会采用已标注图像及未标注图像,区别在于:第二阶段训练中,增大已标注图像和未标注图像被检测子网络处理后输出的差异,即
Figure BDA0003657584850000164
和ldet表示的差异。原因在于,检测子网络对未标注图像进行检测时由于缺少可参考的标注信息,得到的结果的分布特征与已标注图像对应的结果的分布特征差异较大。增大已标注图像和未标注图像的检测结果的差异,使得检测子网络能够学习到区分已标注图像和未标注图像的能力。
第三阶段中,采用limgcls的损失调整检测子网络参数,包括得到Fmil的网络参数,使得根据Fmil进行对象检测得到的检测结果损失较小,提高检测子网络的检测准确性。
与前述样本图像标注方法相对应,本公开实施例还提供了一种样本图像标注装置。
本公开的一个实施例中,参见图7,提供了一种样本图像标注装置的结构示意图,包括:
图像特征提取模块701,用于提取未标注的第一样本图像的图像特征;
第一特征获得模块702,用于根据所述图像特征,获取所述第一样本图像中对象的位置特征、和所述对象的多种分类特征;
伪标注信息确定模块703,用于根据所述多种分类特征,确定所述第一样本图像的伪标注信息;
置信度获得模块704,用于根据第一参考特征,获取所述伪标注信息的置信度,所述第一参考特征包括:所述图像特征、所述位置特征和所述多种分类特征;
样本图像标注模块705,用于根据所述置信度和所述伪标注信息,对所述第一样本图像进行标注。
由上可见,应用本公开实施例提供的方案对样本图像进行标注时,除了根据分类特征确定伪标注信息,还会根据图像特征、位置特征以及多种分类特征,获得表征伪标注信息正确性的置信度。这样可以根据置信度确定伪标注信息是否足够准确,从而在对第一样本图像进行标注时能够根据置信度选择准确度较高的伪标注信息作为第一样本图像的标注信息,由于置信度是根据第一参考特征获得的,第一参考特征中包含多种特征,表征了第一样本图像的多种图像信息,这样在确定置信度时参考的图像信息较为充分,提高了对样本图像进行标注的准确性。
另外,在样本图像的标注信息较为准确的情况下,采用样本图像进行网络模型训练,网络模型基于样本图像的标注信息学习到的图像知识也较为准确,从而能够提高模型训练的效果。
本公开的一个实施例中,所述样本图像标注模块705,具体用于响应于确定所述置信度大于预设的阈值程度,确定所述伪标注信息为所述第一样本图像的标注信息;响应于确定所述置信度小于或等于所述阈值程度,对所述第一样本图像进行标注,得到标注信息。
标注信息置信度较高,提升了样本图像标注的准确性。并且,在此过程中可以直接采用伪标注信息进行标注,降低了标注花费的成本。
另外在伪标注信息置信度较低的情况下,仍然能够获得较为准确的标注。
本公开的一个实施例中,所述伪标注信息确定模块703,具体用于获取所述多种分类特征的融合特征;根据所述融合特征,确定所述伪标注信息;
所述第一参考特征还包括:所述融合特征。
因为融合特征中融合了多种分类特征中包含的分类信息,在用于进行分类时参考的信息较为充分,因此根据融合特征确定第一样本图像中对象的分类更为准确,相应地,获得的伪标注信息也更为准确。
本公开的一个实施例中,所述图像特征提取模块701,具体用于将未标注的第一样本图像输入预先训练的图像标注模型中检测子网络的图像特征提取层,得到所述第一样本图像的图像特征,其中,所述图像标注模型还包括:置信度预测子网络,所述检测子网络还包括:位置特征获得层和多个分类特征获得层;
所述第一特征获得模块702,具体用于将所述图像特征输入所述位置特征获得层和所述多个分类特征获得层,分别得到所述位置特征和所述多种分类特征;
所述置信度获得模块704,具体用于将所述第一参考特征输入所述置信度预测子网络,得到所述置信度。
由上可见,本实施例提供的方案中,基于预先训练的图像标注模型得到第一样本图像的伪标注的置信度,由于通过预先训练图像标注模型学习到确定置信度和伪标注信息的先验知识,因此,可以较为准确地得到置信度和伪标注信息,进而应用本实施例提供的方案能够提高所获得置信度的准确定,从而能够进一步提高对样本图像进行标注的准确性。
与前述模型训练方法相对应,本公开实施例还提供了一种模型训练装置。
本公开的一个实施例中,参见图8,提供了一种模型训练装置的结构示意图,包括:
样本图像特征获得模块801,用于将第二样本图像输入待训练的图像标注模型中检测子网络的图像特征提取层,得到所述第二样本图像的样本图像特征,其中,所述图像标注模型还包括:置信度预测子网络,所述检测子网络还包括:位置特征获得层和多个分类特征获得层;
第二特征获得模块802,用于将所述样本图像特征输入所述位置特征获得层和所述多个分类特征获得层,分别得到所述第二样本图像中对象的样本位置特征和所述对象的多种样本分类特征;
标注信息获得模块803,用于获取所述第二样本图像的标注信息;
网络损失确定模块804,用于基于所述第一参考特征,确定所述检测子网络进行对象检测的网络损失,所述第一参考特征包括:所述标注信息和所述多种样本分类特征;
样本置信度获得模块805,用于将所述第二参考特征输入所述置信度预测子网络,得到所述标注信息的样本置信度,所述第二参考特征包括:所述样本图像特征、所述样本位置特征和所述多种样本分类特征;
网络参数调整模块806,用于基于所述网络损失和所述样本置信度,调整所述图像标注模型的网络参数。
由上可见,本公开实施例提供的方案可以根据网络损失和样本置信度调整图像标注模型的模型参数,使得模型参数调整后图像标注模型能够预测得到样本置信度更为准确地反映对象检测时产生的网络损失,即置信度更能够说明对象检测的结果是否符合预期。在此情况下,训练后的图像标注模型预测的样本置信度更为准确。
本公开的一个实施例中,所述第二样本图像为未标注图像;
所述标注信息获得模块803,具体用于根据所述多种样本分类特征,确定所述第二样本图像的伪标注信息,并将所确定的伪标注信息作为所述第二样本图像的标注信息。
在此情况下,未标注的第二样本图像也可以用于模型训练,并由图像标注模型提供伪标注信息,所提供的伪标注信息可以用于计算网络损失,并参与后续调整模型参数的过程,使得图像标注模型能够通过训练学习到为样本图像提供标注的能力,较为准确地对样本图像进行标注。
本公开的一个实施例中,所述检测子网络还包括:融合特征获得层;
所述标注信息获得模块803,具体用于将所述多种样本分类特征输入所述融合特征获得层进行特征融合,得到样本融合特征;根据所述样本融合特征,确定所述伪标注信息,并将所确定的伪标注信息作为所述第二样本图像的标注信息;
所述第一参考特征还包括:所述样本融合特征;
所述第二参考特征还包括:所述样本融合特征。
由上可见,在第二样本图像为未标注图像的情况下,以上多种样本分类特征会被输入融合特征获得层,得到样本融合特征,并且样本融合特征会用于确定伪标注信息、计算网络损失、以及得到样本置信度。
样本融合特征参考多种样本分类特征的信息预测第二样本图像中的对象分类并形成伪标注信息,因此也能够使得获得的伪标注信息更为准确。
另外,在计算网络损失时需要比较检测子网络的输出与预期输出的差异,由于本实施例中第二样本图像未被标注,无法通过标注确定预期输出,因此通过得到的样本融合特征确定伪标注信息,从而通过伪标注确定预期输出,实现了在此情况下计算网络损失的过程。
再者,在确定样本置信度时除了样本图像特征、样本位置特征、多种样本分类特征,还参考样本融合特征,实际由置信度预测子网络计算样本置信度时参考的特征信息更为充分,得到的样本置信度更为准确。
本公开的一个实施例中,所述第二样本图像为已标注图像,所述第一参考特征还包括:样本位置特征。
在第二样本图像为已标注图像的情况下,确定网络损失时除考虑标注信息、多种样本分类特征以外,还考虑样本位置特征,与前述实施例中第二样本图像为未标注图像的情况下采用样本融合特征不同。由于采用不同类型的特征,已标注图像和未标注图像两种情况下得到的网络损失之间体现更为明显的差异化,有利于后续通过调整模型参数相应地改变差异化的程度,使得未标注的第二样本图像的对象检测结果与已标注的第二样本图像的对象检测结果拟合,图像标注模型对未标注的样本图像进行对象检测的准确性与对已标注图像进行检测的准确性一致,达到更好的训练效果。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
本公开的一个实施例中,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述样本图像标注或模型训练方法。
本公开的一个实施例中,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述样本图像标注或模型训练方法。
本公开的一个实施例中,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述样本图像标注或模型训练方法。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如样本图像标注或模型训练方法。例如,在一些实施例中,样本图像标注或模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的样本图像标注或模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行样本图像标注或模型训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (19)

1.一种样本图像标注方法,包括:
提取未标注的第一样本图像的图像特征;
根据所述图像特征,获取所述第一样本图像中对象的位置特征、和所述对象的多种分类特征;
根据所述多种分类特征,确定所述第一样本图像的伪标注信息;
根据第一参考特征,获取所述伪标注信息的置信度,所述第一参考特征包括:所述图像特征、所述位置特征和所述多种分类特征;
根据所述置信度和所述伪标注信息,对所述第一样本图像进行标注。
2.根据权利要求1所述的方法,其中,所述根据所述置信度和所述伪标注信息,对所述第一样本图像进行标注,包括:
响应于确定所述置信度大于预设的阈值程度,确定所述伪标注信息为所述第一样本图像的标注信息;
响应于确定所述置信度小于或等于所述阈值程度,对所述第一样本图像进行标注,得到标注信息。
3.根据权利要求1所述的方法,其中,所述根据所述多种分类特征,确定所述第一样本图像的伪标注信息,包括:
获取所述多种分类特征的融合特征;
根据所述融合特征,确定所述伪标注信息;
所述第一参考特征还包括:所述融合特征。
4.根据权利要求1所述的方法,其中,所述提取未标注的第一样本图像的图像特征,包括:
将未标注的第一样本图像输入预先训练的图像标注模型中检测子网络的图像特征提取层,得到所述图像特征;
其中,所述图像标注模型还包括:置信度预测子网络,所述检测子网络还包括:位置特征获得层和多个分类特征获得层;
所述根据所述图像特征,获取所述第一样本图像中对象的位置特征、和所述对象的多种分类特征,包括:
将所述图像特征输入所述位置特征获得层和所述多个分类特征获得层,分别得到所述位置特征和所述多种分类特征;
所述根据所述第一参考特征,获取所述伪标注信息的置信度,包括:
将所述第一参考特征输入所述置信度预测子网络,得到所述置信度。
5.一种模型训练方法,包括:
将第二样本图像输入待训练的图像标注模型中检测子网络的图像特征提取层,得到所述第二样本图像的样本图像特征,其中,所述图像标注模型还包括:置信度预测子网络,所述检测子网络还包括:位置特征获得层和多个分类特征获得层;
将所述样本图像特征输入所述位置特征获得层和所述多个分类特征获得层,分别得到所述第二样本图像中对象的样本位置特征和所述对象的多种样本分类特征;
获取所述第二样本图像的标注信息;
基于所述第一参考特征,确定所述检测子网络进行对象检测的网络损失,所述第一参考特征包括:所述标注信息和所述多种样本分类特征;
将所述第二参考特征输入所述置信度预测子网络,得到所述标注信息的样本置信度,所述第二参考特征包括:所述样本图像特征、所述样本位置特征和所述多种样本分类特征;
基于所述网络损失和所述样本置信度,调整所述图像标注模型的网络参数。
6.根据权利要求5所述的方法,其中,所述第二样本图像为未标注图像;
所述获取所述第二样本图像的标注信息,包括:
根据所述多种样本分类特征,确定所述第二样本图像的伪标注信息,并将所确定的伪标注信息作为所述第二样本图像的标注信息。
7.根据权利要求6所述的方法,其中,所述检测子网络还包括:融合特征获得层;
所述根据所述多种样本分类特征,确定所述第二样本图像的伪标注信息,包括:
将所述多种样本分类特征输入所述融合特征获得层进行特征融合,得到样本融合特征;
根据所述样本融合特征,确定所述伪标注信息;
所述第一参考特征还包括:所述样本融合特征;
所述第二参考特征还包括:所述样本融合特征。
8.根据权利要求5所述的方法,其中,所述第二样本图像为已标注图像,所述第一参考特征还包括:样本位置特征。
9.一种样本图像标注装置,包括:
图像特征提取模块,用于提取未标注的第一样本图像的图像特征;
第一特征获得模块,用于根据所述图像特征,获取所述第一样本图像中对象的位置特征、和所述对象的多种分类特征;
伪标注信息确定模块,用于根据所述多种分类特征,确定所述第一样本图像的伪标注信息;
置信度获得模块,用于根据第一参考特征,获取所述伪标注信息的置信度,所述第一参考特征包括:所述图像特征、所述位置特征和所述多种分类特征;
样本图像标注模块,用于根据所述置信度和所述伪标注信息,对所述第一样本图像进行标注。
10.根据权利要求9所述的装置,其中,
所述样本图像标注模块,具体用于响应于确定所述置信度大于预设的阈值程度,确定所述伪标注信息为所述第一样本图像的标注信息;响应于确定所述置信度小于或等于所述阈值程度,对所述第一样本图像进行标注,得到标注信息。
11.根据权利要求9所述的装置,其中,
所述伪标注信息确定模块,具体用于获取所述多种分类特征的融合特征;根据所述融合特征,确定所述伪标注信息;
所述第一参考特征还包括:所述融合特征。
12.根据权利要求9所述的装置,其中,
所述图像特征提取模块,具体用于将未标注的第一样本图像输入预先训练的图像标注模型中检测子网络的图像特征提取层,得到所述图像特征,其中,所述图像标注模型还包括:置信度预测子网络,所述检测子网络还包括:位置特征获得层和多个分类特征获得层;
所述第一特征获得模块,具体用于将所述图像特征输入所述位置特征获得层和所述多个分类特征获得层,分别得到所述位置特征和所述多种分类特征;
所述置信度获得模块,具体用于将所述第一参考特征输入所述置信度预测子网络,得到所述置信度。
13.一种模型训练装置,包括:
样本图像特征获得模块,用于将第二样本图像输入待训练的图像标注模型中检测子网络的图像特征提取层,得到所述第二样本图像的样本图像特征,其中,所述图像标注模型还包括:置信度预测子网络,所述检测子网络还包括:位置特征获得层和多个分类特征获得层;
第二特征获得模块,用于将所述样本图像特征输入所述位置特征获得层和所述多个分类特征获得层,分别得到所述第二样本图像中对象的样本位置特征和所述对象的多种样本分类特征;
标注信息获得模块,用于获取所述第二样本图像的标注信息;
网络损失确定模块,用于基于所述第一参考特征,确定所述检测子网络进行对象检测的网络损失,所述第一参考特征包括:所述标注信息和所述多种样本分类特征;
样本置信度获得模块,用于将所述第二参考特征输入所述置信度预测子网络,得到所述标注信息的样本置信度,所述第二参考特征包括:所述样本图像特征、所述样本位置特征和所述多种样本分类特征;
网络参数调整模块,用于基于所述网络损失和所述样本置信度,调整所述图像标注模型的网络参数。
14.根据权利要求13所述的装置,其中,所述第二样本图像为未标注图像;
所述标注信息获得模块,具体用于根据所述多种样本分类特征,确定所述第二样本图像的伪标注信息,并将所确定的伪标注信息作为所述第二样本图像的标注信息。
15.根据权利要求14所述的装置,其中,所述检测子网络还包括:融合特征获得层;
所述标注信息获得模块,具体用于将所述多种样本分类特征输入所述融合特征获得层进行特征融合,得到样本融合特征;根据所述样本融合特征,确定所述伪标注信息,并将所确定的伪标注信息作为所述第二样本图像的标注信息;
所述第一参考特征还包括:所述样本融合特征;
所述第二参考特征还包括:所述样本融合特征。
16.根据权利要求13所述的装置,其中,所述第二样本图像为已标注图像,所述第一参考特征还包括:样本位置特征。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4或5-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-4或5-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-4或5-8中任一项所述的方法。
CN202210565038.8A 2022-05-23 2022-05-23 样本图像标注、模型训练方法、装置、设备以及存储介质 Pending CN114998908A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210565038.8A CN114998908A (zh) 2022-05-23 2022-05-23 样本图像标注、模型训练方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210565038.8A CN114998908A (zh) 2022-05-23 2022-05-23 样本图像标注、模型训练方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN114998908A true CN114998908A (zh) 2022-09-02

Family

ID=83027453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210565038.8A Pending CN114998908A (zh) 2022-05-23 2022-05-23 样本图像标注、模型训练方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114998908A (zh)

Similar Documents

Publication Publication Date Title
US10762376B2 (en) Method and apparatus for detecting text
CN112801164A (zh) 目标检测模型的训练方法、装置、设备及存储介质
CN113379718B (zh) 一种目标检测方法、装置、电子设备以及可读存储介质
EP4040401A1 (en) Image processing method and apparatus, device and storage medium
CN112633380A (zh) 兴趣点特征提取方法、装置、电子设备及存储介质
EP3852008A2 (en) Image detection method and apparatus, device, storage medium and computer program product
CN113095336A (zh) 关键点检测模型的训练方法和检测目标对象关键点的方法
CN113222942A (zh) 多标签分类模型的训练方法和预测标签的方法
CN113378712B (zh) 物体检测模型的训练方法、图像检测方法及其装置
CN113869449A (zh) 一种模型训练、图像处理方法、装置、设备及存储介质
CN112861885B (zh) 图像识别方法、装置、电子设备及存储介质
CN113642431A (zh) 目标检测模型的训练方法及装置、电子设备和存储介质
CN113379813A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
CN115861400B (zh) 目标对象检测方法、训练方法、装置以及电子设备
CN113177469A (zh) 人体属性检测模型的训练方法、装置、电子设备及介质
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN113947188A (zh) 目标检测网络的训练方法和车辆检测方法
CN113780098A (zh) 文字识别方法、装置、电子设备以及存储介质
CN113205041A (zh) 结构化信息提取方法、装置、设备和存储介质
CN112560981A (zh) 生成对抗模型的训练方法、装置、设备、程序和存储介质
CN113255501A (zh) 生成表格识别模型的方法、设备、介质及程序产品
CN115482436B (zh) 图像筛选模型的训练方法、装置以及图像筛选方法
CN115457365A (zh) 一种模型的解释方法、装置、电子设备及存储介质
CN114782771A (zh) 训练方法、图像检索方法、图像处理方法、装置及设备
CN114998908A (zh) 样本图像标注、模型训练方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination