CN116468967B - 样本图像筛选方法、装置、电子设备及存储介质 - Google Patents

样本图像筛选方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116468967B
CN116468967B CN202310410642.8A CN202310410642A CN116468967B CN 116468967 B CN116468967 B CN 116468967B CN 202310410642 A CN202310410642 A CN 202310410642A CN 116468967 B CN116468967 B CN 116468967B
Authority
CN
China
Prior art keywords
detection
target
sample image
image
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310410642.8A
Other languages
English (en)
Other versions
CN116468967A (zh
Inventor
沈智勇
赵一麟
陆勤
龚建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202310410642.8A priority Critical patent/CN116468967B/zh
Publication of CN116468967A publication Critical patent/CN116468967A/zh
Application granted granted Critical
Publication of CN116468967B publication Critical patent/CN116468967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种样本图像筛选方法、装置、电子设备及存储介质,涉及人工智能领域,尤其涉及图像识别、图像标注技术,可应用在智慧城市、城市治理、应急管理、安防监控等应用场景下。具体实现方案为:获取多个第一样本图像;计算每个第一样本图像的不确定性参数,不确定性参数用于表征对第一样本图像进行检测时,在第一样本图像中确定的多个第一检测框的不确定性;根据每个第一样本图像的不确定性参数,从多个第一样本图像中筛选目标样本图像。采用本公开可以提高筛选出的目标样本图像的可用性价值,以便于在通过目标样本图像对图像检测模型进行训练时,提高图像检测模型的训练效果。

Description

样本图像筛选方法、装置、电子设备及存储介质
技术领域
本公开涉及人工智能领域,尤其涉及图像识别、图像标注技术,可应用在智慧城市、城市治理、应急管理、安防监控等应用场景下,具体涉及一种样本图像筛选方法、装置、电子设备及存储介质。
背景技术
随着人工智能技术的不断发展,图像检测模型的应用场景越来越广泛。由于图像检测模型需要通过一定量的目标样本图像进行训练,因此,目标样本图像的筛选在很大程度上影响了图像检测模型的训练效果。目前,主要是通过随机选取等简单筛选策略,从多个候选样本图像中筛选一定量的目标样本图像,因此,难以从多个候选样本图像中挖掘到高可用性价值的训练数据,从而影响图像检测模型的训练效果。
发明内容
本公开提供了一种样本图像筛选方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种样本图像筛选方法,包括:
获取多个第一样本图像;
计算每个第一样本图像的不确定性参数,不确定性参数用于表征对第一样本图像进行检测时,在第一样本图像中确定的多个第一检测框的不确定性;
根据每个第一样本图像的不确定性参数,从多个第一样本图像中筛选目标样本图像。
根据本公开的另一方面,提供了一种样本图像筛选装置,包括:
图像获取单元,用于获取多个第一样本图像;
参数计算单元,用于计算每个第一样本图像的不确定性参数,不确定性参数用于表征对第一样本图像进行检测时,在第一样本图像中确定的多个第一检测框的不确定性;
图像筛选单元,用于根据每个第一样本图像的不确定性参数,从多个第一样本图像中筛选目标样本图像。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;
与该至少一个处理器通信连接的存储器;
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开实施例中任一的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。
采用本公开可以提高筛选出的目标样本图像的可用性价值,以便于在通过目标样本图像对图像检测模型进行训练时,提高图像检测模型的训练效果。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为本公开实施例提供的一种样本图像筛选方法的流程示意图;
图2A和2B为本公开实施例提供的一种样本图像筛选方法的辅助性说明图;
图3为本公开实施例提供的另一种样本图像筛选方法的辅助性说明图;
图4为本公开实施例提供的一种样本图像筛选方法的完整性流程示意图。
图5为本公开实施例提供的一种样本图像筛选方法的场景示意图;
图6为本公开实施例提供的一种样本图像筛选装置的示意性结构框图;
图7为本公开实施例提供的一种电子设备的示意性结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如背景技术所述的,目前,主要是通过随机选取等简单筛选策略,从多个候选样本图像中筛选一定量的目标样本图像。但是,经发明人研究发现,随机选取等简单筛选策略通常难以从多个候选样本图像中筛选出足量的难例数据,作为高可用性价值的训练数据,例如,具有相似前景物体的多张目标样本图像和/或背景变化较小的多张目标样本图像。
由于通过随机选取等简单筛选策略,难以从多个候选样本图像中筛选出高可用性价值的训练数据,因此,会影响图像检测模型的训练效果。具体地,对于具有相似前景物体的多张待检测图像,该图像检测模型输出的实例检测结果会表现出较高不确定性,同样,对于背景变化较小的多张待检测图像,该图像检测模型输出的实例检测结果也会表现出较高不确定性。
基于以上背景,本公开实施例提供了一种样本图像筛选方法,其可以应用于电子设备。以下,将结合图1所示流程示意图,对本公开实施例提供的一种样本图像筛选方法进行说明。需要说明的是,虽然在流程示意图中示出了逻辑顺序,但是,在某些情况下,也可以以其他顺序执行所示出或描述的步骤。
步骤S101,获取多个第一样本图像;
步骤S102,计算每个第一样本图像的不确定性参数,不确定性参数用于表征对第一样本图像进行检测时,在第一样本图像中确定的多个第一检测框的不确定性;
步骤S103,根据每个第一样本图像的不确定性参数,从多个第一样本图像中筛选目标样本图像。
其中,多个第一样本图像可以从候选样本集合中随机选取,也可以从候选样本集合中等间隔选取,本公开实施例对此不作限制。其中,候选样本集合中包括多个候选样本图像,多个候选样本图像可以是通过摄像设备从目标场景中拍摄获得的样本图像数据,目标场景可以根据图像检测模型的应用场景确定。例如,图像检测模型应用于城市治理,则目标场景可以是包括违章停车、乱堆物、沿街晾晒等情况的实际场景。再例如,图像检测模型应用于应急管理,则目标场景可以是包括火灾、雷电、洪水等情况的实际场景。其中,图像检测模型可以是需要通过目标样本图像进行训练的神经网络模型。
在获取到多个第一样本图像之后,针对每个第一样本图像,可以通过目标检测模型,获得第一样本图像的第一实例检测结果,第一实例检测结果可以包括在第一样本图像中确定的多个第一检测框,以及每个第一检测框的第一类别检测结果,再基于每个第一检测框的第一类别检测结果,获得第一样本图像的不确定性参数。其中,目标检测模型可以是任意具有图像检测功能的神经网络模型,例如,目标检测模型可以是上述图像检测模型,也即,目标检测模型可以是需要通过目标样本图像进行训练的神经网络模型。此外,针对每个第一检测框,其第一类别检测结果用于表征该第一检测框中的实例物体的类别检测结果。在一具体示例中,图像检测模型应用于城市治理,实例物体可以是机动车、非机动车、乱堆物、沿街晾晒物等。
在计算出每个第一样本图像的不确定性参数之后,可以根据每个第一样本图像的不确定性参数,从多个第一样本图像中筛选目标样本图像。在一具体示例中,在计算出每个第一样本图像的不确定性参数,以获得多个不确定性参数之后,可以从多个不确定性参数中选取数值最大的目标数量个待用参数,再将与每个待用参数对应的第一样本图像,作为目标样本图像,以用于对图像检测模型进行训练。其中,目标数量具体可以根据实际应用需求设定,本公开实施例对此不作限制。
采用本公开实施例提供的样本图像筛选方法,可以在获取到多个第一样本图像中每个第一样本图像的不确定性参数之后,根据每个第一样本图像的不确定性参数,从多个第一样本图像中筛选目标样本图像,例如,可以从多个第一样本图像中筛选出不确定性参数最大的目标数量个第一样本图像,作为目标样本图像,以用于对图像检测模型进行训练。由于对于某个第一样本图像而言,其不确定性参数较大,则可以认为其属于难例数据,因此,采用本公开实施例提供的样本图像筛选方法,相对于现有技术而言,可以从多个第一样本图像中筛选出更多量的难例数据,作为高可用性价值的训练数据,也即,可以提高筛选出的目标样本图像的可用性价值,以便于在通过目标样本图像对图像检测模型进行训练时,提高图像检测模型的训练效果。
在一些可选的实施方式中,可以在获取到多个第二样本图像之后,基于目标检测模型对每个第二样本图像进行检测,输出的第二实例检测结果,计算每个第一样本图像的不确定性参数,也即,“计算每个第一样本图像的不确定性参数”可以包括以下步骤:
获取多个第二样本图像;
通过目标检测模型,获得每个第二样本图像的第二实例检测结果;
根据每个第二样本图像的第二实例检测结果,计算多个预设实例类别中的每个预设实例类别的不确定性权重;
基于每个预设实例类别的不确定性权重,计算每个第一样本图像的不确定性参数。
其中,多个第二样本图像可以是从候选样本集合中随机选取,也可以从候选样本集合中等间隔选取,本公开实施例对此不作限制。此外,需要说明的是,本公开实施例中,多个第二样本图像与多个第一样本图像的交集可以为零,也即,多个第二样本图像与多个第一样本图像中不包括同一候选样本图像。
其中,目标检测模型可以是任意具有图像检测功能的神经网络模型。此外,可以理解的是,本公开实施例中,在通过目标检测模型,获得每个第二样本图像的第二实例检测结果之前,目标检测模型可以是经过预先训练的,也可以是未经过预先训练的,本公开实施例对此不作限制。但是,需要说明的是,在通过目标检测模型,获得每个第二样本图像的第二实例检测结果之前,若目标检测模型是未经过预先训练的,则可以在通过目标检测模型,获得每个第二样本图像的第二实例检测结果的过程中,同时对目标检测模型进行训练,以优化目标检测模型的图像检测功能。
此外,本公开实施例中,针对每个第二样本图像,其第二实例检测结果包括在第二样本图像中确定的多个第二检测框,以及每个第二检测框的第二类别检测结果和位置检测结果。其中,针对每个第二检测框,其第二类别检测结果用于表征该第二检测框中的实例物体的类别检测结果,其位置检测结果可以是该第二检测框中的边框回归(Bounding-BoxRegression,BBR),用于表征第二检测框的位置信息。
在通过目标检测模型,获得每个第二样本图像的第二实例检测结果之后,便可以根据每个第二样本图像的第二实例检测结果,计算多个预设实例类别中的每个预设实例类别的不确定性权重,再基于每个预设实例类别的不确定性权重,计算每个第一样本图像的不确定性参数。其中,多个预设实例类别可以根据图像检测模型的应用场景确定,本公开实施例对此不作具体限制。例如,图像检测模型应用于城市治理,则多个预设实例类别可以包括机动车、非机动车、乱堆物、沿街晾晒物等。
通过以上步骤,本公开实施例中,可以获取多个第二样本图像,再通过目标检测模型,获得每个第二样本图像的第二实例检测结果,并根据每个第二样本图像的第二实例检测结果,计算多个预设实例类别中的每个预设实例类别的不确定性权重,以便于基于每个预设实例类别的不确定性权重,计算每个第一样本图像的不确定性参数。由于以上步骤中,每个预设实例类别的不确定性权重仅与第二实例检测结果相关,也即,仅与目标检测模型的输出相关,目标检测模型的输出属于模型推理用不到的输出变量,因此,与目标检测模型的内容网络结构无关,又由于Paddlepaddle,Mmdetection等神经网络开源学习框架对具有图像检测功能的神经网络模型的输出都做了统一规定,因此,将以上步骤作为主动学习模块的部分逻辑,用于实现样本图像筛选,可以实现主动学习模块与图像检测模型的解耦,从而增加样本图像筛选方法的使用灵活性和可应用范围。
如前所述的,本公开实施例中,针对每个第二样本图像,其第二实例检测结果包括在第二样本图像中确定的多个第二检测框,以及每个第二检测框的第二类别检测结果和位置检测结果。基于此,在一些可选的实施方式中,“根据每个第二样本图像的第二实例检测结果,计算多个预设实例类别中的每个预设实例类别的不确定性权重”可以包括以下步骤:
针对每个第二样本图像,基于在第二样本图像中确定的目标检测框的第二类别检测结果和位置检测结果,计算目标检测框的检测难度指数,目标检测框为在第二样本图像中确定的多个第二检测框中的任一检测框;
根据目标检测框的检测难度指数,获得第二样本图像的图像检测难度;
根据每个第二样本图像的图像检测难度,计算多个预设实例类别中的每个预设实例类别的不确定性权重。
其中,第二样本图像可以具有对应的图像标注信息,包括在第二样本图像中标注的多个实例标注框,以及每个实例标注框的类别标注结果和位置标注结果。基于此,本公开实施例中,针对每个第二样本图像,可以根据在第二样本图像中确定的目标检测框的第二类别检测结果和位置检测结果,以及与目标检测框对应的目标标注框的类别标注结果和位置标注结果,计算目标检测框的检测难度指数,而目标检测框为在第二样本图像中确定的多个第二检测框中的任一检测框。
在计算出目标检测框的检测难度指数之后,再根据目标检测框的检测难度指数,获得第二样本图像的图像检测难度,并根据每个第二样本图像的图像检测难度,计算多个预设实例类别中的每个预设实例类别的不确定性权重。
通过以上步骤,本公开实施例中,可以针对每个第二样本图像,基于在第二样本图像中确定的目标检测框的第二类别检测结果和位置检测结果,计算目标检测框的检测难度指数,再根据目标检测框的检测难度指数,获得第二样本图像的图像检测难度,并根据每个第二样本图像的图像检测难度,计算多个预设实例类别中的每个预设实例类别的不确定性权重。以上步骤中,目标检测框为在第二样本图像中确定的多个第二检测框中的任一检测框,也即,针对每个第二检测框,都会计算其检测难度指数,再据此获得第二样本图像的图像检测难度,从而提高图像检测难度的可靠性,最终,可以提高每个第一样本图像的不确定性参数的可靠性,以进一步提高筛选出的目标样本图像的可用性价值。
在一些可选的实施方式中,“基于在第二样本图像中确定的目标检测框的第二类别检测结果和位置检测结果,计算目标检测框的检测难度指数”可以包括以下步骤:
获取第二样本图像的图像标注信息,图像标注信息包括在第二样本图像中标注的多个实例标注框,以及每个实例标注框的类别标注结果和位置标注结果;
在多个实例标注框中确定与目标检测框对应的目标标注框;
根据目标检测框的位置检测结果和目标标注框的位置标注结果,计算目标检测框与目标标注框之间的区域交并比;
根据目标检测框的第二类别检测结果、目标标注框的类别标注结果和区域交并比,计算目标检测框的检测难度指数。
在一具体示例中,图像检测模型应用于城市治理,每个第二的类别检测结果用于预测该第二检测框中的实例物体的属于多个预设实例类别中的哪一类,例如,具体属于机动车、非机动车、乱堆物、沿街晾晒物中的哪一类。同样,每个实例标注框的类别标注结果用于表征该实例标注框中的实例物体的属于多个预设实例类别中的哪一类,例如,具体属于机动车、非机动车、乱堆物、沿街晾晒物中的哪一类。
请结合图2A,假设,存在第二样本图像201、且通过目标检测模型,获得第二样本图像201的第二实例检测结果包括第二检测框A、第二检测框B、第二检测框C、第二检测框D、第二检测框E和第二检测框F。其中,第二检测框A具体可以表征为b11,其第二类别检测结果为乱堆物,具体可以通过第二类别检测向量(0.2,0,0.8,0)表征其类别概率;第二检测框B具体可以表征为b12,其第二类别检测结果为非机动车,具体可以通过第二类别检测向量(0.1,0.9,0,0)表征其类别概率;第二检测框C可以表征为b13,其第二类别检测结果为非机动车,具体可以通过第二类别检测向量(0.1,0.8,0,0.1)表征其类别概率;第二检测框D可以表征为b14,其第二类别检测结果为机动车,具体可以通过第二类别检测向量(0.9,0,0.1,0)表征其类别概率;第二检测框E可以表征为b15,其第二类别检测结果为沿街晾晒物,具体可以通过第二类别检测向量(0,0.1,0,0.9)表征其类别概率;第二检测框F可以表征为b16,其第二类别检测结果为乱堆物,具体可以通过第二类别检测向量(0.1,0.2,0.4,0.3)表征其类别概率。
对于第二检测框F,由于其第二类别检测结果的置信度较低,因此,可以将其删除,而不作为目标检测框进行后续处理。基于此,可以理解的是,本公开实施例中,目标检测框实际可以是在第二样本图像中确定的多个第二检测框中的任一高置信检测框。具体地,针对从第二样本图像中确定的每个第二检测框,在获得其对应的第二类别检测向量之后,可以从该第二类别检测向量中确定出最大值,在该最大值大于预设置信度阈值的情况下,将该第二检测框作为高置信检测框。其中,目标数量具体可以根据实际应用需求设定,例如,可以设定为0.6,本公开实施例对此不作限制。
请结合图2B,再假设,第二样本图像201的图像标注信息包括在第二样本图像中标注的第一实例标注框、第二实例标注框、第三实例标注框、第四实例标注框和第五实例标注框,以及每个实例标注框的类别标注结果和位置标注结果。其中,第一实例标注框可以表征为其类别标注结果为乱堆物,具体可以通过类别标注向量(0.0001,0.0001,1,0.0001)表征其类别概率;第二实例标注框可以表征为/>其类别标注结果为非机动车,具体可以通过类别标注向量(0.0001,1,0.0001,0.0001)表征其类别概率;第三实例标注框可以表征为/>其类别标注结果为非机动车,具体可以通过类别标注向量(0.0001,1,0.0001,0.0001)表征其类别概率;第四实例标注框可以表征为/>其类别标注结果为机动车,具体可以通过类别标注向量(1,0.0001,0.0001,0.0001)表征其类别概率;第五实例标注框可以表征为/>其类别标注结果为沿街晾晒物,具体可以通过类别标注向量(0.0001,0.0001,0.0001,1)表征其类别概率。
示例性的,将第二检测框A作为目标检测框,那么,可以在多个实例标注框中确定与第二检测框A对应的目标标注框,也即,第一实例标注框,再根据第二检测框A的位置检测结果和第一实例标注框的位置标注结果,计算第二检测框A与第一实例标注框之间的区域交并比,并根据第二检测框A的第二类别检测结果、第一实例标注框的类别标注结果和区域交并比,计算第二检测框A的检测难度指数。该过程的具体计算逻辑可以表征为:
其中,为第二检测框A的检测难度指数,P函数用于计算第二检测框A和第一实例标注框的类别概率关系,IOU函数用于计算第二检测框A和第一实例标注框之间的区域交并比,ξ为0~1之间的小数,b11为第二检测框A,/>为第一实例标注框。越小,则表示第二检测框A与第一实例标注框的类别概率和位置信息越相似,也即,说明第二检测框A的检测准确率越高,说明第二检测框A的检测难度越低。此外,本公开实施例中,ξ值越大,会更加看重类别检测结果的检测准确率,反之,会更加看位置检测结果的检测准确率,ξ值具体可以根据实际应用需求设定,例如,可以设定为0.6,本公开实施例对此不作限制。
同理,可以获得第二样本图像中其他第二检测框的检测难度指数。
通过以上步骤,本公开实施例中,可以获取第二样本图像的图像标注信息,再在多个实例标注框中确定与目标检测框对应的目标标注框,并根据目标检测框的位置检测结果和目标标注框的位置标注结果,计算目标检测框与目标标注框之间的区域交并比,根据目标检测框的第二类别检测结果、目标标注框的类别标注结果和区域交并比,计算目标检测框的检测难度指数。以上步骤中,由于利用了第二样本图像真实可靠的图像标注信息、且图像标注信息包括在第二样本图像中标注的多个实例标注框,以及每个实例标注框的类别标注结果和位置标注结果,因此,可以提高检测难度指数的可靠性,最终,可以提高每个第一样本图像的不确定性参数的可靠性,以进一步提高筛选出的目标样本图像的可用性价值。
在计算出目标检测框的检测难度指数之后,可以根据目标检测框的检测难度指数,获得第二样本图像的图像检测难度。该过程的具体计算逻辑可以表征为:
其中,di为多个第二样本图像的第i个第二样本图像的图像检测难度,表征第i个第二样本图像中每类第二检测框所对应的检测框数量,例如,在图2A所示的第二样本图像201中/>用于表征第二样本图像201中第二类别检测结果为机动车的第二检测框有1个,第二类别检测结果为非机动车的第二检测框有2个,第二类别检测结果为乱堆物的第二检测框有1个,第二类别检测结果为沿街晾晒物的第二检测框有1个,N为多个第二样本图像的第i个第二样本图像中第二检测框的总数量,j为该N个第二检测框中的第j个第二检测框。
如前所述的,本公开实施例中,目标检测模型可以是未经过预先训练的。基于此,在一些可选的实施方式中,样本图像筛选方法还可以包括以下步骤:
计算目标检测框的第二类别检测结果与目标标注框的类别标注结果之间的类别检测损失;
计算目标检测框的位置检测结果与目标标注框的位置标注结果之间的位置检测损失;
根据类别检测损失和位置检测损失,对目标检测模型的模型参数进行调整。
本公开实施例中,在计算出类别检测损失和位置检测损失之后,可以确定与类别检测损失对应的第一损失权重,以及与位置检测损失对应的第二损失权重,再计算类别检测损失与第一损失权重的乘积,作为第一部分损失,同时,计算位置检测损失与第二损失权重的乘积,作为第二部分损失,最后,计算第一部分损失和第二部分损失的和,作为整体损失值,并根据整体损失值,对目标检测模型的模型参数进行调整。
通过样本图像筛选方法包括的以上步骤,本公开实施例中,可以通过第二样本图像,对目标检测模型进行训练。一方面,由于第二样本图像与第一样本图像同源,具体地,第二样本图像和第一样本图像都可以是从候选样本集合中选取的,因此,通过第二样本图像,对目标检测模型进行训练之后,可以保证目标检测模型对于第一样本图像具有优异的检测效果,最终,可以提高每个第一样本图像的不确定性参数的可靠性,以进一步提高筛选出的目标样本图像的可用性价值。另一方面,由于采用了未经过预先训练的目标检测模型,而将目标检测模型的训练过程嵌入到了每个第一样本图像的不确定性参数的计算过程中,无需从候选样本集合中选取其他样本图像对目标检测模型进行预先训练,可以节省整体的样本图像筛选时间,同时,降低候选样本集合中的数据准备量。
在一些可选的实施方式中,“根据每个第二样本图像的图像检测难度,计算多个预设实例类别中的每个预设实例类别的不确定性权重”可以包括以下步骤:
通过指数移动平均(Exponential Moving Average,EMA)算法,对每个第二样本图像的图像检测难度进行处理,获得综合性类别检测难度,综合性类别检测难度用于表征每个预设实例类别的检测难度;
基于综合性类别检测难度,计算多个预设实例类别中的每个预设实例类别的不确定性权重。
其中,通过EMA算法,对每个第二样本图像的图像检测难度进行处理,获得综合性类别检测难度的具体计算逻辑可以表征为:
其中,di为多个第二样本图像的第i个第二样本图像的图像检测难度,d'i-1为对多个第二样本图像的前i-1个第二样本图像的图像检测难度进行处理,获得类别检测难度分量,d'i为对多个第二样本图像的前i个第二样本图像的图像检测难度进行处理,获得类别检测难度分量。基于此,可以理解的是,本公开实施例中,在i值等于多个第二样本图像的总数量的情况下,d'i为对每个第二样本图像的图像检测难度进行处理,获得综合性类别检测难度。
在获得综合性类别检测难度之后,可以基于综合性类别检测难度,计算多个预设实例类别中的每个预设实例类别的不确定性权重。该过程的具体计算逻辑可以表征为:
wi=1+αβ·log(1+γdi)
γ=e1/α-1
其中,wi表征多个预设实例类别中每个预设实例类别的不确定性权重,α和β为超参数,α和β的取值具体可以根据实际应用需求设定,例如,可以取α=0.3,β=0.2,本公开实施例对此不作限制。
在一具体示例中,图像检测模型应用于城市治理,每个实例标注框的类别标注结果用于表征该实例标注框中的实例物体的属于多个预设实例类别中的哪一类,例如,具体属于机动车、非机动车、乱堆物、沿街晾晒物中的哪一类,那么,最终计算出的wi可以表示为(wc1,wc2,wc3,wc4),用于表征机动车这一预设实例类别的不确定性权重为wc1;非机动车这一预设实例类别的不确定性权重为wc2;乱堆物这一预设实例类别的不确定性权重为wc3;沿街晾晒物这一预设实例类别的不确定性权重为wc4
通过以上步骤,本公开实施例中,可以通过EMA算法,对每个第二样本图像的图像检测难度进行处理,获得综合性类别检测难度,再基于综合性类别检测难度,计算多个预设实例类别中的每个预设实例类别的不确定性权重。由于通过EMA算法,对每个第二样本图像的图像检测难度进行处理,获得综合性类别检测难度可以降低综合性类别检测难度的数据误差,也即,可以提高综合性类别检测难度的可靠性,因此,可以提高每个第一样本图像的不确定性参数的可靠性,以进一步提高筛选出的目标样本图像的可用性价值。
在一些可选的实施方式中,“基于每个预设实例类别的不确定性权重,计算每个第一样本图像的不确定性参数”可以包括以下步骤:
针对每个第一样本图像,通过目标检测模型,获得第一样本图像的第一实例检测结果,第一实例检测结果包括在第一样本图像中确定的多个第一检测框,以及每个第一检测框的第一类别检测结果;
利用每个预设实例类别的不确定性权重和每个第一检测框的第一类别检测结果进行信息熵计算,获得第一样本图像的不确定性参数。
在一具体示例中,图像检测模型应用于城市治理,则每个第一检测框的第一类别检测结果用于预测该第一检测框中的实例物体的属于多个预设实例类别中的哪一类,例如,具体属于机动车、非机动车、乱堆物、沿街晾晒物中的哪一类。
请结合图3,假设,存在第一样本图像301、且通过目标检测模型,获得第一样本图像301的第一实例检测结果包括第一检测框A、第一检测框B、第一检测框C、第一检测框D和第一检测框E。其中,第一检测框A的第一类别检测结果可以是p13=(0.2,0,0.8,0),用于预测第一检测框A中的实例物体的属于乱堆物;第一检测框B的第一类别检测结果可以是p22=(0,0.9,0,0.1),用于预测第一检测框B中的实例物体的属于非机动车;第一检测框C的第一类别检测结果可以是p31=(0.9,0,0.1,0),用于预测第一检测框C中的实例物体的属于机动车;第一检测框D的第一类别检测结果可以是p42=(0,0.8,0.2,0),用于预测第一检测框D中的实例物体的属于机动车;第一检测框E的第一类别检测结果可以是p54=(0,0.2,0,0.8),用于预测第一检测框E中的实例物体的属于沿街晾晒物。
此后,可以利用每个预设实例类别的不确定性权重和每个第一检测框的第一类别检测结果进行信息熵计算,获得第一样本图像的不确定性参数。该过程的具体计算逻辑可以表征为:
其中,U(I)为多个第一样本图像中的第I个第一样本图像的不确定性参数,MI为第I个第一样本图像中的第一检测框的总数量,以图3为例,MI=5,wi表征多个预设实例类别中每个预设实例类别的不确定性权重,CI为第I个第一样本图像中的多个第一检测框中实例物体的总类别数量,以图3为例,CI=4,Pij为第I个第一样本图像中的第i个第一检测框的第一类别检测结果、且该第一检测框中实例物体所属的预设实例类别被标记为j。例如,机动车、非机动车、乱堆物、沿街晾晒物分别标记为1、2、3和4,则第一检测框A的第一类别检测结果可以是p13=(0.2,0,0.8,0);第一检测框B的第一类别检测结果可以是p22=(0,0.9,0,0.1);第一检测框C的第一类别检测结果可以是p31=(0.9,0,0.1,0);第一检测框D的第一类别检测结果可以是p42=(0,0.8,0.2,0);第一检测框E的第一类别检测结果可以是p54=(0,0.2,0,0.8)。
最终,可以获得每个第一样本图像的不确定性参数。
通过以上步骤,本公开实施例中,可以针对每个第一样本图像,通过目标检测模型,获得第一样本图像的第一实例检测结果,再利用每个预设实例类别的不确定性权重和每个第一检测框的第一类别检测结果进行信息熵计算,获得第一样本图像的不确定性参数。由于不确定性参数是基于信息熵算法计算获得的,而信息熵算法最大的特性是可以高效解决大规模数据处理问题,因此,可以提高不确定性参数的计算效率,从而提高目标样本图像的筛选效率。
本公开实施例中,目标样本图像可以有多个,例如,可以从10000个第一样本图像中筛选8000个目标样本图像。基于此,在一些可选的实施方式中,还可以继续从多个目标样本图像中筛选训练样本图像,例如,再从8000个目标样本图像中筛选6000个训练样本图像,以保证训练样本图像的多样性,也即,样本图像筛选方法还可以包括以下步骤:
计算多个第二样本图像的第二实例分布;
计算每个目标样本图像的第一实例分布与第二实例分布之间的分布差异值,以获得多个分布差异值;
根据多个分布差异值,从多个目标样本图像中筛选训练样本图像。
其中,第二实例分布用于表征多个第二样本图像中,所有第二检测框中实例物体所属的预设实例类别分布。每个目标样本图像的第一实例分布用于表征该目标样本图像中所有第一检测框中实例物体所属的预设实例类别分布。
本公开实施例中,具体可以通过以下计算逻辑,计算多个第二样本图像的第二实例分布:
L(YL)=softmax([δ12,…,δm]T)
其中,△L(YL)为多个第二样本图像的第二实例分布,softmax为0~1分布函数,yL为多个第二样本图像中的第L个第二样本图像的任一第二检测框,YL为多个第二样本图像所包括的各个第二检测框,I为标志函数,代表是否满足条件(yL=m),也即,针对该第二样本图像的某个第二检测框,在其所属的预设实例类别标记为m的情况下,则δm加一。
本公开实施例中,具体可以通过以下计算逻辑,计算每个目标样本图像的第一实例分布:
U(YU)=softmax([δ12,…,δm]T)
其中,△U(YU)为多个第一样本图像中的第U个第一样本图像的第一实例分布,softmax为0~1分布函数,T为转置标记符号,δm为该第一样本图像中预设实例类别标记为m的所有第一检测框的总数量,sk为该第一样本图像中的任一第一检测框,{sk}为该第一样本图像所包括的各个第一检测框表示该第一样本图像中的不同第一检测框。
在计算出多个第二样本图像的第二实例分布,以及每个目标样本图像的第一实例分布之后,可以计算每个目标样本图像的第一实例分布与第二实例分布之间的分布差异值,以获得多个分布差异值,再根据多个分布差异值,从多个目标样本图像中筛选训练样本图像。例如,可以从多个目标样本图像中筛选出所对应的分布差异值最大的预测数量个目标样本图像,作为训练样本图像。
通过以上步骤,本公开实施例中,可以计算多个第二样本图像的第二实例分布,再计算每个目标样本图像的第一实例分布与第二实例分布之间的分布差异值,以获得多个分布差异值,并根据多个分布差异值,从多个目标样本图像中筛选训练样本图像,例如,可以从多个目标样本图像中筛选出所对应的分布差异值最大的预测数量个目标样本图像,作为训练样本图像,从而提高训练样本图像的多样性,避免出现与部分预设实例类别对应的实例物体缺失或数量过少的情况出现,以便于在通过训练样本图像对图像检测模型进行训练时,可以进一步提高图像检测模型的训练效果。
在一些可选的实施方式中,“根据多个分布差异值,从多个目标样本图像中筛选训练样本图像”可以包括以下步骤:
从多个分布差异值中选取数值最大的预测数量个目标差异值;
将与每个目标差异值对应的目标样本图像,作为训练样本图像。
其中,预设数量具体可以根据实际应用需求设定,本公开实施例对此不作限制。
在一具体示例中,图像检测模型应用于城市治理,每个第一类别检测结果用于预测该第一检测框中的实例物体的属于多个预设实例类别中的哪一类,例如,具体属于机动车、非机动车、乱堆物、沿街晾晒物中的哪一类。同样,每个第二类别检测结果用于预测该第二检测框中的实例物体的属于多个预设实例类别中的哪一类,例如,具体属于机动车、非机动车、乱堆物、沿街晾晒物中的哪一类。
假设,多个第二样本图像的第二实例分布△L(YL)=softmax([3000,2000,1000,1000]T)=(0.3,0.2,0.1,0.1)T,用于表征多个第二样本图像中对应机动车这一预设实例类别的第二实例框一共有3000个,对应非机动车这一预设实例类别的第二实例框一共有2000个,对应乱堆物这一预设实例类别的第二实例框一共有2000个,对应沿街晾晒物这一预设实例类别的第二实例框一共有2000个。
再假设,多个目标样本图像中包括目标样本图像1、目标样本图像2……目标样本图像U、且目标样本图像1的第一实例分布△1(Y1)=softmax([4,3,2,1]T)=(0.4,0.3,0.2,0.1)T,用于表征目标样本图像1中对应机动车这一预设实例类别的第一实例框一共有4个,对应非机动车这一预设实例类别的第一实例框一共有3个,对应乱堆物这一预设实例类别的第一实例框一共有2个,对应沿街晾晒物这一预设实例类别的第一实例框一共有1个;目标样本图像2的第一实例分布△2(Y2)=softmax([4,4,1,1]T)=(0.4,0.4,0.1,0.1)T,用于表征目标样本图像2中对应机动车这一预设实例类别的第一实例框一共有4个,对应非机动车这一预设实例类别的第一实例框一共有4个,对应乱堆物这一预设实例类别的第一实例框一共有1个,对应沿街晾晒物这一预设实例类别的第一实例框一共有1个;以此类推,目标样本图像4的第一实例分布△4(Y4)=softmax([1,3,2,1]T=(0.1,0.3,0.2,0.1)T,用于表征目标样本图像1中对应机动车这一预设实例类别的第一实例框一共有1个,对应非机动车这一预设实例类别的第一实例框一共有3个,对应乱堆物这一预设实例类别的第一实例框一共有2个,对应沿街晾晒物这一预设实例类别的第一实例框一共有1个。
此后,可以分别计算每个目标样本图像的第一实例分布与第二实例分布之间的分布差异值,以获得多个分布差异值,再从多个分布差异值中选取数值最大的预测数量个目标差异值,将与每个目标差异值对应的目标样本图像,作为训练样本图像。在一具体示例中,可以通过詹森-香农散度(Jensen-Shannon Divergence,JSD)分布算法,分别计算每个目标样本图像的第一实例分布与第二实例分布之间的分布差异值。
此外,需要说明的是,本公开实施例中,训练样本图像同样可以有多个,在获得多个训练样本图像之后,可以通过多个训练样本图像对图像检测模型进行训练。可以理解的是,在通过多个训练样本图像对图像检测模型进行训练之前,可以对每个训练样本图像进行标注,从训练样本图像中标注出多个训练用实例标注框,以及每个实例标注框的训练用类别标注结果和训练用位置标注结果,以便于通过多个训练样本图像,以及每个训练样本图像的标注信息对图像检测模型进行有监督训练,从而进一步提高图像检测模型的训练效果。
通过以上步骤,本公开实施例中,可以从多个分布差异值中选取数值最大的预测数量个目标差异值,再将与每个目标差异值对应的目标样本图像,作为训练样本图像,从而尽量提高训练样本图像的多样性,以便于在通过训练样本图像对图像检测模型进行训练时,可以进一步提高图像检测模型的训练效果。
以下,将结合图4,对本公开实施例提供的一种样本图像筛选方法的完整性流程进行说明。
获取多个第二样本图像。
通过目标检测模型,获得每个第二样本图像的第二实例检测结果,第二实例检测结果包括在第二样本图像中确定的多个第二检测框,以及每个第二检测框的第二类别检测结果和位置检测结果。
根据每个第二样本图像的第二实例检测结果,计算多个预设实例类别中的每个预设实例类别的不确定性权重。具体地,针对每个第二样本图像,获取第二样本图像的图像标注信息,图像标注信息包括在第二样本图像中标注的多个实例标注框,以及每个实例标注框的类别标注结果和位置标注结果;在多个实例标注框中确定与目标检测框对应的目标标注框,目标检测框为在第二样本图像中确定的多个第二检测框中的任一检测框;根据目标检测框的位置检测结果和目标标注框的位置标注结果,计算目标检测框与目标标注框之间的区域交并比;根据目标检测框的第二类别检测结果、目标标注框的类别标注结果和区域交并比,计算目标检测框的检测难度指数。通过指数移动平均算法,对每个第二样本图像的图像检测难度进行处理,获得综合性类别检测难度,综合性类别检测难度用于表征每个预设实例类别的检测难度;基于综合性类别检测难度,计算多个预设实例类别中的每个预设实例类别的不确定性权重。
获取多个第一样本图像;
针对每个第一样本图像,通过目标检测模型,获得第一样本图像的第一实例检测结果,第一实例检测结果包括在第一样本图像中确定的多个第一检测框,以及每个第一检测框的第一类别检测结果;利用每个预设实例类别的不确定性权重和每个第一检测框的第一类别检测结果进行信息熵计算,获得第一样本图像的不确定性参数。
从获取到的多个不确定性参数中选取数值最大的目标数量个待用参数,再将与每个待用参数对应的第一样本图像,作为目标样本图像,以获得多个目标样本图像。
计算多个第二样本图像的第二实例分布;计算每个目标样本图像的第一实例分布与第二实例分布之间的分布差异值,以获得多个分布差异值;从多个分布差异值中选取数值最大的预测数量个目标差异值;将与每个目标差异值对应的目标样本图像,作为训练样本图像。
请参阅图5,为本公开实施例提供的一种样本图像筛选方法的场景示意图。
如前所述的,本公开实施例提供的样本图像筛选方法应用于电子设备。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字处理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。
电子设备可以用于:
获取多个第一样本图像;
计算每个第一样本图像的不确定性参数,不确定性参数用于表征对第一样本图像进行检测时,在第一样本图像中确定的多个第一检测框的不确定性;
根据每个第一样本图像的不确定性参数,从多个第一样本图像中筛选目标样本图像。
其中,多个第一样本图像可以从候选样本集合中随机选取,也可以从候选样本集合中等间隔选取,本公开实施例对此不作限制。其中,候选样本集合中包括多个候选样本图像,多个候选样本图像可以是通过摄像设备从目标场景中拍摄获得的样本图像数据,目标场景可以根据图像检测模型的应用场景确定。
需要说明的是,本公开实施例中,图5所示的场景示意图仅为示意性而非限制性的,本领域技术人员可以基于图5示例进行各种显而易见的变化和/或替换,获得的技术方案仍属于本公开实施例的公开范围。
为了更好地实施样本图像筛选方法,本公开实施例还提供一种样本图像筛选装置,其具体可以集成在电子设备中。以下,将结合图6所示结构示意图,对公开实施例提供的一种样本图像筛选装置600进行说明。
图像获取单元601,用于获取多个第一样本图像;
参数计算单元602,用于计算每个第一样本图像的不确定性参数,不确定性参数用于表征对第一样本图像进行检测时,在第一样本图像中确定的多个第一检测框的不确定性;
图像筛选单元603,用于根据每个第一样本图像的不确定性参数,从多个第一样本图像中筛选目标样本图像。
在一些可选的实施方式中,参数计算单元602用于:
获取多个第二样本图像;
通过目标检测模型,获得每个第二样本图像的第二实例检测结果;
根据每个第二样本图像的第二实例检测结果,计算多个预设实例类别中的每个预设实例类别的不确定性权重;
基于每个预设实例类别的不确定性权重,计算每个第一样本图像的不确定性参数。
在一些可选的实施方式中,每个第二样本图像的第二实例检测结果包括在第二样本图像中确定的多个第二检测框,以及每个第二检测框的第二类别检测结果和位置检测结果;参数计算单元602用于:
针对每个第二样本图像,基于在第二样本图像中确定的目标检测框的第二类别检测结果和位置检测结果,计算目标检测框的检测难度指数,目标检测框为在第二样本图像中确定的多个第二检测框中的任一检测框;
根据目标检测框的检测难度指数,获得第二样本图像的图像检测难度;
根据每个第二样本图像的图像检测难度,计算多个预设实例类别中的每个预设实例类别的不确定性权重。
在一些可选的实施方式中,参数计算单元602用于:
获取第二样本图像的图像标注信息,图像标注信息包括在第二样本图像中标注的多个实例标注框,以及每个实例标注框的类别标注结果和位置标注结果;
在多个实例标注框中确定与目标检测框对应的目标标注框;
根据目标检测框的位置检测结果和目标标注框的位置标注结果,计算目标检测框与目标标注框之间的区域交并比;
根据目标检测框的第二类别检测结果、目标标注框的类别标注结果和区域交并比,计算目标检测框的检测难度指数。
在一些可选的实施方式中,样本图像筛选装置601还包括模型训练单元,用于:
计算目标检测框的第二类别检测结果与目标标注框的类别标注结果之间的类别检测损失;
计算目标检测框的位置检测结果与目标标注框的位置标注结果之间的位置检测损失;
根据类别检测损失和位置检测损失,对目标检测模型的模型参数进行调整。
在一些可选的实施方式中,参数计算单元602用于:
通过指数移动平均算法,对每个第二样本图像的图像检测难度进行处理,获得综合性类别检测难度,综合性类别检测难度用于表征每个预设实例类别的检测难度;
基于综合性类别检测难度,计算多个预设实例类别中的每个预设实例类别的不确定性权重。
在一些可选的实施方式中,参数计算单元602用于:
针对每个第一样本图像,通过目标检测模型,获得第一样本图像的第一实例检测结果,第一实例检测结果包括在第一样本图像中确定的多个第一检测框,以及每个第一检测框的第一类别检测结果;
利用每个预设实例类别的不确定性权重和每个第一检测框的第一类别检测结果进行信息熵计算,获得第一样本图像的不确定性参数。
在一些可选的实施方式中,目标样本图像有多个;装置还包括二次筛选单元,用于:
计算多个第二样本图像的第二实例分布;
计算每个目标样本图像的第一实例分布与第二实例分布之间的分布差异值,以获得多个分布差异值;
根据多个分布差异值,从多个目标样本图像中筛选训练样本图像。
在一些可选的实施方式中,二次筛选单元用于:
从多个分布差异值中选取数值最大的预测数量个目标差异值;
将与每个目标差异值对应的目标样本图像,作为训练样本图像。
本公开实施例的样本图像筛选装置601的各单元的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
采用本公开实施例提供的样本图像筛选装置,可以在获取到多个第一样本图像中每个第一样本图像的不确定性参数之后,根据每个第一样本图像的不确定性参数,从多个第一样本图像中筛选目标样本图像,例如,可以从多个第一样本图像中筛选出不确定性参数最大的目标数量个第一样本图像,作为目标样本图像,以用于对图像检测模型进行训练。由于对于某个第一样本图像而言,其不确定性参数较大,则可以认为其属于难例数据,因此,采用本公开实施例提供的样本图像筛选方法,相对于现有技术而言,可以从多个第一样本图像中筛选出更多量的难例数据,作为高可用性价值的训练数据,也即,可以提高筛选出的目标样本图像的可用性价值,以便于在通过目标样本图像对图像检测模型进行训练时,提高图像检测模型的训练效果。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(Read-OnlyMemory,ROM)702中的计算机程序或从存储单元708加载到随机访问存储器(Random AccessMemory,RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(Input/Output,I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(Central Processing Unit,CPU)、图形处理单元(Graphics Processing Unit,GPU)、各种专用的人工智能(ArtificialIntelligence,AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Process,DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如,样本图像筛选方法。例如,在一些实施例中,样本图像筛选方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的样本图像筛选方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行样本图像筛选方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array,FPGA)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用标准产品(ApplicationSpecific Standard Product,ASSP)、芯片上系统的系统(System On Chip,SOC)、负载可编程逻辑设备(Complex Programmable Logic Device,CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或多个计算机程序中,该一个或多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)或快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disc Read-OnlyMemory,CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,阴极射线管(Cathode Ray Tube,CRT)显示器或液晶显示器(Liquid Crystal Display,LCD));以及键盘和指向装置(例如,鼠标或轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或触觉反馈);并且可以用任何形式(包括声输入、语音输入、或触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或包括中间件部件的计算系统(例如,应用服务器)、或包括前端部件的计算系统(例如,具有图形用户界面或网络浏览器的用户计算机,用户可以通过该图形用户界面或该网络浏览器来与此处描述的系统和技术的实施方式交互)、或包括这种后台部件、中间件部件、或前端部件的任何组合的计算系统中。可以通过任何形式或介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(Local AreaNetwork,LAN)、广域网(Wide Area Network,WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或是结合了区块链的服务器。
本公开实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行样本图像筛选方法。
本公开实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现样本图像筛选方法。
采用本公开实施例提供的电子设备、存储介质及计算机程序产品,可以在获取到多个第一样本图像中每个第一样本图像的不确定性参数之后,根据每个第一样本图像的不确定性参数,从多个第一样本图像中筛选目标样本图像,例如,可以从多个第一样本图像中筛选出不确定性参数最大的目标数量个第一样本图像,作为目标样本图像,以用于对图像检测模型进行训练。由于对于某个第一样本图像而言,其不确定性参数较大,则可以认为其属于难例数据,因此,采用本公开实施例提供的样本图像筛选方法,相对于现有技术而言,可以从多个第一样本图像中筛选出更多量的难例数据,作为高可用性价值的训练数据,也即,可以提高筛选出的目标样本图像的可用性价值,以便于在通过目标样本图像对图像检测模型进行训练时,提高图像检测模型的训练效果。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。此外,本公开中,诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来,而不一定要求或暗示这些实体或操作之间存在任何这种实际的关系或顺序。此外,本公开中“多个”,可以理解为至少两个。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (17)

1.一种样本图像筛选方法,包括:
获取多个第一样本图像;
计算每个所述第一样本图像的不确定性参数,所述不确定性参数用于表征对所述第一样本图像进行检测时,在所述第一样本图像中确定的多个第一检测框的不确定性;
根据每个所述第一样本图像的不确定性参数,从所述多个第一样本图像中筛选目标样本图像;
所述计算每个所述第一样本图像的不确定性参数,包括:
获取多个第二样本图像;
通过目标检测模型,获得每个所述第二样本图像的第二实例检测结果;每个所述第二样本图像的第二实例检测结果包括在所述第二样本图像中确定的多个第二检测框,以及每个所述第二检测框的第二类别检测结果和位置检测结果;
针对每个所述第二样本图像,基于在所述第二样本图像中确定的目标检测框的第二类别检测结果和位置检测结果,计算所述目标检测框的检测难度指数,所述目标检测框为在所述第二样本图像中确定的所述多个第二检测框中的任一检测框;根据所述目标检测框的检测难度指数,获得所述第二样本图像的图像检测难度;根据每个所述第二样本图像的图像检测难度,计算多个预设实例类别中的每个所述预设实例类别的不确定性权重;
基于每个所述预设实例类别的不确定性权重,计算每个所述第一样本图像的不确定性参数。
2.根据权利要求1所述的方法,其中,所述基于在所述第二样本图像中确定的目标检测框的第二类别检测结果和位置检测结果,计算所述目标检测框的检测难度指数,包括:
获取所述第二样本图像的图像标注信息,所述图像标注信息包括在所述第二样本图像中标注的多个实例标注框,以及每个所述实例标注框的类别标注结果和位置标注结果;
在所述多个实例标注框中确定与所述目标检测框对应的目标标注框;
根据所述目标检测框的位置检测结果和所述目标标注框的位置标注结果,计算所述目标检测框与所述目标标注框之间的区域交并比;
根据所述目标检测框的第二类别检测结果、所述目标标注框的类别标注结果和所述区域交并比,计算所述目标检测框的检测难度指数。
3.根据权利要求2所述的方法,还包括:
计算所述目标检测框的第二类别检测结果与所述目标标注框的类别标注结果之间的类别检测损失;
计算所述目标检测框的位置检测结果与所述目标标注框的位置标注结果之间的位置检测损失;
根据所述类别检测损失和所述位置检测损失,对所述目标检测模型的模型参数进行调整。
4.根据权利要求1所述的方法,其中,所述根据每个所述第二样本图像的图像检测难度,计算多个预设实例类别中的每个所述预设实例类别的不确定性权重,包括:
通过指数移动平均算法,对每个所述第二样本图像的图像检测难度进行处理,获得综合性类别检测难度,所述综合性类别检测难度用于表征每个所述预设实例类别的检测难度;
基于所述综合性类别检测难度,计算多个预设实例类别中的每个所述预设实例类别的不确定性权重。
5.根据权利要求1所述的方法,其中,所述基于每个所述预设实例类别的不确定性权重,计算每个所述第一样本图像的不确定性参数,包括:
针对每个所述第一样本图像,通过所述目标检测模型,获得所述第一样本图像的第一实例检测结果,所述第一实例检测结果包括在所述第一样本图像中确定的多个第一检测框,以及每个所述第一检测框的第一类别检测结果;
利用每个所述预设实例类别的不确定性权重和每个所述第一检测框的第一类别检测结果进行信息熵计算,获得所述第一样本图像的不确定性参数。
6.根据权利要求1所述的方法,其中,所述目标样本图像有多个;所述方法还包括:
计算所述多个第二样本图像的第二实例分布;
计算每个所述目标样本图像的第一实例分布与所述第二实例分布之间的分布差异值,以获得多个分布差异值;
根据所述多个分布差异值,从多个所述目标样本图像中筛选训练样本图像。
7.根据权利要求6所述的方法,其中,所述根据所述多个分布差异值,从多个所述目标样本图像中筛选训练样本图像,包括:
从所述多个分布差异值中选取数值最大的预测数量个目标差异值;
将与每个所述目标差异值对应的目标样本图像,作为训练样本图像。
8.一种样本图像筛选装置,包括:
图像获取单元,用于获取多个第一样本图像;
参数计算单元,用于计算每个所述第一样本图像的不确定性参数,所述不确定性参数用于表征对所述第一样本图像进行检测时,在所述第一样本图像中确定的多个第一检测框的不确定性;
图像筛选单元,用于根据每个所述第一样本图像的不确定性参数,从所述多个第一样本图像中筛选目标样本图像;
其中,所述参数计算单元用于:
获取多个第二样本图像;
通过目标检测模型,获得每个所述第二样本图像的第二实例检测结果;每个所述第二样本图像的第二实例检测结果包括在所述第二样本图像中确定的多个第二检测框,以及每个所述第二检测框的第二类别检测结果和位置检测结果;
针对每个所述第二样本图像,基于在所述第二样本图像中确定的目标检测框的第二类别检测结果和位置检测结果,计算所述目标检测框的检测难度指数,所述目标检测框为在所述第二样本图像中确定的所述多个第二检测框中的任一检测框;根据所述目标检测框的检测难度指数,获得所述第二样本图像的图像检测难度;根据每个所述第二样本图像的图像检测难度,计算多个预设实例类别中的每个所述预设实例类别的不确定性权重;
基于每个所述预设实例类别的不确定性权重,计算每个所述第一样本图像的不确定性参数。
9.根据权利要求8所述的装置,其中,所述参数计算单元用于:
获取所述第二样本图像的图像标注信息,所述图像标注信息包括在所述第二样本图像中标注的多个实例标注框,以及每个所述实例标注框的类别标注结果和位置标注结果;
在所述多个实例标注框中确定与所述目标检测框对应的目标标注框;
根据所述目标检测框的位置检测结果和所述目标标注框的位置标注结果,计算所述目标检测框与所述目标标注框之间的区域交并比;
根据所述目标检测框的第二类别检测结果、所述目标标注框的类别标注结果和所述区域交并比,计算所述目标检测框的检测难度指数。
10.根据权利要求9所述的装置,还包括模型训练单元,用于:
计算所述目标检测框的第二类别检测结果与所述目标标注框的类别标注结果之间的类别检测损失;
计算所述目标检测框的位置检测结果与所述目标标注框的位置标注结果之间的位置检测损失;
根据所述类别检测损失和所述位置检测损失,对所述目标检测模型的模型参数进行调整。
11.根据权利要求8所述的装置,其中,所述参数计算单元用于:
通过指数移动平均算法,对每个所述第二样本图像的图像检测难度进行处理,获得综合性类别检测难度,所述综合性类别检测难度用于表征每个所述预设实例类别的检测难度;
基于所述综合性类别检测难度,计算多个预设实例类别中的每个所述预设实例类别的不确定性权重。
12.根据权利要求8所述的装置,其中,所述参数计算单元用于:
针对每个所述第一样本图像,通过所述目标检测模型,获得所述第一样本图像的第一实例检测结果,所述第一实例检测结果包括在所述第一样本图像中确定的多个第一检测框,以及每个所述第一检测框的第一类别检测结果;
利用每个所述预设实例类别的不确定性权重和每个所述第一检测框的第一类别检测结果进行信息熵计算,获得所述第一样本图像的不确定性参数。
13.根据权利要求8所述的装置,其中,所述目标样本图像有多个;所述装置还包括二次筛选单元,用于:
计算所述多个第二样本图像的第二实例分布;
计算每个所述目标样本图像的第一实例分布与所述第二实例分布之间的分布差异值,以获得多个分布差异值;
根据所述多个分布差异值,从多个所述目标样本图像中筛选训练样本图像。
14.根据权利要求13所述的装置,其中,所述二次筛选单元用于:
从所述多个分布差异值中选取数值最大的预测数量个目标差异值;
将与每个所述目标差异值对应的目标样本图像,作为训练样本图像。
15.一种电子设备,包括:
至少一个处理器;
与所述至少一个处理器通信连接的存储器;
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1~7中任一项所述的方法。
CN202310410642.8A 2023-04-18 2023-04-18 样本图像筛选方法、装置、电子设备及存储介质 Active CN116468967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310410642.8A CN116468967B (zh) 2023-04-18 2023-04-18 样本图像筛选方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310410642.8A CN116468967B (zh) 2023-04-18 2023-04-18 样本图像筛选方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN116468967A CN116468967A (zh) 2023-07-21
CN116468967B true CN116468967B (zh) 2024-04-16

Family

ID=87173015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310410642.8A Active CN116468967B (zh) 2023-04-18 2023-04-18 样本图像筛选方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116468967B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117115568B (zh) * 2023-10-24 2024-01-16 浙江啄云智能科技有限公司 数据筛选方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668710A (zh) * 2019-10-16 2021-04-16 阿里巴巴集团控股有限公司 模型训练、管状物提取、数据识别方法及设备
CN114066900A (zh) * 2021-11-12 2022-02-18 北京百度网讯科技有限公司 图像分割方法、装置、电子设备和存储介质
CN114549578A (zh) * 2021-11-05 2022-05-27 北京小米移动软件有限公司 目标跟踪方法、装置及存储介质
KR20220074319A (ko) * 2020-11-27 2022-06-03 인하대학교 산학협력단 다양한 샘플을 이용하여 개선한 확률기반 사물검출기
CN114663307A (zh) * 2022-03-22 2022-06-24 哈尔滨工业大学 基于不确定性网络的集成图像去噪系统
WO2022237153A1 (zh) * 2021-05-14 2022-11-17 上海商汤智能科技有限公司 目标检测方法及其模型训练方法、相关装置、介质及程序产品
CN115359308A (zh) * 2022-04-06 2022-11-18 北京百度网讯科技有限公司 模型训练、难例识别方法、装置、设备、存储介质及程序
CN115631379A (zh) * 2022-10-27 2023-01-20 武汉市万睿数字运营有限公司 结合主动学习和噪声筛除的视频分析方法、装置及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668710A (zh) * 2019-10-16 2021-04-16 阿里巴巴集团控股有限公司 模型训练、管状物提取、数据识别方法及设备
KR20220074319A (ko) * 2020-11-27 2022-06-03 인하대학교 산학협력단 다양한 샘플을 이용하여 개선한 확률기반 사물검출기
WO2022237153A1 (zh) * 2021-05-14 2022-11-17 上海商汤智能科技有限公司 目标检测方法及其模型训练方法、相关装置、介质及程序产品
CN114549578A (zh) * 2021-11-05 2022-05-27 北京小米移动软件有限公司 目标跟踪方法、装置及存储介质
CN114066900A (zh) * 2021-11-12 2022-02-18 北京百度网讯科技有限公司 图像分割方法、装置、电子设备和存储介质
CN114663307A (zh) * 2022-03-22 2022-06-24 哈尔滨工业大学 基于不确定性网络的集成图像去噪系统
CN115359308A (zh) * 2022-04-06 2022-11-18 北京百度网讯科技有限公司 模型训练、难例识别方法、装置、设备、存储介质及程序
CN115631379A (zh) * 2022-10-27 2023-01-20 武汉市万睿数字运营有限公司 结合主动学习和噪声筛除的视频分析方法、装置及介质

Also Published As

Publication number Publication date
CN116468967A (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
WO2019034129A1 (zh) 神经网络结构的生成方法和装置、电子设备、存储介质
CN113436100B (zh) 用于修复视频的方法、装置、设备、介质和产品
CN116468967B (zh) 样本图像筛选方法、装置、电子设备及存储介质
CN114449343A (zh) 一种视频处理方法、装置、设备及存储介质
CN113657483A (zh) 模型训练方法、目标检测方法、装置、设备以及存储介质
EP4343616A1 (en) Image classification method, model training method, device, storage medium, and computer program
CN114882321A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN113705362A (zh) 图像检测模型的训练方法、装置、电子设备及存储介质
CN113627361B (zh) 人脸识别模型的训练方法、装置及计算机程序产品
CN112862017B (zh) 点云数据的标注方法、装置、设备和介质
CN115272705B (zh) 显著性物体检测模型的训练方法、装置以及设备
CN115273148B (zh) 行人重识别模型训练方法、装置、电子设备及存储介质
CN116935368A (zh) 深度学习模型训练方法、文本行检测方法、装置及设备
CN113642654B (zh) 图像特征的融合方法、装置、电子设备和存储介质
CN113554057B (zh) 图的分割方法、装置及电子设备
CN114445682A (zh) 训练模型的方法、装置、电子设备、存储介质及产品
CN113947195A (zh) 模型确定方法、装置、电子设备和存储器
CN113610856A (zh) 训练图像分割模型和图像分割的方法和装置
CN116468112B (zh) 目标检测模型的训练方法、装置、电子设备和存储介质
CN115456167B (zh) 轻量级模型训练方法、图像处理方法、装置及电子设备
CN116051935B (zh) 图像检测方法、深度学习模型的训练方法及装置
CN116933896B (zh) 一种超参数确定及语义转换方法、装置、设备及介质
CN114693950B (zh) 一种图像特征提取网络的训练方法、装置及电子设备
CN115496916B (zh) 图像识别模型的训练方法、图像识别方法以及相关装置
CN116468985B (zh) 模型训练方法、质量检测方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant