CN115272682A - 目标对象检测方法、目标检测模型的训练方法及电子设备 - Google Patents

目标对象检测方法、目标检测模型的训练方法及电子设备 Download PDF

Info

Publication number
CN115272682A
CN115272682A CN202210909210.7A CN202210909210A CN115272682A CN 115272682 A CN115272682 A CN 115272682A CN 202210909210 A CN202210909210 A CN 202210909210A CN 115272682 A CN115272682 A CN 115272682A
Authority
CN
China
Prior art keywords
target object
image
pixel point
target
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210909210.7A
Other languages
English (en)
Inventor
黄博
高磊
叶歆怡
张泉
周元剑
周健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hongji Information Technology Co Ltd
Original Assignee
Shanghai Hongji Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hongji Information Technology Co Ltd filed Critical Shanghai Hongji Information Technology Co Ltd
Priority to CN202210909210.7A priority Critical patent/CN115272682A/zh
Publication of CN115272682A publication Critical patent/CN115272682A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本申请提供一种目标对象检测方法、目标检测模型的训练方法及电子设备,该方案根据预设的目标检测模型确定待检测图像中各像素点的目标对象概率值和分类概率向量,然后基于各像素点的目标对象概率值和分类概率向量自动识别待检测图像中的目标对象,并可以自动识别目标对象所属的类别;另外,在上述方案中,基于各像素点的目标对象概率值和分类概率向量确定目标对象和目标对象所属的类别,将关注点聚焦在像素点上,不易受到其他因素的干扰,提升了检测结果的准确度。

Description

目标对象检测方法、目标检测模型的训练方法及电子设备
技术领域
本申请涉及计算机视觉技术领域,具体而言,涉及一种目标对象检测方法、目标检测模型的训练方法及电子设备。
背景技术
随着人工智能的迅速发展,机器人流程自动化(Robotic process automation,简称RPA)技术可以模拟用户行为,对图形界面进行操作,以减轻用户的负担。为准确模拟用户行为,需要对图形界面中的目标对象以及各目标对象的类别进行准确识别。目标对象是指图形界面中被标注框框选出的全部内容,如图1所示,“新闻”所在的标注框就是一个目标对象。因此,如何对图形界面中的目标对象进行自动检测,并自动识别各目标对象的类别成为当前亟待解决的技术问题。
发明内容
本申请实施例的目的在于提供一种目标对象检测方法、目标检测模型的训练方法及电子设备,以解决上述技术问题。
为实现上述目的,本申请提供的技术方案包括:
第一方面,提供一种目标对象检测方法,包括:
获取待检测图像;
根据预设的目标检测模型确定所述待检测图像中各像素点的目标对象概率值和分类概率向量;所述目标对象概率值表征所述像素点位于所述待检测图像中的目标对象内的概率;所述分类概率向量由至少2个分类概率值组成,每一所述分类概率值表征所述像素点所属的目标对象属于与所述分类概率值对应的类别的概率;
基于所述目标对象概率值确定所述目标对象在所述待检测图像中的位置区域;
根据所述位置区域中各所述像素点的所述分类概率向量,确定所述目标对象所属的类别。
通过上述方案,可以基于预设的目标检测模型的检测结果,自动识别待检测图像中的目标对象,并可以自动识别目标对象所属的类别;另外,在上述实施方式中,基于各像素点的目标对象概率值和分类概率向量确定目标对象和目标对象所属的类别,将关注点聚焦在像素点上,不易受到其他因素的干扰,检测结果准确度高。
结合第一方面,在一些可选的实施方式中,所述基于所述目标对象概率值确定所述目标对象在所述待检测图像中的位置区域,包括:
对各所述像素点的所述目标对象概率值进行二值化处理,得到二值化处理结果;
基于所述二值化处理结果对各所述像素点进行聚合处理,得到所述目标对象在所述待检测图像中的位置区域。
在上述实施方式中,将关注点聚焦在像素点上,可以将多样化的目标对象概率值转化成两种类别,更便于对各像素点进行聚合处理,提升了检测结果的准确度。
结合第一方面,在一些可选的实施方式中,所述对各所述像素点的所述目标对象概率值进行二值化处理,包括:
将各所述像素点的所述目标对象概率值与预设概率阈值进行比较;
当所述目标对象概率值大于或等于所述预设概率阈值时,将所述像素点的所述目标对象概率值重置为第一预设概率值;
当所述目标对象概率值小于所述预设概率阈值时,将所述像素点的所述目标对象概率值重置为第二预设概率值。
在上述实施方式中,将目标对象概率值与预设概率阈值进行比较,以实现对目标对象概率值的二分类,运算过程简便快捷,可以提升检测效率。
结合第一方面,在一些可选的实施方式中,所述基于所述二值化处理结果对各所述像素点进行聚合处理,得到所述目标对象在所述待检测图像中的位置区域,包括:
基于所述二值化处理结果确定与所述待检测图像对应的二值图像;
在所述二值图像中对各像素点进行联通聚合,得到目标像素区;
根据所述目标像素区确定所述目标对象在所述待检测图像中的位置区域。
在上述实施方式中,通过二值图像确定出目标像素区,然后根据目标像素区确定目标对象在待检测图像中的位置区域,相比于直接根据各像素点的目标对象概率值,在原始的待检测图像中进行像素点的聚合而言,由于二值图像中各像素点的取值只存在两种可能性,因此更便于进行像素点的联通聚合,得到的目标像素区准确度高,可以提升检测结果的准确度。
结合第一方面,在一些可选的实施方式中,所述根据所述位置区域中各所述像素点的所述分类概率向量,确定所述目标对象所属的类别,包括:
将所述位置区域中各所述像素点的所述分类概率向量相加,得到分类概率和向量;
将所述分类概率和向量中最大分量值所对应的类别,作为所述目标对象所属的类别。
在上述实施方式中,根据各像素点的分类概率向量确定目标对象所属的类别,将关注点聚焦在像素点上,综合考虑了目标对象中各像素点所属类别的情况,提升了类别识别的准确度。
第二方面,本申请还提供一种目标检测模型的训练方法,包括:
获取图像样本数据集;所述图像样本数据集包括多个样本图像的样本数据,每一所述样本数据包括对应样本图像中标注的各像素点的标签信息,以及各所述像素点所属的目标对象所对应类别的类别信息;各所述像素点的所述标签信息用于指示所述像素点是否位于所述样本图像的目标对象内;
基于所述图像样本数据集进行训练,得到目标检测模型。
通过上述训练方法,可以得到目标检测模型,以自动识别待检测图像中的目标对象和目标对象所属的类别。
结合第一方面,在一些可选的实施方式中,在所述基于所述图像样本数据集进行训练之前,所述方法包括:
根据所述样本图像中各所述像素点所属的所述目标对象的面积,确定各所述像素点的损失权重系数;
基于所述损失权重系数确定损失函数;
所述基于所述图像样本数据集进行训练,得到目标检测模型,包括:
基于所述图像样本数据集和所述损失函数进行训练,得到目标检测模型。
由于不同大小的目标对象对其内部像素点的敏感程度不同,在上述实施方式中,基于目标对象的面积确定损失权重系数,充分考虑了不同大小的目标对象对其内部像素点敏感度的差异,使训练出的目标检测模型更加稳定可靠。
结合第一方面,在一些可选的实施方式中,各所述像素点的损失权重系数为所述像素点所属的所述目标对象的面积的倒数。
在上述实施方式中,损失权重系数为目标对象的面积的倒数,这样,目标检测模型对小目标中像素点的损失会更加敏感,不容易错失小目标中像素点的损失,提升了目标检测模型的可靠性。
结合第一方面,在一些可选的实施方式中,所述目标检测模型包括第一目标检测子模型和第二目标检测子模型;所述基于所述损失权重系数确定损失函数包括:
基于所述损失权重系数确定第一损失函数和第二损失函数;
所述基于所述图像样本数据集和所述损失函数进行训练,得到目标检测模型,包括:
基于所述样本图像中标注的各所述像素点的标签信息和所述第一损失函数进行第一模型训练,得到所述第一目标检测子模型,并基于所述样本图像中标注的各像素点所属的目标对象所对应类别的类别信息和所述第二损失函数进行第二模型训练,得到所述第二目标检测子模型。
在上述实施方式中,分别基于两个损失函数进行训练,得到第一目标检测子模型和第二目标检测子模型,因此两个模型的训练过程互不影响,可以提升目标检测模型整体的可靠性。
结合第一方面,在一些可选的实施方式中,所述第一损失函数为:
Figure BDA0003773416330000051
所述第二损失函数为:
Figure BDA0003773416330000052
其中,L1i表示对所述样本图像中第i个像素点的标签信息进行预测的第一损失,L2i表示对所述样本图像中第i个像素点所属的目标对象所对应类别的类别信息进行预测的第二损失,Si表示所述样本图像中第i个像素点所属的目标对象的面积,n表示所述样本图像中像素点的总数,Loss1表示对所述样本图像的标签信息进行预测的整体损失,Loss2表示对所述样本图像中目标对象所属类别的类别信息进行预测的整体损失。
在上述实施方式中,针对样本图像中的每一像素点,根据其所属的目标对象的大小,赋予相应的损失权重系数,损失权重系数为目标对象的面积的倒数,这样,目标检测模型对小目标中像素点的损失会更加敏感,不容易错失小目标中像素点的损失,提升了目标检测模型的可靠性。
结合第一方面,在一些可选的实施方式中,所述基于所述损失权重系数确定损失函数包括:
基于所述损失权重系数确定一个第三损失函数;
所述基于所述图像样本数据集和所述损失函数进行训练,得到目标检测模型,包括:
基于所述样本图像中标注的各所述像素点的标签信息和所述第三损失函数进行第三模型训练,得到所述目标检测模型。
在上述实施方式中,基于一个第三损失函数进行训练,也即基于一个模型进行训练,简化了模型训练过程。
第三方面,本申请还提供一种电子设备,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,以实现上述任意一种方法。
第四方面,本申请还提供一种目标对象检测装置,包括:
获取模块,用于获取待检测图像;
第一确定模块,用于根据预设的目标检测模型确定所述待检测图像中各像素点的目标对象概率值和分类概率向量;所述目标对象概率值表征所述像素点位于所述待检测图像中的目标对象内的概率;所述分类概率向量由至少2个分类概率值组成,每一所述分类概率值表征所述像素点所属的目标对象属于与所述分类概率值对应的类别的概率;
第二确定模块,用于基于所述目标对象概率值确定所述目标对象在所述待检测图像中的位置区域;
第三确定模块,用于根据所述位置区域中各所述像素点的所述分类概率向量,确定所述目标对象所属的类别。
第五方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,以实现上述任意一种方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请提供的图形界面中目标对象的示意图;
图2为本申请提供的目标对象检测方法的流程示意图;
图3为本申请提供的目标检测模型的训练方法的流程示意图;
图4为本申请实施例提供的目标对象检测装置的结构示意图;
图5为本申请实施例提供的目标检测模型的训练装置的结构示意图;
图6为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明实施例中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
在本发明的描述中,需要理解的是,步骤前的数字标号并不表示执行步骤的前后顺序,仅用于方便描述本发明及区别每一步骤,因此不能理解为对本发明的限制。
下面,通过具体实施例对本申请的技术方案进行详细说明。
需要说明的是,下面的具体实施例可以互相结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
目标检测是经典的计算机视觉任务,深度学习是流行的目标检测方法,目前主要有两类。一种是基于目标位置的检测方法,另一种是基于目标像素的检测方法。这两种检测方法都需要将图像输入神经网络模型中进行计算,并输出一张特征图,随后进行不同的目标计算,得到图像中目标对象的位置和类别。
对于基于目标位置的检测方法,比如,Fast R-CNN、FCOS,在检测的过程中,需要针对特征图中的每一个像素点,预测一个或多个目标对象的位置和类别。当目标对象的长宽比分布较集中时,采用这类检测方法进行检测,得到的检测效果很好。但当目标对象的长宽比分布不均匀时,如目标对象为文本时,神经网络模型将因不知道应该关注图像多大的范围而失效。对于基于目标像素的检测方法,比如DBNeT,在检测的过程中,需要针对特征图中的每一个像素点,预测其属于前景还是背景,然后处理聚合相邻的像素点,得到目标对象的位置。这种方法主要针对文本问题,通过关注局部的像素信息而不受到长宽比变化的干扰。这种方法的局限性在于只能处理单类目标检测问题。
在图形界面中,可能存在多种类型的目标对象,包括但不限于图标类,文本类与图片类。本申请实施例提供一种目标对象检测方法,以实现图像中目标对象位置和类别的检测。具体的可以参见图1所示。该方法可以应用于电子设备,电子设备可以是手机、电脑、平板电脑等任意可以对图像进行检测的设备。本申请实施例提供的目标对象检测方法可以包括如下步骤:
S11:获取待检测图像。
S12:根据预设的目标检测模型确定待检测图像中各像素点的目标对象概率值和分类概率向量。
目标对象概率值表征像素点位于待检测图像中的目标对象内的概率;分类概率向量由至少2个分类概率值组成,每一分类概率值表征像素点所属的目标对象属于与该分类概率值对应的类别的概率。
S13:基于目标对象概率值确定目标对象在待检测图像中的位置区域。
S14:根据位置区域中各像素点的分类概率向量,确定目标对象所属的类别。
为便于理解,下面对上述步骤S11-S14进行详细的介绍。
需要说明的是,步骤S11中的待检测图像可以是任意具有显示内容的图像,包括但不限于是网页界面图像、应用程序界面图像。
步骤S12中预设的目标检测模型可以是经训练得到的模型。对此,本申请实施例还提供一种目标检测模型的训练方法。
示例性的,请参见图2所示,在步骤S12之前,可以通过如下步骤进行模型训练,得到目标检测模型:
S21:获取图像样本数据集;图像样本数据集包括多个样本图像的样本数据,每一样本数据包括对应样本图像中标注的各像素点的标签信息,以及各像素点所属的目标对象所对应类别的类别信息;各像素点的标签信息用于指示像素点是否位于样本图像的目标对象内。
S22:基于图像样本数据集进行训练,得到目标检测模型。
本申请实施例中,目标对象可以是图像中任一被标注框所框出的全部内容,比如,图1中“要闻”所在的标注框框出的全部内容就是一个目标对象。确定待检测图像中目标对象的位置区域,实质上就是确定待检测图像中标注框的位置。
开发人员可以针对每一样本图像确定其目标对象,目标对象的大小、形状可以由开发人员根据需要灵活设置,比如,图1中的目标对象是一个矩形。然后,开发人员可以针对样本图像中的每一像素点,判断其是否位于目标对象内,并打上相关标签,并针对每一目标对象标注其所属的类别。
目标对象所属的类别可以是“文本类别”、“图标类别”、或“图片类别”。可以理解的是,开发人员可以根据实际应用场景的需要,灵活设置各目标对象所属的类别。
各像素点的标签信息可以指示像素点是否位于样本图像的目标对象内。比如,当像素点的标签为“1”时,可以表示该像素点位于目标对象内,也即,表示该像素点属于前景图,表示该像素点位于目标对象内的概率为1。当该像素点的标签为“0”时,可以表示该像素点没有位于目标对象内,也即,表示该像素点不属于前景图,而是属于背景图,表示该像素点位于目标对象内的概率为0。
在本申请实施例中,可以标注每一像素点的分类概率向量,也即,可以通过分类概率向量来表征该像素点所属目标对象的类别。假设某一像素点所属的目标对象的类别是K,且全部目标对象具有c个类别,则该分类概率向量为c维向量,假设c维向量中第j个分量代表该像素点所属的目标对象是K的概率,则第j个分量的概率可以设置为1,其余分量的概率设置为0。
示例性的,在上述步骤S22之前,可以根据样本图像中各像素点所属的目标对象的面积,确定各像素点的损失权重系数,并基于损失权重系数确定损失函数。这样,在步骤S12中,就可以基于图像样本数据集和该损失函数进行训练,得到目标检测模型。
在一种可选的实施方式中,目标检测模型包括第一目标检测子模型和第二目标检测子模型,在训练时,可以采用不同的损失函数,分别对第一目标检测子模型和第二目标检测子模型进行训练。比如,可以基于样本图像中标注的各所述像素点的标签信息和第一损失函数进行第一模型训练,得到第一目标检测子模型,并基于样本图像中标注的各像素点所属的目标对象所对应类别的类别信息和第二损失函数进行第二模型训练,得到第二目标检测子模型。其中,第一损失函数表征对样本图像的标签信息进行预测的整体损失。第二损失函数表征对样本图像中目标对象所属类别的类别信息进行预测的整体损失。
应当说明的是,上述第一损失函数和第二损失函数可以是基于上述提及的损失权重系数确定的。
示例性的,上述第一损失函数可以为:
Figure BDA0003773416330000111
上述第二损失函数可以为:
Figure BDA0003773416330000112
其中,L1i表示对样本图像中第i个像素点的标签信息进行预测的第一损失,L2i表示对样本图像中第i个像素点所属的目标对象所对应类别的类别信息进行预测的第二损失,Si表示样本图像中第i个像素点所属的目标对象的面积,n表示样本图像中像素点的总数,Loss1表示对样本图像的标签信息进行预测的整体损失,Loss2表示对样本图像中目标对象所属类别的类别信息进行预测的整体损失。
上述第一损失函数和第二损失函数中采用的损失权重系数为目标对象的面积的倒数,也即为
Figure BDA0003773416330000113
这样,最终训练得到的目标检测模型对小目标中像素点的损失会更加敏感,不容易错失小目标中像素点的损失,提升了目标检测模型的可靠性。应当说明的是,在其他的实施例中,损失权重系数也可以为其他取值,只要每一像素点的损失权重系数与该像素点所属的目标对象的面积成反比即可。
可以理解的是,在进行上述第一模型训练时,需要确定样本图像中的各像素点是否位于目标对象内,所以实质是对样本图像的每个像素点进行二分类。在进行上述第二模型训练时,需要确定样本图像中的各像素点所属目标对象的类别,所以实质是对样本图像的每个像素点进行多分类。在进行这两次模型训练时,可以采用交叉熵函数对各像素点的标签信息进行预测,得到对应的第一损失,并采用交叉熵函数对各像素点所属的目标对象所对应类别的类别信息进行预测,得到对应的第二损失,当然,也可以基于现有的其他算法计算各像素点的第一损失和第二损失。应当说明的是,在进行上述第二模型训练时,可以只对目标对象内的像素点计算第二损失,并根据该第二损失和对应的损失权重系数计算对目标对象所属类别的类别信息进行预测的整体损失。
在另外一种可选的实施方式中,可以基于样本图像中标注的各像素点的标签信息,以及样本图像中标注的各像素点所属的目标对象所对应类别的类别信息和一个第三损失函数进行第三模型训练,得到目标检测模型。
本实施方式中是针对一个模型进行训练,也即,只采用了一个损失函数。本实施方式中的第三损失函数可以为根据上述损失权重系数、第一损失和第二损失确定的函数,比如,可以为:
Figure BDA0003773416330000121
a和b分别表示第一损失和第二损失的权重系数,a和b的取值可以由开发人员灵活设置,第三损失函数中其他参数的含义可以参见上文,这里不再赘述。
示例性的,在上述步骤S22中,可以基于深度学习,采用卷积神经网络模型作为基础模型进行训练。当训练满足预设条件时,比如,所有用于进行训练的样本图像迭代轮数达到预设轮数,比如2000轮,则停止训练。
在得到上述目标检测模型后,将待检测图像输入该目标检测模型,便可输出待检测图像中各像素点的目标对象概率值和分类概率向量。
每一像素点的目标对象概率值的取值可以是1或0,也可以是[0,1]的范围中的任意一个值。每一像素点的分类概率向量中的每一个分量表示一个分类概率值,表示该像素点所属的目标对象是该分类概率值所对应的类别的概率,一个分类概率向量中的所有分类概率值的和为1。
对于上述步骤S13,可以基于目标对象概率值对各像素点进行聚合处理,得到目标对象在待检测图像中的位置区域。
示例性的,当各像素点的目标对象概率值的取值范围为[0,1]时,可以对各像素点的目标对象概率值进行二值化处理,得到二值化处理结果,然后基于二值化处理结果对各像素点进行聚合处理。可以理解的是,当各像素点的目标对象概率值的取值仅有0或1这两种可能时,无需进行二值化处理,而是可以直接基于目标对象概率值对各像素点进行聚合处理。
下面对二值化处理过程进行介绍。
本申请实施例中,可以将各像素点的目标对象概率值与预设概率阈值进行比较,当目标对象概率值大于或等于预设概率阈值时,表示该像素点有很大可能性位于目标对象内,将该像素点的目标对象概率值重置为第一预设概率值,当目标对象概率值小于预设概率阈值时,表示该像素点有很大可能性位于目标对象外,将该像素点的目标对象概率值重置为第二预设概率值。预设概率阈值、第一预设概率值和第二预设概率值均可以由开发人员灵活设置,比如预设概率阈值可以设置为0.3,第一预设概率值可以为 1,第二预设概率值可以为0。
应当理解的是,在其他实施例中,也可以采用现有的其他方法对各像素点的目标对象概率值进行二值化处理,这里不再展开说明。
本申请实施例中,基于二值化处理结果对各像素点进行聚合处理,得到目标对象在待检测图像中的位置区域,包括以下子步骤:
子步骤一:基于二值化处理结果确定与待检测图像对应的二值图像。
子步骤二:在二值图像中对各像素点进行联通聚合,得到目标像素区。
子步骤三:根据目标像素区确定目标对象在待检测图像中的位置区域。
对于子步骤一,针对目标对象概率值重置为第一预设概率值的像素点,可以将第一预设像素值作为这些像素点对应的像素值,针对目标对象概率值重置为第二预设概率值的像素点,可以将第二预设像素值作为这些像素点对应的像素值,由此,可以得到与待检测图像对应的二值图像,二值图像中的各像素点的像素值为第一预设像素值和第二预设像素值中的一种。需要说明的是,第一预设像素值和第二预设像素值的具体大小可以由开发人员灵活设置。二值图像与待检测图像的大小一致,区别在于二值图像中的每一像素点只有两种可能的取值或两种灰度等级,比如,第一预设像素值可以为255,第二预设像素值可以为0。
对于子步骤二,可以采用3*3的卷积核,在二值图像上进行闭操作,连接可能的像素空洞,并对各像素点进行联通分量分析,获取连接的像素区,得到目标像素区。
对于子步骤三,二值图像与待检测图像大小一致,因此,二值图像中的每一个像素点A在待检测图像中都存在一个与该像素点A对应的像素点 B。像素点A相对二值图像的位置,与像素点B相对待检测图像的位置相同。在一种可选的实施方式中,可以将二值图像中的目标像素区映射在待检测图像中得到映射区域,然后直接将该映射区域作为目标对象在待检测图像中的位置区域。也即,可以根据目标像素区在二值图像中的位置区域C,从待检测图像中确定出与该位置区域C对应的映射区域D,位置区域C相对二值图像的位置,与映射区域D相对待检测图像的位置相同。
在另外一种可选的实施方式中,在将二值图像中的目标像素区映射在待检测图像中得到映射区域后,可以基于预设的区域确定规则,确定可将该映射区域完全覆盖的目标区域,将该目标区域作为目标对象在待检测图像中的位置区域,比如,可以取该映射区域的最小外接矩形,将该最小外接矩形作为该目标区域。
对于上述步骤S14,可以针对每一位置区域,将该位置区域中各像素点的分类概率向量相加,得到分类概率和向量,将分类概率和向量中最大分量值所对应的类别,作为对应的目标对象所属的类别。
比如,某一目标对象对应的位置区域中有100个像素点,每一像素点的分类概率向量有3个分量,也即,目标对象所属的类别具有3类,此时,可以将这100个像素点的分类概率向量相加,得到分类概率和向量,将分类概率和向量中最大分量值所对应的类别,作为该目标对象所属的类别。
在得到待检测图像中各目标对象的位置区域以及各目标对象所属的类别后,可以在待检测图像中对各目标对象进行标记,具体的,可以根据目标对象所属的类别,用不同颜色的标注框对目标对象进行标记,以对用户进行提示。标注框框注的位置区域也即是目标对象所在的位置区域。比如,针对“图标类别”的目标对象,可以用蓝色标注框框注,针对“文本类别”的目标对象,可以用绿色标注框框注,针对“图片类别”的目标对象,可以用红色标注框框注。
在检测得到目标对象所在的位置区域和所属的类别后,可以采用与各类别对应的识别或检索策略对各目标对象中的具体内容进行识别或检索。
本申请实施例还提供一种目标对象检测装置,请参见图4所示,包括第一获取模块401、第一确定模块402、第二确定模块403和第三确定模块 404。
其中,第一获取模块401用于获取待检测图像,第一确定模块402用于根据预设的目标检测模型确定待检测图像中各像素点的目标对象概率值和分类概率向量;目标对象概率值表征像素点位于待检测图像中的目标对象内的概率;分类概率向量由至少2个分类概率值组成,每一分类概率值表征像素点所属的目标对象、属于与分类概率值对应的类别的概率,第二确定模块403用于基于目标对象概率值确定目标对象在待检测图像中的位置区域,第三确定模块404用于根据位置区域中各像素点的分类概率向量,确定目标对象所属的类别。
本申请实施例还提供一种目标检测模型的训练装置,请参见图5所示,包括第二获取模块501和训练模块502。
其中,第二获取模块501用于获取图像样本数据集;图像样本数据集包括多个样本图像的样本数据,每一样本数据包括对应样本图像中标注的各像素点的标签信息,以及各像素点所属的目标对象所对应类别的类别信息;各像素点的标签信息用于指示像素点是否位于样本图像的目标对象内,训练模块502用于基于图像样本数据集进行训练,得到目标检测模型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置及模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
基于同一发明构思,本申请实施例还提供一种电子设备,请参见图6 所示,包括处理器601和存储器602,存储器602中存储有计算机程序,处理器601执行计算机程序,以实现上述任意一种方法。
应当说明的是,本申请实施例中的电子设备还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。
处理器601可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述处理器601可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。
存储器602包括但不限于随机存取存储器(RAM),只读存储器(ROM),可编程只读存储器(PROM),可擦除只读存储器(EPROM),电可擦除只读存储器(EEPROM)等。本申请实施例中,存储器存储了执行信道均衡方法所需要的程序。
处理器601和存储器602通过通信总线连接,总线可以是ISA总线、 PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
本实施例还提供一种目标对象检测装置,包括:
获取模块,用于获取待检测图像;
第一确定模块,用于根据预设的目标检测模型确定待检测图像中各像素点的目标对象概率值和分类概率向量;目标对象概率值表征像素点位于所述待检测图像中的目标对象内的概率;分类概率向量由至少2个分类概率值组成,每一分类概率值表征像素点所属的目标对象属于与该分类概率值对应的类别的概率;
第二确定模块,用于基于目标对象概率值确定目标对象在待检测图像中的位置区域;
第三确定模块,用于根据位置区域中各像素点的分类概率向量,确定目标对象所属的类别。
本实施例还提供一种计算机可读存储介质,如软盘、光盘、硬盘、闪存、U盘、安全数码(SD)卡、多媒体(MMC)卡等,在该计算机可读存储介质中存储有实现上述各个步骤的一个或者多个程序,这一个或者多个程序可被一个或者多个处理器执行,以实现上述各实施例中方法的各步骤,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种目标对象检测方法,其特征在于,包括:
获取待检测图像;
根据预设的目标检测模型确定所述待检测图像中各像素点的目标对象概率值和分类概率向量;所述目标对象概率值表征所述像素点位于所述待检测图像中的目标对象内的概率;所述分类概率向量由至少2个分类概率值组成,每一所述分类概率值表征所述像素点所属的目标对象属于与所述分类概率值对应的类别的概率;
基于所述目标对象概率值确定所述目标对象在所述待检测图像中的位置区域;
根据所述位置区域中各所述像素点的所述分类概率向量,确定所述目标对象所属的类别。
2.如权利要求1所述的目标对象检测方法,其特征在于,所述基于所述目标对象概率值确定所述目标对象在所述待检测图像中的位置区域,包括:
对各所述像素点的所述目标对象概率值进行二值化处理,得到二值化处理结果;
基于所述二值化处理结果对各所述像素点进行聚合处理,得到所述目标对象在所述待检测图像中的位置区域。
3.如权利要求2所述的目标对象检测方法,其特征在于,所述对各所述像素点的所述目标对象概率值进行二值化处理,包括:
将各所述像素点的所述目标对象概率值与预设概率阈值进行比较;
当所述目标对象概率值大于或等于所述预设概率阈值时,将所述像素点的所述目标对象概率值重置为第一预设概率值;
当所述目标对象概率值小于所述预设概率阈值时,将所述像素点的所述目标对象概率值重置为第二预设概率值。
4.如权利要求2所述的目标对象检测方法,其特征在于,所述基于所述二值化处理结果对各所述像素点进行聚合处理,得到所述目标对象在所述待检测图像中的位置区域,包括:
基于所述二值化处理结果确定与所述待检测图像对应的二值图像;
在所述二值图像中对各像素点进行联通聚合,得到目标像素区;
根据所述目标像素区确定所述目标对象在所述待检测图像中的位置区域。
5.如权利要求1-4任一项所述的目标对象检测方法,其特征在于,所述根据所述位置区域中各所述像素点的所述分类概率向量,确定所述目标对象所属的类别,包括:
将所述位置区域中各所述像素点的所述分类概率向量相加,得到分类概率和向量;
将所述分类概率和向量中最大分量值所对应的类别,作为所述目标对象所属的类别。
6.一种目标检测模型的训练方法,其特征在于,包括:
获取图像样本数据集;所述图像样本数据集包括多个样本图像的样本数据,每一所述样本数据包括对应样本图像中标注的各像素点的标签信息,以及各所述像素点所属的目标对象所对应类别的类别信息;各所述像素点的所述标签信息用于指示所述像素点是否位于所述样本图像的目标对象内;
基于所述图像样本数据集进行训练,得到目标检测模型。
7.如权利要求6所述的目标检测模型的训练方法,其特征在于,在所述基于所述图像样本数据集进行训练之前,所述方法包括:
根据所述样本图像中各所述像素点所属的所述目标对象的面积,确定各所述像素点的损失权重系数;
基于所述损失权重系数确定损失函数;
所述基于所述图像样本数据集进行训练,得到目标检测模型,包括:
基于所述图像样本数据集和所述损失函数进行训练,得到目标检测模型。
8.如权利要求7所述的目标检测模型的训练方法,其特征在于,各所述像素点的损失权重系数为所述像素点所属的所述目标对象的面积的倒数。
9.如权利要求7所述的目标检测模型的训练方法,其特征在于,所述目标检测模型包括第一目标检测子模型和第二目标检测子模型;所述基于所述损失权重系数确定损失函数包括:
基于所述损失权重系数确定第一损失函数和第二损失函数;
所述基于所述图像样本数据集和所述损失函数进行训练,得到目标检测模型,包括:
基于所述样本图像中标注的各所述像素点的标签信息和所述第一损失函数进行第一模型训练,得到所述第一目标检测子模型,并基于所述样本图像中标注的各像素点所属的目标对象所对应类别的类别信息和所述第二损失函数进行第二模型训练,得到所述第二目标检测子模型。
10.如权利要求9所述的目标检测模型的训练方法,其特征在于,所述第一损失函数为:
Figure FDA0003773416320000031
所述第二损失函数为:
Figure FDA0003773416320000032
其中,L1i表示对所述样本图像中第i个像素点的标签信息进行预测的第一损失,L2i表示对所述样本图像中第i个像素点所属的目标对象所对应类别的类别信息进行预测的第二损失,Si表示所述样本图像中第i个像素点所属的目标对象的面积,n表示所述样本图像中像素点的总数,Loss1表示对所述样本图像的标签信息进行预测的整体损失,Loss2表示对所述样本图像中目标对象所属类别的类别信息进行预测的整体损失。
11.如权利要求7所述的目标检测模型的训练方法,其特征在于,所述基于所述损失权重系数确定损失函数包括:
基于所述损失权重系数确定一个第三损失函数;
所述基于所述图像样本数据集和所述损失函数进行训练,得到目标检测模型,包括:
基于所述样本图像中标注的各所述像素点的标签信息和所述第三损失函数进行第三模型训练,得到所述目标检测模型。
12.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序,以实现如权利要求1-11中任一项所述的方法。
CN202210909210.7A 2022-07-29 2022-07-29 目标对象检测方法、目标检测模型的训练方法及电子设备 Pending CN115272682A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210909210.7A CN115272682A (zh) 2022-07-29 2022-07-29 目标对象检测方法、目标检测模型的训练方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210909210.7A CN115272682A (zh) 2022-07-29 2022-07-29 目标对象检测方法、目标检测模型的训练方法及电子设备

Publications (1)

Publication Number Publication Date
CN115272682A true CN115272682A (zh) 2022-11-01

Family

ID=83746279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210909210.7A Pending CN115272682A (zh) 2022-07-29 2022-07-29 目标对象检测方法、目标检测模型的训练方法及电子设备

Country Status (1)

Country Link
CN (1) CN115272682A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115630289A (zh) * 2022-12-21 2023-01-20 白杨时代(北京)科技有限公司 一种基于证据理论的目标识别方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679490A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 用于检测图像质量的方法和装置
CN110705633A (zh) * 2019-09-27 2020-01-17 北京猎户星空科技有限公司 目标物检测、目标物检测模型的建立方法及装置
CN111259853A (zh) * 2020-02-04 2020-06-09 中国科学院计算技术研究所 一种高分辨率遥感图像变化检测方法、系统及装置
CN111709420A (zh) * 2020-06-18 2020-09-25 北京易真学思教育科技有限公司 文本检测方法、电子设备及计算机可读介质
CN111753839A (zh) * 2020-05-18 2020-10-09 北京捷通华声科技股份有限公司 一种文本检测方法和装置
CN112101347A (zh) * 2020-08-27 2020-12-18 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及计算机存储介质
CN112819008A (zh) * 2021-01-11 2021-05-18 腾讯科技(深圳)有限公司 实例检测网络的优化方法、装置、介质及电子设备
CN113468979A (zh) * 2021-06-10 2021-10-01 汉王科技股份有限公司 文本行语种识别方法、装置、电子设备
CN114170642A (zh) * 2020-09-09 2022-03-11 成都鼎桥通信技术有限公司 图像检测的处理方法、装置、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679490A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 用于检测图像质量的方法和装置
CN110705633A (zh) * 2019-09-27 2020-01-17 北京猎户星空科技有限公司 目标物检测、目标物检测模型的建立方法及装置
CN111259853A (zh) * 2020-02-04 2020-06-09 中国科学院计算技术研究所 一种高分辨率遥感图像变化检测方法、系统及装置
CN111753839A (zh) * 2020-05-18 2020-10-09 北京捷通华声科技股份有限公司 一种文本检测方法和装置
CN111709420A (zh) * 2020-06-18 2020-09-25 北京易真学思教育科技有限公司 文本检测方法、电子设备及计算机可读介质
CN112101347A (zh) * 2020-08-27 2020-12-18 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及计算机存储介质
CN114170642A (zh) * 2020-09-09 2022-03-11 成都鼎桥通信技术有限公司 图像检测的处理方法、装置、设备及存储介质
CN112819008A (zh) * 2021-01-11 2021-05-18 腾讯科技(深圳)有限公司 实例检测网络的优化方法、装置、介质及电子设备
CN113468979A (zh) * 2021-06-10 2021-10-01 汉王科技股份有限公司 文本行语种识别方法、装置、电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115630289A (zh) * 2022-12-21 2023-01-20 白杨时代(北京)科技有限公司 一种基于证据理论的目标识别方法及装置
CN115630289B (zh) * 2022-12-21 2023-09-26 白杨时代(北京)科技有限公司 一种基于证据理论的目标识别方法及装置

Similar Documents

Publication Publication Date Title
KR20210110823A (ko) 이미지 인식 방법, 인식 모델의 트레이닝 방법 및 관련 장치, 기기
CN109670383B (zh) 视频遮蔽区域选取方法、装置、电子设备及系统
CN110245714B (zh) 图像识别方法、装置及电子设备
CN108734684B (zh) 动态照明场景的图像背景减除
CN112580668B (zh) 一种背景欺诈检测方法、装置及电子设备
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN112765386A (zh) 基于大数据和互联网的信息管理方法、系统及云服务器
CN112949459A (zh) 吸烟图像的识别方法及装置、存储介质、电子设备
CN113034514A (zh) 天空区域分割方法、装置、计算机设备和存储介质
CN115272682A (zh) 目标对象检测方法、目标检测模型的训练方法及电子设备
CN113129298B (zh) 文本图像的清晰度识别方法
CN114299030A (zh) 物体检测模型处理方法、装置、设备及存储介质
CN114091551A (zh) 色情图像识别方法、装置、电子设备及存储介质
CN113902944A (zh) 模型的训练及场景识别方法、装置、设备及介质
CN112287905A (zh) 车辆损伤识别方法、装置、设备及存储介质
CN113158773A (zh) 一种活体检测模型的训练方法及训练装置
CN116363538B (zh) 一种基于无人机的桥梁检测方法及系统
CN115223022B (zh) 一种图像处理方法、装置、存储介质及设备
CN111507420A (zh) 轮胎信息获取方法、装置、计算机设备和存储介质
CN113255766B (zh) 一种图像分类方法、装置、设备和存储介质
CN112784691B (zh) 一种目标检测模型训练方法、目标检测方法和装置
CN111597966B (zh) 一种表情图像识别方法、装置及系统
CN115018783A (zh) 一种视频水印检测方法和装置、电子设备和存储介质
CN113392455A (zh) 基于深度学习的户型图比例尺检测方法、装置及电子设备
CN114049578A (zh) 一种敏感图片的识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination