CN113591839B - 一种特征提取模型构建方法、目标检测方法及其设备 - Google Patents

一种特征提取模型构建方法、目标检测方法及其设备 Download PDF

Info

Publication number
CN113591839B
CN113591839B CN202110723063.XA CN202110723063A CN113591839B CN 113591839 B CN113591839 B CN 113591839B CN 202110723063 A CN202110723063 A CN 202110723063A CN 113591839 B CN113591839 B CN 113591839B
Authority
CN
China
Prior art keywords
sample
image
detected
model
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110723063.XA
Other languages
English (en)
Other versions
CN113591839A (zh
Inventor
江毅
孙培泽
杨朔
袁泽寰
王长虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202110723063.XA priority Critical patent/CN113591839B/zh
Publication of CN113591839A publication Critical patent/CN113591839A/zh
Priority to PCT/CN2022/089230 priority patent/WO2023273572A1/zh
Application granted granted Critical
Publication of CN113591839B publication Critical patent/CN113591839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本申请公开了一种特征提取模型构建方法、目标检测方法及其设备,先利用样本二元组和该样本二元组的实际信息相似度构建特征提取模型,以使构建好的特征提取模型具有较好的特征提取性能;再利用构建好的特征提取模型针对待检测图像和待检测物体文本标识进行特征提取,得到并输出该待检测图像的提取特征和该待检测物体文本标识的提取特征;最后,依据该待检测图像的提取特征与该待检测物体文本标识的提取特征之间的相似度,确定该待检测图像对应的目标检测结果,以使该目标检测结果能够准确地表示出该待检测图像与该待检测物体文本标识之间的关联关系(如,该待检测图像中是否存在由待检测物体文本标识唯一标识的目标物体等),如此有利于提高目标检测准确性。

Description

一种特征提取模型构建方法、目标检测方法及其设备
技术领域
本申请涉及图像处理技术领域,尤其涉及一种特征提取模型构建方法、目标检测方法及其设备。
背景技术
目标检测(也称,目标提取)是一种基于目标几何统计及特征的图像分割技术;而且目标检测的应用领域十分广泛(如,目标检测可以应用于机器人或者自动驾驶等领域)。
然而,因现有的目标检测技术依旧存在一些缺陷,使得如何提高目标检测准确性仍是一个亟待解决的技术问题。
发明内容
为了解决现有技术中存在的以上技术问题,本申请提供一种特征提取模型构建方法、目标检测方法及其设备,能够提高目标检测准确性。
为了实现上述目的,本申请实施例提供的技术方案如下:
本申请实施例提供一种特征提取模型构建方法,所述方法包括:
获取样本二元组和所述样本二元组的实际信息相似度;其中,所述样本二元组包括样本图像和样本物体文本标识;所述样本二元组的实际信息相似度用于描述所述样本图像实际携带的信息和所述样本物体文本标识实际携带的信息之间的相似程度;
将所述样本二元组输入待训练模型,得到所述待训练模型输出的所述样本二元组的提取特征;其中,所述样本二元组的提取特征包括所述样本图像的提取特征和所述样本物体文本标识的提取特征;
将所述样本图像的提取特征与所述样本物体文本标识的提取特征之间的相似度,确定为所述样本二元组的预测信息相似度;
根据所述样本二元组的实际信息相似度与所述样本二元组的预测信息相似度,更新所述待训练模型,并继续执行所述将所述样本二元组输入待训练模型的步骤,直至在达到预设停止条件时,根据所述待训练模型,确定特征提取模型。
在一种可能的实施方式中,所述待训练模型包括文本特征提取子模型和图像特征提取子模型;
所述样本二元组的提取特征的确定过程,包括:
将所述样本图像输入所述图像特征提取子模型,得到所述图像特征提取子模型输出的所述样本图像的提取特征;
将所述样本物体文本标识输入所述文本特征提取子模型,得到所述文本特征提取子模型输出的所述样本物体文本标识的提取特征。
在一种可能的实施方式中,在所述将所述样本二元组输入待训练模型之前,所述方法还包括:
利用预设先验知识,对所述文本特征提取子模型进行初始化处理,以使初始化处理后的文本特征提取子模型针对任意两个物体输出的文本特征之间的相似度与所述两个物体之间的关联度呈正相关;其中,所述预设先验知识用于描述不同物体之间的关联度。
在一种可能的实施方式中,若所述样本图像的提取特征包括所述样本图像的特征图,则所述所述样本图像的提取特征与所述样本物体文本标识的提取特征之间的相似度的确定过程,包括:
分别确定所述样本图像的特征图中各个像素级提取特征与所述样本物体文本标识的提取特征之间的相似度;
根据所述样本图像的特征图中各个像素级提取特征与所述样本物体文本标识的提取特征之间的相似度,确定所述样本图像的提取特征与所述样本物体文本标识的提取特征之间的相似度。
在一种可能的实施方式中,所述样本二元组的实际信息相似度的确定过程,包括:
若所述样本物体文本标识用于唯一标识样本物体,且所述样本图像包括所述样本物体,则根据所述样本物体在所述样本图像中的实际位置,确定所述样本二元组的实际信息相似度。
本申请实施例还提供了一种目标检测方法,所述方法包括:
获取待检测图像和待检测物体文本标识;
将所述待检测图像和待检测物体文本标识输入预先构建的特征提取模型,得到所述特征提取模型输出的所述待检测图像的提取特征和所述待检测物体文本标识的提取特征;其中,所述特征提取模型是利用本申请实施例提供的特征提取模型构建方法的任一实施方式进行构建的;
根据所述待检测图像的提取特征与所述待检测物体文本标识的提取特征之间的相似度,确定所述待检测图像对应的目标检测结果。
本申请实施例还提供了一种特征提取模型构建装置,包括:
样本获取单元,用于获取样本二元组和所述样本二元组的实际信息相似度;其中,所述样本二元组包括样本图像和样本物体文本标识;所述样本二元组的实际信息相似度用于描述所述样本图像实际携带的信息和所述样本物体文本标识实际携带的信息之间的相似程度;
特征预测单元,用于将所述样本二元组输入待训练模型,得到所述待训练模型输出的所述样本二元组的提取特征;其中,所述样本二元组的提取特征包括所述样本图像的提取特征和所述样本物体文本标识的提取特征;
模型更新单元,用于根据所述样本二元组的实际信息相似度、以及所述样本图像的提取特征与所述样本物体文本标识的提取特征之间的相似度,更新所述待训练模型,并继续执行所述将所述样本二元组输入待训练模型的步骤,直至在达到预设停止条件时,根据所述待训练模型,确定特征提取模型。
本申请实施例还提供了一种目标检测装置,包括:
信息获取单元,用于获取待检测图像和待检测物体文本标识;
特征提取单元,用于将所述待检测图像和待检测物体文本标识输入预先构建的特征提取模型,得到所述特征提取模型输出的所述待检测图像的提取特征和所述待检测物体文本标识的提取特征;其中,所述特征提取模型是利用本申请实施例提供的特征提取模型构建方法的任一实施方式进行构建的;
结果确定单元,用于根据所述待检测图像的提取特征与所述待检测物体文本标识的提取特征之间的相似度程度,确定所述待检测图像对应的目标检测结果。
本申请实施例还提供了一种设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行本申请实施例提供的特征提取模型构建方法的任一实施方式,或者执行本申请实施例提供的目标检测方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的特征提取模型构建方法的任一实施方式,或者执行本申请实施例提供的目标检测方法的任一实施方式。
本申请实施例还提供了一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的特征提取模型构建方法的任一实施方式,或者执行本申请实施例提供的目标检测方法的任一实施方式。
与现有技术相比,本申请实施例至少具有以下优点:
本申请实施例提供的技术方案中,先利用样本二元组和该样本二元组的实际信息相似度构建特征提取模型,以使构建好的特征提取模型具有较好的特征提取性能;再利用构建好的特征提取模型针对待检测图像和待检测物体文本标识进行特征提取,得到并输出该待检测图像的提取特征和该待检测物体文本标识的提取特征;最后,依据该待检测图像的提取特征与该待检测物体文本标识的提取特征之间的相似度,确定该待检测图像对应的目标检测结果。
其中,因待检测图像的提取特征与该待检测物体文本标识的提取特征之间的相似度能够准确地表示出该待检测图像携带的信息与该待检测物体文本标识携带的信息之间的相似程度,使得基于该相似度确定的该待检测图像对应的目标检测结果能够准确地表示出该待检测图像与该待检测物体文本标识之间的关联关系(如,该待检测图像中是否存在由待检测物体文本标识唯一标识的目标物体,以及该目标物体在该待检测图像中的位置等),如此有利于提高目标检测准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种特征提取模型构建方法的流程图;
图2为本申请实施例提供的第n个样本二元组的示意图;
图3为本申请实施例提供的一种包括多个物体的样本图像的示意图;
图4为本申请实施例提供的待训练模型的结构示意图;
图5为本申请实施例提供的不同物体之间的关联关系示意图;
图6为本申请实施例提供的一种目标检测方法的流程图;
图7为本申请实施例提供的一种特征提取模型构建装置的结构示意图;
图8为本申请实施例提供的一种目标检测装置的结构示意图。
具体实施方式
发明人在针对目标检测的研究中发现,若一个图像中存在目标物体(如,猫),则该图像携带的信息应该和该目标物体的物体文本标识携带的信息应该类似(例如,目标物体在该图像中所处区域内各个像素点携带的信息应该与该目标物体的物体文本标识携带的信息相同)。
基于上述发现,本申请实施例提供了一种特征提取模型构建方法,该方法包括:获取样本二元组和该样本二元组的实际信息相似度,以使该样本二元组包括样本图像和样本物体文本标识,以及该样本二元组的实际信息相似度用于描述该样本图像实际携带的信息和该样本物体文本标识实际携带的信息之间的相似程度;将该样本二元组输入待训练模型,得到该待训练模型输出的该样本二元组的提取特征;其中,该样本二元组的提取特征包括该样本图像的提取特征和该样本物体文本标识的提取特征;根据该样本二元组的实际信息相似度、以及该样本图像的提取特征与该样本物体文本标识的提取特征之间的相似度,更新该待训练模型,并继续执行该将该样本二元组输入待训练模型的步骤,直至在达到预设停止条件时,根据该待训练模型,确定特征提取模型。
可见,因由训练好的待训练模型针对该样本二元组输出的样本图像的提取特征与样本物体文本标识的提取特征分别能够准确地表示出该样本图像携带的信息以及该样本物体文本标识携带的信息,使得该样本图像的提取特征与该样本物体文本标识的提取特征之间的相似度几乎接近于该样本二元组的实际信息相似度,从而使得训练好的待训练模型具有较好的特征提取性能,进而使得基于该训练好的待训练模型构建的特征提取模型也具有较好的特征提取性能,如此使得后续能够基于该构建好的特征提取模型进行更准确地目标检测过程,有利于提高目标检测准确性。
另外,本申请实施例不限定特征提取模型构建方法的执行主体,例如,本申请实施例提供的特征提取模型构建方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解本申请的技术方案,下面先介绍特征提取模型构建方法(也就是,特征提取模型的构建过程)的相关内容,再介绍目标检测方法(也就是,特征提取模型的应用过程)的相关内容。
方法实施例一
参见图1,该图为本申请实施例提供的一种特征提取模型构建方法的流程图。
本申请实施例提供的特征提取模型构建方法,包括S101-S106:
S101:获取样本二元组和该样本二元组的实际信息相似度。
样本二元组是指在待训练模型的训练过程中需要输入该待训练模型的模型输入数据;而且该样本二元组包括样本图像和样本物体文本标识。其中,样本图像是指需要进行目标检测处理的图像。样本物体文本标识用于唯一标识样本物体。
需要说明的是,本申请实施例不限定样本物体文本标识,例如,样本物体文本标识可以是物体类别名称(如,猫)。
另外,本申请实施例不限定样本二元组的个数,例如,样本二元组的个数可以是N。其中,N为正整数。也就是,可以利用N个样本二元组对待训练模型进行训练。
此外,本申请实施例也不限定样本二元组的样本类型,例如,当第n个样本二元组包括第n个样本图像和第n个样本物体文本标识,且该第n个样本物体文本标识用于唯一标识第n个样本物体时,若该第n个样本图像中存在该第n个样本物体,则可以确定该第n个样本二元组属于正样本;若该第n个样本图像中不存在该第n个样本物体,则可以确定该第n个样本二元组属于负样本。
样本二元组的实际信息相似度用于描述样本图像实际携带的信息和样本物体文本标识实际携带的信息之间的相似程度,以使该样本二元组的实际信息相似度能够准确地表示出该样本图像与该样本物体文本标识之间的关联关系;其具体可以包括:当该样本物体文本标识用于唯一标识样本物体时,若该样本二元组的实际信息相似度越大,则表示该样本图像中存在该样本物体的可能性越大;若该样本二元组的实际信息相似度越小,则表示该样本图像中存在该样本物体的可能性越小。
理论上,对于第n个样本二元组(如图2所示)来说,若第n个样本图像中存在第n个样本物体,则该第n个样本图像实际携带的信息应该尽可能地接近于第n个样本物体文本标识实际携带的信息(例如,该第n个样本物体在该第n个样本图像中所处区域内各个像素点实际携带的信息应该与该第n个样本物体文本标识实际携带的信息保持相同)。
基于上述理论,本申请实施例提供了一种样本二元组的实际信息相似度的获取过程,其具体可以包括:若样本物体文本标识用于唯一标识样本物体,且样本图像包括该样本物体,则根据该样本物体在该样本图像中的实际位置,确定该样本二元组的实际信息相似度。
另外,本申请实施例不限定样本二元组的实际信息相似度的确定过程,例如,在一种可能的实施方式下,其具体可以包括:先根据样本物体在样本图像中的实际位置,确定该样本物体的图像区域,以使该样本物体的图像区域能够表示出该样本物体在样本图像中所占区域;再将该样本物体的图像区域内各个像素点对应的实际信息相似度均确定为第一预设相似度值(例如,1),并将该样本图像中除了该样本物体的图像区域以外的各个像素点对应的实际信息相似度均确定为第二预设相似度值(例如,0)。
为了便于理解,下面结合示例进行说明。
作为示例,若第n个样本二元组包括第n个样本图像和第n个样本物体文本标识,且该第n个样本图像为h×w×3维的图像,则该第n个样本二元组的实际信息相似度可以是依据公式(1)-(2)确定的h×w维的矩阵
Figure BDA0003137114340000081
Figure BDA0003137114340000082
Figure BDA0003137114340000083
式中,
Figure BDA0003137114340000084
表示第n个样本二元组的实际信息相似度;
Figure BDA0003137114340000085
表示第n个样本图像中第i行第j列像素点在该第n个样本图像内所处位置,i为正整数,i≤h,h为正整数,j为正整数,j≤w,w为正整数;Zn表示第n个样本物体在该第n个样本图像内所处区域;
Figure BDA0003137114340000086
表示第n个样本图像中第i行第j列像素点实际携带的信息与第n个样本物体文本标识实际携带的信息之间的相似度,而且若
Figure BDA0003137114340000087
则表示第n个样本物体在该第n个样本图像内所处区域包括该第n个样本图像中第i行第j列像素点,故可以确定第n个样本图像中第i行第j列像素点实际携带的信息与该第n个样本物体文本标识实际携带的信息是相同的,则该aij=1;若
Figure BDA0003137114340000088
则表示第n个样本物体在该第n个样本图像内所处区域不包括该第n个样本图像中第i行第j列像素点,故可以确定第n个样本图像中第i行第j列像素点实际携带的信息与该第n个样本物体文本标识实际携带的信息是不同的,则该aij=0。
基于上述公式(1)和(2)的相关内容可知,对于图2所示的第n个样本二元组来说,可以根据第n个样本物体在第n个样本图像中的位置(也就是,猫的位置),确定该第n个样本二元组的实际信息相似度;而且,该确定过程具体可以包括:当第n个样本二元组的实际信息相似度包括该第n个样本图像中各个像素点对应的实际信息相似度时,若该第n个样本图像中第i行第j列像素点位于该第n个样本物体在该第n个样本图像内所处区域范围内(如图2所示的物体边界框以内),则可以确定第n个样本图像中第i行第j列像素点对应的实际信息相似度为1;若该第n个样本图像中第i行第j列像素点位于该第n个样本物体在该第n个样本图像内所处区域范围以外(如图2所示的物体边界框以外),则可以确定第n个样本图像中第i行第j列像素点对应的实际信息相似度为0。
另外,当第n个样本二元组包括第n个样本图像和第n个样本物体文本标识,第n个样本图像(如图3所示图像)中存在Q(如,3)个物体,且第n个样本物体文本标识用于唯一标识该第n个样本图像中第q个物体(如图3中狗、人或者马)时,则该第n个样本二元组的实际信息相似度可以根据第q个物体在该第n个样本图像中所占区域进行确定,其具体为:将第q个物体在该第n个样本图像中所占区域内各个像素点对应的实际信息相似度均确定为第一预设相似度值(例如,1),并将该第q个物体在该第n个样本图像中所占区域以外的各个像素点对应的实际信息相似度均确定为第二预设相似度值(例如,0)。其中,q为正整数,q≤Q。
也就是,若想利用第n个样本图像和该第n个样本图像中第q个物体针对下文“待训练模型”进行训练,则需要根据该第n个样本图像和该第n个样本图像中第q个物体的物体文本标识构建一个样本二元组,并利用该第q个物体在该第n个样本图像中所占区域确定该样本二元组的实际信息相似度。
需要说明的是,图3中“dog”是指狗的物体文本标识;“person”是指人的物体文本标识;“horse”是指马的物体文本标识。
基于上述S101的相关内容可知,在获取到样本图像以及样本物体文本标识之后,可以根据该样本图像与该样本物体文本标识之间的关联关系(如,该样本图像中是否存在由该样本物体文本标识唯一标识的样本物体,以及该样本物体在该样本图像中所处位置),确定该样本图像实际携带的信息与该样本物体文本标识实际携带的信息之间的相似程度,以便后续能够在待训练模型的训练过程中以样本图像实际携带的信息与该样本物体文本标识实际携带的信息之间的相似程度作为学习目标。
S102:将样本二元组输入待训练模型,得到该待训练模型输出的该样本二元组的提取特征。
其中,样本二元组的提取特征用于表示该样本二元组携带的信息;而且该样本二元组的提取特征包括样本图像的提取特征和样本物体文本标识的提取特征。
样本图像的提取特征用于表示该样本图像预测携带的信息。另外,本申请实施例不限定样本图像的提取特征的表示方式,例如,若一个样本图像为h×w×3维,则该样本图像的提取特征可以利用h×w×c维的特征图进行表示。
样本物体文本标识的提取特征用于表示该样本物体文本标识预测携带的信息。另外,本申请实施例不限定样本物体文本标识的提取特征的表示方式,例如,一个样本物体文本标识的提取特征可以利用1×c维的特征向量进行表示。
待训练模型用于针对该待训练模型的输入数据进行特征提取(如,针对文本数据进行文本特征提取,和/或,针对图像数据进行图像特征提取)。另外,本申请实施例不限定待训练模型的结构,例如,在一种可能的实施方式中,如图4所示,该待训练模型400可以包括文本特征提取子模型401和图像特征提取子模型402。
为了便于理解待训练模型400的工作原理,下面结合样本二元组的提取特征的确定过程为例进行说明。
作为示例,利用待训练模型400确定样本二元组的提取特征的过程,具体可以包括步骤11-步骤12:
步骤11:将样本图像输入图像特征提取子模型402,得到该图像特征提取子模型402输出的该样本图像的提取特征。
其中,图像特征提取子模型402用于进行图像特征提取;而且,本申请实施例不限定图像特征提取子模型402的实施方式,可以采用现有的或者未来出现的任一种具有图像特征提取功能的模型结构进行实施。
步骤12:将样本物体文本标识输入文本特征提取子模型401,得到该文本特征提取子模型401输出的该样本物体文本标识的提取特征。
其中,文本特征提取子模型401用于进行文本特征提取;而且,本申请实施例不限定文本特征提取子模型401的实施方式,可以采用现有的或者未来出现的任一种具有文本特征提取功能的模型结构(如,Bert、GPT-3等语言模型)进行实施。
基于上述步骤11至步骤12的相关内容可知,对于待训练模型400来说,在将样本二元组输入该待训练模型400之后,可以由该待训练模型400中图像特征提取子模型402针对该样本二元组中样本图像进行图像特征提取,得到并输出该样本图像的提取特征,以使该样本图像的提取特征能够表示出该样本图像预测携带的信息;并且,由该待训练模型400中文本特征提取子模型401针对该样本二元组中样本物体文本标识进行文本特征提取,得到并输出该样本物体文本标识的提取特征,以使该样本物体文本标识的提取特征能够表示出该样本物体文本标识预测携带的信息。
另外,为了进一步提高待训练模型400的特征提取性能,在对待训练模型400进行训练之前,可以先利用一些先验知识对该待训练模型400中文本特征提取子模型401进行初始化,以使文本特征提取子模型401后续能够基于这些先验知识进行文本特征提取。基于此,本申请实施例还提供了特征提取模型构建方法的一种可能的实施方式,在该实施方式中,该特征提取模型构建方法除了包括S101-S106以外,该方法还包括S107:
S107:利用预设先验知识,对文本特征提取子模型401进行初始化处理。
其中,预设先验知识用于描述不同物体之间的关联度(例如,如图5所示,猫与老虎同属猫科动物,使得猫与老虎之间的关联度较高;又如,狮子与母狮子都是狮子,使得狮子与母狮子之间的关联度更高)。
需要说明的是,若两个物体之间的关联度为1,则表示该两个物体属于同一类物体;若两个物体之间的关联度为0,则表示该两个物体之间完全不存在相似点(也就是,该两个物体之间不存在关联关系)。
另外,本申请实施例不限定预设先验知识,例如,该预设先验知识可以包括预先构建的物体知识图谱。其中,物体知识图谱可以用于描述不同物体之间的关联度;而且该物体知识图谱可以预先根据大量与物体相关的知识信息进行构建。
此外,本申请实施例不限定S107中“初始化处理”的实施方式,例如,S107中“初始化处理”可以是指预训练。也就是,利用预设先验知识,对文本特征提取子模型401进行预训练,以使训练好的文本特征提取子模型401能够依据预设先验知识进行特征提取,从而使得初始化处理后的文本特征提取子模型401针对任意两个物体(尤其是针对该两个物体的物体标识)输出的文本特征之间的相似度与该两个物体之间的关联度呈正相关。
也就是,对于“初始化后的文本特征提取子模型401”来说,若在预设先验知识中表示第一物体与第二物体之间的关联度越高,则由“初始化后的文本特征提取子模型401”针对第一物体(如猫)与第二物体(如狮子)分别输出的文本特征(如图5中“v5”和“v3”)之间的相似度越高;若在预设先验知识中表示第一物体与第二物体之间的关联度越低,则由“初始化后的文本特征提取子模型401”针对第一物体与第二物体分别输出的文本特征之间的相似度越低。
需要说明的是,图5中“v1”表示由“初始化后的文本特征提取子模型401”针对老虎输出的文本特征;“v2”表示由“初始化后的文本特征提取子模型401”针对豹输出的文本特征;……(以此类推);“v6”表示由“初始化后的文本特征提取子模型401”针对猞猁输出的文本特征。
还需要说明的是,本申请实施例不限定S107的执行时间,只需在执行S102之前完成执行即可(也就是,S107只需在对待训练模型进行训练之前完成即可)。
基于上述S107的相关内容可知,在利用样本二元组以及该样本二元组的实际信息相似度对待训练模型400进行训练之前,可以先利用预设先验知识,对该待训练模型400中文本特征提取子模型401进行预训练,以使该待训练模型400中文本特征提取子模型401能够学习到依据预设先验知识进行特征提取,从而使得在待训练模型400的训练过程中继续优化该文本特征提取子模型401的文本特征提取性能,从而使得训练好的待训练模型400中文本特征提取子模型401能够更好地依据预设先验知识进行特征提取,如此有利于提高待训练模型400的特征提取性能,从而有利于提高基于该待训练模型400构建的特征提取模型的特征提取性能,进而有利于提高利用该特征提取模型进行目标检测时的目标检测性能。
基于上述S102的相关内容可知,在获取到第n个样本二元组之后,可以将第n个样本二元组输入待训练模型,以使该待训练模型针对该第n个样本二元组中第n个样本图像和第n个样本物体文本标识分别进行特征提取,得到并输出该第n个样本图像的提取特征和该第n个样本物体文本标识的提取特征(也就是,第n个样本二元组的提取特征),以使该样本图像的提取特征以及该第n个样本物体文本标识的提取特征能够分别表示出该样本图像预测携带的信息以及该样本物体文本标识预测携带的信息,以便后续能够基于该第n个样本图像的提取特征和该第n个样本物体文本标识的提取特征,确定该待训练模型的特征提取性能。其中,n为正整数,n≤N,N为正整数,N表示样本二元组的个数。
S103:计算样本图像的提取特征与样本物体文本标识的提取特征之间的相似度,作为样本二元组的预测信息相似度。
其中,样本二元组的预测信息相似度是指样本图像的提取特征与样本物体文本标识的提取特征之间的相似度,以使该样本二元组的预测信息相似度用于描述样本图像预测携带的信息和该样本物体文本标识预测携带的信息之间的相似程度。
另外,本申请实施例不限定样本二元组的预测信息相似度的确定方式(也就是,S103的实施方式),例如,在一种可能的实施方式中,若样本图像的提取特征包括该样本图像的特征图,则S103具体可以包括S1031-S1032:
S1031:分别确定样本图像的特征图中各个像素级提取特征与样本物体文本标识的提取特征之间的相似度。
其中,样本图像的特征图用于表示该样本图像携带的信息;而且,本申请实施例不限定样本图像的特征图,例如,若一个样本图像为h×w×3维,且样本物体文本标识的提取特征为1×c维,则该样本图像的特征图可以为h×w×c维。其中,h为正整数,w为正整数,c为正整数。
另外,本申请实施例不限定样本图像的特征图的表示方式,例如,若样本图像的特征图为h×w×c维,则该样本图像的特征图可以利用h×w个像素级提取特征进行表示,且各个像素级提取特征均是1×c维。其中,样本图像的特征图中位于第i行第j列的像素级提取特征用于表示样本图像中第i行第j列像素点预测携带的信息。其中,i为正整数,i≤h;j为正整数,j≤w。
此外,本申请实施例不限定S1031的实施方式,例如,S1031可以利用公式(3)进行实施。
Figure BDA0003137114340000131
式中,bij表示样本图像的特征图中位于第i行第j列的像素级提取特征与样本物体文本标识的提取特征之间的相似度,以使bij用于描述该样本图像中第i行第j列像素点预测携带的信息与该样本物体文本标识预测携带的信息之间的相似程度;
Figure BDA0003137114340000141
表示样本图像的特征图中位于第i行第j列的像素级提取特征,以使
Figure BDA0003137114340000142
用于描述该样本图像中第i行第j列像素点预测携带的信息,且
Figure BDA0003137114340000143
是1×c维的特征向量;Hn表示样本物体文本标识的提取特征,以使该Hn用于描述该样本物体文本标识预测携带的信息,且Hn是1×c维的特征向量;S(·)表示进行相似度计算;i为正整数,i≤h,h为正整数,j为正整数,j≤w,w为正整数。
需要说明的是,本申请实施例不限定S(·)的实施方式,可以采用现有的任一种相似度计算方式(如,欧氏距离、余弦距离等)进行实施。
S1032:根据样本图像的特征图中各个像素级提取特征与样本物体文本标识的提取特征之间的相似度,确定样本二元组的预测信息相似度。
本申请实施例不限定S1032,例如,S1032可以利用公式(4)进行计算。
Figure BDA0003137114340000144
式中,
Figure BDA0003137114340000145
表示样本二元组的预测信息相似度(也就是,样本图像的提取特征与样本物体文本标识的提取特征之间的相似度);bij表示样本图像的特征图中位于第i行第j列的像素级提取特征与样本物体文本标识的提取特征之间的相似度;i为正整数,i≤h,h为正整数,j为正整数,j≤w,w为正整数。
基于S103的相关内容可知,对于包括第n个样本图像和第n个样本物体文本标识的第n个样本二元组来说,在获取到第n个样本图像的提取特征和第n个样本物体文本标识的提取特征之后,可以根据该第n个样本图像的提取特征和第n个样本物体文本标识的提取特征,计算该第n个样本二元组的预测信息相似度,以使该第n个样本二元组的预测信息相似度能够准确地描述出该第n个样本图像预测携带的信息和该第n个样本物体文本标识预测携带的信息之间的相似程度,以便后续能够基于该第n个样本二元组的预测信息相似度,确定该待训练模型的特征提取性能。其中,n为正整数,n≤N,N为正整数,N表示样本二元组的个数。
S104:判断是否达到预设停止条件,若是,则执行S106;若否,则执行S105。
其中,预设停止条件可以预先设定。例如,预设停止条件可以为待训练模型的损失值低于预设损失阈值,也可以为待训练模型的损失值变化率低于预设变化率阈值(也就是,待训练模型达到收敛),还可以为待训练模型的更新次数达到预设次数阈值。
需要说明的是,待训练模型的损失值用于描述该待训练模型的特征提取性能;而且本申请实施例不限定该待训练模型的损失值的计算方式,可以采用现有的或者未来出现的任一种能够根据样本二元组的预测信息相似度和该样本二元组的实际信息相似度,计算出该待训练模型的损失值的方法进行实施。
S105:根据样本二元组的预测信息相似度和该样本二元组的实际信息相似度,更新待训练模型,并返回继续执行S102。
本申请实施例中,在确定当前轮的待训练模型没有达到预设停止条件之后,可以确定当前轮的待训练模型的特征提取性能依旧比较差,故可以依据该样本二元组的预测信息相似度和该样本二元组的实际信息相似度之间的差异性,针对该待训练模型进行更新,以使更新后的待训练模型具有更好的特征提取性能,并利用更新后的待训练模型继续执行S102及其后续步骤。
S106:根据待训练模型,确定特征提取模型。
本申请实施例中,在确定当前轮的待训练模型达到预设停止条件之后,可以确定当前轮的待训练模型具有较好的特征提取性能(尤其,能够保证包括样本物体的样本图像的提取特征尽可能地接近于用于唯一标识该样本物体的样本物体文本标识的提取特征),故可以依据当前轮的待训练模型构建特征提取模型(如,直接将当前轮的待训练模型确定为特征提取模型;或者,根据当前轮的待训练模型的模型结构以及模型参数,确定特征提取模型的模型结构以及模型参数,以使该征提取模型的模型结构以及模型参数分别与当前轮的待训练模型的模型结构以及模型参数保持相同),如此使得构建好的特征提取模型的特征提取性能与该当前轮的待训练模型的特征提取性能保持一致,从而使得构建好的特征提取模型也具有较好的特征提取性能。
基于上述S101至S106的相关内容可知,对于特征提取模型构建方法来说,在获取到样本二元组和该样本二元组的实际信息相似度之后,先利用样本二元组和该样本二元组的实际信息相似度训练待训练模型,以使由训练好的待训练模型针对该样本二元组输出的样本图像的提取特征与样本物体文本标识的提取特征之间的相似度几乎接近于该样本二元组的实际信息相似度,从而使得训练好的待训练模型具有较好的特征提取性能,进而使得基于该训练好的待训练模型构建的特征提取模型也具有较好的特征提取性能,如此使得后续能够基于该构建好的特征提取模型更准确地进行目标检测过程,有利于提高目标检测准确性。
在构建好特征提取模型之后,可以利用该特征提取模型进行目标检测。基于此,本申请实施例还提供了一种目标检测方法,下面结合附图进行说明。
方法实施例二
参见图6,该图为本申请实施例提供的一种目标检测方法的流程图。
本申请实施例提供的目标检测方法,包括S601-S603:
S601:获取待检测图像和待检测物体文本标识。
其中,待检测图像是指需要进行目标检测处理的图像。
待检测物体文本标识用于唯一标识待检测物体。也就是,S601-S603可以用于确定待检测图像中是否存在由待检测物体文本标识唯一标识的待检测物体。
需要说明的是,本申请实施例不限定待检测物体文本标识,例如,待检测物体文本标识可以是在特征提取模型的构建过程中使用过的任一种样本物体文本标识,也可以是除了在特征提取模型的构建过程中使用过的样本物体文本标识以外的其他任一种物体文本标识。例如,若在特征提取模型的构建过程中没有使用过“老虎”这一物体文本标识,则该待检测物体文本标识可以是老虎。可见,本申请实施例提供的目标检测方法是一种面向开放世界的目标检测方法。
S602:将待检测图像和待检测物体文本标识输入预先构建的特征提取模型,得到该特征提取模型输出的该待检测图像的提取特征和该待检测物体文本标识的提取特征。
其中,特征提取模型用于针对该特征提取模型的输入数据进行特征提取;而且该特征提取模型是利用本申请实施例提供的特征提取模型构建方法的任一实施方式进行构建的,详情请参见上文方法实施例一
待检测图像的提取特征用于表示该待检测图像携带的信息。
待检测物体文本标识的提取特征用于表示该待检测物体文本标识携带的信息。
基于S602的相关内容可知,在获取到待检测图像和待检测物体文本标识之后,可以将该待检测图像和该待检测物体文本标识输入预先构建的特征提取模型,以使该特征提取模型针对该待检测图像和该待检测物体文本标识分别进行特征提取,得到并输出该待检测图像的提取特征和该待检测物体文本标识的提取特征,以使该待检测图像的提取特征能够表示出该待检测图像携带的信息,以及该待检测物体文本标识的提取特征能够表示出该待检测物体文本标识携带的信息。
S603:根据待检测图像的提取特征与待检测物体文本标识的提取特征之间的相似度程度,确定该待检测图像对应的目标检测结果。
其中,待检测图像对应的目标检测结果用于描述该待检测图像与待检测物体文本标识之间的关联关系。另外,本申请实施例不限定待检测图像对应的目标检测结果的表示方式,例如,若待检测物体文本标识用于唯一标识待检测物体,则该待检测图像对应的目标检测结果可以包括该待检测图像中存在该待检测物体的可能性(如,待检测图像中各个像素点位于该待检测物体在该待检测图像中所处区域内的可能性),和/或该待检测物体在待检测图像中的位置。
另外,本申请实施例不限定待检测图像对应的目标检测结果的确定方式,例如,该待检测图像对应的目标检测结果的确定过程可以包括步骤21-步骤22:
步骤21:计算该待检测图像的提取特征与该待检测物体文本标识的提取特征之间的相似度。
其中,待检测图像的提取特征与该待检测物体文本标识的提取特征之间的相似度用于描述该待检测图像携带的信息与该待检测物体文本标识携带的信息之间的相似程度。
另外,本申请实施例不限定待检测图像的提取特征与该待检测物体文本标识的提取特征之间的相似度的表示方式,例如,可以利用h×w维的相似度矩阵进行表示,此时,该h×w维的相似度矩阵中位于第i行第j列的相似度值可以描述出该待检测图像中第i行第j列像素点携带的信息与该待检测物体文本标识携带的信息之间的相似程度,从而可以用于表示该待检测图像中第i行第j列像素点位于待检测物体在该待检测图像中所处区域内的可能性。
需要说明的是,步骤21的相关内容可以参见上文S103的相关内容,只需将上文S103中“样本图像”替换为“待检测图像”、以及将“样本物体文本标识”替换为“待检测物体文本标识”即可。
步骤22:依据预设相似条件、以及待检测图像的提取特征与该待检测物体文本标识的提取特征之间的相似度,确定该待检测图像对应的目标检测结果。
其中,预设相似度条件可以预先设定,例如,若待检测图像的提取特征与该待检测物体文本标识的提取特征之间的相似度是利用h×w维的相似度矩阵进行表示的,则该预设相似度条件可以为大于预设相似度阈值(如,0.5)。
可见,当待检测图像的提取特征与该待检测物体文本标识的提取特征之间的相似度程度是利用h×w维的相似度矩阵进行表示的,且预设相似度条件为大于预设相似度阈值时,步骤22具体可以包括:判断上述h×w维的相似度矩阵中位于第i行第j列的相似度值是否大于预设相似度阈值,若大于预设相似度阈值,则确定该待检测图像中第i行第j列像素点携带的信息与该待检测物体文本标识携带的信息比较相似,故可以确定待检测图像中第i行第j列像素点位于待检测物体在该待检测图像中所处区域内;若不大于预设相似度阈值,则可以确定该待检测图像中第i行第j列像素点携带的信息与该待检测物体文本标识携带的信息不太相似,故可以确定待检测图像中第i行第j列像素点不位于待检测物体在该待检测图像中所处区域内。
基于上述S601至S603的相关内容可知,在获取到待检测图像和待检测物体文本标识之后,可以先利用构建好的特征提取模型针对该待检测图像和该待检测物体文本标识进行特征提取,得到并输出该待检测图像的提取特征和该待检测物体文本标识的提取特征;再依据该待检测图像的提取特征与该待检测物体文本标识的提取特征之间的相似度,确定该待检测图像对应的目标检测结果。
可见,因待检测图像的提取特征与该待检测物体文本标识的提取特征之间的相似度能够准确地表示出该待检测图像携带的信息与该待检测物体文本标识携带的信息之间的相似程度,使得基于该相似度确定的该待检测图像对应的目标检测结果能够准确地表示出该待检测图像与该待检测物体文本标识之间的关联关系(如,该待检测图像中是否存在由待检测物体文本标识唯一标识的目标物体,以及该目标物体在该待检测图像中的位置等),如此有利于提高目标检测准确性。
还因构建好的特征提取模型能够依据不同物体之间的关联关系针对任意一个物体文本标识进行文本特征提取,使得本申请实施例提供的目标检测方法不仅能够依据在该特征提取模型的构建过程中使用过的样本物体文本标识进行目标检测,还可以依据除了在该特征提取模型的构建过程中使用过的样本物体文本标识以外的任意一种物体文本标识进行目标检测,如此有利于提高该特征提取模型针对非样本物体的目标检测性能,从而有利于提高本申请实施例提供的目标检测方法的目标检测性能。
另外,本申请实施例不限定目标检测方法的执行主体,例如,本申请实施例提供的目标检测方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
基于上述方法实施例提供的特征提取模型构建方法,本申请实施例还提供了一种特征提取模型构建装置,下面结合附图进行解释和说明。
装置实施例一
装置实施例一提供的特征提取模型构建装置的技术详情,请参照上述方法实施例。
参见图7,该图为本申请实施例提供的一种特征提取模型构建装置的结构示意图。
本申请实施例提供的特征提取模型构建装置700,包括:
样本获取单元701,用于获取样本二元组和所述样本二元组的实际信息相似度;其中,所述样本二元组包括样本图像和样本物体文本标识;所述样本二元组的实际信息相似度用于描述所述样本图像实际携带的信息和所述样本物体文本标识实际携带的信息之间的相似程度;
特征预测单元702,用于将所述样本二元组输入待训练模型,得到所述待训练模型输出的所述样本二元组的提取特征;其中,所述样本二元组的提取特征包括所述样本图像的提取特征和所述样本物体文本标识的提取特征;
模型更新单元703,用于根据所述样本二元组的实际信息相似度、以及所述样本图像的提取特征与所述样本物体文本标识的提取特征之间的相似度,更新所述待训练模型,并继续执行所述将所述样本二元组输入待训练模型的步骤,直至在达到预设停止条件时,根据所述待训练模型,确定特征提取模型。
在一种可能的实施方式下,所述待训练模型包括文本特征提取子模型和图像特征提取子模型;
所述样本二元组的提取特征的确定过程,包括:
将所述样本图像输入所述图像特征提取子模型,得到所述图像特征提取子模型输出的所述样本图像的提取特征;
将所述样本物体文本标识输入所述文本特征提取子模型,得到所述文本特征提取子模型输出的所述样本物体文本标识的提取特征。
在一种可能的实施方式下,所述特征提取模型构建装置700还包括:
初始化单元,用于利用预设先验知识,对所述文本特征提取子模型进行初始化处理;其中,所述预设先验知识用于描述不同物体之间的关联关系。
在一种可能的实施方式下,所述所述样本图像的提取特征与所述样本物体文本标识的提取特征之间的相似度的确定过程,包括:
分别确定所述样本图像的特征图中各个像素级提取特征与所述样本物体文本标识的提取特征之间的相似度;根据所述样本图像的特征图中各个像素级提取特征与所述样本物体文本标识的提取特征之间的相似度,确定所述样本图像的提取特征与所述样本物体文本标识的提取特征之间的相似度。
在一种可能的实施方式下,所述样本二元组的实际信息相似度的确定过程,包括:
若所述样本物体文本标识用于唯一标识样本物体,且所述样本图像包括所述样本物体,则根据所述样本物体在所述样本图像中的实际位置,确定所述样本二元组的实际信息相似度。
基于上述特征提取模型构建装置700的相关内容可知,在获取到样本二元组和该样本二元组的实际信息相似度之后,先利用样本二元组和该样本二元组的实际信息相似度训练待训练模型,以使由训练好的待训练模型针对该样本二元组输出的样本图像的提取特征与样本物体文本标识的提取特征之间的相似度几乎接近于该样本二元组的实际信息相似度,从而使得训练好的待训练模型具有较好的特征提取性能,进而使得基于该训练好的待训练模型构建的特征提取模型也具有较好的特征提取性能,如此使得后续能够基于该构建好的特征提取模型更准确地进行目标检测过程,有利于提高目标检测准确性。
基于上述方法实施例提供的目标检测方法,本申请实施例还提供了一种目标检测装置,下面结合附图进行解释和说明。
装置实施例二
装置实施例二提供的目标检测装置的技术详情,请参照上述方法实施例。
参见图8,该图为本申请实施例提供的一种目标检测装置的结构示意图。
本申请实施例提供的目标检测装置800,包括:
信息获取单元801,用于获取待检测图像和待检测物体文本标识;
特征提取单元802,用于将所述待检测图像和待检测物体文本标识输入预先构建的特征提取模型,得到所述特征提取模型输出的所述待检测图像的提取特征和所述待检测物体文本标识的提取特征;其中,所述特征提取模型是利用本申请实施例提供的特征提取模型构建方法的任一实施方式进行构建的;
结果确定单元803,用于根据所述待检测图像的提取特征与所述待检测物体文本标识的提取特征之间的相似度程度,确定所述待检测图像对应的目标检测结果。
基于上述目标检测装置800的相关内容可知,在获取到待检测图像和待检测物体文本标识之后,可以先利用构建好的特征提取模型针对该待检测图像和该待检测物体文本标识进行特征提取,得到并输出该待检测图像的提取特征和该待检测物体文本标识的提取特征;再依据该待检测图像的提取特征与该待检测物体文本标识的提取特征之间的相似程度,确定该待检测图像对应的目标检测结果。
可见,因待检测图像的提取特征与该待检测物体文本标识的提取特征之间的相似度能够准确地表示出该待检测图像携带的信息与该待检测物体文本标识携带的信息之间的相似程度,使得基于该相似度确定的该待检测图像对应的目标检测结果能够准确地表示出该待检测图像与该待检测物体文本标识之间的关联关系(如,该待检测图像中是否存在由待检测物体文本标识唯一标识的目标物体,以及该目标物体在该待检测图像中的位置等),如此有利于提高目标检测准确性。
还因构建好的特征提取模型能够依据不同物体之间的关联关系针对任意一个物体文本标识进行文本特征提取,使得本申请实施例提供的目标检测方法不仅能够依据在该特征提取模型的构建过程中使用过的样本物体文本标识进行目标检测,还可以依据除了在该特征提取模型的构建过程中使用过的样本物体文本标识以外的任意一种物体文本标识进行目标检测,如此有利于提高该特征提取模型针对非样本物体的目标检测性能,从而有利于提高本申请实施例提供的目标检测装置800的目标检测性能。
进一步地,本申请实施例还提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行本申请实施例提供的特征提取模型构建方法的任一实施方式,或者执行本申请实施例提供的目标检测方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的特征提取模型构建方法的任一实施方式,或者执行本申请实施例提供的目标检测方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的特征提取模型构建方法的任一实施方式,或者执行本申请实施例提供的目标检测方法的任一实施方式。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (10)

1.一种特征提取模型构建方法,其特征在于,所述方法包括:
获取样本二元组和所述样本二元组的实际信息相似度;其中,所述样本二元组包括样本图像和样本物体文本标识;所述样本二元组的实际信息相似度用于描述所述样本图像实际携带的信息和所述样本物体文本标识实际携带的信息之间的相似程度;
将所述样本二元组输入待训练模型,得到所述待训练模型输出的所述样本二元组的提取特征;其中,所述样本二元组的提取特征包括所述样本图像的提取特征和所述样本物体文本标识的提取特征;
将所述样本图像的提取特征与所述样本物体文本标识的提取特征之间的相似度,确定为所述样本二元组的预测信息相似度;所述预测信息相似度用于描述所述样本图像中各个像素点预测携带的信息与所述样本物体文本标识预测携带的信息之间的相似程度;
根据所述样本二元组的实际信息相似度与所述样本二元组的预测信息相似度,更新所述待训练模型,并继续执行所述将所述样本二元组输入待训练模型的步骤,直至在达到预设停止条件时,根据所述待训练模型,确定特征提取模型;
所述样本二元组的实际信息相似度的确定过程,包括:
若所述样本物体文本标识用于唯一标识样本物体,且所述样本图像包括所述样本物体,则根据所述样本物体在所述样本图像中的实际位置,确定所述样本二元组的实际信息相似度。
2.根据权利要求1所述的方法,其特征在于,所述待训练模型包括文本特征提取子模型和图像特征提取子模型;
所述样本二元组的提取特征的确定过程,包括:
将所述样本图像输入所述图像特征提取子模型,得到所述图像特征提取子模型输出的所述样本图像的提取特征;
将所述样本物体文本标识输入所述文本特征提取子模型,得到所述文本特征提取子模型输出的所述样本物体文本标识的提取特征。
3.根据权利要求2所述的方法,其特征在于,在所述将所述样本二元组输入待训练模型之前,所述方法还包括:
利用预设先验知识,对所述文本特征提取子模型进行初始化处理,以使初始化处理后的文本特征提取子模型针对任意两个物体输出的文本特征之间的相似度与所述两个物体之间的关联度呈正相关;其中,所述预设先验知识用于描述不同物体之间的关联度。
4.根据权利要求1所述的方法,其特征在于,若所述样本图像的提取特征包括所述样本图像的特征图,则所述样本图像的提取特征与所述样本物体文本标识的提取特征之间的相似度的确定过程,包括:
分别确定所述样本图像的特征图中各个像素级提取特征与所述样本物体文本标识的提取特征之间的相似度;
根据所述样本图像的特征图中各个像素级提取特征与所述样本物体文本标识的提取特征之间的相似度,确定所述样本图像的提取特征与所述样本物体文本标识的提取特征之间的相似度。
5.根据权利要求1所述的方法,其特征在于,若所述样本二元组的实际信息相似度包括所述样本图像中各个像素点对应的实际信息相似度,则所述根据所述样本物体在所述样本图像中的实际位置,确定所述样本二元组的实际信息相似度,包括:
根据所述样本物体在所述样本图像中的实际位置,确定所述样本物体的图像区域;
将所述样本物体的图像区域内各个像素点对应的实际信息相似度均确定为第一预设相似度值;
将所述样本图像中除了所述样本物体的图像区域以外的各个像素点对应的实际信息相似度均确定为第二预设相似度值。
6.一种目标检测方法,其特征在于,所述方法包括:
获取待检测图像和待检测物体文本标识;所述待检测物体文本标识用于标识待检测物体;
将所述待检测图像和待检测物体文本标识输入预先构建的特征提取模型,得到所述特征提取模型输出的所述待检测图像的提取特征和所述待检测物体文本标识的提取特征;其中,所述特征提取模型是利用权利要求1-5中任一项所述的特征提取模型构建方法进行构建的;
根据所述待检测图像的提取特征与所述待检测物体文本标识的提取特征之间的相似度,确定所述待检测图像对应的目标检测结果;所述相似度用于描述待检测图像中各个像素点位于所述待检测物体在所述待检测图像中所处区域内的可能性。
7.一种特征提取模型构建装置,其特征在于,包括:
样本获取单元,用于获取样本二元组和所述样本二元组的实际信息相似度;其中,所述样本二元组包括样本图像和样本物体文本标识;所述样本二元组的实际信息相似度用于描述所述样本图像实际携带的信息和所述样本物体文本标识实际携带的信息之间的相似程度;
特征预测单元,用于将所述样本二元组输入待训练模型,得到所述待训练模型输出的所述样本二元组的提取特征;其中,所述样本二元组的提取特征包括所述样本图像的提取特征和所述样本物体文本标识的提取特征;将所述样本图像的提取特征与所述样本物体文本标识的提取特征之间的相似度,确定为所述样本二元组的预测信息相似度;所述预测信息相似度用于描述所述样本图像中各个像素点预测携带的信息与所述样本物体文本标识预测携带的信息之间的相似程度;
模型更新单元,用于根据所述样本二元组的实际信息相似度与所述样本二元组的预测信息相似度,更新所述待训练模型,并继续执行所述将所述样本二元组输入待训练模型的步骤,直至在达到预设停止条件时,根据所述待训练模型,确定特征提取模型;
所述样本二元组的实际信息相似度的确定过程,包括:
若所述样本物体文本标识用于唯一标识样本物体,且所述样本图像包括所述样本物体,则根据所述样本物体在所述样本图像中的实际位置,确定所述样本二元组的实际信息相似度。
8.一种目标检测装置,其特征在于,包括:
信息获取单元,用于获取待检测图像和待检测物体文本标识;所述待检测物体文本标识用于标识待检测物体;
特征提取单元,用于将所述待检测图像和待检测物体文本标识输入预先构建的特征提取模型,得到所述特征提取模型输出的所述待检测图像的提取特征和所述待检测物体文本标识的提取特征;其中,所述特征提取模型是利用权利要求1-5中任一项所述的特征提取模型构建方法进行构建的;
结果确定单元,用于根据所述待检测图像的提取特征与所述待检测物体文本标识的提取特征之间的相似度程度,确定所述待检测图像对应的目标检测结果;所述相似度用于描述待检测图像中各个像素点位于所述待检测物体在所述待检测图像中所处区域内的可能性。
9.一种设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1-5中任一项所述的特征提取模型构建方法,或者执行权利要求6所述的目标检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-5中任一项所述的特征提取模型构建方法,或者执行权利要求6所述的目标检测方法。
CN202110723063.XA 2021-06-28 2021-06-28 一种特征提取模型构建方法、目标检测方法及其设备 Active CN113591839B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110723063.XA CN113591839B (zh) 2021-06-28 2021-06-28 一种特征提取模型构建方法、目标检测方法及其设备
PCT/CN2022/089230 WO2023273572A1 (zh) 2021-06-28 2022-04-26 一种特征提取模型构建方法、目标检测方法及其设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110723063.XA CN113591839B (zh) 2021-06-28 2021-06-28 一种特征提取模型构建方法、目标检测方法及其设备

Publications (2)

Publication Number Publication Date
CN113591839A CN113591839A (zh) 2021-11-02
CN113591839B true CN113591839B (zh) 2023-05-09

Family

ID=78245050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110723063.XA Active CN113591839B (zh) 2021-06-28 2021-06-28 一种特征提取模型构建方法、目标检测方法及其设备

Country Status (2)

Country Link
CN (1) CN113591839B (zh)
WO (1) WO2023273572A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591839B (zh) * 2021-06-28 2023-05-09 北京有竹居网络技术有限公司 一种特征提取模型构建方法、目标检测方法及其设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020155518A1 (zh) * 2019-02-03 2020-08-06 平安科技(深圳)有限公司 物体检测方法、装置、计算机设备及存储介质
CN111782921A (zh) * 2020-03-25 2020-10-16 北京沃东天骏信息技术有限公司 检索目标的方法和装置
CN111897950A (zh) * 2020-07-29 2020-11-06 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN112990204A (zh) * 2021-05-11 2021-06-18 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019889A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 训练特征提取模型及计算图片与查询词相关性系数的方法和相关装置
CN108647350A (zh) * 2018-05-16 2018-10-12 中国人民解放军陆军工程大学 一种基于双通道网络的图文关联检索方法
US11062087B2 (en) * 2019-01-30 2021-07-13 Adobe Inc. Generating summary content tuned to a target characteristic using a word generation model
CN111091597B (zh) * 2019-11-18 2020-11-13 贝壳找房(北京)科技有限公司 确定图像位姿变换的方法、装置及存储介质
CN111985616B (zh) * 2020-08-13 2023-08-08 沈阳东软智能医疗科技研究院有限公司 一种图像特征提取方法、图像检索方法、装置及设备
CN113591839B (zh) * 2021-06-28 2023-05-09 北京有竹居网络技术有限公司 一种特征提取模型构建方法、目标检测方法及其设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020155518A1 (zh) * 2019-02-03 2020-08-06 平安科技(深圳)有限公司 物体检测方法、装置、计算机设备及存储介质
CN111782921A (zh) * 2020-03-25 2020-10-16 北京沃东天骏信息技术有限公司 检索目标的方法和装置
CN111897950A (zh) * 2020-07-29 2020-11-06 北京字节跳动网络技术有限公司 用于生成信息的方法和装置
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN112990204A (zh) * 2021-05-11 2021-06-18 北京世纪好未来教育科技有限公司 目标检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2023273572A1 (zh) 2023-01-05
CN113591839A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
WO2021188354A1 (en) Automated and adaptive design and training of neural networks
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
WO2019089578A1 (en) Font identification from imagery
CN110738247B (zh) 一种基于选择性稀疏采样的细粒度图像分类方法
CN112668579A (zh) 基于自适应亲和力和类别分配的弱监督语义分割方法
CN111931859B (zh) 一种多标签图像识别方法和装置
CN111914159B (zh) 一种信息推荐方法及终端
CN111461164B (zh) 样本数据集的扩容方法及模型的训练方法
CN109977253B (zh) 一种基于语义和内容的快速图像检索方法及装置
CN110175657B (zh) 一种图像多标签标记方法、装置、设备及可读存储介质
WO2024060684A1 (zh) 模型训练方法、图像处理方法、设备及存储介质
KR20230171966A (ko) 이미지 프로세싱 방법 및 장치 및 컴퓨터 판독 가능 저장 매체
CN111178196B (zh) 一种细胞分类的方法、装置及设备
US8467607B1 (en) Segmentation-based feature pooling for object models
CN113591839B (zh) 一种特征提取模型构建方法、目标检测方法及其设备
CN111814653A (zh) 一种视频中异常行为的检测方法、装置、设备及存储介质
CN111695570A (zh) 一种基于变分原型推理的小样本下语义分割方法
CN114708307B (zh) 基于相关滤波器的目标跟踪方法、系统、存储介质及设备
CN113469176B (zh) 一种目标检测模型训练方法、目标检测方法及其相关设备
CN116681961A (zh) 基于半监督方法和噪声处理的弱监督目标检测方法
CN115359296A (zh) 图像识别方法、装置、电子设备及存储介质
CN114693997A (zh) 基于迁移学习的图像描述生成方法、装置、设备及介质
CN114187487A (zh) 一种大规模点云数据的处理方法、装置、设备及介质
CN113407837A (zh) 基于人工智能的智慧医疗大数据处理方法及智慧医疗系统
CN115482436B (zh) 图像筛选模型的训练方法、装置以及图像筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant