CN117710654A

CN117710654A - 开放域目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN117710654A
Application number: CN202311746491.XA
Authority: CN
Inventors: 罗大钦
Original assignee: Cloudminds Shanghai Robotics Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-03-15

Abstract

本发明实施例涉及目标检测领域，公开了一种开放域目标检测方法、装置、电子设备及存储介质，通过获取所属目标类别的目标物的图像样本，并标注图像样本中目标物的标注框；设置目标类别的目标提示词，将图像样本和目标提示词输入到预训练好的开放域目标检测模型中，得到目标类别的检测框；基于检测框和标注框之间的损失，对开放域目标检查模型中，针对目标提示词所对应的词向量进行调整，得到目标提示词的目标词向量；利用目标提示词以及微调后的开放域目标检查模型，对待检测图像中所属目标类别的目标物进行检测。本方案通过对模型中提示词的词向量进行微调，以使模型适应检测新的目标类别，同时保持模型对原有的通用类别的优秀检测性能。

Description

开放域目标检测方法、装置、电子设备及存储介质

技术领域

本发明涉及目标检测领域，特别涉及一种开放域目标检测方法、装置、电子设备及存储介质。

背景技术

随着目标检测技术的日益发展，开放域目标检测的需求也随之增加。然而，引入新的目标类别通常需要耗费大量的标注数据和复杂的重新训练过程。当前目标检测模型的微调方法，通常依赖于在大规模通用数据上进行的预训练，然后在特定领域进行微调，以适应新的目标类别。然而，这种传统微调方法存在挑战，即在保持对通用类别的优秀检测性能的同时，迅速适应新类别的困难。

发明内容

本发明实施方式的目的在于提供一种开放域目标检测方法、装置、电子设备及存储介质，通过微调提示信息对应的词向量，使预训练的模型能够适应检测新类别的特定任务，同时保持对通用类别的优秀检测性能。

为解决上述技术问题，本发明的实施方式提供了一种开放域目标检测方法，包括：

获取所属目标类别的目标物的图像样本，并标注图像样本中所述目标物的标注框；

设置所述目标类别的目标提示词，将所述图像样本和所述目标提示词输入到预训练好的开放域目标检测模型中，得到所述目标类别的检测框；

基于所述检测框和所述标注框之间的损失，对所述开放域目标检查模型中，针对所述目标提示词所对应的词向量进行调整，得到所述目标提示词的目标词向量；

利用所述目标提示词以及微调后的所述开放域目标检查模型，对待检测图像中所属目标类别的目标物进行检测。

本发明的实施方式还提供了一种开放域目标检测装置，包括：

获取模块，用于获取所属目标类别的目标物的图像样本，并标注图像样本中所述目标物的标注框；

处理模块，用于设置所述目标类别的目标提示词，将所述图像样本和所述目标提示词输入到预训练好的开放域目标检测模型中，得到所述目标类别的检测框；

调整模块，用于基于所述检测框和所述标注框之间的损失，对所述开放域目标检查模型中，针对所述目标提示词所对应的词向量进行调整，得到所述目标提示词的目标词向量；

检测模块，用于利用所述目标提示词以及微调后的所述开放域目标检查模型，对待检测图像中所属目标类别的目标物进行检测。

本发明的实施方式还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的开放域目标检测方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的开放域目标检测方法。

本发明实施方式相对于现有技术而言，通过获取所属目标类别的目标物的图像样本，并标注图像样本中目标物的标注框；设置目标类别的目标提示词，将图像样本和目标提示词输入到预训练好的开放域目标检测模型中，得到目标类别的检测框；基于检测框和标注框之间的损失，对开放域目标检查模型中，针对目标提示词所对应的词向量进行调整，得到目标提示词的目标词向量；利用目标提示词以及微调后的开放域目标检查模型，对待检测图像中所属目标类别的目标物进行检测。本方案中利用了提示调优(prompt tuning)的思想，即通过微调提示信息，使预训练的模型能够适应特定目标任务这一思想引入到开放域目标检测的训练过程中，通过对预训练好的开放域目标检测模型中提示词的词向量进行微调，以使模型适应检测新的目标类别，同时保持模型对原有的通用类别的优秀检测性能。

附图说明

图1是根据本发明实施方式的开放域目标检测方法的具体流程图；

图2a是根据本发明实施方式的调整模型的词向量前的目标检测效果图；

图2b是根据本发明实施方式的调整模型的词向量后的目标检测效果图；

图3是根据本发明实施方式的开放域目标检测装置的结构示意图；

图4是根据本发明实施方式的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的一实施方式涉及一种开放域目标检测方法，如图1所示，包括如下步骤。

步骤101：获取所属目标类别的目标物的图像样本，并标注图像样本中目标物的标注框。

其中，物体所属的类别可以根据该物体所呈现出的某种具体状态而进行划分所得到的类别，例如对于墙体这个物体，其对应的类别按其所呈现的状态可以划分为如“墙面积水”、“墙体损坏”等多个类别。本实施例中所提到的目标物和目标物所属的目标类别则是运用在后续对预训练好的开放域目标检查模型进行调整过程中，所采用的图像样本中所包含的特定物体以及该物体所属的类别。本实施例中利用包含所属某一目标类别的目标物的图像样本对预训练好的开放域目标检查模型进行调整，其目的是使调整后的开放域目标检查模型能够对待检测图像中所属该目标类别的目标物进行准确检测，同时还要保持模型对原有的通用类别的优秀检测性能。

具体地，可以通过在互联网中进行图像抓取，或者相机拍摄等方式获取到包含所属目标类别的目标物的图像样本，并标注图像样本中该目标物的标注框。例如，以包含所属“墙面积水”这一目标类别的墙体的图像样本为例，在获取到图像样本后，需要标注出墙面积水的墙体在图像中的具体位置，并以标注框的形式框选出相应的区域。

步骤102：设置目标类别的目标提示词，将图像样本和目标提示词输入到预训练好的开放域目标检测模型中，得到目标类别的检测框。

其中，针对物体所属的类别可以设置该类别对应的提示词，该提示词的作用是指示开放域目标检测模型对输入到模型的图像进行关于该提示词所对应类别的物体进行检测。相应的，本实施例中所提到的目标提示词则是运用在后续对预训练好的开放域目标检查模型进行调整过程中，针对所采用的图像样本所涉及的目标类别所对应的提示词，因此也称目标提示词。一种简单设置目标提示词的方式，则是将目标类别作为目标提示词，例如将“墙面积水”、“墙体损坏”作为目标提示词，简洁明了。

本实施例中的开放域目标检测模型为多模态的端到端的目标检测模型。模型的输入为图像数据和文本数据，输出则为对图像数据中所属指定类别的目标物进行检测的结果，包括所检测到的目标物所在的具体位置，即检测框。而其中的指定类别则是由作为文本数据的提示词给出。也就是，本实施例中的开放域目标检测模型具备引入了提示调优(prompt tuning)的基础，可以通过文本数据的提示词指示开放域目标检测模型对待检测的图像数据中所属指定类别的目标物进行检测。

具体地，在针对图像样本中目标物所属的目标类别设置好目标提示词后，可将图像样本和该目标提示词输入到预训练好的上述开放域目标检测模型中，得到目标类别的检测框。该检测框可视为针对图像样本进行目标类别检测的预测值，而前述的标注框可视为图像样本中所属目标类别的真实值。

在一些实施例中，由于本实施例主要目的，是对开放域目标检测模型进行调整使其对新的目标类别也可以进行检测，因此初始的刚预训练好的开放域目标检测模型所能检测的类别中不包含目标类别。当然，即便是刚预训练好的开放域目标检测模型所能检测的类别中包含上述目标类别也同样适用本实施例的方法，例如可以实现在已具备检测目标类别的基础上，进一步提高针对该目标类别的检测性能。

需要说明的是，本实施例中对开放域目标检测模型所包含的具体网络结构的形式并不做限定，只要满足前述的数据输入和输出的要求即可。

在一些实施例中，上述开放域目标检查模型的结构可包括：用于对提示词进行编码生成词向量的文本编辑器、用于对词向量进行特征提取生成文本特征的文本特征提取网络、用于对图像进行特征提取生成图像特征的图像特征提取网络、用于对文本特征和图像特征进行特征融合得到融合特征的特征融合网络，以及对融合特征进行处理输出所述图像中所属于待检测类别的检测框的预测网络。

由此可见，开放域目标检查模型大体分为三个功能：关于文本处理(文本编辑器+文本特征提取网络)、关于图像处理(图像特征提取网络)、关于特征融合和预测(特征融合网络+预测网络)。其中，关于各功能网络的具体结构在本实施例中并不限定，只要具备以上三个功能即可。

例如，上述预训练好的开放域目标检测模型可以包括但不局限于：GroundingDINO模型。GroundingDINO作为本实施例待调整的基础模型，其在开放域目标检测领域表现出色。该模型通过基于Transformer的检测器DINO与真值预训练相结合，可以通过人类输入(如类别名称或指代表达)的prompt对任意物体进行检测。

由于在后续对开放域目标检查模型进行调整时，主要是针对目标提示词所对应的词向量进行调整，因此这里对本实施例中提示词转换至词向量所对应的文本编辑器进行具体说明。

在一些实施例中，可采用但不局限于词嵌入(word embedding)层作为文本编辑器，索引输入至开放域目标检查模型中的提示词的词向量。

具体地，在将输入的提示词从文本格式转换为模型所能处理的向量格式时，wordembedding则引入了向量索引的方式，即为每个输入的提示词可以从记录词向量字典中分配一个词向量(该词向量可由128位组成)，同时建立从该提示词到该词向量的索引，通过调整索引，则可以实现调整该提示词对应的词向量。

此外，在另一些实施例中，上述文本特征提取网络可采用但不局限于Bert模型网络，相应的，该Bert模型的输入词向量则为输入至开放域目标检查模型中的提示词的词向量。

例如，可将上述word embedding层输出的提示词对应的词向量作为Bert模型网络的输入，从而得到该词向量对应的文本特征。

步骤103：基于检测框和标注框之间的损失，对开放域目标检查模型中，针对目标提示词所对应的词向量进行调整，得到目标提示词的目标词向量。

在通过前述步骤，在对图像样本进行关于目标类别的检测得到对应的检测框后，可将检测框和该图像样本中针对该目标类别已标注的标注框，二者之间计算损失，然后基于损失量进行前向传播对目标提示词所对应的词向量进行调整，在经过多次的迭代调整后得到目标提示词所对应的较为优质的目标词向量。

需要说明的是，在进行前向传播对目标提示词所对应的词向量进行调整时，开放域目标检查模型中除了词向量，其余部分的结构及各种参数均被固化不做调整。如此，本实施例中在对开放域目标检查模型的模型进行微调时，由于不改变已有结构参数以及原有的通用提示词所对应的词向量，因此可以很好的维持开放域目标检查模型对于原有的通用提示词所对应的类别的物体的检测性能；而通过调整新增目标类别所对应目标提示词的词向量，又可以在对原有模型不做结构改动的情况下，对新增的目标类别进行目标检测，降低了模型调整的成本，且易于实现。即，本实施例由于没有改变模型任何参数，故实现了不损害模型原有通用类别检测能力的前提下，提升新类别检测能力的效果。

在一些实施例中，上述检测框和标注框之间的损失可采用但不局限于如下中的至少一种损失计算获得：L1损失、L2损失和交叉熵损失。

步骤104：利用目标提示词以及微调后的开放域目标检查模型，对待检测图像中所属目标类别的目标物进行检测。

具体地，通过上述步骤101～103所形成的调整后的开放域目标检查模型，可以在已有的不损害模型原有通用类别检测能力的前提下，提升新类别检测能力的效果。如此，可以根据需求不断调整模型，增加其针对新类别的检测能力。

在具体应用场景中，对目标类别的目标物进行检测时，可以直接将待检测图像输入到上述调整后的开放域目标检查模型中，同时设置提示词为上述目标类别对应的目标提示词，如此即可实现对待检测图像中所属目标类别的目标物进行检测。检测结果中包含目标物在图像中的具体位置，即检测框。

如图2a～图2b所示，为本实施例中对开放域目标检查模型进行词向量调整前(图2a)和调整后(图2b)的关于“墙体损坏”类别的检测效果图。根据对比可以看出，调整后(图2b)的模型可以更加准确的识别出发生“墙体损坏”的目标物的位置(检测框框选的区域)。

与相关技术比较，本实施例通过获取所属目标类别的目标物的图像样本，并标注图像样本中目标物的标注框；设置目标类别的目标提示词，将图像样本和目标提示词输入到预训练好的开放域目标检测模型中，得到目标类别的检测框；基于检测框和标注框之间的损失，对开放域目标检查模型中，针对目标提示词所对应的词向量进行调整，得到目标提示词的目标词向量；利用目标提示词以及微调后的开放域目标检查模型，对待检测图像中所属目标类别的目标物进行检测。本方案中利用了提示调优(prompt tuning)的思想，即将通过微调提示信息，使预训练的模型能够适应特定目标任务这一思想引入到开放域目标检测的训练过程中，通过对预训练好的开放域目标检测模型中提示词的词向量进行微调，以使模型适应检测新的目标类别，同时保持模型对原有的通用类别的优秀检测性能。

本发明的另一实施方式涉及一种开放域目标检测装置，如图3所示，

获取模块201，用于获取所属目标类别的目标物的图像样本，并标注图像样本中所述目标物的标注框；

处理模块202，用于设置所述目标类别的目标提示词，将所述图像样本和所述目标提示词输入到预训练好的开放域目标检测模型中，得到所述目标类别的检测框；

调整模块203，用于基于所述检测框和所述标注框之间的损失，对所述开放域目标检查模型中，针对所述目标提示词所对应的词向量进行调整，得到所述目标提示词的目标词向量；

检测模块204，用于利用所述目标提示词以及微调后的所述开放域目标检查模型，对待检测图像中所属目标类别的目标物进行检测。

在一些实施例中，所述开放域目标检查模型的结构包括：用于对提示词进行编码生成词向量的文本编辑器、用于对词向量进行特征提取生成文本特征的文本特征提取网络、用于对图像进行特征提取生成图像特征的图像特征提取网络、用于对所述文本特征和所述图像特征进行特征融合得到融合特征的特征融合网络，以及对所述融合特征进行处理输出所述图像中所属于待检测类别的检测框的预测网络。

在一些实施例中，采用词嵌入层作为所述文本编辑器，索引输入至所述开放域目标检查模型中的提示词的词向量。

在一些实施例中，所述文本特征提取网络采用Bert模型网络，所述Bert模型的输入词向量为输入至所述开放域目标检查模型中的提示词的词向量。

在一些实施例中，所述预训练好的开放域目标检测模型所能检测的类别中不包含所述目标类别。

在一些实施例中，所述预训练好的开放域目标检测模型包括：GroundingDINO模型。

在一些实施例中，所述检测框和所述标注框之间的损失采用如下中的至少一种损失计算获得：L1损失、L2损失和交叉熵损失。

本发明的另一实施方式涉及一种电子设备，如图4所示，包括至少一个处理器302；以及，与至少一个处理器302通信连接的存储器301；其中，存储器301存储有可被至少一个处理器302执行的指令，指令被至少一个处理器302执行，以使至少一个处理器302能够执行上述任一方法实施例。

其中，存储器301和处理器302采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器302和存储器301的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器302处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器302。

处理器302负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器301可以被用于存储处理器302在执行操作时所使用的数据。

本发明的另一实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述任一方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种开放域目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述开放域目标检查模型的结构包括：用于对提示词进行编码生成词向量的文本编辑器、用于对词向量进行特征提取生成文本特征的文本特征提取网络、用于对图像进行特征提取生成图像特征的图像特征提取网络、用于对所述文本特征和所述图像特征进行特征融合得到融合特征的特征融合网络，以及对所述融合特征进行处理输出所述图像中所属于待检测类别的检测框的预测网络。

3.根据权利要求2所述的方法，其特征在于，采用词嵌入层作为所述文本编辑器，索引输入至所述开放域目标检查模型中的提示词的词向量。

4.根据权利要求2所述的方法，其特征在于，所述文本特征提取网络采用Bert模型网络，所述Bert模型的输入词向量为输入至所述开放域目标检查模型中的提示词的词向量。

5.根据权利要求1所述的方法，其特征在于，所述预训练好的开放域目标检测模型所能检测的类别中不包含所述目标类别。

6.根据权利要求1所述的方法，其特征在于，所述预训练好的开放域目标检测模型包括：GroundingDINO模型。

7.根据权利要求1所述的方法，其特征在于，所述检测框和所述标注框之间的损失采用如下中的至少一种损失计算获得：L1损失、L2损失和交叉熵损失。

8.一种开放域目标检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的开放域目标检测方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的开放域目标检测方法。