CN117746078B

CN117746078B - 一种基于用户自定义类别的物体检测方法及系统

Info

Publication number: CN117746078B
Application number: CN202410190083.9A
Authority: CN
Inventors: 赵刚强; 金伟; 应红力
Original assignee: Hangzhou Mirui Technology Co ltd
Current assignee: Hangzhou Mirui Technology Co ltd
Priority date: 2024-02-21
Filing date: 2024-02-21
Publication date: 2024-06-11
Anticipated expiration: 2044-02-21
Also published as: CN117746078A

Abstract

本申请提供了一种基于用户自定义类别的物体检测方法及系统，属于图文数据处理技术领域，包括：用户输入一段自然语言描述和一张相关图像，利用基于短语边界点建模技术的检测目标辅助刻画生成技术获得检测目标辅助输入；调用基于多模态重构对准网络的检测目标刻画生成模型，获得检测目标的多个文本刻画；基于图像自适应目标刻画匹配度估算技术生成目标反向刻画以进一步满足检测目标自定义需求；基于自定义物体检测使用过程中的反馈数据对图文多模态模型进行优化。支持用户自定义的物体检测技术，结合了多模态重构对准网络的目标刻画生成能力和图文多模态模型的图像识别能力，极大方便用户对图像识别技术的使用，方案具有较强的普及能力。

Description

一种基于用户自定义类别的物体检测方法及系统

技术领域

本发明属于图文数据处理技术领域，尤其涉及一种基于用户自定义类别的物体检测方法及系统。

背景技术

随着人工智能技术的发展，越来越多的图像识别系统获得了应用，比如人脸识别、物体检测等。由于受经典神经网络技术的限制，主流物体检测算法只能识别预先定义的物体种类，如人形、车辆、宠物等，而不能识别未预先定义的物体种类。

随着变形神经网络（Transformer）技术的发展，图文多模态模型可以同时处理文本和图像数据，并支持未预先定义类别的物体检测。一方面，由于受到成本限制，图文多模态模型的参数规模不会太大，因而不能理解复杂的用户文本输入，只能理解简单的目标刻画关键词。如何把用户的自然语言输入和图像输入转为合适的检测目标文本刻画是应用图文多模态模型的关键问题。

现有公开了基于先验知识启发大语言模型的图像推理问答方法（专利申请号为：CN202310744506.2），该方案通过视觉问答小模型向大语言模型提供更多的图片信息，得到更好的图像知识推理结果，该方法通过提供丰富的输入给大语言模型来调用其推理能力，而用户自定义类别物体检测的目标是通过提供合适的输入给图文多模态模型来激发其物体检测能力，该方案的运算量比较大，检测速度慢，对输入的数据有要求，不能实现自定义类别的输入。现有公开了一种基于预训练语言模型的图像信息抽取方法及装置（专利申请号为：CN202311132052.X），其通过提示（Prompt）模板的方法来调用预训练语言模型对图片中识别出来的文字信息进行推理和纠错，输出文本信息，在提供单一图片文本信息抽取服务的应用场景下，提示（Prompt）模板方法可有效结合语言模型和图片字符识别模型来进行图像文本信息的生成，但是有限的提示库模板难以应对大量用户都需要进行自定义类别物体检测的应用场景。现有公开了基于提示学习的意图识别方法、问答方法及装置（专利申请号为：CN202211013807.X），其采用提示学习范式来对输入文本进行重构并应用到自动问答中，其实质是判断输入文本的类别并添加特定的提示词，比如输入文本是“为什么A会故障”，重构的文本是“为什么A会故障，答案是…”，其目的是让语言模型给出更合理的答案，客观上增加了输入文本的长度，该方案只能处理单一模态文本信息，并不支持处理多模态图像和文本信息。

发明内容

本申请提供了一种基于用户自定义类别的物体检测方法及系统，旨在解决如何通过用户输入的图像和文本生成合适的自定义检测目标的文本刻画，以激发图文多模态模型物体检测能力的问题。

为了实现上述目的，本发明采用以下技术方案：

一种基于用户自定义类别的物体检测方法，包括：

获取待检测用户的输入数据，基于短语边界点建模技术的检测目标辅助刻画生成技术对输入数据进行处理，得到检测目标的辅助输入数据，其中，输入数据包括文本数据和图像数据，检测目标为待检测用户的输入数据的物体检测结果；

基于多模态重构对准网络的检测目标刻画生成技术对输入数据和辅助输入数据进行处理，得到检测目标的文本刻画，文本刻画的数量大于等于两个；

基于图像自适应的目标刻画匹配度估算技术对文本刻画进行筛选，将不符合用户自定义需求的文本刻画选出，得到反向刻画；

将反向刻画和筛选后的文本刻画汇总后输入图文多模态模型中运算，得到待检测用户的检测目标；

存储待检测用户得到检测目标后的反馈数据，基于反馈数据对图文多模态模型进行调优。

作为优选，基于短语边界点建模技术的检测目标辅助刻画生成技术对输入数据进行处理，得到检测目标的辅助输入数据，具体为：

基于文本数据从历史文本库DST中提取相似文本集合，基于图像数据从历史图像库DSI中提取相似图像集合，将相似图像集合代入图文多模态模型中计算，得到相似图像集合对应的刻画文本集合，将相似文本集合和刻画文本集合汇总，得到辅助输入集合；

基于短语边界点建模技术的检测目标辅助刻画生成技术提取辅助输入集合中文本语句的关键短语，将关键短语汇总，得到辅助输入数据。

作为优选，基于文本数据从历史文本库DST中提取相似文本集合，具体为：将历史文本库DST中文本依次代入公式中进行计算，当计算结果小于第一预设阈值时，将对应文本加入相似文本集合，其中，/>为文本数据，/>为/>的嵌入向量，/>为历史文本库DST中第i项文本，/>为/>的嵌入向量，i为非零的自然数；

基于图像数据从历史图像库DSI中提取相似图像集合，具体为：使用图文多模态模型提取图像数据的特征/>，并提取历史图像库DSI中第i项图像的特征/>，将/>和/>代入/>进行计算，当计算结果小于第二预设阈值时，将对应图像加入相似图像集合。

作为优选，得到关键短语的处理过程具体为：

依据高斯分布选取个样本，其中/>为非零自然数；

使用训练完成的模型，计算/>、/>、/>，其中，/>模型为去噪神经网络模型，/>是时刻/>短语的边界点的预测值，/>表示长度为/>的时间序列，，从 /> 到/>1迭代计算/>，，/>和/>是/>个样本中的两个相邻样本，/>和/>均为预先定义的高斯分布的方差系数，/>为文本数据中的语句，/>和为短语左右两边的边界点的概率，，/>是可训练的参数矩阵，/>表示可训练的双层感知网络，/>为/>输入/>模型后输出的编码，/>为增强后的噪声采样；

依据边界点的概率值，解析出个候选短语的边界点/>，其中，/>，/>分别为短语左右的边界点；

从左右边界点相同的候选短语中选择概率值最高的，汇总后进行过滤，舍去概率值小于第三预设阈值的候选短语，得到关键短语。

作为优选，基于多模态重构对准网络的检测目标刻画生成技术对输入数据和辅助输入数据进行处理，得到检测目标的文本刻画，具体为：

获取训练样本数据，基于训练样本数据对文本模态的损失函数、图像模态的损失函数、辅助模态的损失函数进行联合优化，得到每个模态对应的刻画编码器和刻画生成解码器；

分别提取文本数据、图像数据和辅助输入数据的特征，将特征分别输入对应模态的刻画编码器，得到检测目标初级文本刻画、检测目标初级图像刻画和检测目标初级辅助刻画；

分别用检测目标初级文本刻画、检测目标初级图像刻画和检测目标初级辅助刻画挖掘隐藏在每个模态描述中的目标刻画特性，进行重构对准，合并后得到完整的刻画描述，将完整的刻画描述输入对应的刻画生成解码器，得到检测目标的文本刻画。

作为优选，基于图像自适应的目标刻画匹配度估算技术对文本刻画进行筛选，将不符合用户自定义需求的文本刻画选出，得到反向刻画，具体为：

使用上下文环境向量对文本刻画进行增强，得到增强后的输入刻画词；

提取图像数据中的图像特征，计算输入刻画词与图像特征之间的匹配值，将匹配值小于第四预设阈值的输入刻画词所对应的文本刻画选出，得到反向刻画，匹配值的计算公式为，其中/>为匹配值，/>，/>是一个可学习的超参数，/>表示两个特征之间的相似度，/>为图像特征，/>为所有文本刻画中的一个文本刻画，为/>文本刻画对应的输入刻画词，/>为所有文本刻画增强后的输入刻画词。

作为优选，使用上下文环境向量对文本刻画进行增强之前，还包括：

将文本刻画依次输入图文多模态模型中运算，得到检测结果，将检测结果反馈给待检测用户，待检测用户对检测结果进行正确或不正确的标注，当标注内容为不正确时，将该检测结果所对应的文本刻画进行增强。

一种基于用户自定义类别的物体检测系统，包括：

辅助输入数据计算模块：用于获取待检测用户的输入数据，基于短语边界点建模技术的检测目标辅助刻画生成技术对输入数据进行处理，得到检测目标的辅助输入数据，其中，输入数据包括文本数据和图像数据，检测目标为待检测用户的输入数据的物体检测结果；

文本刻画计算模块：用于基于多模态重构对准网络的检测目标刻画生成技术对输入数据和辅助输入数据进行处理，得到检测目标的文本刻画，文本刻画的数量大于等于两个；

反向刻画计算模块：用于基于图像自适应的目标刻画匹配度估算技术对文本刻画进行筛选，将不符合用户自定义需求的文本刻画选出，得到反向刻画；

物体检测模块：用于将反向刻画和筛选后的文本刻画汇总后输入图文多模态模型中运算，得到待检测用户的检测目标；

模型调优模块：用于存储待检测用户得到检测目标后的反馈数据，基于反馈数据对图文多模态模型进行调优。

一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如上述中任一所述的一种基于用户自定义类别的物体检测方法。

一种计算机可读存储介质，所述存储介质中存储的计算机程序被计算机执行时实现如上述中任一所述的一种基于用户自定义类别的物体检测方法。

本发明具有以下有益效果：

（1）本方案支持用户自定义类别的物体检测技术，用户只需要输入一段语言描述（即文本数据）和一张相关图像（即图像数据），就能生成合适的检测目标的文本刻画，将其输入现有的图文多模态模型中，即可输出得到物体检测结果，能够充分激发图文多模态模型的物体检测能力，不需要复杂的模型训练，方案具有较好的性价比；

（2）本方案结合了多模态重构对准网络的检测目标刻画生成技术和图文多模态模型的图像识别能力，极大方便用户对图像识别技术的使用，方案具有较强的普及能力；

（3）本方案对输入的数据量没有要求，只需要用户按照意图自定义的输入一段语言描述和一张相关图像，通过短语边界点建模技术的检测目标辅助刻画生成技术、多模态重构对准网络的检测目标刻画生成技术、图像自适应的目标刻画匹配度估算技术的数据处理，即可生成合适的检测目标的文本刻画，输入图文多模态模型检测后，得到最符合用户需求的检测目标，便于用户的使用，且检测速度快，便于技术推广；

（4）本方案为提高物体检测的精度，基于输入数据通过历史文本库DST和历史图像库DSI生成辅助输入数据，历史文本库DST和历史图像库DSI都是使用的用户越多，数据库积累的文本数据或图像数据越多，能够应对大量用户都需要进行自定义类别物体检测的应用场景，且通过生成辅助输入数据的方式，能够避免忽略重要的背景信息以及最大限度发挥图文多模态模型的物体检测能力；

（5）本方案同时对文本数据模态、图像数据模态以及辅助数据模态进行多模态同时的训练，即支持同时进行多模态的数据处理，在进行多模态数据同时处理之后，再进行多模态重构对准处理，能进一步优化检测目标文本刻画的生成效果；

（6）本方案的实现，将会极大加快图像分析技术的普及，提高生产力，改善生活状态，方案具有一定的社会意义。

附图说明

图1为本发明中一种基于用户自定义类别的物体检测方法的流程图；

图2为本发明实施例1中物体检测系统的主要步骤的流程图；

图3为本发明实施例1中基于重构对准网络的检测目标刻画生成模型的架构示意图；

图4为本发明实施例1中多模态目标初级刻画重构对准示意图；

图5为本发明实施例1中基于图像自适应的目标刻画匹配度估算的架构示意图；

图6为本发明中物体检测系统的结构示意图。

具体实施方式

实施例1

如图1所示，一种基于用户自定义类别的物体检测方法，包括以下步骤：

S11、获取待检测用户的输入数据，基于短语边界点建模技术的检测目标辅助刻画生成技术对输入数据进行处理，得到检测目标的辅助输入数据，其中，输入数据包括文本数据和图像数据，检测目标为待检测用户的输入数据的物体检测结果；

S12、基于多模态重构对准网络的检测目标刻画生成技术对输入数据和辅助输入数据进行处理，得到检测目标的文本刻画，文本刻画的数量大于等于两个；

S13、基于图像自适应的目标刻画匹配度估算技术对文本刻画进行筛选，将不符合用户自定义需求的文本刻画选出，得到反向刻画；

S14、将反向刻画和筛选后的文本刻画汇总后输入图文多模态模型中运算，得到待检测用户的检测目标；

S15、存储待检测用户得到检测目标后的反馈数据，基于反馈数据对图文多模态模型进行调优。

如流程图图2所示，本实施例方案整个用户自定义物体检测流程具体包含如下步骤：首先用户输入一段自然语言描述和一张相关图像，并利用基于短语边界点建模技术的检测目标辅助刻画生成技术获得检测目标辅助输入。其次，调用基于多模态重构对准网络的检测目标刻画生成模型，获得检测目标的多个文本刻画。然后，在自定义物体检测使用过程中基于图像自适应目标刻画匹配度估算技术生成目标反向刻画以进一步满足检测目标自定义需求。最后，基于自定义物体检测使用过程中的反馈数据对图文多模态模型进行优化。

其中，包括几个关键内容，分别进行如下说明：

（1）基于多模态重构对准网络的检测目标刻画生成技术：为自定义物体检测类别，用户输入一段自然语言描述和一张相关图像。调用基于多模态重构对准网络的检测目标刻画生成模型，获得检测目标的文本刻画。整个网络基于变形神经网络（Transformer）架构。

（2）图文多模态模型：支持图像和文本两种模态的变形神经网络（Transformer）模型。支持输入目标刻画文本和图像，把文本中表达并在输入图像中出现的物体识别出来。同时也支持输入图像，得到图像中主要物体的属性描述信息。比如输入目标刻画文本为“找出穿红色衣服的人”，该模型可以把输入图像中所有穿红色衣服的人定位出来。同时该模型还可以对输入图像生成描述该图像里主要物体的文本信息。

（3）历史文本库DST：用户自定义检测输入的自然语言文本数据库，当系统使用的用户越多，数据库积累的文本数据越多。对每个文本，使用图文多模态模型得到其嵌入（Embedding）向量表示，把文本和对应的嵌入（Embedding）向量作为一项数据存入文本库。文本的嵌入向量可以作为文本的特征描述，方便后续的相似文本挖掘。

（4）历史图像库DSI：用户自定义检测的图片数据库，当系统使用的用户越多，数据库积累的图片数据越多。对每个图像，使用图文多模态模型提取图像特征（Image Feature）向量，把图片和对应向量作为一项数据存入图片库。图像特征向量描述了图像的语义信息，方便后续的相似图像挖掘。

（5）基于短语边界点建模技术的检测目标辅助刻画生成技术：为最大限度发挥图文多模态模型的能力，也为补充自定义输入可能遗漏的重要背景信息，所以借助系统积累的历史信息进行检测目标辅助刻画生成。

（6）基于图像自适应的目标刻画匹配度估算技术的反向刻画生成技术：当一个检测目标有多个刻画文本时，在使用过程中，通过用户标注信息和匹配度估算技术来挑选出不适合当前自定义需求的刻画语句并作为目标反向刻画使用。

（7）图文多模态模型调优：根据用户使用过程中的反馈数据，把反馈正样本和负样本分别进行标注，标注信息包含需识别的物体位置、物体刻画文本等信息。当积累到一定数量的反馈数据时，对图文多模态模型进行更新，更新后的模型具有更好的检测效果。

注：在后续对整个方案的介绍中，基于重构对准网络的多模态检测目标刻画模型训练与推理、基于短语边界点建模技术的检测目标辅助刻画生成技术、基于图像自适应目标刻画匹配度估算的反向刻画生成技术、图文多模态模型更新等步骤都需要在具有较强计算能力的远程服务器上进行。

上述各步骤内容，具体如下：

1、基于短语边界点建模技术的检测目标辅助刻画生成技术。

待检测用户在输入文本（即文本数据）和图片（即图像数据）时，一方面可能忽略了重要的背景信息，另一方面自定义输入可能难以最大限度发挥图文多模态模型的能力，所以借助系统积累的历史文本库DST和历史图像库DSI进行历史信息查找。获得历史信息后，通过短语边界点建模技术生成检测目标辅助刻画。

1.1历史信息查找。

设当前用户输入的文本是，图像是/>，历史信息查找具体包含如下步骤：

（1）进行文本描述查找。为从历史文本库DST中得到文本/>的相似文本集合，设输入文本/>的嵌入向量表示为/>，设文本库DST中第i项的嵌入向量表示为，文本描述查找通过在文本库中查询与/>相似的向量，当两个文本特征距离/>小于一定阈值（该阈值即第一预设阈值）时，把对应的文本加入集合S1中，集合S1即相似文本集合，/>为历史文本库DST中第i项文本，i为非零的自然数。

（2）进行图像输入描述查找。从历史图像库DSI中得到近似图像支持集合S2。具体来说，使用图文多模态模型提取输入图像/>的特征/>，设图像库DSI中第i项为，图像刻画扩展是通过在图像库中查询与/>相似的向量，当图像特征距离小于一定阈值（该阈值即第二预设阈值）时，使用图文多模态模型得到对应图像（该图像即相似图像集合中的图像）的刻画文本，并把对应文本加入到集合S2中，集合S2即刻画文本集合。

（3）把文本集合S1和S2合并成辅助输入集合。

历史图像和文本数据库中包含大量的用户自定义实例，因而能覆盖多种多样的用户需求。由于中包含的描述来自与当前输入相似的历史用户输入文本和图像，因而可能包含用户自定义检测的未明确需求。为进一步挖掘/>中的关键信息，接下来使用短语边界点建模技术生成其中的关键短语。用户的文本输入/>、用户的图像输入/>和辅助输入/>中的关键短语共同作为多模态重构对准网络的输入。

1.2基于短语边界点建模的辅助刻画生成。

设集合中的一句语言描述为/>，它的长度为/>，辅助刻画生成的目标是找到/>中的关键短语/> ，其中/>为短语的个数，/>分别表示短语在/>中的左右边界，Ph为关键短语。整个辅助刻画生成可以建模为短语边界点去噪恢复过程。具体来说，把每个短语句的边界点作为数据采样点，边界点正向加噪过程通过在短语边界点上逐步增加高斯噪声模拟边界点随机分布的情况，边界点反向去噪过程通过逐步移除噪声恢复真实的边界点位置。

1.2.1边界点正向加噪过程。

边界点正向加噪过程通过在短语边界点上逐步增加高斯噪声进行建模。为对齐不同描述中的短语个数的不同，设最大的短语个数为，K和N均为非零的自然数。为了方便，使用В/>表示/>个短语的/>边界点。设短语边界采样的起始点样本为/>=В，通过正向加噪过程，可以得到在/>时刻的样本为：

；

其中X_t为t时刻的样本，是符合高斯分布的噪声样本，/>的定义如下：

；

为预先定义的高斯分布的方差系数。通过这样的方式，可以得到每个时刻的样本，也就是/>。

1.2.2边界点反向去噪过程。

边界点反向去噪是从加噪采样（即从最大时刻的样本X_T）进行反向去噪获得原始采样的过程。假设/>表示长度为/>的时间序列，/>。从噪声采样/>到/>的过程如下：

；

。

其中和/>是时刻/>短语边界点预测值和噪声预测值。/>和/>是两个相邻样本，/>和/>均为预先定义的高斯分布的方差系数。/>是一个可训练的去噪神经网络，其输入噪声采样/>和语句/>，输出短语边界/>。/>包含两部分：完整语句编码器和短语解码器。其中完整语句编码器输入句子/>（Q即文本数据中的语句），输出整个句子的编码/>。短语解码器首先获得/>个噪声采样/>，获得/>后，为继续增进编码效果，增加两个注意力层，第一注意力层捕捉的是/>内部的交互信息，第二注意力层捕捉的是/>和/>之间的交互信息。增强后的噪声可以表示为：

；

其中表示两个注意力层，/>是一个正弦脉冲信号。

针对每个短语的左右两个边界点，首先计算融合表达式/>和/>，然后计算左右边界点的概率表达：

；

。

其中是可训练的参数矩阵，/>表示可训练的双层感知网络，/>和为短语左右两边的边界点的概率。

1.2.3去噪神经网络训练过程。

设标注好的短语训练样本个数为，通过边界点模型预测的短语个数为/>，为进行训练，需要把标注样本和预测结果进行匹配，匹配的结果用/>表示对应第/>个预测结果的标注样本。这样，通过最大化预测似然函数的方式来训练边界点反向去噪过程：

；

其中分别表示左右边界点的最优匹配索引。

1.2.4短语边界点生成过程。

在完成边界点去噪神经网络训练后，通过如下步骤可生成准确的边界点位置。

（1）首先从高斯分布中采样个样本，/>；

（2）其次调用训练完成的模型，计算/>，/>，/>。/>表示长度为/>的时间序列，/>，从 /> 到/>1迭代计算/>，如下所示：

；

（3）然后根据预测的短语的边界点的概率值，解析出个候选短语的边界点，其中/>，/>；

（4）最后，进行去重和过滤操作。去重操作是从左右边界点相同的候选短语中选择概率值最高的。过滤操作是指过滤掉概率小于一定阈值（即第三预设阈值）的候选短语。

经过上述操作，得到关键短语，汇总后，得到辅助输入数据。

2、基于多模态重构对准网络的检测目标刻画生成技术。

用户在自定义物体检测目标时，输入一段自然语言描述和一张相关图像/>，为了把用户的真实意图表达出来，检测目标刻画的目的是生成一段精准的文字刻画，该文字包含/>个字符。一般的做法是基于图像、文本训练数据分别获得各自模态的目标刻画生成模型。在实际应用中，由于训练数据获取困难，当训练数据较少时单独训练每个模态的模型困难较大。因此提出基于多模态重构对准网络的检测目标刻画生成技术。不同模态的描述从不同维度描述了检测目标的特性，重构对准网络把多个模态的描述进行对准，提取多模态描述中重要公共特质，同时过滤掉其中的噪声描述。整个模型架构如图3所示，其中辅助输入是通过基于历史图文信息查找的检测目标辅助刻画生成技术获得，即步骤1中最终得到的辅助输入数据，具体包含如下主要部分：

（1）图像刻画编码器：对输入图像信息进行信息抽取的神经网络，选用变形神经网络架构，生成检测目标初级图像刻画。

（2）文本刻画编码器：对输入文本信息进行信息抽取的神经网络，选用变形神经网络架构，生成检测目标初级文本刻画。

（3）辅助刻画编码器：对历史用户输入信息进行信息抽取的神经网络，选用变形神经网络架构，生成检测目标初级辅助刻画。

（4）多模态重构对准网络：多种模态描述信息从不同角度对检测目标进行了描述，重构对准网络通过特征重构技术抽取多种模态描述中的重要公共特质并过滤掉噪声描述，增强后续检测目标刻画的准确性。

（5）刻画生成解码器：对重构后的多模态目标初级刻画进行信息抽取的神经网络，选用变形神经网络架构，生成最终的自定义检测目标刻画。

在获得一定数量的训练数据后，训练过程分为两个步骤。首先通过对多个模态的损失函数联合优化（即对文本模态的损失函数、图像模态的损失函数、辅助模态的损失函数进行联合优化）来获得每个模态对应的刻画编码器和刻画生成解码器，然后通过对多个模态的初级目标刻画重构对准的方式来进一步优化目标刻画的生成效果。

2.1多模态重构对准训练。

训练第一步是进行多模态同时训练。基于多模态同时训练的检测目标刻画生成步骤如下：

（1）输入图像，首先生成检测目标初级图像刻画/>，然后/>生成检测目标刻画/>。

（2）输入自然语言描述，首先生成检测目标初级文本刻画P_D，然后/>生成检测目标刻画/>。

（3）输入辅助刻画，首先生成检测目标初级辅助刻画P_A，然后/>生成检测目标刻画/>。

为进行多模态同时训练，首先获得图像特征表示，文本特征表示/>，辅助特征表示/>。其次分别生成每个模态的目标初级刻画，分别为检测目标初级图像刻画/>，检测目标初级文本刻画/>，检测目标初级辅助刻画/>。每种目标初级刻画的维度都是/>，其中/>表示目标刻画的个数，/>表示每个目标刻画的维度。所有特征和初级目标刻画总结如下所示：

；

其中、/>、/>分别为对应的特征和初级目标刻画的集合，/>表示连接操作。

然后，每种模态的初级目标刻画都作为对应模态解码器的输入，通过解码器分别生成对应模态的检测目标刻画。设数据的正确标注为：，训练过程通过最小化自然语言生成损失函数来进行优化：

；

其中，分别表示三个模态对应的损失函数。

最后，把三种损失函数加权相加，就是多模态同时训练的优化目标：

；

其中是控制三种模态损失的权重系数，/>是总的损失函数，本实施例方案中选择/>。

通过上述过程，训练后得到每个模态对应的刻画编码器和刻画生成解码器。

训练第二步是进行多模态重构对准训练。在完成每个模态的检测目标刻画模型训练后，为增强效果，对多个模态的初级目标刻画进行重构对准训练。重构对准可以抽取多个模态描述的重要公共特质，同时过滤掉其中的噪声描述。

具体来说，对所有的三个模态都进行重构。假设三个模态的初级目标刻画分别为，/>，/>。以初级图像目标刻画/>为例，用图像刻画/>去挖掘隐藏在每个模态描述中的目标刻画特性，具体定义如下：

；

其中、/>、/>都为权重系数。

同样的，对初级文本刻画和初级辅助刻画都进行同样的重构对准，可以获得对应的重构表达，如和/>。通过把重构对准后的多个表达合并在一起得到完整的对准描述。重构对准是多个模态相互对准的过程，如图4所示。

为进行训练，设数据的正确标注为：，通过最小化自然语言生成损失函数来训练整个网络：

；

其中，为重构后的模态对应的损失函数。

在训练完成后，推理阶段时整个生成流程遵循从输入到重构对准表达再到检测目标刻画的步骤，如下所示：

。

进行多模态重构对准训练之后，提取出三个模态的重要公共特质，再通过对应的刻画生成解码器进行解码，得到检测目标的文本刻画。

2.2检测目标多刻画生成。

通过对输入图像进行数据增强，比如加入噪声、旋转等操作，对输入文本描述进行同义词替换等操作，可以轻微改变模型输入，生成多个检测目标刻画并组成集合。因此，文本刻画的数量大于等于两个，为多个。在后续的自定义物体检测应用阶段，生成合适的检测目标刻画和检测目标反向刻画。

3、基于图像自适应目标刻画匹配度估算的反向刻画生成技术。

目标反向刻画生成的目的是挑选出不适合当前自定义需求的刻画语句（即挑选出不合适的文本刻画）。本方案基于图像自适应的目标刻画匹配度估算技术来生成检测目标的反向刻画。在检测目标刻画使用过程中，通过用户标注信息和匹配度估算技术来挑选出不适合当前自定义需求的刻画语句并作为检测目标的反向刻画使用。

3.1基于图像自适应的目标刻画匹配度估算。

目标刻画匹配度估算的核心理念就是针对每个输入图像自适应的估算刻画词与图像的匹配程度。为充分利用神经网络可微分学习的特性，使用可学习的上下文环境向量去增强刻画词并基于输入图像的内容去估计刻画词文本和图像特征之间的相似度。上下文环境向量可以抽取当前输入图像的个性化信息。

具体来说，对一个刻画语句，如“一副关于物体a的图像”，引入个可学习的上下文环境向量/>，和一个轻量级的元网络/>，其中/>表示元网络的参数。每一个上下文环境向量通过如下公式获得：

；

其中，/>表示对应图像的特征。

使用基于环境向量增强后的输入刻画词，也就是：

；

这样的话，刻画词与图像的匹配概率可以计算如下：

；

其中，/>是一个可学习的超参数，/>表示两个特征之间的相似度，/>为所有文本刻画中的一个文本刻画，/>为文本刻画对应的输入刻画词，/>为所有文本刻画增强后的输入刻画词，即表示总的输入刻画词，整个计算流程如图5所示。

在训练过程中，同时更新上下文环境变量和元网络参数/>。元网络是一个双层的神经网络，它的输入就是图像特征编码器生成的图像特征编码。每个上下文环境变量/>的长度都和图文模型输出的文本特征长度一致。每项输入数据都包含图像和对应的刻画文本，训练目标就是让图像特征和对应的刻画文本特征的相似度最大。

3.2基于匹配度估算技术的目标反向刻画生成。

当用户在使用自定义检测目标刻画过程中发现并标注误报发生时，系统调用基于图像自适应的目标刻画匹配度估算方法生成目标反向刻画，具体步骤如下：

（1）建立目标刻画得分表，/>表示目标刻画集合/>中第i个刻画对应的得分，所有刻画的初始得分都设为0。针对每个用户，维护一份刻画得分表。

（2）系统把图像识别的结果推送给用户，即将文本刻画输入图文多模态模型得到的识别结果反馈给待检测用户，用户进行标注，默认标注为识别结果正确。当用户标注识别结果不正确时，则假定输入的文本刻画未能反映用户的真实意图。

（3）当用户标注误报发生时，把误报的检测目标的文本刻画和图像输入给基于图像自适应的目标刻画匹配估算算法，计算图像特征和文本刻画/>之间的匹配值。当目标刻画（即检测目标的文本刻画）的匹配值小于一定阈值（即第四预设阈值）时，选择把该目标刻画作为检测目标的反向刻画。

反向刻画的用法如下，如一个反向刻画为“穿红色雨披的人”，而用户当前文本刻画为“检测穿红色衣服的人”，则最终输入给图文多模态模型的检测目标的文本刻画为“检测穿红色衣服的人，但不要检测穿红色雨披的人”。

3.3基于语言模型逻辑推理的目标反向刻画生成。

除了直接通过基于图像自适应的目标刻画匹配度估算技术外，也可以基于大语言模型逻辑推理能力和物体属性描述来分析误报原因并挖掘可能的目标反向刻画。大语言模型不仅使用大量文本数据和人工反馈信息进行训练，而且具有上千亿的参数规模，因而具有一定的智能涌现能力，可以完成文本问题回答、文本逻辑推理等任务。图文多模态模型可以生成输入图像中主要物体的描述信息。当用户反馈误报发生时，把物体属性描述信息和检测目标刻画都输入大语言模型，依靠大语言模型找到其中的语义分歧，分析误报的可能原因。

针对一个用户反馈误报示例，假设当前用户自定义目标刻画是“找到穿红色衣服的人”，而当前图像的图文多模态模型输出是“穿红色雨披的人”、“黑色的猫”等。为调用大语言模型的逻辑推理能力，给大语言模型的输入是：已知图像中有“穿红色雨披的人”和“黑色的猫”等物体，在图像中检测“穿红色衣服的人”，用户反馈检测错误，请回答原因？通过大模型推理，可以得到“红色衣服”和“红色雨披”之间在语义上的差异。推理出误报原因后，可以选择把“穿红色雨披的人”当作目标反向刻画用来改进自定义物体检测效果。

4、图文多模态模型调优。

图文多模态模型通过使用一定数量的图像及标注信息进行训练，由于训练数据一般不能涵盖所有的应用场景，并且图文多模态模型的参数规模相对较小，所以一个模型不能适应所有的应用场景。为提高图文多模态模型对实际应用场景的适应能力，可以根据模型在使用过程中用户的反馈数据进行优化。

具体来说，根据用户使用过程中的反馈结果（即待检测用户得到检测目标后的反馈数据），把反馈正样本和负样本分别进行标注，标注信息包含需识别的物体位置、物体刻画文本等信息。当积累到一定数量的反馈数据时，对图文多模态模型进行调优。调优过程是在现有模型基础上，对神经网络模型中的部分参数进行调整，调整的目标是让尽可能多的反馈样本能识别正确。相对于模型重新训练，模型调优可以在短时间内完成训练，节省大量的计算资源，调优后的模型一般具有更好的检测效果。

实施例2

如图6所示，一种基于用户自定义类别的物体检测系统，包括：

辅助输入数据计算模块10：用于获取待检测用户的输入数据，基于短语边界点建模技术的检测目标辅助刻画生成技术对输入数据进行处理，得到检测目标的辅助输入数据，其中，输入数据包括文本数据和图像数据，检测目标为待检测用户的输入数据的物体检测结果；

文本刻画计算模块20：用于基于多模态重构对准网络的检测目标刻画生成技术对输入数据和辅助输入数据进行处理，得到检测目标的文本刻画，文本刻画的数量大于等于两个；

反向刻画计算模块30：用于基于图像自适应的目标刻画匹配度估算技术对文本刻画进行筛选，将不符合用户自定义需求的文本刻画选出，得到反向刻画；

物体检测模块40：用于将反向刻画和筛选后的文本刻画汇总后输入图文多模态模型中运算，得到待检测用户的检测目标；

模型调优模块50：用于存储待检测用户得到检测目标后的反馈数据，基于反馈数据对图文多模态模型进行调优。

上述系统的一种实施方式为，在辅助输入数据计算模块10中，获取待检测用户的输入数据，基于短语边界点建模技术的检测目标辅助刻画生成技术对输入数据进行处理，得到检测目标的辅助输入数据，其中，输入数据包括文本数据和图像数据，检测目标为待检测用户的输入数据的物体检测结果，在文本刻画计算模块20中，基于多模态重构对准网络的检测目标刻画生成技术对输入数据和辅助输入数据进行处理，得到检测目标的文本刻画，文本刻画的数量大于等于两个，在反向刻画计算模块30中，基于图像自适应的目标刻画匹配度估算技术对文本刻画进行筛选，将不符合用户自定义需求的文本刻画选出，得到反向刻画，在物体检测模块40中，将反向刻画和筛选后的文本刻画汇总后输入图文多模态模型中运算，得到待检测用户的检测目标，在模型调优模块50中，存储待检测用户得到检测目标后的反馈数据，基于反馈数据对图文多模态模型进行调优。

实施例3

在上述实施例基础上，本实施例提供了一种电子设备。

实施例4

在上述实施例基础上，本实施例提供了一种存储介质。

以上所述仅为本发明的具体实施例，但本发明的技术特征并不局限于此，任何本领域的技术人员在本发明的领域内，所作的变化或修饰皆涵盖在本发明的专利范围之中。

Claims

1.一种基于用户自定义类别的物体检测方法，其特征在于，包括：

获取待检测用户的输入数据，基于文本数据从历史文本库DST中提取相似文本集合，基于图像数据从历史图像库DSI中提取相似图像集合，将相似图像集合代入图文多模态模型中计算，得到相似图像集合对应的刻画文本集合，将相似文本集合和刻画文本集合汇总，得到辅助输入集合；基于短语边界点建模技术的检测目标辅助刻画生成技术提取辅助输入集合中文本语句的关键短语，将关键短语汇总，得到辅助输入数据，其中，输入数据包括文本数据和图像数据，检测目标为待检测用户的输入数据的物体检测结果；基于文本数据从历史文本库DST中提取相似文本集合，具体为：将历史文本库DST中文本依次代入公式|Emb(D_i)-Emb(D₁)|中进行计算，当计算结果小于第一预设阈值时，将对应文本加入相似文本集合，其中，D₁为文本数据，Emb(D₁)为D₁的嵌入向量，D_i为历史文本库DST中第i项文本，Emb(D_i)为D_i的嵌入向量，i为非零的自然数；基于图像数据从历史图像库DSI中提取相似图像集合，具体为：使用图文多模态模型提取图像数据I₁的特征Feat(I₁)，并提取历史图像库DSI中第i项图像的特征Feat(I_i)，将Feat(I₁)和Feat(I_i)代入|Feat(I₁)-Feat(I_i)|进行计算，当计算结果小于第二预设阈值时，将对应图像加入相似图像集合；

获取训练样本数据，基于训练样本数据对文本模态的损失函数、图像模态的损失函数、辅助模态的损失函数进行联合优化，得到每个模态对应的刻画编码器和刻画生成解码器；分别提取文本数据、图像数据和辅助输入数据的特征，将特征分别输入对应模态的刻画编码器，得到检测目标初级文本刻画、检测目标初级图像刻画和检测目标初级辅助刻画；分别用检测目标初级文本刻画、检测目标初级图像刻画和检测目标初级辅助刻画挖掘隐藏在每个模态描述中的目标刻画特性，进行重构对准，合并后得到完整的刻画描述，将完整的刻画描述输入对应的刻画生成解码器，得到检测目标的文本刻画，文本刻画的数量大于等于两个；

使用上下文环境向量对文本刻画进行增强，得到增强后的输入刻画词；提取图像数据中的图像特征，计算输入刻画词与图像特征之间的匹配值，将匹配值小于第四预设阈值的输入刻画词所对应的文本刻画选出，得到反向刻画，匹配值的计算公式为p(y|Feat)＝exp(sim(Feat，f(g_y(Feat)))/τ)/Ω，其中p(y|Feat)为匹配值， τ是一个可学习的超参数，sim表示两个特征之间的相似度，Feat为图像特征，y为所有文本刻画中的一个文本刻画，g_y(Feat)为y文本刻画对应的输入刻画词，g_i(Feat)为所有文本刻画增强后的输入刻画词；

2.根据权利要求1所述的一种基于用户自定义类别的物体检测方法，其特征在于，得到关键短语的处理过程具体为：

依据高斯分布选取K_Pred个样本，其中K_Pred为非零自然数；

使用训练完成的模型，计算/>P^l、P^r，其中，/>模型为去噪神经网络模型，/>是时刻μ_i短语的边界点的预测值，μ表示长度为/>的时间序列，/>从到i＝1迭代计算/> 和是K_Pred个样本中的两个相邻样本，/>和/>均为预先定义的高斯分布的方差系数，Q为文本数据中的语句，P^l和P^r为短语左右两边的边界点的概率，是可训练的参数矩阵，G(.)表示可训练的双层感知网络，C_Q为Q输入/>模型后输出的编码，/>为增强后的噪声采样；

依据边界点的概率值，解析出K_Pred个候选短语的边界点其中l，r分别为短语左右的边界点；

3.根据权利要求1所述的一种基于用户自定义类别的物体检测方法，其特征在于，使用上下文环境向量对文本刻画进行增强之前，还包括：

4.一种基于用户自定义类别的物体检测系统，其特征在于，包括：

辅助输入数据计算模块：用于获取待检测用户的输入数据，基于文本数据从历史文本库DST中提取相似文本集合，基于图像数据从历史图像库DSI中提取相似图像集合，将相似图像集合代入图文多模态模型中计算，得到相似图像集合对应的刻画文本集合，将相似文本集合和刻画文本集合汇总，得到辅助输入集合；基于短语边界点建模技术的检测目标辅助刻画生成技术提取辅助输入集合中文本语句的关键短语，将关键短语汇总，得到辅助输入数据，其中，输入数据包括文本数据和图像数据，检测目标为待检测用户的输入数据的物体检测结果；基于文本数据从历史文本库DST中提取相似文本集合，具体为：将历史文本库DST中文本依次代入公式|Emb(D_i)-Emb(D₁)|中进行计算，当计算结果小于第一预设阈值时，将对应文本加入相似文本集合，其中，D₁为文本数据，Emb(D₁)为D₁的嵌入向量，D_i为历史文本库DST中第i项文本，Emb(D_i)为D_i的嵌入向量，i为非零的自然数；基于图像数据从历史图像库DSI中提取相似图像集合，具体为：使用图文多模态模型提取图像数据I₁的特征Feat(I₁)，并提取历史图像库DSI中第i项图像的特征Feat(I_i)，将Feat(I₁)和Feat(I_i)代入|Feat(I₁)-Feat(I_i)|进行计算，当计算结果小于第二预设阈值时，将对应图像加入相似图像集合；

文本刻画计算模块：用于获取训练样本数据，基于训练样本数据对文本模态的损失函数、图像模态的损失函数、辅助模态的损失函数进行联合优化，得到每个模态对应的刻画编码器和刻画生成解码器；分别提取文本数据、图像数据和辅助输入数据的特征，将特征分别输入对应模态的刻画编码器，得到检测目标初级文本刻画、检测目标初级图像刻画和检测目标初级辅助刻画；分别用检测目标初级文本刻画、检测目标初级图像刻画和检测目标初级辅助刻画挖掘隐藏在每个模态描述中的目标刻画特性，进行重构对准，合并后得到完整的刻画描述，将完整的刻画描述输入对应的刻画生成解码器，得到检测目标的文本刻画，文本刻画的数量大于等于两个；

反向刻画计算模块：用于使用上下文环境向量对文本刻画进行增强，得到增强后的输入刻画词；提取图像数据中的图像特征，计算输入刻画词与图像特征之间的匹配值，将匹配值小于第四预设阈值的输入刻画词所对应的文本刻画选出，得到反向刻画，匹配值的计算公式为p(y|Feat)＝exp(sim(Feat，f(g_y(Feat)))/τ)/Ω，其中p(y|Feat)为匹配值，τ是一个可学习的超参数，sim表示两个特征之间的相似度，Feat为图像特征，y为所有文本刻画中的一个文本刻画，g_y(Feat)为y文本刻画对应的输入刻画词，g_i(Feat)为所有文本刻画增强后的输入刻画词；

5.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1-3中任一所述的一种基于用户自定义类别的物体检测方法。

6.一种计算机可读存储介质，其特征在于，所述存储介质中存储的计算机程序被计算机执行时实现如权利要求1-3中任一所述的一种基于用户自定义类别的物体检测方法。