CN117173530B

CN117173530B - 目标异常检测方法及装置

Info

Publication number: CN117173530B
Application number: CN202311447067.5A
Authority: CN
Inventors: 朱炳科; 朱贵波; 古兆鹏; 王金桥; 陈盈盈
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-02-13
Anticipated expiration: 2043-11-02
Also published as: CN117173530A

Abstract

本发明提供一种目标异常检测方法及装置，属于计算机视觉技术领域。方法包括：将目标的待检测视觉数据和文本数据分别输入对应的编码器，得到所述编码器输出的对应第一视觉特征和第一文本特征；基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合，得到第一融合特征；将所述第一视觉特征和所述第一融合特征输入异常定位器，得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果；将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中，得到所述大语言模型输出的对应第一预测答案。本发明提高异常检测的准确性，并可通过提问获取丰富的异常信息。

Description

目标异常检测方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种目标异常检测方法及装置。

背景技术

目标异常检测方法用于检测物件是否存在异常。现有的目标异常检测方法主要分为基于重建的方法和基于特征对比的方法。

基于重建的方法试图根据测试样本重建其对应的正常样本，根据重建的正常样本与测试样本之间的差异检测异常。基于特征对比的方法通过对比测试样本和正常样本的相似度进行异常检测。

现有的目标异常检测方法只能给出测试样本和正常样本之间的相似度分数，对测试样本的异常信息检测不准确。

发明内容

本发明提供一种目标异常检测方法及装置，用以解决现有技术中对目标的异常信息检测不准确的缺陷，实现准确检测目标的丰富异常信息。

本发明提供一种目标异常检测方法，包括：

将目标的待检测视觉数据和文本数据分别输入对应的编码器，得到所述编码器输出的对应第一视觉特征和第一文本特征；

基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合，得到第一融合特征；

将所述第一视觉特征和所述第一融合特征输入异常定位器，得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果；

将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中，得到所述大语言模型输出的对应第一预测答案；

其中，所述编码器、交叉注意力模块、异常定位器和大语言模型通过以所述目标的视觉数据样本、所述视觉数据样本中异常区域的文本描述信息和对所述视觉数据样本中异常区域的提问为样本，以标注的所述视觉数据样本中异常区域的实际分割结果和提问对应的预设答案为标签进行训练得到。

根据本发明提供的一种目标异常检测方法，在所述将目标的待检测视觉数据和文本数据分别输入对应的编码器，得到所述编码器输出的对应第一视觉特征和第一文本特征之前，还包括：

将所述视觉数据样本和所述文本描述信息依次经过所述编码器、所述交叉注意力模块和所述异常定位器，得到所述异常定位器输出的所述视觉数据样本中异常区域的第二预测分割结果；

根据所述视觉数据样本中异常区域的第二预测分割结果和实际分割结果，对所述编码器、所述交叉注意力模块和所述异常定位器进行训练；

将所述视觉数据样本和所述文本描述信息依次经过训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器，以及所述大语言模型，得到所述大语言模型输出的所述视觉数据样本对应的提问的第二预测答案；

根据所述提问的第二预测答案和预设答案，对所述大语言模型进行训练；

将所述视觉数据样本和所述文本描述信息依次经过训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型，得到所述异常定位器输出的所述视觉数据样本中异常区域的第三预测分割结果和所述大语言模型输出的所述视觉数据样本对应的提问的第三预测答案；

根据所述视觉数据样本中异常区域的第三预测分割结果和实际分割结果，以及所述提问的第三预测答案，对训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型进行再次训练。

根据本发明提供的一种目标异常检测方法，所述视觉数据样本包括多种模态的视觉数据样本。

根据本发明提供的一种目标异常检测方法，所述根据所述视觉数据样本中异常区域的第二预测分割结果和实际分割结果，对所述编码器、所述交叉注意力模块和所述异常定位器进行训练，包括：

确定每种模态的所述视觉数据样本中异常区域的第二预测分割结果和实际分割结果之间的第一损失；

根据所述第一损失之间的差值对所述编码器、所述交叉注意力模块和所述异常定位器进行训练。

根据本发明提供的一种目标异常检测方法，所述第一损失包括焦点损失和Dice损失，所述根据所述第一损失之间的差值对所述编码器、所述交叉注意力模块和所述异常定位器进行训练，包括：

确定所述多种模态的视觉数据样本对应的焦点损失之间的第一差值；

确定所述多种模态的视觉数据样本对应的Dice损失之间的第二差值；

根据所述第一差值和所述第二差值，对所述编码器、所述交叉注意力模块和所述异常定位器进行训练。

根据本发明提供的一种目标异常检测方法，所述根据所述视觉数据样本中异常区域的第三预测分割结果和实际分割结果，以及所述提问的第三预测答案，对训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型进行再次训练，包括：

确定每种模态的所述视觉数据样本中异常区域的第三预测分割结果和实际分割结果之间的第二损失之间的差值；

提取所述提问的第三预测答案的文本特征和每种模态的所述视觉数据样本中异常区域的第三预测分割结果的第二视觉特征；

确定所述提问的第三预测答案的文本特征和每种模态的所述视觉数据样本对应的第二视觉特征之间的距离；

根据所述第二损失之间的差值和所述第二视觉特征之间的距离，对训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型进行再次训练。

根据本发明提供的一种目标异常检测方法，在所述将所述视觉数据样本和所述文本描述信息依次经过所述编码器、所述交叉注意力模块和所述异常定位器，得到所述异常定位器输出的所述视觉数据样本中异常区域的第二预测分割结果之前，还包括：

对所述目标的正常样本的图像数据进行泊松编辑，生成异常图像样本；

对所述目标的正常样本的点云数据进行剪切和/或拼接，生成异常点云样本；

将所述正常样本的图像数据、点云数据、所述异常图像样本和所述异常点云样本作为所述视觉数据样本。

本发明还提供一种目标异常检测装置，包括：

编码模块，用于将目标的待检测视觉数据和文本数据分别输入对应的编码器，得到所述编码器输出的对应第一视觉特征和第一文本特征；

融合模块，用于基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合，得到第一融合特征；

定位模块，用于将所述第一视觉特征和所述第一融合特征输入异常定位器，得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果；

预测模块，用于将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中，得到所述大语言模型输出的对应第一预测答案；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述目标异常检测方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述目标异常检测方法。

本发明提供的目标异常检测方法及装置，通过将目标的待检测视觉数据的视觉特征和目标的文本数据的文本特征进行交互融合，加强视觉特征和文本特征之间的匹配度，从而提高异常检测的精度；通过异常定位器可根据视觉特征和融合特征定位到待检测视觉数据中异常区域；利用大语言模型参考待检测视觉数据的分割结果、视觉特征、文本特征和用户的提问，得到待检测视觉数据中丰富的异常信息。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的目标异常检测方法的流程示意图；

图2是本发明提供的目标异常检测方法的框架示意图；

图3是本发明提供的目标异常检测方法中泊松图像编辑的示意图；

图4是本发明提供的目标异常检测装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1描述本发明的一种目标异常检测方法，包括：

步骤101，将目标的待检测视觉数据和文本数据分别输入对应的编码器，得到所述编码器输出的对应第一视觉特征和第一文本特征；

目标可为待检测物品。待检测视觉数据可为点云数据、可见光图像数据和多光谱图像数据中的一种或多种模态数据。

文本数据包括目标的每种属性的多种属性值，目标的属性包括目标的异常属性。例如，文本数据中包括目标的种类和目标异常的类型等。文本数据为预先设定的。

将目标的待检测视觉数据和文本数据输入对应模态的编码器中，得到对应的特征向量。编码器可为卷积神经网络，本实施例对编码器的种类不作限定。

如图2所示，可将待检测视觉数据中的图像数据输入图像编码器中，得到对应的图像特征；将待检测视觉数据中的点云数据输入点云编码器中，得到对应的点云特征；将目标的文本数据输入文本编码器中，得到对应的文本特征。文本特征为表示目标正常或异常的语义。

步骤102，基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合，得到第一融合特征；

可使用交叉注意力模块将待检测视觉数据中图像数据的第一视觉特征和第一文本特征进行交互融合，得到图像-文本融合特征。将待检测视觉数据中点云数据的第一视觉特征和第一文本特征进行交互融合，得到点云-文本融合特征/>。

记编码器的第i层输出的图像特征为，编码器的第i层输出的点云特征为，编码器的第i层输出的文本特征为/>。将编码器的同一层输出的文本特征和图像特征、点云特征使用交叉注意力模块进行特征融合，公式如下：

；

其中，T为转置操作，d_k是编码器的第i层输出的特征通道数，n为编码器的总层数。

步骤103，将所述第一视觉特征和所述第一融合特征输入异常定位器，得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果；

异常定位器可为反卷积神经网络。可将每种模态的待检测视觉数据的第一视觉特征与第一文本特征进行融合后，与每种模态的待检测视觉数据的第一视觉特征一起输入异常定位器中，得到每种模态的待检测视觉数据中异常区域的第一预测分割结果。

如图2所示，将待检测视觉数据中图像数据的第一视觉特征与第一文本特征进行融合后，与图像数据的第一视觉特征一起输入异常定位器中，得到图像数据中异常区域的第一预测分割结果。

将待检测视觉数据中点云数据的第一视觉特征与第一文本特征进行融合后，与点云数据的第一视觉特征一起输入异常定位器中，得到点云数据中异常区域的第一预测分割结果。

步骤104，将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型（Large Language Model，LLM）中，得到所述大语言模型输出的对应第一预测答案；

将编码器提取的第一视觉特征和第一文本特征，以及异常定位器定位的待检测视觉数据中异常区域的第一预测分割结果，连同用户的当前问题一起输入到大语言模型中，大语言模型参考待检测视觉数据、文本数据和用户的当前提问，对用户的当前提问进行文本回答。

可将异常区域的第一预测分割结果进行卷积和池化操作，得到待检测视觉数据的提示嵌入。将用户的当前提问进行卷积和池化操作，得到当前提问的特征嵌入。

将待检测视觉数据的提示嵌入拼接在当前提问的特征嵌入之前，然后和编码器提取的第一视觉特征和第一文本特征一起输入到大语言模型中，得到大语言模型输出的当前提问的答案。

可将编码器、交叉注意力模块、异常定位器和大语言模型作为整体进行训练后，再使用其进行异常检测。

本实施例通过将目标的待检测视觉数据的视觉特征和目标的文本数据的文本特征进行交互融合，加强视觉特征和文本特征之间的匹配度，从而提高异常检测的精度；通过异常定位器可根据视觉特征和融合特征定位到待检测视觉数据中异常区域；利用大语言模型参考待检测视觉数据的分割结果、视觉特征、文本特征和用户的提问，得到待检测视觉数据中丰富的异常信息。

在上述实施例的基础上，本实施例中在所述将目标的待检测视觉数据和文本数据分别输入对应的编码器，得到所述编码器输出的对应第一视觉特征和第一文本特征之前，还包括：

本实施例对编码器、交叉注意力模块、异常定位器和大语言模型的训练分为三个阶段。

在第一阶段，将编码器、交叉注意力模块和异常定位器作为整体进行训练。将视觉数据样本和文本描述信息分别输入对应的编码器，得到编码器输出的视觉特征和文本特征。将视觉特征和文本特征输入交叉注意力模块，得到交叉注意力模块输出的融合特征。将视觉特征和融合特征输入异常定位器，得到异常定位器输出的第二预测分割结果。

根据异常定位器输出的视觉数据样本中异常区域的第二预测分割结果和视觉数据样本中标注的异常区域的实际分割结果之间的差异，对编码器、交叉注意力模块和异常定位器整体进行训练。

在第二阶段，对大语言模型进行训练。将视觉数据样本和文本描述信息分别输入对应的训练好的编码器，得到编码器输出的视觉特征和文本特征。将视觉特征和文本特征输入训练好的交叉注意力模块，得到交叉注意力模块输出的融合特征。将视觉特征和融合特征输入训练好的异常定位器，得到异常定位器输出的分割结果。将分割结果、视觉特征、文本特征和提问输入大语言模型中，得到大语言模型输出的第二预测答案。

根据大语言模型输出的提问的第二预测答案和预设答案之间的差异，对大语言模型进行低秩适应微调，指导大语言模型给出正确答案。

可使用交叉熵损失来训练大语言模型的低秩适应参数，使得大语言模型的输出结果接近预设答案。交叉熵损失的公式如下：

；

其中，为第i个token（提问）的预设答案，/>为大语言模型预测为预设答案的概率。

在第三阶段，将编码器、交叉注意力模块、异常定位器和大语言模型作为整体进行训练。将视觉数据样本和文本描述信息分别输入对应的训练好的编码器，得到编码器输出的视觉特征和文本特征。将视觉特征和文本特征输入训练好的交叉注意力模块，得到交叉注意力模块输出的融合特征。将视觉特征和融合特征输入训练好的异常定位器，得到异常定位器输出的第三预测分割结果。将分割结果、视觉特征、文本特征和提问输入训练好的大语言模型中，得到大语言模型输出的第三预测答案。

可根据视觉数据样本中异常区域的第三预测分割结果和实际分割结果之间的差异，以及大语言模型输出的提问的第三预测答案的文本特征与第三预测分割结果的视觉特征之间的差异，对编码器、交叉注意力模块、异常定位器和大语言模型整体进行再次训练。

本实施例通过对模型进行三阶段训练，能够向大语言模型提供异常检测所需知识和细粒度语义理解能力；在第二阶段的训练中，通过对大语言模型进行低秩微调，使之更好地完成异常检测任务，更准确地描述视觉数据的内容；通过视觉数据样本的预测分割结果和大语言模型输出答案的一致性约束，加强模型中各模块之间的交互，从而提高整个模型的异常检测精度。

在上述实施例的基础上，本实施例中所述视觉数据样本包括多种模态的视觉数据样本。

视觉数据样本可包括图像模态和点云模态。图像模态的视觉数据样本可包括可见光图像数据和/或多光谱图像数据。

本实施例通过目标的多模态视觉数据监测目标中是否存在异常，并对异常部分进行标注，提高异常检测的准确性。

在上述实施例的基础上，本实施例中所述根据所述视觉数据样本中异常区域的第二预测分割结果和实际分割结果，对所述编码器、所述交叉注意力模块和所述异常定位器进行训练，包括：

在第一阶段的训练中，例如当视觉数据样本中包括图像数据样本和点云数据样本，则计算图像数据样本中异常区域的第二预测分割结果和实际分割结果之间的第一损失，以及点云数据样本中异常区域的第二预测分割结果和实际分割结果之间的第一损失。根据两个第一损失之间的差值对编码器、交叉注意力模块和异常定位器整体进行训练。

在上述实施例的基础上，本实施例中所述第一损失包括焦点损失和Dice损失，所述根据所述第一损失之间的差值对所述编码器、所述交叉注意力模块和所述异常定位器进行训练，包括：

焦点损失的公式为：

；

其中，为视觉数据样本中第i个像素的实际分割结果，/>为异常定位器输出的第二预测分割结果中第i个像素为对应的实际分割结果的概率。

Dice损失的公式为：

；

其中，为视觉数据样本中第i个像素的实际分割结果，/>为异常定位器输出的第i个像素的第二预测分割结果。

在第一阶段的训练中，例如当视觉数据样本中包括图像数据样本和点云数据样本，则计算图像数据样本中异常区域的第二预测分割结果和实际分割结果之间的焦点损失和Dice损失，以及点云数据样本中异常区域的第二预测分割结果的正面视图和实际分割结果的正面视图之间的焦点损失和Dice损失。

确定图像数据样本对应的焦点损失和点云数据样本对应的焦点损失之间的第一差值，以及图像数据样本对应的Dice损失和点云数据样本对应的Dice损失之间的第二差值。根据第一差值和第二差值，对编码器、交叉注意力模块和异常定位器进行训练。

在上述实施例的基础上，本实施例中所述根据所述视觉数据样本中异常区域的第三预测分割结果和实际分割结果，以及所述提问的第三预测答案，对训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型进行再次训练，包括：

在第三阶段的训练中，例如视觉数据样本中包括图像数据样本和点云数据样本，第二损失包括焦点损失和Dice损失。

确定图像数据样本中异常区域的第三预测分割结果和实际分割结果之间的焦点损失，以及点云数据样本中异常区域的第三预测分割结果的正面视图/>和实际分割结果的正面视图之间的焦点损失，并计算这两个焦点损失之间的差值/>。

确定图像数据样本中异常区域的第三预测分割结果和实际分割结果之间的Dice损失，以及点云数据样本中异常区域的第三预测分割结果的正面视图/>和实际分割结果的正面视图之间的Dice损失，并计算这两个Dice损失之间的差值/>。

将大语言模型输出的提问的第三预测答案输入到文本编码器中得到文本特征，将异常定位器输出的图像数据样本中异常区域的第三预测分割结果输入到图像编码器中得到图像特征/>，将异常定位器输出的点云数据样本中异常区域的第三预测分割结果输入到点云编码器中得到点云特征/>。计算文本特征/>与图像特征/>之间的距离/>，如余弦距离。计算文本特征/>与点云特征/>之间的距离，如余弦距离。

总损失函数的公式为：

。

根据总损失函数使用更小的学习率再次优化整个模型中的所有参数，提高异常检测的准确性。

在上述实施例的基础上，本实施例中在所述将所述视觉数据样本和所述文本描述信息依次经过所述编码器、所述交叉注意力模块和所述异常定位器，得到所述异常定位器输出的所述视觉数据样本中异常区域的第二预测分割结果之前，还包括：

在多种模态的视觉数据样本包括图像数据样本和点云数据样本的情况下，对目标的正常样本的图像数据和点云数据进行编辑，模拟生成多模态异常视觉数据样本，并根据生成的多模态异常视觉数据样本编写对应的文本描述信息，构建多模态异常检测数据集。

对正常样本的图像数据进行泊松编辑，模拟生成异常图像样本，如图3所示。对正常样本的点云数据进行剪切和/或拼接其他点云数据，模拟生成异常点云样本。

分别为正常样本的图像数据和点云数据，以及模拟生成的异常图像样本和异常点云样本编写对应的文本描述信息。文本描述信息的内容可包括目标类别、是否含有异常、异常区域的位置等。

下面对本发明提供的目标异常检测装置进行描述，下文描述的目标异常检测装置与上文描述的目标异常检测方法可相互对应参照。

如图4所示，目标异常检测装置包括编码模块401、融合模块402、定位模块403和预测模块404，其中：

编码模块401用于将目标的待检测视觉数据和文本数据分别输入对应的编码器，得到编码器输出的第一视觉特征和第一文本特征；

融合模块402用于基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合，得到第一融合特征；

定位模块403用于将所述第一视觉特征和所述第一融合特征输入异常定位器，得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果；

预测模块404用于将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中，得到所述大语言模型输出的对应第一预测答案；

本发明通过将目标的待检测视觉数据的视觉特征和目标的文本数据的文本特征进行交互融合，加强视觉特征和文本特征之间的匹配度，从而提高异常检测的精度；通过异常定位器可根据视觉特征和融合特征定位到待检测视觉数据中异常区域；利用大语言模型参考待检测视觉数据的分割结果、视觉特征、文本特征和用户的提问，得到待检测视觉数据中丰富的异常信息。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行目标异常检测方法，该方法包括：将目标的待检测视觉数据和文本数据分别输入对应的编码器，得到所述编码器输出的对应第一视觉特征和第一文本特征；基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合，得到第一融合特征；将所述第一视觉特征和所述第一融合特征输入异常定位器，得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果；将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中，得到所述大语言模型输出的对应第一预测答案。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的目标异常检测方法，该方法包括：将目标的待检测视觉数据和文本数据分别输入对应的编码器，得到所述编码器输出的对应第一视觉特征和第一文本特征；基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合，得到第一融合特征；将所述第一视觉特征和所述第一融合特征输入异常定位器，得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果；将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中，得到所述大语言模型输出的对应第一预测答案。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的目标异常检测方法，该方法包括：将目标的待检测视觉数据和文本数据分别输入对应的编码器，得到所述编码器输出的对应第一视觉特征和第一文本特征；基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合，得到第一融合特征；将所述第一视觉特征和所述第一融合特征输入异常定位器，得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果；将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中，得到所述大语言模型输出的对应第一预测答案。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标异常检测方法，其特征在于，包括：

将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中，得到所述大语言模型输出的第一预测答案；

其中，所述编码器、交叉注意力模块、异常定位器和大语言模型通过以所述目标的视觉数据样本、所述视觉数据样本中异常区域的文本描述信息和对所述视觉数据样本中异常区域的提问为样本，以标注的所述视觉数据样本中异常区域的实际分割结果和提问对应的预设答案为标签进行训练得到；

所述基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合，得到第一融合特征，包括：

使用所述交叉注意力模块将所述待检测视觉数据中图像数据的第一视觉特征和第一文本特征进行交互融合，得到图像-文本融合特征，将所述待检测视觉数据中点云数据的第一视觉特征和第一文本特征进行交互融合，得到点云-文本融合特征/>；

记编码器的第i层输出的图像特征为，编码器的第i层输出的点云特征为，编码器的第i层输出的文本特征为/>，将所述编码器的同一层输出的文本特征和图像特征、点云特征使用交叉注意力模块进行特征融合，公式如下：

；

其中，T为转置操作，d_k是所述编码器的第i层输出的特征通道数，n为所述编码器的总层数。

2.根据权利要求1所述的目标异常检测方法，其特征在于，在所述将目标的待检测视觉数据和文本数据分别输入对应的编码器，得到所述编码器输出的对应第一视觉特征和第一文本特征之前，还包括：

3.根据权利要求2所述的目标异常检测方法，其特征在于，所述视觉数据样本包括多种模态的视觉数据样本。

4.根据权利要求3所述的目标异常检测方法，其特征在于，所述根据所述视觉数据样本中异常区域的第二预测分割结果和实际分割结果，对所述编码器、所述交叉注意力模块和所述异常定位器进行训练，包括：

5.根据权利要求4所述的目标异常检测方法，其特征在于，所述第一损失包括焦点损失和Dice损失，所述根据所述第一损失之间的差值对所述编码器、所述交叉注意力模块和所述异常定位器进行训练，包括：

6.根据权利要求3所述的目标异常检测方法，其特征在于，所述根据所述视觉数据样本中异常区域的第三预测分割结果和实际分割结果，以及所述提问的第三预测答案，对训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型进行再次训练，包括：

7.根据权利要求3所述的目标异常检测方法，其特征在于，在所述将所述视觉数据样本和所述文本描述信息依次经过所述编码器、所述交叉注意力模块和所述异常定位器，得到所述异常定位器输出的所述视觉数据样本中异常区域的第二预测分割结果之前，还包括：

8.一种目标异常检测装置，其特征在于，包括：

所述融合模块用于：

；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述目标异常检测方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述目标异常检测方法。