CN117173530A - 目标异常检测方法及装置 - Google Patents
目标异常检测方法及装置 Download PDFInfo
- Publication number
- CN117173530A CN117173530A CN202311447067.5A CN202311447067A CN117173530A CN 117173530 A CN117173530 A CN 117173530A CN 202311447067 A CN202311447067 A CN 202311447067A CN 117173530 A CN117173530 A CN 117173530A
- Authority
- CN
- China
- Prior art keywords
- visual
- abnormal
- visual data
- segmentation result
- anomaly
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 48
- 230000005856 abnormality Effects 0.000 title claims abstract description 40
- 230000000007 visual effect Effects 0.000 claims abstract description 249
- 230000002159 abnormal effect Effects 0.000 claims abstract description 141
- 230000011218 segmentation Effects 0.000 claims abstract description 116
- 230000004927 fusion Effects 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 11
- 238000010008 shearing Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供一种目标异常检测方法及装置,属于计算机视觉技术领域。方法包括:将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到所述编码器输出的对应第一视觉特征和第一文本特征;基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合,得到第一融合特征;将所述第一视觉特征和所述第一融合特征输入异常定位器,得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果;将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中,得到所述大语言模型输出的对应第一预测答案。本发明提高异常检测的准确性,并可通过提问获取丰富的异常信息。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种目标异常检测方法及装置。
背景技术
目标异常检测方法用于检测物件是否存在异常。现有的目标异常检测方法主要分为基于重建的方法和基于特征对比的方法。
基于重建的方法试图根据测试样本重建其对应的正常样本,根据重建的正常样本与测试样本之间的差异检测异常。基于特征对比的方法通过对比测试样本和正常样本的相似度进行异常检测。
现有的目标异常检测方法只能给出测试样本和正常样本之间的相似度分数,对测试样本的异常信息检测不准确。
发明内容
本发明提供一种目标异常检测方法及装置,用以解决现有技术中对目标的异常信息检测不准确的缺陷,实现准确检测目标的丰富异常信息。
本发明提供一种目标异常检测方法,包括:
将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到所述编码器输出的对应第一视觉特征和第一文本特征;
基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合,得到第一融合特征;
将所述第一视觉特征和所述第一融合特征输入异常定位器,得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果;
将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中,得到所述大语言模型输出的对应第一预测答案;
其中,所述编码器、交叉注意力模块、异常定位器和大语言模型通过以所述目标的视觉数据样本、所述视觉数据样本中异常区域的文本描述信息和对所述视觉数据样本中异常区域的提问为样本,以标注的所述视觉数据样本中异常区域的实际分割结果和提问对应的预设答案为标签进行训练得到。
根据本发明提供的一种目标异常检测方法,在所述将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到所述编码器输出的对应第一视觉特征和第一文本特征之前,还包括:
将所述视觉数据样本和所述文本描述信息依次经过所述编码器、所述交叉注意力模块和所述异常定位器,得到所述异常定位器输出的所述视觉数据样本中异常区域的第二预测分割结果;
根据所述视觉数据样本中异常区域的第二预测分割结果和实际分割结果,对所述编码器、所述交叉注意力模块和所述异常定位器进行训练;
将所述视觉数据样本和所述文本描述信息依次经过训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器,以及所述大语言模型,得到所述大语言模型输出的所述视觉数据样本对应的提问的第二预测答案;
根据所述提问的第二预测答案和预设答案,对所述大语言模型进行训练;
将所述视觉数据样本和所述文本描述信息依次经过训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型,得到所述异常定位器输出的所述视觉数据样本中异常区域的第三预测分割结果和所述大语言模型输出的所述视觉数据样本对应的提问的第三预测答案;
根据所述视觉数据样本中异常区域的第三预测分割结果和实际分割结果,以及所述提问的第三预测答案,对训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型进行再次训练。
根据本发明提供的一种目标异常检测方法,所述视觉数据样本包括多种模态的视觉数据样本。
根据本发明提供的一种目标异常检测方法,所述根据所述视觉数据样本中异常区域的第二预测分割结果和实际分割结果,对所述编码器、所述交叉注意力模块和所述异常定位器进行训练,包括:
确定每种模态的所述视觉数据样本中异常区域的第二预测分割结果和实际分割结果之间的第一损失;
根据所述第一损失之间的差值对所述编码器、所述交叉注意力模块和所述异常定位器进行训练。
根据本发明提供的一种目标异常检测方法,所述第一损失包括焦点损失和Dice损失,所述根据所述第一损失之间的差值对所述编码器、所述交叉注意力模块和所述异常定位器进行训练,包括:
确定所述多种模态的视觉数据样本对应的焦点损失之间的第一差值;
确定所述多种模态的视觉数据样本对应的Dice损失之间的第二差值;
根据所述第一差值和所述第二差值,对所述编码器、所述交叉注意力模块和所述异常定位器进行训练。
根据本发明提供的一种目标异常检测方法,所述根据所述视觉数据样本中异常区域的第三预测分割结果和实际分割结果,以及所述提问的第三预测答案,对训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型进行再次训练,包括:
确定每种模态的所述视觉数据样本中异常区域的第三预测分割结果和实际分割结果之间的第二损失之间的差值;
提取所述提问的第三预测答案的文本特征和每种模态的所述视觉数据样本中异常区域的第三预测分割结果的第二视觉特征;
确定所述提问的第三预测答案的文本特征和每种模态的所述视觉数据样本对应的第二视觉特征之间的距离;
根据所述第二损失之间的差值和所述第二视觉特征之间的距离,对训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型进行再次训练。
根据本发明提供的一种目标异常检测方法,在所述将所述视觉数据样本和所述文本描述信息依次经过所述编码器、所述交叉注意力模块和所述异常定位器,得到所述异常定位器输出的所述视觉数据样本中异常区域的第二预测分割结果之前,还包括:
对所述目标的正常样本的图像数据进行泊松编辑,生成异常图像样本;
对所述目标的正常样本的点云数据进行剪切和/或拼接,生成异常点云样本;
将所述正常样本的图像数据、点云数据、所述异常图像样本和所述异常点云样本作为所述视觉数据样本。
本发明还提供一种目标异常检测装置,包括:
编码模块,用于将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到所述编码器输出的对应第一视觉特征和第一文本特征;
融合模块,用于基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合,得到第一融合特征;
定位模块,用于将所述第一视觉特征和所述第一融合特征输入异常定位器,得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果;
预测模块,用于将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中,得到所述大语言模型输出的对应第一预测答案;
其中,所述编码器、交叉注意力模块、异常定位器和大语言模型通过以所述目标的视觉数据样本、所述视觉数据样本中异常区域的文本描述信息和对所述视觉数据样本中异常区域的提问为样本,以标注的所述视觉数据样本中异常区域的实际分割结果和提问对应的预设答案为标签进行训练得到。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述目标异常检测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述目标异常检测方法。
本发明提供的目标异常检测方法及装置,通过将目标的待检测视觉数据的视觉特征和目标的文本数据的文本特征进行交互融合,加强视觉特征和文本特征之间的匹配度,从而提高异常检测的精度;通过异常定位器可根据视觉特征和融合特征定位到待检测视觉数据中异常区域;利用大语言模型参考待检测视觉数据的分割结果、视觉特征、文本特征和用户的提问,得到待检测视觉数据中丰富的异常信息。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的目标异常检测方法的流程示意图;
图2是本发明提供的目标异常检测方法的框架示意图;
图3是本发明提供的目标异常检测方法中泊松图像编辑的示意图;
图4是本发明提供的目标异常检测装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的一种目标异常检测方法,包括:
步骤101,将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到所述编码器输出的对应第一视觉特征和第一文本特征;
目标可为待检测物品。待检测视觉数据可为点云数据、可见光图像数据和多光谱图像数据中的一种或多种模态数据。
文本数据包括目标的每种属性的多种属性值,目标的属性包括目标的异常属性。例如,文本数据中包括目标的种类和目标异常的类型等。文本数据为预先设定的。
将目标的待检测视觉数据和文本数据输入对应模态的编码器中,得到对应的特征向量。编码器可为卷积神经网络,本实施例对编码器的种类不作限定。
如图2所示,可将待检测视觉数据中的图像数据输入图像编码器中,得到对应的图像特征;将待检测视觉数据中的点云数据输入点云编码器中,得到对应的点云特征;将目标的文本数据输入文本编码器中,得到对应的文本特征。文本特征为表示目标正常或异常的语义。
步骤102,基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合,得到第一融合特征;
可使用交叉注意力模块将待检测视觉数据中图像数据的第一视觉特征和第一文本特征进行交互融合,得到图像-文本融合特征。将待检测视觉数据中点云数据的第一视觉特征和第一文本特征进行交互融合,得到点云-文本融合特征/>。
记编码器的第i层输出的图像特征为,编码器的第i层输出的点云特征为,编码器的第i层输出的文本特征为/>。将编码器的同一层输出的文本特征和图像特征、点云特征使用交叉注意力模块进行特征融合,公式如下:
;
;
其中,T为转置操作,dk是编码器的第i层输出的特征通道数,n为编码器的总层数。
步骤103,将所述第一视觉特征和所述第一融合特征输入异常定位器,得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果;
异常定位器可为反卷积神经网络。可将每种模态的待检测视觉数据的第一视觉特征与第一文本特征进行融合后,与每种模态的待检测视觉数据的第一视觉特征一起输入异常定位器中,得到每种模态的待检测视觉数据中异常区域的第一预测分割结果。
如图2所示,将待检测视觉数据中图像数据的第一视觉特征与第一文本特征进行融合后,与图像数据的第一视觉特征一起输入异常定位器中,得到图像数据中异常区域的第一预测分割结果。
将待检测视觉数据中点云数据的第一视觉特征与第一文本特征进行融合后,与点云数据的第一视觉特征一起输入异常定位器中,得到点云数据中异常区域的第一预测分割结果。
步骤104,将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型(Large Language Model,LLM)中,得到所述大语言模型输出的对应第一预测答案;
其中,所述编码器、交叉注意力模块、异常定位器和大语言模型通过以所述目标的视觉数据样本、所述视觉数据样本中异常区域的文本描述信息和对所述视觉数据样本中异常区域的提问为样本,以标注的所述视觉数据样本中异常区域的实际分割结果和提问对应的预设答案为标签进行训练得到。
将编码器提取的第一视觉特征和第一文本特征,以及异常定位器定位的待检测视觉数据中异常区域的第一预测分割结果,连同用户的当前问题一起输入到大语言模型中,大语言模型参考待检测视觉数据、文本数据和用户的当前提问,对用户的当前提问进行文本回答。
可将异常区域的第一预测分割结果进行卷积和池化操作,得到待检测视觉数据的提示嵌入。将用户的当前提问进行卷积和池化操作,得到当前提问的特征嵌入。
将待检测视觉数据的提示嵌入拼接在当前提问的特征嵌入之前,然后和编码器提取的第一视觉特征和第一文本特征一起输入到大语言模型中,得到大语言模型输出的当前提问的答案。
可将编码器、交叉注意力模块、异常定位器和大语言模型作为整体进行训练后,再使用其进行异常检测。
本实施例通过将目标的待检测视觉数据的视觉特征和目标的文本数据的文本特征进行交互融合,加强视觉特征和文本特征之间的匹配度,从而提高异常检测的精度;通过异常定位器可根据视觉特征和融合特征定位到待检测视觉数据中异常区域;利用大语言模型参考待检测视觉数据的分割结果、视觉特征、文本特征和用户的提问,得到待检测视觉数据中丰富的异常信息。
在上述实施例的基础上,本实施例中在所述将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到所述编码器输出的对应第一视觉特征和第一文本特征之前,还包括:
将所述视觉数据样本和所述文本描述信息依次经过所述编码器、所述交叉注意力模块和所述异常定位器,得到所述异常定位器输出的所述视觉数据样本中异常区域的第二预测分割结果;
根据所述视觉数据样本中异常区域的第二预测分割结果和实际分割结果,对所述编码器、所述交叉注意力模块和所述异常定位器进行训练;
将所述视觉数据样本和所述文本描述信息依次经过训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器,以及所述大语言模型,得到所述大语言模型输出的所述视觉数据样本对应的提问的第二预测答案;
根据所述提问的第二预测答案和预设答案,对所述大语言模型进行训练;
将所述视觉数据样本和所述文本描述信息依次经过训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型,得到所述异常定位器输出的所述视觉数据样本中异常区域的第三预测分割结果和所述大语言模型输出的所述视觉数据样本对应的提问的第三预测答案;
根据所述视觉数据样本中异常区域的第三预测分割结果和实际分割结果,以及所述提问的第三预测答案,对训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型进行再次训练。
本实施例对编码器、交叉注意力模块、异常定位器和大语言模型的训练分为三个阶段。
在第一阶段,将编码器、交叉注意力模块和异常定位器作为整体进行训练。将视觉数据样本和文本描述信息分别输入对应的编码器,得到编码器输出的视觉特征和文本特征。将视觉特征和文本特征输入交叉注意力模块,得到交叉注意力模块输出的融合特征。将视觉特征和融合特征输入异常定位器,得到异常定位器输出的第二预测分割结果。
根据异常定位器输出的视觉数据样本中异常区域的第二预测分割结果和视觉数据样本中标注的异常区域的实际分割结果之间的差异,对编码器、交叉注意力模块和异常定位器整体进行训练。
在第二阶段,对大语言模型进行训练。将视觉数据样本和文本描述信息分别输入对应的训练好的编码器,得到编码器输出的视觉特征和文本特征。将视觉特征和文本特征输入训练好的交叉注意力模块,得到交叉注意力模块输出的融合特征。将视觉特征和融合特征输入训练好的异常定位器,得到异常定位器输出的分割结果。将分割结果、视觉特征、文本特征和提问输入大语言模型中,得到大语言模型输出的第二预测答案。
根据大语言模型输出的提问的第二预测答案和预设答案之间的差异,对大语言模型进行低秩适应微调,指导大语言模型给出正确答案。
可使用交叉熵损失来训练大语言模型的低秩适应参数,使得大语言模型的输出结果接近预设答案。交叉熵损失的公式如下:
;
其中,为第i个token(提问)的预设答案,/>为大语言模型预测为预设答案的概率。
在第三阶段,将编码器、交叉注意力模块、异常定位器和大语言模型作为整体进行训练。将视觉数据样本和文本描述信息分别输入对应的训练好的编码器,得到编码器输出的视觉特征和文本特征。将视觉特征和文本特征输入训练好的交叉注意力模块,得到交叉注意力模块输出的融合特征。将视觉特征和融合特征输入训练好的异常定位器,得到异常定位器输出的第三预测分割结果。将分割结果、视觉特征、文本特征和提问输入训练好的大语言模型中,得到大语言模型输出的第三预测答案。
可根据视觉数据样本中异常区域的第三预测分割结果和实际分割结果之间的差异,以及大语言模型输出的提问的第三预测答案的文本特征与第三预测分割结果的视觉特征之间的差异,对编码器、交叉注意力模块、异常定位器和大语言模型整体进行再次训练。
本实施例通过对模型进行三阶段训练,能够向大语言模型提供异常检测所需知识和细粒度语义理解能力;在第二阶段的训练中,通过对大语言模型进行低秩微调,使之更好地完成异常检测任务,更准确地描述视觉数据的内容;通过视觉数据样本的预测分割结果和大语言模型输出答案的一致性约束,加强模型中各模块之间的交互,从而提高整个模型的异常检测精度。
在上述实施例的基础上,本实施例中所述视觉数据样本包括多种模态的视觉数据样本。
视觉数据样本可包括图像模态和点云模态。图像模态的视觉数据样本可包括可见光图像数据和/或多光谱图像数据。
本实施例通过目标的多模态视觉数据监测目标中是否存在异常,并对异常部分进行标注,提高异常检测的准确性。
在上述实施例的基础上,本实施例中所述根据所述视觉数据样本中异常区域的第二预测分割结果和实际分割结果,对所述编码器、所述交叉注意力模块和所述异常定位器进行训练,包括:
确定每种模态的所述视觉数据样本中异常区域的第二预测分割结果和实际分割结果之间的第一损失;
根据所述第一损失之间的差值对所述编码器、所述交叉注意力模块和所述异常定位器进行训练。
在第一阶段的训练中,例如当视觉数据样本中包括图像数据样本和点云数据样本,则计算图像数据样本中异常区域的第二预测分割结果和实际分割结果之间的第一损失,以及点云数据样本中异常区域的第二预测分割结果和实际分割结果之间的第一损失。根据两个第一损失之间的差值对编码器、交叉注意力模块和异常定位器整体进行训练。
在上述实施例的基础上,本实施例中所述第一损失包括焦点损失和Dice损失,所述根据所述第一损失之间的差值对所述编码器、所述交叉注意力模块和所述异常定位器进行训练,包括:
确定所述多种模态的视觉数据样本对应的焦点损失之间的第一差值;
确定所述多种模态的视觉数据样本对应的Dice损失之间的第二差值;
根据所述第一差值和所述第二差值,对所述编码器、所述交叉注意力模块和所述异常定位器进行训练。
焦点损失的公式为:
;
其中,为视觉数据样本中第i个像素的实际分割结果,/>为异常定位器输出的第二预测分割结果中第i个像素为对应的实际分割结果的概率。
Dice损失的公式为:
;
其中,为视觉数据样本中第i个像素的实际分割结果,/>为异常定位器输出的第i个像素的第二预测分割结果。
在第一阶段的训练中,例如当视觉数据样本中包括图像数据样本和点云数据样本,则计算图像数据样本中异常区域的第二预测分割结果和实际分割结果之间的焦点损失和Dice损失,以及点云数据样本中异常区域的第二预测分割结果的正面视图和实际分割结果的正面视图之间的焦点损失和Dice损失。
确定图像数据样本对应的焦点损失和点云数据样本对应的焦点损失之间的第一差值,以及图像数据样本对应的Dice损失和点云数据样本对应的Dice损失之间的第二差值。根据第一差值和第二差值,对编码器、交叉注意力模块和异常定位器进行训练。
在上述实施例的基础上,本实施例中所述根据所述视觉数据样本中异常区域的第三预测分割结果和实际分割结果,以及所述提问的第三预测答案,对训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型进行再次训练,包括:
确定每种模态的所述视觉数据样本中异常区域的第三预测分割结果和实际分割结果之间的第二损失之间的差值;
提取所述提问的第三预测答案的文本特征和每种模态的所述视觉数据样本中异常区域的第三预测分割结果的第二视觉特征;
确定所述提问的第三预测答案的文本特征和每种模态的所述视觉数据样本对应的第二视觉特征之间的距离;
根据所述第二损失之间的差值和所述第二视觉特征之间的距离,对训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型进行再次训练。
在第三阶段的训练中,例如视觉数据样本中包括图像数据样本和点云数据样本,第二损失包括焦点损失和Dice损失。
确定图像数据样本中异常区域的第三预测分割结果和实际分割结果之间的焦点损失,以及点云数据样本中异常区域的第三预测分割结果的正面视图/>和实际分割结果的正面视图之间的焦点损失,并计算这两个焦点损失之间的差值/>。
确定图像数据样本中异常区域的第三预测分割结果和实际分割结果之间的Dice损失,以及点云数据样本中异常区域的第三预测分割结果的正面视图/>和实际分割结果的正面视图之间的Dice损失,并计算这两个Dice损失之间的差值/>。
将大语言模型输出的提问的第三预测答案输入到文本编码器中得到文本特征,将异常定位器输出的图像数据样本中异常区域的第三预测分割结果输入到图像编码器中得到图像特征/>,将异常定位器输出的点云数据样本中异常区域的第三预测分割结果输入到点云编码器中得到点云特征/>。计算文本特征/>与图像特征/>之间的距离,如余弦距离。计算文本特征/>与点云特征/>之间的距离/>,如余弦距离。
总损失函数的公式为:
。
根据总损失函数使用更小的学习率再次优化整个模型中的所有参数,提高异常检测的准确性。
在上述实施例的基础上,本实施例中在所述将所述视觉数据样本和所述文本描述信息依次经过所述编码器、所述交叉注意力模块和所述异常定位器,得到所述异常定位器输出的所述视觉数据样本中异常区域的第二预测分割结果之前,还包括:
对所述目标的正常样本的图像数据进行泊松编辑,生成异常图像样本;
对所述目标的正常样本的点云数据进行剪切和/或拼接,生成异常点云样本;
将所述正常样本的图像数据、点云数据、所述异常图像样本和所述异常点云样本作为所述视觉数据样本。
在多种模态的视觉数据样本包括图像数据样本和点云数据样本的情况下,对目标的正常样本的图像数据和点云数据进行编辑,模拟生成多模态异常视觉数据样本,并根据生成的多模态异常视觉数据样本编写对应的文本描述信息,构建多模态异常检测数据集。
对正常样本的图像数据进行泊松编辑,模拟生成异常图像样本,如图3所示。对正常样本的点云数据进行剪切和/或拼接其他点云数据,模拟生成异常点云样本。
分别为正常样本的图像数据和点云数据,以及模拟生成的异常图像样本和异常点云样本编写对应的文本描述信息。文本描述信息的内容可包括目标类别、是否含有异常、异常区域的位置等。
下面对本发明提供的目标异常检测装置进行描述,下文描述的目标异常检测装置与上文描述的目标异常检测方法可相互对应参照。
如图4所示,目标异常检测装置包括编码模块401、融合模块402、定位模块403和预测模块404,其中:
编码模块401用于将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到编码器输出的第一视觉特征和第一文本特征;
融合模块402用于基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合,得到第一融合特征;
定位模块403用于将所述第一视觉特征和所述第一融合特征输入异常定位器,得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果;
预测模块404用于将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中,得到所述大语言模型输出的对应第一预测答案;
其中,所述编码器、交叉注意力模块、异常定位器和大语言模型通过以所述目标的视觉数据样本、所述视觉数据样本中异常区域的文本描述信息和对所述视觉数据样本中异常区域的提问为样本,以标注的所述视觉数据样本中异常区域的实际分割结果和提问对应的预设答案为标签进行训练得到。
本发明通过将目标的待检测视觉数据的视觉特征和目标的文本数据的文本特征进行交互融合,加强视觉特征和文本特征之间的匹配度,从而提高异常检测的精度;通过异常定位器可根据视觉特征和融合特征定位到待检测视觉数据中异常区域;利用大语言模型参考待检测视觉数据的分割结果、视觉特征、文本特征和用户的提问,得到待检测视觉数据中丰富的异常信息。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行目标异常检测方法,该方法包括:将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到所述编码器输出的对应第一视觉特征和第一文本特征;基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合,得到第一融合特征;将所述第一视觉特征和所述第一融合特征输入异常定位器,得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果;将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中,得到所述大语言模型输出的对应第一预测答案。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的目标异常检测方法,该方法包括:将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到所述编码器输出的对应第一视觉特征和第一文本特征;基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合,得到第一融合特征;将所述第一视觉特征和所述第一融合特征输入异常定位器,得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果;将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中,得到所述大语言模型输出的对应第一预测答案。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的目标异常检测方法,该方法包括:将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到所述编码器输出的对应第一视觉特征和第一文本特征;基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合,得到第一融合特征;将所述第一视觉特征和所述第一融合特征输入异常定位器,得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果;将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中,得到所述大语言模型输出的对应第一预测答案。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种目标异常检测方法,其特征在于,包括:
将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到所述编码器输出的对应第一视觉特征和第一文本特征;
基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合,得到第一融合特征;
将所述第一视觉特征和所述第一融合特征输入异常定位器,得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果;
将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中,得到所述大语言模型输出的第一预测答案;
其中,所述编码器、交叉注意力模块、异常定位器和大语言模型通过以所述目标的视觉数据样本、所述视觉数据样本中异常区域的文本描述信息和对所述视觉数据样本中异常区域的提问为样本,以标注的所述视觉数据样本中异常区域的实际分割结果和提问对应的预设答案为标签进行训练得到。
2.根据权利要求1所述的目标异常检测方法,其特征在于,在所述将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到所述编码器输出的对应第一视觉特征和第一文本特征之前,还包括:
将所述视觉数据样本和所述文本描述信息依次经过所述编码器、所述交叉注意力模块和所述异常定位器,得到所述异常定位器输出的所述视觉数据样本中异常区域的第二预测分割结果;
根据所述视觉数据样本中异常区域的第二预测分割结果和实际分割结果,对所述编码器、所述交叉注意力模块和所述异常定位器进行训练;
将所述视觉数据样本和所述文本描述信息依次经过训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器,以及所述大语言模型,得到所述大语言模型输出的所述视觉数据样本对应的提问的第二预测答案;
根据所述提问的第二预测答案和预设答案,对所述大语言模型进行训练;
将所述视觉数据样本和所述文本描述信息依次经过训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型,得到所述异常定位器输出的所述视觉数据样本中异常区域的第三预测分割结果和所述大语言模型输出的所述视觉数据样本对应的提问的第三预测答案;
根据所述视觉数据样本中异常区域的第三预测分割结果和实际分割结果,以及所述提问的第三预测答案,对训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型进行再次训练。
3.根据权利要求2所述的目标异常检测方法,其特征在于,所述视觉数据样本包括多种模态的视觉数据样本。
4.根据权利要求3所述的目标异常检测方法,其特征在于,所述根据所述视觉数据样本中异常区域的第二预测分割结果和实际分割结果,对所述编码器、所述交叉注意力模块和所述异常定位器进行训练,包括:
确定每种模态的所述视觉数据样本中异常区域的第二预测分割结果和实际分割结果之间的第一损失;
根据所述第一损失之间的差值对所述编码器、所述交叉注意力模块和所述异常定位器进行训练。
5.根据权利要求4所述的目标异常检测方法,其特征在于,所述第一损失包括焦点损失和Dice损失,所述根据所述第一损失之间的差值对所述编码器、所述交叉注意力模块和所述异常定位器进行训练,包括:
确定所述多种模态的视觉数据样本对应的焦点损失之间的第一差值;
确定所述多种模态的视觉数据样本对应的Dice损失之间的第二差值;
根据所述第一差值和所述第二差值,对所述编码器、所述交叉注意力模块和所述异常定位器进行训练。
6.根据权利要求3所述的目标异常检测方法,其特征在于,所述根据所述视觉数据样本中异常区域的第三预测分割结果和实际分割结果,以及所述提问的第三预测答案,对训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型进行再次训练,包括:
确定每种模态的所述视觉数据样本中异常区域的第三预测分割结果和实际分割结果之间的第二损失之间的差值;
提取所述提问的第三预测答案的文本特征和每种模态的所述视觉数据样本中异常区域的第三预测分割结果的第二视觉特征;
确定所述提问的第三预测答案的文本特征和每种模态的所述视觉数据样本对应的第二视觉特征之间的距离;
根据所述第二损失之间的差值和所述第二视觉特征之间的距离,对训练后的所述编码器、训练后的所述交叉注意力模块、训练后的所述异常定位器和训练后的所述大语言模型进行再次训练。
7.根据权利要求3所述的目标异常检测方法,其特征在于,在所述将所述视觉数据样本和所述文本描述信息依次经过所述编码器、所述交叉注意力模块和所述异常定位器,得到所述异常定位器输出的所述视觉数据样本中异常区域的第二预测分割结果之前,还包括:
对所述目标的正常样本的图像数据进行泊松编辑,生成异常图像样本;
对所述目标的正常样本的点云数据进行剪切和/或拼接,生成异常点云样本;
将所述正常样本的图像数据、点云数据、所述异常图像样本和所述异常点云样本作为所述视觉数据样本。
8.一种目标异常检测装置,其特征在于,包括:
编码模块,用于将目标的待检测视觉数据和文本数据分别输入对应的编码器,得到所述编码器输出的对应第一视觉特征和第一文本特征;
融合模块,用于基于交叉注意力模块将所述第一视觉特征和所述第一文本特征进行融合,得到第一融合特征;
定位模块,用于将所述第一视觉特征和所述第一融合特征输入异常定位器,得到所述异常定位器对所述待检测视觉数据中异常区域的第一预测分割结果;
预测模块,用于将所述第一预测分割结果、所述第一视觉特征、所述第一文本特征和对所述异常区域的当前提问输入大语言模型中,得到所述大语言模型输出的对应第一预测答案;
其中,所述编码器、交叉注意力模块、异常定位器和大语言模型通过以所述目标的视觉数据样本、所述视觉数据样本中异常区域的文本描述信息和对所述视觉数据样本中异常区域的提问为样本,以标注的所述视觉数据样本中异常区域的实际分割结果和提问对应的预设答案为标签进行训练得到。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述目标异常检测方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述目标异常检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311447067.5A CN117173530B (zh) | 2023-11-02 | 2023-11-02 | 目标异常检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311447067.5A CN117173530B (zh) | 2023-11-02 | 2023-11-02 | 目标异常检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117173530A true CN117173530A (zh) | 2023-12-05 |
CN117173530B CN117173530B (zh) | 2024-02-13 |
Family
ID=88945351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311447067.5A Active CN117173530B (zh) | 2023-11-02 | 2023-11-02 | 目标异常检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117173530B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033019A (zh) * | 2019-03-06 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 人体部位的异常检测方法、装置和存储介质 |
CN113095331A (zh) * | 2021-04-22 | 2021-07-09 | 合肥工业大学 | 一种电力设备外观缺陷的视觉问答方法、系统、设备及其存储介质 |
CN116468725A (zh) * | 2023-06-13 | 2023-07-21 | 北京航空航天大学杭州创新研究院 | 基于预训练模型的工业缺陷检测方法、装置及存储介质 |
CN116740520A (zh) * | 2023-06-15 | 2023-09-12 | 南京领行科技股份有限公司 | 一种异常行为检测及特征融合模型训练方法 |
US20230316736A1 (en) * | 2022-03-16 | 2023-10-05 | Nanjing University Of Aeronautics And Astronautics | Method for feature detection of complex defects based on multimodal data |
-
2023
- 2023-11-02 CN CN202311447067.5A patent/CN117173530B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110033019A (zh) * | 2019-03-06 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 人体部位的异常检测方法、装置和存储介质 |
CN113095331A (zh) * | 2021-04-22 | 2021-07-09 | 合肥工业大学 | 一种电力设备外观缺陷的视觉问答方法、系统、设备及其存储介质 |
US20230316736A1 (en) * | 2022-03-16 | 2023-10-05 | Nanjing University Of Aeronautics And Astronautics | Method for feature detection of complex defects based on multimodal data |
CN116468725A (zh) * | 2023-06-13 | 2023-07-21 | 北京航空航天大学杭州创新研究院 | 基于预训练模型的工业缺陷检测方法、装置及存储介质 |
CN116740520A (zh) * | 2023-06-15 | 2023-09-12 | 南京领行科技股份有限公司 | 一种异常行为检测及特征融合模型训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117173530B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084331B (zh) | 文本处理、模型训练方法、装置、计算机设备和存储介质 | |
CN113792112A (zh) | 视觉语言任务处理系统、训练方法、装置、设备及介质 | |
CN117540221B (zh) | 图像处理方法和装置、存储介质及电子设备 | |
CN110968689A (zh) | 罪名及法条预测模型的训练方法以及罪名及法条预测方法 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN112163596A (zh) | 复杂场景文本识别方法、系统、计算机设备及存储介质 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN113849623A (zh) | 文本视觉问答方法和装置 | |
CN117036778A (zh) | 一种基于图文转换模型的安全隐患识别标注方法 | |
CN116127080A (zh) | 描述对象的属性值提取方法及相关设备 | |
CN110704668B (zh) | 基于网格的协同注意力vqa方法和装置 | |
CN110852066A (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN117332112A (zh) | 多模态检索模型训练以及多模态检索方法、电子设备及存储介质 | |
CN117891940B (zh) | 多模态讽刺检测方法、装置、计算机设备以及存储介质 | |
CN118038052A (zh) | 一种基于多模态扩散模型的抗差异医学图像分割方法 | |
CN118247772A (zh) | 驾驶行为表征模型的训练方法、识别方法、装置及设备 | |
CN117851565A (zh) | 基于多源交互的文本视觉问答方法及系统 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN117173530B (zh) | 目标异常检测方法及装置 | |
CN114417044A (zh) | 图像问答的方法及装置 | |
Staron | Machine Learning Infrastructure and Best Practices for Software Engineers: Take your machine learning software from a prototype to a fully fledged software system | |
US20240282093A1 (en) | Fine-tuning computer vision neural neworks using task rewards | |
CN113792703B (zh) | 一种基于Co-Attention深度模块化网络的图像问答方法及装置 | |
CN117710763B (zh) | 图像噪声识别模型训练方法、图像噪声识别方法及装置 | |
Su | CS230-Fall 2020 Final Project Report Conversational Image Recognition Chatbot |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |