CN116935128A - 一种基于可学习提示的零样本异常图像检测方法 - Google Patents
一种基于可学习提示的零样本异常图像检测方法 Download PDFInfo
- Publication number
- CN116935128A CN116935128A CN202310920221.XA CN202310920221A CN116935128A CN 116935128 A CN116935128 A CN 116935128A CN 202310920221 A CN202310920221 A CN 202310920221A CN 116935128 A CN116935128 A CN 116935128A
- Authority
- CN
- China
- Prior art keywords
- prompt
- abnormal
- learning
- visual
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 94
- 238000001514 detection method Methods 0.000 title claims abstract description 50
- 230000000007 visual effect Effects 0.000 claims abstract description 65
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000013526 transfer learning Methods 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 8
- 238000005457 optimization Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000002950 deficient Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于可学习提示的零样本异常图像检测方法。设计了基于上下文优化的可学习提示生成模块,包含了参数可优化的可学习提示和图像异常状态提示;利用视觉语言大模型的图像编码网络获得多层级的待检图像视觉编码特征,同时利用文本编码网络获得可学习提示嵌入的文本特征。通过计算视觉编码特征和文本特征之间的多层级余弦相似度,构建图像异常区域计算模块,获得待检图像的异常区域。本发明提出的可学习提示避免了人工设计提示的复杂性和不稳定性,同时改善了图像异常检测的准确性,保证了零样本学习的有效性和高效性,极大降低了预训练视觉语言大模型迁移到下游任务的成本。
Description
技术领域
本发明涉及计算机视觉和异常图像检测领域的一种图像异常检测方法,特别涉及一种基于可学习提示的零样本异常图像检测方法。
背景技术
异常检测的主要任务是识别与常规模式不同的情形,广泛应用于视频监控、产品质量控制、医学诊断等领域。当前比较流行的异常检测方法大多利用无异常图像训练异常检测模型,进而定位图像的异常区域。然而这些方法为每一个特定物体类别构建相对应的异常检测模型,同时依赖大量的对应类别正常图像,无法满足包含大量物体类别的真实世界异常检测需求。基于提示工程的零样本学习为异常检测在真实世界中的应用打开了新的局面。
然而,提示工程的设计严重依赖领域专家经验,并且需要花费大量的时间来手工优化提示。
另外,手工设计提示中的个别文本改动都可能给检测性能带来巨大影响,具有较强的不稳定性。
发明内容
本发明的目的是为了解决背景技术而提出的一种基于可学习提示的零样本异常图像检测方法,通过构建可学习提示增强提示工程的泛化能力,缓解人工设计提示对特定领域知识的依赖程度。另外,通过可学习提示与状态提示的有机组合,提升零样本异常检测的准确性,同时保证提示工程的稳定性和可靠性。
为了实现上述目的,本发明采用的技术方案为:
1)建立零样本的异常图像检测网络;
2)利用异常图像检测网络;
3)将待测图像输入到训练后的异常图像检测网络获得异常区域热图,根据异常区域热图获得异常区域。
所述的异常图像检测网络包括视觉编码网络、文本编码网络、多层感知机mlp、可学习提示生成模块和异常区域计算模块;视觉编码网络的输出经多个多层感知机mlp后输入到异常区域计算模块,同时通过可学习提示生成模块获得可学习提示嵌入,将可学习提示嵌入经文本编码网络处理后输入到异常区域计算模块,异常区域计算模块的输出依次经改变特征维度操作和元素相乘操作后获得异常区域热图的结果。
所述的视觉编码网络包括依次进行的四个阶段,每个阶段均包含多层残差注意模块,每个阶段均输出视觉特征,四个阶段分别输出第一视觉特征T1、第二视觉特征T2、第三视觉特征T3和第四视觉特征T4作为视觉编码网络的输出,第一阶段接收原始输入的图像,除了第一阶段的其余每个阶段均接收前一阶段输出的视觉特征。
所述的视觉编码网络输出的四个视觉特征均经各自的多层感知机mlp处理后获得四个视觉编码特征,四个视觉编码特征共同输入到异常区域计算模块中。
所述的可学习提示生成模块包括可学习提示和状态提示[state];
根据可学习提示和状态提示[state]按照以下公式获得可学习提示嵌入t,作为可学习提示生成模块的输出:
t=[V]1[V]2…[V]N[state]
所述的可学习提示中包含多个向量VN,每个向量的维度与状态提示[state]的维度相同,是通过随机初始化的方式获得,且在训练时随网络梯度不断更新优化;
所述的状态提示[state]是对状态state经由视觉语言对比模型(CLIP模型)编码获得,状态state为表示状态是否正常的字符串,由领域知识较弱的通用文本表示,分为属于正常状态的字符串和属于异常状态的字符串。
属于正常状态的字符串state通常可以为:'normal class','flawless class','perfect class','class without defect',分别代表正常类别,无缺陷类别,完美类别,没有缺陷的类别,‘class’表示待检测图像中的物体类别。
属于异常状态的字符串state通常可以为:'abnormal class','damagedclass','broken class','class with defect',分别代表非正常类别,损伤类别,损坏类别,有缺陷的类别。
所述的可学习提示生成模块输出可学习提示嵌入再输入到文本编码网络中获得文本特征。所述的文本编码网络采用视觉语言对比模型(CLIP模型)。
所述的异常区域计算模块中,是根据输入的视觉编码特征与文本特征按照以下方式的余弦相似度计算获得:
Gm=softmax(Fm@WT),m=1,2,3,4
其中,符号@表示矩阵相乘,softmax表示激活函数,WT表示文本特征的转置,Fm表示视觉编码网络中第m阶段对应获得的视觉编码特征,Gm表示视觉编码特征Fm对应获得的初步异常区域图。
将异常区域计算模块输出的四个初步异常区域图经改变特征维度操作reshape后获得了四个异常区域图Mm,再将四个异常区域图Mm按对应元素相乘,获得最终的异常区域热图。
异常区域热图中大于设定异常阈值的像素区域即为最终的异常区域。
所述步骤2)训练时采用零样本迁移学习方法,对异常图像检测网络中的视觉编码网络、文本编码网络的网络参数不做更新,仅对可学习提示生成模块的参数以及多层感知机mlp的参数进行优化训练。训练过程使用Adam优化器,固定学习率0.001,训练批次为大小为8,迭代次数为1个epoch。
所述步骤3)中具体是在异常区域热图中以像素值大于预设的异常阈值的图像区域作为异常区域。
本发明设计了基于上下文优化的可学习提示生成模块,包含了参数可优化的可学习提示和图像异常状态提示。利用视觉语言大模型的图像编码网络获得多层级的待检图像视觉编码特征,同时利用文本编码网络获得可学习提示嵌入的文本特征。通过计算视觉编码特征和文本特征之间的多层级余弦相似度,构建图像异常区域计算模块,获得待检图像的异常区域。
本发明的有益效果是:
本发明方法能够利用弱领域知识的通用文本表达构建提示工程,极大缓解了对专家知识的依赖。
本发明提出的可学习提示避免了人工设计提示工程的复杂性和不稳定性,同时改善了图像异常检测的准确性。另外,所设计的可学习提示能够随网络梯度不断优化,实现了端到端的学习训练,保证了零样本学习的有效性和高效性,极大降低了预训练视觉语言大模型迁移到下游任务的成本;也能够对不同检测类别保持一致性,提高了可学习提示的泛化性能和稳定性。
附图说明
图1是基于可学习提示的异常图像检测网络;
图2是一种基于可学习提示的零样本异常图像检测方法示意图。
具体实施方式
下面结合附图和具体实施对本发明作进一步说明。
需要理解的是,本发明所描述的实施例是示例性的,实施例描述中所使用的具体参数仅是为了便于描述本发明,并不用于限定本发明。
如图2所示,本发明基于可学习提示的零样本异常图像检测的实施例如下:
步骤1:构建可学习提示生成模块。
构建的可学习提示生成模块用来构建可学习提示嵌入t,其包含两个部分:可学习提示和状态提示。其中,可学习提示通过随机初始化的策略获得,状态提示通过通用的领域知识构建。可学习提示嵌入的表达如下:
t=[V]1[V]2…[V]N[state]
其中,[state]表示状态提示的嵌入,其编码方式与CLIP模型保持一致。[V]N是随机初始化的向量,其维度与[state]的维度相同。N表示可学习提示中包含的向量个数。
状态提示state采用领域知识较弱的通用文本表示,其中:
正常状态的状态提示state包含4个类别:'normal class','flawless class','perfect class','class without defect'。结合提示向量,为每个状态提示构建可学习提示嵌入,共构建4个可学习提示嵌入;
同理,异常状态的状态提示state包含4个类别:'abnormal class','damagedclass','broken class','class with defect',共构建4个可学习提示嵌入;
每一个状态提示state经过CLIP模型编码后获得状态提示嵌入[state]。状态提示嵌入[state]与提示向量[V]N拼接后获得完整的可学习提示嵌入t。其中,状态提示嵌入与提示向量的维度保持一致。
对于正常样本和异常样本的不同状态提示,如'normal class'、'abnormalclass',均使用同一个提示向量[V]N。
本实施例中,提示向量[V]N的数量设置为16,即N=16。每个向量采用随机初始化的方式获得。提示向量的维度为16×768。
步骤2:构建异常区域计算模块。
根据视觉编码特征和文本特征之间的余弦相似度判断某一位置为异常区域的概率,通过计算视觉编码特征和文本特征之间的余弦相似度获得异常区域。本发明提取了四个阶段的视觉编码特征Fm,m=1,2,3,4,并提取了基于可学习提示嵌入的文本特征W。视觉编码特征Fm与文本特征W之间计算的初步异常图Gm表达如下:
Gm=softmax(Fm@WT)m=1,2,3,4
其中,符号@表示矩阵相乘,softmax表示激活函数,WT表示文本特征的转置。
根据上述公式构建异常区域计算模块,公式的计算结果表示该区域为异常区域的概率值。
步骤3:构建异常检测网络。
构建的基于可学习提示的异常图像检测网络如图1所示。该网络使用的视觉编码网络和文本编码网络均使用CLIP方法提供的预训练模型,其中视觉编码网络包含24层残差注意模块。本发明利用不同层级的视觉特征,是将CLIP视觉编码网络分成4个阶段,分别标记为第一阶段、第二阶段、第三阶段和第四阶段,每个阶段包含6层残差注意模块。残差注意模块的具体结构可参考CLIP模型,本发明不再赘述。
网络中的符号表示如下:B表示一个批次中输入到网络的图像数量;H和W表示图像的高和宽;L、C、d均表示某一特征的维度;T1、T2、T3、T4分别表示第一阶段、第二阶段、第三阶段和第四阶段的视觉特征,特征维度均为B×L×C;mlp表示多层感知机,括号中的数字表示多层感知机的节点数量;reshape操作表示改变特征的维度形状。
异常检测网络以二维待检图像I和可学习提示嵌入t为输入,用来预测图像中的异常区域。待检图像经过第一阶段、第二阶段、第三阶段和第四阶段视觉处理后分别获得视觉特征T1、T2、T3、T4。四个视觉特征分别经由mlp(768)操作后获得视觉编码特征F1、F2、F3和F4。同时,由可学习提示生成模块构建的可学习提示嵌入经过文本编码网络后获得文本编码特征W。
文本特征W分别与视觉编码特征F1、F2、F3和F4配合使用,经由异常区域计算模块,并经过reshape操作后获得四个异常区域图M1、M2、M3和M4。四个异常区域图的维度均为B×H×W,与输入图像空间尺寸保持一致。四个异常区域图按对应元素相乘,获得最终的待检图像异常区域热图。
本实施例中,输入图像大小H×W=518×518,批次大小B为8。维度L为1370,维度C为1024,维度d为768。视觉编码网络与文本编码网络均使用CLIP开源的预训练模型。
文本编码网络需要同时处理4个正常样本可学习提示嵌入,获得4个对应的文本编码特征。将这4个文本编码特征取均值,其结果作为正常样本的文本编码特征,其维度为B×1×d;同理,对于4个异常样本可学习提示嵌入,获得的异常样本文本编码特征维度为B×1×d;将正常样本编码特征和异常样本编码特征拼接后获得文本编码特征W,其维度为B×2×d。
步骤4:训练构建的异常检测网络。本发明采用的是零样本异常检测方法,不能使用待评价数据集的相关数据。为了验证所提方法的效果,本发明仅使用MVTec AD数据集的测试集部分训练构建的异常检测网络,在VisA数据集的测试集部分评价网络。在网络训练过程中,仅优化更新多层感知机的mlp(768)网络部分和可学习提示向量部分,网络的其他参数不做更新(网络中的视觉编码网络和文本编码网络均使用CLIP模型提供的参数,不做更新优化)。训练过程使用Adam优化器,固定学习率0.001,训练批次为大小为8,迭代次数为1个epoch。
步骤5:训练完成后的异常检测网络直接预测输入物体图像的异常区域热图。在实际应用中,可设定异常阈值,网络预测的异常区域热图中大于设定阈值的区域即为最终的异常区域。
与现有技术相比,本发明构建了可学习提示生成模块,将提示工程的设计融入到网络参数的优化过程,提高了提示工程构建的效率,克服了人工设计提示工程的复杂性和不稳定性。同时,可学习提示与状态提示的有机结合确保了文本特征的泛化性能,并显著降低了视觉语言大模型迁移到下游异常检测任务的成本,具有很强的工程应用价值。
经测试,在VisA数据集上,本发明获得了95.2%的像素级异常检测精度。异常检测性能显著超越了经典的零样本检测方法WinCLIP。
以上所述,仅为本发明较佳的具体实施方案,但本发明的保护范围并不局限于上述实施方案,任何本技术领域的技术人员在本发明描述的技术范围内,根据本发明的技术方案及其发明构思所做的等同替换或改变,都应包含在本发明的保护范围之内。
Claims (10)
1.一种基于可学习提示的零样本异常图像检测方法,其特征在于:
1)建立异常图像检测网络;
2)利用异常图像检测网络;
3)将待测图像输入到训练后的异常图像检测网络获得异常区域热图,根据异常区域热图获得异常区域。
2.根据权利要求1所述的一种基于可学习提示的零样本异常图像检测方法,其特征在于:所述的异常图像检测网络包括视觉编码网络、文本编码网络、多层感知机mlp、可学习提示生成模块和异常区域计算模块;视觉编码网络的输出经多个多层感知机mlp后输入到异常区域计算模块,同时通过可学习提示生成模块获得可学习提示嵌入,将可学习提示嵌入经文本编码网络处理后输入到异常区域计算模块,异常区域计算模块的输出依次经改变特征维度操作和元素相乘操作后获得异常区域热图的结果。
3.根据权利要求1所述的一种基于可学习提示的零样本异常图像检测方法,其特征在于:所述的视觉编码网络包括依次进行的四个阶段,每个阶段均包含多层残差注意模块,每个阶段均输出视觉特征,四个阶段分别输出第一视觉特征T1、第二视觉特征T2、第三视觉特征T3和第四视觉特征T4作为视觉编码网络的输出。
4.根据权利要求3所述的一种基于可学习提示的零样本异常图像检测方法,其特征在于:所述的视觉编码网络输出的四个视觉特征均经各自的多层感知机mlp处理后获得四个视觉编码特征,四个视觉编码特征共同输入到异常区域计算模块中。
5.根据权利要求1所述的一种基于可学习提示的零样本异常图像检测方法,其特征在于:所述的可学习提示生成模块包括可学习提示和状态提示[state];
根据可学习提示和状态提示[state]按照以下公式获得可学习提示嵌入t,作为可学习提示生成模块的输出:
t=[V]1[V]2…[V]N[state]
所述的可学习提示中包含多个向量VN,每个向量的维度与状态提示[state]的维度相同,是通过随机初始化的方式获得;
所述的状态提示[state]是对状态state经由视觉语言对比模型编码获得,状态state为表示状态是否正常的字符串,分为属于正常状态的字符串和属于异常状态的字符串。
6.根据权利要求2或5所述的一种基于可学习提示的零样本异常图像检测方法,其特征在于:所述的可学习提示生成模块输出可学习提示嵌入再输入到文本编码网络中获得文本特征。
7.根据权利要求1或6所述的一种基于可学习提示的零样本异常图像检测方法,其特征在于:所述的异常区域计算模块中,是根据输入的视觉编码特征与文本特征按照以下方式的余弦相似度计算获得:
Gm=softmax(Fm@WT),m=1,2,3,4
其中,符号@表示矩阵相乘,softmax表示激活函数,WT表示文本特征的转置,Fm表示视觉编码网络中第m阶段对应获得的视觉编码特征,Gm表示视觉编码特征Fm对应获得的初步异常区域图。
8.根据权利要求7所述的一种基于可学习提示的零样本异常图像检测方法,其特征在于:将异常区域计算模块输出的四个初步异常区域图经改变特征维度操作reshape后获得了四个异常区域图Mm,再将四个异常区域图Mm按对应元素相乘,获得最终的异常区域热图。
9.根据权利要求1所述的一种基于可学习提示的零样本异常图像检测方法,其特征在于:所述步骤2)训练时采用零样本迁移学习方法,对异常图像检测网络中的视觉编码网络、文本编码网络的网络参数不做更新,仅对可学习提示生成模块的参数以及多层感知机mlp的参数进行优化训练。
10.根据权利要求1所述的一种基于可学习提示的零样本异常图像检测方法,其特征在于:所述步骤3)中具体是在异常区域热图中以像素值大于预设的异常阈值的图像区域作为异常区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310920221.XA CN116935128A (zh) | 2023-07-25 | 2023-07-25 | 一种基于可学习提示的零样本异常图像检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310920221.XA CN116935128A (zh) | 2023-07-25 | 2023-07-25 | 一种基于可学习提示的零样本异常图像检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116935128A true CN116935128A (zh) | 2023-10-24 |
Family
ID=88390600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310920221.XA Pending CN116935128A (zh) | 2023-07-25 | 2023-07-25 | 一种基于可学习提示的零样本异常图像检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116935128A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274564A (zh) * | 2023-11-20 | 2023-12-22 | 民航成都电子技术有限责任公司 | 基于图文语义差异的机场跑道异物检测方法及系统 |
-
2023
- 2023-07-25 CN CN202310920221.XA patent/CN116935128A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117274564A (zh) * | 2023-11-20 | 2023-12-22 | 民航成都电子技术有限责任公司 | 基于图文语义差异的机场跑道异物检测方法及系统 |
CN117274564B (zh) * | 2023-11-20 | 2024-03-15 | 民航成都电子技术有限责任公司 | 基于图文语义差异的机场跑道异物检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | Weighted residuals for very deep networks | |
WO2020092143A1 (en) | Self-attentive attributed network embedding | |
CN112036513B (zh) | 基于内存增强潜在空间自回归的图像异常检测方法 | |
CN111652202B (zh) | 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统 | |
CN113657561B (zh) | 一种基于多任务解耦学习的半监督夜间图像分类方法 | |
CN111400494B (zh) | 一种基于GCN-Attention的情感分析方法 | |
CN112861945B (zh) | 一种多模态融合谎言检测方法 | |
CN113780292A (zh) | 一种基于证据推理的语义分割网络模型不确定性量化方法 | |
CN112506667A (zh) | 一种基于多任务优化的深度神经网络训练方法 | |
CN112949929B (zh) | 一种基于协同嵌入增强题目表示的知识追踪方法及系统 | |
CN109523012B (zh) | 基于变分解耦合方式对符号有向网络的表达学习方法 | |
CN116935128A (zh) | 一种基于可学习提示的零样本异常图像检测方法 | |
CN115906949B (zh) | 一种石油管道故障诊断方法及系统、存储介质和石油管道故障诊断设备 | |
CN114898121A (zh) | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 | |
CN117201122A (zh) | 基于视图级图对比学习的无监督属性网络异常检测方法及系统 | |
CN114359631A (zh) | 基于编码-译码弱监督网络模型的目标分类与定位方法 | |
CN116052254A (zh) | 基于扩展卡尔曼滤波神经网络的视觉连续情感识别方法 | |
CN113496481A (zh) | 一种少样本胸部X-Ray图像的辅助检测方法 | |
CN116935129A (zh) | 一种基于动态学习提示的零样本异常图像检测方法 | |
CN114077659A (zh) | 一种基于邻居交互网络的知识图谱问答方法及系统 | |
CN112146879A (zh) | 一种滚动轴承故障智能诊断方法及其系统 | |
CN115761654B (zh) | 一种车辆重识别方法 | |
CN116596851A (zh) | 一种基于知识蒸馏和异常模拟的工业瑕疵检测方法 | |
CN112256858B (zh) | 融合问题模式和答题结果的双卷积知识追踪方法及系统 | |
CN113034472B (zh) | 一种基于梯度网络架构搜索的空域隐写分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |