CN117274564A

CN117274564A - 基于图文语义差异的机场跑道异物检测方法及系统

Info

Publication number: CN117274564A
Application number: CN202311544495.XA
Authority: CN
Inventors: 李静毅; 刘培刚; 兰青松; 何鹏; 邓平; 梁晨; 王郁明; 林阳; 桂腾辉; 卓沛知; 田鹏宇
Original assignee: Civil Aviation Electronic Technology Co ltd
Current assignee: Civil Aviation Electronic Technology Co ltd
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2023-12-22
Anticipated expiration: 2043-11-20
Also published as: CN117274564B

Abstract

本申请公开了一种基于图文语义差异的机场跑道异物检测方法及系统，通过异常区域分割器提取待检测图的待识别物体图像，及背景底图中对应的区域图像；将待识别物体图像及区域图像输入优化的CLIP模型，获取第一语义编码、第一嵌入编码、第二语义编码及第二嵌入编码；接收用户定义的词义空间；之后通过将第一语义编码、第一嵌入编码、第二语义编码、第二嵌入编码及用以屏蔽用户不需要关注的待识别物体的参考语义编码输入构建的异常鉴别器，识别并输出待检测图中异常物体所在的位置。本申请能够提高识别机场跑道异物的准确性，解决传统图像检测方法对自然环境因素鲁棒性低，而深度学习方法检测跑道异物易产生漏报的技术问题。

Description

基于图文语义差异的机场跑道异物检测方法及系统

技术领域

本申请涉及机场跑道异物检测领域，尤其涉及一种基于图文语义差异的机场跑道异物检测方法及系统。

背景技术

机场跑道异物对航天飞机的安全有着严重威胁，目前国内外航空机场主要采用人工方式对机场跑道异物进行巡检和处理。随着先进电子智能技术的发展，新建的大型民用机场开始采用自动化的计算系统对机场跑道异物进行全天候的检测。

现有技术中公开的机场跑道异物检测方法包括基于视觉图像检测的传统图像检测方法和深度学习方法。传统算法通过背景剪除等方式检测异物，从而解决检测机场跑道异物的问题。深度学习方法主要包括基于目标检测的方法、基于图像分割的方法、基于自动编解码的方法等。这些方法具有更高的光学鲁棒性，以及更精确的异常位置识别能力，并且能够根据用户的需求自定义异物。

现有技术中公开的传统图像检测方法存在对光照敏感性低，抗各种光学干扰能力差，难以捕获目标语义信息，无法实现对用户特定非异物目标的屏蔽，易产生误报；深度学习方法对于标注数据的需求量大，而实际场景中对应的异物数据非常稀少，容易将数量较少的异物识别为正常物品，容易导致漏报。

发明内容

本申请的主要目的在于提供一种基于图文语义差异的机场跑道异物检测方法及系统，旨在解决现有技术中公开的传统图像检测方法容易产生误报，而现有技术中的深度学习方法检测跑道异物易产生漏报的技术问题。

为实现上述目的，本申请提供一种基于图文语义差异的机场跑道异物检测方法，所述方法包括以下步骤：

获取待检测图及对应的背景底图；其中，所述背景底图为不含异常物体的参考图像；

将所述待检测图及对应的背景底图输入构建的异常区域分割器，获取所述待检测图中的待识别物体图像，及所述背景底图中与待识别物体图像对应的区域图像；

将所述待识别物体图像及区域图像输入优化的CLIP模型，获取第一语义编码、第一嵌入编码、第二语义编码及第二嵌入编码；所述第一语义编码和所述第一嵌入编码对应所述待识别物体图像，所述第二语义编码和所述第二嵌入编码对应所述区域图像；

获取预设的词义空间，并将所述词义空间输入名词提取器，以获取词义空间内名词对应的参考语义编码；其中，所述词义空间包括预定义的正常物体名词及异常物体名词；

将所述第一语义编码、所述第一嵌入编码、所述第二语义编码、所述第二嵌入编码及所述参考语义编码输入构建的异常鉴别器，输出所述待检测图中异常物体所在的位置。

可选地，所述获取待检测图及对应的背景底图的步骤，包括：

获取所述待检测图的图像特征；

根据所述图像特征查询预设的背景底图数据库，以筛选出与对应所述待检测图的图像特征最匹配的背景底图；其中，所述背景底图数据库中包括多个拍摄模式下采集的多个背景底图。

可选地，所述将所述待检测图及对应的背景底图输入构建的异常区域分割器，获取所述待检测图中的待识别物体图像，及所述背景底图中与待识别物体图像对应的区域图像的步骤，包括：

通过对比所述待检测图图像和其对应的所述背景底图图像，得到第一描述坐标和第二描述坐标；其中，所述第一描述坐标用于描述所述待检测图上待识别物体框，所述第二描述坐标用于描述所述背景底图上的区域图像的位置提示框；

根据待检测图及其待识别物体框，通过物体分割模型切割获得待识别物体图像；

根据背景底图及位置提示框，通过物体分割模型切割获得背景底图上与待识别物体图像位置对应的区域图像。

可选地，所述通过对比所述待检测图图像和其对应的所述背景底图图像，得到第一描述坐标和第二描述坐标的步骤，包括：

获取所述待检测图和对应背景底图的关键点；

通过关键点匹配的方式输出所述待检测图及对应背景底图的最优关键点；其中，所述最优关键点为待检测图与对应背景底图中相似度最高的数据点；

获取所述待检测图及对应背景底图的所述最优关键点的坐标，并构建所述待检测图与所述背景底图映射所需的仿射矩阵；

获取待识别物体框的任意两个对角点的第一描述坐标；

通过仿射矩阵的逆变转化所述两个对角点的第一描述坐标，生成用于描述所述区域图像位置的第二描述坐标。

可选地，所述将所述待识别物体图像及区域图像输入优化的CLIP模型，获取第一语义编码、第一嵌入编码、第二语义编码及第二嵌入编码的步骤，包括：

根据机场跑道历史异物数据集的数据训练CLIP模型，以获取优化的CLIP模型；

将所述待识别物体图像和所述区域图像输入优化的CLIP模型的图像编码模块，生成所述待识别物体图像对应的第一语义编码和所述区域图像对应的第二语义编码；

将所述第一语义编码及所述第二语义编码输入优化的CLIP模型的图像编码模块的多层感知器，生成对应所述待识别物体图像的第一嵌入编码及对应所述区域图像的第二嵌入编码。

可选地，所述根据机场跑道历史异物数据集的数据训练CLIP模型，以获取优化的CLIP模型的步骤，包括：

将机场跑道历史异物数据集中每个数据输入至优化的CLIP模型，获取对应异物图像的语义编码及背景图像的语义编码；

获取所述机场跑道历史异物数据集对应异物图像的语义编码及背景图像的语义编码的交叉熵损失函数；

获取所述机场跑道历史异物数据集对应异物图像的语义编码及背景图像的语义编码的对比损失函数；

根据所述交叉熵损失函数和对比损失函数的值优化CLIP模型的参数，输出优化的CLIP模型。

可选地，所述获取预设的词义空间，并将所述词义空间输入名词提取器，以获取词义空间内名词对应的参考语义编码的步骤，包括：

获取用户输入的语言段落数据，其中，所述语言段落数据包括正常类别样本段落和异常样本类别段落；

从所述正常类别样本段落通过名词提取器获得正常物体名词；

从所述异常类别样本段落通过名词提取器获得异常物体名词；

将正常物体名词和异常物体名词输入CLIP文字编码器得到参考语义编码。

可选地，所述将所述第一语义编码、所述第一嵌入编码、所述第二语义编码、所述第二嵌入编码及所述参考语义编码输入构建的异常鉴别器，以输出所述待检测图中异常物体所在的位置的步骤，包括：

所述根据所述参考语义编码，屏蔽识别为正常物体的待识别物体图像的步骤，通过所述异常鉴别器判断所述待识别物体图像的语义分类类型；

根据所述第一嵌入编码及所述第二嵌入编码，通过所述异常鉴别器判断所述待识别物体图像的图像分类类型；

综合所述语义分类类型和所述图像分类类型，输出对应的所述待识别物体图像中异常物体及异常物体所在的位置。

可选地，所述根据所述参考语义编码，屏蔽识别为正常物体的待识别物体图像的步骤，包括：

获取用户定义的需屏蔽的相关类别物体的参考语义编码；

计算所述第一语义编码与所述参考语义编码的相似矩阵；

在待识别物体图像对应的相似矩阵中的值大于第一预设阈值时，识别对应待识别物体为正常物体，屏蔽对应待识别物体图像。

此外，为实现上述目的，本申请还提供一种基于图文语义差异的机场跑道异物检测系统，所述系统包括：

图像获取模块，被配置为，获取待检测图及对应的背景底图；其中，所述背景底图为不含异常物体的参考图像；

目标提取模块，被配置为，将所述待检测图及对应的背景底图输入构建的异常区域分割器，获取所述待检测图中的待识别物体图像，及所述背景底图中与待识别物体图像对应的区域图像；

图像编码模块，被配置为，将所述待识别物体图像及区域图像输入优化的CLIP模型，获取第一语义编码、第一嵌入编码、第二语义编码及第二嵌入编码；所述第一语义编码和所述第一嵌入编码对应所述待识别物体图像，所述第二语义编码和所述第二嵌入编码对应所述区域图像；

语言编码模块，被配置为，获取预设的词义空间，并将所述词义空间输入名词提取器，以获取词义空间内名词对应的参考语义编码；其中，所述词义空间包括预定义的正常物体名词及异常物体名词；

异常识别模块，被配置为，将所述第一语义编码、所述第一嵌入编码、所述第二语义编码、所述第二嵌入编码及所述参考语义编码输入构建的异常鉴别器，输出所述待检测图中异常物体所在的位置。

本申请所能实现的有益效果。

本申请实施例提出的一种基于图文语义差异的机场跑道异物检测方法及系统，通过建立异常区域分割器，异常区域分割器切割待检测图的待识别物体图像，以及背景底图对应待识别物体图像位置的区域图像，方便获取与背景底图中存在待识别物体的待识别物体图像，之后将待识别物体图像通过CLIP模型获取对应待识别物体图像的语义编码和嵌入编码，通过将待识别物体图像转化为对应的语义编码，能够实现提高鉴定待识别物体图像对应的待识别物体的精准度；通过获取用户预定义的语义空间，获得语义空间中的物体名词对应的语义编码，最后通过将语义空间中的正常物品和异常物品对应的语义编码输入异常鉴别器，从而便于用户定义的正常物品进行屏蔽，从而实现降低异常鉴别器在判断待识别物体时出现误报的概率；由于单纯的通过检测图像判断异常物体的方存在输入的异物样本量小导致漏报的情况，或将正常物品识别为异常物品导致误报的概率，而本申请通过结合语义编码和待识别物体图像综合判断待识别物体图像与背景底图的差异，再根据用户定义的语义空间屏蔽正常物品；能够实现提高识别机场道路异物的精准度，降低识别机场道路异物的过程中出现误报或漏报的概率。

附图说明

图1为本申请提供的基于图文语义差异的机场跑道异物检测方法的流程示意图；

图2为图1中获取待检测图及对应的背景底图的步骤的细化流程示意图；

图3为图1中构建异常区域分割器的步骤的细化流程示意图；

图4为图3中获取第一描述坐标和第二描述坐标步骤的细化流程示意图；

图5为图1中获取所述待识别物体图像及区域图像对应的语义编码和嵌入编码的步骤的细化流程示意图；

图6为图5中获取所述待识别物体图像的异常预测概率的步骤的细化流程示意图；

图7为图1中识别并输出所述待检测图中异常物体所在的位置的步骤的细化流程示意图；

图8为图7中屏蔽识别为正常物体的待识别物体图像的步骤的细化流程示意图；

图9为本申请提供的基于图文语义差异的机场跑道异物检测系统的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例的主要解决方案是：首先建立异常区域分割器，异常区域分割器切割待检测图的可疑物体分割图以及背景底图与待识别物体对应位置物体分割图；之后建立优化的CLIP模型，一方面将所有可疑物体分割图、对应物体分割图通过CLIP模型的图像模块获取相应的语义编码，另一方面通过从用户输入的语言段落中获取用户预定义的正常物体和异常物体的文字信息，并通过使用CLIP模型的语言模块进行文字编码，获得用户定义的物体名词对应的语义编码；最后建立异常鉴别器，异常鉴别器比较可疑物体与对应的背景物体的语义编码的差异，以及可疑物体与用户定义语言类别的语义差异，通过可疑物体与对应背景物体的语义比较，既保证了差分算法对于任意物体异常召回识别的能力，又降低了单纯靠区域像素差异带来的因光照、对齐等因素造成的误报；通过比较可疑物体的图像编码与用户定义的类别的语言编码的语义差异，对用户定义的正常物品进行屏蔽，进一步降低异常鉴别器在判断待识别物体时出现误报的概率。

由于现有技术中公开的基于视觉图像检测的机场跑道异物检测的传统检测方法智能化低，依赖于预先定制的检测规则，难以根据现场的变化实时更新提升自己的检测规则，且传统检测方法不能捕获目标语义信息，难以实现对用户定义的非异物目标的屏蔽；现有技术中公开的深度学习方法依赖数据量较大的标注数据，而实际情况下异物数据的数据量非常少，如果异物没有在标注数据中出现时，深度学习方法容易将对应的异物分类为正常数据，进而导致产生漏报。

本申请提供一种解决方案，通过建立异常区域分割器，异常区域分割器切割待检测图的待识别物体图像，以及背景底图对应待识别物体图像位置的区域图像，方便获取与背景底图中存在待识别物体的待识别物体图像，之后将待识别物体图像通过CLIP模型获取对应待识别物体图像的语义编码和嵌入编码，通过将待识别物体图像转化为对应的语义编码，能够实现提高鉴定待识别物体图像对应的待识别物体的精准度；通过获取用户预定义的语义空间，获得语义空间中的物体名词对应的语义编码，最后通过将语义空间中的正常物品和异常物品对应的语义编码输入异常鉴别器，从而便于用户定义的正常物品进行屏蔽，从而实现降低异常鉴别器在判断待识别物体时出现误报的概率；本申请通过结合语义编码和待识别物体图像综合判断待识别物体图像与背景底图的差异，再根据用户定义的语义空间屏蔽正常物品；能够实现提高识别机场道路异物的精准度，降低识别机场道路异物的过程中出现误报或漏报的概率。

参照图1，本申请首先提供一种基于图文语义差异的机场跑道异物检测方法，所述方法包括以下步骤：步骤S10、步骤S20、步骤S30、步骤S40和步骤S50。

步骤S10，获取待检测图及对应的背景底图；其中，所述背景底图为不含异常物体的参考图像。

待检测图为当前需要识别判断的图像，即图像内未确定是否存在待识别物体的图像；待识别物体为对应物体图像未识别为异常物体或正常物体的图像，而背景底图为在数据库中存放的对应带检测图所在区域的背景底图，且背景底图内不含有任何异常物体，背景底图作为异常检测的参考图像。

通过获取待检测图和背景底图，能够更加方便对待检测图内包含的待识别物体图像进行检测，一定程度上提高获取待识别物体图像的便利性，既能够实现降低待识别物体在检测时发生遗漏的概率，同时也能够提高判定待识别物体的类别的效率。

步骤S20，将所述待检测图及对应的背景底图输入构建的异常区域分割器，获取所述待检测图中的待识别物体图像，及所述背景底图中与待识别物体图像对应的区域图像。

异常区域分割器包括可疑物提示器及与其级联的图形分割模型，可疑物提示器用于获取待检测图中待识别物体的位置，而图形分割模型用于根据可疑物提示器的标识，对待检测图中待识别物体的位置进行切割获得待识别物体，从而实现拆分获取待检测图中多个待识别物体图像，同时获取得到背景底图中对应待识别物体图像的区域图像，方便后续对待识别物体的类别进行判别，减少判断待识别物体图像过程中出现错漏的概率。

示例性的，图形分割模型实施为SAM，即Segment Anything Model，SAM为基于自然语言处理对图形进行分割的基础模型，通过可疑物提示器指示的待识别物体位置，进而得到切割后的语义连续的待识别物体，减少后续对待识别物体进行判别时发生错漏的概率。

SAM根据背景剪除法对于异常位置的提示，在待检测图和背景底图中分割出可疑物存在位置的物体目标的掩码。

记背景底图为，待检测图为/>，则获得n个可疑目标的掩码表示为：

其中，与/>一一对应，即同一下标的掩码图像表示同一位置的物体目标区域的掩码；/>表示待检测图的掩码；表示SAM模型对待检测图中分割可疑物；/>表示为待检测图中第n个待识别物体图像的掩码；/>表示区域图像的掩码；表示SAM模型对背景底图中分割与可疑物位置对应的区域图像；/>表示为背景底图中第n个区域图像的掩码。

之后可疑物提示器将对应标识点及附近的背景像素区域的语义内容作为提示框信息传递至图形分割模型，通过图形分割模型切割待检测图的形状，同时在背景底图上根据对应位置和像素进行区域切割，从而方便后续对待识别物体图像及区域图像的语义内容进行比较。

步骤S30，将所述待识别物体图像及区域图像输入优化的CLIP模型，获取第一语义编码、第一嵌入编码、第二语义编码及第二嵌入编码；所述第一语义编码和所述第一嵌入编码对应所述待识别物体图像，所述第二语义编码和所述第二嵌入编码对应所述区域图像。

CLIP模型为基于对比文本-图像对的预训练模型，全称为Contrastive Language–Image Pre-training，其包含文字编码器和图像编码器，本申请提供的CLIP的图像编码器框架包括基于卷积神经网络的图像编码结构和基于transformer的图像编码结构，本申请实施例选用卷积神经网络Resnet-50作为其图像编码器，同时图像编码网络Resnet-50后端输入了一个多层感知器结构，并且增加了一个用以异常判别的线性层，该线性层仅包含两个类别代理，即正常类代理和异常类代理。多层感知器为MLP，MLP全称为Multi-LayerPerception；通过将待识别物体图像和区域图像输入CLIP模型，获得待识别物体图像及其位置对应的区域图像的语义编码和嵌入编码，方便将待识别物体图像和区域图像转化至同一背景下，方便精准获得的待识别物体，减少将背景底图中的物体错误识别为待识别物体的概率。

步骤S40，获取预设的词义空间，并将所述词义空间输入名词提取器，以获取词义空间内名词对应的参考语义编码；其中，所述词义空间包括预定义的正常物体名词及异常物体名词。

词义空间为用户通过外界输入预定义的正常物体名词及异常物体名词的方式得到，并由名词提取器获取词义空间中的正常物体名词和异常物体名词，名词提取器也可以被称为关键词提取工具，方便将对应的正常物体名词和异常物体名词转化为语义编码，方便后续根据预设的词义空间，屏蔽正常物体对应的语义编码，减少将异常物体识别为正常物体的概率，同时也降低将正常物体上报为异常物体的概率。

步骤S50，将所述第一语义编码、所述第一嵌入编码、所述第二语义编码、所述第二嵌入编码及所述参考语义编码输入构建的异常鉴别器，输出所述待检测图中异常物体所在的位置。

通过将词义空间对应的参考语义编码输入构建的异常鉴别器，异常鉴别器能够根据用户定义的词义空间屏蔽对应的正常物体，从而识别并上报待检测图中异常物体，同时通过第一语义编码、第一嵌入编码、第二语义编码、第二嵌入编码输出对应的待检测图中包含的异常物体。

在本实施例中，通过建立异常区域分割器，异常区域分割器切割待检测图的待识别物体图像，以及背景底图对应待识别物体图像位置的区域图像，方便获取与背景底图中存在待识别物体的待识别物体图像，之后将待识别物体图像通过CLIP模型获取对应待识别物体图像的语义编码和嵌入编码，通过将待识别物体图像转化为对应的语义编码，能够实现提高鉴定待识别物体图像对应的待识别物体的精准度；通过获取用户预定义的语义空间，获得语义空间中的物体名词对应的语义编码，最后通过将语义空间中的正常物品和异常物品对应的语义编码输入异常鉴别器，从而便于用户定义的正常物品进行屏蔽，从而实现降低异常鉴别器在判断待识别物体时出现误报的概率；本申请能够实现提高识别机场道路异物的精准度，降低识别机场道路异物的过程中出现误报或漏报的概率。

作为一种可选的实施方式，参照图2，在执行获取待检测图及对应的背景底图的步骤时，本申请提供的基于图文语义差异的机场跑道异物检测方法包括：步骤S101、步骤S102和步骤S103。

步骤S101，建立背景底图数据库；其中，所述背景底图数据库包括多个拍摄模式下采集的多个背景底图。

背景底图为图像中不含有待识别物体的影像，背景底图数据库为通过影像采集获得的影像数据，多个拍摄模式包括不同角度、多时段和/或多焦距，背景底图数据库用于获取与待检测图最匹配的背景底图，背景底图不包含关键待检测区域的局部低亮度图，例如待检测机场道路路面上的阴影。

步骤S102，获取所述待检测图的图像特征。

通过获取待检测图的拍摄角度以及对应的拍摄时间，方便获取与待检测图相匹配的最佳背景底图，能够实现减少后期处理背景底图的复杂程度，提高获取待检测图中待识别物体图像的便利性。

步骤S103，根据所述图像特征查询所述背景底图数据库，筛选并输出与对应所述待检测图的图像特征最匹配的背景底图。

由于背景底图与待检测图在外界环境不同时对应识别可疑物的干扰也不相同，因此通过根据待检测图的图像特征获取背景底图，能够方便背景底图与待检测图在外界环境中保持相近，进而提高后续分割待识别物体图像的效率，既能够实现精准分割待识别物体图像，同时也能够减少后期处理图像的流程，提高获取待识别物体图像的效率。

作为一种可选的实施方式，参照图3和图4，在执行将所述待检测图及对应的背景底图输入构建的异常区域分割器，获取所述待检测图中的待识别物体图像，及所述背景底图中与待识别物体图像对应的区域图像的步骤时，本申请提供的基于图文语义差异的机场跑道异物检测方法包括：步骤S201、步骤S202、步骤S203和步骤S204。

步骤S201，对所述待检测图及背景底图进行标准化处理。

标准化处理为将背景底图和待检测图根据均值和方差进行数据处理，能够方便对背景底图和待检测图进行处理，方便后续处理待识别物体图像对应的背景底图的区域图像。

标准化处理的公式如下所示：

其中，为对当前图像进行标准化；/>为当前图像，可以是背景底图或待检测图；/>为当前/>的均值；/>为当前/>的方差；/>为背景底图的方差；/>为背景底图的均值。

步骤S202，通过对比所述待检测图图像和其对应的所述背景底图图像，得到第一描述坐标和第二描述坐标；其中，所述第一描述坐标用于描述所述待检测图上待识别物体框，所述第二描述坐标用于描述所述背景底图上的区域图像的位置提示框。

通过构建差分图方式对比所述待检测图图像和其对应的所述背景底图图像。差分图为根据待检测图与背景底图的映射关系获取得到的图像，能够方便待检测图与背景底图之间进行标准化，从而提高获取待识别物体框以及对应背景底图上描述区域的描述坐标，提高后续对待识别物体图像进行处理的便利性。

步骤S2021，获取所述待检测图和对应背景底图的关键点。

步骤S2022，通过关键点匹配的方式输出所述待检测图及对应背景底图的最优关键点；其中，所述最优关键点为待检测图与对应背景底图中相似度最高的数据点。

步骤S2023，获取所述待检测图及对应背景底图的所述最优关键点的坐标，并获取所述待检测图与所述背景底图映射所需的仿射矩阵。

具体实施为：获取所述待检测图和对应背景底图的关键点；通过关键点匹配的方式输出所述待检测图及对应背景底图的最优关键点；其中，所述最优关键点为待检测图与对应背景底图中相似度最高的数据点；获取所述待检测图及对应背景底图的所述最优关键点的坐标，并构建所述待检测图与所述背景底图映射所需的仿射矩阵。

示例性的，通过SIFT角点检测的方式获得待检测图及背景底图的关键点，将SIFT角点检测获取得到的关键点用于判断待检测图和背景底图的映射关系，之后通过k近邻法（即k-nearest neighbor）获取得到最优关键点，根据最优关键点的坐标求解待检测图和背景底图的仿射矩阵，采用如下的公式：

其中，（x，y）表示为初始背景底图的任意像素坐标；(u，v)表示为背景底图经过映射变换后对应位置的像素坐标；M表示为待检测图和背景底图的仿射矩阵。

步骤S2024，获取待识别物体框的任意两个对角点的第一描述坐标。

获取对角点坐标的方式获取对应待识别物体框的相对位置，同时根据相对设置的两个对角点坐标能够减少待识别物体框相对于背景底图的复杂程度，提高获取背景底图上待识别物体框对应的像素坐标的效率。

步骤S2025，通过仿射矩阵的逆变转化所述两个对角点的第一描述坐标，生成用于描述所述区域图像位置的第二描述坐标。

示例性的，假设差分图的某一待识别物体框左上坐标为PointA(/>，/>)，右下坐标为PointB(/>，/>)。根据下图的仿射变化公式获得其在背景图像上对应的物体框的描述坐标/>(/>，/>)，/>(/>，/>)，：

由此，根据获取的描述坐标得到在待检测图的待识别物体框集合，记为，以及与之对应的在背景底图上的目标框集合。

根据仿射关系获取得到用于描述获取背景底图目标框对应描述坐标的仿射矩阵，既能够方便获取与待识别物体图像相对应的区域图像，也能够实现降低获取待识别物体图像的便利性。

通过关键点匹配获取所述待检测图对应所述背景底图的差分图。关键点匹配用于获取待检测图与对应背景底图的差分图，同时通过将关键点匹配的方式能够获取背景底图相对于待检测图的映射关系，从而实现获取待检测图对应的背景底图，提高后续处理背景底图的便利性。

通过将初始状态的背景底图经过映射变化获取得到对应的背景底图，采用如下的公式将背景底图与待检测图进行差分：

其中，表示为对应的差分图；/>表示为背景底图经过映射关系实现变化后的图像；/>表示为待检测图对应的图像，abs(/>)表示为对待检测图和映射后的背景底图进行差分。

步骤S203，根据待检测图及其待识别物体框，通过物体分割模型切割获得待识别物体图像。

通过轮廓查找的方式能够获取得到待识别物体框，待识别物体框对应位置的物体图像被识别为待识别物体，用于供后续流程中进行进一步的识别和判断，从而获取对应的待识别物体是否为异常物体，减少再获取待识别物体过程中出现错漏的概率。

步骤S204，根据背景底图及位置提示框，通过物体分割模型切割获得背景底图上与待识别物体图像位置对应的区域图像。

根据轮廓查找的方式获取待识别物体框后，根据待检测图和背景底图的映射关系，获得待识别物体框对应背景底图的描述坐标，方便描述坐标转化为对应的用于获取区域图像的描述坐标，提高获取背景底图对应的区域图像的便利性。

作为一种可选的实施方式，参照图5，在执行所述将所述待识别物体图像及区域图像输入优化的CLIP模型，获取第一语义编码、第一嵌入编码、第二语义编码及第二嵌入编码的步骤时，本申请提供的基于图文语义差异的机场跑道异物检测方法包括：步骤S301、步骤S302、步骤S303和步骤S304。

步骤S301，对所述待识别物体图像及区域图像进行归一化。

对待识别物体图像和区域图像进行空间尺度的统一，示例性的，将待识别物体图像和区域图像的尺寸设置为224*224，从而实现提高获取待识别物体图像对应的语义编码的便利性。

假设每个待识别物体为，则对应待检测图的待识别物体图像的集合可表示为：

其中，表示为待识别物体图像的集合；/>表示为待检测图上的第/>个待识别物体图像。

假设每个待识别物体在背景底图上对应区域的目标称为，则背景底图上对应区域图像的集合表示为：

其中，与/>一一对应；/>表示为待识别物体图像在背景底图上的对应区域图像的集合；/>表示为背景底图上与待识别物体图像位置对应的第/>个区域图像。

步骤S302，根据机场跑道历史异物数据集的数据训练CLIP模型，以获取优化的CLIP模型。

由于本申请中的CLIP模型包括图像编码网络Resnet-50、后端连接的一个多层感知器结构、以及用以异常判别的线性层，为了方便将待识别物体图像和区域图像输入至CLIP模型后，获得更加准确的第一语义编码及第二语义编码，因此需采用机场跑道历史异物数据集中的数据训练CLIP模型，进而获取优化的CLIP模型。

步骤S303，将所述待识别物体图像和所述区域图像输入优化的CLIP模型的图像编码模块，生成所述待识别物体图像对应的第一语义编码和所述区域图像对应的第二语义编码。

其中，CLIP( 即Contrastive Language–Image Pre-training，识别为一种基于对比文本-图像对的预训练方法)为OpenAI发布的用于跨图像与文字的大规模预训练神经网络模型，CLIP主要包含文字编码器部分和图像编码器部分。

待检测图的待识别物体的语义编码可表示为：

其中，表示为待检测图的待识别物体的语义编码的集合；/>表示为待识别物体图像的集合；/>表示为待识别物体图像经CLIP模型训练输出语义编码；/>表示为待检测图的第n个待识别物体的语义编码。

背景底图的区域图像对应的语义编码可表示为：

其中，表示为背景底图的区域图像的语义编码的集合；/>表示为待识别物体图像的集合；/>表示为区域图像经CLIP模型训练输出语义编码；/>表示为背景底图的第n个区域图像的语义编码。

步骤S304，将所述第一语义编码及所述第二语义编码输入优化的CLIP模型的图像编码模块的多层感知器，生成对应所述待识别物体图像的第一嵌入编码及对应所述区域图像的第二嵌入编码。

图像区域的数据经过图像编码网络和多层感知器的映射后，得到最终的嵌入编码和/>，表达式如下：

=/>

其中，表示为与待识别物体图像的语义编码对应的嵌入编码，即第一嵌入编码，/>表示为待识别物体的语义编码经多层感知器映射生成第一嵌入编码；/>表示为待识别物体的语义编码的集合；/>表示为与区域图像的语义编码对应的嵌入编码，即第二嵌入编码，/>表示为区域图像的语义编码经多层感知器映射生成第二嵌入编码；/>表示为区域图像的语义编码的集合。

基于上述实施例，为了获取优化的CLIP模型输出的嵌入代码的准确性，在执行根据机场跑道历史异物数据集的数据训练CLIP模型，以获取优化的CLIP模型之后，本实施例还包括：判别所述待识别物体图像的类别，获取所述待识别物体图像的异常预测概率。

异常预测概率的表达式为：

其中，P表示为待识别物体图像的异常识别概率的集合，表示为待识别物体图像的识别为异物的异常识别概率，/>为/>中的元素，/>为异物的类别代理，/>为非异物的类别代理，/>表示为通过经验判断第i个待识别物体识别为异物。

作为一种可选的实施方式，参照图6，在执行所述根据机场跑道历史异物数据集的数据训练CLIP模型，以获取优化的CLIP模型的步骤时，本申请提供的基于图文语义差异的机场跑道异物检测方法包括：步骤S3041、步骤S3042、步骤S3043和步骤S3044。

步骤S3041，将机场跑道历史异物数据集中每个数据输入至CLIP模型，获取对应异物图像的语义编码及背景图像的语义编码。

步骤S3042，计算所述机场跑道历史异物数据集对应异物图像的语义编码及背景图像的语义编码的交叉熵损失函数。

交叉熵损失函数的计算公式如下：

其中，N表示为提取的待识别物体图像区域总数，N=2n；表示为嵌入编码中的元素；/>为第/>张图像所对应的类别的类别代理，本文中仅为正常类代理或异常类代理，而/>为另一个类别代理，例如，在/>表示为通过经验判断第i个待识别物体图像识别为异常类代理，则/>表示为通过经验判断第i个待识别物体图像识别为正常类代理。

步骤S3043，计算所述机场跑道历史异物数据集对应异物图像的语义编码及背景图像的语义编码的对比损失函数。

假设待检测图的第i个可疑区域的真实标签为，则表达式如下：

对比损失函数表达如下：

其中，表示a，b两个向量的余弦相似度；/>为损失系数，在本申请中，当j=i时，/>取值最大；/>表示为第i个待识别物体的语义编码经多层感知器映射生成第一嵌入编码；/>表示为第i个区域图像的语义编码经多层感知器映射生成第二嵌入编码。

通过上述计算公式，本申请既能够在嵌入空间上拉进背景区域向量的距离，也能够推远作为图像前景的异常物体与背景图像之间的距离，同时为了克服异物样本的数量远低于背景样本的缺陷，因此本申请还增加了异物样本与背景样本的对比样本对。

示例性的，表示待检测图的第i个区域若不为异常物体，则CLIP模型在训练过程中需要降低两区域嵌入编码的余弦相似度，即待检测图与它的背景底图的相同位置区域的背景区域在嵌入空间上的距离尽量小，减少未识别为异常物体的区域与背景底图之间的差异；而/>)意味着当待检测图的第i个区域真实标签为异常物体时，CLIP模型训练的目标在于使得该异常物体的嵌入编码与其背景底图的所提供的背景区域的嵌入编码之间不会发生干涉。

步骤S3044，根据所述交叉熵损失函数和对比损失函数的值优化CLIP模型的参数，输出优化的CLIP模型。

基于计算获得的交叉熵损失函数和对比损失函数的值，对与CLIP模型中添加的多层感知器和判断层的参数进行优化，能够提高输出对应待识别物体图像和区域图像的第一语义编码、第二语义编码的准确性，从而提高识别对应异物的精准性。

在一些实施例中，在执行所述获取预设的词义空间，并将所述词义空间输入名词提取器，以获取词义空间内名词对应的参考语义编码的步骤中，本申请提供的方法包括：步骤S401、步骤S402、步骤S403和步骤S404。

步骤S401，获取用户输入的语言段落数据，其中，所述语言段落数据包括正常类别样本段落和异常样本类别段落；

步骤S402，从所述正常类别样本段落通过名词提取器获得正常物体名词；

步骤S403，从所述异常类别样本段落通过名词提取器获得异常物体名词；

步骤S404，将正常物体名词和异常物体名词输入CLIP文字编码器得到参考语义编码。

在一些实施例中，参照图7，在执行将第一语义编码、第一嵌入编码、第二语义编码、第二嵌入编码及参考语义编码输入构建的异常鉴别器的步骤时，本申请提供的基于图文语义差异的机场跑道异物检测方法包括：步骤S501、步骤S502和步骤S503。

步骤S501，根据所述参考语义编码，屏蔽识别为正常物体的待识别物体图像，通过所述异常鉴别器判断所述待识别物体图像的语义分类类型。

通过根据用户定义的词义空间，获得用户需屏蔽的相关类别物体的参考语义编码，之后通过矩阵乘法获得待识别物体的第一语义编码与参考语义编码的相似矩阵S。对于某一待识别物体进行检测，若对应待识别物体在相似矩阵S中的值高于设定的第一预设阈值，在本实施例中的第一预设阈值设置为0.7，则认为该物体与用户提供的名词匹配成功，其对应区域的目标将不会被异常鉴别器上报。例如，当用户定义了飞机、小车等目标后，异常鉴别器将不会将这些目标视为异常物体，从而减少此类目标的误报。

待识别物体图像的语义分类类型的上报公式表达为：

其中，表示待识别物体图像与词义空间中物体名词的相似性，表示待识别物体图像与词义空间中所提供的物体名词的余弦相似性，)表示为待识别物体图像与词义空间中所提供的物体名词的余弦相似性的最大值；/>表示词义空间中的k表示为词义空间所提供的名词数。

其中，表示待识别物体图像的语义分类类型的上报类型，1表示认定对应待识别物体为异常物体；0表示对应待识别物体认定为正常物体；/>表示为第一预设阈值，在本实施例中，/>为0.7。

步骤S502，根据所述第一嵌入编码及第二嵌入编码，通过所述异常鉴别器判断所述待识别物体图像的图像分类类型。

待检测图上的第i个可疑区域，它与背景底图对应区域的CLIP语义编码向量之间的余弦相似性表示为：

背景底图对应区域的经过MLP编码后的嵌入编码向量之间的余弦相似性表示为：

则融合后的相似指标为：

其中，和/>表示为上报超参数。在本实施例中，/>=0.3，/>=0.7。

对应的待识别物体图的图像分类类型表示为：

其中，表示待识别物体与的图像分类类型，1表示认定为异物；0表示认定为非异物；/>表示为第二预设阈值，本实施例中，/>为0.4。

步骤S503，综合所述语义分类类型和图像分类类型，输出对应的待识别物体图像中异常物体及异常物体所在的位置。

对应待检测图中待识别物体图像的异物判断公式为：

其中，表示待识别物体图像的语义分类类型的上报类型及待识别物体图像的图像分类类型的上报类型均为异常时，即/>为1，则上报该区域的物体。

通过综合语义分类类型和图像分类类型判别对应的待识别物体图像是否为异物，同时输出对应待识别物体图像为异物时的所在的区域，提高识别机场道路对应的异常物体的便利性。

在一些实施例中，参照图8，在执行根据所述语义空间，屏蔽识别为正常物体的待识别物体图像的步骤时，本申请提供的基于图文语义差异的机场跑道异物检测方法包括：步骤S5011、步骤S5012和步骤S5013。

步骤S5011，获取用户定义的需屏蔽的相关类别物体的参考语义编码。

步骤S5012，计算所述第一语义编码与所述参考语义编码的相似矩阵。

步骤S5013，在待识别物体图像对应的相似矩阵中的值大于第一预设阈值时，识别对应待识别物体为正常物体，屏蔽对应待识别物体图像。

此外，为实现上述目的，参照图9，本申请还提供一种基于图文语义差异的机场跑道异物检测系统，所述系统包括：图像获取模块910、目标提取模块920、图像编码模块930、语言编码模块940和异常识别模块950。

图像获取模块910被配置为，获取待检测图及对应的背景底图；其中，所述背景底图为不含异常物体的参考图像。

待检测图为当前需要识别判断的图像，待识别物体为对应物体图像未判定分类的图像，而背景底图为在数据库中存放的对应带检测图所在区域的背景底图，且背景底图内不含有任何异常物体，背景底图作为检测异常物体的参考图像。

通过图像获取模块910获取待检测图和背景底图，能够更加方便对待检测图内包含的待识别物体图像进行检测，一定程度上提高获取待识别物体图像的便利性，既能够实现降低待识别物体在检测时发生遗漏的概率，同时也能够提高判定待识别物体的类别的效率。

目标提取模块920与图像获取模块910通信连接，目标提取模块920被配置为，将所述待检测图及对应的背景底图输入构建的异常区域分割器，获取所述待检测图中的待识别物体图像，及所述背景底图中与待识别物体图像对应的区域图像。

目标提取模块920通过异常区域分割器实现切割待检测图，异常区域分割器包括可疑物提示器及与其级联的图形分割模型，可疑物提示器用于获取待检测图中待识别物体的位置，而图形分割模型用于根据可疑物提示器的标识，根据待检测图中待识别物体的位置切割获得待识别物体，从而实现拆分获取待检测图中多个待识别物体图像，同时获取得到背景底图中对应待识别物体图像的区域图像，方便后续对待识别物体的类别进行判别，减少判断待识别物体图像过程中出现错漏的概率。

图像编码模块930与目标提取模块920通信连接，图像编码模块930被配置为，将所述待识别物体图像及区域图像输入优化的CLIP模型，获取第一语义编码、第一嵌入编码、第二语义编码及第二嵌入编码；所述第一语义编码和所述第一嵌入编码对应所述待识别物体图像，所述第二语义编码和所述第二嵌入编码对应所述区域图像。

图像编码模块930采用的CLIP模型为基于对比文本-图像对的预训练模型，全称为Contrastive Language–Image Pre-training，其包含文字编码器和图像编码器，本申请提供的CLIP的图像编码器框架包括基于卷积神经网络的图像编码结构和基于transformer的图像编码结构，本申请实施例选用卷积神经网络Resnet-50作为其图像编码器，同时图像编码网络Resnet-50后端输入了一个多层感知器结构，并且增加了一个用以异常判别的线性层，该线性层仅包含两个类别代理，即正常类代理和异常类代理。多层感知器为MLP，MLP全称为Multi-Layer Perception；通过将待识别物体图像和区域图像输入CLIP模型，获得待识别物体图像及其位置对应的区域图像的语义编码和嵌入编码，方便将待识别物体图像和区域图像转化至同一背景下，方便精准获得的待识别物体，减少将背景底图中的物体错误识别为待识别物体的概率。

语言编码模块940被配置为，获取预设的词义空间，并将所述词义空间输入名词提取器，以获取词义空间内名词对应的参考语义编码；其中，所述词义空间包括预定义的正常物体名词及异常物体名词。

用户通过外界输入的方式预设词义空间，并通过语言编码模块940中的名词提取器获取词义空间中的正常物体名词和异常物体名词，方便将对应的正常物体名词和异常物体名词转化为参考语义编码，方便后续根据用户定义的词义空间，屏蔽正常物体对应的语义编码，减少将异常物体识别为正常物体的概率，同时也降低将正常物体上报为异常物体的概率。

异常识别模块950与图像编码模块930和语言编码模块940通信连接，异常识别模块950被配置为，将所述第一语义编码、所述第一嵌入编码、所述第二语义编码、所述第二嵌入编码及所述参考语义编码输入构建的异常鉴别器，输出所述待检测图中异常物体所在的位置。

异常识别模块950将词义空间对应的参考语义编码输入构建的异常鉴别器，异常鉴别器能够根据用户定义的词义空间屏蔽对应的正常物体，从而识别并上报待检测图中异常物体，同时通过第一语义编码、第一嵌入编码、第二语义编码、第二嵌入编码输出对应的待检测图中包含的异常物体。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于图文语义差异的机场跑道异物检测方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的基于图文语义差异的机场跑道异物检测方法，其特征在于，所述获取待检测图及对应的背景底图的步骤，包括：

获取所述待检测图的图像特征；

3.如权利要求1所述的基于图文语义差异的机场跑道异物检测方法，其特征在于，所述将所述待检测图及对应的背景底图输入构建的异常区域分割器，获取所述待检测图中的待识别物体图像，及所述背景底图中与待识别物体图像对应的区域图像的步骤，包括：

4.如权利要求3所述的基于图文语义差异的机场跑道异物检测方法，其特征在于，所述通过对比所述待检测图图像和其对应的所述背景底图图像，得到第一描述坐标和第二描述坐标的步骤，包括：

获取所述待检测图和对应背景底图的关键点；

获取待识别物体框的任意两个对角点的第一描述坐标；

5.如权利要求1所述的基于图文语义差异的机场跑道异物检测方法，其特征在于，所述将所述待识别物体图像及区域图像输入优化的CLIP模型，获取第一语义编码、第一嵌入编码、第二语义编码及第二嵌入编码的步骤，包括：

6.如权利要求5所述的基于图文语义差异的机场跑道异物检测方法，其特征在于，所述根据机场跑道历史异物数据集的数据训练CLIP模型，以获取优化的CLIP模型的步骤，包括：

7.如权利要求1所述的基于图文语义差异的机场跑道异物检测方法，其特征在于，所述获取预设的词义空间，并将所述词义空间输入名词提取器，以获取词义空间内名词对应的参考语义编码的步骤，包括：

8.如权利要求1所述的基于图文语义差异的机场跑道异物检测方法，其特征在于，所述将所述第一语义编码、所述第一嵌入编码、所述第二语义编码、所述第二嵌入编码及所述参考语义编码输入构建的异常鉴别器，以输出所述待检测图中异常物体所在的位置的步骤，包括：

根据所述参考语义编码，屏蔽识别为正常物体的待识别物体图像，通过所述异常鉴别器判断所述待识别物体图像的语义分类类型；

9.如权利要求8所述的基于图文语义差异的机场跑道异物检测方法，其特征在于，所述根据所述参考语义编码，屏蔽识别为正常物体的待识别物体图像的步骤，包括：

获取用户定义的需屏蔽的相关类别物体的参考语义编码；

计算所述第一语义编码与所述参考语义编码的相似矩阵；

10.一种基于图文语义差异的机场跑道异物检测系统，其特征在于，所述系统包括：

图像获取模块（910），被配置为，获取待检测图及对应的背景底图；其中，所述背景底图为不含异常物体的参考图像；

目标提取模块（920），被配置为，将所述待检测图及对应的背景底图输入构建的异常区域分割器，获取所述待检测图中的待识别物体图像，及所述背景底图中与待识别物体图像对应的区域图像；

图像编码模块（930），被配置为，将所述待识别物体图像及区域图像输入优化的CLIP模型，获取第一语义编码、第一嵌入编码、第二语义编码及第二嵌入编码；所述第一语义编码和所述第一嵌入编码对应所述待识别物体图像，所述第二语义编码和所述第二嵌入编码对应所述区域图像；

语言编码模块（940），被配置为，获取预设的词义空间，并将所述词义空间输入名词提取器，以获取词义空间内名词对应的参考语义编码；其中，所述词义空间包括预定义的正常物体名词及异常物体名词；

异常识别模块（950），被配置为，将所述第一语义编码、所述第一嵌入编码、所述第二语义编码、所述第二嵌入编码及所述参考语义编码输入构建的异常鉴别器，输出所述待检测图中异常物体所在的位置。