CN114913485A - 一种多层级特征融合的弱监督检测方法 - Google Patents

一种多层级特征融合的弱监督检测方法 Download PDF

Info

Publication number
CN114913485A
CN114913485A CN202210669392.5A CN202210669392A CN114913485A CN 114913485 A CN114913485 A CN 114913485A CN 202210669392 A CN202210669392 A CN 202210669392A CN 114913485 A CN114913485 A CN 114913485A
Authority
CN
China
Prior art keywords
layer
value
target
preset
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210669392.5A
Other languages
English (en)
Inventor
孙辉
史玉龙
王蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Civil Aviation University of China
Original Assignee
Civil Aviation University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Civil Aviation University of China filed Critical Civil Aviation University of China
Priority to CN202210669392.5A priority Critical patent/CN114913485A/zh
Publication of CN114913485A publication Critical patent/CN114913485A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种多层级特征融合的弱监督检测方法,包括:获取待分析图片;将待分析图片,输入预设的目标分类模块中,获取目标分类模块中Layer1层、Layer2层、Layer3层和Layer4层的特征图;基于Layer1层、Layer2层、Layer3层和Layer4层的特征图,生成对应的类激活图;将Layer1层、Layer2层、Layer3层的类激活图融合,形成前景区域;基于前景区域与Layer4层的类激活图,对待分析图片中的目标进行定位。本发明的多层级特征融合的弱监督检测方法,通过采用坐标注意力机制对Resnet50主干网络进行改进,用以捕获目标的关键特征,在提高模型对目标细粒度分类性能的同时,为目标定位器提供计算依据。

Description

一种多层级特征融合的弱监督检测方法
技术领域
本发明涉及人工智能技术领域,特别涉及一种多层级特征融合的弱监督检测方法。
背景技术
近年来,随着航空业的快速发展和空中航线的不断增多,飞行器与鸟类对空域的争夺愈发激烈,世界各地鸟击事故发生概率成明显上升趋势,造成了严重的生命及财产损失。面对鸟击防范的严峻形势,国内外机场开展了广泛深入的鸟情调研,采取了多种鸟击防范措施,配备了探鸟雷达、煤气炮、超声波和激光驱鸟器等多种驱鸟设备。然而,在机场驱鸟的过程中,探鸟雷达难以获取鸟类的种类信息,通常是采用人工瞭望的方式对低空存在的鸟类进行辨识,存在检测效率低和人工成本高的问题,使得机场无法对鸟类采取有针对性的驱鸟策略,导致鸟类容易对驱鸟设备产生耐受性,降低设备的驱鸟效果。为此,使用基于视觉目标检测的方法对机场鸟类进行检测,向地面工作人员提供鸟类的种类和位置信息,这对改善现有驱鸟模式,保障民航飞机的飞行安全具有重要意义。
机场以鸟类为目标检测是一项具有挑战性的视觉任务,需要对机场低空中的鸟类进行细粒度的识别与定位,对模型检测的精度和效率都有较高的要求。一般来说,机场鸟类检测面临着如下三个困难:
(1)同一鸟类在活动过程中具有不同的运动姿态,不同鸟类之间有着相似的外观和形态,存在着类内差异大、类间差异小的特点。
(2)鸟类图像的采集和标注较为困难,需要专家级知识,具有一定的行业门槛,而小的数据量容易造成网络过拟合的问题。
(3)鸟类栖息的环境比较复杂,受背景噪声的影响严重,增加了鸟类检测任务的难度。
发明内容
本发明目的之一在于提供了一种多层级特征融合的弱监督检测方法,通过采用坐标注意力机制对Resnet50主干网络进行改进,用以捕获目标的关键特征,在提高模型对目标细粒度分类性能的同时,为目标定位器提供计算依据。在弱监督定位任务中,以目标分类器对目标的类别的预测分值作为反向传播的起点,利用对比层级相关性传播规则获取网络浅层、中间层和深层特征图中每个位置对网络决策的贡献,再使用类激活映射算法以热力图的形式突出显示网络在目标图像提取的重要特征,并进行融合生成高分辨率类激活图,用于指示目标的轮廓和空间位置,准确、高效的完成目标的定位任务。为机场地面工作人员提供目标的种类和位置信息,从而采取有针对性的驱鸟策略,改善机场现有的驱鸟模式。
本发明实施例提供的一种多层级特征融合的弱监督检测方法,包括:
获取待分析图片;
将待分析图片,输入预设的目标分类模块中,获取目标分类模块中Layer1层、Layer2层、Layer3层和Layer4层的特征图;
基于Layer1层、Layer2层、Layer3层和Layer4层的特征图,生成对应的类激活图;
将Layer1层、Layer2层、Layer3层的类激活图融合,形成前景区域;
基于前景区域与Layer4层的类激活图,对待分析图片中的目标进行定位。
优选的,目标分类模块,包括:
采用Resnet50网络作为主干;
在池化层对给定的输入按水平坐标和垂直坐标对每个通道进行编码,得到方向感知特征图,对坐标信息进行嵌入;
将提取的方向信息进行拼接,利用1×1卷积对信息进行转化,再沿着空间维度分解为两个单独的张量,并使用1×1卷积使其具有相同的通道数,生成坐标信息掩码作为注意力权重,
将注意力权重与输入向量进行逐像素的乘法作为输出结果。
优选的,目标分类模块事先采用数据集进行训练收敛获得;
其中,数据集通过如下步骤构建:
根据机场附近常见的目标的种类,使用目标类别标签及边框注释制作数据集。
优选的,目标分类模块在训练时,采用联合损失函数指导训练;
联合损失函数如下:
L=Lce+λLbp
式中,L表示联合损失函数;Lce表示交叉熵损失函数;Lbp表示感知损失函数;λ表示预设的控制感知损失函数权重的超参数;
感知损失函数如下:
Figure BDA0003692703070000031
式中,N表示图片样本的数量;MFA表示类激活图融合过程中的类激活掩码;MHR表示目标分类模块最后一层卷积层所有特征相应生成的激活掩码;
交叉熵损失函数如下:
Figure BDA0003692703070000032
式中,g标示类别;G表示类别总数;ujg表示符号函数,当图片样本j的真实类别等于g,ujg=1;否则,ujg=0;vjg表示图片样本j属于类别g的概率。
优选的,基于Layer1层的特征图,生成对应的类激活图,包括:
类激活图的计算步骤如下:
Figure BDA0003692703070000033
Figure BDA0003692703070000041
式中,
Figure BDA0003692703070000042
表示Layer1层的特征图对应的类激活图;Ak表示Layer1层的第k个特征图;
Figure BDA0003692703070000043
表示利用对比层级相关性传播理论反向传递获取的Layer1层的第k个特征图中位置(x,y)关于目标类别c的贡献,
Figure BDA0003692703070000044
表示Layer1层的第k个特征图Ak关于目标类别c的通道级权重。
优选的,利用对比层级相关性传播理论反向传递获取的Layer1层的第k个特征图中位置(x,y)关于目标类别c的贡献,包括:
利用对比层级相关性传播获取特征图中每个位置对目标分类决策的贡献;
其中,对比层级相关性传播,包括:
初始化softmax操作前的网络输出值用于区分目标类别神经元和非目标类别神经元的比例,并作为对比层级相关性反向传播的起点,所述初始化函数计算步骤如下:
Figure BDA0003692703070000045
式中,
Figure BDA0003692703070000046
表示Softmax操作之前第l层中第i个神经元对应的分值,P表示第l层中神经元的总个数;
在对比层级相关性反向传递阶段,从网络的输出层一直分解到输入空间的每个变量上,从而度量每个变量和网络决策之间的相关性分数;
常用的层级相关性传播规则是z+和zβ规则,其定义如下所示:
Figure BDA0003692703070000047
Figure BDA0003692703070000048
式中,
Figure BDA0003692703070000049
Figure BDA00036927030700000410
分别表示连接第l和第l+1层神经元的正、负权值;[U,V]表示神经元激活值的取值区间。
优选的,在确定相关性分数时,还对其进行标准化,将相关性分数的取值固定在区间[0~1]之间;标准化计算公式如下:
Figure BDA0003692703070000051
式中,
Figure BDA0003692703070000052
为标准化前的Layer1层的第k个特征图中位置(x,y)关于类别c的相关性分数;
Figure BDA0003692703070000053
为第k个特征图中每个位置关于目标类别c的相关性分数的集合。
优选的,基于前景区域与Layer4层的类激活图,对待分析图片中的目标进行定位,包括:
将前景区域与Layer4层的类激活图进行逐元素相乘,获得定位用的类激活图;
采用自适应阈值,生成掩码图;
采用包围框覆盖类激活图中最大的连通区域确定目标边框图,实现目标的定位;
其中,用于定位的类激活图的生成如下:
Figure BDA0003692703070000054
式中,
Figure BDA0003692703070000055
表示Layer2层的特征图对应的类激活图;
Figure BDA0003692703070000056
表示Layer3层的特征图对应的类激活图;
Figure BDA0003692703070000057
表示Layer4层的特征图对应的类激活图;MHR表示用于定位的类激活图;
Figure BDA0003692703070000058
表示逐元素相加;
Figure BDA0003692703070000059
表示逐元素相乘;
掩码图的计算如下:
Figure BDA00036927030700000510
式中,Bx,y表示掩码图,(x,y)表示坐标;MHR(x,y)表示用于定位的类激活图在(x,y)的像素值;th表示自适应阈值;th=μ+δ,μ为用于定位的类激活图中像素值的均值;δ为用于定位的类激活图中像素值的方差。
优选的,多层级特征融合的弱监督检测方法,还包括:
从大数据平台上获取机场附近的目标的图像;
对获取的目标的图像进行筛选;
将通过筛选的图像,进行目标类别标签及边框注释添加进数据集;
基于更新后的数据集,对目标分类模块进行再次训练;
其中,从大数据平台上获取机场附近的目标的图像,包括:
获取大数据平台上的目标的图像及其相关联的定位信息;
解析定位信息,确定图像对应的拍摄位置;
计算拍摄位置与机场的距离;当距离小于预设的距离阈值时,获取图像。
优选的,在获取图像之间,还需对其关联的定位信息的有效性进行验证;验证步骤如下:
确定定位信息是否为预设的类型;
当定位信息为预设的类型时,获取图像拍摄的第一时间,与定位信息上传的第二时间;当第一时间与第二时间的差值在预设的时间阈值范围内时,通过验证;
当定位信息不为预设的类型时,确定上传的用户的第一置信值和图像对应的第二置信值;当第一置信值大于预设的第一阈值或第二置信值大于预设的第二阈值时,通过验证;当第一置信值位于预设的第一阈值和第三阈值之间且第二置信值位于预设的第二阈值和第四阈值之间时,通过验证;其中,第一阈值大于第三阈值,第二阈值大于第四阈值;
其中,第一置信值通过如下步骤确定:
获取大数据平台为用户配置的第一信用值;
获取大数据平台上其他用户对于用户的第一评价信息;
基于预设的第一评分模板和第一评价信息,确定其他用户对用户的第一评价值;
确定第一评价值的均值,查询预设的评价值与第二信用值对应表,确定第二信用值;
基于第一信用值和第二信用值,确定第一置信值;
第二置信值通过如下步骤确定:
获取大数据平台为用户配置的转化系数;
基于转化系数和第一信用值,确定第一关系值;
获取大数据平台上其他用户对于图像的第二评价信息;
基于预设的第二评分模板和第二评价信息,确定其他用户对于图像的第二评价值;
对大于预设的第一评价阈值或小于预设的第二评价阈值的其他用户的第一信用值进行确定,当第一信用值小于预设的信用阈值时,删除第二评价值;
计算经过处理后的第二评价值的均值,查询预设的第二评价值与第二关系值对应表,确定第二关系值;
基于第一关系值和第二关系值,确定第二置信值。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种多层级特征融合的弱监督检测方法的示意图;
图2为本发明实施例中一种多层级特征融合的弱监督检测方法对应的模块化示意图;
图3为坐标注意力机制及残差模块改进示意图;
图4为用于定位的类激活图生成过程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种多层级特征融合的弱监督检测方法,如图1所示,包括:
步骤S1:获取待分析图片;
步骤S2:将待分析图片,输入预设的目标分类模块中,获取目标分类模块中Layer1层、Layer2层、Layer3层和Layer4层的特征图;
步骤S3:基于Layer1层、Layer2层、Layer3层和Layer4层的特征图,生成对应的类激活图;
步骤S4:将Layer1层、Layer2层、Layer3层的类激活图融合,形成前景区域;
步骤S5:基于前景区域与Layer4层的类激活图,对待分析图片中的目标进行定位。
上述技术方案的工作原理及有益效果为:
通过对目标分类模块中Layer1层、Layer2层、Layer3层和Layer4层的特征图进行处理,生成类激活图;再将类激活图进行融合,通过融合后的类激活图对目标进行定位。待分析图片为设置在机场内的图像采集设备实时拍摄的图像;图2为模块化示意图;
本发明应用目标分类模块对目标类别的预测分值作为反向传播的起点,利用对比层级相关性传播规则获取网络浅层、中间层和深层特征图中每个位置对网络决策的贡献,再使用类激活映射算法以热力图的形式突出显示网络在目标图像提取的重要特征,并进行融合生成高分辨率类激活图,用于指示目标的轮廓和空间位置,准确、高效的完成目标的定位任务。机场的目标一般为鸟类。
在一个实施例中,目标分类模块,包括:
采用Resnet50网络作为主干;
在池化层对给定的输入按水平坐标和垂直坐标对每个通道进行编码,得到方向感知特征图,对坐标信息进行嵌入;
将提取的方向信息进行拼接,利用1×1卷积对信息进行转化,再沿着空间维度分解为两个单独的张量,并使用1×1卷积使其具有相同的通道数,生成坐标信息掩码作为注意力权重,
将注意力权重与输入向量进行逐像素的乘法作为输出结果。
上述技术方案的工作原理及有益效果为:
选择Resnet50作为目标分类器的主干网络,并利用坐标注意力机制对网络的残差模块进行改进,提出CA-Resnet50网络模型,以使得目标分类模块可以有效提取目标的关键特征,提高目标的细粒度分类性能。坐标注意力机制和改进的残差网络模块分别如图3所示。从图3中(a)可以看出,坐标注意力机制可以分为两个步骤,第一步是使用池化层对给定的输入按水平坐标和垂直坐标对每个通道进行编码,得到方向感知特征图,对坐标信息进行嵌入。第二步是将提取的方向信息进行拼接,利用1×1卷积对信息进行转化,然后再沿着空间维度分解为两个单独的张量,并使用1×1卷积使其具有相同的通道数,生成坐标信息掩码作为注意力权重,最后与输入向量进行逐像素的乘法作为模块的输出结果。该注意力机制不仅能够捕获跨通道的信息,还可以捕获方向感知和位置感知的信息,具有轻量灵活的特点,可以为后续弱监督目标定位任务提供重要的计算依据。
在一个实施例中,目标分类模块事先采用数据集进行训练收敛获得;
其中,数据集通过如下步骤构建:
根据机场附近常见的目标的种类,使用目标类别标签及边框注释制作数据集。
上述技术方案的工作原理及有益效果为:
通过机场附近常见的目标的种类,使用目标类别标签及边框注释制作数据集,实现兼顾分类网络的适用性以及分类效率。
在一个实施例中,目标分类模块在训练时,采用联合损失函数指导训练;联合损失函数如下:
L=Lce+λLbp
式中,L表示联合损失函数;Lce表示交叉熵损失函数;Lbp表示感知损失函数;λ表示预设的控制感知损失函数权重的超参数;
感知损失函数如下:
Figure BDA0003692703070000101
式中,N表示图片样本的数量;MFA表示类激活图融合过程中的类激活掩码;MHR表示目标分类模块最后一层卷积层所有特征相应生成的激活掩码;
交叉熵损失函数如下:
Figure BDA0003692703070000102
式中,g标示类别;G表示类别总数;ujg表示符号函数,当图片样本j的真实类别等于g,ujg=1;否则,ujg=0;vjg表示图片样本j属于类别g的概率。
上述技术方案的工作原理及有益效果为:
为提高模型对目标的检测性能,对网络提取的特征进行约束,在目标分类模块的基础上,提出了空间级感知损失函数,并将其引入目标的细粒度分类任务,对图像中的背景噪声进行抑制,在提升模型特征提取能力的同时,可以利用多层级特征融合策略产生更加高质量的类激活图,进一步提高目标的定位性能;在目标分类模块的训练过程中,将提出的感知损失函数和交叉熵损失函数作为联合损失函数,共同监督网络的训练过程,提升网络目标分类性能的同时,进一步产生高质量的类激活图,提高网络弱监督目标定位的性能。其中,使用分类准确率和定位准确率对训练好的目标分类模块性能进行评估,在权重参数λ=1.5时,目标分类准确率和弱监督定位准确率分别提高了1.64%和5.40%,网络的性能达到最优。
在一个实施例中,基于Layer1层的特征图,生成对应的类激活图,包括:
类激活图的计算步骤如下:
Figure BDA0003692703070000111
Figure BDA0003692703070000112
式中,
Figure BDA0003692703070000113
表示Layer1层的特征图对应的类激活图;Ak表示Layer1层的第k个特征图;
Figure BDA0003692703070000114
表示利用对比层级相关性传播理论反向传递获取的Layer1层的第k个特征图中位置(x,y)关于目标类别c的贡献,
Figure BDA0003692703070000115
表示Layer1层的第k个特征图Ak关于目标类别c的通道级权重。
上述技术方案的工作原理及有益效果为:
利用比对层级相关性传播理论和类激活映射算法获取Resnet50网络Layer1层、Layer2层、Layer3层和Layer4层特征图中每个位置对目标分类的贡献,生成对应的类激活图;Layer2层、Layer3层和Layer4层与Layer1层的类激活图的生成步骤一致,在此就不作赘述。
为了实现类激活图的生成,在一个实施例中,利用对比层级相关性传播理论反向传递获取的Layer1层的第k个特征图中位置(x,y)关于目标类别c的贡献,包括:
利用对比层级相关性传播获取特征图中每个位置对目标分类决策的贡献;
其中,对比层级相关性传播,包括:
卷积神经网络由若干个非线性函数嵌套组成,在具有高度的非线性和出色的学习能力的同时,难以对网络做出的决策进行解释。为此,提出对比层级相关性传播理论,使用相关性分数衡量神经元对模型决策做出的贡献,这为弱监督的目标定位任务提供了重要的理论依据。
初始化softmax操作前的网络输出值用于区分目标类别神经元和非目标类别神经元的比例,并作为对比层级相关性反向传播的起点,所述初始化函数计算步骤如下:
Figure BDA0003692703070000121
式中,
Figure BDA0003692703070000122
表示Softmax操作之前第l层中第i个神经元对应的分值,P表示第l层中神经元的总个数;
在对比层级相关性反向传递阶段,从网络的输出层一直分解到输入空间的每个变量上,从而度量每个变量和网络决策之间的相关性分数;
常用的层级相关性传播规则是z+和zβ规则,其定义如下所示:
Figure BDA0003692703070000123
Figure BDA0003692703070000124
式中,
Figure BDA0003692703070000125
Figure BDA0003692703070000126
分别表示连接第l和第l+1层神经元的正、负权值;[U,V]表示神经元激活值的取值区间。
在一个实施例中,在确定相关性分数时,还对其进行标准化,将相关性分数的取值固定在区间[0~1]之间;标准化计算公式如下:
Figure BDA0003692703070000127
式中,
Figure BDA0003692703070000128
为标准化前的Layer1层的第k个特征图中位置(x,u)关于目标类别c的相关性分数;
Figure BDA0003692703070000129
为第k个特征图中每个位置关于目标类别c的相关性分数的集合。
在一个实施例中,如图4所示,基于前景区域与Layer4层的类激活图,对待分析图片中的目标进行定位,包括:
将前景区域与Layer4层的类激活图进行逐元素相乘,获得定位用的类激活图;
采用自适应阈值,生成掩码图;
采用包围框覆盖类激活图中最大的连通区域确定目标边框图,实现目标的定位;
其中,用于定位的类激活图的生成如下:
Figure BDA0003692703070000131
式中,
Figure BDA0003692703070000132
表示Layer2层的特征图对应的类激活图;
Figure BDA0003692703070000133
表示Layer3层的特征图对应的类激活图;
Figure BDA0003692703070000134
表示Layer4层的特征图对应的类激活图;MHR表示用于定位的类激活图;
Figure BDA0003692703070000135
表示逐元素相加;
Figure BDA0003692703070000136
表示逐元素相乘;
掩码图的计算如下:
Figure BDA0003692703070000137
式中,Bx,y表示掩码图;(x,y)表示坐标;MHR(x,y)表示用于定位的类激活图在(x,y)的像素值;th表示自适应阈值;th=μ+δ,μ为用于定位的类激活图中像素值的均值;δ为用于定位的类激活图中像素值的方差。
上述技术方案的工作原理及有益效果为:
高分辨率类激活图融合策略分为多层级类激活图的生成与融合两个阶段。在第一个阶段中,本文利用比对层级相关性传播理论和类激活映射算法获取Resnet50网络Layer1层、Layer2层、Layer3层和Layer4层特征图中每个位置对目标分类的贡献,生成对应的类激活图,并上采样到和输入图像相同的尺寸。其中,类激活图的生成属于第一个阶段;第二阶段,以直接融合的方式将富含目标轮廓和纹理等细节信息的Layer1层、Layer2层和Layer3层类激活图进行融合,用以获取目标的前景区域。但这一过程同样也突出显示了和目标无关的背景噪声,无法准确的对目标进行定位。为此,利用富含目标抽象语义信息的Layer4层类激活图与融合的类激活图进行逐元素相乘,对背景噪声进行抑制,生成可以有效指示目标轮廓和位置的类激活图,并利用自适应阈值生成目标的掩码图,进而使用包围框覆盖类激活图中最大的连通区域确定目标边界框,实现目标的定位。
在一个实施例中,多层级特征融合的弱监督检测方法,还包括:
从大数据平台上获取机场附近的目标的图像;
对获取的目标的图像进行筛选;
将通过筛选的图像,进行目标类别标签及边框注释添加进数据集;
基于更新后的数据集,对目标分类模块进行再次训练;
其中,从大数据平台上获取机场附近的目标的图像,包括:
获取大数据平台上的目标的图像及其相关联的定位信息;
解析定位信息,确定图像对应的拍摄位置;
计算拍摄位置与机场的距离;当距离小于预设的距离阈值时,获取图像。
上述技术方案的工作原理及有益效果为:
通过从大数据平台上获取机场附近的目标的图像,对数据集进行更新,以使目标分类模块一直能够适应该机场,能够持续保障飞机的飞行安全;其中,对获取的目标的图像进行筛选,主要通过已有的目标分类模块进行分类,当可以完成分类时,无需添加进数据集;或者,计算获取的图像与数据集中的原图像的相似度,当相似度存在大于预设的相似度阈值(例如:0.98)时,无需添加,否则,添加进行更新。此外,通过关联的定位信息,确定该图像拍摄的位置,以保证是图像的获取位于机场附近,实现具有针对性地进行更新。
在一个实施例中,在获取图像之间,还需对其关联的定位信息的有效性进行验证;验证步骤如下:
确定定位信息是否为预设的类型;预设的类型为拍摄设备的定位模块发送的数据类型,即当大数据平台上的图像为拍摄设备拍摄时实时上传的,验证通过,即说明该定位信息就是图像对应的拍摄地的定位;
当定位信息为预设的类型时,获取图像拍摄的第一时间,与定位信息上传的第二时间;当第一时间与第二时间的差值在预设的时间阈值范围(例如:3分钟)内时,通过验证;如果是实时上传的一般第一时间与第二时间相同,因此设置阈值,防止拍摄设备故障,造成的延时上传对实时上传数据的混淆;
当定位信息不为预设的类型时,确定上传的用户的第一置信值和图像对应的第二置信值;当第一置信值大于预设的第一阈值或第二置信值大于预设的第二阈值时,通过验证;当第一置信值位于预设的第一阈值和第三阈值之间且第二置信值位于预设的第二阈值和第四阈值之间时,通过验证;其中,第一阈值大于第三阈值,第二阈值大于第四阈值;例如:拍摄者通过电脑终端上传图像时,手动输入的定位信息;该定位信息为拍摄的地址信息;
其中,第一置信值通过如下步骤确定:
获取大数据平台为用户配置的第一信用值;第一信用值可以是大数据平台的工作人员根据用户在大数据平台上传的信息的真实有效性进行分配,是大数据平台对于用户的评价;
获取大数据平台上其他用户对于用户的第一评价信息;
基于预设的第一评分模板和第一评价信息,确定其他用户对用户的第一评价值;第一评价信息可以分为四级,分别为非常不可靠、可靠、非常可靠、信赖;各级对应评分分别为-2、1、2、3。
确定第一评价值的均值,查询预设的评价值与第二信用值对应表,确定第二信用值;
基于第一信用值和第二信用值,确定第一置信值;第一置信值为第一信用值和第二信用值的和值;
第二置信值通过如下步骤确定:
获取大数据平台为用户配置的转化系数;转化系数为第一信用值与第一关系值之间的关系系数;
基于转化系数和第一信用值,确定第一关系值;
获取大数据平台上其他用户对于图像的第二评价信息;
基于预设的第二评分模板和第二评价信息,确定其他用户对于图像的第二评价值;
对大于预设的第一评价阈值或小于预设的第二评价阈值的其他用户的第一信用值进行确定,当第一信用值小于预设的信用阈值时,删除第二评价值;
计算经过处理后的第二评价值的均值,查询预设的第二评价值与第二关系值对应表,确定第二关系值;
基于第一关系值和第二关系值,确定第二置信值。第二置信值为第一关系值和第二关系值的和值。
上述技术方案的工作原理及有益效果为:
当大数据平台上的图像为拍摄设备的实时上传,这样关联的定位信息就是图像的拍摄位置的定位,通过定位信息的类型对是否实时拍摄进行区分;当大数据平台上的图像为用户事后采用电脑终端上传时,需要根据该用户的第一置信值和图像的第二置信值,对图像进行筛选;在确定第一置信值时,综合考虑用户自身以及其他用户对其评价,保证第一置信值确定的准确;在对图像的第二置信值的确定也是综合考虑上传用户的其他用户的评价;实现了从用户自身以及其他用户的认可出发,确定图像是否准确;进而保证数据集更新的准确。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种多层级特征融合的弱监督检测方法,其特征在于,包括:
获取待分析图片;
将所述待分析图片,输入预设的目标分类模块中,获取所述目标分类模块中Layer1层、Layer2层、Layer3层和Layer4层的特征图;
基于所述Layer1层、Layer2层、Layer3层和Layer4层的特征图,生成对应的类激活图;
将所述Layer1层、Layer2层、Layer3层的类激活图融合,形成前景区域;
基于所述前景区域与所述Layer4层的类激活图,对所述待分析图片中的目标进行定位。
2.如权利要求1所述的多层级特征融合的弱监督检测方法,其特征在于,所述目标分类模块,包括:
采用Resnet50网络作为主干;
在池化层对给定的输入按水平坐标和垂直坐标对每个通道进行编码,得到方向感知特征图,对坐标信息进行嵌入;
将提取的方向信息进行拼接,利用1×1卷积对信息进行转化,再沿着空间维度分解为两个单独的张量,并使用1×1卷积使其具有相同的通道数,生成坐标信息掩码作为注意力权重,
将注意力权重与输入向量进行逐像素的乘法作为输出结果。
3.如权利要求1所述的多层级特征融合的弱监督检测方法,其特征在于,所述目标分类模块事先采用数据集进行训练收敛获得;
其中,所述数据集通过如下步骤构建:
根据机场附近常见的目标的种类,使用目标类别标签及边框注释制作数据集。
4.如权利要求1所述的多层级特征融合的弱监督检测方法,其特征在于,所述目标分类模块在训练时,采用联合损失函数指导训练;
所述联合损失函数如下:
L=Lce+λLbp
式中,L表示所述联合损失函数;Lce表示交叉熵损失函数;Lbp表示感知损失函数;λ表示预设的控制感知损失函数权重的超参数;
所述感知损失函数如下:
Figure FDA0003692703060000021
式中,N表示图片样本的数量;MFA表示类激活图融合过程中的类激活掩码;MHR表示目标分类模块最后一层卷积层所有特征相应生成的激活掩码;
所述交叉熵损失函数如下:
Figure FDA0003692703060000022
式中,g标示类别;G表示类别总数;ujg表示符号函数,当图片样本j的真实类别等于g,ujg=1;否则,ujg=0;vjg表示图片样本j属于类别g的概率。
5.如权利要求1所述的多层级特征融合的弱监督检测方法,其特征在于,基于所述Layer1层的特征图,生成对应的类激活图,包括:
所述类激活图的计算步骤如下:
Figure FDA0003692703060000023
Figure FDA0003692703060000024
式中,
Figure FDA0003692703060000025
表示Layer1层的特征图对应的类激活图;Ak表示Layer1层的第k个特征图;
Figure FDA0003692703060000026
表示利用对比层级相关性传播理论反向传递获取的Layer1层的第k个特征图中位置(x,y)关于目标类别c的贡献,
Figure FDA0003692703060000027
表示Layer1层的第k个特征图Ak关于目标类别c的通道级权重。
6.如权利要求5所述的多层级特征融合的弱监督检测方法,其特征在于,利用对比层级相关性传播理论反向传递获取的Layer1层的第k个特征图中位置(x,y)关于目标类别c的贡献,包括:
利用对比层级相关性传播获取特征图中每个位置对目标分类决策的贡献;
其中,对比层级相关性传播,包括:
初始化softmax操作前的网络输出值用于区分目标类别神经元和非目标类别神经元的比例,并作为对比层级相关性反向传播的起点,所述初始化函数计算步骤如下:
Figure FDA0003692703060000031
式中,
Figure FDA0003692703060000032
表示Softmax操作之前第l层中第i个神经元对应的分值,P表示第l层中神经元的总个数;
在对比层级相关性反向传递阶段,从网络的输出层一直分解到输入空间的每个变量上,从而度量每个变量和网络决策之间的相关性分数;
常用的层级相关性传播规则是z+和zβ规则,其定义如下所示:
Figure FDA0003692703060000033
Figure FDA0003692703060000034
式中,
Figure FDA0003692703060000035
Figure FDA0003692703060000036
分别表示连接第l和第l+1层神经元的正、负权值;[U,V]表示神经元激活值的取值区间。
7.如权利要求6所述的多层级特征融合的弱监督检测方法,其特征在于,在确定相关性分数时,还对其进行标准化,将所述相关性分数的取值固定在区间[0~1]之间;标准化计算公式如下:
Figure FDA0003692703060000037
式中,
Figure FDA0003692703060000038
为标准化前的Layer1层的第k个特征图中位置(x,y)关于目标类别c的所述相关性分数;
Figure FDA0003692703060000041
为第k个特征图中每个位置关于目标类别c的所述相关性分数的集合。
8.如权利要求1所述的多层级特征融合的弱监督检测方法,其特征在于,所述基于所述前景区域与所述Layer4层的类激活图,对所述待分析图片中的目标进行定位,包括:
将所述前景区域与所述Layer4层的类激活图进行逐元素相乘,获得定位用的类激活图;
采用自适应阈值,生成掩码图;
采用包围框覆盖类激活图中最大的连通区域确定目标边框图,实现目标的定位;
其中,用于定位的类激活图的生成如下:
Figure FDA0003692703060000042
式中,
Figure FDA0003692703060000043
表示Layer2层的特征图对应的类激活图;
Figure FDA0003692703060000044
表示Layer3层的特征图对应的类激活图;
Figure FDA0003692703060000045
表示Layer4层的特征图对应的类激活图;MHR表示用于定位的类激活图;
Figure FDA0003692703060000046
表示逐元素相加;
Figure FDA0003692703060000047
表示逐元素相乘;
所述掩码图的计算如下:
Figure FDA0003692703060000048
式中,Bx,y表示掩码图,(x,y)表示坐标;MHR(x,y)表示用于定位的类激活图在(x,y)的像素值;th表示自适应阈值;th=μ+δ,μ为用于定位的类激活图中像素值的均值;δ为用于定位的类激活图中像素值的方差。
9.如权利要求3所述的多层级特征融合的弱监督检测方法,其特征在于,还包括:
从大数据平台上获取机场附近的目标的图像;
对获取的目标的图像进行筛选;
将通过筛选的图像,进行目标类别标签及边框注释添加进所述数据集;
基于更新后的数据集,对所述目标分类模块进行再次训练;
其中,从大数据平台上获取机场附近的目标的图像,包括:
获取所述大数据平台上的目标的图像及其相关联的定位信息;
解析所述定位信息,确定所述图像对应的拍摄位置;
计算所述拍摄位置与所述机场的距离;当所述距离小于预设的距离阈值时,获取所述图像。
10.如权利要求9所述的多层级特征融合的弱监督检测方法,其特征在于,在获取所述图像之间,还需对其关联的定位信息的有效性进行验证;验证步骤如下:
确定所述定位信息是否为预设的类型;
当所述定位信息为预设的类型时,获取所述图像拍摄的第一时间,与定位信息上传的第二时间;当所述第一时间与所述第二时间的差值在预设的时间阈值范围内时,通过验证;
当所述定位信息不为预设的类型时,确定上传的用户的第一置信值和所述图像对应的第二置信值;当所述第一置信值大于预设的第一阈值或所述第二置信值大于预设的第二阈值时,通过验证;当所述第一置信值位于预设的第一阈值和第三阈值之间且所述第二置信值位于预设的第二阈值和第四阈值之间时,通过验证;其中,所述第一阈值大于第三阈值,所述第二阈值大于第四阈值;
其中,所述第一置信值通过如下步骤确定:
获取所述大数据平台为所述用户配置的第一信用值;
获取所述大数据平台上其他用户对于所述用户的第一评价信息;
基于预设的第一评分模板和所述第一评价信息,确定其他用户对所述用户的第一评价值;
确定所述第一评价值的均值,查询预设的评价值与第二信用值对应表,确定第二信用值;
基于所述第一信用值和所述第二信用值,确定所述第一置信值;
所述第二置信值通过如下步骤确定:
获取所述大数据平台为所述用户配置的转化系数;
基于所述转化系数和所述第一信用值,确定第一关系值;
获取所述大数据平台上其他用户对于所述图像的第二评价信息;
基于预设的第二评分模板和所述第二评价信息,确定其他用户对于所述图像的第二评价值;
对大于预设的第一评价阈值或小于预设的第二评价阈值的其他用户的第一信用值进行确定,当所述第一信用值小于预设的信用阈值时,删除所述第二评价值;
计算经过处理后的所述第二评价值的均值,查询预设的第二评价值与第二关系值对应表,确定第二关系值;
基于所述第一关系值和所述第二关系值,确定所述第二置信值。
CN202210669392.5A 2022-06-14 2022-06-14 一种多层级特征融合的弱监督检测方法 Pending CN114913485A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210669392.5A CN114913485A (zh) 2022-06-14 2022-06-14 一种多层级特征融合的弱监督检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210669392.5A CN114913485A (zh) 2022-06-14 2022-06-14 一种多层级特征融合的弱监督检测方法

Publications (1)

Publication Number Publication Date
CN114913485A true CN114913485A (zh) 2022-08-16

Family

ID=82771292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210669392.5A Pending CN114913485A (zh) 2022-06-14 2022-06-14 一种多层级特征融合的弱监督检测方法

Country Status (1)

Country Link
CN (1) CN114913485A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861745A (zh) * 2022-10-25 2023-03-28 中国交通信息科技集团有限公司 一种用于生成三维模型的二维图像特征提取方法与系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861745A (zh) * 2022-10-25 2023-03-28 中国交通信息科技集团有限公司 一种用于生成三维模型的二维图像特征提取方法与系统
CN115861745B (zh) * 2022-10-25 2023-06-06 中国交通信息科技集团有限公司 一种用于生成三维模型的二维图像特征提取方法与系统

Similar Documents

Publication Publication Date Title
CN109034044B (zh) 一种基于融合卷积神经网络的行人再识别方法
CN109977918B (zh) 一种基于无监督域适应的目标检测定位优化方法
CN108229444B (zh) 一种基于整体和局部深度特征融合的行人再识别方法
CN110598029B (zh) 基于注意力转移机制的细粒度图像分类方法
US10546242B2 (en) Image analysis neural network systems
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
CN109359559B (zh) 一种基于动态遮挡样本的行人再识别方法
CN107609525B (zh) 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法
CN113033520B (zh) 一种基于深度学习的树木线虫病害木识别方法及系统
US11651302B2 (en) Method and device for generating synthetic training data for an artificial-intelligence machine for assisting with landing an aircraft
CN108830188A (zh) 基于深度学习的车辆检测方法
CN112395987B (zh) 基于无监督域适应cnn的sar图像目标检测方法
CN112434643A (zh) 低慢小目标的分类识别方法
CN112464911A (zh) 基于改进YOLOv3-tiny的交通标志检测与识别方法
CN109655815B (zh) 基于ssd的声呐目标检测方法
WO2022218396A1 (zh) 图像处理方法、装置和计算机可读存储介质
Li et al. Unsupervised domain adaptation with self-attention for post-disaster building damage detection
CN112861785B (zh) 一种基于实例分割和图像修复的带遮挡行人重识别方法
CN104778699B (zh) 一种自适应对象特征的跟踪方法
CN114842208A (zh) 一种基于深度学习的电网危害鸟种目标检测方法
CN112558185A (zh) 基于注意力机制的双向gru台风轨迹智能预测预报系统、计算机设备、存储介质
CN114283355A (zh) 一种基于小样本学习的多目标濒危动物跟踪方法
CN110321867B (zh) 基于部件约束网络的遮挡目标检测方法
CN112084860A (zh) 目标对象检测、火力发电厂检测方法和装置
CN114529552A (zh) 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination