CN113591593B - 基于因果干预的异常天气下目标检测方法、设备及介质 - Google Patents

基于因果干预的异常天气下目标检测方法、设备及介质 Download PDF

Info

Publication number
CN113591593B
CN113591593B CN202110763961.8A CN202110763961A CN113591593B CN 113591593 B CN113591593 B CN 113591593B CN 202110763961 A CN202110763961 A CN 202110763961A CN 113591593 B CN113591593 B CN 113591593B
Authority
CN
China
Prior art keywords
weather
attention
features
feature
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110763961.8A
Other languages
English (en)
Other versions
CN113591593A (zh
Inventor
林志勇
汪燕青
李伟佳
陈龙
吴伟
林小敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Road & Bridge Information Co ltd
Original Assignee
Xiamen Road & Bridge Information Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Road & Bridge Information Co ltd filed Critical Xiamen Road & Bridge Information Co ltd
Priority to CN202110763961.8A priority Critical patent/CN113591593B/zh
Publication of CN113591593A publication Critical patent/CN113591593A/zh
Application granted granted Critical
Publication of CN113591593B publication Critical patent/CN113591593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于因果干预的异常天气下目标检测方法、设备及介质,包括S1、计算实例特征与天气特征的注意力分数;S2、将注意力分数作为天气先验权重与实例特征融合得到融合特征并输出;S3、通过残差结构对实例特征与融合特征进行求和,并输出求和结果;S4、设定S1‑S3的执行次数kD,根据执行次数kD重复执行S1‑S3,并将前一次执行输出的求和结果作为后一次执行输入的实例特征,将第kD次执行输出的求和结果作为最终输出结果;S5、设定S1‑S4的训练轮数B,根据训练轮数B重复执行S1‑S4;S6、结束训练,获得因果干预后的目标检测模型。本发明能够提高模型在异常天气下的检测能力,且具有良好的泛化能力。

Description

基于因果干预的异常天气下目标检测方法、设备及介质
技术领域
本发明涉及计算机技术领域,特别涉及一种基于因果干预的异常天气下目标检测方法、设备及介质。
背景技术
目标检测旨在对重要目标定位并分类,近年来,在诸如计算机诊断、人脸识别、自动驾驶等计算机视觉任务中被广泛应用。近期工作虽然在多个基础测试上有着不错的表现,但在面对复杂的户外场景尤其是不同异常天气时(如:雪、雾、雨等),使目标检测模型保持较高精度仍然具有很大挑战。例如:自动驾驶汽车需要能够适应各种不同的户外环境,而影响自动驾驶汽车走入我们日常生活的一个重要原因,便是目标检测模型在恶劣天气条件下表现不佳。因此改善目标检测鲁棒性和恶劣天气下的表现已经成为计算机视觉方向的一个活跃研究领域。当前学术界流行的方法包括但不限于数据增强,去噪,建立更广泛的数据集等。
现有的目标检测模型主要包括one-stage和two-stage两种策略,其中,two-stage是指检测算法需要分两步完成,首先需要获取候选区域,然后进行分类,例如R-CNN系列;与之相对的是one-stage策略,这类方法不再需要单独寻找候选区域,例如YOLO和SSD系列。其中two-stage方法通常包含三个部分,第一个是用于提取图片特征的主干模型,例如:VGG,ResNet,ResNeXt和DenseNet等;第二个是用于加强特征脖颈部分,例如Feature PyramidNetwork(FPN),Path Aggregation Network(PAN);最后一个是用于微调候选框(boundingbox,bbox)位置和分类的处理头。
模型的鲁棒性体现在验证集和测试集的表现差异,而这种差异是由于数据偏见导致的。数据偏见分为三个层次:(1)目标级别;研究中发现在COCO数据集中,马大多数情况与人共同出现,这使模型将马与人进行了目标级别的强关联,进而影响在弱监督语义分割中难以分割马的目标边界;(2)前后景级别;研究中发现,在ImageNet-9中,87.5%的图片在背景更换后会被模型错误分类,这说明模型会将目标与背景进行强关联;(3)全局级别;研究中发现,数据集中一些人口统计学上的变量,例如性别、年龄和人种等会影响模型的表现。我们认为天气腐蚀是一种全局级别的数据偏见,并称为天气偏见,当目标均在某种天气下拍摄,会使模型将目标与该种天气相关联,并进一步影响在其他天气下的表现。
为了改善模型在异常天气下的表现,当前很多检测方法都致力于去除天气偏见对模型的影响:如数据增强、去腐蚀、建模天气环境、建立更广泛的人造数据集和建立更广泛的真实数据集,又或者是设计多尺度网络以及聚合特征。然而,现有的检测方法都存在计算复杂度高,且仅能针对单一腐蚀,难以拓展到其他腐蚀的问题,即缺少一种轻量级、泛化性好的检测方法。鉴于此,本案发明人对上述问题进行深入研究,遂有本案产生。
发明内容
本发明的目的,在于提供一种基于因果干预的异常天气下目标检测方法、设备及介质,解决现有检测方法存在的计算复杂度高,仅能针对单一腐蚀,难以拓展到其他腐蚀的问题;能够实现在多种天气腐蚀下具有良好的泛化能力,且能够在无需增加额外训练数据和大量计算的情况下,提高模型在异常天气下的检测能力。
为了达成上述目的,本发明的解决方案是:
第一方面,本发明提供基于因果干预的异常天气下目标检测方法,方法包括如下步骤:
步骤S1、通过注意力编码部件计算实例特征与天气特征的注意力分数;
步骤S2、注意力编码部件将注意力分数作为天气先验权重与实例特征进行融合得到融合特征,并输出融合特征;
步骤S3、通过残差结构对实例特征与输出的融合特征进行求和,并输出求和结果;
步骤S4、设定步骤S1-S3的执行次数kD,kD为正整数;根据执行次数kD重复执行步骤S1-S3,并且将前一次执行输出的求和结果作为后一次执行输入的实例特征,将最后一次执行输出的求和结果作为最终输出结果,之后进入步骤S5;
步骤S5、设定步骤S1-S4的训练轮数B,B为正整数;根据训练轮数B重复执行步骤S1-S4,并在达到设定的训练轮数B后,进入步骤S6;
步骤S6、结束训练,获得因果干预后的目标检测模型。
进一步的,在所述步骤S1之前,还包括:
步骤S0、将目标训练图片输入到在ImageNet数据集上预训练的VGG网络模型中,并提取VGG网络模型中第一个max pooling层的输出作为目标训练图片的天气特征。
进一步的,所述步骤S0还包括:将提取的天气特征输入到RoIAlign中,并展平为一维向量,每种天气特征均是该天气对应的所有天气图片的一维向量的均值,最终得到NW×dW的天气特征矩阵W=[w1,…wi,...wNW];其中,wi表示第i种天气特征,NW表示天气种类的数量,dW表示天气向量的维度;
根据ImageNet数据集中各种天气图片的数量,确定第i种天气出现的概率P(wi),得到天气先验概率向量其中,/>pi=P(wi),R表示自然数集。
进一步的,所述的通过注意力编码部件计算实例特征与天气特征的注意力分数具体包括:
给定实例特征X、天气特征W和天气先验概率p;其中,NX表示实例特征的数量,dX表示每个实例特征的维度;
通过注意力编码部件计算注意力分数矩阵其中,Q=W1X,K=W2W,/>σ表示放缩因子,dv表示注意力编码的维度,T表示矩阵转置,W1和W2是Linear Layer;将实例特征和天气特征映射到相同维度,求得/>用aij表示注意力分数矩阵a的第i行第j列元素,即aij表示第i个实例特征对应第j种天气特征的注意力分数。
进一步的,所述的注意力编码部件将注意力分数作为天气先验权重与实例特征进行融合得到融合特征具体包括:
注意力编码部件将得到的注意力分数作为一个软掩码,自动选择对于每个实例特征重要的天气特征;
将天气先验概率p复制扩展为与K相同维度的矩阵,表示为其中,/>且Pi的每个元素相同,都为第i种天气的天气先验概率;然后将P和K进行点乘,表示在对应天气先验概率下的天气特征;最后将注意力分数与处理后的天气特征相乘进行融合,并用一个线性层将最终融合结果映射到指定的维度后输出,具体如式(1):
Attention(X,W)=matmul(a,K·P)Wa+ba
(1)
在式(1)中,Wa表示线性变化中的权重,ba表示线性变化中的偏置。
进一步的,所述步骤S1还包括:
通过多注意力融合部件计算实例特征与不同的天气特征的注意力分数,从而得到不同学习权重的注意力分数;其中,多注意力融合部件由两个或者两个以上注意力编码部件并联;
所述步骤S2还包括:
多注意力融合部件将得到的不同学习权重的注意力分数均作为天气先验权重与实例特征进行融合;将所有融合结果组合连接在一起得到最终融合结果,并用一个线性层将最终融合结果映射到指定维度后输出,具体如式(2):
MultiHead(X,W)=Concat(head1,...,headh)Wm+bm
Whereheadi=Attention(X,W)
(2)
在式(2)中,dv=dX/h,保证输入维度与输出维度一致;h表示并行使用的注意力编码部件的个数;Wm表示线性变化中的权重,bm表示线性变化中的偏置。
进一步的,所述的通过残差结构对实例特征与输出的融合特征进行求和,并输出求和结果具体包括:
将注意力编码部件或者多注意力融合部件输出的最终融合结果先经过多层线性映射后,再与实例特征进行相加,并通过一个线性层和ReLU激活函数后输出求和结果,具体公式化如式(3):
DRB(X,W)=BN(MultiHead(X,W)+X)
(3)。
进一步的,所述执行次数kD取值为2;h取值为2。
第二方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。
第三方面,本发明一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的方法。
采用上述方案后,本发明具有以下突出优点:利用卷积神经网络浅层特征可以描述图片纹理和颜色这一特点,提出使用预训练主干网络提取的风格特征作为天气特征;再使用基于Transformer编码器的WCI模块,并结合天气特征,实现对实例特征引入do算子操作,能够有效消除天气偏见对实例特征的影响。在具体使用时,本发明的技术方案可以作为类Faster R-CNN模型的轻量级插件,能够在无需增加额外训练数据和大量计算的情况下,提高模型在异常天气下的检测能力。同时,本发明的技术方案在多种天气腐蚀下具有良好的泛化能力,容易拓展,使用范围广。
附图说明
图1为本发明的结构化因果图;
图2为本发明的天气因果干预框架图;
图3为本发明的天气特征提取流程图;
图4为在KITTI、KITTI-R(添加天气腐蚀后的KITTI)、PASCAL VOC、PASCAL-R(添加天气腐蚀后的VOC)数据集上使用本发明与Faster R-CNN的目标检测结果对比图;
图5为在KITTI数据集上添加不同强度天气腐蚀后,本发明与Faster R-CNN的目标检测结果对比图;
图6为本发明基于因果干预的异常天气下目标检测方法的执行流程框图;
图7为本发明一种电子设备的原理框图;
图8为本发明一种计算机可读存储介质的原理框图。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
本发明的目的是针对当前对异常天气的处理方法,包括去腐蚀、数据增强、建立更大范围的数据集等,都存在计算复杂度高,且仅能针对单一腐蚀,难以拓展到其他腐蚀的问题,提出了一种基于因果推理(Causal Inference)的天气因果干预(Weather-inducedCausal Intervention,WCI)算法模块(以下称为WCI模块),并使用主干模型提取的风格特征作为天气先验(Weather Prior,WP),可以作为类Faster R-CNN模型的轻量级插件,在无需增加额外训练数据和大量计算的情况下,提高模型在异常天气下的检测能力。
对因果的探索是一个逐层向上的阶梯:从关联到干预,最后到反事实。关联是指在观测数据中寻找变量之间相关性,但是因为混淆因子(confounder)的影响,观察到的相关性在多数情况下是错误的。因此,通过干预观测数据,主动移除混淆因子对变量的影响,得到更可信的推理关系,具体是引入do算子,控制混淆因子,对它分段讨论。反事实则旨在观测数据的基础上,回答未观测或不可观测的问题。对因果学习(Causal Learning)的建模包括两个理论框架:the Robin Causal Model(RCM)和the structural causal model(SCM)。近年来,越来越多的计算机视觉任务在探索因果推理的潜力,包括但不限于:图片分类、强化学习和对抗学习。
在执行本发明方法之前,需要先结构化因果模型:
如图1左半部分所示,其中,X表示实例特征,W表示天气偏见,Y表示目标属性,目标属性包括目标的类别、位置和大小,箭头指向表示两变量之间的因果关系:因→果。
X→Y,实例特征决定了目标属性,这在模型中表示为一个前向推理过程。同时,模型训练旨在学习他们之间的一个鲁棒关系,近似表示两者之间的因果导向。
X←W→Y,天气偏见影响着实例特征,例如异常天气雪、雾、雨等会对目标产生不同程度的遮挡,改变目标的纹理和颜色信息。同时,天气偏见也影响着目标属性,在极端天气下,目标的定位变得困难,形状轮廓更加难以确定。因此,天气偏见是该因果模型中的混淆因子,这解释了为什么在似然函数P(Y|X)指导下训练的模型,会将实例特征与天气偏见相关联,并导致模型在其他场景下表现不佳。
从图1中我们可以看到,W对Y的影响包含两条路径,分别是W→Y和W→X→Y。深度学习模型的推理过程可以简单描述为通过卷积神经网络提取图片特征,进一步通过特征推断目标属性,这说明Y是在未知的情况下,通过X来进行推理得到的,因此我们是无法切断W对Y的影响(它是未知的)。所以,想要改善目标检测模型在异常天气下的表现,我们只能通过切断W对X的影响,帮助模型学习X和Y之间更加鲁棒的映射关系。
如图1右半部分所示,我们提出使用因果干预后的P(Y|do(X))训练新的目标检测模型,消除混淆因子W的影响;进一步我们通过后门调整(backdoor adjustment)公式来实现P(Y|do(X)),其中,我们将W分层表示为:W={w},得到以下式(1):
P(Y|do(X))=∑wP(Y|X,w)P(w)
(1)
在式(1)中,将W分层得到多种天气情况,例如雪、雾、雨等,其中,P(w)指某种天气出现的概率,P(Y|X,w)指在某种天气情况下,对X和Y建模。在物理层面实现上式,需要得到在不同天气下前后景不变的多张图片,这显然是不可能的。因此,本发明提出使用预训练主干模型提取的风格特征作为天气特征,并通过基于Transformer编码器实现的WCI模块,将实例特征与各种天气特征相融合,以此实现P(Y|X,w)。
下面对本发明的技术方案及有益效果进行详细介绍:
请参照图2和图6所示,本发明提供基于因果干预的异常天气下目标检测方法,方法包括如下步骤:
步骤S1、通过注意力编码部件计算实例特征与天气特征的注意力分数;
步骤S2、注意力编码部件将注意力分数作为天气先验权重与实例特征进行融合得到融合特征,并输出融合特征;
步骤S3、通过残差结构对实例特征与输出的融合特征进行求和,并输出求和结果;
步骤S4、设定步骤S1-S3的执行次数kD,kD为正整数;根据执行次数kD重复执行步骤S1-S3,并且将前一次执行输出的求和结果作为后一次执行输入的实例特征,将最后一次执行输出的求和结果作为最终输出结果,之后进入步骤S5;
步骤S5、设定步骤S1-S4的训练轮数B,B为正整数;根据训练轮数B重复执行步骤S1-S4,并在达到设定的训练轮数B后,进入步骤S6;训练轮数B可以根据实际训练需要进行设置;
步骤S6、结束训练,获得因果干预后的目标检测模型。
在本发明的技术方案中,为了实现式(1),我们构建了基于Transformer编码器的WCI模块,以上步骤S1-S4就是通过WCI模块实现的;该WCI模块作为一个轻量级的插件添加在Faster R-CNN脖颈之后,具体来说是对RoIAlign输出的实例特征施加因果干预后,再送入到处理头,从而改善模型在异常天气下的检测能力。我们假设原模型旨在最大化似然函数P(Y|X),致力于学习X和Y之间的映射关系,因此得到P(Y|X)=FY(X);同时,通过WCI模块对X施加因果干预,得到X=WCI(X,w);综上,将(1)式变换为:
P(Y|do(X))=∑wFY(WCI(X,w))P(w)
(2)
由于通过图像层面对目标施加不同的天气干预是低效且近乎不可能的;本案发明人在受到Che等人(Zhengping Che,Guangyu Li,Tracy Li,Bo Jiang,Xuefeng Shi,Xinsheng Zhang,Ying Lu,Guobin Wu,Yan Liu,and Jieping Ye.D^2-city:Alarge-scaledashcam video dataset of diverse traffic scenarios.arXiv preprint arXiv:1904.01975,2019.2)的启发后,在特征层面将实例特征与任意一个天气特征组合,通过特征融合实现天气因果干预。
本发明提出使用预训练主干模型提取的风格特征作为天气特征,如图3所示,该图3展示了提取天气特征的流程;这是一个预处理过程,只需要执行一次,提取的天气特征用于作为WCI模块中的一个固定先验常数。本案发明人受Andreas Geiger等人(AndreasGeiger,Philip Lenz,Christoph Stiller,and Raquel Urtasun.Vision meetsrobotics:The kitti dataset.The International Journal of Robotics Research,32(11):1231–1237,2013.4,5)的启发,利用卷积神经网络浅层特征可以描述图片纹理和颜色这一特点,使用预训练主干网络提取的风格特征作为天气特征;具体来说,我们基于BDD100k数据集提取天气特征,该数据集中为88382张图片标注了天气属性,包含:晴、少云、多云、雨、雾和雪六种天气。
在本发明实施例中,为了实现天气特征的提取,在所述步骤S1之前,还包括:步骤S0、将目标训练图片输入到在ImageNet数据集上预训练的VGG网络模型中,并提取VGG网络模型中第一个max pooling层的输出作为目标训练图片的天气特征。
在本发明实施例中,为了便于天气特征与实例特征的融合,所述步骤S0还包括:将提取的天气特征输入到RoIAlign中,并展平为一维向量,每种天气特征均是该天气对应的所有天气图片的一维向量的均值,最终得到nW×dW的天气特征矩阵其中,wi表示第i种天气特征,NW表示天气种类的数量,dW表示天气向量的维度;由于本发明中是基于BDD100k数据集提取天气特征,而BDD100k数据集中包含有晴、少云、多云、雨、雾和雪六种天气,因此,在本发明的实施例中,Nw的取值为6;
根据ImageNet数据集中各种天气图片的数量,确定第i种天气出现的概率P(wi),得到天气先验概率向量其中,/>pi=P(wi),R表示自然数集。本发明的技术方案在具体实施时,为了更好的泛化性,也可以令/>
由以上介绍可知,本发明首先利用卷积神经网络浅层特征可以描述图片纹理和颜色这一特点,提出使用预训练主干网络提取的风格特征作为天气特征;其次使用基于Transformer编码器的WCI模块,并结合天气特征,实现对实例特征引入do算子操作,从而有效消除天气偏见对实例特征的影响。
请重点参阅图2所示,该图2概括了本发明中天气因果干预模块(即WCI模块)的总体框架,WCI(·)是一个高度模块化的算法,从底至上由三个部件组成:(1)注意力编码部件,该注意力编码部件用于融合天气特征与实例特征;具体来说是通过计算实例特征与天气特征的注意力分数,并将注意力分数作为天气特征权重与实例特征融合。(2)多注意力融合部件:该多注意力融合部件旨在串联多种注意力编码部件的输出;具体来说,我们并行设置多个注意力编码部件,通过学习不同权重,将多种天气特征与实例特征进行融合,并组合连接在一起后输出。(3)扩张残差部件,残差功能表现在:为了更好地保留实例特征中用于推理目标属性的部分,将注意力编码部件或者多注意力融合部件的输出经过线性映射后,与实例特征相加后输出;扩张则表现为:WCI(·)模块由多个扩张残差部件组成,这样已经被天气特征编码过的实例特征会再多次与天气特征进行编码,从而在理论上实现种天气的因果干预,其中,kD是指WCI(·)模块中堆叠的扩张残差部件的数量,也即步骤S4中设定的执行次数kD
在本发明实施例中,所述的通过注意力编码部件计算实例特征与天气特征的注意力分数具体包括:
给定实例特征X、天气特征W和天气先验概率p;其中,NX表示实例特征的数量,dx表示每个实例特征的维度;
通过注意力编码部件计算注意力分数矩阵其中,Q=W1X,K=W2W,/>σ表示放缩因子,dv表示注意力编码的维度,T表示矩阵转置,W1和W2是Linear Layer,算法实现为全连接层;将实例特征和天气特征映射到相同维度,求得/>用aij表示注意力分数矩阵a的第i行第j列元素,即aij表示第i个实例特征对应第j种天气特征的注意力分数。
在本发明实施例中,所述的注意力编码部件将注意力分数作为天气先验权重与实例特征进行融合得到融合特征具体包括:
注意力编码部件将得到的注意力分数作为一个软掩码,自动选择对于每个实例特征重要的天气特征;在具体实施时,学习得到的注意力分数会自动选择对于每个实例特征重要的天气特征;
将天气先验概率p复制扩展为与K相同维度的矩阵,表示为其中,/>且Pi的每个元素相同,都为第i种天气的天气先验概率;然后将P和K进行点乘,表示在对应天气先验概率下的天气特征;最后将注意力分数与处理后的天气特征相乘进行融合,并用一个线性层将最终融合结果映射到指定的维度后输出,具体如式(3):
Attention(X,W)=matmul(a,K·P)Wa+ba
(3)
在式(1)中, Wa表示线性变化中的权重,ba表示线性变化中的偏置。总的来说就是,注意力编码部件将实例特征与天气特征以注意力机制的方式进行了融合。
由于注意力编码部件致力于将实例特征与天气特征相结合;受Transformer启发,我们认为并联设置多种注意力编码部件,通过学习不同的权重并进行融合,对模型的表现是有益的。因此,在本发明实施例中,所述步骤S1还包括:通过多注意力融合部件计算实例特征与不同的天气特征的注意力分数,从而得到不同学习权重的注意力分数;其中,多注意力融合部件由两个或者两个以上注意力编码部件并联,通过并行设置多个注意力编码部件,由不同注意力编码部件学习不同的权重;
所述步骤S2还包括:多注意力融合部件将得到的不同学习权重的注意力分数均作为天气先验权重与实例特征进行融合,即将多种天气特征与实例特征以不同方式进行融合;将所有融合结果组合连接在一起得到最终融合结果,并用一个线性层将最终融合结果映射到指定维度后输出,具体如式(4):
MultiHead(X,W)=Concat(head1,...,headh)Wm+bm
Whereheadi=Attention(X,W)
(4)
在式(2)中,dv=dX/h,保证输入维度与输出维度一致;h表示并行使用的注意力编码部件的个数;Wm表示线性变化中的权重,bm表示线性变化中的偏置。
由于实例特征与天气特征的深度融合,一方面为了显式的增加原实例特征中的信息,保留其中用于推理目标属性的部分;另一方面随着扩张残差部件的增加,为了防止梯度消失;因此在本发明实施例中,所述的通过残差结构对实例特征与输出的融合特征进行求和,并输出求和结果具体包括:
将注意力编码部件或者多注意力融合部件输出的最终融合结果先经过多层线性映射后,再与实例特征进行相加,并通过一个线性层和ReLU激活函数后输出求和结果,从而有效保证输出与输入的维度一致,具体公式化如式(5):
DRB(X,W)=BN(MultiHead(X,W)+X)
(5)。
在本发明实施例中,通过实验验证,所述执行次数kD取值为2时效果最佳,即堆叠的扩张残差部件的数量为2时的效果最佳;h取值为2时效果最佳,即并行使用2个注意力编码部件时的效果为最佳。
本发明的具体训练细节:通过在Detectron2实现的基于ResNet-50的Faster R-CNN(FPN)上部署本发明提出的天气因果干预算法(WCI模块),并使用KITTI和PASCAL VOC进行效果评测,在一张NVDIIA GTX 2080Ti显卡上进行实验。在PASCAL VOC数据集上,batch大小设置为8,我们将学习率参数warmup的轮数扩大了10倍,其余参数使用Detectron2中的默认设置。在KITTI数据集上,batch大小设置为8,我们将原有的训练数据集随机等分为训练集和测试集,考虑到数据集的大小,我们基于PASCAL VOC的训练配置进行修改,并根据图片数量,等比例的缩小了训练和warmup的轮数。
本发明的技术方案在具体应用时,可以将WCI模块作为类Faster R-CNN模型的轻量级插件,从而实现在无需增加额外训练数据和大量计算的情况下,提高模型在异常天气下的检测能力。
下面结合具体应用实例来对本发明做进一步说明:
请参照图4所示,该图4表示为KITTI、KITTI-R(添加天气腐蚀后的KITTI)、PASCALVOC、PASCAL-R(添加天气腐蚀后的VOC)数据集上使用本发明方法与现有Faster R-CNN的目标检测结果对比图,从目标检测结果对比图上可以看出,使用本发明方法后的目标检测效果明显好于传统Faster R-CNN的目标检测效果。
请参照图5所示,该图5表示在KITTI数据集上添加不同强度天气腐蚀后,使用本发明方法与现有Faster R-CNN的目标检测结果对比;其中,左列为现有Faster R-CNN,右列为Faster R-CNN+WCI。从目标检测结果对比图上可以看出,使用本发明方法后的目标检测效果明显好于传统Faster R-CNN的目标检测效果,且本发明方法在多种天气腐蚀下具有良好的泛化能力。
基于同一发明构思,本申请提供了实施例一对应的电子设备实施例,详见实施例二。
实施例二
本实施例提供了一种电子设备,如图7所示,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,可以实现实施例一中任一实施方式。
由于本实施例所介绍的电子设备为实施本申请实施例一中方法所采用的设备,故而基于本申请实施例一中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。
基于同一发明构思,本申请提供了实施例一对应的存储介质,详见实施例三。
实施例三
本实施例提供一种计算机可读存储介质,如图8所示,其上存储有计算机程序,该计算机程序被处理器执行时,可以实现实施例一中任一实施方式。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
综上所述,本发明的技术方案具有以下突出优点:利用卷积神经网络浅层特征可以描述图片纹理和颜色这一特点,提出使用预训练主干网络提取的风格特征作为天气特征;再使用基于Transformer编码器的WCI模块,并结合天气特征,实现对实例特征引入do算子操作,能够有效消除天气偏见对实例特征的影响。在具体使用时,本发明的技术方案可以作为类Faster R-CNN模型的轻量级插件,能够在无需增加额外训练数据和大量计算的情况下,提高模型在异常天气下的检测能力。同时,本发明的技术方案在多种天气腐蚀下具有良好的泛化能力,容易拓展,使用范围广。
本发明是参照根据本发明实施例的方法和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (6)

1.一种基于因果干预的异常天气下目标检测方法,其特征在于,方法包括如下步骤:
步骤S0、将目标训练图片输入到在ImageNet数据集上预训练的VGG网络模型中,并提取VGG网络模型中第一个max pooling层的输出作为目标训练图片的天气特征;将提取的天气特征输入到RoIAlign中,并展平为一维向量,每种天气特征均是该天气对应的所有天气图片的一维向量的均值,最终得到NW×W的天气特征矩阵其中,wi表示第i种天气特征,NW表示天气种类的数量,W表示天气向量的维度;根据ImageNet数据集中各种天气图片的数量,确定第i种天气出现的概率P(wi),得到天气先验概率向量其中,/>pi=P(wi),R表示自然数集;
步骤S1、通过注意力编码部件计算实例特征与天气特征的注意力分数,所述的通过注意力编码部件计算实例特征与天气特征的注意力分数具体包括:
给定实例特征X、天气特征W和天气先验概率p;其中,NX表示实例特征的数量,dX表示每个实例特征的维度;
通过注意力编码部件计算注意力分数矩阵其中,Q=1X,K=2W,σ表示放缩因子,dv表示注意力编码的维度,T表示矩阵转置,W1和W2是Linear Layer;将实例特征和天气特征映射到相同维度,求得/>用aij表示注意力分数矩阵a的第i行第j列元素,即aij表示第i个实例特征对应第j种天气特征的注意力分数;
步骤S2、注意力编码部件将注意力分数作为天气先验权重与实例特征进行融合得到融合特征,并输出融合特征,所述的注意力编码部件将注意力分数作为天气先验权重与实例特征进行融合得到融合特征具体包括:
注意力编码部件将得到的注意力分数作为一个软掩码,自动选择对于每个实例特征重要的天气特征;
将天气先验概率p复制扩展为与K相同维度的矩阵,表示为其中,/>且Pi的每个元素相同,都为第i种天气的天气先验概率;然后将P和K进行点乘,表示在对应天气先验概率下的天气特征;最后将注意力分数与处理后的天气特征相乘进行融合,并用一个线性层将最终融合结果映射到指定的维度后输出,具体如式(1):
Attention(X,W)=matmul(a,K·P)Wa+a (1)
在式(1)中,Wa表示线性变化中的权重,ba表示线性变化中的偏置;
步骤S3、通过残差结构对实例特征与输出的融合特征进行求和,并输出求和结果;
步骤S4、设定步骤S1-S3的执行次数kD,kD为正整数;根据执行次数kD重复执行步骤S1-S3,并且将前一次执行输出的求和结果作为后一次执行输入的实例特征,将最后一次执行输出的求和结果作为最终输出结果,之后进入步骤S5;
步骤S5、设定步骤S1-S4的训练轮数B,B为正整数;根据训练轮数B重复执行步骤S1-S4,并在达到设定的训练轮数B后,进入步骤S6;
步骤S6、结束训练,获得因果干预后的目标检测模型。
2.根据权利要求1所述的基于因果干预的异常天气下目标检测方法,其特征在于,所述步骤S1还包括:
通过多注意力融合部件计算实例特征与不同的天气特征的注意力分数,从而得到不同学习权重的注意力分数;其中,多注意力融合部件由两个或者两个以上注意力编码部件并联;
所述步骤S2还包括:
多注意力融合部件将得到的不同学习权重的注意力分数均作为天气先验权重与实例特征进行融合;将所有融合结果组合连接在一起得到最终融合结果,并用一个线性层将最终融合结果映射到指定维度后输出,具体如式(2):
MultiHead(X,W)=Concat(head1,...,headh)Wm+bm
Where headi=Attention(X,W) (2)
在式(2)中,dv=dX/h,保证输入维度与输出维度一致;h表示并行使用的注意力编码部件的个数;Wm表示线性变化中的权重,nm表示线性变化中的偏置。
3.根据权利要求2所述的基于因果干预的异常天气下目标检测方法,其特征在于,所述的通过残差结构对实例特征与输出的融合特征进行求和,并输出求和结果具体包括:
将注意力编码部件或者多注意力融合部件输出的最终融合结果先经过多层线性映射后,再与实例特征进行相加,并通过一个线性层和ReLU激活函数后输出求和结果,具体公式化如式(3):
DRB(X,W)=BN(MultiHead(X,W)+X) (3)。
4.根据权利要求2所述的基于因果干预的异常天气下目标检测方法,其特征在于,所述执行次数kD取值为2;h取值为2。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4任一项所述的方法。
CN202110763961.8A 2021-07-06 2021-07-06 基于因果干预的异常天气下目标检测方法、设备及介质 Active CN113591593B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110763961.8A CN113591593B (zh) 2021-07-06 2021-07-06 基于因果干预的异常天气下目标检测方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110763961.8A CN113591593B (zh) 2021-07-06 2021-07-06 基于因果干预的异常天气下目标检测方法、设备及介质

Publications (2)

Publication Number Publication Date
CN113591593A CN113591593A (zh) 2021-11-02
CN113591593B true CN113591593B (zh) 2023-08-15

Family

ID=78246182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110763961.8A Active CN113591593B (zh) 2021-07-06 2021-07-06 基于因果干预的异常天气下目标检测方法、设备及介质

Country Status (1)

Country Link
CN (1) CN113591593B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN109447918A (zh) * 2018-11-02 2019-03-08 北京交通大学 基于注意力机制的单幅图像去雨方法
CN109886978A (zh) * 2019-02-20 2019-06-14 贵州电网有限责任公司 一种基于深度学习的端到端告警信息识别方法
CN110162624A (zh) * 2019-04-16 2019-08-23 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110782420A (zh) * 2019-09-19 2020-02-11 杭州电子科技大学 一种基于深度学习的小目标特征表示增强方法
WO2021068528A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 基于卷积神经网络的注意力权重计算方法、装置及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN109447918A (zh) * 2018-11-02 2019-03-08 北京交通大学 基于注意力机制的单幅图像去雨方法
CN109886978A (zh) * 2019-02-20 2019-06-14 贵州电网有限责任公司 一种基于深度学习的端到端告警信息识别方法
CN110162624A (zh) * 2019-04-16 2019-08-23 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110782420A (zh) * 2019-09-19 2020-02-11 杭州电子科技大学 一种基于深度学习的小目标特征表示增强方法
WO2021068528A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 基于卷积神经网络的注意力权重计算方法、装置及设备

Also Published As

Publication number Publication date
CN113591593A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CA3091035C (en) Systems and methods for polygon object annotation and a method of training an object annotation system
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110929736B (zh) 多特征级联rgb-d显著性目标检测方法
CN113569667B (zh) 基于轻量级神经网络模型的内河船舶目标识别方法及系统
Wang et al. Learning deep conditional neural network for image segmentation
US11410327B2 (en) Location determination apparatus, location determination method and computer program
WO2016086330A1 (en) A method and a system for face recognition
Nguyen et al. Satellite image classification using convolutional learning
CN112784954A (zh) 确定神经网络的方法和装置
CN109685830B (zh) 目标跟踪方法、装置和设备及计算机存储介质
CN113269224A (zh) 一种场景图像分类方法、系统及存储介质
CN114118303B (zh) 基于先验约束的人脸关键点检测方法及装置
CN117576079A (zh) 一种工业产品表面异常检测方法、装置及系统
Huang et al. ES-Net: An efficient stereo matching network
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
Firouznia et al. Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking
CN113591593B (zh) 基于因果干预的异常天气下目标检测方法、设备及介质
Jafrasteh et al. Generative adversarial networks as a novel approach for tectonic fault and fracture extraction in high resolution satellite and airborne optical images
CN111160219B (zh) 对象完整度评估方法、装置、电子设备及存储介质
CN115410068A (zh) 一种基于卷积神经网络的局部舰船识别方法
CN114067360A (zh) 一种行人属性检测方法及装置
CN113780027A (zh) 一种基于增广图卷积的多标签物体识别方法、装置及设备
CN112861689A (zh) 一种基于nas技术的坐标识别模型的搜索方法及装置
García-González et al. Deep autoencoder architectures for foreground object detection in video sequences based on probabilistic mixture models
Zhan et al. From Body Parts Responses to Underwater Human Detection: A Deep Learning Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant