CN114549958A - 基于上下文信息感知机理的夜间和伪装目标检测方法 - Google Patents

基于上下文信息感知机理的夜间和伪装目标检测方法 Download PDF

Info

Publication number
CN114549958A
CN114549958A CN202210174115.7A CN202210174115A CN114549958A CN 114549958 A CN114549958 A CN 114549958A CN 202210174115 A CN202210174115 A CN 202210174115A CN 114549958 A CN114549958 A CN 114549958A
Authority
CN
China
Prior art keywords
image
neural network
global
function
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210174115.7A
Other languages
English (en)
Other versions
CN114549958B (zh
Inventor
高绍兵
梁宸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210174115.7A priority Critical patent/CN114549958B/zh
Publication of CN114549958A publication Critical patent/CN114549958A/zh
Application granted granted Critical
Publication of CN114549958B publication Critical patent/CN114549958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于上下文信息感知机理的夜间和伪装目标检测方法,包括以下步骤:S1、使用基础神经网络对输入图像进行特征提取,获得输入图像的特征图Y;输入N个初始提议框,然后使用感兴趣区域特征提取器得到感兴趣区域特征图R;S2、建模图像的全局与局部上下文信息;S3、建模图像的全局语义上下文,对得到的特征图Y进行卷积与上采样,输出语义分割图S;S4、使用数据集提供的图像与标注信息来训练人工神经网络直到收敛,然后输入待检测图像得到最终检测结果。本发明能有效地执行夜间目标检测和伪装目标检测的方法,为后续各类夜间和伪装目标场景下的计算机应用提供场景中感兴趣目标的精确位置与类别。

Description

基于上下文信息感知机理的夜间和伪装目标检测方法
技术领域
本发明属于计算机视觉和图像处理技术领域,涉及目标检测,特别涉及一种基于上下文信息感知机理的夜间和伪装目标检测方法。
背景技术
目标检测是一项重要的计算机视觉任务,其被广泛应用于各类重要的工业、民用以及军用系统之中。目标检测旨在对图像或视频中的目标进行定位并分类,得到目标准确的位置和其所属的类别。经过几十年的发展,目标检测问题在不同的方案下得到了长足发展。近年来,随着深度学习的兴起,也有大量将神经网络运用到目标检测的方法,例如以Faster R-CNN、YOLO为代表的基于锚点框的方法和以CenterNet为代表的无锚点框方法,相比传统方法,它们大都获得更加精确可靠的结果。
而夜间目标检测与伪装目标检测比通常的目标检测更具挑战性,因为在这些场景中目标与背景更难被区分。然而,对于大部分目标检测方法,它们都是面向通用场景而提出的方法,没有考虑到部分特殊的更具挑战性的环境。Shijie Hao和Haifeng Guo提出使用夜间图像增强方法来帮助神经网络获得更稳定、更具分辨力的特征,从而提高夜间目标检测的查全率和查准率。参考文献:Haifeng Guo,Tong Lu,and Yirui Wu.Dynamic low-lightimage enhancement for object detection via end-to-end training.In ICPR,pages5611–5618.IEEE,2021.3,7,Shijie Hao,Zhonghao Wang,and Fuming Sun.Ledet:Asingle-shot real-time object detector based on low-light imageenhancement.The Computer Journal,2021.2,7,但Shijie Hao和Haifeng Guo等人的方法只能在夜间场景下工作,而且高度依赖图像增强方法导致网络计算效率低下,难以在实际场景中应用。
发明内容
本发明的目的在于克服现有技术的不足,提供一种能有效地执行夜间目标检测和伪装目标检测的方法,为后续各类夜间和伪装目标场景下的计算机应用提供场景中感兴趣目标的精确位置与类别的基于上下文信息感知机理的夜间和伪装目标检测方法。
本发明的目的是通过以下技术方案来实现的:基于上下文信息感知机理的夜间和伪装目标检测方法,包括以下步骤:
S1、使用神经网络对输入图像进行特征提取,获得输入图像的特征图Y;输入N个初始提议框,然后使用感兴趣区域特征提取器得到感兴趣区域特征图R;
S2、建模图像的全局与局部上下文信息:对得到的特征图Y使用全局上下文编码模块处理得到全局上下文特征G;使用上下文特征融合模块处理R与G得到融合上下文特征C;通过动态特征交互模块将融合上下文特征C与感兴趣区域特征R融合,然后进行边框回归与分类预测;
S3、建模图像的全局语义上下文,对得到的特征图Y进行卷积与上采样,输出语义分割图S;
S4、使用网络上的公开数据集ExDark、COD10K提供的图像与标注信息来训练根据S1-S3步骤构建出来的人工神经网络直到收敛,然后输入待检测图像得到最终检测结果。
进一步地,所述步骤S1具体实现方法为:
Y=B(X) (1)
R=RoIAlign(Y,P) (2)
其中,B代表神经网络架构,B可以使用任意的卷积神经网络来实现,只要该网络具有足够的表现力来提取输入图像的特征即可;X表示输入图像;RoIAlign()代表利用提议框对特征图Y进行对齐操作;P代表输入的N个长度为4的初始提议框向量,其中每个向量中的元素取值范围为[0,1]的所有实数。
进一步地,所述步骤S2具体实现方法为:
RE=Conv(R,F(C,W1,B1),0) (3)
Figure BDA0003518396450000021
REG=F(D,W3,B3) (5)
CLS=F(D,W4,B4) (6)
其中,F(x,w,b)代表分别以x为输入,w,b为参数的线性加权求和;Conv(x,w,b)代表卷积函数;FFN()代表前馈神经网络;符号
Figure BDA0003518396450000022
表示逐元素相加操作;σ(x)代表修正线性单元激活函数,其公式为:
Figure BDA0003518396450000023
REG和CLS分别代表输出的边框回归与类别预测值;Wm、Bm代表神经网络的固有可学习参数,m=1,…,4;
图像的全局与局部上下文特征向量C由下面的公式计算得到:
Figure BDA0003518396450000024
C=Attention(GL,GL,GL) (6)
其中,GL代表融合后同时携带全局和局部特征的特征向量;G和L分别代表图像的全局特征向量和图像的局部特征向量;Attention(GL,GL,GL)函数表示自注意力函数;
全局特征向量G由下面的公式计算得到:
G=δ(F(δ(F(E,W3,B3)),W4,4)) (7)
δ(x)代表泄露修正线性单元激活函数,其公式为:
Figure BDA0003518396450000031
其中a的取值范围为(0,+∞);Wi,Bi代表神经网络的固有可学习参数;图像的全局特征E由下面的公式计算得到:
E=δ(Avg(Conv(Y,W5,B5))) (8)
Avg(x)代表全局平均池化函数;δ(x)代表泄露修正线性单元激活函数,其公式为:
Figure BDA0003518396450000032
W5,B5代表神经网络的固有可学习参数;
局部特征向量L由下面的公式计算得到:
L=σ(F(R,W6,B6)) (9)
σ(x)代表修正线性单元激活函数,其公式为:
Figure BDA0003518396450000033
W6,B6代表神经网络的固有可学习参数。
进一步地,所述步骤S3具体实现方法为:
S=Softmax(Decoder(Concat(Y,ASPP(Y)))) (10)
Decoder(x)=UP(Conv(UP(Conv(x,W7,B7)),W8,B8)) (11)
Softmax(x)代表柔性最大值传输函数;Decoder(x)代表解码器,其由多个相同的上采样层和卷积层组成;Concat(A,B)代表将A与B根据通道维度进行串联的连接操作;UP(x)代表双线性插值上采样函数;Conv(x,w,b)代表以w,b为可学习参数的卷积函数;ASPP为空洞金字塔池化操作。
进一步地,所述步骤S4具体实现方法为:
Lt=λd*Lds*Ls (12)
Lt代表神经网络的训练损失函数;Ld和Ls分别代表目标检测损失函数和语义分割损失函数;λd和λs分别代表目标检测损失函数和语义分割损失函数的系数;
目标检测损失函数Ld由下面的公式计算得到
Ld=λcls*Lclsreg*Lreggiou*Lgiou (13)
Lcls代表焦点损失函数;Lreg代表最小绝对值误差损失函数;Lgiou代表广义交并比损失函数;λcls、λreg和λgiou分别代表各损失函数的系数;
语义分割损失函数Ls由下面的公式计算得到:
Ls=-(S*logS+(1-S*)*log(1-S) (14)
S*代表监督信号,由数据集提供。
本发明的有益效果是:本发明能够提供一种能有效地执行夜间目标检测和伪装目标检测的方法,为后续各类夜间和伪装目标场景下的计算机应用提供场景中感兴趣目标的精确位置与类别。
附图说明
图1为本发明的基于上下文信息感知机理的夜间和伪装目标检测方法的流程图;
图2为本实施例采用的夜间图像、伪装图像以及对应的标签信息;
图3、4为本实施例经过步骤S1处理后得到的夜间图像与伪装图像的特征图;
图5、6为本实施例经过步骤S3处理后得到的夜间图像与伪装图像语义分割图;
图7为本实施例的最终目标检测检测结果。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
如图1所示,本发明的一种基于上下文信息感知机理的夜间和伪装目标检测方法,包括以下步骤:
S1、使用神经网络对输入图像进行特征提取,获得输入图像的特征图Y;输入N个初始提议框,然后使用感兴趣区域特征提取器得到感兴趣区域特征图R;具体实现方法为:
Y=B(X) (1)
R=RoIAlign(Y,P) (2)
其中,B代表神经网络架构,B可以使用任意的卷积神经网络来实现,只要该网络具有足够的表现力来提取输入图像的特征即可;X表示输入图像;RoIAlign()代表利用提议框对特征图Y进行对齐操作;P代表输入的N个长度为4的初始提议框向量,其中每个向量中的元素取值范围为[0,1]的所有实数。
本实施例采用图像大小为640*640的夜间图像和伪装图像,如图2所示,图像分别来源于ExDark和COD10K图像数据集,图像分别命名为“2015_00477”和“COD10K-CAM-1-Aquatic-8-FrogFish-299”,(a)、(b)分别为夜间图像和伪装图像。在本实施例中的参数设置如下epochs=144,N=100,B=ResNet-50。本实施例输入形状为(3,640,640)的图像,经过基础神经网络进行特征提取Y=B(X)得到形状为(256,20,20)、(256,40,40)、(256,80,80)、(256,160,160)的特征图,其中256对应特征图通道,后面两个数字分别对应特征图的宽高。对应特征图的宽高。然后使用感兴趣区域提取操作R=RoIAlign(Y,P)得到形状为(N,256,7,7)的感兴趣区域特征,其中N代表感兴趣区域的个数,256代表感兴趣区域特征图通道,后面两个数字分别对应感兴趣区域特征图的宽高。分别以ExDark夜间目标检测数据集和COD10K图像数据集中的一张图像作为输入为例,经过处理后得到如图3、4所示的特征图。
S2、模拟生物视觉系统的全局上下文感知机制,建模图像的全局与局部上下文信息:对得到的特征图Y使用全局上下文编码模块处理得到全局上下文特征G;使用上下文特征融合模块处理R与G得到融合上下文特征C;通过动态特征交互模块将融合上下文特征C与感兴趣区域特征R融合生成融合特征D,然后进行边框回归与分类预测;具体实现方法为:
RE=Conv(R,F(C,W1,B1),0) (3)
Figure BDA0003518396450000051
REG=F(D,W3,B3) (5)
CLS=F(D,W4,B4) (6)
其中,F(x,w,b)代表分别以x为输入,w,b为参数的线性加权求和,其公式为:F(x,w,b)=x*w+b;Conv(x,w,b)代表卷积函数,其公式为:
Figure BDA0003518396450000052
Figure BDA0003518396450000053
其中w,b为卷积的固有可学习参数;FFN代表前馈神经网络,其公式为:FFN(x)=σ(w2(σ(w1x+b1)))+b2,w1,w2,b1,b2为网络固有可学习参数;符号
Figure BDA0003518396450000054
表示逐元素相加操作;σ(x)代表修正线性单元激活函数,其公式为:
Figure BDA0003518396450000055
REG和CLS分别代表输出的边框回归与类别预测值;Wm,Bm代表神经网络的固有可学习参数,m=1,…,4。
图像的全局与局部上下文特征向量C由下面的公式计算得到:
Figure BDA0003518396450000056
C=Attention(GL,GL,GL) (6)
其中,GL代表融合后同时携带全局和局部特征的特征向量;G和L分别代表图像的全局特征向量和图像的局部特征向量;Attention(GL,GL,GL)函数表示自注意力函数,其公式为:
Figure BDA0003518396450000057
其中GLt为GL的转置,dGL为GL对应的维度;全局特征向量G由下面的公式计算得到:
G=δ(F(δ(F(E,W3,B3)),W4,4)) (7)
δ(x)代表泄露修正线性单元激活函数,其公式为:
Figure BDA0003518396450000058
其中a的取值范围为(0,+∞);Wi,Bi代表神经网络的固有可学习参数;图像的全局特征E具体由下面的公式计算得到:
E=δ(Avg(Conv(Y,W5,B5))) (8)
Avg(x)代表全局平均池化函数,其公式为:
Figure BDA0003518396450000061
其中x(i,j)代表x特征图的第i行j列的值,H与W分别代表特征图的高度与宽度;δ(x)代表泄露修正线性单元激活函数,其公式为:
Figure BDA0003518396450000062
公式中的W5,B5代表神经网络的固有可学习参数;本实施例对特征图Y(256,20,20)、(256,40,40)、(256,80,80)、(256,160,160)进行填补卷积后得到形状相同的特征图,再进行全局平均池子化得到4个形状为(256,1,1)的特征向量,将这些向量展开并连接后得到形状为(1024)的全局特征E。将E输入到公式(7)中进行两次加权求和操作后得到形状为(N,256)的全局特征向量,其中N在本示例中为100。
局部特征向量L由下面的公式计算得到:
L=σ(F(R,W6,B6)) (9)
σ(x)代表修正线性单元激活函数,其公式为:
Figure BDA0003518396450000063
W6,B6代表神经网络的固有可学习参数。
将感兴趣区域特征图R进行加权求和得到形状为(N,256)的局部特征向量,其中N在本示例中为100。
S3、建模图像的全局语义上下文,对得到的特征图Y进行卷积与上采样,输出语义分割图S;具体实现方法为:
S=Softmax(Decoder(Concat(Y,ASPP(Y)))) (10)
Decoder(x)=UP(Conv(UP(Conv(x,W7,B7)),W8,B8)) (11)
Softmax(x)代表柔性最大值传输函数;Decoder(x)代表解码器,其由多个相同的上采样层和卷积层组成;Concat(A,B)代表将A与B根据通道维度进行串联的连接操作;UP(x)代表双线性插值上采样函数;Conv(x,w,b)代表以w,b为可学习参数的卷积函数;ASPP为空洞金字塔池化操作,其公式为ASPP(x)=DConv(Concat(Conv(x,1)+conv(x,6)+conv(x,12)+DConv(x,18))),其中DConv(x,dilation)代表以x为输入,dilation为步长的空洞卷积。其示例如下:将公式(2)中得到的特征图Y分别进行卷积后再上采样N次得到形状为(num_classes,,640,640)的语义图,其中num_classes为类别数。然后计算此语义图与标签的损失值,然后执行反向传播算法更新网络的权重;图5、6展示了图像经过S3步骤处理后得到的语义分割图,图5和图6中,上图为原图,下图为语义分割图。从途中可以看出,经过S3步骤对图像进行处理之后,该神经网络能够有效地提取图像中待检测物体的位置信息与类别信息。这些信息将会对目标检测分支提供有用的信息,并促进网络得到更精确的目标检测结果。
S4、使用网络上的公开数据集ExDark、COD10K提供的图像与标注信息(目标检测标注、语义分割标注)来训练根据S1-S3步骤构建出来的人工神经网络直到收敛,然后输入待检测图像得到最终检测结果;具体实现方法为:
Lt=λd*Lds*Ls (12)
Lt代表神经网络的训练损失函数;Ld和Ls分别代表目标检测损失函数和语义分割损失函数;λd和λs分别代表目标检测损失函数和语义分割损失函数的系数;本网络总共需要在训练集之上训练epochs次;
目标检测损失函数Ld由下面的公式计算得到
Ld=λcls*Lclsreg*Lreggiou*Lgiou (13)
Lcls代表焦点损失函数;Lreg代表最小绝对值误差损失函数;Lgiou代表广义交并比损失函数;λcls、λreg和λgiou分别代表各损失函数的系数;
焦点损失函数Lcls由下面的公式计算得到:
Lcls=-α(1-p*)γlog(1-P)+(-α)(P*)γlog(P) (14)
α代表平衡因子;P与P*分别代表预测的类别与真实的类别;γ代表聚焦因子;
最小绝对值误差损失函数Lreg由下面的公式计算得到:
Lreg=|R-R*| (15)
R与R*分别代表预测的边框与真实的边框的坐标;
广义交并比损失函数Lgiou由下面的公式计算得到:
Figure BDA0003518396450000071
A与B分别代表目标框与实际预测框,C代表A与B最小的外凸对象,IoU代表目标框与实际预测框的交并比;
语义分割损失函数Ls由下面的公式计算得到:
Ls=-(S*logS+(1-S*)*log(1-S) (17)
S*代表监督信号,由数据集提供。特别地,该监督信号在夜间目标检测任务中由微软COCO数据集中的语义分割标签提供,在伪装目标检测任务中由数据集本身的语义分割标签提供。其示例如下:使用公式(11)~(16)计算由公式(5)、(6)和(10)得到的目标检测框与语义图与数据集提供的标签损失值,然后使用反向传播算法来更新整个神经网络的权重,从而不断地从某一数据集中学习并重复epochs次,得到越来越好的检测结果。当训练阶段完成后,可以直接输入图像执行目标检测任务。
经过步骤S1~S3的计算后由步骤S4进行训练后,将图像输入训练好的检测网络,得到最终的检测结果如图7(a)和(b)所示。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (5)

1.基于上下文信息感知机理的夜间和伪装目标检测方法,其特征在于,包括以下步骤:
S1、使用神经网络对输入图像进行特征提取,获得输入图像的特征图Y;输入N个初始提议框,然后使用感兴趣区域特征提取器得到感兴趣区域特征图R;
S2、建模图像的全局与局部上下文信息:对得到的特征图Y使用全局上下文编码模块处理得到全局上下文特征G;使用上下文特征融合模块处理R与G得到融合上下文特征C;通过动态特征交互模块将融合上下文特征C与感兴趣区域特征R融合,然后进行边框回归与分类预测;
S3、建模图像的全局语义上下文,对得到的特征图Y进行卷积与上采样,输出语义分割图S;
S4、使用网络上的公开数据集ExDark、COD10K提供的图像与标注信息来训练根据S1-S3步骤构建出来的人工神经网络直到收敛,然后输入待检测图像得到最终检测结果。
2.根据权利要求1所述的基于上下文信息感知机理的夜间和伪装目标检测方法,其特征在于,所述步骤S1具体实现方法为:
Y=B(X) (1)
R=RoIAlign(Y,P) (2)
其中,B代表神经网络架构,B可以使用任意的卷积神经网络来实现,只要该网络具有足够的表现力来提取输入图像的特征即可;X表示输入图像;RoIAlign()代表利用提议框对特征图Y进行对齐操作;P代表输入的N个长度为4的初始提议框向量,其中每个向量中的元素取值范围为[0,1]的所有实数。
3.根据权利要求1所述的基于上下文信息感知机理的夜间和伪装目标检测方法,其特征在于,所述步骤S2具体实现方法为:
RE=Conv(R,F(C,W1,B1),0) (3)
Figure FDA0003518396440000011
REG=F(D,W3,B3) (5)
CLS=F(D,W4,B4) (6)
其中,F(x,w,b)代表分别以x为输入,w,b为参数的线性加权求和;Conv(x,w,b)代表卷积函数;FFN( )代表前馈神经网络;符号
Figure FDA0003518396440000012
表示逐元素相加操作;σ(x)代表修正线性单元激活函数,其公式为:
Figure FDA0003518396440000013
REG和CLS分别代表输出的边框回归与类别预测值;Wm、Bm代表神经网络的固有可学习参数,m=1,…,4;
图像的全局与局部上下文特征向量C由下面的公式计算得到:
Figure FDA0003518396440000021
C=Attention(GL,GL,GL) (6)
其中,GL代表融合后同时携带全局和局部特征的特征向量;G和L分别代表图像的全局特征向量和图像的局部特征向量;Attention(GL,GL,GL)函数表示自注意力函数;
全局特征向量G由下面的公式计算得到:
G=δ(F(δ(F(E,W3,B3)),W4,4)) (7)
δ(x)代表泄露修正线性单元激活函数,其公式为:
Figure FDA0003518396440000022
其中a的取值范围为(0,+∞);Wi,Bi代表神经网络的固有可学习参数;图像的全局特征E由下面的公式计算得到:
E=δ(Avg(Conv(Y,W5,B5))) (8)
Avg(x)代表全局平均池化函数;δ(x)代表泄露修正线性单元激活函数,其公式为:
Figure FDA0003518396440000023
W5,B5代表神经网络的固有可学习参数;
局部特征向量L由下面的公式计算得到:
L=σ(F(R,W6,B6)) (9)
σ(x)代表修正线性单元激活函数,其公式为:
Figure FDA0003518396440000024
W6,B6代表神经网络的固有可学习参数。
4.根据权利要求1所述的基于上下文信息感知机理的夜间和伪装目标检测方法,其特征在于,所述步骤S3具体实现方法为:
S=Softmax(Decoder(Concat(Y,ASPP(Y)))) (10)
Decoder(x)=UP(Conv(UP(Conv(x,W7,B7)),W8,B8)) (11)
Softmax(x)代表柔性最大值传输函数;Decoder(x)代表解码器,其由多个相同的上采样层和卷积层组成;Concat(A,B)代表将A与B根据通道维度进行串联的连接操作;UP(x)代表双线性插值上采样函数;Conv(x,w,b)代表以w,b为可学习参数的卷积函数;ASPP为空洞金字塔池化操作。
5.根据权利要求4所述的基于上下文信息感知机理的夜间和伪装目标检测方法,其特征在于,所述步骤S4具体实现方法为:
Lt=λd*Lds*Ls (12)
Lt代表神经网络的训练损失函数;Ld和Ls分别代表目标检测损失函数和语义分割损失函数;λd和λs分别代表目标检测损失函数和语义分割损失函数的系数;
目标检测损失函数Ld由下面的公式计算得到
Ld=λcls*Lclsreg*Lreggiou*Lgiou (13)
Lcls代表焦点损失函数;Lreg代表最小绝对值误差损失函数;Lgiou代表广义交并比损失函数;λcls、λreg和λgiou分别代表各损失函数的系数;
语义分割损失函数Ls由下面的公式计算得到:
Ls=-(S*logS+(1-S*)*log(1-S) (14)
S*代表监督信号,由数据集提供。
CN202210174115.7A 2022-02-24 2022-02-24 基于上下文信息感知机理的夜间和伪装目标检测方法 Active CN114549958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210174115.7A CN114549958B (zh) 2022-02-24 2022-02-24 基于上下文信息感知机理的夜间和伪装目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210174115.7A CN114549958B (zh) 2022-02-24 2022-02-24 基于上下文信息感知机理的夜间和伪装目标检测方法

Publications (2)

Publication Number Publication Date
CN114549958A true CN114549958A (zh) 2022-05-27
CN114549958B CN114549958B (zh) 2023-08-04

Family

ID=81678313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210174115.7A Active CN114549958B (zh) 2022-02-24 2022-02-24 基于上下文信息感知机理的夜间和伪装目标检测方法

Country Status (1)

Country Link
CN (1) CN114549958B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593517A (zh) * 2024-01-19 2024-02-23 南京信息工程大学 基于互补感知跨视图融合网络的伪装目标检测方法

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160142705A1 (en) * 2014-11-14 2016-05-19 Axis Ab Method and encoder system for encoding video
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
WO2020199834A1 (zh) * 2019-04-03 2020-10-08 腾讯科技(深圳)有限公司 一种物体检测方法、装置、网络设备和存储介质
US20210003697A1 (en) * 2019-07-02 2021-01-07 Wuyi University Method and apparatus for end-to-end sar image recognition, and storage medium
WO2021009258A1 (en) * 2019-07-15 2021-01-21 Promaton Holding B.V. Object detection and instance segmentation of 3d point clouds based on deep learning
CN112329808A (zh) * 2020-09-25 2021-02-05 武汉光谷信息技术股份有限公司 一种Deeplab语义分割算法的优化方法及系统
WO2021041854A1 (en) * 2019-08-30 2021-03-04 Nvidia Corporation Object detection and classification using lidar range images for autonomous machine applications
US20210089807A1 (en) * 2019-09-25 2021-03-25 Samsung Electronics Co., Ltd. System and method for boundary aware semantic segmentation
CN113052188A (zh) * 2021-03-26 2021-06-29 大连理工大学人工智能大连研究院 一种遥感图像目标检测方法、系统、设备以及存储介质
CN113065402A (zh) * 2021-03-05 2021-07-02 四川翼飞视科技有限公司 一种基于变形注意力机制的人脸检测方法
US20210215481A1 (en) * 2018-11-09 2021-07-15 Wuyi University Method for measuring antenna downtilt angle based on multi-scale deep semantic segmentation network
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN113298085A (zh) * 2021-04-06 2021-08-24 江苏大学 一种基于Mask R-CNN的谷物含杂-破碎识别方法与系统
CN113505646A (zh) * 2021-06-10 2021-10-15 清华大学 一种基于语义地图的目标搜索方法
CN113554125A (zh) * 2021-09-18 2021-10-26 四川翼飞视科技有限公司 结合全局与局部特征的目标检测装置、方法和存储介质
CN113591719A (zh) * 2021-08-02 2021-11-02 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN113837257A (zh) * 2021-09-15 2021-12-24 支付宝(杭州)信息技术有限公司 一种目标检测方法及装置
CN113903025A (zh) * 2021-09-30 2022-01-07 京东科技控股股份有限公司 场景文本检测方法、装置和模型及其训练方法和训练装置
CN113936256A (zh) * 2021-10-15 2022-01-14 北京百度网讯科技有限公司 一种图像目标检测方法、装置、设备以及存储介质
CN113989645A (zh) * 2021-11-08 2022-01-28 华东师范大学 大尺寸航空遥感影像的目标检测方法

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160142705A1 (en) * 2014-11-14 2016-05-19 Axis Ab Method and encoder system for encoding video
CN108564097A (zh) * 2017-12-05 2018-09-21 华南理工大学 一种基于深度卷积神经网络的多尺度目标检测方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
US20210215481A1 (en) * 2018-11-09 2021-07-15 Wuyi University Method for measuring antenna downtilt angle based on multi-scale deep semantic segmentation network
WO2020199834A1 (zh) * 2019-04-03 2020-10-08 腾讯科技(深圳)有限公司 一种物体检测方法、装置、网络设备和存储介质
US20210003697A1 (en) * 2019-07-02 2021-01-07 Wuyi University Method and apparatus for end-to-end sar image recognition, and storage medium
WO2021009258A1 (en) * 2019-07-15 2021-01-21 Promaton Holding B.V. Object detection and instance segmentation of 3d point clouds based on deep learning
WO2021041854A1 (en) * 2019-08-30 2021-03-04 Nvidia Corporation Object detection and classification using lidar range images for autonomous machine applications
US20210089807A1 (en) * 2019-09-25 2021-03-25 Samsung Electronics Co., Ltd. System and method for boundary aware semantic segmentation
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN112329808A (zh) * 2020-09-25 2021-02-05 武汉光谷信息技术股份有限公司 一种Deeplab语义分割算法的优化方法及系统
CN113065402A (zh) * 2021-03-05 2021-07-02 四川翼飞视科技有限公司 一种基于变形注意力机制的人脸检测方法
CN113052188A (zh) * 2021-03-26 2021-06-29 大连理工大学人工智能大连研究院 一种遥感图像目标检测方法、系统、设备以及存储介质
CN113298085A (zh) * 2021-04-06 2021-08-24 江苏大学 一种基于Mask R-CNN的谷物含杂-破碎识别方法与系统
CN113505646A (zh) * 2021-06-10 2021-10-15 清华大学 一种基于语义地图的目标搜索方法
CN113591719A (zh) * 2021-08-02 2021-11-02 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN113837257A (zh) * 2021-09-15 2021-12-24 支付宝(杭州)信息技术有限公司 一种目标检测方法及装置
CN113554125A (zh) * 2021-09-18 2021-10-26 四川翼飞视科技有限公司 结合全局与局部特征的目标检测装置、方法和存储介质
CN113903025A (zh) * 2021-09-30 2022-01-07 京东科技控股股份有限公司 场景文本检测方法、装置和模型及其训练方法和训练装置
CN113936256A (zh) * 2021-10-15 2022-01-14 北京百度网讯科技有限公司 一种图像目标检测方法、装置、设备以及存储介质
CN113989645A (zh) * 2021-11-08 2022-01-28 华东师范大学 大尺寸航空遥感影像的目标检测方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CHENGYUAN LI等: ""Object Detection Based on Global-local Saliency Constraint in Aerial Images"", vol. 12, no. 9, pages 1 - 12 *
SIYAN XUE等: ""How does color constancy affect target recognition and instance segmentation?"", pages 5537 - 5545 *
WENCHAO ZHANG等: ""Global context aware RCNN for object detection"", pages 11627 - 11639 *
杨帅东等: ""基于孪生区域建议网络的无人机目标跟踪算法"", vol. 48, no. 1, pages 288 - 295 *
谢杰: ""基于上下文信息融合与注意力感知的目标检测方法研究"", no. 1, pages 138 - 2014 *
高新波等: ""小目标检测研究进展"", vol. 36, no. 3, pages 391 - 417 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117593517A (zh) * 2024-01-19 2024-02-23 南京信息工程大学 基于互补感知跨视图融合网络的伪装目标检测方法
CN117593517B (zh) * 2024-01-19 2024-04-16 南京信息工程大学 基于互补感知跨视图融合网络的伪装目标检测方法

Also Published As

Publication number Publication date
CN114549958B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN112926396B (zh) 一种基于双流卷积注意力的动作识别方法
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN109785409B (zh) 一种基于注意力机制的图像-文本数据融合方法和系统
CN112668584A (zh) 一种基于视觉注意力和多尺度卷积神经网络的空调外机画像智能检测方法
CN114048822A (zh) 一种图像的注意力机制特征融合分割方法
CN109740536A (zh) 一种基于特征融合神经网络的亲属识别方法
CN112508032A (zh) 一种联合物体上下文信息的人脸图像分割方法及分割网络
Zulfiqar et al. AI-ForestWatch: semantic segmentation based end-to-end framework for forest estimation and change detection using multi-spectral remote sensing imagery
CN110310305A (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN113554032A (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN112418235A (zh) 一种基于膨胀最近邻特征增强的点云语义分割方法
CN116977844A (zh) 一种轻量级水下目标实时检测方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN113642602B (zh) 一种基于全局与局部标签关系的多标签图像分类方法
CN113807214B (zh) 基于deit附属网络知识蒸馏的小目标人脸识别方法
Sun et al. Two-stage deep regression enhanced depth estimation from a single RGB image
CN114549958B (zh) 基于上下文信息感知机理的夜间和伪装目标检测方法
CN113436224A (zh) 一种基于显式构图规则建模的智能图像裁剪方法及装置
CN116129251A (zh) 办公桌椅的智能化制造方法及其系统
CN116681978A (zh) 一种基于注意力机制和多尺度特征融合的显著性目标检测方法
CN116597183A (zh) 基于空间和通道双维度注意的多模态图像特征匹配方法
CN113688946B (zh) 基于空间关联的多标签图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant