CN113192124A - 一种基于孪生网络的图像目标定位方法 - Google Patents
一种基于孪生网络的图像目标定位方法 Download PDFInfo
- Publication number
- CN113192124A CN113192124A CN202110277365.9A CN202110277365A CN113192124A CN 113192124 A CN113192124 A CN 113192124A CN 202110277365 A CN202110277365 A CN 202110277365A CN 113192124 A CN113192124 A CN 113192124A
- Authority
- CN
- China
- Prior art keywords
- attention mechanism
- image
- mechanism module
- channel
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 117
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000005520 cutting process Methods 0.000 claims abstract description 12
- 230000002708 enhancing effect Effects 0.000 claims abstract description 3
- 230000004913 activation Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 20
- 230000004044 response Effects 0.000 description 17
- 241000282414 Homo sapiens Species 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000002604 ultrasonography Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G06T5/94—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
Abstract
本发明公开了一种基于孪生网络的图像目标定位方法,包括:根据图像中的目标大小和所在位置对图像进行裁剪和数据增强处理、获得视频序列训练集中的全部图像组成的样本对;构建自注意力机制模块和互注意力机制模块,构建基于注意力机制的交叉融合孪生网络,将视频序列裁剪得到的样本对输入至基于注意力机制的交叉融合孪生网络进行训练;使用训练好的交叉融合孪生网络计算目标模板与视频序列各帧的得分图,记录得分图中得分最大的位置即为目标位置。通过自注意力机制模块对通过该模块的图像特征进行增强,通过互注意力机制模块聚合模板分支和搜索分支的有效信息,弥补在特征提取过程中双方无法获取对方重要信息的问题,提升跟踪器对复杂场景变化的适应能力。
Description
技术领域
本发明涉及孪生网络和图像目标分析技术领域,尤其涉及一种基于孪生网络的图像目标定位方法。
背景技术
人类至少有80%以上的外界信息通过视觉得到,视觉是人类识别判断周围事物的重要依据。但是由于人类视觉的有限性,仅仅依靠人类的视觉处理信息是远远不够的。近年来,随着计算机相关技术的快速发展,人们尝试通过利用计算机来代替人的视觉来处理各种相关信息,通过计算机模拟人类视觉识别判断周围事物。这种利用计算机实现人的视觉,希望根据感知到的图像(视频)对实际的目标和场景内容做出有意义的判断的研究课题被称为计算机视觉。
目标检测与跟踪是计算机视觉领域中重要的一个研究方向,在计算机视觉的研究领域得到越来越多的关注。目标检测与跟踪,就是通过分析成像传感器获取到的场景视频图像帧,从背景信息中检测、提取、分割出运动目标,进而利用相似度算法在随后的序列图像中估算出目标最有可能的位置信息,为深层次的目标行为的分析与理解奠定基础;其实时检测、跟踪运动目标的功能,为后续的目标识别与行为理解提供了可靠的数据来源。
运动图像的目标跟踪在当前社会具有众多的应用场景,能够在多个领域和实地场所发挥作用,具有巨大的潜力和广阔的发展前景。目前,目标跟踪技术主要应用于以下领域:
1)智能视频监控:基于运动识别(基于步法的人类识别、自动物体检测等),自动化监测(监视一个场景以检测可疑行为);交通监视(实时收集交通数据用来指挥交通流动);
2)人机交互:传统人机交互是通过计算机键盘和鼠标进行的,为了使计算机具有识别和理解人的姿态、动作、手势等能力,跟踪技术是关键;
3)机器人视觉导航:在智能机器人中,跟踪技术可用于计算拍摄物体的运动轨迹;
4)虚拟现实:虚拟环境中3D交互和虚拟角色动作模拟直接得益于视频人体运动分析的研究成果,可给参与者更加丰富的交互形式,人体跟踪分析是其关键技术。
5)医学诊断:跟踪技术在超声波和核磁序列图像的自动分析中有广泛应用,由于超声波图像中的噪声经常会淹没单帧图像有用信息,使静态分析十分困难,而通过跟踪技术利用序列图像中目标在几何上的连续性和时间上的相关性,可以得到更准确的结果。
传统的基于孪生网络的跟踪算法对图像进行目标定位时,在跟踪过程中目标模板不会根据搜索图像进行在线自适应调整且没有关注图像中的重点特征,不利于应对各种复杂的跟踪场景。
发明内容
根据现有技术存在的问题,本发明公开了一种基于孪生网络的图像目标定位方法,具体包括如下步骤:
根据图像中的目标大小和所在位置对图像进行裁剪和数据增强处理、获得视频序列训练集中的全部图像组成的样本对;
构建自注意力机制模块和互注意力机制模块,其中所述自注意力机制模块包括通道注意力机制模块和空间注意力机制模块,所述互注意力机制模块包括两个结构相同的第一通道注意力机制模块和第二通道注意力机制模块;
构建基于注意力机制的交叉融合孪生网络,该交叉融合孪生网络包括用于提取图像特征的2个参数共享的AlexNet特征提取网络,该参数共享的AlexNet特征提取网络包括5层卷积层,其中在第1层和第4层卷积层均加入自注意力机制模块进行特征增强,同时将第2层和第3层卷积层的输出连接到互注意力机制模块中进行模板分支和搜索分支的信息交互;
将视频序列裁剪得到的样本对输入至基于注意力机制的交叉融合孪生网络进行训练;
使用训练好的交叉融合孪生网络计算目标模板与视频序列各帧的得分图,记录得分图中得分最大的位置即为目标位置。
进一步的,对图像进行增强时:
对裁剪得到的图像进行一系列以目标为中心、以目标周围随机点为中心进行缩放裁剪操作,将缩放裁剪后的模板分支图像和搜索分支图像两两组合,构成样本对(z,x),其中z是模板分支图像,x是搜索分支图像,将二者作为训练孪生网络时使用的图像数据。
进一步的,所述自注意力机制模块包括通道注意力机制模块和空间注意力机制模块,该自注意力机制模块对图像进行特征增强处理时:
设输入的图像特征为F∈RC*h*W,则将输入的图像特征通过通道注意力机制模块,可以得到该图像的通道权重为Mc∈RC*1*1,将输入的图像特征通过空间注意力机制模块,可以得到该图像的空间权重为Ms∈R1*H*W,将通道权重和输入的图像特征进行矩阵相乘获得经过通道注意力机制模块增强后的图像特征F′,将空间权重和输入的经过通道注意力机制模块增强的图像特征F′进行矩阵相乘获得经过空间注意力机制模块增强的图像特征F″,具体算法如下:
通道权重采用如下公式表示:
空间权重采用如下公式表示:
其中,σ是sigmoid激活函数,f7*7是7*7卷积操作
关于sigmoid激活函数和ReLU激活函数分别由下式给出
进一步的,所述第一通道注意力机制模块用于获取输入模板分支图像的模板通道权重,所述第二通道注意力机制模块用于获取输入搜索分支图像的搜索通道权重,该互注意力机制模块对通过的图像进行增强处理时:
以模板分支为例,设输入的模板分支图像特征为Z∈RC*h*w,输入的搜索分支图像特征为X∈RC*h*W,利用搜索分支图像特征对通过互注意力机制模块的模板分支图像特征进行增强处理时,将模板分支的图像特征通过第一通道注意力机制模块获得特征增强后的模板分支图像特征为其中Mc(Z)为模板通道权重;将模板分支的图像特征通过第二通道注意力机制模块获得特征增强后的模板分支图像特征为其中Mc(X)为搜索通道权重;将第一通道注意力机制模块和第二通道注意力机制模块得到的增强后的图像特征直接相加,可得图像特征融合的结果为Z′=ZS′+ZC′,最后将该结果通过一个卷积核大小为3,步长为1,填充为1的卷积层,得到模板分支图像的最终特征增强结果。同理,可得搜索分支图像的最终特征增强结果。
由于采用了上述技术方案,本发明提供的一种基于孪生网络的图像目标定位方法,该方法引入自注意力机制模块和互注意力机制模块,通过自注意力机制模块对通过该模块的图像特征进行增强,通过互注意力机制模块聚合模板分支和搜索分支的有效信息,弥补在特征提取过程中双方无法获取对方重要信息的问题,提升跟踪器对复杂场景变化的适应能力。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中交叉融合孪生网络SiamCross模型结构示意图;
图2为本发明中自注意力机制模块结构原理图;
图3为本发明中互注意力机制模块结构原理图;
图4为本发明中通道注意力机制模块结构原理图;
图5为本发明中空间注意力机制模块结构原理图。
具体实施方式
为使本发明的技术方案和优点更加清楚,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述:
如图1至图3所示的一种基于孪生网络的图像目标定位方法,具体包括如下步骤:
步骤S1:根据图像中的目标大小和所在位置,对图像进行一系列裁剪以及数据增强操作,获得视频序列训练集中的全部图像组成的样本对,用于训练特征提取网络;
步骤S2:构建自注意力机制模块和互注意力机制模块,其中所述自注意力机制模块包括通道注意力机制模块和空间注意力机制模块,所述互注意力机制模块包括两个结构相同的第一通道注意力机制模块和第二通道注意力机制模块;
步骤S3:构建基于注意力机制的交叉融合孪生网络,该网络包括2个参数共享的AlexNet网络用于提取图像特征,该参数共享的AlexNet特征提取网络包括5层卷积层,其中在第1层和第4层卷积层均加入自注意力机制模块进行特征增强,同时将第2层和第3层的输出连接到互注意力机制模块中,进行模板分支和搜索分支的信息交互;
步骤S4:通过步骤S1中提供的视频序列裁剪得到的样本对,训练步骤S3中构建的基于注意力机制的交叉融合孪生网络;
步骤S5:使用训练好的基于注意力机制的交叉融合孪生网络计算目标模板与视频序列各帧的得分图,根据得分图中得分最大的位置即为目标位置的方法进行目标跟踪。
所述步骤S1的实现如下:根据用于目标跟踪的数据集提供的训练集,对训练集图像进行统一处理,图像预处理包括图像裁剪以及图像增强两部分。
步骤S1.1:图像裁剪的具体步骤如下:
获取训练集提供的视频序列各帧图像中目标的边界框坐标,将其转换为[y,x,h,w]的形式,其中坐标原点位于图像的左上角,h代表目标在图像中的高度,w代表目标在图像中的宽度。根据该坐标确定目标在图像中的位置以及目标的大小,并通过下述公式计算目标的边缘填充大小
context=0.5(h+w)=2p
s(w+2p)*s(h+2p)=A
其中,s是尺度因子,p是目标单侧边缘填充大小,A是图像裁剪后的大小;
目标模板分支裁剪后图像大小一般为127*127,而搜索分支裁剪后图像大小一般为255*255。裁剪时所使用的图像插值方法为双线性插值,对于一未知函数f,已知点Q11(x1,y1)、Q12(x1,y2)、Q21(x2,y1)、Q22(x2,y2),获得其中点P(x,y)的值,该方法由下述公式给出
在y方向进行线性插值,可得下式
综合可得双线性插值最后的结果如下
步骤S1.2:将步骤S1.1裁剪得到的图像进行一系列以目标为中心、以目标周围随机点为中心进行进一步的缩放裁剪操作,其中随机裁剪在一定程度上模拟了目标的移动,这对训练网络是有帮助的;然后将处理好的目标模板分支图像和搜索分支图像两两组合,构成一个个样本对(z,x),其中z是目标模板图像,x是搜索分支图像,作为训练孪生网络时使用的图像数据。
S2包括S2.1:其中如图2所示自注意力机制模块对图像进行增强处理时:
已知输入的图像特征为F∈Rc*H*W,则将输入的图像特征通过如图4所示通道注意力机制模块,可以得到该图像的通道权重为Mc∈RC*1*1,将输入的图像特征通过如图5所示空间注意力机制模块,可以得到该图像的空间权重为Ms∈R1*H*W,将通道权重和输入的图像特征进行矩阵相乘可得经过通道注意力机制模块增强的图像特征F′,将空间权重和输入的经过通道注意力机制模块增强的图像特征F′进行矩阵相乘可得经过空间注意力机制模块增强的图像特征F″,具体公式如下
具体地,通道权重由下式给出
具体地,空间权重由下式给出
其中,σ是sigmoid激活函数,f7*7是7*7卷积操作
关于sigmoid激活函数和ReLU激活函数分别由下式给出
步骤S2.2所述如图3所示互注意力机制模块包括两个结构相同的第一通道注意力机制模块和第二通道注意力机制模块。
所述第一通道注意力机制模块用于获取当前分支图像的通道权重,所述第二通道注意力机制模块用于获取另一分支图像的通道权重。该互注意力机制模块对通过的图像进行增强处理时:
以模板分支为例,设输入的模板分支图像特征为Z∈RC*h*w,输入的搜索分支图像特征为X∈RC*H*W,利用搜索分支图像特征对通过互注意力机制模块的模板分支图像特征进行增强处理时,将模板分支的图像特征通过第一通道注意力机制模块获得特征增强后的模板分支图像特征为其中Mc(Z)为模板通道权重;将模板分支的图像特征通过第二通道注意力机制模块获得特征增强后的模板分支图像特征为其中Mc(X)为搜索通道权重;将第一通道注意力机制模块和第二通道注意力机制模块得到的增强后的图像特征直接相加,可得图像特征融合的结果为Z′=ZS′+ZC′,最后将该结果通过一个卷积核大小为3,步长为1,填充为1的卷积层,得到模板分支图像的最终特征增强结果。同理,可得搜索分支图像的最终特征增强结果。
所述步骤S3的具体步骤如下:
构建用于特征提取的主干网络AlexNet,该网络具体包括5层卷积层,每层卷积层又包含其它操作,如池化层进行下采样,BN层数据的归一化处理,ReLU激活函数处理,具体如下:
Conv1卷积层:卷积核大小为11*11,卷积步长为2,该层输入通道数为3,输出通道数为96,卷积后依次通过一个数据归一化处理的BatchNorm层,该层输入通道数为96,再通过ReLU激活函数处理,最后通过一个最大池化层,该最大池化层对输入图像进行2倍下采样处理;
Conv2卷积层:卷积核大小为5*5,卷积步长为1,该层输入通道数为96,输出通道数为256,并且该层使用了group为2的分组卷积操作,卷积后依次通过一个数据归一化处理的BatchNorm层,该层输入通道数为256,再通过ReLU激活函数处理,最后通过一个最大池化层,该最大池化层对输入图像进行2倍下采样处理;
Conv3卷积层:卷积核大小为3*3,卷积步长为1,该层输入通道数为256,输出通道数为384,卷积后依次通过一个数据归一化处理的BatchNorm层,该层输入通道数为384,再通过ReLU激活函数处理;
Conv4卷积层:卷积核大小为3*3,卷积步长为1,该层输入通道数为384,输出通道数为384,并且该层使用了group为2的分组卷积操作,卷积后依次通过一个数据归一化处理的BatchNorm层,该层输入通道数为384,再通过ReLU激活函数处理;
Conv5卷积层:卷积核大小为3*3,卷积步长为1,该层输入通道数为384,输出通道数为256,并且该层使用了group为2的分组卷积操作;
以上为用于图像特征提取使用的主干网络AlexNet的具体结构,基于该结构,进行基于注意力机制的交叉融合孪生网络的构建,如图1所示该网络包括2个参数共享的AlexNet网络用于提取图像特征,其中一支用于提取模板分支的图像特征,一支用于提取搜索分支的图像特征,在上述第1层和第4层卷积层的输出端,引用步骤S2所述的自注意力机制模块,该自注意力机制模块包括通道注意力机制模块和空间注意力机制模块两部分,用于对第1层和第4层卷积层的输出图像特征进行特征增强处理;在第2层卷积层Conv2的输出端,接入一个输入256通道,输出512通道的1*1卷积,在第3层卷积层Conv3的输出端,接入一个输入384通道,输出512通道的1*1卷积,用于从特征提取的主干网络AlexNet中抽取出Conv2和Conv3的输出图像特征,将抽取出的Conv2和Conv3的输出图像特征通过步骤S2所述的互注意力机制模块,该互注意力机制模块包括第一通道注意力机制模块和第二通道注意力机制模块两部分。以Conv2为例,将模板分支的图像特征分别通过第一通道注意力机制模块和第二通道注意力机制模块,将两个分支输出结果进行矩阵相加运算后,通过一个输入通道数为512,输出通道数为512的卷积核大小为3*3,卷积步长为1,填充为1的卷积层,再通过ReLU激活函数得到Conv2卷积层抽取出的增强后的模板分支图像特征,同样可得Conv2卷积层抽取出的增强后的搜索分支图像特征,将模板分支的图像特征与搜索分支的图像特征进行互相关计算,即可得到一个17*17大小的得分响应图,该得分响应图f(z,x)计算公式为:
同理,可以得到Conv3卷积层的得分响应图以及未通过互注意力机制模块的Conv5卷积层的得分响应图,将Conv2、Conv3、Conv5卷积层的得分响应图沿着通道的维度进行拼接处理,最后进行简单的线性融合可得融合后的得分响应图,该线性融合使用了输入通道数为3,输出通道数为1的1*1卷积进行处理。
具体地,所述步骤S4的实现如下:
通过步骤S1中提供的视频序列裁剪得到的样本对,训练步骤S3中构建的基于注意力机制的交叉融合孪生网络。训练时的epoch为50,即完整遍历50次数据集中的训练集提供的全部视频序列,由于视频序列无法一次性加载进内存中,故采用了小批量加载视频序列的方式训练孪生网络,采用的batchsize为8。通过步骤S1中提供的图像数据,传入基于注意力机制的交叉融合孪生网络中,获得预测的得分响应图,对于每张得分图的每个位置采用逻辑损失计算预测的目标位置和真实标签之间的损失值,进一步根据随机梯度下降算法对网络权重进行更新,最终获得训练好的基于注意力机制的交叉融合孪生网络。
具体地,真实标签由下式给出:
其中,k是特征提取网络下采样的倍数,c是得分响应图的中心,u是目标在图像上的坐标,R是距离阈值,如果目标在图像上的坐标与得分响应图的中心欧式距离小于阈值R,就将其定义为正样本,否则为负样本。
逻辑损失由下式给出:
l(y,g)=log(1+e-yg)
对于每张得分图的全部位置,取全部位置的得分平均损失为每张得分图的损失函数,如下式所示:
使用最小化逻辑损失函数进行优化操作,如下式所示:
其中,θ是网络训练参数,N是训练样本个数,Yi∈{-1,+1}是训练视频和对应的搜索区域中被正确标注的响应图。Yi=-1表示负样本,Yi=+1则为正样本。
具体地,所述步骤S5的实现如下:
使用训练好的基于注意力机制的交叉融合孪生网络计算目标模板与视频序列各帧的得分图,记录得分图中得分最大的位置即为目标位置。首先传入视频序列的第一帧图像以及给出的第一帧目标位置信息,对第一帧图像进行裁剪处理成127*127大小的图像,同步骤S1中所述的裁剪操作一样,将此裁剪好的图像作为基于注意力机制的交叉融合孪生网络的模板分支;然后依次传入视频序列的后续帧,由于在跟踪过程中目标会有尺度上的变化,为了提高跟踪性能选取了3种尺度对搜索图像进行尺度变换操作,分别为1.0375[-1,0,1],并对传入的后续帧进行裁剪处理成255*255大小的图像,作为基于注意力机制的交叉融合孪生网络的搜索分支,使用训练好的基于注意力机制的交叉融合孪生网络进行目标跟踪,计算目标模板与视频序列各帧的得分图,分别对得分响应图进行尺度惩罚以及汉宁窗惩罚操作,获得惩罚后的得分响应图。汉宁窗用于抑制边界响应值,该汉宁窗由下式给出
选取响应值最大的得分响应图作为最终得分响应图,找到响应图上的峰值点,该峰值点就是预测的目标所在位置,由此即可实现目标跟踪。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (4)
1.一种基于孪生网络的图像目标定位方法,其特征在于包括:
根据图像中的目标大小和所在位置对图像进行裁剪和数据增强处理、获得视频序列训练集中的全部图像组成的样本对;
构建自注意力机制模块和互注意力机制模块,其中所述自注意力机制模块包括通道注意力机制模块和空间注意力机制模块,所述互注意力机制模块包括两个结构相同的第一通道注意力机制模块和第二通道注意力机制模块;
构建基于注意力机制的交叉融合孪生网络,该交叉融合孪生网络包括用于提取图像特征的2个参数共享的AlexNet特征提取网络,该参数共享的AlexNet特征提取网络包括5层卷积层,其中在第1层和第4层卷积层均加入自注意力机制模块进行特征增强,同时将第2层和第3层卷积层的输出连接到互注意力机制模块中进行模板分支和搜索分支的信息交互;
将视频序列裁剪得到的样本对输入至基于注意力机制的交叉融合孪生网络进行训练;
使用训练好的交叉融合孪生网络计算目标模板与视频序列各帧的得分图,记录得分图中得分最大的位置即为目标位置。
2.根据权利要求1所述的方法,其特征在于:对图像进行增强时:
对裁剪得到的图像进行一系列以目标为中心、以目标周围随机点为中心进行缩放裁剪操作,将缩放裁剪后的模板分支图像和搜索分支图像两两组合,构成样本对(z,x),其中z是模板分支图像,x是搜索分支图像,将二者作为训练孪生网络时使用的图像数据。
3.根据权利要求1所述的方法,其特征在于:所述自注意力机制模块包括通道注意力机制模块和空间注意力机制模块,该自注意力机制模块对图像进行特征增强处理时:
设输入的图像特征为F∈RC*h*W,则将输入的图像特征通过通道注意力机制模块,可以得到该图像的通道权重为Mc∈RC*1*1,将输入的图像特征通过空间注意力机制模块,可以得到该图像的空间权重为Ms∈R1*h*W,将通道权重和输入的图像特征进行矩阵相乘获得经过通道注意力机制模块增强后的图像特征F′,将空间权重和输入的经过通道注意力机制模块增强的图像特征F′进行矩阵相乘获得经过空间注意力机制模块增强的图像特征F″,具体算法如下:
通道权重采用如下公式表示:
空间权重采用如下公式表示:
其中,σ是sigmoid激活函数,f7*7是7*7卷积操作
关于sigmoid激活函数和ReLU激活函数分别由下式给出
4.根据权利要求1所述的方法,其特征在于:所述第一通道注意力机制模块用于获取输入模板分支图像的模板通道权重,所述第二通道注意力机制模块用于获取输入搜索分支图像的搜索通道权重,该互注意力机制模块对通过的图像进行增强处理时:
以模板分支为例,设输入的模板分支图像特征为Z∈RC*h*w,输入的搜索分支图像特征为X∈RC*h*W,利用搜索分支图像特征对通过互注意力机制模块的模板分支图像特征进行增强处理时,将模板分支的图像特征通过第一通道注意力机制模块获得特征增强后的模板分支图像特征为其中Mc(Z)为模板通道权重;将模板分支的图像特征通过第二通道注意力机制模块获得特征增强后的模板分支图像特征为其中Mc(X)为搜索通道权重;将第一通道注意力机制模块和第二通道注意力机制模块得到的增强后的图像特征直接相加,可得图像特征融合的结果为Z′=ZS′tZC′,最后将该结果通过一个卷积核大小为3,步长为1,填充为1的卷积层,得到模板分支图像的最终特征增强结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110277365.9A CN113192124A (zh) | 2021-03-15 | 2021-03-15 | 一种基于孪生网络的图像目标定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110277365.9A CN113192124A (zh) | 2021-03-15 | 2021-03-15 | 一种基于孪生网络的图像目标定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113192124A true CN113192124A (zh) | 2021-07-30 |
Family
ID=76973337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110277365.9A Pending CN113192124A (zh) | 2021-03-15 | 2021-03-15 | 一种基于孪生网络的图像目标定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113192124A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744314A (zh) * | 2021-09-06 | 2021-12-03 | 郑州海威光电科技有限公司 | 一种基于目标-干扰感知的目标跟踪方法 |
CN113870312A (zh) * | 2021-09-30 | 2021-12-31 | 四川大学 | 基于孪生网络的单目标跟踪方法 |
CN116189021A (zh) * | 2023-02-27 | 2023-05-30 | 中国人民解放军国防科技大学 | 多分支互交叉注意力增强的无人机多光谱目标检测方法 |
CN116486203A (zh) * | 2023-04-24 | 2023-07-25 | 燕山大学 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
CN117541822A (zh) * | 2023-09-25 | 2024-02-09 | 江苏星图智能科技有限公司 | 基于孪生网络的模板匹配方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180129934A1 (en) * | 2016-11-07 | 2018-05-10 | Qualcomm Incorporated | Enhanced siamese trackers |
US20180129906A1 (en) * | 2016-11-07 | 2018-05-10 | Qualcomm Incorporated | Deep cross-correlation learning for object tracking |
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN111291679A (zh) * | 2020-02-06 | 2020-06-16 | 厦门大学 | 一种基于孪生网络的目标特定响应注意力目标跟踪方法 |
CN111354017A (zh) * | 2020-03-04 | 2020-06-30 | 江南大学 | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 |
CN112258554A (zh) * | 2020-10-07 | 2021-01-22 | 大连理工大学 | 基于注意力机制的双流层次孪生网络目标跟踪方法 |
CN112348849A (zh) * | 2020-10-27 | 2021-02-09 | 南京邮电大学 | 一种孪生网络视频目标跟踪方法及装置 |
-
2021
- 2021-03-15 CN CN202110277365.9A patent/CN113192124A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180129934A1 (en) * | 2016-11-07 | 2018-05-10 | Qualcomm Incorporated | Enhanced siamese trackers |
US20180129906A1 (en) * | 2016-11-07 | 2018-05-10 | Qualcomm Incorporated | Deep cross-correlation learning for object tracking |
CN109191491A (zh) * | 2018-08-03 | 2019-01-11 | 华中科技大学 | 基于多层特征融合的全卷积孪生网络的目标跟踪方法及系统 |
CN111291679A (zh) * | 2020-02-06 | 2020-06-16 | 厦门大学 | 一种基于孪生网络的目标特定响应注意力目标跟踪方法 |
CN111354017A (zh) * | 2020-03-04 | 2020-06-30 | 江南大学 | 一种基于孪生神经网络及平行注意力模块的目标跟踪方法 |
CN112258554A (zh) * | 2020-10-07 | 2021-01-22 | 大连理工大学 | 基于注意力机制的双流层次孪生网络目标跟踪方法 |
CN112348849A (zh) * | 2020-10-27 | 2021-02-09 | 南京邮电大学 | 一种孪生网络视频目标跟踪方法及装置 |
Non-Patent Citations (3)
Title |
---|
YUZHU JI等: "CASNet: A Cross-Attention Siamese Network for Video Salient Object Detection", IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS, vol. 32, no. 6, XP011857384, DOI: 10.1109/TNNLS.2020.3007534 * |
曹方伟: "基于深度孪生网络的视觉目标跟踪方法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 06 * |
董吉富;刘畅;曹方伟;凌源;高翔;: "基于注意力机制的在线自适应孪生网络跟踪算法", 激光与光电子学进展, no. 02 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744314A (zh) * | 2021-09-06 | 2021-12-03 | 郑州海威光电科技有限公司 | 一种基于目标-干扰感知的目标跟踪方法 |
CN113744314B (zh) * | 2021-09-06 | 2023-09-22 | 郑州海威光电科技有限公司 | 一种基于目标-干扰感知的目标跟踪方法 |
CN113870312A (zh) * | 2021-09-30 | 2021-12-31 | 四川大学 | 基于孪生网络的单目标跟踪方法 |
CN113870312B (zh) * | 2021-09-30 | 2023-09-22 | 四川大学 | 基于孪生网络的单目标跟踪方法 |
CN116189021A (zh) * | 2023-02-27 | 2023-05-30 | 中国人民解放军国防科技大学 | 多分支互交叉注意力增强的无人机多光谱目标检测方法 |
CN116189021B (zh) * | 2023-02-27 | 2024-04-09 | 中国人民解放军国防科技大学 | 多分支互交叉注意力增强的无人机多光谱目标检测方法 |
CN116486203A (zh) * | 2023-04-24 | 2023-07-25 | 燕山大学 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
CN116486203B (zh) * | 2023-04-24 | 2024-02-02 | 燕山大学 | 一种基于孪生网络和在线模板更新的单目标跟踪方法 |
CN117541822A (zh) * | 2023-09-25 | 2024-02-09 | 江苏星图智能科技有限公司 | 基于孪生网络的模板匹配方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113192124A (zh) | 一种基于孪生网络的图像目标定位方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN113591968A (zh) | 一种基于非对称注意力特征融合的红外弱小目标检测方法 | |
CN111401293B (zh) | 一种基于Head轻量化Mask Scoring R-CNN的手势识别方法 | |
CN113673510B (zh) | 一种结合特征点和锚框共同预测和回归的目标检测方法 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN111915644B (zh) | 孪生导向锚框rpn网络的实时目标跟踪方法 | |
CN110781744A (zh) | 一种基于多层次特征融合的小尺度行人检测方法 | |
CN113159120A (zh) | 一种基于多尺度跨图像弱监督学习的违禁物检测方法 | |
CN111797841B (zh) | 一种基于深度残差网络的视觉显著性检测方法 | |
CN113609896A (zh) | 基于对偶相关注意力的对象级遥感变化检测方法及系统 | |
CN115375737B (zh) | 基于自适应时间与序列化时空特征的目标跟踪方法与系统 | |
CN111695457A (zh) | 一种基于弱监督机制的人体姿态估计方法 | |
Qi et al. | FTC-Net: Fusion of transformer and CNN features for infrared small target detection | |
WO2021169049A1 (zh) | 一种真实场景下玻璃检测的方法 | |
WO2023093086A1 (zh) | 目标跟踪及相关模型的训练方法、装置、设备、介质、计算机程序产品 | |
CN111311611A (zh) | 一种实时三维大场景多对象实例分割的方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN114283355A (zh) | 一种基于小样本学习的多目标濒危动物跟踪方法 | |
CN114066937B (zh) | 一种大尺度遥感影像多目标跟踪方法 | |
Yu et al. | Detecting Line Segments in Motion-blurred Images with Events | |
CN116912670A (zh) | 基于改进yolo模型的深海鱼类识别方法 | |
CN115761888A (zh) | 基于nl-c3d模型的塔吊操作人员异常行为检测方法 | |
CN114743257A (zh) | 图像目标行为的检测识别方法 | |
CN114066844A (zh) | 一种基于注意力叠加与特征融合的肺炎x光片图像分析模型及分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |