CN109919978B - 受丘脑注意机制调控的信息融合的视觉跟踪方法及系统 - Google Patents
受丘脑注意机制调控的信息融合的视觉跟踪方法及系统 Download PDFInfo
- Publication number
- CN109919978B CN109919978B CN201910170679.1A CN201910170679A CN109919978B CN 109919978 B CN109919978 B CN 109919978B CN 201910170679 A CN201910170679 A CN 201910170679A CN 109919978 B CN109919978 B CN 109919978B
- Authority
- CN
- China
- Prior art keywords
- response
- layer
- last
- target
- tracked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 66
- 230000000007 visual effect Effects 0.000 title claims abstract description 47
- 230000004927 fusion Effects 0.000 title claims abstract description 29
- 230000001105 regulatory effect Effects 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 23
- 210000001103 thalamus Anatomy 0.000 title abstract description 20
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 41
- 210000000857 visual cortex Anatomy 0.000 claims abstract description 25
- 238000001914 filtration Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000000542 thalamic effect Effects 0.000 claims description 22
- 230000002123 temporal effect Effects 0.000 claims description 10
- 230000001054 cortical effect Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 239000010410 layer Substances 0.000 description 133
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 210000003710 cerebral cortex Anatomy 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 210000000977 primary visual cortex Anatomy 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000005286 illumination Methods 0.000 description 2
- 210000003127 knee Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 241000288906 Primates Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000011953 bioanalysis Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002450 orbitofrontal effect Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000001936 parietal effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 210000002442 prefrontal cortex Anatomy 0.000 description 1
- 210000003735 pulvinar Anatomy 0.000 description 1
- 210000001995 reticulocyte Anatomy 0.000 description 1
- 210000003660 reticulum Anatomy 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 230000008786 sensory perception of smell Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Abstract
本发明提供一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法及系统,所述视觉跟踪方法包括:从视频中的第一帧中获取待跟踪目标以及位置标签;基于预训练卷积神经网络模型,获取第一帧中待跟踪目标的不同卷积层的特征;根据位置标签,构建高斯标签;通过相关滤波得到各卷积层的模板;针对新的一帧,在前一帧的中心中裁剪出待搜索区域,利用相关滤波,以及各卷积层的模板,得到各卷积层的响应;利用空间注意机制以及时间注意机制动态调整其他层的响应的权重;根据调整后的其他层的权重,确定待跟踪目标的所在位置。本发明对于不同视皮层分配不同的权重,将不同层视觉特征去动态组合到一起,实现视觉跟踪性能的有效提升。
Description
本申请要求于2018年11月12日提交中国专利局、申请号为201811341205.0、发明名称为“一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪模型”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及类脑智能和人工智能领域,具体涉及一种受丘脑注意机制调控的信息融合的视觉跟踪方法及系统。
背景技术
在灵长类动物中,除了嗅觉外,丘脑接收其他各种感觉输入。除了对信息进行转换,丘脑还在皮层的信息传递过程中起到调控作用。丘脑主要由外膝体(LGN)、丘脑网状核(TRN)以及丘脑枕(Pulvinar)组成。外膝体将感觉器官与大脑皮层连接起来,对信息进行中转;丘脑网状核调控大脑皮层与丘脑之间的信息传递;丘脑枕是丘脑中最大的核团,神经科学的实验研究表示丘脑枕与众多视觉皮层具有大量双向连接。如图所示,丘脑与众多皮层区域有着密切连接。比如说初级视觉皮层1(V1),初级视觉皮层2(V2),初级视觉皮层4(V4),下颞叶皮层(IT),背外侧前额叶皮层(PLPFC),眶额叶皮层(OFC),后顶叶皮质(PPC)这些连接都是双向的,易于形成反馈的环路,因此丘脑是一个重要的脑区起到了中央调控的作用。
而视觉注意作为人类的一项重要能力,它使得我们能够有效处理对于我们最重要的事情。视觉注意一直以来是神经科学、心理学、计算机科学等领域的研究热点问题。目前的研究成果,尤其是计算机领域的建模,更多的是关注每层皮层内部在视觉注意中的作用,而对于跨层皮层之间的空间注意机制,以及视频流中的时间注意机制研究很少。
目前视觉跟踪算法的主流框架叫做相关滤波算法(correlation filter),是一种模板匹配算法。在第一帧框住目标后,计算出此时目标的特征,最原始的算法是用的特征的像素信息,后来利用颜色直方图,Hog特征等等来表示目标的主要特征,在新的一帧到来的时候,在上一帧目标位置处,进行循环采样得到一系列样本,将这些样本的特征,与目标特征进行比较,最相似的样本即为新的目标所在处。
卷积神经网络在许多视觉任务比如分类,识别,分割中展现了强大了的能力。由于其强大的特征表示能力,所以在视跟踪任务中也被考虑进来,代替原来的一些手工设计特征,比如说Hog之类,一个卷积神经网络包含着不同的卷积层,池化层。
目前大多数的视觉跟踪算法,主要利用的是卷积神经网络最后一层的特征,这一层的特征有着丰富的语义信息。但是,虽然说这些特征对于不同类的目标分辨很有效,比如说人和狗。但是,由于缺乏一些空间细节信息,对于相同类的不同物体,比如两个不同的人,想要区分就很困难。而卷积神经网络浅层的特征相对于最后一层的特征保留了更多的细节,对于同一类的不同物体能有更大的区分度。但是,浅层特征对于物体的形变,光照,等等较为敏感,稍微改变,判别能力会大幅度下降。
发明内容
为了解决现有技术中的上述问题,即为了提高目标跟踪性能,本发明提供一种受丘脑注意机制调控的信息融合的视觉跟踪方法及系统。
为实现上述目的,本发明提供了如下方案:
一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,所述视觉跟踪方法包括:
步骤S100,从视频中的第一帧中获取待跟踪目标以及在所述待跟踪目标的位置标签;
步骤S200,基于预训练卷积神经网络模型,获取第一帧中待跟踪目标的不同卷积层的特征;
步骤S300,根据所述待跟踪目标的位置标签,构建高斯标签;
步骤S400,根据所述高斯标签及步骤S200中得到的不同卷积层的特征,通过相关滤波得到各卷积层的模板;
步骤S500,针对新的一帧,在前一帧的中心中裁剪出待搜索区域,基于预训练卷积神经网络模型,利用相关滤波,以及得到的各卷积层的模板,得到各卷积层的响应;
步骤S600,将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重;
步骤S700,根据调整后的其他层的权重,确定待跟踪目标的所在位置。
可选的,所述视觉跟踪方法还包括:
根据待跟踪目标的所在位置,确定当前帧中的待跟踪目标;
基于预训练卷积神经网络模型以及当前帧中的待跟踪目标,确定当前帧中待跟踪目标的不同卷积层的特征,以更新各卷积层的模板。
其中,Xk是第k个卷积层得到的特征;Y是样本实际的标签,是一个二维的高斯分布,中心值为1是样本的实际位置;F(Xk)表示对Xk进行离散傅里叶变换;F(Y)表示对Y进行离散傅里叶变换;λ表示k个卷积层的响应的权重;d表示第k个卷积层特征的通道序号;*,*,d表示卷积层的第d个通道,表示第k个卷积层第d个通道的模板,表示傅里叶变换的复共轭。
可选的,步骤S500中所述卷积层的响应为:
基于预训练卷积神经网络模型,确定第k层的特征Tk;
根据以下公式计算第k层的特征Tk的响应Rk:
其中,Rk为第k层的特征Tk的响应Rk;Tk为基于卷积神经网络确定的第k层的特征;F(Tk)表示对Tk进行离散傅里叶变换,表示傅里叶变换的复共轭,F-1表示的离散傅里叶变换的逆变换,Wk表示第k个卷积层的模板模型。
可选的,所述将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重,具体包括:
利用卷积神经网络最后一层的特征进行计算,得到的最后一层响应Rlast:
Rlast=F-1(F(Tlast)·Wlast);
其中,F(Tlast)表示对Tlast进行离散傅里叶变换,表示傅里叶变换的复共轭,F-1表示的离散傅里叶变换的逆变换,Wlast表示最后一个卷积层的模板模型,Tlast表示卷积神经网络最后一层的特征;
根据以下公式,由空间注意机制计算空间注意权重SAWk:
其中,Rk表示第k层的特征Tk的响应,max(Rk)表示响应Rk的最大值,μ(Rk)表示响应Rk的算数平均值,σ(Rk)表示响应Rk的标准差;
根据以下公式,由时间注意机制计算时间注意权重TAWk:
融合空间注意权重以及时间注意权重,确定不同响应的权重系数ωk:
其中,η表示平衡参数。
可选的,η=0.1。
可选的,所述不同卷积层的特征分为conv3-4层特征、conv4-4层特征、conv5-4层特征。
可选的,根据调整后的其他层的权重,确定待跟踪目标的所在位置,具体包括:
将conv5-4层的响应、调整后的conv3-4加权响应以及调整后的conv4-4加权响应相加得到响应终值:
Rtotal=ω1Rprimary+ω2Rmiddle+Rlast;
其中,Rprimary表示conv3-4层响应,ω1表示调整后的conv3-4层响应的权重,Rmiddle表示conv4-4层响应,ω2表示表示调整后的conv4-4层响应的权重,Rlast表示conv5-4层的响应即最后一层响应,Rtotal是响应终值;
根据响应终值,计算当前待跟踪目标的所在位置(xk,yk):
其中,(x',y')表示目标位置。
为解决上述技术问题,本发明还提供了如下方案:
一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统,所述视觉跟踪系统包括:
初步定位单元,用于从视频中的第一帧中获取待跟踪目标以及在所述待跟踪目标的实际的位置标签;
特征确定单元,用于基于预训练卷积神经网络模型,获取第一帧中待跟踪目标的不同卷积层的特征;
标签构建单元,用于根据所述待跟踪目标的实际的位置标签,构建高斯标签;
模板确定单元,分别与所述标签构建单元以及特征确定单元连接,用于根据所述高斯标签及不同卷积层的特征,基于相关滤波得到各卷积层的模板;
响应确定单元,用于针对新的一帧,在前一帧的中心中裁剪出待搜索区域,基于预训练卷积神经网络模型,利用相关滤波,以及得到的各卷积层的模板,得到各卷积层的响应;
权重调整单元,用于将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重;
目标定位单元,用于根据调整后的其他层的权重,确定待跟踪目标的所在位置。
可选的,所述视觉跟踪系统还包括:
目标更新单元,用于根据待跟踪目标的所在位置,确定当前帧中的待跟踪目标;
模板更新单元,用于预训练卷积神经网络模型以及当前帧中的待跟踪目标,确定当前帧中待跟踪目标的不同卷积层的特征,以更新各卷积层的模板。
根据本发明的实施例,本发明公开了以下技术效果:
本发明通过对于不同视皮层分配不同的权重,更具有生物可解释性;而且,本发明除了考虑一般的空间注意机制外,还加入了时间注意机制,融合了两种注意机制;同时与现有的计算模型相比,跨皮层信息的融合,与单个皮层信息对于跟踪的效果有着显著提升。
附图说明
为了描述本发明的上述优点和特征,将通过引用附图中的具体实例来辅助说明本发明的详细内容。可以理解,这些附图仅为本发明的典型实例的描述,而非对本发明的限制。任何以其他形式表达本发明步骤或内容的附图都应属于本发明范围内。
图1为本发明受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法的流程图;
图2为本发明受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统的模块结构示意图。
符号说明:
初步定位单元—1,特征确定单元—2,标签构建单元—3,模板确定单元—4,响应确定单元—5,权重调整单元—6,目标定位单元—7。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明提供一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,通过对于不同视皮层分配不同的权重,更具有生物可解释性;而且,本发明除了考虑一般的空间注意机制外,还加入了时间注意机制,融合了两种注意机制;同时与现有的计算模型相比,跨皮层信息的融合,与单个皮层信息对于跟踪的效果有着显著提升。
在介绍本发明之前,这里先介绍一下本发明中所用的数据集以及评价指标。
本发明中所用的数据集以及评价指标。
主要由50个标定的视频序列组成,主要有11种跟踪难点,包括:光照变化,尺度变化,遮挡,形变,运动模糊,快速运动等。
视频跟踪性能主要有两种评价指标:
Precision Plot(pp):算法计算得出的目标中心位置与实际目标的中心位置偏差;
用距离小于一定的阈值的帧数的比例来衡量,本发明中用的为20。
Success Plot(SP):算法计算得出的目标框与实际目标的目标框的交叠比;
rt表示计算得到的目标框,ra表示实际的目标狂,||表示在这个区域内像素的个数。∩和∪表示两个区域的交集和并集。这个值是在0到1之间,本发明中我们利用每条Success Plot曲线在0.5时的AUC(Area Under Curve)的值来衡量跟踪算法的优越性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,包括:
步骤100:从视频中的第一帧中获取待跟踪目标以及在所述待跟踪目标的位置标签;
步骤200:基于预训练卷积神经网络模型,获取第一帧中待跟踪目标的不同卷积层的特征;
步骤300:根据所述待跟踪目标的位置标签,构建高斯标签;
步骤400:根据所述高斯标签及步骤200中得到的不同卷积层的特征,通过相关滤波得到各卷积层的模板;
步骤500:针对新的一帧,在前一帧的中心中裁剪出待搜索区域,基于预训练卷积神经网络模型,利用相关滤波,以及得到的各卷积层的模板,得到各卷积层的响应;
步骤600:将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重;
步骤700:根据调整后的其他层的权重,确定待跟踪目标的所在位置。
其中,步骤100中,在第一帧中,人为确定待跟踪目标,并送入预训练卷积神经网络模型中得到不同层的特征。
在本实施例中预训练卷积神经网络模型为VGG-19模型;所述不同卷积层的特征分别为conv3-4层特征、conv4-4层特征、conv5-4层特征。
其中,所述相关滤波是用来衡量两个信号的相似程度,具体为现有技术,在此不再赘述。
优选地,本发明受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法还包括:
根据待跟踪目标的所在位置,确定当前帧中的待跟踪目标;
基于预训练卷积神经网络模型以及当前帧中的待跟踪目标,确定当前帧中待跟踪目标的不同卷积层的特征,以更新各卷积层的模板。
其中,Xk是第k个卷积层得到的特征;Y是样本实际的标签,是一个二维的高斯分布,中心值为1是样本的实际位置;F(Xk)表示对Xk进行离散傅里叶变换;F(Y)表示对Y进行离散傅里叶变换;λ表示k个卷积层的响应的权重;d表示第k个卷积层特征的通道序号;*,*,d表示卷积层的第d个通道;表示第k个卷积层第d个通道的模板,表示傅里叶变换的复共轭。
此外,还可以在傅里叶域中第k个相关滤波建模,确定各卷积层的模板:
其中,W表示基础模块,λ表示k个卷积层的响应的权重。
在步骤500中,针对新的一帧,在前一帧的中心中裁剪出待搜索区域,基于预训练卷积神经网络模型,利用相关滤波,以及得到的各卷积层的模板,得到各卷积层的响应,具体包括:
步骤501:基于预训练卷积神经网络模型,确定第k层的特征Tk;
步骤502:根据以下公式计算第k层的特征Tk的响应Rk:
其中,Rk为第k层的特征Tk的响应Rk;Tk为基于卷积神经网络确定的第k层的特征;F(Tk)表示对Tk进行离散傅里叶变换,表示傅里叶变换的复共轭,F-1表示的离散傅里叶变换的逆变换,Wk表示第k个卷积层的模板模型。
具体的,在步骤600中,所述将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重,具体包括:
步骤601:利用卷积神经网络最后一层的特征进行计算,得到的最后一层响应Rlast:
Rlast=F-1(F(Tlast)·Wlast);
步骤602:根据以下公式,由空间注意机制计算空间注意权重SAWk:
其中,Rk表示第k层的特征Tk的响应,max(Rk)表示响应Rk的最大值,μ(Rk)表示响应Rk的算数平均值,σ(Rk)表示响应Rk的标准差。
本发明采取了信号处理领域经常用到的PSR(Peak to Sidelobe Ratio)系数,在信号处理理论中,用来衡量单峰的强度以及平滑性。
步骤603:根据以下公式,由时间注意机制计算时间注意权重(TemporalAttention Weight,TAW)TAWk:
关于一个视频流,从帧与帧之间的连续性考虑,即对于相邻两帧得到的响应,把最大值移动到相同位置之后,两帧的响应的分布应该是类似的,如果相邻两帧之间的响应差距较大,则说明该层此时得到的响应是不值得信赖的。
步骤604:融合空间注意权重以及时间注意权重,确定不同响应的权重系数ωk:
其中,η表示平衡参数。η的设置是为了两帧相差不大,分布完全一样,分母为0的情况出现在本实施例中,η=0.1。
在步骤700中,基于调整后的其他层的权重,得到目标所在的位置,具体包括:
步骤701:将conv5-4层的响应、调整后的conv3-4加权响应以及调整后的conv4-4加权响应相加得到响应终值:
Rtotal=ω1Rprimary+ω2Rmiddle+Rlast;
其中,Rprimary表示conv3-4层响应,ω1表示调整后的conv3-4层响应的权重,Rmiddle表示conv4-4层响应,ω2表示表示调整后的conv4-4层响应的权重,Rlast表示conv5-4层的响应即最后一层响应,Rtotal是响应终值;
步骤702:根据响应终值,计算当前待跟踪目标的所在位置(xk,yk):
其中,(x',y')表示目标位置。
若只使用一层特征的响应跟踪,此时响应最大的位置即为目标位置。
而在实际实验中发现,只用最后一层计算得到的响应计算得到的目标位置,在某些视频集中的表现并不好。于是利用丘脑与不同视觉皮层之间的联系,利用视觉注意机制,对于最后一层之前的响应动态分配权重来辅助视觉跟踪任务。
最终得到的是每层的一个响应图,这个响应图的峰值以及振荡程度在一定程度上表示了这个响应的可信度。直观上说,一个响应图,当出现行人遮挡的时候,峰值越高,周围越平滑,肯定说明这个结果更值得信赖,而一个响应图出现了多个响应峰值,说明这个响应对于目标和背景,区分度是很低的。
在这里给出,只用某一层以及使用丘脑去组合不同层的特征,动态分配注意力机制得到的precision plot和success plot的值。
表1:不融合以及融合多层信息的precision plot以及success plot值。
Conv5-4 | Conv4-4 | Conv3-4 | Dynamic Fusion | |
Precision Plot | 84.75 | 82.41 | 75.87 | 88.89 |
Success Plot | 59.2 | 60.6 | 56.2 | 63.4 |
可以看到在融合了多层信息之后的跟踪模型,在Precision Plot以及Successplot上都比传统的单层信息要高。
本发明提出了一种受丘脑注意机制调控的多层视皮层信息融合的计算模型,对于现有的视频跟踪性能有一定的提升。与现有技术相比,本发明具有如下优势:本发明提出的受丘脑注意机制调控的多视皮层融合模型对于不同视皮层分配不同的权重,更具有生物可解释性;而且,本发明除了考虑一般的空间注意机制外,还加入了时间注意机制,融合了两种注意机制;同时与现有的计算模型相比,跨皮层信息的融合,与单个皮层信息对于跟踪的效果有着显著提升。
此外,本发明还提供一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统。
如图2所示,本发明受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统包括初步定位单元1、特征确定单元2、标签构建单元3、模板确定单元4、响应确定单元5、权重调整单元6及目标定位单元7。
其中,所述初步定位单元1用于从视频中的第一帧中获取待跟踪目标以及在所述待跟踪目标的实际的位置标签;
所述特征确定单元2用于基于预训练卷积神经网络模型,获取第一帧中待跟踪目标的不同卷积层的特征;
所述标签构建单元3用于根据所述待跟踪目标的实际的位置标签,构建高斯标签;
所述模板确定单元4分别与所述标签构建单元3以及特征确定单元2连接,所述模板确定单元4用于根据所述高斯标签及不同卷积层的特征,基于滤波得到各卷积层的模板;
所述响应确定单元5用于针对新的一帧,在前一帧的中心中裁剪出待搜索区域,基于预训练卷积神经网络模型,利用相关滤波,以及得到的各卷积层的模板,得到各卷积层的响应;
所述权重调整单元6用于将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重;
所述目标定位单元7用于根据调整后的其他层的权重,确定待跟踪目标的所在位置。
优选地,本发明受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统还包括目标更新单元及模板更新单元。
所述目标更新单元用于根据待跟踪目标的所在位置,确定当前帧中的待跟踪目标;所述模板更新单元用于预训练卷积神经网络模型以及当前帧中的待跟踪目标,确定当前帧中待跟踪目标的不同卷积层的特征,以更新各卷积层的模板。
相对于现有技术,本发明受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统与上述受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法的有益效果相同,再次不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (8)
1.一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,其特征在于,所述视觉跟踪方法包括:
步骤S100,从视频中的第一帧中获取待跟踪目标以及在所述待跟踪目标的位置标签;
步骤S200,基于预训练卷积神经网络模型,获取第一帧中待跟踪目标的不同卷积层的特征;
步骤S300,根据所述待跟踪目标的位置标签,构建高斯标签;
步骤S400,根据所述高斯标签及步骤S200中得到的不同卷积层的特征,通过相关滤波得到各卷积层的模板;
步骤S500,针对新的一帧,在前一帧的中心中裁剪出待搜索区域,基于预训练卷积神经网络模型,利用相关滤波,以及得到的各卷积层的模板,得到各卷积层的响应;
步骤S600,将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重;具体包括:利用卷积神经网络最后一层的特征进行计算,得到的最后一层响应Rlast:
Rlast=F-1(F(Tlast)·Wlast);
其中,F(Tlast)表示对Tlast进行离散傅里叶变换,表示傅里叶变换的复共轭,F-1表示的离散傅里叶变换的逆变换,Wlast表示最后一个卷积层的模板模型,Tlast表示卷积神经网络最后一层的特征;
根据以下公式,由空间注意机制计算空间注意权重SAWk:
其中,Rk表示第k层的特征Tk的响应,max(Rk)表示响应Rk的最大值,μ(Rk)表示响应Rk的算数平均值,σ(Rk)表示响应Rk的标准差;
根据以下公式,由时间注意机制计算时间注意权重TAWk:
融合空间注意权重以及时间注意权重,确定不同响应的权重系数ωk:
其中,η表示平衡参数;
步骤S700,根据调整后的其他层的权重,确定待跟踪目标的所在位置,包括:
将conv5-4层的响应、调整后的conv3-4加权响应以及调整后的conv4-4加权响应相加得到响应终值:
Rtotal=ω1Rprimary+ω2Rmiddle+Rlast;
其中,Rprimary表示conv3-4层响应,ω1表示调整后的conv3-4层响应的权重,Rmiddle表示conv4-4层响应,ω2表示表示调整后的conv4-4层响应的权重,Rlast表示conv5-4层的响应即最后一层响应,Rtotal是响应终值;
根据响应终值,计算当前待跟踪目标的所在位置(xk,yk):
其中,(x',y')表示目标位置。
2.根据权利要求1所述的受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,其特征在于,所述视觉跟踪方法还包括:
根据待跟踪目标的所在位置,确定当前帧中的待跟踪目标;
基于预训练卷积神经网络模型以及当前帧中的待跟踪目标,确定当前帧中待跟踪目标的不同卷积层的特征,以更新各卷积层的模板。
5.根据权利要求1所述的受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,其特征在于,η=0.1。
6.根据权利要求1-5中任一项所述的受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,其特征在于,所述不同卷积层的特征分为conv3-4层特征、conv4-4层特征、conv5-4层特征。
7.一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统,其特征在于,所述视觉跟踪系统包括:
初步定位单元,用于从视频中的第一帧中获取待跟踪目标以及在所述待跟踪目标的实际的位置标签;
特征确定单元,用于基于预训练卷积神经网络模型,获取第一帧中待跟踪目标的不同卷积层的特征;
标签构建单元,用于根据所述待跟踪目标的实际的位置标签,构建高斯标签;
模板确定单元,分别与所述标签构建单元以及特征确定单元连接,用于根据所述高斯标签及不同卷积层的特征,基于滤波得到各卷积层的模板;
响应确定单元,用于针对新的一帧,在前一帧的中心中裁剪出待搜索区域,基于预训练卷积神经网络模型,利用相关滤波,以及得到的各卷积层的模板,得到各卷积层的响应;
权重调整单元,用于将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重;具体包括:利用卷积神经网络最后一层的特征进行计算,得到的最后一层响应Rlast:
Rlast=F-1(F(Tlast)·Wlast);
其中,F(Tlast)表示对Tlast进行离散傅里叶变换,表示傅里叶变换的复共轭,F-1表示的离散傅里叶变换的逆变换,Wlast表示最后一个卷积层的模板模型,Tlast表示卷积神经网络最后一层的特征;
根据以下公式,由空间注意机制计算空间注意权重SAWk:
其中,Rk表示第k层的特征Tk的响应,max(Rk)表示响应Rk的最大值,μ(Rk)表示响应Rk的算数平均值,σ(Rk)表示响应Rk的标准差;
根据以下公式,由时间注意机制计算时间注意权重TAWk:
融合空间注意权重以及时间注意权重,确定不同响应的权重系数ωk:
其中,η表示平衡参数;
目标定位单元,用于根据调整后的其他层的权重,确定待跟踪目标的所在位置,包括:
将conv5-4层的响应、调整后的conv3-4加权响应以及调整后的conv4-4加权响应相加得到响应终值:
Rtotal=ω1Rprimary+ω2Rmiddle+Rlast;
其中,Rprimary表示conv3-4层响应,ω1表示调整后的conv3-4层响应的权重,Rmiddle表示conv4-4层响应,ω2表示表示调整后的conv4-4层响应的权重,Rlast表示conv5-4层的响应即最后一层响应,Rtotal是响应终值;
根据响应终值,计算当前待跟踪目标的所在位置(xk,yk):
其中,(x',y')表示目标位置。
8.根据权利要求7所述的受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统,其特征在于,所述视觉跟踪系统还包括:
目标更新单元,用于根据待跟踪目标的所在位置,确定当前帧中的待跟踪目标;
模板更新单元,用于预训练卷积神经网络模型以及当前帧中的待跟踪目标,确定当前帧中待跟踪目标的不同卷积层的特征,以更新各卷积层的模板。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2018113412050 | 2018-11-12 | ||
CN201811341205 | 2018-11-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109919978A CN109919978A (zh) | 2019-06-21 |
CN109919978B true CN109919978B (zh) | 2021-03-16 |
Family
ID=66963623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910170679.1A Active CN109919978B (zh) | 2018-11-12 | 2019-03-07 | 受丘脑注意机制调控的信息融合的视觉跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109919978B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807789A (zh) * | 2019-08-23 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 图像处理方法、模型、装置、电子设备及可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107995516A (zh) * | 2017-11-21 | 2018-05-04 | 霓螺(宁波)信息技术有限公司 | 一种互动视频中物品的展示方法及装置 |
CN108447078A (zh) * | 2018-02-28 | 2018-08-24 | 长沙师范学院 | 基于视觉显著性的干扰感知跟踪算法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8886581B2 (en) * | 2011-05-11 | 2014-11-11 | Ari M. Frank | Affective response predictor for a stream of stimuli |
CN106056158B (zh) * | 2016-06-03 | 2019-06-21 | 西安电子科技大学 | 基于掩膜矩阵和快速傅立叶变换的模板图像全局搜索方法 |
CN107016689A (zh) * | 2017-02-04 | 2017-08-04 | 中国人民解放军理工大学 | 一种尺度自适应的相关滤波对冲目标跟踪方法 |
CN107730536B (zh) * | 2017-09-15 | 2020-05-12 | 苏州飞搜科技有限公司 | 一种基于深度特征的高速相关滤波物体追踪方法 |
-
2019
- 2019-03-07 CN CN201910170679.1A patent/CN109919978B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107995516A (zh) * | 2017-11-21 | 2018-05-04 | 霓螺(宁波)信息技术有限公司 | 一种互动视频中物品的展示方法及装置 |
CN108447078A (zh) * | 2018-02-28 | 2018-08-24 | 长沙师范学院 | 基于视觉显著性的干扰感知跟踪算法 |
Also Published As
Publication number | Publication date |
---|---|
CN109919978A (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liang et al. | Combining convolutional neural network with recursive neural network for blood cell image classification | |
CN110070107B (zh) | 物体识别方法及装置 | |
Yang et al. | Show, attend, and translate: Unsupervised image translation with self-regularization and attention | |
Kendall | Geometry and uncertainty in deep learning for computer vision | |
Shen et al. | Learning to predict eye fixations for semantic contents using multi-layer sparse network | |
Viji et al. | RETRACTED ARTICLE: An improved approach for automatic spine canal segmentation using probabilistic boosting tree (PBT) with fuzzy support vector machine | |
CN108491766B (zh) | 一种端到端的基于深度决策森林的人群计数方法 | |
KR101687217B1 (ko) | 인터벌 타입-2 rbf 신경회로망 기반 ct 기법을 이용한 강인한 얼굴 인식 패턴 분류 방법 및 이를 실행하기 위한 시스템 | |
CN110084790B (zh) | 用于影像学肺炎判别的仿生模式识别改进方法 | |
Wang et al. | Automatic vertebrae localization and identification by combining deep SSAE contextual features and structured regression forest | |
Shen et al. | Learning high-level concepts by training a deep network on eye fixations | |
Rahman et al. | Improving alcoholism diagnosis: comparing instance-based classifiers against neural networks for classifying EEG signal | |
Liu et al. | Self-supervised depth estimation to regularise semantic segmentation in knee arthroscopy | |
CN109919978B (zh) | 受丘脑注意机制调控的信息融合的视觉跟踪方法及系统 | |
Salehi et al. | DDCNet: Deep dilated convolutional neural network for dense prediction | |
Deepa et al. | FHGSO: Flower Henry gas solubility optimization integrated deep convolutional neural network for image classification | |
Imran et al. | Malaria Blood Smear Classification Using Deep Learning and Best Features Selection. | |
CN110097067A (zh) | 一种基于层进式特征变换的弱监督细粒度图像分类方法 | |
Tong et al. | Individual-level fMRI Segmentation Based on Graphs | |
CN115761240B (zh) | 一种混沌反向传播图神经网络的图像语义分割方法及装置 | |
Bhuvaneswari et al. | Contrast enhancement of retinal images using green plan masking and whale optimization algorithm | |
Vijayarajan et al. | Fuzzy C-means clustering based principal component averaging fusion | |
CN107368785A (zh) | 多核局部约束的视频目标跟踪方法 | |
Hao et al. | Iris segmentation using feature channel optimization for noisy environments | |
Chaturvedi et al. | Landmark calibration for facial expressions and fish classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |