CN109919978B - 受丘脑注意机制调控的信息融合的视觉跟踪方法及系统 - Google Patents

受丘脑注意机制调控的信息融合的视觉跟踪方法及系统 Download PDF

Info

Publication number
CN109919978B
CN109919978B CN201910170679.1A CN201910170679A CN109919978B CN 109919978 B CN109919978 B CN 109919978B CN 201910170679 A CN201910170679 A CN 201910170679A CN 109919978 B CN109919978 B CN 109919978B
Authority
CN
China
Prior art keywords
response
layer
last
target
tracked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910170679.1A
Other languages
English (en)
Other versions
CN109919978A (zh
Inventor
赵东城
曾毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Publication of CN109919978A publication Critical patent/CN109919978A/zh
Application granted granted Critical
Publication of CN109919978B publication Critical patent/CN109919978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法及系统,所述视觉跟踪方法包括:从视频中的第一帧中获取待跟踪目标以及位置标签;基于预训练卷积神经网络模型,获取第一帧中待跟踪目标的不同卷积层的特征;根据位置标签,构建高斯标签;通过相关滤波得到各卷积层的模板;针对新的一帧,在前一帧的中心中裁剪出待搜索区域,利用相关滤波,以及各卷积层的模板,得到各卷积层的响应;利用空间注意机制以及时间注意机制动态调整其他层的响应的权重;根据调整后的其他层的权重,确定待跟踪目标的所在位置。本发明对于不同视皮层分配不同的权重,将不同层视觉特征去动态组合到一起,实现视觉跟踪性能的有效提升。

Description

受丘脑注意机制调控的信息融合的视觉跟踪方法及系统
本申请要求于2018年11月12日提交中国专利局、申请号为201811341205.0、发明名称为“一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪模型”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及类脑智能和人工智能领域,具体涉及一种受丘脑注意机制调控的信息融合的视觉跟踪方法及系统。
背景技术
在灵长类动物中,除了嗅觉外,丘脑接收其他各种感觉输入。除了对信息进行转换,丘脑还在皮层的信息传递过程中起到调控作用。丘脑主要由外膝体(LGN)、丘脑网状核(TRN)以及丘脑枕(Pulvinar)组成。外膝体将感觉器官与大脑皮层连接起来,对信息进行中转;丘脑网状核调控大脑皮层与丘脑之间的信息传递;丘脑枕是丘脑中最大的核团,神经科学的实验研究表示丘脑枕与众多视觉皮层具有大量双向连接。如图所示,丘脑与众多皮层区域有着密切连接。比如说初级视觉皮层1(V1),初级视觉皮层2(V2),初级视觉皮层4(V4),下颞叶皮层(IT),背外侧前额叶皮层(PLPFC),眶额叶皮层(OFC),后顶叶皮质(PPC)这些连接都是双向的,易于形成反馈的环路,因此丘脑是一个重要的脑区起到了中央调控的作用。
而视觉注意作为人类的一项重要能力,它使得我们能够有效处理对于我们最重要的事情。视觉注意一直以来是神经科学、心理学、计算机科学等领域的研究热点问题。目前的研究成果,尤其是计算机领域的建模,更多的是关注每层皮层内部在视觉注意中的作用,而对于跨层皮层之间的空间注意机制,以及视频流中的时间注意机制研究很少。
目前视觉跟踪算法的主流框架叫做相关滤波算法(correlation filter),是一种模板匹配算法。在第一帧框住目标后,计算出此时目标的特征,最原始的算法是用的特征的像素信息,后来利用颜色直方图,Hog特征等等来表示目标的主要特征,在新的一帧到来的时候,在上一帧目标位置处,进行循环采样得到一系列样本,将这些样本的特征,与目标特征进行比较,最相似的样本即为新的目标所在处。
卷积神经网络在许多视觉任务比如分类,识别,分割中展现了强大了的能力。由于其强大的特征表示能力,所以在视跟踪任务中也被考虑进来,代替原来的一些手工设计特征,比如说Hog之类,一个卷积神经网络包含着不同的卷积层,池化层。
目前大多数的视觉跟踪算法,主要利用的是卷积神经网络最后一层的特征,这一层的特征有着丰富的语义信息。但是,虽然说这些特征对于不同类的目标分辨很有效,比如说人和狗。但是,由于缺乏一些空间细节信息,对于相同类的不同物体,比如两个不同的人,想要区分就很困难。而卷积神经网络浅层的特征相对于最后一层的特征保留了更多的细节,对于同一类的不同物体能有更大的区分度。但是,浅层特征对于物体的形变,光照,等等较为敏感,稍微改变,判别能力会大幅度下降。
发明内容
为了解决现有技术中的上述问题,即为了提高目标跟踪性能,本发明提供一种受丘脑注意机制调控的信息融合的视觉跟踪方法及系统。
为实现上述目的,本发明提供了如下方案:
一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,所述视觉跟踪方法包括:
步骤S100,从视频中的第一帧中获取待跟踪目标以及在所述待跟踪目标的位置标签;
步骤S200,基于预训练卷积神经网络模型,获取第一帧中待跟踪目标的不同卷积层的特征;
步骤S300,根据所述待跟踪目标的位置标签,构建高斯标签;
步骤S400,根据所述高斯标签及步骤S200中得到的不同卷积层的特征,通过相关滤波得到各卷积层的模板;
步骤S500,针对新的一帧,在前一帧的中心中裁剪出待搜索区域,基于预训练卷积神经网络模型,利用相关滤波,以及得到的各卷积层的模板,得到各卷积层的响应;
步骤S600,将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重;
步骤S700,根据调整后的其他层的权重,确定待跟踪目标的所在位置。
可选的,所述视觉跟踪方法还包括:
根据待跟踪目标的所在位置,确定当前帧中的待跟踪目标;
基于预训练卷积神经网络模型以及当前帧中的待跟踪目标,确定当前帧中待跟踪目标的不同卷积层的特征,以更新各卷积层的模板。
可选的,步骤S400中所述卷积层的模板
Figure GDA0002869525880000031
为:
Figure GDA0002869525880000032
其中,Xk是第k个卷积层得到的特征;Y是样本实际的标签,是一个二维的高斯分布,中心值为1是样本的实际位置;F(Xk)表示对Xk进行离散傅里叶变换;F(Y)表示对Y进行离散傅里叶变换;λ表示k个卷积层的响应的权重;d表示第k个卷积层特征的通道序号;*,*,d表示卷积层的第d个通道,
Figure GDA0002869525880000041
表示第k个卷积层第d个通道的模板,
Figure GDA0002869525880000042
表示傅里叶变换的复共轭。
可选的,步骤S500中所述卷积层的响应为:
基于预训练卷积神经网络模型,确定第k层的特征Tk
根据以下公式计算第k层的特征Tk的响应Rk
Figure GDA0002869525880000043
其中,Rk为第k层的特征Tk的响应Rk;Tk为基于卷积神经网络确定的第k层的特征;F(Tk)表示对Tk进行离散傅里叶变换,
Figure GDA0002869525880000044
表示傅里叶变换的复共轭,F-1表示的离散傅里叶变换的逆变换,Wk表示第k个卷积层的模板模型。
可选的,所述将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重,具体包括:
利用卷积神经网络最后一层的特征进行计算,得到的最后一层响应Rlast
Rlast=F-1(F(Tlast)·Wlast);
其中,F(Tlast)表示对Tlast进行离散傅里叶变换,
Figure GDA0002869525880000045
表示傅里叶变换的复共轭,F-1表示的离散傅里叶变换的逆变换,Wlast表示最后一个卷积层的模板模型,Tlast表示卷积神经网络最后一层的特征;
根据以下公式,由空间注意机制计算空间注意权重SAWk
Figure GDA0002869525880000051
其中,Rk表示第k层的特征Tk的响应,max(Rk)表示响应Rk的最大值,μ(Rk)表示响应Rk的算数平均值,σ(Rk)表示响应Rk的标准差;
根据以下公式,由时间注意机制计算时间注意权重TAWk
Figure GDA0002869525880000052
其中,
Figure GDA0002869525880000053
表示一个响应的移位操作,Δ表示的是第t-1帧到第t帧响应最大值移动的位置,
Figure GDA0002869525880000054
表示范数;
融合空间注意权重以及时间注意权重,确定不同响应的权重系数ωk
Figure GDA0002869525880000055
其中,η表示平衡参数。
可选的,η=0.1。
可选的,所述不同卷积层的特征分为conv3-4层特征、conv4-4层特征、conv5-4层特征。
可选的,根据调整后的其他层的权重,确定待跟踪目标的所在位置,具体包括:
将conv5-4层的响应、调整后的conv3-4加权响应以及调整后的conv4-4加权响应相加得到响应终值:
Rtotal=ω1Rprimary2Rmiddle+Rlast
其中,Rprimary表示conv3-4层响应,ω1表示调整后的conv3-4层响应的权重,Rmiddle表示conv4-4层响应,ω2表示表示调整后的conv4-4层响应的权重,Rlast表示conv5-4层的响应即最后一层响应,Rtotal是响应终值;
根据响应终值,计算当前待跟踪目标的所在位置(xk,yk):
Figure GDA0002869525880000061
其中,(x',y')表示目标位置。
为解决上述技术问题,本发明还提供了如下方案:
一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统,所述视觉跟踪系统包括:
初步定位单元,用于从视频中的第一帧中获取待跟踪目标以及在所述待跟踪目标的实际的位置标签;
特征确定单元,用于基于预训练卷积神经网络模型,获取第一帧中待跟踪目标的不同卷积层的特征;
标签构建单元,用于根据所述待跟踪目标的实际的位置标签,构建高斯标签;
模板确定单元,分别与所述标签构建单元以及特征确定单元连接,用于根据所述高斯标签及不同卷积层的特征,基于相关滤波得到各卷积层的模板;
响应确定单元,用于针对新的一帧,在前一帧的中心中裁剪出待搜索区域,基于预训练卷积神经网络模型,利用相关滤波,以及得到的各卷积层的模板,得到各卷积层的响应;
权重调整单元,用于将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重;
目标定位单元,用于根据调整后的其他层的权重,确定待跟踪目标的所在位置。
可选的,所述视觉跟踪系统还包括:
目标更新单元,用于根据待跟踪目标的所在位置,确定当前帧中的待跟踪目标;
模板更新单元,用于预训练卷积神经网络模型以及当前帧中的待跟踪目标,确定当前帧中待跟踪目标的不同卷积层的特征,以更新各卷积层的模板。
根据本发明的实施例,本发明公开了以下技术效果:
本发明通过对于不同视皮层分配不同的权重,更具有生物可解释性;而且,本发明除了考虑一般的空间注意机制外,还加入了时间注意机制,融合了两种注意机制;同时与现有的计算模型相比,跨皮层信息的融合,与单个皮层信息对于跟踪的效果有着显著提升。
附图说明
为了描述本发明的上述优点和特征,将通过引用附图中的具体实例来辅助说明本发明的详细内容。可以理解,这些附图仅为本发明的典型实例的描述,而非对本发明的限制。任何以其他形式表达本发明步骤或内容的附图都应属于本发明范围内。
图1为本发明受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法的流程图;
图2为本发明受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统的模块结构示意图。
符号说明:
初步定位单元—1,特征确定单元—2,标签构建单元—3,模板确定单元—4,响应确定单元—5,权重调整单元—6,目标定位单元—7。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明提供一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,通过对于不同视皮层分配不同的权重,更具有生物可解释性;而且,本发明除了考虑一般的空间注意机制外,还加入了时间注意机制,融合了两种注意机制;同时与现有的计算模型相比,跨皮层信息的融合,与单个皮层信息对于跟踪的效果有着显著提升。
在介绍本发明之前,这里先介绍一下本发明中所用的数据集以及评价指标。
本发明中所用的数据集以及评价指标。
主要由50个标定的视频序列组成,主要有11种跟踪难点,包括:光照变化,尺度变化,遮挡,形变,运动模糊,快速运动等。
视频跟踪性能主要有两种评价指标:
Precision Plot(pp):算法计算得出的目标中心位置与实际目标的中心位置偏差;
Figure GDA0002869525880000081
locationcom表示计算得到的目标中心位置,locationact表示实际目标中心位置;
Figure GDA0002869525880000082
表示范数。
用距离小于一定的阈值的帧数的比例来衡量,本发明中用的为20。
Success Plot(SP):算法计算得出的目标框与实际目标的目标框的交叠比;
Figure GDA0002869525880000091
rt表示计算得到的目标框,ra表示实际的目标狂,||表示在这个区域内像素的个数。∩和∪表示两个区域的交集和并集。这个值是在0到1之间,本发明中我们利用每条Success Plot曲线在0.5时的AUC(Area Under Curve)的值来衡量跟踪算法的优越性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,包括:
步骤100:从视频中的第一帧中获取待跟踪目标以及在所述待跟踪目标的位置标签;
步骤200:基于预训练卷积神经网络模型,获取第一帧中待跟踪目标的不同卷积层的特征;
步骤300:根据所述待跟踪目标的位置标签,构建高斯标签;
步骤400:根据所述高斯标签及步骤200中得到的不同卷积层的特征,通过相关滤波得到各卷积层的模板;
步骤500:针对新的一帧,在前一帧的中心中裁剪出待搜索区域,基于预训练卷积神经网络模型,利用相关滤波,以及得到的各卷积层的模板,得到各卷积层的响应;
步骤600:将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重;
步骤700:根据调整后的其他层的权重,确定待跟踪目标的所在位置。
其中,步骤100中,在第一帧中,人为确定待跟踪目标,并送入预训练卷积神经网络模型中得到不同层的特征。
在本实施例中预训练卷积神经网络模型为VGG-19模型;所述不同卷积层的特征分别为conv3-4层特征、conv4-4层特征、conv5-4层特征。
其中,所述相关滤波是用来衡量两个信号的相似程度,具体为现有技术,在此不再赘述。
优选地,本发明受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法还包括:
根据待跟踪目标的所在位置,确定当前帧中的待跟踪目标;
基于预训练卷积神经网络模型以及当前帧中的待跟踪目标,确定当前帧中待跟踪目标的不同卷积层的特征,以更新各卷积层的模板。
进一步地,在步骤400中,所述卷积层的模板
Figure GDA0002869525880000101
为:
Figure GDA0002869525880000102
其中,Xk是第k个卷积层得到的特征;Y是样本实际的标签,是一个二维的高斯分布,中心值为1是样本的实际位置;F(Xk)表示对Xk进行离散傅里叶变换;F(Y)表示对Y进行离散傅里叶变换;λ表示k个卷积层的响应的权重;d表示第k个卷积层特征的通道序号;*,*,d表示卷积层的第d个通道;
Figure GDA0002869525880000111
表示第k个卷积层第d个通道的模板,
Figure GDA0002869525880000112
表示傅里叶变换的复共轭。
此外,还可以在傅里叶域中第k个相关滤波建模,确定各卷积层的模板:
Figure GDA0002869525880000113
Figure GDA0002869525880000114
其中,W表示基础模块,λ表示k个卷积层的响应的权重。
在步骤500中,针对新的一帧,在前一帧的中心中裁剪出待搜索区域,基于预训练卷积神经网络模型,利用相关滤波,以及得到的各卷积层的模板,得到各卷积层的响应,具体包括:
步骤501:基于预训练卷积神经网络模型,确定第k层的特征Tk
步骤502:根据以下公式计算第k层的特征Tk的响应Rk
Figure GDA0002869525880000115
其中,Rk为第k层的特征Tk的响应Rk;Tk为基于卷积神经网络确定的第k层的特征;F(Tk)表示对Tk进行离散傅里叶变换,
Figure GDA0002869525880000116
表示傅里叶变换的复共轭,F-1表示的离散傅里叶变换的逆变换,Wk表示第k个卷积层的模板模型。
具体的,在步骤600中,所述将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重,具体包括:
步骤601:利用卷积神经网络最后一层的特征进行计算,得到的最后一层响应Rlast
Rlast=F-1(F(Tlast)·Wlast);
其中,F(Tlast)表示对Tlast进行离散傅里叶变换,
Figure GDA0002869525880000121
表示傅里叶变换的复共轭,F-1表示的离散傅里叶变换的逆变换,Wlast表示最后一个卷积层的模板模型,Tlast表示卷积神经网络最后一层特征。
步骤602:根据以下公式,由空间注意机制计算空间注意权重SAWk
Figure GDA0002869525880000122
其中,Rk表示第k层的特征Tk的响应,max(Rk)表示响应Rk的最大值,μ(Rk)表示响应Rk的算数平均值,σ(Rk)表示响应Rk的标准差。
本发明采取了信号处理领域经常用到的PSR(Peak to Sidelobe Ratio)系数,在信号处理理论中,用来衡量单峰的强度以及平滑性。
步骤603:根据以下公式,由时间注意机制计算时间注意权重(TemporalAttention Weight,TAW)TAWk
Figure GDA0002869525880000123
其中,
Figure GDA0002869525880000124
表示一个响应的移位操作,Δ表示的是第t-1帧到第t帧响应最大值移动的位置,
Figure GDA0002869525880000125
表示范数。
关于一个视频流,从帧与帧之间的连续性考虑,即对于相邻两帧得到的响应,把最大值移动到相同位置之后,两帧的响应的分布应该是类似的,如果相邻两帧之间的响应差距较大,则说明该层此时得到的响应是不值得信赖的。
步骤604:融合空间注意权重以及时间注意权重,确定不同响应的权重系数ωk
Figure GDA0002869525880000131
其中,η表示平衡参数。η的设置是为了两帧相差不大,分布完全一样,分母为0的情况出现在本实施例中,η=0.1。
在步骤700中,基于调整后的其他层的权重,得到目标所在的位置,具体包括:
步骤701:将conv5-4层的响应、调整后的conv3-4加权响应以及调整后的conv4-4加权响应相加得到响应终值:
Rtotal=ω1Rprimary2Rmiddle+Rlast
其中,Rprimary表示conv3-4层响应,ω1表示调整后的conv3-4层响应的权重,Rmiddle表示conv4-4层响应,ω2表示表示调整后的conv4-4层响应的权重,Rlast表示conv5-4层的响应即最后一层响应,Rtotal是响应终值;
步骤702:根据响应终值,计算当前待跟踪目标的所在位置(xk,yk):
Figure GDA0002869525880000132
其中,(x',y')表示目标位置。
若只使用一层特征的响应跟踪,此时响应最大的位置即为目标位置。
Figure GDA0002869525880000141
而在实际实验中发现,只用最后一层计算得到的响应计算得到的目标位置,在某些视频集中的表现并不好。于是利用丘脑与不同视觉皮层之间的联系,利用视觉注意机制,对于最后一层之前的响应动态分配权重来辅助视觉跟踪任务。
最终得到的是每层的一个响应图,这个响应图的峰值以及振荡程度在一定程度上表示了这个响应的可信度。直观上说,一个响应图,当出现行人遮挡的时候,峰值越高,周围越平滑,肯定说明这个结果更值得信赖,而一个响应图出现了多个响应峰值,说明这个响应对于目标和背景,区分度是很低的。
在这里给出,只用某一层以及使用丘脑去组合不同层的特征,动态分配注意力机制得到的precision plot和success plot的值。
表1:不融合以及融合多层信息的precision plot以及success plot值。
Conv5-4 Conv4-4 Conv3-4 Dynamic Fusion
Precision Plot 84.75 82.41 75.87 88.89
Success Plot 59.2 60.6 56.2 63.4
可以看到在融合了多层信息之后的跟踪模型,在Precision Plot以及Successplot上都比传统的单层信息要高。
本发明提出了一种受丘脑注意机制调控的多层视皮层信息融合的计算模型,对于现有的视频跟踪性能有一定的提升。与现有技术相比,本发明具有如下优势:本发明提出的受丘脑注意机制调控的多视皮层融合模型对于不同视皮层分配不同的权重,更具有生物可解释性;而且,本发明除了考虑一般的空间注意机制外,还加入了时间注意机制,融合了两种注意机制;同时与现有的计算模型相比,跨皮层信息的融合,与单个皮层信息对于跟踪的效果有着显著提升。
此外,本发明还提供一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统。
如图2所示,本发明受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统包括初步定位单元1、特征确定单元2、标签构建单元3、模板确定单元4、响应确定单元5、权重调整单元6及目标定位单元7。
其中,所述初步定位单元1用于从视频中的第一帧中获取待跟踪目标以及在所述待跟踪目标的实际的位置标签;
所述特征确定单元2用于基于预训练卷积神经网络模型,获取第一帧中待跟踪目标的不同卷积层的特征;
所述标签构建单元3用于根据所述待跟踪目标的实际的位置标签,构建高斯标签;
所述模板确定单元4分别与所述标签构建单元3以及特征确定单元2连接,所述模板确定单元4用于根据所述高斯标签及不同卷积层的特征,基于滤波得到各卷积层的模板;
所述响应确定单元5用于针对新的一帧,在前一帧的中心中裁剪出待搜索区域,基于预训练卷积神经网络模型,利用相关滤波,以及得到的各卷积层的模板,得到各卷积层的响应;
所述权重调整单元6用于将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重;
所述目标定位单元7用于根据调整后的其他层的权重,确定待跟踪目标的所在位置。
优选地,本发明受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统还包括目标更新单元及模板更新单元。
所述目标更新单元用于根据待跟踪目标的所在位置,确定当前帧中的待跟踪目标;所述模板更新单元用于预训练卷积神经网络模型以及当前帧中的待跟踪目标,确定当前帧中待跟踪目标的不同卷积层的特征,以更新各卷积层的模板。
相对于现有技术,本发明受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统与上述受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法的有益效果相同,再次不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (8)

1.一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,其特征在于,所述视觉跟踪方法包括:
步骤S100,从视频中的第一帧中获取待跟踪目标以及在所述待跟踪目标的位置标签;
步骤S200,基于预训练卷积神经网络模型,获取第一帧中待跟踪目标的不同卷积层的特征;
步骤S300,根据所述待跟踪目标的位置标签,构建高斯标签;
步骤S400,根据所述高斯标签及步骤S200中得到的不同卷积层的特征,通过相关滤波得到各卷积层的模板;
步骤S500,针对新的一帧,在前一帧的中心中裁剪出待搜索区域,基于预训练卷积神经网络模型,利用相关滤波,以及得到的各卷积层的模板,得到各卷积层的响应;
步骤S600,将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重;具体包括:利用卷积神经网络最后一层的特征进行计算,得到的最后一层响应Rlast
Rlast=F-1(F(Tlast)·Wlast);
其中,F(Tlast)表示对Tlast进行离散傅里叶变换,
Figure FDA0002869525870000011
表示傅里叶变换的复共轭,F-1表示的离散傅里叶变换的逆变换,Wlast表示最后一个卷积层的模板模型,Tlast表示卷积神经网络最后一层的特征;
根据以下公式,由空间注意机制计算空间注意权重SAWk
Figure FDA0002869525870000021
其中,Rk表示第k层的特征Tk的响应,max(Rk)表示响应Rk的最大值,μ(Rk)表示响应Rk的算数平均值,σ(Rk)表示响应Rk的标准差;
根据以下公式,由时间注意机制计算时间注意权重TAWk
Figure FDA0002869525870000022
其中,
Figure FDA0002869525870000023
表示一个响应的移位操作,Δ表示的是第t-1帧到第t帧响应最大值移动的位置,
Figure FDA0002869525870000024
表示范数;
融合空间注意权重以及时间注意权重,确定不同响应的权重系数ωk
Figure FDA0002869525870000025
其中,η表示平衡参数;
步骤S700,根据调整后的其他层的权重,确定待跟踪目标的所在位置,包括:
将conv5-4层的响应、调整后的conv3-4加权响应以及调整后的conv4-4加权响应相加得到响应终值:
Rtotal=ω1Rprimary2Rmiddle+Rlast
其中,Rprimary表示conv3-4层响应,ω1表示调整后的conv3-4层响应的权重,Rmiddle表示conv4-4层响应,ω2表示表示调整后的conv4-4层响应的权重,Rlast表示conv5-4层的响应即最后一层响应,Rtotal是响应终值;
根据响应终值,计算当前待跟踪目标的所在位置(xk,yk):
Figure FDA0002869525870000031
其中,(x',y')表示目标位置。
2.根据权利要求1所述的受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,其特征在于,所述视觉跟踪方法还包括:
根据待跟踪目标的所在位置,确定当前帧中的待跟踪目标;
基于预训练卷积神经网络模型以及当前帧中的待跟踪目标,确定当前帧中待跟踪目标的不同卷积层的特征,以更新各卷积层的模板。
3.根据权利要求1所述的受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,其特征在于,步骤S400中所述卷积层的模板
Figure FDA0002869525870000032
为:
Figure FDA0002869525870000033
其中,Xk是第k个卷积层得到的特征;Y是样本实际的标签,是一个二维的高斯分布,中心值为1是样本的实际位置;F(Xk)表示对Xk进行离散傅里叶变换;F(Y)表示对Y进行离散傅里叶变换;λ表示k个卷积层的响应的权重;d表示第k个卷积层特征的通道序号;*,*,d表示卷积层的第d个通道;
Figure FDA0002869525870000034
表示第k个卷积层第d个通道的模板,
Figure FDA0002869525870000035
表示傅里叶变换的复共轭。
4.根据权利要求1所述的受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,其特征在于,步骤S500中所述卷积层的响应为:
基于预训练卷积神经网络模型,确定第k层的特征Tk
根据以下公式计算第k层的特征Tk的响应Rk
Figure FDA0002869525870000041
其中,Rk为第k层的特征Tk的响应Rk;Tk为基于卷积神经网络确定的第k层的特征;F(Tk)表示对Tk进行离散傅里叶变换,
Figure FDA0002869525870000042
表示傅里叶变换的复共轭,F-1表示的离散傅里叶变换的逆变换,Wk表示第k个卷积层的模板模型。
5.根据权利要求1所述的受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,其特征在于,η=0.1。
6.根据权利要求1-5中任一项所述的受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪方法,其特征在于,所述不同卷积层的特征分为conv3-4层特征、conv4-4层特征、conv5-4层特征。
7.一种受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统,其特征在于,所述视觉跟踪系统包括:
初步定位单元,用于从视频中的第一帧中获取待跟踪目标以及在所述待跟踪目标的实际的位置标签;
特征确定单元,用于基于预训练卷积神经网络模型,获取第一帧中待跟踪目标的不同卷积层的特征;
标签构建单元,用于根据所述待跟踪目标的实际的位置标签,构建高斯标签;
模板确定单元,分别与所述标签构建单元以及特征确定单元连接,用于根据所述高斯标签及不同卷积层的特征,基于滤波得到各卷积层的模板;
响应确定单元,用于针对新的一帧,在前一帧的中心中裁剪出待搜索区域,基于预训练卷积神经网络模型,利用相关滤波,以及得到的各卷积层的模板,得到各卷积层的响应;
权重调整单元,用于将最后一层的卷积层的响应当作一个基础响应,利用空间注意机制以及时间注意机制动态调整其他层的响应的权重;具体包括:利用卷积神经网络最后一层的特征进行计算,得到的最后一层响应Rlast
Rlast=F-1(F(Tlast)·Wlast);
其中,F(Tlast)表示对Tlast进行离散傅里叶变换,
Figure FDA0002869525870000051
表示傅里叶变换的复共轭,F-1表示的离散傅里叶变换的逆变换,Wlast表示最后一个卷积层的模板模型,Tlast表示卷积神经网络最后一层的特征;
根据以下公式,由空间注意机制计算空间注意权重SAWk
Figure FDA0002869525870000052
其中,Rk表示第k层的特征Tk的响应,max(Rk)表示响应Rk的最大值,μ(Rk)表示响应Rk的算数平均值,σ(Rk)表示响应Rk的标准差;
根据以下公式,由时间注意机制计算时间注意权重TAWk
Figure FDA0002869525870000053
其中,
Figure FDA0002869525870000054
表示一个响应的移位操作,Δ表示的是第t-1帧到第t帧响应最大值移动的位置,
Figure FDA0002869525870000055
表示范数;
融合空间注意权重以及时间注意权重,确定不同响应的权重系数ωk
Figure FDA0002869525870000061
其中,η表示平衡参数;
目标定位单元,用于根据调整后的其他层的权重,确定待跟踪目标的所在位置,包括:
将conv5-4层的响应、调整后的conv3-4加权响应以及调整后的conv4-4加权响应相加得到响应终值:
Rtotal=ω1Rprimary2Rmiddle+Rlast
其中,Rprimary表示conv3-4层响应,ω1表示调整后的conv3-4层响应的权重,Rmiddle表示conv4-4层响应,ω2表示表示调整后的conv4-4层响应的权重,Rlast表示conv5-4层的响应即最后一层响应,Rtotal是响应终值;
根据响应终值,计算当前待跟踪目标的所在位置(xk,yk):
Figure FDA0002869525870000062
其中,(x',y')表示目标位置。
8.根据权利要求7所述的受丘脑注意机制调控的多层视皮层信息融合的视觉跟踪系统,其特征在于,所述视觉跟踪系统还包括:
目标更新单元,用于根据待跟踪目标的所在位置,确定当前帧中的待跟踪目标;
模板更新单元,用于预训练卷积神经网络模型以及当前帧中的待跟踪目标,确定当前帧中待跟踪目标的不同卷积层的特征,以更新各卷积层的模板。
CN201910170679.1A 2018-11-12 2019-03-07 受丘脑注意机制调控的信息融合的视觉跟踪方法及系统 Active CN109919978B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018113412050 2018-11-12
CN201811341205 2018-11-12

Publications (2)

Publication Number Publication Date
CN109919978A CN109919978A (zh) 2019-06-21
CN109919978B true CN109919978B (zh) 2021-03-16

Family

ID=66963623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910170679.1A Active CN109919978B (zh) 2018-11-12 2019-03-07 受丘脑注意机制调控的信息融合的视觉跟踪方法及系统

Country Status (1)

Country Link
CN (1) CN109919978B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807789A (zh) * 2019-08-23 2020-02-18 腾讯科技(深圳)有限公司 图像处理方法、模型、装置、电子设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107995516A (zh) * 2017-11-21 2018-05-04 霓螺(宁波)信息技术有限公司 一种互动视频中物品的展示方法及装置
CN108447078A (zh) * 2018-02-28 2018-08-24 长沙师范学院 基于视觉显著性的干扰感知跟踪算法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886581B2 (en) * 2011-05-11 2014-11-11 Ari M. Frank Affective response predictor for a stream of stimuli
CN106056158B (zh) * 2016-06-03 2019-06-21 西安电子科技大学 基于掩膜矩阵和快速傅立叶变换的模板图像全局搜索方法
CN107016689A (zh) * 2017-02-04 2017-08-04 中国人民解放军理工大学 一种尺度自适应的相关滤波对冲目标跟踪方法
CN107730536B (zh) * 2017-09-15 2020-05-12 苏州飞搜科技有限公司 一种基于深度特征的高速相关滤波物体追踪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107995516A (zh) * 2017-11-21 2018-05-04 霓螺(宁波)信息技术有限公司 一种互动视频中物品的展示方法及装置
CN108447078A (zh) * 2018-02-28 2018-08-24 长沙师范学院 基于视觉显著性的干扰感知跟踪算法

Also Published As

Publication number Publication date
CN109919978A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
Liang et al. Combining convolutional neural network with recursive neural network for blood cell image classification
CN110070107B (zh) 物体识别方法及装置
Yang et al. Show, attend, and translate: Unsupervised image translation with self-regularization and attention
Kendall Geometry and uncertainty in deep learning for computer vision
Shen et al. Learning to predict eye fixations for semantic contents using multi-layer sparse network
Viji et al. RETRACTED ARTICLE: An improved approach for automatic spine canal segmentation using probabilistic boosting tree (PBT) with fuzzy support vector machine
CN108491766B (zh) 一种端到端的基于深度决策森林的人群计数方法
KR101687217B1 (ko) 인터벌 타입-2 rbf 신경회로망 기반 ct 기법을 이용한 강인한 얼굴 인식 패턴 분류 방법 및 이를 실행하기 위한 시스템
CN110084790B (zh) 用于影像学肺炎判别的仿生模式识别改进方法
Wang et al. Automatic vertebrae localization and identification by combining deep SSAE contextual features and structured regression forest
Shen et al. Learning high-level concepts by training a deep network on eye fixations
Rahman et al. Improving alcoholism diagnosis: comparing instance-based classifiers against neural networks for classifying EEG signal
Liu et al. Self-supervised depth estimation to regularise semantic segmentation in knee arthroscopy
CN109919978B (zh) 受丘脑注意机制调控的信息融合的视觉跟踪方法及系统
Salehi et al. DDCNet: Deep dilated convolutional neural network for dense prediction
Deepa et al. FHGSO: Flower Henry gas solubility optimization integrated deep convolutional neural network for image classification
Imran et al. Malaria Blood Smear Classification Using Deep Learning and Best Features Selection.
CN110097067A (zh) 一种基于层进式特征变换的弱监督细粒度图像分类方法
Tong et al. Individual-level fMRI Segmentation Based on Graphs
CN115761240B (zh) 一种混沌反向传播图神经网络的图像语义分割方法及装置
Bhuvaneswari et al. Contrast enhancement of retinal images using green plan masking and whale optimization algorithm
Vijayarajan et al. Fuzzy C-means clustering based principal component averaging fusion
CN107368785A (zh) 多核局部约束的视频目标跟踪方法
Hao et al. Iris segmentation using feature channel optimization for noisy environments
Chaturvedi et al. Landmark calibration for facial expressions and fish classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant