CN110781951A - 基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法 - Google Patents
基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法 Download PDFInfo
- Publication number
- CN110781951A CN110781951A CN201911013553.XA CN201911013553A CN110781951A CN 110781951 A CN110781951 A CN 110781951A CN 201911013553 A CN201911013553 A CN 201911013553A CN 110781951 A CN110781951 A CN 110781951A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- network model
- frame
- tracked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000000007 visual effect Effects 0.000 title claims abstract description 44
- 210000001103 thalamus Anatomy 0.000 title claims abstract description 38
- 230000004927 fusion Effects 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000004044 response Effects 0.000 claims description 59
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 15
- 230000001054 cortical effect Effects 0.000 claims description 14
- 210000000857 visual cortex Anatomy 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 230000000542 thalamic effect Effects 0.000 claims description 6
- 230000009191 jumping Effects 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 16
- 238000001914 filtration Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000001953 sensory effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 210000003710 cerebral cortex Anatomy 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000003340 mental effect Effects 0.000 description 4
- 210000000977 primary visual cortex Anatomy 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- ZPOLOEWJWXZUSP-WAYWQWQTSA-N bis(prop-2-enyl) (z)-but-2-enedioate Chemical compound C=CCOC(=O)\C=C/C(=O)OCC=C ZPOLOEWJWXZUSP-WAYWQWQTSA-N 0.000 description 1
- 230000003920 cognitive function Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 210000003735 pulvinar Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明属于类脑智能、人工智能领域,具体涉及一种基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法、系统、装置,旨在解决视觉跟踪方法中不同层之间的信息被同等对待或重要性被固定导致跟踪精度低的问题。本系统方法包括从视频的第t帧图像中获取待跟踪目标的图像及位置标签;对预设的第一网络模型进行训练并更新;令t=t+1,通过第一网络模型获取待跟踪目标在第t帧图像中的位置标签;获取所述待跟踪目标在第t帧的图像;若t为预设值n的倍数,依次将第一图像更新为所述待跟踪目标在第t‑n+1帧至第t帧的图像,对第一网络模型进行训练并跟新,否则继续跟踪。本发明动态分配不同层的重要性,提高了跟踪精度。
Description
技术领域
本发明属于类脑智能、人工智能领域,具体涉及一种基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法、系统、装置。
背景技术
视觉跟踪任务是计算机视觉中基础的任务之一。现实生活中,比如:视频监督、人机交互等都需要高效且快速的跟踪算法。目前大量的跟踪算法都是基于视皮层启发的算法,而参与视觉处理任务,除了视皮层之外,丘脑在跟踪和识别的任务中扮演着重要的角色。传统的观点认为丘脑只是将信息被动的传递给大脑皮层,只起到一个信息的中转站的作用,但是随着神经科学的不断发展,越来越多的证据表明丘脑广泛的参与了各种认知功能。目前,丘脑与大脑皮层的沟通成为绝大多数意识性全脑理论的核心。
从宏观角度来讲,丘脑可以被分为两个部分:一阶转换区(first-order relay)以及高阶转换区(higher-order relay)。如图7所示,Primary area为初级视皮层,Higher-order area为高级视皮层,Cortex为皮层,1-3和4、5、6表示的是大脑皮层的六层分层结构,Thalamus为丘脑,First order thalamic relay为一阶丘脑转换区,LGN为外膝体,Higher-order thalamic relay为高阶丘脑转换区,pulvinar为丘脑枕,Feedforward为前馈,Feedback为反馈,一阶转换区接收感觉信息并将其传递到初级感觉皮层,高阶转换区与初级感觉皮层以及非初级感觉皮层之间存在着丰富的双向连接。对于感觉信息处理,已经证明高阶转换区可以在皮层区域之间分配或者调节感觉信息的传输,比如丘脑枕在处理视觉信息的时候,会使背侧通路和腹侧通路发生大量交互。在视觉处理任务中,丘脑与众多视皮层之间存在着大量的双向连接。比如说初级视觉皮层1(V1),初级视觉皮层2(V2),初级视觉皮层4(V4),下颞叶皮层(IT)等,大量的双向连接易于形成反馈的回路,使得丘脑对于不同层之间的特征分配不同的重要性。同时,当处理重要的事情的时候,视觉注意机制能够使得人类更加集中注意力,避免受到其他事情的影响。视觉注意机制一直是神经学、心理学、计算机科学等领域的研究热点,当人们在跟踪一个物体的时候,当下一帧到来的时候,会更加偏向于在上一帧物体位置周围取寻找,也就是说会将注意力更加集中在上一帧物体的周围,对于和上一帧物体距离较远的位置分配的注意力会较少。
目前在视觉跟踪任务中,相关滤波(correlation filter)由于其优越的计算效率以及强大的性能而受到广泛关注。相关滤波算法是一种模板匹配算法。通过对训练样本的循环采样,最小化一个最小二乘误差,得到一个模板。在新的一帧到来时,在上一帧目标周围采样,与该模板匹配得分最高者,即为新帧目标所在处。一开始用的特征是像素级的特征,后来使用Hog特征,颜色直方图特征等。近年来,深度学习逐渐取代了传统的特征提取算法,其强大的特征表示能力,使得它在视觉检测,分割中都有着广泛应用。
深层的卷积特征能够捕捉更抽象的语义信息,但是由于池化层造成的低空间分辨率也丢失了更多的细节,使得他们在处理同一类中的相似物体时,会难以分辨,从而丢掉跟踪的物体。对于浅层的特征,由于具有较高的空间分辨率使得它们在对于物体定位时,会更加精确,但是由于过多的关注细节,对于物体的形变,遮挡会变得十分敏感,从而丧失了算法的鲁棒性。目前绝大多数应用卷积神经网络特征进行跟踪的算法都是简单的利用某一层的特征,这带来了很多问题,因为无法确定对于某一个视觉跟踪任务该用哪一层的特征,即使有一些算法是应用了多层的特征融合去进行跟踪的,但是往往这些不同层之间的信息都被同等对待,或者一开始他们之间的重要性就已经是固定好的,这对于视觉跟踪任务是十分不利的。
同时,以往的算法框架都是两阶段的算法,在训练的时候将图片输入到预训练的卷积神经网络中,提取卷积层的特征,送入一个相关滤波中,学习模板,当新一帧到来的时候,提取特征,送入学习好的相关滤波中,找出得分最大的地方,即为新一帧物体所在处。但是,也造成了两个问题,首先,不是一个端到端的网络,其次,相关滤波算法是存在着边界效应,在一定程度上会影响跟踪的性能。由相关滤波和卷积的关系,实际上相关滤波算法是可以被看做卷积神经网络的一层卷积层。同时,在对于物体循环采样来训练这个模板时,对于不同距离的样本是同等看待的,而实际上,人们会更加关注与上一帧物体较近的样本。
针对上述的问题,本发明基于丘脑与视皮层之间的双向连接,利用丘脑对于不同的视皮层去动态的分配不同的重要性,将不同的视皮层之间的信息去动态的融合到一起,同时,对于靠近物体的训练样本去分配更多的注意力,将相关滤波算法,利用卷积神经网络的一层卷积层去代替,设计了一种端到端训练的网络,对于视觉跟踪性能有了较大提升。
发明内容
为了解决现有技术中的上述问题,即为了解决现有视觉跟踪方法中不同层之间的信息被同等对待或重要性被固定,导致跟踪精度低问题,本发明第一方面,提出了一种基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法,该方法包括:
步骤S100,从视频的第t帧图像中获取待跟踪目标的图像及位置,将所述待追踪目标的图像作为第一图像,其位置作为第一位置标签;
步骤S200,基于第t帧图像中的第一图像、第一位置标签对预设的第一网络模型进行训练,并更新第一网络模型;所述第一网络模型基于卷积神经网络构建;
步骤S300,令t=t+1,对第t帧图像,通过第一网络模型获取待跟踪目标在该帧图像中的位置标签,并用其更新第一位置标签;
步骤S400,在第t帧图像以所述第一位置为中心点,以预设的多个缩放倍数,获取以第t-1帧图像中待跟踪目标图像尺寸为基准尺寸的多个图像区域;将所述多个图像区域分别通过第一网络模型获取响应值,将响应值最大的图像区域作为所述待跟踪目标在第t帧的图像;
步骤S500,若t为预设值n的倍数,依次将第一图像更新为所述待跟踪目标在第t-n+1帧至第t帧的图像,跳转步骤S200;否则直接跳转步骤S300;
其中,步骤S200中所述更新第一网络模型,其方法为:
步骤A100,提取第t帧图像中第一图像在第一网络模型的各卷积层的特征,并将各特征通过预设卷积层进行卷积后得到对应的特征响应;
步骤A200,通过预设的动态权重分配网络获取各特征响应的权重值,并根据所述权重值对各特征响应进行加权求和,得到最终响应;所述动态权重分配网络由一个全局最大池化层和一个两层的全连接神经网络构成;
步骤A300,根据第t帧图像中第一位置标签,构建高斯标签;基于所述高斯标签、所述最终响应,得到基于注意力的损失值,并基于该损失值优化第一网络模型中的参数,并更新第一网络模型。
在一些优选的实施方式中,所述各卷积层的特征分为conv3-3层特征,conv4-3层特征,conv5-3层特征。
在一些优选的实施方式中,步骤A100中“将各特征通过预设卷积层进行卷积后得到对应的特征响应”,其方法为:
通过1x1的卷积层对各卷积层的特征进行通道维度降维处理;
将降维处理后的各卷积层的特征输入至第一网络模型的Normalize层进行归一化处理;
根据ReLU激活函数得到归一化后的各卷积层的特征对应的激活特征值;
将各卷积层的激活特征值输入至输出预设通道为1的卷积层进行卷积,得到各卷积层对应的特征响应。
在一些优选的实施方式中,“将降维处理后的各卷积层的特征输入至第一网络模型的Normalize层进行归一化处理”,其方法为:将降维处理后的各卷积层的特征的L2范数都设置为1。
在一些优选的实施方式中,步骤A200中“通过预设的动态权重分配网络获取各特征响应的权重值”,其方法为:
将各卷积层的特征响应输入至第一网络模型的concat层进行拼接;
将拼接后的特征响应输入所述全局最大池化层进行池化操作;
将池化操作后的特征响应输入所述全连接神经网络,得到各卷积层的特征响应的权重值。
在一些优选的实施方式中,所述基于注意力的损失值其计算方法为:
其中,Loss(W)为基于注意力的损失值,y为高斯标签,W表示第一网络模型的权重,X为第一网络模型输入的特征,a=3,b=-2。
在一些优选的实施方式中,所述预设的多个缩放倍数为[0.95,1,1.05]。
本发明的第二方面,提出了一种基于丘脑动态分配的多视皮层信息融合的视觉跟踪系统,该系统包括获取模块、训练更新模块、获取目标位置模块、获取目标图像模块、循环模块;
所述获取模块,配置为从视频的第t帧图像中获取待跟踪目标的图像及位置,将所述待追踪目标的图像作为第一图像,其位置作为第一位置标签;
所述训练更新模块,配置为基于第t帧图像中的第一图像、第一位置标签对预设的第一网络模型进行训练,并更新第一网络模型;所述第一网络模型基于卷积神经网络构建;
所述获取目标位置模块,配置为令t=t+1,对第t帧图像,通过第一网络模型获取待跟踪目标在该帧图像中的位置标签,并用其更新第一位置标签;
所述获取目标图像模块,配置为在第t帧图像以所述第一位置为中心点,以预设的多个缩放倍数,获取以第t-1帧图像中待跟踪目标图像尺寸为基准尺寸的多个图像区域;将所述多个图像区域分别通过第一网络模型获取响应值,将响应值最大的图像区域作为所述待跟踪目标在第t帧的图像;
所述循环模块,配置为若t为预设值n的倍数,依次将第一图像更新为所述待跟踪目标在第t-n+1帧至第t帧的图像,跳转所述训练更新模块;否则直接跳转获取所述目标位置模块。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序应用由处理器加载并执行以实现上述的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;所述程序适用于由处理器加载并执行以实现上述的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法。
本发明的有益效果:
本发明动态分配不同层的重要性,提高了跟踪精度。本发明提出的利用丘脑去动态分配不同视皮层重要性,将不同的视皮层之间的信息去动态的融合到一起,由第一网络模型即卷积神经网络模型的动态权重分配网络获取不同卷积层的特征响应的权重(重要性),即由输入本身去动态的分配权重,融合多层特征,充分利用了不同层的信息。同时利用人类视觉注意机制对于靠近物体的训练样本去分配更多的注意力,设计了基于注意力的损失函数,具有较强的生物可解释性,能够使模型关注更重要的样本,提高跟踪精度。
本发明在视觉跟踪模型中将传统的相关滤波层替换为卷积层,使模型的网络变成一个端到端的网络,同时避免了相关滤波的边界效应。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法的流程示意图;
图2是本发明一种实施例的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法中更新网络模型的方法的流程示意图;
图3是本发明一种实施例的基于丘脑动态分配的多视皮层信息融合的视觉跟踪系统的框架示意图;
图4是本发明一种实施例的OTB2013数据集部分序列图像的示例图;
图5是本发明一种实施例的预训练的卷积神经网络模型的训练更新的示意图;
图6是本发明一种实施例的预训练的卷积神经网络模型的动态权重分配网络的示例图;
图7是本发明一种实施例的丘脑与其他脑区的连接示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法,如图1和图2所示,包括以下步骤:
步骤S100,从视频的第t帧图像中获取待跟踪目标的图像及位置,将所述待追踪目标的图像作为第一图像,其位置作为第一位置标签;
步骤S200,基于第t帧图像中的第一图像、第一位置标签对预设的第一网络模型进行训练,并更新第一网络模型;所述第一网络模型基于卷积神经网络构建;
步骤S300,令t=t+1,对第t帧图像,通过第一网络模型获取待跟踪目标在该帧图像中的位置标签,并用其更新第一位置标签;
步骤S400,在第t帧图像以所述第一位置为中心点,以预设的多个缩放倍数,获取以第t-1帧图像中待跟踪目标图像尺寸为基准尺寸的多个图像区域;将所述多个图像区域分别通过第一网络模型获取响应值,将响应值最大的图像区域作为所述待跟踪目标在第t帧的图像;
步骤S500,若t为预设值n的倍数,依次将第一图像更新为所述待跟踪目标在第t-n+1帧至第t帧的图像,跳转步骤S200;否则直接跳转步骤S300;
其中,步骤S200中所述更新第一网络模型,其方法为:
步骤A100,提取第t帧图像中第一图像在第一网络模型的各卷积层的特征,并将各特征通过预设卷积层进行卷积后得到对应的特征响应;
步骤A200,通过预设的动态权重分配网络获取各特征响应的权重值,并根据所述权重值对各特征响应进行加权求和,得到最终响应;所述动态权重分配网络由一个全局最大池化层和一个两层的全连接神经网络构成;
步骤A300,根据第t帧图像中第一位置标签,构建高斯标签;基于所述高斯标签、所述最终响应,得到基于注意力的损失值,并基于该损失值优化第一网络模型中的参数,并更新第一网络模型。
为了更清晰地对本发明基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
下文实施例中,先对本发明所用的数据集和评价指标进行介绍,再对基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法进行说明。
1、数据集和评价指标
本发明所用的数据集OTB-2013,OTB-2013主要由50个视频序列组成,涵盖了11种跟踪难点问题,这其中包括了:光照变化,尺度变化,遮挡,形变,运动模糊,快速运动等。如图4所示,图4为OTB2013的部分序列示意图。
本发明视频跟踪的性能主要有的两种评价指标:Precision Score和SuccessScore。
其中,Precision Score:预测目标中心位置与实际目标的中心位置距离:
locationpred表示算法预测的物体中心位置,locationgt表示物体实际中心位置,用距离小于一定的阈值的帧数的比例来衡量,本发明中为20。
Success Score:算法计算得出的目标框与实际目标的目标框的交叠比:
rp表示计算得到的目标框,rg表示实际的目标框,|.|表示在这个区域内像素的个数,∩和∪表示两个区域的交集和并集,这个值是在0到1之间,本发明中我们利用每条Success Plot曲线在0.5时的AUC(Area Under Curve)的值来衡量跟踪算法的优越性。
2、基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法
本发明的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法,包括以下步骤:
步骤S100,从视频的第t帧图像中获取待跟踪目标的图像及位置,将所述待追踪目标的图像作为第一图像,其位置作为第一位置标签。
通常情况下,在视频序列的第一帧给定准确的目标框,随后帧中自适应地跟踪该目标。目标框中的目标即为待跟踪目标,框的大小即待跟踪目标的尺寸。除此以外,也可能会在实时的视频中进行待跟踪目标的点选标记,将点选的第t帧作为第一帧。
步骤S200,基于第t帧图像中的第一图像、第一位置标签对预设的第一网络模型进行训练,并更新第一网络模型;所述第一网络模型基于卷积神经网络构建。
在本实施例中,将第t帧图像中获取的待跟踪目标输入到第一网络模型即卷积神经网络模型中,本发明中使用的模型是VGG-16模型,对卷积神经网络模型进行训练,并更新。具体步骤如下:
步骤A100,提取第t帧图像中第一图像在第一网络模型的各卷积层的特征,并将各特征通过预设卷积层进行卷积后得到对应的特征响应。
在本实施例中,使用的特征是conv3-3,conv4-3,conv5-3层特征,为了保证不同的分辨率相同,移除conv4-3、conv5-3两层前边的池化层,提取出不同卷积层的特征,本发明中。基于各卷积层的特征得到对应的特征响应的具体步骤如下:
步骤A101,利用一个1x1的卷积层,将每个特征的channel(通道)维度都降低到预设维度cout,本实施例中设置为48;
步骤A102,因为不同卷积层之间数值差异较大,直接堆叠到一块会对训练造成偏差,本发明还添加了一个Normalize层,将不同卷积层之间数值的进行归一化,即将不同卷积层的L2范数都设置为1。
Normalize层的具体设计如下:
将步骤A101输出输入到以下函数中,如公式(1)所示:
同时对于不同的通道还设计了通道注意机制,wi通过学习得到公式(2):
yi=wi*bi (2)
其中,yi为最终的输出值,wi为每个通道分配的权重,bi为归一化后的值。
步骤A103,将归一化之后的特征,分别输入到ReLU激活函数中,得到了不同卷积层的特征对应的激活特征值f1ru,f2ru和f3ru;
步骤A104,将激活特征值输入到一个输出通道为1的卷积层中,该卷积层的卷积核大小为待跟踪的物体在该特征层的大小,卷积层的步长设置为1,得到了三个对应的响应,记作Res1,Res2,Res3。如图5所示,其中,Conv 3、Conv 4、Conv 5对应conv3-3,conv4-3,conv5-3特征,convolution为卷积操作,concat为concat层,进行拼接操作,DIAM为动态权重分配网络。图5中其余步骤在下述过程中展开描述。
步骤A200,通过预设的动态权重分配网络获取各特征响应的权重值,并根据所述权重值对各特征响应进行加权求和,得到最终响应;所述动态权重分配网络由一个全局最大池化层和一个两层的全连接神经网络构成。
本实施例中,将得到的三个响应,经过一个concat层进行拼接,拼接完成后经过一个动态权重分配网络得到了不同卷积层对应的权重w1,w2,w3,该动态权重分配网络如图6所示,其中,GMP为全局最大池化层(Global Max Pooling,GMP),Fnn(.,w)为两层的全连接神经网络,具体步骤如下:
首先经过一个全局最大池化层,对拼接后的特征响应进行池化;
将池化后的特征响应输入到一个两层的全连接神经网络,网络的结构为3*2*3,隐层的激活函数为ReLU,输出层的激活函数为Sigmoid,得到不同卷积层对应的重要性。
将重要性乘以对应的响应,并相加得到最终响应,将其作为得到此时神经网络的输出。
步骤A300,根据第t帧图像中第一位置标签,构建高斯标签;基于所述高斯标签、所述最终响应,得到基于注意力的损失值,并基于该损失值优化第一网络模型中的参数,并更新第一网络模型。
在本实施例中,设置一个基于注意力的损失函数,以及利用第t帧的实际的位置标签,构建出一个高斯标签y。构建的高斯标签如公式(3)所示:
其中,δ=0.08,w、h为待跟踪目标的宽度、高度,i,j表示位置。
构建完高斯标签后,若第t帧为最开始的一帧,则对网络模型进行训练,为其他帧时,则对网络模型进行更新。优化器为SGD optimizer,学习率为8*10-5,weight decay设置为5*10-4,直到整个损失函数的阈值小于一个阈值,本发明中设为0.1,或者达到了最大迭代次数,本发明中设置为30。该损失函数的具体设计如下:
对于靠近物体的训练样本分配更多的注意力,对于远离物体的训练样本分配更少的注意力,基于此,实际了一个Mask函数,如公式(4)所示:
Wmask=exp(a*y+b) (4)
其中,a=3,b=-2,Wmask为Mask函数值。
将该Mask函数,乘以到均方误差最小误差函数上,得到损失函数值,如公式(5)所示:
其中,Loss(W)为基于注意力的损失值,y为高斯标签,W表示第一网络模型的权重,X为第一网络模型输入的特征。
通过注意力的损失函数值更新第一网络模型即卷积神经网络模型。
步骤S300,令t=t+1,对第t帧图像,通过第一网络模型获取待跟踪目标在该帧图像中的位置标签,并用其更新第一位置标签。
在本实施例中,对第t帧图像,通过第一网络模型获取待跟踪目标在该帧图像中的位置标签,将该位置作为第一位置标签。
步骤S400,在第t帧图像以所述第一位置为中心点,以预设的多个缩放倍数,获取以第t-1帧图像中待跟踪目标图像尺寸为基准尺寸的多个图像区域;将所述多个图像区域分别通过第一网络模型获取响应值,将响应值最大的图像区域作为所述待跟踪目标在第t帧的图像。
在本实施例中,对于步骤S300得到的位置,以该位置为中心点,裁剪出不同大小的区域图像,本发明预设了三个尺寸[0.95,1,1.05],即基于t-1帧图像中待跟踪目标的图像尺寸为基准尺寸,进行0.95倍的缩小和1.05倍的扩大,作为待选区的区域图像。通过第一网络模型即卷积神经网络模型,得到响应最大的区域图像,将响应值最大的图像区域作为所述待跟踪目标在第t帧的图像。即为此时待追踪目标的尺寸w*,h*。考虑到时序平滑性,我们以一种更平滑的方式来更新待追踪目标的尺寸,如公式(6)所示:
(wt,ht)=β(w*,h*)+(1-β)(wt-1,ht-1) (6)
其中,(wt,ht)为第t帧的待追踪目标的尺寸,β=0.6,(wt-1,ht-1)为第t-1帧待追踪目标的尺寸。
步骤S500,若t为预设值n的倍数,依次将第一图像更新为所述待跟踪目标在第t-n+1帧至第t帧的图像,跳转步骤S200;否则直接跳转步骤S300。
在本实施例中,预设数值n设置为3,也就是说第三帧、第六帧……开始对网络模型进行更新。例如,第六帧开始更新,依次获取第4帧、第5帧、第六帧中待跟踪目标的图像,然后跳转步骤S200对第一网络模型即卷积神经网络模型进行更新,其中迭代次数设置为2,学习率设置为3*10-5。否则直接跳转步骤S300,循环跟踪待跟踪目标,直至视频结束或跟踪任务结束。
本发明第二实施例的一种基于丘脑动态分配的多视皮层信息融合的视觉跟踪系统,如图3所示,包括:获取模块100、训练更新模块200、获取目标位置模块300、获取目标图像模块400、循环模块500;
所述获取模块100,配置为从视频的第t帧图像中获取待跟踪目标的图像及位置,将所述待追踪目标的图像作为第一图像,其位置作为第一位置标签;
所述训练更新模块200,配置为基于第t帧图像中的第一图像、第一位置标签对预设的第一网络模型进行训练,并更新第一网络模型;所述第一网络模型基于卷积神经网络构建;
所述获取目标位置模块300,配置为令t=t+1,对第t帧图像,通过第一网络模型获取待跟踪目标在该帧图像中的位置标签,并用其更新第一位置标签;
所述获取目标图像模块400,配置为在第t帧图像以所述第一位置为中心点,以预设的多个缩放倍数,获取以第t-1帧图像中待跟踪目标图像尺寸为基准尺寸的多个图像区域;将所述多个图像区域分别通过第一网络模型获取响应值,将响应值最大的图像区域作为所述待跟踪目标在第t帧的图像;
所述循环模块500,配置为若t为预设值n的倍数,依次将第一图像更新为所述待跟踪目标在第t-n+1帧至第t帧的图像,跳转所述训练更新模块200;否则直接跳转获取所述目标位置模块300。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于丘脑动态分配的多视皮层信息融合的视觉跟踪系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法,其特征在于,该方法包括以下步骤:
步骤S100,从视频的第t帧图像中获取待跟踪目标的图像及位置,将所述待追踪目标的图像作为第一图像,其位置作为第一位置标签;
步骤S200,基于第t帧图像中的第一图像、第一位置标签对预设的第一网络模型进行训练,并更新第一网络模型;所述第一网络模型基于卷积神经网络构建;
步骤S300,令t=t+1,对第t帧图像,通过第一网络模型获取待跟踪目标在该帧图像中的位置标签,并用其更新第一位置标签;
步骤S400,在第t帧图像以所述第一位置为中心点,以预设的多个缩放倍数,获取以第t-1帧图像中待跟踪目标图像尺寸为基准尺寸的多个图像区域;将所述多个图像区域分别通过第一网络模型获取响应值,将响应值最大的图像区域作为所述待跟踪目标在第t帧的图像;
步骤S500,若t为预设值n的倍数,依次将第一图像更新为所述待跟踪目标在第t-n+1帧至第t帧的图像,跳转步骤S200;否则直接跳转步骤S300;
其中,步骤S200中所述更新第一网络模型,其方法为:
步骤A100,提取第t帧图像中第一图像在第一网络模型的各卷积层的特征,并将各特征通过预设卷积层进行卷积后得到对应的特征响应;
步骤A200,通过预设的动态权重分配网络获取各特征响应的权重值,并根据所述权重值对各特征响应进行加权求和,得到最终响应;所述动态权重分配网络由一个全局最大池化层和一个两层的全连接神经网络构成;
步骤A300,根据第t帧图像中第一位置标签,构建高斯标签;基于所述高斯标签、所述最终响应,得到基于注意力的损失值,并基于该损失值优化第一网络模型中的参数,并更新第一网络模型。
2.根据权利要求1所述的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法,其特征在于,所述各卷积层的特征分为conv3-3层特征,conv4-3层特征,conv5-3层特征。
3.根据权利要求1所述的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法,其特征在于,步骤A100中“将各特征通过预设卷积层进行卷积后得到对应的特征响应”,其方法为:
通过1x1的卷积层对各卷积层的特征进行通道维度降维处理;
将降维处理后的各卷积层的特征输入至第一网络模型的Normalize层进行归一化处理;
根据ReLU激活函数得到归一化后的各卷积层的特征对应的激活特征值;
将各卷积层的激活特征值输入至输出预设通道为1的卷积层进行卷积,得到各卷积层对应的特征响应。
4.根据权利要求3所述的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法,其特征在于,“将降维处理后的各卷积层的特征输入至第一网络模型的Normalize层进行归一化处理”,其方法为:将降维处理后的各卷积层的特征的L2范数都设置为1。
5.根据权利要求1所述的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法,其特征在于,步骤A200中“通过预设的动态权重分配网络获取各特征响应的权重值”,其方法为:
将各卷积层的特征响应输入至第一网络模型的concat层进行拼接;
将拼接后的特征响应输入所述全局最大池化层进行池化操作;
将池化操作后的特征响应输入所述全连接神经网络,得到各卷积层的特征响应的权重值。
7.根据权利要求1所述的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法,其特征在于,所述预设的多个缩放倍数为[0.95,1,1.05]。
8.一种基于丘脑动态分配的多视皮层信息融合的视觉跟踪系统,其特征在于,该系统包括获取模块、训练更新模块、获取目标位置模块、获取目标图像模块、循环模块;
所述获取模块,配置为从视频的第t帧图像中获取待跟踪目标的图像及位置,将所述待追踪目标的图像作为第一图像,其位置作为第一位置标签;
所述训练更新模块,配置为基于第t帧图像中的第一图像、第一位置标签对预设的第一网络模型进行训练,并更新第一网络模型;所述第一网络模型基于卷积神经网络构建;
所述获取目标位置模块,配置为令t=t+1,对第t帧图像,通过第一网络模型获取待跟踪目标在该帧图像中的位置标签,并用其更新第一位置标签;
所述获取目标图像模块,配置为在第t帧图像以所述第一位置为中心点,以预设的多个缩放倍数,获取以第t-1帧图像中待跟踪目标图像尺寸为基准尺寸的多个图像区域;将所述多个图像区域分别通过第一网络模型获取响应值,将响应值最大的图像区域作为所述待跟踪目标在第t帧的图像;
所述循环模块,配置为若t为预设值n的倍数,依次将第一图像更新为所述待跟踪目标在第t-n+1帧至第t帧的图像,跳转所述训练更新模块;否则直接跳转获取所述目标位置模块。
9.一种存储装置,其中存储有多条程序,其特征在于,所述程序应用由处理器加载并执行以实现权利要求1-7任一项所述的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法。
10.一种处理装置,包括处理器、存储装置;处理器,适用于执行各条程序;存储装置,适用于存储多条程序;其特征在于,所述程序适用于由处理器加载并执行以实现权利要求1-7任一项所述的基于丘脑动态分配的多视皮层信息融合的视觉跟踪方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911013553.XA CN110781951B (zh) | 2019-10-23 | 2019-10-23 | 丘脑动态分配的多视皮层信息融合的视觉跟踪方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911013553.XA CN110781951B (zh) | 2019-10-23 | 2019-10-23 | 丘脑动态分配的多视皮层信息融合的视觉跟踪方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110781951A true CN110781951A (zh) | 2020-02-11 |
CN110781951B CN110781951B (zh) | 2022-06-24 |
Family
ID=69386724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911013553.XA Active CN110781951B (zh) | 2019-10-23 | 2019-10-23 | 丘脑动态分配的多视皮层信息融合的视觉跟踪方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781951B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112734803A (zh) * | 2020-12-31 | 2021-04-30 | 山东大学 | 基于文字描述的单目标跟踪方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1879149A1 (en) * | 2006-07-10 | 2008-01-16 | Fondazione Bruno Kessler | Method and apparatus for tracking a number of objects or object parts in image sequences |
CN108776975A (zh) * | 2018-05-29 | 2018-11-09 | 安徽大学 | 一种基于半监督特征和滤波器联合学习的视觉跟踪方法 |
CN109816689A (zh) * | 2018-12-18 | 2019-05-28 | 昆明理工大学 | 一种多层卷积特征自适应融合的运动目标跟踪方法 |
CN109977823A (zh) * | 2019-03-15 | 2019-07-05 | 百度在线网络技术(北京)有限公司 | 行人识别跟踪方法、装置、计算机设备和存储介质 |
CN110147768A (zh) * | 2019-05-22 | 2019-08-20 | 云南大学 | 一种目标跟踪方法及装置 |
-
2019
- 2019-10-23 CN CN201911013553.XA patent/CN110781951B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1879149A1 (en) * | 2006-07-10 | 2008-01-16 | Fondazione Bruno Kessler | Method and apparatus for tracking a number of objects or object parts in image sequences |
CN108776975A (zh) * | 2018-05-29 | 2018-11-09 | 安徽大学 | 一种基于半监督特征和滤波器联合学习的视觉跟踪方法 |
CN109816689A (zh) * | 2018-12-18 | 2019-05-28 | 昆明理工大学 | 一种多层卷积特征自适应融合的运动目标跟踪方法 |
CN109977823A (zh) * | 2019-03-15 | 2019-07-05 | 百度在线网络技术(北京)有限公司 | 行人识别跟踪方法、装置、计算机设备和存储介质 |
CN110147768A (zh) * | 2019-05-22 | 2019-08-20 | 云南大学 | 一种目标跟踪方法及装置 |
Non-Patent Citations (6)
Title |
---|
DONGCHENG ZHAO: "Dynamic Fusion of Convolutional Features based on Spatial and Temporal Attention for Visual Tracking", 《2019 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN)》 * |
K. ZHANG等: "Robust Visual Tracking via Convolutional Networks Without Training", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》 * |
MA C等: "Hierarchical convolutional features for visual tracking", 《PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION》 * |
WANG Q等: "Learning attentions: residual attentional siamese network for high performance online visual tracking", 《PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
徐波等: "类脑智能研究现状与发展思考", 《中国科学院院刊》 * |
罗会兰等: "结合连续卷积算子的自适应加权目标跟踪算法", 《中国图象图形学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112734803A (zh) * | 2020-12-31 | 2021-04-30 | 山东大学 | 基于文字描述的单目标跟踪方法、装置、设备及存储介质 |
CN112734803B (zh) * | 2020-12-31 | 2023-03-24 | 山东大学 | 基于文字描述的单目标跟踪方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110781951B (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711316B (zh) | 一种行人重识别方法、装置、设备及存储介质 | |
CN112446270B (zh) | 行人再识别网络的训练方法、行人再识别方法和装置 | |
CN106845621B (zh) | 基于深度卷积神经网络的密集人群人数计数方法及系统 | |
CN109993707B (zh) | 图像去噪方法和装置 | |
JP6798183B2 (ja) | 画像解析装置、画像解析方法およびプログラム | |
CN114092820A (zh) | 目标检测方法及应用其的移动目标跟踪方法 | |
CN109886090A (zh) | 一种基于多时间尺度卷积神经网络的视频行人再识别方法 | |
EP3596655B1 (en) | Method and apparatus for analysing an image | |
US11272097B2 (en) | Aesthetic learning methods and apparatus for automating image capture device controls | |
CN110781951B (zh) | 丘脑动态分配的多视皮层信息融合的视觉跟踪方法及系统 | |
CN110705564B (zh) | 图像识别的方法和装置 | |
CN114549470A (zh) | 基于卷积神经网络和多粒度注意力的手骨关键性区域获取方法 | |
Scherr et al. | Best practices in deep learning-based segmentation of microscopy images | |
CN110543891A (zh) | 数据标注方法、装置、系统及存储介质 | |
CN112101303B (zh) | 一种图像数据处理方法、装置以及计算机可读存储介质 | |
Blasch | Biological information fusion using a PCNN and belief filtering | |
CN116993933A (zh) | 应急场景下的实景地图构建方法、装置、设备及存储介质 | |
EP3627391A1 (en) | Deep neural net for localising objects in images, methods for preparing such a neural net and for localising objects in images, corresponding computer program product, and corresponding computer-readable medium | |
US20220366242A1 (en) | Information processing apparatus, information processing method, and storage medium | |
CN112488985A (zh) | 图像质量确定方法、装置及设备 | |
CN115830354A (zh) | 双目立体匹配方法、设备和介质 | |
CN115374817A (zh) | 基于混合图网络的情绪识别方法、装置、设备及存储介质 | |
JPWO2018203551A1 (ja) | 信号検索装置、方法、及びプログラム | |
Kimura et al. | Dynamic Markov random fields for stochastic modeling of visual attention | |
CN110610185A (zh) | 图像的显著目标的检测方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |