CN115393392A - 一种视觉跟踪系统、方法、介质及电子设备 - Google Patents
一种视觉跟踪系统、方法、介质及电子设备 Download PDFInfo
- Publication number
- CN115393392A CN115393392A CN202210923835.9A CN202210923835A CN115393392A CN 115393392 A CN115393392 A CN 115393392A CN 202210923835 A CN202210923835 A CN 202210923835A CN 115393392 A CN115393392 A CN 115393392A
- Authority
- CN
- China
- Prior art keywords
- tracker
- memory
- tracking
- decision
- updated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
- G06V10/85—Markov-related models; Markov random fields
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种视觉追踪系统、方法、介质及设备,所述视觉追踪系统,包括:跟踪器;还包括:决策器,用于在所述跟踪器每一轮跟踪结束后,决定是否需要更新外观模板,当需要更新外观模板时,更新所述跟踪器的外观模板;计算优化单元,用于对所述跟踪器和所述决策器的计算流图进行优化。本公开的方案提升了视觉目标跟踪在现实场景下的准确性,能应对物体形变、遮挡等复杂场景。本公开的方案使得视觉目标跟踪任务能在资源受限的硬件环境中运行,降低了部署视觉跟踪系统的成本。
Description
技术领域
本公开涉及计算机视觉技术领域,更为具体来说,本公开涉及一种视觉跟踪系统、方法、介质及电子设备。
背景技术
视觉目标跟踪是计算机视觉领域的重要研究方向之一,普遍应用于自动驾驶、交通管理、人机交互、安防监控等领域。例如:在智能交通领域,目标跟踪技术可用于交通流监控、车辆追踪等;在自动驾驶领域,目标跟踪用于对跟踪车辆周围行人和其他车辆的运动轨迹,为车辆行进决策提供信息;在军事领域,目标跟踪被应用于飞行器跟踪、导弹制导,提升武器现代化水平;在人机交互领域,目标跟踪可用于动作捕捉、人脸追踪,并以此为基础实现实时美颜等丰富应用。
近年来,基于深度学习技术的目标跟踪方法凭借其强大的特征提取和表示能力取得了领先的性能,其中最具代表性的是基于Siamese网络的目标跟踪器,该方法在跟踪过程中通过外观模板来匹配跟踪对象,并需要不断更新模板来适应环境和对象的变化。
现有技术的部分方法以线性策略或人为设定的简单策略更新外观模板,若目标在跟踪过程中产生形变或被遮挡,将会导致其展现出的外观发生较大变化,外观模板的参考价值降低,影响跟踪结果的准确性。一些方法使用Q-Learning等手段在目标跟踪的过程中进行在线决策,但计算复杂度大,无法在性能较弱的硬件平台上实时运行。
发明内容
为解决现有技术的视觉追踪装置不能满足用户的需求的技术问题。
为实现上述技术目的,本公开提供了一种视觉追踪系统,包括:跟踪器;还包括:
决策器,用于在所述跟踪器每一轮跟踪结束后,决定是否需要更新外观模板,当需要更新外观模板时,更新所述跟踪器的外观模板;
计算优化单元,用于对所述跟踪器和所述决策器的计算流图进行优化。
进一步,所述决策器具体用于:
利用马尔科夫决策对所述视觉追踪系统当前的运行的环境信息进行决策参考,以确定是否需要更新外观模板,其中,所述环境信息由所述跟踪器的网络对模板图像和候选图像进行相似度度量的响应结果获得。
进一步,所述决策器还用于:
基于预测所述马尔科夫决策的预测结果框与真实数据框的交并比对所述马尔科夫决策的决策过程中是否需要更新外观模板进行激励。
进一步,所述计算优化单元具体用于:
预先规划计算单元的内存,预先分配存储空间以容纳中间结果;
对外部计算硬件的算子进行融合;
预先计算所述计算流图中以静态确定的计算内容。
进一步,所述对计算单元的算子进行融合具体包括:
按照算子的输入输出之间的对应关系转换为对应的算子融合结果。
进一步,所述跟踪器具体采用基于孪生Siamese网络的跟踪器。
为了解决上述技术问题,本公开还提供了一种视觉追踪方法,作用于上述的视觉追踪系统上,所述方法包括:
从外部存储器读取优化后的计算规则及对应参数至硬件内存中完成初始化;
读取输入视频数据并进行特征提取得到特征图像;
对于每一帧特征图像,利用所述跟踪器以所述计算规则得到跟踪结果;
利用所述决策器根据所述跟踪结果进行判断是否需要更新外观模板的决策;
将当前跟踪结果输出并存储。
进一步,所述特征提取得到特征图像的过程循环执行两次。
为了解决上述技术问题,本公开还提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时用于实现上述的视觉追踪方法的步骤。
为了解决上述技术问题,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的视觉追踪方法对应的步骤。
本公开的有益效果为:
本公开的方案提升了视觉目标跟踪在现实场景下的准确性,能应对物体形变、遮挡等复杂场景。
本公开的方案使得视觉目标跟踪任务能在资源受限的硬件环境中运行,降低了部署视觉跟踪系统的成本。
附图说明
图1示出了本公开的实施例1的系统的结构示意图;
图2示出了本公开的实施例1的系统的结构示意图;
图3示出了本公开的实施例1的系统的跟踪器和决策器的关系示意图;
图4示出了本公开的实施例1的系统的算子优化示意图;
图5示出了本公开的实施例2的方法的流程示意图;
图6示出了本公开的实施例2的方法的流程示意图;
图7示出了本公开的实施例4的结构示意图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在附图中示出了根据本公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
实施例一:
如图1至图3所示:
本公开提供了一种视觉追踪系统,包括:跟踪器101;还包括:
决策器102,用于在所述跟踪器101每一轮跟踪结束后,决定是否需要更新外观模板,当需要更新外观模板时,更新所述跟踪器的外观模板;
计算优化单元103,用于对所述跟踪器101和所述决策器102的计算流图进行优化。
为了应对目标受到遮挡、发生形变时跟踪效果不佳的问题,本公开的系统在跟踪器101后接入一个决策器102,该决策器102通过强化学习的手段一项决策的策略,即在每一轮跟踪结束后,决定是否需要更新外观模板。
进一步,所述决策器102具体用于:
利用马尔科夫决策对所述视觉追踪系统当前的运行的环境信息进行决策参考,以确定是否需要更新外观模板,其中,所述环境信息由所述跟踪器的网络对模板图像和候选图像进行相似度度量的响应结果获得。
具体地:
在跟踪过程中,智能体所面临的环境是当前时刻的跟踪状态,可由跟踪器101网络对模板图像和候选图像进行相似度度量的响应图进行表达。响应图可在一定程度上反应当前时刻的跟踪状态。
“更新”动作是指在当前帧的跟踪结束之后,使用当前帧的跟踪结果作为下一轮跟踪的外观模板。“不更新”动作是指,继续使用在本帧之前所使用的外观模板作为下一帧的外观模板,不做更新工作。
在本方法中,使用一个卷积神经网络参数化策略π,卷积神经网络的参数为θ,环境与智能体动作的轨迹τ={s1,a1,s2,a2,…,st,at}的发生概率服从Pθ(τ),回报函数为R,则期望回报的梯度可表示为
期望回报值可用根据当前策略随机采样的N个轨迹τ来近似估计。由于梯度计算依赖于轨迹τ的回报值估计,因此具有很高的方差,可通过引入噪声较小的无偏估计减少方差,例如减去一个偏置量。
得到上述梯度后,采用梯度下降法优化策略网络,η为学习率:
进一步,所述决策器102还包括:
基于预测所述马尔科夫决策的预测结果框与真实数据框的交并比对所述马尔科夫决策的决策过程中是否需要更新外观模板进行激励。
本公开的系统使用在线学习,参与训练的智能体和与环境互动的智能体为同一个。因此,智能体对于环境信息的收集是在每一轮互动的过程中完成的。反映在决策器102的训练流程中,即,在第i轮训练中,策略为πi(参数化为θi),根据此策略随机采样多条轨迹样本τ,通过这些轨迹及奖励函数得到的回报值R并通过梯度下降法更新策略至θi+1,进入新一轮训练。在新一轮训练中,上一轮训练采样的轨迹样本不再有效,需要重新采样。决策器由两个516维度的全连接层和一个输出层组成,在LaSOT数据集上训练50轮,训练过程中采用可变学习率(从10-2下降到10-6)。
IOU∈[0,0.6] | IOU∈(0.6,1] | |
更新 | -1 | +1 |
不更新 | +1 | -1 |
即,当IOU较高时,说明跟踪正常,仅给予“更新”动作正向激励,鼓励在此时更新模板。当IOU较低时,说明跟踪结果不可靠,此时仅给予“不更新”动作正向激励,鼓励此时不更新模板,防止受到背景信息干扰。
进一步,所述计算优化单元103具体用于:
预先规划外部计算硬件的内存,预先分配存储空间以容纳中间结果;
对计算单元的算子进行融合;
预先计算所述计算流图中以静态确定的计算内容。
上述跟踪器101和决策器102中均采用了深度神经网络,深度神经网络对计算资源的要求较高,出于隐私计算、通信时延、部署成本等因素的考虑,本方案中采用如下所述的计算优化手段,旨在减小硬件资源对目标跟踪任务的限制,延伸其在资源受限场景和时间敏感场景中的应用。
上述跟踪器101和决策器102的运行过程可通过高级计算流图表达,计算优化过程对将跟踪器和决策器的计算流图进行优化,并转换为外部存储器上存储的优化后的计算规则表示及对应参数。
进一步,所述对计算单元的算子进行融合具体包括:
按照算子的输入输出之间的对应关系转换为对应的算子融合结果。
具体地:
静态内存规划:
静态内存规划即为提前规划内存的重用,预先分配存储空间来容纳中间结果。
对于计算结果不再被后续过程需要的算子,将中间结果直接保存在输入内存空间中以节省存储空间。对于无法覆盖结果的算子,通过内存规划,即时回收并重用不再需要的内存空间。该算法建立可重用的内存空间池,释放的内存空间被放回池中,需要时进行重用。走查计算图并标记计算图中节点是否仍被使用,对于仍被使用的计算节点,应当分配新的内存空间或重用已有空间,对已不再使用的节点,释放其内存加入内存空间池。最终得到计算图的内存规划方案。
算子融合:
算子融合是将多个运算合并为一个操作一起执行,省略了中间结果的存储过程,减少中间结果的写回操作,降低往返内存的次数,此操作可以显著减少计算时间。
如图4所示:
例如,对于网络结构中的“卷积层+批标准化层+激活层”组合,可通过融合为单个算子,将三次计算降低至依次计算,具体其操作过程如下:
卷积层的输入为x0,卷积层算子执行计算y1=k*x0+b,得到输出y1。其中k为缩放因子,b为偏置因子。批标准化层执行的计算为 其中s为缩放因子,d为偏置因子,m为输入的均值,σ为输入的标准差。激活层算子执行的操作为y3=f(y2)。其中f为激活函数。未融合前,输入数据需要依次经过卷积、批标准化、激活函数三个算子,有多次内存往返操作。
计算图中的许多部分存在算子融合的可能性。本发明中采用如下方法分析算子融合的可能性。对计算流图中的众多算子进行分析,按算子的输入输出关系,分为“一对一算子”、“一对多算子”、“多对多算子”、“重组算子”、“变换算子”。对于n维输入x[d1,…,dn]:“一对一算子”通过一个映射将其转换为同样是n维的输出y[d1,…,dn];“一对多算子”通过一个映射将其转换是m维输出y[e1,…,em],其中m>n;“多对多算子”通过多个不同的映射将其转换为m维输出y[e1,…,em];“重组算子”将其进行重组;“变换算子”通过一个映射和排列函数将其转换为n维输出y[e1,…,en]。
对于相邻的两个算子A和B的组合,分析两者融合为合并算子F的可能性:
算子不可融合的情况:当A为“一对多算子”,B为“多对多算子”时;当A为“多对多算子”,B为“多对多算子”时。
算子必然可以融合的情况:当A为“一对一算子”,B为任意类型算子时,可融合为B类型的算子;当A为任意类型算子,B为“一对一算子”时,可融合为A类型的算子;当A为“重组算子”,B为“重组算子”或“变换算子”时,可融合为“重组算子”;当A为“变换算子”,B为“重组算子”时,融合为“重组算子”;当A为“变换算子”,B为“变换算子”时,融合为“变换算子”。
其他情况为算子可以融合但需要单独分析融合增益,视融合增益决定是否融合算子。
常量预计算:
常量预计算即为对计算图中可以静态确定的部分进行预先计算,以节省资源开销。
进一步,所述跟踪器101具体采用基于孪生Siamese网络的跟踪器。
本公开的系统中,所述跟踪器101采用Siamese网络跟踪器SiamFC,该跟踪器101学习一个相似度度量函数f(z,x),它将相同大小的样本图像z与候选图像x进行比较,如果z与x图像相近,则返回高分,否则返回低分。当需要在新帧中确定目标的位置时,选定目标上一位置为中心的搜索区域,遍历评估区域中所有可能位置的相似度,相似度最大的位置就是目标位置。
引入Siamese结构进行相似性学习,Siamese网络对两个输入z和x应用相同的变换φ,并对输出φ(z)和φ(x)采用一个距离度量函数g,即f(z,x)=g(φ(z),φ(x))。考虑到深度卷积网络在计算机视觉领域所展现出的优势,此处选择深度卷积网络作为变换φ。
SiamFC使用的Siamese结构对候选图像x是全卷积的,因此可以直接输入一个比样本图像z大的候选图像作为输入,经过单次卷积计算就可以获得所有子窗口上的图像相似性。相似性的计算方法为f(z,x)=φ(z)*φ(x)+b,即,以模板图像z的特征图φ(z)为卷积核,在候选图像的特征图φ(x)上进行卷积。例如,在图2所示的框架中,模板图像z的大小为127×127×3,候选图像x的大小为255×255×3,两者经过深度卷积网络处理后,分别得到大小为6×6×128和22×22×128的特征图φ(z)和φ(x)。以φ(z)为卷积核在φ(x)上进行卷积计算,得到大小为17×17×1的相似度响应图,图上的每一个位置都代表候选图像上某一个子窗口的相似度值。
本公开的方案提升了视觉目标跟踪在现实场景下的准确性,能应对物体形变、遮挡等复杂场景。
本公开的方案使得视觉目标跟踪任务能在资源受限的硬件环境中运行,降低了部署视觉跟踪系统的成本。
实施例二:
如图5所示:
本公开还提供了一种视觉追踪方法,作用于上述的视觉追踪系统上,所述方法包括:
S201:从外部存储器读取优化后的计算规则及对应参数至硬件内存中完成初始化;
S202:读取输入视频数据并进行特征提取得到特征图像;
S203:对于每一帧特征图像,利用所述跟踪器以所述计算规则得到跟踪结果;
S204:利用所述决策器根据所述跟踪结果进行判断是否需要更新外观模板的决策;
S205:将当前跟踪结果输出并存储。
进一步,所述特征提取得到特征图像的过程循环执行两次。
在计算硬件上部署和执行目标跟踪任务时,首先从外部存储器读取优化后的计算规则及对应参数至硬件内存中完成初始化,随后从视频输入源读取视频帧,对于每一帧,跟踪器依据该计算规则及参数计算得到跟踪结果,决策器依据响应图做出是否更新外观模板的决策,并存储当前帧的跟踪结果至外部存储器上。如图6所示,对于多路视频输入,将多路视频的初始化、特征提取、相似度判决、决策器决策、存储等环节并行执行。
实施例三:
本公开还能够提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时用于实现上述的视觉追踪方法的步骤。
本公开的计算机存储介质可以采用半导体存储器、磁芯存储器、磁鼓存储器或磁盘存储器实现。
半导体存储器,主要用于计算机的半导体存储元件主要有Mos和双极型两种。Mos元件集成度高、工艺简单但速度较慢。双极型元件工艺复杂、功耗大、集成度低但速度快。NMos和CMos问世后,使Mos存储器在半导体存储器中开始占主要地位。NMos速度快,如英特尔公司的1K位静态随机存储器的存取时间为45ns。而CMos耗电省,4K位的CMos静态存储器存取时间为300ns。上述半导体存储器都是随机存取存储器(RAM),即在工作过程中可随机进行读出和写入新内容。而半导体只读存储器(ROM)在工作过程中可随机读出但不能写入,它用来存放已固化好的程序和数据。ROM又分为不可改写的熔断丝式只读存储器──PROM和可改写的只读存储器EPROM两种。
磁芯存储器,具有成本低,可靠性高的特点,且有20多年的实际使用经验。70年代中期以前广泛使用磁芯存储器作为主存储器。其存储容量可达10位以上,存取时间最快为300ns。国际上典型的磁芯存储器容量为4MS~8MB,存取周期为1.0~1.5μs。在半导体存储快速发展取代磁芯存储器作为主存储器的位置之后,磁芯存储器仍然可以作为大容量扩充存储器而得到应用。
磁鼓存储器,一种磁记录的外存储器。由于其信息存取速度快,工作稳定可靠,虽然其容量较小,正逐渐被磁盘存储器所取代,但仍被用作实时过程控制计算机和中、大型计算机的外存储器。为了适应小型和微型计算机的需要,出现了超小型磁鼓,其体积小、重量轻、可靠性高、使用方便。
磁盘存储器,一种磁记录的外存储器。它兼有磁鼓和磁带存储器的优点,即其存储容量较磁鼓容量大,而存取速度则较磁带存储器快,又可脱机贮存,因此在各种计算机系统中磁盘被广泛用作大容量的外存储器。磁盘一般分为硬磁盘和软磁盘存储器两大类。
硬磁盘存储器的品种很多。从结构上,分可换式和固定式两种。可换式磁盘盘片可调换,固定式磁盘盘片是固定的。可换式和固定式磁盘都有多片组合和单片结构两种,又都可分为固定磁头型和活动磁头型。固定磁头型磁盘的容量较小,记录密度低存取速度高,但造价高。活动磁头型磁盘记录密度高(可达1000~6250位/英寸),因而容量大,但存取速度相对固定磁头磁盘低。磁盘产品的存储容量可达几百兆字节,位密度为每英寸6 250位,道密度为每英寸475道。其中多片可换磁盘存储器由于盘组可以更换,具有很大的脱体容量,而且容量大,速度高,可存储大容量情报资料,在联机情报检索系统、数据库管理系统中得到广泛应用。
实施例四:
本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的视觉追踪方法的步骤。
图7为一个实施例中电子设备的内部结构示意图。如图7所示,该电子设备包括通过系统总线连接的处理器、存储介质、存储器和网络接口。其中,该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种视觉追踪方法。该电设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种视觉追踪方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
该电子设备包括但不限于智能电话、计算机、平板电脑、可穿戴智能设备、人工智能设备、移动电源等。
所述处理器在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器内的程序或者模块(例如执行远端数据读写程序等),以及调用存储在所述存储器内的数据,以执行电子设备的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器以及至少一个处理器等之间的连接通信。
图7仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图7示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
可选地,该电子设备还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。本公开的范围由所附权利要求及其等价物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (10)
1.一种视觉追踪系统,包括:跟踪器;其特征在于,还包括:
决策器,用于在所述跟踪器每一轮跟踪结束后,决定是否需要更新外观模板,当需要更新外观模板时,更新所述跟踪器的外观模板;
计算优化单元,用于对所述跟踪器和所述决策器的计算流图进行优化。
2.根据权利要求1所述的系统,其特征在于,所述决策器具体用于:
利用马尔科夫决策对所述视觉追踪系统当前的运行的环境信息进行决策参考,以确定是否需要更新外观模板,其中,所述环境信息由所述跟踪器的网络对模板图像和候选图像进行相似度度量的响应结果获得。
3.根据权利要求2所述的系统,其特征在于,所述决策器还用于:
基于预测所述马尔科夫决策的预测结果框与真实数据框的交并比对所述马尔科夫决策的决策过程中是否需要更新外观模板进行激励。
4.根据权利要求1所述的系统,其特征在于,所述计算优化单元具体用于:
预先规划外部计算硬件的内存,预先分配存储空间以容纳中间结果;
对计算单元的算子进行融合;
预先计算所述计算流图中以静态确定的计算内容。
5.根据权利要求4所述的系统,其特征在于,所述对计算单元的算子进行融合具体包括:
按照算子的输入输出之间的对应关系转换为对应的算子融合结果。
6.根据权利要求1~5任一项中所述的系统,其特征在于,所述跟踪器具体采用基于孪生Siamese网络的跟踪器。
7.一种视觉追踪方法,作用于如权利要求1~6任一项中所述的视觉追踪系统上,其特征在于,所述方法包括:
从外部存储器读取优化后的计算规则及对应参数至硬件内存中完成初始化;
读取输入视频数据并进行特征提取得到特征图像;
对于每一帧特征图像,利用所述跟踪器以所述计算规则得到跟踪结果;
利用所述决策器根据所述跟踪结果进行判断是否需要更新外观模板的决策;
将当前跟踪结果输出并存储。
8.根据权利要求7所述的方法,其特征在于,所述特征提取得到特征图像的过程循环执行两次。
9.一种计算机存储介质,其上存储有计算机程序指令,其特征在于,所述程序指令被处理器执行时用于实现权利要求7~8任一项中所述的视觉追踪方法对应的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现权利要求7~8任一项中所述的视觉追踪方法对应的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210923835.9A CN115393392A (zh) | 2022-08-02 | 2022-08-02 | 一种视觉跟踪系统、方法、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210923835.9A CN115393392A (zh) | 2022-08-02 | 2022-08-02 | 一种视觉跟踪系统、方法、介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115393392A true CN115393392A (zh) | 2022-11-25 |
Family
ID=84119591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210923835.9A Pending CN115393392A (zh) | 2022-08-02 | 2022-08-02 | 一种视觉跟踪系统、方法、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115393392A (zh) |
-
2022
- 2022-08-02 CN CN202210923835.9A patent/CN115393392A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | An edge traffic flow detection scheme based on deep learning in an intelligent transportation system | |
Muhammad et al. | Deep learning for safe autonomous driving: Current challenges and future directions | |
CN111860872A (zh) | 用于异常检测的系统和方法 | |
CN111542841A (zh) | 一种内容识别的系统和方法 | |
US20220012502A1 (en) | Activity detection device, activity detection system, and activity detection method | |
Maleš et al. | A multi-agent dynamic system for robust multi-face tracking | |
Pan et al. | Driver activity recognition using spatial‐temporal graph convolutional LSTM networks with attention mechanism | |
CN116257663A (zh) | 面向无人地面车辆的异常检测与关联分析方法及相关设备 | |
US20220147565A1 (en) | Method of video search in an electronic device | |
Cui et al. | Skeleton‐based attention‐aware spatial–temporal model for action detection and recognition | |
CN114554279A (zh) | 基于远程分析的触发器响应剪辑提取 | |
Zhu et al. | Hierarchical reinforcement learning based on KNN classification algorithms | |
Fang et al. | AutoMSNet: Multi-source spatio-temporal network via automatic neural architecture search for traffic flow prediction | |
CN115393392A (zh) | 一种视觉跟踪系统、方法、介质及电子设备 | |
CN115883172A (zh) | 异常监测方法、装置、计算机设备和存储介质 | |
CN113255682B (zh) | 一种目标检测系统、方法、装置、设备及介质 | |
EP4220495A1 (en) | Task learning system and method, and related device | |
WO2021121206A1 (zh) | 一种用于判定服务事故的责任的方法和系统 | |
CN113516368A (zh) | 城市和社区不确定性风险的预测方法、装置、设备及介质 | |
CN114548237A (zh) | 一种人机交互的多模态数据融合方法、装置及设备 | |
CN113869189A (zh) | 人体行为识别方法、系统、设备及介质 | |
CN112528938A (zh) | 车辆检测模型训练及其检测方法、装置及计算机存储介质 | |
Behnia et al. | Deep generative models for vehicle speed trajectories | |
CN115358379B (zh) | 神经网络处理、信息处理方法、装置和计算机设备 | |
Zhou et al. | Vision sensor‐based SLAM problem for small UAVs in dynamic indoor environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |