CN116385482A

CN116385482A - 一种面向云台摄像头的移动物体智能追踪方法及装置

Info

Publication number: CN116385482A
Application number: CN202310168870.9A
Authority: CN
Inventors: 鄂金龙; 何林; 李振华; 刘云浩
Original assignee: Renmin University of China
Current assignee: Renmin University of China
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-07-04

Abstract

本发明公开了一种面向云台摄像头的移动物体智能追踪方法及装置，首先通过对运动物体位置和大小特征进行相关滤波，关联连续帧中出现的相同物体，抽象出各帧中物体的两个关键点，在摄像头视域的全景空间中构建运动轨迹；其次，构建包含多层神经网络和定制化的奖惩机制的强化学习模型，根据物体运动轨迹的时空信息在线决策调整云台旋转幅度，融合追踪相同类型物体的学习经验加速模型收敛；最后，使用流水线处理旋转指令的决策生成与执行，合并或消除缓存队列中的冗余指令，同时采用帧采样方式跟踪低频移动物体，根据物体运动信息自适应调整采样间隔，以匹配云台旋转与物体移动速度。本发明实现了高效低电耗的移动物体智能追踪方法，极大地提升了监控的有效性和智能性。

Description

一种面向云台摄像头的移动物体智能追踪方法及装置

技术领域

本发明涉及智能监控技术领域，特别是涉及一种面向云台摄像头的移动物体智能追踪方法及装置。

背景技术

云台摄像头近年来广泛应用于老人/儿童家庭看护和商店防盗报警等监控场景，其支持自动追踪移动物体的功能，能够提供比固定摄像头更广阔的区域覆盖，因此未来有望用于农村、渔场、果园、厂房等大范围户外监控场景。目前主流商用云台摄像机采用基于格点追踪方法，由两个步进电机驱动齿轮轴逐格点旋转云台，通过视觉检测算法(通常为背景减除或帧差分)不断寻找移动物体，之后确定摄像头正对方向所在格点使其最接近物体中心(云台水平方向的追踪过程如图1所示)。特别地，当物体所在方向位于两个相邻格点中间且更靠近刚转过的格点时，云台将回转使摄像头正对方向格点为刚转过的格点。然而在两个维度格点间频繁加减速旋转(甚至回转)搜索最优格点的过程耗时且耗电，难以将追踪物体长时间保持在摄像头视域内。此外，可以通过组装由伺服电机驱动的云台摄像头，采用基于目标追踪方法，即在将视觉检测到的物体确定为目标后，根据目标移动方向旋转云台，使摄像头正面始终正对目标中心(云台水平方向的追踪过程如图2所示)。尽管这种方法可以克服耗时旋转，但对物体细微运动敏感，导致过度堆叠旋转指令异步执行而同样耗时耗电。

克服上述问题的一种直观方法是在摄像头视域中心周围设置容错边界，并在目标物体的中心仅在边界内移动时避免云台旋转。由于边界大小受制于许多物体属性(物体大小、移动速度和方向等)，在实际中难以设置合适的值，太小无法降低旋转指令生成频率，太大影响摄像头追踪物体及时性。另一种改进方法是采用比例积分微分(PID)控制，迭代地计算物体和摄像头视野中心之间的差异作为误差值，并基于比例、积分、微分各项校正以获得云台旋转角度。然而，PID系数由电机和物体属性决定，需要复杂的在线调试来满足有效准则。综上，云台摄像头的现有追踪方法都仅根据检测到物体的即时位置确定云台旋转，易因无法及时追踪而造成追踪失败，难以长时间保持追踪并产生相当大的电耗开销，尤其无法满足行人等频繁移动的物体和能量受限场景的追踪。

发明内容

本发明的目的在于提供一种面向云台摄像头高效低能耗的移动物体追踪方法及装置，通过密切关注目标物体的状态变化来避免不必要的云台旋转，能够长时间保持实时物体追踪并最大限度减少旋转开销，以解决上述现有技术中存在的实际问题。

为实现上述目的，本发明提供一种面向云台摄像头的移动物体智能追踪方法，主要包括以下步骤：

步骤1，通过对运动物体位置和大小特征进行相关滤波，关联连续帧中出现的相同物体，抽象出各帧中目标物体的两个关键点，在云台摄像头视域的全景空间中构建运动轨迹；

步骤2，根据步骤1实时获取的运动轨迹中指示的物体状态变化信息，构建包含多层神经网络和定制化的奖惩机制的强化学习模型，根据物体运动轨迹的时空信息在线决策调整云台旋转幅度，并融合步骤1的追踪相同类型物体的学习经验加速模型收敛；

步骤3，基于步骤2强化学习模型，采用流水线方式处理其输出的旋转指令的决策生成和执行，合并或消除缓存队列中的冗余指令，同时采用帧采样方式跟踪低频移动物体，根据物体运动信息自适应调整采样间隔，以匹配云台旋转与物体移动速度。

进一步地，步骤1通过运动物体检测、跨帧目标关联和运动轨迹构造三个模块来完成，具体地，

步骤1.1，运动物体检测模块中利用光流法集成到主流云台摄像头使用的检测算法中，用以解决检测的物体像素不完整影响定位准确性的问题；

步骤1.2，跨帧目标关联模块中利用相关滤波在频域中进行元素操作匹配不同帧中的目标物体，用以消除背景噪声和其他物体对追踪的干扰；

步骤1.3，运动轨迹构造模块中利用以上两个模块不断获取到的位置、大小和准确轮廓等物体信息在相同空间中构建物体运动轨迹；

步骤2通过模型在线推断和学习经验融合两个模块来完成，具体地，

步骤2.1，模型在线推断模块中利用步骤1获取的信息，基于强化学习模型推断物体的下一个状态并相应进行适当的云台旋转，在保持追踪物体的同时最小化云台的旋转成本；

步骤2.2，学习经验融合模块将步骤1中追踪相同类型物体的学习经验融合到模型中，使模型尽快收敛做出合理推断，避免在初始追踪物体时出现冷启动问题；

步骤3通过旋转指令处理和视频帧采样两个模块来完成，具体地，

步骤3.1，旋转指令处理模块中采用流水线方式处理旋转指令的决策生成和执行，用以缩小机械转速和指令生成速度二者速度差异对物体追踪及时性的影响，以降低追踪失败的风险；

步骤3.2，视频帧采样模块中以动态的低频率提取样本帧进行处理，用以排除没有物体跟踪丢失风险的帧，减少生成指令来适配低速机械旋转；

进一步地，步骤1.1的运动物体检测模块通过以下步骤完成：

步骤1.1.1，将每帧图像划分为一系列正方形区域，其中区域边长a是帧宽度w和高度h的最大公约数，即a＝gcd(w,h)；

步骤1.1.2，对于任意帧F_t，取其前两帧F_t-1和F_t-2，计算相邻两帧间的像素点差值并取二者的交集D_t＝|F_t–F_t-1|∩|F_t-1–F_t-2|作为差分帧；

步骤1.1.3，对差分帧进行阈值化处理消除背景噪声后，提取其中最大连通区域的像素点集合；

步骤1.1.4，对于提取区域的每个像素(x,y)，基于Lucas-Kanade算法计算二维光流向量记为

获得物体完整轮廓以及在相邻帧间的运动模式。

进一步地，跨帧目标关联模块通过以下步骤完成：

步骤1.2.1，构造一个位置滤波器f_p以两倍物体大小对帧图像采样得到一组样本图像，并对每个样本图像的所有像素提取特征；

步骤1.2.2，构造一个大小过滤器f_s通过放大和缩小物体大小来形成一个小的样本物体大小集合；

步骤1.2.3，对于两个过滤器f_x(x＝p,s)，分别计算与每个图像或大小样本h_k的相关性

其中/>

和/>

是二维快速傅里叶变换及其逆运算，⊙和*分别表示逐元素乘法和复共轭，可以通过最小二乘优化方法找到合适的过滤器f_p和f_s以及对应的h_k实现最大相关性；

步骤1.2.4，利用获取的过滤器位置和大小在帧中定位目标物体中心的二维坐标和物体外接正方形的边长，调用所述步骤1.1.4，根据外接正方形获取物体轮廓；

迭代执行上述过程，直到三个连续帧中没有物体关联，则执行步骤1.1.2～1.1.4重新检测移动物体，当摄像头视域内有多个物体时，同样使用上述方法持续追踪确定的目标物体。

进一步地，运动轨迹构造模块通过以下步骤完成：

步骤1.3.1，根据所述步骤1.1.4中获得的物体轮廓及其内部像素集合P＝{(p_x ⁱ,p_y ⁱ)}(i＝1,…,n)，计算物体质心坐标(c_x,c_y)为c_v＝[(∑_i p_v ⁱ)/n](v＝x,y)，其中，运算符[]表示四舍五入至最接近整数，其中，为了减少小运动的影响，采用物体质心而不是外接正方形中心来表示物体的位置；

步骤1.3.2，分别抽取到图像中心的水平和垂直距离最大的轮廓点的x、y坐标构造一个虚拟边界点(b_x,b_y)，其中b_v＝max_i{|p_v ⁱ|}(v＝x,y)，其中，运算符||表示求坐标的绝对值，特别关注最接近帧图像边界的物体轮廓点的位置变化以使物体保持在摄像头的视域内；

步骤1.3.3，将上述物体质心(c_x,c_y)与虚拟边界点(b_x,b_y)这两个关键点在不同帧相对于图像中心的坐标统一转换为摄像头视域经过云台旋转生成的360°全景空间中绝对坐标(θ_cp,θ_ct)(θ_bp,θ_bt)，转换方法为

其中(θ_gp,θ_gt)是当前摄像头正对方向在全景空间中的水平和垂直角度，其中，θ_gu∈[-1/2Θ_gu,1/2Θ_gu](u＝p,t)，最大旋转角度Θ_gp和Θ_gt由制造商设置，w和h是帧图像的宽度和高度，视角/>

可以由arctan(d/2f)计算，其中，d和f分别为制造商提供的视网尺寸和焦距；

步骤1.3.4，基于当前帧F_m及其先前帧中物体关键点在全景空间中的坐标四元组构建物体运动轨迹向量记为

进一步地，模型在线推断模块通过以下步骤完成：

步骤2.1.1，构建一个强化学习模型，其中输入端有一个包含k个单元的长短期记忆LSTM结构，用于挖掘隐藏在运动轨迹中的隐式时空特征，后面承接两个相似的神经网络，一个基于提取的特征输出旋转动作，称为Actor，另一个用于判断动作价值，称为Critic，每个神经网络包含两个全连接层和一个输出层，将LSTM单元展平的序列输入到两个神经网络的全连接层，都采用tanh激活函数来增强学习能力，Actor网络的输出层以softmax作为激活函数，生成选择每个动作的概率分布以便输出概率最大的动作，其中，强化学习模型根据当前帧的状态序列记为S_m，执行旋转动作记为a_m，基于迭代学习更新的控制策略为π(S_m,a_m)；而Critic网络的输出层是一个线性神经元，估计从当前状态开始的预期总奖惩值，则π(S_m,a_m)的对应价值记为V_π(S_m)，为了适应在线推断的要求，在模型训练中应采用邻近策略优化PPO等促使模型快速收敛算法，平滑更新策略参数以尽快稳定生成合理决策；

步骤2.1.2，将步骤1.3.4所得的物体运动轨迹的最近k个四元组以及当前摄像头正对方向(θ_gp,θ_gt)作为状态输入强化学习模型，为了匹配模型接收输入的LSTM结构，帧F_m的实际输入状态序列调整为

其中前四个元素是按列从最近k个四元组中提取序列并与对应时刻摄像头正对方向进行差值，表示为

步骤2.1.3，在线推断出对应的云台旋转动作a_m＝(a_p ^m,a_t ^m)，其中a_p ^m和a_t ^m均从一个离散的动作空间A＝{ω*j}(j∈[-n_a,n_a]∩Z)选取，其中ω代表一个旋转角度单元，n_a是旋转幅度(最大角度单元数)，两个维度分别用(n_ap,n_at)表示，需要满足ω*n_au<1/2Θ_u(u＝p,t)；

步骤2.1.4，重定向摄像头并更新物体轨迹生成新状态S_m+1，并计算与动作a_m关联的奖惩值r_m以使模型不断学习，当物体保持在摄像头的视域中，主要关注其到视域边界的距离以及移动方向，设置位置奖惩值r_p ^m和方向奖惩值r_d ^m都基于状态S_m+1的摄像头正对方向(θ_gp ^m+1,θ_gt ^m+1)和物体运动序列

计算公式分别为r_p ^m＝1–2|θ_bp ^m+1|/Θ_p–2|θ_bt ^m+1|/Θ_t和r_d ^m＝-(θ_cp ^m+1θ_cp ^Δ+θ_ct ^m+1θ_ct ^Δ)/[(|θ_cp ^m+1|+|θ_ct ^m+1|)*(|θ_cp ^Δ|+|θ_ct ^Δ|)]，其中θ_cu ^Δ＝θ_cu ^m+1–θ_cu ^m(u＝p,t)；一旦物体离开摄像头的视域，云台会立即旋转到最近获得的物体质心对应的方向，以恢复对物体的追踪，对此情况需设置丢失奖惩值r_l ^m为足够大的负值，如-10，以体现动作a_m的不利影响；而云台旋转的成本奖惩值设置应与幅度相关，计算公式为r_c ^m＝1–a_p ^m/(ω*n_ap)–a_t ^m/(ω*n_at)，整体奖惩值r_m应包含上述全部4个奖惩部分，可以通过r_m＝μr_l ^m+(1–μ)(βr_p ^m+δr_d ^m+ηr_c ^m)计算获得，其中μ∈{0,1}表示动作a_m是否使物体脱离摄像头的视域，其中1为脱离的情况，而β，δ和η为设置的超参数，根据网格搜索(gridsearch)验证最优值为1，1，2。

进一步地，学习经验融合模块通过以下步骤完成：

步骤2.2.1，收集一定数量先前使用的物体追踪模型记录，各模型都采用步骤2.1.1中描述的LSTM和神经网络结构，假设共有n个模型，每个模型包含m个神经网络单元；

步骤2.2.2，用矩阵Ξ_ij＝(ξ_ij)_n*m表示所有模型的神经网络参数，其中元素ξ_ij表示模型i中第j个单元的参数；

步骤2.2.3，将不同模型对应单元的参数取加权平均值得到一个聚合模型，其中的参数元素通过

其中ρ_i代表模型i的经验权重，通常所有先前模型权重相同，而当其中有模型追踪过相同物体，可以通过ReID方法判断，则为相应模型设置高权重以借鉴更多经验。

进一步地，步骤3.1的旋转指令处理模块通过以下步骤完成：

步骤3.1.1，在每次模型基于步骤2.1.4输出动作后，生成旋转指令I_r＝(a_p,a_t,θ_gp,θ_gt)加入指令队列，其中(a_p,a_t)是推断出的云台旋转动作，而(θ_gp,θ_gt)表示执行动作时摄像头的正对方向；

步骤3.1.2，设置一个异步控制器每次从指令队列中取一个旋转指令，通过调用控制电机的命令执行机械旋转；对于包含摄像头正对方向(θ_gp ⁱ,θ_gt ⁱ)与当前实际摄像头正对方向(θ_gp ^c,θ_gt ^c)不一致的指令进行消除，以避免执行过时指令使旋转混乱；

步骤3.1.3，包含小幅度旋转动作的指令缓存在队列中不立即执行旋转，仅虚拟更新摄像头正对方向和物体的相对坐标，对于一系列连续的小幅度旋转指令

满足θ_gp ^k+1＝θ_gp ^k+a_p ^k(u＝p,t)，可以将这些指令组合成一条新指令I_r ^b＝(θ_gp ^m–θ_gp ¹,θ_gt ^m–θ_gt ¹,θ_gp ¹,θ_gt ¹)，随后仅执行新构造的指令。

进一步地，步骤3.2的视频帧采样模块通过以下步骤完成：

步骤3.2.1，将视频帧以摄像头设定的帧率，通常为每秒15或30帧，连续缓存到一个队列中；

步骤3.2.2，以动态变化的样本帧间隔帧数T_s进行帧采样，结合旋转执行速度和当前追踪物体的位置和运动方向，递归计算样本帧间隔帧数T_s ^k＝T_s ^k-1*(1+σmin{r_p ^k-1,r_d ^k-1})*v_r ^k-1/v_r ^k，其中v_r表示每秒执行的旋转次数，r_p和r_d分别是步骤2.1.3中描述的物体位置和方向奖惩值，因子σ∈(0,1)用于限制物体运动影响。这样可以在旋转执行速度降低且物体不易脱离摄像头视域时降低帧处理频率，即增加采样间隔，反之亦然；

步骤3.2.3，只将样本帧中提取的物体运动信息输入步骤2.1.1中构建的模型。

同时，该发明还提供一种面向云台摄像头的移动物体智能追踪装置，该装置包括物体跟踪组件，智能决策组件和旋转控制组件，其中，物体跟踪组件通过对运动物体位置和大小特征进行相关滤波，关联连续帧中出现的相同物体，抽象出各帧中目标物体的两个关键点，在云台摄像头视域的全景空间中构建运动轨迹；智能决策组件根据物体跟踪组件实时获取的运动轨迹中指示的物体状态变化信息，构建包含多层神经网络和定制化的奖惩机制的强化学习模型，根据物体运动轨迹的时空信息在线决策调整云台旋转幅度，并融合物体跟踪组件的追踪相同类型物体的学习经验加速模型收敛；旋转控制组件基于智能决策组件的强化学习模型，采用流水线方式处理其输出的旋转指令的决策生成和执行，合并或消除缓存队列中的冗余指令，同时采用帧采样方式跟踪低频移动物体，根据物体运动信息自适应调整采样间隔，以匹配云台旋转与物体移动速度。

与现有技术相比，本发明具有如下优点和有益效果：

本发明利用智能移动跟踪算法，结合云台功能，实现高效低电耗的移动物体智能追踪方法，极大地提升了监控的有效性和智能性。相比现有方法在持续追踪时间和旋转电耗上都有大幅度改进，非常适合用于各种户外太阳能供电的监控场景。同时该方法实现不复杂且对硬件要求不高，方便构建在商用云台摄像头芯片上。可以预见，制造搭载本发明系统的云台摄像头能够为工农业发展提供有利保障，带来很高的社会效益及经济效益。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为现有技术中基于格点追踪方法在云台水平方向的追踪过程；

图2为现有技术中基于目标追踪方法在云台水平方向的追踪过程；

图3为本发明实施例的基础架构图，包括三个组件间的交互过程；

图4为本发明实施例物体跟踪组件的摄像头视域全景空间；

图5为本发明实施例智能决策组件的强化学习模型。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。本申请的说明书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里描述的那些以外的顺序实施。

下面结合附图对本发明进一步说明。

本发明实施例提供一种面向云台摄像头的移动物体智能追踪方法，主要包括以下步骤：

其中，步骤1通过运动物体检测、跨帧目标关联和运动轨迹构造三个模块来完成，具体地，

步骤1.1的运动物体检测模块通过以下步骤完成：

获得物体完整轮廓以及在相邻帧间的运动模式。

跨帧目标关联模块通过以下步骤完成：

其中/>

和/>

如图4所示，运动轨迹构造模块通过以下步骤完成：

如图5所示，模型在线推断模块通过以下步骤完成：

步骤2.1.1，构建一个强化学习模型，其中输入端有一个包含k个单元的长短期记忆LSTM结构，用于挖掘隐藏在运动轨迹中的隐式时空特征，后面承接两个相似的神经网络，一个基于提取的特征输出旋转动作，称为Actor，另一个用于判断动作价值，称为Critic，每个神经网络包含两个全连接层和一个输出层，将LSTM单元展平的序列输入到两个神经网络的全连接层，都采用tanh激活函数来增强学习能力，Actor网络的输出层以softmax作为激活函数，生成选择每个动作的概率分布以便输出概率最大的动作，其中，强化学习模型根据当前帧的状态序列记为S_m，执行旋转动作记为a_m，基于迭代学习更新的控制策略为π(S_m,a_m)；而Critic网络的输出层是一个线性神经元，估计从当前状态开始的预期总奖惩值，则π(S_m,a_m)的对应价值记为V_π(S_m)，为了适应在线推断的要求，在模型训练中应采用邻近策略优化(proximal policy optimization，PPO)等促使模型快速收敛算法，平滑更新策略参数以尽快稳定生成合理决策；

学习经验融合模块通过以下步骤完成：

其中ρ_i代表模型i的经验权重，通常所有先前模型权重相同，而当其中有模型追踪过相同物体，可以通过ReID(Re-identification)方法判断，则为相应模型设置高权重以借鉴更多经验。

如图3所示，步骤3.1的旋转指令处理模块通过以下步骤完成：

步骤3.2的视频帧采样模块通过以下步骤完成：

同时，该发明实施例还提供一种面向云台摄像头的移动物体智能追踪装置，如图3所示，该装置包括物体跟踪组件，智能决策组件和旋转控制组件，其中，物体跟踪组件通过对运动物体位置和大小特征进行相关滤波，关联连续帧中出现的相同物体，抽象出各帧中目标物体的两个关键点，在云台摄像头视域的全景空间中构建运动轨迹；智能决策组件根据物体跟踪组件实时获取的运动轨迹中指示的物体状态变化信息，构建包含多层神经网络和定制化的奖惩机制的强化学习模型，根据物体运动轨迹的时空信息在线决策调整云台旋转幅度，并融合物体跟踪组件的追踪相同类型物体的学习经验加速模型收敛；旋转控制组件基于智能决策组件的强化学习模型，采用流水线方式处理其输出的旋转指令的决策生成和执行，合并或消除缓存队列中的冗余指令，同时采用帧采样方式跟踪低频移动物体，根据物体运动信息自适应调整采样间隔，以匹配云台旋转与物体移动速度。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

Claims

1.一种面向云台摄像头的移动物体智能追踪方法，其特征在于，所述方法主要包括以下步骤：

2.根据权利要求1所述的一种面向云台摄像头的移动物体智能追踪方法，其特征在于，所述步骤1通过运动物体检测、跨帧目标关联和运动轨迹构造三个模块来完成，具体地，

所述步骤2通过模型在线推断和学习经验融合两个模块来完成，具体地，

所述步骤3通过旋转指令处理和视频帧采样两个模块来完成，具体地，

步骤3.2，视频帧采样模块中以动态的低频率提取样本帧进行处理，用以排除没有物体跟踪丢失风险的帧，减少生成指令来适配低速机械旋转。

3.根据权利要求2所述的一种面向云台摄像头的移动物体智能追踪方法，其特征在于，所述步骤1.1的运动物体检测模块通过以下步骤完成：

获得物体完整轮廓以及在相邻帧间的运动模式。

4.根据权利要求3所述的一种面向云台摄像头的移动物体智能追踪方法，其特征在于，所述跨帧目标关联模块通过以下步骤完成：

其中/>

和/>

5.根据权利要求3所述的一种面向云台摄像头的移动物体智能追踪方法，其特征在于，所述运动轨迹构造模块通过以下步骤完成：

其中(θ_gp,θ_gt)是当前摄像头正对方向在全景空间中的水平和垂直角度，其中，θ_gu∈[-1/2Θ_gu,1/2Θ_gu](u＝p,t)，最大旋转角度Θ_gp和Θ_gt由制造商设置，w和h是帧图像的宽度和高度，视角

6.根据权利要求5所述的一种面向云台摄像头的移动物体智能追踪方法，其特征在于，所述模型在线推断模块通过以下步骤完成：

计算公式分别为

和/>

其中θ_cu ^Δ＝θ_cu ^m+1–θ_cu ^m(u＝p,t)；一旦物体离开摄像头的视域，云台会立即旋转到最近获得的物体质心对应的方向，以恢复对物体的追踪，对此情况需设置丢失奖惩值r_l ^m为足够大的负值，如-10，以体现动作a_m的不利影响；而云台旋转的成本奖惩值设置应与幅度相关，计算公式为r_c ^m＝1–a_p ^m/(ω*n_ap)–a_t ^m/(ω*n_at)，整体奖惩值r_m应包含上述全部4个奖惩部分，可以通过r_m＝μr_l ^m+(1–μ)(βr_p ^m+δr_d ^m+ηr_c ^m)计算获得，其中μ∈{0,1}表示动作a_m是否使物体脱离摄像头的视域，其中1为脱离的情况，而β，δ和η为设置的超参数，根据网格搜索(grid search)验证最优值为1，1，2。

7.根据权利要求6所述的一种面向云台摄像头的移动物体智能追踪方法，其特征在于，所述学习经验融合模块通过以下步骤完成：

8.根据权利要求6所述的一种面向云台摄像头的移动物体智能追踪方法，其特征在于，所述步骤3.1的旋转指令处理模块通过以下步骤完成：

9.根据权利要求6所述的一种面向云台摄像头的移动物体智能追踪方法，其特征在于，所述步骤3.2的视频帧采样模块通过以下步骤完成：

步骤3.2.2，以动态变化的样本帧间隔帧数T_s进行帧采样，结合旋转执行速度和当前追踪物体的位置和运动方向，递归计算样本帧间隔帧数T_s ^k＝T_s ^k-1*(1+σmin{r_p ^k-1,r_d ^k-1})*v_r ^k ^-1/v_r ^k，其中v_r表示每秒执行的旋转次数，r_p和r_d分别是步骤2.1.3中描述的物体位置和方向奖惩值，因子σ∈(0,1)用于限制物体运动影响。这样可以在旋转执行速度降低且物体不易脱离摄像头视域时降低帧处理频率，即增加采样间隔，反之亦然；

10.一种面向云台摄像头的移动物体智能追踪装置，其特征在于，所述装置包括物体跟踪组件，智能决策组件和旋转控制组件，其中，物体跟踪组件通过对运动物体位置和大小特征进行相关滤波，关联连续帧中出现的相同物体，抽象出各帧中目标物体的两个关键点，在云台摄像头视域的全景空间中构建运动轨迹；智能决策组件根据物体跟踪组件实时获取的运动轨迹中指示的物体状态变化信息，构建包含多层神经网络和定制化的奖惩机制的强化学习模型，根据物体运动轨迹的时空信息在线决策调整云台旋转幅度，并融合物体跟踪组件的追踪相同类型物体的学习经验加速模型收敛；旋转控制组件基于智能决策组件的强化学习模型，采用流水线方式处理其输出的旋转指令的决策生成和执行，合并或消除缓存队列中的冗余指令，同时采用帧采样方式跟踪低频移动物体，根据物体运动信息自适应调整采样间隔，以匹配云台旋转与物体移动速度。