CN106373160A - 一种基于深度强化学习的摄像机主动目标定位方法 - Google Patents

一种基于深度强化学习的摄像机主动目标定位方法 Download PDF

Info

Publication number
CN106373160A
CN106373160A CN201610797462.XA CN201610797462A CN106373160A CN 106373160 A CN106373160 A CN 106373160A CN 201610797462 A CN201610797462 A CN 201610797462A CN 106373160 A CN106373160 A CN 106373160A
Authority
CN
China
Prior art keywords
image
network
net
target
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610797462.XA
Other languages
English (en)
Other versions
CN106373160B (zh
Inventor
刘华平
张辉
孙富春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201610797462.XA priority Critical patent/CN106373160B/zh
Publication of CN106373160A publication Critical patent/CN106373160A/zh
Application granted granted Critical
Publication of CN106373160B publication Critical patent/CN106373160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种在图像采集应用中摄像机主动调整进行目标定位的方法,属于模式识别技术领域和摄像机主动定位技术领域。该方法包括训练一个评价摄像机定位效果的深度神经网络;进行多次目标定位试验,在定位实验过程中,训练一个拟合强化学习值函数的深度神经网络,通过深度神经网络判断摄像机“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”7种操作的优劣;采用决策网络根据摄像机当前获取的图像信息,对摄像机操作做出决策。该发明中提出的方法,基于深度强化学习算法,提高了采集图像的质量。能够适应不同的目标定位任务,自主学习定位方法,人为参与环节很少,是一个摄像机主动学习,自主目标定位的方法。

Description

一种基于深度强化学习的摄像机主动目标定位方法
技术领域
本发明涉及一种基于深度强化学习的摄像机主动目标定位方法,属于模式识别技术领域和摄像机主动定位技术领域。
背景技术
近年来,摄像机已经越来越多的应用于生产生活中,如:安保监控,车辆检测,目标跟踪,人脸识别。现阶段的应用场景中,摄像机提供图像信息,使用人工监控或目标检测算法等方式实现相应应用。在整个摄像机图像采集过程中,摄像机固定不动或者按照指定的路线循环调整角度,不能根据实际场景,主动调整视野,对目标进行主动定位。
现有的技术文献中,发明专利“摄像机红外主动跟踪装置及采用该装置的摄像机控制系统”,公开号为102376156A,通过接收红外发射装置发出的红外信号并根据该信号对目标位置进行分析判定的目标信号拾取器,调整摄像机位置。该方法的缺点是,只能应用于对红外信号能够判别的目标定位场景,不能根据不同的应用做出相应调整。另外,该方法需要添加额外的红外装置,不是直接根据图像信息做出调整。
深度神经网络包含多层神经网络,后一层神经网络的输入是前一层神经网络的输出,一般情况下每一层神经网络都会有采用一种非线性的激励函数,也称激活函数,常用的激励函数有,ReLU函数:ReLU(a)=max(0,a),其中a为输入量,如果输入量a小于0则输出为0,否则输出其本身;Sigmoid函数:其中e为自然常数。
发明内容
本发明的目的是提出一种基于深度强化学习的摄像机主动目标定位方法,提供一种在图像采集应用中摄像机主动调整进行目标定位的方法,该方法基于深度强化学习算法,提高了采集图像的质量。本发明摄像机可以通过“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”七种操作方式定位目标物体,利用深度神经网络作为强化学习值函数的逼近器,将图像信息输入深度神经网络,从而确定当前摄像机应该做出何种操作来定位目标所在位置。
本发明提出的一种基于深度强化学习的摄像机主动目标定位方法,其特征在于,该方法包括以下步骤:
(1)训练一个评价摄像机定位效果的深度神经网络,将该网络命名为评价网络NR由多层神经网络组成;
(2)进行多次目标定位试验,在定位实验过程中,训练一个拟合强化学习值函数的深度神经网络,将该网络命名为决策网络NQ,通过决策网络NQ判断摄像机7种操作的优劣;
(3)完成决策网络NQ训练后,采用决策网络NQ根据摄像机当前获取的图像信息,对摄像机操作做出决策。
本发明提出的基于深度强化学习的摄像机主动目标定位方法的技术特点及有益效果:
为了实现摄像机对目标主动定位的应用,本发明结合了深度神经网络算法和强化学习算法,根据摄像机拍摄到的图像,控制摄像机转动,从而实现目标定位的摄像机控制系统。强化学习又称增强学习,通过不断试错积累经验,根据积累的经验优化控制策略实现完成目标的目的。将强化学习算法应用于摄像机主动定位,摄像机获取的图像作为学习的信息来源,系统需要有很好地处理图像数据的能力。深度神经网络能够有效地提取图像特征,而且可以通过学习的方式优化特征,使得特征适应于当前任务。
本方法具有以下有益效果:
1、本发明中的用于摄像机主动目标定位方法,决策网络根据当前图像信息,选择摄像机操作,完成目标定位,定位过程主动完成,不需要人为参与。
2、本发明中摄像机主动定位目标,对不同的目标定位任务,只需训练不同的评价网络,其余的学习算法具有普适性,通用性。
3、本发明采用评价网络对图像进行质量评价的方式,评价摄像机目标定位的效果,以此确定摄像机执行当前操作的回报,让摄像机从反复的试验中,自主学习实现目标定位方法。
具体实施方式
本发明提出的基于深度强化学习的摄像机主动目标定位方法的具体实现方式,包括以下步骤:
(1)训练一个评价摄像机定位效果的深度神经网络,将该网络命名为评价网络NR由多层神经网络组成,具体步骤如下:
(1-1)设置评价网络NR:评价网络NR的网络结构依次为:输入层为RGB图像,图像高为Hnet,宽为Wnet,(一般设置为Hnet=Wnet=256像素),由于RGB图像为3个维度,所以输入层的维度为Hnet×Wnet×3;LRC层为卷积神经网络,激励函数为ReLU函数(LRC层数一般取值为3~7之间);LRP层为全连接层(LRP的层数一般取值为2~4之间),前LRP-1层的激励函数也为ReLU函数,最后一层全连接层激励函数为Sigmoid函数,且设置维度为1,作为评价网络NR输出,评价网络NR输出定义为评价值;将评价网络NR中的所有参数统一表示为θR(参数为随机初始化,在训练阶段迭代更新),评价网络NR逐层的运算过程表示一个函数映射,命名为评价函数其中·表示网络的输入图像,实际计算中会输入不同的图像;R表示实数,函数意义为将维度为Hnet×Wnet×3的实数空间图像映射到1维实数空间的评价值;
(1-2)采集训练评价网络NR的数据集:具体步骤如下:
(1-2-1)摄像机对含有目标的场景进行图像采集,目标被拍摄的角度和大小随机,采集到的图像为RGB图像,高为Horigin,宽为Worigin,此值由实际相机决定,总共采集Morigin张图像,记为IOi,其中i=1,2,…,Morigin,Morigin取值大于10000张较为合适;
(1-2-2)以原始图像的左上角为坐标原点,向下为x轴,向右为y轴;使用矩形框对每一张采集到的图像中的目标位置进行标注,将矩形框表示为((x0,y0);(x1,y2))i其中i=1,2,…,Morigin,(x0,y0)和(x1,y1)为矩形框左上角和右下角在图像中的坐标;
(1-2-3)从每一张原始图像中遍历截取高h,宽w的所有图像,其中h取值遍历区间[Horigin/2,Horigin]内的所有整数,w取值遍历区间[Worigin/2,Worigin]内的所有整数,每张原始图像可以截取Mcut张图像,总截取图像数为Morigin×Mcut,获取的截取图像记为ICi,j,其中i=1,2,…,Morigin,j=1,2,…,Mcut
(1-2-4)计算截取图像ICi,j和原始图像IOi中目标所在的矩形框((x0,y0);(x1,y2))i的面积交并比作为每一张截取图像ICi,j的品质分数si,j,即:如果截取图像ICi,j的面积为矩形框((x0,y0);(x1,y2))i的面积为两者相交部分的面积为则每一张截取图像ICi,j的品质分数
(1-2-5)通过双线性插值法,将所有截取图像的大小变化为Hnet*Wnet,并对所有截取图像重新编号后获得训练数据集其中Mtrain=Morigin×Mcut为数据集中图像数量,数据集D中每个样本对应的品质分数作为训练数据集的标签,记为
(1-3)从数据集D中随机挑选MR,b组样本,记为批量样本以及标签S中与其对应的批量标签一般批量大小MR,b取值为100;
(1-4)根据步骤(1-1)的评价函数计算评价网络NR对批量样本Dbatch的评价值其中i=1,2,…,MR,b
(1-5)定义评价网络NR的优化目标为其中为第i个样本di输入网络后输出的评价值,将最小化评价值和标签之间的欧式距离作为优化目标训练网络,计算优化目标对评价网络参数θR的梯度为
(1-6)采用随机梯度下降法,更新评价网络参数其中αR为评价网络的学习率,一般设置为0.01;
(1-7)重复上述步骤(1-3)~(1-6),不断更新评价网络参数θR,直到评价网络收敛,完成评价网络训练,评价网络收敛的依据是连续CR次优化目标J小于阈值ηR,一般CR取100次,阈值ηR取0.05;
(2)进行多次目标定位试验,在定位实验过程中,训练一个拟合强化学习值函数的深度神经网络,将该网络命名为决策网络NQ,通过决策网络NQ判断摄像机7种操作的优劣,具体步骤如下:
(2-1)设置决策网络NQ结构依次为:输入层为RGB图像,图像高为Hnet,宽为Wnet,与评价网络相同;LQC层为卷积神经网络,激励函数为ReLU函数(LQC一般取值为3~7之间);LQP层为全连接层(LQP一般取值为2~4之间),前LQP-1层的激励函数也为ReLU函数,最后一层全连接层无激励函数,设置维度为7,作为网络输出,将决策网络NQ中的全部参数统一表示为θQ(参数为随机初始化,在训练阶段迭代更新),决策网络NQ逐层的运算过程表示为一个函数映射,命名为决策函数其中·表示网络的输入图像,实际计算中会输入不同的图像;R表示实数,函数意义将维度为Hnet×Wnet×3的实数空间图像映射到7维实数空间的向量输出;7维向量输出对应摄像机7种操作的决策值,7种操作分别为:“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”;
(2-2)设置一个深度神经网络,其网络结构与决策网络NQ结构完全相同,命名为靶标网络NT,网络的参数表示为θT,令θT=θQ,对应的靶标函数为其中·表示网络的输入图像,实际计算中会输入不同的图像;R表示实数,函数意义为将维度为Hnet×Wnet×3的实数空间图像映射到7维实数空间的向量输出;
(2-3)设置一个可以存储Mbuffer组数据的缓存区B,设置缓存区B中当前存储样本编号Msample=0;
(2-4)设置一个训练计数器c1=0;
(2-5)设置一个连续成功定位计数器c2=0;
(2-5)设置当前时间t=0;
(2-6)初始化摄像机到常规位置,视野最大化,开始一次定位试验;
(2-7)摄像机采集当前时刻的图像,采用双线性插值法,把图像大小变换为Hnet*Wnet,得到t时刻的RGB图像It,将图像It输入评价网络NR,得到图像It的评价值
(2-8)从“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”七种操作中根据以下法则挑选一种操作,记为at
(2-8-1)产生一个在区间[0,1]之间随机数q,如果q>ε,则将图像It输入决策网络NQ中,得到7维的决策网络输出决策值7个决策值分别对应“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”七种操作,选择7个决策值中最大值对应的操作,作为选择的操作at;其中,ε为训练中采取随机策略的概率,取值0~1之间,一般取值为0.1;
(2-8-2)如果(2-8-1)中产生的随机数q≤ε,根据评价值yt选择操作如下:如果yt>β,选择“不变”操作作为操作at,如果yt≤β,从除去“不变”操作外的其余6种操作中随机选择1种操作作为操作at;β为设置的摄像机成功定位目标对应的评价分界值,取值0~1之间,一般取值为0.6;
(2-9)摄像机执行步骤(2-8)选择的操作at,获得新的图像,采用双线性插值法,把图像大小变换为Hnet*Wnet,得到t+1时刻的RGB图像It+1;将图像It+1输入评价网络NR,得到图像It+1的评价值
(2-10)计算当前操作的回报值,记为rt
(2-10-1)如果执行操作at为“不变”,根据图像It+1的评价值st+1计算回报值,若评价值st+1>β,则回报值rt=Ps;若评价值st+1≤β,则当前操作的回报值rt=-Ps;其中Ps为正数,一般Ps取值为1;
(2-10-2)如果执行操作at为其余任意一种操作,则根据图像It和It+1的评价差值计算回报值,评价差值Δs=st+1-st,如果Δs>0,则回报值rt=Pg,否则,回报值rt=-Pg;其中Pg都为正数,一般Pg取值为0.1;
(2‐11)计算当前操作的终止标志,记为ut:如果执行操作at为“不变”,则ut=0;否则,ut=1;
(2-12)将图像It,执行操作at,回报值rt,终止标志ut,图像It+1组成一组五元组(It,at,rt,ut,It+1)存入缓存区B中编号Msample的存储空间更新编号Msample,如果Msample≥Mbuffer,则Msample=0,否则,Msample=Msample+1;
(2-13)如果缓存区B中存储的四元组数量小于Mstart,则跳转到步骤(2-21);否则,转步骤(2-14),其中Mstart为开始训练时的样本数,一般取值为1000;
(2-14)开始决策网络NQ训练,从缓存区B中随机选取MQ,b组五元组样本数据,将MQ,b组五元组数据重新标号,记为其中j=1,2,3...MQ,b;MQ,b为每次训练决策网络NQ选取的样本批量数,一般取值为32;
(2-15)采用靶标网络NT,计算每个样本的靶标函数值定义靶标估计值其中γ为折损参数,一般设置为0.99;j=1,2,3...MQ,b
(2-16)计算当前决策网络NQ对每个样本的七个操作的决策值其中j=1,2,3...MQ,b
(2-17)选择每个样本的七个决策值中,对应操作aj的决策值,记为
(2-18)定义决策网络NQ的优化目标为计算优化目标对评价网络参数θQ的梯度为
(2-19)采用随机梯度下降法,更新决策网络参数其中αR为决策网络的学习率,一般设置为0.0001;
(2-20)更新计数值c1=c1+1;如果c1>Count,更新靶标网络NT的参数θT=θQ,清零c1=0,否则,不更新靶标网络NT的参数;
(2-21)如果操作at为“不变”,评价值st+1>β,则更新连续成功定位计数器c2=c2+1;如果操作at为“不变”,评价值st+1≤β,则清零连续成功定位计数器c2=0;如果操作at为其余操作,则不更新c2
(2-22)如果操作at为“不变”,则此次定位试验结束,设置t=0重新开始计时,跳转到步骤(2-23);如果执行操作at为其余六种操作之一,则更新时间t=t+1,跳转到步骤(2-7),继续此次目标定位试验;
(2-23)判断网络训练是否完成,如果连续成功定位计数器c2>CQ,则完成决策网络NQ训练,其中CQ为设置的连续成功次数的阈值,一般取值为100次;否则,继续训练,跳转到步骤(2-6);
(3)完成决策网络NQ训练后,采用决策网络NQ根据摄像机当前获取的图像信息,对摄像机操作做出决策;具体步骤如下:
(3-1)摄像机采集当前图像,采用双线性插值法,把图像大小变换为Hnet*Wnet,得到图像I;
(3-2)将图像I输入决策网络中,得到7种操作的决策值选择7种操作中决策值最大的操作a;
(3-3)摄像机执行操作a;
(3-4)重复步骤(3-1)~步骤(3-3),根据学习到的决策网络完成目标定位任务。

Claims (6)

1.一种基于深度强化学习的摄像机主动目标定位方法,其特征在于,该方法包括以下步骤:
(1)训练一个评价摄像机定位效果的深度神经网络,将该网络命名为评价网络NR由多层神经网络组成;
(2)进行多次目标定位试验,在定位实验过程中,训练一个拟合强化学习值函数的深度神经网络,将该网络命名为决策网络NQ,通过决策网络NQ判断摄像机7种操作的优劣;
(3)完成决策网络NQ训练后,采用决策网络NQ根据摄像机当前获取的图像信息,对摄像机操作做出决策。
2.如权利要求1所述方法,其特征在于,所述步骤(1)具体步骤如下:
(1-1)设置评价网络NR:评价网络NR的网络结构依次为:输入层为RGB图像,图像高为Hnet,宽为Wnet,由于RGB图像为3个维度,所以输入层的维度为Hnet×Wnet×3;LRC层为卷积神经网络,激励函数为ReLU函数;LRP层为全连接层,前LRP-1层的激励函数也为ReLU函数,最后一层全连接层激励函数为Sigmoid函数,且设置维度为1,作为评价网络NR输出,评价网络NR输出定义为评价值;将评价网络NR中的所有参数统一表示为θR,评价网络NR逐层的运算过程表示一个函数映射,命名为评价函数 其中·表示网络的输入图像,实际计算中会输入不同的图像;R表示实数,函数意义为将维度为Hnet×Wnet×3的实数空间图像映射到1维实数空间的评价值;
(1-2)采集训练评价网络NR的数据集:
(1-3)从数据集D中随机挑选MR,b组样本,记为批量样本以及标签S中与其对应的批量标签
(1-4)根据步骤(1-1)的评价函数计算评价网络NR对批量样本Dbatch的评价值其中i=1,2,…,MR,b
(1-5)定义评价网络NR的优化目标为其中 为第i个样本di输入网络后输出的评价值,将最小化评价值和标签之间的欧式距离作为优化目标训练网络,计算优化目标对评价网络参数θR的梯度为
(1-6)采用随机梯度下降法,更新评价网络参数其中αR为评价网络的学习率;
(1-7)重复上述步骤(1-3)~(1-6),不断更新评价网络参数θR,直到评价网络收敛,完成评价网络训练,评价网络收敛的依据是连续CR次优化目标J小于阈值ηR
3.如权利要求2所述方法,其特征在于,所述步骤(2)具体步骤如下:
(2-1)设置决策网络NQ结构依次为:输入层为RGB图像,图像高为Hnet,宽为Wnet,与评价网络相同;LQC层为卷积神经网络,激励函数为ReLU函数;LQP层为全连接层,前LQP-1层的激励函数也为ReLU函数,最后一层全连接层无激励函数,设置维度为7,作为网络输出,将决策网络NQ中的全部参数统一表示为θQ,决策网络NQ逐层的运算过程表示为一个函数映射,命名为决策函数其中·表示网络的输入图像,实际计算中会输入不同的图像;R表示实数,函数意义将维度为Hnet×Wnet×3的实数空间图像映射到7维实数空间的向量输出;7维向量输出对应摄像机7种操作的决策值,7种操作分别为:“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”;
(2-2)设置一个深度神经网络,其网络结构与决策网络NQ结构完全相同,命名为靶标网络NT,网络的参数表示为θT,令θT=θQ,对应的靶标函数为其中·表示网络的输入图像,实际计算中会输入不同的图像;R表示实数,函数意义为将维度为Hnet×Wnet×3的实数空间图像映射到7维实数空间的向量输出;
(2-3)设置一个存储Mbuffer组数据的缓存区B,设置缓存区B中当前存储样本编号Msample=0;
(2-4)设置一个训练计数器c1=0;
(2-5)设置一个连续成功定位计数器c2=0;
(2-5)设置当前时间t=0;
(2-6)初始化摄像机到常规位置,视野最大化,开始一次定位试验;
(2-7)摄像机采集当前时刻的图像,采用双线性插值法,把图像大小变换为Hnet*Wnet,得到t时刻的RGB图像It,将图像It输入评价网络NR,得到图像It的评价值
(2-8)从“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”七种操作中根据以下法则挑选一种操作,记为at
(2-9)摄像机执行步骤(2-8)选择的操作at,获得新的图像,采用双线性插值法,把图像大小变换为Hnet*Wnet,得到t+1时刻的RGB图像It+1;将图像It+1输入评价网络NR,得到图像It+1的评价值
(2-10)计算当前操作的回报值,记为rt
(2-10-1)如果执行操作at为“不变”,根据图像It+1的评价值st+1计算回报值,若评价值st+1>β,则回报值rt=Ps;若评价值st+1≤β,则当前操作的回报值rt=-Ps;其中Ps为正数;
(2-10-2)如果执行操作at为其余任意一种操作,则根据图像It和It+1的评价差值计算回报值,评价差值Δs=st+1-st,如果Δs>0,则回报值rt=Pg,否则,回报值rt=-Pg;其中Pg都为正数;
(2‐11)计算当前操作的终止标志,记为ut:如果执行操作at为“不变”,则ut=0;否则,ut=1;
(2-12)将图像It,执行操作at,回报值rt,终止标志ut,图像It+1组成一组五元组 (It,at,rt,ut,It+1)存入缓存区B中编号Msample的存储空间更新编号Msample,如果Msample≥Mbuffer,则Msample=0,否则,Msample=Msample+1;
(2-13)如果缓存区B中存储的四元组数量小于Mstart,则跳转到步骤(2-21);否则,转步骤(2-14),其中Mstart为开始训练时的样本数;
(2-14)开始决策网络NQ训练,从缓存区B中随机选取MQ,b组五元组样本数据,将MQ,b组五元组数据重新标号,记为其中j=1,2,3...MQ,b;MQ,b为每次训练决策网络NQ选取的样本批量数;
(2-15)采用靶标网络NT,计算每个样本的靶标函数值定义靶标估计值其中γ为折损参数;j=1,2,3...MQ,b
(2-16)计算当前决策网络NQ对每个样本的七个操作的决策值其中j=1,2,3...MQ,b
(2-17)选择每个样本的七个决策值中,对应操作aj的决策值,记为
(2-18)定义决策网络NQ的优化目标为计算优化目标对评价网络参数θQ的梯度为
(2-19)采用随机梯度下降法,更新决策网络参数其中αR为决策网络的学习率;
(2-20)更新计数值c1=c1+1;如果c1>Count,更新靶标网络NT的参数θT=θQ,清零c1=0,否则,不更新靶标网络NT的参数;
(2-21)如果操作at为“不变”,评价值st+1>β,则更新连续成功定位计数器c2=c2+1;如果操作at为“不变”,评价值st+1≤β,则清零连续成功定位计数器c2=0;如果操作at为 其余操作,则不更新c2
(2-22)如果操作at为“不变”,则此次定位试验结束,设置t=0重新开始计时,跳转到步骤(2-23);如果执行操作at为其余六种操作之一,则更新时间t=t+1,跳转到步骤(2-7),继续此次目标定位试验;
(2-23)判断网络训练是否完成,如果连续成功定位计数器c2>CQ,则完成决策网络NQ训练,其中CQ为设置的连续成功次数的阈值;否则,继续训练,跳转到步骤(2-6)。
4.如权利要求3所述方法其特征在于,所述步骤(1-2)具体步骤如下:
(1-2-1)摄像机对含有目标的场景进行图像采集,目标被拍摄的角度和大小随机,采集到的图像为RGB图像,高为Horigin,宽为Worigin,此值由实际相机决定,总共采集Morigin张图像,记为IOi,其中i=1,2,…,Morigin,Morigin
(1-2-2)以原始图像的左上角为坐标原点,向下为x轴,向右为y轴;使用矩形框对每一张采集到的图像中的目标位置进行标注,将矩形框表示为((x0,y0);(x1,y2))i其中i=1,2,…,Morigin,(x0,y0)和(x1,y1)为矩形框左上角和右下角在图像中的坐标;
(1-2-3)从每一张原始图像中遍历截取高h,宽w的所有图像,其中h取值遍历区间[Horigin/2,Horigin]内的所有整数,w取值遍历区间[Worigin/2,Worigin]内的所有整数,每张原始图像可以截取Mcut张图像,总截取图像数为Morigin×Mcut,获取的截取图像记为ICi,j,其中i=1,2,…,Morigin,j=1,2,…,Mcut
(1-2-4)计算截取图像ICi,j和原始图像IOi中目标所在的矩形框((x0,y0);(x1,y2))i的面积交并比作为每一张截取图像ICi,j的品质分数si,j,即:如果截取图像ICi,j的面积为矩形框((x0,y0);(x1,y2))i的面积为两者相交部分的面积为则每一张截取图像ICi,j的品质分数
(1-2-5)通过双线性插值法,将所有截取图像的大小变化为Hnet*Wnet,并对所有截取图像重新编号后获得训练数据集其中Mtrain=Morigin×Mcut为数据集 中图像数量,数据集D中每个样本对应的品质分数作为训练数据集的标签,记为
5.如权利要求3所述方法,其特征在于,所述步骤(2-8)具体包括以下步骤:
(2-8-1)产生一个在区间[0,1]之间随机数q,如果q>ε,则将图像It输入决策网络NQ中,得到7维的决策网络输出决策值7个决策值分别对应“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”七种操作,选择7个决策值中最大值对应的操作,作为选择的操作at;其中,ε为训练中采取随机策略的概率,取值0~1之间;
(2-8-2)如果(2-8-1)中产生的随机数q≤ε,根据评价值yt选择操作如下:如果yt>β,选择“不变”操作作为操作at,如果yt≤β,从除去“不变”操作外的其余6种操作中随机选择1种操作作为操作at;β为设置的摄像机成功定位目标对应的评价分界值,取值0~1之间。
6.如权利要求1所述方法,其特征在于,所述步骤(3)的具体步骤如下:
(3-1)摄像机采集当前图像,采用双线性插值法,把图像大小变换为Hnet*Wnet,得到图像I;
(3-2)将图像I输入决策网络中,得到7种操作的决策值选择7种操作中决策值最大的操作a;
(3-3)摄像机执行操作a;
(3-4)重复步骤(3-1)~步骤(3-3),根据学习到的决策网络完成目标定位任务。
CN201610797462.XA 2016-08-31 2016-08-31 一种基于深度强化学习的摄像机主动目标定位方法 Active CN106373160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610797462.XA CN106373160B (zh) 2016-08-31 2016-08-31 一种基于深度强化学习的摄像机主动目标定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610797462.XA CN106373160B (zh) 2016-08-31 2016-08-31 一种基于深度强化学习的摄像机主动目标定位方法

Publications (2)

Publication Number Publication Date
CN106373160A true CN106373160A (zh) 2017-02-01
CN106373160B CN106373160B (zh) 2019-01-11

Family

ID=57900365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610797462.XA Active CN106373160B (zh) 2016-08-31 2016-08-31 一种基于深度强化学习的摄像机主动目标定位方法

Country Status (1)

Country Link
CN (1) CN106373160B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960456A (zh) * 2017-03-28 2017-07-18 长沙全度影像科技有限公司 一种鱼眼相机标定算法评价的方法
CN108090443A (zh) * 2017-12-15 2018-05-29 华南理工大学 基于深度强化学习的场景文本检测方法及系统
CN108230330A (zh) * 2018-01-30 2018-06-29 北京同方软件股份有限公司 一种快速的高速公路路面分割和摄像机定位的方法
CN110110847A (zh) * 2019-04-30 2019-08-09 吉林大学 一种基于注意力的深度加速强化学习的目标定位方法
CN111368970A (zh) * 2020-02-17 2020-07-03 哈尔滨工业大学 一种基于深度强化学习的传感器优化布置方法
CN112084925A (zh) * 2020-09-03 2020-12-15 厦门利德集团有限公司 一种智慧电力安全监察方法及系统
CN112734759A (zh) * 2021-03-30 2021-04-30 常州微亿智造科技有限公司 飞拍拍摄触发点的确定方法和装置
CN112911131A (zh) * 2019-12-03 2021-06-04 杭州海康威视数字技术股份有限公司 画质调整方法及装置
CN113066111A (zh) * 2021-03-12 2021-07-02 北京工业大学 一种基于ct影像的心脏二尖瓣顶点的自动定位方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883261A (zh) * 2010-05-26 2010-11-10 中国科学院自动化研究所 大范围监控场景下异常目标检测及接力跟踪的方法及系统
US20150271393A1 (en) * 2014-03-19 2015-09-24 International Business Machines Corporation Collaborative capture of photographic images
CN105338248A (zh) * 2015-11-20 2016-02-17 成都因纳伟盛科技股份有限公司 智能多目标主动跟踪监控方法及系统
CN105354548A (zh) * 2015-10-30 2016-02-24 武汉大学 一种基于ImageNet检索的监控视频行人重识别方法
CN105528607A (zh) * 2015-10-30 2016-04-27 小米科技有限责任公司 区域提取方法、模型训练方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883261A (zh) * 2010-05-26 2010-11-10 中国科学院自动化研究所 大范围监控场景下异常目标检测及接力跟踪的方法及系统
US20150271393A1 (en) * 2014-03-19 2015-09-24 International Business Machines Corporation Collaborative capture of photographic images
CN105354548A (zh) * 2015-10-30 2016-02-24 武汉大学 一种基于ImageNet检索的监控视频行人重识别方法
CN105528607A (zh) * 2015-10-30 2016-04-27 小米科技有限责任公司 区域提取方法、模型训练方法及装置
CN105338248A (zh) * 2015-11-20 2016-02-17 成都因纳伟盛科技股份有限公司 智能多目标主动跟踪监控方法及系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960456A (zh) * 2017-03-28 2017-07-18 长沙全度影像科技有限公司 一种鱼眼相机标定算法评价的方法
CN108090443A (zh) * 2017-12-15 2018-05-29 华南理工大学 基于深度强化学习的场景文本检测方法及系统
CN108090443B (zh) * 2017-12-15 2020-09-22 华南理工大学 基于深度强化学习的场景文本检测方法及系统
CN108230330A (zh) * 2018-01-30 2018-06-29 北京同方软件股份有限公司 一种快速的高速公路路面分割和摄像机定位的方法
CN108230330B (zh) * 2018-01-30 2020-02-07 北京同方软件有限公司 一种快速的高速公路路面分割和摄像机定位的方法
CN110110847A (zh) * 2019-04-30 2019-08-09 吉林大学 一种基于注意力的深度加速强化学习的目标定位方法
CN110110847B (zh) * 2019-04-30 2020-02-07 吉林大学 一种基于注意力的深度加速强化学习的目标定位方法
CN112911131A (zh) * 2019-12-03 2021-06-04 杭州海康威视数字技术股份有限公司 画质调整方法及装置
CN111368970A (zh) * 2020-02-17 2020-07-03 哈尔滨工业大学 一种基于深度强化学习的传感器优化布置方法
CN112084925A (zh) * 2020-09-03 2020-12-15 厦门利德集团有限公司 一种智慧电力安全监察方法及系统
CN112084925B (zh) * 2020-09-03 2024-07-05 厦门利德集团有限公司 一种智慧电力安全监察方法及系统
CN113066111A (zh) * 2021-03-12 2021-07-02 北京工业大学 一种基于ct影像的心脏二尖瓣顶点的自动定位方法
CN113066111B (zh) * 2021-03-12 2024-03-01 北京工业大学 一种基于ct影像的心脏二尖瓣顶点的自动定位方法
CN112734759A (zh) * 2021-03-30 2021-04-30 常州微亿智造科技有限公司 飞拍拍摄触发点的确定方法和装置

Also Published As

Publication number Publication date
CN106373160B (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
CN106373160A (zh) 一种基于深度强化学习的摄像机主动目标定位方法
CN106780612B (zh) 一种图像中的物体检测方法及装置
CN109064514A (zh) 一种基于投影点坐标回归的六自由度位姿估计算法
CN110210320A (zh) 基于深度卷积神经网络的多目标无标记姿态估计方法
CN102722714B (zh) 基于目标跟踪的人工神经网络扩张式学习方法
CN104978580B (zh) 一种用于无人机巡检输电线路的绝缘子识别方法
CN104616318B (zh) 一种视频序列图像中的运动目标跟踪方法
CN107260335B (zh) 一种基于人工智能的牙列畸形自动化分类和设计方法
CN106966298B (zh) 基于机器视觉的装配式建筑智能吊装方法与系统
CN109285179A (zh) 一种基于多特征融合的运动目标跟踪方法
CN100394437C (zh) 基于bp神经网络的数显仪表动态显示字符识别方法
CN106874914A (zh) 一种基于深度卷积神经网络的工业机械臂视觉控制方法
CN108305275A (zh) 主动跟踪方法、装置及系统
CN111626184B (zh) 一种人群密度估计方法及系统
CN106682649A (zh) 一种基于深度学习的车型识别方法
CN107688856A (zh) 基于深度强化学习的室内机器人场景主动识别方法
CN108549835A (zh) 人群计数及其模型构建的方法、终端设备及存储介质
CN112233147A (zh) 一种基于双路孪生网络的视频运动目标跟踪方法及装置
CN109815846A (zh) 图像处理方法、装置、存储介质和电子装置
CN105096311A (zh) 基于gpu的深度图修复和虚实场景结合技术
CN110232326A (zh) 一种三维物体识别方法、装置及存储介质
WO2020172992A1 (zh) 基于深度联想感知算法的受遮挡蔬果采收方法
CN110246151A (zh) 一种基于深度学习和单目视觉的水下机器人目标跟踪方法
CN110070565A (zh) 一种基于图像叠加的船舶轨迹预测方法
CN108537826A (zh) 一种基于人工干预的舰船目标跟踪方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant