CN111890365A - 目标跟踪方法、装置、计算机设备及存储介质 - Google Patents

目标跟踪方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111890365A
CN111890365A CN202010763146.7A CN202010763146A CN111890365A CN 111890365 A CN111890365 A CN 111890365A CN 202010763146 A CN202010763146 A CN 202010763146A CN 111890365 A CN111890365 A CN 111890365A
Authority
CN
China
Prior art keywords
mechanical arm
target object
target
real
tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010763146.7A
Other languages
English (en)
Other versions
CN111890365B (zh
Inventor
何敏聪
郜开开
周宸
周宝
陈远旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010763146.7A priority Critical patent/CN111890365B/zh
Priority to PCT/CN2020/120755 priority patent/WO2021164276A1/zh
Publication of CN111890365A publication Critical patent/CN111890365A/zh
Application granted granted Critical
Publication of CN111890365B publication Critical patent/CN111890365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1605Simulation of manipulator lay-out, design, modelling of manipulator
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及人工智能中的图像处理领域,公开了一种目标跟踪方法、装置、计算机设备及存储介质,其方法包括:按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;将实时机械臂状态和包含目标对象的图像序列输入目标对象跟踪模型,获取目标对象跟踪模型输出的运动参数,目标对象跟踪模型为基于DDPG算法构建的预测模型;根据运动参数控制机械臂的运动状态,以使机械臂跟随目标对象移动。本发明可以降低目标跟踪的开发成本,提高目标跟踪模型的训练效率,本发明可应用于智慧城市的建设。同时,本发明还涉及区块链技术。

Description

目标跟踪方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能中的图像处理领域,尤其涉及一种目标跟踪方法、装置、计算机设备及存储介质。
背景技术
目前,目标跟踪方法已在视频监控、工业制造、智慧家居、智能摄影等领域广泛应用。目标跟踪方法包括图像目标检测和运动控制两部分。首先使用图像目标检测对单帧或多帧图像进行检测,确定目标位置,然后根据目标位置计算运动参数(如速度矢量、加速度矢量),按照运动参数控制机械臂跟随目标。然而,这两部分均需要进行大量繁琐的标注、训练和调优工作,才能保证目标跟踪的精准度。这些标注、训练和调优工作需要人工参与,大大提高了目标跟踪方法的开发成本,同时训练的效率也不高。
发明内容
基于此,有必要针对上述技术问题,提供一种目标跟踪方法、装置、计算机设备及存储介质,以降低目标跟踪的开发成本,提高目标跟踪模型的训练效率。
一种目标跟踪方法,包括:
按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
一种目标跟踪装置,包括:
采样模块,用于按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
获取运动参数模块,用于将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
跟随模块,用于根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述目标跟踪方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述目标跟踪方法。
上述目标跟踪方法、装置、计算机设备及存储介质,按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列,在此处,可通过实时机械臂状态确定当前机器臂末端所处的位置,而包含目标对象的图像序列可用于确定目标对象的移动情况。将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型,在此处,目标对象跟踪模型是基于DDPG算法构建的,可以减少图像的标注,提高模型的训练速度。根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动,可实现实时跟踪目标对象。本发明可以降低目标跟踪的开发成本,提高目标跟踪模型的训练效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中目标跟踪方法的一应用环境示意图;
图2是本发明一实施例中目标跟踪方法的一流程示意图;
图3是本发明一实施例中目标跟踪方法的一流程示意图;
图4是本发明一实施例中目标跟踪方法的一流程示意图;
图5是本发明一实施例中目标跟踪方法的一流程示意图;
图6是本发明一实施例中目标跟踪装置的一结构示意图;
图7是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供的目标跟踪方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一实施例中,如图2所示,提供一种目标跟踪方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤。
S10、按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列。
预设采样周期可以基于实际需要进行设置。在一示例中,预设采样周期为600ms。实时机械臂状态指的是实时采集的机械臂末端(TCP,Tool Center Point)的位置数据,可用机械臂各个关节的角度表示。机械臂通过若干个关节的运动改变机械臂末端的位置数据。一组关节的角度可以唯一确定机械臂末端的位置。
包含目标对象的图像序列指的是在预设采样周期内按一定时间间隔采集的一组图像。例如,每隔30ms采集一次图像,则在600ms内,可以采集20帧在不同时间点的图像。目标对象指的是需要跟踪的对象。在此处,目标对象可以是移动的人,也可以是移动的物体。需要强调的是,为进一步保证上述图像序列的共享性和安全性,上述图像序列还可以存储于一区块链的节点中。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
S20、将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型。
在此处,目标对象跟踪模型是基于DDPG(Deep Deterministic Policy Gradient,深度确定策略梯度)算法构建的预测模型。目标对象跟踪模型包含了训练好的Actor网络(演员网络)和Critic网络(评价网络)。Actor网络和Critic网络为全连接神经网络。在此处,使用模拟跟踪试验生成的经验数据集对目标对象跟踪模型进行训练。模拟跟踪试验指的是设置两个机械臂,第一个机械臂的末端放置跟踪摄像头,第二个机械臂的末端放置目标对象。两个机械臂的固定端的相对位置是固定的。也即是,可以基于两个机械臂的实时机械臂状态确定跟踪摄像头与目标对象的相对位置,进而判断目标对象是否在跟踪摄像头的视野范围内。因而,不需要对图像序列中的目标对象进行识别(这样也不需要对图像进行标注),从而大大提高了模型的训练速度。
目标对象跟踪模型输出的运动参数可以是机械臂各个关节的角度变化量。若机械臂的关节数量为n个,则运动参数可表示为{Δθ1、Δθ2、Δθ3、……Δθn}。
S30、根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
本实施例中,在获得运动参数之后,可以按照运动参数控制机械臂的运动状态。即,使机械臂的各个关节按照角度变化量改变各自的角度。从而可以带动机械臂,使机械臂跟随目标对象移动。
步骤S10-S30中,按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列,在此处,可通过实时机械臂状态确定当前机器臂末端所处的位置,而包含目标对象的图像序列可用于确定目标对象的移动情况。将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型,在此处,目标对象跟踪模型是基于DDPG算法构建的,可以减少图像的标注,提高模型的训练速度。根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动,可实现实时跟踪目标对象。本方案可应用于智慧城市的智能安防、智能制造等领域中,从而推动智慧城市的建设。
可选的,如图3所示,步骤S10,即所述按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列,包括:
S101、通过位置传感器获取所述机械臂的关节角度,所述实时机械臂状态包括所述关节角度;
S102、通过拍摄装置按指定拍摄频率获取多组包含目标对象的图像,生成所述图像序列,所述拍摄装置设置在预设指定位置。
本实施例中,在机械臂的各个关节设置有位置传感器,可以感知对应关节角度。通过一组关节角度数据,可以确定机械臂末端当前所处的位置。可以通过设置在预设指定位置的拍摄装置按一定时间间隔(即指定拍摄频率)获取目标对象的图像,生成图像序列。图像序列可用Frames(θ)表示,其中,θ指代一组机械臂的关节角度。
可选的,所述预设采样周期包括200~1200ms;
所述拍摄装置包括至少两个摄像头;
所述预设指定位置为机械臂末端;
所述指定拍摄频率包括10~50ms。
本实施例中,预设采样周期可以是200~1200ms。在一示例中,预设采样周期为600ms。拍摄装置可以包括至少两个摄像头。通过至少两个摄像头成像,可以获得更多的图像特征,提高目标跟踪的精准度。拍摄装置可以安装在机械臂末端,实现动态跟踪。拍摄装置的指定拍摄频率可以是10~50ms。在一示例中,指定拍摄频率可以是30ms。
可选的,所述目标跟踪模型包括LSTM和预设演员网络,如图4所示,步骤S20,即所述将所述实时机械臂状态和所述包含目标对象的图像序列输入目标跟踪模型,获取所述目标跟踪模型输出的运动参数,包括:
S201、使用所述LSTM对所述图像序列进行编码,输出第一特征向量;
S202、将所述第一特征向量与所述实时机械臂状态中的关节角度拼接,生成第二特征向量;
S203、将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数。
本实施例中,可通过LSTM(Long Short Term Memory Network,长短时记忆网络)对图像序列进行编码,输出第一特征向量。图像序列Frames={Fi},经LSTM处理后生成第一特征向量feature,然后第一特征向量feature与角度θ拼接成第二特征向量p。第二特征向量p可以输入一个双层的全连接网络,即预设演员网络。经预设演员网络处理第二特征向量后,输出机械臂的运动参数。
步骤S201-S203中,使用LSTM对所述图像序列进行编码,输出第一特征向量,在此处,第一特征向量包含图像特征。将所述第一特征向量与所述实时机械臂状态中的关节角度拼接,生成第二特征向量,在此处,第一特征向量包含图像特征和机械臂的位置特征。将所述第二特征向量输入预设演员网络,获取所述预设演员网络输出的所述运动参数,以获取机械臂跟踪目标对象的运动参数。
可选的,如图5所示,步骤S203之前,即所述将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数之前,还包括:
S21、获取基于机械臂跟踪训练生成的初始经验数据集,所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态,所述奖励参数随着指定位置距离的变化而变化,所述指定位置距离为机械臂末端与目标对象的距离;
S22、构建初始演员网络,使用所述初始经验数据集对所述初始演员网络进行预训练,获得预训练模型;
S23、使用所述初始经验数据集初始化DDPG的经验记忆数据库,并使用所述预训练模型初始化DDPG中的待训练演员网络;
S24、初始化完毕后,对所述待训练演员网络进行训练,基于所述待训练演员网络计算出实时运动参数,按照所述实时运动参数控制所述机械臂运动,然后计算出实时奖励参数,在一个所述预设采样周期之后,获取机械臂末端的实时目标状态,并获得在一次训练生成的训练数据,所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态;
S25、训练完毕后,获得所述预设演员网络,所述预设演员网络为基于所述待训练演员网络训练生成的网络。
本实施例中,初始经验数据集可以通过进行模拟试验后获得。具体的,可以设置两个机械臂,分别为机械臂A和机械臂B。这两个机械臂的固定端位置固定,机械臂A的机械臂末端(TCP)设置有拍摄装置,机械臂B的机械臂末端安放有目标对象(W)。机械臂B带着W在空间中移动,机械臂A跟踪目标对象W运动,使得TCP与W的相对位置保持在一定范围内。机械臂A作为智能体(Agent)基于当前状态s(State)根据运动参数a(Action)采取行动,从而获得环境反馈的奖励参数r(Reward),同时状态发生改变,得到目标状态s_{θ+Δθ,Frames(θ+Δθ)}。Frames(θ+Δθ)为机械臂A各关节角度运动到θ+Δθ过程中,末端拍摄更新得到的图像序列。因而,在每次试验时,可以产生一个四元组数据,即<s,a,r,s_>。初始经验数据集包含多个四元组数据。
需要注意的是,在此处,奖励参数是用于评判机械臂A跟踪目标对象W的效果,因而,奖励参数随着指定位置距离的变化而变化,这里的指定位置距离指的是机械臂末端与目标对象的距离。
在获得初始经验数据集之后,一方面可以使用该数据集对初始演员网络进行预训练,获得预训练模型;另一方面则可以使用初始经验数据集初始化DDPG的经验记忆数据库(Experiment memory)。由于初始经验数据集是基于行模拟试验获得的数据,可以减少初始演员网络对机械臂的非常规控制,提高DDPG的训练效率。
然后使用预训练模型初始化DDPG中的待训练演员网络。初始化完毕后,可以按照DDPG的训练机制对DDPG中的待训练演员网络进行训练。在训练过程的一个回合中,演员网络依据实时当前状态s得到实时运动参数a,机械臂依据实时运动参数a运动,同时计算实时奖励参数r,在一个预设采样周期(可以是600ms)之后采集实时目标状态s_,得到四元组数据<s,a,r,s_>,存入记忆区D(可以是数据库),并开始下一回合。
重复步骤S24的训练步骤,直至满足结束训练的条件。示意性的,当训练的次数达到预设的训练次数时,则可以结束训练。训练完毕后的待训练演员网络即为预设演员网络。
步骤S21-S25中,获取基于机械臂跟踪训练生成的初始经验数据集,所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态,所述奖励参数随着指定位置距离的变化而变化,所述指定位置距离为机械臂末端与目标对象的距离,以获取训练数据。构建初始演员网络,使用所述初始经验数据集对所述初始演员网络进行预训练,获得预训练模型,在此处,进行预训练可以提高DDPG的训练效率。使用所述初始经验数据集初始化DDPG的经验记忆数据库,并使用所述预训练模型初始化DDPG中的待训练演员网络,在此处,通过两个方面的初始化,可以优化DDPG的训练结果,提高训练效率。初始化完毕后,对所述待训练演员网络进行训练,基于所述待训练演员网络计算出实时运动参数,按照所述实时运动参数控制所述机械臂运动,然后计算出实时奖励参数,在一个所述预设采样周期之后,获取机械臂末端的实时目标状态,并获得在一次训练生成的训练数据,所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态,在此处,待训练演员网络同时对目标检测(依赖奖励参数)和运动控制(运动参数)进行训练,依据DDPG的自主学习机制,大大减少了目标检测和运动控制的调优工作。训练完毕后,获得所述预设演员网络,所述预设演员网络为基于所述待训练演员网络训练生成的网络,以获得用于目标跟踪的预设演员网络。
可选的,步骤S21之前,所述获取基于机械臂跟踪训练生成的初始经验数据集之前,还包括:
通过奖励公式计算所述奖励参数,所述奖励公式包括:
Figure BDA0002613640630000111
其中,r为奖励参数,e、f、g、h为大于零的超参数,‖v‖为位置误差v的模,‖w‖为角度误差w的模,
Figure BDA0002613640630000112
为速度超限的惩罚项,|Δθi|/t为第i个关节的角速度,ωmax i为与第i个关节对应的最大角速度,LT为跟踪结果,其值为0或1。
本实施例中,e、f、g、h为大于零的超参数。超参数是模型训练之前设置值的参数。第一项为位置误差v产生的奖励。第二项为角度误差w产生的奖励。可通过以下公式计算出w和v:
Figure BDA0002613640630000113
TW为目标对象W的位姿矩阵,TTCP为机械臂A末端TCP对应的理想位姿。依据旋量理论计算TW与TTCP的对应旋量ξ,其分量v、w分别对应TW与TTCP的位置误差和角度误差。第三项为速度超限的惩罚项。其中,|Δθi|/t为当前回合的关节i的角速度,若其大于关节可承受的最大速度ωmax i,则依据
Figure BDA0002613640630000114
作为惩罚。
Figure BDA0002613640630000115
指的是最大的关节角速度对应的惩罚值。第四项为跟踪目标对象的惩罚项。当跟踪到目标对象时,LT=0;当跟踪不到目标对象时,LT=1。初始经验数据集中,在计算奖励参数的时候,LT的值可以根据TCP与W的相对位置进行确定,不需要对图像序列进行标注。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种目标跟踪装置,该目标跟踪装置与上述实施例中目标跟踪方法一一对应。如图6所示,该目标跟踪装置包括采样模块10、获取运动参数模块20和跟随模块30。各功能模块详细说明如下:
采样模块10,用于按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
获取运动参数模块20,用于将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
跟随模块30,用于根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
可选的,采样模块10包括:
获取关节角度单元,用于通过位置传感器获取所述机械臂的关节角度,所述实时机械臂状态包括所述关节角度;
拍摄单元,用于通过拍摄装置按指定拍摄频率获取多组包含目标对象的图像,生成所述图像序列,所述拍摄装置设置在预设指定位置。
可选的,所述预设采样周期包括200~1200ms;
所述拍摄装置包括至少两个摄像头;
所述预设指定位置为机械臂末端;
所述指定拍摄频率包括10~50ms。
可选的,所述目标跟踪模型包括LSTM和预设演员网络,获取运动参数模块20包括:
图像特征提取单元,用于使用所述LSTM对所述图像序列进行编码,输出第一特征向量;
模型特征生成单元,用于将所述第一特征向量与所述实时机械臂状态中的关节角度拼接,生成第二特征向量;
获取运动参数单元,用于将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数。
可选的,获取运动参数模块20还包括:
获取训练数据单元,用于获取基于机械臂跟踪训练生成的初始经验数据集,所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态,所述奖励参数随着指定位置距离的变化而变化,所述指定位置距离为机械臂末端与目标对象的距离;
构建网络单元,用于构建初始演员网络,使用所述初始经验数据集对所述初始演员网络进行预训练,获得预训练模型;
初始化单元,用于使用所述初始经验数据集初始化DDPG的经验记忆数据库,并使用所述预训练模型初始化DDPG中的待训练演员网络;
训练单元,用于初始化完毕后,对所述待训练演员网络进行训练,基于所述待训练演员网络计算出实时运动参数,按照所述实时运动参数控制所述机械臂运动,然后计算出实时奖励参数,在一个所述预设采样周期之后,获取机械臂末端的实时目标状态,并获得在一次训练生成的训练数据,所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态;
获得预设演员网络单元,用于训练完毕后,获得所述预设演员网络,所述预设演员网络为基于所述待训练演员网络训练生成的网络。
可选的,获取运动参数模块20还包括:
计算奖励参数单元,用于通过奖励公式计算所述奖励参数,所述奖励公式包括:
Figure BDA0002613640630000141
其中,r为奖励参数,e、f、g、h为大于零的超参数,‖v‖为位置误差v的模,‖w‖为角度误差w的模,
Figure BDA0002613640630000142
为速度超限的惩罚项,|Δθi|/t为第i个关节的角速度,ωmax i为与第i个关节对应的最大角速度,LT为跟踪结果,其值为0或1。
关于目标跟踪装置的具体限定可以参见上文中对于目标跟踪方法的限定,在此不再赘述。上述目标跟踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储上述目标跟踪方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种目标跟踪方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:
按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种目标跟踪方法,其特征在于,包括:
按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
2.如权利要求1所述的目标跟踪方法,其特征在于,所述按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列,包括:
通过位置传感器获取所述机械臂的关节角度,所述实时机械臂状态包括所述关节角度;
通过拍摄装置按指定拍摄频率获取多组包含目标对象的图像,生成所述图像序列,所述拍摄装置设置在预设指定位置。
3.如权利要求2所述的目标跟踪方法,其特征在于,所述预设采样周期包括200~1200ms;
所述拍摄装置包括至少两个摄像头;
所述预设指定位置为机械臂末端;
所述指定拍摄频率包括10~50ms。
4.如权利要求1所述的目标跟踪方法,其特征在于,所述目标跟踪模型包括LSTM和预设演员网络,所述将所述实时机械臂状态和所述包含目标对象的图像序列输入目标跟踪模型,获取所述目标跟踪模型输出的运动参数,包括:
使用所述LSTM对所述图像序列进行编码,输出第一特征向量;
将所述第一特征向量与所述实时机械臂状态中的关节角度拼接,生成第二特征向量;
将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数。
5.如权利要求4所述的目标跟踪方法,其特征在于,所述将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数之前,还包括:
获取基于机械臂跟踪训练生成的初始经验数据集,所述初始经验数据集包括当前状态、运行参数、奖励参数和目标状态,所述奖励参数随着指定位置距离的变化而变化,所述指定位置距离为机械臂末端与目标对象的距离;
构建初始演员网络,使用所述初始经验数据集对所述初始演员网络进行预训练,获得预训练模型;
使用所述初始经验数据集初始化DDPG的经验记忆数据库,并使用所述预训练模型初始化DDPG中的待训练演员网络;
初始化完毕后,对所述待训练演员网络进行训练,基于所述待训练演员网络计算出实时运动参数,按照所述实时运动参数控制所述机械臂运动,然后计算出实时奖励参数,在一个所述预设采样周期之后,获取机械臂末端的实时目标状态,并获得在一次训练生成的训练数据,所述训练数据包括实时当前状态、所述实时运动参数、所述奖励参数和所述实时目标状态;
训练完毕后,获得所述预设演员网络,所述预设演员网络为基于所述待训练演员网络训练生成的网络。
6.如权利要求5所述的目标跟踪方法,其特征在于,所述获取基于机械臂跟踪训练生成的初始经验数据集之前,还包括:
通过奖励公式计算所述奖励参数,所述奖励公式包括:
Figure FDA0002613640620000031
其中,r为奖励参数,e、f、g、h为大于零的超参数,‖v‖为位置误差v的模,‖w‖为角度误差w的模,
Figure FDA0002613640620000032
为速度超限的惩罚项,|Δθi|/t为第i个关节的角速度,ωmaxi为与第i个关节对应的最大角速度,LT为跟踪结果,其值为0或1。
7.一种目标跟踪装置,其特征在于,包括:
采样模块,用于按照预设采样周期获取实时机械臂状态和包含目标对象的图像序列;
获取运动参数模块,用于将所述实时机械臂状态和所述包含目标对象的图像序列输入目标对象跟踪模型,获取所述目标对象跟踪模型输出的运动参数,所述目标对象跟踪模型为基于DDPG算法构建的预测模型;
跟随模块,用于根据所述运动参数控制机械臂的运动状态,以使所述机械臂跟随所述目标对象移动。
8.如权利要求7所述的目标跟踪装置,其特征在于,所述目标跟踪模型包括LSTM和预设演员网络,所述获取运动参数模块包括:
图像特征提取单元,用于使用所述LSTM对所述图像序列进行编码,输出第一特征向量;
模型特征生成单元,用于将所述第一特征向量与所述实时机械臂状态中的关节角度拼接,生成第二特征向量;
获取运动参数单元,用于将所述第二特征向量输入所述预设演员网络,获取所述预设演员网络输出的所述运动参数。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述目标跟踪方法。
10.一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至6中任一项所述目标跟踪方法。
CN202010763146.7A 2020-07-31 2020-07-31 目标跟踪方法、装置、计算机设备及存储介质 Active CN111890365B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010763146.7A CN111890365B (zh) 2020-07-31 2020-07-31 目标跟踪方法、装置、计算机设备及存储介质
PCT/CN2020/120755 WO2021164276A1 (zh) 2020-07-31 2020-10-14 目标跟踪方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010763146.7A CN111890365B (zh) 2020-07-31 2020-07-31 目标跟踪方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111890365A true CN111890365A (zh) 2020-11-06
CN111890365B CN111890365B (zh) 2022-07-12

Family

ID=73183158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010763146.7A Active CN111890365B (zh) 2020-07-31 2020-07-31 目标跟踪方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN111890365B (zh)
WO (1) WO2021164276A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712489A (zh) * 2020-12-31 2021-04-27 北京澎思科技有限公司 图像处理的方法、系统及计算机可读存储介质
CN112785466A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 一种硬件的ai赋能方法、装置、存储介质及设备
CN116744102A (zh) * 2023-06-19 2023-09-12 北京拙河科技有限公司 一种基于反馈调节的球机跟踪方法及装置

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113766138B (zh) * 2021-09-26 2022-11-25 浙江新瑞欣科技股份有限公司 步进电机驱动控制方法、步进电机及自动化设备
CN116408790A (zh) * 2021-12-31 2023-07-11 广东美的白色家电技术创新中心有限公司 机器人控制方法、装置、系统及存储介质
CN114978363A (zh) * 2022-04-25 2022-08-30 Oppo广东移动通信有限公司 射频电路的调试方法及装置、电子设备、存储介质
CN115249245B (zh) * 2022-09-22 2022-12-23 深圳华声医疗技术股份有限公司 超声成像参数优化方法、装置、计算机设备及存储介质
CN115464659B (zh) * 2022-10-05 2023-10-24 哈尔滨理工大学 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法
CN116038716B (zh) * 2023-03-14 2023-07-18 煤炭科学研究总院有限公司 机器人的控制方法和机器人的控制模型的训练方法
CN116520281B (zh) * 2023-05-11 2023-10-24 兰州理工大学 一种基于ddpg的扩展目标跟踪优化方法和装置
CN116761004B (zh) * 2023-05-12 2024-03-19 北京车讯互联网股份有限公司 一种基于固定轨道摄像设备的实时直播系统
CN117140527B (zh) * 2023-09-27 2024-04-26 中山大学·深圳 一种基于深度强化学习算法的机械臂控制方法及系统
CN117086886B (zh) * 2023-10-18 2023-12-22 山东建筑大学 基于机理数据混合驱动的机器人动态误差预测方法及系统
CN117392182B (zh) * 2023-12-12 2024-02-06 深圳市瑞得智能设备有限公司 贴膜精度检测方法、装置、设备及存储介质
CN117477607B (zh) * 2023-12-28 2024-04-12 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
CN117850244B (zh) * 2024-03-04 2024-05-07 海克斯康制造智能技术(青岛)有限公司 一种视觉测量控制系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651949A (zh) * 2016-10-17 2017-05-10 中国人民解放军63920部队 一种基于仿真的空间机械臂抓捕目标遥操作方法及系统
CN109909998A (zh) * 2017-12-12 2019-06-21 北京猎户星空科技有限公司 一种控制机械臂运动的方法及装置
CN110378264A (zh) * 2019-07-08 2019-10-25 Oppo广东移动通信有限公司 目标跟踪方法及装置
CN111027677A (zh) * 2019-12-02 2020-04-17 西安电子科技大学 基于深度确定性策略梯度ddpg的多机动目标跟踪方法
CN111461325A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种用于稀疏奖励环境问题的多目标分层强化学习算法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105196292B (zh) * 2015-10-09 2017-03-22 浙江大学 一种基于迭代变时长视觉伺服控制方法
CN107962562A (zh) * 2016-10-20 2018-04-27 哈尔滨工大天才智能科技有限公司 一种多自由度机械臂视觉伺服系统组建方法
WO2019204699A1 (en) * 2018-04-19 2019-10-24 GYS Tech, LLC d/b/a Cardan Robotics Methods and systems for controlling a surgical robot
CN109840508A (zh) * 2019-02-17 2019-06-04 李梓佳 一个基于深度网络架构自动搜索的机器人视觉控制方法,设备及存储介质
CN110046626B (zh) * 2019-04-03 2024-03-15 工极智能科技(苏州)有限公司 基于pico算法的图像智能学习动态跟踪系统及方法
CN110989576B (zh) * 2019-11-14 2022-07-12 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651949A (zh) * 2016-10-17 2017-05-10 中国人民解放军63920部队 一种基于仿真的空间机械臂抓捕目标遥操作方法及系统
CN109909998A (zh) * 2017-12-12 2019-06-21 北京猎户星空科技有限公司 一种控制机械臂运动的方法及装置
CN110378264A (zh) * 2019-07-08 2019-10-25 Oppo广东移动通信有限公司 目标跟踪方法及装置
CN111027677A (zh) * 2019-12-02 2020-04-17 西安电子科技大学 基于深度确定性策略梯度ddpg的多机动目标跟踪方法
CN111461325A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种用于稀疏奖励环境问题的多目标分层强化学习算法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712489A (zh) * 2020-12-31 2021-04-27 北京澎思科技有限公司 图像处理的方法、系统及计算机可读存储介质
CN112785466A (zh) * 2020-12-31 2021-05-11 科大讯飞股份有限公司 一种硬件的ai赋能方法、装置、存储介质及设备
CN116744102A (zh) * 2023-06-19 2023-09-12 北京拙河科技有限公司 一种基于反馈调节的球机跟踪方法及装置
CN116744102B (zh) * 2023-06-19 2024-03-12 北京拙河科技有限公司 一种基于反馈调节的球机跟踪方法及装置

Also Published As

Publication number Publication date
CN111890365B (zh) 2022-07-12
WO2021164276A1 (zh) 2021-08-26

Similar Documents

Publication Publication Date Title
CN111890365B (zh) 目标跟踪方法、装置、计算机设备及存储介质
US11714996B2 (en) Learning motor primitives and training a machine learning system using a linear-feedback-stabilized policy
US11559887B2 (en) Optimizing policy controllers for robotic agents using image embeddings
CN110023965A (zh) 用于选择由机器人智能体执行的动作的神经网络
JP6926218B2 (ja) ニューラルネットワークを使用する強化学習のための行動選択
CN112119409A (zh) 具有关系存储器的神经网络
US11783500B2 (en) Unsupervised depth prediction neural networks
CN112348163A (zh) 具有平衡求解器的深度神经网络
US20200082227A1 (en) Imagination-based agent neural networks
CN115812180A (zh) 使用奖励预测模型的机器人控制的离线学习
CN115847422A (zh) 一种用于遥操作的姿态识别方法、装置及系统
Meyes et al. Continuous motion planning for industrial robots based on direct sensory input
Yang et al. Distributed observer‐based coordination for multiple Lagrangian systems using only position measurements
CN114219066A (zh) 基于瓦瑟斯坦距离的无监督强化学习方法及装置
Antonelli et al. Learning the visual–oculomotor transformation: Effects on saccade control and space representation
CN111340917A (zh) 三维动画生成方法、装置、存储介质和计算机设备
de Jesús Rubio et al. Dynamic model with sensor and actuator for an articulated robotic arm
Yu et al. Robust visual servoing of robot manipulators with neuro compensation
Ranaweera et al. Bridging the reality gap between virtual and physical environments through reinforcement learning
Ghiassian et al. Two geometric input transformation methods for fast online reinforcement learning with neural nets
Blinov et al. Deep q-learning algorithm for solving inverse kinematics of four-link manipulator
Bahrpeyma et al. Application of Reinforcement Learning to UR10 Positioning for Prioritized Multi-Step Inspection in NVIDIA Omniverse
Chi et al. A collision-free path planning method using direct behavior cloning
Petronis et al. Improving positioning accuracy of an articulated robot using deep q-learning algorithms
Le Van Robust Visual Tracking Control of Pan-tilt-Stereo Camera System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant