CN107403426A

CN107403426A - 一种目标物体检测方法及设备

Info

Publication number: CN107403426A
Application number: CN201710491627.5A
Authority: CN
Inventors: 左国玉; 杜婷婷; 卢佳豪; 邱永康
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-06-20
Filing date: 2017-06-20
Publication date: 2017-11-28
Anticipated expiration: 2037-06-20
Also published as: CN107403426B

Abstract

本发明涉及模式识别技术领域，提供一种目标物体检测方法及设备，所述方法包括：根据图像特征向量和Agent历史动作数据，更新当前状态；根据所述当前状态，通过Double DQN算法的第一DQN网络获取各种动作对应的第一期望价值函数值；根据所述第一期望价值函数值和决策参数ε，采用ε‑greedy策略选择下一个动作，检测所述目标物体；根据所述下一个动作的执行结果，采用Double DQN算法中第二DQN网络的第二价值函数对所述下一个动作进行评估。本发明提供的一种目标物体检测方法及设备，分别采用Double DQN算法的第一期望价值函数和第二价值函数对动作进行选择和评估，能够有效降低对动作过高估计的几率，提高检测性能。

Description

一种目标物体检测方法及设备

技术领域

本发明涉及模式识别技术领域，更具体地，涉及一种目标物体检测方法及设备。

背景技术

目前，基于视觉的服务机器人越来越受到广泛地关注。机器人服务过程的任务包括：目标检测、导航及目标抓取等。在整个任务过程中，目标检测占据着重要的地位，一旦检测目标不够准确，将导致后续的整个任务的失败。因此，目标检测的准确性对于服务机器人来说至关重要。

近些年，出现了很多目标检测的方法。近两年也有学者将深度强化学习用在目标检测上，如Caicedo和Lazebnik等人使用深度强化学习训练Agent，变形边界框直到适合目标。之后Bueno等人在其基础上添加了一个固定的分层表示，强制自上而下搜索，以便在感兴趣的区域执行动作。

但是，现有的用在目标检测上的深度强化学习方法都是基于DQN的，DQN使用同一个期望价值函数去选择和评估一个动作，这很容易导致对所选动作的过高估计，从而降低对目标检测的准确率，对服务机器人的后续工作也将会产生巨大的影响。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明提供一种目标物体检测方法及设备，以有效避免过高估计，提高目标物体检测的准确率，为服务机器人顺利完成后续任务奠定基础。

一方面，本发明提供一种目标物体检测方法，包括：根据图像特征向量和Agent历史动作数据，更新当前状态；根据所述当前状态，利用Double DQN算法的第一DQN网络，获取各种动作对应的第一期望价值函数值；根据所述第一期望价值函数值和决策参数ε，采用ε-greedy策略选择下一个动作，检测所述目标物体；根据所述下一个动作的执行结果，利用Double DQN算法中第二DQN网络的第二价值函数对所述下一个动作进行评估。

其中，所述根据图像特征向量和Agent历史动作数据，更新当前状态进一步包括：以当前环境的所述图像特征向量和Agent的最后若干个所述历史动作数据为新元素，加入表示所述当前状态的序列。

其中，所述根据所述当前状态，通过Double DQN算法的第一DQN网络，获取各种动作对应的第一期望价值函数值进一步包括：根据更新后的所述当前状态的序列，利用Double DQN算法中第一DQN网络的第一期望价值函数，获取各动作对应的所述第一期望价值函数值。

其中，所述根据所述第一期望价值函数值和决策参数ε，采用ε-greedy策略选择下一个动作进一步包括：基于所述各动作对应的各所述第一期望价值函数值，以ε的概率随机选择所述各动作中的一种动作，以1-ε的概率选择各所述第一期望价值函数值中最大的一个对应的动作，作为所述下一个动作。

进一步的，在所述采用ε-greedy策略选择下一个动作，检测所述目标物体之后，所述方法还包括：当判断达到检测标准或者达到限制条件时，停止检测；或者，当判断未达到检测标准且未达到限制条件时，基于迭代算法选择再下一个动作，检测所述目标物体，直至达到检测标准或者达到限制条件。

其中，所述基于迭代算法选择再下一个动作，检测所述目标物体包括：根据所述下一个动作更新所述历史动作数据，获取新历史动作数据，根据所述下一个动作的执行结果，获取奖励函数值，并获取新图片特征向量；根据所述新历史动作数据和所述新图片特征向量，更新所述当前状态，获取下一状态；根据所述奖励函数值更新所述Double DQN算法的第一期望价值函数和第二价值函数，获取新的第一期望价值函数和新的第二价值函数；调整所述决策参数ε，并根据所述新的第一期望价值函数和所述调整后的决策参数ε，采用ε-greedy策略选择再下一个动作，检测所述目标物体。

其中，所述达到检测标准包括：检测框和所述目标物体所在区域真实框的重合区域与所述检测框和所述真实框的覆盖总区域的比值不小于给定阈值；所述达到限制条件包括：所述动作中没有一种能使所述当前状态产生变化；或者，所述执行动作的次数达到设定值。

进一步的，在所述根据图像特征向量和Agent历史动作数据，更新当前状态之前，所述方法还包括：采集图像，预处理所述图像，并对所述预处理后的图像进行特征提取，获取所述图像特征向量。

进一步的，在所述根据所述新历史动作数据和所述新图片特征向量，更新所述当前状态，获取下一状态之后，所述方法还包括：将所述当前状态、所述当前状态下执行的动作、所述当前状态下动作执行后获得的奖励函数值以及所述下一个状态构成的元组存入记忆向量，并在所述记忆向量的存储容量达到设定值时，随机抽取指定数量的存储数据，进行梯度下降更新所述Double DQN算法的网络模型参数。

另一方面，本发明提供一种目标物体检测设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序。所述处理器执行所述程序时实现如上所述的目标物体检测方法。

又一方面，本发明提供一种非暂态Agent可读存储介质，所述非暂态Agent可读存储介质存储计算机指令，所述计算机指令使所述Agent执行如上所述的目标物体检测方法。

本发明提供的一种目标物体检测方法及设备，通过Double DQN算法的第一DQN网络获取各种动作对应的第一期望价值函数值，并据此采用ε-greedy策略为智能体选择下一个动作，同时采用第二DQN的第二价值函数对所选择的动作进行评估，实现用不同的价值函数对一个动作进行选择和评估，能够有效降低对动作过高估计的几率，提高检测性能。

附图说明

图1为本发明实施例一种目标物体检测方法流程图；

图2为本发明实施例一种改变后的Vgg16模型结构示意图；

图3为本发明实施例一种目标物体检测处理过程示意图；

图4为本发明实施例一种目标物体检测过程的可视化示意图；

图5为本发明实施例一种目标物体检测迭代算法处理流程图；

图6为本发明实施例Double DQN和DQN处理结果精确率和召回率比较示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

作为本发明实施例的一个方面，本实施例提供一种目标物体检测方法，参考图1，为本发明实施例一种目标物体检测方法流程图，包括：

S1，根据图像特征向量和Agent历史动作数据，更新当前状态；S2，根据所述当前状态，利用Double DQN算法的第一DQN网络，获取各种动作对应的第一期望价值函数值；S3，根据所述第一期望价值函数值和决策参数ε，采用ε-greedy策略选择下一个动作，检测所述目标物体；S4，根据所述下一个动作的执行结果，利用Double DQN算法中第二DQN网络的第二价值函数对所述下一个动作进行评估。

在对步骤S1进行具体说明之前，首先明确几个定义如下：

强化学习(Reinforcement Learning)：又称再励学习、评价学习，是智能系统从环境到行为映射的学习，以使奖励信号函数值最大。强化学习中，由环境提供的奖励信号是对所执行动作的好坏作的一种评价(通常为标量信号)，而不是告诉Agent如何去执行正确的动作。由于外部环境提供的信息很少，Agent必须靠自身的经历进行学习。通过这种方式，Agent在行动-评价的环境中获得知识，改进行动方案以适应环境。

强化学习基本原理：强化学习把学习看作试探评价过程，Agent执行一个动作施加于环境，环境接受该动作后状态发生变化，同时产生一个奖励信号(正或负)反馈给Agent，Agent根据该奖励信号和环境当前状态再选择下一个动作，选择的原则是使受到正奖励的概率增大。所选择的动作不仅影响当前奖励值，而且影响环境下一时刻的状态及最终的奖励值。如果Agent的某个动作策略导致环境正的奖励信号，那么Agent以后选择这个动作策略的趋势便会加强。Agent的目标是在每个离散状态发现最优策略，动态地调整参数，以使期望的折扣奖励信号总和最大。

状态(State,s)：在每一个时间节点，Agent所处的环境的表示即为State，例如整个游戏画面，或者已经抽象为位置、方向及障碍物位置信息的数据。本发明实施例中，以对Agent所采集的当前环境图像的特征向量，以及Agent的历史动作记录作为State，但不限制本发明的保护范围。

当前状态：在上一步动作完成之后，会及时对环境产生影响，使环境状态发生变化，同时Agent的历史动作数据等信息也会更新。对于当前时间节点，任务环境及历史动作数据等会对应一个确定的状态，该状态即为当前状态。

动作(Action,a)：在每一个State中，Agent可以采取的行为或处理方式即为Action。每采取一个Action，Agent将根据该Action对环境产生的影响相应确定下一个State。本发明实施例中以Agent的6种不同的转换动作，即：左上、左下、右上、右下、居中以及终端动作为例进行说明，但不限制本发明的保护范围。如左上的动作表示以Agent为执行主体，执行在当前图像的左上角圈框的动作，居中的动作表示以Agent为执行主体，执行在当前图像的中间部位圈框的动作，终端动作表示以Agent为执行主体，Agent不采取任何移动。

奖励信号(Reward,r)：每到一个State，Agent就有可能会收到一个Reward反馈，如动作的结果使期望的折扣奖励信号总和增大，则会收到一个正的奖励信号；反之，则会收到一个负的奖励信号。

对于步骤S1，具体而言，考虑到本发明的目标物体检测方法为根据目标物体的当前状态执行相应的转换动作，直到检测到目标物体为止。即根据当前状态找到一种策略得到动作，使其最终框选出所要检测的目标物，即按如下形式实现检测的动作转换。

a_t＝π(s_t)；

式中，s_t表示目标物体图像的当前状态，a_t表示Agent需要执行的转换动作。

在一个实施例中，所述根据图像特征向量和Agent历史动作数据，更新当前状态进一步包括：以当前环境的所述图像特征向量和Agent的最后若干个所述历史动作数据为新元素，加入表示所述当前状态的序列。

步骤S1中首先需获取当前状态，即，在上一次动作完成之后，且在进行下一步动作选择之前，先获取表征当前环境特征的图像特征向量，并根据历史记录获取Agent过去最后指定步数的历史动作数据；然后以所述图像特征向量和Agent过去最后指定步数的历史动作数据作为新的元素，加入当前状态序列State，实现对当前状态序列State的更新，被更新后的当前状态序列State作为下一次动作选择的当前状态。

特殊的，在进行动作的初始化阶段，Agent还没有历史动作数据记录，此时，仅以获取的表征当前环境特征的图像特征向量为当前状态。

在一个实施例中，在所述根据图像特征向量和Agent历史动作数据，更新当前状态之前，所述方法还包括：采集图像，预处理所述图像，并对所述预处理后的图像进行特征提取，获取所述图像特征向量。

具体而言，根据上述步骤，需要对当前环境的特征进行提取，以获取当前状态。因此，首先由Agent对当前环境进行图像采集，获取当前环境的图像数据。然后为了降低图像特征提取的难度，对环境图像进行预处理，如调整图像尺寸等。最后对预处理后的环境图像进行特征提取，获取图像特征向量。

例如，首先使用移动机器人上的摄像头摄取当前环境图像，之后将摄取的环境图像尺寸调整为224*224*3，最后将调整尺寸处理后的图像输入到Vgg16模型中进行特征提取。

为了提高效率，本发明实施例中使用已经训练好的Vgg16模型，参考图2，为本发明实施例一种改变后的Vgg16模型结构示意图，图中pool1至pool5均为最大池化层。介于本处理过程的目标为获取环境图像的特征向量，因此应用中截取掉原模型中的softmax层，直接从pool5中得到图像特征向量，并将其用于上述更新当前状态的步骤中。Vgg16的使用省去了针对特定任务人工设计不同特征的繁琐，具有一定的泛化能力。

在对步骤S2进行具体说明之前，首先明确几个定义如下：

Q学习(Q Learning)：一种强化学习算法。在Q Learning中，定义了一个价值函数Q(s,a)来表示在状态s下采取动作a能够得到的最大奖励信号，价值函数的取值为价值函数值。基于贝尔曼方程(Bellman equation)，可以通过迭代算法不停地更新Q函数值。如果所述Q函数足够准确，并且环境是确定的，每步只需采取选择最大Q函数值对应动作的策略即可。在传统的Q Learning中，Q函数值被储存在一个Q表格中，该表格的行为所有可能的State，列为所有可能的Action。这种方式可以很好的解决一些问题，尤其是State不多的时候，比如可以用有限几个量来表示的时候。

深度Q网络(DQN)算法：神经网络化的Q Learning。在现实中，经常要用一些原始图像(raw image)来表示State，这种情况下State包含很多个状态值，如一张10×10像素的8位灰度图像就有256¹⁰⁰个不同State，此时很难建立如此大的一个Q表格，因此Q Learning很难被应用到现实问题中。

DQN算法将强化学习中的Q函数神经网络化，即：Q(s,a)＝Q(s,a；θ)。其中，Q(s,a；θ)为DQN算法的价值函数，s为状态，a为动作，θ为神经网络参数。

Double DQN算法：一种双值估计算法，即将动作的选择和评估分离的DQN的改进算法。DQN算法中采用同一个价值函数对动作进行选择和评估，容易导致对动作的过高估计，这是由于DQN算法选择最大的价值函数值作为最大期望价值函数动作的估计产生了正的偏差。

Double DQN算法采用如下形式对动作进行选择和估计：

具体为，用最大第一价值函数值Q_main选择动作，用第二价值函数值Q评估动作。式中，r表示当前状态下动作产生的奖励信号，γ表示折扣因子，s和a分别表示当前状态和当前状态下的动作，s_t+1和a_t+1分别表示下一状态和下一状态下的动作，θ和θ′分别表示第一DQN网络参数和第二DQN网络参数。

期望价值函数：为根据当前状态估算的下一步动作可能产生的折扣奖励信号总和，为估算值，而非实际值。对应第一DQN网络的期望价值函数为第一期望价值函数，对应第二DQN网络的期望价值函数为第二价值函数。对应上述六种动作，产生六维的期望价值函数Q_main。

在一个实施例中，所述根据所述当前状态，通过Double DQN算法的第一DQN网络，获取各种动作对应的第一期望价值函数值进一步包括：根据更新后的所述当前状态的序列，利用Double DQN算法中第一DQN网络的第一期望价值函数，获取各动作对应的所述第一期望价值函数值。

具体而言，对于第一DQN网络的第一期望价值函数，当当前状态取值确定时，可根据第一期望价值函数计算求解方程，获得第一期望价值函数值。

对于步骤S2，具体而言，根据上述步骤获取的表征当前状态序列State，可以计算第一期望价值函数取值Q_main。因此利用Double DQN算法中第一DQN网络的如下第一期望价值函数形式，根据更新后的当前序列，对第一期望价值函数求函数值，得到六种动作分别对应的第一期望价值函数值Q_main：

式中，Q_main(s,a；θ)表示第一期望价值函数，r表示当前状态下动作产生的奖励信号，γ表示折扣因子，s和a分别表示当前状态和当前状态下的动作，s_t+1和a_t+1分别表示下一状态和下一状态下的动作，θ表示第一DQN网络参数。

步骤S3中，ε-greedy策略：目标物体检测中动作选择的决策方案，该决策方案的决策参数为ε。ε-greedy策略以ε的概率随机选择动作来鼓励Agent的探索，以(1-ε)的概率选择最大的第一期望价值函数值所对应的动作。

在一个实施例中，所述根据所述第一期望价值函数值和决策参数ε，采用ε-greedy策略选择下一个动作进一步包括：基于所述各动作对应的各所述第一期望价值函数值，以ε的概率随机选择所述各动作中的一种动作，以1-ε的概率选择各所述第一期望价值函数值中最大的一个对应的动作，作为所述下一个动作。

对于步骤S3，具体而言，根据上述步骤，在当前状态下经过Double DQN算法中第一DQN网络处理后，输出的是六维的第一期望价值函数Q_main，分别对应6种动作。接下来要对下一步动作进行选择，动作的选择采用ε-greedy策略。

对于给定的决策参数ε，ε-greedy策略以ε的概率随机选择六种动作中的一个来鼓励Agent的探索，以(1-ε)的概率选择六维第一期望价值函数中最大值所对应的动作。即以(1-ε)的概率根据以下形式进行动作选择：

其中，a_t表示t时刻最大的第一期望价值函数值对应的动作类型，s_t表示t时刻状态，θ表示第一DQN网络参数，Q_main(s_t,a_t；θ)表示t时刻状态下第一期望价值函数。

在下一步动作选择完成后，Agent根据ε-greedy策略选择的动作执行目标物体检测任务。如根据ε-greedy策略的选择输出左上的动作，Agent即将探测单元向左上方向移动。

对于步骤S4，具体而言，在根据上述步骤选择Agent的下一个动作之后，Agent根据选择执行相应的框选动作。在Agent执行动作完成后，需要根据动作产生的结果对该动作进行评估，以判断该动作是否利于对目标物体的准确检测。具体采用Double DQN算法的第二DQN网络，第二DQN网络对应一个第二价值函数Q，通过第二价值函数Q，对选择的动作进行评估。

为了更详细的说明，参考图3，为本发明实施例一种目标物体检测处理过程示意图。图中目标物体检测处理过程包括两个阶段，即感知阶段和决策阶段。

感知阶段由Agent获取当前环境的环境图像，并对环境图像进行预处理，然后将处理后的图像输入到Vgg16模型中进行特征提取，获取图像特征向量。

在决策阶段采用的是Double DQN的算法，第一次动作选择前初始化记忆向量及价值函数，并在每次动作之后对当前状态进行更新，同时将当前状态、所述当前状态下执行的动作、所述当前状态下动作执行后获得的奖励函数值以及所述下一个状态构成的元组存入记忆向量。在检测后期几段，每次将感知阶段提取到的图像特征向量以及Agent过去最后4个动作作为Agent的当前状态s。因为每一次动作转换都会涉及到6种动作，所以将4种动作转换排成向量形式就是24维。

在当前状态s下，根据Double DQN算法中第一DQN网络计算获取各动作对应的第一期望价值函数值Q_main，并据此采用ε-greedy策略选择下一动作。然后采用Double DQN算法中第二DQN网络的第二价值函数Q对所述下一个动作进行评估。在下一动作被执行后，Agent监测到的当前环境会发生变化，转入感知阶段，由感知阶段提取下一图像特征向量。根据感知阶段获取的下一图像特征向量，以及历史动作数据中Agent过去最后四个动作，更新当前状态s。直到达到检测标准或者已经达到限制条件时停止检测。

下面以本发明实施例实际检测可视化结果为例进行说明，参考图4，为本发明实施例一种目标物体检测过程的可视化示意图，在图4中可以看到最终的检测位置都聚焦在目标物体上。

以图4第4排的图像为例，可以看出执行的动作依次是：左上、左下、右上、左下及终端。根据每一次动作执行之后瓶子在图片上的位置，可以看出所执行的动作和期望动作是一致的。

本发明实施例提供的一种目标物体检测方法，通过Double DQN算法中第一DQN网络获取各种动作的对应的第一期望价值函数值Q_main，并据此采用ε-greedy策略为Agent选择下一个动作，并采用Double DQN算法中第二DQN网络的第二价值函数Q对所选择的动作进行评估，将对动作的选择和评估进行了分离，能够有效降低过高估计的几率，提高检测准确率。同时，该方法不需要人手工设定特征，减少了工作量，且具有一定的广泛性。

本发明的另一个实施例中，在上述实施例所述采用ε-greedy策略选择下一个动作，检测所述目标物体之后，所述方法还包括：当判断达到检测标准或者达到限制条件时，停止检测；或者，当判断未达到检测标准且未达到限制条件时，基于迭代算法选择再下一个动作，检测所述目标物体，直至达到检测标准或者达到限制条件。

具体而言，根据上述实施例在执行下一个动作之后，对实际检测结果和动作执行条件的判断均不满足设定值，即一方面，在上述实施例Agent按选择执行完下一个动作之后，会对检测结果和动作执行限制条件进行判断，即将实际检测结果与设定检测标准进行比较，并将动作执行条件与设定限制条件进行比较判断，当判断确认实际检测结果达到设定检测标准，或者动作执行条件达到设定限制条件时，即停止对目标物体的检索。

其中可选的，所述达到检测标准包括：检测框和所述目标物体所在区域真实框的重合区域与所述检测框和所述真实框的覆盖总区域的比值不小于给定阈值。

具体而言，在Agent对目标物体进行检测时，经每次动作之后都会选定一个区域框，即检测框，检测框内区域为Agent根据检测动作对目标物体的预测区域。同时，对于待检测的目标物体，其存在于Agent的检测区域内某个确定区域内，该区域为真实框。

每次动作之后，目标检测系统获取Agent的检测框和目标物体的真实框，并计算二者的重合区域，以及二者总的覆盖区域，当重合区域面积与总的覆盖区域面积的比值大于设定阈值时，认为达到检测标准，即停止对目标物体的继续检测。

其中，重合区域面积与总的覆盖区域面积的比值可表示为：

IoU(b,g)＝area(b∩g)/area(b∪g)；

其中，b表示检测框区域，g表示真实框区域。

其中可选的，所述达到限制条件包括：所述动作中没有一种可以使所述当前状态产生变化；或者，所述执行动作的次数达到设定值。

具体而言，根据上述步骤，每一次动作之后，都会对当前状态进行更新。目标物体检测系统在当前状态更新之后，会对本次动作的当前状态和上一动作的状态进行比较，当比较获知无论采用哪一种动作类型，都不能对当前状态产生影响，即任何一种动作类型都不能使当前状态发生变化，则认为达到设定限制条件，即选择终端动作。

另外，每执行一次动作之后会对动作执行的实际次数进行计数，并对该实际次数与设定最大执行次数进行比较，实际次数达到设定最大执行次数时，则认为达到设定限制条件，即停止继续进行目标物体检测。

例如，以设定限制条件为10次动作，则从执行第一次动作开始，每执行一次动作，对执行动作的总次数计数增加一次，并判断加一之后的实际动作次数是否达到10，当实际动作次数达到10时，无论是否达到设定检测标准，都停止目标检测程序。

另一方面，在目标物体检测过程进行检测标准和限制条件的判断时，不仅实际检测结果未达到设定检测标准，而且动作执行条件未达到设定限制条件，则对当前状态和检测动作选择执行迭代算法，选择再下一个动作，对目标物体进行检测。

在迭代过程中每次动作之后都会执行一次设定检测标准和设定限制条件的判断，若两者都达不到设定值则进入下一轮迭代运算；若两者中有任一个达到设定条件，则执行上述实施例的步骤S3。

其中可选的，所述基于迭代算法选择再下一个动作，检测所述目标物体的处理流程参考图5，为本发明实施例一种目标物体检测迭代算法处理流程图，包括：

S301，根据所述下一个动作更新所述历史动作数据，获取新历史动作数据，根据所述下一个动作的执行结果，获取奖励函数值，并获取新图片特征向量。

具体而言，根据上述实施例，在每一次动作之后，会对当前状态进行更新，并将当前状态、当前状态下执行的动作、执行动作后获得的奖励以及下一个状态构成的元组存入记忆向量。每进行一次动作，记忆向量中的历史动作数据数量加一，且动作数据序列会发生变化，即最后的动作数据由上一次动作数据更新为本次动作数据，而上一次动作数据退入倒数第二靠后的数据，以此递推。该新的动作数据序列即为新历史动作数据。

同时根据上述实施例，在每次动作之后，都会对当前环境产生影响，即当所述下一个动作被执行后，对环境来说，有一个状态变化，即所述下一个动作产生的结果。对于发生变换的当前环境，Agent重新摄取环境图像，并依据上述实施例所述步骤对新的环境图像进行预处理，然后根据上述实施例所述特征提取模型对处理后的新图像进行特征提取，获取新图片特征向量。

另外为了促进Agent的学习，在训练阶段，Agent每次选择完动作之后都会得到相应的奖励，这里有两种形式的奖励函数：

Ⅰ：r=sign(IoU(b′,g)-IoU(b,g))；

Ⅱ：

其中，r表示奖励信号，b表示检测框，g表示目标物体真实框，b′表示新的检测框。IoU(b,g)＝area(b∩g)/area(b∪g)表示检测框和真实框的重合区域面积与检测框和真实框覆盖总区域面积之比。奖励函数的取值，即奖励函数值即为上述实施例所述奖励信号。如奖励函数形式Ⅰ所示，如果Agent所选择的动作使目标物体依然在box里，奖励信号为+1，否则为-1。

当其余五种动作中没有一种动作可以改善对目标物体的检测定位时，终端动作就会被选择，但是终端动作并不产生移动。此时奖励函数采用Ⅱ的形式，当IoU(b,g)大于所给定的设定阈值0.5时，就会得到奖励信号+5，否则得到-5。

S302，根据所述新历史动作数据和所述新图片特征向量，更新所述当前状态，获取下一状态。

具体而言，根据上述实施例，当前状态实际上依赖于根据当前环境获取的图像特征向量和Agent的历史动作数据。迭代算法中根据上述步骤获取当前动作之后的新历史动作数据和新图片特征向量，根据所述新历史动作数据和新图片特征向量对当前状态进行赋值，更新当前状态，实际上得到的是下一轮动作选择的状态值，即下一状态。

S303，根据所述奖励函数值更新所述Double DQN算法的第一期望价值函数和第二价值函数，获取新的第一期望价值函数和新的第二价值函数。

具体而言，根据上述步骤，每次动作完成后的奖励函数为以下两种形式中的一种。

Ⅰ：r＝sign(IoU(b′,g)-IoU(b,g))；

Ⅱ：

其中，r表示奖励信号，b表示检测框，g表示目标物体真实框，b′表示新的检测框，IoU(b,g)＝area(b∩g)/area(b∪g)表示检测框和真实框的重合区域面积与检测框和真实框覆盖总区域面积之比。

则以当前状态下执行的动作后得到的总的期望折扣奖励信号总和为价值函数，即：

Q_main(s,a；θ)＝E(r_t+γr_t+1+γ²r_t+2+…|s_t＝s,a_t＝a)；

式中，Q_main(s,a；θ)表示期望价值函数，s_t表示t时刻状态，a_t表示t时刻状态下的动作，θ表示第一DQN网络参数，r_t表示t时刻状态下的动作执行后产生的奖励信号，r_t+1表示t+1时刻状态下的动作执行后产生的奖励信号，γ表示折扣因子。

当Q_main(s,a；θ)为最优的时候，则有：

设t+1时刻的状态为s_t+1，最优收入为Q_main(s_t+1,a_t+1；θ)，则上式转化为下式：

式中，s和s_t+1分别表示当前状态和下一时刻状态，a和a_t+1分别表示当前状态下的动作和下一时刻状态下的动作，θ表示第一DQN网络参数，γ表示折扣因子，r表示当前状态下动作产生的奖励。

采用上式进行下一个动作的估计时，使用同一个价值函数值Q_main(s,a；θ)选择和评估一个动作，这很可能导致对动作的过高估计。为了避免这种情况的发生，本发明实施例采用如下形式对动作进行选择和评估，即：

式中，Q(s,a；θ′)表示第二价值函数，s和s_t+1分别表示当前状态和下一时刻状态，a和a_t+1分别表示当前状态下的动作和下一时刻状态下的动作，θ和θ′分别表示第一DQN网络参数和第二DQN网络参数，r表示当前状态下动作产生的奖励，γ表示折扣因子，取值在0～1之间之间，且以接近1为佳，本实施例中γ设为0.9。

由上式确定的Double DQN算法，使用第一期望价值函数Q_main选择动作，使用第二价值函数Q对选择动作进行评估。

此时Double DQN训练的损失函数为：

L＝(Q_j-Q_main(s,a；θ))²；

式中，L为损失函数，s表示当前状态，a表示当前状态下的动作，θ表示第一DQN网络参数，Q_main(s,a；θ)表示第一期望价值函数。

S304，调整所述决策参数，并根据所述新的第一期望价值函数和所述调整后的决策参数，采用ε-greedy策略选择再下一个动作，检测所述目标物体。

具体而言，在目标物体检测初始阶段，设ε-greedy策略的决策参数ε初始值为1，之后每经过一次动作转换都以0.1的速度下降，调整一次决策参数ε取值，直到ε的值减小到0.1为止。则根据ε-greedy策略处理方式可知，在目标物体检测初始阶段倾向于随机选择转换动作，之后渐渐趋向按照下式的形式选择转换动作：

式中，a表示最大的第一期望价值函数值对应的动作，s_t表示t时刻状态，a_t表示t时刻状态下的动作，θ表示第一DQN网络参数，Q_main(s_t,a_t；θ)表示t时刻第一期望价值函数。

即，在一次动作执行结束，且在上述步骤获取新价值函数之后，将决策参数ε的取值减去0.1，且根据上述步骤获取的新价值函数估算六种动作分别对应的第一期望价值函数值Q_main。

例如，设上一轮选择动作的决策参数ε取值为0.8，则在上一轮动作之后，将ε的取值减为0.7，同时根据新价值函数计算六种动作分别对应的第一期望价值函数值Q_main，获取6个第一期望价值函数值Q_main，然后以0.7的概率在六种动作中随机选择一种动作，以0.3的概率选择6个第一期望价值函数值中最大的一个对应的动作。Agent则根据选择的动作对目标物体进行检测。

本发明实施例提供的一种目标物体检测方法，通过基于Double DQN的迭代算法，每一次动作都使Agent更接近目标物体，并最终实现对目标物体的准确定位。同时，使用的候选区域是通过高级推理策略选择的，通过使用具有较高的空间分辨率的区域表示，分析很少的区域，但是可以获取更多的信息。

在上述实施例的基础上，在所述根据所述新历史动作数据和所述新图片特征向量，更新所述当前状态，获取下一状态之后，所述方法还包括：将所述当前状态、所述当前状态下执行的动作、所述当前状态下动作执行后获得的所述奖励函数值以及所述下一个状态构成的元组存入记忆向量，并在所述记忆向量的存储容量达到设定值时，随机抽取指定数量的存储数据，进行梯度下降更新所述Double DQN算法的网络模型参数。

具体而言，根据上述实施例，每次动作之后，都会对当前状态进行更新，获取下一状态值，同时会得到一个奖励信号，即奖励函数值，在获取下一状态值和奖励信号之后，对当前状态、所述当前状态下执行的动作、所述当前状态下动作执行后获得的所述奖励函数值以及所述下一个状态构成的元组进行存储，存入记忆向量。

在获取每次动作之后的新状态和奖励信号之后，都会将当前状态、所述当前状态下执行的动作、所述当前状态下动作执行后获得的所述奖励函数值以及所述下一个状态构成的元组存入记忆向量，随着目标物体检测动作次数的增加，记忆向量的存储容量会逐渐增多。

当所述存储容量达到设定值时，从记忆向量的这些存储数据中随机抽取指定数量的存储数据，并根据抽取的存储数据进行梯度下降，更新Double DQN算法的网络模型参数。如当记忆向量存储容量达到1000时，随机抽取50个进行梯度下降更新Q网络。

其中，随机抽取50个进行梯度下降更新Q网络的具体处理过程为从记忆向量中随机抽取50个元素，对损失函数进行梯度下降更新。

本发明实施例提供的一种目标物体检测方法，通过随机提取记忆向量中的一定量数据来更新Double DQN算法的网络模型参数，打乱了数据间的相关性，满足了深度学习对输入数据要求独立性的问题。

本发明实施例根据上述实施例的方法进行了仿真实验，即使用VOC2012对模型进行训练，使用Adam优化器，学习率为1e-6，测试集包括VOC2007部分图片以及机器人在实验室不同环境背景下所拍摄的大量照片。同时为了尽快检测到目标，实验时将设定限制条件中执行次数(steps)限制设置为10，即如果Agent在第10step时仍没检测到目标，则停止搜索。

同时，本发明实施例将本发明的目标物体检测方法与基于DQN算法的目标物体检测效果进行了比较，二者检测效果比较参考图6，为本发明实施例Double DQN和DQN处理结果精确率和召回率比较示意图。由图6可见，Double DQN算法相比DQN算法具有更高的精确率和召回率。

作为本发明实施例的另一个方面，本实施例提供一种目标物体检测设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例所述的目标物体检测方法。

本发明另一个实施例中，提供一种非暂态Agent可读存储介质，所述非暂态Agent可读存储介质存储计算机指令，所述计算机指令使所述Agent执行如上述实施例所述的目标物体检测方法。

具体而言，可以理解为，实现上述方法实施例的全部或部分步骤，可以通过程序指示相关的硬件来完成，前述的程序可以存储于一Agent可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的目标物体检测设备的实施例仅仅是示意性的，其中作为感知部件的单元可以是或者也可以不是物理上分开的，作为决策部件的单元可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上实施方式的描述，本领域的技术人员可以清楚地了解到，各实施方式可借助软件加必需的通用硬件平台来实现，当然也可以通过硬件来实现。基于这种理解，上述技术方案本质上或者说对现有技术做出贡献的部分，可以以软件产品的形式体现出来，该软件产品可以存储在Agent可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令，用以使得Agent执行上述各个实施例或者实施例的某些部分所述的方法。

本发明实施例提供的一种目标物体检测设备和一种非暂态Agent可读存储介质，通过对目标物体检测程序的存储和执行，实现对目标物体的识别及对目标物体的准确定位，从而为Agent顺利完成后续工作任务提供便利。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种目标物体检测方法，其特征在于，包括：

根据图像特征向量和Agent历史动作数据，更新当前状态；

根据所述当前状态，利用Double DQN算法的第一DQN网络，获取各种动作对应的第一期望价值函数值；

根据所述第一期望价值函数值和决策参数ε，采用ε-greedy策略选择下一个动作，检测所述目标物体；

根据所述下一个动作的执行结果，利用Double DQN算法中第二DQN网络的第二价值函数对所述下一个动作进行评估。

2.根据权利要求1所述的方法，其特征在于，所述根据图像特征向量和Agent历史动作数据，更新当前状态进一步包括：

以当前环境的所述图像特征向量和Agent的最后若干个所述历史动作数据为新元素，加入表示所述当前状态的序列。

3.根据权利要求2所述的方法，其特征在于，所述根据所述当前状态，通过Double DQN算法的第一DQN网络，获取各种动作对应的第一期望价值函数值进一步包括：

根据更新后的所述当前状态的序列，利用Double DQN算法中第一DQN网络的第一期望价值函数，获取各动作对应的所述第一期望价值函数值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一期望价值函数值和决策参数ε，采用ε-greedy策略选择下一个动作进一步包括：

基于所述各动作对应的各所述第一期望价值函数值，以ε的概率随机选择所述各动作中的一种动作，以1-ε的概率选择各所述第一期望价值函数值中最大的一个对应的动作，作为所述下一个动作。

5.根据权利要求1所述的方法，其特征在于，在所述采用ε-greedy策略选择下一个动作，检测所述目标物体之后，还包括：

当判断达到检测标准或者达到限制条件时，停止检测；

或者，当判断未达到检测标准且未达到限制条件时，基于迭代算法选择再下一个动作，检测所述目标物体，直至达到检测标准或者达到限制条件。

6.根据权利要求5所述的方法，其特征在于，所述基于迭代算法选择再下一个动作，检测所述目标物体包括：

根据所述下一个动作更新所述历史动作数据，获取新历史动作数据，根据所述下一个动作的执行结果，获取奖励函数值，并获取新图片特征向量；

根据所述新历史动作数据和所述新图片特征向量，更新所述当前状态，获取下一状态；

根据所述奖励函数值，更新所述Double DQN算法的第一期望价值函数和第二价值函数，获取新的第一期望价值函数和新的第二价值函数；

调整所述决策参数ε，并根据所述新的第一期望价值函数和所述调整后的决策参数ε，采用ε-greedy策略选择再下一个动作，检测所述目标物体。

7.根据权利要求5所述的方法，其特征在于，所述达到检测标准包括：

检测框和所述目标物体所在区域真实框的重合区域与所述检测框和所述真实框的覆盖总区域的比值不小于给定阈值；

所述达到限制条件包括：

所述动作中没有一种能使所述当前状态产生变化；

或者，所述执行动作的次数达到设定值。

8.根据权利要求1所述的方法，其特征在于，在所述根据图像特征向量和Agent历史动作数据，更新当前状态之前，还包括：

采集图像，预处理所述图像，并对所述预处理后的图像进行特征提取，获取所述图像特征向量。

9.根据权利要求6所述的方法，其特征在于，在所述根据所述新历史动作数据和所述新图片特征向量，更新所述当前状态，获取下一状态之后，还包括：

将所述当前状态、所述当前状态下执行的动作、所述当前状态下动作执行后获得的奖励函数值以及所述下一个状态构成的元组存入记忆向量，并在所述记忆向量的存储容量达到设定值时，随机抽取指定数量的存储数据，进行梯度下降更新所述Double DQN算法的网络模型参数。

10.一种目标物体检测设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9中任一所述的方法。