CN110059646B

CN110059646B - 训练动作规划模型的方法及目标搜索方法

Info

Publication number: CN110059646B
Application number: CN201910329763.3A
Authority: CN
Inventors: 陈添水; 吴捷; 黄丽珊; 梁小丹; 林倞
Original assignee: DMAI Guangzhou Co Ltd
Current assignee: DMAI Guangzhou Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2021-02-09
Anticipated expiration: 2039-04-23
Also published as: CN110059646A

Abstract

本发明涉及目标搜索技术领域，具体涉及训练动作规划模型及目标搜索的方法，方法包括：获取当前测试图像、目标对象以及当前步数；获取预测的边界框以及目标对象的边界框；基于预测的边界框以及目标对象的边界框的大小关系，确定当前动作规划的奖赏；将当前测试图像、目标对象以及当前步数输入动作规划模型，预测出下一步动作的概率分布及其对应的奖赏；根据当前动作规划的奖赏、下一步动作的概率分布以其对应的奖赏，对策略网络以及价值网络的进行强化学习。在预测的边界框以及目标对象的实际边界框的基础上，确定当前动作规划的奖赏；利用预测结果对策略网络以及价值网络进行强化学习，以使得策略网络以及价值网络达到最优，具有较高的搜索效率。

Description

训练动作规划模型的方法及目标搜索方法

技术领域

本发明涉及目标搜索技术领域，具体涉及训练动作规划模型的方法及目标搜索方法。

背景技术

目标搜索(检测与定位)这一任务是计算机视觉的基础任务，其目的是根据给出的图片找出图片中的目标物体，并给出其位置及其边界框等信息。这一任务在现实生活中可以应用于智慧交通，智能安防等方面。

近年来，随着人工智能与深度学习的发展，使得传统的目标搜索任务在性能与速度上都取得了显著性的成果。然而，由于摄像机安装在固定的位置，其只能被动地接收视觉信息，这将会导致传统的目标搜索任务受到摄像机设置的制约。例如，目标离摄像头较远，摄像头难以检测到该目标；或者，目标对象超出摄像头的可视范围等等。这些将会导致目标搜索任务是在单个图像上孤立地执行的，影响目标搜索的效率。

发明内容

有鉴于此，本发明实施例提供了一种训练动作规划模型的方法及目标搜索方法，以解决目标搜索的效率较低的问题。

根据第一方面，本发明实施例提供了一种训练动作规划模型的方法，包括：

获取当前测试图像、目标对象以及当前步数；

获取预测的边界框以及所述目标对象的边界框；其中，所述预测的边界框是基于所述当前测试图像预测得到的；

基于所述预测的边界框以及所述目标对象的边界框的大小关系，确定当前动作规划的奖赏；

将当前测试图像、目标对象以及当前步数输入所述动作规划模型，预测出下一步动作的概率分布及其对应的奖赏；其中，所述动作规划模型包括策略网络以及价值网络，所述下一步动作的概率分布对应于所述策略网络，所述概率分布对应的奖赏对应于所述价值网络；

根据所述当前动作规划的奖赏、所述下一步动作的概率分布以其对应的奖赏，对所述策略网络以及所述价值网络的进行强化学习，以训练所述动作规划模型；其中，所述动作规划模型用于预测下一步动作。

本发明实施例提供的训练动作规划模型的方法，通过在预测的边界框以及目标对象的实际边界框的基础上，确定当前动作规划的奖赏，再将确定出的奖赏结合到下一步动作的预测中；利用预测结果对策略网络以及价值网络进行强化学习，以使得策略网络以及价值网络达到最优，从而能够保证训练得到的动作规划模型在对目标进行主动搜索的基础上，具有较高的搜索效率。

结合第一方面，在第一方面第一实施方式中，所述基于所述预测的边界框以及所述目标对象的边界框，确定所述动作规划的奖赏，包括：

计算所述预测的边界框与所述目标对象的边界框的交并比；

利用所述交并比以及最大步数，确定所述当前动作规划的奖赏。

本发明实施例提供的训练动作规划模型的方法，在当前动作规划的奖赏的设计中，通过最大步数的约束，使得训练得到的动作规划模型能够在尽量少的步数的情况下，准确地搜索到目标，从而进一步提高了搜索的效率。

结合第一方面第一实施方式，在第一方面第二实施方式中，所述利用所述交并比以及最大步数，确定所述当前动作规划的奖赏，包括：

利用所述交并比以及所述最大步数，计算主动搜索的奖赏；

获取步数约束的奖赏；

计算所述主动搜索的奖赏与所述步数约束的奖赏之和，得到所述当前动作规划的奖赏。

本发明实施例提供的训练动作规划模型的方法，在当前动作规划的奖赏的设计中，利用主动搜索奖赏和步数约束奖赏的结合，使得训练得到的动作规划模型能够实现准确性和速度之间的权衡。

结合第一方面第二实施方式，在第一方面第三实施方式中，采用如下公式计算所述主动搜索的奖赏：

其中，R_t为所述主动搜索的奖赏；U_t为所述交并比；C₁、C₂分别为第一常数以及第二常数；t为所述当前步数；T_max为所述最大步数。

结合第一方面，在第一方面第四实施方式中，所述将当前测试图像、目标对象以及当前步数输入所述动作规划模型，预测出下一步动作的概率分布以其对应的奖赏，包括：

将所述当前测试图像以及所述目标对象的特征结合，并送入长短期记忆网络，以得到所述长短期记忆网络的隐含层信息；其中，所述隐含层信息为所记忆的场景信息；

将所述长短期记忆网络的隐含层信息与所述当前步数的特征结合，形成全局特征；

将所述全局特征分别输入所述价值网络以及所述策略网络，以得到所述下一步动作的概率分以及所述概率分布对应的奖赏。

本发明实施例提供的训练动作规划模型的方法，通过对当前测试图像以及目标对象进行特征的提取与结合，并利用LSTM中的隐藏信息(即，所存储的记忆状态场景)与当前步数的特征结合，使得形成的全局特征能够与之前的场景状态结合，以避免无尽止的动作。

结合第一方面，在第一方面第五实施方式中，所述策略网络的损失函数为：

L_θ＝J(θ)-αH(π_θ(a_t|s_t))；式中，

其中，L_θ为所述策略网络的损失函数；J(θ)为所述策略网络对应的目标函数；π_θ(a_t|s_t)为所述下一步动作的概率分布；H(π_θ(a_t|s_t)为π_θ(a_t|s_t)的熵；α为控制熵正则化项的强度；V_θ(s_t)为所述概率分布对应的奖赏，

A^π(s_t,at)为所述策略网络对应的优势函数，所述优势函数由k阶回归和函数逼近估计；γ为折扣系数；r_t为所述当前动作规划的奖赏。

结合第一方面，在第一方面第六实施方式中，所述价值网络的损失函数为：

式中，

其中，L_V(θ)为所述价值网络的损失函数；V_θ(s_t)为所述概率分布对应的奖赏；

为k阶返回；r_t为所述当前动作规划的奖赏；β为常数。

根据第二方面，本发明实施例还提供了一种目标搜索方法，包括：

获取检测图像、目标对象以及当前步数；其中，所述检测图像包括所述目标对象的部分；

预测所述检测图像的边界框；

基于所述检测图像的边界框与所述目标对象的边界框的大小关系，判断是否需要继续进行目标搜索；

当需要继续进行目标搜索时，将所述检测图像、所述目标对象、所述当前步数输入动作规划模型，以预测下一步动作；其中，所述动作规划模型是根据上述第一方面，或第一方面任一项实施方式中所述的训练动作规划模型的方法训练得到的。

本发明实施例提供的目标搜索方法，通过主动搜索，且在进行动作预测之前进行是否需要继续进行动作预测的判断，以保证尽可能少的动作步骤来找到目标对象。

结合第二方面，在第二方面第一实施方式中，所述预测所述检测图像的边界框，包括：

检测所述检测图像中所述目标对象的二维预测框；

基于所述二维预测框生成截锥体建议框，以提取所述目标对象的截锥体点云；

对所述截锥体点云进行三维对象实例分割和三维边界框回归，以预测所述目标对象的三维边界框。

结合第二方面，在第二方面第二实施方式中，所述基于所述检测图像的边界框与所述目标对象的边界框的大小关系，判断是否需要继续进行目标搜索，包括：

计算所述检测图像的边界框与所述目标对象的边界框的交并比；

基于所述交并比与第二常数的大小关系，判断是否需要继续进行目标搜索。

根据第三方面，本发明实施例还提供了一种电子设备，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行本发明第一方面，或第一方面任一项实施方式中所述的训练动作规划模型的方法，或执行本发明第二方面，或第二方面任一项实施方式中所述的目标搜索方法。

根据第四方面，本发明实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本发明第一方面，或第一方面任一项实施方式中所述的训练动作规划模型的方法，或执行本发明第二方面，或第二方面任一项实施方式中所述的目标搜索方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的训练动作规划模型的方法的流程图；

图2是根据本发明实施例的训练动作规划模型的方法的流程图；

图3是根据本发明实施例的训练动作规划模型的方法的流程图；

图4是根据本发明实施例的动作规划模型的结构示意图；

图5是根据本发明实施例的目标搜索方法的流程图；

图6是根据本发明实施例的目标搜索方法的流程图；

图7是根据本发明实施例的目标搜索方法的模块结构示意图；

图8是根据本发明实施例的训练动作规划模型的装置的结构框图；

图9是根据本发明实施例的目标搜索装置的结构框图；

图10是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明实施例，提供了一种训练动作规划模型的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种训练动作规划模型的方法，可用于上述的电子设备，如移动机器人等，图1是根据本发明实施例的训练动作规划模型的方法的流程图，如图1所示，该流程包括如下步骤：

S11，获取当前测试图像、目标对象以及当前步数。

所述的当前测试图像可以是数据集中的样本图像，其用于模拟室内场景；目标对象为所需要搜索到的目标物体，对于电子设备而言，所获取到的目标对象可以是图像，也可以是字符编码；当前步数为从第一张测试图像开始，到当前测试图像为止，所动作的步数。

其中，所述的动作规划模型的作用在于，基于当前输入的图像，为搜索到目标对象进行下一步动作的规划。

S12，获取预测的边界框以及目标对象的边界框。

其中，所述预测的边界框是基于当前测试图像预测得到的。

电子设备在获取到当前测试图像之后，对当前测试图像中所包含的目标对象进行边界框的预测，即在当前测试图像中预测出目标对象所在的边界框。对于目标对象而言，电子设备提取出目标对象所在的图像中的边界框。

电子设备所预测的边界框可以是二维的边界框，也可以是由二维的边界框生成相应的三维边界框。不论所预测的边界框是二维的还是三维的，目标对象的边界框需要与所预测的边界框对应。

S13，基于预测的边界框以及目标对象的边界框的大小关系，确定当前动作规划的奖赏。

电子设备可以计算所预测的边界框与目标对象的边界框的交集，确定当前动作规划的奖赏；例如，当交集大于某一阈值时，给予较大的奖赏；当交集小于某一阈值时，给予一定的惩罚。

电子设备也可以计算预测的边界框与目标对象的边界框的交并比，再利用交并比与阈值的关系，确定当前动作规划的奖赏。例如，当交并比大于某一阈值时，给予当前动作规划一定的奖赏；当交并比小于某一阈值时，给予当前动作规划一定的惩罚。

进一步地，也可以在确定当前动作规划的奖赏时，结合当前步数，从而实现以尽量少的步数完成目标对象的搜索。

S14，将当前测试图像、目标对象以及当前步数输入动作规划模型，预测出下一步动作的概率分布及其对应的奖赏。

其中，所述动作规划模型包括策略网络以及价值网络，所述下一步动作的概率分布对应于策略网络，所述概率分布对应的奖赏对应于价值网络。

输入动作规划模型的参数为三个：当前测试图像、目标对象以及当前步数，而三个对象对应于三个特征，因此，可以将三个特征进行拼接形成全局特征，然后在经过动作规划模型，进行下一步动作的概率分布及其对应的奖赏的预测。

具体地，三个特征拼接形成全局特征之后，分为两个分支(即，策略网络以及价值网络)，每个分支对应于全连接层，全局特征在经过策略网络之后，得到下一步动作的概率分布；全局特征在经过价值网络之后，得到对应于概率分布的奖赏。

所述的动作规划模型可以是基于神经网络构建的，训练初始时所构建出的动作规划模型中的参数可以是基于经验值进行设置的，也可以随机设置的等等。后续在训练过程中，对动作规划模型中的参数进行优化。

S15，根据当前动作规划的奖赏、下一步动作的概率分布以其对应的奖赏，对策略网络以及价值网络的进行强化学习，以训练动作规划模型。

其中，所述动作规划模型用于预测下一步动作。

结合S13中得到的当前动作规划的奖赏，以及S14中预测出的下一步动作的概率分布及其对应的奖赏，分别对策略网络以及价值网络进行强化学习。其中，对于策略网络而言，可以使用优势演员-批评家(A2C)策略梯度算法最大化策略网络的目标；对于价值网络而言，可以采用时序差分更新来最小化引导当前动作规划的奖赏的k阶返回，并最小化损失。或者，也可以采用其他方式分别对策略网络以及价值网络进行强化学习等等。

本实施例提供的训练动作规划模型的方法，通过在预测的边界框以及目标对象的实际边界框的基础上，确定当前动作规划的奖赏，再将确定出的奖赏结合到下一步动作的预测中；利用预测结果对策略网络以及价值网络进行强化学习，以使得策略网络以及价值网络达到最优，从而能够保证训练得到的动作规划模型在对目标进行主动搜索的基础上，具有较高的搜索效率。

在本实施例中还提供了一种训练动作规划模型的方法，可用于上述的电子设备，如移动机器人等，图2是根据本发明实施例的训练动作规划模型的方法的流程图，如图2所示，该流程包括如下步骤：

S21，获取当前测试图像、目标对象以及当前步数。

详细请参见图1所示实施例的S11，在此不再赘述。

S22，获取预测的边界框以及目标对象的边界框。

其中，所述预测的边界框是基于当前测试图像预测得到的。

详细请参见图1所示实施例的S12，在此不再赘述。

S23，基于预测的边界框以及目标对象的边界框的大小关系，确定当前动作规划的奖赏。

其中，电子设备通过计算预测的边界框与目标对象的边界框的交并比，进行当前动作规划的奖赏的确定。具体地，包括：

S231，计算预测的边界框与目标对象的边界框的交并比。

具体地，交并比可以采用如下公式表示：

其中，A为预测的边界框；B为目标对象的边界框。

S232，利用交并比以及最大步数，确定当前动作规划的奖赏。

其中，当前动作规划的奖赏可以为主动搜索的奖赏；也可以为主动搜索的奖赏与步数约束的奖赏的之和。在下文中，以当前动作规划的奖赏为主动搜索的奖赏与步数约束的奖赏之和为例，确定当前动作规划的奖赏的。具体地，包括：

(1)利用交并比以及最大步数，计算主动搜索的奖赏。

采用如下公式计算主动搜索的奖赏：

在主动搜索的奖赏中，结合了最大步数，若当前步数已经达到最大步数，却还是没有搜索到目标对象，则其将会受到一个数值为-1的奖赏批判。

可选地，C₁为0.5，C₂为0.25。

(2)获取步数约束的奖赏。

动作规划模型会对每一个动作都给予轻微的惩罚，以鼓励该动作规划模型能够用更少的动作搜索目标物体。例如，步数约束的奖赏可以设置为-0.001。

(3)计算主动搜索的奖赏与步数约束的奖赏之和，得到当前动作规划的奖赏。

具体地，可以采用如下公式表示：

r_t＝R_t+R_C；

其中，R_C为步数约束的奖赏；r_t为当前动作规划的奖赏。

S24，将当前测试图像、目标对象以及当前步数输入动作规划模型，预测出下一步动作的概率分布及其对应的奖赏。

其中，所述动作规划模型包括策略网络以及价值网络，所述下一步动作的概率分布对应于所述策略网络，所述概率分布对应的奖赏对应于所述价值网络。

详细请参见图1所示实施例的S14，在此不再赘述。

S25，根据当前动作规划的奖赏、下一步动作的概率分布以其对应的奖赏，对策略网络以及价值网络的进行强化学习，以训练动作规划模型。

其中，所述动作规划模型用于预测下一步动作。

详细请参见图1所示实施例的S15，在此不再赘述。

本实施例提供的训练动作规划模型的方法，在当前动作规划的奖赏的设计中，通过最大步数的约束，使得训练得到的动作规划模型能够在尽量少的步数的情况下，准确地搜索到目标，从而进一步提高了搜索的效率。

在本实施例中还提供了一种训练动作规划模型的方法，可用于上述的电子设备，如移动机器人等，图3是根据本发明实施例的训练动作规划模型的方法的流程图，如图3所示，该流程包括如下步骤：

S31，获取当前测试图像、目标对象以及当前步数。

详细请参见图2所示实施例的S21，在此不再赘述。

S32，获取预测的边界框以及目标对象的边界框。

其中，所述预测的边界框是基于当前测试图像预测得到的。

详细请参见图2所示实施例的S22，在此不再赘述。

S33，基于预测的边界框以及目标对象的边界框的大小关系，确定当前动作规划的奖赏。

详细请参见图2所示实施例的S23，在此不再赘述。

S34，将当前测试图像、目标对象以及当前步数输入动作规划模型，预测出下一步动作的概率分布及其对应的奖赏。

对于动作规划模型的架构，请参见图4，该动作规划模型的输入为当前测试图像、目标对象以及当前步数；输出为下一步动作的概率分布及其对应的奖赏。

具体地，包括以下步骤：

S341，将当前测试图像以及目标对象的特征结合，并送入长短期记忆网络，以得到长短期记忆网络的隐含层信息。

其中，所述隐含层信息为所记忆的场景信息。

具体地，请结合图4，当前测试图像经过ResNet-18进行视觉特征的提取，ResNet-18是在ImageNet上预先培训得到的。可选的，对当前测试图像进行视觉特征的提取也可以采用其他网络模型实现。

所输入的目标对象为单词，对其先经过独热码编码，再通过全连接层提取语义信息。再将视觉特征与语义信息拼接，送入LSTM中以提取隐含层信息。其中，LSTM层使得该动作规划模型能够存储记忆见过的状态(场景)的信息。

S342，将长短期记忆网络的隐含层信息与当前步数的特征结合，形成全局特征。

对当前步数进行时序编码，得到时间编码信息；再将隐含层信息与时间编码信息相结合(即，拼接)，形成全局特征。

S343，将全局特征分别输入价值网络以及策略网络，以得到下一步动作的概率分以及概率分布对应的奖赏。

价值网络以及策略网络分别对应于一个全连接层，即通过两个全连接层预测出下一步动作的概率分布与对应奖赏。

S35，根据当前动作规划的奖赏、下一步动作的概率分布以其对应的奖赏，对策略网络以及价值网络的进行强化学习，以训练动作规划模型。

其中，所述动作规划模型用于预测下一步动作。

具体地，所述策略网络的损失函数为：

L_θ＝J(θ)-αH(π_θ(a_t|s_t))；式中，

A^π(s_t,a_t)为所述策略网络对应的优势函数，所述优势函数由k阶回归和函数逼近估计；γ为折扣系数；r_t为所述当前动作规划的奖赏。

所述价值网络的损失函数为：

式中，

为k阶返回；r_t为所述当前动作规划的奖赏；β为常数。

本实施例提供的训练动作规划模型的方法，通过对当前测试图像以及目标对象进行特征的提取与结合，并利用LSTM中的隐藏信息(即，所存储的记忆状态场景)与当前步数的特征结合，使得形成的全局特征能够与之前的场景状态结合，以避免无尽止的动作。

在本实施例中还提供了一种目标搜索方法，可用于上述的电子设备，如移动机器人等，图5是根据本发明实施例的目标搜索方法的流程图，如图5所示，该流程包括如下步骤：

S41，获取检测图像、目标对象以及当前步数。

其中，所述检测图像包括目标对象的部分。

电子设备在进行目标对象的搜索时，每动作一次采集一幅检测图像，并记录当前步数。

S42，预测检测图像的边界框。

电子设备对获取的检测图像进行边界框的预测，具体预测方法可以采用图1所示实施例的S12所述的方法。在下文中将对该步骤进行详细描述。

S43，基于检测图像的边界框与目标对象的边界框的大小关系，判断是否需要继续进行目标搜索。

电子设备可以判断所检测到的边界框与目标对象的边界框的交集，进行是否需要继续进行目标搜索；或者也可以采用其他方式进行判断。

当需要继续进行目标搜索时，执行S44；否则，执行S45。

S44，将检测图像、目标对象、当前步数输入动作规划模型，以预测下一步动作。

其中，所述动作规划模型是根据上述实施例中任一项所述的训练动作规划模型的方法训练得到的。

电子设备利用动作规划模型进行下一步动作的预测，以使得电子设备执行所预测出的动作；再返回S41进行下一次动作的预测。

S45，目标搜索结束。

当所检测到的的边界框与目标对象的边界框的大小关系满足预设条件时，表示当前目标搜索结束。

本实施例提供的目标搜索方法，通过主动搜索且在进行动作预测之前进行是否需要继续进行动作预测的判断，以保证尽可能少的动作步骤来找到目标对象。

在本实施例中还提供了一种目标搜索方法，可用于上述的电子设备，如移动机器人等，图6是根据本发明实施例的目标搜索方法的流程图，如图6所示，该流程包括如下步骤：

S51，获取检测图像、目标对象以及当前步数。

其中，所述检测图像包括目标对象的部分。

详细请参见图5所示实施例的S41，在此不再赘述。

S52，预测检测图像的边界框。

电子设备利用2D对象检测模型对检测图像中的目标对象进行二维预测框的预测，在转换为三维预测框。具体地，包括以下步骤：

S521，检测检测图像中目标对象的二维预测框。

电子设备可以利用fast-RCNN作为2D对象检测模型来预测二维边界框及其类别，当目标对象在检测图像中的面积大于400时，则该检测图像被记录为检测到。

S522，基于二维预测框生成截锥体建议框，以提取目标对象的截锥体点云。

S523，对截锥体点云进行三维对象实例分割和三维边界框回归，以预测目标对象的三维边界框。

其中，可以采用Frustum PointNets模型预测检测图像的边界框。

S53，基于检测图像的边界框与目标对象的边界框的大小关系，判断是否需要继续进行目标搜索。

电子设备在进行判断是否需要继续进行目标搜索时，可以采用事先训练处的控制模型进行判断。例如，该控制模型为多层感知器，多层感知器输出一个三维边界框的预测IOU，当IOU超过某一阈值时，搜索停止；否则，继续进行搜索。具体地，包括：

S531，计算检测图像的边界框与目标对象的边界框的交并比。

详细请参见图2所示实施例的S231，在此不再赘述。

S532，基于交并比与第二常数的大小关系，判断是否需要继续进行目标搜索。

如上文所述，采用控制模型判断是否需要继续进行目标搜索，例如，当IOU超过第二常数C₂时，表示搜索结束；否则，继续进行目标搜索。其中，所述的第二常数请参见图2所示实施例的S232，在此不再赘述。

当需要继续进行目标搜索时，执行S54；否则，执行S55。

S54，将检测图像、目标对象、当前步数输入动作规划模型，以预测下一步动作。

详细请参见图5所示实施例的S44，在此不再赘述。

S55，目标搜索结束。

详细请参见图5所示实施例的S45，在此不再赘述。

作为本实施例的一种具体实施方式，如图7所示，从软件层面将整个目标搜索的过程划分为三个部分，即3D目标检测器、控制器以及动作规划器，这三个模块协同工作，以最小的动作步骤主动搜索出目标对象。具体地，分别对三个模块详细描述如下：

1)3D目标检测器，三维目标探测器预测目标对象的三维边界框。该3D目标检测器是预先训练好的，在动作规划器的训练测试环境验证移动机器人的性能。

具体地，fast-RCNN作为二维对象检测器来预测二维边界框及其类别。当目标物体的在RGB图像中的面积大于400时，该样本被记录为检测到。当同一帧图像检测到的目标物体的所有的边界框都记录下来。使用二维的预测框生成斜截锥建议框，并提取目标的截锥体点云。然后在截锥方案中连续进行三维对象实例分割和三维边界框回归，对目标物体相应的三维边界框进行预测。预测的边界框将与真实的标签边界框进行比较，并计算三维交叉面积(IOU)。在训练阶段，3D目标探测器用来衡量目标是否被发现，并根据IOU提供主动搜索的奖赏。在测试过程中，利用三维目标检测仪对主动搜索的结果进行性能评估。

2)控制器，根据3D目标检测器的预测框估计出IOU的大小，再根据IOU的大小，判断目标是否被发现和主动探索的过程是都已经完成。

具体地，在3D目标检测器之后构造了一个多层感知器作为控制器，多层感知器输出一个三维边界框的预测IOU。当预测IOU超过0.25时，控制器发出“停止”信号。否则控制器将发出“继续”信号。控制器采用监督学习的方法进行优化，模型的损失函数为：

其中，

代表真实的IOU标签，

代表控制器预测的IOU。

3)动作规划器，动作规划器根据图像，目标对象的输入来预测下一步动作。动作规划器设计了主动搜索与步数约束的奖赏，使得这个任务能够达到准确率与速度的平衡。

为进一步描述目标搜索的过程，请再次结合图7，电子设备(移动机器人)获取到所采集到的图像(例如，RGB-D图像)，以及目标物体(例如，statue)之后，利用3D目标检测器进行RGB-D图像中目标物体的边界框的预测；再利用控制器确定预测出的边界框与目标物体的实际边界框的交并比，判断此时是否需要继续进行搜索，当需要继续搜索时，利用动作规划器进行下一步动作的规划；移动机器人执行所预测出的下一步动作，再获取当前姿态下所采集到的RGB-D图像，再次进行判断搜索是否结束。

在本实施例中还提供了一种训练动作规划模型的装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种训练动作规划模型的装置，如图8所示，包括：

第一获取模块81，用于获取当前测试图像、目标对象以及当前步数。

第二获取模块82，用于获取预测的边界框以及所述目标对象的边界框；其中，所述预测的边界框是基于所述当前测试图像预测得到的。

确定模块83，用于基于所述预测的边界框以及所述目标对象的边界框的大小关系，确定当前动作规划的奖赏。

第一预测模块84，用于将当前测试图像、目标对象以及当前步数输入所述动作规划模型，预测出下一步动作的概率分布及其对应的奖赏；其中，所述动作规划模型包括策略网络以及价值网络，所述下一步动作的概率分布对应于所述策略网络，所述概率分布对应的奖赏对应于所述价值网络。

强化学习模块85，用于根据所述当前动作规划的奖赏、所述下一步动作的概率分布以其对应的奖赏，对所述策略网络以及所述价值网络的进行强化学习，以训练所述动作规划模型；其中，所述动作规划模型用于预测下一步动作。

本实施例提供的训练动作规划模型的装置，通过在预测的边界框以及目标对象的实际边界框的基础上，确定当前动作规划的奖赏，再将确定出的奖赏结合到下一步动作的预测中；利用预测结果对策略网络以及价值网络进行强化学习，以使得策略网络以及价值网络达到最优，从而能够保证训练得到的动作规划模型在对目标进行主动搜索的基础上，具有较高的搜索效率。

本实施例提供一种目标搜索装置，如图9所示，包括：

第三获取模块91，用于获取检测图像、目标对象以及当前步数；其中，所述检测图像包括所述目标对象的部分。

第二预测模块92，用于预测所述检测图像的边界框。

判断模块93，基于所述检测图像的边界框与所述目标对象的边界框的大小关系，判断是否需要继续进行目标搜索；

动作规划模块94，用于当需要继续进行目标搜索时，将所述检测图像、所述目标对象、所述当前步数输入动作规划模型，以预测下一步动作；其中，所述动作规划模型是根据上述实施例中任一项所述的训练动作规划模型的方法训练得到的。

本实施例提供的目标搜索装置，通过主动搜索，且在进行动作预测之前进行是否需要继续进行动作预测的判断，以保证尽可能少的动作步骤来找到目标对象。

本实施例中的训练动作规划模型的装置，或目标搜索装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种电子设备，具有上述图8所示的训练动作规划模型的装置，或图9所示的目标搜索装置。

请参阅图10，图10是本发明可选实施例提供的一种电子设备的结构示意图，如图10所示，该电子设备可以包括：至少一个处理器101，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口103，存储器104，至少一个通信总线102。其中，通信总线102用于实现这些组件之间的连接通信。其中，通信接口103可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口103还可以包括标准的有线接口、无线接口。存储器104可以是高速RAM存储器(Random Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器104可选的还可以是至少一个位于远离前述处理器101的存储装置。其中处理器101可以结合图8或9所描述的装置，存储器104中存储应用程序，且处理器101调用存储器104中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线102可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线102可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器104可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器104还可以包括上述种类的存储器的组合。

其中，处理器101可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器101还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器104还用于存储程序指令。处理器101可以调用程序指令，实现如本申请图1至3实施例中所示的训练动作规划模型的方法，或图5至6实施例中所示的目标搜索方法。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的训练动作规划模型的方法，或目标搜索方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(FlashMemory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。