CN114683280B

CN114683280B - 对象控制方法、装置、存储介质及电子设备

Info

Publication number: CN114683280B
Application number: CN202210266455.2A
Authority: CN
Inventors: 崔文昊
Original assignee: Cloudminds Shanghai Robotics Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2023-11-17
Anticipated expiration: 2042-03-17
Also published as: CN114683280A

Abstract

本公开涉及一种对象控制方法、装置、存储介质及电子设备，方法包括：获取样本数据集合，样本数据集合包括对象完成一次目标任务过程中的各个状态动作对，以及与各个状态动作对对应的第一奖励分值，一个状态动作对对应的第一奖励分值为通过对示教数据集合进行模仿学习得到的判别模型进行处理得到的分值；基于样本数据集合对待训练的强化学习模型进行一次迭代训练，直至待训练的强化学习模型在达到预设的训练条件之后，得到对象的动作决策模型，动作决策模型用于基于对象的初始状态确定对象的动作决策，以实现对对象的控制。该方法可以使得对象任务执行动作更加拟人化。

Description

对象控制方法、装置、存储介质及电子设备

技术领域

本公开涉及人工智能技术领域，具体地，涉及一种对象控制方法、装置、存储介质及电子设备。

背景技术

随着机器人技术的发展，人们不再局限于机器人能够完成任务这个简单目标，而是对机器人提出了更多的需求，例如，希望机器人任务执行动作能够拟人化。

机器人在执行任务过程中，虽然可以采用规则写入的强化学习方式，即依靠添加一些特定的奖励函数来约束其动作，例如：在抓取任务中，手在桌子下方时不希望机器人腰部前后左右晃动，目标物在手臂长度以内时不希望腰部移动等。

然而，对于任务执行动作拟人化这个目标，由于很难描述任务执行动作的拟人化程度，因此写不出与之匹配的奖励函数。从而，使得相关技术中采用强化学习训练得到的机器人很难达到保证任务执行动作的拟人化。

发明内容

本公开的目的是提供一种对象控制方法、装置、存储介质及电子设备，解决了待控制对象任务执行动作不够拟人化的问题。

为了实现上述目的，第一方面，本公开提供一种对象控制方法，所述方法包括：

获取样本数据集合，所述样本数据集合包括所述对象完成一次目标任务过程中的各个状态动作对，以及与所述各个状态动作对对应的第一奖励分值，一个状态动作对对应的第一奖励分值为通过对示教数据集合进行模仿学习得到的判别模型进行处理得到的分值，一个状态动作对表征所述对象的一个状态与该状态下执行的动作决策之间的关联关系；

基于所述样本数据集合对待训练的强化学习模型进行一次迭代训练，直至所述待训练的强化学习模型在达到预设的训练条件之后，得到对象的动作决策模型，所述动作决策模型用于基于对象的初始状态确定所述对象的动作决策，以实现对所述对象的控制。

在一些实施方式中，一个状态动作对对应的第一奖励分值的确定过程包括：

通过判别模型对任一状态动作对进行处理，得到第一数值，所述第一数值表征该状态动作对中的动作决策为示教数据样本中与该状态动作对中的状态对应的标准决策动作的概率；

将所述第一数值的2倍与自然数1的差值确定为该状态下的第一奖励分值。

在一些实施方式中，每一所述样本数据集合还包括与所述各个状态动作对对应的第二奖励分值，和/或表征所述对象完成一次目标任务的结果的第三奖励分值，一个状态动作对对应的第二奖励分值为通过预设奖励函数对该状态动作对进行处理得到的分值。

在一些实施方式中，所述对象为抓取机器人，所述第二奖励分值反映以下信息中的一种或者多种：

所述抓取机器人与环境是否发生碰撞以及所述抓取机器人与待抓取对象之间的距离。

在一些实施方式中，所述获取样本数据集合，包括：

获取对象的初始状态；

将所述初始状态输入所述待训练的强化学习模型，得到所述待训练的强化学习模型输出的所述对象完成一次目标任务过程中的各个状态动作对；

将所述对象完成一次目标任务过程中的各个状态动作对，以及与所述各个状态动作对对应的第一奖励分值确定为所述样本数据集合。

在一些实施方式中，所述方法还包括：

在所述待训练的强化学习模型输出的状态动作对的数量满足预设数量，或者输出的所述状态动作对中的状态满足预设限制条件，或者输出的所述状态动作对中的状态表征所述对象成功执行目标任务时，确定所述对象完成一次目标任务过程。

在一些实施方式中，所述判别模型的训练过程包括：

在对待训练的强化学习模型进行迭代训练过程中，每隔预设迭代次数，基于所述样本数据集合中以及所述示教数据集合中对应同一状态下的动作决策之间的差异，构造损失函数；

基于所述损失函数对待训练的判别网络进行一次迭代训练，直至所述待训练的判别网络在达到预设的训练条件之后，得到所述判别模型。

第二方面，本公开还提供一种对象控制装置，所述装置包括：

获取模块，用于获取样本数据集合，所述样本数据集合包括所述对象完成一次目标任务过程中的各个状态动作对，以及与所述各个状态动作对对应的第一奖励分值，一个状态动作对对应的第一奖励分值为通过对示教数据集合进行模仿学习得到的判别模型进行处理得到的分值，一个状态动作对表征所述对象的一个状态与该状态下执行的动作决策之间的关联关系；

训练模块，用于基于所述样本数据集合对待训练的强化学习模型进行一次迭代训练，直至所述待训练的强化学习模型在达到预设的训练条件之后，得到对象的动作决策模型，所述动作决策模型用于基于对象的初始状态确定所述对象的动作决策，以实现对所述对象的控制。

第三方面，本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中方法的步骤。

第四方面，本公开还提供了一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行存储器中的计算机程序，以实现第一方面中方法的步骤。

通过上述技术方案，由于第一奖励分值是通过对人类示教数据集合进行模仿学习得到的判别模型进行处理得到的，使得判别模型能够学习到人类示教数据的特点，因此，基于第一奖励分值对待训练的强化学习模型进行训练可以帮助对象学习人类动作细节，使得对象任务执行动作更加拟人化，并且，由于可以通过判别模型得到奖励分值，使得即使在不能很好的描述规则的情况下，也可以得到与当前强化学习目标相匹配的稠密奖励，继而进行强化学习训练，因此，化简了相关技术中依靠人类经验指定奖励函数来计算的稠密奖励，降低技术使用门槛。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是本公开一实施例提供的一种对象控制方法的流程示意图。

图2是本公开一实施例提供的一种对象控制装置的结构示意图。

图3是本公开一实施例提供的一种电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

需要说明的是，本公开实施例中，对象任务执行动作拟人化可以理解为在执行目标任务时，对象在该目标任务的某个状态下执行的动作决策与人类在该目标任务的某个状态下执行的动作决策相似。

请参阅图1，图1是根据本公开一示例性实施例示出的一种对象控制方法的流程图，如图1所示，该对象控制方法包括步骤S110至步骤S120。具体的：

S110，获取样本数据集合，样本数据集合包括对象完成一次目标任务过程中的各个状态动作对，以及与各个状态动作对对应的第一奖励分值，一个状态动作对对应的第一奖励分值为通过对示教数据集合进行模仿学习得到的判别模型进行处理得到的分值，一个状态动作对表征对象的一个状态与该状态下执行的动作决策之间的关联关系。

其中，对象例如可以是机器人、无人机、无人车以及游戏引擎中的挂机角色等。其中，目标任务可以理解为对象执行的任务。例如抓取机器人执行抓取任务、采摘机器人执行采摘任务、舞蹈机器人执行舞蹈任务等，又例如，无人车执行自动驾驶任务，挂机角色执行自动寻路、攻击等任务。

需要说明的是，为了帮助理解，在后续实施例中，若未进行特殊说明，均以对象为机器人为例，对本公开实施例进行举例说明。

可以理解的是，机器人执行一个任务通常是根据机器人的当前状态，确定当前状态对应的动作决策，进而执行当前状态对应的动作决策得到下一个状态，再根据下一个状态，确定下一个状态对应的动作决策，进而执行下一个状态对应的动作决策得到再下一个状态，依次类推，直到完成目标任务。其中，每个状态与其关联的动作决策可以组成一个状态动作对。

在一些实施方式中，机器人的状态可以包括机器人各个执行器(例如各个机械肢体)的位置信息、力量信息等，机器人的动作决策可以包括执行器(例如各个机械肢体)的运动方向、运动距离、用力大小等。

本公开实施例中，为了后续能够对待训练的强化学习模型进行训练，可以获取机器人完成一次目标任务过程中的各个状态动作对，以及与各个状态动作对对应的第一奖励分值作为一个样本数据集合。其中，由于每个状态动作对对应有第一奖励分值，因此，第一奖励分值可以理解为强化学习过程中的稠密奖励分值。

其中，示教数据集合可以是对人类执行目标任务过程进行采样得到的数据的集合。在得到示教数据集合之后，可以利用模仿学习方式来得到判别模型，在得到判别模型之后，可以进一步利用判别模型来对状态动作对进行处理，从而得到该状态动作对对应的第一奖励分值。

在一些实施方式中，一个状态动作对对应的第一奖励分值的确定过程包括以下步骤：

通过判别模型对任一状态动作对进行处理，得到第一数值，第一数值表征该状态动作对中的动作决策为示教数据样本中与该状态动作对中的状态对应的标准决策动作的概率；将第一数值的2倍与自然数1的差值确定为该状态下的第一奖励分值。

本公开实施例中，由于判别模型是通过对示教数据集合进行模仿学习得到的，因此，判别模型输出的第一数值可以表示输入判别模型的状态动作对中的动作决策为示教数据样本中与该状态动作对中的状态对应的标准决策动作的概率，也即，某个状态动作对对应的第一数值表示该状态下的动作决策为人类做出的标准决策的概率，该概率取值范围为0到1，在得到第一数值之后，考虑到奖励分值的正负反馈性，进一步将第一数值的2倍与自然数1的差值确定为该状态下的第一奖励分值。

示例性地，假设机器人的第五个状态动作对输入判别模型之后，判别模型的输出为0.6，此时该第五个状态动作对对应的第一奖励分值为(0.6*2-1)＝0.2。同样的方法，假设样本数据集合中包括100个状态动作对，可以采用同样的方法得到这100个状态动作对分别对应的第一奖励分值。

S120，基于样本数据集合对待训练的强化学习模型进行一次迭代训练，直至待训练的强化学习模型在达到预设的训练条件之后，得到对象的动作决策模型，动作决策模型用于基于对象的初始状态确定对象的动作决策，以实现对对象的控制。

本公开实施例中，在得到了样本数据集合之后，便可以利用该样本数据集合对待训练的强化学习模型进行一次迭代训练。具体地，可以将样本数据集合中的每个状态动作对对应的第一奖励分值作为在待训练的强化学习模型训练过程中，在每执行对应动作决策之后给予的稠密奖励，以对待训练的强化学习模型进行一次训练。

其中，预设的训练条件可以是预设的训练迭代总次数，例如迭代100次、迭代200次、迭代1000次等。预设的训练条件还可以是将训练后的强化学习模型输出的预设数量个动作决策输入到判别模型之后，判别模型输出的第一数值均为0.5。

其中，由于本公开实施例中需要对强化学习模型进行迭代训练，因此，当第一次对强化学习模型进行训练时，待训练的强化学习可以是初始强化学习模型，当不是第一次对强化学习模型进行训练时，待训练的强化学习可以是对初始强化学习模型进行一次或者多次迭代训练之后得到的强化学习模型。

本公开实施例中，在得到对象的动作决策模型之后，便可以利用该动作决策模型来对待控制的对象进行控制，具体地，可以先获取到待控制对象的初始状态，然后将待控制对象的初始状态输入到动作决策模型，此时，动作决策模型可以输出待控制对象依次执行的多个动作决策，接着待控制对象的控制器便可以根据这多个动作决策生成待控制对象的控制指令，从而待控制对象的控制器便可以依次根据待控制对象的控制指令来对待控制对象的动作进行控制。

示例性地，以对象为抓取机器人为例，在获取到抓取机器人的动作决策模型之后，便可以将抓取机器人的初始状态输入动作决策模型，得到抓取机器人依次执行的多个动作决策(例如抓取方向以及抓取力度)，接着抓取机器人的控制器便可以根据这多个动作决策生成控制指令，从而抓取机器人的控制器便可以依次根据控制指令来对抓取机器人的动作进行控制。

采用上述技术方案，由于第一奖励分值是通过对人类示教数据集合进行模仿学习得到的判别模型进行处理得到的，使得判别模型能够学习到人类示教数据的特点，因此，基于第一奖励分值对待训练的强化学习模型进行训练可以帮助对象学习人类动作细节，使得对象任务执行动作更加拟人化，并且，由于可以通过判别模型得到奖励分值，使得即使在不能很好的描述规则的情况下，也可以得到与当前强化学习目标相匹配的稠密奖励，继而进行强化学习训练，因此，化简了相关技术中依靠人类经验指定奖励函数来计算的稠密奖励，降低技术使用门槛。

本公开实施例中，也可以在第一奖励分值的基础上，通过人类经验来指定奖励函数，从而通过奖励函数来计算状态动作对对应的奖励分值，即第二奖励分值。通过增加第二奖励分值，可以使得对象的动作能够在人为经验期望的方向下进行约束。

在一些实施方式中，对象为抓取机器人，抓取机器人执行的目标任务可以对应是抓取任务，考虑到抓取任务的目标是使得机器人避免碰撞以及使得机器人尽量靠近待抓取对象，这种情况下，可以设置抓取机器人与环境发生碰撞情况的奖励函数，以及设置与抓取机器人与待抓取对象之间的距离相关的奖励函数，从而通过预设奖励函数对某个状态动作对进行处理得到的分值可以反映所述抓取机器人与环境是否发生碰撞以及所述抓取机器人与待抓取对象之间的距离。

示例性地，当机器人在某个状态动作下，若检测到机器人与环境发生碰撞，则可以得到一个负值分值，反之，可以得到一正值分值，又例如，当机器人在某个状态动作相对于上一个状态动作对，若抓取机器人与待抓取对象之间的距离减小，可以给予当前的状态动作对一个正值分值，反之，可以得到一负值分值。

本公开实施例中，为了保证任务执行成功率，还可以在第一奖励分值的基础上，通过增加表征所述对象完成一次目标任务的结果的第三奖励分值。其中，第三奖励分值可以理解为强化学习过程中的稀疏奖励，第三奖励分值并不是每个状态动作对都对应的，而是在完成目标任务之后，对于整个任务执行结果的评价指标。示例性地，以采摘机器人为例，若采摘机器人完成一次采摘任务的任务结果是采摘成功，则可以给予一个正值分值，例如+10，否则给予一个负值分值，例如-10。

通过增加第三奖励分值相当于给予完成任务结果一个强正/负反馈，使得最终训练得到的动作决策模型在用于对待控制对象进行控制时，既使得任务执行动作拟人化，同时也能够保证任务执行的成功率。

本公开实施例中，还可以在第一奖励分值的基础上同时增加第二奖励分值以及第三奖励分值，从而使得对象任务执行动作既能够拟人化，也能够在人为经验期望的方向下约束，同时还能够保证任务执行的成功率。

在一些实施方式中，步骤S110中，获取样本数据集合可以包括以下步骤：

获取对象的初始状态；将所述初始状态输入所述待训练的强化学习模型，得到所述待训练的强化学习模型输出的所述对象完成一次目标任务过程中的各个状态动作对；将所述对象完成一次目标任务过程中的各个状态动作对，以及与所述各个状态动作对对应的第一奖励分值确定为所述样本数据集合。

本公开实施例中，在任一次对待训练强化学习模型进行迭代训练的过程中，可以将对象置于任一状态下，该状态作为当次迭代训练过程中对象的初始状态，在采集到对象的初始状态之后，可以将初始状态输入当次迭代的待训练的强化学习模型，得到待训练的强化学习模型输出的对象完成目标任务的多个状态动作对，接着便可以将对象完成该次目标任务过程中的各个状态动作对，以及与所述各个状态动作对对应的第一奖励分值确定为所述一个样本数据集合。

其中，确定各个状态动作对对应的第一奖励分值的过程可以参考前述实施例，此处不再赘述。

此外，需要说明的是，确定对象完成一次目标任务可以有多种方式。

可选地，当对象根据动作决策成功执行目标任务时，可以确定机器人完成一次任务，也即，待训练的强化学习模型输出的所述状态动作对中的状态表征所述对象成功执行目标任务时，可以确定对象完成一次任务。

示例性地，当抓取机器人成功抓取到待抓取对象时，可以确定机器人完成一次任务。

可选地，考虑到在实际环境中，对象不可能一直在执行动作决策，因此，可以考虑限制对象动作决策的次数上限，因此，在一些实施方式中，在所述待训练的强化学习模型输出的状态动作对的数量满足预设数量时，可以确定对象完成一次目标任务。

可选地，考虑到在实际环境中，对象在满足预设限制条件时，例如，发生危害机器人安全的动作时，机器人会停止工作，因此，当待训练的强化学习模型输出的所述状态动作对中的状态满足预设限制条件时也可以确定对象完成一次目标任务过程。

在一些实施方式中，前述实施例中使用到的判别模型的训练过程可以包括以下步骤：

在对待训练的强化学习模型进行迭代训练过程中，每隔预设迭代次数，基于所述样本数据集合中以及所述示教数据集合中对应同一状态下的动作决策之间的差异，构造损失函数；基于所述损失函数对待训练的判别网络进行一次迭代训练，直至所述待训练的判别网络在达到预设的训练条件之后，得到所述判别模型。

本公开实施例中，预设迭代次数可以是0次、1次、2次、5次、10次等。其中，每隔0次迭代次数可以理解为每一次对强化学习模型进行迭代训练时，也会对判别网络进行一次迭代训练。

由于判别网络的训练过程是在强化学习模型的训练过程中进行的，因此，可以将判别模型的训练过程与动作决策模型的训练过程理解为同步执行。

为了将判别模型的训练过程与动作决策模型的训练过程同步执行，在一些实施方式中，可以将动作决策模型看作是生成对抗网络的生成器，将判别网络看作是生成对抗网络的判别器，从而通过生成对抗网络的训练方法对判别模型以及动作决策模型进行同步训练。

示例性地，在对待训练的强化学习模型进行迭代训练过程中，以判别网络每隔10次迭代次数进行一次训练为例，当根据10个样本数据集合对待训练的强化学习模型进行了10次迭代训练之后，可以从10个样本数据集合中采样得到50个用于训练判别网络的第一样本数据集合，同时从人类示教数据中获取50个相同状态的状态动作对组成第二样本数据集合，接着，基于第一样本数据集合与第二样本数据集合中对应同一状态下的动作决策之间的差异，构造损失函数，最后，便可以基于所述损失函数对待训练的判别网络进行训练，完成对待训练的判别网络的一次迭代训练，重复循环前述过程，直到满足预设条件之后，便可以得到所述判别模型。

此处，预设条件可以是等到强化学习模型训练完成得到动作决策模型。

需要说明的是，本公开实施例的机器人可以是仿真环境中的机器人，也可以是真实环境中的机器人，此外，本公开实施例中的提供样本数据集合的机器人可以是仿真环境中的机器人，训练完成的动作决策模型可以用确定真实环境中的机器人的动作决策，以实现对真实环境中的机器人的控制。

下面，再以对象为自动驾驶的无人车为例，对本公开实施例的对象控制方法进行举例说明：

首先，可以获取人类真实驾驶数据，其中，在人类真实驾驶数据中，状态可以是车辆每个时刻在道路上的位置信息以及道路环境等信息，每个状态对应的动作决策可以是人类驾驶决策，例如，方向盘、刹车、车门、转向灯等的控制决策，因此，在获取到人类真实驾驶数据之后，可以根据人类真实驾驶数据中每个时刻的状态以及动作决策，确定示教数据集合。

在获取到示教数据集合之后，便可以开始对无人车对应的待训练的强化学习模型以及判别网络进行生成对抗的迭代训练。

其中，在对无人车对应的初始强化学习模型进行第一次迭代训练的过程中，可以将无人车的一个初始状态(例如无人车当前的位置信息以及当前位置的环境信息)输入该初始强化学习模型，得到初始强化学习模型输出的无人车完成该次自动驾驶任务(从初始状态开始)过程中的各个状态动作对，同时，利用初始判别网络对各个状态动作对进行处理，得到无人车完成该次自动驾驶任务过程中的各个状态动作对对应的第一奖励分值，接着便可以将各个状态动作对对应的第一奖励分值确定为样本数据集合。

接着，便可以利用由各个状态动作对对应的第一奖励分值组成的样本数据集合来对对待训练的强化学习模型进行一次迭代训练。

此外，与机器人的训练过程类似，在对无人车的动作决策模型进行训练过程中，样本数据集合除了可以包括无人车完成该次自动驾驶任务过程中的各个状态动作对对应的第一奖励分值之外，在一些情况下，为了达到不同的期望目标，样本数据集合还可以包括各个状态动作对对应的第二奖励分值和/或第三奖励分值。

示例性地，对于无人车，第二奖励分值例如可以反映无人车与环境是否发生碰撞的信息以及无人车功耗信息等。对于无人车，第三奖励分值可以是表征无人车是否在预设时间内从初始状态所处的位置到达目的地位置的结果。

并且，假设在对待训练的强化学习模型进行迭代训练过程中，每隔1次迭代，便基于所述样本数据集合中以及所述示教数据集合中对应同一状态下的动作决策之间的差异，构造损失函数，并基于所述损失函数对待训练的判别网络进行一次迭代训练。

这种情况下，在对无人车对应的初始强化学习模型进行一次迭代训练之后，再次获取无人车的一个初始状态，并将无人车的本次对应的初始状态输入该初始强化学习模型，重复执行一次待训练的强化学习模型的一次迭代训练过程，在经历对待训练的强化学习模型的两次迭代训练过程之后，从这两次迭代训练的样本数据集合中采样得到一定数量(例如50个)的状态动作对标记为预测样本，同时从示教数据中也采样等量的状态动作对标记为真实样本，接着便可以基于预测样本与真实样本之间的动作决策之间的差异，构造损失函数，并基于所述损失函数对待训练的判别网络进行一次迭代训练。至此，便完成了一次待训练的强化学习模型以及判别网络的生成对抗训练过程。

在对待训练的强化学习模型以及判别网络满足预设的训练条件之后，便可以得到无人车的动作决策模型，接着，便可以利用无人车的动作决策模型来对无人车的初始状态进行处理，得到无人车从初始状态开始的动作决策，接着，便可以根据无人车从初始状态开始的动作决策来对无人车进行控制。

请参阅图2，本公开一示例性实施例还提供一种对象控制装置200，应用于电子设备，该装置200包括：

获取模块210，用于获取样本数据集合，所述样本数据集合包括所述对象完成一次目标任务过程中的各个状态动作对，以及与所述各个状态动作对对应的第一奖励分值，一个状态动作对对应的第一奖励分值为通过对示教数据集合进行模仿学习得到的判别模型进行处理得到的分值，一个状态动作对表征所述对象的一个状态与该状态下执行的动作决策之间的关联关系；

训练模块220，用于基于所述样本数据集合对待训练的强化学习模型进行一次迭代训练，直至所述待训练的强化学习模型在达到预设的训练条件之后，得到对象的动作决策模型，所述动作决策模型用于基于对象的初始状态确定所述对象的动作决策，以实现对所述对象的控制

在一些实施方式中，装置200还包括：

第一数值确定模块，用于通过判别模型对任一状态动作对进行处理，得到第一数值，所述第一数值表征该状态动作对中的动作决策为示教数据样本中与该状态动作对中的状态对应的标准决策动作的概率；

第一模块，用于分值确定模块，用于将所述第一数值的2倍与自然数1的差值确定为该状态下的第一奖励分值。

在一些实施方式中，获取模块210包括：

获取子模块，用于获取对象的初始状态；

状态动作对确定子模块，用于将所述初始状态输入所述待训练的强化学习模型，得到所述待训练的强化学习模型输出的所述对象完成一次目标任务过程中的各个状态动作对；

样本数据集合确定子模块，用于将所述对象完成一次目标任务过程中的各个状态动作对，以及与所述各个状态动作对对应的第一奖励分值确定为所述样本数据集合。

在一些实施方式中，装置200还包括：

确定模块，用于在所述待训练的强化学习模型输出的状态动作对的数量满足预设数量，或者输出的所述状态动作对中的状态满足预设限制条件，或者输出的所述状态动作对中的状态表征所述对象成功执行目标任务时，确定所述对象完成一次目标任务过程。

在一些实施方式中，装置200还包括：

损失函数确定模块，用于在对待训练的强化学习模型进行迭代训练过程中，每隔预设迭代次数，基于所述样本数据集合中以及所述示教数据集合中对应同一状态下的动作决策之间的差异，构造损失函数。

判别模型确定模块，用于基于所述损失函数对待训练的判别网络进行一次迭代训练，直至所述待训练的判别网络在达到预设的训练条件之后，得到所述判别模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种电子设备300的框图。如图3所示，该电子设备300可以包括：处理器301，存储器302。该电子设备300还可以包括多媒体组件303，输入/输出(I/O)接口304，以及通信组件305中的一者或多者。

其中，处理器301用于控制该电子设备300的整体操作，以完成上述的对象控制方法中的全部或部分步骤。存储器302用于存储各种类型的数据以支持在该电子设备300的操作，这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件303可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器302或通过通信组件305发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口304为处理器301和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件305用于该电子设备300与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件305可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的对象控制方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的对象控制方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器302，上述程序指令可由电子设备300的处理器301执行以完成上述的对象控制方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的对象控制方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种对象控制方法，其特征在于，所述方法包括：

基于所述样本数据集合对待训练的强化学习模型进行一次迭代训练，直至所述待训练的强化学习模型在达到预设的训练条件之后，得到对象的动作决策模型，所述动作决策模型用于基于对象的初始状态确定所述对象的动作决策，以实现对所述对象的控制；

其中，一个状态动作对对应的第一奖励分值的确定过程包括：

2.根据权利要求1所述的方法，其特征在于，每一所述样本数据集合还包括与所述各个状态动作对对应的第二奖励分值，和/或表征所述对象完成一次目标任务的结果的第三奖励分值，一个状态动作对对应的第二奖励分值为通过预设奖励函数对该状态动作对进行处理得到的分值。

3.根据权利要求2所述的方法，其特征在于，所述对象为抓取机器人，所述第二奖励分值反映以下信息中的一种或者多种：

4.根据权利要求1所述的方法，其特征在于，所述获取样本数据集合，包括：

获取所述对象的初始状态；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述判别模型的训练过程包括：

7.一种对象的控制装置，其特征在于，所述装置包括：

训练模块，用于基于所述样本数据集合对待训练的强化学习模型进行一次迭代训练，直至所述待训练的强化学习模型在达到预设的训练条件之后，得到对象的动作决策模型，所述动作决策模型用于基于对象的初始状态确定所述对象的动作决策，以实现对所述对象的控制；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。

9.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-6中任一项所述方法的步骤。