CN109284847B

CN109284847B - 一种机器学习、寻物方法及装置

Info

Publication number: CN109284847B
Application number: CN201710594689.9A
Authority: CN
Inventors: 孙海鸣
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2017-07-20
Filing date: 2017-07-20
Publication date: 2020-12-25
Anticipated expiration: 2037-07-20
Also published as: US11548146B2; US20200206918A1; EP3657404A4; EP3657404A1; CN109284847A; EP3657404B1; WO2019015544A1

Abstract

本申请实施例提供了一种机器学习、寻物方法及装置，涉及人工智能技术领域，应用于机器人，方法包括：从目标寻物场景的状态集合中选择状态，作为第一状态；以第一状态为寻物策略的起始状态，获得寻找目的物的目标最优寻物策略；以目标最优寻物策略为学习目标进行策略学习，获得机器人在目标寻物场景中寻找目的物的寻物策略，并将所获得的寻物策略添加至寻物策略池；比较所获得寻物策略与目标最优寻物策略是否一致；若一致，判定完成以第一状态为寻物策略的起始状态的策略学习；若不一致，返回从目标寻物场景的状态集合中选择状态的步骤。应用本申请实施例提供的方案提高了寻物成功的概率。

Description

一种机器学习、寻物方法及装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种机器学习、寻物方法及装置。

背景技术

随着机器学习算法的飞速发展，应用机器学习算法的机器人也得到了快速发展，各具特色的机器人越来越多的应用到人们的日常生活中，为人们的生活带来便利。

以在一定应用场景中具有寻物功能的机器人为例，目前，大多数机器人依赖其自身设置的定位装置和数字地图技术确定寻物路径，进行寻物。虽然大多数情况下应用上述方式能够成功寻物，但是上述机器人自身设置的定位装置在很多应用场景下不够准确，进而应用上述方式进行寻物时成功率低。

发明内容

本申请实施例的目的在于提供一种机器学习、寻物方法及装置，以提高寻物时的成功率。具体技术方案如下：

第一方面，本申请实施例提供了一种机器学习方法，应用于机器人，所述方法包括：

从目标寻物场景的状态集合中选择状态，作为第一状态，其中，所述状态集合为：所述机器人在所述目标寻物场景中的状态的集合；

以所述第一状态为寻物策略的起始状态，获得寻找目的物的目标最优寻物策略，其中，所述寻物策略包含：所述机器人从所述寻物策略的起始状态开始至寻找到所述目的物依次经历的各个状态、从每一状态转换至下一状态所述机器人执行的动作；

以所述目标最优寻物策略为学习目标进行策略学习，获得所述机器人在所述目标寻物场景中寻找所述目的物的寻物策略，并将所获得的寻物策略添加至寻物策略池，其中，所获得的寻物策略为：以所述第一状态为起始状态、以第二状态为终止状态的寻物策略，所述第二状态为：所述目的物在所述目标寻物场景中的位置对应的所述机器人所处的状态；

比较所获得寻物策略与所述目标最优寻物策略是否一致；

若一致，判定完成以所述第一状态为寻物策略的起始状态的策略学习；

若不一致，返回所述从目标寻物场景的状态集合中选择状态的步骤。

本申请的一种实现方式中，所述以所述目标最优寻物策略为学习目标进行策略学习，获得所述机器人在所述目标寻物场景中寻找所述目的物的寻物策略，包括：

以所述目标最优寻物策略为学习目标，利用目标类型的寻物策略确定用于进行策略学习的增强学习算法中的回报函数，所述目标类型的寻物策略为：寻物策略池中用于寻找所述目标物的寻物策略；

基于所述回报函数进行策略学习，获得使得所述增强学习算法中价值函数的输出值最大的寻物策略，作为所述机器人在所述目标寻物场景中寻找所述目的物的寻物策略。

本申请的一种实现方式中，所述以所述目标最优寻物策略为学习目标，利用目标类型的寻物策略确定用于进行策略学习的增强学习算法中的回报函数，包括：

确定使得以下表达式的取值最大的回报函数R为用于进行策略学习的增强学习算法中的回报函数：

其中，

k表示所述寻物策略池中所包含寻找所述目的物的寻物策略的数量，i表示所述寻物策略池中各个寻找所述目的物的寻物策略的标识，π_i表示所述寻物策略池中标识为i的寻找所述目的物的寻物策略，π_d表示所述目标最优寻物策略，S₀表示所述第一状态，V_π表示寻物策略π下所述增强学习算法的价值函数的输出值，M表示寻物策略π中所包含状态的数量，m表示寻物策略π中各个状态的标识，t表示寻物策略π中状态转换的次数，π(S_m)表示寻物策略π中所述机器人从状态S_m转换至下一状态执行的动作，γ为预设的系数，0＜γ＜1，maximise()表示取最大值函数。

本申请的一种实现方式中，所述基于所述回报函数进行策略学习，获得使得所述增强学习算法中价值函数的输出值最大的寻物策略，包括：

按照预设的状态转换方式，学习得到以所述第一状态为寻物策略起始状态、以所述第二状态为寻物策略终止状态的寻物策略；

按照以下表达式计算学习到的每一寻物策略下所述增强学习算法中价值函数的输出值：

其中，R_e表示所述增强学习算法中的回报函数；

将计算得到的输出值中最大输出值对应的寻物策略确定为使得所述增强学习算法中价值函数的输出值最大的寻物策略。

本申请的一种实现方式中，通过以下方式确定所述寻物策略中每一状态的下一状态、以及从每一状态转换至下一状态所述机器人执行的动作：

根据预先统计的、转换前状态转换至其他状态的概率，确定转换后状态以及从所述转换前状态转换至所述转换后状态所述机器人执行的、属于所述目标寻物场景的动作集合的动作，其中，所述动作集合为：所述机器人在所述目标寻物场景中进行状态转换时执行动作的集合。

本申请的一种实现方式中，所述状态集合中的状态通过以下方式得到：

采集所述目标寻物场景的信息序列，其中，所述信息序列由信息元素组成，所述信息元素包括：视频帧和/或音频帧；

判断所述信息序列中未被选中过的信息元素的数量是否大于预设数量；

若为是，从所述信息序列中未被选中过的信息元素中选择所述预设数量个信息元素，生成所述机器人在所述目标寻物场景中所处的一个状态，作为第三状态；

判断所述状态集合中是否存在所述第三状态；

若不存在，将所述第三状态添加至所述状态集合，并返回执行所述判断所述信息序列中未被选中过的信息元素的数量是否大于预设数量的步骤；

若存在，直接返回执行所述判断所述信息序列中未被选中过的信息元素的数量是否大于预设数量的步骤。

本申请的一种实现方式中，所述动作集合中的动作通过以下方式得到：

获得所述信息序列对应的动作序列，其中，所述动作序列由动作元素组成，所述动作序列中的每一动作元素与所述信息序列中的每一信息元素一一对应；

判断所述动作序列中未被选中过的动作元素的数量是否大于所述预设数量；

若为是，从所述动作序列中未被选中过的动作元素中选择所述预设数量个动作元素，生成所述机器人在所述目标寻物场景中的一个动作，作为第一动作；

判断所述动作集合中是否存在所述第一动作；

若不存在，将所述第一动作添加至所述动作集合，并返回执行所述判断所述动作序列中未被选中过的动作元素的数量是否大于所述预设数量的步骤；

若存在，直接返回执行所述判断所述动作序列中未被选中过的动作元素的数量是否大于所述预设数量的步骤。

第二方面，本申请实施例提供了一种寻物方法，应用于机器人，所述方法包括：

接收在目标寻物场景中寻找目的物的寻物指令；

获得所述机器人的当前状态；

根据寻物策略池中包含所述当前状态的、用于寻找目的物的寻物策略，确定所述机器人从当前状态转换至下一状态执行的动作，其中，所述寻物策略池中的寻物策略是：预先以寻找所述目的物的最优寻物策略为学习目标进行策略学习得到的、所述机器人在所述目标寻物场景中寻找所述目的物的策略，寻物策略包含：所述机器人从寻物策略起始状态开始至寻找到所述目的物依次经历的各个状态、从每一状态转换至下一状态所述机器人执行的动作；

执行所确定的动作实现状态转换，并判断是否寻找到所述目的物；

若为否，返回执行所述获得所述机器人的当前状态的步骤，直至寻找到所述目的物。

本申请的一种实现方式中，所述根据寻物策略池中包含所述当前状态的用于寻找所述目的物的寻物策略，确定所述机器人从当前状态转换至下一状态执行的动作，包括：

按照以下表达式，计算在策略池中包含所述当前状态的寻物策略下预设的增强学习算法的价值函数的输出值：

其中，V_π表示寻物策略π下所述增强学习算法的价值函数的输出值，M表示寻物策略π中所包含状态的数量，m表示寻物策略π中各个状态的标识，n表示所述当前状态在寻物策略π中的标识，x表示寻物策略π中从所述当前状态至策略终止状态的状态转换次数，π(S_m)表示寻物策略π中所述机器人从状态S_m转换至下一状态执行的动作，γ为预设的系数，0＜γ＜1，R_e表示所述增强学习算法中的回报函数；

选择计算得到的输出值中最大输出值对应的寻物策略为目标寻物策略；

从所述目标寻物策略中确定所述机器人从当前状态转换至下一状态执行的动作。

本申请的一种实现方式中，所述获得所述机器人的当前状态，包括：

从所述信息序列中选择预设数量个信息元素；

判断预先获得的所述目标寻物场景的状态集合中是否存在与所选择的信息元素相匹配的状态，其中，所述状态集合为：所述机器人在所述目标寻物场景中所能处的状态的集合；

若存在，将所述状态集合中与所选择的信息元素相匹配的状态确定为所述机器人的当前状态。

第三方面，本申请实施例提供了一种机器学习装置，应用于机器人，所述装置包括：

状态选择模块，用于从目标寻物场景的状态集合中选择状态，作为第一状态，其中，所述状态集合为：所述机器人在所述目标寻物场景中的状态的集合；

策略获得模块，用于以所述第一状态为寻物策略的起始状态，获得寻找目的物的目标最优寻物策略，其中，所述寻物策略包含：所述机器人从所述寻物策略的起始状态开始至寻找到所述目的物依次经历的各个状态、从每一状态转换至下一状态所述机器人执行的动作；

策略学习模块，用于以所述目标最优寻物策略为学习目标进行策略学习，获得所述机器人在所述目标寻物场景中寻找所述目的物的寻物策略，并将所获得的寻物策略添加至寻物策略池，其中，所获得的寻物策略为：以所述第一状态为起始状态、以第二状态为终止状态的寻物策略，所述第二状态为：所述目的物在所述目标寻物场景中的位置对应的所述机器人所处的状态；

策略比较模块，用于比较所获得寻物策略与所述目标最优寻物策略是否一致，若一致，触发学习判定模块，若不一致，触发所述状态选择模块；

所述学习判定模块，用于判定完成以所述第一状态为寻物策略的起始状态的策略学习。

本申请的一种实现方式中，所述策略学习模块，包括：

回报函数确定子模块，用于以所述目标最优寻物策略为学习目标，利用目标类型的寻物策略确定用于进行策略学习的增强学习算法中的回报函数，所述目标类型的寻物策略为：寻物策略池中用于寻找所述目标物的寻物策略；

策略获得子模块，用于基于所述回报函数进行策略学习，获得使得所述增强学习算法中价值函数的输出值最大的寻物策略，作为所述机器人在所述目标寻物场景中寻找所述目的物的寻物策略；

策略添加子模块，用于将所获得的寻物策略添加至寻物策略池。

本申请的一种实现方式中，所述回报函数确定子模块，具体用于确定使得以下表达式的取值最大的回报函数R为用于进行策略学习的增强学习算法中的回报函数：

其中，

本申请的一种实现方式中，所述策略学习子模块，包括：

策略学习单元，用于按照预设的状态转换方式，学习得到以所述第一状态为寻物策略起始状态、以所述第二状态为寻物策略终止状态的寻物策略；

输出值计算单元，用于按照以下表达式计算学习到的每一寻物策略下所述增强学习算法中价值函数的输出值：

其中，R_e表示所述增强学习算法中的回报函数；

策略确定单元，用于将计算得到的输出值中最大输出值对应的寻物策略确定为使得所述增强学习算法中价值函数的输出值最大的寻物策略；

策略加入单元，用于将所获得的寻物策略添加至所述寻物策略池。

本申请的一种实现方式中，所述寻物策略中每一状态的下一状态、从每一状态转换至下一状态所述机器人执行的动作，是根据预先统计的、转换前状态转换至其他状态的概率确定的；

从每一状态转换至下一状态所述机器人执行的动作为：属于所述目标寻物场景的动作集合的动作，其中，所述动作集合为：所述机器人在所述目标寻物场景中进行状态转换时执行动作的集合。

本申请的一种实现方式中，所述学习装置还包括：

状态获得模块，用于获得所述状态集合中的状态；

所述状态获得模块，包括：

第一序列采集子模块，用于采集所述目标寻物场景的信息序列，其中，所述信息序列由信息元素组成，所述信息元素包括：视频帧和/或音频帧；

第一元素数量判断子模块，用于判断所述信息序列中未被选中过的信息元素的数量是否大于预设数量，若为是，触发状态生成子模块；

状态生成子模块，用于从所述信息序列中未被选中过的信息元素中选择所述预设数量个信息元素，生成所述机器人在所述目标寻物场景中所处的一个状态，作为第三状态；

状态判断子模块，用于判断所述状态集合中是否存在所述第三状态，若不存在，触发状态添加子模块，若存在，触发所述第一元素数量判断子模块；

状态添加子模块，用于将所述第三状态添加至所述状态集合，并触发所述第一元素数量判断子模块。

本申请的一种实现方式中，所述学习装置还包括：

动作获得模块，用于获得所述动作集合中的动作；

所述动作获得模块，包括：

第二序列采集子模块，用于获得所述信息序列对应的动作序列，其中，所述动作序列由动作元素组成，所述动作序列中的每一动作元素与所述信息序列中的每一信息元素一一对应；

第二元素数量判断子模块，用于判断所述动作序列中未被选中过的动作元素的数量是否大于所述预设数量，若为是，触发动作生成子模块；

动作生成子模块，用于从所述动作序列中未被选中过的动作元素中选择所述预设数量个动作元素，生成所述机器人在所述目标寻物场景中的一个动作，作为第一动作；

动作判断子模块，用于判断所述动作集合中是否存在所述第一动作，若不存在，触发动作添加子模块，若存在，触发所述第二元素数量判断子模块；

动作添加子模块，用于将所述第一动作添加至所述动作集合，并触发所述第二元素数量判断子模块。

第四方面，本申请实施例提供了一种寻物装置，应用于机器人，所述装置包括：

指令接收模块，用于接收在目标寻物场景中寻找目的物的寻物指令；

状态获得模块，用于获得所述机器人的当前状态；

动作确定模块，用于根据寻物策略池中包含所述当前状态的、用于寻找目的物的寻物策略，确定所述机器人从当前状态转换至下一状态执行的动作，其中，所述寻物策略池中的寻物策略是：预先以寻找所述目的物的最优寻物策略为学习目标进行策略学习得到的、所述机器人在所述目标寻物场景中寻找所述目的物的策略，寻物策略包含：所述机器人从寻物策略起始状态开始至寻找到所述目的物依次经历的各个状态、从每一状态转换至下一状态所述机器人执行的动作；

状态转换模块，用于执行所确定的动作实现状态转换，并判断是否寻找到所述目的物，若为否，触发所述状态获得模块。

本申请的一种实现方式中，所述动作确定模块，包括：

输出值计算子模块，用于按照以下表达式，计算在策略池中包含所述当前状态的寻物策略下预设的增强学习算法的价值函数的输出值：

策略选择子模块，用于选择计算得到的输出值中最大输出值对应的寻物策略为目标寻物策略；

动作确定子模块，用于从所述目标寻物策略中确定所述机器人从当前状态转换至下一状态要执行的动作。

本申请的一种实现方式中，所述状态获得模块，包括：

序列采集子模块，用于采集所述目标寻物场景的信息序列，其中，所述信息序列由信息元素组成，所述信息元素包括：视频帧和/或音频帧；

元素选择子模块，用于从所述信息序列中选择预设数量个信息元素；

状态判断子模块，用于判断预先获得的所述目标寻物场景的状态集合中是否存在与所选择的信息元素相匹配的状态，其中，所述状态集合为：所述机器人在所述目标寻物场景中所能处的状态的集合，若存在，触发状态确定子模块；

所述状态确定子模块，用于将所述状态集合中与所选择的信息元素相匹配的状态确定为所述机器人的当前状态。

第五方面，本申请实施例提供了一种机器人，包括：处理器和存储器，其中，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现前述第一方面所述的方法步骤。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质为机器人中的计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现前述第一方面所述的方法步骤。

第七方面，本申请实施例提供了一种机器人，包括：处理器和存储器，其中，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现前述第二方面所述的方法步骤。

第八方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质为机器人中的计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现前述第二方面所述的方法步骤。

由以上可见，本申请实施例提供的方案中，机器人以目标寻物场景的状态集合中一个状态作为寻物策略的起始状态，并以第一状态为寻物策略的起始状态，获得寻找目的物的目标最优寻物策略，以目标最优寻物策略为学习目标进行策略学习，获得机器人在目标寻物场景中寻找目的物的寻物策略，这样，机器人在目标寻物场景中寻找目的物时，根据前述学习得到的寻物策略即可，而无需使用机器人自身设置的定位装置，因而不会受寻物场景的影响，进而提高了寻物时的成功概率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种机器学习方法的流程示意图；

图2为本申请实施例提供的另一种机器学习方法的流程示意图；

图3为本申请实施例提供的一种获得状态集合中状态的方法的流程示意图；

图4为本申请实施例提供的一种寻物方法的流程示意图；

图5为本申请实施例提供的一种机器学习装置的结构示意图；

图6为本申请实施例提供的另一种机器学习装置的结构示意图；

图7为本申请实施例提供的一种获得状态集合中状态的装置的结构示意图；

图8为本申请实施例提供的一种寻物装置的结构示意图；

图9为本申请实施例提供的一种机器人的结构示意图；

图10为本申请实施例提供的另一种机器人的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种机器学习方法的流程示意图，该方法应用于机器人，包括：

S101：从目标寻物场景的状态集合中选择状态，作为第一状态。

机器人可以工作于不同的场景中，例如，家庭场景、工厂车间场景等等。不管机器人工作于哪种场景下，均可能会涉及到寻找物体的情况，这种情况下，上述机器人工作的场景也可以称之为寻物场景，以家庭场景为例，可能需要机器人寻找家里饲养的宠物狗、寻找家里的小孩玩具等等。

另外，机器人在不同的寻物场景中工作时，因场景之间的差异往往机器人在场景中处的位置不同、需要机器人进行的操作不同，因此，机器人在不同的寻物场景中可能处于不同的状态，再者，机器人在同一寻物场景中工作时，可能会处于该场景的不同位置，为此，机器人在每一寻物场景中可能会处于各种不同的状态。

基于上述情况，状态集合可以理解为是与机器人的寻物场景相对应的，也就是，上述状态集合可以理解为：机器人在目标寻物场景中的状态的集合。

仍然以家庭场景为例，机器人在该场景中所能处的状态可以是与其在家庭场景中所处的位置相关的，例如，上述状态可以是机器人处于家庭场景中客厅中央区域、书房的东南角区域等等。

由于已有的各种机器人中大多数具有视觉和语音功能，基于此，在本申请的一种实现方式中，机器人在寻物场景中所能处的状态可以是根据机器人在该场景中采集的视频帧和/或音频帧确定的。

具体的，从目标寻物场景的状态集合中选择状态时，可以是采用随机选择的方式从上述状态集合中选择状态，另外，还可以是按照一定的规则从上述状态集合中选择状态，本申请仅仅以此为例进行说明，实际应用中并不对状态的选择方式进行限定。

S102：以第一状态为寻物策略的起始状态，获得寻找目的物的目标最优寻物策略。

具体的，机器人寻找目的物的过程可以理解为如下过程：

机器人从当前状态转换至下一状态；

在转换后的状态下确认是否寻找到目的物；

若未寻找到目的物，重复执行上述两个步骤，直至找到目的物为止。

机器人从当前状态转换至下一状态时，可以是通过执行一定的动作实现的。另外，由于机器人处于当前状态时所执行的动作可以不同，所以执行动作后所处于的状态可能是不同的。

基于上述情况，寻物策略可以理解为：从机器人在目标寻物场景中当前所处的状态开始，直至寻找到目的物的策略。具体的，寻物策略包含：机器人从寻物策略的起始状态开始至寻找到目的物依次经历的各个状态、从每一状态转换至下一状态机器人执行的动作。

从每一状态转换至下一状态机器人要执行的动作，可能会因其所工作的场景不同而不同，具体的，上述动作可以是向左转、向右转、向前走、向后走等等，本申请并不对此进行限定。

本申请的一种实现方式中，可以通过以下方式确定寻物策略中每一状态的下一状态、以及从每一状态转换至下一状态所述机器人执行的动作：

根据预先统计的、转换前状态转换至其他状态的概率，确定转换后状态以及从转换前状态转换至转换后状态机器人执行的、属于目标寻物场景的动作集合的动作。

受寻物场景具体特征以及机器人自身特征等因素的限制，机器人在寻物过程中进行状态转换时所能够执行的动作一般是有限的，基于此，上述动作集合为：机器人在目标寻物场景中进行状态转换时执行动作的集合。

获得了机器人在目标寻物场景的状态集合和动作集合之后，可以简单的认为已经确定了机器人在目标寻物场景中能够处于的状态以及进行状态转换时能够执行的动作。鉴于此，本申请的一种实现方式中，发明人经过大量随机重复实验收集与状态转换相关的数据，进而统计两状态之间进行状态转换时机器人要执行的动作，以及相应动作下两状态之间实现状态转换的概率。例如，在随机重复实验中，将机器人执行的动作用双目摄像机或TOF(Time of Flight，飞行时间)摄像机拍下来，获取在每个状态下机器人的三维数据，或每个状态下机器人的状态向量集合等。

具体的，可以通过以下表达式统计得到一个状态转换至其他状态的概率：

P(S_i，A_i，S_j)＝x/y

其中，P(S_i，A_i，S_j)表示通过执行动作A_i机器人由状态S_i转换至状态S_j的概率，x表示在大量随机重复实验中(S_i，A_i，S_j)组合发生的次数，也就是，通过执行动作A_i机器人由状态S_i转换至状态S_j这一现象发生的次数，y表示(S_i，A_i)在大量随机重复实验中(S_i，A_i)组合发生的次数，也就是，机器人处于状态S_i时执行动作A_i的次数。

基于上述统计方式，可以从预先统计的、转换前状态转换至其他状态的概率中，选择取值最大的概率对应的状态，作为转换后状态，并将上述取值最大的概率对应的动作作为机器人从转换前状态转换至转换后状态要执行的动作。

在本申请的一种实现方式中，可以认为人演示的寻找目的物的过程是最优的过程，进而上述目标最优寻物策略可以是：对人演示的从上述第一状态开始寻找目的物的过程进行抽象得到的策略。

S103：以目标最优寻物策略为学习目标进行策略学习，获得机器人在目标寻物场景中寻找目的物的寻物策略，并将所获得的寻物策略添加至寻物策略池。

由于不同的寻物场景中，即便是同一目的物也可能会处于不同的位置，另外，即便同一目的物处于同一寻物场景中的相同位置，寻找该目的物的时候也可以采用不同的策略进行寻找，为此需要对寻找目的物的策略进行学习。

其中，所获得的寻物策略为：以第一状态为起始状态、以第二状态为终止状态的寻物策略，第二状态为：目的物在目标寻物场景中的位置对应的机器人所处的状态。

具体的，一种实现方式中，上述第二状态可以是在执行本申请实施例提供的方案之初作为参数输入至机器人的；另一种实现方式中，机器人在寻找目的物的过程中可以借助于其自身具有的视觉和/或语音功能，在每一次转换到新的状态后检测是否寻找到目的物，若寻找到，将此时所处的状态确定为上述第二状态。

本申请仅仅以此为例进行说明，实际应用中并不对机器人确定第二状态的方式进行限定。

上述寻物策略池用于存储在目标寻物场景中寻找物体的寻物策略。具体的，第一种情况：上述寻物策略池所存储的寻物策略可以仅仅是用于在目标寻物场景中寻找目的物的寻物策略；第二种情况：上述寻物策略池所存储的寻物策略可以是上述第一种情况提及的寻物策略和用于在目标寻物场景中寻找其他目的物的寻物策略。本申请仅仅以此为例进行说明，并不对寻物策略池中存储的寻物策略进行限定。

需要说明的是，对于目标寻物场景中的每一目的物而言，为了便于对该目的物的寻物策略进行学习，寻物策略池中会存储针对该目的物的初始寻物策略，这些初始寻物策略可以是随机设置的，随着本步骤中对寻物策略的学习，将学习到的寻物策略加入到寻物策略池中，这样通过不断的迭代学习，寻物策略池中的寻物策略会越来越丰富。

本申请的一种实现方式中，可以基于增强学习算法，获得机器人在目标寻物场景中寻找目的物的寻物策略。

S104：比较所获得寻物策略与目标最优寻物策略是否一致，若一致，执行S105，若不一致，返回执行S101。

从本步骤返回S101后，从目标寻物场景的状态集合中选择状态时，仍然可以是以随机的方式进行状态选择的，或者，也可以是按照一定的规则进行选择的。另外再次选出的状态可以与之前选择出的状态相同，也可以不相同，本申请并不对此进行限定。

S105：判定完成以第一状态为寻物策略的起始状态的策略学习。

由以上可见，本实施例提供的方案中，机器人以目标寻物场景的状态集合中一个状态作为寻物策略的起始状态，并以第一状态为寻物策略的起始状态，获得寻找目的物的目标最优寻物策略，以目标最优寻物策略为学习目标进行策略学习，获得机器人在目标寻物场景中寻找目的物的寻物策略，这样，机器人在目标寻物场景中寻找目的物时，根据前述学习得到的寻物策略即可，而无需使用机器人自身设置的定位装置，因而不会受寻物场景的影响，进而提高了寻物时的成功概率。

本申请的一种实现方式中，参见图2，提供了另一种机器学习的方法的流程示意图，与图1所示实施例相比，本实施例中，以目标最优寻物策略为学习目标进行策略学习，获得机器人在目标寻物场景中寻找目的物的寻物策略，并将所获得的寻物策略添加至寻物策略池(S103)，包括：

S103A：以目标最优寻物策略为学习目标，利用目标类型的寻物策略确定用于进行策略学习的增强学习算法中的回报函数。

目标类型的寻物策略为：寻物策略池中用于寻找目标物的寻物策略。

增强学习是一类机器学习方法，通过状态和动作对现实世界进行抽象建模，以找到最优的价值回报为目标，并通过一些训练、学习方法，最终找到最优的策略。

发明人经过实验发现，利用增强学习可以使得机器人通过学习改进自身的性能并进行行为选择，进而做出决策，通过选择执行某一动作实现状态改变。

另外，各种增强学习算法中一般需要包括策略的回报函数和策略的价值函数，其中，策略的价值函数是与回报函数相关的函数。具体应用中，由于寻物场景有所差异，所以回报函数一般是不同的，需要结合具体寻物场景进行学习，得到适应于不同寻物场景的回报函数。

S103B：基于回报函数进行策略学习，获得使得上述增强学习算法中价值函数的输出值最大的寻物策略，作为机器人在目标寻物场景中寻找目的物的寻物策略。

S103C：将所获得的寻物策略添加至寻物策略池。

本实施例提供的方案中，进行策略学习时引入增强学习算法，使得机器人能够更加高效的学习到寻找目的物的寻物策略。

下面再通过几个具体实施例对本申请实施例提供的机器学习方法进行进一步说明。

实施例一：

在前述图2所示实施例的基础上，以目标最优寻物策略为学习目标，利用目标类型的寻物策略确定用于进行策略学习的增强学习算法中的回报函数(S103A)，包括：

其中，

k表示寻物策略池中所包含寻找目的物的寻物策略的数量，i表示寻物策略池中各个寻找目的物的寻物策略的标识，π_i表示寻物策略池中标识为i的寻找目的物的寻物策略，π_d表示目标最优寻物策略，S₀表示第一状态，V_π表示寻物策略π下上述增强学习算法的价值函数的输出值，M表示寻物策略π中所包含状态的数量，m表示寻物策略π中各个状态的标识，t表示寻物策略π中状态转换的次数，π(S_m)表示寻物策略π中机器人从状态S_m转换至下一状态执行的动作，γ为预设的系数，0＜γ＜1，maximise()表示取最大值函数。

实施例二：

在上述实施例一的基础上，基于上述回报函数进行策略学习，获得使得上述增强学习算法中价值函数的输出值最大的寻物策略，包括：

按照预设的状态转换方式，学习得到以第一状态为寻物策略起始状态、以第二状态为寻物策略终止状态的寻物策略；

其中，R_e表示上述增强学习算法中的回报函数；

将计算得到的输出值中最大输出值对应的寻物策略确定为使得上述增强学习算法中价值函数的输出值最大的寻物策略。

具体的，上述预设的状态转换方式可以是按照预先约定好的状态与状态之间的转换关系进行状态转换的方式。

与上述情况相对应，本申请的一种实现方式中，上述预设的状态转换方式可以为：

根据预先统计的、转换前状态转换至其他状态的概率，确定转换后状态以及从转换前状态转换至转换后状态机器人执行的、属于目标寻物场景的动作集合的动作，然后执行所确定的动作，由转换前状态转换至转换后状态，实现状态转换。

P(S_i，A_i，S_j)＝x/y

基于上述统计方式，确定转换后状态以及从转换前状态转换至转换后状态机器人执行的、属于目标寻物场景的动作集合的动作的具体方式时，可以从预先统计的、转换前状态转换至其他状态的概率中，选择取值最大的概率对应的状态，作为转换后状态，并将上述取值最大的概率对应的动作作为机器人从转换前状态转换至转换后状态要执行的动作。

前面所提及的状态集合和动作集合可以是预先生成的，下面通过两个具体实施例进行详细说明。

由以上可见，上述各个实施例提供的方案中，机器人以目标寻物场景的状态集合中一个状态作为寻物策略起始状态，结合增强学习算法对寻物策略进行策略学习，得到在目标寻物场景中寻找目的物的各种寻物策略，这样，机器人在目标寻物场景中寻找目的物时，根据前述学习得到的寻物策略即可，而无需使用机器人自身设置的定位装置，因而不会受寻物场景的影响，进而提高了寻物时的成功概率。另外，由于增强学习算法自身的优势，使得机器人在进行策略学习的过程中，能够高效的学习到寻物策略，进而提高了机器人自身的性能。

实施例三：

参见图3，提供了一种获得状态集合中状态的方法的流程示意图，该方法包括：

S301：采集目标寻物场景的信息序列。

其中，上述信息序列由信息元素组成，信息元素包括：视频帧和/或音频帧。

具体的，上述信息序列可以是机器人在目标寻物场景中随意巡航的过程中采集到的。

S302：判断信息序列中未被选中过的信息元素的数量是否大于预设数量，若为是，执行S303。

上述预设数量可以是根据多次实验统计结果设定的，或者，还可以是根据目标寻物场景的类型等信息设定的，本申请并不对此进行限定。

S303：从信息序列中未被选中过的信息元素中选择预设数量个信息元素，生成机器人在目标寻物场景中所处的一个状态，作为第三状态。

本申请的一种实现方式中，生成机器人在目标寻物场景中所处的一个状态时，可以由所选择的信息元素形成一个向量，并由形成的该向量表示机器人在目标寻物场景中所处的一个状态。

S304：判断状态集合中是否存在第三状态，若不存在，执行S305，若存在，直接返回执行S302。

具体的，判断状态集合中是否存在上述第三状态时，可以将表示上述第三状态的向量与表示状态集合中各个状态的向量逐一匹配，若存在与表示第三状态的向量相匹配的向量，则说明状态集合中已存在上述第三状态；否则，说明状态集合中不存在上述第三状态。

另外，本申请的一种实现方式中，还可以通过预先训练的网络模型检测上述第三状态与状态集合中的每一状态是否相似。

具体的，上述网络模型可以按照如下方式训练得到：

机器人在目标寻物场景中随意巡航时采集信息序列，作为样本信息序列；

从样本信息序列中选择样本段，并对所选择的样本段进行状态标记；

由进行状态标记后的各个样本段形成两个一组的模型输入参数，输入至预设的神经网络模型中进行模型训练，得到用于检测两个状态的是否相似的网络模型，这一模型也可以称之为孪生网络模型。

上述机器人在目标寻物场景中随意巡航时采集的信息序列为寻物场景的环境信息，具体的，上述信息序列可以理解为由信息元素组成，信息元素包括：视频帧和/或音频帧。

从样本信息序列中选择样本段可以理解为：在样本信息序列中选择若干个连续采集的信息元素，为便于描述本申请中将所选择的信息元素的集合体称之为样本段，所选择信息元素的数量可以与前述预设数量相等，也可以不相等，本申请并不对此进行限定。

另外，由于样本信息序列是机器人在目标寻物场景中巡航时随机采集的，所以样本信息序列中的内容可能不具有代表性，或者所采集的样本序列中存在大量重复的内容等等，鉴于此，从样本信息序列中选择样本段时，为了更好的进行网络模型序列，可以不选择样本信息序列中满足上述情况的信息元素。

S305：将第三状态添加至所述状态集合，并返回执行S302。

本实施例中，机器人通过采集目标寻物场景的信息序列并对信息序列进行分析的方式，获得机器人在目标寻物场景中的各个状态，这样一方面无需用户手动设置机器人在目标寻物场景中的状态，提高了机器人的自动化程度；另一方面，机器人可以针对不同的场景自适应的获得其在不同场景中所处的状态，进而提高了机器人针对不同场景的适应性。

实施例四：

与上述实施例三中提供的获得状态集合中状态的方法类似，本实施例中提供了一种获得动作集合中动作的方法，具体的，该方法包括：

获得上述信息序列对应的动作序列，其中，动作序列由动作元素组成，动作序列中的每一动作元素与上述信息序列中的每一信息元素一一对应；

判断动作序列中未被选中过的动作元素的数量是否大于上述预设数量；

若为是，从动作序列中未被选中过的动作元素中选择预设数量个动作元素，生成机器人在目标寻物场景中的一个动作，作为第一动作；

判断动作集合中是否存在第一动作；

若不存在，将第一动作添加至动作集合，并返回执行上述判断动作序列中未被选中过的动作元素的数量是否大于所述预设数量的步骤；

若存在，直接返回执行判断动作序列中未被选中过的动作元素的数量是否大于所述预设数量的步骤。

获得动作集合中动作的具体方式与前述实施例三中获得状态集合中状态的方式相类似，区别仅仅在于“动作”与“状态”的差别，相关之处可以参见实施例三部分，这里不再赘述。

本实施例中，机器人通过采集目标寻物场景的信息序列对应的动作序列并对动作序列进行分析的方式，获得机器人在目标寻物场景中的各个动作，这样一方面无需用户手动设置机器人在目标寻物场景中的动作，提高了机器人的自动化程度；另一方面，机器人可以针对不同的场景自适应的获得其动作，进而提高了机器人针对不同场景的适应性。

与上述机器学习方法相对应，本申请实施例还提供了一种寻物方法。

图4提供了一种寻物方法的流程示意图，该方法应用于机器人，包括：

S401：接收在目标寻物场景中寻找目的物的寻物指令。

S402：获得机器人的当前状态。

S403：根据寻物策略池中包含当前状态的、用于寻找目的物的寻物策略，确定机器人从当前状态转换至下一状态执行的动作。

其中，上述寻物策略池中的寻物策略可以是：以寻找目的物的最优寻物策略为学习目标进行策略学习得到的、机器人在目标寻物场景中寻找目的物的策略。

具体的，进行策略学习的具体方式可以参见前述机器学习方法实施例部分提供的具体方式，这里不再赘述。

寻物策略包含：机器人从寻物策略起始状态开始至寻找到目的物依次经历的各个状态、从每一状态转换至下一状态机器人执行的动作。

S404：执行所确定的动作实现状态转换，并判断是否寻找到目的物，若为否，返回执行S402，直至寻找到目的物。

本申请的一种实现方式中，根据寻物策略池中包含当前状态的、用于寻找目的物的寻物策略，确定机器人从当前状态转换至下一状态执行的动作(S403)，包括：

按照以下表达式，计算在寻物策略池中包含当前状态的、用于寻找目的物的寻物策略下预设的增强学习算法的价值函数的输出值：

其中，V_π表示寻物策略π下上述增强学习算法的价值函数的输出值，M表示寻物策略π中所包含状态的数量，m表示寻物策略π中各个状态的标识，n表示当前状态在寻物策略π中的标识，x表示寻物策略π中从当前状态至策略终止状态的状态转换次数，π(S_m)表示寻物策略π中机器人从状态S_m转换至下一状态执行的动作，γ为预设的系数，0＜γ＜1，R_e表示上述增强学习算法中的回报函数；

从目标寻物策略中确定机器人从当前状态转换至下一状态要执行的动作。

本申请的一种实现方式中，获得机器人的当前状态时，可以采集目标寻物场景的信息序列，从信息序列中选择预设数量个信息元素，判断预先获得的目标寻物场景的状态集合中是否存在与所选择的信息元素相匹配的状态，若存在，将状态集合中与所选择的信息元素相匹配的状态确定为机器人的当前状态。

其中，上述信息序列由信息元素组成，信息元素包括：视频帧和/或音频帧。状态集合为：机器人在目标寻物场景中所能处的状态的集合。

由以上可见，上述各个实施例提供的方案中，机器人以寻找目的物的最优寻物策略为学习目标进行策略学习，得到机器人在目标寻物场景中寻找目的物的策略，然后，机器人在寻物时基于上述学习得到的各种寻物策略寻找目的物，这样，无需使用机器人自身设置的定位装置寻找目的物，因而不会受寻物场景的影响，进而提高了寻物时的成功概率。

与前述机器学习方法相对应，本申请实施例还提供了一种机器学习装置。

图5为本申请实施例提供的一种机器学习装置，该装置应用于机器人，包括：

状态选择模块501，用于从目标寻物场景的状态集合中选择状态，作为第一状态，其中，所述状态集合为：所述机器人在所述目标寻物场景中的状态的集合；

策略获得模块502，用于以所述第一状态为寻物策略的起始状态，获得寻找目的物的目标最优寻物策略，其中，所述寻物策略包含：所述机器人从所述寻物策略的起始状态开始至寻找到所述目的物依次经历的各个状态、从每一状态转换至下一状态所述机器人执行的动作；

策略学习模块503，用于以所述目标最优寻物策略为学习目标进行策略学习，获得所述机器人在所述目标寻物场景中寻找所述目的物的寻物策略，并将所获得的寻物策略添加至寻物策略池，其中，所获得的寻物策略为：以所述第一状态为起始状态、以第二状态为终止状态的寻物策略，所述第二状态为：所述目的物在所述目标寻物场景中的位置对应的所述机器人所处的状态；

策略比较模块504，用于比较所获得寻物策略与所述目标最优寻物策略是否一致，若一致，触发学习判定模块505，若不一致，触发所述状态选择模块501；

所述学习判定模块505，用于判定完成以所述第一状态为寻物策略的起始状态的策略学习。

可选的，所述寻物策略中每一状态的下一状态、从每一状态转换至下一状态所述机器人执行的动作，是根据预先统计的、转换前状态转换至其他状态的概率确定的；

本申请的一种实现方式中，参见图6，提供了另一种机器学习的装置的结构示意图，与前述图5所示实施例相比，本实施例中，上述策略学习模块503，包括：

回报函数确定子模块503A，用于以所述目标最优寻物策略为学习目标，利用目标类型的寻物策略确定用于进行策略学习的增强学习算法中的回报函数，所述目标类型的寻物策略为：寻物策略池中用于寻找所述目标物的寻物策略；

策略获得子模块503B，用于基于所述回报函数进行策略学习，获得使得所述增强学习算法中价值函数的输出值最大的寻物策略，作为所述机器人在所述目标寻物场景中寻找所述目的物的寻物策略；

策略添加子模块503C，用于将所获得的寻物策略添加至寻物策略池。

可选的，所述回报函数确定子模块503A，具体用于确定使得以下表达式的取值最大的回报函数R为用于进行策略学习的增强学习算法中的回报函数：

其中，

具体的，所述策略学习子模块503B，可以包括：

其中，R_e表示所述增强学习算法中的回报函数；

由以上可见，上述各个实施例提供的方案中，机器人以目标寻物场景的状态集合中一个状态作为寻物策略起始状态，结合预设的增强学习算法对寻物策略进行策略学习，得到在目标寻物场景中寻找目的物的各种寻物策略，这样，机器人在目标寻物场景中寻找目的物时，根据前述学习得到的寻物策略即可，而无需使用机器人自身设置的定位装置，因而不会受寻物场景的影响，进而提高了寻物时的成功概率。

本申请的一种实现方式中，上述学习装置还包括：状态获得模块506；

状态获得模块506，用于获得所述状态集合中的状态。

具体的，参见图7，提供了一种获得状态集合中状态的装置的结构示意图，也就是上述状态获得模块506的结构示意图，所述状态获得模块506，包括：

第一序列采集子模块506A，用于采集所述目标寻物场景的信息序列，其中，所述信息序列由信息元素组成，所述信息元素包括：视频帧和/或音频帧；

第一元素数量判断子模块506B，用于判断所述信息序列中未被选中过的信息元素的数量是否大于预设数量，若为是，触发状态生成子模块506C；

状态生成子模块506C，用于从所述信息序列中未被选中过的信息元素中选择所述预设数量个信息元素，生成所述机器人在所述目标寻物场景中所处的一个状态，作为第三状态；

状态判断子模块506D，用于判断所述状态集合中是否存在所述第三状态，若不存在，触发状态添加子模块506E，若存在，触发所述第一元素数量判断子模块506B；

状态添加子模块506E，用于将所述第三状态添加至所述状态集合，并触发所述第一元素数量判断子模块506B。

本申请的另一实现方式中，所述装置还可以包括：

动作获得模块，用于获得所述动作集合中的动作；

所述动作获得模块，包括：

与前述寻物方法相对应，本申请实施例还提供了一种寻物装置。

图8为本申请实施例提供的一种寻物装置的结构示意图，该装置应用于机器人，包括：

指令接收模块801，用于接收在目标寻物场景中寻找目的物的寻物指令；

状态获得模块802，用于获得所述机器人的当前状态；

动作确定模块803，用于根据寻物策略池中包含所述当前状态的、用于寻找目的物的寻物策略，确定所述机器人从当前状态转换至下一状态执行的动作，其中，所述寻物策略池中的寻物策略是：预先以寻找所述目的物的最优寻物策略为学习目标进行策略学习得到的、所述机器人在所述目标寻物场景中寻找所述目的物的策略，寻物策略包含：所述机器人从寻物策略起始状态开始至寻找到所述目的物依次经历的各个状态、从每一状态转换至下一状态所述机器人执行的动作；

状态转换模块804，用于执行所确定的动作实现状态转换，并判断是否寻找到所述目的物，若为否，触发所述状态获得模块802。

具体的，所述动作确定模块803可以包括：

具体的，所述状态获得模块602可以包括：

与前述学习方法、学习装置相对应，本申请实施例还提供了一种机器人。

图9为本申请实施例提供的一种机器人的结构示意图，包括：处理器和存储器，其中，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现本申请实施例提供的机器学习方法。

具体的，上述机器学习方法包括：

比较所获得寻物策略与所述目标最优寻物策略是否一致；

需要说明的是，上述处理器执行存储器上所存放的程序而实现的机器学习方法的其他实施例与前述方法实施例部分提及的机器学习方法实施例相同，这里不再赘述。

一种实现方式中，上述机器人还可以包括以下器件中的至少一种：

图像采集器件、轮子、机械腿、机械臂等等。

本实施例提供的方案中，机器人以目标寻物场景的状态集合中一个状态作为寻物策略的起始状态，并以第一状态为寻物策略的起始状态，获得寻找目的物的目标最优寻物策略，以目标最优寻物策略为学习目标进行策略学习，获得机器人在目标寻物场景中寻找目的物的寻物策略，这样，机器人在目标寻物场景中寻找目的物时，根据前述学习得到的寻物策略即可，而无需使用机器人自身设置的定位装置，因而不会受寻物场景的影响，进而提高了寻物时的成功概率。

与前述寻物方法、寻物装置相对应，本申请实施例还提供了一种机器人。

图10为本申请实施例提供的另一种机器人的结构示意图，包括：处理器和存储器，其中，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现本申请实施例所述的寻物方法。

具体的，上述寻物方法，包括：

接收在目标寻物场景中寻找目的物的寻物指令；

获得所述机器人的当前状态；

需要说明的是，上述处理器执行存储器上所存放的程序而实现的寻物方法的其他实施例与前述方法实施例部分提及的寻物方法实施例相同，这里不再赘述。

图像采集器件、轮子、机械腿、机械臂等等。

由以上可见，本实施例提供的方案中，机器人以寻找目的物的最优寻物策略为学习目标进行策略学习，得到机器人在目标寻物场景中寻找目的物的策略，然后，机器人在寻物时基于上述学习得到的各种寻物策略寻找目的物，这样，无需使用机器人自身设置的定位装置寻找目的物，因而不会受寻物场景的影响，进而提高了寻物时的成功概率。

需要说明的是，上述两种机器人中涉及的存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述两种机器人中涉及的处理器可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

与前述学习方法、学习装置相对应，本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质为机器人中的计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例所述的机器学习方法。

具体的，上述学习机器方法包括：

比较所获得寻物策略与所述目标最优寻物策略是否一致；

本实施例提供的方案中，机器人通过执行其计算机可读存储介质内存储的计算机程序，以目标寻物场景的状态集合中一个状态作为寻物策略的起始状态，并以第一状态为寻物策略的起始状态，获得寻找目的物的目标最优寻物策略，以目标最优寻物策略为学习目标进行策略学习，获得机器人在目标寻物场景中寻找目的物的寻物策略，这样，机器人在目标寻物场景中寻找目的物时，根据前述学习得到的寻物策略即可，而无需使用机器人自身设置的定位装置，因而不会受寻物场景的影响，进而提高了寻物时的成功概率。

与前述寻物方法、寻物装置相对应，本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质为机器人中的计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例所述的寻物方法。

具体的，上述寻物方法，包括：

接收在目标寻物场景中寻找目的物的寻物指令；

获得所述机器人的当前状态；

由以上可见，本实施例提供的方案中，机器人通过执行其计算机可读存储介质内存储的计算机程序，以寻找目的物的最优寻物策略为学习目标进行策略学习，得到机器人在目标寻物场景中寻找目的物的策略，然后，机器人在寻物时基于上述学习得到的各种寻物策略寻找目的物，这样，无需使用机器人自身设置的定位装置寻找目的物，因而不会受寻物场景的影响，进而提高了寻物时的成功概率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、机器人、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种机器学习方法，其特征在于，应用于机器人，所述方法包括：

以所述目标最优寻物策略为学习目标，利用目标类型的寻物策略确定用于进行策略学习的增强学习算法中的回报函数，所述目标类型的寻物策略为：寻物策略池中用于寻找所述目的物的寻物策略；基于所述回报函数进行策略学习，获得使得所述增强学习算法中价值函数的输出值最大的寻物策略，作为所述机器人在所述目标寻物场景中寻找所述目的物的寻物策略，并将所获得的寻物策略添加至寻物策略池，其中，所获得的寻物策略为：以所述第一状态为起始状态、以第二状态为终止状态的寻物策略，所述第二状态为：所述目的物在所述目标寻物场景中的位置对应的所述机器人所处的状态；

比较所获得寻物策略与所述目标最优寻物策略是否一致；

2.根据权利要求1所述的方法，其特征在于，所述以所述目标最优寻物策略为学习目标，利用目标类型的寻物策略确定用于进行策略学习的增强学习算法中的回报函数，包括：

其中，

k表示所述寻物策略池中所包含寻找所述目的物的寻物策略的数量，i表示所述寻物策略池中各个寻找所述目的物的寻物策略的标识，π_i表示所述寻物策略池中标识为i的寻找所述目的物的寻物策略，π_d表示所述目标最优寻物策略，S₀表示所述第一状态，V_π表示寻物策略π下所述增强学习算法的价值函数的输出值，

表示寻物策略π_i下所述增强学习算法的价值函数的输出值，

表示寻物策略π_d下所述增强学习算法的价值函数的输出值，M表示寻物策略π中所包含状态的数量，m表示寻物策略π中各个状态的标识，t表示寻物策略π中状态转换的次数，π(S_m)表示寻物策略π中所述机器人从状态S_m转换至下一状态执行的动作，γ为预设的系数，0＜γ＜1，maximise()表示取最大值函数，p(x)为计算函数，在x≥0时p(x)＝x，在x＜0时p(x)＝2x。

3.根据权利要求2所述的方法，其特征在于，所述基于所述回报函数进行策略学习，获得使得所述增强学习算法中价值函数的输出值最大的寻物策略，包括：

其中，R表示所述增强学习算法中的回报函数；

4.根据权利要求1-3中任一项所述的方法，其特征在于，通过以下方式确定所述寻物策略中每一状态的下一状态、以及从每一状态转换至下一状态所述机器人执行的动作：

5.根据权利要求4所述的方法，其特征在于，所述状态集合中的状态通过以下方式得到：

判断所述状态集合中是否存在所述第三状态；

6.根据权利要求5所述的方法，其特征在于，所述动作集合中的动作通过以下方式得到：

判断所述动作集合中是否存在所述第一动作；

7.一种寻物方法，其特征在于，应用于机器人，所述方法包括：

接收在目标寻物场景中寻找目的物的寻物指令；

获得所述机器人的当前状态；

按照以下表达式，计算在寻物策略池中包含所述当前状态的寻物策略下预设的增强学习算法的价值函数的输出值：

其中，V_π表示寻物策略π下所述增强学习算法的价值函数的输出值，M表示寻物策略π中所包含状态的数量，m表示寻物策略π中各个状态的标识，n表示所述当前状态在寻物策略π中的标识，x表示寻物策略π中从所述当前状态至策略终止状态的状态转换次数，π(S_m)表示寻物策略π中所述机器人从状态S_m转换至下一状态执行的动作，γ为预设的系数，0＜γ＜1，R表示所述增强学习算法中的回报函数；

从所述目标寻物策略中确定所述机器人从当前状态转换至下一状态执行的动作，其中，所述寻物策略池中的寻物策略是：预先以寻找所述目的物的最优寻物策略为学习目标进行策略学习得到的、所述机器人在所述目标寻物场景中寻找所述目的物的策略，寻物策略包含：所述机器人从寻物策略起始状态开始至寻找到所述目的物依次经历的各个状态、从每一状态转换至下一状态所述机器人执行的动作；

8.根据权利要求7所述的方法，其特征在于，所述获得所述机器人的当前状态，包括：

从所述信息序列中选择预设数量个信息元素；

9.一种学习装置，其特征在于，应用于机器人，所述装置包括：

策略学习模块，所述策略学习模块，包括：回报函数确定子模块，用于以所述目标最优寻物策略为学习目标，利用目标类型的寻物策略确定用于进行策略学习的增强学习算法中的回报函数，所述目标类型的寻物策略为：寻物策略池中用于寻找所述目的物的寻物策略；策略获得子模块，用于基于所述回报函数进行策略学习，获得使得所述增强学习算法中价值函数的输出值最大的寻物策略，作为所述机器人在所述目标寻物场景中寻找所述目的物的寻物策略；策略添加子模块，用于将所获得的寻物策略添加至寻物策略池，其中，所获得的寻物策略为：以所述第一状态为起始状态、以第二状态为终止状态的寻物策略，所述第二状态为：所述目的物在所述目标寻物场景中的位置对应的所述机器人所处的状态；

10.根据权利要求9所述的装置，其特征在于，所述回报函数确定子模块，具体用于确定使得以下表达式的取值最大的回报函数R为用于进行策略学习的增强学习算法中的回报函数：

其中，

表示寻物策略π_i下所述增强学习算法的价值函数的输出值，

11.根据权利要求10所述的装置，其特征在于，所述策略获得子模块，包括：

其中，R表示所述增强学习算法中的回报函数；

12.根据权利要求9-11中任一项所述的装置，其特征在于，所述寻物策略中每一状态的下一状态、从每一状态转换至下一状态所述机器人执行的动作，是根据预先统计的、转换前状态转换至其他状态的概率确定的；

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

状态获得模块，用于获得所述状态集合中的状态；

所述状态获得模块，包括：

14.根据权利要求13所述的装置，其特征在于，所述装置还包括：

动作获得模块，用于获得所述动作集合中的动作；

所述动作获得模块，包括：

15.一种寻物装置，其特征在于，应用于机器人，所述装置包括：

状态获得模块，用于获得所述机器人的当前状态；

动作确定模块，所述动作确定模块，包括：输出值计算子模块，用于按照以下表达式，计算在策略池中包含所述当前状态的寻物策略下预设的增强学习算法的价值函数的输出值：

其中，V_π表示寻物策略π下所述增强学习算法的价值函数的输出值，M表示寻物策略π中所包含状态的数量，m表示寻物策略π中各个状态的标识，n表示所述当前状态在寻物策略π中的标识，x表示寻物策略π中从所述当前状态至策略终止状态的状态转换次数，π(S_m)表示寻物策略π中所述机器人从状态S_m转换至下一状态执行的动作，γ为预设的系数，0＜γ＜1，R表示所述增强学习算法中的回报函数；策略选择子模块，用于选择计算得到的输出值中最大输出值对应的寻物策略为目标寻物策略；动作确定子模块，用于从所述目标寻物策略中确定所述机器人从当前状态转换至下一状态要执行的动作，其中，所述寻物策略池中的寻物策略是：预先以寻找所述目的物的最优寻物策略为学习目标进行策略学习得到的、所述机器人在所述目标寻物场景中寻找所述目的物的策略，寻物策略包含：所述机器人从寻物策略起始状态开始至寻找到所述目的物依次经历的各个状态、从每一状态转换至下一状态所述机器人执行的动作；

16.根据权利要求15所述的装置，其特征在于，所述状态获得模块，包括：

17.一种机器人，其特征在于，包括：处理器和存储器，其中，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

18.一种机器人，其特征在于，包括：处理器和存储器，其中，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求7-8任一所述的方法步骤。