CN109816109A - 任务推理模型学习及任务推理方法、机器人及存储装置 - Google Patents
任务推理模型学习及任务推理方法、机器人及存储装置 Download PDFInfo
- Publication number
- CN109816109A CN109816109A CN201811519907.3A CN201811519907A CN109816109A CN 109816109 A CN109816109 A CN 109816109A CN 201811519907 A CN201811519907 A CN 201811519907A CN 109816109 A CN109816109 A CN 109816109A
- Authority
- CN
- China
- Prior art keywords
- node
- training data
- task
- network model
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 56
- 230000000694 effects Effects 0.000 claims abstract description 52
- 238000009826 distribution Methods 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims description 8
- 239000004744 fabric Substances 0.000 claims description 2
- 241001122767 Theaceae Species 0.000 description 24
- 238000010586 diagram Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 230000001568 sexual effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013479 data entry Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 241001269238 Data Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 229910003460 diamond Inorganic materials 0.000 description 2
- 239000010432 diamond Substances 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 235000015170 shellfish Nutrition 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Landscapes
- Manipulator (AREA)
Abstract
本申请涉及机器人领域,公开了一种任务推理模型学习及任务推理方法、机器人及存储装置,该任务推理模型学习方法包括:获取示教数据,该示教数据中包括物体、动作和效应三种类型的数据;对示教数据进行学习,以得到任务推理模型,其中该任务推理模型为贝叶斯网络模型,该贝叶斯网络模型包括描述物体、动作和效应三种类型数据的节点,以及节点之间的连接关系和每个节点的概率分布。通过上述方式,本申请能够使得利用该任务推理模型的机器人可以具有推理能力。
Description
技术领域
本申请涉及机器人技术领域,特别是涉及一种任务推理模型学习及任务推理方法、机器人及存储装置。
背景技术
现有机器人技术日新月异,对机器人来说,如何通过模仿人类来学习人的技能,向来是研究的热点。示教学习,也称为模仿学习或者从人类示范中学习(Learning fromDemonstrations),旨在通过采集人类示范某种任务的数据样本,训练数据驱动的模型或控制器,用于机器人的控制,是一种先进的智能控制方法。现阶段的示教学习领域,主要包括对机械手动作轨迹的学习、对力和力矩的学习等等,因此,现有机器人通常仅仅能够实现简单的模仿,照猫画虎,遇到新情况时便无从下手,尤其是对很多复杂任务的实现较为困难。
发明内容
本申请主要解决的技术问题是提供一种机器人任务推理模型学习及任务推理方法、机器人及存储装置,能够解决机器人仅能进行简单模仿的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种任务推理模型学习方法,包括:获取示教数据,该示教数据中包括物体、动作和效应三种类型的数据;对示教数据进行学习,以得到任务推理模型,其中该任务推理模型为贝叶斯网络模型,该贝叶斯网络模型包括描述物体、动作和效应三种类型数据的节点,以及节点之间的连接关系和每个节点的概率分布。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种任务推理方法,包括:获取任务推理模型中的已观测节点的观测数据;将观测数据输入任务推理模型中,以利用任务推理模型计算任务推理模型中的未观测节点的估计值;其中,该任务推理模型是利用如上所述的任务推理模型学习方法学习得到的。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种机器人,包括:相互连接的通信电路和处理器;通信电路用于获取示教数据;处理器用于执行程序指令以实现如上所述的方法。
为解决上述技术问题,本申请采用的又一个技术方案是:提供一种存储装置,内部存储有程序指令,该程序指令被执行以实现如上所述的方法。
本申请的有益效果是:区别于现有技术的情况,本申请的实施例中,通过获取示教数据,该示教数据中包括物体、动作和效应三种类型的数据;对示教数据进行学习,以得到任务推理模型,其中该任务推理模型为贝叶斯网络模型,该贝叶斯网络模型包括描述物体、动作和效应三种类型数据的节点,以及每个节点之间的连接关系和每个节点的概率分布,从而使得机器人可以利用学习得到的任务推理模型进行推理,实现根据示教学习中未提供的观测数据推理出所需的任务数据,从而使得机器人可以具有推理能力,有助于机器人实现复杂任务,而不仅仅是简单的模仿。
附图说明
图1是本申请一实施方式的结构示意图;
图2是本申请一种任务推理模型学习方法第二实施例的流程示意图;
图3是一个简单的四个节点的贝叶斯网络示意图;
图4是图2中步骤S123的具体流程示意图;
图5是本申请一种任务推理模型学习方法第三实施例的流程示意图;
图6是本申请一种任务推理模型学习方法第四实施例的流程示意图;
图7是本申请一种任务推理方法一实施例的流程示意图;
图8是“咖啡与茶”问题的贝叶斯网络结构示意图;
图9是“咖啡与茶”问题中利用本申请任务推理模型学习方法及任务推理方法进行推理中概率P(P|G,SC)的推理结果示意图;
图10是“咖啡与茶”问题中利用本申请任务推理模型学习方法及任务推理方法进行推理中概率P(P|G,CH)的推理结果示意图;
图11是本申请机器人一实施例的结构示意图;
图12是本申请存储装置一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,本申请一种任务推理模型学习方法第一实施例包括:
S11:获取示教数据,该示教数据中包括物体、动作和效应三种类型的数据。
本实施例的示教数据是借助“可供性”(Affordance)概念建立的物体、动作和效应三种类型的数据。其中,“可供性”简单来说是物品提供给人或动物的行为可能性。例如,钥匙可以用来开门、椅子可以用来坐,床可以用来躺等等。在本实施例中,可供性具体为物体、动作和效应三者之间的相互关系。
其中,物体泛指被操作的对象的某种表征,例如端一个水杯,那么可以用水杯的形状、大小、颜色等特征来表示这个水杯。
动作是指对物体所施加的动作,例如作用在水杯这个物体上的“端”这个动作,或者作用在“箱子”这个物体上的“推”这个动作,等等。
效应是指对物体施加动作后所产生的内部或外部的结果,例如“箱子”被“推”后移动了0.5米,那么“移动0.5米”便是“推”“箱子”所生的效应。
具体地,机器人可以采集人类示教数据样本,例如让示教者完成某个任务,然后记录下任务中涉及到的三种可供性示教数据,包括物体动作和效应ε={E1,...,Ene}。其中no,na和ne分别为物体、动作和效应的总个数。
其中,机器人获取示教数据,可以是直接接收用户输入的示教数据,例如人类示教之后将记录的示教数据直接发送给机器人。或者,机器人可以利用图像获取装置获取用户示教过程的图像,并从示教过程的图像中识别得到示教数据。又或者,用户直接抓取机器人进行示教,机器人直接记录在示教过程中的数据。
S12:对示教数据进行学习,以得到任务推理模型。
由于对不同的物体,施加不同的动作,会产生不同种效应的可能,对不同的物体,施加同样的动作,可能也会产生不同的效应。机器人在学习示教数据过程中,可以建立物体、动作和效应之间的关系,有了这三种因素之间的可供性关系,便可利用这些关系进行逻辑推理。虽然部分简单场景下物体、动作和效应之间的可供性关系是确定性的,但实际场景下三者之间的关系通常是不确定性的,是存在一定的概率特性。因此,本实施例中借助概率的手段对物体、动作和效应之间的可供性关系建模。而由于贝叶斯网络是表示变量间概率相关性关系的图模型,是不确定知识表达和推理领域最有效的理论模型之一。本实施例中采用贝叶斯网络模型建立物体、动作和效应之间的可供性关系。
该任务推理模型为贝叶斯网络模型,该贝叶斯网络模型包括描述物体、动作和效应三种类型数据的节点,以及节点之间的连接关系和每个节点的概率分布。
具体地,针对较简单的任务,可以根据人类经验直接给出贝叶斯网络模型中各节点之间的连接关系,即直接给出贝叶斯网络模型的结构,然后根据示教数据中各节点的节点值,估计贝叶斯网络模型的参数,即每个节点的概率分布。而针对较复杂的任务,节点数量过多、关系较为复杂时,可以,先根据获取的示教数据学习贝叶斯网络模型的结构(即节点之间的连接关系),然后根据学到的结构和示教数据再估计贝叶斯网络模型的参数。
根据示教数据,如历史数据或经验,学习得到贝叶斯网络模型的参数表和结构之后,该任务推理模型即得到了完全的学习。之后,可利用该任务推理模型进一步根据某事件实际发生的情况推断未发生事件的概率,也即贝叶斯网络的推理。其中,根据已知的变量推断未知变量的公式为:
其中,XE和XF分别为观测到的变量和有待推理的变量。由于贝叶斯网络模型具有概率推理能力,根据示教数据学习到的是每个节点的概率分布,当机器人观测到的节点数据不属于示教数据时,机器人仍然能够采用学习到的该贝叶斯网络模型进行推理,估计得到未观测节点的概率值,例如未观测节点中各节点值的发生概率。因此,机器人可以利用学习得到的该任务推理模型进行推理,实现根据示教学习中未提供的观测数据推理出所需的任务数据,从而使得机器人可以具有推理能力,有助于机器人实现复杂任务,而不仅仅是简单的模仿。
此外,本申请使用贝叶斯网络模型建立物体、动作和效应三者之间的相互关系(可供性关系),可以对机器人、环境和动作进行整体表征,适用于现实生活中的多种应用场景,有利于进行任务推理。而且,本申请的贝叶斯网络模型可以根据不同用户的不同需求所提供的不同示教数据建立不同的网络结构和参数,从而可以满足不同用户的需求,得到个性化的任务推理模型,适用于家用服务机器人等多种应用场景。
如图2所示,本申请一种任务推理模型学习方法第二实施例是在本申请一种任务推理模型学习方法第一实施例的基础上,进一步限定步骤S12包括:
S121:建立分别描述物体、动作和效应三种类型数据的物体节点、动作节点和效应节点。
具体地,获取示教数据后,可以根据示教数据中物体、动作和效应三种类型数据,分别建立物体节点、动作节点和效应节点。其中物体节点可以描述不同物体,也可以描述同一物体的不同特征,其节点值是该物体某个特征的特征值,在不施加动作时可以观测得到;动作节点描述可施加于物体的动作,其节点值是施加于物体的多种可能动作;效应节点描述在物体上施加动作后的物体特征变化,其节点值是该物体特征值的变化量,需要在执行动作后观测得到。当然,在需要完成任务较为简单,节点数量较少时,可以预先定义各类节点的类型、数量以及对应的节点取值范围等数据,从而根据预先定义的节点数据,建立物体节点、动作节点和效应节点三类节点。
S122:根据示教数据,学习物体节点、动作节点和效应节点之间的连接关系,以得到贝叶斯网络模型的结构。
贝叶斯网络由节点(nodes)和节点之间带有单向箭头的连线组成。每一个节点都代表一个变量,从节点A指向节点B的箭头表示变量B依赖于变量A。
具体地,在获取得到示教数据后,机器人可以使用预先指定节点的顺序的K2算法,学习贝叶斯网络模型的结构,即学习物体节点、动作节点和效应节点之间的连接关系。当然,在进行结构学习时,也可以采用马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)算法等其他方法。优选地,发明人发现采用K2算法学习贝叶斯网络模型的结构其准确性更高。
S123:根据示教数据,结合贝叶斯网络模型的结构,学习物体节点、动作节点和效应节点的概率分布,以得到贝叶斯网络模型的参数。
具体地,当学习得到贝叶斯网络模型的结构后,即可以根据示教数据中各节点变化过程的数据,计算或估算各节点的边缘概率分布、条件概率以及联合概率等,以得到各节点的概率分布,从而得到该贝叶斯网络模型的参数。其中,当示教数据中包括贝叶斯网络所需的所有数据,在已知结构的前提下,完全可以通过手动计数的方式计算出贝叶斯网络参数。但对于较为节点较多、结构较复杂的网络,手动计算工作量过大,此时可以利用“最大似然估计”和“贝叶斯估计”两类基本的参数估计方法,对贝叶斯网络的参数进行估计。
一般地,一个贝叶斯网络可以用BN=(G,θ)表示,其中,G表示有向无环图,θ为参数。G定义为G=(N,E),其中N是该有向无环图中的节点集,E是节点之间的边集。参数集θ中定义了贝叶斯网络中每个节点的概率分布。该有向无环图中每一个节点i都代表一个变量xi。贝叶斯网络中的变量集可以表示为X={x1,x2,…,xn},该网络的联合概率分布可以表示为其中n是贝叶斯网络中节点的个数,πi是节点xi的父节点。其中,变量B依赖于变量A时,变量A称为变量B的父节点(parent node),变量B称为变量A的子节点(child node)。例如图3所示的四个节点的贝叶斯网络,节点x1为节点x2的父节点,节点x2为节点x1的子节点。
可选地,当进行贝叶斯网络模型的参数学习时,由于子节点的概率分布依赖于父节点的概率分布,而某些节点没有父节点(即根节点),此时需要计算该根节点的概率分布后,再计算该节点的子节点的概率分布。具体如图4所示,步骤S123包括:
S1231:将物体节点、动作节点和效应节点划分为根节点和非根节点。
其中,当一个节点没有父节点,即一个节点不依赖于其他节点,但该节点通常可以指向其他节点,该节点可以称为根节点,而其他具有一个或多个父节点的节点,则称为非根节点。例如图3中节点x1和节点x3为根节点,节点x2和节点x4为非根节点。
S1232:计算根节点的边缘概率分布。
具体地,由于根节点不依赖于其他节点,则根节点的发生概率(边缘概率分布)可以简单计算或估算得到。例如,当示教数据中,节点A为根节点,且属于动作节点,则节点A的边缘概率分布可以表示为在示教数据中节点A的出现次数占所有动作节点出现次数的比例。或者,该根节点的边缘概率分布可以通过经验给出,例如骰子每个面的出现概率为1/6。
S1233:利用根节点的边缘概率分布和示教数据,计算非根节点的条件概率分布,以及根节点和非根节点中至少两个节点的联合概率分布。
具体地,计算根节点的边缘概率分布后,可以根据根节点的边缘概率分布和示教数据,利用概率计算公式计算或者利用“贝叶斯估计”等参数估计方法估计非根节点的条件概率分布,以及各节点与其他节点的联合概率分布,即根节点和非根节点中至少两个节点的联合概率分布。例如针对图3所示的贝叶斯网络,从示教数据中估算得到变量x1和x3的边缘概率分布P(x1)和P(x3),以及x2的条件概率分布P(x2|x1,x3)后,可以利用如下概率计算公式计算变量x1,x2和x3同时发生的联合概率分布P(x1,x2,x3)=P(x1)P(x3)P(x2|x1,x3)。
当计算得到该贝叶斯网络模型中每个根节点的边缘概率分布和每个非根节点的条件概率分布,以及各节点与其他节点的联合概率分布后,即可以得到每个节点的概率分布情况,该贝叶斯网络模型即学习完成,之后可以利用该贝叶斯网络模型进行推理。
本申请的任务推理模型学习方法中,该物体、动作和效应三种类型的数据既可以为离散、也可以为连续表达。针对连续变量,在学习过程中,可以进行相应的处理,使得学习结果更为准确。
具体如图5所示,本申请一种任务推理模型学习方法第三实施例是在本申请一种任务推理模型学习方法第二实施例的基础上,进一步限定步骤S122包括:
S1221:将物体节点、动作节点和效应节点根据节点值的连续与否划分为连续节点和离散节点。
具体地,在物体节点、动作节点和效应节点中,都可能存在节点值为连续值的节点,例如,节点O1可以表示杯子的高度,其节点值可以为离散的(如“高”、“中”、“矮”),或者连续的(实际的高度值,以毫米为单位)。节点E1可以为杯中水的状态变化,其节点值可以是离散的(如“变空”、“变满”、“不变”),也可以是连续的(杯中液体的实际体积或体积的变化,以毫升为单位)。因此,可以根据各节点的节点值连续与否将节点划分为连续节点和离散节点两类。
S1222:将连续节点的节点值进行离散化,得到离散的节点值。
对于连续节点,若直接采用其连续节点值进行结构学习,例如使用条件高斯概率模型对连续节点及其父节点的关系进行建模,会增加结构学习的难度。在结构学习时,通常节点值的连续与否对网络结构的影响较小,因此,在结构学习时,可以将连续节点的节点值进行离散化处理,例如将连续的杯子高度离散化为“高”、“中”、“矮”三个值。
S1223:利用离散节点的节点值和连续节点离散化得到的离散的节点值进行结构学习,以得到贝叶斯网络模型的结构。
具体地,当将连续节点进行离散化处理后,即可以得到离散的节点值,此时,所有节点的节点值均为离散的,利用这些离散的节点值进行结构学习时,可以降低结构学习的难度,提高结构学习的速度。而且,由于节点值的连续与否对贝叶斯网络模型结构的影响并不大,因此学习得到的贝叶斯网络模型的结构较为准确。
可选地,继续参阅图5所示,在进行贝叶斯网络模型的参数学习过程中,若将连续节点进行离散化,其会造成信息的缺失,由于节点值对网络参数的影响较大,利用该连续节点离散化得到的离散的节点值进行参数学习,参数学习的结果准确度不够高。因此,本实施例中,步骤S123还包括:
S1230:利用离散节点的节点值和连续节点的连续节点值,结合贝叶斯网络模型的结构进行参数学习,以得到贝叶斯网络模型的参数。
具体地,在学习得到该贝叶斯网络模型的结构后,可以利用节点的原始节点值,即离散节点的离散节点值和连续节点的连续节点值,进行参数学习,估算出每个节点的概率分布,从而得到贝叶斯网络模型的参数。由于参数学习过程中采用的是各节点的原始节点值,相对于利用离散化处理的节点值进行参数学习的结果,其估计得到的贝叶斯网络模型的参数准确性较高。具体估算过程可以参考本申请一种任务推理模型学习方法第二实施例中的步骤S123的具体执行过程,此处不再重复。
在其他实施例中,将学习得到的贝叶斯网络模型应用于推理时,可以是直接利用贝叶斯网络模型的概率推理公式结合如变量消去法、信念传播法等进行精确推理,得到未观测节点的估计值,但对于贝叶斯网络模型中节点数量较多,结构较复杂的情况,采用概率推理公式计算量过大,速度较慢,此时可以采用近似推理的方式进行推理。
具体如图6所示,本申请一种任务推理模型学习方法第四实施例是在本申请一种任务推理模型学习方法第一实施例的基础上,进一步限定步骤S12包括:
S124:判断该任务推理模型的节点数量是否大于预设数量。
其中,预设数量是预先设定的判断该任务推理模型,即贝叶斯网络模型,是否采用近似方法进行推理的临界节点数量(如50)。
若该任务推理模型的节点数量大于预设数量,则执行如下步骤S125,否则,执行步骤S126。
S125:确定任务推理模型采用近似推理方法。
S126:确定任务推理模型采用精确推理方法。
具体地,在一个应用例中,该任务推理模型的节点数量是指该任务推理模型(即贝叶斯网络模型)的总节点数量,包括物体节点、动作节点和效应节点三种类型节点的总数量,若该贝叶斯网络模型的节点数量大于该预设数量(如100)时,则说明该贝叶斯网络模型的节点较多、网络结构较为复杂,此时,若利用贝叶斯概率推理公式进行精确推理,计算量较大,尤其是边缘概率分布的计算量较大,容易导致推理速度缓慢,机器人反应迟缓。因此,在任务推理模型的节点数量大于预设数量的情况下,该任务推理模型可以采用近似推理方法,例如采用MCMC采样、变分推断等近似逼近方法进行推理,以减少计算量,提高推理速度。而该任务推理模型的节点数量小于或等于该预设数量时,表明该贝叶斯网络模型的节点较少、网络结构较为简单,此种情况下,可以仍然采用如变量消去法、信念传播法等进行精确推理,得到较为准确的推理结果。
本申请还提供一种任务推理方法,如图7所示,本申请一种任务推理方法一实施例包括:
S21:获取任务推理模型中的已观测节点的观测数据。
其中,该已观测节点包括物体节点、动作节点和效应节点中任意两种类型的节点。
具体地,机器人可以通过摄像头等方式获取当前环境或者机器人自身的数据,即自动获取已观测节点的观测数据。例如机器人利用摄像头获取当前环境的图像,然后对该图像进行分析得到当前环境的信息中属于该任务推理模型中的节点的数据(即该节点的节点值),同时机器人还可以获取自身的动作数据,分析得到该动作数据中符合该任务推理模型中的节点的数据,从而可以获取该任务推理模型中的已观测节点的观测数据。
当然,机器人也可以通过用户输入的数据或者从其他设备得到该任务推理模型中的已观测节点的观测数据。
S22:将观测数据输入任务推理模型中,以利用任务推理模型计算该任务推理模型中的未观测节点的估计值。
其中,该任务推理模型是利用本申请一种任务推理模型学习方法第一至第四任一实施例或其不冲突的组合所提供的方法学习得到的。
具体地,当获取得到已观测节点的观测数据后,将该观测数据输入到该任务推理模型中,由于该任务推理模型具有推理能力,不仅可以根据事件的发生推理相关联其他事件发生的概率,也可以根据事件的发生推理已采取或将要采取的动作,通过该任务推理模型可以推理得到该任务推理模型中未观测节点的估计值,该估计值可以是未观测节点的每个节点值中最大概率的节点值或者该最大概率的节点值及其概率,也可以包括该未观测节点的每个可能取值及其概率的组合或者直接得到未观测节点的每个节点值及其概率分布结果图。例如,当获取的观测数据包括一个动作节点的节点值,如“轻推”,以及一个效应节点的节点值,如“移动0.1米”,则该任务推理模型可以计算得到未观测节点的估计值,如物体节点的估计值是“木块”,或者可以计算得到该估计值是“木块”及其概率为90%,同时也可以得到估计值是“小球”的概率是10%。
本实施例中,通过将获取得到的已观测节点的观测数据输入任务推理模型中,以利用任务推理模型计算该任务推理模型中的未观测节点的估计值,从而可以利用学习得到的该任务推理模型进行推理,实现根据示教学习中未提供的观测数据推理出所需的任务数据,从而使得机器人可以具有推理能力,有助于机器人实现复杂任务,而不仅仅是简单的模仿。
下面采用一个服务机器人提供倒茶或倒咖啡的服务场景(简称“咖啡与茶”问题)为例,说明本申请提供的任务推理模型学习方法及任务推理方法的应用过程。
“咖啡与茶”问题的主要目标是让机器人学会根据用户的偏好和习惯供应茶或咖啡。该问题中的“物体”定义为容器的特征,包括杯子类型(CT)、杯子位置(CP)、杯子状态(CS)、杯子大小(CH)。该问题中的“动作”定义为杯子的移动方向(M)、机械手抓取杯子的位置(G)、倾倒动作(P)。该问题中的“效应”定义为杯子位置的变化(PC)、杯子状态的变化(SC)、机械手的抓取状态(GS)。如下表1给出了物体、动作、效应的具体值。
表1咖啡与茶问题各节点的定义
其中,杯子位置(CP)包含A\B\C三个位置点,A和B通常为咖啡杯和茶杯的初始位置,C位置为工作位置(即倒入咖啡或茶的位置)。
机械手抓取位置和机械手抓取状态中的抓取,仅考虑机械手对咖啡杯或茶杯的抓取,不考虑要倒入咖啡或茶时对咖啡壶或茶壶的抓取,为简单起见,忽略了从何处倒入咖啡或茶这个问题。
机器人获取的人类示教的采样结果,即示教数据可以形成如表2所示的数据集。该数据集共58组样本,表2只展示了第1、第2和第58次示教结果。
表2咖啡与茶问题示教数据集
根据示教得到的示教数据,采用本申请所提供的任务推理模型学习方法可以对贝叶斯网络的结构进行学习,得到如图8所示的贝叶斯网络结构。其中,用圆形节点表示连续变量,用正方形节点表示离散变量。为了表达清楚,“物体”、“动作”、“效应”分别被排列在图的左边、右边和下边。
以部分节点的连接关系为例进行说明。节点CT指向CH,表明CH(杯子高度)依赖于CT(杯子种类),事实上也是如此,大部分咖啡杯比较矮,大部分茶杯比较高。节点M(杯子移动方向)依赖于CP(杯子位置)和CS(杯子状态),事实上反映的规律便是,当杯子位置在A或B时,如果杯子是空的,那么移动到C位置,如果杯子是满的,那么不移动,如果杯子位置在C时,那么也不移动,所以杯子移动方向和杯子位置和杯子状态都有关系。而M又直接影响PC(位置变化),这也是显而易见的,对杯子的移动会直接导致杯子位置的变化。
当贝叶斯网络模型的结构学习完成后,再使用参数学习方法对每个节点的参数进行估计,可以得到各节点的概率分布,例如概率参数表(离散节点)或概率密度函数(连续节点)。当贝叶斯网络模型的结构和参数都学习出来以后,贝叶斯网络模型便得到完全地学习,并可以用来进一步进行推理。图9和图10示出两组推理的结果。
图9所示的概率是P(P|G,SC),即倒水动作P关于抓取动作G和杯子状态变化SC的条件概率。横坐标是倒水动作P的四种情况(P是一个离散变量)。方形加实线和三角形加虚线两条线分布代表两种情况,情况一(方形加实线)表示G=3.74,SC=1,即抓取位置值为3.74,杯子状态变化为1(不变);情况二(三角形加虚线)表示G=3.74,SC=2,即抓取位置值为3.74,杯子状态变化为2(变空)。
无论情况一还是情况二,倒入茶水(Pour in tea)和倒入咖啡(Pour in coffee)的概率均为0,即不可能是倒入茶水或倒入咖啡,因为在我们设置的时候,规定了抓取G表示的是抓取用来喝咖啡或喝茶的杯子,而倒入咖啡或倒入茶水,我们认为是由人或其他方式从壶里倒出,不是机械手的操作。因此,当G=3.74时表明机械手对杯子有抓取,因此动作P一定不是倒入咖啡或倒入茶水,只可能是倒出(Pour out)或不做任何操作(No pour)。
剩下的两种情况里,情况一“倒出”动作的概率约10%,“不倒”的概率约90%。情况二正好相反,“不倒”动作概率低于10%,“倒出”的概率超过90%。因为情况一的SC=1,即杯子状态没有变化,而这种情况最可能的原因是没有倒入也没有倒出,所以“不倒”的概率很大。而情况二中SC=2,即杯子变空了,那么自然可以推理出,“倒出”的概率很大,因为“倒出”动作的结果便是SC=2,杯子变空。
图10所示的概率是P(P|G,CH),即倒水动作P关于抓取动作S和杯子大小(高度)CH的条件概率。横坐标仍然是倒水动作P的四种情况。方形加虚线、菱形加实线、三角形加虚线三条线分布代表三种情况,情况一(方形加虚线)表示G=0,即抓取位置为0;情况二(菱形加实线)表示G=0,CH=7.5,即抓取位置为0,杯子高度为7.5;情况三(三角形加虚线)表示G=0,CH=9,即抓取位置为0,杯子位置为9。
对于倒入茶水(Pour in tea)事件,情况三的概率最大(约39%),情况二的概率最小(约21%),这是因为情况三杯子的大小为9,其类型更有可能是茶杯,而情况二杯子大小为7.5,类型更有可能是咖啡杯,因此情况三倒入茶水的概率则远大于情况二倒入茶水的概率。类似的,对于倒入咖啡(Pour in coffee)事件,则是反过来,情况二的概率比情况三更大一些。对于情况一,由于没指定杯子的大小,因此不具备对杯子类型的判断,所以倒入咖啡和倒入茶水的概率相同。对于三种情况,倒出(Pour out)的概率都为0,因为倒出动作涉及对杯子的抓取,而抓取G=0表明没有抓取,所以一定没有倒出动作。最后,不倒(No pour)的概率三者相同,因为这取决于杯子内的状态,而这一信息未知,所以无法推断出更多的信息。
以上只给出了两个最基本的示例,来说明推理的效果。在实际使用贝叶斯网络进行推理的过程中,只需要对已知的节点进行赋值,然后观测所关心节点的概率值变化即可。
由上述“咖啡与茶”问题的推理结果可知,本申请提供的任务推理模型学习方法及任务推理方法,使得机器人利用学习得到的该任务推理模型进行推理,实现根据示教学习中未提供的观测数据推理出所需的任务数据,从而使得机器人可以具有推理能力,有助于机器人实现复杂任务,而不仅仅是简单的模仿。
本申请还提供一种机器人,如图11所示,本申请机器人一实施例中,机器人10包括:相互连接的通信电路101和处理器102。
其中,通信电路101用于与其他设备进行通信或者接收外界信息,例如获取示教数据。该通信电路101可以是人机交互装置,也可以是包括天线的通信装置,或者也可以是具有摄像头或语音装置的数据获取电路等。
该处理器102控制机器人10的操作,处理器102还可以称为CPU(CentralProcessing Unit,中央处理单元)。处理器102可能是一种集成电路芯片,具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
处理器102用于执行程序指令以实现如本申请任务推理模型学习方法第一至第四任一实施例或其不冲突的组合所提供的方法,或者用于执行程序指令以实现如本申请任务推理方法一实施例所提供的方法。
当然,在其他实施例中,机器人10还可以包括存储器、显示器(图未示)等其他部件,此处不做具体限定。
如图12所示,本申请存储装置一实施例中,存储装置90内部存储有程序指令901,该程序指令901被执行时实现如本申请任务推理模型学习方法第一至第四任一实施例或其不冲突的组合所提供的方法,或者实现如本申请任务推理方法一实施例所提供的方法。
其中,存储装置90可以是便携式存储介质如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘,也可以是手机、服务器或可集成于上述设备(包括机器人)中的独立部件,例如芯片等。
在一实施例中,存储装置90还可以为本申请机器人一实施例中的存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种任务推理模型学习方法,其特征在于,包括:
获取示教数据,所述示教数据中包括物体、动作和效应三种类型的数据;
对所述示教数据进行学习,以得到任务推理模型,其中所述任务推理模型为贝叶斯网络模型,所述贝叶斯网络模型包括描述所述物体、动作和效应三种类型数据的节点,以及所述节点之间的连接关系和每个所述节点的概率分布。
2.根据权利要求1所述的方法,其特征在于,所述获取示教数据的步骤包括:
接收用户输入的所述示教数据;或者,
利用图像获取装置获取用户示教过程的图像,并从所述示教过程的图像中识别得到所述示教数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述示教数据进行学习,以得到任务推理模型包括:
建立分别描述所述物体、动作和效应三种类型数据的物体节点、动作节点和效应节点;
根据所述示教数据,学习所述物体节点、动作节点和效应节点之间的连接关系,以得到所述贝叶斯网络模型的结构;
根据所述示教数据,结合所述贝叶斯网络模型的结构,学习所述物体节点、动作节点和效应节点的概率分布,以得到所述贝叶斯网络模型的参数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述示教数据,学习所述物体节点、动作节点和效应节点之间的连接关系,以得到所述贝叶斯网络模型的结构包括:
将所述物体节点、动作节点和效应节点根据节点值的连续与否划分为连续节点和离散节点;
将所述连续节点的节点值进行离散化,得到离散的节点值;
利用所述离散节点的节点值和所述连续节点离散化得到的所述离散的节点值进行结构学习,以得到所述贝叶斯网络模型的结构。
5.根据权利要求4所述的方法,其特征在于,所述根据所述示教数据,结合所述贝叶斯网络模型的结构,学习所述物体节点、动作节点和效应节点的概率分布,以得到所述贝叶斯网络模型的参数包括:
利用所述离散节点的节点值和所述连续节点的连续节点值,结合所述贝叶斯网络模型的结构进行参数学习,以得到所述贝叶斯网络模型的参数。
6.根据权利要求3所述的方法,其特征在于,所述根据所述示教数据,结合所述贝叶斯网络模型的结构,学习所述物体节点、动作节点和效应节点的概率分布,以得到所述贝叶斯网络模型的参数包括:
将所述物体节点、动作节点和效应节点划分为根节点和非根节点;
计算所述根节点的边缘概率分布;
利用所述根节点的边缘概率分布和所述示教数据,计算所述非根节点的条件概率分布,以及所述根节点和所述非根节点中至少两个节点的联合概率分布。
7.根据权利要求1所述的方法,其特征在于,对所述示教数据进行学习,以得到任务推理模型包括:
判断所述任务推理模型的节点数量是否大于预设数量;
若大于预设数量,则确定所述任务推理模型采用近似推理方法。
8.一种任务推理方法,其特征在于,包括:
获取任务推理模型中的已观测节点的观测数据;
将所述观测数据输入所述任务推理模型中,以利用所述任务推理模型计算所述任务推理模型中的未观测节点的估计值;
其中,所述任务推理模型是利用权利要求1-7任一项所述的任务推理模型学习方法学习得到的。
9.一种机器人,其特征在于,包括:相互连接的通信电路和处理器;
所述通信电路用于获取示教数据;
所述处理器用于执行程序指令以实现如权利要求1-8任一项所述的方法。
10.一种存储装置,内部存储有程序指令,其特征在于,所述程序指令被执行以实现如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811519907.3A CN109816109A (zh) | 2018-12-12 | 2018-12-12 | 任务推理模型学习及任务推理方法、机器人及存储装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811519907.3A CN109816109A (zh) | 2018-12-12 | 2018-12-12 | 任务推理模型学习及任务推理方法、机器人及存储装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109816109A true CN109816109A (zh) | 2019-05-28 |
Family
ID=66601604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811519907.3A Pending CN109816109A (zh) | 2018-12-12 | 2018-12-12 | 任务推理模型学习及任务推理方法、机器人及存储装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109816109A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111709275A (zh) * | 2020-04-28 | 2020-09-25 | 北京工业大学 | 一种用于Affordance推理的深度网络构建方法 |
CN115151367A (zh) * | 2020-02-17 | 2022-10-04 | 株式会社神户制钢所 | 自动焊接系统、自动焊接方法、学习装置、已学习模型的生成方法、已学习模型、推定装置、推定方法以及程序 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326585A (zh) * | 2016-08-29 | 2017-01-11 | 东软集团股份有限公司 | 基于贝叶斯网络推理的预测分析方法以及装置 |
CN106960069A (zh) * | 2016-12-27 | 2017-07-18 | 安徽理工大学 | 一种具有自学习功能的贝叶斯网络平台 |
-
2018
- 2018-12-12 CN CN201811519907.3A patent/CN109816109A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326585A (zh) * | 2016-08-29 | 2017-01-11 | 东软集团股份有限公司 | 基于贝叶斯网络推理的预测分析方法以及装置 |
CN106960069A (zh) * | 2016-12-27 | 2017-07-18 | 安徽理工大学 | 一种具有自学习功能的贝叶斯网络平台 |
Non-Patent Citations (2)
Title |
---|
(美)莫斯科夫等: "连锁商业客户关系管理", 航空工业出版社, pages: 658 - 659 * |
P OSÓRIO等: "Gaussian Mixture Models for Affordance Learning using Bayesian Networks", 《2010 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS》, 22 October 2010 (2010-10-22), pages 4432 - 4437 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115151367A (zh) * | 2020-02-17 | 2022-10-04 | 株式会社神户制钢所 | 自动焊接系统、自动焊接方法、学习装置、已学习模型的生成方法、已学习模型、推定装置、推定方法以及程序 |
CN115151367B (zh) * | 2020-02-17 | 2024-01-12 | 株式会社神户制钢所 | 自动焊接系统、自动焊接方法、学习装置、神经网络系统以及推定装置 |
CN111709275A (zh) * | 2020-04-28 | 2020-09-25 | 北京工业大学 | 一种用于Affordance推理的深度网络构建方法 |
CN111709275B (zh) * | 2020-04-28 | 2024-02-06 | 北京工业大学 | 一种用于Affordance推理的深度网络构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yan et al. | Learning 6-dof grasping interaction via deep geometry-aware 3d representations | |
CN107291811B (zh) | 一种基于云端知识融合的感认知增强机器人系统 | |
CN110379225A (zh) | 互动式语言习得的系统和方法 | |
CN110134774A (zh) | 一种基于注意力决策的图像视觉问答模型、方法和系统 | |
WO2019060632A1 (en) | OPTIMIZING POLICY CONTROL DEVICES FOR ROBOTIC AGENTS USING IMAGE INTEGRATIONS | |
Taniguchi et al. | Autonomous planning based on spatial concepts to tidy up home environments with service robots | |
CN109816109A (zh) | 任务推理模型学习及任务推理方法、机器人及存储装置 | |
US20210158162A1 (en) | Training reinforcement learning agents to learn farsighted behaviors by predicting in latent space | |
WO2023206771A1 (zh) | 基于决策流图的环境建模方法、装置和电子设备 | |
CN109847366A (zh) | 用于游戏的数据处理方法和装置 | |
CN108763567A (zh) | 应用于智能机器人交互的知识推理方法及装置 | |
Zhang et al. | Bootstrap your own skills: Learning to solve new tasks with large language model guidance | |
CN110192205A (zh) | 镜像损失神经网络 | |
CN110222734A (zh) | 贝叶斯网络学习方法、智能设备及存储装置 | |
Adeniji et al. | Language reward modulation for pretraining reinforcement learning | |
Abel | Concepts in bounded rationality: perspectives from reinforcement learning | |
CN104933052B (zh) | 数据真实值的估计方法及数据真实值估计装置 | |
Wang et al. | Dexterous robotic manipulation using deep reinforcement learning and knowledge transfer for complex sparse reward‐based tasks | |
Laversanne-Finot et al. | Intrinsically motivated exploration of learned goal spaces | |
Patel et al. | Learning object, grasping and manipulation activities using hierarchical HMMs | |
Contreras et al. | Towards general purpose service robots: World Robot Summit–Partner Robot Challenge | |
Sabathiel et al. | A computational model of learning to count in a multimodal, interactive environment. | |
Gora et al. | Investigating performance of neural networks and gradient boosting models approximating microscopic traffic simulations in traffic optimization tasks | |
WO2021061717A1 (en) | Upside-down reinforcement learning | |
Sloman | Meta-morphogenesis and toddler theorems: Case studies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |