CN109591012B

CN109591012B - 加强学习方法、机器人和存储介质

Info

Publication number: CN109591012B
Application number: CN201811467798.5A
Authority: CN
Inventors: 刘培超; 刘主福; 郎需林
Original assignee: Rizhao Yuejiang Intelligent Technology Co ltd
Current assignee: Rizhao Yuejiang Intelligent Technology Co.,Ltd.
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2022-03-29
Anticipated expiration: 2038-12-03
Also published as: CN109591012A

Abstract

本发明涉及机器人的技术领域，公开了加强学习方法、机器人和存储介质，其中加强学习方法，包括以下步骤：采集所述目标的原始动作数据和原始动作结果；根据所述原始动作数据生成控制程序，并设置动作修正集；执行所述控制程序，并且采集执行过程中的执行动作数据和执行动作结果；比对所述执行动作结果和所述原始动作结果，生成奖赏值a，根据所述奖赏值a重新对所述动作修正集进行赋值；加强学习方法在根据原始动作数据初步生成控制程序后，设定动作修正集，执行后根据执行结果生成奖赏值a作为动作修正集的修正数据参考，反复迭代学习后，完成整个学习过程，无需人工参与，具有智能化程度高的特点。

Description

加强学习方法、机器人和存储介质

技术领域

本发明涉及机器人的技术领域，尤其涉及加强学习方法、机器人和存储介质。

背景技术

机器人(Robot)是一种高科技产品，其内部预设有程序或者原则性纲领，接收到信号或者指令后，能够在一定程度上判断并采取行动，例如移动、拿取、摆动肢体等动作。机器人的任务主要是在某些场合中协助甚至取代人类的工作，实际的工作场景中涉及的行动和信息判断往往非常繁复，难以全部事先以程序的方式记录在机器人中，因此如何根据已有的知识，自行学习提高适应能力和智能化水平，也即机器人学习，成为机器人行业中一个非常热门的研究重点。

在现有技术中，实现人类操作的过程，往往仅仅体现在结果上。例如，操作员将工件从传送带上拿起放置在桌子上，这个过程在机器人实施时被简化为：在传送带上的A点处将工件拿起，然后移动至位于桌子上的B点处，操作员多余的动作全部被省略掉，机器人只需要建立坐标系，确定A点和B点的位置，在A点拿起，直线移动至B点放下即可。例如，书法家手持毛笔书写完成某字，机器人需要重新书写该字，则需要对该字进行解析，将动作拆分为：(a)控制笔下降，(b)从某点移动至某点，(c)控制笔上升，将动作abc相互组合并且设定相关参数，最终完成该字的写作。根据以上两的例子可以看出，机器人在执行控制程序，重现人类操作的过程中，需要人工参与反复调试相关的控制程序，机器人难以智能化的自行学习人类的具体操作动作。

发明内容

本发明的目的在于提供加强学习方法，旨在解决现有技术中的机器人在模仿人类动作时需要大量的人工参与，智能化学习程度低的问题。

本发明是这样实现的，提供加强学习方法，用于学习目标的动作并且实现所述动作的结果，包括以下步骤：

采集所述目标的原始动作数据和原始动作结果；

根据所述原始动作数据生成控制程序，并设置动作修正集；

执行所述控制程序，并且采集执行过程中的执行动作数据和执行动作结果；

比对所述执行动作结果和所述原始动作结果，生成奖赏值a，根据所述奖赏值a重新对所述动作修正集进行赋值。

与现有技术相比，本发明中提供的加强学习方法，能够通过采集目标的原始动作数据和原始动作结果，然后根据原始动作数据初步生成控制程序，并且设定动作修正集，执行后根据执行结果与原始动作结果的比对生成奖赏值a，然后反馈奖赏值a为动作修正集的修正数据参考。反复迭代学习后，完成整个学习过程，构建出适于机器人的动作，实现目标动作的结果。在整个学习的过程中，无需人工参与，机器人能够自行试错、修正，进行智能化的迭代学习，完成学习目标，具有智能化程度高的特点。

附图说明

图1为本发明实施例提供的加强学习方法的流程示意图；

图2为本发明实施例提供的加强学习方法中比对执行动作结果和原始动作结果的流程示意图；

图3为本发明实施例提供的快速学习的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明的描述中，需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合具体附图对本实施例的实现进行详细的描述，为了便于叙述，在下文中的动作在处于空间坐标系(x，y，z)中，其中x轴和y轴为书写平面上的两个相互垂直的轴，z轴为竖直方向的轴。

本实施例中提供了一种加强学习方法，所需要模仿的具体动作为：人书写特定汉字的书法过程，由于相比硬笔书法，我国特有的软笔书法在书写上动作更为复杂，相应的书法作品风格更为丰富多变，因此以毛笔书法作为具体的模仿动作，应当立即的是，能够适应并学习毛笔书法书写动作的机器人，必然也能够进行硬笔书法的加强学习。

如图1所示，加强学习方法具体包括以下步骤：

110采集目标的原始动作数据和原始动作结果。具体地，本实施例中采集人书写过程中的笔在空间中的变化作为原始动作数据，原始动作结果即为书写出的汉字，需要理解的是，书写汉字仅为本实施例中采用的具体例子，在其他的实施例中，也可以为图案、字母等，并不局限于汉字书法。

原始动作数据应当能够尽可能完整的描述笔的动作状态，在整个书写的过程中，可以将笔的变化概括为至少两个函数：位移函数和姿态函数。

位移函数用于记录随着时间t的变化，笔在空间上三个坐标方向的移动，其中x和y轴上的坐标的变化可以作为描述书写文字的粗略笔画走向、字体大小、书写范围等动作的数据。z轴上的坐标变化可近似作为描述笔画的粗细的函数，以纸面为z坐标0点，则z坐标越接近0，笔尖受到压缩力越高，笔画越粗，对应此时的书写力越大；z轴坐标越大，笔尖受到的压缩力越小，笔画越细。位移函数中z轴坐标超过阈值的部分，表明此时笔尖离开纸面，标识为无效书写操作，记录作为记录移动笔位置的位移操作。

姿态函数用于记录随时间t的变化，笔自身在x、y、z三个轴向转动状态。姿态函数能够用于描述书写过程中笔杆的姿势变化。

将位移函数和姿态函数联立，二者具有相同的坐标系和时间变量t，即可构成描述笔在空间中动作状态的原始动作数据。同步采集相应的原始动作结果，也即该动作下所书写的具体汉字的图像数据。

120根据原始动作数据生成控制程序，并设置动作修正集。所生成的控制程序旨在控制机器人能持笔模仿人的书写动作，也即控制笔按照原始动作数据中的两个函数再次运动。由于数据采集的误差、控制程序生成的误差、机器人运行时的误差等等原因，导致难以一次生成完美的控制程序，而且执行书写动作产生的误差方向也是未知数，此时的控制程序需要不断进行尝试修正，因此需要设定动作修正集，动作修正集中在不同纬度上设置有多个修正动作，每个动作对应一个修正值，在控制程序执行每个动作前，从动作修正集中选择一组特定修正值对该动作进修正。

130执行控制程序，并且采集执行过程中的执行动作数据和执行动作结果。采集完成将某个动作与该动作直接对应至产生的结果之间产生映射关系。例如控制笔从a点移动至b点，产生结果为平直的一横，则该动作与该笔画“一”建立映射关系。

140比对执行动作结果和原始动作结果，生成奖赏值a，根据奖赏值a重新动作修正集进行赋值。由于在上一步骤中，已经将具体的动作与动作结果建立映射，因此在比对的时候能够直接确定每个动作结果所对应的笔画，针对每个笔画与原始动作结果中对应的笔画进行比对，确定修正方向生成该笔画对应的奖赏值a，系统根据奖赏值a的反馈，重新对该笔画对应的控制程序部分所采用的动作修正集进行赋值。

上述的步骤120,步骤130，步骤140，反复进行，最终完成加强学习的过程。

根据上述的学习过程可以看出，在机器人学习人书写某汉字的书法动作的过程中，能够借助演示的数据，进行生成控制程序-尝试书写-检查修正-再次书写-再次修正的学习过程，在学习中将动作提取为数据的处理，学习的过程即数据拟合、收敛的过程，最终自行修正学会某汉字的书法动作。在学习书写的过程中，将人的书法动作重构，并且以结果为导向生成适于机器人的书法动作，并不需要过多的人工参与，能够智能化的进行学习。容易理解的是，在学习其他动作的实施例中，也可参考本实施例中的实现方法，达到学习重构人动作，最终在执行端进行模拟的学习目的。

优选的，在本实施例中，步骤120中的动作修正集具有以下修正动作：l(延长或缩短位移长度)、w(加速或减速姿态变化)、v(加速或减速位移速度)、h(改变动作空间位置)，执行每次书写动作时，选取一组动作修正集[l w v h]对控制程序的该部分进行修正。在首次运行时，为l、w、v、h四个动作赋予各自特定的初值，具体数值的大小表示修正的程度，正负表示修正的方向。在其他的实施例中，首次运行时也可以将工作修正集中四个动作初值均设置为0。在其他的实施例中，动作修正集也可以采用其他的方案，例如中间值偏移、幅度比例、驱动功率、角度摆动等修正动作。

在步骤140中，所生成的奖赏值a对应为动作修正集中各修正动作的赋值参考，例如为变化趋势、具体参考值等。例如，控制程序中的某部分对应的动作执行书写笔画“一”，在比对中，发现该笔画与原始动作结果中相对应的笔画“一”存在误差，根据以下不同的误差生成不同的奖赏值a：执行动作结果中的“一”长度太短，反馈奖赏值a1，增大l的赋值；执行动作结果中的“一”倾斜度过大，反馈奖赏值a2，减小w的赋值；执行动作结果中的“一”墨迹过淡或者宽度过窄，反馈奖赏值a3，为v赋予一个负值；执行动作结果中的“一”过墨迹过浓或者出现明显的笔尖变形导致的笔画变形，反馈奖赏值a4，增大h的赋值。

奖赏值a的具体设置方式可有由多种，例如包括两部分，一部分为对应的动作修正集中的动作，另一部分为具体动作修正集中的动作所需要修正的参考值。例如，奖赏值a为[l -1；w 2；v 0；h 3]；或者奖赏值a仅对应一个数值，在系统中设定不同值对应的动作修正集中的动作，例如奖赏值为0069，对应的含义为l、w值保持不变，v修正为6，h修正为9。

优选的，在每次步骤140之后，对于获得的全部奖赏值a进行统计，如果在统计结果上出现明显的数据关联性，例如全部或者大部分奖赏值a中都包括改变w值的反馈，则表明控制程序整体对于w值的设定存在偏差，此时可以对于控制程序本身进行调整，以改变对于w值所产生的偏差，从而减少动作修正集的赋值计算量。

如图1和图2所示，在步骤140中，对于执行动作结果和原始动作结果的比对，也即本实施例中的人书法的字和机器学习后写的字的比对中，为了提高比对精度，尽可能摒除噪声，优选的设置以下比对步骤：

141将原始动作结果采集为第一图像数据，将执行动作结果采集并且进行缩小或者放大，使其成为与第一图像数据尺寸匹配的第二图像数据。

142比对第一图像数据和第二图像数据，寻找二者的差别，并且解构具体产生误差的笔画。

143根据笔画的误差类型(例如大小、方向)和程度，生成对应的奖赏值a。

优选的，在步骤141中，可以对第一图像数据和第二图像数据进行解构，规划一定尺寸的单元格，单独比对各个单元格内的墨迹，判断二者的差别。在其他的实施例中，也可以直接将在具有单元格的纸上进行书写采集的数据中已经包括了单元格，划分区域进行对比文，减少数据处理量。

如图1和图3所示，优选的，加强学习方法，还能够进行对于相同动作类型的加速学习，在本实施例中，如果需要继续学习更多汉字的书法动作，则可以借助已经学会的汉字加速学习新的汉字。为了叙述的清楚明了，在下文中，将第一次学习中涉及的技术词汇重新记做：第一原始动作数据，第一原始动作结果，第一驱动程序，第一动作修正集、第一奖赏值等。完成第一次学习后，在学习第二相同动作类型时的加速学习，具体包括以下步骤：

210第二次学习中，采集目标的第二原始动作数据和第二原始动作结果。例如第一次学习书法汉字“上”，第二次学习书法汉字“大”，对应的“大”即为第二原始动作结果，书写“大”字的动作即为第二原始动作数据，为了便于叙述，将书写的汉字“上”记做第一原始动作结果，书写“上”字的动作记为第一原始动做数据。具体的描述函数和采集过程与第一次学习相同，此处不做赘述。

220根据第二原始动作数据、第二原始动作结果与第一原始动作比对结果生成第二控制程序，参考各第一奖赏值设置第二动作修正集。相对于直接生成的第一控制程序，第二控制程序具有更多的参数来源，例如在比对时，发现“上”和“大”均具有笔画“一”，该笔画在第二控制程序中对应的部分可以直接参考第一控制程序中对应的部分。第二动作修正集能够直接以所有第一奖赏值为参考，减少盲目性的尝试修正，使得其能够具有更加贴近实际的修正方向。

230执行第二控制程序，并且采集执行过程中的第二执行动作数据和第二执行动作结果。该步骤与步骤130相同，不做赘述。

240比对第二执行动作结果和第二原始动作结果，生成第二奖赏值a。根据第二奖赏值a的反馈，对第二动作修正集进行修改。

上述的步骤220,步骤230，步骤240，反复进行，最终完成加强学习的过程。

从步骤120，步骤220,步骤230，步骤240的执行过程可以看出，在第二次学习时，能够参考已经完成的第一次学习，从中寻找能够借鉴的部分，并且更加合理的指定第二动作修正集的初值，从而减少循环迭代学习的过程，实现加速学习。

更进一步地，在更多次的学习中，每次完成学习后，进行下一次相同动作类型的学习时，其参考来源都进一步增加，能够进一步加快学习速度，减少重复迭代学习的过程。

优选的，当面对未曾学习的第x原始动作结果时，经过多次学习的机器人应当能够通过采集第x原始动作结果与已经学会的所有原始动作结果比对，借鉴并合理构建出适用于第x原始动作结果的第x控制程序，并且进行循环迭代学习的过程。机器人完成学习的次数越多，面对第x原始动作结果时，越容易构建精确的第x控制程序。

例如，在多次书法学习中，机器人已经学会了等汉字，在面对汉字时，通过比对发现其具有的笔画均已经学会，提取相应笔画对应的控制程序部分作为参考，生成相应的控制程序。

本实施例中还提供了机器人，用于学习目标的动作并且实现所述动作的结果，包括：执行端；三维观察部，用于观察环境并获取数据；编程部，其接受所述三维观察部的数据生成控制程序，并设置动作修正集；控制部，其控制执行端执行所述控制程序；学习部，根据执行结果生成奖赏值a，根据所述奖赏值a重新对所述动作修正集进行赋值。

本实施例中的机器人学习过程与前述的加强学习方法以及快速学习方法相同，不做赘述。

本实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述加强学习方法的步骤。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.控制机器人持笔模仿人的书写动作的加强学习方法，用于学习目标的动作并且实现所述动作的结果，其特征在于，包括以下步骤：

采集所述目标的原始动作数据和原始动作结果；所述原始动作数据为采集人书写过程中的笔在空间中的变化；所述原始动作结果为书写出的汉字；

所述原始动作数据中至少包括以下两函数：用于描述所述目标移动与时间关系的位移函数和用于描述所述目标姿态变化与时间关系的姿态函数；其中，所述位移函数用于记录随着时间t的变化，笔在空间上三个坐标方向的移动；所述姿态函数用于记录随时间t的变化，笔自身在x、y、z三个轴向转动状态；

根据所述原始动作数据生成控制程序，并设置动作修正集；其中，动作修正集在不同纬度上设置有多个修正动作，每个动作对应一个修正值，在控制程序执行每个动作前，从动作修正集中选择一组特定修正值对该动作进修正；

系统执行所述控制程序，并且采集执行过程中的执行动作数据和执行动作结果；

比对所述执行动作结果和所述原始动作结果，生成奖赏值a，根据所述奖赏值a重新对所述动作修正集进行赋值；其中，在比对的时候能够直接确定每个动作结果所对应的笔画，针对每个笔画与原始动作结果中对应的笔画进行比对，确定修正方向生成该笔画对应的奖赏值a，系统根据奖赏值a的反馈，重新对该笔画对应的控制程序部分所采用的动作修正集进行赋值。

2.如权利要求1所述的控制机器人持笔模仿人的书写动作的加强学习方法，其特征在于，执行所述控制程序，并且采集执行过程中的执行动作数据和执行动作结果中还包括：

建立每个所述执行动作数据和其对应所述执行动作结果之间的映射关系。

3.如权利要求1所述的控制机器人持笔模仿人的书写动作的加强学习方法，其特征在于，所述动作修正集包括以下修正动作：l、w、v、h，其中l表示延长或缩短位移长度、w表示加速或减速姿态变化、v表示加速或减速位移速度、h表示改变动作空间位置。

4.如权利要求1所述的控制机器人持笔模仿人的书写动作的加强学习方法，其特征在于，对所有所述奖赏值a进行统计，如果在统计结果上出现明显的数据关联性，则对于所述控制程序本身进行调整。

5.如权利要求1所述的控制机器人持笔模仿人的书写动作的加强学习方法，其特征在于，比对所述执行动作结果和所述原始动作结果，生成奖赏值a具体包括以下步骤：

将所述原始动作结果采集为第一图像数据，将所述执行动作结果采集并且进行缩小或者放大，使其成为与所述第一图像数据尺寸匹配的第二图像数据；

比对所述第一图像数据和所述第二图像数据，寻找二者的差别，并且解构具体产生误差的部分；

根据误差类型和程度，生成对应的所述奖赏值a。

6.控制机器人持笔模仿人的书写动作的快速学习方法，其特征在于，用于在完成权利要求1至5任一项所述的控制机器人持笔模仿人的书写动作的加强学习方法之后，快速学习所述目标的同类型的第二动作，包括以下步骤：

采集所述目标的第二原始动作数据和第二原始动作结果；

根据所述第二原始动作数据、所述第二原始动作结果与所述原始动作比对结果生成第二控制程序，参考各所述奖赏值设置第二动作修正集；

执行所述第二控制程序，并且采集执行过程中的第二执行动作数据和第二执行动作结果；

比对所述第二执行动作结果和所述第二原始动作结果，生成第二奖赏值a，对所述第二动作修正集进行修正。

7.如权利要求6所述的控制机器人持笔模仿人的书写动作的快速学习方法，其特征在于，仅有第x原始动作结果，而缺乏对应的第x原始动作数据时，通过以下步骤生成第x控制程序：

采集第x原始动作结果与已经学会的所有原始动作结果比对，提取相应已经学会的笔画对应的控制程序部分作为参考，生成适用于第x原始动作结果的第x控制程序，并且进行循环迭代学习的过程。

8.基于权利要求1至5任一项所述的控制机器人持笔模仿人的书写动作的加强学习方法的机器人，用于学习目标的动作并且实现所述动作的结果，其特征在于，包括：执行端；

三维观察部，用于观察环境并获取数据；

编程部，其接受所述三维观察部的数据生成控制程序，并设置动作修正集；

控制部，其控制执行端执行所述控制程序；

学习部，根据执行结果生成奖赏值a，根据所述奖赏值a重新对所述动作修正集进行赋值。

9.存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的控制机器人持笔模仿人的书写动作的加强学习方法的步骤。