CN115087521A

CN115087521A - 训练数据排序装置、机器人系统以及训练数据排序方法

Info

Publication number: CN115087521A
Application number: CN202080090021.0A
Authority: CN
Inventors: 山本武司; 莲沼仁志; 仓岛一辉
Original assignee: Kawasaki Jukogyo KK
Current assignee: Kawasaki Motors Ltd
Priority date: 2019-12-27
Filing date: 2020-12-22
Publication date: 2022-09-20
Also published as: JP7460366B2; JP2021107970A; WO2021132281A1; US20230045162A1; EP4082726A4; EP4082726A1

Abstract

训练数据排序装置，具备数据评估模型、数据评估部、存储部、和训练数据排序部。所述数据评估模型通过对所述收集数据的至少一部分数据进行机器学习、或者通过对与所述收集数据不同的数据进行机器学习而构建。所述数据评估部使用所述数据评估模型评估输入的所述收集数据。所述存储部存储通过所述数据评估部评估后的收集数据即评估完毕数据。所述训练数据排序部通过提示了所述数据评估部的评估结果的操作人员的指示、或者基于该评估结果自动地从通过所述存储部存储的所述评估完毕数据中对用于构建所述学习模型的训练数据进行排序。

Description

训练数据排序装置、机器人系统以及训练数据排序方法

技术领域

本发明涉及一种训练数据的排序，该训练数据用于训练学习模型。

背景技术

以往，已知一种系统，该系统利用机器学习控制机器人的动作等，该机器学习通过从收集数据中反复学习，自动地找出法则或规则，实现与人类自然进行的学习能力相同的功能。专利文献1公开了这种系统。

专利文献1的动作预测系统，通过将用于学习的动作案例数据(收集数据)分类为多个组，且使对应每组的动作预测模型对每组进行机器学习以构建动作预测模型。

[现有技术文献]

[专利文献]

专利文献1：日本特开2018-206286号公报

发明内容

发明所要解决的技术问题

在使用如所述专利文献1的机器学习控制机器人的动作的系统中，通常在为了学习而收集的数据中包括有操作人员预期的动作数据和非预期的动作数据。不管是否符合操作人员的预期，学习模型皆会以同样的方式学习收集的数据中的动作数据。

在收集的数据中，操作人员预期的动作数据通常远比非预期的动作数据多。由此，期待机器人能在反复学习的过程中进行操作人员预期的动作。

然而，由于机器学习模型还会机器学习操作人员所非预期的不适当的动作数据，因此结束学习需要时间，且在达到能输出操作人员预期的结果前需要大量的时间。另外，机器人是否通过学习获得了操作人员预期的动作，必须通过目视观察等确认机器人学习后的动作才能判断。假定在经过长时间学习之后机器人仍未进行预期的动作、且今后也不太可能改善动作的情况下，有时还会从数据的收集阶段重新开始，造成时间和工时的极大浪费。

有鉴于此，本发明的目的在于提供一种训练数据排序装置，该训练数据排序装置能够减少在机器学习的试验纠错上花费的时间和工时，且能提供训练数据，该训练数据能够缩短达到能输出符合预期的结果前的学习时间。

解决问题所使用的技术方案

本发明所欲解决的问题诚如上面的说明，下面对用以解决该问题的手段及其功效进行说明。

根据本发明的第一观点，提供以下结构的训练数据排序装置。也就是说，该训练数据排序装置，从通过数据收集装置收集的收集数据中对用于通过机器学习构建学习模型的训练数据进行排序。该训练数据排序装置，具备数据评估模型、数据评估部、存储部、和训练数据排序部。所述数据评估模型，通过对所述收集数据的至少一部分进行机器学习、或者通过对与所述收集数据不同的数据进行机器学习而构建。所述数据评估部使用所述数据评估模型评估输入的所述收集数据。所述存储部存储通过所述数据评估部评估后的收集数据即评估完毕数据。所述训练数据排序部，通过提示了所述数据评估部的评估结果的操作人员的指示、或者基于该评估结果自动地从通过所述存储部存储的所述评估完毕数据中对用于构建所述学习模型的训练数据进行排序。

根据本发明的第二观点，提供以下的训练数据排序方法。也就是说，该训练数据排序方法，从通过数据收集装置收集的收集数据中对用于通过机器学习构建学习模型的训练数据进行排序。该训练数据排序方法，执行包括数据评估工序、存储工序、和训练数据排序工序的处理。在数据评估工序中，通过对所述收集数据的至少一部分进行机器学习、或者通过对与所述收集数据不同的数据进行机器学习，使用所构建的数据评估模型评估输入的所述收集数据。在存储工序中，存储经在所述数据评估工序中评估后的收集数据即评估完毕数据。在训练数据排序工序中，通过提示了所述数据评估工序中的评估结果的操作人员的指示、或者基于该评估结果自动地从在所述存储工序中存储的所述评估完毕数据中对用于构建所述学习模型的训练数据进行排序。

由此，通过使用数据评估模型的评估结果从收集数据中对训练数据进行排序，能够容易准备由为了机器学习而优选的数据组成的训练数据。由此，能够缩短学习模型的构建时间。

发明的功效

根据本发明，能够减少在机器学习的试验纠错上花费的时间和工时，且能够提供训练数据，该训练数据能够缩短达到能输出良好结果前的学习时间。

附图说明

图1是显示本发明的一实施方式的训练数据排序装置、机器人系统和学习装置的关系的框图；

图2是显示机器人执行的一例操作的流程以及各操作状态的图；

图3是显示对操作信息的评估的说明图；

图4是显示在显示装置中显示的数据的一例的图；

图5是显示通过操作人员对所提示的数据进行排序的示例的图；

图6是显示能够提高从操作状态的收集数据中进行排序后的数据的稳健性的示例的图；和

图7是显示训练数据排序装置的效果之一的说明图。

附图标记说明

1 机器人系统(控制对象机器)

2 训练数据排序装置

20 数据评估模型

21 数据评估部

22 存储部

23 提示装置(评估提示部)

24 输入装置(指示受理部)

25 训练数据排序部

具体实施方式

下面，参照附图说明本发明的实施方式。首先，参照图1，简要说明使用学习模型的机器人系统1、以及构建该学习模型的学习装置3,该学习模型通过机器学习由本实施方式的训练数据排序装置2排序后的数据而构建。图1是显示本实施方式的训练数据排序装置2、机器人系统1和学习装置3的关系的框图。

机器人系统1是用于使机器人11执行操作的系统。作为该操作，例如能够考虑焊接、组装、加工、搬运、涂敷、清洗、研磨等各种各样的操作。

如图1所示，机器人系统(控制对象机器)1，包括机器人控制装置10、机器人11、操作装置12和数据收集装置13。各装置经由有线或无线网络相互连接，能够进行信号(数据)的交换。

机器人控制装置10由公知的计算机构成，且具备：微控制器、CPU、MPU、PLC、DSP、ASIC或FPGA等运算处理部、ROM、RAM、HDD等机器人存储部、和能够与外部装置通信的通信部。在机器人存储部中存储用于控制臂部等的控制应用等。

机器人控制装置10，能够在手动运转模式、自动运转模式以及自主运转模式之间切换机器人11的运转模式。

在手动运转模式中，操作人员通过手动操作后述的操作装置12，使机器人11动作。

在自动运转模式中，机器人11追踪预先设定的动作轨迹进行动作。该自动运转模式用于重复进行安装在机器人11的臂部前端的后述末端效应器的移动等的相同动作。作为该末端效应器的移动，例如，能够考虑从预先设定的初始位置至开始自主运转模式中的自主运转的位置的移动。

在自主运转模式中，机器人11基于预先通过手动操作学习了机器人11的动作的结果自动地动作。在本实施方式的机器人系统1中，在自主运转模式中，使用学习模型控制机器人11的动作，该学习模型通过机器学习由后述的训练数据排序装置2排序后的训练数据而构建。

机器人11，例如构成为垂直型的多关节机器人，该垂直型的多关节机器人的动作自由度为6个。机器人11具有安装在底座的臂部。臂部具有多个关节。在各关节上设置有用于绕该关节驱动臂部的省略图示的致动器(例如，电动机)。在臂部的前端安装有响应操作内容的末端效应器。

机器人11的臂部以及末端效应器，基于用于使机器人11动作的动作指令而动作。该动作指令例如包括直线状的速度指令、角速度的指令等。

在机器人11上安装有用于检测机器人11的动作以及周围环境等的传感器。在本实施方式中，机器人11上安装有动作传感器11a、力传感器11b、和相机11c。

动作传感器11a例如由编码器构成，且设在机器人11的臂部的每个关节上，检测各关节的旋转角度或角速度。

力传感器11b，在机器人11动作时检测施加于机器人11的臂部的每个关节、或安装在臂部前端的末端效应器的力。除了力外或者代替力，力传感器11b也能够以检测力矩的方式构成。

相机11c检测作为操作对象的工件的影像(工件的操作的进度状况)。为了检测工件的操作的进度状况，除了相机11c外或者代替相机11c，也能够设置检测声音的声音传感器以及/或检测振动的振动传感器。另外，也能够在机器人11等中设置用于收集激光扫描传感器、红外线扫描传感器等的距离信息的传感器。

动作传感器11a检测的数据，是显示机器人11的动作的动作数据，力传感器11b以及相机11c检测的数据，是显示机器人11周围环境的状态的周围环境数据。该周围环境数据，是显示机器人11的在传感器检测数据的时刻的操作进度状态的状态值。动作传感器11a、力传感器11b以及相机11c检测的数据，作为状态信息，由后述的数据收集装置13收集。

操作装置12是为了使机器人11动作而由操作人员操作的部件。操作装置12根据操作内容而变化，例如，操作人员以手操作的操作杆或以脚操作的踏板。例如，操作装置12被构成为远程操作装置，该远程操作装置配置于在物理上远离机器人11的位置。

在操作装置12设置有操作力检测传感器12a。操作力检测传感器12a检测操作人员施加在操作装置12上的力即操作力。在操作装置12以能朝各种方向运动的方式构成的情况下，操作力也能够是包括力的方向以及大小的值、例如向量。另外，操作力不仅是操作人员施加的力，也能够是与力联动的加速度等的值。

在本实施方式中，例如，如图3所示，通过操作力检测传感器12a检测的操作力，包括机器人11的在坐标系的x轴上的力以及速度的分量(力x和速度x)、和在y轴上的力以及速度的分量(力y和速度y)。经操作力检测传感器12a检测的与该操作力有关的数据，作为操作信息由数据收集装置13收集。

数据收集装置13，例如由公知的计算机构成，且具备：微控制器、CPU、MPU、PLC、DSP、ASIC或FPGA等运算处理部、ROM、RAM、HDD等机器人存储部、和能够与外部装置通信的通信部。在存储部中存储有收集各种数据的数据收集应用等。数据收集装置13能够与机器人控制装置10分别设置，也能够与机器人控制装置10一体地构成。在数据收集装置13与机器人控制装置10一体构成的情况下，机器人控制装置10，通过该机器人控制装置10具备的硬件和软件的协作，发挥作为数据收集装置13的作用。

如上所述，通过数据收集装置13收集的收集数据，包括显示机器人11的周围环境数据的状态信息、和反映与机器人11的周围环境数据对应的操作人员的操作力的操作信息。换句话说，该收集数据是在操作人员连续地操作操作装置12而使机器人11执行某个操作(或操作的一部分)的情况下获得的一系列的状态信息以及操作信息的时间序列数据。也就是说，数据收集装置13与时间建立关联收集每个状态信息和每个操作信息。状态信息和操作信息包括基于通过相机11c以及操作力检测传感器12a等获得的检测值的测量值。

学习装置3由至少一台公知的计算机构成。构成学习装置3的计算机，例如具备GPU、ROM、RAM、HDD等的构成。HDD等中存储用于机器学习的应用程序。

学习装置3通过机器学习(例如附带教师的学习)构建在机器人系统1中使用的学习模型。学习装置3，通过训练数据排序装置2机器学习训练数据以构建学习模型，该训练数据被从通过数据收集装置13收集的收集数据中排序。

该训练数据，例如至少包括反映机器人11的操作状态的周围环境数据(即状态信息)、和与该周围环境数据对应的操作力即操作信息)。

该学习模型，例如是具有输入层、隐藏层、和输出层的普通构成的神经网络。在每一层中配置有模拟脑细胞的多个单元。隐藏层设在输入层与输出层之间，由适当数量的中间单元构成。被输入学习装置3内的传感器信息(训练数据)按输入层、隐藏层、输出层的顺序流动。隐藏层数可适当设定。再者，不限于此，学习模型的形式能够任意。

在该模型中，输入至输入层的数据，是反映所述周围环境数据的传感器信息。输出层输出的数据，是操作力检测传感器12a的检测值的估计结果。这基本上表示被估计的操作人员的操作力。由此，输出层输出的数据显示由模型估计的操作人员的操作。

各输入单元与各中间单元通过供信息流动的路径结合，且各中间单元与各输出单元通过供信息流动的路径结合。在每条路径上，设定上游侧的单元的信息对下游侧的单元的信息产生的影响(权重)。

在模型的学习阶段，学习装置3朝模型输入传感器信息，且比较从该模型输出的操作力与操作人员的操作力。学习装置3，例如通过公知的算法即误差逆传播法，以通过该比较求出的误差变小的方式，更新所述权重，从而更新模型。由于学习模型不限于神经网络，因此模型的更新也不限于误差逆传播法。例如，也能通过公知算法即SOM(Self-organizingmaps)更新模型。通过不断地进行这样的处理以实现学习。

通过在学习装置3中机器学习训练数据而构建的学习模型，例如，被安装在机器人系统1的机器人控制装置10，用于机器人11的自主运转等。安装在机器人控制装置10的学习模型，在推论阶段进行动作，对于输入的周围环境数据，估计并输出与该周围环境数据相对应的操作人员的操作力。

接着，参照图2至图7等详细说明本实施方式的训练数据排序装置2、以及通过训练数据排序装置2从收集的数据中对训练数据的排序。

如图1所示，训练数据排序装置2，包括数据评估模型20、数据评估部21、存储部22、提示装置(评估提示部)23、输入装置(指示受理部)24、和训练数据排序部25。

训练数据排序装置2，例如具有公知的计算机，该计算机包括微控制器、CPU、MPU、PLC、DSP、ASIC或FPGA等运算处理部、ROM、RAM或HDD等存储器以及能够与外部装置通信的通信部。

该计算机的HDD等构成训练数据排序装置2的存储部22。在存储部22中存储有运算处理部执行的程序、后述的评估完毕数据等。通过所述硬件与软件的协作，能够使计算机作为数据评估部21以及训练数据排序部25发挥作用。存储部22执行包括在存储工序中的处理。

数据评估模型20具有与所述学习模型相同的结构，且通过对由数据收集装置13收集的收集数据的至少一部分进行机器学习而构建。但不限于此，数据评估模型20，例如也能够通过对其它机器人系统1的运转履历数据进行机器学习来构建。在通过机器学习其它机器人系统1的运转履历数据构建数据评估模型20的情况下，包括在其它机器人系统1中的机器人11相当于控制对象机器。

供数据评估模型20进行机器学习的收集数据，例如，使用公知的NN法、K-Means法、自组织图等聚类方法被分类为多个组。聚类是一种从大量数据中学习分布规律并自动获取多个簇(Cluster)的方法，簇是彼此特征相似的数据的集群。将收集数据分类为多少个簇，可适宜确定。收集数据的分类，也能够采用聚类以外的自动分类方法进行。

在本实施方式中，例如，通过数据收集装置13收集的与一系列操作有关的收集数据，是按照与操作状态相对应的操作人员的每个操作(基准操作)而分类。具体地说，如图2所示，在使机器人11执行将工件100放入凹部110的一系列操作的情况下，例如能够分类为空中、接触、插入以及完成的4个操作状态。

操作状态A(空中)是机器人11保持工件100并位于凹部110上部的状态。操作状态B(接触)是使机器人11保持的工件100与形成凹部110的表面接触的状态。操作状态C(插入)是将机器人11保持的工件100插入凹部110内的状态。操作状态D(完成)是完全将机器人11保持的工件100插入凹部110内的状态。

如此，4个操作状态是按照每个工序将机器人11的一系列操作分类的状态，当机器人11的操作正确行进时，操作状态按照操作状态A(空中)、操作状态B(接触)、操作状态C(插入)、操作状态D(完成)的顺序移动。

数据评估模型20，例如通过机器学习每个预定时间范围内的操作状态以及操作力的组合而构建。再者，所述操作状态A、B、C、D只是代表，实际上可能存在各种不同的多个操作状态。假设通过操作人员的操作使机器人11执行了数次相同的操作，例如，收集有对应于一组状态信息以及操作力的操作状态A1、对应于另一组状态信息以及操作力的操作状态A2、和对应于又一组状态信息以及操作力的操作状态A3。由于存在操作人员的操作误差、状况误差等，因此若细分的话，这些操作状态A1、A2、A3彼此不同。但是，由于操作状态A1、A2、A3具有共同的特征，因此仍被分类为同一簇(操作状态A的簇)。

但是，不限于此，数据评估模型20，例如，也能够通过机器学习某个操作状态以及与该操作状态相对应的下一个操作状态(即，转移至下一个的操作状态)、和至少一组状态信息以及与该状态信息相对应的操作力而构建。由此，还能够学习操作状态(以及对应的操作力)彼此的顺位关系。

如上所述，本实施方式的数据评估模型20，以反映操作力的输出的时间顺序的方式进行机器学习。简单地说，数据评估模型20，学习分别与操作状态A、操作状态B、操作状态C、操作状态D对应的至少一组状态信息以及操作力的组合，并且还学习继操作状态A之后出现操作状态B这样的操作顺序。由此，能够使用数据评估模型20进行反映了操作力的时间序列信息的分类。也就是说，能够以操作顺序反映与各个操作状态相对应的每个操作力。

如上所述，该状态信息是由动作传感器11a、力传感器11b、相机11c检测出的传感器信息(例如，位置、速度、力、力矩、影像等的操作状态)。该状态信息内也能够包括基于该传感器信息算出的信息(例如，显示传感器信息从过去至现在的时间变化的值)。

如上所述构建的数据评估模型20，能够对于与输入的时间序列信息相对应的状态信息，估计并输出与该状态信息对应的基准操作。

本实施方式的数据评估模型20，在输入了包括与时间序列信息相对应的状态信息以及操作信息的收集数据的情况下，估计并输出与输入的状态信息对应的基准操作，并且计算输入的操作信息与估计的估计基准操作之间的距离值，输出该距离值(相似度)作为评估值。再者，也能够代替估计基准操作，例如输出基准操作所属的簇的信息。另外，也能够代替数据评估模型20而由数据评估部21进行输出的估计基准操作与输入的操作信息的比较。

数据评估部21使用如上所述预先构建的数据评估模型20，用于评估通过数据收集装置13收集的收集数据。如图3所示，数据评估部21对每个预定时间范围内的操作信息进行评估。具体地说，数据评估部21在通过数据评估模型20对收集数据输出的评估值为预定阈值以上的情况下，对该收集数据赋予标签(对应信息)，该标签显示由数据评估模型20输出的基准操作所属的簇的信息。反之，在通过数据评估模型20输出的评估值低于预定阈值的情况下，数据评估部21不对该收集数据赋予标签。但是，作为不赋予标签的替代，数据评估部21也能够赋予显示不属于任何簇的意旨的标签。下面的说明中，有时将是否有赋予标签、以及/或被赋予的标签的种类等称为“标签信息”。也就是说，数据评估部21进行包括在数据评估工序中的处理。

例如，在评估对图2所示的一系列操作收集的一系列收集数据的情况下，如图3所示，数据评估模型20，通过对每个预定时间范围的操作信息中包括的力x、力y、速度x和速度y,算出包括在每个基准操作中的该分量的相似度，从而求出每个预定时间范围的操作信息与各基准操作的整体相似度，并作为评估值输出。

数据评估部21，以数据评估模型20输出的评估值为预定阈值以上的操作信息(以及收集数据)作为对象，对每个预定时间范围的操作信息赋予标签，该标签显示与该操作信息相似的基准操作。

下面具体进行说明。如图3所示，在预定时间范围的操作信息与对应于操作状态A的基准操作相似的情况下，数据评估部21对该操作信息分配(赋予)数值(1)的标签。在预定时间范围的操作信息与对应于操作状态B的基准操作相似的情况下，数据评估部21对该操作信息分配数值(2)的标签。在预定时间范围的操作信息与对应于操作状态C的基准操作相似的情况下，数据评估部21对该操作信息分配数值(3)的标签。在预定时间范围的操作信息与对应于操作状态D的基准操作相似的情况下，对该操作信息分配数值(4)的标签。由此，能够捕捉操作信息(进而，操作力检测传感器12a的检测值)中的连续变化作为标签信息的变化。

再者，在下面的说明中，有时将分配了数值的标签的数据称为“临时选择对象数据”，将未被分配数值的标签的数据称为“临时选择排除数据”。并且，将经数据评估部21评估后的收集数据称为“评估完毕数据”。该评估完毕数据包括临时选择对象数据以及临时选择排除数据中的一个或两个。

如此，在收集数据内包括的信息中，按每个预定时间范围分配标签。通过根据分配的标签将收集数据的各部分汇总，如图3所示，能够将收集数据作为与各个基准操作对应的数据块进行处理。由此，变得容易从相对于一系列操作的收集数据中只提取显示操作有效的部分的数据(数据块)。

也就是说，在评估完毕数据中，能够使用一个汇总的数据块处理时间序列信息连续且标签信息相同的部分。其结果，概括地说，例如如图4以及图5等所示的一系列的收集数据那样，能够作为以与该时间序列信息对应的顺序排列有被分配了数值的标签的数据块(范围)和未被分配数值的标签的数据块(范围)的形式表示该数据串。

收集数据在维持时间序列信息的状态下被评估。由此，能够根据是否具有该一系列操作的预定操作顺序(例如，图3所示的1(A)→2(B)→3(C)→4(D))，容易区分包括与多个基准操作相似的操作信息的一系列操作的收集数据。也就是说，在2个收集数据中，即使各自相似的多个基准操作的组相同，在与操作信息对应的操作顺序不同的情况下，也能够将该2个收集数据作为不同的簇进行处理。

如上所述，数据评估部21将分配有标签信息的收集数据(包括未被分配数值的标签的数据部分)的操作信息传送至提示装置23。该操作信息对应于评估完毕的操作信息。

图1所示的提示装置23是液晶或有机EL等的点阵式显示器。提示装置23通过显示由数据评估部21评估的评估完毕数据、以及该收集数据的标签信息等，对操作人员提示数据评估部21的评估结果。提示装置23例如配置在操作装置12的近旁。提示装置23还能够显示视频信号、与机器人系统1执行的操作有关的信息等。

具体地说，例如，如图4所示，提示装置23以通过图形表现的形式直观地显示包括在收集数据中的操作信息(例如，操作力)，并且将时间序列信息连续且分配了相同数值的标签的数据部分作为一个数据块显示。由此，操作人员能够更直观地确认操作信息。

另外，提示装置23也能够在未分配数值标签的数据部分标注“？”标记，以强调显示该数据部分。虽然未在图4中显示，但在提示装置23中，也能够以不同颜色显示不同数值的标签以及/或被分配了该标签的数据部分。再者，在提示装置23中，也能够以能与基准操作的操作信息(例如，操作力)比较的方式，以图形等的形式显示包括在收集数据中的操作信息(例如，操作力)。

输入装置24受理操作人员关于是否采用由提示装置23提示的经评估完毕的操作信息作为训练数据的指示。输入装置24是由能供操作人员操作的省略图示的键、鼠标、触摸面板等构成。训练数据排序装置2，根据操作人员对输入装置24的输入，以例如旗标的形式对该评估完毕的操作信息提供与是否作为训练数据采用有关的信息。被赋予了来自操作人员的采用与否信息的临时选择对象数据或者临时选择排除数据，作为选择完毕数据存储在存储部22中。

本实施方式的训练数据排序装置2，能够在操作人员操作操作装置12使机器人11执行一系列操作后不久，立即使提示装置23显示对该一系列操作的收集数据的评估结果。

由此，在本实施方式中，操作人员能够在操作现场、且本身仍保留操作感觉的期间内，通过输入装置24指示与是否使用紧接在此之前执行的操作作为机器学习的训练数据有关的采用与否。

当操作人员操作操作装置12时，也可能产生不满意自己的操作的情况、例如应该更强/更弱地操作、应该在更早/更晚时开始操作等。在这种情况下，操作人员能够拒绝采用收集数据作为训练数据，重新操作至满意为止。如此，在本实施方式中，能够灵活且有效地轮流执行由数据的收集、作为训练数据采用与否的决定组成的循环。由此，能够在短时间内获得丰富且容易使操作人员接受的训练数据。

数据评估部21的数据评估，能够通过使用已经通过机器学习完成了构建的数据评估模型20，在数据的收集之后在短时间内自动完成。由此，即使在如上所述几乎实时地决定采用与否的情况下，操作人员也能够辅助性地利用评估结果的提示。

由此，能够将训练数据中使用的收集数据局限在操作人员预期的数据内。换句话说，能够在提供收集数据用于学习模型的训练阶段之前，排除不适当的收集数据。通过在较早阶段选择收集数据的取舍，能够减少对不理想的收集数据进行机器学习的情况。其结果，能够缩短完成构建能获得预期的输出的学习模型前的学习时间。

再者，评估结果的提示以及采用与否的指示不限于实时且在现场进行。训练数据排序装置2，例如，也能够以汇总的形式在其它场所提示操作人员对多个收集数据的评估结果，该多个收集数据与操作人员在预定期间内进行的操作对应。

在本实施方式的训练数据排序装置2中，操作人员能够使用输入装置24，以收集数据单位选择对一系列操作收集的收集数据(评估完毕数据)，以指示是否采用其作为训练数据。但是，操作人员也能够仅选择收集数据的一部分数据，以指示是否采用其作为训练数据。

例如，图5的上侧显示有从(a)至(e)的5个操作信息，且每个操作信息对应于评估完毕数据。如图5的左下方所示，操作人员能够在5个操作信息中选择操作信息(a)、(b)以及(d)，以指示将这些采用作为训练数据。

在图5所示的操作信息(b)、(d)中，包括临时选择排除数据的数据块。然而，通过操作人员的指示，能够将该数据选择为对一系列操作的有效数据。

或者，如图5的右下方所示，操作人员能够以各操作信息(a)至(e)中包括的数据块(例如，对应于某个基准操作的部分)作为单位进行选择，且指示采用其作为训练数据。

例如，如图6所示，在操作状态B中，当使机器人11保持的工件100接触于形成有凹部110的表面时，能够考虑下面的两种情况：工件100的左下部分首先与所述表面接触、和右下部分首先与所述表面接触。无论工件100的左下部分以及右下部分中的哪一个先与所述表面接触，虽然对于该操作状态B而言均可，但若从通过传感器检测的检测值的视点考虑，由于分别为不同的数据，因此在数据评估模型20中被作为不同操作处理的可能性也不小。

例如，假设图5所示的操作信息(a)是工件100的左下部分首先接触表面的情况，操作信息(c)是工件100的右下部分首先接触表面的情况。在这种情况下，在数据评估部21的评估中，例如，在操作信息(a)中对相应的数据块赋予数值(2)的标签，在操作信息(c)中不对相应的数据块赋予标签。

在这方面，本实施方式的训练数据排序装置2，能够通过操作人员对输入装置24进行操作，选择图5所示的操作信息(c)中包括的未被赋予标签的数据块，例如，能够指示该数据块是与数值(2)的标签对应的操作。由此，能够在相同的操作状态下，使训练数据排序装置2无遗漏地识别成为有效操作的收集数据的变化。例如，在图6所示的操作状态B中，操作人员能够指示训练数据排序装置2选择2个操作信息作为训练数据，该操作信息是工件100从不同方向接触于形成凹部110的表面的每个情况下的信息。由此，能够提高通过训练数据排序装置2进行排序的训练数据的稳健性。

如上所述，本实施方式的训练数据排序装置2，能够在对大量收集的数据附加了机器的评估信息(标签)的状态下提示供操作人员选择。由此，操作人员能够有效地选择适当的数据，作为机器学习的训练数据使用。

接者，说明表示新的操作的标签分配。

由于环境的变化等，也可能考虑需要新学习迄今为止未打算使机器人11进行的动作。在这种情况下，操作人员操作操作装置12，使机器人11执行包括该动作的一系列动作。此时的状态信息和操作信息，可作为收集数据，通过数据收集装置13获取。在下面的说明中，考虑收集数据中新的动作的部分在图5所示的操作信息(c)中与被赋予了标签(1)的2个数据块之间的数据块对应的情况。由于是新的动作，因此不会通过数据评估部21对该数据块赋予标签。

若在提示装置23中提示有该操作信息(c)，则操作人员操作输入装置24，选择未被赋予标签的该数据块，以指示将其作为新的基准操作进行学习。由此，训练数据排序装置2，将未在临时选择对象数据中使用的数值(例如，5)的标签分配给对应的临时选择排除数据。其结果，对该数据块的数据追加赋予数值(5)的标签。并且，操作人员可通过输入装置24指示采用被赋予了新标签的数据块作为训练数据。

再者，在这种情况下，在学习模型学习训练数据的情况下，能够将被赋予了所述数值(2)的标签的数据与被赋予了数值(5)的标签的数据视作为相同操作状态B的操作信息进行处理。

具体说明的话，对于图2所示的一系列操作，考虑某个收集数据(标签顺序1→2→3→4)、以及某个收集数据(标签顺序1→5→3→4)。2个收集数据的状态信息相似，且操作顺序也相似。由此，在学习模型中，赋予了该数值(2)的标签的数据与赋予了数值(5)的标签的数据双方，皆能够容易分类为与操作状态B对应的簇。

训练数据排序部25，是为了用于从存储部22中存储的选择完毕数据中对训练数据进行排序，该训练数据用于构建在机器人系统1中使用的学习模型。训练数据根据目的被进行各式各样的排序。例如，在打算使学习模型学习图2所示的一系列操作的情况下，训练数据排序部25从被指示作为训练数据采用的选择完毕数据中，对分配有数值(1)至(4)的标签的数据进行排序，并作为训练数据输出。另外，例如，关于操作状态C的基准操作，在打算使学习模型追加学习的情况下，训练数据排序部25从被指示作为训练数据采用的选择完毕数据中提取被分配了数值(3)的标签的数据部分的数据块，作为训练数据输出。

也就是说，如图7所示，本实施方式的训练数据排序装置2，能够从对多种操作收集的多个收集数据中，仅对打算使学习模型学习的训练数据进行排序。如上所述，训练数据排序部25进行包括在训练数据排序工序中的处理。

由此，能够有效地对用于构建学习完毕数据的训练数据进行排序。另外，能够避免将不理想的数据作为训练数据进行排序。其结果，能够缩短学习模型按照操作人员的意图进行输出前的时间。

如上面的说明，本实施方式的训练数据排序装置2，从通过数据收集装置收集的收集数据中对用于通过机器学习构建学习模型的训练数据进行排序。训练数据排序装置2，具备数据评估模型20、数据评估部21、存储部22、和训练数据排序部25。数据评估模型20，通过对收集数据的至少一部分进行机器学习、或者通过对与所述收集数据不同的数据进行机器学习而构建。数据评估部21使用数据评估模型20评估输入的收集数据。存储部22存储经数据评估部21评估后的收集数据即评估完毕数据。训练数据排序部25，根据提示了数据评估部21的评估结果的操作人员的指示，从存储部22所存储的评估完毕数据中对用于构建学习模型的训练数据进行排序。

由此，通过使用数据评估模型20从收集数据中对训练数据进行排序，能够容易准备为了机器学习而优选的数据组成的训练数据。由此，能够缩短学习模型的构建时间。

另外，本实施方式的训练数据排序装置2，具备提示装置23和输入装置24。提示装置23对操作人员提示数据评估部21的评估结果。输入装置24受理操作人员关于是否将评估完毕数据作为训练数据进行排序的指示。训练数据排序部25，基于输入至输入装置24的指示，对用于构建学习模型的训练数据进行排序。

由此，由于根据人类(优选执行操作的操作人员本身)的指示对训练数据进行排序，因此能够将训练数据设定为更合适的数据的集合。另外，通过参考数据评估模型20的评估结果，操作人员容易判断是否应使用收集数据作为训练数据。

另外，在本实施方式的训练数据排序装置2中，收集数据包括基于检测值的测量值的时间序列信息，该检测值由安装在机器人系统1上的至少任一个传感器检测而得。数据评估部21使用数据评估模型20，按照与检测值的时间序列信息中的一部分时间对应的时间序列信息即每个部分时间序列信息评估收集数据。

由此，由于在收集数据中按照每个适当的单位评估数据，因此容易作为以适当的顺序排列基本的操作的构成把握一系列的操作。通过使用该评估结果，训练数据的排序更精确。另外，通过将与基本操作对应的部分作为训练数据的排序单位，能够一边有效利用收集数据一边执行机器学习。

另外，在本实施方式的训练数据排序装置2中，在输入了部分时间序列信息的情况下，数据评估模型20以输出与细分了操作人员的操作的多个基准操作分别对应的评估值的方式构建。在输入了部分时间序列信息时数据评估模型20对多个基准操作分别输出的评估值中最佳的评估值优于阈值的情况下，数据评估部21，对收集数据赋予标签，且作为评估完毕数据存储在存储部，该标签显示评估为该部分时间序列信息与最佳的评估值的基准操作对应的情况。

由此，能够容易区分通过数据评估部21赋予了良好评估的数据。

另外，在本实施方式的训练数据排序装置2中，评估完毕数据，是为了以赋予了作为评估结果的标签的形式，供操作人员对评估完毕数据进行排序而被提示。

由此，操作人员能够容易确认通过数据评估部21赋予了良好评估的数据。

另外，在本实施方式的训练数据排序装置2中，评估完毕数据的提示，是为了以能够按照每个被赋予了作为评估结果的标签的部分时间序列信息的范围进行区分的方式，供操作人员对评估完毕数据进行排序。

由此，操作人员能够容易确认显示一系列操作的时间序列信息中的哪一部分是良好的评估。

另外，在本实施方式的训练数据排序装置2中，评估完毕数据的提示，是为了对于数据评估模型20对多个基准操作分别输出的评估值中的最佳评估值不优于阈值的范围，也供操作人员对评估完毕数据进行排序。

由此，对于未赋予良好评估的范围，也能够通过操作人员确认。由此，例如，能够作为验证操作人员本身的一系列操作的哪个部分不良的线索。

另外，本实施方式的训练数据排序装置2，被构成为能够由操作人员指定数据评估模型20对多个基准操作分别输出的评估值中的最佳评估值不优于阈值的范围，并且能够赋予显示不包括在多个基准操作中的操作的标签。

由此，能够导入新的基准操作，对训练数据进行排序。

另外，在本实施方式的训练数据排序装置2中，直观地提示评估完毕数据，用于以图形表现传感器的检测值或基于该检测值的信息的形式，供操作人员对评估完毕数据进行排序。

由此，操作人员容易确认评估完毕数据。

另外，在本实施方式的训练数据排序装置2中，训练数据排序部25，能够按照在评估完毕数据中的被赋予了作为评估结果的标签的每个部分时间序列信息的范围，对训练数据进行排序。

由此，能够容易提取一部分评估完毕数据作为训练数据进行排序，因此能够有效利用收集数据，并且能够执行机器学习。

上面说明了本发明的优选实施方式，但所述结构例如能够以如下的方式变更。

提示装置23不限于直观显示，例如，也能够通过听觉提示或力觉提示，提示操作人员对操作信息的评估，该听觉提示是根据评估值的良好与否以不同的效果音显示，该力觉提示是作为振动等的对操作装置12的反馈。

操作人员，也能够通过操作输入装置24,对存储在存储部22中的经数据评估部21评估后的收集数据的履历输入与该数据的各自的良好与否有关的指示信息。

在所述实施方式中，操作人员获得基于数据评估部21评估的结果的提示的支援，进行是否采用评估完毕数据作为训练数据的判断。然而，是否采用评估完毕数据作为训练数据，也能够代替操作人员，通过程序(包括使用人工智能的情况)自动地判断。在这种情况下，能够省略对操作人员提示的提示装置23、以及输入操作人员的指示的输入装置24。

在学习装置3中，能够在通过机器学习由训练数据排序装置2排序的训练数据构建学习模型之后，将该学习模型用作数据评估模型20。

机器人11不仅可为工业机器人，还能够为医疗机器人等。

训练数据排序装置2，不仅能够对用于构建用于控制机器人的学习模型的训练数据进行排序，还能够对用于构建用于交通工具的自动操纵、工厂的自动运转的学习模型的训练数据进行排序。

也能够代替机器人系统1，而使训练数据排序装置2具备数据收集装置13。

训练数据排序装置2的数据评估模型20评估收集数据。然而，数据评估模型20也能够用于评估学习模型的输出，该学习模型是通过机器学习由训练数据排序装置2排序的训练数据而构建。

例如，在数据的收集时，也能够对执行远程操作的操作人员实时提示机器人11侧获得的信息。以这种方式对操作人员提示的信息，能够成为通过数据收集装置13收集的对象。

作为对操作人员提示信息的一例，能够考虑在数据收集时，机器人控制装置10根据操作人员对操作装置12的操作驱动机器人11,另一方面，以传递机器人11从周围受到的反作用力的方式驱动操作装置12。由此，能够实现相互作用的操作，操作人员能够一边通过操作装置12感受虚拟提示的力感一边使用该操作装置12实时地远程操作机器人11。

作为对操作人员提示信息的另一例，也能够在数据收集时，使配置在操作人员近旁的适当的显示器实时显示机器人系统1所具备的相机11c的影像。

Claims

1.一种训练数据排序装置，该训练数据排序装置从通过数据收集装置收集的收集数据中对用于通过机器学习构建学习模型的训练数据进行排序，其特征在于具备：

数据评估模型，其通过对所述收集数据的至少一部分数据进行机器学习、或者通过对与所述收集数据不同的数据进行机器学习而构建；

数据评估部，其使用所述数据评估模型评估输入的所述收集数据；

存储部，其存储通过所述数据评估部评估后的收集数据即评估完毕数据；和

训练数据排序部，其通过提示了所述数据评估部的评估结果的操作人员的指示、或者基于该评估结果自动地从通过所述存储部存储的所述评估完毕数据中对用于构建所述学习模型的训练数据进行排序。

2.根据权利要求1所述的训练数据排序装置，其中，具备：

评估提示部，其对操作人员提示所述数据评估部的所述评估结果；和

指示受理部，其受理操作人员的关于是否将所述评估完毕数据作为所述训练数据进行排序的指示，

所述训练数据排序部根据输入至所述指示受理部的指示，对用于构建所述学习模型的训练数据进行排序。

3.根据权利要求1或2所述的训练数据排序装置，其中，所述收集数据包括基于检测值的测量值的时间序列信息，该检测值是由安装在控制对象机器上的至少任一个传感器获得，

所述数据评估部使用所述数据评估模型，按照每个部分时间序列信息对所述收集数据进行评估，该部分时间序列信息是与所述检测值的时间序列信息中的一部分的时间对应的时间序列信息。

4.根据权利要求3所述的训练数据排序装置，其中，在输入了所述部分时间序列信息的情况下，所述数据评估模型以输出评估值的方式构建，该评估值与对操作人员的操作进行细分化后的操作即多个基准操作分别对应，

在输入了所述部分时间序列信息时所述数据评估模型对于多个所述基准操作分别输出的所述评估值中的最佳评估值优于阈值的情况下，所述数据评估部对所述收集数据赋予对应信息，且作为所述评估完毕数据存储在所述存储部，该对应信息显示已评估为该部分时间序列信息与最佳的所述评估值的所述基准操作对应的情况。

5.根据权利要求4所述的训练数据排序装置，其中，所述评估完毕数据，是为了以赋予了作为所述评估结果的所述对应信息的形式，供操作人员对所述评估完毕数据进行排序而被提示、或者用于所述评估完毕数据的自动排序。

6.根据权利要求5所述的训练数据排序装置，其中，所述评估完毕数据的提示，是为了以能够按照每个被赋予了作为所述评估结果的所述对应信息的所述部分时间序列信息的范围进行区分的方式，供操作人员对所述评估完毕数据进行排序。

7.根据权利要求6所述的训练数据排序装置，其中，所述评估完毕数据的提示，是为了对于所述数据评估模型对多个所述基准操作分别输出的所述评估值中的最佳评估值不优于阈值的所述范围，也供操作人员对所述评估完毕数据进行排序。

8.根据权利要求7所述的训练数据排序装置，其中，被构成为能够由操作人员指定所述数据评估模型对多个所述基准操作分别输出的所述评估值中的最佳评估值不优于阈值的范围，并且能够赋予显示不包括在所述多个基准操作中的操作的对应信息。

9.根据权利要求6至8中任一项所述的训练数据排序装置，其中，直观地提示所述评估完毕数据，用于以图形表现传感器的检测值或基于该检测值的信息的形式，供操作人员对所述评估完毕数据进行排序。

10.根据权利要求6至9中任一项所述的训练数据排序装置，其中，所述训练数据排序部，能够按照所述评估完毕数据中的每个被赋予了作为所述评估结果的所述对应信息的所述部分时间序列信息的范围，对训练数据进行排序。

11.一种机器人系统，其特征在于包括：

学习模型，其使用通过权利要求1至10中任一项所述的训练数据排序装置排序后的训练数据，通过机器学习而构建；和

机器人，其根据所述学习模型的输出进行操作。

12.一种训练数据排序方法，在该训练数据排序方法中，从通过数据收集装置收集的收集数据中对用于通过机器学习构建学习模型的训练数据进行排序，该训练数据排序方法执行包括下面的工序的处理：

数据评估工序，在所述数据评估工序中，通过对所述收集数据的至少一部分进行机器学习、或者通过对与所述收集数据不同的数据进行机器学习，使用所构建的数据评估模型评估输入的所述收集数据；

存储工序，在所述存储工序中，存储在所述数据评估工序中评估后的收集数据即评估完毕数据；和

训练数据排序工序，在所述训练数据排序工序中，通过提示了所述数据评估工序中的评估结果的操作人员的指示、或者基于该评估结果自动地从在所述存储工序中存储的所述评估完毕数据中对用于构建所述学习模型的训练数据进行排序。

13.根据权利要求12所述的训练数据排序方法，其中，在所述数据评估工序中，能够对收集了学习模型的操作的数据进行评估，该学习模型是通过机器学习在所述训练数据排序工序中被排序的训练数据而构建。