CN115066659A

CN115066659A - 机器学习装置、计算机装置、控制系统以及机器学习方法

Info

Publication number: CN115066659A
Application number: CN202180012298.6A
Authority: CN
Inventors: 佐藤修二
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2020-02-05
Filing date: 2021-02-01
Publication date: 2022-09-16
Also published as: JP7364699B2; DE112021000842T5; JPWO2021157515A1; US20230068058A1; WO2021157515A1

Abstract

防止数据通信命令被过度地发布到控制装置而成为过负荷，并且缩短命令的发布延迟时间。机器学习装置，其对发行命令的计算机装置进行机器学习，该命令用于访问能够通信地连接的控制装置，机器学习装置具有：状态数据取得部，其监视计算机装置的1个以上的应用指令的命令，并取得包含命令的发布时间表和以发布时间表发布的命令的受理时刻及发布时刻的状态数据；行为信息输出部，其将行为信息输出给计算机装置，该行为信息包含状态数据的发布时间表的修正信息；回报计算部，其根据每个命令的发布的延迟时间和发布的全部命令的平均发布间隔来计算针对行为信息的回报；价值函数更新部，其根据所述回报来更新针对状态数据及行为信息的价值函数。

Description

机器学习装置、计算机装置、控制系统以及机器学习方法

技术领域

本发明涉及机器学习装置、计算机装置、控制系统以及机器学习方法。

背景技术

例如，在与控制机床、机器人等工业机械的控制装置连接的计算机装置(例如，个人计算机、平板终端、智能手机等)中，为了使在计算机装置上动作的应用(application)访问控制装置内的数据，存在成为与控制装置的接口的通信处理部。

在访问控制装置内的数据的应用中，存在几乎不隔开间隔而频繁地进行访问的应用、定期地进行访问的应用、零散地进行访问的应用。

在这样的应用大量同时动作的状态下，有时受频繁地访问控制装置内数据的应用所妨碍，其他应用的访问经常延迟，应用的动作整体上变得缓慢。

关于这一点，已知如下技术：将在作为计算机装置的个人计算机的应用中设定的数据的优先级，传递给作为控制装置的数值控制装置，在从个人计算机的应用请求了多个数据时，数值控制装置先发送优先级高的数据并储存在缓冲器中，并且按照数值控制装置的负荷和响应允许时间来调整发送间隔。例如，参照专利文献1。

现有技术文献

专利文献

专利文献1：日本专利第6517706号

发明内容

发明要解决的课题

在与计算机装置连接的控制装置中，若不考虑整体性能的应用频繁地对控制装置进行访问、或者非常多的应用同时对控制装置进行访问，则产生访问的延迟造成的性能降低、处理的延迟。

图10是表示在作为计算机装置的个人计算机上动作的多个应用输出的命令的时序图的一例的图。此外，图10表示作为计算机装置的个人计算机执行4个应用A1-A4的情况。另外，在图10中按圆形、四边形、菱形、三角形的命令顺序表示紧急度从高到低。

如图10所示，应用A1定期地输出紧急度比较高的命令，访问控制装置内的数据。应用A2零散地输出紧急度最高的命令，访问控制装置内的数据。应用A3频繁地输出命令，频繁地访问控制装置内的数据。应用A4定期地输出多个命令，访问控制装置内的数据。

在图10的情况下，例如在时间T1、T2，应用A1-A4的命令集中，对控制装置产生过度的访问。作为在这样的状态下产生的问题，存在应定期处理的数据访问变得不定期、即使产生了应紧急处理的事件处理也会延迟、应用的动作整体上变得缓慢等。

专利文献1限于数值控制装置对数据请求命令返回数据的高效化，而无法实现从作为计算机装置的个人计算机向作为控制装置的数值控制装置的命令发布的高效化、无法实现负荷减轻，并且对写入请求的发送数据没有效果。

另外，在现有技术中，为了调整向控制装置的命令发布，需要修正各个应用。

因此，希望防止数据通信命令被过度地发布到控制装置而成为过负荷，并且希望缩短命令的发布延迟时间。

用于解决课题的手段

(1)本公开的机器学习装置的一方式是一种机器学习装置，其对发行命令的计算机装置进行机器学习，该命令用于访问能够通信地连接的控制装置，所述机器学习装置具有：状态数据取得部，其监视用于访问所述控制装置内的数据的命令，并取得状态数据，其中，所述控制装置内的数据是在所述计算机装置上动作的1个以上的应用分别指令的数据，该状态数据至少包含：所述命令的发布时间表、根据所述发布时间表而发布的所述命令的受理时刻及发布时刻；行为信息输出部，其将行为信息输出到所述计算机装置，该行为信息包含在所述状态数据中包含的所述发布时间表的修正信息；回报计算部，其根据到所述命令被发布到所述控制装置为止的每个所述命令的延迟时间和发布的全部所述命令的平均发布间隔，计算针对所述行为信息的回报；以及价值函数更新部，其根据由所述回报计算部计算出的回报，更新与所述状态数据以及所述行为信息相关的价值函数。

(2)本公开的计算机装置的一方式具有(1)的机器学习装置，通过所述机器学习装置对所述发布时间表进行机器学习。

(3)本公开的控制系统的一方式具有：(1)的机器学习装置；以及计算机装置，其通过所述机器学习装置对所述发布时间表进行机器学习。

(4)本公开的机器学习方法的一方式是一种机器学习方法，用于对发行命令的计算机装置进行机器学习，该命令用于访问能够通信地连接的控制装置，监视用于访问所述控制装置内的数据的命令，并取得状态数据，其中，所述控制装置内的数据是在所述计算机装置上动作的1个以上的应用分别指令的数据，该状态数据至少包含：所述命令的发布时间表、根据所述发布时间表而发布的所述命令的受理时刻及发布时刻，将行为信息输出到所述计算机装置，该行为信息包含在所述状态数据中包含的所述发布时间表的修正信息，根据到所述命令被发布到所述控制装置为止的每个所述命令的延迟时间和发布的全部所述命令的平均发布间隔，计算针对所述行为信息的回报，根据计算出的所述回报，更新与所述状态数据以及所述行为信息相关的价值函数。

发明效果

根据一方式，能够防止数据通信命令被过度地发布到控制装置而成为过负荷，并且能够缩短命令的发布延迟时间。

附图说明

图1是表示一实施方式的控制系统的功能性结构例的功能框图。

图2是表示包含发布时间表的命令表的一例的图。

图3是表示机器学习装置的功能性结构例的功能框图。

图4是表示由回报计算部计算出的每个命令的回报的一例的图。

图5是表示更新前及更新后的命令的时序图的一例的图。

图6是表示一实施方式中Q学习时的机器学习装置40的动作的流程图。

图7是表示优化行为信息输出部进行的优化行为信息生成时的动作的流程图。

图8是表示控制系统的结构的一例的图。

图9是表示控制系统的结构的一例的图。

图10是表示在个人计算机上动作的多个应用输出的命令的时序图的一例的图。

具体实施方式

以下，使用附图对本公开的一实施方式进行说明。

<一实施方式>

图1是表示一实施方式的控制系统的功能性结构例的功能框图。在此，作为工业机械示例机床，作为控制装置示例数值控制装置。本发明并不限定于机床，例如也能够应用于工业用机器人、服务用机器人等。另外，在工业机械为机器人时，控制装置包含机器人控制装置等。另外，作为计算机装置，示例个人计算机，但本发明并不限定于个人计算机，例如能够应用于平板终端、智能手机等所谓的客户终端。

如图1所示，控制系统1具有：机床10、数值控制装置20、个人计算机30以及机器学习装置40。

机床10、数值控制装置20、个人计算机30以及机器学习装置40可以经由未图示的连接接口而相互直接连接。另外，机床10、数值控制装置20、个人计算机30以及机器学习装置40也可以经由LAN(Local Area Network，局域网)、互连接等未图示的网络而相互连接。该情况下，机床10、数值控制装置20、个人计算机30以及机器学习装置40具有用于通过这样的连接相互进行通信的未图示的通信部。此外，如后所述，个人计算机30可以包含机器学习装置40。另外，数值控制装置20可以包含在机床10中。

机床10对于本领域技术人员而言是公知的机床，根据来自后述的数值控制装置20的控制信息进行动作。

数值控制装置20对于本领域技术人员而言是公知的数值控制装置，根据控制信息生成动作指令，将生成的动作指令发送到机床10。由此，数值控制装置20控制机床10的动作。另外，数值控制装置20接收在后述的个人计算机30上动作的n个应用AP1-APn的每一个访问数值控制装置20内数据的数据通信命令，按照接收到的命令顺序将数据发送到个人计算机30。在此，n为2以上的整数。

<个人计算机30>

个人计算机30具有：中央处理部301、数据通信接口部302、命令处理部303、通信处理部304以及存储部305。

中央处理部301具有：CPU(Central Processing Unit，中央处理单元)、ROM(ReadOnly Memory，只读存储器)、RAM(Random Access Memory，随机访问存储器)、CMOS(Complementary Metal-Oxide-Semiconductor，互补金属氧化物半导体)存储器等，它们构成为能够经由总线相互通信，对于本领域技术人员而言是公知的。

CPU是整体控制个人计算机30的处理器。CPU经由总线读出储存在ROM中的系统程序以及n个应用AP1-APn的程序，按照所述系统程序以及应用AP1-APn的程序控制个人计算机30整体。在RAM中储存临时的计算数据、显示数据等各种数据。另外，CMOS存储器构成为如下的非易失性存储器：通过未图示的电池而被备份，即使断开数值控制装置20的电源也保持存储状态。

数据通信接口部302是一般的通信接口，例如具有缓冲器(未图示)。数据通信接口部302接收用于访问数值控制装置20内的数据的数据通信命令，将接收到的命令数据暂时储存在缓冲器(未图示)中。

例如，命令处理部303根据发布时间表取得储存在数据通信接口部302的缓冲器(未表示)中的命令，经由通信处理部304发布所取得的命令。

在此，对发布时间表进行说明。在本实施方式中，作为发布时间表，例如示例针对储存在数据通信接口部302的缓冲器中的命令，决定了各命令的“发布顺序”以及“发布间隔”的发布时间表。

因此，在本实施方式中，作为用于决定发布时间表的结构，导入命令表CT。命令表CT是指：针对用于访问数值控制装置20内的数据的数据通信命令，将“命令编号”、“命令受理编号”、“命令优先级Pa”、“指令进程ID”、“进程优先级Pb”、“综合优先级Ps”、“必要处理时间Tc”、“延迟系数Td”以及“发布时间表”等数据对应起来的、以命令编号为索引的排列表。

命令表CT内的“命令编号”是用于分别识别应用AP1-APn指令的命令的识别编号，是命令表CT中的索引。命令编号按发行该命令的应用APi(1≤i≤n)来识别。

命令表CT内的“命令受理编号”表示数据通信接口部302从应用AP1-APn的每一个接收并储存在缓冲器(未图示)中的命令的受理编号。

命令表CT内的“命令优先级Pa”是表示该命令的优先级的值，预先设定成值越高越优先执行。此外，“命令优先级Pa”也可以预先设定成值越小越优先执行。

命令表CT内的“指令进程ID”是进程ID，是在进程启动时由个人计算机30的OS(Operating System，操作系统)分配，是OS或其他进程指定和处理该进程时的识别符。

命令表CT内的“进程优先级Pb”是表示指令了命令的进程优先级的系数。“进程优先级Pb”例如是设定“1”作为初始值，是由后述的机器学习装置40选择的行为中包含的至少1个系数参数。

命令表CT内的“综合优先级Ps”是将“命令优先级Pa”和“进程优先级Pb”合计而得的值，按值从高到低的顺序发布命令。此外，例如在针对2个以上的不同命令而“综合优先级Ps”相同时，命令处理部303可以预先设定为优先发布“命令优先级Pa”高的命令。

此外，命令处理部303也可以预先设定为优先发布“进程优先级Pb”高的命令。

命令表CT内的“必要处理时间Tc”表示该命令的处理所需的时间，下一个命令发布优选隔开该时间以上的间隔。

命令表CT内的“延迟系数Td”是根据“必要处理时间Tc”来调整命令的发布间隔的时间系数。具体而言，将对各命令的“必要处理时间Tc”加上该命令的“延迟系数Td”而得的值设为该命令的“发布间隔Ts”。通过调整“延迟系数Td”，能够调整各命令的最佳发布间隔。

如上所述，命令表CT内的“发布时间表”的“发布顺序”表示命令处理部303根据“综合优先级Ps”发布储存在数据通信接口部302的缓冲器(未图示)中的命令的顺序。

命令表CT内的“发布时间表”的“发布间隔Ts”是将“必要处理时间Tc”和“延迟系数Td”合计而得的值，命令处理部303以“发布间隔Ts”的时间间隔发布命令。

此外，通过机器学习装置40开始学习时的命令表CT可以由用户任意设定。

图2是表示命令表CT的一例的图。参照图2，为了简化说明，命令表CT储存有5个命令相关的数据排列。

如图2所示，针对这5个命令，按照综合优先级的值从大到小的顺序设定发布顺序。另外，关于综合优先级的值为相同值的命令编号18和命令编号8，如上所述，可知使“命令优先级Pa”的值高的命令编号8优先。

另外，如上所述，各命令的发布间隔设定为对各命令的必要处理时间加上各命令的延迟系数而得的值。

并且，如后所述，机器学习装置40将“进程优先级Pb”以及“延迟系数Td”作为行为，例如根据某个策略选择各种行为，由此一边进行探索一边进行强化学习，从而能够选择最佳的发布时间表。

通信处理部304对于本领域技术人员而言是公知的通信部，在与数值控制装置20之间进行数据、加工程序等的收发。

具体而言，通信处理部304将从命令处理部303接收到的命令依次发送到数值控制装置20，接收针对所发送的命令的数据。

存储部305是RAM、HDD(Hard Disk Drive，硬盘驱动器)等。存储部305存储系统程序以及n个应用AP1-APn的程序、以及命令表CT等。

<机器学习装置40>

机器学习装置40是如下装置：通过个人计算机30执行应用AP1-APn的程序，对发布时间表进行强化学习，该发布时间表是针对储存在数据通信接口部302的缓冲器(未图示)中的应用AP1-APn的未发布命令的。

在进行机器学习装置40所包含的各功能块的说明之前，首先对强化学习的基本结构进行说明。智能体(相当于本实施方式中的机器学习装置40)观测环境(相当于本实施方式中的数值控制装置20和个人计算机30)的状态，选择某个行为，根据选择出的行为环境发生变化。随着环境的变化，提供某种回报，根据提供的回报，智能体学习能够选择更好的行为。

监督学习表示完全的正确答案，而强化学习中的回报大多是基于环境的部分变化的片段值。因此，智能体进行学习使得到将来的回报合计为最大。

这样，在强化学习中通过学习行为，在行为给予环境的相互作用基础上学习适当的行为，即学会用于学习使将来获得的回报为最大的方法。这表示在本实施方式中，能够获得例如选择防止数据通信命令被过度地发布到数值控制装置20而成为过负荷、并且用于缩短命令的发布延迟时间的行为信息这样的，对未来造成影响的行为。

在此，作为强化学习能够使用任意的学习方法，在以下的说明中，以在某种环境状态s下，使用Q学习(Q-learning)的情况为例进行说明，所述Q学习是学习选择行为a的价值函数Q(s、a)的方法。

Q学习的目的是：在某种状态s时，从能够取得的行为a中，将价值函数Q(s、a)最高的行为a选择为最佳行为。

但是，在最初开始Q学习的时间点，对于状态s与行为a的组合，完全不知晓价值函数Q(s、a)的正确值。因此，智能体在某种状态S下选择各种行为a，针对当时的行为a，根据给予的回报，选择更好的行为，由此，继续学习正确的价值函数Q(s、a)。

另外，想要使将来获得的回报的合计最大化，因此，目标是最终成为Q(s、a)＝E[Σ(γ^t)r_t]。在此，E[]表示期待值，t表示时刻、γ表示后述的称为折扣率的参数，r_t表示时刻t的回报，Σ是时刻t的合计。该公式中的期待值是按最佳行为状态发生变化时的期待值。但是在Q学习的过程中，由于不知道最佳行为，因此通过进行各种行为，一边进行探索一边进行强化学习。这样的价值函数Q(s、a)的更新式例如能够通过如下的数学式1来表示。

[数学式1]

在上述的数学式1中，s_t表示时刻t的环境状态，a_t表示时刻t的行为。通过行为a_t，状态变化为s_t+1。r_t+1表示通过该状态的变化而得到的回报。另外，带有max的项是：在状态s_t+1下，将γ乘以选择出当时知道的Q值最高的行为a时的Q值而得的。在此，γ是0＜γ≤1的参数，称为折扣率。另外，α是学习系数，设α的范围为0＜α≤1。

上述的数学式1表示如下方法：试行a_t，结果根据反馈回来的回报r_t+1，更新状态s_t下的行为a_t的价值函数Q(s_t、a_t)。

该更新式表示了：若行为a_t导致的下一状态s_t+1下的最佳行为的价值max_a Q(s_t+1、a)比状态s_t下的行为a_t的价值函数Q(s_t、a_t)大，则增大Q(s_t、a_t)，反之如果小，则减小Q(s_t、a_t)。也就是说，使某种状态下的某种行为的价值接近该行为导致的下一状态下的最佳行为价值。其中，尽管该差因折扣率γ和回报r_t+1的存在形式而变化，但基本上某种状态下的最佳行为价值是传播至其前一个状态下的行为价值的结构。

这里，Q学习存在如下方法：制作针对所有状态行为对(s、a)的Q(s、a)的表，来进行学习。但是，有时为了求出所有状态行为对的Q(s、a)的值，状态数会过多，使得Q学习收敛需要较多的时间。

因此，可以利用公知的称为DQN(Deep Q-Network)的技术。具体而言，可以使用适当的神经网络来构成价值函数Q，调整神经网络的参数，由此，通过适当的神经网络来近似价值函数Q来计算价值函数Q(s、a)的值。通过利用DQN，能够缩短Q学习收敛所需的时间。此外，关于DQN，例如在以下的非专利文献中有详细的记载。

<非专利文献>

“Human-level control through deep reinforcement learning”，VolodymyrMnih1著[online]，[平成29年1月17日检索]，因特网〈URL：http：//files.davidqiu.com/research/nature14236.pdf〉

机器学习装置40进行以上说明的Q学习。具体而言，机器学习装置40将命令表CT、数据通信接口部302接收到各命令的受理时刻、以及命令处理部303经由通信处理部304发布了各命令的发布时刻设为状态s，将状态s的命令表CT中包含的调整发布时间表的参数的设定、变更设为行为a，来学习要选择的价值函数Q，其中，命令表CT是针对储存在数据通信接口部302的缓冲器(未图示)中的未发布的命令的表。在此，作为参数，示例“进程优先级Pb”以及“延迟系数Td”。

机器学习装置40监视由应用AP1-APn的每一个所指令的命令，观测包含命令表CT和按照命令表CT的“发布时间表”发布的各命令的受理时刻及发布时刻的状态信息(状态数据)s，决定行为a。机器学习装置40每当决定行为a时返回回报。机器学习装置40例如试错地探索最佳的行为a，以使将来的回报合计为最大。由此，机器学习装置40能够针对状态s选择最佳的行为a(即“进程优先级Pb”以及“延迟系数Td”)，其中，状态s包含：通过个人计算机30执行应用AP1-APn而取得的命令表CT、按照命令表CT的“发布时间表”而发布的各命令的受理时刻及发布时刻。

图3是表示机器学习装置40的功能性结构例的功能框图。

为了进行上述的强化学习，如图3所示，机器学习装置40具有：状态数据取得部401、判定数据取得部402、学习部403、行为信息输出部404、价值函数存储部405、优化行为信息输出部406以及控制部407。学习部403具有：回报计算部431、价值函数更新部432以及行为信息生成部433。控制部407控制状态数据取得部401、判定数据取得部402、学习部403、行为信息输出部404以及优化行为信息输出部406的动作。

状态数据取得部401从个人计算机30取得状态数据s，作为从个人计算机30向数值控制装置20的数据通信的状态，所述状态数据s包含：命令表CT、按照命令表CT的“发布时间表”而发布的如后述那样在预先设定的特定时间内受理的全部各命令的受理时刻及发布时刻。该状态数据s相当于Q学习中的环境状态s。

状态数据取得部401将取得的状态数据s输出到判定数据取得部402以及学习部403。

此外，最初开始Q学习的时间点的命令表CT可以如上所述由用户设定。

状态数据取得部401可以将取得的状态数据s存储在机器学习装置40所包含的未图示的存储部中。该情况下，后述的判定数据取得部402和学习部403可以从机器学习装置40的存储部(未图示)读入状态数据s。

判定数据取得部402定期地解析从状态数据取得部401接收到的命令表CT、在预先设定的特定时间内受理的全部的各命令的受理时刻及发布时刻，来取得判定数据。

具体而言，判定数据取得部402针对在特定时间内受理的全部命令，取得数据通信接口部302按预先设定的规定时间(例如，1分钟)受理的全部命令的平均发布间隔、各命令的发布延迟时间、命令优先级等作为判定数据。判定数据取得部402将取得的判定数据输出到学习部403。

此外，命令的平均发布间隔是在预先设定的规定时间(例如，1分钟)受理的命令发布间隔的平均值。另外，各命令的发布延迟时间是在预先设定的规定时间(例如，1分钟)受理的各命令的受理时刻与发布时刻之差。

学习部403是在某个状态数据(环境状态)s下学习选择某个行为a时的价值函数Q(s，a)的部分。具体而言，学习部403具有：回报计算部431、价值函数更新部432以及行为信息生成部433。

此外，学习部403判断是否继续学习。是否继续学习例如能够根据从开始机器学习起的试行次数是否达到最大试行次数、或者从开始机器学习起的经过时间是否超过规定时间(或以上)来判断。

回报计算部431是计算在某个状态s下选择了命令表CT的“进程优先级Pb”以及“延迟系数Td”的调整即行为a时的回报的部分。

在此，说明针对行为a的回报的计算例。

具体而言，首先，回报计算部431例如针对在预先设定的特定时间内受理的所有命令，如上所述，根据由判定数据取得部402取得的平均发布间隔Ta、发布延迟时间Tb以及命令优先级Pa来计算每个命令的评价值V。此外，作为预先设定的特定时间，优选设定同时并行地执行在个人计算机30上执行的应用AP1-APn的时间。另外，特定时间可以与所述的规定时间(例如，1分钟)相同，也可以包含该规定时间(例如，1分钟)。

作为评价值的计算例，示例以下的数学式(数学式2)。

[数2]

V＝平均发布间隔Ta×a₁-发布延迟时间Tb×命令优先级Pa×a₂

在此，a₁和a₂是系数，例如分别设定为“20”和“1”。此外，a₁和a₂的值不限于此，可以根据所要求的机器学习的精度等来决定。

并且，回报计算部431针对在特定时间内受理的全部命令计算评价值V，将计算出的全部评价值的平均值作为行为a的回报r。由此，关于行为a，判定对象命令的发布延迟时间越小，越能够得到大的回报。另外，判定对象命令的平均发布间隔越大，越能够得到大的回报。

图4是表示由回报计算部431计算出的每个命令(命令编号)的评价值V的一例的图。此外，数学式2的平均发布间隔Ta是各命令的发布间隔的平均值(平均发布间隔)，在图4的情况下是“21”。并且，如图4所示，计算各命令的评价值，将计算出的全部评价值的平均值(＝176)设为回报r。

价值函数更新部432根据状态s、行为a、将行为a应用于状态s时的状态s’、以及如上述那样计算出的回报的值r来进行Q学习，由此，更新价值函数存储部405存储的价值函数Q。

价值函数Q的更新可以通过在线学习来进行，也可以通过批量学习来进行，还可以通过小批量学习来进行。

在线学习是如下学习方法：通过将某种行为a应用于当前状态s，每当状态s向新状态s’转移时，立即进行价值函数Q的更新。另外，批量学习是如下学习方法：通过将某种行为a应用于当前状态s，状态s向新状态s’转移，通过重复上述动作来收集学习用的数据，使用收集到的所有学习用数据，来进行价值函数Q的更新。进而，小批量学习是在线学习与批量学习中间的学习方法，是每当积攒了某种程度学习用数据时进行价值函数Q的更新的学习方法。

行为信息生成部433针对当前状态s，选择Q学习的过程中的行为a。行为信息生成部433在Q学习的过程中，为了进行修正命令表CT的“进程优先级Pb”以及“延迟系数Td”的动作(相当于Q学习中的行为a)，生成行为信息a，将生成的行为信息a输出给行为信息输出部404。

更具体而言，行为信息生成部433例如可以相对于状态s所包含的命令表CT的“进程优先级Pb”以及“延迟系数Td”，使行为a所包含的“进程优先级Pb”以及“延迟系数Td”递增或者递减。

行为信息生成部433可以通过行为a调整命令表CT的“进程优先级Pb”以及“延迟系数Td”，在转移到状态s’的情况下，根据命令表CT的“发布时间表”的状态(“发布顺序”以及“发布间隔Ts”是否适当)来选择下一行为a’的命令表CT的“进程优先级Pb”以及“延迟系数Td”。

例如，在因“进程优先级Pb”和/或“延迟系数Td”的增加使得回报r增加，且“发布时间表”的“发布顺序”和“发布间隔Ts”合适时，作为下一行为a’，例如可以采取如下策略：选择使“进程优先级Pb”和/或“延迟系数Td”递增等、使优先命令的发布延迟时间缩短和发布间隔最佳化这样的行为a’。

或者，在因“进程优先级Pb”和/或“延迟系数Td”的增加使得回报r减少时，作为下一行为a’，例如可以采取如下策略：选择将“进程优先级Pb”和/或“延迟系数Td”返回到前1个等、使优先命令的发布延迟时间缩短和发布间隔最佳化这样的行为a’。

另外，关于“进程优先级Pb”以及“延迟系数Td”的每一个，例如可以在其增加而回报r增加时增加+1，在回报r减少时返回到前1个。

另外，行为信息生成部433可以采取如下策略：通过在当前推定的行为a的价值中选择价值Q(s、a)最高的行为a’的贪婪算法，或者用某个较小的概率ε随机选择行为a’，除此之外选择价值函数Q(s、a)最高的行为a’的ε贪婪算法这样的公知的方法，来选择行为a’。

行为信息输出部404是对个人计算机30输出从学习部403输出的行为信息a的部分。行为信息输出部404例如可以将作为行为信息的、更新后的“进程优先级Pb”以及“延迟系数Td”的值输出到个人计算机30。由此，个人计算机30根据接收到的更新后的“进程优先级Pb”以及“延迟系数Td”的值来更新命令表CT。并且，命令处理部303根据更新后的命令表CT的“发布时间表”，向通信处理部304发布数据通信命令。

此外，行为信息输出部404可以将根据作为行为信息的、更新后的“进程优先级Pb”以及“延迟系数Td”的值而更新的命令表CT输出到个人计算机30。

价值函数存储部405是存储价值函数Q的存储装置。价值函数Q例如可以按状态s、行为a作为表(以下，也称为“行为价值表”)来储存。存储在价值函数存储部405中的价值函数Q由价值函数更新部432更新。

优化行为信息输出部406根据通过价值函数更新部432进行Q学习而更新的价值函数Q，生成用于使个人计算机30进行价值函数Q(s，a)为最大的动作的行为信息a(以下，称为“优化行为信息”)。

更具体而言，优化行为信息输出部406取得价值函数存储部405存储的价值函数Q。如上所述，该价值函数Q是通过价值函数更新部432进行Q学习而更新的函数。并且，优化行为信息输出部406根据价值函数Q生成行为信息，将生成的行为信息输出到个人计算机30。在该优化行为信息中，与行为信息输出部404在Q学习的过程中输出的行为信息同样地，包含表示更新后的“进程优先级Pb”以及“延迟系数Td”的值的信息。

图5是表示更新前及更新后的命令的时序图的一例的图。图5的上段与图10的情况同样地，表示在个人计算机30上动作的4个应用AP1-AP4输出的更新前的命令的时序图的一例。图5的下段表示4个应用AP1-AP4输出的更新后的命令的时序图的一例。此外，与图10的情况同样地，按照圆形、四边形、菱形、三角形的顺序表示紧急度高的命令。另外，个人计算机30执行4个以外的应用AP1-APn的情况也与图5的情况一样，省略说明。

如图5的下段所示，命令处理部303根据按照综合优先级Ps调整了命令发布顺序的更新后的命令表CT的“发布时间表”，发布未发送的命令。由此，命令处理部303能够在与图5的上段的时间T1及T2对应的时间T1’及T2’和时间T3’，隔开命令的发布间隔地进行平均化，以不会成为过度的访问。

这样，个人计算机30通过更新命令表CT，能够防止数据通信命令被过度地发布到数值控制装置20而成为过负荷，并且能够缩短命令的发布延迟时间。

以上，对机器学习装置40所包含的功能块进行了说明。

为了实现这些功能块，机器学习装置40具有CPU等运算处理装置。另外，机器学习装置40还具有储存了应用软件、OS(Operating System，操作系统)等各种控制用程序的HDD等辅助存储装置、用于储存运算处理装置执行程序时暂时需要的数据的RAM这样的主存储装置。

并且，在机器学习装置40中，运算处理装置从辅助存储装置读入应用软件、OS，一边使读入的应用软件、OS在主存储装置中展开，一边进行基于这些应用软件、OS的运算处理。另外，根据该运算结果，控制机器学习装置40具有的各种硬件。由此，实现本实施方式的功能块。即，本实施方式能够通过硬件和软件协作来实现。

关于机器学习装置40，由于伴随机器学习的运算量增多，因此例如利用在个人计算机搭载GPU(Graphics Processing Units，图形处理单元)，称为GPGPU(General-Purposecomputing on Graphics Processing Units，通用图形处理单元)的技术，在将GPU用于伴随机器学习的运算处理时，可以实现高速处理。并且，为了进行更高速的处理，可以使用多台搭载了这样的GPU的计算机来构筑计算机集群，通过该计算机集群所包含的多个计算机来进行并行处理。

接着，参照图6的流程图对本实施方式中的Q学习时的机器学习装置40的动作进行说明。

图6是表示一实施方式中的Q学习时的机器学习装置40的动作的流程图。

在步骤S11中，控制部407将试行次数设为“1”，指示状态数据取得部401取得状态数据。

在步骤S12中，状态数据取得部401从个人计算机30取得最初的状态数据。取得的状态数据被输出到行为信息生成部433。如上所述，该状态数据(状态信息)是相当于Q学习中的状态s的信息，包含步骤S12时间点的命令表CT、按照命令表CT的“发布时间表”发布的各命令的受理时刻及发布时刻。此外，最初开始Q学习的时间点的命令表CT预先由用户生成。

在步骤S13中，行为信息生成部433生成新的行为信息a，经由行为信息输出部404将生成的新的行为信息a输出到个人计算机30。接收到行为信息的个人计算机30根据接收到的行为信息a更新当前状态s的“进程优先级Pb”以及“延迟系数Td”而设为状态s’。个人计算机30根据更新后的行为a将状态s更新为状态s’。具体而言，个人计算机30更新命令表CT。命令处理部303根据更新后的命令表CT的“发布时间表”，发布储存在数据通信接口部302的缓冲器(未图示)中的未发送的命令。

在步骤S14中，状态数据取得部401取得与从个人计算机30取得的新的状态s’相当的状态数据。在此，新的状态数据包含状态s’的命令表CT、按照命令表CT的“发布时间表”发布的各命令的受理时刻及发布时刻。状态数据取得部401对判定数据取得部402以及学习部403输出取得的状态数据。

在步骤S15中，判定数据取得部402根据状态数据取得部401接收到的新的状态数据所包含的命令表CT、针对在预先设定的特定时间内受理的全部命令的各命令的受理时刻及发布时刻，按规定时间(例如，1分钟)取得判定数据。判定数据取得部402将取得的判定数据输出到学习部403。该判定数据例如包含按1分钟等规定时间由数据通信接口部302受理的命令的平均发布间隔Ta、各命令的发布延迟时间Tb、命令优先级Pa等。

在步骤S16中，回报计算部431根据取得的判定数据，即命令的平均发布间隔Ta、各命令的发布延迟时间Tb、以及命令优先级Pa和数学式2，针对在预先设定的特定时间内受理的全部命令，计算各命令的评价值V。回报计算部431将各命令的评价值V的平均值作为回报r。

在步骤S17中，价值函数更新部432根据计算出的回报r，更新价值函数存储部405存储的价值函数Q。

在步骤S18中，控制部306判断从开始机器学习起的试行次数是否达到了最大试行次数。预先设定最大试行次数。若未达到最大试行次数，则在步骤S19中对试行次数进行计数，返回到步骤S13。反复进行从步骤S13到步骤S19的处理，直到达到最大试行次数为止。

此外，图6的流程在试行次数达到了最大试行次数时使处理结束，但也可以将从开始机器学习起对步骤S13至步骤S19的处理的时间进行累积而得的时间超过了预先设定的最大经过时间(或者以上)作为条件来结束处理。

另外，步骤S17示例了在线更新，但也可以代替在线更新而置换为批量更新或者小批量更新。

以上，通过参照图6说明的动作，在本实施方式中，能够生成价值函数Q，所述价值函数Q用于生成行为信息，所述行为信息防止数据通信命令被过度地发布到数值控制装置20而成为过负荷，并且缩短命令的发布延迟时间。

接着，参照图7的流程图，对基于优化行为信息输出部406的优化行为信息生成时的动作进行说明。

在步骤S21中，优化行为信息输出部406取得存储在价值函数存储部405中的价值函数Q。价值函数Q是如上所述通过价值函数更新部432进行Q学习而更新了的函数。

在步骤S22中，优化行为信息输出部406根据该价值函数Q生成优化行为信息，将生成的优化行为信息输出到个人计算机30。

如上所述，个人计算机30通过更新命令表CT，能够防止数据通信命令被过度地发布到控制装置而成为过负荷，并且能够缩短命令的发布延迟时间。

以上，对一实施方式进行了说明，但个人计算机30以及机器学习装置40并不限定于上述的实施方式，包含能够实现目的的范围内的变形、改良等。

<变形例1>

在上述的实施方式中，示例了机器学习装置40是与个人计算机30不同的装置，但个人计算机30也可以具备机器学习装置40的一部分或全部的功能。

或者，例如服务器可以具有：机器学习装置40的状态数据取得部401、判定数据取得部402、学习部403、行为信息输出部404、价值函数存储部405、优化行为信息输出部406以及控制部407的一部分或全部。另外，也可以在云上利用虚拟服务器功能等来实现机器学习装置40的各功能。

并且，机器学习装置40可以是将机器学习装置40的各功能适当地分散到多个服务器的分散处理系统。

<变形例2>

另外，例如在上述的实施方式中，在控制系统1中，1个个人计算机30与1个机器学习装置40能够通信地连接，但并不限定于此。例如，如图8所示，控制系统1可以具有m个个人计算机30A(1)-30A(m)和m个机器学习装置40A(1)-40A(m)(m是2以上的整数)。该情况下，机器学习装置40A(j)可以经由网络50与个人计算机30A(j)能够1对1通信地连接，对个人计算机30A(j)实施机器学习(j为1至m的整数)。

此外，存储在机器学习装置40A(j)的价值函数存储部405中的价值函数Q，可以在与其他机器学习装置40A(k)之间进行共享(k为1至m的整数，k≠j)。如果在机器学习装置40A(1)-40A(m)中共享价值函数Q，则能够在各机器学习装置40A中分散地进行强化学习，因此，能够提高强化学习的效率。

此外，个人计算机30A(1)-30A(m)的每一个与数值控制装置20A(1)-20A(m)的每一个连接，数值控制装置20A(1)-20A(m)的每一个与机床10A(1)-10A(m)的每一个连接。

另外，机床10A(1)-10A(m)的每一个与图1的机床10对应。数值控制装置20A(1)-20A(m)的每一个与图1的数值控制装置20对应。个人计算机30A(1)-30A(m)的每一个与图1的个人计算机30对应。机器学习装置40A(1)-40A(m)的每一个与图1的机器学习装置40对应。

另外，如图9所示，服务器60可以作为机器学习装置40进行动作，经由网络50与m个个人计算机30A(1)-30A(m)能够通信地连接，对个人计算机30A(1)-30A(m)的每一个实施机器学习。

<变形例3>

另外，例如在上述的实施方式中，作为调整发布时间表的参数，应用了进程优先级Pb以及延迟系数Td，但也可以使用进程优先级Pb以及延迟系数Td以外的参数。

此外，一实施方式中的个人计算机30以及机器学习装置40所包含的各功能能够通过硬件、软件或者它们的组合来分别实现。在此，通过软件实现是指通过计算机读入程序并执行来实现。

个人计算机30以及机器学习装置40所包含的各结构部可以通过包含电子电路等的硬件、软件或者它们的组合来实现。在通过软件来实现时，构成该软件的程序被安装于计算机。另外，这些程序既可以记录于可移动介质来分发给用户，也可以通过经由网络下载到用户的计算机来进行分发。另外，在由硬件构成时，例如可以由ASIC(ApplicationSpecific Integrated Circuit，专用集成电路)、门阵列、FPGA(Field Programmable GateArray，现场可编辑门阵列)、CPLD(Complex Programmable Logic Device，复杂可编程逻辑设备)等集成电路(IC)构成上述装置所包含的各结构部的功能的一部分或全部。

可以使用各种类型的非暂时性的计算机可读介质(Non-transitory computerreadable medium)来储存程序并将其提供给计算机。非暂时性的计算机可读介质包含各种类型的有形存储介质(Tangible storage medium)。非暂时性的计算机可读介质的示例包含：磁存储介质(例如，软盘、磁带、硬盘驱动器)、磁-光存储介质(例如，光磁盘)、CD-ROM(Read Only Memory，只读存储器)、CD-R、CD-R/W、半导体存储器(例如，掩膜ROM、PROM(Programmable ROM，可编程ROM)、EPROM(Erasable PROM，可擦写PROM)、闪存ROM、RAM)。另外，可以通过各种类型的暂时性计算机可读介质(Transitory computer readablemedium)将程序供给到计算机。暂时性计算机可读介质的示例包含电信号、光信号以及电磁波。暂时性计算机可读介质可以经由电线和光纤等有线通信路或无线通信路将程序供给到计算机。

此外，描述在记录介质中记录的程序的步骤，当然包含按该顺序呈时间顺序进行的处理，也包含未必呈时间顺序进行的处理、以及并行地或者个别地执行的处理。

换言之，本公开的机器学习装置、计算机装置、控制系统以及机器学习方法能够采取具有如下结构的各种实施方式。

(1)本公开的机器学习装置40，其对发行命令的个人计算机30进行机器学习，该命令用于访问能够通信地连接的数值控制装置20，机器学习装置40具有：状态数据取得部401，其监视用于访问数值控制装置20内的数据的命令，并取得状态数据，其中，数值控制装置20内的数据是在个人计算机30上动作的1个以上的应用AP1-APn分别指令的数据，状态数据至少包含：命令的发布时间表、根据发布时间表而发布的命令的受理时刻及发布时刻；行为信息输出部404，其将行为信息a输出到个人计算机30，行为信息a包含在状态数据中包含的发布时间表的修正信息；回报计算部431，其根据到命令被发布到数值控制装置20为止的每个命令的发布延迟时间Tb和发布的全部命令的平均发布间隔Ta，计算针对行为信息a的回报r；以及价值函数更新部432，其根据由回报计算部431计算出的回报r，更新与状态数据以及行为信息a相关的价值函数Q。

根据该机器学习装置40，能够防止数据通信命令被过度地发布到控制装置而成为过负荷，并且能够缩短命令的发布延迟时间。

(2)在(1)所记载的机器学习装置40中，也可以是，发布时间表的修正信息a包含：表示指令了命令的进程的优先级的进程优先级Pb、以及使命令的发布延迟的延迟系数Td。

由此，机器学习装置40能够将发布时间表调整为最佳。

(3)在(1)或(2)所记载的机器学习装置40中，也可以是，回报计算部431根据每个命令的发布延迟时间Tb和平均发布间隔Ta来计算每个命令的评价值V，并将计算出的每个命令的评价值的平均值作为回报r。

由此，机器学习装置40能够准确地计算回报。

(4)在(1)～(3)中任一项所记载的机器学习装置40中，也可以是，机器学习装置40还具有：优化行为信息输出部406，其根据由价值函数更新部432更新后的价值函数Q，输出价值函数Q的值为最大的行为信息a。

由此，机器学习装置40能够取得更为合适的发布时间表。

(5)在(1)～(4)中任一项所记载的机器学习装置40中，也可以是，数值控制装置20是工业机械的控制装置。

由此，机器学习装置40能够应用于机床、机器人等的控制装置。

(6)在(1)～(5)中任一项所记载的机器学习装置40中，也可以是，设置机器学习的最大试行次数来进行机器学习。

由此，机器学习装置40能够避免长时间进行机器学习。

(7)本公开的个人计算机30，其具有(1)～(6)中任一项所记载的机器学习装置40，通过机器学习装置40对发布时间表进行机器学习。

根据该个人计算机30，能够获得与(1)～(6)同样的效果。

(8)本公开的控制系统1，其具有：(1)～(6)中任一项所记载的机器学习装置40；以及通过机器学习装置40对发布时间表进行机器学习的计算机装置。

根据该控制系统1，能够获得与(1)～(6)同样的效果。

(9)本公开的机器学习方法，用于对发行命令的个人计算机30进行机器学习，该命令用于访问能够通信地连接的数值控制装置20，监视用于访问数值控制装置20内的数据的命令，并取得状态数据，其中，数值控制装置20内的数据是在个人计算机30上动作的1个以上的应用AP1-APn分别指令的数据，状态数据至少包含：命令的发布时间表、根据发布时间表而发布的命令的受理时刻及发布时刻，将行为信息输出到个人计算机30，行为信息包含在状态数据中包含的发布时间表的修正信息，根据到命令被发布到数值控制装置20为止的每个命令的发布延迟时间Tb和发布的全部命令的平均发布间隔Ta，计算针对行为信息的回报r，根据计算出的回报r，更新与状态数据以及行为信息相关的价值函数Q。

根据该机器学习方法，能够获得与(1)同样的效果。

符号说明

1 控制系统

10 机床

20 数值控制装置

30 个人计算机

301 中央处理部

302 数据通信接口部

303 命令处理部

304 通信处理部

305 存储部

40 机器学习装置

401 状态数据取得部

402 判定数据取得部

403 学习部

404 行为信息输出部

405 价值函数存储部

406 优化行为信息输出部。

Claims

1.一种机器学习装置，其对发行命令的计算机装置进行机器学习，该命令用于访问能够通信地连接的控制装置，其特征在于，

所述机器学习装置具有：

状态数据取得部，其监视用于访问所述控制装置内的数据的命令，并取得状态数据，其中，所述控制装置内的数据是在所述计算机装置上动作的1个以上的应用分别指令的数据，该状态数据至少包含：所述命令的发布时间表、根据所述发布时间表而发布的所述命令的受理时刻及发布时刻；

行为信息输出部，其将行为信息输出到所述计算机装置，该行为信息包含在所述状态数据中包含的所述发布时间表的修正信息；

回报计算部，其根据到所述命令被发布到所述控制装置为止的每个所述命令的延迟时间和发布的全部所述命令的平均发布间隔，计算针对所述行为信息的回报；以及

价值函数更新部，其根据由所述回报计算部计算出的回报，更新与所述状态数据以及所述行为信息相关的价值函数。

2.根据权利要求1所述的机器学习装置，其特征在于，

所述发布时间表的修正信息包含：表示指令了所述命令的进程的优先级的进程优先级、以及使所述命令的发布延迟的延迟系数。

3.根据权利要求1或2所述的机器学习装置，其特征在于，

所述回报计算部根据每个所述命令的所述延迟时间和所述平均发布间隔来计算每个所述命令的评价值，并将计算出的每个所述命令的评价值的平均值作为所述回报。

4.根据权利要求1～3中任一项所述的机器学习装置，其特征在于，

所述机器学习装置还具有：优化行为信息输出部，其根据由所述价值函数更新部更新后的所述价值函数，输出所述价值函数的值为最大的行为信息。

5.根据权利要求1～4中任一项所述的机器学习装置，其特征在于，

所述控制装置是工业机械的控制装置。

6.根据权利要求1～5中任一项所述的机器学习装置，其特征在于，

设置所述机器学习的最大试行次数来进行所述机器学习。

7.一种计算机装置，其特征在于，

该计算机装置具有权利要求1～6中任一项所述的机器学习装置，

通过所述机器学习装置对所述发布时间表进行机器学习。

8.一种控制系统，其特征在于，具有：

权利要求1～6中任一项所述的机器学习装置；以及

计算机装置，其通过所述机器学习装置对所述发布时间表进行机器学习。

9.一种机器学习方法，用于对发行命令的计算机装置进行机器学习，该命令用于访问能够通信地连接的控制装置，其特征在于，

监视用于访问所述控制装置内的数据的命令，并取得状态数据，其中，所述控制装置内的数据是在所述计算机装置上动作的1个以上的应用分别指令的数据，该状态数据至少包含：所述命令的发布时间表、根据所述发布时间表而发布的所述命令的受理时刻及发布时刻，

将行为信息输出到所述计算机装置，该行为信息包含在所述状态数据中包含的所述发布时间表的修正信息，

根据到所述命令被发布到所述控制装置为止的每个所述命令的延迟时间和发布的全部所述命令的平均发布间隔，计算针对所述行为信息的回报，

根据计算出的所述回报，更新与所述状态数据以及所述行为信息相关的价值函数。