CN109324536B

CN109324536B - 无线中继器选择装置以及机器学习装置

Info

Publication number: CN109324536B
Application number: CN201810847568.5A
Authority: CN
Inventors: 高冲英里
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2017-07-31
Filing date: 2018-07-27
Publication date: 2021-04-20
Anticipated expiration: 2038-07-27
Also published as: DE102018006044A1; CN109324536A; JP6640797B2; JP2019029856A; US20190036594A1; US10727930B2

Abstract

本发明提供一种无线中继器选择装置以及机器学习装置，无线中继器选择装置所具备的机器学习装置具备：状态观测部，其将表示多路复用通信路径的构建状况的多路复用通信路径数据、表示上述管理对象设备的多路复用无线通信的状态的多路复用无线通信状态数据作为表示环境的当前状态的状态变量而进行观测；判断数据获取部，其获取表示多路复用通信路径的构建状况的适当与否判断结果的判断数据；以及学习部，其使用状态变量和判断数据，使多路复用通信路径的构建状况与多路复用无线通信状态数据关联起来进行学习。

Description

无线中继器选择装置以及机器学习装置

技术领域

本发明涉及无线中继器选择装置以及机器学习装置。

背景技术

在对机器人、数值控制机床等的机器进行示教、操作时，有时使用能够通过无线与该机器的控制装置进行通信的无线式操作面板。例如在日本特开2007-233817号公报、日本特开2011-000652号公报中公开了以下系统：通过在示教操作面板与控制装置之间进行无线通信，根据来自示教操作面板的指令来控制机器人等的机器。

在将无线示教操作面板使用于机器人的示教操作等的情况下，根据机器人的安全标准来规定如果安全信号被中断则机器人必须停止进行保护。因此，在作业现场中使用很多无线设备(不仅是其它无线示教操作面板，作业员所携带的便携式电话、外部的无线设备等)等而处于无线拥挤的状况的情况下，无线通信被中断的可能性较高而机器人屡次停止，因此无法进行自在的示教作业。在存在很多无线设备的环境下，例如使用日本特开2015-201728号公报等所公开的技术来变更无线频道等，从而还能够进行应对，但是即使使用这种技术，也难以完全防止因示教操作面板与控制操作对象的控制装置的距离或位置关系、其它机器的配置或动作引起的影响而使无线通信中断这一情况。

作为解决这种问题的一个方法，例如图7所示，考虑以下方法：设置多个将无线信号发送至控制装置的路径，从各无线中继器冗余地发送数据(例如从多个无线通信路径发送相同数据等)而使无线通信不易中断。在图7示出的示例中，除了从无线示教操作面板直接通过无线对控制示教对象的机器人的控制装置进行通信的无线通信路径以外，将安装于无线中继器或控制非示教对象的机器人的控制装置的无线模块等选定为无线中继器，形成经由这些无线中继器连接多个无线通信路径而成的多路复用通信路径，经由该多路复用通信路径进行多路复用无线通信，由此例如即使在由示教作业员进行移动而导致一部分无线通信路径被工厂内的设置物遮挡的情况下，无线示教操作面板与控制装置之间的通信也不能够被中断。

在使用这种技术的情况下，决定将哪些无线通信路径对各无线示教操作面板分配几个，使用所分配的无线通信路径来形成多路复用通信路径。另外，在使用多路复用通信路径进行的多路复用无线通信中，监视各无线设备间的电波的发送状态，在无法进行通信的情况下或电波减弱的情况下向其它无线通信路径进行变更(所使用的无线中继器的变更、频道的变更等)。由于在作业现场存在多个无线示教操作面板，因此需要进行多路复用通信路径的形成或动态的无线通信路径的变更，以使进行多路复用无线通信的设备分别能够自在地进行通信。

然而，无线引起反射、衍射、衰减(削弱)，还包括来自其它无线设备的信号的影响在内，环境实时地发生变化，因此在对适当的无线通信路径进行分配(使用于多路复用无线通信的无线中继器、辅助的控制装置、频道的分配)时，需要一边准时掌握环境状态一边实时进行，从而成为较困难的作业。

发明内容

因此，本发明的目的在于提供一种在多个无线设备混合存在的环境下，以各无线设备能够自在地进行通信的方式能够分配使用于多路复用无线通信的无线通信路径的无线中继器选择装置以及机器学习装置。本发明的无线中继器选择装置选择使用于各管理对象设备涉及的多路复用无线通信的多个无线中继器(具备使无线中继的功能的无线设备)，通过进行强化学习的机器学习装置来进行多路复用通信路径的构建(或者变更)的机器学习，由此解决上述课题。

而且，本发明的一实施方式的无线中继器选择装置构建或者变更使用于管理对象设备之间的通信的多路复用通信路径，该无线中继器选择装置具备对上述多路复用通信路径的构建状况进行学习的机器学习装置，上述机器学习装置具备：状态观测部，其将表示上述多路复用通信路径的构建状况的多路复用通信路径数据、表示上述管理对象设备的多路复用无线通信的状态的多路复用无线通信状态数据作为表示环境的当前状态的状态变量而进行观测；判断数据获取部，其获取表示上述多路复用通信路径的构建状况的适当与否判断结果的判断数据；以及学习部，其使用上述状态变量和上述判断数据，使上述多路复用通信路径的构建状况与上述多路复用无线通信状态数据相关联起来进行学习。

本发明的另一实施方式的机器学习装置对使用于管理对象设备之间的通信的多路复用通信路径的构建状况进行学习，具备：状态观测部，其将表示上述多路复用通信路径的构建状况的多路复用通信路径数据、表示上述管理对象设备的多路复用无线通信的状态的多路复用无线通信状态数据作为表示环境的当前状态的状态变量而进行观测；判断数据获取部，其获取表示上述多路复用通信路径的构建状况的适当与否判断结果的判断数据；以及学习部，其使用上述状态变量和上述判断数据，使上述多路复用通信路径的构建状况与上述多路复用无线通信状态数据相关联起来进行学习。

根据本发明，由于能够适当地选择多个无线设备分别所使用的无线中继器，因此从无线示教操作面板向机器人的无线中继器选择装置发送的信号不会被中断，从而作业员能够进行自在的示教作业。

附图说明

通过说明与附图关联的以下的实施方式，能够更加明确本发明的上述和其它目的以及特征。在这些图中：

图1是第一实施方式的无线中继器选择装置的概要性硬件结构图。

图2是第一实施方式的无线中继器选择装置的概要性功能框图。

图3是表示无线中继器选择装置的一个方式的概要性功能框图。

图4是表示机器学习方法的一个方式的概要性流程图。

图5A是说明神经元的图。

图5B是说明神经网络的图。

图6是第二实施方式的无线中继器选择装置的概要性功能框图。

图7是表示进行多路复用通信的系统的示例的图。

具体实施方式

以下，根据附图说明本发明的实施方式。

图1是表示第一实施方式的无线中继器选择装置以及被该无线中继器选择装置控制的机床的主要部分的概要性硬件结构图。无线中继器选择装置1例如能够安装成对配置于工厂等现场的多个机器人(未图示)进行控制的控制装置(未图示)或对数值控制机床(未图示)、无线中继器、无线示教操作面板等管理对象设备进行管理的上级装置(主计算机、单元控制器等)。本实施方式的无线中继器选择装置1所具备的CPU 11为整体地控制无线中继器选择装置1的处理器。CPU 11经由总线20读取存储于ROM 12的系统和程序，根据该系统和程序来控制无线中继器选择装置1整体。在RAM 13中暂时存储有临时的计算数据、显示数据。

非易失性存储器14例如使用未图示的电池进行备份等，构成为即使无线中继器选择装置1的电源关闭也能保持存储状态的存储器。在非易失性存储器14中除了存储有经由未图示的键盘等输入设备输入的数据、经由未图示的接口输入的动作用程序以外，还存储有与管理对象设备有关的管理用数据(管理对象设备的种类、可使用的通信协议、通信地址、设置的当前位置等信息)。存储于非易失性存储器14的程序或各种数据在执行时/使用时也可以在RAM 13中展开。

另外，在ROM 12中预先写入用于对管理对象设备执行指令的各种系统和程序(包括用于控制与后述的机器学习装置100之间的交换的系统和程序)。

无线中继器选择装置1通过经由有线通信接口15或者无线通信接口16的有线/无线通信能够在与管理对象危机之间进行指令、数据的交换。如果能够在与管理对象设备之间交换指令、数据，则这些通信接口也可以使用任何通信协议。

接口21为用于将无线中继器选择装置1与机器学习装置100连接的接口。机器学习装置100具备控制机器学习装置100整体的处理器101、存储有系统和程序等的ROM 102、与机器学习有关的各处理中进行临时的存储的RAM 103以及用于存储学习模型等的非易失性存储器104。机器学习装置100能够观测无线中继器选择装置1经由接口21能够获取的各信息(管理对象设备的连接状态、当前位置等)。另外，无线中继器选择装置1接收从机器学习装置100输出的、多路复用无线通信的连接设定的指令，经由有线通信接口15或者无线通信接口16来指令构建或者变更相对于管理对象设备的多路复用通信路径。

图2是第一实施方式的无线中继器选择装置1与机器学习装置100的概要性功能框图。机器学习装置100包括用于通过所谓机器学习自己学习相对各管理对象设备的多路复用无线通信的状态的、该多路复用通信路径的构建或者变更的软件(学习算法等)和硬件(处理器101等)。无线中继器选择装置1所具备的机器学习装置100进行学习的结构相当于表示各管理对象设备的多路复用无线通信的状态与该多路复用通信路径的构建或者变更的相关性的模型结构。

如图2的功能块所示，无线中继器选择装置1所具备的机器学习装置100具备：状态观测部106，其将表示多路复用通信路径的构建状况的多路复用通信路径数据S1以及表示各管理对象设备的多路复用无线通信的状态(多路复用无线通信质量)的多路复用无线通信状态数据S2作为表示环境的当前状态的状态变量S而进行观测；判断数据获取部108，其获取判断数据D，该判断数据D包括表示多路复用通信路径的构建状况的适当与否判断结果的多路复用通信路径判断数据D1；以及学习部110，其使用状态变量S和判断数据D，使多路复用通信路径数据S1与各管理对象设备的多路复用无线通信的状态相关联起来进行学习。

状态观测部106例如能够构成为处理器101的一个功能。或者，状态观测部106例如能够构成为存储于ROM 102的用于使处理器101发挥功能的的软件。在状态观测部106观测的状态变量S中，多路复用通信路径数据S1能够作为无线通信路径对各无线示教操作面板的分配(使用于多路复用无线通信的无线中继器、控制装置的无线模块、无线通信频道相对于各无线示教操作面板的分配)而进行获取。

在学习初期阶段，多路复用通信路径数据S1能够使用例如由熟练构建多路复用无线通信的作业员报告而附加到无线中继器选择装置1的多路复用通信路径的构建状况。另外，在学习到一定程度的阶段，多路复用通信路径数据S1能够使用机器学习装置100根据学习部110的学习结果在前一学习周期中决定的多路复用通信路径的构建状况，在这种情况下，机器学习装置100将所决定的多路复用通信路径的构建状况按每个学习周期暂时存储到RAM 103，状态观测部106也可以从RAM 103获取机器学习装置100在前一学习周期中决定的多路复用通信路径的构建状况。

状态变量S中、多路复用无线通信状态数据S2例如能够使用无线中继器选择装置1从各管理对象设备获取的无线通信的电波强度或无线通信成功率(如发送数据成功次数相对于发送数据的次数的比例、数据仅在预定的规定期间未到达的比例等，根据通信协议决定的通信成功率)等。无线中继器选择装置1对管理对象设备请求与无线通信的状态有关的信息，作为来自与此对应的管理对象设备的响应而能够获取无线通信的电波强度、无线通信成功率等数据。状态观测部106也可以将获取到各管理对象设备的无线通信的电波强度、无线通信成功率等数据保持原样用作多路复用无线通信状态数据S2，还可以将使用规定的式子通过各管理对象设备的无线通信的电波强度、无线通信成功率等数据计算出并标准化的表示无线通信的状态(无线通信的质量)的值用作多路复用无线通信状态数据S2。

判断数据获取部108例如能够构成为处理器101的一个功能。或者，判断数据获取部108例如能够构成为存储于ROM 102的用于使处理器101发挥功能的软件。判断数据获取部108作为判断数据D能够使用多路复用通信路径的构建状况的适当与否判断值即多路复用通信路径判断数据D1。判断数据获取部108能够从状态观测部106观测多路复用无线通信状态数据S2时得到的从各管理对象设备获取的无线通信的电波强度、无线通信成功率等求出。判断数据D为表示根据状态变量S使用各无线示教操作面板进行基于多路复用无线通信的示教作业的情况下的结果的指标。

对学习部110同时输入的状态变量S在根据学习部110的学习周期来考虑的情况下，基于获取到判断数据D的一个学习周期前的数据而成。这样，在无线中继器选择装置1所具备的机器学习装置100进行学习的期间，在环境下，反复实施多路复用无线通信状态数据S2的获取、在根据多路复用通信路径数据S1构建或者变更的多路复用通信路径下使用无线示教操作面板的示教作业的执行、判断数据D的获取。

学习部110例如能够构成为处理器101的一个功能。或者，学习部110例如能够构成为存储于ROM 102的用于使处理器101发挥功能的软件。学习部110学习对于各管理对象设备的多路复用无线通信的状态的、多路复用通信路径数据S1。学习部110能够反复执行基于包括上述状态变量S和判断数据D的数据集合的学习。在对于各管理对象设备的多路复用无线通信的状态的、多路复用通信路径数据S1的学习循环的反复中，在状态变量S中、多路复用无线通信状态数据S2从如上所述前一学习周期获取到的多路复用无线通信的状态中获取，将多路复用通信路径数据S1设为根据上一次的学习结果得到的多路复用通信路径的构建状况，另外，将判断数据D设为根据多路复用通信路径数据S1构建或者变更多路复用无线通信路径的状态下的本次的学习周期中对各管理对象设备当前的多路复用无线通信的状态的适当与否判断结果。

通过反复进行这种学习循环，学习部110能够自动地识别用于暗示各管理对象设备的多路复用无线通信的状态(多路复用无线通信状态数据S2)和针对该状态的多路复用通信路径的构建状况的相关性的特征。在学习算法开始时，多路复用无线通信状态数据S2与多路复用通信路径的构建状况的相关性实质上是未知的，但是，学习部110随着进行学习而逐渐识别特征从而解释相关性。当多路复用无线通信状态数据S2与多路复用通信路径的构建状况的相关性被解释到一定程度可信赖的水准时，学习部110反复输出的学习结果能够使用于进行对当前状态(即各管理对象设备当前的多路复用无线通信的状态)应该如何进行(应该如何构建或者如何变更)多路复用通信路径的构建状况这种行动的选择(即决策)。即，学习部110随着学习算法的进行，能够使各管理对象设备的当前的多路复用无线通信的状态与针对该状态应该如何进行(应该如何构建或者如何变更)多路复用通信路径的构建状况这种行动的相关性逐渐接近最佳解。

如上所述，无线中继器选择装置1所具备的机器学习装置100使用由状态观测部106观测的状态变量S和判断数据获取部108获取的判断数据D，学习部110随着机器学习算法，对多路复用通信路径的构建状况(多路复用通信路径的构建或者变更)进行学习。状态变量S由多路复用通信路径数据S1、多路复用无线通信状态数据S2这种不会受到干扰的影响的数据构成，另外，通过经由无线中继器选择装置1获取各管理对象设备当前的多路复用无线通信的状态，唯一地求出判断数据D。因而，根据无线中继器选择装置1所具备的机器学习装置100，通过使用学习部110的学习结果，能够不基于运算、估计而自动地且正确地求出与各管理对象设备的多路复用无线通信的状态相应的、多路复用通信路径的构建状况。

而且，如果能够不基于运算、估计而自动地求出多路复用通信路径的构建状况，则仅掌握各管理对象设备当前的多路复用无线通信的状态(多路复用无线通信状态数据S2)，就能够迅速地决定多路复用通信路径的构建状况的适当的值。

因而，能够高效地进行与状态相应的多路复用通信路径的构建或者变更。

作为无线中继器选择装置1所具备的机器学习装置100的一个变形例，状态观测部106能够使用表示各管理对象设备的位置的位置信息数据S3作为状态变量S。关于各管理对象设备的位置，可以将固定地设置的管理对象设备(机器人的控制装置、数值控制机床、无线中继器等)的位置设定为预先存储于无线中继器选择装置1的非易失性存储器14的与管理对象设备有关的管理用数据，另外，还可以根据通过其它管理对象设备所具备的无线模块检测出该管理对象设备的无线电波的强度的结果来计算出可移动的管理对象设备(无线示教操作面板等)的位置。

根据上述变形例，机器学习装置100能够对各管理对象设备的多路复用无线通信的状态和各管理对象设备的位置两者进行多路复用通信路径的构建状况的学习，例如在使用无线示教操作面板的作业员在现场进行移动的情况下，还能够考虑其移动位置来指令最佳的多路复用通信路径的构建或者变更。

作为无线中继器选择装置1所具备的机器学习装置100的其它变形例，能够使用表示从无线示教操作面板至通信目的地的控制装置为止的通信数据的时间延迟程度的通信延迟数据S4作为由状态观测部106观测的状态变量S。

根据上述变形例，机器学习装置100能够对各管理对象设备的多路复用无线通信的状态和从无线示教装置至通信目的地的控制装置为止的通信数据的时间延迟程度两者进行多路复用通信路径的构建状况的学习。

作为无线中继器选择装置1所具备的机器学习装置100的其它变形例，作为由判断数据获取部108获取的判断数据D，除了使用多路复用通信路径的构建状况的适当与否判断值即多路复用通信路径判断数据D1以外，还能够使用表示从无线示教操作面板至通信目的地的控制装置为止的通信数据的时间延迟程度的通信延迟判断数据D2。

根据上述变形例，机器学习装置100在对各管理对象设备的多路复用无线通信的状态进行多路复用通信路径的构建状况的学习时，还能够考虑无线示教操作面板与通信目的地的控制装置之间的通信数据的时间延迟。

在具有上述结构的机器学习装置100中，由学习部110执行的学习算法并不特别进行限定，作为机器学习能够采用公知的学习算法。图3是图1示出的无线中继器选择装置1的一个方式，作为学习算法的一例示出具备执行强化学习的学习部110的结构。强化学习是以下方法：观测学习对象所存在的环境的当前状态(即输入)并且在当前状态下执行规定的行动(即输出)，以试错的方式反复进行对该行动提供一些回报这种循环，将回报总计被最大化的决策(在本申请的机器学习装置中多路复用通信路径的构建状况的决定)作为最佳解而进行学习。

在图3示出的无线中继器选择装置1所具备的机器学习装置100中，学习部110具备：回报计算部112，其求出与根据状态变量S决定的多路复用通信路径的构建状况的适当与否判断结果(相当于在获取状态变量S的下一学习周期中使用的判断数据D)相关联的回报R；以及价值函数更新部114，其使用回报R，更新表示多路复用通信路径的构建状况的价值的函数Q。价值函数更新部114反复更新函数Q，由此学习部110对各管理对象设备的多路复用无线通信的状态进行多路复用通信路径的构建状况的学习。

说明学习部110执行的强化学习的算法的一例。本例的算法是作为Q学习(Q-learning)而公知的算法，将行动主体的状态s以及在该状态s下行动主体能够选择的行动a作为独立变量，对表示在状态s下选择行动a的情况时的行动的价值的函数Q(s、a)进行学习。选择在状态s下价值函数Q变得最高的行动a这一情况为最佳解。在状态s与行动a的相关性为未知的状态下开始进行Q学习，反复进行在任意的状态s下选择各种行动a的试错，由此反复更新价值函数Q而接近最佳解。在此，构成为：作为在状态s下选择行动a的结果而环境(即状态s)发生变化时，得到与该变化相应的回报(即行动a的权重)r，以选择得到更高回报r的行动a的方式引导学习，由此能够使价值函数Q在较短时间内接近最佳解。

价值函数Q的更新式通常能够以以下式1的方式进行表示。在式1中，s_t和a_t分别为时刻t的状态和行动，状态通过行动a_t而变化为s_t+1。r_t+1为状态从s_t变化为s_t+1而得到的回报。maxQ的项意味着在时刻t+1进行成为最大的价值Q(在时刻t中考虑的)行动a时的Q。α以及γ分别为学习系数和折扣率，通过0<α≤1、0<γ≤1进行任意设定。

[式1]

在学习部110执行Q学习的情况下，状态观测部106观测的状态变量S以及判断数据获取部108获取的判断数据D对应于更新式的状态s，对当前状态(即，各管理对象设备当前的多路复用无线通信的状态)应该如何进行(应该如何构建或者应该如何变更)多路复用通信路径的构建状况这种行动对应于更新式的行动a，回报计算部112求出的回报R对应于更新式的回报r。于是，价值函数更新部114通过使用回报R的Q学习来反复更新表示对当前状态的多路复用通信路径的构建状况的价值的函数Q。

关于回报计算部112求出的回报R，例如在决定多路复用通信路径的构建状况之后，根据所决定的内容实际地构建或者变更多路复用通信路径，在该状态下使用无线示教操作面板进行示教作业时，在多路复用通信路径的构建状况的适当与否判断结果被判断为“适当”的情况下(例如在无线通信成功率提高至所提高的预定的阈值以上的情况下，在无线示教操作面板与通信目的地的控制装置之间的通信数据的时间延迟在预定的规定允许值内的情况下等)设为正(plus)的回报R，在决定多路复用通信路径的构建状况之后，根据所决定的内容实际地构建或者变更多路复用通信路径，在该状态下使用无线示教操作面板进行示教作业时，在多路复用通信路径的构建状况的适当与否判断结果被判断为“否”的情况下(例如在无线通信成功率下降至所提高的预定的阈值以下的情况下，在无线示教操作面板与通信目的地的控制装置之间的通信数据的时间延迟超过预定的规定阈值的情况下等)设为负(minus)的回报R。正负的回报R的绝对值即可以相互相同也可以相互不同。另外，作为判断条件，也可以将判断数据D内包含的多个值进行组合从而进行判断。

另外，多路复用通信路径的构建状况的适当与否判断结果不仅能够设定为“适当”与“否”这两种，还能够设定为多个阶段。作为示例能够构成为：在通信数据的时间延迟为允许值的最大值DR_max的情况下，在无线示教操作面板与通信目的地的控制装置之间的通信数据的时间延迟的值DR为0≤DR<DR_max/5时提供回报R＝5，在DR_max/5≤DR<DR_max/2时提供回报DR＝2，在DR_max/2≤DR≤DR_max时提供回报R＝1。并且，还能够构成为：在学习的初始阶段将DR_max较大地设定，随着进行学习将DR_max缩小。

价值函数更新部114能够具有将状态变量S、判断数据D、回报R与用函数Q表示的行动价值(例如数值)相关联起来进行整理的行动价值表。在该情况下，价值函数更新部114更新函数Q的这种行为与价值函数更新部114更新行动价值表的行为意义相同。在开始进行Q学习时，环境的当前状态与多路复用通信路径的构建状况的相关性是未知的，因此在行动价值表中，以与随机决定的行动价值的值(函数Q)相关联的方式准备各种状态变量S、判断数据D、回报R。此外，如果回报计算部112得知判断数据D，则能够立即计算出与此对应的回报R，计算出的值R被写入到行动价值表中。

当使用与多路复用通信路径的构建状况的适当与否判断相应的回报R进行Q学习时，使学习被引导向选择得到更高回报R的行动的方向，根据在当前状态下执行所选择的行动的结果而变化的环境的状态(即状态变量S和判断数据D)，与在当前状态下进行的行动有关的行动价值的值(函数Q)被重写而更新行动价值表。通过反复进行该更新，显示在行动价值表中的行动价值的值(函数Q)被重写为越是适当的行动则成为越大的值。这样，未知的环境的当前状态(各管理对象设备当前的多路复用无线通信的状态)以及与此对应的行动(多路复用通信路径的构建或者变更)的相关性逐渐变得清楚。即，通过更新行动价值表，各管理对象设备当前的多路复用无线通信的状态与多路复用通信路径的构建状况的关系逐渐接近最佳解。

参照图4进一步说明由学习部110执行的上述Q学习的流程(即机器学习方法的一个方式)。首先，在步骤SA01中，价值函数更新部114一边参照该时间点的行动价值表，一边随机地选择多路复用通信路径的构建状况(多路复用通信路径的构建或者变更)作为在由状态观测部106观测的状态变量S所示的当前状态下进行的行动。接着，价值函数更新部114在步骤SA02中取入由状态观测部106观测的当前状态的状态变量S，在步骤SA03中，取入由判断数据获取部108获取的当前状态的判断数据D。接着，价值函数更新部114在步骤SA04中根据判断数据D来判断多路复用通信路径的构建状况是否适当，在适当的情况下，在步骤SA05中，将回报计算部112求出的正的回报R应用于函数Q的更新式，接着，在步骤SA06中，使用当前状态下的状态变量S及判断数据D、回报R、行动价值的值(更新后的函数Q)更新行动价值表。在步骤SA04中判断为多路复用通信路径的构建状况并不适当的情况下，在步骤SA07中，将由回报计算部112求出的负的回报R应用于函数Q的更新式，接着在步骤SA06中，使用当前状态下的状态变量S和判断数据D、回报R、行动价值的值(更新后的函数Q)来更新行动价值表。学习部110通过反复进行步骤SA01～SA07而反复更新行动价值表，推进多路复用通信路径的构建状况的学习。此外，从步骤SA04至步骤SA07为止的求出回报R的处理和价值函数的更新处理针对判断数据D内包含的各数据进行执行。

在进行上述强化学习时，例如代替Q学习而能够使用神经网络。图5A示意性地示出神经元的模型。图5B示意性地示出将图5A示出的神经元组合构成的三层神经网络的模型。神经网络例如能够由模拟神经元的模型的运算装置、存储装置等构成。

图5A示出的神经元输出与多个输入x(在此，作为一例，输入x₁～输入x₃)相对的结果y。将在各输入x₁～x₃中乘以与该输入x对应的权重w(w₁～w₃)。由此，神经元输出通过以下式2表现的输出y。此外，在式2中，输入x、输出y和权重w均为矢量。另外，θ为偏差，f_k为激活函数。

[式2]

图5B示出的三层神经网络从左侧被输入多个输入x(在此，作为一例，输入x1～输入x3)，从右侧输出结果y(在此，作为一例，结果y1～结果y3)。在图示的示例中，将输入x1、x2、x3分别乘以对应的权重(统称为w1)，各输入x1、x2、x3均被输入到三个神经元N11、N12、N13。

在图5B中，将神经元N11～N13的各输出统称为z1。z1能够视为提取出输入矢量的特征量的特征矢量。在图示的示例中，将特征矢量z1分别乘以对应的权重(统称为w2)，各特征矢量z1均被输入到两个神经元N21、N22。特征矢量z1表示权重W1与权重W2之间的特征。

在图5B中，将神经元N21～N22的各输出统称为z2。z2能够视为提取出特征矢量z1的特征量的特征矢量。在图示的示例中，将特征矢量z2分别乘以对应的权重(统称为w3)，各特征矢量z2均被输入到三个神经元N31、N32、N33。特征矢量z2表示权重W2与权重W3之间的特征。最后，神经元N31～N33分别输出结果y1～y3。

此外，还能够使用形成三层以上的层的神经网络的、所谓深度学习的方法。

在无线中继器选择装置1所具备的机器学习装置100中，将状态变量S和判断数据D作为输入x，学习部110进行遵循上述神经网络多层结构的运算，由此能够输出多路复用通信路径的构建状况(结果y)。另外，在无线中继器选择装置1所具备的机器学习装置100中，将神经网络用作强化学习中的价值函数，将状态变量S和行动a作为输入x，学习部110按着上述神经网络进行多层结构的运算，由此还能够输出该状态下的该行动的价值(结果y)。此外，神经网络的动作模式存在学习模式和价值预测模式，例如在学习模式下使用学习数据组来学习权重w，使用学习的权重w在价值预测模式下能够进行行动的价值判断。此外，在价值预测模式下，还能够进行检测、分类、推论等。

上述无线中继器选择装置1的结构能够记述为由处理器101执行的机器学习方法(或者软件)。该机器学习方法学习多路复用通信路径的构建状况，计算机的CPU执行以下步骤：将多路复用通信路径数据S1、多路复用无线通信状态数据S2作为表示进行多路复用无线通信的环境的当前状态的状态变量S而进行观测；获取表示所决定的多路复用通信路径的构建状况的适当与否判断的判断数据D；以及使用状态变量S和判断数据D，使多路复用无线通信状态数据S2与多路复用通信路径的构建状况关联起来进行学习。

图6示出第二实施方式的无线中继器选择装置2。无线中继器选择装置2具备机器学习装置120和状态数据获取部3，该状态数据获取部3获取由状态观测部106观测的状态变量S的多路复用通信路径数据S1、多路复用无线通信状态数据S2作为状态数据S0。状态数据获取部3能够从存储于无线中继器选择装置2的存储器上的各数据、经由有线通信接口15、无线通信接口16等从各管理对象设备获取的数据、作业员进行适当的数据输入等中获取状态数据S0。

无线中继器选择装置2所具有的机器学习装置120除了包括通过机器学习用于自己学习多路复用通信路径的构建状况的软件(学习算法等)和硬件(处理器101等)以外，还包括将根据学习结果而求出的多路复用通信路径的构建状况作为输出到无线中继器选择装置2的指令的软件(运算算法等)和硬件(处理器101等)。无线中继器选择装置2所包括的机器学习装置120还能够具有一个通用处理器执行学习算法、运算算法等所有软件的结构。

决策部122例如能够构成为处理器101的一个功能。或者，决策部122例如能够构成为存储于ROM 102的用于使处理器101发挥功能的软件。决策部122根据由学习部110学习的结果，生成指令值C，作为所生成的指令值C而输出，其中，该指令值C包括决定对各管理对象设备当前的多路复用无线通信的状态构建或者变更多路复用通信路径的指令。指令值C既可以是指令用于将各无线示教操作面板用作多路复用通信路径的无线通信路径的无线中继器(无线中继器以及用作无线中继器的控制装置等所具备的无线通信模块)的值，也可以是表示当前构建的多路复用通信路径与新构建的多路复用通信路径的差分的值。在决策部122将指令值C输出到无线中继器选择装置2的情况下，无线中继器选择装置2根据该指令对各管理对象设备指示多路复用无线通信中使用的无线中继器，或者对无线中继器(以及用作无线中继器的控制装置等)进行指令，以使对来自使用该无线中继器的管理对象设备的连接进行许可以及根据需要禁止来自使用该无线中继器的管理对象设备以外的连接。与此相应地，环境的状态发生变化。

状态观测部106在下一学习周期中观测决策部122向环境输出指令值C之后发生变化的状态变量S。学习部110使用变化后的状态变量S，例如更新价值函数Q(即行动价值表)，由此学习多路复用通信路径的构建状况。此外，此时，状态观测部106并不从状态数据获取部3获取的状态数据S0中获取多路复用通信路径数据S1，如第一实施方式所说明那样也可以从机器学习装置120的RAM 103观测。

决策部122将指令根据学习结果求出的多路复用通信路径的构建状况(多路复用通信路径的构建或者变更)的指令值C输出到无线中继器选择装置2。通过反复进行该学习周期，机器学习装置120进行多路复用通信路径的构建状况的学习，逐渐提高自己决定的多路复用通信路径的构建状况的可靠性。

具有上述结构的无线中继器选择装置2所具备的机器学习装置120起到与上述机器学习装置100相等的效果。特别是，机器学习装置120能够通过决策部122的输出来改变环境的状态。另外，在机器学习装置100中，能够向外部装置请求相当于用于使学习部110的学习结果反映于环境的决策部的功能。

以上，说明了本发明的实施方式，但是本发明并不仅限于上述实施方式的示例，通过施加适当的变更能够以各种方式实施。

例如，由机器学习装置100、120执行的学习算法、由机器学习装置120执行的运算算法、由无线中继器选择装置1、2执行的控制算法等并不限定于上述算法，能够采用各种算法。

另外，在上述实施方式中，说明了无线中继器选择装置1(或者2)和机器学习装置100(或者120)为具有不同的CPU的装置，但是机器学习装置100(或者120)也可以通过无线中继器选择装置1(或者2)所具备的CPU 11以及存储于ROM 12的系统和程序来实现。

并且，在上述实施方式中，示出了机器学习装置100(或者120)被内置于无线中继器选择装置1(或者2)的实施例，但是能够具有机器学习装置120(或者100)存在于经由有线至无线通信网络能够与无线中继器选择装置1(或者2)进行通信的云服务器等的结构。

以上，说明了本发明的实施方式，但是本发明并不限定于上述实施方式的示例，通过施加适当的变更，能够以其它方式实施。

Claims

1.一种无线中继器选择装置，构建或者变更使用于管理对象设备之间的通信的多路复用通信路径，其特征在于，

上述无线中继器选择装置具备对上述多路复用通信路径的构建状况进行学习的机器学习装置，

上述机器学习装置具备：

状态观测部，其将表示上述多路复用通信路径的构建状况的多路复用通信路径数据、表示上述管理对象设备的多路复用无线通信的状态的多路复用无线通信状态数据作为表示环境的当前状态的状态变量而进行观测，上述多路复用通信路径数据包含用于上述多路复用无线通信的无线通信路径的分配，上述多路复用无线通信状态数据包含从各个上述管理对象设备获取的无线通信的无线通信成功率；

判断数据获取部，其获取表示上述多路复用通信路径的构建状况的适当与否判断结果的判断数据，上述判断数据包含在获取上述多路复用无线通信状态数据的环境中根据上述多路复用通信路径数据构建或者变更了多路复用通信路径时的该多路复用无线通信的状态所对应的适当与否判断结果；以及

学习部，其使用上述状态变量和上述判断数据，对各个上述管理对象设备的多路复用无线通信的状态关联与该状态对应的多路复用通信路径的构建或变更的适当与否来进行学习。

2.根据权利要求1所述的无线中继器选择装置，其特征在于，

上述状态变量中包括表示上述管理对象设备的位置的位置信息数据，

上述学习部使上述多路复用通信路径的构建状况与上述多路复用无线通信状态数据以及位置信息数据相关联起来进行学习。

3.根据权利要求1或者2所述的无线中继器选择装置，其特征在于，

上述判断数据中除了包括上述多路复用通信路径的构建状况的适当与否判断结果以外，还包括上述管理对象设备之间的通信数据的时间延迟的适当与否判断结果。

4.根据权利要求1所述的无线中继器选择装置，其特征在于，

上述学习部具备：

回报计算部，其求出与上述适当与否判断结果相关联的回报；以及

价值函数更新部，其使用上述回报，更新表示上述多路复用通信路径的构建状况相对于上述各管理对象设备的多路复用无线通信的状态的价值的函数。

5.根据权利要求1或者2所述的无线中继器选择装置，其特征在于，

上述学习部通过多层结构来运算上述状态变量和上述判断数据。

6.根据权利要求1或者2所述的无线中继器选择装置，其特征在于，

上述无线中继器选择装置还具备决策部，该决策部根据上述学习部的学习结果，输出基于上述多路复用通信路径的构建状况的指令值。

7.根据权利要求1或者2所述的无线中继器选择装置，其特征在于，

上述机器学习装置存在于云服务器中。

8.一种机器学习装置，其对使用于管理对象设备之间的通信的多路复用通信路径的构建状况进行学习，其特征在于，

上述机器学习装置具备：