CN112286050B

CN112286050B - 机器学习装置、机器学习方法以及机器学习程序

Info

Publication number: CN112286050B
Application number: CN202010685334.2A
Authority: CN
Inventors: 桐山知宏; 斋藤浩一; 菅井骏; 小轮濑一彦; 柏仓直史
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-07-22
Filing date: 2020-07-16
Publication date: 2023-05-30
Anticipated expiration: 2040-07-16
Also published as: JP2021018644A; CN112286050A; US20210029255A1; US12010280B2

Abstract

本发明涉及机器学习装置、机器学习方法以及记录介质。本发明生成用于适当地输送输送物的驱动源的控制信息。在学习沿着输送路径连续地输送至少2个输送物的输送装置中的驱动源的行动的机器学习装置中，基于设置于输送路径的检测部的检测结果，获取至少2个输送物在输送路径上的位置信息，并基于获取到的位置信息，根据预先决定出的规则来计算报酬，并基于获取到的位置信息和计算出的报酬计算强化学习的行动价值，来学习行动，并生成用于使驱动源进行基于学习结果确定出的行动的控制信息并输出。

Description

机器学习装置、机器学习方法以及机器学习程序

技术领域

本发明涉及学习对多个移动物的输送进行控制的输送装置中的驱动源的行动的机器学习装置、机器学习方法以及机器学习程序，特别是，涉及学习对多张纸张的输送进行控制的图像形成装置中的驱动源的行动的机器学习装置、机器学习方法以及机器学习程序。

背景技术

MFP(Multi-Functional Peripherals：多功能外设)等图像形成装置根据使用的用户而机器的使用环境、使用状况不同，且机器状态发生变化，因而由输送中的纸张的弯曲、拉动等引起的卡纸的发生难易度发生变化。在发生卡纸的情况下，机器停止并需要维护，且直到维护的时间都是停机时间，因此需要与机器状态相应的最佳的控制。

然而，使用环境、使用状况的组合是巨大的，为了设计假定所有的使用环境、使用状况的控制而需要大量的开发工时。因此，以往，进行控制设计以在最恶劣的条件、代表性的条件下也不发生卡纸，但在该方法中，有在未假定的条件下不会成为最佳的控制的情况，而得不到顾客满足度。

针对这样的问题，提出了利用机器学习求出装置的控制条件的方法。例如，在下述专利文献1中，公开了一种学习与电动机控制中的电流增益参数的调整相关联的条件的机器学习装置，该机器学习装置具备：状态观测部，获取电流控制回路的积分增益函数以及比例增益函数，并且获取实际电流，并观测由上述实际电流相对于步进状的转矩指令的过冲量、下冲量、以及上升时间中的至少一个、上述积分增益函数、以及上述比例增益函数构成的状态变量；以及学习部，根据由上述状态变量构成的训练数据集，学习与上述电流增益参数的调整相关联的条件。

专利文献1：日本特开2017－034844号公报

然而，在图像形成装置的情况下，除了温度、湿度等环境条件以外，纸张的输送状态还根据各部件的寿命、滑移率、纸张类型、基重、尺寸、打印模式、打印率等打印条件而发生变化，且卡纸的发生难易度根据实际的纸张的输送状态而发生变化。因此，即使利用专利文献1的技术，也无法求出以不发生卡纸的方式输送纸张的控制条件。

发明内容

本发明是鉴于上述问题点而完成的，其主要的目的在于提供一种能够生成用于适当地输送输送物的驱动源的控制信息的机器学习装置、机器学习方法以及机器学习程序。

本发明的一个侧面为学习沿着输送路径连续地输送至少2个输送物的输送装置中的驱动源的行动的机器学习装置，其特征在于，具备：状态信息获取部，基于设置于上述输送路径的检测部的检测结果，来获取上述至少2个输送物在上述输送路径上的位置信息；报酬计算部，基于上述获取到的位置信息，根据预先决定的规则来计算报酬；学习部，通过基于上述获取到的位置信息和上述计算出的报酬计算强化学习的行动价值，来学习行动；以及控制信息输出部，生成并输出用于使上述驱动源进行基于学习结果确定出的行动的控制信息。

本发明的一个侧面为学习沿着输送路径连续地输送至少2个输送物的输送装置中的驱动源的行动的机器学习装置中的机器学习方法，其特征在于，该机器学习方法执行：基于设置于上述输送路径的检测部的检测结果，来获取上述至少2个输送物在上述输送路径上的位置信息的状态信息获取处理；基于上述获取到的位置信息，根据预先决定的规则来计算报酬的报酬计算处理；通过基于上述获取到的位置信息和上述计算出的报酬计算强化学习的行动价值，来学习行动的学习处理；以及生成并输出用于使上述驱动源进行基于学习结果确定出的行动的控制信息的控制信息输出处理。

本发明的一个侧面为存储有在学习沿着输送路径连续地输送至少2个输送物的输送装置中的驱动源的行动的机器学习装置中动作的机器学习程序的计算机可读取的记录介质，其特征在于，该机器学习程序使上述机器学习装置的控制部执行：状态信息获取处理，基于设置于上述输送路径的检测部的检测结果，来获取上述至少2个输送物在上述输送路径上的位置信息；报酬计算处理，基于上述获取到的位置信息，根据预先决定的规则来计算报酬；学习处理，通过基于上述获取到的位置信息和上述计算出的报酬计算强化学习的行动价值，来学习行动；以及控制信息输出处理，生成用于使上述驱动源进行基于学习结果确定出的行动的控制信息并输出。

根据本发明的机器学习装置、机器学习方法以及机器学习程序，能够生成用于适当地输送输送物的驱动源的控制信息。

其理由是因为：在学习沿着输送路径连续地输送至少2个输送物的输送装置中的驱动源的行动的机器学习装置中，基于设置于输送路径的检测部的检测结果，获取至少2个输送物在输送路径上的位置信息，并基于获取到的位置信息，根据预先决定出的规则来计算报酬，并基于获取到的位置信息和计算出的报酬，计算强化学习的行动价值，来学习行动，并生成用于使驱动源进行基于学习结果确定出的行动的控制信息并输出。

附图说明

图1是表示本发明的一个实施例的控制系统的结构的示意图。

图2是表示本发明的一个实施例的控制系统的其它结构的示意图。

图3是表示本发明的一个实施例的机器学习装置的结构的框图。

图4是表示本发明的一个实施例的图像形成装置的结构的框图。

图5是对本发明的一个实施例的图像形成装置的纸张输送路径上的传感器以及驱动源进行说明的示意图。

图6是对本发明的一个实施例的图像形成装置的纸张输送路径上的输入输出参数进行说明的示意图。

图7是表示本发明的一个实施例的图像形成装置的纸张输送路径上的状态与动作的关系的表。

图8是对本发明的一个实施例的控制系统的示意动作进行说明的框图。

图9是对本发明的一个实施例的图像形成装置的纸张输送路径上的传感器以及驱动源的其它结构进行说明的示意图。

图10是表示本发明的一个实施例的机器学习装置的动作的流程图。

图11是表示本发明的一个实施例的机器学习装置的动作(基于间距的报酬计算处理)的流程图。

图12是表示本发明的一个实施例的机器学习装置的动作(目标间距条件设定处理)的流程图。

图13是表示本发明的一个实施例的机器学习装置的动作(基于动作时间的报酬计算处理)的流程图。

图14是表示本发明的一个实施例的机器学习装置的动作(目标移动完成条件设定处理)的流程图。

附图标记说明：10…控制系统；20…机器学习装置；21…控制部；21a…状态信息获取部；21b…报酬计算部；21c…学习部；21d…控制信息输出部；22…CPU；23…ROM；24…RAM；25…存储部；26…网络I/F部；27…显示部；28…操作部；30…图像形成装置；31…控制部；31a…输送控制部；31b…状态通知部；31c…更新处理部；32…CPU；33…ROM；34…RAM；35…存储部；36…网络I/F部；37…显示操作部；38…图像处理部；39…图像读取部；40…打印处理部；41…纸张输送路径；42…传感器；43…主马达；43a…供纸离合器；43b…定时离合器；44…定影马达；45…排纸马达；45a…排纸离合器。

具体实施方式

如在背景技术中所示的那样，MFP等图像形成装置根据使用的用户而机器的使用环境、使用状况不同，且机器状态发生变化，因此由输送中的纸张的弯曲、拉动等引起的卡纸的发生难易度发生变化。根据这样的背景，需要与机器状态相应的最佳的控制，但使用环境、使用状况的组合是庞大的，为了设计假定所有的使用环境、使用状况的控制需要大量的开发工时。因此，以往，进行控制设计以在最恶劣的条件、代表性的条件下也不会发生卡纸，但在该方法中，有在未假定的条件下不会成为最佳的控制的情况。

因此，在本发明的一个实施方式中，通过利用AI(artificial intelligence：人工智能)的机器学习(特别是强化学习)，并基于根据用户的使用环境、使用状况(湿度、温度、寿命、滑移率、纸张类型、基重、尺寸、打印模式、打印率等)而变动的输送物的实际的状态来学习驱动源的行动，来实现驱动源的最佳的控制。

具体而言，在学习沿着输送路径连续地输送至少2个输送物的输送装置中的驱动源的行动的机器学习装置中，基于设置于输送路径的检测部的检测结果，获取至少2个输送物在输送路径上的位置信息，并基于获取到的位置信息，根据预先决定出的规则来计算报酬，并基于获取到的位置信息和计算出的报酬，计算强化学习的行动价值，来学习行动，并生成用于使驱动源进行基于学习结果确定出的行动的控制信息并输出。

例如，在包含机器学习装置和图像形成装置的系统中，在机器学习装置中，若开始纸张的输送，则获取纸张的位置信息，并基于预先设定的规则来计算报酬，并基于位置信息和报酬，计算强化学习的行动价值来学习行动，并生成用于使驱动源进行基于学习结果确定出的行动的控制信息并输出。在图像形成装置中，获取该控制信息，并通过每次或者集中更新固件来控制驱动源。

像这样，通过将强化学习应用于纸张等输送物的输送控制，并对作为目的的行动给予适当的报酬来计算行动价值，能够对各种状态进行学习，因此能够自动地构建适合用户的使用环境、使用状况的输送物的输送控制，并能够减少不必要的停机时间。

为了对上述的本发明的一个实施方式更为详细地进行说明，参照图1至图14对本发明的一个实施例的机器学习装置、机器学习方法以及机器学习程序进行说明。图1以及图2是表示本实施例的控制系统的结构的示意图，图3以及图4分别是表示本实施例的机器学习装置、图像形成装置的结构的框图。另外，图5以及图9是对本实施例的图像形成装置的纸张输送路径上的传感器以及驱动源进行说明的示意图，图6是对纸张输送路径上的输入输出参数进行说明的示意图，图7是表示纸张输送路径上的状态与动作的关系的表。另外，图8是对本实施例的控制系统的示意动作进行说明的框图，图10至图14是表示本实施例的机器学习装置的动作的流程图。

如图1所示，本实施例的控制系统10由机器学习装置20、和沿着输送路径连续地输送至少2个输送物的输送装置(在本实施例中，为图像形成装置30。)等构成，它们经由根据以太网(注册商标)、令牌网、FDDI(Fiber-Distributed Data Interface：光纤分布式数据接口)等的标准定义的LAN(Local Area Network：局域网)、WAN(Wide Area Network：广域网)等通信网络来连接。此外，如图2所示，机器学习装置20也可以为包含于图像形成装置30(图像形成装置30的控制部作为机器学习装置发挥作用)的结构。以下，以图1的系统结构为前提，对各装置详细内容进行说明。

[机器学习装置]

机器学习装置20是提供云服务的计算机装置，学习图像形成装置30的驱动源的控制条件。如图3(a)所示，该机器学习装置20由控制部21、存储部25、网络I/F部26、显示部27、操作部28等构成。

控制部21由CPU(Central Processing Unit：中央处理器)22、ROM(Read OnlyMemory：只读存储器)23、RAM(Random Access Memory：随机存储器)24等存储器构成，CPU22通过将ROM23、存储部25中存储的控制程序在RAM24展开并执行，来控制机器学习装置20整体的动作。如图3的(b)所示，上述控制部21作为状态信息获取部21a、报酬计算部21b、学习部21c、控制信息输出部21d等发挥作用。

状态信息获取部21a基于设置于输送路径的检测部(传感器)的检测结果，来获取至少2个输送物在输送路径上的状态信息(位置信息)。该位置信息可以从设置于输送路径的检测部的检测结果获取，也可以根据检测部的检测结果以及输送物的移动速度计算来获取，也可以根据从控制信息的输出开始的经过时间以及输送物的移动速度计算来获取，也可以根据从控制信息的输出开始的经过时间以及控制信息的脉冲数计算来获取。在计算该位置信息时，能够考虑湿度、温度、寿命、滑移率、纸张类型、基重、尺寸、打印模式、打印率中的任意一个。即，在从检测部的检测结果获取位置信息的情况下，位置信息中包含湿度、温度、寿命、滑移率、纸张类型、基重、尺寸、打印模式、打印率等用户的使用环境、使用状况，在利用输出输送物的移动速度、控制信息后的经过时间来计算位置信息的情况下，位置信息中能够包含用户的使用环境、使用状况。

报酬计算部21b基于状态信息获取部21a获取到的位置信息，根据预先决定出的规则来计算报酬。此时，能够通过对至少2个输送物中的1个输送物从输送路径上的第一位置到达第二位置的时间和预先决定出的规定时间进行比较来计算报酬、或通过对至少2个输送物中的2个输送物之间的距离与预先决定出的规定距离进行比较来计算报酬。在后者的情况下，能够通过与第一规定距离进行比较来计算与处于输送路径中的第一区域的输送物对应的报酬，并通过与第二规定距离进行比较来计算与处于输送路径中的第二区域的输送物对应的报酬、或在至少2个输送物中的2个输送物之间的距离小于规定距离的情况下将报酬设为负值，或基于获取到的位置信息和相邻的驱动源的输送速度来计算报酬。另外，报酬计算部21b能够在获取到的位置信息在一定时间未变化的情况下将报酬设为负值、或根据至少2个输送物的停止位置来计算报酬。

学习部21c通过基于状态信息获取部21a获取到的状态信息和报酬计算部21b计算出的报酬计算强化学习(Q学习)时的行动价值，来学习行动(驱动源的控制条件)。此时，除了获取到的状态信息和计算出的报酬以外，还能够考虑湿度、温度、寿命、滑移率中的任意一个来进行学习、或考虑纸张类型、基重、尺寸、打印模式、打印率中的任意一个来进行学习。

控制信息输出部21d生成用于使驱动源进行基于学习部21c的学习结果确定出的行动(行动价值最高的行动)的控制信息(控制信号、控制电流、频率等)并输出至图像形成装置30。另外，控制信息输出部21d在学习部21c考虑湿度、温度、寿命、滑移率中的任意一个来进行学习的情况下，能够考虑纸张类型、基重、尺寸、打印模式、打印率中的任意一个来生成控制信息，在学习部21c考虑纸张类型、基重、尺寸、打印模式、打印率中的任意一个来进行学习的情况下，能够考虑湿度、温度、寿命、滑移率中的任意一个来生成控制信息。

上述状态信息获取部21a、报酬计算部21b、学习部21c、控制信息输出部21d可以构成为硬件，也可以构成为使控制部21作为状态信息获取部21a、报酬计算部21b、学习部21c、控制信息输出部21d发挥作用的机器学习程序，并使CPU22执行该机器学习程序。

存储部25由HDD(Hard Disk Drive：硬盘驱动器)、SSD(Solid State Drive：固态硬盘)等构成，存储用于CPU22控制各部的程序、从图像形成装置30中获取到的状态信息(传感器的检测信息、驱动源的驱动信息)、状态信息获取部21a获取到的位置信息、用于计算报酬的规则、学习部21c计算出的行动价值、学习结果(后述的Q表)、控制信息输出部21d生成的控制信息等。

网络I/F部26由NIC(Network Interface Card：网络接口卡)、调制解调器等构成，将机器学习装置20与通信网络连接，并建立与图像形成装置30的连接。

显示部27由液晶显示装置(LCD：Liquid Crystal Display)、有机EL(electroluminescence：电致发光)显示装置等构成，显示各种画面。

操作部28由鼠标、键盘等构成，能够进行各种操作。

[图像形成装置]

图像形成装置30是沿着输送路径连续地输送至少2个输送物(纸张)的装置。如图4的(a)所示，该图像形成装置由控制部31、存储部35、网络I/F部36、显示操作部37、图像处理部38、图像读取部39、打印处理部40等构成。

控制部31由CPU32和ROM33、RAM34等存储器构成，CPU32通过将ROM33、存储部35中存储的控制程序在RAM34中展开并执行，来控制图像形成装置30整体的动作。如图4的(b)所示，上述控制部31作为控制纸张的输送的输送控制部31a发挥作用，输送控制部31a作为状态通知部31b、更新处理部31c等发挥作用。

状态通知部31b监视设置于打印处理部40的纸张输送路径的检测部(传感器)、驱动源(马达、离合器等)，并将检测部的检测信息、驱动源的驱动信息(例如，马达的旋转频率、马达每旋转一周的纸张的输送距离、与马达的旋转频率对应的纸张的输送速度)等状态信息通知给机器学习装置20。

更新处理部31c从机器学习装置20中获取控制信息，并基于该控制信息，来更新控制驱动源(马达、离合器等)的动作的固件。此时，可以每当从机器学习装置20获取控制信息就更新固件，也可以在获取到多个控制信息之后集中更新固件。

存储部35由HDD、SSD等构成，存储用于CPU32控制各部的程序、与本装置的处理功能有关的信息、装置信息、由图像处理部38生成的图像数据等。

网络I/F部36由NIC、调制解调器等构成，将图像形成装置30与通信网络连接，并建立与机器学习装置20等的通信。

显示操作部(操作面板)37是在显示部上设置有将透明电极配置成格子状的感压式、静电电容式的操作部(触摸传感器)的触摸面板等，显示与打印处理有关的各种画面，并能够进行与打印处理有关的各种操作。

图像处理部38作为RIP部(Raster Image Processor：光栅图像处理器)发挥作用，翻译打印任务并生成中间数据，并进行渲染生成位图形式的图像数据。另外，图像处理部38根据需要，对图像数据进行屏幕处理、灰度修正、浓度平衡调整、细线化、网点处理等。而且，图像处理部38将生成的图像数据输出至打印处理部40。

图像读取部(ADU)39是从载置在原稿台上的原稿中光学读取图像数据的部分，由扫描原稿的光源、将被原稿反射出的光转换为电信号的CCD(Charge Coupled Devices：电荷耦合器件)等图像传感器、以及对电信号进行A/D转换的A/D转换器等。而且，图像读取部39将读取到的图像数据输出至打印处理部40。

打印处理部40基于从图像处理部38或者图像读取部39中获取到的图像数据来执行打印处理。该打印处理部40例如由基于图像数据照射激光进行曝光的曝光部；具备感光体鼓、显影部、带电部、感光体清洁部以及一次转印辊，且形成CMYK的各种颜色的调色剂像的图像形成部；通过辊旋转，并作为将由图像形成部形成的调色剂像输送至纸张的中间转印体发挥作用的中间带；将形成于中间带上的调色剂像转印至纸张的二次转印辊；使被转印至纸张的调色剂像定影的定影部、供给纸张的托盘等供纸部、供纸辊、对齐辊、环形辊、反转辊、排纸辊(将这些辊统称为输送辊。)等输送部；设置于输送部的输送路径上的检测纸张的输送位置的传感器；驱动输送部的驱动源(马达、切换马达的动力的传递的离合器)等构成。上述传感器能够检测纸张的输送位置即可，例如，能够使用基于光的开/关、电触点的接触等进行检测的装置。另外，驱动源能够供给用于驱动输送辊的动力即可，对于马达、离合器的种类、马达的动力的传递结构等并不特别限定。

此外，图1至图4是本实施例的控制系统10的一个例子，各装置的结构、控制能够适当地变更。例如，在图4中，作为沿着输送路径连续地输送至少2个输送物的装置例示出图像形成装置30，但例如，也可以是进行装订、折叠等后处理的后处理装置、分类纸张的分拣装置、检查形成于纸张的图像的检查装置等。另外，在图1中，由机器学习装置20和图像形成装置30构成控制系统10，但控制系统10中也可以包含开发部门、销售公司的计算机装置，在该情况下，也可以上述计算机装置接受使用图像形成装置30的用户的个人请求并通知给机器学习装置20，机器学习装置20根据该个人请求来变更产品规格。

接下来，对上述图像形成装置30的纸张输送路径上的传感器以及驱动源进行说明。图5是表示打印处理部40内的纸张输送路径41的示意图，纸张从图的左侧向右侧输送。在该纸张输送路径41上，例如，配置有多个传感器42(在图中为配置于1～20的位置的20个传感器)。另外，在纸张输送路径41上，配置有输送纸张的多个辊(图中的黑色圆圈)，作为辊的驱动源，例如，具备主马达43、定影马达44、以及排纸马达45，主马达43具备开/关马达的动力的传递的供纸离合器43a和定时离合器43b，排纸马达45具备开/关马达的动力的传递的排纸离合器45a。此外，图5是纸张输送路径41的一个例子，传感器42、辊、马达、离合器的个数、配置能够适当地变更。

在这样的结构的纸张输送路径41中，如图6所示，传感器42的检测结果等状态信息成为输入参数，主马达43(供纸离合器43a、定时离合器43b)、定影马达44、排纸马达45(排纸离合器45a)的控制信号、控制电流、频率等控制信息成为输出参数，机器学习装置20学习该输入参数与输出参数的关系。

图7是在机器学习装置20学习输入参数与输出参数的关系时利用的表，(a)是状态(State)的详细内容(各传感器42的开/关的组合)，(b)是动作(行动)的详细内容(在这里为各离合器的开/关的组合)，(c)是表示与状态(State)和动作(行动)的组合对应的行动价值(Q值)的Q表。

此外，在该表中将传感器42的个数设为14个，此时的状态数Ns为：

Ns＝传感器状态数＾传感器数＝2＾14＝16384。

另外，在该表中将动作(行动)的对象设为离合器，并将离合器的个数设为3个，此时的动作数Na为：

Na＝离合器状态数＾离合器数＝2＾3＝8。

因此，Q表的大小为：

Q[Ns，Na]＝Q[16384，8]。

机器学习装置20通过根据预先决定出的规则，计算在某一状态时采取某个行动时的报酬，并根据预先决定出的计算式来计算行动价值(Q值)并更新Q表，以将报酬的总和最佳化，来学习行动，并基于学习结果来决定行动(选择行动价值最高的行动)。

此外，若将学习系数设为α、将折扣报酬设为γ、将时刻t的报酬设为r_t，则行动价值(Q(s_t,a_t))例如能够通过Q(s_t,a_t)←(1－α)Q(s_t,a_t)+α(r_t+1+γmaxQ(s_t+1,a_t+1))等Q学习的计算式来计算。

图8是表示本实施例的控制系统10的纸张输送控制的概要的框图。图像形成装置30的输送控制部31a(状态通知部31b)从设置于纸张输送路径41的传感器42、马达的输出信号中，获取每个步骤(规定时间)的传感器的检测信息、驱动源的驱动信息(例如，马达的旋转频率)等状态信息并输出至机器学习装置20。机器学习装置20的状态信息获取部21a基于状态信息，作为状态变量获取各纸张的位置信息并通知给报酬计算部21b，报酬计算部21b基于位置信息计算报酬并通知给学习部21c。学习部21c通过基于从状态信息获取部21a获取到的各纸张的位置信息和从报酬计算部21b中获取到的报酬计算行动价值来学习行动，并将学习结果(状态变量、各行动、行动价值)通知给控制信息输出部21d。控制信息输出部21d生成用于使驱动源进行基于学习结果确定出的行动的控制信号、控制电流、频率等控制信息并通知给图像形成装置30。图像形成装置30的输送控制部31a(更新处理部31c)根据从机器学习装置20获取到的控制信息，更新用于驱动马达、离合器等驱动源的固件，并根据固件控制马达、离合器的动作。

此外，在图5中，在纸张输送路径41上配置20个传感器42，并根据各传感器42的输出信号(开/关)确定纸张的位置，但在利用驱动源的驱动信息等的情况下，也可以减少实际的传感器42(图中的黑色的三角)的个数，并根据传感器42的输出信号、马达的驱动信号、以及物理参数(与马达每旋转一周的纸张的输送距离、马达的旋转频率相应的纸张的输送速度等)配置虚拟的传感器42(图中的点的阴影的三角)。

以下，对本实施例的机器学习装置20中的机器学习方法进行说明。机器学习装置20的控制部21的CPU22通过将ROM23或者存储部25中存储的机器学习程序在RAM24中展开并执行，来执行图10至图14的流程图所示的各步骤的处理。

首先，若图像形成装置30的打印处理部40开始纸张的输送，则机器学习装置20的控制部21(状态信息获取部21a)从图像形成装置30的控制部31(状态通知部31b)获取传感器42的检测信息、驱动源的驱动信息等状态信息，并基于状态信息获取纸张的位置信息(S101)。该位置信息可以从传感器42的检测信息中获取，也可以根据传感器42的检测信息和驱动源的驱动信息计算并获取。另外，在计算位置信息时，能够考虑湿度、温度、寿命、滑移率、纸张类型、基重、尺寸、打印模式、打印率中的任意一个。

接下来，控制部21(报酬计算部21b)基于纸张的位置信息来计算报酬(S102)。对于该报酬的计算的详细内容后述。接下来，控制部21(学习部21c)通过基于由状态信息获取部21a获取到的纸张的位置信息和由报酬计算部21b计算出的报酬，使用上述的Q学习的计算式等计算行动价值(Q值)来学习行动(S103)，并更新Q表(S104)。此时，学习部21c除了纸张的位置信息和报酬以外，也能够考虑湿度、温度、寿命、滑移率中的任意一个并进行学习、或考虑纸张类型、基重、尺寸、打印模式、打印率中的任意一个并进行学习。

而且，控制部21(控制信息输出部21d)基于学习结果(Q表)确定接下来的行动(S105)，并生成用于使驱动源进行确定出的行动的控制信息(控制信号、控制电流、频率等)并输出至图像形成装置30(S106)。此时，控制信息输出部21d在学习部21c考虑湿度、温度、寿命、滑移率中的任意一个并进行学习的情况下，能够考虑纸张类型、基重、尺寸、打印模式、打印率中的任意一个来生成控制信息，在学习部21c考虑纸张类型、基重、尺寸、打印模式、打印率中的任意一个并进行学习的情况下，能够考虑湿度、温度、寿命、滑移率中的任意一个来生成控制信息。而且，图像形成装置30的控制部31(更新处理部31c)若从机器学习装置20获取控制信息，则基于控制信号对控制驱动源的动作的固件进行更新，并根据更新后的固件驱动驱动源并输送纸张。之后，返回到S101反复相同的处理。

接下来，对S102的报酬计算进行说明。报酬计算的方法有几种，例如，有基于纸张的间距(纸张间的距离、时间间隔)来计算报酬的方法、基于动作时间来计算报酬的方法等。

图11是基于纸张的间距(时间间隔)来计算报酬的方法的一个例子。报酬计算部21b设定目标间距条件(S201)。图12示出该步骤的详细内容，首先，设定对象区间(S301)。接下来，进行区间判定(S302)，在区间A的情况下，将目标间距设定为第一值(在这里为50ms)(S303)，在区间B的情况下，将目标间距设定为第二值(在这里为200ms)(S304)，在区间C的情况下，将目标间距设定为第三值(在这里为400ms)(S305)。返回到图11，报酬计算部21b测定传感器通过时间(从某张纸张通过传感器到下一张纸张通过传感器的时间，即，2张纸张的输送时间间隔)(S202)，并判断S202的实际测量与S201的目标的大小关系(S203)。在实际结果与目标大致相等的情况下，如设定的那样进行纸张的输送，所以将报酬设为正的规定值(例如，+1)(S204)，在实际测量比目标大的情况下，由于不会如设定的那样进行纸张的输送但没有纸张彼此碰撞的可能，所以将报酬设为0(S205)，在实际测量比目标小的情况下，由于有纸张彼此碰撞的可能，所以将报酬设为负的规定值(例如，－1)(S206)。

此外，在图11以及图12中，基于2张纸张的时间间隔来计算报酬，但也可以基于2张纸张之间的距离来计算报酬。在该情况下，由于在2张纸张之间的距离小于作为目标的距离的情况下，有纸张彼此碰撞的可能，所以能够将报酬设为负的规定值。

图13是基于动作时间来计算报酬的方法的一个例子。报酬计算部21b设定目标移动完成条件(S401)。图14示出该步骤的详细内容，首先，根据纸张的位置信息的变化，获取移动速度、移动总距离，并计算移动中停止时间(S501)。然后，根据这些信息将目标移动完成条件设定为规定的值(在这里为600ms)(S502)。返回到图13，报酬计算部21b测定从动作开始到动作结束的时间(S402)，并判断实际测量与目标的大小关系(S403)。在实际结果与目标大致相等的情况下，由于如设定的那样进行纸张的输送，所以将报酬设为正的规定值(例如，1)(S404)，在实际测量比目标大的情况下，由于不会如设定的那样进行纸张的输送但没有纸张彼此碰撞的可能，所以将报酬设为0(S405)，在实际测量比目标小的情况下，由于有纸张彼此碰撞的可能，所以将报酬设为负的规定值(例如，－1)(S406)。

此外，在图11以及图12中，对基于纸张的间距来计算报酬的方法进行了说明，在图13以及图14中，对基于动作时间来计算报酬的方法进行了说明，但也可以基于纸张的间距和动作时间双方来计算报酬、或对纸张的间距和/或动作时间追加其它参数来计算报酬。

另外，由于在获取到的位置信息在一定时间不变化的情况下，认为发生了卡纸，所以也可以将报酬设为负值，或根据至少2个输送物的停止位置(根据是否停止在规定的停止位置)来计算报酬。另外，根据驱动源的驱动状态(例如，相邻的驱动源的输送速度不同的情况)，有产生纸张的弯曲、拉动的情况，所以也可以考虑这样的不良情况来计算报酬。

如以上说明的那样，通过获取纸张的位置信息，并基于预先设定的规则来计算报酬，并通过基于位置信息和报酬，计算强化学习的行动价值来学习行动，并输出用于使驱动源进行基于学习结果确定出的行动的控制信息，能够实现适合用户的使用环境、使用状况的输送物的输送控制。

此外，本发明并不限定于上述实施例，只要不脱离本发明的主旨，就能够适当地变更其结构、控制。

例如，在上述实施例中，对将本发明的机器学习方法应用于控制多张纸张的输送并进行处理的图像形成装置的情况进行了记载，但能够将本发明的机器学习方法同样应用于控制多个移动物的输送并进行处理的任意的装置。

本发明能够利用于学习控制多个移动物的输送的输送装置中的驱动源的行动的机器学习装置、机器学习方法、机器学习程序以及记录有该机器学习程序的记录介质。

Claims

1.一种机器学习装置，其特征在于，

是学习沿着输送路径连续地输送至少2个输送物的输送装置中的驱动源的行动的机器学习装置，具备：

状态信息获取部，基于设置于上述输送路径的检测部的检测结果，来获取上述至少2个输送物在上述输送路径上的位置信息；

报酬计算部，基于获取到的上述位置信息，根据预先决定的规则来计算报酬；

学习部，通过基于获取到的上述位置信息和计算出的上述报酬计算强化学习的行动价值，来学习行动；以及

控制信息输出部，生成并输出用于使上述驱动源进行基于学习结果确定出的行动的控制信息，

上述报酬计算部通过比较上述至少2个输送物中的2个输送物之间的距离和预先确定的规定距离，来计算上述报酬，

在上述至少2个输送物中的2个输送物之间的距离小于上述规定距离的情况下，上述报酬计算部将上述报酬设为负值。

2.根据权利要求1所述的机器学习装置，其特征在于，

上述状态信息获取部从上述检测部的检测结果获取上述位置信息；或者根据上述检测部的检测结果以及上述输送物的移动速度计算并获取上述位置信息；或者根据从上述控制信息的输出开始的经过时间以及上述输送物的移动速度计算并获取上述位置信息；或者根据从上述控制信息的输出开始的经过时间以及上述控制信息的脉冲数计算并获取上述位置信息。

3.根据权利要求1所述的机器学习装置，其特征在于，

上述报酬计算部通过与第一规定距离进行比较来计算与处于上述输送路径中的第一区域的上述输送物对应的报酬，通过与第二规定距离进行比较来计算与处于上述输送路径中的第二区域的上述输送物对应的报酬。

4.根据权利要求1～3中任一项所述的机器学习装置，其特征在于，

上述报酬计算部基于获取到的上述位置信息和相邻的上述驱动源的输送速度，来计算上述报酬。

5.根据权利要求1～3中任一项所述的机器学习装置，其特征在于，

当获取到的上述位置信息在一定时间未变化的情况下，上述报酬计算部将上述报酬设为负值。

6.根据权利要求1～3中任一项所述的机器学习装置，其特征在于，

上述报酬计算部根据上述至少2个输送物的停止位置来计算上述报酬。

7.根据权利要求1～3中任一项所述的机器学习装置，其特征在于，

上述驱动源是马达或者切换上述马达的动力传递的离合器，

上述控制信息是使上述马达和/或上述离合器动作的控制信号、控制电流、频率。

8.根据权利要求1～3中任一项所述的机器学习装置，其特征在于，

上述输送装置是输送纸张并打印的图像形成装置。

9.根据权利要求8所述的机器学习装置，其特征在于，

在计算上述位置信息时，上述状态信息获取部考虑湿度、温度、寿命、滑移率、纸张类型、基重、尺寸、打印模式、以及打印率中的任意一个。

10.根据权利要求8所述的机器学习装置，其特征在于，

上述学习部除了获取到的上述位置信息和计算出的上述报酬以外，还考虑湿度、温度、寿命、以及滑移率中的任意一个来进行学习，

上述控制信息输出部还考虑纸张类型、基重、尺寸、打印模式、以及打印率中的任意一个来生成上述控制信息。

11.根据权利要求8所述的机器学习装置，其特征在于，

上述学习部除了获取到的上述位置信息和计算出的上述报酬以外，还考虑纸张类型、基重、尺寸、打印模式、以及打印率中的任意一个来进行学习，

上述控制信息输出部还考虑湿度、温度、寿命、以及滑移率中的任意一个来生成上述控制信息。

12.一种输送装置，具备：

权利要求1～11中任一项所述的机器学习装置。

13.一种机器学习方法，其特征在于，

是学习沿着输送路径连续地输送至少2个输送物的输送装置中的驱动源的行动的机器学习装置中的机器学习方法，

上述机器学习方法执行如下处理：

基于设置于上述输送路径的检测部的检测结果，来获取上述至少2个输送物在上述输送路径上的位置信息的状态信息获取处理；

基于获取到的上述位置信息，根据预先决定的规则来计算报酬的报酬计算处理；

通过基于获取到的上述位置信息和计算出的上述报酬计算强化学习的行动价值，来学习行动的学习处理；以及

生成并输出用于使上述驱动源进行基于学习结果确定出的行动的控制信息的控制信息输出处理，

在上述报酬计算处理中，通过比较上述至少2个输送物中的2个输送物之间的距离和预先确定的规定距离，来计算上述报酬，

在上述报酬计算处理中，在上述至少2个输送物中的2个输送物之间的距离小于上述规定距离的情况下，将上述报酬设为负值。

14.根据权利要求13所述的机器学习方法，其特征在于，

在上述状态信息获取处理中，或者从上述检测部的检测结果中获取上述位置信息；或者根据上述检测部的检测结果以及上述输送物的移动速度计算并获取上述位置信息；或者根据从上述控制信息的输出开始的经过时间以及上述输送物的移动速度计算并获取上述位置信息；或者根据从上述控制信息的输出开始的经过时间以及上述控制信息的脉冲数计算并获取上述位置信息。

15.根据权利要求13所述的机器学习方法，其特征在于，

在上述报酬计算处理中，通过与第一规定距离进行比较来计算与处于上述输送路径中的第一区域的上述输送物对应的报酬，通过与第二规定距离进行比较来计算与处于上述输送路径中的第二区域的上述输送物对应的报酬。

16.根据权利要求13～15中任一项所述的机器学习方法，其特征在于，

在上述报酬计算处理中，基于获取到的上述位置信息和相邻的上述驱动源的输送速度，来计算上述报酬。

17.根据权利要求13～15中任一项所述的机器学习方法，其特征在于，

在上述报酬计算处理中，当获取到的上述位置信息在一定时间未变化的情况下，将上述报酬设为负值。

18.根据权利要求13～15中任一项所述的机器学习方法，其特征在于，

在上述报酬计算处理中，根据上述至少2个输送物的停止位置来计算上述报酬。

19.根据权利要求13～15中任一项所述的机器学习方法，其特征在于，

上述驱动源是马达或者切换上述马达的动力传递的离合器，

20.根据权利要求13～15中任一项所述的机器学习方法，其特征在于，

上述输送装置是输送纸张并打印的图像形成装置。

21.根据权利要求20所述的机器学习方法，其特征在于，

在上述状态信息获取处理中，在计算上述位置信息时，还考虑湿度、温度、寿命、滑移率、纸张类型、基重、尺寸、打印模式、以及打印率中的任意一个。

22.根据权利要求20所述的机器学习方法，其特征在于，

在上述学习处理中，除了获取到的上述位置信息和计算出的上述报酬以外，还考虑湿度、温度、寿命、以及滑移率中的任意一个来进行学习，

在上述控制信息输出处理中，还考虑纸张类型、基重、尺寸、打印模式、打印率中的任意一个来生成上述控制信息。

23.根据权利要求20所述的机器学习方法，其特征在于，

在上述学习处理中，除了获取到的上述位置信息和计算出的上述报酬以外，还考虑纸张类型、基重、尺寸、打印模式、以及打印率中的任意一个来进行学习，

在上述控制信息输出处理中，还考虑湿度、温度、寿命、以及滑移率中的任意一个来生成上述控制信息。

24.一种储存有机器学习程序的计算机可读取的记录介质，其特征在于，

上述计算机可读取的记录介质储存有在学习沿着输送路径连续地输送至少2个输送物的输送装置中的驱动源的行动的机器学习装置中动作的机器学习程序，

上述机器学习程序使上述机器学习装置的控制部执行如下处理：

状态信息获取处理，基于设置于上述输送路径的检测部的检测结果，来获取上述至少2个输送物在上述输送路径上的位置信息；

报酬计算处理，基于获取到的上述位置信息，根据预先决定的规则来计算报酬；

学习处理，通过基于获取到的上述位置信息和计算出的上述报酬计算强化学习的行动价值，来学习行动；以及

控制信息输出处理，生成用于使上述驱动源进行基于学习结果确定出的行动的控制信息并输出，

25.根据权利要求24所述的储存有机器学习程序的计算机可读取的记录介质，其特征在于，

在上述状态信息获取处理中，从上述检测部的检测结果获取上述位置信息；或者根据上述检测部的检测结果以及上述输送物的移动速度计算并获取上述位置信息；或者根据从上述控制信息的输出开始的经过时间以及上述输送物的移动速度计算并获取上述位置信息；或者根据从上述控制信息的输出开始的经过时间以及上述控制信息的脉冲数计算并获取上述位置信息。

26.根据权利要求24所述的储存有机器学习程序的计算机可读取的记录介质，其特征在于，

27.根据权利要求24～26中任一项所述的储存有机器学习程序的计算机可读取的记录介质，其特征在于，

在上述报酬计算处理中，基于获取到的上述位置信息和相邻的上述驱动源的输送速度来计算上述报酬。

28.根据权利要求24～26中任一项所述的储存有机器学习程序的计算机可读取的记录介质，其特征在于，

在上述报酬计算处理中，在获取到的上述位置信息在一定时间未变化的情况下，将上述报酬设为负值。

29.根据权利要求24～26中任一项所述的储存有机器学习程序的计算机可读取的记录介质，其特征在于，

30.根据权利要求24～26中任一项所述的储存有机器学习程序的计算机可读取的记录介质，其特征在于，

上述驱动源是马达或者切换上述马达的动力的传递的离合器，

31.根据权利要求24～26中任一项所述的储存有机器学习程序的计算机可读取的记录介质，其特征在于，

上述输送装置是输送纸张并打印的图像形成装置。

32.根据权利要求31所述的储存有机器学习程序的计算机可读取的记录介质，其特征在于，

33.根据权利要求31所述的储存有机器学习程序的计算机可读取的记录介质，其特征在于，

在上述控制信息输出处理中，还考虑纸张类型、基重、尺寸、打印模式、以及打印率中的任意一个来生成上述控制信息。

34.根据权利要求31所述的储存有机器学习程序的计算机可读取的记录介质，其特征在于，