CN111452515B

CN111452515B - 打印装置、学习装置及学习方法

Info

Publication number: CN111452515B
Application number: CN202010047653.0A
Authority: CN
Inventors: 郡司宽之
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2019-01-18
Filing date: 2020-01-16
Publication date: 2021-08-20
Anticipated expiration: 2040-01-16
Also published as: US11142000B2; JP7036048B2; US20200230981A1; JP2020114653A; CN111452515A

Abstract

本发明公开了打印装置、学习装置及学习方法。所述打印装置具备打印介质的输送机构，其构成为具备：存储部，存储已学习模型，所述已学习模型基于包括打印在所述打印介质的打印成果物的长度即打印长度的状态变量，输出使所述打印长度接近基准的所述输送机构的设定值；以及控制部，通过基于所述已学习模型获取的所述设定值来控制所述输送机构，从而进行打印。

Description

打印装置、学习装置及学习方法

技术领域

本发明涉及打印装置、学习装置及学习方法。

背景技术

在打印装置中，重要的是基于被打印的图像数据的且按照设想的大小来打印打印成果物。即，在一边将打印介质向特定的方向输送一边进行打印的打印装置中，若没有正确地控制打印介质在输送方向上的打印成果物的长度即打印长度，则打印品质下降。例如，若打印长度比基于被打印的图像数据的基准的长度长，则在打印介质的输送方向上应该连续地打印的部位产生不连续的部位(白条纹)。若打印长度比基准的长度短，则在打印介质的输送方向上应该连续地打印的部位重叠而产生黑条纹。

以往，已研究出用于使打印介质的输送方向上的打印长度接近基准的长度的技术，例如，在专利文献1中公开了将作用于打印介质的张力控制为规定以下的技术。

但是，利用现有技术也存在难以解决如下问题的情况，即、辊的经年劣化或者根据打印介质的特性、使用环境而高精度地补正输送机构的设定值。

专利文献1：日本特开2009-256095号公报

发明内容

为了解决上述问题中的至少一个问题，具备打印介质的输送机构的打印装置具备：存储部，存储已学习模型，所述已学习模型基于包括打印在所述打印介质的打印成果物的长度即打印长度的状态变量，输出使所述打印长度接近基准的所述输送机构的设定值；以及控制部，通过基于所述已学习模型获取的所述设定值来控制所述输送机构，从而进行打印。根据该结构，能够通过根据打印长度的状态而被最优化的输送机构的设定值来控制输送机构，且能够长时间地维持打印长度接近基准的状态。

进一步，也可以是如下的结构，所述已学习模型的学习通过下述方式执行：观测包含所述打印长度的所述状态变量，基于观测到的所述状态变量来决定使所述设定值变化的行动，基于所述打印长度相对于基准的偏差使所述设定值最优化，所述设定值包括由夹着所述打印介质进行输送的输送辊夹着所述打印介质的压力、作用于由所述输送机构输送的所述打印介质的张力、为了控制所述张力而实施的所述张力的检测的频度以及使所述打印介质吸附于既定的位置的吸附装置的吸附力中的至少一方。即、通过强化学习来学习已学习模型，能够容易地定义为了使打印长度接近基准的最优的输送机构的设定值。

进一步，也可以是如下的结构，所述已学习模型的学习通过下述方式执行：基于奖励，重复进行所述状态变量的观测、与该状态变量相应的所述行动的决定、以及通过该行动得到的所述奖励的评价，从而使所述设定值最优化，所述奖励为相对于所述打印长度的基准的偏差越小则所述奖励越大。根据该结构，通过强化学习来学习已学习模型，能够容易地定义为了使打印长度接近基准的最优的输送机构的设定值。

进一步，也可以是如下的结构，状态变量包括打印装置的周围的温度与湿度中的至少一方。根据该结构，即使打印装置的周围的环境变化，也能够维持打印长度接近基准的状态。

进一步，也可以是如下的结构，已学习模型针对打印介质的每个种类进行学习。根据该结构，能够获取适于打印介质的每个种类的输送机构的设定值。

进一步，在具备打印介质的输送机构的打印装置中所参照的已学习模型的学习装置，所述学习装置具备将如下模型获取为所述已学习模型的学习部：基于包括打印在所述打印介质的打印成果物的长度即打印长度的状态变量，输出使所述打印长度接近基准的所述输送机构的设定值的模型。即、作为输出输送机构的设定值的已学习模型的学习装置也能够使本发明成立。

附图说明

图1是示出打印装置的结构的图。

图2是示意性地示出从PF辊的轴方向观察时的打印装置的结构的图。

图3是示出电机控制部的结构的图。

图4是示出基于强化学习的学习例的图。

图5是示出多层神经网络的例子的图。

图6是学习处理的流程图。

图7是打印处理的流程图。

附图标记说明

1a…PF电机；1b…RP电机；2a…PF电机驱动器；2b…RP电机驱动器；3…滑架；3a…头；4…CR电机；5…CR电机驱动器；6…电机控制部；6a…位置运算部；6b…减法器；6c…目标速度运算部；6d…速度运算部；6e…减法器；6f…比例要素；6g…积分要素；6h…微分要素；6i…加法器；6j…D/A转换器；6k…定时器；6m…加速控制部；7…头驱动器；8…相机；9…编码器；10…编码器用编码盘；11a…编码器；11b…编码器；12a…编码器用编码盘；12b…编码器用编码盘；13…滑轮；14…正时带；20…处理器；21…控制部；22…学习部；30…存储部；31…已学习模型；40…温度湿度传感器；50…打印介质；51a…PF辊；51b…筒；51c…从动辊；60…吸附装置驱动器；61…吸附装置；61a…风扇；62…吸附装置；62a…风扇；100…打印装置。

具体实施方式

以下，参照附图对本发明的实施方式按照以下的顺序进行说明。此外，在各图中对相对应的构成要素赋予同一附图标记，并省略重复说明。

(1)打印装置及学习装置的结构：

(2)输送机构的设定值的决定：

(2-1)已学习模型的学习：

(2-2)输送机构的设定值的学习例：

(3)打印处理：

(4)其他实施方式：

(1)打印装置及学习装置的结构：

图1是示出作为本发明的一实施方式的打印装置及学习装置的简要结构的框图。图1所示的打印装置100具备进行送纸的送纸电机(以下，也称为PF电机)1a、PF电机驱动器2a、积存打印介质的筒51b(以下，也称为RP)、使筒51b旋转的RP电机1b、RP电机驱动器2b、滑架3、滑架电机(以下，也称为CR电机)4、CR电机驱动器5、使打印介质50吸附于压板的吸附装置61、62、吸附装置驱动器60、头驱动器7以及电机控制部6。

另外，打印装置100具备相机8、(线性)编码器9、(线性)编码器用编码盘10、(旋转式)编码器11a、11b、(旋转式)编码器用编码盘12a、12b、滑轮13、正时带14、处理器20、存储部30、温度湿度传感器40以及输送打印介质50的PF辊51a(输送辊)。当然，在图1中省略打印装置100可具备的其他结构，例如，也可以具备为防止头的堵塞而控制墨的吸出的泵等。

温度湿度传感器40输出表示打印装置100的周围的温度及湿度的信息。本实施方式中的PF电机1a通过PF电机驱动器2a而被旋转驱动。若PF电机1a旋转，则经由齿轮等使PF辊51a旋转，从而输送打印介质50。图2是示意性地示出从PF辊51a的轴方向观察时的打印装置100的结构的图。如图2所示，PF辊51a将打印介质50夹在PF辊51a与从动辊51c之间，在该状态下，通过PF辊51a进行旋转，将积存于筒51b的打印介质50从图2的右侧向左侧进行输送。

RP电机1b通过RP电机驱动器2b而被旋转驱动。若RP电机1b旋转，则经由齿轮等使筒51b旋转，从而将打印介质50从筒51b向PF辊51a侧供给。由此，在本实施方式中，由于PF辊51a与筒51b双方旋转驱动，通过调整作用于各自的扭矩来调整作用于在PF辊51a与筒51b之间存在的打印介质50的张力。

CR电机4通过CR电机驱动器5而被旋转驱动。若CR电机4进行正转、反转，则滑架3经由正时带14在直线方向上进行往返移动。滑架3具备图2所示的头3a，通过头驱动器7的控制使多个颜色的墨的墨滴被喷出，从而在打印介质50上进行打印。

由此，在本实施方式中，能够利用滑架3向直线方向的往返移动以及基于PF辊51a的印介质的输送在打印介质的二维范围进行打印。在本实施方式中，将滑架3的移动方向称为主扫描方向，将基于PF辊51a的打印介质的移动方向称为副扫描方向。在本实施方式中，主扫描方向与副扫描方向彼此垂直。

吸附装置驱动器60生成用于驱动吸附装置61、62的电力，向吸附装置61、62供给并驱动。吸附装置61、62分别具备图2所示的风扇61a、62a。风扇61a、62a被从吸附装置驱动器60供给的电力驱动，通过由该风扇61a、62a进行旋转从而使打印介质50吸附于压板P。其结果是，打印介质50以吸附于压板P的状态向输送方向输送。

头驱动器7生成对滑架3所具备的未图示的头3a施加的电压，并控制对于各头3a的电压供给。若各头3a被供给电压，则喷出与电压相应的墨滴，从而进行对于打印介质的打印。

在本实施方式中，滑架3具备相机8。相机8具备未图示的光源和传感器，能够在打印介质50被光源照明的状态下获取打印介质50的图像。由于相机8搭载于滑架3，通过使滑架3移动，能够获取主扫描方向的任意的位置的图像。另外，根据打印介质50的图像，能够在打印介质50上区分进行了打印的部位与未进行打印的部位。在本实施方式中，将打印在打印介质50上的图像的在打印介质50的输送方向上即在副扫描方向上的打印开始位置至打印结束位置为止的长度称为打印长度。

电机控制部6具备向PF电机驱动器2a、RP电机驱动器2b以及CR电机驱动器5输出直流电流指令值的电路。PF电机驱动器2a以与直流电流指令值相应的电流值使PF电机1a旋转驱动。RP电机驱动器2b以与直流电流指令值相应的电流值使RP电机1b旋转驱动。CR电机驱动器5以与直流电流指令值相应的电流值使CR电机4旋转驱动。

编码器用编码盘10是在规定的间隔形成有缝隙的细长的部件，且在打印装置100内固定为与主扫描方向平行。编码器9固定在与滑架3的编码器用编码盘10相对应的位置。编码器9通过输出与随着滑架3的移动横切编码器9的缝隙的数量相对应的脉冲来输出表示滑架3的位置的信息。

编码器用编码盘12a、12b是薄板状的圆形部件，以放射状每隔规定的角度形成有缝隙，且固定在PF辊51a、筒51b的轴。编码器11a、11b固定在编码器用编码盘12a、12b的外周部分中不妨碍编码器用编码盘12a、12b的旋转的位置。编码器11a、11b通过输出与随着PF辊51a的旋转横切编码器11a、11b的缝隙的数量相对应的脉冲来输出表示PF辊51a的位置(旋转角度)的信息。

处理器20具备未图示的CPU、RAM、ROM等，并能够执行存储于ROM等的程序。当然，处理器20可以是各种结构，也可以利用ASIC等。处理器20通过执行程序来控制打印装置100的各部。

处理器20能够控制打印装置100中的各种控制对象。在此，主要对打印的控制和用于使打印长度接近基准的长度的控制进行说明。此外，基准的长度是基于被打印的图像数据而打印的打印成果物的基准的长度。若用于控制这些部件的程序被执行，则处理器20作为控制部21发挥作用。在打印的控制中，控制部21基于表示打印对象的图像数据，由此来进行图像处理，从而确定针对每个像素应该对打印介质50喷出的墨的颜色或墨滴的大小等。并且，控制部21基于处理结果，获取为了在打印介质50上打印墨滴所需要的PF电机1a、RP电机1b、CR电机4的时间序列的目标位置、头3a的驱动时刻。

控制部21为了将PF电机1a、RP电机1b、CR电机4配置在目标位置，对电机控制部6指示控制目标，驱动PF辊51a、筒51b，并驱动滑架3。

即、控制部21将使PF辊51a旋转并输送打印介质50时所需要的时间序列的PF电机1a的目标位置(目标旋转角度)对电机控制部6进行输出。电机控制部6输出用于使PF电机1a移动至该目标位置的电流值。PF电机驱动器2a基于该电流值，驱动PF电机1a以使PF电机1a成为目标位置。

在本实施方式中，在PF辊51a连结有未图示的驱动机构，控制部21通过对该驱动机构进行指示能够调整PF辊51a与从动辊51c的距离。即、控制部21能够调整在PF辊51a与从动辊51c之间夹打印介质50的压力。在本实施方式中，关于压力，预先设有多个等级的选择项，若控制部21指示表示这些选择项的设定值中的任意一方，则驱动机构以被指示的压力夹打印介质50。当然，该压力也可以通过反馈控制来进行控制。另外，驱动机构可以通过各种机构实现，例如，可采用通过电机或电磁阀等各种部品使PF辊51a、从动辊51c中的至少一方的轴的位置移动的结构、或通过齿轮机构调整至少作用于一方的轴的力的结构等。

另外，控制部21将使筒51b旋转并送出打印介质50时所需要的时间序列的RP电机1b的目标位置(目标旋转角度)对电机控制部6进行输出。电机控制部6输出用于使RP电机1b移动至该目标位置的电流值。RP电机驱动器2b基于该电流值，驱动RP电机以使RP电机1b成为目标位置。

进一步，控制部21将使滑架3进行主扫描时所需要的时间序列的滑架3的目标位置对电机控制部6进行输出。电机控制部6输出用于使滑架3移动至该目标位置的电流值。CR电机驱动器5基于该电流值，驱动CR电机4以使滑架3成为目标位置。

进一步，控制部21在通过图像处理而得到的头3a的驱动时刻进行用于使墨滴记录在打印介质50上的控制。即、控制部21将头3a的驱动时刻及在各驱动时刻的墨滴的量(墨点的大小)对头驱动器7进行输出。头驱动器7在该驱动时刻生成用于喷出该量的墨滴的电压，并对各头3a供给电压。滑架3的头3a被该电压驱动，喷出墨滴，从而对打印介质50进行打印。

进一步，在本实施方式中，为了防止由于打印介质50的浮起所导致的墨滴的位置偏差等，使打印介质50吸附于压板。因此，控制部21对吸附装置驱动器60指示吸附力。吸附装置驱动器60通过该吸附力生成用于驱动吸附装置61、62的电力，并驱动吸附装置61、62。其结果是，通过控制部21所指示的吸附力使打印介质50吸附于压板。在本实施方式中，关于吸附力，预先设有多个等级的选择项，若控制部21指示表示这些选择项的设定值中的任意一方，则驱动机构以被指示的吸附力来吸引打印介质50。当然，该压力也可以通过反馈控制来进行控制。

在本实施方式中，如上所述，在打印介质50吸附于压板的状态下，通过依次进行打印介质50的输送、滑架3的输送、来自头3a的墨滴的喷出来进行打印。在这样的打印中，为了使打印长度不从基准的长度偏差，需要正确地输送打印介质50。因此，本实施方式中的电机控制部6通过反馈控制来控制PF电机1a、RP电机1b以及CR电机4。

图3是示出电机控制部6的结构的框图。在电机控制部6中，为了分别控制PF电机1a、RP电机1b以及CR电机4，具备3组几乎同样的电路(但，控制参数可以不同)，在此，对于各自不进行区分说明。电机控制部6具备位置运算部6a、减法器6b、目标速度运算部6c、速度运算部6d、减法器6e、比例要素6f、积分要素6g、微分要素6h、加法器6i、D/A转换器6j、定时器6k以及加速控制部6m。

位置运算部6a检测编码器9、11a、11b的输出脉冲，对被检测的输出脉冲的个数进行计数，基于该计数值运算滑架3、PF电机1a的位置。减法器6b运算从控制部21发送的目标位置与通过位置运算部6a求出的滑架3、PF电机1a的实际的位置的位置偏差。

目标速度运算部6c基于作为减法器6b的输出的位置偏差来运算滑架3、PF电机1a的目标速度。该运算通过对位置偏差乘以增益Kp来进行。该增益Kp根据位置偏差决定。此外，该增益Kp的值也可以存储在未图示的表中。

速度运算部6d基于编码器9、11a、11b的输出脉冲来运算滑架3、PF电机1a的速度。速度的运算可以通过各种方法进行，例如，可采用下述方法，即、速度运算部6d通过定时计数器对输出脉冲的边沿间的时间间隔进行计数，用边沿间的距离除以定时计数器的计数值，由此来进行运算的方法等。减法器6e运算目标速度与通过速度运算部6d运算的滑架3、PF电机1a的实际的速度的速度偏差。

比例要素6f对上述速度偏差乘以定数Gp并输出乘法运算结果。积分要素6g累积对速度偏差乘以定数Gi的值。微分要素6h对当前的速度偏差与前一个速度偏差的差乘以定数Gd并输出乘法运算结果。比例要素6f、积分要素6g以及微分要素6h的运算在编码器9、11a、11b的输出脉冲的每一个周期进行，例如在输出脉冲的上升边沿同步地进行。

比例要素6f、积分要素6g以及微分要素6h的输出在加法器6i中进行加法运算。并且，加法运算结果，即PF电机1a、CR电机4的驱动电流被发送至D/A转换器6j并变换为模拟电流。基于该模拟电流，通过PF电机驱动器2a、CR电机驱动器5使PF电机1a、CR电机4被驱动。

另外，定时器6k及加速控制部6m被用于加速控制，使用比例要素6f、积分要素6g以及微分要素6h的PID控制被用于加速中途的恒速及减速控制。

定时器6k基于从控制部21发送来的时钟信号在每个规定时间产生定时器中断信号。加速控制部6m在每次接受定时器中断信号时将规定的电流值(例如20mA)累积到目标电流值，并将累积结果，即加速时的PF电机1a、CR电机4的目标电流值发送至D/A转换器6j。与PID控制的情况相同，上述目标电流值通过D/A转换器6j变换为模拟电流，基于该模拟电流，通过PF电机驱动器2a、CR电机驱动器5使PF电机1a、CR电机4被驱动。

在本实施方式中，控制部21通过以上的结构且基于PF电机1a的扭矩，能够控制作用于打印介质50的张力(参照图2)。具体而言，电机控制部6能够获取动作中的PF电机1a的扭矩。扭矩可通过各种方法获取，在本实施方式中，电机控制部6通过PF电机驱动器2a获取赋予给PF电机1a的电流值，并基于该电流值运算扭矩。当然，扭矩也可以通过传感器等检测。

在本实施方式中，作用于PF电机1a的扭矩与作用于打印介质50的张力为既定的关系，控制部21从电机控制部6获取作用于PF电机1a的扭矩，并获取作用于打印介质50的张力。此外，在此，作用于打印介质50的张力是作用于在PF辊51a与筒51b之间存在的打印介质50的张力。

在该张力不是既定的值的情况下，控制部21对电机控制部6进行指示，经由RP电机驱动器2b调整RP电机1b的扭矩。即、控制部21在张力不是既定的值的情况下，算出用于使张力成为既定的值的RP电机1b的目标位置，并向电机控制部6输出。若目标位置被输出，则电机控制部6控制RP电机1b使其成为该目标位置。其结果是，RP电机1b的扭矩发生变化，进行反馈控制以使张力成为既定的值。

在本实施方式中，关于表示张力的既定的值，预先设有多个等级的选择项，控制部21算出RP电机1b的目标位置以使张力成为与这些选择项中的任意一方相对应的张力，并对电机控制部6进行指示。即、在本实施方式中，能够将作用于打印介质50的张力设定为多个等级中的任意一方。

在本实施方式中，如上所述的张力的检测(扭矩的检测)及控制能够以预先决定的频度实施。即、控制部21选择预先决定的选择项中的任意一方，在选择项所表示的时刻获取PF电机1a的扭矩。并且，在该扭矩所表示的张力不是预先决定的既定的值的情况下，控制部21进行反馈控制以使张力成为既定的值。

(2)输送机构的设定值的决定：

在如上所述的结构中，由PF辊51a夹打印介质50的压力、作用于在PF辊51a与筒51b之间存在的打印介质50的张力、为了控制张力而实施的张力的检测的频度、使打印介质50吸附于压板的吸附装置61、62的吸附力，只要变化其中的至少1个就能够使打印介质50的输送动作变化。在本实施方式中，将用于设定这些要素的值称为输送机构的设定值。

在本实施方式中，打印装置100以下述状态出厂，即、在打印装置100中，能够从多个打印介质的种类(例如，普通纸、照片用纸、布等)中选择任意一方来执行打印，且针对打印介质的每个种类预先决定有输送机构的设定值，在打印时以与打印介质相应的设定值动作的状态。

但是，在输送机构的设定值为固定的值的情况下，有时无法成为与打印装置100的环境变化、或与PF电机1a、RP电机1b、CR电机4、正时带14等的时变相应的合适的值。在该情况下，即使以成为某个打印长度(基准的打印长度)的方式来打印图像，打印后得到的打印成果物的打印长度有时也无法成为基准的打印长度。因此，在本实施方式中采用下述结构，即、能够使输送机构的设定值变化从而使打印长度接近基准的结构。

(2-1)已学习模型的学习：

本实施方式中，处理器20参照通过机器学习获取的已学习模型，由此决定输送机构的设定值。在本实施方式中，已学习模型是通过强化学习获取的。即、打印装置100也作为学习装置发挥作用，已学习模型针对打印介质的每个种类都进行学习，一边参照与打印对象的打印介质的种类相对应的学习模型一边进行打印。以下，对该强化学习进行说明。

此外，根据本实施方式，通过强化学习的结果、输送机构的设定值的变更使得打印长度的精度被推定为不会上升到当前的设定值以上，即能够实现输送位置的精度被推定为极大的状态。在本实施方式中，将这些状态称为最优化的状态，将实现最优化的状态的输送机构的设定值称为最优化的输送机构的设定值。

在本实施方式中，打印装置100通过执行学习程序，从而作为学习部22发挥作用。学习部22能够观测表示打印装置100的状态的状态变量。在本实施方式中，状态变量是作为打印成果物的长度的打印长度以及打印装置100的周围的温度及湿度。具体而言，学习部22控制相机8以使滑架3在主扫描方向的特定的位置(例如，是能够拍摄打印范围的位置且在主扫描方向上为最端部的位置等)从打印开始位置至打印结束位置拍摄打印介质50。

并且，学习部22在拍摄的图像中且在副扫描方向上计测打印结果(不是空白的部分)所占的区域的像素数量，基于该像素数量确定打印长度。即、在本实施方式中，由于是在打印介质50吸附于压板的状态下进行基于相机8的拍摄，因此能够预先规定被拍摄的图像内的像素数量与该图像的实际的长度的对应关系。

学习部22基于该对应关系从相机8的拍摄图像获取打印长度。当然，打印长度可通过各种方法确定。例如，可以通过安装在滑架3上的其他传感器或安装在滑架3以外的部位的其他传感器进行计测，也可以通过在打印后实际测量打印在打印介质50上的部分的长度等进行计测。在本实施方式中，学习部22能够观测任意时刻的状态变量即打印长度，所观测的打印长度被存储于未图示的存储器。由此，能够观测在使输送机构的设定值变化之前的状态下进行了打印时的打印长度以及在使输送机构的设定值变化之后的状态下进行了打印时的打印长度。进一步，学习部22基于温度湿度传感器40的输出观测打印装置100的周围的温度及湿度。

在本实施方式中，由于采用强化学习，学习部22基于状态变量决定使输送机构的设定值变化的行动并执行该行动。若根据该行动后的状态来评价奖励，则该行动的行动价值较为明确。因此，学习部22通过反复进行状态变量的观测、与该状态变量相应的行动的决定、通过该行动得到的奖励的评价，使输送机构的设定值最优化。

图4是根据由智能体和环境形成的强化学习的模型来说明输送机构的设定值的学习例的图。图4所示的智能体相当于根据预先决定的策略来选择行动a的功能。环境相当于基于智能体所选择的行动a和当前的状态s决定下一个状态s'，并基于行动a和状态s和状态s'来决定即时奖励r的功能。

在本实施方式中，可采用下述Q学习，即、学习部22通过预先决定的策略来选择行动a，通过重复进行状态的更新的处理，算出某个状态s中的某个行动a的行动价值函数Q(s，a)的Q学习。即、在本例中，通过以下式(1)更新行动价值函数。并且，在行动价值函数Q(s，a)适当地收敛的情况下，使该行动价值函数Q(s，a)最大化的行动a可被视为最优的行动，且表示该行动a的输送机构的设定值可被视为最优化的参数。

【数学式1】

Q(st，at)←Q(st，at)+α(rt+1+γmaxa’Q(st+1，a’)-Q(st，at))…(1)

在此，行动价值函数Q(s，a)是在状态s中选取行动a的情况下在将来可得到的收益(在本例中为折扣奖励总和)的期望值。奖励为r，状态s、行动a、奖励r的附加文字t是表示在时间序列上重复进行的试行过程中的一次的步骤的编号(称为试行编号)，若在行动决定后状态发生变化，则试行编号增加。由此，式(1)内的奖励r_t+1是在状态s_t中当行动a_t被选择时状态成为s_t+1的情况下得到的奖励。α为学习率，γ为折扣率。另外，a'是在状态s_t+1中取得的行动a_t+1中使行动价值函数Q(s_t+1，a_t+1)最大化的行动，max_a'Q(s_t+1，a')是通过使行动a'被选择从而被最大化的行动价值函数。此外，试行的间隔可通过各种方法决定，例如，可采用每隔一定时间间隔进行试行的结构等。

在输送机构的设定值的学习中，使输送机构的设定值变化相当于行动的决定，表示学习对象的输送机构的设定值和所取得的行动的信息被预先记录在存储部30中。在图4中示出输送机构的设定值的中的由PF辊51a夹打印介质50的压力、作用于打印介质50的张力、张力的检测频度、吸附装置61、62的吸附力成为学习对象的例子。

在图4所示的例子中，行动是指选择预先作为选择项的设定值中的任意一方的行动。在图4中，设想由PF辊51a夹打印介质50的压力可被设定为3个等级中的任意一方(a1～a3)的例子。另外，在图4所示的例子中，作用于打印介质50的张力可被设定为10个等级(a4～a13)中的任意一方，张力的检测频度可被设定为2个等级(a14，a15)中的任意一方(例如，每隔一定期间或者每个打印作业等)。进一步，在图4所示的例子中，吸附装置61、62的吸附力可被设定为10个等级(a16～a25)中的任意一方。当然，这些例子只是一例，选择项可以更多也可以更少，行动也可以是相对于当前的设定值的增减。在本实施方式中，用于确定各行动的信息(行动的ID，各行动中的设定值等)被记录在存储部30中。

在图4所示的例子中，奖励是基于打印长度相对于基准的偏差来确定的。在本实施方式中，相对于基准的偏差是基于表示由相机8拍摄的打印长度的图像来确定的。即、学习部22基于由相机8所进行的从打印开始位置至打印结束位置将打印介质50进行拍摄的图像来确定打印长度。在打印成果物的打印长度中具有被预定的值，该被预定的值是基准的打印长度。

因此，学习部22获取打印成果物的打印长度与基准的打印长度的差分ΔZ作为相对于基准的偏差。当然，相对于基准的偏差可以在主扫描方向上的多处进行评价，也可以进行统计。无论是哪一方，学习部22将奖励设定为相对于基准的偏差ΔZ越小则奖励越大(例如，1/ΔZ等)。

当然，奖励可通过各种方法定义，例如，可以是偏差ΔZ比阈值小时为+1，且比阈值大时为-1的奖励，也可以采用其他各种定义。进一步，奖励不限定于通过打印成果物的整体的打印长度(全长)来确定的结构，也可以是通过打印过程中的打印成果物的部分的打印长度来确定的结构。

在当前的状态s中，行动a已被采用时的下一个状态s'能够通过在作为行动a的参数的变化之后使打印装置100动作，且由学习部22观测状态变量的方式来确定。即、学习部22在使输送机构的设定值变化之后的状态下进行打印并观测打印长度，基于温度湿度传感器40的输出观测打印装置100周围的温度及湿度，由此获取表示这些的值作为状态变量。

(2-2)输送机构的设定值的学习例：

接下来，对输送机构的设定值的学习例进行说明。表示在学习的过程中参照的变量或函数的信息被存储在存储部30中。即、学习部22可采用通过重复进行状态变量的观测、与该状态变量相应的行动的决定、通过该行动得到的奖励的评价从而使行动价值函数Q(s，a)收敛的结构。因此，在本例中，在学习的过程中，状态变量与行动与奖励的时间序列的值被依次记录于存储部30。

行动价值函数Q(s，a)可通过各种方法算出，可基于多次的试行算出，但在本实施方式中采用将行动价值函数Q(s，a)近似地算出的一种方法即DQN(Deep Q-Network)。在DQN中，使用多层神经网络推定行动价值函数Q(s，a)。在本例中采用若输入状态s，则输出可选择的行动的N个行动价值函数Q(s，a)的值的多层神经网络。

图5是示意性地示出在本例中所采用的多层神经网络的图。在图5中，多层神经网络为输入M个(M是2以上的整数)的状态变量，则输出N个(N是2以上的整数)行动价值函数Q的值。例如，若为图4所示的例子，由于存在打印长度、打印装置100周围的温度及湿度共3个状态变量，因此M＝3，M个状态变量的值被输入于多层神经网络。在图5中，将试行编号t中的M个状态表示为s_1t～s_Mt。

在本例中设想以一次试行进行一次打印的例子，当然，也可以是在一次打印过程中进行多次试行。在该情况下，打印长度是在一次试行中所打印的部分的长度，奖励也成为相对于该部分的打印长度的基准的偏差。在该情况下，一次打印结束时的整体的打印长度作为状态变量而被观测，也可以作为奖励，该奖励也可以比打印过程中的奖励的权重大。

N个是可选择的行动a的数，多层神经网络的输出是在输入的状态s中当特定的行动a被选择时的行动价值函数Q的值。在图5中，将在试行编号t中可选择的各行动a_1t～a_Nt中的行动价值函数Q表示为Q(s_t，a_1t)～Q(s_t，a_Nt)。该Q所包括的s_t是代表被输入的状态s_1t～s_Mt而示出的文字。若为图4所示的例子，由于25个行动可被选择，因此N＝25。当然，行动a的内容和数(N的值)、状态s的内容和数(M的值)也可以根据试行编号t变化。

图5所示的多层神经网络是下述模型，即、在各层的各节点中执行相对于上一层的输入(在第1层中为状态s)的权重w的乘法运算和偏置b的加法运算，并且根据需要执行得到经过激活函数的输出的(成为下一层的输入)运算的模型。在本例中，层DL存在有P个(P是1以上的整数)，在各层中存在多个节点。

图5所示的多层神经网络通过各层中的权重w和偏置b、激活函数、层的顺序等确定。因此，在本实施方式中，用于确定该多层神经网络的参数(为了从输入得到输出所需要的信息)记录在存储部30中。此外，在学习时，持续更新用于确定多层神经网络的参数中的可变的值(例如，权重w和偏置b)。在此，将在学习过程中可变化的多层神经网络的参数表示为θ。若使用该θ，则上述的行动价值函数Q(s_t，a_1t)～Q(s_t，a_Nt)也可以被表示为Q(s_t，a_1t；θ_t)～Q(s_t，a_Nt；θ_t)。

接下来，根据图6所示的流程图对学习处理的顺序进行说明。输送机构的设定值的学习处理针对打印装置100中的打印介质50的每个种类执行。若学习处理开始，则学习部22将学习信息初始化(步骤S100)。即、学习部22确定在开始学习时所参照的θ的初始值。初始值可通过各种方法决定，例如，在过去未进行学习的情况下，任意的值或随机值等可成为θ的初始值。

在过去进行了学习的情况下，可采用该已学习的θ作为初始值。另外，在过去对类似的条件(打印介质50的种类等)进行了学习的情况下，该学习中的θ也可以作为初始值。过去的学习可由用户使用打印装置100来进行，也可以由打印装置100的制造人员在打印装置100售卖前进行。在该情况下，也可以是下述结构，即、制造人员根据对象物或作业的种类准备好多个初始值的组且用户在学习时选择初始值的结构。若θ的初始值已被决定，则该初始值作为当前的θ的值被存储在存储部30中作为学习信息。

接下来，学习部22将输送机构的设定值初始化(步骤S105)。具体而言，学习部22设定由PF辊51a夹打印介质50的压力、作用于在PF辊51a与筒51b之间存在的打印介质50的张力、用于控制张力而实施的张力的检测的频度、使打印介质50吸附于压板的吸附装置61、62的吸附力以使成为在最后打印装置100被驱动时所利用的设定值。此外，出厂后初始驱动时，出厂时被设定的输送机构的设定值被设定为初始值。被初始化的输送机构的设定值作为当前的输送机构的设定值存储在存储部30中。

接下来，学习部22观测状态变量(步骤S110)。即、学习部22对电机控制部6指示当前的输送机构的设定值，根据该当前的输送机构的设定值控制打印装置100。学习部22在控制后的状态下获取作为状态变量的打印长度、打印装置100的周围的温度及湿度。

接下来，学习部22算出行动价值(步骤S115)。即、学习部22参照存储在存储部30中的学习信息获取θ，向存储在存储部30中的学习信息所表示的多层神经网络输入最新的状态变量，并算出N个行动价值函数Q(s_t，a_1t；θ_t)～Q(s_t，a_Nt；θ_t)。

此外，最新的状态变量是在首次执行时步骤S110的观测结果、以及在第2次以后执行时步骤S125的观测结果。另外，试行编号t是在首次执行时为0，在第2次以后执行时为1以上的值。在过去未实施学习处理的情况下，由于存储在存储部30中的学习信息所表示的θ没有被最优化，因此作为行动价值函数Q的值可能成为不正确的值，但通过重复进行步骤S115以后的处理，使得行动价值函数Q渐渐地被最优化。另外，在重复进行步骤S115以后的处理时，状态s、行动a、奖励r与各试行编号t建立对应关系而被存储在存储部30中，且能够在任意时刻参照。

接下来，学习部22选择行动并执行(步骤S120)。在本实施方式中进行下述处理，即、使行动价值函数Q(s，a)最大化的行动a可被视为最优的行动的处理。因此，学习部22确定在步骤S115中算出的N个行动价值函数Q(s_t，a_1t；θ_t)～Q(s_t，a_Nt；θ_t)的值中的最大的值。并且，学习部22选择赋予了最大的值的行动。例如，若在N个行动价值函数Q(s_t，a_1t；θ_t)～Q(s_t，a_Nt；θ_t)中Q(s_t，a_Nt；θ_t)为最大值，则学习部22选择行动a_Nt。

若行动被选择，则学习部22使与该行动相对应的输送机构的设定值变化。例如，在图4所示的例子中，在夹打印介质50的压力a1被选择了的情况下，学习部22使由PF辊51a夹打印介质50的压力a1变化。若输送机构的设定值的变化，则学习部22参照该输送机构的设定值控制打印装置100使其执行打印。

接下来，学习部22观测状态变量(步骤S125)。即、学习部22进行与步骤S110中的状态变量的观测同样的处理，获取打印长度以及打印装置100的周围的温度及湿度作为状态变量。此外，在当前的试行编号为t的情况下(被选择的行动为a_t的情况)，在步骤S125中获取的状态s为s_t+1。

接下来，学习部22评价奖励(步骤S130)。即、学习部22通过相机8从打印开始位置至打印结束位置将打印介质50进行拍摄，基于被拍摄的图像确定打印成果物的打印长度。进一步，作为该打印成果物的打印长度，学习部22获取预定的值作为基准的打印长度。进一步，学习部22获取打印成果物的打印长度与基准的打印长度的差分ΔZ作为相对于基准的偏差。并且，学习部22通过相对于基准的偏差ΔZ获取(例如，作为1/ΔZ等)奖励。此外，在当前的试行编号为t的情况下，在步骤S130中获取的奖励r为r_t+1。

在本实施方式中，以更新式(1)所示的行动价值函数Q为目的，但为了适当地持续更新行动价值函数Q，不得不持续使表示行动价值函数Q的多层神经网络最优化(使θ最优化)。为了通过图5所示的多层神经网络适当地输出行动价值函数Q，成为该输出的目标的示教数据是必要的。即、通过使多层神经网络的输出与目标的误差成为最小化的方式来改善θ，从而能够使多层神经网络实现最优化。

但是，在本实施方式中，在未完成学习的阶段，不具有关于行动价值函数Q的知识，难以确定目标。因此，在本实施方式中，式(1)的第2项，通过使所谓的TD误差(TemporalDifference)最小化的目标函数来实施表示多层神经网络的θ的改善。即、将(r_t+1+γmax_a'Q(s_t+1，a'；θ_t))作为目标，学习θ以使目标与Q(s_t，a_t；θ_t)的误差最小化。但是，由于目标(r_t+1+γmax_a'Q(s_t+1，a'；θ_t))包括学习对象θ，因此在本实施方式中经过某种程度的试行次数来固定目标(例如，以最后学习的θ(首次学习时是θ的初始值)固定)。在本实施方式中，预先决定有作为固定目标的试行次数的既定次数。

由于在这样的前提下进行学习，因此若在步骤S130中评价奖励，则学习部22算出目标函数(步骤S135)。即、学习部22算出用于评价各试行中的TD误差的目标函数(例如，与TD误差的平方的期望值成比例的函数或TD误差的平方的总和等)。此外，由于TD误差是在目标被固定的状态下算出的，若将被固定的目标表示为(r_t+1+γmax_a'Q(s_t+1，a'；θ_-))，则TD误差为(r_t+1+γmax_a'Q(s_t+1，a'；θ_-)-Q(s_t，a_t；θ_t))。在该TD误差的式中，奖励r_t+1是通过行动a_t在步骤S130中得到的奖励。

另外，max_a'Q(s_t+1，a'；θ_-)是将通过行动a_t在步骤S125中算出的状态s_t+1作为由被固定的θ_-所确定的多层神经网络的输入时得到的输出中的最大值。Q(s_t，a_t；θ_t)是将行动a_t被选择前的状态s_t作为由试行编号t阶段的θ_t所确定的多层神经网络的输入时得到的输出中与行动a_t相对应的输出的值。

若目标函数被算出，则学习部22判定是否已结束学习(步骤S140)。在本实施方式中，预先决定有用于判定TD误差是否充分地小的阈值，在目标函数为阈值以下时，学习部22判定为已结束学习。

在步骤S140中没有判定为学习已结束的情况下，学习部22更新行动价值(步骤S145)。即、学习部22基于TD误差的基于θ的偏微分来确定用于将目标函数设为较小的θ的变化，并使θ变化。当然，在此，可通过各种方法使θ变化，例如，可采用RMSProp等梯度下降法。另外，基于学习率等的调整也可以适当地实施。根据以上的处理，能够使θ变化以使行动价值函数Q接近目标。

但是，在本实施方式中，如上所述，由于目标被固定，因此学习部22进一步进行是否更新目标的判定。具体而言，学习部22判定是否进行了既定次数的试行(步骤S150)，在步骤S150中，在判定为进行了既定次数的试行时，学习部22更新目标(步骤S155)。即、学习部22将算出目标时所参照的θ更新为最新的θ。之后，学习部22重复进行步骤S115以后的处理。另一方面，在步骤S150中，在没有判定为进行了既定次数的试行时，学习部22跳过步骤S155并重复进行步骤S115以后的处理。

在步骤S140中判定为学习已结束时，学习部22更新存储在存储部30中的学习信息(步骤S160)。即、学习部22将通过学习得到的θ作为在基于打印装置100进行打印时应参照的已学习模型31存储于存储部30。若包括该θ的已学习模型31被存储在存储部30中，则控制部21能够在打印前获取对于当前的打印装置100来说是最优化的输送机构的设定值。

(3)打印处理：

在已学习模型31存储于存储部30的状态下，控制部21能够利用最优化的输送机构的设定值来控制打印装置100。图7是示出在打印装置100中进行打印时的打印处理的流程图。使用者指定存储于未图示的计算机或外部存储介质等的图像数据作为打印对象，打印处理在指定了打印介质50的种类的状态下执行。

若打印处理开始，则控制部21获取图像数据(步骤S200)。即、控制部21从未图示的计算机或外部存储介质等获取由使用者指定的图像数据。接下来，控制部21执行图像处理(步骤S205)。即、控制部21执行用于进行如下变换的图像处理，即、将图像数据所示的图像变换为以有没有每个像素的墨滴的记录的方式来表现的打印数据。该图像处理可采用公知的方法，例如，可通过颜色变换处理或伽玛变换处理等实现。

接下来，控制部21获取状态变量(步骤S210)。即、控制部21获取在打印装置100中最后进行打印时的打印长度，基于温度湿度传感器40的输出获取打印装置100的周围的温度及湿度。

接下来，控制部21确定输送机构的设定值(步骤S215)。即、控制部21参照已学习模型31，将在步骤S210中所获取的状态变量作为输入来计算输出Q(s，a)。另外，控制部21在输出Q(s，a)中选择赋予最大值的行动a。并且，在行动a被选择的情况下，控制部21确定输送机构的设定值以使成为相当于行动a所进行的状态的值。

接下来，控制部21执行打印控制(步骤S220)。即、控制部21设定夹打印介质的压力、作用于打印介质的张力、张力的检测频度、吸附装置的吸附力使其成为在步骤S215中确定的设定值。并且，控制部21基于在步骤S205中得到的数据，获取打印图像所需要的PF电机1a、RP电机1b、CR电机4的时间序列的目标位置以及头3a的驱动时刻。并且，控制部21为了将PF电机1a、RP电机1b、CR电机4配置在目标位置，对电机控制部6指示控制目标，驱动PF辊51a及筒51b，并驱动滑架3。其结果是，进行针对打印介质50的打印。

根据以上的结构，能够在选择了行动价值函数Q为最大化的行动a的状态下执行打印。该行动价值函数Q通过上述的处理，重复进行多次试行的结果，被最优化。由此，根据本实施方式，能够以比人为决定的输送机构的设定值更高的概率使输送机构的设定值最优化。

并且，通过以最优化的输送机构的设定值进行打印，能够将打印长度控制为接近基准。另外，能够长时间地维持打印长度接近基准的状态。

(4)其他实施方式：

以上的实施方式是用于实施本发明的一例，也可以采用其他各种实施方式。例如，打印装置及学习装置也可以是具备传真通信功能等的复合机。另外，打印装置及学习装置也可以由多个装置构成。例如，也可以由存储有已学习模型31的装置与通过控制部21进行打印的装置是不同的装置构成。

当然，也可以由打印装置与学习装置是不同的装置构成。在由打印装置与学习装置是不同的装置构成的情况下，也可以是，学习装置从多个打印装置收集状态变量，通过使各打印装置进行行动来进行机器学习可适用于多个打印装置的已学习模型31。作为学习装置的一例，可列举服务器。进一步，可以省略上述的实施方式的一部分结构，也可以变动或省略处理的顺序。

打印装置具备打印介质的输送机构。即、打印装置通过输送打印介质并在输送的打印介质上将记录材料记录来进行打印。输送机构可以是各种机构，例如，可采用通过辊夹着打印介质而输送打印介质的机构、或通过辊卷起打印介质的机构、或这些的组合等。打印介质可以是各种介质，纸以外的布或电子设备的部品、电气电路基板等各种介质可成为打印介质。

状态变量只要包括打印长度即可，其他要素也可以包括在状态变量中。打印长度是沿向通过输送机构输送打印介质的输送方向的打印成果物的长度，在打印介质上连续地打印图像的情况下，是沿向输送方向的打印开始位置至打印结束位置的长度。另外，在可成为状态变量的要素中还包括可成为输送机构的设定值的要素。例如，夹打印介质的压力或作用于打印介质的张力等也可以成为输送机构的设定值(控制目标)。

状态变量只要表示根据使输送机构的设定值变化的结果而得到的状态即可，可以是数值，可以是标志，也可以是意味着各种状态的符号。已学习模型只要是通过输入状态变量而输出输送机构的设定值的数式模型即可，除了通过强化学习而学习的已学习模型以外，还可以采用各种模型。

即、机器学习只要是使用样本数据学习更好的参数的处理即可，除了上述的强化学习以外，也可以采用通过有监督学习或聚类等各种方法学习各参数的结构。学习模型也不限定于上述的实施方式，例如可以是NN(神经网络，Neural Network)、CNN(卷积神经网络，Convolutional Neural Network)、RNN(循环神经网络，Recurrent Neural Network)等各种神经网络作为已学习模型而学习的结构，也可以是将这些模型进行组合的模型作为已学习模型而学习的结构。

输送机构的设定值只要是表示能够使输送机构的动作变动的设定的值即可，可以是数值，可以是标志，也可以是意味着各种状态的符号。设定值也可以采用除了上述的实施方式以外的各种值，例如，输送打印介质的速度等设定值也可以通过已学习模型决定。

控制部只要能够通过基于已学习模型所获取的输送机构的设定值控制输送机构并进行打印即可。即、控制部只要是使输送机构的设定值变化，且通过变化后的输送机构的设定值使输送机构动作，从而输送打印介质并使打印装置执行打印即可。当然，作为用于打印的控制，可进行各种控制，例如，可进行各种图像处理，根据有无双向打印、墨点的控制、根据打印速度的调色剂量的调整等、打印装置的结构等可进行各种控制。

输送机构中的设定值只要是以该设定值使输送机构动作的值即可，设定有设定值时的控制形态可以是各种形态。例如可以是基于压力传感器等的检测结果对夹打印介质的压力进行反馈控制的结构，也可以是省略对打印介质的张力进行反馈控制的结构，预先准备将张力作为可变化的设定值(例如扭矩)的选择项，不管设定为其中的哪一个，都不进行反馈控制的结构等。强化学习中的行动只要是使输送机构的设定值变化的行动即可。即、将以能够使电机的控制内容变化的方式使输送机构的设定值变化的处理视为行动。

进一步，在上述的学习处理中，每次试行时通过θ的更新来更新行动价值，且固定了目标直到进行了既定次数的试行为止，但也可以是在进行多次试行后更新θ。例如，可列举如下结构，即、固定目标直到进行第一既定次数的试行为止，固定θ直到进行第二既定次数(＜第一既定次数)的试行为止。在该情况下成为如下结构，即、在第二既定次数试行后基于与第二既定次数相应的样本来更新θ，进一步，在试行次数超过了第一既定次数的情况下以最新的θ更新目标。

进一步，在学习处理中，可采用公知的各种方法，例如，也可以进行经验回放(日语：体験再生)或奖励的裁剪(Clipping)等。进一步，在图5中，层DL存在有P个(P是1以上的整数)，在各层中存在多个节点，但各层的构造可采用各种构造。例如，层的数或节点的数可采用各种数，作为激活函数也可以采用各种函数，网络构造也可以是折叠神经网络构造等。另外，输入和输出的形态也不限定于图5所示的例子，例如，也可以采用至少利用状态s与行动a被输入的结构，或使行动价值函数Q最大化的行动a作为灼热向量而输出的结构的例子。

在上述的实施方式中，基于行动价值函数以贪婪(greedy)策略进行行动而试行并使行动价值函数最优化，由此可将相对于最优化的行动价值函数的greedy策略视为最优策略。该处理是所谓的价值迭代法，也可以通过其他方法，例如，通过策略迭代法进行学习。进一步，可以在状态s、行动a、奖励r等各种变量中进行各种归一化。

作为机器学习的方法，可采用各种方法，也可以通过基于行动价值函数Q的ε-greedy策略来进行试行。另外，作为强化学习的方法，不限定于上述的Q学习，也可以使用SARSA等方法。另外，也可以利用将策略的模型与行动价值函数的模型分别模型化的方法，例如，也可以利用AC(Actor-Critic)算法。若利用Actor-Critic算法，则可以是如下结构，即、定义表示策略的actor即μ(s；θ)、表示行动价值函数的critic即Q(s，a；θ)，随着对μ(s；θ)加入干扰的策略生成行动并试行，基于试行结果，通过更新actor与critic来学习策略与行动价值函数的结构。

Claims

1.一种打印装置，其特征在于，具备：

打印介质的输送机构；

存储部，存储已学习模型，所述已学习模型基于包括打印在所述打印介质的打印成果物的长度即打印长度的状态变量，输出使所述打印长度接近基准的所述输送机构的设定值；以及

控制部，通过基于所述已学习模型获取的所述设定值来控制所述输送机构，从而进行打印，

所述已学习模型的学习通过下述方式执行：

观测包含所述打印长度的所述状态变量，基于观测到的所述状态变量来决定使所述设定值变化的行动，基于所述打印长度相对于基准的偏差使所述设定值最优化，

所述设定值包括由夹着所述打印介质进行输送的输送辊夹着所述打印介质的压力、作用于由所述输送机构输送的所述打印介质的张力、为了控制所述张力而实施的所述张力的检测的频度以及使所述打印介质吸附于既定的位置的吸附装置的吸附力中的至少一方，

所述已学习模型的学习通过下述方式执行：

基于奖励，重复进行所述状态变量的观测、与观测到的所述状态变量相应的所述行动的决定、以及通过决定出的所述行动得到的所述奖励的评价，从而使所述设定值最优化，

所述奖励为相对于所述打印长度的基准的偏差越小则所述奖励越大。

2.根据权利要求1所述的打印装置，其特征在于，

所述状态变量包括所述打印装置的周围的温度与湿度中的至少一方。

3.根据权利要求1所述的打印装置，其特征在于，

所述已学习模型针对所述打印介质的每个种类进行学习。

4.一种学习装置，其特征在于，

是在具备打印介质的输送机构的打印装置中所参照的已学习模型的学习装置，

所述学习装置具备将如下模型获取为所述已学习模型的学习部：基于包括打印在所述打印介质的打印成果物的长度即打印长度的状态变量，输出使所述打印长度接近基准的所述输送机构的设定值的模型，

所述已学习模型的学习通过下述方式执行：

5.一种学习方法，其特征在于，

是在具备打印介质的输送机构的打印装置中所参照的已学习模型的学习方法，

在所述学习方法中，将如下模型获取为所述已学习模型：基于包括打印在所述打印介质的打印成果物的长度即打印长度的状态变量，输出使所述打印长度接近基准的所述输送机构的设定值的模型，

所述已学习模型的学习通过下述方式执行：