JP2021123479A

JP2021123479A - 給紙装置システム、給紙装置、給紙装置制御プログラム、および画像形成装置

Info

Publication number: JP2021123479A
Application number: JP2020019212A
Authority: JP
Inventors: 祐史藤田; Yuji Fujita
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2020-02-06
Filing date: 2020-02-06
Publication date: 2021-08-30
Anticipated expiration: 2040-02-06
Also published as: JP7392502B2

Abstract

【課題】用紙の種類や装置の設置環境によらずに、高精度な用紙供給を実施することが可能な給紙装置システムを提供する。【解決手段】空気の吹き出しによって給紙トレイ上の用紙束から用紙を浮上させる機能を有するファンと、前記浮上させた用紙を吸着して搬送する吸着搬送部と、駆動制御プログラムに基づいて前記ファンと前記吸着搬送部の駆動を制御する駆動制御部と、前記用紙の浮上を検出する浮上検出部材と、強化学習を実施することにより、前記駆動制御プログラムを更新するための制御情報を作成する学習装置と備え、前記学習装置は、前記浮上検出部材での検出結果に基づいて報酬を付与することによって、前記強化学習を実施する給紙装置システムである。【選択図】図４

Description

本発明は、給紙装置システム、給紙装置、給紙装置制御プログラム、および画像形成装置に関する。

複写機、プリンタ装置、ファクシミリ装置、印刷機、複合機等の画像形成装置には、用紙を積層した用紙束から一枚の用紙を取り出して搬送する給紙装置が装備されている。このような給紙装置の一つとして、用紙束から用紙を浮上させるための空気を吹き出すファン、および浮上した用紙を１枚ずつに分離するための空気を吹き出すファンを備え、分離した最上部の用紙を吸着ベルトに吸着させて搬送する方式のものがある。

このような方式の給紙装置においては、一度に複数枚の用紙が搬送される重送が発生した場合、用紙詰まり等の異常発生の原因となる。そこで、用紙の搬送状況を検出する検出手段と、検出手段の検出結果に応じてファンから吹き出す空気の流量を調整する調整手段を設けることにより、空気の流量を適正化して重送を抑止する構成が提案されている（下記特許文献１参照）。

特開２０１５−４００９６号公報

しかしながら、検出手段での検出結果に応じてファンから吹き出す空気の流量を調整する構成では、経験に基づいて予め設定された仕様に基づき、予め設定されたパターンにしたがった流量調整しか行うことができない。このため、実際に使用される多種多様な種類の用紙や、様々な装置環境に対して装置性能を満足するような調整を実施することは難しかった。

そこで本発明は、用紙の種類や装置の設置環境によらずに、高精度な用紙供給を実施することが可能な給紙装置システム、給紙装置、および給紙装置制御プログラムを提供することを目的とする。また本発明は、これらの給紙装置システム、給紙装置、給紙装置制御プログラムを用いることにより、複数枚の用紙に対して連続した円滑な画像形成が可能な画像形成装置を提供することを目的とする。

このような目的を達成するための本発明は、空気の吹き出しによって給紙トレイ上の用紙束から用紙を浮上させる機能を有するファンと、前記浮上させた用紙を吸着して搬送する吸着搬送部と、駆動制御プログラムに基づいて前記ファンと前記吸着搬送部の駆動を制御する駆動制御部と、前記用紙の浮上を検出する浮上検出部材と、強化学習を実施することにより、前記駆動制御プログラムを更新するための制御情報を作成する学習装置と備え、前記学習装置は、前記浮上検出部材での検出結果に基づいて報酬を付与することによって、前記強化学習を実施する給紙装置システムである。

本発明によれば、用紙の種類や装置の設置環境によらずに、高精度な用紙供給を実施することが可能な給紙装置システム、給紙装置、および給紙装置制御プログラムを提供すること、および複数枚の用紙に対して連続した円滑な画像形成が可能な画像形成装置を提供することができる。

本発明の実施形態に係る給紙装置システムの概略構成図である。本実施形態の給紙装置本体の概略断面図である。本実施形態の給紙装置本体の要部拡大図である。本発明の実施形態に係る給紙装置システムのブロック図である。本実施形態の給紙装置本体の駆動の概要を説明する図（その１）である。本実施形態の給紙装置本体の駆動の概要を説明する図（その２）である。本実施形態の給紙装置本体の駆動の概要を説明する図（その３）である。本実施形態に係る給紙装置システムによって実施される学習処理の手順を示すフローチャートである。本実施形態に係る強化学習における行動の一例を示す図である。本実施形態に係る強化学習において報酬の計算処理に用いる浮上完了高さまでの浮上時間［ｔ］を説明する図（その１）である。本実施形態に係る強化学習において報酬の計算処理に用いる浮上完了高さまでの浮上時間［ｔ］を説明する図（その２）である。浮上完了高さまでの浮上時間［ｔ］に基づく報酬の計算処理においてする報酬の付与を説明するためのグラフである。浮上完了高さまでの浮上時間［ｔ］に基づく報酬の計算処理を示すフローチャートである。強化学習における報酬の計算処理の他の例を説明する図である。各浮上高さでの浮上時間［ｔ］に基づく報酬の計算処理においてする報酬の付与を説明するためのグラフである。本実施形態に係る強化学習における行動の学習処理を示すフローチャートである。本実施形態に係る強化学習の一例を説明するＱテーブルの図である。本実施形態に係る給紙装置システムによって実施される駆動制御プログラムの更新処理を示すフローチャートである。本実施形態に係る給紙装置システムを有する画像形成装置の一例を示す構成図である。

以下、本発明の給紙装置システム、給紙装置、給紙装置制御プログラム、および画像形成装置を実施するための形態を、図面に基づいて説明する。なお以下の説明において、各図に共通の部材には同一の符号を付し、重複する説明は省略する。

≪給紙装置システム≫
図１は、本発明の実施形態に係る給紙装置システム１の概略構成図である。また図２は、本実施形態の給紙装置本体１０の概略断面図であって、図１のＡ−Ａ’断面に相当する図である。これらの図に示す給紙装置システム１は、給紙装置本体１０と、学習装置２０（図１のみに図示）とを備える。

このうち給紙装置本体１０は、積層複数の用紙Ｐを積層した用紙束Ｐｂに空気を吹き付けることで用紙Ｐを浮上させて分離し、分離した１枚の用紙Ｐを搬送方向Ｘに搬送する空気分離方式のものである。このような給紙装置本体１０は、用紙Ｐが積載される給紙トレイ１１、用紙規制部材１２、側方ファン１３Ｌ，１３Ｒ、先端ファン１４、吸着搬送部１５、用紙搬送部１６（図２のみに図示）、制御部１７、および入力部１８（図１のみに図示）を備えている。また給紙装置本体１０は、上昇検知センサーＵＳ（図２のみに図示）、用紙Ｐの浮上高さセンサーＬＳ１〜ＬＳｎ、規制部材位置センサーＢＳ，ＦＳ（図１のみに図示）、吸着センサーＡＳおよび開閉センサーＯｐＳ（図２のみに図示）を備えている。

一方、学習装置２０は、給紙装置本体１０を駆動するためのファームウェアである駆動制御プログラムを更新するための強化学習を実施するものである。この学習装置２０は、複数の給紙装置本体１０によって共有される構成のものであってもよい。さらに学習装置２０は、給紙装置本体１０または複数の給紙装置本体１０を備えた給紙システムに組み込まれ、これらと共に給紙装置を構成してもよい。

以下、図１および図２に基づき、必要に応じて他の図を参照しつつ、本実施形態に係る給紙装置システム１の詳細を、給紙装置本体１０の構成要素から順に説明し、次いで給紙装置本体１０の駆動の概要を説明し、その後、学習装置２０の詳細を説明する。

＜給紙トレイ１１＞
給紙トレイ１１は、図示しない昇降機構によって、図中の白抜き矢印に示すように昇降可能となっている。すなわち、用紙Ｐは給紙トレイ１１上に昇降可能に収容されている。また、給紙トレイ１１は、以降に説明する上昇検知センサーＵＳでの検知結果に基づく昇降機構の制御により、上部に積載された用紙束Ｐｂの高さが所定の高さに維持される。所定の高さとは、以降に説明する側方ファン１３Ｌ，１３Ｒ、および先端ファン１４からの空気の吹き付けによる用紙Ｐの浮上および用紙Ｐの分離に最適な高さである。

＜用紙規制部材１２＞
用紙規制部材１２は、給紙トレイ１１上における用紙Ｐの載置位置を規制する部材であって、給紙トレイ１１上に積載された用紙Ｐの四方向に配置されている。このような用紙規制部材１２は、前端規制部材１２Ａ、後端規制部材１２Ｂ、側部規制部材１２Ｌ，１２Ｒである。

［前端規制部材１２Ａ］
前端規制部材１２Ａは、給紙トレイ１１上に積載された用紙Ｐの搬送方向Ｘの前方に配置され、用紙Ｐの搬送方向Ｘの前端位置を規制している。ここで用紙Ｐの搬送方向Ｘとは、以降に説明する吸着搬送部１５が用紙Ｐを搬送する方向である。このような前端規制部材１２Ａは、例えば板状の部材であって、上端部を切り欠いた前端開口１２１（図２のみに図示）を有する。この前端開口１２１は、以降に説明する先端ファン１４から吹き出された空気を、用紙束Ｐｂの前端側から給紙トレイ１１上に積載された用紙Ｐの用紙束Ｐｂの上部に吹き付けるための開口となっている。

なお、前端規制部材１２Ａは、次に説明する先端ファン１４を収容する箱状の筐体であってもよい。この場合、前端規制部材１２Ａは、給紙トレイ１１側に向く部分と、給紙トレイ１１側において上方に向く部分とに設けられ、これらの部分は連通していてもよい。

［後端規制部材１２Ｂ］
後端規制部材１２Ｂは、給紙トレイ１１上に積載された用紙Ｐの搬送方向Ｘの後端側に配置さている。この後端規制部材１２Ｂは、用紙Ｐの搬送方向Ｘに移動自在に構成された板状の部材であって、給紙トレイ１１上に積載された用紙Ｐを、搬送方向Ｘの後端側から軽く押圧することによって用紙Ｐの搬送方向Ｘの後端位置を規制している。

このような後端規制部材１２Ｂは、後端部材駆動機構１２０１（図２のみに図示）を備え、この後端部材駆動機構１２０１によって用紙Ｐの搬送方向Ｘに移動自在である。後端部材駆動機構１２０１は、以降に説明する制御部１７からの指示によって、後端規制部材１２Ｂを所定の位置に移動させる。

［側部規制部材１２Ｌ，１２Ｒ］
側部規制部材１２Ｌ，１２Ｒは、給紙トレイ１１上に積載された用紙Ｐの幅方向Ｙの両側に配置されている。用紙Ｐの幅方向Ｙとは、給紙トレイ１１上に積載された用紙Ｐの搬送方向Ｘに対して垂直な方向である。これらの側部規制部材１２Ｌ，１２Ｒは、幅方向Ｙに移動自在に設けられており、給紙トレイ１１上に積載された用紙Ｐの用紙幅に対応して、用紙Ｐを両側から軽く押圧することによって用紙Ｐの両側位置を規制する。

このような側部規制部材１２Ｌ，１２Ｒは、側部駆動機構１２０２（図２のみに図示）を備え、この側部駆動機構１２０２によって幅方向Ｙに移動自在である。側部駆動機構１２０２は、以降に説明する制御部１７からの指示によって、側部規制部材１２Ｌ，１２Ｒを所定の位置に移動させる。

またこれらの側部規制部材１２Ｌ，１２Ｒは、次に説明する側方ファン１３Ｌ，１３Ｒを収容する筐体として構成されている。このような側部規制部材１２Ｌ，１２Ｒは、給紙トレイ１１側に向く上方部分に側部開口１２２を有し、給紙トレイ１１上に積載された用紙Ｐの用紙束Ｐｂの上部に、用紙束Ｐｂの幅方向Ｙの両側方から空気を吹き付ける構成となっている。

＜側方ファン１３Ｌ，１３Ｒ＞
側方ファン１３Ｌ，１３Ｒは、用紙束Ｐｂの上部の用紙Ｐを浮上させる浮上ファンとして用いられるものであり、側部規制部材１２Ｌ，１２Ｒの内部に収容されている。各側方ファン１３Ｌ，１３Ｒは、送風管１３１を有し、送風管１３１の吹出口１３２は、側部規制部材１２Ｌ，１２Ｒの側部開口１２２に一致して設けられている。これにより、側方ファン１３Ｌ，１３Ｒは、用紙Ｐの搬送方向Ｘに直交する幅方向Ｙの両側から用紙束Ｐｂの上部に空気を吹き付け、用紙束Ｐｂの上部の用紙Ｐを浮上させる浮上ファンとして機能する。このような側方ファン１３Ｌ，１３Ｒは、以降に説明する制御部１７からの指示に基づいて、オン／オフおよび風量の調整が自在である。

なお、各側方ファン１３Ｌ，１３Ｒの吹出口１３２からの空気の吹き出し方向は、幅方向Ｙに完全に一致している必要はなく、次に説明する先端ファン１４からの空気の吹き出しとのバランスを考慮し、必要に応じた角度で搬送方向Ｘに向けられていていることとする。また各側方ファン１３Ｌ，１３Ｒの吹出口１３２からの空気の吹き出しの高さ方向、すなわち搬送方向Ｘおよび幅方向Ｙに対して垂直な方向の角度も同様である。

以上のような側方ファン１３Ｌ，１３Ｒは、側部規制部材１２Ｌ，１２Ｒ内に収容されているため、用紙Ｐのサイズが変更された場合でも、側部規制部材１２Ｌ，１２Ｒを移動させることによって、側方ファン１３Ｌ，１３Ｒも一緒に移動することになる。なお、本例では、２つの側方ファン１３Ｌ，１３Ｒを用紙Ｐの両側に設ける構成を採っているが、片側だけに側方ファン１３Ｌ，１３Ｒを設ける構成としてもよい。

＜先端ファン１４＞
先端ファン１４は、用紙束Ｐｂから浮上した複数の用紙Ｐを捌いて分離させるための分離ファン、および用紙束Ｐｂの上部の用紙Ｐを浮上させる浮上ファンとで機能を切り替えて用いられる機能切替ファンである。このような先端ファン１４は、前端規制部材１２Ａに近接して配置されている。前端規制部材１２Ａが、筐体として構成されている場合であれば、先端ファン１４は前端規制部材１２Ａの内部に収容されていることとする。このような先端ファン１４は、送風管１４１を有する。送風管１４１の吹出口１４２（図２のみに図示）は、前端規制部材１２Ａの前端開口１２１に一致して設けられている。

図３は、本実施形態の給紙装置本体１０の要部拡大図であって、先端ファン１４の上部を含む部分を拡大した概要図である。この図に示すように、先端ファン１４は、送風管１４１の吹出口１４２側に、先端ファン１４からの空気の吹き出し角度を制御するための先端シャッター１４３を備えている。先端シャッター１４３は、切替駆動部１４４を備える。切替駆動部１４４は、ソレノイドであって、以降に説明する制御部１７（図１および図２参照）による制御に基づいて駆動し、先端ファン１４からの空気の吹き出し角度を可変とし、先端ファン１４の機能を、用紙Ｐの浮上用と分離用とで切り替える。

より具体的には、切替駆動部１４４の駆動により、送風管１４１の吹出口１４２側の下方を先端シャッター１４３で閉じることにより、図３中の実線矢印に示すように、先端ファン１４からの空気の吹き出し角度が上方側となる。これにより、先端ファン１４は、上方に浮上した複数の用紙Ｐ間に空気を吹き込んで用紙Ｐを分離する分離ファンとして機能するようになる。

これに対し、切替駆動部１４４の駆動により、送風管１４１の吹出口１４２側の上方を先端シャッター１４３で閉じる（図３中の二点鎖線の状態とする）ことにより、図３中の破線矢印で示すように、先端ファン１４からの空気の吹き出し角度が水平側となる。これにより、先端ファン１４は、用紙Ｐの搬送方向Ｘから用紙束Ｐｂの上部に空気を吹き付け、用紙束Ｐｂの上部の用紙Ｐを浮上させる浮上ファンとして機能するようになる。

以上のように、先端ファン１４は、送風管１４１の吹出口１４２側に配置した先端シャッター１４３を切替駆動部１４４によって駆動することにより、分離ファンまたは浮上ファンのいずれか一方に切り替えられる。このような先端ファン１４は、以降に説明する制御部１７からの指示に基づいて、分離ファンと浮上ファンとの機能の切り替えと、オン／オフ、および風量の調整が自在である。

＜吸着搬送部１５＞
図１および図２に戻り、吸着搬送部１５は、用紙Ｐの搬送方向Ｘの前端部上方に配置されている。この吸着搬送部１５は、駆動ローラー１５１、２つの従動ローラー１５２Ａ，１５２Ｂ、吸着ベルト１５３、および吸引装置１５４を有する。

駆動ローラー１５１は、用紙Ｐの幅方向Ｙに軸を向けた状態で、用紙Ｐの搬送方向Ｘの上流側に配置されている。従動ローラー１５２Ａ，１５２Ｂは、用紙Ｐの積層方向に並べて配置されている。これらの従動ローラー１５２Ａ，１５２Ｂは、駆動ローラー１５１に対して軸を平行に保った状態で、駆動ローラー１５１に対して用紙Ｐの搬送方向Ｘの下流側に所定の距離だけ離間して配置されている。

吸着ベルト１５３は、無端状のものであって、駆動ローラー１５１と、従動ローラー１５２Ａ，１５２Ｂとにわたって巻回されている。この吸着ベルト１５３は、多数の小径の貫通孔１５３ａ（図１のみに図示）を有する。

吸引装置１５４は、駆動ローラー１５１と、従動ローラー１５２Ａ，１５２Ｂとの間で、これらに巻回された吸着ベルト１５３の内周部に配置されている。吸引装置１５４は、吸着ベルト１５３に穿設された貫通孔１５３ａを介して用紙Ｐを上方から吸引する。すなわち、吸着搬送部１５は、吸引装置１５４によって吸着ベルト１５３に用紙Ｐを吸着させつつ、駆動ローラー１５１の駆動による吸着ベルト１５３の回動によって用紙Ｐを搬送方向Ｘに搬送する。

この吸引装置１５４は、用紙Ｐの搬送方向（Ｘ方向）に沿って２つの吸引ダクトに分割され、一方の吸引ダクトのみで用紙Ｐを吸引する場合と、２つの吸引ダクトで用紙Ｐを吸引する場合とに切り換え可能な構成となっていてもよい。

以上のような吸着搬送部１５は、以降に説明する制御部１７からの指示に基づいて、駆動ローラー１５１による用紙Ｐの搬送のオン／オフ、および吸引装置１５４による用紙Ｐの吸着のオン／オフが自在である。

＜用紙搬送部１６＞
図２に示すように、用紙搬送部１６は、吸着搬送部１５における用紙Ｐの搬送方向Ｘの下流側に配置されている。この用紙搬送部１６は、下方ガイド部材１６１、上方ガイド部材１６２、下方搬送ローラー１６３、および上方搬送ローラー１６４を備える。

下方ガイド部材１６１および上方ガイド部材１６２は、例えば板状のものであって、吸着搬送部１５から搬送された用紙Ｐの経路を、上下方向から間隔を設けて挟むように配置されている。また下方ガイド部材１６１は、下方搬送ローラー１６３を回動自在に支持する。上方ガイド部材１６２は、上方搬送ローラー１６４を回動自在に支持する。

下方搬送ローラー１６３および上方搬送ローラー１６４は、それぞれが下方ガイド部材１６１と上方ガイド部材１６２とに対して回動自在に支持された状態で、用紙Ｐを挟持するニップ部を形成する。これらの下方搬送ローラー１６３および上方搬送ローラー１６４は、ニップした用紙Ｐを搬送方向Ｘに排出する。

＜制御部１７＞
図４は、本発明の実施形態に係る給紙装置システム１のブロック図である。以下、図４に基づき、先の図１〜図３を参照しつつ、制御部１７の構成を説明する。制御部１７は、以降に説明する入力部１８、上昇検知センサーＵＳ、用紙Ｐの浮上高さセンサーＬＳ１〜ＬＳｎ、規制部材位置センサーＢＳ，ＦＳ、吸着センサーＡＳ、および開閉センサーＯｐＳに接続され、これらで検知した信号が入力される。また制御部１７は、側方ファン１３Ｌ，１３Ｒ、先端ファン１４、先端ファン１４に設けた切替駆動部１４４、吸着搬送部１５、用紙搬送部１６に接続され、これらの駆動を制御する。さらに制御部１７は、後端規制部材１２Ｂおよび側部規制部材１２Ｌ，１２Ｒのそれぞれの駆動機構に接続され、後端規制部材１２Ｂおよび側部規制部材１２Ｌ，１２Ｒの位置を制御する。さらに制御部１７は、以降に説明する学習装置２０に接続され、学習装置２０との間での通信が可能である。

このような制御部１７は、マイクロコンピューターなどの計算機によって構成されている。計算機は、いわゆるコンピューターとして用いられるハードウェアであって、ここでの図示を省略したＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、およびＲＯＭ（Read Only Memory）やＨＤＤ（hard disk drive）のような不揮発性の記憶部を備える。また計算機は、ＲＴＣ（real-time clock）および通信インタフェースを備えている。

以上のような計算機によって構成された制御部１７は、機能要素として駆動制御部１７１と、学習情報収集部１７２と、学習情報通知部１７３と、更新処理部１７４とを有する。これらの各機能要素によって実行される手順は、ＲＯＭに保存されたプログラム、または外部装置からＲＡＭにロードされて保存されたプログラムであることとする。以下、これらの各機能要素を説明する。

［駆動制御部１７１］
駆動制御部１７１は、入力部１８からの指示、上昇検知センサーＵＳ、用紙Ｐの浮上高さセンサーＬＳ１〜ＬＳｎ、規制部材位置センサーＢＳ，ＦＳ、吸着センサーＡＳ、および開閉センサーＯｐＳから入力された信号に基づいて、給紙装置本体１０の各駆動部分の駆動を制御する。駆動制御部１７１による給紙装置本体１０の各駆動部分の駆動の制御は、駆動制御プログラムに従って実施される。

駆動制御プログラムは、例えば（１）側方ファン１３Ｌ，１３Ｒのオン／オフ、（２）先端ファン１４のオン／オフ、（３）先端ファン１４の機能の切り替え、（４）側方ファン１３Ｌ，１３Ｒの風量、（５）先端ファン１４の風量、（６）後端規制部材１２Ｂの位置、および（７）側部規制部材１２Ｌ，１２Ｒの位置の制御を含む。また駆動制御プログラムは、（８）吸着搬送部１５における駆動ローラー１５１の駆動、および（９）用紙搬送部１６の駆動の制御を含む。

以上の駆動制御プログラムに従った駆動制御部１７１による制御の手順は、以降の給紙装置本体１０の駆動の概要において説明する。

［学習情報収集部１７２］
学習情報収集部１７２は、学習装置２０で実施する強化学習に必要な情報を、学習情報として収集する。このような学習情報は、給紙装置本体１０の駆動情報、および用紙Ｐに関する用紙情報である。

このうち駆動情報は、上昇検知センサーＵＳ、用紙Ｐの浮上高さセンサーＬＳ１〜ＬＳｎ、規制部材位置センサーＢＳ，ＦＳ、吸着センサーＡＳ、および開閉センサーＯｐＳが検知したセンシングデータであって、給紙装置本体１０の装置状態を示す装置情報を含む。また駆動情報は、駆動制御部１７１によって実施される駆動制御プログラムを含む。

また用紙情報は、給紙装置本体１０において給紙した用紙Ｐについての用紙情報、および次に給紙を実施する用紙Ｐについての用紙情報である。これらの用紙情報は、例えば用紙Ｐの種類、サイズ、坪量、および平滑度（表面性）である。用紙Ｐの種類は、普通紙、上質紙、表面が平滑な塗工紙、ＯＨＰフィルム、トレース用紙、厚手紙、光沢紙などを例示することができる。また用紙Ｐの種類には、用紙Ｐの平滑度のような表面性に関する情報や、封筒であるか否かなどの情報が含まれていてもよい。用紙Ｐのサイズは、用紙Ｐの搬送方向Ｘおよび幅方向Ｙの大きさであり、Ａ４サイズ、Ｂ５サイズ、Ｂ４サイズ、Ａ３サイズなどを例示することができる。用紙Ｐの坪量は、用紙Ｐの１ｍ^２当たりの重量である。

このような用紙情報は、次に説明する入力部１８から入力されるか、またはこの給紙装置本体１０が、メディアセンサーを備えている場合は、メディアセンサーでの測定結果を反映した情報であってよい。メディアセンサーは、例えば坪量であれば超音波センサーの音の跳ね返りや透過型センサーの受光機が受ける光の減衰程度で測ることができる。平滑度であればＣＭＯＳセンサーなどで用紙を斜めから撮影し、用紙の端部の凹凸から測定することができる。

学習情報収集部１７２は、これらの学習情報を、駆動制御部１７１から収集してもよいし、上昇検知センサーＵＳ、用紙Ｐの浮上高さセンサーＬＳ１〜ＬＳｎ、規制部材位置センサーＢＳ，ＦＳ、吸着センサーＡＳ、および開閉センサーＯｐＳから直接収集してもよい。この学習情報収集部１７２による学習情報の収集の手順は、駆動制御プログラムを更新するための更新プログラムに従って実施される。この更新プログラムは、この給紙装置システム１によって実施される給紙装置制御プログラムの一部であり、以降の給紙装置の制御方法において詳細に説明する。

［学習情報通知部１７３］
学習情報通知部１７３は、学習情報収集部１７２で収集した学習情報を、以次に説明する学習装置２０に通知する。この学習情報通知部１７３による学習情報の通知の手順は、上述した更新プログラムに従って実施される手順である。

［更新処理部１７４］
更新処理部１７４は、以次に説明する学習装置２０から出力された制御情報に基づいて、駆動制御部１７１において実行される駆動制御プログラムを更新する。この更新処理部１７４による駆動制御プログラムの更新の手順は、上述した更新プログラムに従って実施される手順である。

＜入力部１８＞
入力部１８は、給紙装置本体１０による給紙開始の指示、および給紙装置本体１０で給紙する用紙Ｐの種類、サイズ、坪量、および平滑度（表面性）を入力する。このような入力部１８は、例えば図示したタッチパネル式の操作部のようにユーザーが任意に指定操作する構成のものであってよい。なお、用紙Ｐの種類、サイズ、坪量、および平滑度（表面性）は、上述したメディアセンサーなどを用いて自動的に判別される構成であってもよい。この場合、用紙Ｐの種類、サイズ、坪量、および平滑度（表面性）を判別するためのメディアセンサーも、入力部１８として含んでよい。

＜上昇検知センサーＵＳ＞
上昇検知センサーＵＳは、用紙Ｐが積載された給紙トレイ１１の上昇を制御するためのセンサーである。このような上昇検知センサーＵＳは、給紙トレイ１１上に積載された用紙束Ｐｂの最上部が、所定の高さ位置にまで上昇したことを検知する。所定の高さとは、先にも説明したように、側方ファン１３Ｌ，１３Ｒ、および先端ファン１４からの空気の吹き付けにより、給紙トレイ１１上に積載された用紙Ｐの浮上および用紙Ｐの分離に最適な高さである。

＜浮上高さセンサーＬＳ１〜ＬＳｎ＞
図３に示すように、浮上高さセンサーＬＳ１〜ＬＳｎは、給紙トレイ１１上の用紙束Ｐｂからの用紙Ｐの浮上を検出するための浮上検出部材に含まれる。浮上高さセンサーＬＳ１〜ＬＳｎは、用紙Ｐの積層方向である高さ方向Ｈに沿って複数配置され、用紙Ｐの浮上高さ[ｈ]を検知する。ここでは、用紙束Ｐｂの上端から、吸着搬送部１５における吸着ベルト１５３の下端面までの間に、用紙束Ｐｂの上端側から順に浮上高さセンサーＬＳ１〜ＬＳｎを配置した。これらの浮上高さセンサーＬＳ１〜ＬＳｎは、例えば浮上した用紙Ｐが各浮上高さセンサーＬＳ１〜ＬＳｎと一致する高さとなった場合にオン状態となり、それ以外はオフ状態となり、これにより用紙Ｐの浮上高さが検知される構成となっている。なお、浮上高さセンサーＬＳ１〜ＬＳｎは、用紙束Ｐｂから吸着搬送部１５までの間の用紙Ｐの浮上高さを検知できれば、個々に設けられたセンサーに限定されることはなく、複数の撮像素子を有して用紙Ｐの浮上高さを画像で読み取るラインセンサーのような撮像装置であってもよい。

＜規制部材位置センサーＢＳ，ＦＳ＞、
規制部材位置センサーＢＳ，ＦＳは、後端規制部材１２Ｂの位置を検知する後端規制部材位置センサーＢＳと、側部規制部材１２Ｌ，１２Ｒの位置を検知する側部規制部材位置センサーＦＳである。

このうち後端規制部材位置センサーＢＳは、後端規制部材１２Ｂの位置を検知する。後端規制部材位置センサーＢＳが検知する後端規制部材１２Ｂの位置は、例えば給紙トレイ１１上に積載された用紙束Ｐｂに対する後端規制部材１２Ｂの位置である。後端規制部材位置センサーＢＳは、検知した後端規制部材１２Ｂの位置情報を、制御部１７に送る。

また側部規制部材位置センサーＦＳは、側部規制部材１２Ｌ，１２Ｒの位置を検知する。側部規制部材位置センサーＦＳが検知する側部規制部材１２Ｌ，１２Ｒの位置は、例えば給紙トレイ１１上に積載された用紙束Ｐｂに対する側部規制部材１２Ｌ，１２Ｒの位置である。側部規制部材位置センサーＦＳは、検知した側部規制部材１２Ｌ，１２Ｒの位置情報を、制御部１７に送る。

＜吸着センサーＡＳ＞
吸着センサーＡＳは、用紙束Ｐｂの上部から浮上した用紙Ｐが、吸着搬送部１５の吸着ベルト１５３に吸着したことを検知する。吸着センサーＡＳは、給紙トレイ１１上の用紙束Ｐｂからの用紙Ｐの浮上を検出するための浮上検出部材に含まれる。このような吸着センサーＡＳは、例えば吸着ベルト１５３の内周側から、吸着ベルト１５３の下面に臨む位置に配置されている。

＜開閉センサーＯｐＳ＞
開閉センサーＯｐＳは、給紙トレイ１１上への用紙Ｐの出し入れを検知する。このような開閉センサーＯｐＳは、一例として後端規制部材１２Ｂに設けられ、後端規制部材１２Ｂの移動を検知することによって、給紙トレイ１１上への用紙Ｐの出し入れを検知する構成であるが、これに限定されることはない。

なお、ここでの図示は省略したが、この給紙装置本体１０には、さらに用紙Ｐの搬送方向Ｘの先端位置を検知するための用紙位置センサーや、吸着搬送部１５によって搬送された用紙Ｐが１枚であるか複数枚積層されているかを検知するための重送センサーを有していることとする。

＜給紙装置本体１０の駆動の概要＞
次に、駆動制御プログラムに従った駆動制御部１７１での制御による給紙装置本体１０の駆動の概要を説明する。図５〜図７は、本実施形態の給紙装置本体の駆動の概要を説明する図（その１）〜（その３）である。以下、これらの図に基づいて、上述した構成の給紙装置本体１０の駆動の概要を説明する。

先ず図５に示すように、吸着搬送部１５の駆動ローラー１５１をオフ、吸引装置１５４をオン状態としておく。この状態で、側方ファン１３Ｌ，１３Ｒをオン状態として、用紙束Ｐｂの上部に、側方ファン１３Ｌ，１３Ｒからの空気を吹き出し、用紙束Ｐｂの上部の用紙Ｐを浮上させる。この際、切替駆動部１４４の切り替えにより、先端ファン１４を浮上ファンに切り替えた状態で、先端ファン１４をオン状態として用紙Ｐの浮上を補助する。そして、最上部の用紙Ｐが、吸着センサーＡＳに達すると、側方ファン１３Ｌ，１３Ｒをオフ状態とする。

次に、図６に示すように、側方ファン１３Ｌ，１３Ｒをオフ状態とし、先端ファン１４をオン状態とし、切替駆動部１４４の切り替えにより、先端ファン１４を分離ファンに切り替える。これにより、分離ファンとして機能させた先端ファン１４により、浮上した複数枚の用紙Ｐ間に空気を吹き込んで用紙Ｐ間を捌いて分離し、１枚の用紙Ｐのみを吸着搬送部１５の吸着ベルト１５３に吸着させる。

この状態で、図７に示すように、側方ファン１３Ｌ，１３Ｒと共に、先端ファン１４をオフ状態とし、所定のタイミングで吸着搬送部１５の駆動ローラー１５１をオン状態とする。これにより、吸着ベルト１５３に吸着させた１枚の用紙Ｐを、搬送方向Ｘに搬送する。また吸着搬送部１５によって搬送方向Ｘに搬送された用紙Ｐは、図２に示した用紙搬送部１６によって、さらに搬送方向Ｘに搬送される。

以上説明した給紙装置本体１０の駆動手順は、給紙装置本体１０の駆動の概要であって、駆動制御部１７１が有する駆動制御プログラムは、（１）側方ファン１３Ｌ，１３Ｒのオン／オフ、（２）先端ファン１４のオン／オフ、（３）先端ファン１４の機能の切り替え、（４）側方ファン１３Ｌ，１３Ｒの風量、（５）先端ファン１４の風量、（６）後端規制部材１２Ｂの位置、および（７）側部規制部材１２Ｌ，１２Ｒの位置などを、精密に制御する。このような駆動制御プログラムは、次に説明する学習装置２０からの出力に基づき、更新プログラムに従って適宜のタイミングで更新される。

＜学習装置２０＞
図４に戻り、学習装置２０は、給紙装置本体１０の駆動制御部１７１が有する駆動制御プログラムを更新するための制御情報を、強化学習によって作成するためのものである。このような学習装置２０は、計算機によって構成されている。計算機は、上述したコンピューターとして用いられるハードウェアである。

この学習装置２０において実施する制御情報の作成の手順は、以降の給紙装置の制御方法において詳細に説明する。この学習装置２０において実施する制御情報の作成手順は、学習プログラムとしてＲＯＭに保存されたプログラムであるか、または外部装置からＲＡＭや他の記憶部にロードされて保存されたプログラムである。このような学習プログラムは、この給紙装置システム１によって実施される給紙装置制御プログラムの一部である。

またこのような学習装置２０は、給紙装置本体１０に対して近接して、または給紙装置本体１０と一体に設けられて給紙装置を構成してもよいが、これに限定されることはない。すなわち学習装置２０は、ネットワーク上のサーバーに設けられ、複数の給紙装置本体１０によって共有されるものであってもよい。

以上のような学習装置２０は、機能要素として学習情報取得部２１、報酬計算部２２、学習部２３、および制御情報出力部２４を有する。以下、これらの各機能要素を説明する。

［学習情報取得部２１］
学習情報取得部２１は、給紙装置本体１０の制御部１７から通知された学習情報を取得する。この学習情報取得部２１が取得した学習情報は、報酬計算部２２と学習部２３とに出力される。

［報酬計算部２２］
報酬計算部２２は、学習情報取得部２１から出力された学習情報に基づいて、次の学習部２３において実施する学習のための報酬の計算を実施する。この報酬計算部２２における報酬の計算手順は、予め定めたルールに従って実施される。このような報酬の計算は、以降の給紙装置の制御方法において詳細に説明する。

［学習部２３］
学習部２３は、学習情報取得部２１で取得した学習情報と、報酬計算部２２において計算した報酬の計算結果とに基づく学習を実施する。この学習部２３において実施する学習は、学習における行動価値を算出することにより、行動価値が最も高くなるような行動を学習する。また学習部２３は、学習結果から、給紙装置本体１０において実施する次の行動を決定する。

ここで次の行動とは、学習に基づいて決定した行動価値が最も高い行動であって、給紙装置本体１０の駆動を制御するための駆動制御プログラムにおいて更新の対象となる制御パラメーターのタイミングや値に相当する。具体的には、駆動制御プログラムにおける（１）側方ファン１３Ｌ，１３Ｒのオン／オフ、（２）先端ファン１４のオン／オフ、（３）先端ファン１４の機能の切り替え、（４）側方ファン１３Ｌ，１３Ｒの風量、（５）先端ファン１４の風量、（６）後端規制部材１２Ｂの位置、および（７）側部規制部材１２Ｌ，１２Ｒの位置のうちの少なくとも何れか１つである。この学習部２３における学習の手順は、以降の給紙装置の制御方法において詳細に説明する。

［制御情報出力部２４］
制御情報出力部２４は、学習部２３での学習結果に基づいて決定した次の行動を、制御プログラムの更新情報として給紙装置本体１０に出力する。

≪給紙装置制御プログラムによる給紙装置の制御方法≫
次に、以上のような構成の給紙装置システム１によって実施される給紙装置の制御方法を説明する。ここで説明する給紙装置の制御方法は、図１〜図４を用いて説明した給紙装置システム１における給紙装置本体１０の制御部１７と、学習装置２０とが、給紙装置制御プログラムを実行することによって実現される。給紙装置制御プログラムは、給紙装置本体１０の制御部１７が実行する駆動制御プログラムを更新するためのプログラムである。この給紙装置制御プログラムは、給紙装置本体１０の制御部１７が実行する更新プログラムと、学習装置２０が実行する学習プログラムとを含む。

ここでは先ず、学習装置２０において実施される学習プログラムによる学習処理の手順を説明し、次に給紙装置本体１０の制御部１７において実施される更新プログラムによる更新処理の手順を説明する。

＜学習処理の手順＞
図８は、本実施形態に係る給紙装置システムによって実施される学習処理の手順を示すフローチャートである。ここで説明する学習処理の手順は、給紙装置制御プログラムの一部である学習プログラムの手順であって、学習装置２０によって実施される。以下、図８のフローチャートに示す順に、図１〜図４および必要に応じて他の図を参照しつつ、学習処理の手順を説明する。

［ステップＳ１］
ステップＳ１において、学習情報取得部２１は、給紙装置本体１０の制御部１７から学習情報を取得したか否かを判断し、取得した（Ｙｅｓ）と判断されるまで待機する。ここで学習情報取得部２１が取得する学習情報は、制御部１７の学習情報収集部１７２が収集して学習情報通知部１７３から通知された情報であって、上述したような給紙装置本体１０の駆動情報、および用紙Ｐに関する用紙情報を含む。

学習情報取得部２１は、制御部１７から通知された学習情報を取得した（Ｙｅｓ）と判断した場合に、次のステップＳ２に進む。

［ステップＳ２］
ステップＳ２において、学習情報取得部２１は、取得した学習情報を、報酬計算部２２と学習部２３とに伝達する。この場合、報酬計算部２２には、駆動情報と、給紙装置本体１０において給紙した用紙Ｐについての用紙情報を伝達する。また学習部２３には、駆動情報と、次に給紙を実施する用紙Ｐについての用紙情報を伝達する。

［ステップＳ３］
ステップＳ３において、報酬計算部２２は、学習情報取得部２１が取得した学習情報に基づいて、強化学習における報酬の計算を実施する。この場合、報酬計算部２２は、学習情報の通知があった給紙装置本体１０について、強化学習における各状態の場合の各行動においての各報酬を計算する。以下、強化学習における状態と行動、および報酬の計算の具体例を説明する。

−強化学習における状態と行動−
この場合の強化学習における状態は、用紙Ｐの高さ位置であることとする。この高さ位置は、ここでは例えば、給紙トレイ１１上に積載された用紙束Ｐｂの最上部の高さ位置であって、上昇検知センサーＵＳで検知された所定の高さ位置であることとする。

またこの場合の強化学習における行動は、（１）側方ファン１３Ｌ，１３Ｒのオン／オフ、（２）先端ファン１４のオン／オフ、（３）先端ファン１４の機能の切り替え、（４）側方ファン１３Ｌ，１３Ｒの風量、（５）先端ファン１４の風量、（６）後端規制部材１２Ｂの位置、および（７）側部規制部材１２Ｌ，１２Ｒの位置のうちの少なくとも何れか１つである。なお、強化学習における行動は、給紙装置本体１０の駆動を制御するための駆動制御プログラムにおいて更新の対象となる制御パラメーターに相当する。

図９は、本実施形態に係る強化学習における行動の一例を示す図である。図９に示すように、強化学習における行動は、複数の行動を組み合わせてもよく、例えば規制部材の位置と、浮上ファンの風量との組み合わせを行動１〜行動１１０とした。

ここで、規制部材の位置とは、（６）後端規制部材１２Ｂの位置、および（７）側部規制部材１２Ｌ，１２Ｒの位置の少なくとも一方である。また浮上ファンの風量とは、例えば（４）側方ファン１３Ｌ，１３Ｒの風量と、（５）先端ファン１４の風量のうちで先端ファン１４を浮上ファンとして用いている場合の風量との合計としてもよく、（４）側方ファン１３Ｌ，１３Ｒの風量のみとしてもよい。

なお、行動として採用されなかった制御パラメーターは、予め設定された基準値として、以降の学習処理を進める。

−報酬について（その１）−
本実施形態に係る強化学習の報酬は、浮上検出部材である吸着センサーＡＳにおいての用紙Ｐの検出結果に基づいて算出される。より詳しくは、本実施形態に係る強化学習の報酬は、浮上ファンでの送風を開始してから、吸着搬送部１５に対する用紙Ｐの吸着が吸着センサーＡＳにおいて検出されるまでの間の浮上時間［ｔ］に基づいて算出される。ここでの浮上ファンは、例えば側方ファン１３Ｌ，１３Ｒ、および浮上ファンとして機能させた先端ファン１４であることとする。

図１０，図１１は、本実施形態に係る強化学習において報酬の計算処理に用いる浮上完了高さまでの浮上時間［ｔ］を説明する図（その１），（その２）である。

ここで浮上完了高さ［ｈｎ］までの浮上時間［ｔ］とは、これらの図に示すように、浮上ファンとしての側方ファン１３Ｌ，１３Ｒ、および先端ファン１４の送風を開始してから、吸着センサーＡＳが吸着搬送部１５への用紙Ｐの吸着を検知するまでの時間としてよい。

このような浮上完了高さ［ｈｎ］までの浮上時間［ｔ］は、浮上ファンとしての側方ファン１３Ｌ，１３Ｒ、および先端ファン１４の送風に依存し、給紙装置本体１０による用紙Ｐの供給状態を表す指標となる。

すなわち図１０に示すように、浮上ファンの風量が大きい場合、所定の高さ位置にある用紙束Ｐｂの上部からは、より多くの用紙Ｐが、より短時間で浮上して吸着搬送部１５に吸着される。これにより、複数枚の用紙Ｐが搬送される連れ送りと、これによる複数の用紙Ｐが同時に供給される重送ジャムが発生し易くなる。

一方、図１１に示すように、浮上ファンの風量が小さい場合、所定の高さ位置にある用紙束Ｐｂの上部からは、少ない枚数の用紙Ｐが、比較的長い時間をかけて浮上する。このため、所定時間内に吸着搬送部１５に用紙Ｐが達しない場合や、吸着搬送部１５に用紙Ｐが達しない場合もある。これにより、浮上ファンの風量が小さい場合には、吸着搬送部１５による用紙Ｐの搬送が実施されない空送りジャムが発生し易くなる。

以上のように、浮上完了高さ［ｈｎ］までの浮上時間［ｔ］は、用紙Ｐの供給状態を表す指標となる。そこで、本実施形態における学習処理においては、浮上完了高さ［ｈｎ］までの浮上時間［ｔ］に基づいて報酬を算出する強化学習を行う。

次に、浮上完了高さまでの浮上時間［ｔ］に基づく報酬の算出を説明する。図１２は、浮上完了高さ［ｈｎ］までの浮上時間［ｔ］に基づく報酬の計算処理においてする報酬の付与を説明するためのグラフである。この図に示すように、報酬の算出においては先ず、浮上完了高さまでの浮上時間［ｔ］に対して、重送ジャムやノーフィードジャムが最も発生し難い目標時間［Ｔｇ］を事前に設定する。そして、目標時間［Ｔｇ］に対する近さによって報酬を付与する。

この場合、例えば目標時間［Ｔｇ］を含む所定の時間範囲［Ｔｔｈ］を設定する。

この所定の目標時間［Ｔｇ］は、例えば重送ジャムやノーフィードジャムが発生しないことが確認されている範囲である。所定の時間範囲［Ｔｔｈ］は、目標時間［Ｔｇ］を中心とした範囲であってもよいが、これに限定されることはない。

なお、以上の目標時間［Ｔｇ］、および所定の時間範囲［Ｔｔｈ］は、用紙Ｐの種類毎、サイズ毎、坪量毎、および平滑度毎に、予め設定された値であって、給紙装置本体１０において給紙した用紙Ｐについての用紙情報に基づいて設定される。

そして、本ステップＳ３（図８参照）における報酬の計算処理においては、次に説明するように、浮上完了高さ［ｈｎ］までの浮上時間［ｔ］が所定の時間範囲［Ｔｔｈ］となる行動に対しては、正の報酬を与える。ここで所定の時間範囲［Ｔｔｈ］となるとは、所定の時間範囲［Ｔｔｈ］の境界上を含んでよい。浮上完了高さまでの浮上時間［ｔ］が所定の時間範囲［Ｔｔｈ］外となる状態と行動の組み合わせに対しては、負の報酬を与える。

−報酬の計算処理（その１）−
次に、報酬計算部２２が実施する報酬の計算処理の手順を説明する。図１３は、浮上完了高さまでの浮上時間［ｔ］に基づく報酬の計算処理を示すフローチャートであって、図８のステップＳ３における報酬の計算処理の手順を示す図である。以下、図１３に従って報酬の計算処理の手順を説明する。

＝ステップＳ３０１＝
ステップＳ３０１において、報酬計算部２２は、学習情報取得部２１から伝達された学習情報に基づいて、過去に給紙を実施した、ある用紙情報を有する用紙Ｐの浮上完了高さまでの浮上時間［ｔ］を測定する。この際、報酬計算部２２は、浮上ファンとしての側方ファン１３Ｒ，１３Ｌおよび先端ファン１４がオンした時点から、吸着センサーＡＳが用紙Ｐの吸着を検知するまでの時間を、浮上完了高さ［ｈｎ］までの浮上時間［ｔ］として測定する。

＝ステップＳ３０２＝
ステップＳ３０２において、報酬計算部２２は、取得した浮上完了高さ［ｈｎ］までの浮上時間［ｔ］が所定の時間範囲［Ｔｔｈ］であるか否かを判断する。そして範囲内である（Ｙｅｓ）と判断した場合にはステップＳ３０３に進み、範囲内ではない（Ｎｏ）と判断した場合にはステップＳ３０４に進む。

＝ステップＳ３０３＝
ステップＳ３０３において、報酬計算部２２は、ステップＳ３０３において浮上完了高さ［ｈｎ］までの浮上時間［ｔ］を取得したある状態の場合のある行動に対して正の報酬を付与し、処理を終了させる。

＝ステップＳ３０４＝
ステップＳ３０４において、報酬計算部２２は、ステップＳ３０３において浮上完了高さ［ｈｎ］まで浮上時間［ｔ］を取得したある状態の場合のある行動に対して負の報酬を付与し、処理を終了させる。

なお、学習情報取得部２１から伝達される学習情報が、１枚の用紙Ｐの給紙についての情報である場合、報酬計算部２２は、学習情報取得部２１から学習情報が伝達される毎に、上述したステップＳ３０１〜ステップＳ３０４を実施する。一方、学習情報取得部２１から伝達される学習情報が、複数の用紙Ｐの給紙についての情報である場合、報酬計算部２２は、全ての給紙の学習情報に基づいて、上述したステップＳ３０１〜ステップＳ３０４を実施する。その後は、図８のステップＳ４に進む。

−報酬について（その２）−
本実施形態に係る強化学習の報酬は、各浮上高さ[ｈ]で算出されてもよい。図１４は、強化学習における報酬の計算処理の他の例を説明する図である。図１４に示すように、各浮上高さでの浮上時間［ｔ］は、用紙Ｐの浮上高さセンサーＬＳ１〜ＬＳｎのオン／オフによって検知される。例えば、浮上高さセンサーＬＳ１がオンとなった後、その上部の浮上高さセンサーＬＳ２がオンとなるまでの間の時間が、浮上高さ[ｈ１]〜［ｈ２］での浮上時間［ｔ］として測定される。

このように、用紙Ｐの浮上が完了する以前の各浮上高さ[ｈ]での浮上時間［ｔ］についても、報酬を算出することにより、さらに精細な駆動制御プログラムの更新が可能である。

−報酬の計算処理（その２）−
図１５は、各浮上高さでの浮上時間［ｔ］に基づく報酬の計算処理においてする報酬の付与を説明するためのグラフである。図１５に示すように、この場合であっても、報酬の算出においては先ず、各浮上高さ[ｈ]での浮上時間［ｔ］に対して、重送ジャムやノーフィードジャムが最も発生し難い目標時間［Ｔｇ］を事前に設定する。そして、目標時間［Ｔｇ］を含む所定の時間範囲［Ｔｔｈ］を設定し、各浮上高さ[ｈ]での浮上時間［ｔ］が所定の時間範囲［Ｔｔｈ］となる行動に対しては、正の報酬を与え、各浮上高さ[ｈ]での浮上時間［ｔ］が所定の時間範囲［Ｔｔｈ］外となる行動に対しては、負の報酬を与える。

このように、各浮上高さ[ｈ]での浮上時間［ｔ］に基づいて報酬を算出する場合は、図１３に示すフローにおけるステップＳ３０１で、各浮上高さ[ｈ]での浮上時間［ｔ］を測定すればよい。またこの場合、全ての浮上高さ［ｈ１］〜［ｈｎ］について、図１３に示したステップＳ３０１〜ステップＳ３０４を実施することで、１枚の用紙に関する報酬の計算処理を終了させる。

この場合であっても、学習情報取得部２１から伝達される学習情報が、１枚の用紙Ｐの給紙についての情報であれば、報酬計算部２２は、学習情報取得部２１から学習情報が伝達される毎に、上述したステップＳ３０１〜ステップＳ３０４を実施する。一方、学習情報取得部２１から伝達される学習情報が、複数の用紙Ｐの給紙についての情報である場合、報酬計算部２２は、全ての給紙の学習情報に基づいて、上述したステップＳ３０１〜ステップＳ３０４を実施する。その後は、図８のステップＳ４に進む。

なお、上述した２つの報酬の計算処理は、１つの所定の時間範囲［Ｔｔｈ］を設定して報酬を付与する判断を実施した。しかしながら、各報酬の計算処理においては、複数段階の時間範囲を設定して報酬の計算を実施してもよい。この場合、目標時間［Ｔｇ］に近い時間範囲ほど、大きな正の報酬を与え、目標時間［Ｔｇ］から遠い時間範囲ほど大きな負の報酬を与える構成としてもよい。

［ステップＳ４］
以上のようなステップＳ３の後のステップＳ４において、学習部２３は、学習情報取得部２１から伝達された学習情報と、報酬計算部２２で算出した各用紙情報を有する用紙Ｐの各状態の場合の各行動においての各報酬に基づいて、行動の学習を実施する。ここでは、予め定めたルールに従って、ある状態の時にある行動を取った時の報酬を計算し、報酬の総和を最適化するように行動価値を算出してＱテーブルを更新して行動を学習する。

図１６は、本実施形態に係る強化学習における行動の学習処理を示すフローチャートであって、図８のステップＳ４における行動の学習処理の手順を示す図である。このフローチャートは、図１４および図１５を用いて説明した、各浮上高さでの浮上時間［ｔ］に基づく報酬の計算処理を実施した場合の手順を示している。以下、図１６に従って、各浮上高さでの浮上時間［ｔ］に基づく報酬の計算処理を実施した場合の行動の学習処理の手順を説明する。

＝ステップＳ４０１＝
ステップＳ４０１において、学習部２３は、ｎ＝ｎの処理を実施する。

＝ステップＳ４０２＝
ステップＳ４０２において、学習部２３は、次の行動の設定を行う。この際、学習部２３は、行動１〜行動１１０（図９参照）の中から、予め定めたルールにしたがって次の行動を設定する。

＝ステップＳ４０３＝
ステップＳ４０３において、学習部２３は、学習情報取得部２１から伝達された学習情報に基づいて、設定した行動を実行する。この場合、学習部２３は、次に給紙を実施する用紙Ｐの用紙情報に基づいて、ステップＳ４０２で設定した行動を実行した場合の用紙供給のシミュレーションを実施する。なお、ここでは、給紙装置本体１０に対して実際に用紙供給を実施させてもよい。

＝ステップＳ４０４＝
ステップＳ４０４において、学習部２３は、ステップＳ４０３で実施した行動においての浮上高さセンサーＬＳｎ−１がオンとなった後、その上部の浮上高さセンサーＬＳｎがオンとなるまでの間の時間を、浮上時間［ｔ］として測定する。ここで、浮上高さセンサーＬＳｎは、吸着センサーＡＳを兼ねてもよい。

＝ステップＳ４０５＝
ステップＳ４０５において、学習部２３は、ステップＳ４０４でのある状態である行動をとった場合の報酬を判断する。この際、学習部２３は、報酬計算部２２で実施した報酬の計算結果に基づいて、テップＳ４０３の行動を実施した場合の報酬を判断する。また学習部２３は、判断した報酬にもとづいて、Ｑテーブルを更新する。

図１７は、本実施形態に係る強化学習の一例を説明するＱテーブルの図である。Ｑテーブルは、強化学習の状態と行動の関係を学習する際に利用するテーブルであり、状態と行動の組み合わせに対応する行動価値（Ｑ値）を示している。この図１７に示すように、この場合の強化学習における状態は、浮上高さセンサーＬＳ１〜ＬＳｎのオン／オフによって検知される用紙Ｐの浮上高さとなる。またこの場合の状態と組み合わせる行動１〜行動１１０は、図９に示した通りである。

Ｑテーブルは、学習を開始する前の初期の状態においては、各状態および各行動におけるＱ値が初期値（例えば０．５）となっている。学習部２３は、本ステップＳ４０５で判断した報酬に従い、該当する状態および行動のＱ値を更新する。

学習部２３は、例えば正の報酬と判断された場合には、該当する状態および行動のＱ値に、所定の値（例えば０．００５）を加算する。一方、負の報酬と判断された場合には、該当する状態および行動のＱ値から、所定の値（例えば０．００５）を減算する。

＝ステップＳ４０６＝
ステップＳ４０６において、学習部２３は、ステップＳ４０５での判断が負の報酬で合ったか否かを判断し、負の報酬であった（ＹＥＳ）と判断した場合には、ステップＳ４０２に戻る。一方、負の報酬ではない（ＮＯ）と判断した場合には、ステップＳ４０７に進む。

＝ステップＳ４０７＝
ステップＳ４０７において、学習部２３は、正の報酬が所定回数連続したか否かの判断を実施する。所定回数連続した（ＹＥＳ）と判断した場合には、次のステップＳ４０８に進む。一方、所定回数連続していな（ＮＯ）と判断した場合には、ステップＳ４０２に戻る。

＝ステップＳ４０８＝
ステップＳ４０８において、学習部２３は、ｎ＝ｎ−１の処理を実施し、次のステップＳ４０９に進む。

＝ステップＳ４０９＝
ステップＳ４０９において、学習部２３は、ｎ＝０であるか否かの判断を実施し、ｎ＝０である（ＹＥＳ）と判断した場合には、処理を終了させる。一方、ｎ＝０ではない（ＮＯ）と判断した場合には、ステップＳ４０２に戻り、ｎ＝０となるまで処理を繰り返し、ｎ＝０となった場合に、行動の学習処理を終了させ、図８のステップＳ５に進む。

［ステップＳ５］
図８に戻り、ステップＳ５において、学習部２３は、ステップＳ４での行動の学習結果にも続いて、次の行動を選択する。この際、学習部２３は、ステップＳ４での行動の学習において、最終的に更新されたＱテーブル（図１７参照）に基づいて、各状態においてＱ値が最も大きい行動を選択する。

［ステップＳ６］
ステップＳ６において、制御情報出力部２４は、ステップＳ５で選択した次の行動を、制御情報として給紙装置本体１０に出力する。そして、学習装置２０による学習処理を終了させる。

＜駆動制御プログラムの更新処理の手順＞
図１８は、本実施形態に係る給紙装置システムによって実施される駆動制御プログラムの更新処理を示すフローチャートである。ここで説明する駆動制御プログラムの更新処理の手順は、給紙装置制御プログラムの一部である更新プログラムの手順であって、給紙装置本体１０の制御部１７によって実施される。以下、図１８のフローチャートに示す順に、図１〜図４および必要に応じて他の図を参照しつつ、駆動制御プログラムの更新処理の手順を説明する。

［ステップＳ００１］
ステップＳ００１において、学習情報収集部１７２は、給紙装置本体１０において、用紙Ｐの変更があったか否かの判断を実施する。ここで、用紙Ｐの変更とは、給紙装置本体１０から給紙する用紙Ｐの種類、サイズ、坪量、および平滑度（表面性）の少なくとも何れかが、変更されたか否かを意味している。

ここで、用紙Ｐのサイズが変更された場合いは、用紙Ｐの搬送方向Ｘの重心位置に対する側方ファン１３Ｌ，１３Ｒの位置が変わるため、紙全体を持ち上げるための風量が変わってくる。坪量は紙の重さを示すため重さに応じた風量設定が必要である。平滑度は紙の表面の凹凸具合を示すため、束になった用紙を浮上させるために紙と紙の隙間にエアを送り込む必要があり、平滑度に応じて紙と紙の間にエアを送り込むための風量設定が必要である。ただし、入力部１８としてメディアセンサーを有していて用紙Ｐの平滑度の測定ができるのであれば、紙種について考慮する必要はあまりない。紙種は普通紙や上質紙、塗工紙などがあるが、これらの種類による特性は紙の表面性であり、平滑度の測定が可能であるならば考慮する必要がないが、平滑度の測定ができない場合、これらの紙種に応じて風量を設定する必要がある。

学習情報収集部１７２は、例えば、入力部１８から駆動制御部１７１に入力された情報に基づいて、給紙装置本体１０から給紙する用紙Ｐの種類、サイズ、坪量、および平滑度（表面性）の少なくとも何れかが、変更されたか否かの判断を実施する。そして、変更された（Ｙｅｓ）と判断した場合に、次のステップＳ００２に進み、変更されていない（Ｎｏ）と判断された場合には、次のステップＳ００１’に進む。

［ステップＳ００１’］
ステップＳ００１’において、学習情報収集部１７２は、トレイの開閉があったか否かの判断を実施する。ここで、トレイとは用紙Ｐが載置される給紙トレイ１１であり、学習情報収集部１７２は、例えば開閉センサーＯｐＳから駆動制御部１７１に入力された情報に基づいて、この判断を実施する。そして、開閉された（Ｙｅｓ）と判断した場合に、次のステップＳ００２に進む。用紙Ｐが変更されていない場合、つまり用紙Ｐの種類、サイズ、坪量、および平滑度（表面性）などが変更されていない場合であっても、給紙トレイ１１が開閉された場合、用紙Ｐの給紙トレイ１１上への載置状態が変わっている可能性があるので、同様に学習を開始する。一方、本ステップＳ００１’において、開閉されていない（Ｎｏ）と判断された場合には、ステップＳ００１に戻る。

［ステップＳ００２］
ステップ００２において、学習情報収集部１７２は、駆動制御部１７１から学習情報を収集する。ここで学習情報収集部１７２が収集する学習情報は、先に説明した通りの情報であって、給紙装置本体１０に関する駆動情報、および用紙Ｐに関する用紙情報である。

［ステップＳ００３］
ステップＳ００３において、学習情報通知部１７３は、学習情報収集部１７２が収取した学習情報を、学習装置２０に通知する。

［ステップＳ００４］
ステップＳ００４において、更新処理部１７４は、学習装置２０から制御情報を受信したか否かの判断を実施する。ここで更新処理部１７４が受信する制御情報は、先に説明した学習装置２０における学習処理において、学習装置２０の制御情報出力部２４が出力した制御情報である（図８のステップＳ６）。更新処理部１７４は、制御情報を受信した（Ｙｅｓ）と判断されるまで待機する。制御情報を受信した（Ｙｅｓ）と判断された場合に、次のステップＳ００５に進む。

［ステップＳ００５］
ステップＳ００５において、更新処理部１７４は、学習装置２０から受信した制御情報に基づいて、駆動制御部１７１のファームウェアである駆動制御プログラムの更新を実施し、処理を終了させる。

≪画像形成装置≫
図１９は、本実施形態に係る給紙装置システムを有する画像形成装置の一例を示す構成図である。

上述した本例の給紙装置システム１は、画像形成装置へ用紙を供給する給紙装置の制御システムとして好適に用いられる。このような画像形成装置として、複写機、プリンタ装置、ファクシミリ装置、印刷機、複合機等を例示することができる。以下に、本実施形態に係る給紙装置システム１を適用した画像形成装置（本発明の画像形成装置）が例えば複写機の場合を例に挙げて説明する。

この図に示す画像形成装置１００は、画像形成装置本体２００、画像読取装置３００、自動原稿送り装置４００、および給紙装置５００を有する構成となっている。

画像形成装置本体２００は、例えば、給紙カセット２０１、給紙部２０２、画像形成部２０３、および排紙部２０４を備える。給紙カセット２０１は、複数枚の用紙Ｐを収容する。給紙部２０２は、給紙カセット２０１に収容された用紙Ｐを、給紙カセット２０１から取り出して画像形成部２０３に搬送する。

画像形成部２０３は、画像読取装置３００から送信された画像信号に基づいて、給紙部２０２から搬送された用紙Ｐに画像を形成する部分である。この画像形成部２０３は、画像形成方式が限定されることはなく、例えば電子写真方式、またはインクジェット方式のものが適用される。一例として、電子写真方式の画像形成部２０３であれば、トナー画像形成ユニット、中間転写ベルト、および定着部などを備え、用紙Ｐの一主面上にトナー画像を形成する。またインクジェット方式の画像形成部２０３であれば、インクジェットヘッドを備え、用紙Ｐの一主面上にインク画像を形成する。

排紙部２０４は、画像形成部２０３において画像が形成された用紙Ｐを、排紙する。

画像読取装置３００は、自動原稿送り装置４００から搬送された原稿から、光学的に画像を読み取り、読み取った画像信号を処理して画像形成部に送信する。

自動原稿送り装置４００は、原稿台を備え、原稿台上に載置された原稿を画像読取装置３００に搬送する。

給紙装置５００は、画像形成装置本体２００に接続されて、画像形成装置本体２００に用紙Ｐを給紙する。この給紙装置５００は、先に説明した給紙装置本体１０を複数備え、各給紙装置本体１０から画像形成装置本体２００の給紙部２０２に、用紙Ｐを１枚ずつ分離しつつ給紙する。

これらの各給紙装置本体１０は、先に説明した学習装置２０との間で通信が可能なものである。これらの各給紙装置本体１０は、例えば共通の駆動制御部１７１によって駆動制御されるものであってよいが、先に説明した学習装置２０による学習は、給紙装置本体１０毎に実施されることとする。またこの場合、学習装置２０は、他の画像形成装置１００に設けられた給紙装置５００の各給紙装置本体１０と共有されるものであってよい。

また給紙装置５００は、複数の給紙装置本体１０と共に１つの学習装置２０を装置内に組み込んだ構成のものであってもよい。

≪実施形態の効果≫
以上説明した実施形態によれば、浮上高さセンサーＬＳ１〜ＬＳｎや吸着センサーＡＳなどの浮上検出部材での検出結果に応じて報酬を判断する強化学習に基づいて、給紙装置本体１０の駆動制御プログラムを更新する構成である。先にも述べたように、浮上検出部材での検出結果から得られる浮上時間［ｔ］は、用紙Ｐの供給状態を正確に表す指標である。このため、この強化学習に基づいて、給紙装置本体１０の駆動制御プログラムを更新することにより、用紙の種類や装置の設置環境によらずに、重送や空送りの発生なく、度高精度な用紙供給を実施することが可能になる。

また、このような高精度な用紙供給が実施される給紙装置システムを用いた画像形成装置１００によれば、複数枚の用紙Ｐに対して連続した円滑な画像形成が可能となる。

１…給紙装置システム
１０…給紙装置本体
１１…給紙トレイ
１２…規制部材
１２Ｂ…後端規制部材
１２Ｌ，１２Ｒ…側部規制部材
１３Ｌ，１３Ｒ…側方ファン
１４…先端ファン（機能切替ファン）
１５…吸着搬送部
１７１…駆動制御部
１７４…更新処理部
２０…学習装置
１００…画像形成装置
２０３…画像形成部
５００…給紙装置
ＬＳ１〜ＬＳｎ…浮上高さセンサー（浮上検出部材）
ＡＳ…吸着センサー（浮上検出部材）
Ｐ…用紙
Ｐｂ…用紙束
Ｘ…搬送方向
Ｙ…幅方向
［ｈｎ］…浮上完了高さ
［ｔ］…浮上時間
［Ｔｔｈ］…所定の時間範囲

Claims

空気の吹き出しによって給紙トレイ上の用紙束から用紙を浮上させる機能を有するファンと、
前記浮上させた用紙を吸着して搬送する吸着搬送部と、
駆動制御プログラムに基づいて前記ファンと前記吸着搬送部の駆動を制御する駆動制御部と、
前記用紙の浮上を検出する浮上検出部材と、
強化学習を実施することにより、前記駆動制御プログラムを更新するための制御情報を作成する学習装置と備え、
前記学習装置は、
前記浮上検出部材での検出結果に基づいて報酬を付与することによって、前記強化学習を実施する
給紙装置システム。
前記学習装置は、
前記ファンからの空気の吹き出しを開始してから、前記浮上検出部材が前記用紙の浮上を検出するまでの浮上時間に応じて前記報酬を付与する
請求項１に記載の給紙装置システム。
前記浮上検出部材は、前記吸着搬送部に対する前記用紙の吸着を検知する吸着センサーを含み、
前記学習装置は、
前記ファンからの空気の吹き出しを開始してから、前記吸着センサーによって前記用紙が前記吸着搬送部に吸着したことを検知する浮上完了高さまでの浮上時間に基づいて前記報酬を付与する
請求項１または２に記載の給紙装置システム。
前記浮上検出部材は、前記用紙束の上部から前記吸着搬送部までの間の前記用紙の浮上高さを検知する浮上高さセンサーを含み、
前記学習装置は、前記浮上高さセンサーで検知された前記用紙の浮上高さ毎の浮上時間に基づいて、前記報酬を付与する強化学習を実施する
請求項１〜３のうちの何れか１項に記載の給紙装置システム。
前記学習装置は、前記浮上時間が、所定の時間範囲の場合に、前記報酬として正の報酬を付与する
請求項２〜４のうちの何れか１項に記載の給紙装置システム。
前記学習装置は、前記浮上時間が、所定の時間範囲外の場合に、前記報酬として負の報酬を付与する
請求項２〜５のうちの何れか１項に記載の給紙装置システム。
前記所定の時間範囲は、前記用紙の種類、サイズ、坪量、および表面の平滑度毎に設定された値である
請求項５または６に記載の給紙装置システム。
前記学習装置は、
予め設定した浮上時間に対して、前記浮上検出部材での検出結果に基づく浮上時間が近いほど大きな正の報酬を付与し、前記浮上時間が遠いほど大きな負の報酬を付与する
請求項２〜７のうちの何れか１項に記載の給紙装置システム。
前記給紙トレイ上における前記用紙束の載置位置を規制するための規制部材を備え、
前記学習装置は、前記給紙トレイ上に載置された前記用紙束に対する前記規制部材の位置および前記ファンの風量のうちの少なくとも一方を行動として、前記強化学習を実施する
請求項１〜８のうちの何れか１項に記載の給紙装置システム。
複数の前記ファンを備え、
前記複数のファンのうちの少なくとも一つは、前記空気の吹き出し方向が可変なものであって、前記用紙を浮上させる機能と、前記用紙束から浮上させた複数の用紙間に空気を吹き込んで前記複数の用紙を分離させる機能との切り替えが自在な機能切替ファンであり、
前記学習装置は、さらに前記複数のファンのそれぞれのオン／オフおよび風量、および前記機能切替ファンの機能のうちの少なくとも１つを前記行動として追加した強化学習を実施する
請求項９項に記載の給紙装置システム。
前記学習装置で作成した制御情報に基づいて、前記駆動制御プログラムを更新する更新処理部を備えた
請求項１〜１０のうちの何れか１項に記載の給紙装置システム。
前記浮上検出部材は、前記用紙の浮上高さを画像で読み取る
請求項１〜１１のうちの何れか１項に記載の給紙装置システム。
前記学習装置は、前記用紙の種類、サイズ、および坪量のうちに何れか１つでも変更された場合に、前記強化学習を開始する
請求項１〜１２のうちの何れか１項に記載の給紙装置システム。
前記学習装置は、前記給紙トレイの開閉を検知した場合に、前記強化学習を開始する
請求項１〜１３のうちの何れか１項に記載の給紙装置システム。
前記学習装置は、前記強化学習において正の報酬が所定回数連続した場合に、前記強化学習を終了させる
請求項１〜１４のうちの何れか１項に記載の給紙装置システム。
前記ファンは、前記吸着搬送部による前記用紙の搬送方向に直行する前記用紙の幅方向から、前記給紙トレイ上の用紙束に対して空気を吹き出す
請求項１〜１５のうちの何れか１項に記載の給紙装置システム。
前記学習装置は、ネットワーク上のサーバーに設けられたものであり、
前記ファンと前記吸着搬送部とを備えた複数の給紙装置本体によって、前記学習装置が共有される
請求項１〜１６のうちの何れか１項に記載の給紙装置システム。
請求項１〜１７のうちの何れか１項に記載の給紙装置システムの学習装置が、前記ファンと前記吸着搬送部とを備えた給紙装置本体に対して一体に組み込まれた
給紙装置。
空気の吹き出しによって給紙トレイ上の用紙束から用紙を浮上させる機能を有するファンと、前記浮上させた用紙を吸着して搬送する吸着搬送部と、駆動制御プログラムに基づいて前記ファンと前記吸着搬送部の駆動を制御する駆動制御部と、前記用紙の浮上を検出する浮上検出部材と、強化学習を実施することにより、前記駆動制御プログラムを更新するための制御情報を作成する学習装置とを備えた給紙装置の制御プログラムであって、
前記学習装置に対して、前記浮上検出部材での検出結果に基づいて報酬を付与することによる前記強化学習を実施させる
給紙装置制御プログラム。
請求項１〜１７のうちの何れか１項に記載の給紙装置システムと、
前記給紙装置システムから給紙された用紙に画像を形成する画像形成部とを備えた
画像形成装置。