JP2021088417A

JP2021088417A - 給紙装置システム、給紙装置、給紙装置制御プログラム、および画像形成装置

Info

Publication number: JP2021088417A
Application number: JP2019217741A
Authority: JP
Inventors: 雄介山本; Yusuke Yamamoto
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2021-06-10

Abstract

【課題】用紙の種類や装置の設置環境によらずに、高精度な用紙供給を実施することが可能な給紙装置システムを提供する。【解決手段】空気の吹き出しによって給紙トレイ上の用紙束から用紙を浮上させる機能を有するファンと、前記浮上させた用紙を吸着して搬送する吸着搬送部と、駆動制御プログラムに基づいて前記ファンと前記吸着搬送部の駆動を制御する駆動制御部と、前記吸着搬送部によって前記用紙が所定位置にまで搬送される搬送時間に基づいて報酬を付与する強化学習の実施により、前記駆動制御プログラムを更新するための制御情報を作成する学習装置と備えた給紙装置システムである。【選択図】図４

Description

本発明は、給紙装置システム、給紙装置、給紙装置制御プログラム、および画像形成装置に関する。

複写機、プリンタ装置、ファクシミリ装置、印刷機、複合機等の画像形成装置には、用紙を積層した用紙束から一枚の用紙を取り出して搬送する給紙装置が装備されている。このような給紙装置の一つとして、用紙束から用紙を浮上させるための空気を吹き出すファン、および浮上した用紙を１枚ずつに分離するための空気を吹き出すファンを備え、分離した最上部の用紙を吸着ベルトに吸着させて搬送する方式のものがある。

このような方式の給紙装置においては、一度に複数枚の用紙が搬送される重送が発生した場合、用紙詰まり等の異常発生の原因となる。そこで、用紙の搬送状況を検出する検出手段と、検出手段の検出結果に応じてファンから吹き出す空気の流量を調整する調整手段を設けることにより、空気の流量を適正化して重送を抑止する構成が提案されている（下記特許文献１参照）。

特開２０１５−４００９６号公報

しかしながら、検出手段での検出結果に応じてファンから吹き出す空気の流量を調整する構成では、経験に基づいて予め設定された仕様に基づき、予め設定されたパターンにしたがった流量調整しか行うことができない。このため、実際に使用される多種多様な種類の用紙や、様々な装置環境に対して装置性能を満足するような調整を実施することは難しかった。

そこで本発明は、用紙の種類や装置の設置環境によらずに、高精度な用紙供給を実施することが可能な給紙装置システム、給紙装置、および給紙装置制御プログラムを提供することを目的とする。また本発明は、これらの給紙装置システム、給紙装置、給紙装置制御プログラムを用いることにより、複数枚の用紙に対して連続した円滑な画像形成が可能な画像形成装置を提供することを目的とする。

このような目的を達成するための本発明は、空気の吹き出しによって給紙トレイ上の用紙束から用紙を浮上させる機能を有するファンと、前記浮上させた用紙を吸着して搬送する吸着搬送部と、駆動制御プログラムに基づいて前記ファンと前記吸着搬送部の駆動を制御する駆動制御部と、前記吸着搬送部によって前記用紙が所定位置にまで搬送される搬送時間に基づいて報酬を付与する強化学習の実施により、前記駆動制御プログラムを更新するための制御情報を作成する学習装置と備えた給紙装置システムである。

本発明によれば、用紙の種類や装置の設置環境によらずに、高精度な用紙供給を実施することが可能な給紙装置システム、給紙装置、および給紙装置制御プログラムを提供すること、および複数枚の用紙に対して連続した円滑な画像形成が可能な画像形成装置を提供することができる。

本発明の実施形態に係る給紙装置システムの概略構成図である。本実施形態の給紙装置本体の概略断面図である。本実施形態の給紙装置本体の要部拡大図である。本発明の実施形態に係る給紙装置システムのブロック図である。本実施形態の給紙装置本体の駆動の概要を説明する図（その１）である。本実施形態の給紙装置本体の駆動の概要を説明する図（その２）である。本実施形態の給紙装置本体の駆動の概要を説明する図（その３）である。本実施形態に係る給紙装置システムによって実施される学習処理の手順を示すフローチャートである。本実施形態に係る強化学習の一例を説明するＱテーブルの図である。本実施形態に係る強化学習の他の例を説明するＱテーブルの図である。図１０のＱテーブルにおける行動の詳細を示す図である。本実施形態に係る強化学習において報酬の計算処理に用いる搬送時間［ｔ］を説明する図（その１）である。本実施形態に係る強化学習において報酬の計算処理に用いる搬送時間［ｔ］を説明する図（その２）である。搬送時間［ｔ］に基づく報酬の計算処理においてする報酬の付与を説明するためのグラフである。搬送時間［ｔ］に基づく報酬の計算処理を示すフローチャートである。重送の検知に基づく報酬の計算処理を示すフローチャートである。本実施形態に係る強化学習における行動の学習処理を示すフローチャートである。本実施形態に係る給紙装置システムによって実施される駆動制御プログラムの更新処理を示すフローチャートである。本実施形態に係る給紙装置システムを有する画像形成装置の一例を示す構成図である。

以下、本発明の給紙装置システム、給紙装置、給紙装置制御プログラム、および画像形成装置を実施するための形態を、図面に基づいて説明する。なお以下の説明において、各図に共通の部材には同一の符号を付し、重複する説明は省略する。

≪給紙装置システム≫
図１は、本発明の実施形態に係る給紙装置システム１の概略構成図である。また図２は、本実施形態の給紙装置本体１０の概略断面図であって、図１のＡ−Ａ’断面に相当する図である。これらの図に示す給紙装置システム１は、給紙装置本体１０と、学習装置２０（図１のみに図示）とを備える。

このうち給紙装置本体１０は、積層複数の用紙Ｐを積層した用紙束Ｐｂに空気を吹き付けることで用紙Ｐを浮上させて分離し、分離した１枚の用紙Ｐを搬送方向Ｘに搬送する空気分離方式のものである。このような給紙装置本体１０は、用紙Ｐが積載される給紙トレイ１１、用紙規制部材１２、側方ファン１３Ｌ，１３Ｒ、先端ファン１４、吸着搬送部１５、用紙搬送部１６（図２のみに図示）、制御部１７、および入力部１８（図１のみに図示）を備えている。また給紙装置本体１０は、図２のみに図示した、用紙位置センサーＰＳ１〜ＰＳ４、重送センサーＤｆＳ、および開閉センサーＯｐＳを備えている。

一方、学習装置２０は、給紙装置本体１０を駆動するためのファームウェアである駆動制御プログラムを更新するための強化学習を実施するものである。この学習装置２０は、複数の給紙装置本体１０によって共有される構成のものであってもよい。さらに学習装置２０は、給紙装置本体１０または複数の給紙装置本体１０を備えた給紙システムに組み込まれ、これらと共に給紙装置を構成してもよい。

以下、図１および図２に基づき、必要に応じて他の図を参照しつつ、本実施形態に係る給紙装置システム１の詳細を、給紙装置本体１０の構成要素から順に説明し、次いで給紙装置本体１０の駆動の概要を説明し、その後、学習装置２０の詳細を説明する。

＜給紙トレイ１１＞
給紙トレイ１１は、図示しない昇降機構によって、図中の白抜き矢印に示すように昇降可能となっている。すなわち、用紙Ｐは給紙トレイ１１上に昇降可能に収容されている。また、ここでの詳細な説明は省略するが、給紙トレイ１１は、上部に積載された用紙束Ｐｂの高さが、以降に説明する側方ファン１３Ｌ，１３Ｒ、および先端ファン１４からの空気の吹き付けによる用紙Ｐの浮上および用紙Ｐの分離に最適な高さを維持する構成となっている。

＜用紙規制部材１２＞
用紙規制部材１２は、給紙トレイ１１上における用紙Ｐの載置位置を規制する部材であって、給紙トレイ１１上に積載された用紙Ｐの四方向に配置されている。このような用紙規制部材１２は、前端規制部材１２Ａ、後端規制部材１２Ｂ、側部規制部材１２Ｌ，１２Ｒである。

［前端規制部材１２Ａ］
前端規制部材１２Ａは、給紙トレイ１１上に積載された用紙Ｐの搬送方向Ｘの前方に配置され、用紙Ｐの搬送方向Ｘの前端位置を規制している。ここで用紙Ｐの搬送方向Ｘとは、以降に説明する吸着搬送部１５が用紙Ｐを搬送する方向である。このような前端規制部材１２Ａは、例えば板状の部材であって、上端部を切り欠いた前端開口１２１（図２のみに図示）を有する。この前端開口１２１は、以降に説明する先端ファン１４から吹き出された空気を、用紙束Ｐｂの前端側から給紙トレイ１１上に積載された用紙Ｐの用紙束Ｐｂの上部に吹き付けるための開口となっている。

なお、前端規制部材１２Ａは、次に説明する先端ファン１４を収容する箱状の筐体であってもよい。この場合、前端規制部材１２Ａは、給紙トレイ１１側に向く部分と、給紙トレイ１１側において上方に向く部分とに設けられ、これらの部分は連通していてもよい。

［後端規制部材１２Ｂ］
後端規制部材１２Ｂは、給紙トレイ１１上に積載された用紙Ｐの搬送方向Ｘの後端側に配置さている。この後端規制部材１２Ｂは、用紙Ｐの搬送方向Ｘに移動自在に構成された板状の部材であって、給紙トレイ１１上に積載された用紙Ｐを、搬送方向Ｘの後端側から軽く押圧することによって用紙Ｐの搬送方向Ｘの後端位置を規制している。

［側部規制部材１２Ｌ，１２Ｒ］
側部規制部材１２Ｌ，１２Ｒは、給紙トレイ１１上に積載された用紙Ｐの幅方向Ｙの両側に配置されている。用紙Ｐの幅方向Ｙとは、給紙トレイ１１上に積載された用紙Ｐの搬送方向Ｘに対して垂直な方向である。これらの側部規制部材１２Ｌ，１２Ｒは、幅方向Ｙに移動自在に設けられており、給紙トレイ１１上に積載された用紙Ｐの用紙幅に対応して、用紙Ｐを両側から軽く押圧することによって用紙Ｐの両側位置を規制する。

またこれらの側部規制部材１２Ｌ，１２Ｒは、次に説明する側方ファン１３Ｌ，１３Ｒを収容する筐体として構成されている。このような側部規制部材１２Ｌ，１２Ｒは、給紙トレイ１１側に向く上方部分に側部開口１２２を有し、給紙トレイ１１上に積載された用紙Ｐの用紙束Ｐｂの上部に、用紙束Ｐｂの幅方向Ｙの両側方から空気を吹き付ける構成となっている。

＜側方ファン１３Ｌ，１３Ｒ＞
側方ファン１３Ｌ，１３Ｒは、用紙束Ｐｂの上部の用紙Ｐを浮上させる浮上ファンとして用いられるものであり、側部規制部材１２Ｌ，１２Ｒの内部に収容されている。各側方ファン１３Ｌ，１３Ｒは、送風管１３１を有し、送風管１３１の吹出口１３２は、側部規制部材１２Ｌ，１２Ｒの側部開口１２２に一致して設けられている。これにより、側方ファン１３Ｌ，１３Ｒは、用紙Ｐの搬送方向Ｘに直交する幅方向Ｙの両側から用紙束Ｐｂの上部に空気を吹き付け、用紙束Ｐｂの上部の用紙Ｐを浮上させる浮上ファンとして機能する。このような側方ファン１３Ｌ，１３Ｒは、以降に説明する制御部１７からの指示に基づいて、オン／オフおよび風量の調整が自在である。

なお、各側方ファン１３Ｌ，１３Ｒの吹出口１３２からの空気の吹き出し方向は、幅方向Ｙに完全に一致している必要はなく、次に説明する先端ファン１４からの空気の吹き出しとのバランスを考慮し、必要に応じた角度で搬送方向Ｘに向けられていていることとする。また各側方ファン１３Ｌ，１３Ｒの吹出口１３２からの空気の吹き出しの高さ方向、すなわち搬送方向Ｘおよび幅方向Ｙに対して垂直な方向の角度も同様である。

以上のような側方ファン１３Ｌ，１３Ｒは、側部規制部材１２Ｌ，１２Ｒ内に収容されているため、用紙Ｐのサイズが変更された場合でも、側部規制部材１２Ｌ，１２Ｒを移動させることによって、側方ファン１３Ｌ，１３Ｒも一緒に移動することになる。なお、本例では、２つの側方ファン１３Ｌ，１３Ｒを用紙Ｐの両側に設ける構成を採っているが、片側だけに側方ファン１３Ｌ，１３Ｒを設ける構成としてもよい。

＜先端ファン１４＞
先端ファン１４は、用紙束Ｐｂから浮上した複数の用紙Ｐを捌いて分離させるための分離ファン、および用紙束Ｐｂの上部の用紙Ｐを浮上させる浮上ファンとで機能を切り替えて用いられる機能切替ファンである。このような先端ファン１４は、前端規制部材１２Ａに近接して配置されている。前端規制部材１２Ａが、筐体として構成されている場合であれば、先端ファン１４は前端規制部材１２Ａの内部に収容されていることとする。このような先端ファン１４は、送風管１４１を有する。送風管１４１の吹出口１４２（図２のみに図示）は、前端規制部材１２Ａの前端開口１２１に一致して設けられている。

図３は、本実施形態の給紙装置本体１０の要部拡大図であって、先端ファン１４の上部を含む部分を拡大した概要図である。この図に示すように、先端ファン１４は、送風管１４１の吹出口１４２側に、先端ファン１４からの空気の吹き出し角度を制御するための先端シャッター１４３を備えている。先端シャッター１４３は、切替駆動部１４４を備える。切替駆動部１４４は、ソレノイドであって、以降に説明する制御部１７（図１および図２参照）による制御に基づいて駆動し、先端ファン１４からの空気の吹き出し角度を可変とし、先端ファン１４の機能を、用紙Ｐの浮上用と分離用とで切り替える。

より具体的には、切替駆動部１４４の駆動により、送風管１４１の吹出口１４２側の下方を先端シャッター１４３で閉じることにより、図３中の実線矢印に示すように、先端ファン１４からの空気の吹き出し角度が上方側となる。これにより、先端ファン１４は、上方に浮上した複数の用紙Ｐ間に空気を吹き込んで用紙Ｐを分離する分離ファンとして機能するようになる。

これに対し、切替駆動部１４４の駆動により、送風管１４１の吹出口１４２側の上方を先端シャッター１４３で閉じる（図３中の二点鎖線の状態とする）ことにより、図３中の破線矢印で示すように、先端ファン１４からの空気の吹き出し角度が水平側となる。これにより、先端ファン１４は、用紙Ｐの搬送方向Ｘから用紙束Ｐｂの上部に空気を吹き付け、用紙束Ｐｂの上部の用紙Ｐを浮上させる浮上ファンとして機能するようになる。

以上のように、先端ファン１４は、送風管１４１の吹出口１４２側に配置した先端シャッター１４３を切替駆動部１４４によって駆動することにより、分離ファンまたは浮上ファンのいずれか一方に切り替えられる。このような先端ファン１４は、以降に説明する制御部１７からの指示に基づいて、分離ファンと浮上ファンとの機能の切り替えと、オン／オフ、および風量の調整が自在である。

＜吸着搬送部１５＞
図１および図２に戻り、吸着搬送部１５は、用紙Ｐの搬送方向Ｘの前端部上方に配置されている。この吸着搬送部１５は、駆動ローラー１５１、２つの従動ローラー１５２Ａ，１５２Ｂ、吸着ベルト１５３、および吸引装置１５４を有する。

駆動ローラー１５１は、用紙Ｐの幅方向Ｙに軸を向けた状態で、用紙Ｐの搬送方向Ｘの上流側に配置されている。従動ローラー１５２Ａ，１５２Ｂは、用紙Ｐの積層方向に並べて配置されている。これらの従動ローラー１５２Ａ，１５２Ｂは、駆動ローラー１５１に対して軸を平行に保った状態で、駆動ローラー１５１に対して用紙Ｐの搬送方向Ｘの下流側に所定の距離だけ離間して配置されている。

吸着ベルト１５３は、無端状のものであって、駆動ローラー１５１と、従動ローラー１５２Ａ，１５２Ｂとにわたって巻回されている。この吸着ベルト１５３は、多数の小径の貫通孔１５３ａ（図１のみに図示）を有する。

吸引装置１５４は、駆動ローラー１５１と、従動ローラー１５２Ａ，１５２Ｂとの間で、これらに巻回された吸着ベルト１５３の内周部に配置されている。吸引装置１５４は、吸着ベルト１５３に穿設された貫通孔１５３ａを介して用紙Ｐを上方から吸引する。すなわち、吸着搬送部１５は、吸引装置１５４によって吸着ベルト１５３に用紙Ｐを吸着させつつ、駆動ローラー１５１の駆動による吸着ベルト１５３の回動によって用紙Ｐを搬送方向Ｘに搬送する。

この吸引装置１５４は、用紙Ｐの搬送方向（Ｘ方向）に沿って２つの吸引ダクトに分割され、一方の吸引ダクトのみで用紙Ｐを吸引する場合と、２つの吸引ダクトで用紙Ｐを吸引する場合とに切り換え可能な構成となっていてもよい。

以上のような吸着搬送部１５は、以降に説明する制御部１７からの指示に基づいて、駆動ローラー１５１による用紙Ｐの搬送のオン／オフ、および吸引装置１５４による用紙Ｐの吸着のオン／オフが自在である。

＜用紙搬送部１６＞
図２に示すように、用紙搬送部１６は、吸着搬送部１５における用紙Ｐの搬送方向Ｘの下流側に配置されている。この用紙搬送部１６は、下方ガイド部材１６１、上方ガイド部材１６２、下方搬送ローラー１６３、および上方搬送ローラー１６４を備える。

下方ガイド部材１６１および上方ガイド部材１６２は、例えば板状のものであって、吸着搬送部１５から搬送された用紙Ｐの経路を、上下方向から間隔を設けて挟むように配置されている。また下方ガイド部材１６１は、下方搬送ローラー１６３を回動自在に支持する。上方ガイド部材１６２は、上方搬送ローラー１６４を回動自在に支持する。

下方搬送ローラー１６３および上方搬送ローラー１６４は、それぞれが下方ガイド部材１６１と上方ガイド部材１６２とに対して回動自在に支持された状態で、用紙Ｐを挟持するニップ部を形成する。これらの下方搬送ローラー１６３および上方搬送ローラー１６４は、ニップした用紙Ｐを搬送方向Ｘに排出する。

＜制御部１７＞
図４は、本発明の実施形態に係る給紙装置システム１のブロック図である。以下、図４に基づき、先の図１〜図３を参照しつつ、制御部１７の構成を説明する。制御部１７は、以降に説明する入力部１８、用紙位置センサーＰＳ１〜ＰＳ４、重送センサーＤｆＳ、および開閉センサーＯｐＳに接続され、これらで検知した信号が入力される。また制御部１７は、側方ファン１３Ｌ，１３Ｒ、先端ファン１４、先端ファン１４に設けた切替駆動部１４４、吸着搬送部１５、用紙搬送部１６に接続され、これらの駆動を制御する。さらに制御部１７は、以降に説明する学習装置２０に接続され、学習装置２０との間での通信が可能である。

このような制御部１７は、マイクロコンピューターなどの計算機によって構成されている。計算機は、いわゆるコンピューターとして用いられるハードウェアであって、ここでの図示を省略したＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、およびＲＯＭ（Read Only Memory）やＨＤＤ（hard disk drive）のような不揮発性の記憶部を備える。また計算機は、ＲＴＣ（real-time clock）および通信インタフェースを備えている。

以上のような計算機によって構成された制御部１７は、機能要素として駆動制御部１７１と、学習情報収集部１７２と、学習情報通知部１７３と、更新処理部１７４とを有する。これらの各機能要素によって実行される手順は、ＲＯＭに保存されたプログラム、または外部装置からＲＡＭにロードされて保存されたプログラムであることとする。以下、これらの各機能要素を説明する。

［駆動制御部１７１］
駆動制御部１７１は、入力部１８からの指示、用紙位置センサーＰＳ１〜ＰＳ４、重送センサーＤｆＳ、および開閉センサーＯｐＳから入力された信号に基づいて、給紙装置本体１０の各駆動部分の駆動を制御する。駆動制御部１７１による給紙装置本体１０の各駆動部分の駆動の制御は、駆動制御プログラムに従って実施される。

駆動制御プログラムは、例えば（１）側方ファン１３Ｌ，１３Ｒのオン／オフ、（２）先端ファン１４のオン／オフ、（３）先端ファン１４の機能の切り替え、（４）側方ファン１３Ｌ，１３Ｒの風量、および（５）先端ファン１４の風量の制御を含む。また駆動制御プログラムは、（６）吸着搬送部１５における駆動ローラー１５１の駆動、および（７）用紙搬送部１６の駆動の制御を含む。

以上の駆動制御プログラムに従った駆動制御部１７１による制御の手順は、以降の給紙装置本体１０の駆動の概要において説明する。

［学習情報収集部１７２］
学習情報収集部１７２は、学習装置２０で実施する強化学習に必要な情報を、学習情報として収集する。このような学習情報は、給紙装置本体１０の駆動情報、および用紙Ｐに関する用紙情報である。

駆動情報は、用紙位置センサーＰＳ１〜ＰＳ４、および重送センサーＤｆＳが検知したセンシングデータであって、給紙装置本体１０の装置状態を示す装置情報を含む。また駆動情報は、駆動制御部１７１によって実施される駆動制御プログラムを含む。

また用紙情報は、給紙装置本体１０において給紙した用紙Ｐについての用紙情報、および次に給紙を実施する用紙Ｐについての用紙情報である。これらの用紙情報は、例えば用紙Ｐの種類、サイズ、および坪量である。用紙Ｐの種類は、普通紙、上質紙、表面が平滑な塗工紙、ＯＨＰフィルム、トレース用紙、厚手紙、光沢紙などを例示することができる。また用紙Ｐの種類には、封筒も含まれることとする。用紙Ｐのサイズは、用紙Ｐの搬送方向Ｘおよび幅方向Ｙの大きさであり、Ａ４サイズ、Ｂ５サイズ、Ｂ４サイズ、Ａ３サイズなどを例示することができる。用紙Ｐの坪量は、用紙Ｐの１ｍ２当たりの重量である。

学習情報収集部１７２は、これらの学習情報を、駆動制御部１７１から収集してもよいし、用紙位置センサーＰＳ１〜ＰＳ４、および重送センサーＤｆＳから直接収集してもよい。この学習情報収集部１７２による学習情報の収集の手順は、駆動制御プログラムを更新するための更新プログラムに従って実施される。この更新プログラムは、この給紙装置システム１によって実施される給紙装置制御プログラムの一部であり、以降の給紙装置の制御方法において詳細に説明する。

［学習情報通知部１７３］
学習情報通知部１７３は、学習情報収集部１７２で収集した学習情報を、以次に説明する学習装置２０に通知する。この学習情報通知部１７３による学習情報の通知の手順は、上述した更新プログラムに従って実施される手順である。

［更新処理部１７４］
更新処理部１７４は、以次に説明する学習装置２０から出力された制御情報に基づいて、駆動制御部１７１において実行される駆動制御プログラムを更新する。この更新処理部１７４による駆動制御プログラムの更新の手順は、上述した更新プログラムに従って実施される手順である。

＜入力部１８＞
入力部１８は、給紙装置本体１０による給紙開始の指示、および給紙装置本体１０で給紙する用紙Ｐの種類、サイズ、および坪量を入力する。このような入力部１８は、例えば図示したタッチパネル式の操作部のようにユーザーが任意に指定操作する構成のものであってよい。なお、用紙Ｐの種類、サイズ、および坪量は、センサーなどを用いて自動的に判別される構成であってもよい。この場合、用紙Ｐの種類、サイズ、および坪量を判別するためのセンサーも、入力部となる。

＜用紙位置センサーＰＳ１〜ＰＳ４＞
図３に示すように、用紙位置センサーＰＳ１〜ＰＳ４は、用紙Ｐの搬送方向Ｘに沿って複数配置され、用紙Ｐの搬送方向Ｘの先端位置を検知する。ここでは４つの用紙位置センサーＰＳ１〜ＰＳ４を設けた場合を例示したが、これに限定されることはない。これらの用紙位置センサーＰＳ１〜ＰＳ４は、例えば、搬送方向Ｘにおいて吸着搬送部１５の中央付近から、吸着搬送部１５を外れた位置までの間に、搬送方向Ｘの下流側に向かって、用紙位置センサーＰＳ１、ＰＳ２，ＰＳ３、ＰＳ４の順に配置されていることとする。

これにより、用紙位置センサーＰＳ１、ＰＳ２がオン、用紙位置センサーＰＳ３、ＰＳ４がオフであれば、用紙Ｐの先端が、用紙位置センサーＰＳ２と用紙位置センサーＰＳ３との間に位置していることが検知される。

またこれらの用紙位置センサーＰＳ１〜ＰＳ４のうち、搬送方向Ｘの最下流に設けられた用紙位置センサーＰＳ４は、特に後述する用紙Ｐの搬送時間［ｔ］を算出するためのセンサーとして用いられることとする。なお、用紙位置センサーＰＳ１〜ＰＳ４は、用紙Ｐの搬送方向Ｘの位置を検知できれば、個々に設けられたセンサーに限定されることはなく、複数の撮像素子を有するラインセンサーのような撮像装置であってもよい。

＜重送センサーＤｆＳ＞
図２に示すように、重送センサーＤｆＳは、用紙位置センサーＰＳ１〜ＰＳ４に対して、搬送方向Ｘのさらに下流側に配置され、吸着搬送部１５によって搬送された用紙Ｐが１枚であるか複数枚積層されているかを検知する。

＜開閉センサーＯｐＳ＞
開閉センサーＯｐＳは、給紙トレイ１１上への用紙Ｐの出し入れを検知する。このような開閉センサーＯｐＳは、一例として後端規制部材１２Ｂに設けられ、後端規制部材１２Ｂの移動を検知することによって、給紙トレイ１１上への用紙Ｐの出し入れを検知する構成であるが、これに限定されることはない。

＜給紙装置本体１０の駆動の概要＞
次に、駆動制御プログラムに従った駆動制御部１７１での制御による給紙装置本体１０の駆動の概要を説明する。図５〜図７は、本実施形態の給紙装置本体の駆動の概要を説明する図（その１）〜（その３）である。以下、これらの図に基づいて、上述した構成の給紙装置本体１０の駆動の概要を説明する。

先ず図５に示すように、吸着搬送部１５の駆動ローラー１５１をオフ、吸引装置１５４をオン状態としておく。この状態で、側方ファン１３Ｌ，１３Ｒをオン状態として、用紙束Ｐｂの上部に、側方ファン１３Ｌ，１３Ｒからの空気を吹き出し、用紙束Ｐｂの上部の用紙Ｐを浮上させる。この際、切替駆動部１４４の切り替えにより、先端ファン１４を浮上ファンに切り替えた状態で、先端ファン１４をオン状態として用紙Ｐの浮上を補助する。そして、最上部の用紙Ｐが、吸着センサーＡＳに達すると、側方ファン１３Ｌ，１３Ｒをオフ状態とする。

次に、図６に示すように、側方ファン１３Ｌ，１３Ｒをオフ状態とし、先端ファン１４をオン状態とし、切替駆動部１４４の切り替えにより、先端ファン１４を分離ファンに切り替える。これにより、分離ファンとして機能させた先端ファン１４により、浮上した複数枚の用紙Ｐ間に空気を吹き込んで用紙Ｐ間を捌いて分離し、１枚の用紙Ｐのみを吸着搬送部１５の吸着ベルト１５３に吸着させる。

この状態で、図７に示すように、側方ファン１３Ｌ，１３Ｒと共に、先端ファン１４をオフ状態とし、所定のタイミングで吸着搬送部１５の駆動ローラー１５１をオン状態とする。これにより、吸着ベルト１５３に吸着させた１枚の用紙Ｐを、搬送方向Ｘに搬送する。また吸着搬送部１５によって搬送方向Ｘに搬送された用紙Ｐは、図２に示した用紙搬送部１６によって、さらに搬送方向Ｘに搬送される。

以上説明した給紙装置本体１０の駆動手順は、給紙装置本体１０の駆動の概要であって、駆動制御部１７１が有する駆動制御プログラムは、上述した側方ファン１３Ｌ，１３Ｒおよび先端ファン１４のオン／オフや、先端ファン１４の機能の切り替えのタイミング、および風量を、精密に制御する。このような駆動制御プログラムは、次に説明する学習装置２０からの出力に基づき、更新プログラムに従って適宜のタイミングで更新される。

＜学習装置２０＞
図４に戻り、学習装置２０は、給紙装置本体１０の駆動制御部１７１が有する駆動制御プログラムを更新するための制御情報を、強化学習によって作成するためのものである。このような学習装置２０は、計算機によって構成されている。計算機は、上述したコンピューターとして用いられるハードウェアである。

この学習装置２０において実施する制御情報の作成の手順は、以降の給紙装置の制御方法において詳細に説明する。この学習装置２０において実施する制御情報の作成手順は、学習プログラムとしてＲＯＭに保存されたプログラムであるか、または外部装置からＲＡＭや他の記憶部にロードされて保存されたプログラムである。このような学習プログラムは、この給紙装置システム１によって実施される給紙装置制御プログラムの一部である。

またこのような学習装置２０は、給紙装置本体１０に対して近接して、または給紙装置本体１０と一体に設けられて給紙装置を構成してもよいが、これに限定されることはない。すなわち学習装置２０は、ネットワーク上のサーバーに設けられ、複数の給紙装置本体１０によって共有されるものであってもよい。

以上のような学習装置２０は、機能要素として学習情報取得部２１、報酬計算部２２、学習部２３、および制御情報出力部２４を有する。以下、これらの各機能要素を説明する。

［学習情報取得部２１］
学習情報取得部２１は、給紙装置本体１０の制御部１７から通知された学習情報を取得する。この学習情報取得部２１が取得した学習情報は、報酬計算部２２と学習部２３とに出力される。

［報酬計算部２２］
報酬計算部２２は、学習情報取得部２１から出力された学習情報に基づいて、次の学習部２３において実施する学習のための報酬の計算を実施する。この報酬計算部２２における報酬の計算手順は、予め定めたルールに従って実施される。このような報酬の計算は、以降の給紙装置の制御方法において詳細に説明する。

［学習部２３］
学習部２３は、学習情報取得部２１で取得した学習情報と、報酬計算部２２において計算した報酬の計算結果とに基づく学習を実施する。この学習部２３において実施する学習は、学習における行動価値を算出することにより、行動価値が最も高くなるような行動を学習する。また学習部２３は、学習結果から、給紙装置本体１０において実施する次の行動を決定する。

ここで次の行動とは、学習に基づいて決定した行動価値が最も高い行動であって、給紙装置本体１０の駆動を制御するための駆動制御プログラムにおいて更新の対象となる制御パラメーターのタイミングや値に相当する。具体的には、駆動制御プログラムにおける（１）側方ファン１３Ｌ，１３Ｒのオン／オフ、（２）先端ファン１４のオン／オフ、（３）先端ファン１４の機能の切り替え、（４）側方ファン１３Ｌ，１３Ｒの風量、および（５）先端ファン１４の風量のうちの少なくとも何れか１つである。この学習部２３における学習の手順は、以降の給紙装置の制御方法において詳細に説明する。

［制御情報出力部２４］
制御情報出力部２４は、学習部２３での学習結果に基づいて決定した次の行動を、制御プログラムの更新情報として給紙装置本体１０に出力する。

≪給紙装置制御プログラムによる給紙装置の制御方法≫
次に、以上のような構成の給紙装置システム１によって実施される給紙装置の制御方法を説明する。ここで説明する給紙装置の制御方法は、図１〜図４を用いて説明した給紙装置システム１における給紙装置本体１０の制御部１７と、学習装置２０とが、給紙装置制御プログラムを実行することによって実現される。給紙装置制御プログラムは、給紙装置本体１０の制御部１７が実行する駆動制御プログラムを更新するためのプログラムである。この給紙装置制御プログラムは、給紙装置本体１０の制御部１７が実行する更新プログラムと、学習装置２０が実行する学習プログラムとを含む。

ここでは先ず、学習装置２０において実施される学習プログラムによる学習処理の手順を説明し、次に給紙装置本体１０の制御部１７において実施される更新プログラムによる更新処理の手順を説明する。

＜学習処理の手順＞、
図８は、本実施形態に係る給紙装置システムによって実施される学習処理の手順を示すフローチャートである。ここで説明する学習処理の手順は、給紙装置制御プログラムの一部である学習プログラムの手順であって、学習装置２０によって実施される。以下、図８のフローチャートに示す順に、図１〜図４および必要に応じて他の図を参照しつつ、学習処理の手順を説明する。

［ステップＳ１］
ステップＳ１において、学習情報取得部２１は、給紙装置本体１０の制御部１７から学習情報を取得したか否かを判断し、取得した（Ｙｅｓ）と判断されるまで待機する。ここで学習情報取得部２１が取得する学習情報は、制御部１７の学習情報収集部１７２が収集して学習情報通知部１７３から通知された情報であって、上述したような給紙装置本体１０の駆動情報、および用紙Ｐに関する用紙情報を含む。

学習情報取得部２１は、制御部１７から通知された学習情報を取得した（Ｙｅｓ）と判断した場合に、次のステップＳ２に進む。

［ステップＳ２］
ステップＳ２において、学習情報取得部２１は、取得した学習情報を、報酬計算部２２と学習部２３とに伝達する。この場合、報酬計算部２２には、駆動情報と、給紙装置本体１０において給紙した用紙Ｐについての用紙情報を伝達する。また学習部２３には、駆動情報と、次に給紙を実施する用紙Ｐについての用紙情報を伝達する。

［ステップＳ３］
ステップＳ３において、報酬計算部２２は、学習情報取得部２１が取得した学習情報に基づいて、強化学習における報酬の計算を実施する。この場合、報酬計算部２２は、学習情報の通知があった給紙装置本体１０について、強化学習における各状態の場合の各行動においての各報酬を計算する。以下、強化学習における状態と行動、および報酬の計算の具体例を説明する。

−強化学習における状態と行動−
この場合の強化学習における状態は、用紙位置センサーＰＳ１〜ＰＳ４のオン／オフによって検知される用紙Ｐの位置と、先端ファン１４の機能の少なくとも１つであることとする。

このうち用紙位置センサーＰＳ１〜ＰＳ４のオン／オフによって検知される用紙Ｐの位置とは、図３を参照して次のようである。すなわち、用紙位置センサーＰＳ１〜ＰＳ４は、吸着搬送部１５に吸着された用紙Ｐが用紙位置センサーＰＳ１〜ＰＳ４に達することにより、オン状態となる。用紙Ｐの吸着搬送部１５への吸着は、ここでの図示を省略した吸着センサーによって検知されてもよい。一例として、用紙位置センサーＰＳ１〜ＳＰ３がオン、用紙位置センサーＰＳ４がオフの場合の用紙Ｐの位置は、用紙位置センサーＰＳ３から用紙位置センサーＰＳ４までの間に、用紙Ｐの先端が位置する状態であると検知される。

また先端ファン１４の機能とは、先端ファン１４が浮上ファンとして機能している状態か、分離ファンとして機能している状態の何れかである。

またこの場合の強化学習における行動は、（１）側方ファン１３Ｌ，１３Ｒのオン／オフ、（２）先端ファン１４のオン／オフ、（３）先端ファン１４の機能、（４）側方ファン１３Ｌ，１３Ｒの風量、および（５）先端ファン１４の風量のうちの少なくとも何れか１つである。なお、強化学習における行動は、給紙装置本体１０の駆動を制御するための駆動制御プログラムにおいて更新の対象となる制御パラメーターに相当する。

次に、強化学習において報酬の計算を実施する場合の、状態と行動の具体例を説明する。

図９は、本実施形態に係る強化学習の一例を説明するＱテーブルの図である。Ｑテーブルは、強化学習の状態と行動の関係を学習する際に利用するテーブルであり、状態と行動の組み合わせに対応する行動価値（Ｑ値）を示している。

この図９に示すように、強化学習における状態は、用紙位置センサーＰＳ１〜ＰＳ４のオン／オフによって検知される用紙Ｐの位置と、先端ファン１４の機能の両方とすることができる。

またこれら状態と組み合わせる行動は、（５）先端ファン１４の風量とすることができる。ここで風量は、一例として０％〜１００％の間の１０％刻みで設定される。またこの場合の行動には、（５）先端ファン１４の風量に替えて、または追加で（１）側方ファン１３Ｌ，１３Ｒのオン／オフ、（２）先端ファン１４のオン／オフ、および（４）側方ファン１３Ｌ，１３Ｒの風量のうちの少なくとも何れか１つが選択されてもよい。

図１０は、本実施形態に係る強化学習の他の例を説明するＱテーブルの図であって、Ｑテーブルの他の例である。また図１１は、図１０のＱテーブルにおける行動の詳細を示す図である。これらの図１０および図１１に示すように、強化学習における状態は、用紙位置センサーＰＳ１〜ＰＳ４のオン／オフによって検知される用紙Ｐの位置のみとしてもよい。

この場合の状態と組み合わせる行動は、（１）側方ファン１３Ｌ，１３Ｒのオン／オフ、（２）先端ファン１４のオン／オフ、および（３）先端ファン１４の機能とすることができる。またこの場合の行動には、これらの行動に替えて、または追加で（４）側方ファン１３Ｌ，１３Ｒの風量、および（５）先端ファン１４の風量のうちの少なくとも一方が選択されてもよい。

なお、行動として採用されなかった制御パラメーターは、予め設定された基準値として、以降の学習処理を進める。

−報酬について（その１）−
本実施形態に係る強化学習の報酬は、用紙Ｐの搬送時間［ｔ］に基づいて算出される。図１２，図１３は、本実施形態に係る強化学習において報酬の計算処理に用いる搬送時間［ｔ］を説明する図（その１），（その２）である。

ここで搬送時間［ｔ］とは、これらの図に示すように、吸着搬送部１５に吸着された用紙Ｐの先端が、吸着搬送部１５による搬送を開始してから所定に位置にまで搬送されるのに要する時間である。所定の位置とは、例えば用紙位置センサーＰＳ１〜ＰＳ４のうち、搬送方向Ｘの最下流に配置された用紙位置センサーＰＳ４で用紙Ｐの先端が検知される位置であることとする。

この搬送時間［ｔ］は、側方ファン１３Ｌ，１３Ｒおよび先端ファン１４からの送風によって浮上して分離された用紙Ｐが、吸着搬送部１５に吸着される位置に依存する。

図１２に示すように、浮上ファンとして機能させた先端ファン１４の風量に対して、側方ファン１３Ｌ，１３Ｒの風量が大きい場合、側方ファン１３Ｌ，１３Ｒの影響が強く、用紙Ｐは、搬送方向Ｘの下流側に浮上する。その結果、吸着搬送部１５に吸着させた用紙Ｐの先端と、所定位置に配置された用紙位置センサーＰＳ４との距離［ｄ］が短くなる。これにより、吸着搬送部１５に用紙Ｐが吸着した後に、吸着搬送部１５の駆動ローラー１５１を駆動して用紙Ｐを搬送方向Ｘに搬送した場合、所定位置に配置された用紙位置センサーＰＳ４に用紙Ｐの先端が到達する時間、すなわち搬送時間［ｔ］が短くなる。

このような場合には、先端ファン１４を分離ファンに切り替えた場合に、上方に浮上した複数の用紙Ｐ間に、先端ファン１４からの空気が吹き込まれにくくなる。これにより、複数枚の用紙Ｐが搬送される連れ送りと、これによる複数の用紙Ｐが同時に供給される重送ジャムが発生し易い。

一方、図１３に示すように、浮上ファンとして機能させた先端ファン１４の風量に対して、側方ファン１３Ｌ，１３Ｒの風量が小さい場合、先端ファン１４の影響が強く、用紙Ｐは、搬送方向Ｘの上流側に浮上する。その結果、吸着搬送部１５に吸着させた用紙Ｐの先端と、所定位置に配置された用紙位置センサーＰＳ４との距離［ｄ］が長くなる。これにより、吸着搬送部１５に用紙Ｐが吸着した後に、吸着搬送部１５の駆動ローラー１５１を駆動して用紙Ｐを搬送方向Ｘに搬送した場合に、所定位置に配置された用紙位置センサーＰＳ４に用紙Ｐの先端が到達する時間、すなわち搬送時間［ｔ］が長くなる。

このような場合には、吸着搬送部１５による用紙Ｐの搬送の遅れが生じ、所定の時間に用紙Ｐが供給されない、空送りジャムが発生し易い。

以上のように、搬送時間［ｔ］は、用紙Ｐの供給状態を表す指標となる。そこで、本実施形態における学習処理においては、用紙Ｐの搬送時間［ｔ］に基づいて報酬を算出する強化学習を行う。

次に、搬送時間［ｔ］に基づく報酬の算出を説明する。図１４は、搬送時間［ｔ］に基づく報酬の計算処理においてする報酬の付与を説明するためのグラフである。この図に示すように、報酬の算出においては先ず、搬送時間［ｔ］に対して、重送ジャムやノーフィードジャムが最も発生し難い目標搬送時間［Ｔｇ］を事前に設定する。そして、目標搬送時間［Ｔｇ］に対する近さによって報酬を付与する。

この場合、例えば目標搬送時間［Ｔｇ］を含む所定の時間範囲である第１搬送閾値［Ｔｔｈ１］と、第１搬送閾値［Ｔｔｈ１］を含むもう一つの所定の時間範囲である第２搬送閾値［Ｔｔｈ２］を設定する。

第１搬送閾値［Ｔｔｈ１］は、例えば重送ジャムやノーフィードジャムが発生しないことが確認されている範囲である。第１搬送閾値［Ｔｔｈ１］は、目標搬送時間［Ｔｇ］を中心とした範囲であってもよいが、これに限定されることはない。

第２搬送閾値［Ｔｔｈ２］は、例えば重送ジャムやノーフィードジャムが発生する場合がある範囲である。第２搬送閾値［Ｔｔｈ２］の上限値を超えた範囲は、ノーフィードジャムが発生する範囲となる。また第２搬送閾値［Ｔｔｈ２］の下限値を下回る範囲は、重送ジャムが発生する範囲となる。

なお、以上の目標搬送時間［Ｔｇ］、第１搬送閾値［Ｔｔｈ１］、および第２搬送閾値［Ｔｔｈ２］は、用紙Ｐの種類毎、サイズ毎、および坪量毎に、予め設定された値であって、給紙装置本体１０において給紙した用紙Ｐについての用紙情報に基づいて設定される。

そして、本ステップＳ３（図８参照）における報酬の計算処理においては、次に説明するように、第１搬送閾値［Ｔｔｈ１］内の搬送時間［ｔ］となる状態と行動の組み合わせに対して、正の報酬を与える。一方、第２搬送閾値［Ｔｔｈ１］外の搬送時間［ｔ］となる状態と行動の組み合わせに対して、負の報酬を与える。それ以外の搬送時間［ｔ］となる状態と行動の組み合わせに対しては、報酬をゼロとする。

−報酬の計算処理（その１）−
次に、報酬計算部２２が実施する報酬の計算処理の手順を説明する。図１５は、搬送時間［ｔ］に基づく報酬の計算処理を示すフローチャートであって、図８のステップＳ３における報酬の計算処理の手順を示す図である。以下、図１５に従って報酬の計算処理の手順を説明する。

＝ステップＳ３０１＝
ステップＳ３０１において、報酬計算部２２は、学習情報取得部２１から伝達された学習情報に基づいて、ある状態においてある行動によって過去に給紙を実施した、ある用紙情報を有する用紙Ｐの搬送時間［ｔ］を算出する。搬送時間［ｔ］の算出は、学習情報として取得した駆動制御プログラムのうちの、（６）吸着搬送部１５における駆動ローラー１５１の駆動開始のタイミングと、用紙位置センサーＰＳ４のオン／オフ情報であって用紙位置情報とから算出する。

＝ステップＳ３０２＝
ステップＳ３０２において、報酬計算部２２は、算出した搬送時間［ｔ］が第１搬送閾値［Ｔｔｈ１］の範囲内であるか否かを判断する。そして範囲内である（Ｙｅｓ）と判断した場合にはステップＳ３０３に進み、範囲内ではない（Ｎｏ）と判断した場合にはステップＳ３０４に進む。

＝ステップＳ３０３＝
ステップＳ３０３において、報酬計算部２２は、ステップＳ３０１において搬送時間［ｔ］を算出したある状態の場合のある行動に対して正の報酬を付与し、処理を終了させる。

＝ステップＳ３０４＝
ステップＳ３０４において、報酬計算部２２は、算出した搬送時間［ｔ］が、第２搬送閾値［Ｔｔｈ２］の範囲内であるか否かを判断する。そして範囲内である（Ｙｅｓ）と判断した場合には、報酬を付与せずにゼロとして処理を終了させる。一方、範囲内ではない（Ｎｏ）と判断した場合にはステップＳ３０５に進む。

＝ステップＳ３０５＝
ステップＳ３０５において、報酬計算部２２は、ステップＳ３０１において搬送時間［ｔ］を算出したある状態の場合のある行動に対して負の報酬を付与し、処理を終了させる。

なお、図８のステップＳ３において、報酬計算部２２は、学習情報取得部２１から伝達された学習情報に基づいて、過去に給紙を実施した全ての用紙Ｐまたは選択された条件の用紙Ｐについて、図１５に示したステップＳ３０１〜ステップＳ３０５を実施し、報酬の計算処理を終了させる。その後は、図８のステップＳ４に進む。

−報酬について（その２）−
本実施形態に係る強化学習の報酬は、さらに、用紙Ｐの重送が検知されたか否かに基づいて算出されてもよい。用紙Ｐの重送は、重送センサーＤｆＳ（図２〜図４参照）で検知される。

−報酬の計算処理（その２）−
図１６は、重送の検知に基づく報酬の計算処理を示すフローチャートであって、図８のステップＳ３における報酬の計算処理として追加で実施する手順を示す図である。この図に示す報酬の計算処理は、図１５を用いて説明した報酬の計算処理と合わせて、報酬計算部２２において実施されることが好ましい報酬の計算処理の手順である。以下、図１６に従って報酬の計算処理の手順の他の例を説明する。

＝ステップＳ３０１’＝
ステップＳ３０１’において、報酬計算部２２は、学習情報取得部２１から伝達された学習情報に基づいて、ある状態においてある行動によって過去に給紙を実施した用紙Ｐが、封筒であるか否かの判断を行う。封筒である（Ｙｅｓ）と判断した場合には、処理を終了させる。一方、封筒ではない（Ｎｏ）と判断した場合には、次のステップＳ３０２’に進む。

＝ステップＳ３０２’＝
ステップＳ３０２’において、報酬計算部２２は、学習情報取得部２１から伝達された学習情報に基づいて、ステップＳ３０１’で封筒ではないと判断した場合において、重送センサーＤｆＳが重送を検知したか否かの判断を実施する。重送を検知した（Ｙｅｓ）と判断した場合には、次のステップＳ３０３’に進む。一方、重送を検知していない（Ｎｏ）と判断した場合には、処理を終了させる。

＝ステップＳ３０３’＝
ステップＳ３０３’において、報酬計算部２２は、ステップＳ３０２’で重送を検知したと判断した場合の給紙に対して負の報酬を付与し、処理を終了させる。

なお、報酬計算部２２は、学習情報取得部２１から伝達された学習情報に基づいて、過去に給紙を実施した全ての用紙Ｐまたは選択された条件の用紙Ｐについて、図１６に示したステップＳ３０１’〜ステップＳ３０３’を実施し、報酬の計算処理を終了させる。その後は、図８のステップＳ４に進む。

［ステップＳ４］
以上のようなステップＳ３の後のステップＳ４において、学習部２３は、学習情報取得部２１から伝達された学習情報と、報酬計算部２２で算出した各用紙情報を有する用紙Ｐの各状態の場合の各行動においての各報酬に基づいて、行動の学習を実施する。ここでは、予め定めたルールに従って、ある状態の時にある行動を取った時の報酬を計算し、報酬の総和を最適化するように行動価値を算出してＱテーブル（図９および図１０参照）を更新して行動を学習する。

図１７は、本実施形態に係る強化学習における行動の学習を示すフローチャートであって、図８のステップＳ４における行動の学習処理の手順を示す図である。以下、図１７に従って行動の学習処理の手順を説明する。

＝ステップＳ４０１＝
ステップＳ４０１において、学習部２３は、学習情報取得部２１から伝達された学習情報に基づいて、ある状態である行動をとった場合の用紙供給のシミュレーションを実施する。なお、このシミュレーションは、次に給紙を実施する用紙Ｐの用紙情報に基づいて実施される。またここでは、給紙装置本体１０に対して実際に用紙供給を実施させてもよい。

＝ステップＳ４０２＝
ステップＳ４０２において、学習部２３は、ステップＳ４０１でのある状態である行動をとった場合の報酬を判断する。この際、学習部２３は、報酬計算部２２で実施した報酬の計算結果に基づいて、テップＳ４０１でのある状態である行動をとった場合の報酬を判断する。

＝ステップＳ４０３＝
ステップＳ４０３において、学習部２３は、Ｑテーブルを更新する。ここで図９，図１０に示したＱテーブルは、学習を開始する前の初期の状態においては、各状態および各行動におけるＱ値が初期値（例えば０．５）となっている。学習部２３は、ステップＳ４０２で判断した報酬に従い、該当する状態および行動のＱ値を更新する。

この場合、例えば、ステップＳ４０２において正の報酬と判断された場合には、該当する状態および行動のＱ値に、所定の値（例えば０．００５）を加算する。一方、ステップＳ４０２において負の報酬と判断された場合には、該当する状態および行動のＱ値から、所定の値（例えば０．００５）を減算する。

＝ステップＳ４０４＝
ステップＳ４０４において、学習部２３は、ステップＳ４０２の報酬判断の結果が、所定回収（例えば１００回）連続して正の報酬の判断であったか否かの判断を実施する。正の報酬の判断が所定回数連続した（Ｙｅｓ）と判断した場合には、処理を終了させる。一方、正の報酬の判断が所定回数連続していない（Ｎｏ）と判断した場合には、ステップＳ４０５に進む。

＝ステップＳ４０５＝
ステップＳ４０５において、学習部２３は、ステップＳ４０３において更新したＱテーブルに基づき、予め定めたルールにしたがって行動を変更し、ステップＳ４０１に戻る。

この際、学習部２３は、先ずは１番最後の状態、すなわち図９において用紙位置センサーＰＳ１〜ＰＳ３はＯＦＦ、用紙位置センサーＰＳ４はＯＮ、先端ファン機能は分離とした状態において、先端ファン風量をどの風量にすれば良いかを、探索するように行動を変更する。

そして、ステップＳ４０４におけるＱテーブルの更新によって行動を学習し、最終状態において、行動価値（すなわちＱ値）が最も高くなる行動が決定した場合に、状態を遡った次の状態において、先端ファン風量をどの風量にすれば良いかを、探索するように行動を変更する。

図９の例においては、最終状態において、先端ファン流量２０％の場合のＱ値（＝０．８４）が最も高い。このため、最終状態における行動は、先端ファン流量２０％に決定し、次に遡った状態において先端ファン風量をどの風量にすれば良いかを、探索するように行動を変更し、全ての状態の行動を決定していく。なお、以上は図１０および図１１の例においても同様である。

［ステップＳ５］
図８に戻り、ステップＳ５において、学習部２３は、ステップＳ４での行動の学習結果にも続いて、次の行動を選択する。この際、学習部２３は、ステップＳ４での行動の学習において、最終的に更新されたＱテーブル（ステップＳ４０３）に基づいて、各状態においてＱ値が最も大きい行動を選択する。

先の図９に示すＱテーブルの場合であれば、１番目の状態は２０％、２番目の状態は２０％、３番目の状態は５０％…最終状態は２０％が選択される。また図１０に示すＱテーブルの場合であれば（図１１を参照し）、１番目の状態はａ１、２番目の状態はａ４、３番目の状態はａ４、…最終状態はａ８となる。

［ステップＳ６］
ステップＳ６において、制御情報出力部２４は、ステップＳ５で選択した次の行動を、制御情報として給紙装置本体１０に出力する。そして、学習装置２０による学習処理を終了させる。

＜駆動制御プログラムの更新処理の手順＞
図１８は、本実施形態に係る給紙装置システムによって実施される駆動制御プログラムの更新処理を示すフローチャートである。ここで説明する駆動制御プログラムの更新処理の手順は、給紙装置制御プログラムの一部である更新プログラムの手順であって、給紙装置本体１０の制御部１７によって実施される。以下、図１８のフローチャートに示す順に、図１〜図４および必要に応じて他の図を参照しつつ、駆動制御プログラムの更新処理の手順を説明する。

［ステップＳ００１］
ステップＳ００１において、学習情報収集部１７２は、給紙装置本体１０において、用紙Ｐの変更があったか否かの判断を実施する。ここで、用紙Ｐの変更とは、給紙装置本体１０から給紙する用紙Ｐが、変更されたか否かを意味している。学習情報収集部１７２は、例えば、入力部１８から駆動制御部１７１に入力された情報に基づいて、この判断を実施する。そして、変更された（Ｙｅｓ）と判断した場合に、次のステップＳ００２に進み、変更されていない（Ｎｏ）と判断された場合には、次のステップＳ００１’に進む。

［ステップＳ００１’］
ステップＳ００１’において、学習情報収集部１７２は、トレイの開閉があったか否かの判断を実施する。ここで、トレイとは用紙Ｐが載置される給紙トレイ１１であり、学習情報収集部１７２は、例えば開閉センサーＯｐＳから駆動制御部１７１に入力された情報に基づいて、この判断を実施する。そして、開閉された（Ｙｅｓ）と判断した場合に、次のステップＳ００２に進む。用紙Ｐが変更されていない場合、つまり用紙Ｐの種類、サイズ、坪量などが変更されていない場合であっても、給紙トレイ１１が開閉された場合、用紙Ｐの給紙トレイ１１上への載置状態が変わっている可能性があるので、同様に学習を開始する。一方、本ステップＳ００１’において、開閉されていない（Ｎｏ）と判断された場合には、ステップＳ００１に戻る。

［ステップＳ００２］
ステップ００２において、学習情報収集部１７２は、駆動制御部１７１から学習情報を収集する。ここで学習情報収集部１７２が収集する学習情報は、先に説明した通りの情報であって、給紙装置本体１０に関する駆動情報、および用紙Ｐに関する用紙情報である。

［ステップＳ００３］
ステップＳ００３において、学習情報通知部１７３は、学習情報収集部１７２が収取した学習情報を、学習装置２０に通知する。

［ステップＳ００４］
ステップＳ００４において、更新処理部１７４は、学習装置２０から制御情報を受信したか否かの判断を実施する。ここで更新処理部１７４が受信する制御情報は、先に説明した学習装置２０における学習処理において、学習装置２０の制御情報出力部２４が出力した制御情報である（図８のステップＳ６）。更新処理部１７４は、制御情報を受信した（Ｙｅｓ）と判断されるまで待機する。制御情報を受信した（Ｙｅｓ）と判断された場合に、次のステップＳ００５に進む。

［ステップＳ００５］
ステップＳ００５において、更新処理部１７４は、学習装置２０から受信した制御情報に基づいて、駆動制御部１７１のファームウェアである駆動制御プログラムの更新を実施し、処理を終了させる。

≪画像形成装置≫
図１９は、本実施形態に係る給紙装置システムを有する画像形成装置の一例を示す構成図である。

上述した本例の給紙装置システム１は、画像形成装置へ用紙を供給する給紙装置の制御システムとして好適に用いられる。このような画像形成装置として、複写機、プリンタ装置、ファクシミリ装置、印刷機、複合機等を例示することができる。以下に、本実施形態に係る給紙装置システム１を適用した画像形成装置（本発明の画像形成装置）が例えば複写機の場合を例に挙げて説明する。

この図に示す画像形成装置１００は、画像形成装置本体２００、画像読取装置３００、自動原稿送り装置４００、および給紙装置５００を有する構成となっている。

画像形成装置本体２００は、例えば、給紙カセット２０１、給紙部２０２、画像形成部２０３、および排紙部２０４を備える。給紙カセット２０１は、複数枚の用紙Ｐを収容する。給紙部２０２は、給紙カセット２０１に収容された用紙Ｐを、給紙カセット２０１から取り出して画像形成部２０３に搬送する。

画像形成部２０３は、画像読取装置３００から送信された画像信号に基づいて、給紙部２０２から搬送された用紙Ｐに画像を形成する部分である。この画像形成部２０３は、画像形成方式が限定されることはなく、例えば電子写真方式、またはインクジェット方式のものが適用される。一例として、電子写真方式の画像形成部２０３であれば、トナー画像形成ユニット、中間転写ベルト、および定着部などを備え、用紙Ｐの一主面上にトナー画像を形成する。またインクジェット方式の画像形成部２０３であれば、インクジェットヘッドを備え、用紙Ｐの一主面上にインク画像を形成する。

排紙部２０４は、画像形成部２０３において画像が形成された用紙Ｐを、排紙する。

画像読取装置３００は、自動原稿送り装置４００から搬送された原稿から、光学的に画像を読み取り、読み取った画像信号を処理して画像形成部に送信する。

自動原稿送り装置４００は、原稿台を備え、原稿台上に載置された原稿を画像読取装置３００に搬送する。

給紙装置５００は、画像形成装置本体２００に接続されて、画像形成装置本体２００に用紙Ｐを給紙する。この給紙装置５００は、先に説明した給紙装置本体１０を複数備え、各給紙装置本体１０から画像形成装置本体２００の給紙部２０２に、用紙Ｐを１枚ずつ分離しつつ給紙する。

これらの各給紙装置本体１０は、先に説明した学習装置２０との間で通信が可能なものである。これらの各給紙装置本体１０は、例えば共通の駆動制御部１７１によって駆動制御されるものであってよいが、先に説明した学習装置２０による学習は、給紙装置本体１０毎に実施されることとする。またこの場合、学習装置２０は、他の画像形成装置１００に設けられた給紙装置５００の各給紙装置本体１０と共有されるものであってよい。

また給紙装置５００は、複数の給紙装置本体１０と共に１つの学習装置２０を装置内に組み込んだ構成のものであってもよい。

≪実施形態の効果≫
以上説明した実施形態によれば、吸着搬送部１５に吸着された用紙Ｐが所定に位置にまで搬送される搬送時間［ｔ］によって報酬を判断する強化学習に基づいて、給紙装置本体１０の駆動制御プログラムを更新する構成である。先にも述べたように、搬送時間［ｔ］は、用紙Ｐの供給状態を正確に表す指標である。このため、この強化学習に基づいて、給紙装置本体１０の駆動制御プログラムを更新することにより、用紙の種類や装置の設置環境によらずに、重送や空送りの発生なく、度高精度な用紙供給を実施することが可能になる。

また、このような高精度な用紙供給が実施される給紙装置システムを用いた画像形成装置１００によれば、複数枚の用紙Ｐに対して連続した円滑な画像形成が可能となる。

１…給紙装置システム
１１…給紙トレイ
１３Ｌ，１３Ｒ…側方ファン
１４…先端ファン（機能切替ファン）
１５…吸着搬送部
１７１…駆動制御部
２０…学習装置
１００…画像形成装置
１７４…更新処理部
２０３…画像形成部
５００…給紙装置
ＤｆＳ…重送センサー
Ｐ…用紙
Ｐｂ…用紙束
ＰＳ１〜ＰＳ４…用紙位置センサー
［ｔ］…搬送時間
［Ｔｔｈ１］…第１搬送閾値（所定の時間範囲）
［Ｔｔｈ２］…第２搬送閾値（もう一つの所定の時間範囲）

Claims

空気の吹き出しによって給紙トレイ上の用紙束から用紙を浮上させる機能を有するファンと、
前記浮上させた用紙を吸着して搬送する吸着搬送部と、
駆動制御プログラムに基づいて前記ファンと前記吸着搬送部の駆動を制御する駆動制御部と、
前記駆動制御プログラムを更新するための制御情報を作成する学習装置と備え、
前記学習装置は、前記吸着搬送部によって前記用紙が所定位置にまで搬送される搬送時間に基づいて報酬を付与する強化学習の実施により、前記制御情報を作成する
給紙装置システム。
前記吸着搬送部によって搬送される用紙の位置を検知するための複数の用紙位置センサーを備え、
前記駆動制御部は、前記複数の用紙位置センサーからの信号に基づいて前記ファンと前記吸着搬送部の駆動を制御し、
前記学習装置は、前記駆動制御部による駆動情報に基づいて、前記吸着搬送部による前記用紙の搬送を開始してから前記複数の用紙センサーのうちの所定の用紙位置センサーに前記用紙が達するまでの時間を前記搬送時間として算出し、前記強化学習を実施する
請求項１に記載の給紙装置システム。
前記学習装置は、予め設定した時間と、前記搬送時間とを比較して前記報酬を算出する
請求項１または２に記載の給紙装置システム。
前記学習装置は、前記搬送時間が所定の時間範囲内の場合に、前記報酬として正の報酬を付与する
請求項１〜３のうちの何れか１項に記載の給紙装置システム。
前記学習装置は、前記搬送時間が前記所定の時間範囲を含むもう一つの所定の時間範囲外の場合に、前記報酬として負の報酬を付与する
請求項４に記載の給紙装置システム。
前記所定の時間範囲は、前記用紙の種類、サイズ、および坪量毎に設定された値である
請求項４または５に記載の給紙装置システム。
前記吸着搬送部で搬送された用紙の重送を検知する重送センサーを備え、
前記学習装置は、前記搬送時間に基づいて報酬を付与し、さらに前記重送センサーでの検知結果に応じて報酬を付与する
請求項１〜６のうちの何れか１項に記載の給紙装置システム。
前記学習装置は、前記重送センサーにおいて重送を検知した場合に、前記報酬として負の報酬を付与する
請求項７に記載の給紙装置システム。
前記学習装置は、前記用紙が封筒である場合には、前記重送センサーでの検知結果に応じた報酬の付与を実施しない
請求項７または８に記載の給紙装置システム。
前記学習装置は、前記用紙位置センサーからの信号に基づく用紙位置を状態とし、前記ファンの制御パラメーターを行動とした強化学習を実施する
請求項１〜９のうちの何れか１項に記載の給紙装置システム。
複数の前記ファンを備え、
前記複数のファンのうちの少なくとも一つは、前記空気の吹き出し方向が可変なものであって、用紙を浮上させる機能と、前記用紙束から浮上させた複数の用紙間に空気を吹き込んで前記複数の用紙を分離させる機能とを有する機能切替ファンであり、
前記学習装置は、前記機能切替ファンの機能を、状態または行動とした強化学習を実施する
請求項１０に記載の給紙装置システム。
前記学習装置が実施する強化学習において前記行動となる前記ファンの制御パラメーターは、前記複数のファンのそれぞれのオン／オフおよび風量、さらには前記機能切替ファンの機能のうちの少なくとも１つである
請求項１１に記載の給紙装置システム。
前記学習装置が作成した前記ファンの制御情報に基づいて、前記駆動制御プログラムを更新する更新処理部を備えた
請求項１〜１２のうちの何れか１項に記載の給紙装置システム。
前記学習装置は、前記用紙の種類、サイズ、および坪量のうちに何れか１つでも変更された場合に、前記強化学習を開始する
請求項１〜１３のうちの何れか１項に記載の給紙装置システム。
前記学習装置は、前記給紙トレイの開閉を検知した場合に、前記強化学習を開始する
請求項１〜１４のうちの何れか１項に記載の給紙装置システム。
前記学習装置は、前記強化学習において正の報酬が所定回数連続した場合に、前記強化学習を終了させる
請求項１〜１５のうちの何れか１項に記載の給紙装置システム。
前記学習装置は、ネットワーク上のサーバーに設けられたものであり、
前記ファンと前記吸着搬送部とを備えた複数の給紙装置本体によって、前記学習装置が共有される
請求項１〜１６のういちの何れか１項に記載の給紙装置システム。
請求項１〜１７のうちの何れか１項に記載の給紙装置システムの学習装置が、前記ファンと前記吸着搬送部とを備えた給紙装置本体に対して一体に組み込まれた
給紙装置。
空気の吹き出しによって給紙トレイ上の用紙束から用紙を浮上させる機能を有するファンと、前記浮上させた用紙を吸着して搬送する吸着搬送部と、駆動制御プログラムに基づいて前記ファンと前記吸着搬送部の駆動を制御する駆動制御部とを備えた給紙装置の制御プログラムであって、
前記吸着搬送部によって前記用紙が所定位置にまで搬送される搬送時間に基づいて報酬を付与する強化学習の実施により、前記駆動制御プログラムを更新するための制御情報を、学習装置に作成させる
給紙装置制御プログラム。
請求項１〜１７のうちの何れか１項に記載の給紙装置システムと、
前記給紙装置システムから給紙された用紙に画像を形成する画像形成部とを備えた
画像形成装置。