JP2021116186A

JP2021116186A - 機械学習方法、搬送装置、画像形成装置、および機械学習プログラム

Info

Publication number: JP2021116186A
Application number: JP2020012743A
Authority: JP
Inventors: 浩一斎藤; Koichi Saito; 駿菅井; Shun Sugai; 一彦小輪▲瀬▼; Kazuhiko Kowase; 知宏桐山; Tomohiro Kiriyama
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2020-01-29
Filing date: 2020-01-29
Publication date: 2021-08-10
Anticipated expiration: 2040-01-29
Also published as: JP7456168B2

Abstract

【課題】被搬送媒体の搬送におけるスキュー補正制御を適正に行える学習モデルを生成する。【解決手段】搬送路３５０に沿って被搬送媒体を搬送する複数の搬送部材ｒ１１、ｒ１２と、搬送路３５０を搬送される被搬送媒体のスキュー状態を検出する状態検出部ｓ１−ｓｘと、搬送路３５０における被搬送媒体の位置を検出する位置検出部ｓ１−ｓｘと、搬送部材ｒ１１、ｒ１２を駆動する駆動源Ｍ１、Ｍ２と、を備える搬送装置３５に関する機械学習方法であって、現段階での複数の前記搬送部材の駆動速度、前記被搬送媒体の位置、および該被搬送媒体のスキュー状態から、該スキュー状態が所定量になるように、次に出力すべき複数の搬送部材の駆動速度を、報酬値を用いて機械学習することで、学習モデルを生成する、機械学習方法。【選択図】図８

Description

本発明は、被搬送媒体の搬送の制御に関する機械学習方法、搬送装置、画像形成装置、および機械学習プログラムに関する。

商用のカラー印刷業界においては、電子写真方式の画像形成装置が広く活用されている。カラー印刷業界に対応するＰＰ（プロダクションプリント）の分野では、オフィスで用いられる場合に比べて多様な種類の用紙への適応が求められる。そして、これらの多様な用紙に対して高品質な印刷を行うために、用いる用紙の種類に応じて、搬送条件を設定し、印刷を行う画像形成装置がある。

しかしながら、用紙の種類や使用状況の組み合わせは膨大であり、あらゆる組み合わせを想定した制御を設計するためには多大な開発工数が必要になる。従来は、人手による設計に頼っているため、考えられる組み合わせ条件のうち、一部の条件、すなわち、最悪な条件や代表的な条件について検討し、その特定な条件下おいて、正常な範囲内で用紙搬送が行えるように制御設計を行っている。しかしながら、この方法では、想定していない使用条件下では最適な制御にならない場合があり、十分な顧客満足度が得られない。

特許文献１では、シートの斜送（スキュー）を防ぐシート搬送装置が開示されている。このシート搬送装置は、シートの傾き検知手段と、傾き補正手段と、を備え、検知手段の検知信号に基づき、傾いた状態のシートを挟持した状態で補正手段を、斜めに移動させることで、シートの傾きを補正している。

特開２００５−４１６０３号公報

しかしながら、画像形成装置では、使用により複数の部品が劣化する。例えば、用紙の搬送を行う搬送ローラーが摩耗等により劣化し、外径が変化した場合には、搬送ローラーの搬送速度（１回転当たりの搬送量）が変化する。特許文献１に開示された技術では、このような状況下では、用紙のスキューの補正が正しく行えず、搬送路の端部に用紙が接触したような場合には、用紙損傷や用紙搬送ジャム等の不具合を生じさせてしまう虞がある。

このような使用条件をも考慮して、設計することも考えられるが、搬送ローラー等の部品の劣化状態に応じて、用紙の搬送速度等の搬送状態を常に監視し、この搬送状態に応じた条件を設定しなければならず、設計に要する作業量が膨大になり、現実的でない。

本発明は、上記事情に鑑みてなされたものであり、被搬送媒体の搬送におけるスキュー補正制御を適正に行える学習モデルを生成する機械学習方法、ならびに生成された学習モデルを用いた搬送装置、および画像形成装置を提供することを目的とする。

本発明の上記目的は、下記の手段によって達成される。

（１）搬送路に沿って被搬送媒体を搬送する複数の搬送部材と、
前記搬送路を搬送される被搬送媒体のスキュー状態を検出する状態検出部と、
前記搬送路における被搬送媒体の位置を検出する位置検出部と、
前記搬送部材を駆動する駆動源と、
を備える搬送装置の搬送制御を学習する機械学習方法であって、
被搬送媒体を搬送する複数の前記搬送部材の駆動速度、該被搬送媒体の位置、および該被搬送媒体のスキュー状態を入力するステップ（ａ）と、
前記ステップ（ａ）の入力に応じて、学習モデルを用いて決定した前記駆動源の駆動制御に関する行動情報を出力するステップ（ｂ）と、
前記ステップ（ｂ）の出力した後の前記被搬送媒体の前記スキュー状態に応じて報酬値を算出するステップ（ｃ）と、
を有し、
現段階での複数の前記搬送部材の駆動速度、前記被搬送媒体の位置、および該被搬送媒体のスキュー状態から、該スキュー状態が所定量になるように、次に出力すべき複数の前記搬送部材の前記駆動速度を、前記報酬値を用いて機械学習することで、前記学習モデルを生成する、機械学習方法。

（２）前記位置検出部により、前記搬送路を搬送される前記被搬送媒体の位置が所定位置に到達したタイミングで、前記機械学習を開始する、上記（１）に記載の機械学習方法。

（３）前記搬送部材には、前記搬送路における前記被搬送媒体の搬送方向に沿って並んだ、２組以上の搬送ローラー対が含まれ、
前記搬送方向に並んだ２組以上の前記搬送ローラー対を用いて、前記スキュー状態の補正制御を行う場合には、
前記到達したタイミングは、前記補正制御に用いる複数の前記搬送ローラー対のうち、最下流の前記搬送ローラー対に、前記被搬送媒体の先端が、到達したタイミングである、上記（２）に記載の機械学習方法。

（４）前記到達したタイミングから、前記被搬送媒体が所定量だけ搬送された時点で、１つのエピソードの学習を終了する、上記（３）に記載の機械学習方法。

（５）ユーザーから前記所定量の設定変更を受け付けるステップを含む、上記（４）に記載の機械学習方法。

（６）前記搬送部材には、前記搬送路における前記被搬送媒体の搬送方向に直交する幅方向に並んだ、２組以上の搬送ローラー対が含まれ、
前記幅方向に並んだ２組以上の前記搬送ローラー対を用いて、前記スキュー状態の補正制御を行う場合には、
前記到達したタイミングは、前記補正制御に用いる前記幅方向に並んだ複数の前記搬送ローラー対の全てに、前記被搬送媒体の先端が、到達したタイミングである、上記（２）に記載の機械学習方法。

（７）前記幅方向に並んだ複数の前記搬送ローラー対の全てから、前記被搬送媒体が抜けたタイミングで、１つのエピソードの学習を終了する、上記（６）に記載の機械学習方法。

（８）前記機械学習をする周期は、目標とする前記スキューの補正精度と、前記被搬送媒体を搬送する速度から算出した周期である、上記（１）から上記（７）のいずれかに記載の機械学習方法。

（９）前記報酬値を算出するステップでは、
所定の周期で、学習を実施し、前回サイクルでのスキュー状態と、今回のサイクルでのスキュー状態を比較し、
前記スキュー状態から算出した今回のサイクルでのスキュー量の方が、前回サイクルでのスキュー量よりも小さい場合、正の報酬値を与える、上記（１）から上記（８）のいずれかに記載の機械学習方法。

（１０）前記報酬値を算出するステップでは、
所定の周期で、学習を実施し、１つ前の前回サイクルでのスキュー状態と、今回のサイクルでのスキュー状態を比較し、
前記スキュー状態から算出した今回のサイクルでのスキュー量の方が、前回サイクルでのスキュー量よりも大きい場合、負の報酬値を与える、上記（１）から上記（９）のいずれかに記載の機械学習方法。

（１１）前記報酬値を算出するステップでは、
所定の周期で、学習を実施し、１つ前の前回サイクルでのスキュー状態と、今回のサイクルでのスキュー状態を比較し、
前記スキュー状態から算出した今回のサイクルでのスキュー量の方が、前回サイクルでのスキュー量が同じ場合、ゼロの報酬値を与える、上記（１）から上記（１０）のいずれかに記の機械学習方法。

（１２）搬送路に沿って被搬送媒体を搬送する複数の搬送部材と、
前記搬送路を搬送される被搬送媒体のスキュー状態を検出する状態検出部と、
前記搬送路における被搬送媒体の位置を検出する位置検出部と、
前記搬送部材を駆動する駆動源と、
を備え、
上記（１）から上記（１１）のいずれかに記載の機械学習方法で学習した学習モデルを用いて、前記被搬送媒体の前記スキュー状態、前記位置、および前記搬送部材の駆動速度から、前記被搬送媒体の搬送を制御する、搬送装置。

（１３）搬送路に沿って被搬送媒体を搬送する複数の搬送部材と、
前記搬送路を搬送される被搬送媒体のスキュー状態を検出する状態検出部と、
前記搬送路における被搬送媒体の位置を検出する位置検出部と、
前記搬送部材を駆動する駆動源と、
を備えた搬送装置であって、
上記（１）から上記（１１）のいずれかに記載の機械学習方法で学習した学習モデルを用いて、前記被搬送媒体の前記スキュー状態、前記位置、および前記搬送部材の駆動速度から、前記被搬送媒体の搬送を制御する、搬送装置と、
前記搬送装置で搬送した被搬送媒体に画像を形成する画像形成部と、
を備える画像形成装置。

（１４）前記搬送路において、前記スキュー状態の補正制御を行う区間、または前記補正制御を行う区間よりも前に、前記被搬送媒体に形成する前記画像形成部の画像形成開始タイミングが係る場合、
前記学習モデルを学習する際に、スキュー状態の補正制御に要する補正時間を計測し、
前記学習モデルを用いて、前記被搬送媒体の搬送を制御するときに、前記補正時間に応じて、予め前記画像形成開始タイミングを設定する、上記（１３）に記載の画像形成装置。

（１５）前記学習モデルを学習する際に、スキュー状態の補正制御に要する補正時間を計測し、
前記補正時間が所定時間よりも短い場合には、
前記学習モデルを用いて、前記被搬送媒体の搬送を制御するときに、前記補正制御完了時に、前記画像形成部の定着装置の温度情報を取得し、該温度情報に応じて、前記被搬送媒体の搬送を制御する、上記（１３）に記載の画像形成装置。

（１６）前記学習モデルを学習する際に、スキュー状態の補正制御に要する補正時間を計測し、
前記補正時間が所定時間よりも長い場合には、
前記学習モデルを用いて、前記被搬送媒体の搬送を制御するときに、前記画像形成部の定着装置の制御温度を、用紙定着時の印字温度に切り替えるタイミングを、前記補正時間の長さに応じて、遅延させる、上記（１３）に記載の画像形成装置。

（１７）上記（１）から上記（１１）のいずれかの機械学習方法をコンピューターに実行させるための機械学習プログラム。

本発明によれば、搬送路に沿って被搬送媒体を搬送する複数の搬送部材と、前記搬送路を搬送される被搬送媒体のスキュー状態を検出する状態検出部と、前記搬送路における被搬送媒体の位置を検出する位置検出部と、前記搬送部材を駆動する駆動源と、を備える搬送装置に関する機械学習方法であって、
被搬送媒体を搬送する複数の前記搬送部材の駆動速度、該被搬送媒体の位置、および該被搬送媒体のスキュー状態を入力するステップ（ａ）と、前記ステップ（ａ）の入力に応じて、学習モデルを用いて決定した前記駆動源の駆動制御に関する行動情報を出力するステップ（ｂ）と、前記ステップ（ｃ）の出力した後の前記被搬送媒体の前記スキュー状態に応じて報酬値を算出するステップ（ｃ）と、を有し、
現段階での複数の前記搬送部材の駆動速度、前記被搬送媒体の位置、および該被搬送媒体のスキュー状態から、該スキュー状態が所定量になるように、次に出力すべき複数の前記搬送部材の前記駆動速度を、報酬値を用いて機械学習することで、前記学習モデルを生成する、機械学習方法とする。これにより、被搬送媒体の搬送におけるスキュー補正制御を適正に行える学習モデルを生成できる。

機械学習装置、および本実施形態に係る画像形成装置を示す概略図である。機械学習装置のハードウェア構成を示すブロック図である。画像形成装置のハードウェア構成を示すブロック図である。搬送装置の構成を示す概略図である。搬送される用紙のスキュー状態を示す模式図である。他の例における搬送装置の構成を示す概略図である。別の例における搬送装置の構成を示す概略図である。機械学習装置の機能を示すブロック図である。機械学習装置の学習処理を示すフローチャートである。一実施例に係るテーブルタイプの学習モデルの例を示す図である。図９のステップＳ２０４の報酬付与処理を示すサブルーチンフローチャートである。一実施例に係るニューラルネットワークタイプの学習モデルの例を示す図である。学習周期の決定手順を説明するための模式図である。幅方向に並んだ２組の搬送ローラー対で補正制御を行う場合における機械学習の始期を説明する図である。機械学習の終期を説明する図である。搬送方向に並んだ２組の搬送ローラー対で補正制御を行う場合における機械学習の始期を説明する図である。機械学習の終期を説明する図である。機械学習の始期、終期の判定を組み込んだ、変形例における学習処理を示すフローチャートである。スキュー状態の補正制御に要する時間に応じて、画像形成開始タイミング等の変更を行う処理を示す図である。スキュー状態の補正制御に要する時間に応じて、搬送動作開始タイミングの変更を行う処理を示す図である。第１の変形例に係る機械学習装置、および画像形成装置の構成を示す概略図である。第２の変形例に係る機械学習部、および画像形成装置の構成を示す概略図である。第３の変形例に係る機械学習部、および画像形成装置の構成を示す概略図である。第４の変形例に係る機械学習装置、および画像形成装置の構成を示す概略図である。第５の変形例に係る機械学習装置、および画像形成装置の構成を示す概略図である。第６の変形例に係る機械学習装置、および画像形成装置の構成を示す概略図である。第７の変形例に係る機械学習部、および画像形成装置の構成を示す概略図である。第８の変形例に係る機械学習装置、および画像形成装置の構成を示す概略図である。

以下、添付した図面を参照して、本発明の実施形態を説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

図１は、機械学習装置１０、および本実施形態に係る画像形成装置３０を示す概略図である。図２は、機械学習装置１０のハードウェア構成を示すブロック図である。図３は、画像形成装置３０のハードウェア構成を示すブロック図である。

画像形成装置３０は、搬送装置３５を含み、搬送装置３５により用紙（被搬送媒体）を搬送し、搬送した用紙上に画像を形成する。用紙の搬送は、搬送部材（後述の搬送ローラー対、定着ローラー等）により行われる。画像形成装置３０と機械学習装置１０は、ネットワークを介して接続されている。機械学習装置１０は、後述するように用紙搬送に関する行動を学習し、機械学習モデルを生成する。生成した機械学習モデルは、画像形成装置３０に送られる。画像形成装置３０は、取得したこの機械学習モデルを、用紙を搬送する際の制御に用いる。

（機械学習装置１０）
図２に示すように、機械学習装置１０は、制御部１１、記憶部１２、およびネットワークＩ／Ｆ（インターフェース）１３を備える。これらの構成部品は信号をやり取りするためのバス等の信号線を介して相互に接続されている。機械学習装置１０は、オンプレミスサーバーであってもよく、あるいは商用のクラウドサービスを利用したクラウドサーバーであってもよい。

制御部１１は、複数のＣＰＵ、複数のＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ、ＲＯＭ、等を含みプログラムにしたがって、各装置の制御や、機械学習を行う。制御部１１で行われる機械学習については後述する。

記憶部１２は、予め各種プログラムや各種データを格納しておく半導体メモリーや、ハードディスク等の磁気メモリーから構成される。機械学習により学習した機械学習モデルは、この記憶部１２に記憶され、適当なタイミングで、画像形成装置３０に送られる。

ネットワークＩ／Ｆ１３は、送受信部として機能する。ネットワークＩ／Ｆ１３は、画像形成装置３０等の他の機器とネットワークを経由したデータの送受信を行うインターフェースである。例えば、Ｅｔｈｅｒｎｅｔ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＩＥＥＥ８０２．１１（Ｗｉ−Ｆｉ）、等の規格による通信を行う機器が用いられる。

（画像形成装置３０）
図３に示すように、画像形成装置３０は、制御部３１、記憶部３２、操作パネル３３、画像形成部３４、搬送装置３５、およびネットワークＩ／Ｆ３６を備える。これらの構成部品は信号をやり取りするためのバス等の信号線を介して相互に接続されている。

制御部３１は、１つまたは複数のＣＰＵ、１つまたは複数のＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ、ＲＯＭ、等を含みプログラムにしたがって上記各部の制御や各種の演算処理を行う。

記憶部３２は、予め各種プログラムや各種データを格納しておく半導体メモリーや、ハードディスク等の磁気メモリーから構成される。記憶部３２には、機械学習装置１０が生成した学習モデル（学習済みモデル）が記憶される。記憶部３２にはファームウェアが含まれ、この学習モデルは、専用ソフトで書き込むことでファームウェアに記憶されてもよい。また、記憶部３２には、機器状態情報が記憶される。この機械状態情報は、少なくとも用紙の搬送に影響する機械、電気部品の状態を示す情報である。例えば、各搬送ローラー対の搬送速度（１回転当たりの搬送量）が含まれる。この搬送速度は、例えば、モーターの回転量と、搬送路上の複数箇所に配置したセンサーの出力から逐次算出できる。この算出は、特定のモードで実施するようにしてもよく、通常の印刷時において逐次モニターすることで、複数枚の用紙の搬送履歴から算出するようにしてもよい。

操作パネル３３は、タッチパネル、テンキー、スタートボタン、ストップボタン等を備えており、各種情報の表示および各種指示の入力に使用される。操作パネル３３を介して、ユーザーは、機械学習時における搬送量（後端位置）の設定を行うことで、スキュー補正の学習を行う１つのエピソードの区間の設定を行える。

画像形成部３４は、例えば帯電、露光、現像、転写、および定着の各工程を含む電子写真式プロセス等の周知の作像プロセスを用いて、各種データに基づく画像を用紙上に形成する。画像形成部３４は、感光体ドラムへの露光を行う書込部３４１、および用紙上に形成されたトナー画像の加熱、加圧工程による定着処理を行う定着装置３４２を含む。

画像形成部３４においては、画像形成開始タイミングに合わせて、書込部による露光（書き出し）の開始タイミングと、レジストローラー（後述の搬送ローラー対ｒ２）による用紙搬送タイミングが同期される。これにより、転写位置において、トナー画像と用紙との位置合わせがなされる。また、定着装置３４２は、定着ローラーの温度を測定する温度センサーと、定着ローラーを加熱するヒーターを備える。温度センサーの温度情報に基づいて、定着ローラーが制御温度になるようヒーターへの通電を制御する。用紙が定着装置の定着ローラーのニップ部を通過するタイミングでは、定着印字温度になるように制御される。例えば、定着印字温度とそれ以外の制御温度との差は、１００℃以上である。定着ローラーは、ヒーターを動作させてから、すなわち、定着制御温度を、定着印字温度に上げてから、その制御温度になるまでディレイがある。そのため、用紙が定着ニップを通過する用紙定着時に、実際に定着印字温度になるように、ディレイを見込んだ所定時間（数十ｍｓｅｃから数百ｍｓｅｃ）前に、制御温度を定着印字温度に変更する。

ネットワークＩ／Ｆ３６は、上述のネットワークＩ／Ｆ１３と同様の構成であり、説明を省略する。

（搬送装置３５）
図４は、搬送装置３５の構成を示す概略図である。図３、図４を参照すると、搬送装置３５は、複数の給紙トレイ、搬送路、この搬送路に沿って配置した複数の搬送ローラー対、これらの搬送ローラー対を駆動する複数の駆動源、および複数のセンサーｓ１〜ｓｘを備える。駆動源は、例えば駆動モーターＭ１〜Ｍｘである。駆動源として、駆動モーターの搬送ローラー対への駆動力の伝達のＯＮ／ＯＦＦを切り替えるクラッチを含めてもよい。

図４は、用紙搬送において学習対象とする区間に対応する。この区間の搬送路においては、幅方向に沿って並んだ２組以上の搬送ローラー対（搬送ローラー対ｒ１１、ｒ１２）が含まれる。図４（ａ）は断面図で、図４（ｂ）は上面図である。なお、図４（ｂ）においては、一部の搬送ローラーの図示、および搬送路３５０よりも上側の構成部品に図示は省略している。

図４の例においては、搬送路３５０には、複数の搬送ローラー対ｒ００、ｒ１１、ｒ１２、ｒ２０、ｒ３０が配置され、これらはそれぞれ駆動モーターＭ１、Ｍ２、Ｍ３により駆動される。なお、図４の例では、搬送ローラー対ｒ００、ｒ３０に関する駆動モーターの図示を省略している。この搬送路３５０としては、画像形成装置３０内のいずれの搬送路に適用できる。例えば、給送トレイと画像形成部３４の転写位置との間の搬送路に適用可能であり、後処理装置を有する場合には、画像形成装置本体と、後処理部との間の搬送路に適用できる。

搬送路３５０は、上ガイド板と、下ガイド板で構成される。下ガイド板には、穴が設けられており、各穴には、センサーｓ１１〜ｓ４４が配置される。センサーｓ１１〜ｓ４４それぞれは、例えば発光部と、受光部を備える光学式のセンサーであり、設置された箇所において、搬送路上に用紙９０が存在すること（または存在しないこと）を検出する。図４（ｂ）に示すように、センサーｓ１１〜ｓ４４は、搬送方向、およびこれに直交する幅方向において格子状に点在する。これらのセンサーの搬送路上の２次元座標（搬送方向、および幅方向）は、予め登録されている。これらのセンサーの出力により直接的、または間接的に搬送する用紙９０の位置情報、およびスキュー状態を検出する。したがって、複数のセンサーｓ１１〜ｓ４１は、協働することで、スキュー状態を検出する状態検出部、および位置検出部として機能する。なお、センサーの数はあくまでも例示であり、任意の数のセンサーを用いることができる。

幅方向に並ぶ２組の搬送ローラー対ｒ１１、ｒ１２は、個別に駆動モーターＭ１、Ｍ２それぞれにより駆動される。図５は、搬送される用紙９０のスキュー状態を示す模式図であり、図４（ｂ）に対応する図である。以下においては、スキュー量は、用紙９０の先端（用紙９０は完全な矩形と仮定）の辺に平行な仮想線と、幅方向に平行な線とで形成される角度とする。しかしながら、スキュー量は、用紙９０の幅方向の一方の辺、もしくは両方の辺、または後端の辺から算出するようにしてもよく、これらの４辺の組み合わせから算出するようにしてもよい。図５に示すように搬送される用紙９０がスキュー量θで、左側に傾いていた場合には、相対的に左側の搬送ローラー対ｒ１２の搬送速度を、右側の搬送ローラー対ｒ１１よりも速くなるように設定することで、スキュー補正を行う。すなわちスキュー量（の絶対値）を小さくする。

図６は、他の例における搬送装置３５の構成を示す概略図である。図６では、用紙９０の状態を検知するセンサーとして画像センサーｓ５、ｓ６を用いる。画像センサーｓ５、ｓ６は、例えば多数の撮像素子を幅方向に並べたＣＩＳ（ＣｏｎｔａｃｔＩｍａｇｅＳｅｎｓｏｒ）であり、搬送路３５０の上側に配置される。搬送される用紙９０を撮影することでエッジを検出する。図６では、２組の画像センサーｓ５、ｓ６を、搬送方向に並べた例を示している。このように図４等に示した光学センサーに代えて、あるいはこれとともに、図６のような画像センサーｓ５、ｓ６を用い、これらを、用紙９０のスキュー状態を検出する状態検出部、および位置を検出する位置検出部として機能させてもよい。なお、この他のセンサーの例として静電式のセンサーを用いてもよい。

（学習対象とする別の区間の例）
図７は、別の例における搬送装置３５の構成を示す概略図である。図４から図６に示す例では、学習対象とする区間の搬送路３５０には、幅方向に並んだ２組の（独立して駆動する）搬送ローラー対が含まれる例を示した。図７に示す例では、学習対象とする区間の搬送路３５１には、搬送方向に並んだ２組以上の搬送ローラー対ｒ０〜ｒ３が含まれる。特に搬送ローラー対ｒ２は、レジストローラーであり、停止した搬送ローラー対ｒ２に用紙９０を突き当てて、一時停止させる。これにより、用紙９０の先端の向きを、搬送ローラー対ｒ２の軸方向に向きに沿わせることで、スキュー補正を行う。用紙９０の先端が搬送ローラー対ｒ２に突き当たるタイミングに対する、搬送ローラー対ｒ１の停止タイミングを制御することで、スキュー補正の量を調整できる。一時停止した用紙９０は、その後、画像形成開始タイミングに合わせて（あるいは画像形成開始タイミングから所定時間後に）搬送ローラー対ｒ１、ｒ２をほぼ同じタイミングで回転開始することで、再搬送される。

以上で説明したような、搬送装置３５における搬送路３５０、３５１において、各センサーの検知データ、および駆動源の駆動状態の情報のうち、少なくとも一部の情報が、環境の状態（ステート）を示す入力パラメータとなる。なお、駆動状態を示す情報には、駆動モーターの制御信号、制御電流、クロック周波数、回転数を示すエンコーダー信号、等がある。また報酬値に関連する情報には、スキュー状態（スキュー量）がある。また、行動（アクション）示す出力パラメータとしては駆動源の制御信号、制御電流、周波数などの制御情報が含まれる。以下に説明する機械学習装置１０は、この入力パラメータ、出力パラメータ、および報酬値との関係を学習することより、学習モデルを生成する。

機械学習装置１０は、予め定めたルールにしたがって、ある状態の時にある行動を取ったときの報酬を計算し、報酬の総和を最適化するように、予め定めた計算式にしたがって行動価値（Ｑ値）を算出してＱテーブルを更新する。これにより行動を学習し、学習結果に基づいて行動を決定（行動価値が最も高い行動を選択）する。

ここで、学習係数をη、時間割引率をγ、時刻ｔにおける報酬をＲ_ｔとすると、行動価値（Ｑ（ｓ_ｔ,ａ_ｔ））は、例えば、以下のＱ学習の式（１）によって計算できる。

（機械学習方法）
以下、図８から図１２を参照し、本実施形態に係る機械学習方法について説明する。図８は、機械学習装置１０の機能を示すブロック図である。図９は、機械学習装置１０で実行される学習処理を示すフローチャートである。図１０は、一実施例に係るテーブルタイプの学習モデルの例を示す図である。

図８に示すように、機械学習装置１０の制御部１１は、学習ブロック１１０、および状態制御ブロック１５０として機能する。

学習ブロック１１０には、行動選択部１１１、状態観測部１１２、報酬計算部１１３、および学習部１１４が含まれる。状態制御ブロック１５０には、観測情報生成部１５１が含まれる。図８に示す一例では、機械学習装置１０の状態制御ブロック１５０は、画像形成装置３０から記憶部３２に記憶されている機器状態情報を取得し、これにより画像形成装置３０の搬送装置３５の状態を再現（シミュレート）するようにしてもよい。なお、以下に示す例では、時間ステップとして、０．１〜１０ｍｓｅｃの範囲内のいずれかの値、例えば１ｍｓｅｃを用いる。この時間ステップの設定については後述する（後述の図１３）。なお、図８、図９に示す本実施形態では、１つの時間ステップが、１つのエピソードに対応する。

（ステップＳ２０１）
図９を参照すると、本ステップでは、行動選択部１１１は、現時点（今回サイクル）の時間ステップにおける状態に基づいて、各搬送ローラー対を駆動する駆動源に対して駆動制御に関する行動情報（速度指示ともいう）を決定し、出力する。以下においては、この行動情報をアクションともいう。

図１０（ｂ）に示すテーブルは、行動情報の例である。同図では、２つの搬送ローラーＡ、Ｂの駆動速度に関して、複数のアクションａ１〜ａ８を取り得る。この２つの搬送ローラーそれぞれは、図４の幅方向に並んだ２組の搬送ローラー対ｒ１１、ｒ１２、あるいは、図７の搬送方向に並んだ２組の搬送ローラー対ｒ１、ｒ２に相当する。このアクションの選択は、図１０（ｃ）に示すＱテーブルに基づいて、今回の状態（ステート）を参照することで行える。初期においては、Ｑテーブル内の数値は、ランダムな数値を入れてもよく、所定の数値を入れるようにしてもよい。例えば後者であれば所定値として、取り得るアクションの数で等分した数値（１４個のアクションであればそれぞれ１／１４）を入れる。学習が進んでいない初期状態においては、ε−ｇｒｅｅｄｙ法によりアクションを一定の割合でランダムに選択するようにしてもよい。例えば、固定値のεを用いる（例えば０以上１未満で０．１〜０．３の範囲の任意の値）。または学習が進むにつれて、εが小さくなるように設定した計算式、例えば、学習回数が所定値に到達する毎に１／２になるようにしたり、現時点の状態（ｓ_ｔ）から得られる行動価値Ｑ（ｓ_ｔ，ａ_ｔ）の最大値で除算した計算式により算出したりするようにしてもよい。

（ステップＳ２０２）
状態制御ブロック１５０は、ステップＳ２０１で受けた行動情報に基づいて、各搬送ローラー対を駆動する。具体的には、搬送ローラーＡ、Ｂを速度指示に基づく速度で駆動する。

（ステップＳ２０３）
観測情報生成部１５１は、搬送路の環境における、（１）各搬送ローラー対を駆動する速度状態、（２）搬送中の用紙の位置情報、および（３）搬送中の用紙のスキュー状態の情報を生成する（以下、これらを観測情報という）。生成したこれらの観測情報は、学習ブロック１１０の状態観測部１１２に渡される。図１０（ａ）は、１つのステート内のパターンを示すテーブルである。例えば、図４に示す例において、搬送路３５０に配置された複数のセンサーｓ１１〜ｓ４１、および駆動源の駆動状態の情報（エンコーダ信号等）、図１０（ａ）のＳｅｎｓｏｒ１〜１４のいずれかにそれぞれ対応する。図１０（ａ）に例示したテーブルではセンサーの数は１４個であり、取り得る状態は２通り、すなわちそのセンサーの位置での用紙９０の有無（ＯＮ／ＯＦＦ）としており、この時の総ステート数は、１６３８４通り（＝２＾^１４）となる。

（ステップＳ２０４）
報酬計算部１１３は、スキュー状態を用いて報酬値を算出する。図１１は、このステップＳ２０４の報酬値の付与処理を示すサブルーチンフローチャートである。

（ステップＳ２５１）
報酬計算部１１３は、状態観測部１１２から、今回サイクルの用紙のスキュー状態を取得する。

（ステップＳ２５２）
報酬計算部１１３は、メモリーに保持している前回サイクルのスキュー状態と、ステップＳ２５１で取得した今回サイクルのスキュー状態とを比較する。前回サイクルの状態データは、今回サイクルの状態データよりも１時間ステップ（例えば１ｍｓｅｃ）前の状態である。

比較（絶対値の比較）により処理を、
前回のスキュー量＜今回のスキュー量であれば（悪化）、ステップＳ２５３に進め、
前回のスキュー量＝今回のスキュー量であれば（維持）、ステップＳ２５４に進め、
前回のスキュー量＞今回のスキュー量であれば（改善）、ステップＳ２５５に進める。

（ステップＳ２５３）
報酬計算部１１３は、ここでは報酬値＝−１を与える。

（ステップＳ２５４）
報酬計算部１１３は、ここでは報酬値＝０（ゼロ）を与える。

（ステップＳ２５５）
報酬計算部１１３は、ここでは報酬値＝＋１を与える。

（ステップＳ２５６）
報酬計算部１１３は、次の時間ステップで処理に用いるため、今回のスキュー状態を、前回のスキュー状態として、メモリーに設定（保持）する。以上によりサブルーチン処理を終了し、図９の処理に戻る（リターン）。なお、図１１に示す報酬付与処理は、あくまでも例示であり、改善の場合のみ正報酬を与え、これ以外はゼロの報酬としてもよく、あるいは、算出関数も用いてスキュー量の大きさに応じた報酬値を与えるようにしてもよい。

（ステップＳ２０５）
図１１に示す処理の後、再び図９に示す処理に戻る。ステップＳ２０５では、学習部１１４は、観測情報、行動情報、および／または報酬値から、学習モデルを更新する。例えば、図１０に示す例では、報酬値と、上述したＱ学習の式（１）を用いて行動価値（Ｑ値）を算出することによって行動を学習し、Ｑテーブルを更新する。また、別な学習モデルとしてニューラルネットワークタイプの学習モデルに適用してもよい。

図１２は、一実施例に係るニューラルネットワークタイプの学習モデルの例を示す図である。あるタイミング（例えば前回の時間ステップ）での観測情報（ｓ_ｔ：１ステート内のパターン）を入力として、ニューラルネットワークにより、出力（ａ_ｔ：各アクション（行動情報））とそのときのＱ（ｓ_ｔ，ａ_ｔ）を得る。そして学習部１１４は、このＱ（ｓ_ｔ，ａ_ｔ）が、「Ｒ_ｔ＋１＋γｍａｘＱ（ｓ_ｔ＋１，ａ_ｔ＋１）」に近づくように（差分Ｅを小さく）、パラメータを調整する。例えば、バックプロパゲーション（Ｂａｃｋ−ｐｒｏｐａｇａｔｉｏｎ、誤差逆伝搬法）という処理を行うことにより、比較結果の誤差が小さくなるように、パラメータを調整し、更新することで学習を行う。以上までの処理が、１つのエピソードの学習である。

（ステップＳ２０６）
制御部１１は、所定回数（例えば、数万回）の学習が完了していなければ（ＮＯ）、処理をステップＳ２０１に戻し、以降の処理を繰り返す。所定回数に達していれば（ＹＥＳ）、処理をステップＳ２０７に進める。

（ステップＳ２０７）
機械学習装置１０の制御部１１は、更新した学習結果を記憶部１２に出力し、学習モデルを更新し、学習処理を終了する（エンド）。

このように、本実施形態に係る機械学習方法では、現段階での複数の搬送部材の駆動速度、被搬送媒体の位置、および被搬送媒体のスキュー状態から、スキュー状態が所定量になるように、次に出力すべき複数の搬送部材の駆動速度を、報酬値を用いて機械学習することで、前記学習モデルを生成する。このようにすることで、被搬送媒体の搬送におけるスキュー補正制御を適正に行える学習モデルを生成できる。

（学習周期（時間ステップ）の決定手順）
図１３は、学習周期の決定手順を説明するための模式図である。用紙９０の搬送速度、例えば１００ｍｍ／ｍｓｅｃ、１ステップ（機械学習の時間ステップ）の期間をｔ［ｍｓｅｃ］とする。この場合、１ステップ当たりの搬送量、すなわちスキュー補正単位＝１００ｔとなる。スキュー補正は、搬送ローラー対の配置間隔（一般に、最小サイズの送り方向用紙長さで決定される）である５０〜１００ｍｍの範囲内で制御する必要がある。そのため、補正精度を考慮して、スキュー補正は、５０ｍｍ単位で制御を行うことが好ましい。このため、１ステップは、０．５ｍｓ（＝５０／１００）となる。このような手順により１ステップが決定される。なお、搬送速度は、あくまでも例示であり、適宜設定することが可能である。

（１エピソードの始期、終期のタイミング）
（幅方向に並んだ搬送ローラー対の場合）
図１４Ａ、１４Ｂは、図４に示したような、幅方向に並んだ２組の搬送ローラー対でスキュー補正制御を行う場合における、機械学習における１エピソードの始期と終期を説明するための模式図である。

学習の始期は、図１４Ａに示すように、用紙９０の先端が、幅方向に並ぶ搬送ローラー対ｒ１１、ｒ１２のニップ中心位置ｃ１に到達したタイミングとする。なお、この到達したタイミングとは、用紙９０が斜めにスキューした状態で搬送された場合には、最も遅い側の先端が、ニップ中心位置ｃ１に到達したタイミングである。なお、この判定は、搬送方向に直交する幅方向において、各搬送ローラー対ｒ１１、ｒ１２それぞれの全ニップ範囲で判定してもよく、それぞれのニップ範囲の中心位置で判定するようにしてもよい（以下の図１５Ａ等でも同様）。

学習の終期は、図１４Ｂに示すように、用紙９０の後端が、幅方向に並ぶ搬送ローラー対ｒ１１、ｒ１２のニップ中心位置ｃ１を通過したタイミングとする。なお、この通過したタイミングとは、用紙９０が斜めにスキューした状態で搬送された場合には、最も速い側の先端が、ニップ中心位置ｃ１に通過したタイミング、すなわち、複数の搬送ローラー対のうちのいずれか１つのニップ中心位置ｃ１を通過したタイミングである。

（搬送方向に並んだ搬送ローラー対の場合）
図１５Ａ、１５Ｂは、図７で示したような、搬送方向に並んだ２組の搬送ローラー対でスキュー補正制御を行う場合における、機械学習における１エピソードの始期と終期を説明するための模式図である。

学習の始期は、図１５Ａに示すように、用紙９０の先端が、搬送方向に並ぶ搬送ローラー対ｒ１、ｒ２のうち、最下流の搬送ローラー対ｒ２のニップ中心位置ｃ２に到達したタイミングとする。なお、この到達したタイミングとは、用紙９０が斜めにスキューした状態で搬送された場合には、最も進んだ側の先端が、ニップ中心位置ｃ１に到達したタイミングである。

学習の終期は、図１５Ｂに示すように、用紙９０の後端が始期の時点の位置ｘ１０から所定量（ｄｘ２）だけ搬送した位置ｘ２０に到達したタイミングである。この判定は、用紙９０の先端が所定量だけ搬送することで判定してもよい。なお、この所定量は、予め設定されたものであるが、ユーザーにより設定を受け付ける処理を設けてもよい。具体的には、操作パネル３３（またはネットワークに接続されたＰＣ）を介して、ユーザーからの設定変更を受け付ける。変更された設定は、記憶部３２に記憶され、機械学習装置１０により参照される。

（変形例における学習処理）
図１６は、以上で説明した始期、終期の判定を組み込んだ変形例における学習処理を示すフローチャートである。

（ステップＳ３００）
機械学習装置１０の制御部１１は、開始条件を満たすか否かを判定する。この判定は、図１４Ａ（または図１５Ａ）で示した手順により行える。用紙先端が、所定位置に到達し、開始条件を満たす場合（ＹＥＳ）には、処理をステップＳ３０１に進める。

（ステップＳ３０１〜Ｓ３０５）
ここでは、機械学習装置１０の制御部１１は、ステップＳ３０１〜Ｓ３０５の処理を行う。これらの処理は図９のステップＳ２０１〜Ｓ２０５にそのまま対応する処理であり、説明を省略する。

（ステップＳ３０６）
ここでは、機械学習装置１０の制御部１１は、終了条件を満たすか否かを判定する。この判定は、図１４Ｂ（または図１５Ｂ）で示した手順により行える。用紙後端が、所定位置に到達し、終了条件を満たす場合（ＹＥＳ）には、処理をステップＳ３０７に進める。終了条件を満たさない場合（ＮＯ）、処理をステップＳ３０１以下の処理を繰り返し、次の時間ステップの処理を行う。

（ステップＳ３０７、Ｓ３０８）
ここでは、機械学習装置１０の制御部１１は、ステップＳ３０７、Ｓ３０８の処理を行う。これらの処理は、図９のステップＳ２０５、Ｓ２０６にそのまま対応する処理であり、説明を省略する。

このように始期、終期を設定し、その間の区間で機械学習する。これにより、スキュー状態の補正に関連する区間のみを学習できるので、機械学習に要する時間、処理数を低減でき、効率よく機械学習できる。

（学習モデルを用いた画像形成装置での制御）
次に、以上までのような機械学習により学習した学習モデルを画像形成装置３０に適用した場合の処理の一例について説明する。

（学習後の補正時間Ｙの方が長い場合）
図１７は、スキュー状態の補正制御に要する時間に応じて、画像形成開始タイミング等の変更を行う処理を示す図である。画像形成装置３０の制御部３１は、機械学習装置１０から、学習モデル（学習済みモデル）を取得し、これを記憶部３２に記憶させる。また、画像形成装置３０は、さらに、スキュー状態の補正制御に要する補正時間Ｙ［ｍｓ］のデータも機械学習装置１０から取得する。この補正時間は、機械学習装置１０側で計測したものである。制御部３１は、この補正時間Ｙと、製造業者（開発者）が設定した設計上の補正時間Ｘ［ｍｓ］とを比較する。この補正時間Ｘは、予め記憶部３２に記憶されている。最初に、この学習後の補正時間Ｙ＞補正時間Ｘの場合での処理について説明する。

図１７（ａ）には、学習モデルを使わずに、設計値通りの設定で搬送制御をした場合のシーケンス動作を示しており、図１７（ｂ）は、学習モデルを用いてスキュー補正に関する搬送制御を実行した場合のシーケンス動作を示している。これらの図では、共通して、横軸には時間を、縦軸には用紙搬送方向における用紙位置を示しており、１枚の用紙を搬送した場合の状態をプロットしている（以下の図１８も同様）。同図においては、スキュー状態の補正制御を、図７に示したような搬送方向に並んだ搬送部材により行う場合を想定している。この場合、スキュー状態の補正制御を行う補正区間（図１７中の矢印）は、図１５Ａ、１５Ｂに示したように、用紙９０の先端が、停止状態の搬送ローラー対ｒ２（レジストローラー）に到達して、停止している区間である。この場合、補正区間よりも前に画像形成開始タイミングが係る。この画像形成開始タイミングに同期して、画像形成部３４の書込部３４１による書き出しが開始され、および搬送ローラー対ｒ２、ｒ１を駆動する駆動源の再駆動が行われる。

図１７（ｂ）に示すように、画像形成装置３０の制御部３１は、補正時間Ｙが、補正時間Ｘよりも長い場合には、Ｙ−Ｘ時間分だけ、画像形成開始タイミングを遅延させる。また、定着装置３４２の制御温度を上述の定着印字温度に切り替えるタイミングを、このＹ−Ｘ時間分だけ遅延させる。このように制御することで、学習モデルを用いて用紙の搬送制御を行う場合に、問題なく制御できる。なお、図１７（ｂ）に示す例では、補正区間に、画像形成開始タイミングが係ることになる。

（学習後の補正時間Ｚの方が短い場合）
次に、学習後の補正時間Ｚ＜設計上の補正時間Ｘの場合での処理について説明する。図１８は、スキュー状態の補正制御に要する時間に応じて、搬送動作開始タイミングの変更を行う処理を示す図である。

図１８（ａ）に示すように、定着装置３４２において、定着制御温度を待機温度（例えば１００℃）から定着印字温度（例えば２００℃）に切り替えた後、目標温度（印字温度）に到達するまで約２ｓｅｃのディレイが生じる。この場合、スキュー補正時間がＸからＺへと短くなる場合に、タイミングを補正せず、設計値を適用すると、図１８（ｂ）の破線に示すように、定着温度がＴ２（２００−Ｔ２＞１００［℃］）の時点で、用紙９０の再搬送を開始することになる。このため、用紙が定着ニップに到達する時点で、定着温度が定着印字温度まで十分に昇温しておらず、狙いの定着性能が得られない。そこで、補正制御完了時に定着装置の定着温度（温度センサーの出力（温度情報））を取得し、定着温度がＴ３（ただし２００−Ｔ３＜１００［℃］の関係式を満たす）になるまで、用紙９０をレジストローラー（搬送ローラー対ｒ２）の位置で停止させたままにする。このように制御することで、学習モデルを用いて用紙の搬送制御を行う場合に、問題なく制御できる。なお、図１８と同様な制御を、画像形成開始タイミングにも適用してもよい。具体的には、補正時間の差分（Ｘ−Ｚ）に応じて、画像形成開始タイミングを早くする。

（機械学習装置１０の変形例）
次に、機械学習装置１０の各変形例について説明する。

（第１の変形例）
図１９は、第１の変形例に係る機械学習装置１０、および画像形成装置３０の構成を示す概略図である。図８に示した機械学習装置１０では、観測情報生成部１５１は、画像形成装置３０の環境をシミュレートし、行動選択部１１１から受けた行動情報に基づいて、観測情報を生成した。一方で、図１９に示す第１の変形においては、実際の画像形成装置３０の装置内の環境下において、観測された状態に対して機械学習装置１０側で行動を選択する。そして画像形成装置３０では、機械学習装置１０側で選択された行動に基づいて、実行に移す。すなわち、画像形成装置３０は搬送部材を駆動する駆動源の動作を制御する。そして、画像形成装置３０は、センサーｓ１〜ｓｘ、駆動モーターＭ１〜Ｍｘ等から得られた環境の状態変化を、機器動作情報として機械学習装置１０に送る。

機械学習装置１０の状態制御ブロックでは、取得したこれらの機器動作情報から、（１）各搬送ローラー対を駆動する速度状態、（２）搬送中の用紙の位置情報、および（３）搬送中の用紙のスキュー状態の観測情報を生成する。これらの観測情報は、機器動作情報に含まれる直接センシングデータから得られる場合（例えば速度状態、位置情報）と、機器動作情報の間接センシングデータ（例えばセンサーｓ１〜ｓｘ）に基づいて、観測情報生成部１５１が生成する用紙のスキュー状態の情報が含まれる。図１９に示すような構成によりスキュー補正に関する搬送制御を機械学習できる。

（第２、第３の変形例）
図２０、図２１はそれぞれ第２、第３の変形例に係る機械学習部１０ｂ、および画像形成装置３０の構成を示す概略図である。同図に示す機械学習部１０ｂは、独立した装置ではないため、機械学習部という名称を用いるが、実質的には、図８、または図１９に示したような機械学習装置１０と同じ構成であり、同じ機能を担う。

図２０に示す第２の変形例においては、画像形成装置３０の制御部３１内のエンジン制御ＳｏＣ（Ｓｙｓｔｅｍ−ｏｎ−ａ−Ｃｈｉｐ）において、機械学習部１０ｂを機能させることで、画像形成装置３０において、機械学習により学習モデルを生成する。そして生成した学習モデルを用いて、搬送制御を行う。

図２１に示す第３の変形例においては、機械学習用の専用の機械学習ＣＰＵを配置し、その機械学習ＣＰＵにより機械学習を行い、学習モデルを生成する。

（第４の変形例）
図２２は、第４の変形例に係る機械学習装置１０ｃ、および画像形成装置３０の構成を示す概略図である。第４の変形例における機械学習装置１０は、観測情報生成更新部１５２を含む。これは、より精度よく搬送動作に関する環境をシミュレートするために、機器の状態を表現するための観測情報生成部更新情報を取得し、これにより、観測情報生成更新部１５２は、観測情報生成を更新する。観測情報生成部１５１は、この更新された観測情報生成を用いて観測情報を生成する。

（第５、第６の変形例）
図２３、図２４それぞれは、第５、第６の変形例に係る機械学習装置１０、および画像形成装置３０の構成を示す概略図である。第４の変形例で示した観測情報生成更新部の機能は、第５の変形例では、制御部３１内のエンジン制御ＳｏＣが担い、第６の変形例では、制御部３１内の機械学習ＣＰＵが担う。

（第７、第８の変形例）
図２５、図２６それぞれは、第７、第８の変形例に係る機械学習部１０ｂ、および画像形成装置３０の構成を示す概略図である。図７の変形例では、機械学習部１０ｂ、および観測情報更新部の機能は、制御部３１内のエンジン制御ＳｏＣが担う。図８の変形例では、機械学習部１０ｂ、および観測情報更新部の機能は、制御部３１内の機械学習ＣＰＵが担う。

このように第１〜第８の変形例のいずれかの構成においては、図１〜図１２等で示した実施形態と同様に、機械学習を行うことでスキュー補正に関する搬送制御を機械学習した学習モデルを生成でき、これを画像形成装置３０の記憶部３２に記憶し、利用することで、搬送制御を適切に行える。

以上に説明した、機械学習装置１０（機械学習部１０ｂ）、画像形成装置３０の構成は、上述の実施形態の特徴を説明するにあたって主要構成を説明したのであって、上述の構成に限られず、特許請求の範囲内において、下記のように種種改変することができる。また、一般の機械学習装置、または画像形成装置が備える構成を排除するものではない。

また、上述した各実施形態では、搬送装置３５は、画像形成装置３０の内部構成として説明したがこれに限られず、搬送装置３５を独立の装置としたり、画像形成した用紙に対して後処理を行う後処理装置の内部構成として構成したりしてもよい。このような場合であっても、機械学習装置１０で学習した学習モデルを利用することで適切な搬送制御を行える。

また、上述した機械学習装置、画像形成装置における各種処理を行う手段および方法は、専用のハードウェア回路、またはプログラムされたコンピューターのいずれによっても実現することが可能である。上記プログラムは、例えば、ＵＳＢメモリーやＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）−ＲＯＭ等のコンピューター読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピューター読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、一機能としてその検出部等の装置のソフトウエアに組み込まれてもよい。

１０機械学習装置
１１制御部
１１０学習ブロック
１１１状態観測部
１１２状態観測部
１１３報酬計算部
１１４学習部
１５０状態制御ブロック
１５１観測情報生成部
１５２
１２記憶部
１３ネットワークＩ／Ｆ
３０画像形成装置
３１制御部
３２記憶部
３３操作パネル
３４画像形成部
３５搬送装置
３５０、３５１搬送路
Ｍ１、Ｍ２、Ｍ３、Ｍ４、Ｍ５、Ｍｘ駆動源
ｓ１、ｓ２、ｓ３、ｓ４、ｓ５、ｓ６、ｓｘセンサー
ｒ００、ｒ１０、ｒ２０、ｒ３０、ｒ１１、ｒ１２搬送ローラー対
３６ネットワークＩ／Ｆ

Claims

搬送路に沿って被搬送媒体を搬送する複数の搬送部材と、
前記搬送路を搬送される被搬送媒体のスキュー状態を検出する状態検出部と、
前記搬送路における被搬送媒体の位置を検出する位置検出部と、
前記搬送部材を駆動する駆動源と、
を備える搬送装置の搬送制御を学習する機械学習方法であって、
被搬送媒体を搬送する複数の前記搬送部材の駆動速度、該被搬送媒体の位置、および該被搬送媒体のスキュー状態を入力するステップ（ａ）と、
前記ステップ（ａ）の入力に応じて、学習モデルを用いて決定した前記駆動源の駆動制御に関する行動情報を出力するステップ（ｂ）と、
前記ステップ（ｂ）の出力した後の前記被搬送媒体の前記スキュー状態に応じて報酬値を算出するステップ（ｃ）と、
を有し、
現段階での複数の前記搬送部材の駆動速度、前記被搬送媒体の位置、および該被搬送媒体のスキュー状態から、該スキュー状態が所定量になるように、次に出力すべき複数の前記搬送部材の前記駆動速度を、前記報酬値を用いて機械学習することで、前記学習モデルを生成する、機械学習方法。
前記位置検出部により、前記搬送路を搬送される前記被搬送媒体の位置が所定位置に到達したタイミングで、前記機械学習を開始する、請求項１に記載の機械学習方法。
前記搬送部材には、前記搬送路における前記被搬送媒体の搬送方向に沿って並んだ、２組以上の搬送ローラー対が含まれ、
前記搬送方向に並んだ２組以上の前記搬送ローラー対を用いて、前記スキュー状態の補正制御を行う場合には、
前記到達したタイミングは、前記補正制御に用いる複数の前記搬送ローラー対のうち、最下流の前記搬送ローラー対に、前記被搬送媒体の先端が、到達したタイミングである、請求項２に記載の機械学習方法。
前記到達したタイミングから、前記被搬送媒体が所定量だけ搬送された時点で、１つのエピソードの学習を終了する、請求項３に記載の機械学習方法。
ユーザーから前記所定量の設定変更を受け付けるステップを含む、請求項４に記載の機械学習方法。
前記搬送部材には、前記搬送路における前記被搬送媒体の搬送方向に直交する幅方向に並んだ、２組以上の搬送ローラー対が含まれ、
前記幅方向に並んだ２組以上の前記搬送ローラー対を用いて、前記スキュー状態の補正制御を行う場合には、
前記到達したタイミングは、前記補正制御に用いる前記幅方向に並んだ複数の前記搬送ローラー対の全てに、前記被搬送媒体の先端が、到達したタイミングである、請求項２に記載の機械学習方法。
前記幅方向に並んだ複数の前記搬送ローラー対の全てから、前記被搬送媒体が抜けたタイミングで、１つのエピソードの学習を終了する、請求項６に記載の機械学習方法。
前記機械学習をする周期は、目標とする前記スキューの補正精度と、前記被搬送媒体を搬送する速度から算出した周期である、請求項１から請求項７のいずれかに記載の機械学習方法。
前記報酬値を算出するステップでは、
所定の周期で、学習を実施し、前回サイクルでのスキュー状態と、今回のサイクルでのスキュー状態を比較し、
前記スキュー状態から算出した今回のサイクルでのスキュー量の方が、前回サイクルでのスキュー量よりも小さい場合、正の報酬値を与える、請求項１から請求項８のいずれかに記載の機械学習方法。
前記報酬値を算出するステップでは、
所定の周期で、学習を実施し、１つ前の前回サイクルでのスキュー状態と、今回のサイクルでのスキュー状態を比較し、
前記スキュー状態から算出した今回のサイクルでのスキュー量の方が、前回サイクルでのスキュー量よりも大きい場合、負の報酬値を与える、請求項１から請求項９のいずれかに記載の機械学習方法。
前記報酬値を算出するステップでは、
所定の周期で、学習を実施し、１つ前の前回サイクルでのスキュー状態と、今回のサイクルでのスキュー状態を比較し、
前記スキュー状態から算出した今回のサイクルでのスキュー量の方が、前回サイクルでのスキュー量が同じ場合、ゼロの報酬値を与える、請求項１から請求項１０のいずれかに記の機械学習方法。
搬送路に沿って被搬送媒体を搬送する複数の搬送部材と、
前記搬送路を搬送される被搬送媒体のスキュー状態を検出する状態検出部と、
前記搬送路における被搬送媒体の位置を検出する位置検出部と、
前記搬送部材を駆動する駆動源と、
を備え、
請求項１から請求項１１のいずれかに記載の機械学習方法で学習した学習モデルを用いて、前記被搬送媒体の前記スキュー状態、前記位置、および前記搬送部材の駆動速度から、前記被搬送媒体の搬送を制御する、搬送装置。
搬送路に沿って被搬送媒体を搬送する複数の搬送部材と、
前記搬送路を搬送される被搬送媒体のスキュー状態を検出する状態検出部と、
前記搬送路における被搬送媒体の位置を検出する位置検出部と、
前記搬送部材を駆動する駆動源と、
を備えた搬送装置であって、
請求項１から請求項１１のいずれかに記載の機械学習方法で学習した学習モデルを用いて、前記被搬送媒体の前記スキュー状態、前記位置、および前記搬送部材の駆動速度から、前記被搬送媒体の搬送を制御する、搬送装置と、
前記搬送装置で搬送した被搬送媒体に画像を形成する画像形成部と、
を備える画像形成装置。
前記搬送路において、前記スキュー状態の補正制御を行う区間、または前記補正制御を行う区間よりも前に、前記被搬送媒体に形成する前記画像形成部の画像形成開始タイミングが係る場合、
前記学習モデルを学習する際に、スキュー状態の補正制御に要する補正時間を計測し、
前記学習モデルを用いて、前記被搬送媒体の搬送を制御するときに、前記補正時間に応じて、予め前記画像形成開始タイミングを設定する、請求項１３に記載の画像形成装置。
前記学習モデルを学習する際に、スキュー状態の補正制御に要する補正時間を計測し、
前記補正時間が所定時間よりも短い場合には、
前記学習モデルを用いて、前記被搬送媒体の搬送を制御するときに、前記補正制御完了時に、前記画像形成部の定着装置の温度情報を取得し、該温度情報に応じて、前記被搬送媒体の搬送を制御する、請求項１３に記載の画像形成装置。
前記学習モデルを学習する際に、スキュー状態の補正制御に要する補正時間を計測し、
前記補正時間が所定時間よりも長い場合には、
前記学習モデルを用いて、前記被搬送媒体の搬送を制御するときに、前記画像形成部の定着装置の制御温度を、用紙定着時の印字温度に切り替えるタイミングを、前記補正時間の長さに応じて、遅延させる、請求項１３に記載の画像形成装置。
請求項１から請求項１１のいずれかの機械学習方法をコンピューターに実行させるための機械学習プログラム。