JP2021179686A

JP2021179686A - 画像形成装置、その制御方法、及びプログラム

Info

Publication number: JP2021179686A
Application number: JP2020083362A
Authority: JP
Inventors: 裕輔森下; Hirosuke Morishita
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2021-11-18

Abstract

【課題】本発明は、原稿束を読み取った際に、読み取った原稿に応じて学習した学習モデルを用いてページ順に異常があるか否かを好適に推定する仕組みを提供する。【解決手段】画像形成装置は、載置されたページ順に原稿束から画像を読み取り、読み取られた原稿束の画像データから学習データを生成して、学習モデルを学習させる。さらに、本画像形成装置は、読み取られた原稿束の画像データから、原稿束に含まれる各ページの特徴量を抽出し、抽出された特徴量と、読み取られた画像データに基づく学習済みモデルとを用いて、原稿束が正しいページ順であるか否かを推定する。【選択図】図９

Description

本発明は、画像形成装置、その制御方法、及びプログラムに関する。

シートなどの記録媒体に画像を形成する機能を備えた画像形成装置として、プリンタ機能、ファクシミリ機能、コピー機能等を併せ持った複合機が知られている。コピー機能を使用する際に、ＡＤＦ（ＡｕｔｏＤｏｃｕｍｅｎｔＦｅｅｄｅｒ）に紙原稿を設置することで、ページ数の多い原稿においても自動で搬送しつつ高速で読み取りを行うことができる。しかし、原稿のページ順が入れ替わってしまっている原稿束を読み取ってしまった場合、スキャンデータやコピー原稿の順番も誤ったものになってしまう。

そこで特許文献１では、指定領域内のページ番号をＯＣＲ（Ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ）で読み取り、異常が有れば警告を行う技術が提案されている。

特開平１１−２２０５５７号公報

しかしながら、上記従来技術には以下に記載する課題がある。例えば、ページ番号は原稿の種類によって番号の記載がある位置は異なる。しかし、上記従来技術ではページ番号のある領域を指定することは可能であるが、領域を外れた位置にページ番号が印字されていた場合や、ページ番号以外の数字が存在している場合には、異常であるか否かを判断できない可能性がある。さらには、ページ番号を示す記述がそもそも無い場合もあり、このような場合にも異常であるか否かを判断できない。

本発明は、上述の課題の少なくとも一つに鑑みて成されたものであり、原稿束を読み取った際に、読み取った原稿に応じて学習した学習モデルを用いてページ順に異常があるか否かを好適に推定する仕組みを提供する。

本発明は、例えば、載置されたページ順に原稿束から画像を読み取る読取手段と、前記読取手段によって読み取られた前記原稿束の画像データから学習データを生成する生成手段と、前記生成手段によって生成された学習データを用いて学習モデルを学習させる学習手段と、前記読取手段によって読み取られた前記原稿束の画像データから、前記原稿束に含まれる各ページの特徴量を抽出する抽出手段と、前記抽出手段によって抽出された特徴量と、前記読取手段によって読み取られた画像データに基づく学習済みモデルとを用いて、前記原稿束が正しいページ順であるか否かを推定する第１推定手段とを備えることを特徴とする。

本発明によれば、原稿束を読み取った際に、読み取った原稿に応じて学習した学習モデルを用いてページ順に異常があるか否かを好適に推定することができる。

一実施形態に係るシステム構成図。一実施形態に係る画像形成装置のハードウェアのブロック図。一実施形態に係る機械学習サーバのハードウェアのブロック図。一実施形態に係るソフトウェアのブロック図。一実施形態に係る機械学習部を示す図。一実施形態に係るマスク処理の説明を示す図。一実施形態に係る学習データ（原稿）を示す図。一実施形態に係る学習データのデータベースの一例を示す図。一実施形態に係るフローチャート。ＵＩの表示例を示す図。一実施形態に係るフローチャート。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。

＜第１の実施形態＞
＜システム構成＞
以下では、本発明を実施するための第１の実施形態について図面を用いて説明する。まず、図１を参照して、本実施形態に係るシステム構成の一例を説明する。

本システムは、プリンタ、複合機、ＦＡＸなどの画像形成装置１０１、機械学習サーバ１０２、データサーバ１０５、及び画像形成装置１０１に対するプリントデータの送信等を行う汎用コンピュータ１０３を含んで構成される。これらの機器は、有線ＬＡＮ等のネットワーク１０４によって相互に通信可能に接続されている。画像形成装置１０１は、ＡＩ機能を搭載していて、このＡＩ機能を実現するための学習済みモデルは、機械学習サーバ１０２が中心的に生成する役割を備えている。データサーバ１０５は、機械学習サーバ１０２において機械学習を行うために使用される学習データ（教師データ）を外部機器から収集して機械学習サーバ１０２へ提供する役割を持っている。

画像形成装置１０１は随時、生成された学習済みモデルを機械学習サーバ１０２から受信して特定のＡＩ機能を実現可能になっている。学習モデルの更新タイミングについては、種々の形態が適用可能であるが、基本的には、スキャンジョブ、コピージョブ、ＳＥＮＤジョブ、ＦＡＸジョブなどのジョブの実行時に原稿を読み取ったタイミングとなる。その他のタイミングとしては、例えばシステム管理者等からの指示を受け付けたタイミングや、当該モデルの更新が機械学習サーバ１０２で行われたタイミング、或いは、予め定められた周期的なタイミングであってもよい。また、機械学習サーバ１０２は、特定のＡＩ機能を実現するための学習済みモデルの学習に必要な学習データをデータサーバ１０５や画像形成装置１０１、汎用コンピュータ１０３等の外部機器から受信し、少なくとも一部を用いて学習することができる。

本発明のシステムの学習フェーズの特徴としては、画像形成装置１０１で読み取った原稿データをデータサーバ１０５に収集しそのデータを機械学習サーバ１０２で学習して学習モデルを生成又は更新する。一方、推定フェーズでは、画像形成装置１０１が、機械学習サーバ１０２からロードした正しいページ順を推定する学習モデルを活用し、好適にページ順の異常を検知し、操作者への警告や正しいページ順への修正を行う。本実施形態によれば、このようなシステム構成により、種々の原稿の読み取りに幅広く対応することができ、ユーザにページ順の誤りを通知することでページ順の訂正を促すことが可能になっている。

＜画像形成装置のハードウェア構成＞
次に、図２を参照して、本実施形態に係る本システムを構成する画像形成装置１０１のハードウェア構成を説明する。画像形成装置１０１は、コントローラ１２００、操作部１４０、スキャナ部１０、及びプリンタ部２０を備える。

操作部１４０は、使用するユーザが各種の操作を行うためのユーザインタフェースであり、タッチパネル式の液晶ディスプレイやハードウェアボタン、ＬＥＤ等を含んで構成される。スキャナ部１０は、操作部１４０からの指示に従って画像情報を読み取る。プリンタ部２０は、画像データを用紙に印刷するものであり、印刷方式については種々の方式が適用されてもよい。スキャナ部１０は、スキャナ部１０を制御するＣＰＵや原稿読取を行うための図示しない照明ランプや走査ミラーなどを有する。プリンタ部２０は、プリンタ部の制御を行うＣＰＵや画像形成や定着を行うための図示しない感光体ドラムや定着器を有する。コントローラ１２００は、スキャナ部１０や、プリンタ部２０、ＬＡＮ１０４や、公衆回線（ＷＡＮ）３００１、無線ＬＡＮ１０６と接続されている画像形成装置１０１の動作を統括的に制御する。

コントローラ１２００は、ＣＰＵ１２０１、ＲＡＭ１２０２、ＲＯＭ１２０３、ＨＤＤ１２０４、及びＧＰＵ１２９１を備える。さらに、コントローラ１２００は、画像バスＩ／Ｆ１２０５、操作部Ｉ／Ｆ１２０６、ＬＡＮＩ／Ｆ１２１０、モデム１２１１、内部通信Ｉ／Ｆ１２０８、及び無線通信Ｉ／Ｆ１２７０を備える。これらのコンポーネントは、システムバス１０７を通じて相互に信号の送受を行うことができる。また、コントローラ１２００は、デバイスＩ／Ｆ１２２０、画像回転部１２３０画像圧縮部１２４０、ＲＩＰ１２６０、スキャナ画像処理部１２８０、及びプリンタ画像処理部１２９０を備える。これらのコンポーネント及び画像バスＩ／Ｆ１２０５は、画像バス１２１２を通じて相互に画像信号の送受を行うことが可能である。

ラスタイメージプロセッサ（ＲＩＰ）１２６０は、ＬＡＮ１０４を介してＬＡＮ上の汎用コンピュータ１０３から受信した印刷ジョブに含まれるＰＤＬコードをビットマップイメージに展開する。スキャナ画像処理部１２８０は、スキャナ部１０から入力された画像データに対し補正、加工、編集を行う。プリンタ画像処理部１２９０は、プリンタ部２０で出力（印刷）される画像データに対して補正、解像度変換等を行う。画像回転部１２３０は画像データの回転を行う。画像圧縮部１２４０は、多値画像データはＪＰＥＧ、２値画像データはＪＢＩＧ、ＭＭＲ、又はＭＨの圧縮伸張処理を行う。デバイスＩ／Ｆ１２２０は、スキャナ部１０及びプリンタ部２０とコントローラ１２００を接続して画像データの同期系／非同期系の変換を行う。画像バス１２１２は、これらのコンポーネントを互いに接続して画像データを高速で転送する。

ＣＰＵ１２０１は画像形成装置１０１を統括的に制御する制御部として機能する。ＲＡＭ１２０２は、ＣＰＵ１２０１が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。また、コントローラ１２００は、操作部１４０とのインタフェース部である操作部Ｉ／Ｆ１２０６を介して、操作部１４０の表示部に表示する画像データを操作部１４０に対して出力する。また操作部Ｉ／Ｆ１２０６は操作部１４０から本画像形成装置１０１を使用するユーザが入力した情報をＣＰＵ１２０１に伝える役割を有する。ＬＡＮＩ／Ｆ１２１０は、ＬＡＮ１０４に接続され、汎用コンピュータ１０３やＬＡＮ１０４上の図示しないその他のコンピュータ端末との通信（送受信）を行う。モデム１２１１は、公衆回線３００１に接続され、図示しない外部のファクシミリ装置とのデータの通信（送受信）を行う。無線通信Ｉ／Ｆ１２７０は、無線ＬＡＮ１０６により外部の端末と接続する。ＲＯＭ１２０３には、ＣＰＵ１２０１が実行するブートプログラムが格納されている。また、ハードディスクドライブ（ＨＤＤ）１２０４には、システムソフトウェア、画像データ、及びソフトウェアカウンタ値などが格納されうる。また、コントローラ１２００は、スキャナ部１０及びプリンタ部２０と夫々通信を行う内部通信Ｉ／Ｆ１２０８と、これらを互いに接続するシステムバス１２０７とを備える。画像バスＩ／Ｆ１２０５は、システムバス１２０７及び画像バス１２１２を接続しデータ構造を変換するバスブリッジとして機能する。

コントローラ１２００は、印刷やコピージョブ実行時の、ユーザ名や印刷部数、カラー印刷等、出力属性情報等をジョブ実行時の履歴をジョブログ情報としてＨＤＤ１２０４又はＲＡＭ１２０２に記録管理している。ＧＰＵ１２９１はデータをより多く並列処理することで効率的な演算を行うことができるので、ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合にはＧＰＵ１２９１で処理を行うことが有効である。本実施形態では機械学習サーバ１０２に機械学習部４１４が設けられる例を説明するが、機械学習部４１４を画像形成装置１０１に設ける場合には、ＣＰＵ１２０１に加えてＧＰＵ１２９１を用いて実現されることが望ましい。具体的には、学習モデルを含む学習プログラムを実行する場合に、ＣＰＵ１２０１とＧＰＵ１２９１が協働して演算を行うことで学習を行う。なお、機械学習部４１４の処理はＣＰＵ１２０１又はＧＰＵ１２９１のみにより演算が行われてもよい。また、後述する推定処理部４０５も機械学習部４１４と同様にＧＰＵ１２９１を利用する構成としてもよい。

＜機械学習サーバ＞
次に、図３を参照して、本実施形態に係る機械学習サーバ１０２の構成例を説明する。機械学習サーバ１０２は、ＣＰＵ１３０１、ＲＡＭ１３０２、ＲＯＭ１３０３、ＨＤＤ１３０４、ネットワーク部Ｉ／Ｆ１３１０、ＩＯ部１３０５、及びＧＰＵ１３０６を備える。これらのコンポーネントは、システムバス１２０７を通じて相互に信号を送受することができる。

ＣＰＵ１３０１は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やアプリケーションソフトなどのプログラムをＨＤＤ１３０４から読み出して実行することで種々の機能を提供する。ＲＡＭ１３０２はＣＰＵ１３０１がプログラムを実行する際のシステムワークメモリである。ＲＯＭ１３０３はＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）やＯＳを起動するためのプログラムや、設定ファイル等を記憶している。ＨＤＤ１３０４はハードディスクドライブであって、システムソフトウェアなどが記憶されている。ネットワーク部Ｉ／Ｆ１３１０はＬＡＮ１０４に接続され、画像形成装置１０１などの外部機器と通信（送受信）を行う。ＩＯ部１３０５はマルチタッチセンサ等を備えた液晶ディスプレイを含む入出力デバイスから構成する図示しない操作部との情報を入出力するインタフェースである。当該操作部にはプログラムが指示する画面情報に基づき所定の解像度や色数等で所定の情報が描画される。例えば、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）画面を形成し、操作に必要な各種ウィンドウやデータ等が表示される。

ＧＰＵ１３０６はデータをより多く並列処理することで効率的な演算を行うことができるので、ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合にはＧＰＵ１３０６で処理を行うことが有効である。そこで本実施形態では、後述する機械学習部４１４による処理にはＣＰＵ１３０１に加えてＧＰＵ１３０６を用いる。具体的には、学習モデルを含む学習プログラムを実行する場合に、ＣＰＵ１３０１とＧＰＵ１３０６とが協働して演算を行うことで学習をより高速に行う。なお、機械学習部４１４の処理はＣＰＵ１３０１又はＧＰＵ１３０６のみにより演算が行われてもよい。また、後述する推定処理部４０５も機械学習部４１４と同様にＧＰＵ１３０６を使用する形態をとってもよい。

ここで、画像形成装置１０１のＧＰＵ１２９１との使い分けについて記載する。ネットワークの通信やＧＰＵの処理に要する負荷、画像形成装置１０１の省電力モード等に応じてＧＰＵの計算資源が有効に活用されうる。例えば、画像形成装置１０１が省電力モードへ移行する場合、積極的に機械学習サーバ１０２側のＧＰＵを活用できるようになっている。

＜システムのソフトウェア構成＞
次に、図４を参照して、本実施形態に係るシステムにおける上述したハードウェア資源とプログラムを利用することで実現されるソフトウェア構成４００の一例を説明する。図４に示すように、ソフトウェア構成を実現するためのプログラムは、その構成要素ごとにストレージに格納されており、ＲＡＭに読み出されてＣＰＵにて実行されるものである。例えば、画像形成装置１０１では、ＣＰＵ１２０１がＨＤＤ１２０４に格納されている制御プログラムをＲＡＭ１２０２に読み出して実行することにより、後述する各処理が実現される。機械学習サーバ１０２や、図示していないデータサーバ１０５についても同様である。図４に示すソフトウェア構成は、本実施形態に係るシステムにおいて画像形成装置１０１で読み取った学習データを用いて、ページ順の誤りの推定処理を行う機能を実現可能にするためのものである。図４を用いて構成要素の機能的役割を説明し、その後図９のフローチャートを用いて処理動作について説明する。

画像形成装置１０１は、ソフトウェア構成として、データ記憶部４０２、ＪＯＢ制御部４０３、ＵＩ表示部４０１、画像読取部４０４、及び推定処理部４０５を含んで構成される。データ記憶部４０２は、図２に示したハードウェア構成におけるＲＡＭ１２０２やＨＤＤ１２０４に対して、画像データや学習データ、及び学習モデル等の画像形成装置１０１が入出力を行うデータの記録を行う機能的役割を有する。ＪＯＢ制御部４０３は、ユーザの指示に基づきコピーやファックス、プリント等の画像形成装置１０１の基本機能の実行や基本機能の実行に伴い他のソフト構成要素間の指示やデータの送受信を中心的に行う機能的役割を有する。ＵＩ表示部４０１は、図２に示す操作部Ｉ／Ｆ１２０６を介して操作部１４０に備える画面に対してユーザからの操作設定の受け付けやその操作受付画面の提供を行う。さらに、ＵＩ表示部４０１は、推定処理部４０５による推定結果等のユーザへのメッセージを通知するための通知画面を表示する機能的役割を有している。画像読取部４０４は、ＪＯＢ制御部４０３の指示に基づきコピー機能やスキャン機能を実行する制御を行う場合に図２に示したスキャナ部１０により原稿を光学的に読み取る動作を行う機能的役割を有している。推定処理部４０５は、図２に示したＣＰＵ１２０１やＧＰＵ１２９１により実行されるものであり、画像形成装置１０１が入出力を行うデータに対してＡＩ機能を実現するための推定処理や分類処理等を行う機能的役割がある。この推定処理は、ＪＯＢ制御部４０３の指示に基づき処理が行われ、その推定処理部４０５の結果出力は、ＪＯＢ制御部４０３に送信され、ＵＩ表示部４０１によって通知メッセージとして表示され、ユーザに対してフィードバックが行われる。

データサーバ１０５は、ソフトウェア構成として、データ収集・提供部４１０とデータ記憶部４１２とを含んで構成される。データ収集・提供部４１０は、機械学習サーバ１０２において学習するための学習データの収集と提供を行う機能的役割を有している。本発明のシステムにおいては画像形成装置１０１から画像形成装置１０１の操作情報を含む学習データの受信を行って、機械学習サーバ１０２へ提供する機能的役割を有している。また、収集先は、画像形成装置１０１とは異なる他の画像形成装置、汎用コンピュータ１０３や他のデータサーバから収集してもよく、目的の機械学習をさせるために必要なデータの収集が可能である。データ記憶部４１２は、収集した学習データの記録管理を行う機能的役割を有している。

機械学習サーバ１０２は、ソフトウェア構成として、学習データ生成部４１３、機械学習部４１４、及びデータ記憶部４１５を含んで構成される。学習データ生成部４１３は、データサーバ１０５から受信を行ったデータを目的の学習効果を得るためにノイズになる不要なデータを除去するなど効果的学習結果が得られる形に加工して学習データの最適化を行う機能的役割を有する。図３に示すＣＰＵ１３０１により実行される。なお、学習データ生成部４１３は、画像形成装置１０１に設けられてもよい。本発明のシステムでは、効果的な学習を行うため、データの前処理加工の一例としてスキャンデータからページ番号が印字されていると推定される領域以外をマスクすることで効果的に学習できるように工夫している。データ記憶部４１５は、データサーバ１０５から受信したデータや生成された学習データ、機械学習部４１４における学習済みモデルを図３に示すＲＡＭ１３０２やＨＤＤ１３０４へ一時記録を行う。機械学習部４１４は、学習データ生成部４１３によって生成された学習データを入力として、図２に示したハードウェア資源であるＧＰＵ１３０６やＣＰＵ１３０１と図５に示す学習モデルによる学習方法を活用して機械学習を行う。

＜学習モデル＞
次に、図５を参照して、本実施形態に係る機械学習部４１４における学習モデルを用いた入出力の構造について説明する。図５はニューラルネットワークを用いた学習モデルを例に図示している。また、本発明のシステムの特徴を説明するための一例としてこのニューラルネットワークによりスキャン原稿の情報を入力としてページ順の誤りを予測するための学習モデルの生成に関わる、学習データＸ５０１を示している。学習データＸ５０１には、入力データＸ５０２と、期待値Ｔ５０３とが含まれる。学習データ（教師データ）Ｘとしては、詳細については後述するが、ページ順が正しいことが保証されている原稿Ａ、ページ順が一部誤っている原稿Ｂ、及びそれぞれのページに関連性のない原稿Ｃのデータを想定する。また、これらの学習データＸ５０１には、例えば、それぞれの原稿におけるページ番号の数値、ページ番号の印字されている位置（真ん中下、左下、右下、中央左、中央右など）、及び原稿のページ割付（Ｎｉｎ１情報）が含まれる。ページ番号の位置は例として真ん中下、左下、右下等を示したが、ページ番号の印字され得る他の場所であったり、座標値（Ｘ、Ｙ）での表現であってもよい。このような原稿から読み取った画像データから生成した学習データで学習モデルを学習することにより、推定フェーズにおいてより高精度な推定を行うことができる。つまり、ページ番号の印字位置が異なるページや、ページ番号自体が印字されていないページを含む原稿束であっても、本実施形態に係る画像形成装置１０１は、好適に原稿束から読み取ったページが正しいか否かを推定することができる。

原稿スキャンデータを機械学習で取り扱う場合は、データの前処理としてページ番号の印字され得る領域以外のマスク処理を行う。マスク処理の詳細は図６を用いて後述する。機械学習の具体的なアルゴリズムとしては、ニューラルネットの他、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシンなどが挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習（ディープラーニング）も挙げられる。適宜、上記アルゴリズムのうち利用できるものを用いて本実施形態に適用することができる。

学習モデル５０４は、誤差検出部と、更新部とを備えてもよい。誤差検出部は、入力層に入力される入力データＸ５０２に応じてニューラルネットワークの出力層から出力される出力データＹと、期待値Ｔ５０３との誤差を得て、損失関数５０５を用いて、出力データＹと教師データＴとの誤差を表す損失（Ｌ）を計算する。

更新部は、誤差検出部で得られた損失（Ｌ）に基づいて、その損失が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。誤差逆伝播法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。

学習モデル５０４は「正解値が既知の入力データ」と「正解値」をセットにした学習データを多数用意し、この正解値に対応する入力データを入力した場合の出力が正解値に極力近づくように学習モデル（Ｗ）内の重み付け係数を調整する。これにより、精度の高い学習モデル（Ｗ）を得る作業を行う。これを学習フェーズと称し、学習フェーズを経て調整された学習モデルを学習済モデルと称する。用意する教師データ（「正解値が既知の入力データ」と「正解値」のセット）は以下のようなものとする。

Ａ、ページ順が正しい原稿を期待値とする教師データ
入力データ（Ｘ）：ページ順が連続する「原稿データＡ」と「原稿データＢ」のページ番号、ページ番号位置、Ｎｉｎ１情報
期待値（Ｔ）：Ａ（ページ順誤りなし）＝１、Ｂ（ページ順誤りなし）＝０、Ｃ（関連性なし）＝０。

Ｂ、ページ順が一部入れ替わっている原稿を期待値とする教師データ
入力データ（Ｘ）：ページ順が連続しない「原稿データＡ」と「原稿データＢ」のページ番号、ページ番号位置、Ｎｉｎ１情報
期待値（Ｔ）：Ａ（ページ順誤りなし）＝０、Ｂ（ページ順誤りなし）＝１、Ｃ（関連性なし）＝０。

Ｃ、各ページの関連性のない原稿を期待値とする教師データ
入力データ（Ｘ）：ページ間に関連性のない「原稿データＡ」と「原稿データＢ」のページ番号、ページ番号位置、Ｎｉｎ１情報
期待値（Ｔ）：Ａ（ページ順誤りなし）＝０、Ｂ（ページ順誤りなし）＝０、Ｃ（関連性なし）＝１。

ここで、期待値（Ｔ）とは「正解値が既知の入力データ」を入力した場合の「正解値」を示す出力（Ｙ）の値である。各教師データの入力データ（Ｘ）５０２を入力し算出された出力（Ｙ）と期待値（Ｔ）５０３とを所定の損失関数５０５に従い損失（Ｌ）を求める。

本実施形態での損失関数は、
Ａ、ページ順が正しい原稿を期待値とする教師データの場合
損失（Ｌ）＝１−「出力（Ｙ）のＡの推定確率」
Ｂ、ページ順が一部入れ替わっている原稿を期待値とする教師データの場合
損失（Ｌ）＝１−「出力（Ｙ）のＢの推定確率」
Ｃ、各ページの関連性のない原稿を期待値とする教師データの場合
損失（Ｌ）＝１−「出力（Ｙ）のＣの推定確率」
とする。
この損失（Ｌ）が０に近づくように中間層の学習モデル（Ｗ）の各層間の重み付けが調整される。この調整を行った学習モデル（Ｗ）が学習済みモデルとして機械学習部４１４に実装される。

＜前処理の説明＞
次に、図６を参照して、本実施形態に係るスキャンデータを学習する前の前処理について説明を行う。本実施形態における学習フェーズにおいては、ページ番号、ページ位置等を学習するデータとするため、既知のＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ／Ｒｅａｄｅｒ）等を用いてページ番号の文字認識を行う。この際ページ番号のみを認識するため、前処理として、スキャンデータに対してページ番号が印字され得る領域以外のマスク処理を行う。

図６（ａ）はページ割付が１ｉｎ１の原稿の例である。まず、原稿全体をＯＣＲで文字認識を行い、文字の向きから原稿の方向（縦原稿、横原稿）を判定する。通常、ページ番号は原稿の下部に印字されることが多いため、原稿下部の任意の領域をページ番号抽出領域、それ以外をマスク領域とし、ページ番号抽出領域の文字列をページ番号とし、これを学習データとする。図６（ｂ）はページ割付が２ｉｎ１の原稿の例である。２ｉｎ１の場合、ページ番号の位置は図６（ａ）と同様に原稿の下部になるが、ページ番号は２ページ分が印字されていることになる。この場合、これら２つの番号のそれぞれを学習データとする。図６（ｃ）はページ割付が４ｉｎ１の原稿の例である。４ｉｎ１の場合、ページ番号の位置は原稿の中央部に２ページ分、原稿の下部に２ページ分印字されることになる。これらそれぞれを学習データとする。Ｎｉｎ１設定は図示しないが他の設定もあり、ページ番号の印字位置や、ページ番号の数も設定によって変わってくる。それぞれの設定で最適な文字抽出領域の設定と、ページ番号の抽出を行う。このように、本実施形態によれば、原稿から読み取った画像データのマスク領域を当該原稿のページ割付に応じて切り替えるものである。

上述したように、本実施形態に係る学習データは、原稿束のページ順が正しいか否かを推定する学習モデルを生成するための学習データにおいて、ページ番号が印字されているであろう位置の情報も含む。これにより、操作者からページ印字位置の入力を要求することなく、精度良くページ番号を抽出し、推定を行うことができる。また、このような学習を行わせることにより、ページごとにページ番号の印字位置が異なる場合であっても、柔軟に対応することができる。例えば、ページによっては異なる位置にページ番号が印字されている原稿束では、ユーザが印字位置を指定する手法では、通常１つの印字位置しか指定することができないため対応できない。或いは、複数の印字位置が指定できる場合であってもユーザに煩雑な操作を要求することになる。

＜原稿の構成例＞
次に、図７を参照して、本実施形態に係る学習モデルにおいてページの順番が正しいと推定する原稿の一例について説明する。図７に示す原稿の例ではページ割付が１ｉｎ１印刷設定で、通常ページ下中央部にページ番号が印字された原稿の例である。ページ番号の位置は同じ場所に印字されていることが多いが、レイアウトの都合で場所が変わっていたり、ページ番号以外の数字がページ番号抽出領域にあったりするケースが考えられる。

Ｎｏ．３の原稿は、ページ番号の印字領域にページ番号以外の数字が入ってしまう例である。この場合、ページ番号以外の数字”９０”を除外してページ番号を把握することが必要となる。Ｎｏ．６の原稿は、図を大きく印刷するためページ番号の位置をページ下部右に移動して例である。この場合、他のページとページ番号の位置が異なっていることを判断する必要がある。Ｎｏ．８の原稿は、レイアウトの都合でページ番号の印字を省略した例である。この場合、敢えてページ番号が印字されていないことを認識する必要がある。このようにページが連続した原稿のレイアウト次第でページ番号の位置が違ったり、ページ番号以外の数字が存在したりするため、これら入力情報を蓄積し学習モデルを学習させる。つまり、本実施形態に係る学習モデルでは、上述のような場合であっても、ページ順が誤っていると判断することなく、正しく推定を行うことができる。

＜教師データ（学習データ）＞
次に、図８を参照して、本実施形態に係る教師データ（学習データ）の詳細について説明する。まず、教師データの生成のため予めページ順が正しいことを保証できる原稿データを用意する。

「Ａ：ページ順違いがない原稿を期待値とする教師データ」の場合について説明する。この場合、入力（Ｘ）として任意のページを「原稿データａ」、次ページを「原稿データｂ」として用意する。期待値（Ｔ）として「Ｔ１（正しいページ順）＝１、Ｔ２（誤ったページ順）＝０、Ｔ３（ページ順入れ替わり有り）＝０」とする。ページ順が正しくても、ページ番号の位置が違ったり、ページ番号以外の数値が存在したり、ページ番号が一部のみ省略されていたりするケースが考えられるため、このような原稿を学習データとすることで、予測精度を上げる。

また別の教師データとして、ページ順が正しい原稿において、一部ページが入れ替わっている原稿を用意する。「Ｂ：ページ順が一部入れ替わっている原稿を期待値とする教師データ」の場合について説明する。この場合、入力（Ｘ）として任意のページを「原稿データａ」、次ページかもしくは入れ替わったページを「原稿データｂ」として用意する。期待値（Ｔ）としてページ順が正しいところは、「Ｔ１（正しいページ順）＝１、Ｔ２（誤ったページ順）＝０、Ｔ３（ページ順入れ替わり有り）＝０」とする。ページ順が入れ替わっているところは「Ｔ１（正しいページ順）＝０、Ｔ２（誤ったページ順）＝１、Ｔ３（ページ順入れ替わり有り）＝１」とする。原稿全体で相関があり（ページ順が正しい場所があり）、かつ一部で誤ったページ順の位置がある場合に、Ｔ３＝１とした学習モデルにする。ここでは、原稿の相関（関連性）については、原稿束の中でページ順の正しいページが存在する場合には相関ありと判定する例について説明するが、本発明を限定する意図はなく他の属性の相関値を利用してもよい。例えば、文脈、章番号、表と表番号の位置関係、図と図番号の位置関係、フォントの種類やサイズを特定して相関関係を利用してもよい。このような相関を得るためには、入力された原稿データに対してＯＣＲを実施して文字認識を行い、当該ページ間における、文脈、章番号、表と表番号の位置関係、図と図番号の位置関係、フォントの種類やサイズを特定して相関関係を分析する。さらには、原稿のファイル形式やページ割付に基づいて相関関係を分析するようにしてもよい。

さらに別の教師データとして、ページ間に相関の無い原稿データを用意する。「Ｃ、各ページの関連性のない原稿を期待値とする教師データ」の場合について説明する。この場合、入力（Ｘ）としてランダムのページ（別原稿）を２ページ分用意する。期待値（Ｔ）として「Ｔ１（正しいページ順）＝０、Ｔ２（誤ったページ順）＝１、Ｔ３（ページ順入れ替わり有り）＝０」とする。原稿全体で相関がない（ページ順が正しい場所がない）場合に、Ｔ３＝０とした学習モデルにする。

＜ジョブ処理（スキャン）の一例＞
次に、図１１を参照して、本実施形態に係るスキャン系のジョブの流れを説明する。なお、スキャン系のジョブとはコピーやスキャンＢＯＸ等のスキャナ部１０を用いたジョブ全般のことである。以下で説明する処理は、例えばＣＰＵ１２０１又はＧＰＵ１２９１が、ＲＯＭ１２０３やＨＤＤ１２０４に格納された制御プログラムをＲＡＭ１２０２に読み出して実行することにより実現される。

Ｓ１１０１で、ＪＯＢ制御部４０３は、ユーザからスキャン系のジョブの開始を操作部１４０が受け付けたか否かを判定する。操作を受け付けていない場合、操作を受け付けるまで待機をする。一方、操作を受け付けた場合はＳ１１０２に遷移し、スキャナ部１０はＡＤＦ又は原稿台ガラスに載置された原稿束を読み取る。続いて、Ｓ１１０３で、ＪＯＢ制御部４０３は、スキャナ部１０がすべての原稿の読取が終了したか否かを判定する。すべて読み取っていない場合、すべての原稿の読み取りが終わるまで処理を繰り返す。すべての原稿の読み取りが終了すると、Ｓ１１０４に進み、ＪＯＢ制御部４０３は、読み取ったデータをデータ記憶部４０２に保存する。

次に、Ｓ１１０５で、ＣＰＵ１２０１又はＧＰＵ１２９１の少なくとも一方は、原稿束から読み取った画像データを用いて学習処理を実行する。より詳細には、ＣＰＵ１２０１又はＧＰＵ１２９１の少なくとも一方は、Ｓ１１０４でデータ記憶部４０２に保存したデータを学習データとして機械学習サーバ１０２へ送信し、機械学習サーバ１０２の機械学習部４１４によって学習させ、学習モデルを更新させる。なお、本実施形態では、機械学習サーバ１０２において学習する例について説明しているが、画像形成装置１０１や他の装置によって学習処理を実行するようにしてもよい。学習処理の詳細については後述する。学習処理を実施すると、Ｓ１１０６に進み、推定処理部４０５は、Ｓ１１０５で学習された学習モデルを用いて、ページ順の誤りを判定するための推定処理を実行する。推定処理の詳細は後述する。推定処理が終了するとＳ１１０７に進み、ＪＯＢ制御部４０３は、読み取り後の処理（プリント、データ保存、データ送信等）を実行し、処理を終了する。なお、ここでは、一例として、スキャン処理において画像を読み取った後に学習処理を実行し、その後に推定処理を実行する例について説明したが、他の種類のジョブ、例えばコピージョブやＳＥＮＤ、ファクシミリ送信などにおいても適用することができる。また、学習処理についてはこのようなタイミングのみに限定する必要はない。例えば、本実施形態に係る学習処理では、意図的に作成した正常データ及び異常データ（学習用の専用データ）について学習してもよい。

＜学習フェーズ及び推定フェーズの処理手順＞
次に、図９を参照して、機械学習部４１４と推定処理部４０５の処理の流れを説明する。以下で説明する学習処理は、例えばＣＰＵ１３０１又はＧＰＵ１３０６が、ＲＯＭ１３０３やＨＤＤ１３０４に格納された制御プログラムをＲＡＭ１３０２に読み出して実行することにより実現される。以下で説明する推定処理は、例えばＣＰＵ１２０１又はＧＰＵ１２９１が、ＲＯＭ１２０３やＨＤＤ１２０４に格納された制御プログラムをＲＡＭ１２０２に読み出して実行することにより実現される。

（学習フェーズ）
まず、機械学習部４１４の処理手順について説明する。機械学習部４１４は学習データが更新されたかどうかを一定期間毎に確認する。更新されていると判断したタイミングで、学習フェーズを開始する。なお、画像形成装置１０１等からの通知に従って学習フェーズを開始してもよい。まず、Ｓ９０１で、学習データ生成部４１３は、画像形成装置１０１から学習データ又は学習データの基となるデータを受信する。ここで、学習データとはＳ１１０４で保存された原稿データであってもよいし、学習データ専用に読み取った画像データであってもよい。学習データ生成部４１３は、受信した原稿データから必要に応じて、各種入力パラメータを含む学習データを生成する。その後、Ｓ９０２で、機械学習部４１４は、学習データに従って機械学習を実行する。続いて、Ｓ９０３で、機械学習部４１４は、機械学習が終わったかどうか判断する。終わっていない場合にはＳ９０２の処理を繰り返し、終わっている場合にはＳ９０４に進む。

Ｓ９０４で、機械学習部４１４は、学習済みモデルの更新を推定処理部４０５へ通知する。続いて、Ｓ９０５で、機械学習部４１４は、学習済みモデルの送信要求があるかどうか判断する。無い場合にはＳ９０５の処理を繰り返し行い、推定処理部４０５からの送信要求を待つ。一方、送信要求があった場合にはＳ９０６に進み、機械学習部４１４は、学習済みモデルを画像形成装置１０１の推定処理部４０５へ送信し、処理を終了する。このように、学習処理が画像形成装置１０１とは異なる装置（機械学習サーバ１０２）で行われる場合には、画像形成装置１０１は、原稿束から読み取った画像データ又は生成した学習データを機械学習サーバ１０２へ送信して学習処理を要求し、学習処理が終了した通知を受けると、学習済みモデルを要求して取得し、推定処理を実行する。推定処理については以下で説明する。

（推定フェーズ）
次に、推定処理部４０５の処理手順について説明する。Ｓ９０７で、推定処理部４０５はＪＯＢ制御部４０３からユーザがスキャン系のジョブを受け付けたか否かを監視する。スキャン系ジョブを受け付けた場合はＳ９０８に進み、推定処理部４０５は、機械学習部４１４へ学習済みモデルの送信要求を行い、学習済みモデルを取得する。続いて、Ｓ９０９で、推定処理部４０５は、スキャンデータに対して、図６を用いて説明した前処理のマスク処理を実行する。マスク処理は、余白（文字の無い）エリアを検知し、文字領域をマスクする。その後、Ｓ９１０で、推定処理部４０５は、前述した学習モデルの作成時と同様、余白エリアの構成からページ番号が印字されていると推定される領域から数値（特徴量）を抽出する。さらに、推定処理部４０５は、学習モデルに入力するパラメータとして、マスク処理されていないスキャンデータから、他の特徴量を必要に応じて抽出する。ここで、他の特徴量には、例えば、上述したように、章番号、表番号、図番号、文脈、フォントの種類、及びフォントのサイズの少なくとも１つが含まれる。これらの抽出は学習モデルの入力パラメータに応じて決定される。

次に、Ｓ９１１で、推定処理部４０５は、抽出した特徴量と学習済みモデルから原稿が関連性のあるものか否かを推定する。例えば、推定処理部４０５は、抽出した数値の中に正しいページ順を示すものがあるか否かによって関連性があるか否かを推定する。或いは、上述した他の特徴量を用いて推定を行ってもよい。続いて、Ｓ９１２で、推定処理部４０５は、Ｓ９１１の推定結果が関連性があることを示す場合はＳ９１３に移行し、関連性がないことを示す場合、ページ順の入れ替え等の処理は不要であるため、処理を終了する。

Ｓ９１３で、推定処理部４０５は、原稿のページ間に関連性があると推定されたスキャンデータについて、さらに、学習済みモデルを用いてページ順に間違いがあるか否かを推定する。ページ順が正しいか否かは、抽出したページ番号により予測を行う。ページ番号の数値、ページ番号の抽出した位置の学習項目から、ページに連続性があるか否かを予測する。図６で説明したように、ページ番号の位置が違ったり、ページ番号以外の数値が存在したり、ページ番号が一部のみ省略されていたりするケースが考えられるが、推定処理部４０５は、前後のページ判定等を含め予測を行うことができる。これは、当該原稿束の読取画像データで学習した学習済みモデルを用いて推定を行うことにより実現することができる。推定処理においては、例えば、推定処理部４０５は、ページ順が入れ替わっているか否かについて、ページ間に相関がある原稿か否かを予測し、相関があり且つページ順が連続していない場合などの場合に、入れ替わりの可能性が高いなどの予測を行う。ページ順が正しいと推定された場合は処理を終了する。一方、Ｓ９１４でページ順に誤りがあると推定した場合は、Ｓ９１５に進み、推定処理部４０５は、操作部１４０にその旨を表示しユーザに知らせ、修正等の対応を要求する。

ここで、図１０を参照して、本実施形態に係る上記Ｓ９１５で表示されるＵＩについて説明する。操作部１４０の表示部には、図１０に示す表示画面１０００が表示される。表示画面１０００には、原稿のページ順が誤っている可能性を示すメッセージ１００１と、読取原稿のサムネイル表示１００５と、予測される正しいページ順候補のサムネイル表示１００６と、対応を選択するためのボタン１００２〜１００４とが含まれる。サムネイル表示１００５には読み取られた原稿から抽出されたページを示す数値が各サムネイル画像に表示される。一方、サムネイル表示１００６には、正しいと予測される正しいページ順に修正した修正候補１００７が表示されるとともに、各サムネイルに修正されたページ順の正しいページ番号が表示される。図１０に示すように、修正候補１００７は、点線等で囲まれているように、任意の方法で強調表示が行われる。

ユーザによって「修正候補に修正する」ボタン１００２が選択されると、ＪＯＢ制御部４０３は、修正候補１００７の順番にデータを入れ替えてその後のジョブ処理（データ保存、コピー等のジョブ処理）を継続して行う。「手動で修正する」ボタン１００３が選択されると、推定が間違っていた場合でもユーザが手動でページ順入れ替えを行えることができる。例えば、ボタン１００３が選択されると、修正用のサムネイル表示を含むポップアップ画面等が表示される。ユーザは、このポップアップ画面上で変更したいページのサムネイル表示をドラッグして、正しいページの場所に挿入するように移動させてリリースすることにより、ページ順を変更することができる。即ち、ポップアップ画面では、ユーザ入力によりページ順を正しい順序に変更可能である。「修正しない」ボタン１００４が選択されると、修正候補１００７を採用することなく、ＪＯＢ制御部４０３は、読み取られた原稿を示すサムネイル表示１００５のままその後のジョブ処理を継続する。以上の処理が終了後、推定フェーズを終了する。なお、ユーザによる選択結果に応じて、原稿束から読み取った画像データのページ順が正しかったかどうかを特定し、特定した情報に基づいて学習モデルを更新するようにしてもよい。

以上説明したように、本実施形態に係る画像形成装置は、載置されたページ順に原稿束から画像を読み取り、読み取られた原稿束の画像データから学習データを生成して、学習モデルを学習させる。さらに、本画像形成装置は、読み取られた原稿束の画像データから、原稿束に含まれる各ページの特徴量を抽出し、抽出された特徴量と、読み取られた画像データに基づく学習済みモデルとを用いて、原稿束が正しいページ順であるか否かを推定する。また、本画像形成装置は、抽出された特徴量と、学習済みモデルとを用いて、読み取られた原稿束の画像データにおいて、ページ間に相関があるか否かについても考慮して推定を行う。これにより、本実施形態によれば、原稿束を読み取った際に、読み取った原稿に応じて学習した学習モデルを用いてページ順に異常があるか否かを好適に推定する仕組みを提供することができる。なお、本実施形態では、特徴量として、ページ番号に加えて、章番号、表番号、図番号、文脈、フォントの種類、及びフォントのサイズの少なくとも１つを抽出する。これにより、ページ番号の順番のみでは判断できない場合であっても、他の特徴量も考慮して判断できるため、より精度の高い推定を行うことができる。また、文脈を判断する場合には、両面印字の原稿束であっても原稿の置き間違いを推定することができる。つまり、本発明によれば、ページ番号の数値のみに着目してページ順が正しいか否かを判断するのではなく、その印字位置や印字の有無、その他の種々の特徴量で学習させた学習モデルを用いて推定を行う。これにより、本発明は、当該ページ番号の印字位置がページ間で変化したり、又は印字されない場合においても正しく推定を行うことができる。更には、所定の特徴量からページ間の相関を判断してページ順が正しいか否かを推定することにより、より精度の高い推定を行うことができる。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１０１：画像形成装置、１０２：機械学習サーバ、１０３：汎用コンピュータ、１０４：ＬＡＮ、１０５：データサーバ

Claims

画像形成装置であって、
載置されたページ順に原稿束から画像を読み取る読取手段と、
前記読取手段によって読み取られた前記原稿束の画像データから学習データを生成する生成手段と、
前記生成手段によって生成された学習データを用いて学習モデルを学習させる学習手段と、
前記読取手段によって読み取られた前記原稿束の画像データから、前記原稿束に含まれる各ページの特徴量を抽出する抽出手段と、
前記抽出手段によって抽出された特徴量と、前記読取手段によって読み取られた画像データに基づく学習済みモデルとを用いて、前記原稿束が正しいページ順であるか否かを推定する第１推定手段と
を備えることを特徴とする画像形成装置。
前記読取手段によって読み取られた前記原稿束の画像データから、各ページのページ番号が印字されていると推定される領域を特定し、それ以外の領域をマスクする前処理手段をさらに備え、
前記抽出手段は、各ページの特徴量として、前記マスクされた画像データからページ番号を示す数値を抽出することを特徴とする請求項１に記載の画像形成装置。
前記前処理手段によってマスクされる領域は、原稿のページ割付によって切り替えられることを特徴とする請求項２に記載の画像形成装置。
前記抽出手段によって抽出された特徴量と、学習済みモデルとを用いて、前記読取手段によって読み取られた前記原稿束の画像データにおいて、ページ間に相関があるか否かを推定する第２推定手段をさらに備え、
前記第１推定手段は、前記第２推定手段によってページ間に相関があると推定された場合に、前記原稿束が正しいページ順であるか否かを推定することを特徴とする請求項１乃至３の何れか１項に記載の画像形成装置。
前記抽出手段は、さらに、特徴量として、章番号、表番号、図番号、文脈、フォントの種類、及びフォントのサイズの少なくとも１つを抽出し、
前記第２推定手段は、前記抽出手段によって抽出された特徴量の少なくとも１つに基づいて、ページ間に相関があるか否かを推定することを特徴とする請求項４に記載の画像形成装置。
前記第１推定手段によって前記原稿束が正しいページ順でないと推定された場合に、その旨と、正しいページに変更した修正候補とを表示画面を表示する表示手段をさらに備えることを特徴とする請求項１乃至５の何れか１項に記載の画像形成装置。
前記表示画面には、前記読取手段によって読み取られた前記原稿束の各ページを示すサムネイル画像と、前記修正候補を示すサムネイル画像と、前記修正候補を採用するか否かを選択するためのボタンとが含まれることを特徴とする請求項６に記載の画像形成装置。
前記表示画面では、ユーザ入力によって正しいページ順に各ページのサムネイル画像を変更可能であることを特徴とする請求項７に記載の画像形成装置。
前記学習済みモデルを外部装置から取得する取得手段をさらに備えることを特徴とする請求項１乃至８の何れか１項に記載の画像形成装置。
前記学習手段は、さらに、正しいページ順の原稿束と、誤ったページ順の原稿束とを前記読取手段によって読み取らせ、読み取った画像データを学習データとして学習モデルを学習させることを特徴とする請求項１乃至９の何れか１項に記載の画像形成装置。
前記誤ったページ順の原稿束とは、一部のページ順が誤っている原稿束と、ページ間に関連性のない原稿束との少なくとも一方を含むことを特徴とする請求項１０に記載の画像形成装置。
前記生成手段によって生成される前記学習データには、各ページのページ番号の数値、ページ番号が印字されている位置、及びページ割付を示す情報が含まれることを特徴とする請求項１乃至１１の何れか１項に記載の画像形成装置。
画像形成装置の制御方法であって、
読取手段が、載置されたページ順に原稿束から画像を読み取る読取工程と、
生成手段が、前記読取工程で読み取られた前記原稿束の画像データから学習データを生成する生成工程と、
学習手段が、前記生成工程で生成された学習データを用いて学習モデルを学習させる学習工程と、
抽出手段が、前記読取工程で読み取られた前記原稿束の画像データから、前記原稿束に含まれる各ページの特徴量を抽出する抽出工程と、
推定手段が、前記抽出工程で抽出された特徴量と、前記読取工程で読み取られた画像データに基づく学習済みモデルとを用いて、前記原稿束が正しいページ順であるか否かを推定する推定工程と
を含むことを特徴とする画像形成装置の制御方法。
画像形成装置の制御方法における各工程をコンピュータに実行させるためのプログラムであって、前記制御方法は、
読取手段が、載置されたページ順に原稿束から画像を読み取る読取工程と、
生成手段が、前記読取工程で読み取られた前記原稿束の画像データから学習データを生成する生成工程と、
学習手段が、前記生成工程で生成された学習データを用いて学習モデルを学習させる学習工程と、
抽出手段が、前記読取工程で読み取られた前記原稿束の画像データから、前記原稿束に含まれる各ページの特徴量を抽出する抽出工程と、
推定手段が、前記抽出工程で抽出された特徴量と、前記読取工程で読み取られた画像データに基づく学習済みモデルとを用いて、前記原稿束が正しいページ順であるか否かを推定する推定工程と
を含むことを特徴とするプログラム。