JP2021179686A - 画像形成装置、その制御方法、及びプログラム - Google Patents
画像形成装置、その制御方法、及びプログラム Download PDFInfo
- Publication number
- JP2021179686A JP2021179686A JP2020083362A JP2020083362A JP2021179686A JP 2021179686 A JP2021179686 A JP 2021179686A JP 2020083362 A JP2020083362 A JP 2020083362A JP 2020083362 A JP2020083362 A JP 2020083362A JP 2021179686 A JP2021179686 A JP 2021179686A
- Authority
- JP
- Japan
- Prior art keywords
- page
- learning
- data
- image forming
- forming apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Facsimiles In General (AREA)
- Image Analysis (AREA)
Abstract
【課題】本発明は、原稿束を読み取った際に、読み取った原稿に応じて学習した学習モデルを用いてページ順に異常があるか否かを好適に推定する仕組みを提供する。【解決手段】画像形成装置は、載置されたページ順に原稿束から画像を読み取り、読み取られた原稿束の画像データから学習データを生成して、学習モデルを学習させる。さらに、本画像形成装置は、読み取られた原稿束の画像データから、原稿束に含まれる各ページの特徴量を抽出し、抽出された特徴量と、読み取られた画像データに基づく学習済みモデルとを用いて、原稿束が正しいページ順であるか否かを推定する。【選択図】 図9
Description
本発明は、画像形成装置、その制御方法、及びプログラムに関する。
シートなどの記録媒体に画像を形成する機能を備えた画像形成装置として、プリンタ機能、ファクシミリ機能、コピー機能等を併せ持った複合機が知られている。コピー機能を使用する際に、ADF(Auto Document Feeder)に紙原稿を設置することで、ページ数の多い原稿においても自動で搬送しつつ高速で読み取りを行うことができる。しかし、原稿のページ順が入れ替わってしまっている原稿束を読み取ってしまった場合、スキャンデータやコピー原稿の順番も誤ったものになってしまう。
そこで特許文献1では、指定領域内のページ番号をOCR(Optical character recognition)で読み取り、異常が有れば警告を行う技術が提案されている。
しかしながら、上記従来技術には以下に記載する課題がある。例えば、ページ番号は原稿の種類によって番号の記載がある位置は異なる。しかし、上記従来技術ではページ番号のある領域を指定することは可能であるが、領域を外れた位置にページ番号が印字されていた場合や、ページ番号以外の数字が存在している場合には、異常であるか否かを判断できない可能性がある。さらには、ページ番号を示す記述がそもそも無い場合もあり、このような場合にも異常であるか否かを判断できない。
本発明は、上述の課題の少なくとも一つに鑑みて成されたものであり、原稿束を読み取った際に、読み取った原稿に応じて学習した学習モデルを用いてページ順に異常があるか否かを好適に推定する仕組みを提供する。
本発明は、例えば、載置されたページ順に原稿束から画像を読み取る読取手段と、前記読取手段によって読み取られた前記原稿束の画像データから学習データを生成する生成手段と、前記生成手段によって生成された学習データを用いて学習モデルを学習させる学習手段と、前記読取手段によって読み取られた前記原稿束の画像データから、前記原稿束に含まれる各ページの特徴量を抽出する抽出手段と、前記抽出手段によって抽出された特徴量と、前記読取手段によって読み取られた画像データに基づく学習済みモデルとを用いて、前記原稿束が正しいページ順であるか否かを推定する第1推定手段とを備えることを特徴とする。
本発明によれば、原稿束を読み取った際に、読み取った原稿に応じて学習した学習モデルを用いてページ順に異常があるか否かを好適に推定することができる。
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものでない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが発明に必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。
<第1の実施形態>
<システム構成>
以下では、本発明を実施するための第1の実施形態について図面を用いて説明する。まず、図1を参照して、本実施形態に係るシステム構成の一例を説明する。
<システム構成>
以下では、本発明を実施するための第1の実施形態について図面を用いて説明する。まず、図1を参照して、本実施形態に係るシステム構成の一例を説明する。
本システムは、プリンタ、複合機、FAXなどの画像形成装置101、機械学習サーバ102、データサーバ105、及び画像形成装置101に対するプリントデータの送信等を行う汎用コンピュータ103を含んで構成される。これらの機器は、有線LAN等のネットワーク104によって相互に通信可能に接続されている。画像形成装置101は、AI機能を搭載していて、このAI機能を実現するための学習済みモデルは、機械学習サーバ102が中心的に生成する役割を備えている。データサーバ105は、機械学習サーバ102において機械学習を行うために使用される学習データ(教師データ)を外部機器から収集して機械学習サーバ102へ提供する役割を持っている。
画像形成装置101は随時、生成された学習済みモデルを機械学習サーバ102から受信して特定のAI機能を実現可能になっている。学習モデルの更新タイミングについては、種々の形態が適用可能であるが、基本的には、スキャンジョブ、コピージョブ、SENDジョブ、FAXジョブなどのジョブの実行時に原稿を読み取ったタイミングとなる。その他のタイミングとしては、例えばシステム管理者等からの指示を受け付けたタイミングや、当該モデルの更新が機械学習サーバ102で行われたタイミング、或いは、予め定められた周期的なタイミングであってもよい。また、機械学習サーバ102は、特定のAI機能を実現するための学習済みモデルの学習に必要な学習データをデータサーバ105や画像形成装置101、汎用コンピュータ103等の外部機器から受信し、少なくとも一部を用いて学習することができる。
本発明のシステムの学習フェーズの特徴としては、画像形成装置101で読み取った原稿データをデータサーバ105に収集しそのデータを機械学習サーバ102で学習して学習モデルを生成又は更新する。一方、推定フェーズでは、画像形成装置101が、機械学習サーバ102からロードした正しいページ順を推定する学習モデルを活用し、好適にページ順の異常を検知し、操作者への警告や正しいページ順への修正を行う。本実施形態によれば、このようなシステム構成により、種々の原稿の読み取りに幅広く対応することができ、ユーザにページ順の誤りを通知することでページ順の訂正を促すことが可能になっている。
<画像形成装置のハードウェア構成>
次に、図2を参照して、本実施形態に係る本システムを構成する画像形成装置101のハードウェア構成を説明する。画像形成装置101は、コントローラ1200、操作部140、スキャナ部10、及びプリンタ部20を備える。
次に、図2を参照して、本実施形態に係る本システムを構成する画像形成装置101のハードウェア構成を説明する。画像形成装置101は、コントローラ1200、操作部140、スキャナ部10、及びプリンタ部20を備える。
操作部140は、使用するユーザが各種の操作を行うためのユーザインタフェースであり、タッチパネル式の液晶ディスプレイやハードウェアボタン、LED等を含んで構成される。スキャナ部10は、操作部140からの指示に従って画像情報を読み取る。プリンタ部20は、画像データを用紙に印刷するものであり、印刷方式については種々の方式が適用されてもよい。スキャナ部10は、スキャナ部10を制御するCPUや原稿読取を行うための図示しない照明ランプや走査ミラーなどを有する。プリンタ部20は、プリンタ部の制御を行うCPUや画像形成や定着を行うための図示しない感光体ドラムや定着器を有する。コントローラ1200は、スキャナ部10や、プリンタ部20、LAN104や、公衆回線(WAN)3001、無線LAN106と接続されている画像形成装置101の動作を統括的に制御する。
コントローラ1200は、CPU1201、RAM1202、ROM1203、HDD1204、及びGPU1291を備える。さらに、コントローラ1200は、画像バスI/F1205、操作部I/F1206、LANI/F1210、モデム1211、内部通信I/F1208、及び無線通信I/F1270を備える。これらのコンポーネントは、システムバス107を通じて相互に信号の送受を行うことができる。また、コントローラ1200は、デバイスI/F1220、画像回転部1230画像圧縮部1240、RIP1260、スキャナ画像処理部1280、及びプリンタ画像処理部1290を備える。これらのコンポーネント及び画像バスI/F1205は、画像バス1212を通じて相互に画像信号の送受を行うことが可能である。
ラスタイメージプロセッサ(RIP)1260は、LAN104を介してLAN上の汎用コンピュータ103から受信した印刷ジョブに含まれるPDLコードをビットマップイメージに展開する。スキャナ画像処理部1280は、スキャナ部10から入力された画像データに対し補正、加工、編集を行う。プリンタ画像処理部1290は、プリンタ部20で出力(印刷)される画像データに対して補正、解像度変換等を行う。画像回転部1230は画像データの回転を行う。画像圧縮部1240は、多値画像データはJPEG、2値画像データはJBIG、MMR、又はMHの圧縮伸張処理を行う。デバイスI/F1220は、スキャナ部10及びプリンタ部20とコントローラ1200を接続して画像データの同期系/非同期系の変換を行う。画像バス1212は、これらのコンポーネントを互いに接続して画像データを高速で転送する。
CPU1201は画像形成装置101を統括的に制御する制御部として機能する。RAM1202は、CPU1201が動作するためのシステムワークメモリであり、画像データを一時記憶するための画像メモリでもある。また、コントローラ1200は、操作部140とのインタフェース部である操作部I/F1206を介して、操作部140の表示部に表示する画像データを操作部140に対して出力する。また操作部I/F1206は操作部140から本画像形成装置101を使用するユーザが入力した情報をCPU1201に伝える役割を有する。LANI/F1210は、LAN104に接続され、汎用コンピュータ103やLAN104上の図示しないその他のコンピュータ端末との通信(送受信)を行う。モデム1211は、公衆回線3001に接続され、図示しない外部のファクシミリ装置とのデータの通信(送受信)を行う。無線通信I/F1270は、無線LAN106により外部の端末と接続する。ROM1203には、CPU1201が実行するブートプログラムが格納されている。また、ハードディスクドライブ(HDD)1204には、システムソフトウェア、画像データ、及びソフトウェアカウンタ値などが格納されうる。また、コントローラ1200は、スキャナ部10及びプリンタ部20と夫々通信を行う内部通信I/F1208と、これらを互いに接続するシステムバス1207とを備える。画像バスI/F1205は、システムバス1207及び画像バス1212を接続しデータ構造を変換するバスブリッジとして機能する。
コントローラ1200は、印刷やコピージョブ実行時の、ユーザ名や印刷部数、カラー印刷等、出力属性情報等をジョブ実行時の履歴をジョブログ情報としてHDD1204又はRAM1202に記録管理している。GPU1291はデータをより多く並列処理することで効率的な演算を行うことができるので、ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合にはGPU1291で処理を行うことが有効である。本実施形態では機械学習サーバ102に機械学習部414が設けられる例を説明するが、機械学習部414を画像形成装置101に設ける場合には、CPU1201に加えてGPU1291を用いて実現されることが望ましい。具体的には、学習モデルを含む学習プログラムを実行する場合に、CPU1201とGPU1291が協働して演算を行うことで学習を行う。なお、機械学習部414の処理はCPU1201又はGPU1291のみにより演算が行われてもよい。また、後述する推定処理部405も機械学習部414と同様にGPU1291を利用する構成としてもよい。
<機械学習サーバ>
次に、図3を参照して、本実施形態に係る機械学習サーバ102の構成例を説明する。機械学習サーバ102は、CPU1301、RAM1302、ROM1303、HDD1304、ネットワーク部I/F1310、IO部1305、及びGPU1306を備える。これらのコンポーネントは、システムバス1207を通じて相互に信号を送受することができる。
次に、図3を参照して、本実施形態に係る機械学習サーバ102の構成例を説明する。機械学習サーバ102は、CPU1301、RAM1302、ROM1303、HDD1304、ネットワーク部I/F1310、IO部1305、及びGPU1306を備える。これらのコンポーネントは、システムバス1207を通じて相互に信号を送受することができる。
CPU1301は、OS(Operating System)やアプリケーションソフトなどのプログラムをHDD1304から読み出して実行することで種々の機能を提供する。RAM1302はCPU1301がプログラムを実行する際のシステムワークメモリである。ROM1303はBIOS(Basic Input Output System)やOSを起動するためのプログラムや、設定ファイル等を記憶している。HDD1304はハードディスクドライブであって、システムソフトウェアなどが記憶されている。ネットワーク部I/F1310はLAN104に接続され、画像形成装置101などの外部機器と通信(送受信)を行う。IO部1305はマルチタッチセンサ等を備えた液晶ディスプレイを含む入出力デバイスから構成する図示しない操作部との情報を入出力するインタフェースである。当該操作部にはプログラムが指示する画面情報に基づき所定の解像度や色数等で所定の情報が描画される。例えば、GUI(Graphical User Interface)画面を形成し、操作に必要な各種ウィンドウやデータ等が表示される。
GPU1306はデータをより多く並列処理することで効率的な演算を行うことができるので、ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合にはGPU1306で処理を行うことが有効である。そこで本実施形態では、後述する機械学習部414による処理にはCPU1301に加えてGPU1306を用いる。具体的には、学習モデルを含む学習プログラムを実行する場合に、CPU1301とGPU1306とが協働して演算を行うことで学習をより高速に行う。なお、機械学習部414の処理はCPU1301又はGPU1306のみにより演算が行われてもよい。また、後述する推定処理部405も機械学習部414と同様にGPU1306を使用する形態をとってもよい。
ここで、画像形成装置101のGPU1291との使い分けについて記載する。ネットワークの通信やGPUの処理に要する負荷、画像形成装置101の省電力モード等に応じてGPUの計算資源が有効に活用されうる。例えば、画像形成装置101が省電力モードへ移行する場合、積極的に機械学習サーバ102側のGPUを活用できるようになっている。
<システムのソフトウェア構成>
次に、図4を参照して、本実施形態に係るシステムにおける上述したハードウェア資源とプログラムを利用することで実現されるソフトウェア構成400の一例を説明する。図4に示すように、ソフトウェア構成を実現するためのプログラムは、その構成要素ごとにストレージに格納されており、RAMに読み出されてCPUにて実行されるものである。例えば、画像形成装置101では、CPU1201がHDD1204に格納されている制御プログラムをRAM1202に読み出して実行することにより、後述する各処理が実現される。機械学習サーバ102や、図示していないデータサーバ105についても同様である。図4に示すソフトウェア構成は、本実施形態に係るシステムにおいて画像形成装置101で読み取った学習データを用いて、ページ順の誤りの推定処理を行う機能を実現可能にするためのものである。図4を用いて構成要素の機能的役割を説明し、その後図9のフローチャートを用いて処理動作について説明する。
次に、図4を参照して、本実施形態に係るシステムにおける上述したハードウェア資源とプログラムを利用することで実現されるソフトウェア構成400の一例を説明する。図4に示すように、ソフトウェア構成を実現するためのプログラムは、その構成要素ごとにストレージに格納されており、RAMに読み出されてCPUにて実行されるものである。例えば、画像形成装置101では、CPU1201がHDD1204に格納されている制御プログラムをRAM1202に読み出して実行することにより、後述する各処理が実現される。機械学習サーバ102や、図示していないデータサーバ105についても同様である。図4に示すソフトウェア構成は、本実施形態に係るシステムにおいて画像形成装置101で読み取った学習データを用いて、ページ順の誤りの推定処理を行う機能を実現可能にするためのものである。図4を用いて構成要素の機能的役割を説明し、その後図9のフローチャートを用いて処理動作について説明する。
画像形成装置101は、ソフトウェア構成として、データ記憶部402、JOB制御部403、UI表示部401、画像読取部404、及び推定処理部405を含んで構成される。データ記憶部402は、図2に示したハードウェア構成におけるRAM1202やHDD1204に対して、画像データや学習データ、及び学習モデル等の画像形成装置101が入出力を行うデータの記録を行う機能的役割を有する。JOB制御部403は、ユーザの指示に基づきコピーやファックス、プリント等の画像形成装置101の基本機能の実行や基本機能の実行に伴い他のソフト構成要素間の指示やデータの送受信を中心的に行う機能的役割を有する。UI表示部401は、図2に示す操作部I/F1206を介して操作部140に備える画面に対してユーザからの操作設定の受け付けやその操作受付画面の提供を行う。さらに、UI表示部401は、推定処理部405による推定結果等のユーザへのメッセージを通知するための通知画面を表示する機能的役割を有している。画像読取部404は、JOB制御部403の指示に基づきコピー機能やスキャン機能を実行する制御を行う場合に図2に示したスキャナ部10により原稿を光学的に読み取る動作を行う機能的役割を有している。推定処理部405は、図2に示したCPU1201やGPU1291により実行されるものであり、画像形成装置101が入出力を行うデータに対してAI機能を実現するための推定処理や分類処理等を行う機能的役割がある。この推定処理は、JOB制御部403の指示に基づき処理が行われ、その推定処理部405の結果出力は、JOB制御部403に送信され、UI表示部401によって通知メッセージとして表示され、ユーザに対してフィードバックが行われる。
データサーバ105は、ソフトウェア構成として、データ収集・提供部410とデータ記憶部412とを含んで構成される。データ収集・提供部410は、機械学習サーバ102において学習するための学習データの収集と提供を行う機能的役割を有している。本発明のシステムにおいては画像形成装置101から画像形成装置101の操作情報を含む学習データの受信を行って、機械学習サーバ102へ提供する機能的役割を有している。また、収集先は、画像形成装置101とは異なる他の画像形成装置、汎用コンピュータ103や他のデータサーバから収集してもよく、目的の機械学習をさせるために必要なデータの収集が可能である。データ記憶部412は、収集した学習データの記録管理を行う機能的役割を有している。
機械学習サーバ102は、ソフトウェア構成として、学習データ生成部413、機械学習部414、及びデータ記憶部415を含んで構成される。学習データ生成部413は、データサーバ105から受信を行ったデータを目的の学習効果を得るためにノイズになる不要なデータを除去するなど効果的学習結果が得られる形に加工して学習データの最適化を行う機能的役割を有する。図3に示すCPU1301により実行される。なお、学習データ生成部413は、画像形成装置101に設けられてもよい。本発明のシステムでは、効果的な学習を行うため、データの前処理加工の一例としてスキャンデータからページ番号が印字されていると推定される領域以外をマスクすることで効果的に学習できるように工夫している。データ記憶部415は、データサーバ105から受信したデータや生成された学習データ、機械学習部414における学習済みモデルを図3に示すRAM1302やHDD1304へ一時記録を行う。機械学習部414は、学習データ生成部413によって生成された学習データを入力として、図2に示したハードウェア資源であるGPU1306やCPU1301と図5に示す学習モデルによる学習方法を活用して機械学習を行う。
<学習モデル>
次に、図5を参照して、本実施形態に係る機械学習部414における学習モデルを用いた入出力の構造について説明する。図5はニューラルネットワークを用いた学習モデルを例に図示している。また、本発明のシステムの特徴を説明するための一例としてこのニューラルネットワークによりスキャン原稿の情報を入力としてページ順の誤りを予測するための学習モデルの生成に関わる、学習データX501を示している。学習データX501には、入力データX502と、期待値T503とが含まれる。学習データ(教師データ)Xとしては、詳細については後述するが、ページ順が正しいことが保証されている原稿A、ページ順が一部誤っている原稿B、及びそれぞれのページに関連性のない原稿Cのデータを想定する。また、これらの学習データX501には、例えば、それぞれの原稿におけるページ番号の数値、ページ番号の印字されている位置(真ん中下、左下、右下、中央左、中央右など)、及び原稿のページ割付(Nin1情報)が含まれる。ページ番号の位置は例として真ん中下、左下、右下等を示したが、ページ番号の印字され得る他の場所であったり、座標値(X、Y)での表現であってもよい。このような原稿から読み取った画像データから生成した学習データで学習モデルを学習することにより、推定フェーズにおいてより高精度な推定を行うことができる。つまり、ページ番号の印字位置が異なるページや、ページ番号自体が印字されていないページを含む原稿束であっても、本実施形態に係る画像形成装置101は、好適に原稿束から読み取ったページが正しいか否かを推定することができる。
次に、図5を参照して、本実施形態に係る機械学習部414における学習モデルを用いた入出力の構造について説明する。図5はニューラルネットワークを用いた学習モデルを例に図示している。また、本発明のシステムの特徴を説明するための一例としてこのニューラルネットワークによりスキャン原稿の情報を入力としてページ順の誤りを予測するための学習モデルの生成に関わる、学習データX501を示している。学習データX501には、入力データX502と、期待値T503とが含まれる。学習データ(教師データ)Xとしては、詳細については後述するが、ページ順が正しいことが保証されている原稿A、ページ順が一部誤っている原稿B、及びそれぞれのページに関連性のない原稿Cのデータを想定する。また、これらの学習データX501には、例えば、それぞれの原稿におけるページ番号の数値、ページ番号の印字されている位置(真ん中下、左下、右下、中央左、中央右など)、及び原稿のページ割付(Nin1情報)が含まれる。ページ番号の位置は例として真ん中下、左下、右下等を示したが、ページ番号の印字され得る他の場所であったり、座標値(X、Y)での表現であってもよい。このような原稿から読み取った画像データから生成した学習データで学習モデルを学習することにより、推定フェーズにおいてより高精度な推定を行うことができる。つまり、ページ番号の印字位置が異なるページや、ページ番号自体が印字されていないページを含む原稿束であっても、本実施形態に係る画像形成装置101は、好適に原稿束から読み取ったページが正しいか否かを推定することができる。
原稿スキャンデータを機械学習で取り扱う場合は、データの前処理としてページ番号の印字され得る領域以外のマスク処理を行う。マスク処理の詳細は図6を用いて後述する。機械学習の具体的なアルゴリズムとしては、ニューラルネットの他、最近傍法、ナイーブベイズ法、決定木、サポートベクターマシンなどが挙げられる。また、ニューラルネットワークを利用して、学習するための特徴量、結合重み付け係数を自ら生成する深層学習(ディープラーニング)も挙げられる。適宜、上記アルゴリズムのうち利用できるものを用いて本実施形態に適用することができる。
学習モデル504は、誤差検出部と、更新部とを備えてもよい。誤差検出部は、入力層に入力される入力データX502に応じてニューラルネットワークの出力層から出力される出力データYと、期待値T503との誤差を得て、損失関数505を用いて、出力データYと教師データTとの誤差を表す損失(L)を計算する。
更新部は、誤差検出部で得られた損失(L)に基づいて、その損失が小さくなるように、ニューラルネットワークのノード間の結合重み付け係数等を更新する。この更新部は、例えば、誤差逆伝播法を用いて、結合重み付け係数等を更新する。誤差逆伝播法は、上記の誤差が小さくなるように、各ニューラルネットワークのノード間の結合重み付け係数等を調整する手法である。
学習モデル504は「正解値が既知の入力データ」と「正解値」をセットにした学習データを多数用意し、この正解値に対応する入力データを入力した場合の出力が正解値に極力近づくように学習モデル(W)内の重み付け係数を調整する。これにより、精度の高い学習モデル(W)を得る作業を行う。これを学習フェーズと称し、学習フェーズを経て調整された学習モデルを学習済モデルと称する。用意する教師データ(「正解値が既知の入力データ」と「正解値」のセット)は以下のようなものとする。
A、ページ順が正しい原稿を期待値とする教師データ
入力データ(X):ページ順が連続する「原稿データA」と「原稿データB」のページ番号、ページ番号位置、Nin1情報
期待値(T):A(ページ順誤りなし)=1、B(ページ順誤りなし)=0、C(関連性なし)=0。
入力データ(X):ページ順が連続する「原稿データA」と「原稿データB」のページ番号、ページ番号位置、Nin1情報
期待値(T):A(ページ順誤りなし)=1、B(ページ順誤りなし)=0、C(関連性なし)=0。
B、ページ順が一部入れ替わっている原稿を期待値とする教師データ
入力データ(X):ページ順が連続しない「原稿データA」と「原稿データB」のページ番号、ページ番号位置、Nin1情報
期待値(T):A(ページ順誤りなし)=0、B(ページ順誤りなし)=1、C(関連性なし)=0。
入力データ(X):ページ順が連続しない「原稿データA」と「原稿データB」のページ番号、ページ番号位置、Nin1情報
期待値(T):A(ページ順誤りなし)=0、B(ページ順誤りなし)=1、C(関連性なし)=0。
C、各ページの関連性のない原稿を期待値とする教師データ
入力データ(X):ページ間に関連性のない「原稿データA」と「原稿データB」のページ番号、ページ番号位置、Nin1情報
期待値(T):A(ページ順誤りなし)=0、B(ページ順誤りなし)=0、C(関連性なし)=1。
入力データ(X):ページ間に関連性のない「原稿データA」と「原稿データB」のページ番号、ページ番号位置、Nin1情報
期待値(T):A(ページ順誤りなし)=0、B(ページ順誤りなし)=0、C(関連性なし)=1。
ここで、期待値(T)とは「正解値が既知の入力データ」を入力した場合の「正解値」を示す出力(Y)の値である。各教師データの入力データ(X)502を入力し算出された出力(Y)と期待値(T)503とを所定の損失関数505に従い損失(L)を求める。
本実施形態での損失関数は、
A、ページ順が正しい原稿を期待値とする教師データの場合
損失(L)=1−「出力(Y)のAの推定確率」
B、ページ順が一部入れ替わっている原稿を期待値とする教師データの場合
損失(L)=1−「出力(Y)のBの推定確率」
C、各ページの関連性のない原稿を期待値とする教師データの場合
損失(L)=1−「出力(Y)のCの推定確率」
とする。
この損失(L)が0に近づくように中間層の学習モデル(W)の各層間の重み付けが調整される。この調整を行った学習モデル(W)が学習済みモデルとして機械学習部414に実装される。
A、ページ順が正しい原稿を期待値とする教師データの場合
損失(L)=1−「出力(Y)のAの推定確率」
B、ページ順が一部入れ替わっている原稿を期待値とする教師データの場合
損失(L)=1−「出力(Y)のBの推定確率」
C、各ページの関連性のない原稿を期待値とする教師データの場合
損失(L)=1−「出力(Y)のCの推定確率」
とする。
この損失(L)が0に近づくように中間層の学習モデル(W)の各層間の重み付けが調整される。この調整を行った学習モデル(W)が学習済みモデルとして機械学習部414に実装される。
<前処理の説明>
次に、図6を参照して、本実施形態に係るスキャンデータを学習する前の前処理について説明を行う。本実施形態における学習フェーズにおいては、ページ番号、ページ位置等を学習するデータとするため、既知のOCR(Optical Character Recognition/Reader)等を用いてページ番号の文字認識を行う。この際ページ番号のみを認識するため、前処理として、スキャンデータに対してページ番号が印字され得る領域以外のマスク処理を行う。
次に、図6を参照して、本実施形態に係るスキャンデータを学習する前の前処理について説明を行う。本実施形態における学習フェーズにおいては、ページ番号、ページ位置等を学習するデータとするため、既知のOCR(Optical Character Recognition/Reader)等を用いてページ番号の文字認識を行う。この際ページ番号のみを認識するため、前処理として、スキャンデータに対してページ番号が印字され得る領域以外のマスク処理を行う。
図6(a)はページ割付が1in1の原稿の例である。まず、原稿全体をOCRで文字認識を行い、文字の向きから原稿の方向(縦原稿、横原稿)を判定する。通常、ページ番号は原稿の下部に印字されることが多いため、原稿下部の任意の領域をページ番号抽出領域、それ以外をマスク領域とし、ページ番号抽出領域の文字列をページ番号とし、これを学習データとする。図6(b)はページ割付が2in1の原稿の例である。2in1の場合、ページ番号の位置は図6(a)と同様に原稿の下部になるが、ページ番号は2ページ分が印字されていることになる。この場合、これら2つの番号のそれぞれを学習データとする。図6(c)はページ割付が4in1の原稿の例である。4in1の場合、ページ番号の位置は原稿の中央部に2ページ分、原稿の下部に2ページ分印字されることになる。これらそれぞれを学習データとする。Nin1設定は図示しないが他の設定もあり、ページ番号の印字位置や、ページ番号の数も設定によって変わってくる。それぞれの設定で最適な文字抽出領域の設定と、ページ番号の抽出を行う。このように、本実施形態によれば、原稿から読み取った画像データのマスク領域を当該原稿のページ割付に応じて切り替えるものである。
上述したように、本実施形態に係る学習データは、原稿束のページ順が正しいか否かを推定する学習モデルを生成するための学習データにおいて、ページ番号が印字されているであろう位置の情報も含む。これにより、操作者からページ印字位置の入力を要求することなく、精度良くページ番号を抽出し、推定を行うことができる。また、このような学習を行わせることにより、ページごとにページ番号の印字位置が異なる場合であっても、柔軟に対応することができる。例えば、ページによっては異なる位置にページ番号が印字されている原稿束では、ユーザが印字位置を指定する手法では、通常1つの印字位置しか指定することができないため対応できない。或いは、複数の印字位置が指定できる場合であってもユーザに煩雑な操作を要求することになる。
<原稿の構成例>
次に、図7を参照して、本実施形態に係る学習モデルにおいてページの順番が正しいと推定する原稿の一例について説明する。図7に示す原稿の例ではページ割付が1in1印刷設定で、通常ページ下中央部にページ番号が印字された原稿の例である。ページ番号の位置は同じ場所に印字されていることが多いが、レイアウトの都合で場所が変わっていたり、ページ番号以外の数字がページ番号抽出領域にあったりするケースが考えられる。
次に、図7を参照して、本実施形態に係る学習モデルにおいてページの順番が正しいと推定する原稿の一例について説明する。図7に示す原稿の例ではページ割付が1in1印刷設定で、通常ページ下中央部にページ番号が印字された原稿の例である。ページ番号の位置は同じ場所に印字されていることが多いが、レイアウトの都合で場所が変わっていたり、ページ番号以外の数字がページ番号抽出領域にあったりするケースが考えられる。
No.3の原稿は、ページ番号の印字領域にページ番号以外の数字が入ってしまう例である。この場合、ページ番号以外の数字”90”を除外してページ番号を把握することが必要となる。No.6の原稿は、図を大きく印刷するためページ番号の位置をページ下部右に移動して例である。この場合、他のページとページ番号の位置が異なっていることを判断する必要がある。No.8の原稿は、レイアウトの都合でページ番号の印字を省略した例である。この場合、敢えてページ番号が印字されていないことを認識する必要がある。このようにページが連続した原稿のレイアウト次第でページ番号の位置が違ったり、ページ番号以外の数字が存在したりするため、これら入力情報を蓄積し学習モデルを学習させる。つまり、本実施形態に係る学習モデルでは、上述のような場合であっても、ページ順が誤っていると判断することなく、正しく推定を行うことができる。
<教師データ(学習データ)>
次に、図8を参照して、本実施形態に係る教師データ(学習データ)の詳細について説明する。まず、教師データの生成のため予めページ順が正しいことを保証できる原稿データを用意する。
次に、図8を参照して、本実施形態に係る教師データ(学習データ)の詳細について説明する。まず、教師データの生成のため予めページ順が正しいことを保証できる原稿データを用意する。
「A:ページ順違いがない原稿を期待値とする教師データ」の場合について説明する。この場合、入力(X)として任意のページを「原稿データa」、次ページを「原稿データb」として用意する。期待値(T)として「T1(正しいページ順)=1、T2(誤ったページ順)=0、T3(ページ順入れ替わり有り)=0」とする。ページ順が正しくても、ページ番号の位置が違ったり、ページ番号以外の数値が存在したり、ページ番号が一部のみ省略されていたりするケースが考えられるため、このような原稿を学習データとすることで、予測精度を上げる。
また別の教師データとして、ページ順が正しい原稿において、一部ページが入れ替わっている原稿を用意する。「B:ページ順が一部入れ替わっている原稿を期待値とする教師データ」の場合について説明する。この場合、入力(X)として任意のページを「原稿データa」、次ページかもしくは入れ替わったページを「原稿データb」として用意する。期待値(T)としてページ順が正しいところは、「T1(正しいページ順)=1、T2(誤ったページ順)=0、T3(ページ順入れ替わり有り)=0」とする。ページ順が入れ替わっているところは「T1(正しいページ順)=0、T2(誤ったページ順)=1、T3(ページ順入れ替わり有り)=1」とする。原稿全体で相関があり(ページ順が正しい場所があり)、かつ一部で誤ったページ順の位置がある場合に、T3=1とした学習モデルにする。ここでは、原稿の相関(関連性)については、原稿束の中でページ順の正しいページが存在する場合には相関ありと判定する例について説明するが、本発明を限定する意図はなく他の属性の相関値を利用してもよい。例えば、文脈、章番号、表と表番号の位置関係、図と図番号の位置関係、フォントの種類やサイズを特定して相関関係を利用してもよい。このような相関を得るためには、入力された原稿データに対してOCRを実施して文字認識を行い、当該ページ間における、文脈、章番号、表と表番号の位置関係、図と図番号の位置関係、フォントの種類やサイズを特定して相関関係を分析する。さらには、原稿のファイル形式やページ割付に基づいて相関関係を分析するようにしてもよい。
さらに別の教師データとして、ページ間に相関の無い原稿データを用意する。「C、各ページの関連性のない原稿を期待値とする教師データ」の場合について説明する。この場合、入力(X)としてランダムのページ(別原稿)を2ページ分用意する。期待値(T)として「T1(正しいページ順)=0、T2(誤ったページ順)=1、T3(ページ順入れ替わり有り)=0」とする。原稿全体で相関がない(ページ順が正しい場所がない)場合に、T3=0とした学習モデルにする。
<ジョブ処理(スキャン)の一例>
次に、図11を参照して、本実施形態に係るスキャン系のジョブの流れを説明する。なお、スキャン系のジョブとはコピーやスキャンBOX等のスキャナ部10を用いたジョブ全般のことである。以下で説明する処理は、例えばCPU1201又はGPU1291が、ROM1203やHDD1204に格納された制御プログラムをRAM1202に読み出して実行することにより実現される。
次に、図11を参照して、本実施形態に係るスキャン系のジョブの流れを説明する。なお、スキャン系のジョブとはコピーやスキャンBOX等のスキャナ部10を用いたジョブ全般のことである。以下で説明する処理は、例えばCPU1201又はGPU1291が、ROM1203やHDD1204に格納された制御プログラムをRAM1202に読み出して実行することにより実現される。
S1101で、JOB制御部403は、ユーザからスキャン系のジョブの開始を操作部140が受け付けたか否かを判定する。操作を受け付けていない場合、操作を受け付けるまで待機をする。一方、操作を受け付けた場合はS1102に遷移し、スキャナ部10はADF又は原稿台ガラスに載置された原稿束を読み取る。続いて、S1103で、JOB制御部403は、スキャナ部10がすべての原稿の読取が終了したか否かを判定する。すべて読み取っていない場合、すべての原稿の読み取りが終わるまで処理を繰り返す。すべての原稿の読み取りが終了すると、S1104に進み、JOB制御部403は、読み取ったデータをデータ記憶部402に保存する。
次に、S1105で、CPU1201又はGPU1291の少なくとも一方は、原稿束から読み取った画像データを用いて学習処理を実行する。より詳細には、CPU1201又はGPU1291の少なくとも一方は、S1104でデータ記憶部402に保存したデータを学習データとして機械学習サーバ102へ送信し、機械学習サーバ102の機械学習部414によって学習させ、学習モデルを更新させる。なお、本実施形態では、機械学習サーバ102において学習する例について説明しているが、画像形成装置101や他の装置によって学習処理を実行するようにしてもよい。学習処理の詳細については後述する。学習処理を実施すると、S1106に進み、推定処理部405は、S1105で学習された学習モデルを用いて、ページ順の誤りを判定するための推定処理を実行する。推定処理の詳細は後述する。推定処理が終了するとS1107に進み、JOB制御部403は、読み取り後の処理(プリント、データ保存、データ送信等)を実行し、処理を終了する。なお、ここでは、一例として、スキャン処理において画像を読み取った後に学習処理を実行し、その後に推定処理を実行する例について説明したが、他の種類のジョブ、例えばコピージョブやSEND、ファクシミリ送信などにおいても適用することができる。また、学習処理についてはこのようなタイミングのみに限定する必要はない。例えば、本実施形態に係る学習処理では、意図的に作成した正常データ及び異常データ(学習用の専用データ)について学習してもよい。
<学習フェーズ及び推定フェーズの処理手順>
次に、図9を参照して、機械学習部414と推定処理部405の処理の流れを説明する。以下で説明する学習処理は、例えばCPU1301又はGPU1306が、ROM1303やHDD1304に格納された制御プログラムをRAM1302に読み出して実行することにより実現される。以下で説明する推定処理は、例えばCPU1201又はGPU1291が、ROM1203やHDD1204に格納された制御プログラムをRAM1202に読み出して実行することにより実現される。
次に、図9を参照して、機械学習部414と推定処理部405の処理の流れを説明する。以下で説明する学習処理は、例えばCPU1301又はGPU1306が、ROM1303やHDD1304に格納された制御プログラムをRAM1302に読み出して実行することにより実現される。以下で説明する推定処理は、例えばCPU1201又はGPU1291が、ROM1203やHDD1204に格納された制御プログラムをRAM1202に読み出して実行することにより実現される。
(学習フェーズ)
まず、機械学習部414の処理手順について説明する。機械学習部414は学習データが更新されたかどうかを一定期間毎に確認する。更新されていると判断したタイミングで、学習フェーズを開始する。なお、画像形成装置101等からの通知に従って学習フェーズを開始してもよい。まず、S901で、学習データ生成部413は、画像形成装置101から学習データ又は学習データの基となるデータを受信する。ここで、学習データとはS1104で保存された原稿データであってもよいし、学習データ専用に読み取った画像データであってもよい。学習データ生成部413は、受信した原稿データから必要に応じて、各種入力パラメータを含む学習データを生成する。その後、S902で、機械学習部414は、学習データに従って機械学習を実行する。続いて、S903で、機械学習部414は、機械学習が終わったかどうか判断する。終わっていない場合にはS902の処理を繰り返し、終わっている場合にはS904に進む。
まず、機械学習部414の処理手順について説明する。機械学習部414は学習データが更新されたかどうかを一定期間毎に確認する。更新されていると判断したタイミングで、学習フェーズを開始する。なお、画像形成装置101等からの通知に従って学習フェーズを開始してもよい。まず、S901で、学習データ生成部413は、画像形成装置101から学習データ又は学習データの基となるデータを受信する。ここで、学習データとはS1104で保存された原稿データであってもよいし、学習データ専用に読み取った画像データであってもよい。学習データ生成部413は、受信した原稿データから必要に応じて、各種入力パラメータを含む学習データを生成する。その後、S902で、機械学習部414は、学習データに従って機械学習を実行する。続いて、S903で、機械学習部414は、機械学習が終わったかどうか判断する。終わっていない場合にはS902の処理を繰り返し、終わっている場合にはS904に進む。
S904で、機械学習部414は、学習済みモデルの更新を推定処理部405へ通知する。続いて、S905で、機械学習部414は、学習済みモデルの送信要求があるかどうか判断する。無い場合にはS905の処理を繰り返し行い、推定処理部405からの送信要求を待つ。一方、送信要求があった場合にはS906に進み、機械学習部414は、学習済みモデルを画像形成装置101の推定処理部405へ送信し、処理を終了する。このように、学習処理が画像形成装置101とは異なる装置(機械学習サーバ102)で行われる場合には、画像形成装置101は、原稿束から読み取った画像データ又は生成した学習データを機械学習サーバ102へ送信して学習処理を要求し、学習処理が終了した通知を受けると、学習済みモデルを要求して取得し、推定処理を実行する。推定処理については以下で説明する。
(推定フェーズ)
次に、推定処理部405の処理手順について説明する。S907で、推定処理部405はJOB制御部403からユーザがスキャン系のジョブを受け付けたか否かを監視する。スキャン系ジョブを受け付けた場合はS908に進み、推定処理部405は、機械学習部414へ学習済みモデルの送信要求を行い、学習済みモデルを取得する。続いて、S909で、推定処理部405は、スキャンデータに対して、図6を用いて説明した前処理のマスク処理を実行する。マスク処理は、余白(文字の無い)エリアを検知し、文字領域をマスクする。その後、S910で、推定処理部405は、前述した学習モデルの作成時と同様、余白エリアの構成からページ番号が印字されていると推定される領域から数値(特徴量)を抽出する。さらに、推定処理部405は、学習モデルに入力するパラメータとして、マスク処理されていないスキャンデータから、他の特徴量を必要に応じて抽出する。ここで、他の特徴量には、例えば、上述したように、章番号、表番号、図番号、文脈、フォントの種類、及びフォントのサイズの少なくとも1つが含まれる。これらの抽出は学習モデルの入力パラメータに応じて決定される。
次に、推定処理部405の処理手順について説明する。S907で、推定処理部405はJOB制御部403からユーザがスキャン系のジョブを受け付けたか否かを監視する。スキャン系ジョブを受け付けた場合はS908に進み、推定処理部405は、機械学習部414へ学習済みモデルの送信要求を行い、学習済みモデルを取得する。続いて、S909で、推定処理部405は、スキャンデータに対して、図6を用いて説明した前処理のマスク処理を実行する。マスク処理は、余白(文字の無い)エリアを検知し、文字領域をマスクする。その後、S910で、推定処理部405は、前述した学習モデルの作成時と同様、余白エリアの構成からページ番号が印字されていると推定される領域から数値(特徴量)を抽出する。さらに、推定処理部405は、学習モデルに入力するパラメータとして、マスク処理されていないスキャンデータから、他の特徴量を必要に応じて抽出する。ここで、他の特徴量には、例えば、上述したように、章番号、表番号、図番号、文脈、フォントの種類、及びフォントのサイズの少なくとも1つが含まれる。これらの抽出は学習モデルの入力パラメータに応じて決定される。
次に、S911で、推定処理部405は、抽出した特徴量と学習済みモデルから原稿が関連性のあるものか否かを推定する。例えば、推定処理部405は、抽出した数値の中に正しいページ順を示すものがあるか否かによって関連性があるか否かを推定する。或いは、上述した他の特徴量を用いて推定を行ってもよい。続いて、S912で、推定処理部405は、S911の推定結果が関連性があることを示す場合はS913に移行し、関連性がないことを示す場合、ページ順の入れ替え等の処理は不要であるため、処理を終了する。
S913で、推定処理部405は、原稿のページ間に関連性があると推定されたスキャンデータについて、さらに、学習済みモデルを用いてページ順に間違いがあるか否かを推定する。ページ順が正しいか否かは、抽出したページ番号により予測を行う。ページ番号の数値、ページ番号の抽出した位置の学習項目から、ページに連続性があるか否かを予測する。図6で説明したように、ページ番号の位置が違ったり、ページ番号以外の数値が存在したり、ページ番号が一部のみ省略されていたりするケースが考えられるが、推定処理部405は、前後のページ判定等を含め予測を行うことができる。これは、当該原稿束の読取画像データで学習した学習済みモデルを用いて推定を行うことにより実現することができる。推定処理においては、例えば、推定処理部405は、ページ順が入れ替わっているか否かについて、ページ間に相関がある原稿か否かを予測し、相関があり且つページ順が連続していない場合などの場合に、入れ替わりの可能性が高いなどの予測を行う。ページ順が正しいと推定された場合は処理を終了する。一方、S914でページ順に誤りがあると推定した場合は、S915に進み、推定処理部405は、操作部140にその旨を表示しユーザに知らせ、修正等の対応を要求する。
ここで、図10を参照して、本実施形態に係る上記S915で表示されるUIについて説明する。操作部140の表示部には、図10に示す表示画面1000が表示される。表示画面1000には、原稿のページ順が誤っている可能性を示すメッセージ1001と、読取原稿のサムネイル表示1005と、予測される正しいページ順候補のサムネイル表示1006と、対応を選択するためのボタン1002〜1004とが含まれる。サムネイル表示1005には読み取られた原稿から抽出されたページを示す数値が各サムネイル画像に表示される。一方、サムネイル表示1006には、正しいと予測される正しいページ順に修正した修正候補1007が表示されるとともに、各サムネイルに修正されたページ順の正しいページ番号が表示される。図10に示すように、修正候補1007は、点線等で囲まれているように、任意の方法で強調表示が行われる。
ユーザによって「修正候補に修正する」ボタン1002が選択されると、JOB制御部403は、修正候補1007の順番にデータを入れ替えてその後のジョブ処理(データ保存、コピー等のジョブ処理)を継続して行う。「手動で修正する」ボタン1003が選択されると、推定が間違っていた場合でもユーザが手動でページ順入れ替えを行えることができる。例えば、ボタン1003が選択されると、修正用のサムネイル表示を含むポップアップ画面等が表示される。ユーザは、このポップアップ画面上で変更したいページのサムネイル表示をドラッグして、正しいページの場所に挿入するように移動させてリリースすることにより、ページ順を変更することができる。即ち、ポップアップ画面では、ユーザ入力によりページ順を正しい順序に変更可能である。「修正しない」ボタン1004が選択されると、修正候補1007を採用することなく、JOB制御部403は、読み取られた原稿を示すサムネイル表示1005のままその後のジョブ処理を継続する。以上の処理が終了後、推定フェーズを終了する。なお、ユーザによる選択結果に応じて、原稿束から読み取った画像データのページ順が正しかったかどうかを特定し、特定した情報に基づいて学習モデルを更新するようにしてもよい。
以上説明したように、本実施形態に係る画像形成装置は、載置されたページ順に原稿束から画像を読み取り、読み取られた原稿束の画像データから学習データを生成して、学習モデルを学習させる。さらに、本画像形成装置は、読み取られた原稿束の画像データから、原稿束に含まれる各ページの特徴量を抽出し、抽出された特徴量と、読み取られた画像データに基づく学習済みモデルとを用いて、原稿束が正しいページ順であるか否かを推定する。また、本画像形成装置は、抽出された特徴量と、学習済みモデルとを用いて、読み取られた原稿束の画像データにおいて、ページ間に相関があるか否かについても考慮して推定を行う。これにより、本実施形態によれば、原稿束を読み取った際に、読み取った原稿に応じて学習した学習モデルを用いてページ順に異常があるか否かを好適に推定する仕組みを提供することができる。なお、本実施形態では、特徴量として、ページ番号に加えて、章番号、表番号、図番号、文脈、フォントの種類、及びフォントのサイズの少なくとも1つを抽出する。これにより、ページ番号の順番のみでは判断できない場合であっても、他の特徴量も考慮して判断できるため、より精度の高い推定を行うことができる。また、文脈を判断する場合には、両面印字の原稿束であっても原稿の置き間違いを推定することができる。つまり、本発明によれば、ページ番号の数値のみに着目してページ順が正しいか否かを判断するのではなく、その印字位置や印字の有無、その他の種々の特徴量で学習させた学習モデルを用いて推定を行う。これにより、本発明は、当該ページ番号の印字位置がページ間で変化したり、又は印字されない場合においても正しく推定を行うことができる。更には、所定の特徴量からページ間の相関を判断してページ順が正しいか否かを推定することにより、より精度の高い推定を行うことができる。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。
101:画像形成装置、102:機械学習サーバ、103:汎用コンピュータ、104:LAN、105:データサーバ
Claims (14)
- 画像形成装置であって、
載置されたページ順に原稿束から画像を読み取る読取手段と、
前記読取手段によって読み取られた前記原稿束の画像データから学習データを生成する生成手段と、
前記生成手段によって生成された学習データを用いて学習モデルを学習させる学習手段と、
前記読取手段によって読み取られた前記原稿束の画像データから、前記原稿束に含まれる各ページの特徴量を抽出する抽出手段と、
前記抽出手段によって抽出された特徴量と、前記読取手段によって読み取られた画像データに基づく学習済みモデルとを用いて、前記原稿束が正しいページ順であるか否かを推定する第1推定手段と
を備えることを特徴とする画像形成装置。 - 前記読取手段によって読み取られた前記原稿束の画像データから、各ページのページ番号が印字されていると推定される領域を特定し、それ以外の領域をマスクする前処理手段をさらに備え、
前記抽出手段は、各ページの特徴量として、前記マスクされた画像データからページ番号を示す数値を抽出することを特徴とする請求項1に記載の画像形成装置。 - 前記前処理手段によってマスクされる領域は、原稿のページ割付によって切り替えられることを特徴とする請求項2に記載の画像形成装置。
- 前記抽出手段によって抽出された特徴量と、学習済みモデルとを用いて、前記読取手段によって読み取られた前記原稿束の画像データにおいて、ページ間に相関があるか否かを推定する第2推定手段をさらに備え、
前記第1推定手段は、前記第2推定手段によってページ間に相関があると推定された場合に、前記原稿束が正しいページ順であるか否かを推定することを特徴とする請求項1乃至3の何れか1項に記載の画像形成装置。 - 前記抽出手段は、さらに、特徴量として、章番号、表番号、図番号、文脈、フォントの種類、及びフォントのサイズの少なくとも1つを抽出し、
前記第2推定手段は、前記抽出手段によって抽出された特徴量の少なくとも1つに基づいて、ページ間に相関があるか否かを推定することを特徴とする請求項4に記載の画像形成装置。 - 前記第1推定手段によって前記原稿束が正しいページ順でないと推定された場合に、その旨と、正しいページに変更した修正候補とを表示画面を表示する表示手段をさらに備えることを特徴とする請求項1乃至5の何れか1項に記載の画像形成装置。
- 前記表示画面には、前記読取手段によって読み取られた前記原稿束の各ページを示すサムネイル画像と、前記修正候補を示すサムネイル画像と、前記修正候補を採用するか否かを選択するためのボタンとが含まれることを特徴とする請求項6に記載の画像形成装置。
- 前記表示画面では、ユーザ入力によって正しいページ順に各ページのサムネイル画像を変更可能であることを特徴とする請求項7に記載の画像形成装置。
- 前記学習済みモデルを外部装置から取得する取得手段をさらに備えることを特徴とする請求項1乃至8の何れか1項に記載の画像形成装置。
- 前記学習手段は、さらに、正しいページ順の原稿束と、誤ったページ順の原稿束とを前記読取手段によって読み取らせ、読み取った画像データを学習データとして学習モデルを学習させることを特徴とする請求項1乃至9の何れか1項に記載の画像形成装置。
- 前記誤ったページ順の原稿束とは、一部のページ順が誤っている原稿束と、ページ間に関連性のない原稿束との少なくとも一方を含むことを特徴とする請求項10に記載の画像形成装置。
- 前記生成手段によって生成される前記学習データには、各ページのページ番号の数値、ページ番号が印字されている位置、及びページ割付を示す情報が含まれることを特徴とする請求項1乃至11の何れか1項に記載の画像形成装置。
- 画像形成装置の制御方法であって、
読取手段が、載置されたページ順に原稿束から画像を読み取る読取工程と、
生成手段が、前記読取工程で読み取られた前記原稿束の画像データから学習データを生成する生成工程と、
学習手段が、前記生成工程で生成された学習データを用いて学習モデルを学習させる学習工程と、
抽出手段が、前記読取工程で読み取られた前記原稿束の画像データから、前記原稿束に含まれる各ページの特徴量を抽出する抽出工程と、
推定手段が、前記抽出工程で抽出された特徴量と、前記読取工程で読み取られた画像データに基づく学習済みモデルとを用いて、前記原稿束が正しいページ順であるか否かを推定する推定工程と
を含むことを特徴とする画像形成装置の制御方法。 - 画像形成装置の制御方法における各工程をコンピュータに実行させるためのプログラムであって、前記制御方法は、
読取手段が、載置されたページ順に原稿束から画像を読み取る読取工程と、
生成手段が、前記読取工程で読み取られた前記原稿束の画像データから学習データを生成する生成工程と、
学習手段が、前記生成工程で生成された学習データを用いて学習モデルを学習させる学習工程と、
抽出手段が、前記読取工程で読み取られた前記原稿束の画像データから、前記原稿束に含まれる各ページの特徴量を抽出する抽出工程と、
推定手段が、前記抽出工程で抽出された特徴量と、前記読取工程で読み取られた画像データに基づく学習済みモデルとを用いて、前記原稿束が正しいページ順であるか否かを推定する推定工程と
を含むことを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020083362A JP2021179686A (ja) | 2020-05-11 | 2020-05-11 | 画像形成装置、その制御方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020083362A JP2021179686A (ja) | 2020-05-11 | 2020-05-11 | 画像形成装置、その制御方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021179686A true JP2021179686A (ja) | 2021-11-18 |
Family
ID=78511617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020083362A Pending JP2021179686A (ja) | 2020-05-11 | 2020-05-11 | 画像形成装置、その制御方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021179686A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023127613A1 (ja) * | 2021-12-28 | 2023-07-06 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム |
WO2023127612A1 (ja) * | 2021-12-28 | 2023-07-06 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム |
-
2020
- 2020-05-11 JP JP2020083362A patent/JP2021179686A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023127613A1 (ja) * | 2021-12-28 | 2023-07-06 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム |
WO2023127612A1 (ja) * | 2021-12-28 | 2023-07-06 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006350551A (ja) | 文書変換装置、文書変換方法、文書変換システム、文書処理装置および情報処理装置 | |
JP2008193682A (ja) | 画像処理装置、画像処理方法 | |
US10306085B2 (en) | Information processing apparatus, control method of information processing apparatus, and recording medium | |
US20210006677A1 (en) | Image processing apparatus, control method for image processing apparatus, and image processing system | |
KR20210122147A (ko) | 문자열을 취득하기 위한 정보 처리 장치 | |
JP2021179686A (ja) | 画像形成装置、その制御方法、及びプログラム | |
EP2432210A2 (en) | Print correction using additional data embedded in a printed image | |
JP2018157338A (ja) | 印刷装置およびサーバー | |
US10863039B2 (en) | Information processing apparatus that outputs parameter on basis of learning result | |
JP2023164539A (ja) | 画像処理装置、その制御方法及びプログラム | |
JP2012083921A (ja) | 画像形成装置及びその処理方法 | |
JP2021135697A (ja) | 情報処理システム、情報処理装置とその制御方法、及びプログラム | |
JP5419631B2 (ja) | 画像処理装置、および画像処理装置におけるスクリプト補正方法 | |
US20220182497A1 (en) | Image processing system, image processing apparatus, control method | |
US11475213B2 (en) | Information processing apparatus and image forming apparatus that add modification history to modified source image, according to modification made | |
JP2020024582A (ja) | 画像処理装置及びその制御方法、並びにプログラム | |
JP2006044114A (ja) | 画像形成装置、印刷モード設定方法、及びプリンタドライバ | |
JP6702262B2 (ja) | 画像形成装置及び画像形成システム | |
JP4926030B2 (ja) | 画像形成装置、画像形成方法および画像形成プログラム | |
JP2022158579A (ja) | 画像形成装置、制御方法、及びプログラム | |
JP2023081269A (ja) | 画像形成装置、画像形成装置の制御方法およびプログラム | |
JP4188308B2 (ja) | 画像処理装置、画像処理システム、及び画像処理装置の制御プログラム | |
JP5104446B2 (ja) | 印刷制御装置、プログラム、及びシステム | |
JP2022024880A (ja) | 画像形成装置、その制御方法、プログラム | |
JP2008262346A (ja) | 画像形成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20210103 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210113 |