JP7452059B2

JP7452059B2 - 情報処理装置及びプログラム

Info

Publication number: JP7452059B2
Application number: JP2020021691A
Authority: JP
Inventors: 裕義上條; 優輝山中
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2024-03-19
Anticipated expiration: 2040-02-12
Also published as: US20210248411A1; US11238305B2; JP2021128443A; CN113255673A

Description

本発明は、情報処理装置及びプログラムに関する。

印刷物に印刷された文字や手書きされた文字の画像を、コンピュータで利用が可能な文字コードに変換する技術が知られている。この技術は、ＯＣＲ（＝Optical Character Recognition）処理と呼ばれる。文字を含む文書に対応する画像の取得には、いわゆるスキャナやデジタルカメラが使用される。
スキャナやデジタルカメラで撮像された画像データをＯＣＲ処理に直接出力することも可能であるが、ＯＣＲ処理による文字の認識の結果の確からしさを示す値（以下「確信度」という）を上げるためには、事前に処理を加えることがある。例えばＯＣＲ処理の前に、画像に含まれるノイズや地紋等を除去するクレンジング処理を実行することがある。この他、取得時における画像の解像度を高く設定することがある。以下では、ＯＣＲ処理の前に実行される処理を前処理と呼ぶ。

特開２０１５－１４６０７５号公報

現在、ＯＣＲ処理の確信度は、処理の対象である画像の全体又はデータファイルの全体を単位として算出されている。このため、ＯＣＲ処理の確信度が低下する領域が含まれる場合でも、全体としての確信度が高いと、確信度が低い領域が含まれることに前処理は気づかない。

本発明は、後段側の処理で得られた部分領域に関する情報を前段側の処理に通知しない場合に比して、後段側の処理で得られる結果の精度を部分領域単位で向上させることを目的とする。

請求項１に記載の発明は、プロセッサを有し、前記プロセッサは、取得した画像データに対して前処理を実行し、前処理後の前記画像データを処理する後段側の処理から、当該画像データに対応する画像のうち少なくとも１つの部分領域を特定する情報を受け付ける場合、特定された部分領域を対象として特定の前処理を実行する、情報処理装置であり、前記プロセッサは、部分領域を特定する前記情報に、部分領域を対象とする処理の結果の精度が予め定めた閾値よりも低いことを示す情報が含まれる場合、部分領域を特定する前記情報により特定された部分領域に対し、前回までとは異なる内容の前処理を実行し、前記プロセッサは、前記画像データに類似する他の画像データに対する前処理の履歴に基づいて原因を推定する、情報処理装置である。
請求項２に記載の発明は、プロセッサを有し、前記プロセッサは、取得した画像データに対して前処理を実行し、前処理後の前記画像データを処理する後段側の処理から、当該画像データに対応する画像のうち少なくとも１つの部分領域を特定する情報を受け付ける場合、特定された部分領域を対象として特定の前処理を実行する、情報処理装置であり、前記プロセッサは、部分領域を特定する前記情報に、部分領域を対象とする処理の結果の精度が予め定めた閾値よりも低いことを示す情報が含まれる場合、部分領域を特定する前記情報により特定された部分領域に対し、前回までとは異なる内容の前処理を実行し、前記プロセッサは、同種の部分領域間における精度の違いに基づいて原因を推定する、情報処理装置である。
請求項３に記載の発明は、コンピュータに、取得した画像データに対して前処理を実行し、前処理後の前記画像データを処理する後段側の処理から、当該画像データに対応する画像のうち少なくとも１つの部分領域を特定する情報を受け付ける場合、特定された部分領域を対象として特定の前処理を実行する機能と、部分領域を特定する前記情報に、部分領域を対象とする処理の結果の精度が予め定めた閾値よりも低いことを示す情報が含まれる場合、部分領域を特定する前記情報により特定された部分領域に対し、前回までとは異なる内容の前処理を実行する機能と、前記画像データに類似する他の画像データに対する前処理の履歴に基づいて原因を推定する機能と、を実現させるためのプログラムである。
請求項４に記載の発明は、コンピュータに、取得した画像データに対して前処理を実行し、前処理後の前記画像データを処理する後段側の処理から、当該画像データに対応する画像のうち少なくとも１つの部分領域を特定する情報を受け付ける場合、特定された部分領域を対象として特定の前処理を実行する機能と、部分領域を特定する前記情報に、部分領域を対象とする処理の結果の精度が予め定めた閾値よりも低いことを示す情報が含まれる場合、部分領域を特定する前記情報により特定された部分領域に対し、前回までとは異なる内容の前処理を実行する機能と、同種の部分領域間における精度の違いに基づいて原因を推定する機能と、を実現させるためのプログラムである。

請求項１記載の発明によれば、後段における処理の結果の精度を効率的に向上できる。
請求項２記載の発明によれば、後段における処理の結果の精度を効率的に向上できる。
請求項３記載の発明によれば、後段における処理の結果の精度を効率的に向上できる。
請求項４記載の発明によれば、後段における処理の結果の精度を効率的に向上できる。

実施の形態で使用する情報処理システムの構成例を示す図である。実施の形態１で使用する画像処理装置のハードウェア構成の一例を説明する図である。実施の形態１で実行される処理の概要を説明する図である。実施の形態１における画像処理装置が実行する処理の一例を説明するフローチャートである。読み取りの対象とする原稿の一例を説明する図である。画像データから分離されるオブジェクトの例を説明する図である。実施の形態１のステップ１１で実行される処理の一例を説明するフローチャートである。実施の形態２で実行される処理の概要を説明する図である。実施の形態２における画像処理装置が実行する処理の一例を説明するフローチャートである。実施の形態２のステップ２１で実行される処理の一例を説明するフローチャートである。実施の形態３で実行される処理の概要を説明する図である。実施の形態３における画像処理装置が実行する処理の一例を説明するフローチャートである。実施の形態３のステップ３２で実行される処理の一例を説明するフローチャートである。実施の形態３のステップ３２で実行される処理の他の例を説明するフローチャートである。対象データが表領域の場合に推定される原因の例を説明する図である。（Ａ）は１つの表領域についてフィードバックされた確信度の組み合わせを示し、（Ｂ）は推定された原因を示す。実施の形態４で実行される処理の概要を説明する図である。実施の形態４における画像処理装置が実行する処理の一例を説明するフローチャートである。実施の形態４のステップ４２で実行される処理の一例を説明するフローチャートである。通知される原因の一例を説明する図である。実施の形態５で実行される処理の概要を説明する図である。実施の形態５における画像処理装置が実行する処理の一例を説明するフローチャートである。実施の形態６で実行される処理の概要を説明する図である。実施の形態６における画像処理装置が実行する処理の一例を説明するフローチャートである。実施の形態７における画像処理装置が実行する処理の一例を説明するフローチャートである。実施の形態８で実行される処理の概要を説明する図である。

以下、図面を参照して、本発明の実施の形態を説明する。
＜実施の形態＞
＜システム構成＞
図１は、実施の形態で使用する情報処理システム１の構成例を示す図である。
図１に示す情報処理システム１は、画像処理装置１０と、画像処理装置１０から与えられる画像データに含まれる文字を認識するＯＣＲ処理サーバ２０と、ネットワーク環境としてのクラウドネットワーク３０とを有している。

本実施の形態における画像処理装置１０は、原稿の複製物を生成する機能、用紙に文書や画像を印刷する機能、原稿を光学的に読み取り画像データを生成する機能、ファクシミリを送受信する機能等を備える。
図１に示す画像処理装置１０の本体上部には、光学的に情報を読み取る位置に原稿を１枚ずつ搬送する機構が備え付けられている。この種の機構は、例えばＡＤＦ（＝Auto Document Feeder）と呼ばれる。ＡＤＦは、複製する原稿の読み取りやファクシミリ送信する原稿の読み取りに使用される。
複製物の生成には、用紙に文書や画像を印刷する機能も使用される。文書や画像のデータは、画像処理装置１０において光学的に読み取られる他、本体に接続された記録媒体や外部の情報端末から与えられる。
画像処理装置１０に設ける機能は、前述した機能に限らない。もっとも、本実施の形態の場合、画像処理装置１０には、原稿の情報を光学的に読み取って画像データを生成する機能が設けられていれば、他の機能は任意である。

本実施の形態における原稿は、文字や画像が印刷された用紙の他、手書きで文字が記入された文書や画像でもよい。手書きによる文字の記入は、文書や画像の一部分で構わない。すなわち、文書内の文字は、全てが手書きである必要はない。
本実施の形態では、手書きの文書として、例えば申込書、請求書、納品書、伝票等の手書き帳票を想定する。手書き帳票では、事前に印刷された枠内に文字が記入される。手書きの文書は、帳票の類いに限らず、連絡用のメモ、回覧用の文書、はがき、封書等でもよい。
本実施の形態における画像処理装置１０には、原稿から読み取った画像からノイズや地紋等を除去する機能も用意されている。本実施の形態の場合、ノイズ等を除去した後の画像データがＯＣＲ処理サーバ２０に送信される。
図１には画像処理装置１０を１台のみ表しているが、情報処理システム１を構成する画像処理装置１０は複数台でもよい。本実施の形態における画像処理装置１０は、情報処理装置の一例である。

本実施の形態におけるＯＣＲ処理サーバ２０は、画像処理装置１０から与えられる画像データをＯＣＲ処理し、処理の結果であるテキストデータを画像処理装置１０に引き継ぐよう設計されている。テキストデータを引き継いだ画像処理装置１０は、受信したテキストデータに対して後処理を実行する。後処理には、例えば言語処理、テキストデータを管理上の正しい位置に紐付ける処理、テキストデータに関連する文書の検索、物品の配達に用いる経路の検索がある。なお、後処理の内容は、読み取る原稿の内容や求められる処理の内容に応じて設計される。
この他、本実施の形態におけるＯＣＲ処理サーバ２０には、ＯＣＲ処理の結果の確信度に関する情報を部分領域毎に前処理にフィードバックする機能も設けられている。この機能は、ＯＣＲ処理により得られる文字の認識の結果の確からしさを高める、又は、後処理の結果の品質や精度を高めるために設けられている。

ところで、本実施の形態における画像処理装置１０の運用者とＯＣＲ処理サーバ２０の運用者は同じでもよいし、異なってもよい。
本実施の形態では、ＯＣＲ処理に特化したＯＣＲ処理サーバ２０を用いているが、複数の機能に対応する汎用型のサーバを用いてもよい。なお、ＯＣＲ処理を実行するコンピュータはサーバに限らない。ＯＣＲ処理を実行するコンピュータは、例えばデスクトップ型のコンピュータやノート型のコンピュータでもよく、スマートフォンやタブレット型の端末でもよい。

図１の場合、ＯＣＲ処理サーバ２０は１台であるが、情報処理システム１を構成するＯＣＲ処理サーバ２０は複数台でよい。複数台のＯＣＲ処理サーバ２０が１つの画像データを分散的に処理してもよい。本実施の形態におけるＯＣＲ処理サーバ２０は、後段側の処理を実行する装置の一例である。
本実施の形態の場合、画像処理装置１０とＯＣＲ処理サーバ２０との通信にクラウドネットワーク３０を用いているが、クラウドネットワーク３０経由の通信に限らない。例えば画像処理装置１０とＯＣＲ処理サーバ２０の通信には、ＬＡＮ（＝Local Area Network）、４Ｇや５Ｇと略称される移動通信システムを用いてもよい。

＜画像処理装置の構成＞
図２は、実施の形態１で使用する画像処理装置１０のハードウェア構成の一例を説明する図である。図２に示す画像処理装置１０は、装置の全体を制御する制御ユニット１１と、画像データ等を記憶する記憶装置１２と、原稿を光学的に読み取って画像データを生成する画像読取ユニット１３と、階調を変換する処理や色を補正する処理等を画像データに加える画像処理ユニット１４と、画像データに応じた画像を用紙に形成する画像形成ユニット１５と、ユーザの操作を受け付ける操作受付ユニット１６と、ユーザインタフェース画面等が表示される表示ユニット１７と、外部との通信に用いられる通信装置１８とを有している。制御ユニット１１と各部は、バス１９や不図示の信号線を通じて接続されている。

本実施の形態における制御ユニット１１は、プロセッサ１１Ａと、ファームウェアやＢＩＯＳ（＝Basic Input Output System）等が記憶された不図示のＲＯＭ（＝Read Only Memory）と、ワークエリアとして用いられる不図示のＲＡＭ（＝Random Access Memory）とを有している。制御ユニット１１は、いわゆるコンピュータとして機能する。前述した前処理や後処理は、プロセッサ１１Ａによるプログラムの実行を通じて実現される。
記憶装置１２は、ハードディスク装置や不揮発性の書き換え可能な半導体メモリ等により構成される。記憶装置１２には、例えば画像読取ユニット１３で読み取られた画像データ等が記憶される。記憶装置１２には、アプリケーションプログラムが格納されてもよい。

画像読取ユニット１３は、例えばＣＩＳ（＝Contact Image Sensor）センサを備えている。ＣＩＳセンサは、照明光を射出するＬＥＤ（＝Light Emitting Diode）と、原稿で反射された光を受光するフォトセンサと、原稿で反射した光をフォトセンサに集光する光学系を含んでいる。
ＡＤＦにより原稿を読み取り位置に搬送しながら画像を読み取るモードの場合、ＣＩＳセンサは、読み取り位置に固定された状態で使用される。光が透過するガラス面に原稿を配置した状態で画像を読み取るモードの場合、ＣＩＳセンサは、原稿に対して相対的に移動するよう制御される。
画像処理ユニット１４は、階調を変換する処理や色を補正する処理等を実行するＧＰＵ（＝Graphics Processing Unit）やＦＰＧＡ（＝Field Programmable Gate Array）等で構成される。

画像形成ユニット１５は、紙に転写されたトナーを熱で定着することにより画像データに応じた画像を紙面上に形成する電子写真方式や液滴を用紙に射出することにより画像データに応じた画像を紙面上に形成するインクジェット方式に応じた機構を有している。
操作受付ユニット１６は、表示ユニット１７の表示面に配置されるタッチセンサ、物理的なスイッチやボタン等で構成される。
表示ユニット１７は、例えば液晶ディスプレイや有機ＥＬディスプレイで構成される。操作受付ユニット１６と表示ユニット１７を一体化したデバイスは、タッチパネルとも呼ばれる。タッチパネルは、ソフトウェア的に表示されたキー（以下「ソフトキー」とも呼ぶ）に対するユーザの操作の受け付けに使用される。
通信装置１８は、有線や無線による通信規格に準拠したモジュールで構成される。通信装置１８には、例えばイーサネット（登録商標）モジュール、ＵＳＢ（＝Universal Serial Bus）、無線ＬＡＮ、ファクシミリ用のモデムその他が用いられる。

＜処理の内容＞
以下では、画像処理装置１０とＯＣＲ処理サーバ２０の連携により実行される処理について説明する。
＜処理の概要＞
図３は、実施の形態１で実行される処理の概要を説明する図である。本実施の形態における処理は、５つの処理で構成される。５つの処理は、原稿の画像データを取得する処理と、取得された画像データに対する前処理と、前処理後の画像データに対するＯＣＲ処理と、ＯＣＲ処理の結果であるテキストデータを処理する後処理と、後処理の結果を記憶装置１２（図２参照）に格納する処理である。
本実施の形態の場合、ＯＣＲ処理をＯＣＲ処理サーバ２０（図１参照）が実行し、その他の４つの処理は画像処理装置１０（図１参照）が実行する。

本実施の形態の場合、前処理として、ノイズや地紋等を除去するクレンジング処理やオブジェクトに分離する処理が実行される。一方、後処理として、キー（＝ｋｅｙ）と対応する値（＝ｖａｌｕｅ）の組み合わせが登録された辞書を参照してキーに対応する値又は値に対応するキーを抽出する処理が実行される。本実施の形態におけるキー及び値は、文字又は画像が対応する。例えばキーが名前の場合、値には富士太郎が対応する。換言すると、キーは項目を示す文字又は図形であり、値は項目に対応する具体的な内容を示す文字又は図形である。
本実施の形態の場合、前処理とＯＣＲ処理との間で処理の対象を特定する情報が前処理からＯＣＲ処理に通知される。図３の場合は、処理の対象を特定する情報としてファイル名が、前処理後の画像データに付属するデータとして通知されている。本実施の形態の場合、ファイル名は、読み取りの日時や読み取り作業を行ったユーザ名、読み取りに用いた画像処理装置１０を区別する情報等で構成される。もっとも、ファイル名を特定する情報は、これらに限らない。

一方のＯＣＲ処理は、前処理への情報のフィードバックに際し、例えばファイル名を用いて処理の対象を明示する。このファイル名の通知により、前処理とＯＣＲ処理との連携が可能になる。例えば前処理やＯＣＲ処理が並列して複数の画像データを処理している場合には、ファイル名を用いることで、処理の対象の区別が可能になる。なお、処理の対象の特定が可能であればよいので、前処理からＯＣＲ処理に通知される情報はファイル名に限らない。

本実施の形態の場合、前処理において、画像データを複数のオブジェクトに分離する処理も実行される。
本実施の形態の場合、オブジェクトとして、文字の領域（以下「文字領域」という）、表の領域（以下「表領域」という）、グラフィックスの領域（以下「グラフィックス領域」という）、図の領域（以下「図領域」という）の４つを使用する。
例えば原稿のタイトル、文字、数値が含まれる領域は、文字領域として切り出される。表そのものや表に付属する題名は表領域として切り出される。社名などを図案化した領域は、グラフィックス領域や図領域として切り出される。その他の領域は背景である。個々のオブジェクトは部分領域の一例である。

なお、背景、グラフィックス領域、図領域はＯＣＲ処理の対象から除外される。このため、文字領域と表領域に対応する画像データが、対象データとして、画像処理装置１０からＯＣＲ処理サーバ２０に送信される。なお、各対象データには、個々の部分領域を識別する情報が付与されている。
本実施の形態の場合、前処理からＯＣＲ処理には、部分領域単位で前処理後の画像データが送信される。
この他、前処理からＯＣＲ処理には、実行された前処理の内容を特定する情報を通知してもよい。前処理の内容は、ＯＣＲ処理の側で確信度が低い原因を推定する場合に利用が可能である。

本実施の形態の場合、ＯＣＲ処理から前処理には、部分領域単位で要求する前処理の内容がフィードバックされる、又は、ＯＣＲ処理した結果の確信度が低いことを示す情報がフィードバックされる。確信度は、精度に関する情報の一例である。
本実施の形態の場合、部分領域は、オブジェクトとして切り出された個々の領域の意味で使用する。換言すると、文字領域が複数ある場合には、文字領域毎に異なる情報がフィードバックされる可能性がある。表領域についても同様である。なお、表領域については、行や列単位で異なる情報がフィードバックされる可能性もある。
本実施の形態の場合、前処理からＯＣＲ処理には、個々の部分領域を識別する情報が通知されている。従って、ＯＣＲ処理から前処理へのフィードバックには、個々の部分領域を識別する情報が含まれる。もっとも、ＯＣＲ処理は、オブジェクトの種類が同じ複数の部分領域を１つの部分領域とみなして確信度を算出し、その確信度が低いことを示す情報を、確信度を算出した複数の部分領域を識別する情報と一緒にフィードバックすることも可能である。

本実施の形態の場合、確信度が予め定めた閾値を上回る部分領域についてのフィードバックは実行されない。従って、全ての部分領域について、個々の確信度が予め定めた閾値を越えている場合、ＯＣＲ処理から前処理へのフィードバックは実行されない。確信度の高いテキストデータが得られているためである。
本実施の形態では、部分領域の確信度を、対応する部分領域から抽出された個々の文字について算出される確信度の平均値として求める。ここでの文字には数字や記号も含まれる。平均値は、部分領域毎に異なる重み付けを用いて算出してもよい。例えば文字領域の場合と表領域の場合では異なる重みを用いてもよい。また、同種の部分領域でも、タイトル部分と本文とでは異なる重みを用いてもよい。
部分領域の確信度の評価に使用する閾値は、部分領域が対応するオブジェクトの種類毎に異なっても良いし、同じでもよい。例えば文字領域と表領域では異なる重みを用いて確信度を算出してもよい。

なお、ＯＣＲ処理から前処理へのフィードバックは、部分領域を指定しないフィードバックも可能である。この場合でも、ＯＣＲ処理は、どの部分領域の確信度が高くどの部分領域の確信度が低いかを認識している。
従って、ＯＣＲ処理は、新たな前処理が加えられた画像データの中から前回のＯＣＲ処理で確信度が低かった部分領域だけを選択して確信度の変化を確認することが可能である。また、ＯＣＲ処理は、閾値より高い確信度が得られたテキストデータだけを選択的に後処理に出力することも可能である。

＜画像処理装置が実行する処理＞
図４は、実施の形態１における画像処理装置１０が実行する処理の一例を説明するフローチャートである。図中に示す記号のＳはステップを意味する。図４に示す処理は、プロセッサ１１Ａ（図２参照）が実行する。
図４に示す処理は、ＯＣＲ処理を伴う原稿の読み取りの指示を受け付けることで開始される。画像処理装置１０に対する読み取りの指示には、例えばスタートボタンの操作が用いられる。
読み取りの指示では、読み取りの条件又は前提の設定が可能である。例えば読み取りの対象である原稿の種類の指定が可能である。原稿の種類が指定されている場合、原稿の種類に応じて用意されている前処理の内容が、プロセッサ１１Ａにより選択される。なお、機械学習により原稿の種類と高い確信度が得られる前処理の内容との関係が学習されている場合、プロセッサ１１Ａは、指定された原稿の種類に対応する前処理の内容を選択する。
もっとも、読み取りの条件又は前提を設定しない読み取りの指示も可能である。この場合には、読み取りにより推定された原稿の種類や原稿の特徴に応じた内容の前処理がプロセッサ１１Ａにより選択される。また、原稿のタイトルの読み取りが画像処理装置１０により可能な場合、読み取られたタイトルに応じた内容の前処理が、プロセッサ１１Ａにより選択される。

さて、ＯＣＲ処理を伴う原稿の読み取りの指示を受け付けると、プロセッサ１１Ａは、原稿の画像データを取得する（ステップ１）。画像データは、例えばＰＤＦ（＝Portable Document Format）その他の予め定めた形式で出力される。
図５は、読み取りの対象である原稿の一例を説明する図である。図５に示す原稿のタイトルは見積書であり、用紙の全体に地紋が付けられている。図５に示す見積書は、２つの表を含む。上段は表Ａであり、下段は表Ｂである。図５に示す表Ａと表Ｂはいずれも３行で構成されている。表Ａと表Ｂの表題が記載される項目名は、いずれも黒色の背景に文字が白抜きで印刷されている。表Ａの２行目と３行目は、白色の背景に黒文字が印刷されている。表Ｂの２行目と３行目は、色付きの背景に文字が印刷されている。文字は、黒文字、白抜き文字、色付き文字のいずれでもよい。なお、背景が網掛けである場合も想定される。

図４の説明に戻る。
続いて、プロセッサ１１Ａは、取得した画像データに対して前処理を実行する（ステップ２）。本実施の形態の場合、前処理では、オブジェクトの分離が実行される。オブジェクトの分離には、既知の技術が用いられる。また、予め選択された又は初期設定で定められているクレンジング処理も実行される。
図６は、画像データから分離されるオブジェクトの例を説明する図である。図６の場合、「見積書」、「ＡＢＣ工業様」、「ＸＹＺ商会」、「合計金額 16，000円」の文字列を含む領域が文字領域として画像データから分離される。また、表Ａの文字と対応する表、表Ｂの文字と対応する表を含む領域が表領域として画像データから分離される。また、画像データの右下に配置されたロゴがグラフィックス領域又は図領域として画像データから分離される。
前処理は、オブジェクトの分離の前でも後でもよい。本実施の形態では、前処理の実行後にオブジェクトの分離が実行される。

図４の説明に戻る。
次に、プロセッサ１１Ａは、ＯＣＲ処理サーバ２０に対象データを送信する（ステップ３）。本実施の形態の場合、対象データは、文字領域と表領域に対応する画像データである。すなわち、グラフィックス領域及び図領域と判定された部分の画像データは、ＯＣＲ処理サーバ２０に送信されない。
この後、プロセッサ１１Ａは、ＯＣＲ処理サーバ２０から情報のフィードバックがあるか否かを判定する（ステップ４）。
例えば予め定めた時間内に情報のフィードバックがなかった場合、プロセッサ１１Ａは、ステップ４で否定結果を得る。本実施の形態の場合、情報のフィードバックがないことは、ＯＣＲ処理の結果の確信度が全ての部分領域について高いことを意味する。前述したように、本実施の形態では、部分領域を単位として確信度が算出されている。なお、表の全体を単位として確信度を算出してもよいし、表を構成する行や列を単位として確信度を算出してもよい。

ステップ４で否定結果が得られた場合、プロセッサ１１Ａは、記憶装置１２（図２参照）から、ステップ１で取得した画像データを消去する（ステップ５）。対象とする画像データについて再度の前処理を実行する必要がないためである。ここでの消去は、前処理用としての画像データの消去である。従って、他の用途用に画像データを保存することは可能である。
次に、プロセッサ１１Ａは、ＯＣＲ処理サーバ２０から取得したテキストデータを後処理する（ステップ６）。この後、プロセッサ１１Ａは、記憶装置１２に対し、処理結果を格納する（ステップ７）。なお、ステップ５は、ステップ６やステップ７の後に実行してもよい。
本実施の形態の場合、ステップ５～ステップ７の実行中に又はこれらの処理の実行後に、プロセッサ１１Ａは、画像データの全体又は特定の部分領域に対して直前回に実行した前処理の内容で高い確信度が得られたことを学習する。学習の単位は、後述する確信度が低い場合と同様である。

ステップ４で肯定結果が得られた場合、プロセッサ１１Ａは、フィードバックの対象データを特定する（ステップ８）。本実施の形態の場合、確信度が予め定めた閾値を超えない部分領域が存在するとき、ＯＣＲ処理サーバ２０から画像処理装置１０にフィードバックがある。本実施の形態の場合、ＯＣＲ処理サーバ２０からフィードバックされる情報には、対象とする部分領域を識別する情報が含まれている。部分領域を識別する情報には、例えば原稿を撮像した画像データ内の位置を示す座標や通し番号が用いられる。座標は、例えば領域の外縁を規定する１つ又は複数の座標点で与えられる。部分領域が矩形形状の場合、部分領域の例えば左上隅の座標点を使用する。部分領域を識別する情報は、ステップ３でＯＣＲ処理サーバ２０に送信された対象データに含まれている。対象データが特定されると、対象とする画像データやオブジェクトの種類も特定される。

次に、プロセッサ１１Ａは、フィードバックされた情報に前処理の内容に対する指示が含まれるか否かを判定する（ステップ９）。図３で説明したように、本実施の形態におけるＯＣＲ処理サーバ２０には、確信度が閾値より低いことを示す情報や前処理に要求する処理の内容を、画像処理装置１０の前処理にフィードバックする機能が設けられている。
要求する処理の内容には、例えばクレンジング処理の種類、クレンジング処理の強度、クレンジング処理で使用するパラメータ値が含まれる。クレンジング処理の種類には、例えば地紋や網掛けを除去する処理、汚れを除去する処理、背景の色を除去して白抜き文字や色付き文字を黒色の文字に変換する処理がある。
なお、地紋や網掛け等の除去には、例えば敵対的生成ネットワーク（GAN: Generative Adversarial Networks）と呼ばれる手法を活用する。ＧＡＮを用いてノイズ等を除去する技術は、既に実用化されているので詳細な説明は省略する。

ステップ９で肯定結果が得られた場合、プロセッサ１１Ａは、指示された前処理の内容を実行する（ステップ１０）。本実施の形態の場合、ステップ８で特定された対象データに対してのみ、新しい前処理を実行する。もっとも、新しい内容の前処理の対象を原稿の画像データの全体としてもよい。
ステップ１０の実行後、プロセッサ１１Ａは、ステップ３に戻る。本実施の形態の場合、プロセッサ１１Ａは、ステップ８で特定された部分領域についてのみ前処理後の画像データを対象データとしてＯＣＲ処理サーバ２０に送信する。このとき、プロセッサ１１Ａは、再度の前処理が実行された部分領域を特定する情報をＯＣＲ処理サーバ２０に通知する。
なお、ステップ３でＯＣＲ処理サーバ２０に送信する対象データには、ステップ８で特定された対象データ以外の他の対象データを含めることも可能である。他の対象データが含まれていても、ＯＣＲ処理サーバ２０は、確信度が低い部分領域に対応する対象データを選択的に抽出することが可能である。

ステップ９で否定結果が得られた場合、プロセッサ１１Ａは、実行すべき前処理の内容を特定して実行する（ステップ１１）。
図７は、実施の形態１のステップ１１で実行される処理の一例を説明するフローチャートである。図中に示す記号のＳはステップを意味する。
ステップ１１を開始したプロセッサ１１Ａは、特定された対象データについて実行済みの前処理の内容を特定する（ステップ１１１）。同一の原稿の同一の対象データについて既に複数回の前処理が実行されている場合、プロセッサ１１Ａは、複数回分の前処理の内容を特定する。
次に、プロセッサ１１Ａは、対象データについて前回までとは異なる内容の前処理を選択する（ステップ１１２）。本実施の形態の場合、ＯＣＲ処理サーバ２０からは、確信度が閾値よりも低いことを示す情報しかフィードバックされていないためである。

続いて、プロセッサ１１Ａは、選択された内容の前処理を対象データについて実行する（ステップ１１３）。異なる内容の前処理を実行することで、ＯＣＲ処理サーバ２０における確信度が閾値を越える可能性が生じる。もっとも、確信度が低い原因が不明なままであるので、確信度がかえって低下する可能性もある。
なお、ステップ１１３では、画像データの全体にステップ１１２で選択された前処理を実行することも可能である。
次に、プロセッサ１１Ａは、対象データについて直前回に実行した前処理の内容と確信度に関する情報とを使用して、部分領域と前処理の内容との関係を学習する（ステップ１１４）。ここでの確信度に関する情報とは、確信度が低いことを示す情報である。

本実施の形態の場合、部分領域に対して直前回に実行された前処理の内容が教師データとして機械学習される。学習の単位は、部分領域に限らず、オブジェクトの種類単位でも、原稿の種類単位でも、類似する画像単位でもよい。なお、オブジェクトの種類は同じでも、図６における表Ａと表Ｂのように、背景や文字の組み合わせが異なれば、確信度の向上に寄与する前処理の内容は異なる。このため、本実施の形態では、部分領域を単位として機械学習している。

本実施の形態では、機械学習に強化学習を採用する。強化学習では、報酬が大きくなるように学習が進行する。このため、閾値より低い確信度しか得られなかった前処理の内容には、報酬が与えられないか低い報酬しか付与されない。一方、ステップ４で否定結果が得られた場合のように閾値より高い確信度が得られた場合の前処理の内容には高い報酬が与えられる。
機械学習の成果は、次回以降に実行される前処理の内容の決定に使用される。次回以降に実行される前処理には、フィードバックに伴う前処理の再実行も、新たに読み取った原稿の画像データに対する前処理も含まれる。
強化学習された学習済みモデルに部分領域に対応する画像データが与えられると、ステップ２で使用する前処理の内容が出力される。強化学習の精度が上がることで、やり直しの回数も低減される。また、機械学習された学習済みモデルは、ステップ１１２における前処理の内容の選択にも応用が可能である。ランダムに前処理の内容を選択する場合に比して、確信度が閾値より高くなる可能性を高めることが可能になる。

ステップ１１４の後、プロセッサ１１Ａは、通知された全ての対象データについて処理が終了したか否かを判定する（ステップ１１５）。
ステップ１１５で否定結果が得られた場合、プロセッサ１１Ａは、ステップ１１１に戻り、別の部分領域に対応する対象データについて一連の処理を繰り返す。
一方、ステップ１１５で肯定結果が得られた場合、プロセッサ１１Ａは、ステップ３に戻る。
以上の処理は、ステップ１０又はステップ１１の実行後に実行されるステップ４で否定結果が得られるまで繰り返される。結果的に、画像処理装置１０が実行する後処理には、確信度が閾値よりも高いテキストデータが与えられることになり、後処理の結果に対する精度や信頼性の向上が実現される。また、認識されたテキストデータの人手による確認や人手による修正の手間の削減が実現される。

＜実施の形態２＞
前述の実施の形態では、ＯＣＲ処理サーバ２０から画像処理装置１０に対し、要求する前処理の内容が具体的にフィードバックされる場合について説明した。ただし、前処理の内容を具体的に特定するには、ＯＣＲ処理サーバ２０に確信度が低い原因を推定する処理や、推定された原因を解消する処理の内容を特定する処理等に対応する機能が、ＯＣＲ処理サーバ２０側に用意されている必要がある。しかし、ＯＣＲ処理サーバ２０に、同機能が常に備わるとは限らない。

図８は、実施の形態２で実行される処理の概要を説明する図である。図８には、図３との対応部分に対応する符号を付して示している。
図８に示す処理の場合、ＯＣＲ処理から前処理にフィードバックされる情報が、実施の形態１と異なっている。
本実施の形態の場合、前処理の内容の変更を要求する情報がフィードバックされている。すなわち、前処理に要求する具体的な処理の内容はフィードバックされていない。
前処理の内容の変更の要求は、確信度が低い部分領域が存在することをトリガーとして出力が可能であり、前述した推定等の処理を必要としない。

図９は、実施の形態２における画像処理装置１０が実行する処理の一例を説明するフローチャートである。図９には、図４との対応部分に対応する符号を付して示す。
本実施の形態の場合、ＯＣＲ処理サーバ２０から画像処理装置１０には、前処理の内容の変更を要求する情報しかフィードバックされない。
このため、プロセッサ１１Ａは、ステップ８の実行後、特定された対象データについて実行すべき前処理の内容を特定して実行する（ステップ２１）。
図１０は、実施の形態２のステップ２１で実行される処理の一例を説明するフローチャートである。図１０には、図７との対応部分に対応する符号を付して示す。図中に示す記号のＳはステップを意味する。

ステップ２１を開始したプロセッサ１１Ａは、特定された対象データについて実行済みの前処理の内容を特定する（ステップ１１１）。
次に、プロセッサ１１Ａは、確信度を低下させている原因を推定する（ステップ２１１）。プロセッサ１１Ａは、例えばステップ１１１で取得された実行済みの前処理の内容の履歴を参考に原因を推定する。
なお、画像処理装置１０には、処理の対象であるオリジナルの画像データが記憶されている。従って、プロセッサ１１Ａは、地紋の有無、背景の有無、フォントのサイズ、汚れの有無、折れ筋の有無、背景と文字の色の関係、原稿の種類等の情報を画像データから読み取り、原因の推定に利用する。

この他、原因の推定には、画像データ全体の確信度を参照することも可能である。画像データ全体の確信度は、画像処理装置１０において算出が可能である。
画像データ全体の確信度は、例えばステップ３で対象データとして送信された各部分領域の原稿上における面積の割合と各部分領域に対する確信度の高低に基づいて算出が可能である。例えば閾値より高い確信度が得られた部分領域の面積には重みとして「１」を乗算した値と、閾値より低い確信度が得られた部分領域の面積には重みとして「０」を乗算した値の和を算出する。その後、算出された値を、ＯＣＲ処理の対象になった部分領域の面積の総和で除算して正規化し、正規化された値と閾値の比較により確信度を算出する。例えば正規化した値が閾値より高ければ画像データ全体の確信度が高いと判定し、正規化した値が閾値より低ければ画像データ全体の確信度が低いと判定する。
なお、前処理の内容の変更が求められていない部分領域は確信度が高く、前処理の内容の変更が求められている部分領域は確信度が低いとみなす。

例えば画像データ全体の確信度が高い一方で、特定の部分領域の確信度だけが低い場合には、特定の部分領域に固有の原因が考えられる。他方、特定の部分領域だけでなく画像データの全体としての確信度も低い場合には、オブジェクトの種類の違いによらない共通の原因が推定される。例えば汚れや折り筋が原因である可能性が推定される。
また、類似する又は同種の部分領域について使用された前処理の内容とその確信度に関する情報の履歴が存在する場合には、高い確信度が得られたときの前処理の内容により原因を推定することも可能である。ここで、部分領域が類似する又は同種であるとは、部分領域に対応する画像データの内容が類似する又は同種であることを意味する。もっとも、この場合には、原因を推定する必要自体がなく、高い確信度が得られたときの前処理の内容をステップ２１２に与えることも可能である。

ステップ２１１の推定には、例えば事前に用意された対応関係のテーブル、機械学習により更新される学習済みモデル、判定プログラムを使用する。
対応関係のテーブルには、画像データの全体から抽出される特徴や部分領域の特徴の組み合わせと、確信度が低い場合に想定される原因とが記憶されている。もっとも、組み合わせ毎に推奨される前処理の内容が記憶されていてもよい。
また、学習済みモデルを用いる場合、部分領域に対応する画像データを学習済みモデルに対して入力すると、原因が出力される。もっとも、部分領域に対応する画像データを学習済みモデルに対して入力すると、推奨される前処理の内容が出力されるようにしてもよい。
また、判定プログラムを用いる場合、個別の判定による分岐を１又は複数回繰り返すことで、確信度を低下させていると考えられる原因が出力される。この場合も、原因ではなく、推奨される前処理の内容が出力されてもよい。

ステップ２１１で原因が推定されると、プロセッサ１１Ａは、推定された原因を解消する内容の前処理を、対象データについて実行する（ステップ２１２）。推定された原因と、その解消に効果がある前処理の内容との関係は例えば記憶装置１２に記憶されている。なお、前述したように、原因の推定をスキップして、確信度を低下させる原因を解消する前処理の内容が特定される場合には、特定された前処理の内容が実行される。
次に、プロセッサ１１Ａは、対象データについて直前回に実行した前処理の内容と確信度に関する情報とを使用して、部分領域と前処理の内容との関係を学習する（ステップ２１３）。
本実施の形態の場合、確信度に関する情報は、ＯＣＲ処理サーバ２０から直接的には通知されない。このため、プロセッサ１１Ａが確信度に関する情報を部分領域毎に判断する。前述したように、前処理の内容の変更が求められていない部分領域の確信度は高いと判断される一方、前処理の内容の変更が求められている部分領域の確信度は低いと判断される。

ステップ２１３の後、プロセッサ１１Ａは、通知された全ての対象データについて処理が終了したか否かを判定する（ステップ１１５）。
ステップ１１５で否定結果が得られた場合、プロセッサ１１Ａは、ステップ１１１に戻り、別の部分領域に対応する対象データについて一連の処理を繰り返す。
一方、ステップ１１５で肯定結果が得られた場合、プロセッサ１１Ａは、ステップ３に戻る。
以上の処理は、ステップ４で否定結果が得られるまで繰り返される。結果的に、画像処理装置１０が実行する後処理には、確信度が閾値よりも高いテキストデータが与えられることになり、後処理の結果に対する精度や信頼性の向上が実現される。また、認識されたテキストデータの人手による確認や人手による修正の手間の削減が実現される。

なお、図１０に示すフローチャートでは、確信度を低下させている原因を解消する内容の前処理を対象データについて実行しているが、原因を推定することなく、同一の画像データにおける同一の部分領域について実行されていない内容の前処理の１つを選択して実行してもよい。
この場合には、確信度を低下させている原因が解消するとは限らないが、前処理の内容の変更を繰り返すうちに確信度の低下の解消が期待される。なお、プロセス上の繰り返し回数は図１０に示す処理に比して増えても、推定等の処理が不要になる分、計算資源に対する負荷は少なく済む。

＜実施の形態３＞
図１１は、実施の形態３で実行される処理の概要を説明する図である。図１１には、図８との対応部分に対応する符号を付して示している。
本実施の形態の場合、ＯＣＲ処理から前処理にフィードバックされる情報の一部が、実施の形態１と異なっている。具体的には、ＯＣＲ処理した結果の確信度そのものがフィードバックされている。確信度の送信は、確信度が低い場合と確信度が高い場合の両方で実行される。
図１２は、実施の形態３における画像処理装置１０が実行する処理の一例を説明するフローチャートである。図１２には、図９との対応部分に対応する符号を付して示す。図中に示す記号のＳはステップを意味する。

本実施の形態の場合、ＯＣＲ処理サーバ２０から画像処理装置１０には、ＯＣＲ処理の結果の確信度が毎回フィードバックされる。
このため、プロセッサ１１Ａは、ステップ３の実行後に、確信度はいずれも閾値以上であるか否かを判定する（ステップ３１）。ここでの閾値は、オブジェクトの違いによらず同じ値でもよいし、オブジェクト毎に異なる値でもよい。
ステップ３１で肯定結果が得られた場合、プロセッサ１１Ａは、ステップ５に移行する。ＯＣＲ処理サーバ２０に送信した対象データの全てについて閾値よりも高い確信度が得られた場合には、前処理をやり直す必要が無いためである。

ステップ３１で否定結果が得られた場合、プロセッサ１１Ａは、実行すべき前処理の内容を特定して実行する（ステップ３２）。
図１３は、実施の形態３のステップ３２で実行される処理の一例を説明するフローチャートである。
まず、プロセッサ１１Ａは、確信度が低い対象データについて実行済みの前処理の内容を特定する（ステップ３２１）。
次に、プロセッサ１１Ａは、確信度が低い対象データについて前回までとは異なる内容の前処理を選択する（ステップ３２２）。もっとも、実施の形態２の場合と同様に、確信度を低下させている原因を推定し、推定された原因を解消する内容の前処理を選択してもよい。この例については後述する。

次に、プロセッサ１１Ａは、選択された内容の前処理を対象データについて実行する（ステップ３２３）。
続いて、プロセッサ１１Ａは、対象データについて直前回に実行した前処理の内容と確信度に関する情報とを使用して、部分領域と前処理の内容との関係を学習する（ステップ３２４）。本実施の形態の場合、確信度が低い場合だけでなく、確信度が高いと判定された対象データについても、部分領域と前処理の内容との関係が学習される。もっとも、いずれか一方だけを学習することも可能である。
処理が終了すると、プロセッサ１１Ａは、ステップ３に戻る。以上の処理は、ステップ３１で肯定結果が得られるまで繰り返される。
結果的に、画像処理装置１０が実行する後処理には、確信度が閾値よりも高いテキストデータが与えられることになり、後処理の結果に対する精度や信頼性の向上が実現される。また、認識されたテキストデータの人手による確認や人手による修正の手間の削減が実現される。

図１４は、実施の形態３のステップ３２で実行される処理の他の例を説明するフローチャートである。図１４には、図１３との対応部分に対応する符号を付して示す。
図１４に示す処理では、複数の確信度の組み合わせを使用する。
まず、プロセッサ１１Ａは、確信度の組み合わせを使用し、確信度を低下させている原因を推定する（ステップ３２５）。確信度の組み合わせは、オブジェクトの種類が共通する複数の部分領域について取得された複数の確信度の組み合わせでもよいし、部分領域を構成する行又は列単位の確信度の組み合わせでもよい。また、処理の対象である画像データを単位として統合された複数の確信度の組み合わせでもよい。

図１５は、対象データが表領域の場合に推定される原因の例を説明する図である。（Ａ）は１つの表領域についてフィードバックされた確信度の組み合わせを示し、（Ｂ）は推定された原因を示す。なお、図１５の例では、行ごとに確信度が算出されてフィードバックされる場合の例である。表領域の全体を単位として確信度がフィードバックされる場合には、図１５に示すような詳細な原因の推定は困難になる。
図１５に示す例は、図５における表Ａ又は表Ｂを想定している。このため、行数は３行である。図１５の場合、１つの表領域についての確信度の組み合わせは８個である。図１５では、これらを、組み合わせ１～８で表している。組み合わせの数は、表領域を構成する行数や１つの表領域について通知される確信度の数に依存する。
なお、図１５の組み合わせ１～８に対応する各行の背景色のように、表Ａや表Ｂの背景色が偶数行と奇数行とで異なる場合には、行数が増えても奇数行と偶数行を単位として確信度を算出してもよい。

組み合わせ１は、１行目～３行目に対応する各確信度が閾値よりも高い場合である。この場合は、直前回に実行された前処理の内容で問題がないため、確信度が低い原因の推定は不要である。
組み合わせ２は、１行目と２行目に対応する各確信度が閾値より高いが、３行目に対応する確信度が閾値よりも低い場合である。この場合、確信度を低下させる原因として、値のセルが色背景であることが推定される。
組み合わせ３は、１行目と３行目に対応する各確信度が閾値より高いが、２行目に対応する確信度が閾値よりも低い場合である。この場合も、確信度を低下させる原因として、値のセルが色背景であることが推定される。

組み合わせ４は、１行目に対応する確信度が閾値より高いが、２行目と３行目に対応する各確信度が閾値よりも低い場合である。この場合、確信度を低下させる原因として、値のセルのみ網掛けであることが推定される。ここでの網掛けには地紋も含まれる。
組み合わせ５は、２行目と３行目に対応する各確信度が閾値より高いが、１行目に対応する確信度が閾値よりも低い場合である。この場合、確信度を低下させる原因として、項目名のセルが白抜き文字であることが推定される。
組み合わせ６は、２行目に対応する確信度が閾値より高いが、１行目と３行目に対応する各確信度が閾値よりも低い場合である。この場合、確信度を低下させる原因として、項目名のセルが白抜き文字であり、かつ、値のセルが色背景であることが推定される。

組み合わせ７は、３行目に対応する確信度が閾値より高いが、１行目と２行目に対応する各確信度が閾値よりも低い場合である。この場合も、確信度を低下させる原因として、項目名のセルが白抜き文字であり、かつ、値のセルが色背景であることが推定される。
組み合わせ８は、１行目～３行目に対応する各確信度が閾値より低い場合である。この場合、確信度を低下させる原因として、全面が地紋又は全面が色背景であり、かつ、各文字が色文字等であることが推定される。
なお、以上の推定は、原稿本来の画像上の特徴に着目している。このため、汚れや折り筋等の影響による確信度の低下の推定には、別の情報も必要になる。例えば原稿単位での確信度やオリジナルの画像データの情報が必要である。

図１４の説明に戻る。
ステップ３２５で原因が推定されると、プロセッサ１１Ａは、推定された原因を解消する内容の前処理を、対象データについて実行する（ステップ３２６）。
次に、プロセッサ１１Ａは、対象データについて直前回に実行した前処理の内容と確信度に関する情報とを使用して、部分領域と前処理の内容との関係を学習する（ステップ３２４）。本実施の形態の場合、確信度が低い対象データと実行された前処理の内容との関係と、確信度が高い対象データと実行された前処理の内容との関係の両方が学習される。もっとも、いずれか一方だけを学習することも可能である。
処理が終了した以降の処理の内容は、図１２について説明した通りである。

＜実施の形態４＞
図１６は、実施の形態４で実行される処理の概要を説明する図である。図１６には、図１１との対応部分に対応する符号を付して示している。
本実施の形態の場合、確信度ではなく推定された原因が、ＯＣＲ処理から前処理にフィードバックされる。この場合、実施の形態３で実行された推定がＯＣＲ処理サーバ２０側で実行される。
図１７は、実施の形態４における画像処理装置１０が実行する処理の一例を説明するフローチャートである。図１７には、図１２との対応部分に対応する符号を付して示す。図中に示す記号のＳはステップを意味する。

本実施の形態の場合、プロセッサ１１Ａは、ＯＣＲ処理サーバ２０に対象データを送信すると（ステップ３）、原因がフィードバックされたか否かを判定する（ステップ４１）。
原因がフィードバックされるのは、対象データ中に確信度が低い部分領域が存在する場合に限られる。このため、ステップ４１で否定結果が得られた場合、プロセッサ１１Ａは、ステップ５に移行し、以下、図１２の場合と同様の処理を実行する。
これに対し、ステップ４１で肯定結果が得られた場合、プロセッサ１１Ａは、実行すべき前処理の内容を特定して実行する（ステップ４２）。

図１８は、実施の形態４のステップ４２で実行される処理の一例を説明するフローチャートである。
まず、プロセッサ１１Ａは、通知された原因を解消する内容の前処理を、対象データについて実行する（ステップ４２１）。
図１９は、通知される原因の一例を説明する図である。
図１９に示す原因１～原因５は、図１５に示す原因に対応している。原因１は、値のセルが色背景であることを示す。原因２は、値のセルが色背景であることを示す。原因３は、項目名のセルが白抜き文字であることを示す。原因４は、項目名のセルが白抜き文字であり、かつ、値のセルが色背景であることを示す。原因５は、全面が地紋又は全面が色背景であり、かつ、各文字が色文字等であることを示す。なお、汚れや折れ筋等が原因として通知される可能性もある。

図１８の説明に戻る。
原因に応じた前処理が対象データについて実行されると、プロセッサ１１Ａは、対象データについて直前回に実行した前処理の内容と確信度に関する情報とを使用して、部分領域と前処理の内容との関係を学習する（ステップ４２２）。
因みに、原因が通知されたということは、対応する部分領域の確信度が閾値よりも低いことを意味し、反対に原因が通知されないということは、対応する部分領域の確信度が閾値よりも高いことを意味する。そこで、プロセッサ１１Ａは、原因が通知されたか否かにより確信度の高低を特定する。
処理が終了した以降の処理の内容は、図１２について説明した通りである。

＜実施の形態５＞
図２０は、実施の形態５で実行される処理の概要を説明する図である。図２０には、図３との対応部分に対応する符号を付して示している。
本実施の形態の場合、後処理から前処理への後処理の完了のフィードバックが追加される点で実施の形態１と相違する。
図２１は、実施の形態５における画像処理装置１０が実行する処理の一例を説明するフローチャートである。図２１には、図４との対応部分に対応する符号を付して示す。
本実施の形態の場合、ステップ４で否定結果が得られた場合、プロセッサ１１Ａは、ステップ５ではなく、ステップ６及び７を順番に実行する。すなわち、ステップ４で否定結果が得られた場合には、プロセッサ１１Ａは、ＯＣＲ処理サーバ２０から取得されるテキストデータに基づいて後処理を実行し、その処理結果を記憶装置１２に格納する。
本実施の形態では、ステップ７の実行後に、後処理の完了の通知を受信する（ステップ５１）。この通知の受信後に、プロセッサ１１Ａは、画像データを消去する（ステップ５）。後処理の完了の通知を確認した後に画像データを消去するので、画像データの消去後に画像データが要求されることがない。
なお、本実施の形態では、後処理の完了のフィードバックを実施の形態１に追加しているが、実施の形態２～４のいずれに追加してもよい。

＜実施の形態６＞
図２２は、実施の形態６で実行される処理の概要を説明する図である。図２２には、図３との対応部分に対応する符号を付して示している。
本実施の形態の場合、格納の完了が前処理にフィードバックされる機能が追加される点で実施の形態１と相違する。
図２３は、実施の形態６における画像処理装置１０が実行する処理の一例を説明するフローチャートである。図２３には、図４との対応部分に対応する符号を付して示す。
本実施の形態の場合、ステップ４で否定結果が得られた場合、プロセッサ１１Ａは、ステップ５ではなく、ステップ６及び７を順番に実行する。すなわち、ステップ４で否定結果が得られた場合には、プロセッサ１１Ａは、ＯＣＲ処理サーバ２０から取得されるテキストデータに基づいて後処理を実行し、その処理結果を記憶装置１２に格納する。
本実施の形態では、ステップ７の実行後に、処理結果の格納の完了の通知を受信する（ステップ６１）。この通知の受信後に、プロセッサ１１Ａは、画像データを消去する（ステップ５）。処理結果の格納後に画像データを消去するので、画像データの消去後に画像データが要求されることがない。
なお、本実施の形態では、処理結果の格納の完了のフィードバックを実施の形態１に追加しているが、実施の形態２～４のいずれに追加してもよい。

＜実施の形態７＞
図２４は、実施の形態７における画像処理装置１０が実行する処理の一例を説明するフローチャートである。図２４には、図４との対応部分に対応する符号を付して示す。
図４に示すフローチャートの場合には、ステップ１０又はステップ１１において、前処理の内容だけをやり直す場合について説明した。
しかし、図２４に示すように、再度の前処理の実行時にはオブジェクトの分離からやり直してもよい。図２４では、オブジェクトの分離のやり直しを含むステップ１０及び１１をステップ１０Ａ及び１１Ａと示している。
なお、前述した他の実施の形態においても、再度の前処理の実行の際にオブジェクトの分離をやり直してもよい。

＜実施の形態８＞
図２５は、実施の形態８で実行される処理の概要を説明する図である。図２５には、図３との対応部分に対応する符号を付して示している。
前述の実施の形態の場合には、ＯＣＲ処理が前処理に対してフィードバックを実行しているが、本実施の形態の場合、ＯＣＲ処理が原稿の画像データを取得する処理にフィードバックを実行する。
例えば原稿に印字された又は記入された文字のサイズに対して画像データの取得時に使用した解像度が小さい場合、ＯＣＲ処理の結果の確信度は低下する可能性がある。解像度の不一致が確信度の低下の原因である場合、前処理の内容を変更しても確信度は改善しない。
そこで、本実施の形態では、ＯＣＲ処理の対象である画像データに含まれるフォントのサイズが確信度の低い原因と考えられる場合、画像データの解像度の変更が原稿の画像データを取得する処理にフィードバックされる。図２５の例では、２００ｄｐｉから６００ｄｐｉへの変更が指示されている。なお、フォントサイズの大きさを検知する技術は既知である。
本実施の形態で説明したフィードバックは、前述した実施の形態のいずれとも組み合わせが可能である。

＜他の実施の形態＞
以上、本発明の実施の形態について説明したが、本発明の技術的範囲は前述した実施の形態に記載の範囲に限定されない。前述した実施の形態に、種々の変更又は改良を加えたものも、本発明の技術的範囲に含まれることは、特許請求の範囲の記載から明らかである。

（１）例えば前述の実施の形態においては、前処理後の画像データを処理する後段側の処理の一例としてＯＣＲ処理を想定しているが、後段側の処理はＯＣＲ処理に限らない。例えば前述の実施の形態７で説明した後処理や実施の形態８で説明した格納の処理も後段側の処理に含まれる。
また、前処理とその後段側の処理の組み合わせは、クレンジング処理とＯＣＲ処理の組み合わせに限らない。例えば前処理は顔認識のための特徴量の抽出であり、後段側の処理は抽出された特徴量を使用した顔認識であってもよい。この場合、確信度は、顔認識された結果の精度を表す情報等となる。このように、前述の実施の形態では、ＯＣＲ処理の実行を前提として前処理の内容を説明しているが、前処理とその後段側の処理の組み合わせは任意で良い。

（２）前述の実施の形態の場合には、図５に示す原稿を前提として表を構成する行単位で確信度を算出しているが、列単位で確信度を算出する場合にも応用が可能である。
（３）前述の実施の形態においては、ＯＣＲ処理サーバ２０に与える画像データに前処理を加える装置の一例として、原稿を光学的に読み取って画像データを生成する機能その他を含む画像処理装置１０を例示したが、画像処理装置１０として、原稿に対応する画像データの取り込みに特化したイメージスキャナを用いてもよい。イメージスキャナには、ＡＤＦ（＝Auto Document Feeder）が設けられていてもよい。
また、ＯＣＲ処理サーバ２０に与える画像データに前処理を加える装置には、原稿の撮像に用いるスマートフォンやデジタルカメラの他、外部から原稿を撮像した画像データを取得するコンピュータを用いてもよい。ここでのコンピュータは、前処理とＯＣＲ処理後のデータの後処理等に用いられ、原稿の画像を撮像する機能や原稿の情報を光学的に読み取る機能は有しなくてもよい。

（４）前述の実施の形態においては、画像処理装置１０とＯＣＲ処理サーバ２０が独立した装置として構成される場合について説明したが、ＯＣＲ処理の機能が画像処理装置１０に内蔵されていてもよい。この場合には、画像処理装置１０の内部で、前処理、ＯＣＲ処理、後処理の全てが実行される。

（５）前述の実施の形態においては、画像データに対応する画像の領域をオブジェクト毎に分離する処理を画像処理装置１０において実行する場合について説明したが、ＯＣＲ処理サーバ２０で実行してもよい。
（６）前述の実施の形態においては、ＯＣＲ処理により得られたテキストデータを処理する後処理を、前処理を実行した画像処理装置１０が引き継ぐ場合を説明したが、ＯＣＲ処理により得られたテキストデータを、前処理を実行した画像処理装置１０とは異なる処理装置に出力してもよい。

（７）前述した各実施の形態におけるプロセッサは、広義的な意味でのプロセッサを指し、汎用的なプロセッサ（例えばＣＰＵ（＝Central Processing Unit）等）の他、専用的なプロセッサ（例えばＧＰＵ、ＡＳＩＣ（＝Application Specific Integrated Circuit）、ＦＰＧＡ、プログラム論理デバイス等）を含む。
また、前述した各実施の形態におけるプロセッサの動作は、１つのプロセッサが単独で実行してもよいが、物理的に離れた位置に存在する複数のプロセッサが協働して実行してもよい。また、プロセッサにおける各動作の実行の順序は、前述した各実施の形態に記載した順序のみに限定されるものでなく、個別に変更してもよい。

１…情報処理システム、１０…画像処理装置、１１…制御ユニット、１１Ａ…プロセッサ、１２…記憶装置、１３…画像読取ユニット、１４…画像処理ユニット、１５…画像形成ユニット、１６…操作受付ユニット、１７…表示ユニット、１８…通信装置、２０…ＯＣＲ処理サーバ、３０…クラウドネットワーク

Claims

プロセッサを有し、
前記プロセッサは、
取得した画像データに対して前処理を実行し、
前処理後の前記画像データを処理する後段側の処理から、当該画像データに対応する画像のうち少なくとも１つの部分領域を特定する情報を受け付ける場合、特定された部分領域を対象として特定の前処理を実行する、
情報処理装置であり、
前記プロセッサは、部分領域を特定する前記情報に、部分領域を対象とする処理の結果の精度が予め定めた閾値よりも低いことを示す情報が含まれる場合、部分領域を特定する前記情報により特定された部分領域に対し、前回までとは異なる内容の前処理を実行し、
前記プロセッサは、前記画像データに類似する他の画像データに対する前処理の履歴に基づいて原因を推定する、情報処理装置。
プロセッサを有し、
前記プロセッサは、
取得した画像データに対して前処理を実行し、
前処理後の前記画像データを処理する後段側の処理から、当該画像データに対応する画像のうち少なくとも１つの部分領域を特定する情報を受け付ける場合、特定された部分領域を対象として特定の前処理を実行する、
情報処理装置であり、
前記プロセッサは、部分領域を特定する前記情報に、部分領域を対象とする処理の結果の精度が予め定めた閾値よりも低いことを示す情報が含まれる場合、部分領域を特定する前記情報により特定された部分領域に対し、前回までとは異なる内容の前処理を実行し、
前記プロセッサは、同種の部分領域間における精度の違いに基づいて原因を推定する、情報処理装置。
コンピュータに、
取得した画像データに対して前処理を実行し、
前処理後の前記画像データを処理する後段側の処理から、当該画像データに対応する画像のうち少なくとも１つの部分領域を特定する情報を受け付ける場合、特定された部分領域を対象として特定の前処理を実行する機能と、
部分領域を特定する前記情報に、部分領域を対象とする処理の結果の精度が予め定めた閾値よりも低いことを示す情報が含まれる場合、部分領域を特定する前記情報により特定された部分領域に対し、前回までとは異なる内容の前処理を実行する機能と、
前記画像データに類似する他の画像データに対する前処理の履歴に基づいて原因を推定する機能と、
を実現させるためのプログラム。
コンピュータに、
取得した画像データに対して前処理を実行し、
前処理後の前記画像データを処理する後段側の処理から、当該画像データに対応する画像のうち少なくとも１つの部分領域を特定する情報を受け付ける場合、特定された部分領域を対象として特定の前処理を実行する機能と、
部分領域を特定する前記情報に、部分領域を対象とする処理の結果の精度が予め定めた閾値よりも低いことを示す情報が含まれる場合、部分領域を特定する前記情報により特定された部分領域に対し、前回までとは異なる内容の前処理を実行する機能と、
同種の部分領域間における精度の違いに基づいて原因を推定する機能と、
を実現させるためのプログラム。