JP2021033721A

JP2021033721A - 情報処理システム、その制御方法、及びプログラム

Info

Publication number: JP2021033721A
Application number: JP2019154188A
Authority: JP
Inventors: 浩輝大野; Hiroki Ono; 裕真中村; Yuma Nakamura; 萌若林; Moe Wakabayashi
Original assignee: Canon Marketing Japan Inc
Current assignee: Canon Marketing Japan Inc
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2021-03-01
Anticipated expiration: 2039-08-27
Also published as: JP6989790B2

Abstract

【課題】劣化傾向の分析を行うために必要な劣化画像を容易に生成可能な仕組みを提供すること。【解決手段】本発明の情報処理システムは、画像の劣化に関する情報を含む第一の画像を取得する。そして、情報処理システムは、その取得した第一の画像を、学習モデルに学習用データとして学習させる。さらに情報処理システムは、第一の画像とは異なる第二の画像を学習モデルに入力することで、当該第二の画像と学習モデルで学習した結果とを用いた第三の画像を生成する。【選択図】図４

Description

本発明は、情報処理システム、その制御方法、及びプログラムに関する。

従来、画像化された文字のパターンを解析し、文字データとして出力する文字認識技術がある。申込用紙や帳票などに記載された文字の画像を文字データとして取得することで、事務作業などの業務を効率化することが可能となる。

また、近年ではこの文字認識技術の精度をさらに向上させるため、機械学習を用いて文字認識及び文字データの抽出を行う仕組みが提供されている。

特許文献１には、異なる学習をさせる機械学習器を複数用いて、請求書などの帳票から文字情報を抽出する精度を向上させる仕組みが記載されている。

特開２０１９−８２８１４号公報

ところで、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）処理により文字認識を行う際に、読み込む画像が劣化した画像だとうまく処理できないという問題が発生する。例えば、文字認識を行う画像が、帳票をカメラで撮影した画像であったり、スキャンした画像であったりすると、画像の一部分に影や白飛びが発生しうまく文字認識ができない場合がある。

そこで、このような文字認識が難しい画像を劣化画像として学習装置に学習させ、その上でＯＣＲ処理することで、ＯＣＲ処理の認識精度、及び出力結果の精度向上を図ることが可能となる。

しかしながら、機械学習を行うためには、学習させるための多くの画像データが必要となる。画像の劣化のパターンはさまざまあるため複数の劣化パターンごとに多くの劣化画像を収集し用意することはユーザにとって非常に手間となる。

そこで、本発明は、劣化傾向の分析を行うために必要な画像を容易に生成可能な仕組みを提供することを目的とする。

本発明の情報処理システムは、画像の劣化に関する情報を含む第一の画像を取得する取得手段と、前記取得手段で取得した第一の画像を、学習モデルに学習用データとして学習させる学習手段と、前記第一の画像とは異なる第二の画像を前記学習モデルに入力することで、当該第二の画像と前記学習モデルで学習した結果とを用いた第三の画像を生成する生成手段と、を備えることを特徴とする。

本発明によれば、劣化傾向の分析を行うために必要な画像を容易に生成可能な仕組みを提供することができる。

本発明の実施形態に係るサーバ装置１０２を含む情報処理システムの構成の一例を示す図である。本発明の実施形態に係るサーバ装置１０２のハードウェア構成の一例を示す図である。本発明の実施形態に係るサーバ装置１０２の機能構成の一例を示す図である。本発明の実施形態に係る劣化画像学習モデル生成処理と劣化画像生成処理の一例を示すフローチャートの図である。本発明の実施形態に係るＯＣＲモデル学習処理の一例を示すフローチャートの図である。本発明の実施形態に係る画像のＯＣＲ処理における前処理からＯＣＲ結果出力までの全体像の処理の一例を示すフローチャートの図である。本発明の実施形態に係る画像のＯＣＲ処理における前処理からＯＣＲ結果出力までの詳細な処理の一例を示すフローチャートの図である。本発明の実施形態に係るグループ別前処理パターン８００の一例を示す図である。本発明の実施形態に係る前処理設定画面９００の一例を示す図である。

以下、図面を参照して本発明の実施の形態について詳細に説明する。

図１に示すように、本実施形態の情報処理システム１００は、情報処理装置１０１、及びサーバ装置１０２が、ＬＡＮ１０３により通信可能に接続された構成をとる。情報処理装置１０１は、カメラでの撮像や画像形成装置によるスキャン等を用いて文書の画像を取り込み、画像をサーバ装置１０２に送信する。サーバ装置１０２は、画像の解析を行い、解析結果を情報処理装置１０１に送信する。またサーバ装置１０２は、情報処理装置１０１から取得した画像をもとに、劣化画像を生成するための情報を学習し、学習した情報をもとに劣化画像を生成して情報処理装置１０１に送信する。さらに、サーバ装置１０２は、情報処理装置１０１から取得した画像をもとに、当該画像をあらかじめ前処理が既定されたグループに分別し、該当グループの前処理を行い、前処理を行った画像に対してＯＣＲを行い、ＯＣＲ結果を情報処理装置１０１に送信する。情報処理装置１０１は、携帯電話、スマートフォン、タブレット端末、ノートＰＣ、及びＰＤＡ端末などの持ち運び可能な携帯端末であってもよい。情報処理装置１０１は、ブラウザまたは画像解析アプリケーションがインストールされており、ＬＡＮ１０３を介して、サーバ装置１０２と通信可能である。

尚、本実施形態における情報処理システムのシステム構成は一例であり、情報処理装置１０１とサーバ装置１０２以外のその他の構成例があってもよい。

次に、図２を用いてサーバ装置１０２に適用可能なハードウェア構成の一例について説明する。

ＣＰＵ２０１は、システムバス２０４に接続される各デバイスやコントローラを統括的に制御する。

また、ＲＯＭ２０２あるいは外部メモリ２１１には、ＣＰＵ２０１の制御プログラムであるＢＩＯＳ(ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ)やオペレーティングシステムプログラム（以下、ＯＳ）等が記憶されている。。また、ＲＯＭ２０２あるいは外部メモリ２１１には、各サーバ或いは各ＰＣの実行する機能を実現するために必要な各種プログラム等が記憶されている。ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。

ＣＰＵ２０１は、処理の実行に際して必要なプログラム等をＲＡＭ２０３にロードして、プログラムを実行することで各種動作を実現するものである。

また、入力コントローラ（入力Ｃ）２０５は、キーボード等の入力デバイス２０９や不図示のマウス等のポインティングデバイスからの入力を制御する。

ビデオコントローラ（ＶＣ）２０６は、ディスプレイ２１０等の表示器への表示を制御する。表示器はＣＲＴや液晶ディスプレイでも構わない。

メモリコントローラ（ＭＣ）２０７は、ブートプログラム、ブラウザソフトウエア、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶するハードディスク（ＨＤ）等の外部メモリ２１１へのアクセスを制御する。また、メモリコントローラ（ＭＣ）２０７は、フレキシブルディスク（ＦＤ）或いはＰＣＭＣＩＡカードスロットにアダプタを介して接続されるカード型メモリ等の外部メモリ２１１へのアクセスを制御する。

通信Ｉ／Ｆコントローラ（通信Ｉ／ＦＣ）２０８は、ネットワークを介して、外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、ＴＣＰ／ＩＰを用いたインターネット通信等が可能である。

尚、ＣＰＵ２０１は、例えばＲＡＭ２０３内の表示情報用領域へアウトラインフォントの展開（ラスタライズ）処理を実行することにより、ディスプレイ２１０上での表示を可能としている。また、ＣＰＵ２０１は、ディスプレイ２１０上の不図示のマウスカーソル等でのユーザ指示を可能とする。

ＧＰＵ２１２はデータをより多く並列処理することで効率的な演算を行うことができるため、ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合にはＧＰＵ２１２で処理を行うことが有効である。そこで本発明の実施形態では、学習モデル生成部３０３や機械学習部３０５による処理にはＣＰＵ２０１に加えてＧＰＵ２１２を用いる。具体的には、学習モデルを含む学習プログラムを実行する場合に、ＣＰＵ２０１とＧＰＵ２１２が協働して演算を行うことで学習を行う。なお、学習モデル生成部３０３や機械学習部３０５による処理はＣＰＵ２０１またはＧＰＵ２１２のみにより演算が行われても良い。また、劣化パターン分析部３０２や画像解析部３０６にも同様にＧＰＵ２１２を用いても良い。

本発明の各種装置及びサーバが後述する各種処理を実行するために用いられる各種プログラム等は外部メモリ２１１に記録されており、必要に応じてＲＡＭ２０３にロードされることによりＣＰＵ２０１やＧＰＵ２１２によって実行されるものである。さらに、本発明に係わるプログラムが用いる定義ファイルや各種情報テーブルは外部メモリ２１１に格納されている。

図３は、サーバ装置１０２の機能構成の一例を示すブロック図である。

サーバ装置１０２は、画像取得部３０１、劣化パターン分析部３０２、学習モデル生成部３０３、劣化画像生成部３０４、機械学習部３０５を備える。また、サーバ装置１０２は、画像解析部３０６、前処理部３０７、前処理画像生成部３０８、ＯＣＲ処理部３０９を備える。

画像取得部３０１は、カメラやスキャナ等を用いて文書や帳票の画像データを情報処理装置１０１から取得する機能部である。

劣化パターン分析部３０２は、情報処理装置１０１から取得した画像の劣化パターンを分析する機能部である。画像の劣化パターンとは、影による劣化や光の反射、白飛びなどによる劣化、書類の折れやたわみによる文字のゆがみが原因となる劣化等がある。劣化パターン分析部３０２では、取得した画像がこれらの劣化パターンのどれに当てはまるかを画像の輝度やコントラスト、傾きといった情報から分析する。

学習モデル生成部３０３は、劣化パターン分析部３０２で分析した情報を用いて劣化画像を生成するための学習モデルを生成する機能部である。学習モデル生成部３０３で生成された学習モデルを用いて、サーバ装置１０２は、特定の画像から劣化画像を生成することが可能となる。

劣化画像生成部３０４は、画像取得部３０１で取得した特定の画像と学習モデル生成部３０３とを用いて劣化画像を生成する機能部である。劣化画像生成部３０４では、生成した劣化画像と画像取得部３０１で取得、もしくはあらかじめ記憶している比較用の劣化画像とを比較して所望の劣化画像が生成できているかを確認する。

機械学習部３０５は、学習モデル生成部３０３で生成した学習モデルに劣化画像を投入することで劣化画像の劣化の特徴を学習して機械学習を行う機能部である。

画像解析部３０６は、画像取得部３０１で取得した画像を解析することにより、画像の傾向を分析してグループ別の前処理部に振り分ける機能部である。

前処理部３０７は、画像取得部３０１で取得した画像に対して前処理を行う機能部である。ここで言う前処理とは、ＯＣＲを行う画像に対してコントラストの調整やノイズ除去、二値化などを行う処理のことを示し、ＯＣＲの認識精度を上げるために画像に対して行う加工処理のことを示す。

前処理画像生成部３０８は、前処理部３０７で前処理を行った結果である前処理画像を生成する機能部である。画像取得部３０１で取得した画像に対して複数の前処理を行う場合は取得した画像を複製してそれぞれ異なる前処理を行うため、サーバ装置１０２は一つの画像から異なる前処理を行った複数の前処理画像を生成することができる。

ＯＣＲ処理部３０９は、前処理部３０７で前処理を行った前処理画像に対してＯＣＲ処理を行う機能部である。ＯＣＲ処理部３０９では複数のＯＣＲエンジンを備えていてもよく、本実施形態ではＯＣＲエンジンＡ、ＯＣＲエンジンＢ、ＯＣＲエンジンＣの３つのエンジンを備えている。尚、ＯＣＲエンジンの数は１つでも複数でもよい。

次に、図４のフローチャートを用いて、本実施形態に係る劣化画像学習モデル生成処理と劣化画像生成処理の一例について説明する。劣化画像学習モデル生成処理は、劣化画像を生成する際に用いる学習モデルを生成する処理の一例であり、劣化画像生成処理は、劣化画像学習モデル生成処理で生成した劣化画像学習モデルを用いて、劣化画像を自動生成する処理の一例を示す。

ステップＳ４０１では、サーバ装置１０２のＣＰＵ２０１は、画像取得部３０１の機能により、情報処理装置１０１から劣化画像を取得する。本実施形態では情報処理装置１０１から劣化画像を取得するが、取得元は不図示のカメラや携帯端末、ファクシミリ（以下、ＦＡＸ）、画像形成装置など画像が取得できる媒体であればどの媒体から取得してもよい。本実施形態における劣化画像とは、影による劣化や光の反射、白飛び、書類の折れやたわみによる文字のゆがみ、画像解像度の低下などによる文字のかけ、にじみなどが原因となって文字の読み取りが困難な画像を示す。ステップＳ４０１では、こうした劣化に関する情報を含んだ画像を取得する。

ステップＳ４０２では、サーバ装置１０２のＣＰＵ２０１は、ステップＳ４０１で取得した画像の劣化パターンをユーザの選択により受け付ける。ユーザが目視で判断した劣化パターンの傾向を、劣化パターン選択画面（不図示）に対してユーザの入力により受け付け、劣化パターンを選択すると良い。

ステップＳ４０３では、サーバ装置１０２のＣＰＵ２０１は、劣化パターン分析部３０２の機能により画像の劣化の傾向を分析する。劣化傾向は、画像の輝度やコントラストなど画像から取得できる情報と、ステップＳ４０２で受け付けた劣化パターンとを用いて、劣化パターンごとに劣化の特徴を分析する。尚、劣化パターンについてはステップＳ４０２でユーザから劣化パターンを受け付けずとも、ステップＳ４０３の分析によりサーバ装置１０２で劣化パターンを特定してもよい。また、ステップＳ４０３では、画像の劣化傾向の分析の際に、画像を撮影した装置の機種の情報や解像度、及び画像サイズなどの情報を画像のプロパティから取得し分析に用いてもよい。分析された情報や取得された画像のプロパティに関する情報は、サーバ装置１０２の外部メモリに記憶される。

ステップＳ４０４では、サーバ装置１０２のＣＰＵ２０１は、ステップＳ４０３で分析され取得された劣化画像の情報をもとに、劣化画像学習モデルを生成する。すなわち、ステップＳ４０１で取得した画像を学習モデルに学習用データとして学習させることで劣化画像学習モデルを生成する。劣化画像学習モデルは、ステップＳ４０１からステップＳ４０３の処理を繰り返すことで劣化パターンの情報を機械学習することが可能であり、この劣化画像学習モデルを用いて劣化画像を生成することが可能である。

ステップＳ４０５では、サーバ装置１０２のＣＰＵ２０１は、スキャナー(不図示)や画像形成装置(不図示)でスキャンして読み込んだ画像を情報処理装置１０１から取得し、劣化画像学習モデルに投入（入力）する。この時読み込んだ画像は、ステップＳ４０１で取得した画像とは異なる画像である。

ステップＳ４０６では、サーバ装置１０２のＣＰＵ２０１は、ステップＳ４０５で投入された画像をもとに劣化画像を生成する。この処理は、つまり、ステップＳ４０５で劣化画像学習モデルに画像を入力することで新たな劣化画像を生成する処理を示す。

ステップＳ４０７では、サーバ装置１０２のＣＰＵ２０１は、ステップＳ４０５で取得した画像と、ステップＳ４０５で取得した画像を基にしてステップＳ４０６で生成した劣化画像とを比較する。尚、ステップＳ４０６で生成した劣化画像はあらかじめサーバ装置１０２で記憶している同一の画像があればその画像と比較してもよい。

ステップＳ４０８では、サーバ装置１０２のＣＰＵ２０１は、ステップＳ４０７で二つの画像を比較した結果、ステップＳ４０５で取得した画像と、ステップＳ４０６で生成した劣化画像とが類似しているか否かを判定する。劣化画像の類似の判定は、例えば画像の特徴量を用いて、従来技術の画像解析を用いて判定されても良いし、画像の類似が判定できればどの技術を用いてもよい。サーバ装置１０２のＣＰＵ２０１は、ステップＳ４０５で取得した劣化画像とステップＳ４０６で生成した劣化画像とが類似していると判定した場合は、適切な劣化画像が生成できたと判断して一連の処理を終了する。サーバ装置１０２のＣＰＵ２０１は、ステップＳ４０５で取得した画像とステップＳ４０６で生成した劣化画像とが類似していないと判定した場合はステップＳ４０１へ処理を戻す。このとき、サーバ装置１０２のＣＰＵ２０１は、ステップＳ４０１ではなくステップＳ４０５に処理を戻してもよい。

次に、劣化画像生成処理について、図４のフローチャートのステップＳ４０９からステップＳ４１２の処理を用いて説明する。ステップＳ４０９からステップＳ４１２の処理は、ステップＳ４０１からステップＳ４０８の処理で生成された劣化画像学習モデルを用いて劣化画像を生成する処理である。本実施形態では、劣化画像学習モデルを用いて生成された劣化画像は、劣化画像学習モデルに学習させるための学習用データとして用いられ、さらに後述するＯＣＲモデルを調整するための学習用データとしても用いられる。尚、学習用データ以外の他の用途で劣化画像を生成するために劣化画像学習モデルを用いて劣化画像を生成してもよい。

ステップＳ４０９では、サーバ装置１０２のＣＰＵ２０１は、画像取得部３０１の機能により、スキャンされた、もしくはカメラ(不図示)で撮影された画像を情報処理装置１０１から取得する。

ステップＳ４１０では、サーバ装置１０２のＣＰＵ２０１は、ユーザによりステップＳ４０９で取得した画像の劣化パターンの選択を受け付ける。例えば、ユーザの入力により、ユーザが目視で判断した劣化パターンの傾向を劣化パターン選択画面（不図示）に対して受け付けると良い。

ステップＳ４１１では、サーバ装置１０２のＣＰＵ２０１は、ステップＳ４０９で取得した画像をステップＳ４０４で作成した劣化画像学習モデルに投入（入力）する。

ステップＳ４１２では、サーバ装置１０２のＣＰＵ２０１は劣化画像生成部３０４の機能により、劣化画像学習モデルを用いて劣化画像を生成する。より具体的には、サーバ装置１０２のＣＰＵ２０１は、ステップＳ４１０で選択を受け付けた劣化パターンに基づいて、ステップＳ４０９で取得した画像をもとにした劣化画像を生成する。例えば、サーバ装置１０２のＣＰＵ２０１は、ステップＳ４０９で取得した画像の輝度やコントラストを、劣化パターンの情報と画像のプロパティ情報とに基づいて変更、調整して画像の劣化を再現する。そして、ステップＳ４１２で生成された劣化画像は、劣化画像学習モデルに学習用データとして投入される。この処理を繰り返すことで、劣化画像学習モデルは劣化画像に関する学習を繰り返し行う。

このように、サーバ装置１０２は、ステップＳ４０９からステップＳ４１２の処理を繰り返すことで、複数種類の劣化画像を自動生成することが可能となる。また、劣化画像学習モデルでは、選択を受け付ける劣化パターンや取得するスキャン画像の種類及びプロパティ情報に基づいて、取得した画像に合わせた劣化の傾向を学習可能である。さらに、劣化画像学習モデルは、その学習した結果を用いて一つの画像から複数種類の劣化画像を生成することが可能となる。これにより、異なる種類の劣化を再現する多量の劣化画像をユーザの手間なく生成することが可能となる。

次に、図５のフローチャートを用いて、ＯＣＲモデル学習処理について説明を行う。本実施形態のＯＣＲモデルは、ＯＣＲエンジンと機械学習を組み合わせたもので、劣化パターンごとにＯＣＲ結果を学習してＯＣＲの認識精度を高めることができる。

ステップＳ５０１では、サーバ装置１０２のＣＰＵ２０１は、図４のステップＳ４１２で生成した劣化画像をＯＣＲモデルに投入する。

ステップＳ５０２では、サーバ装置１０２のＣＰＵ２０１は、劣化パターン分析部３０２の機能によりＯＣＲモデルに投入された劣化画像の劣化パターンを分析し、特定する。

ステップＳ５０３では、サーバ装置１０２のＣＰＵ２０１は、機械学習部３０５の機能により、劣化画像を読み込んで劣化画像に含まれる文字列の認識やＯＣＲを行い、その結果をＯＣＲモデルに学習させる。ステップＳ５０２とステップＳ５０３の学習は、ＯＣＲモデルの認識精度を高めるために繰り返し行われる。

ステップＳ５０４では、サーバ装置１０２のＣＰＵ２０１は、テスト用としてあらかじめ記憶しているテスト用劣化画像をＯＣＲモデルに投入する。

ステップＳ５０５では、サーバ装置１０２のＣＰＵ２０１は、ＯＣＲ処理部３０９の機能によりステップＳ５０４で投入したテスト用劣化画像のＯＣＲを行い、そのＯＣＲ結果が所定値以上であるか否かを判定する。サーバ装置１０２のＣＰＵ２０１は、ＯＣＲ結果が所定値以上であると判定した場合はステップＳ５０６に処理を進める。また、サーバ装置１０２のＣＰＵ２０１は、ＯＣＲ結果が所定値以上でないと判定した場合は、ＯＣＲの読み取り精度がまだ不十分であるため、ステップＳ５０１に処理を戻しＯＣＲモデルの学習を繰り返す。

ステップＳ５０６では、サーバ装置１０２のＣＰＵ２０１は、ステップＳ５０４でＯＣＲを行った結果を出力する。このとき、複数のＯＣＲエンジンでＯＣＲを行っていた場合はＯＣＲ結果をマージして出力する。出力した結果はＯＣＲモデルに学習させてもよい。

以上で、図４と図５を用いた、劣化画像学習モデル生成処理と劣化画像生成処理、及びＯＣＲモデル学習処理についての説明を終了する。

上記の処理を行うことにより、少ない劣化画像から様々な劣化パターンの画像を複数作成することが可能なため、機械学習のための劣化画像を多量に用意するユーザの手間を低減させることが可能となる。また、生成した劣化画像を学習用データとして劣化画像学習モデルに学習させることで、劣化画像の劣化の再限度を高めることができる。さらに、生成した劣化画像を学習用データとしてＯＣＲモデルに学習させることで、ＯＣＲ処理の認識精度を高めることも可能となる。

次に、図６から図７を用いて、複数のＯＣＲエンジンでＯＣＲを行う際に、ＯＣＲエンジンごとに適切な前処理を容易に行うための一連の流れについて説明する。複数のＯＣＲエンジンを用いて画像のＯＣＲ処理を行うためには、画像に応じて適切なＯＣＲエンジンに振り分けることが必要であり、さらに振り分けるＯＣＲエンジンに応じた前処理を画像に施す必要がある。そのため、本実施形態では、画像を適切なＯＣＲエンジンに振り分けつつ、振り分けたＯＣＲエンジンに応じた前処理を行い、ＯＣＲの認識精度を上げるための処理を行う。

図６は、サーバ装置１０２で取得された画像に対して前処理を行い、ＯＣＲを行うまでの全体の流れを示すフローチャートである。

ステップＳ６０１は、サーバ装置１０２のＣＰＵ２０１は、取得画像の分析を行う。取得画像の分析については、図７の投入画像の分析のフローチャートを用いて詳細を説明する。

図７のステップＳ７０１では、サーバ装置１０２のＣＰＵ２０１は、画像を情報処理装置１０１から取得し、画像取得部３０１の機能により取得する。

ステップＳ７０２では、サーバ装置１０２のＣＰＵ２０１は、ステップＳ７０１で取得した画像のプロパティの情報を特定する。例えば、画像を撮影、スキャン、もしくはＦＡＸした装置の機種や画像の解像度などの情報を特定する。

ステップＳ７０３では、サーバ装置１０２のＣＰＵ２０１は、画像解析部３０６の機能により画像から紙面部分を抽出し、紙面部分の解像度や傾きの情報を分析する。本実施形態における画像は文書や帳票の画像であるため、その紙面部分の情報を抽出して分析する。

ステップＳ７０４では、サーバ装置１０２のＣＰＵ２０１は、ステップＳ７０３で抽出した紙面部分の明るさを分析する。明るさは画像の輝度やコントラストの値などの情報から分析を行う。

ステップＳ７０５では、サーバ装置１０２のＣＰＵ２０１は、ステップＳ７０２からステップＳ７０４で取得、特定、及び分析した情報に基づいて、ステップＳ７０１で取得した画像が、あらかじめ設定している画像グループに該当するか否かを判定する。サーバ装置１０２のＣＰＵ２０１は、ステップＳ７０１で取得した画像が画像グループに該当すると判定した場合はステップＳ７０６に処理を進める、画像グループに該当しないと判定した場合はステップＳ７０７に処理を進める。

ここで、図８を用いて、画像のグループとグループごとの前処理パターンについて説明する。図８のグループ別前処理パターン８００は画像のグループとグループごとの前処理パターンの対応関係の一例を表した図である。さらに、グループ別前処理パターン８００は、画像の特徴と前処理パターンとの対応関係の一例を示した図でもある。画像グループは、劣化パターンの特徴ごとにグループが異なり、例えば、ノイズのある画像はグループＡが当てはまり、全体的に暗い（所定値以下の明るさ）の画像はグループＢが当てはまる。また、画像の明るさや傾きなど全体的な数値が所定値以上であれば良好な画像としてグループＣが当てはまり、画像にノイズが含まれた上で暗い画像はグループＤに当てはまる。

さらに、グループ別前処理パターン８００はグループごとに画像に適用すべき前処理パターンが定義されている。グループにどの前処理を行うかについては、図９の前処理設定画面９００で入力を受け付けた前処理をグループごとに設定する。前処理設定画面９００では、チェックボックスに選択を受け付けることにより必要な前処理の設定が可能であり、二値化処理については二値化の数値を細かく設定することによって二値化の度合いを二値化パターンごとに指定することが可能となる。

図８に説明を戻す。例えば、図８のグループＡは、前処理パターンａが適用される。前処理パターンａでは、二値化パターンＡ、黒点ノイズ除去、及び方向補正の前処理と、二値化パターンＤ、縦線ノイズ除去の前処理が設定されているため、この組み合わせの前処理が画像に対して適用される。

図７に説明を戻す。ステップＳ７０６では、サーバ装置１０２のＣＰＵ２０１は、ステップＳ７０５で取得された画像が既存の画像グループに該当すると判定した場合に、当てはめる画像グループを確定させる。例えば、ステップＳ７０５で取得された画像を図８のグループＡに確定させる。

ステップＳ７０７は、サーバ装置１０２のＣＰＵ２０１は、ステップＳ７０５で画像が既存の画像グループに該当しないと判定した場合に、画像をその他グループとして確定させる。その他グループは前処理パターンが設定されていないグループを示す。

以上で、図７の説明を終了する。この処理により、取得した画像の劣化や種別に応じて画像の傾向ごとにグループ分けすることができ、後述する前処理の工程で適切な前処理を画像に対して行うことが可能となる。

ここで、図６に説明を戻す。ステップＳ６０２では、サーバ装置１０２のＣＰＵ２０１は、画像グループごとの前処理を実施する。詳細については図７のステップＳ７０８からステップＳ７１２を用いて説明する。

図７のステップＳ７０８では、サーバ装置１０２のＣＰＵ２０１は、画像グループが確定しているか否かを判定する。サーバ装置１０２のＣＰＵ２０１は、画像グループが確定していると判定した場合はステップＳ７０９に処理を進め、画像グループが確定していない、つまりステップＳ７０７でその他グループとして確定されていた場合はステップＳ７１０に処理を進める。

ステップＳ７０９では、サーバ装置１０２のＣＰＵ２０１は、ステップＳ７０１で取得した画像に対して確定した画像グループに設定されている前処理（加工処理）を実施する。このとき、１つの画像に対して１つの前処理パターン（加工パターン）を実施する。例えば、画像がグループＡに確定されていた場合、グループＡには前処理パターンが２つ設定されているため、画像を複製して一方の画像に対しては図８の前処理パターンａに設定されている前処理を実施する。そして複製したもう一方の画像に対しては前処理パターンｄに設定されている前処理を実施し、それぞれの前処理画像を生成する。

ステップＳ７１０では、サーバ装置１０２のＣＰＵ２０１は、前処理画像を生成する。より具体的には、サーバ装置１０２のＣＰＵ２０１がステップＳ７０１で取得した画像を設定されている前処理のパターン分複製し、複製した画像それぞれに対して設定されている前処理パターンをすべて実施する（加工処理を行う）。このとき、１つの画像に対して１つの前処理パターンが実施され、設定されているすべての前処理パターン分の前処理画像が生成される。サーバ装置１０２のＣＰＵ２０１は、設定されている前処理パターンのすべての前処理画像を生成するまでステップＳ７１０の処理を繰り返す。

ステップＳ７１１では、サーバ装置１０２のＣＰＵ２０１は、ＯＣＲ処理部３０９の機能により、生成した前処理画像に対して複数のＯＣＲエンジンでＯＣＲを実行する。前処理パターンはＯＣＲエンジンごとに適切な前処理として設定されているため、実施した前処理に対応するＯＣＲエンジンに前処理画像を振り分けてＯＣＲを行う。

ステップＳ７１１では、サーバ装置１０２のＣＰＵ２０１は、ステップＳ７１１で実施したＯＣＲの結果を出力する。

以上の処理により、図７の画像グループごとの前処理についての説明を終了する。これにより、画像グループが確定した画像に対しては必要な前処理を行うことができ、適切なＯＣＲエンジンでＯＣＲ処理を行うことが可能となる。通常であれば、最適な前処理を行うためには、設定している全前処理パターン分の前処理画像を生成し、すべてのＯＣＲエンジンでＯＣＲを行う。しかしながら、そのやり方では前処理画像を多量に生成する必要があり、多くの前処理を実行しなければならないためサーバ装置１０２にとって負荷がかかってしまう。したがって、本発明のような処理を行うことにより、必要最低限かつ適切な前処理を行い、最適なＯＣＲエンジンでＯＣＲを実行することが可能となる。

図６に説明を戻す。図６では、ステップＳ６０２で行った前処理の前処理画像に対してＯＣＲを行った結果を出力する。より具体的には、図７のステップＳ７１３からステップＳ７１７の処理を用いて説明する。

図７のステップＳ７１３では、サーバ装置１０２のＣＰＵ２０１は、ＯＣＲを行った帳票の画像における帳票の項目ごとに、複数のＯＣＲエンジンで行ったＯＣＲ結果を比較し、項目の値が正規表現に合致しているか否かを判定する。

ステップＳ７１４では、サーバ装置１０２のＣＰＵ２０１は、ＯＣＲを行った帳票の画像における帳票の項目ごとに、正しい値の範囲内か否かを判定する。

ステップＳ７１５では、サーバ装置１０２のＣＰＵ２０１は、ＯＣＲを行った帳票の画像における帳票の項目ごとに、確信度が基準値以上か否かを判定する。

サーバ装置１０２のＣＰＵ２０１は、ステップＳ７１３からステップＳ７１５の処理を帳票の項目ごとＯＣＲで出力された結果の分だけ繰り返す。

ステップＳ７１６では、サーバ装置１０２のＣＰＵ２０１は、複数のＯＣＲエンジンを用いてＯＣＲを行った結果と、ステップＳ７１３からステップＳ７１５の処理における判定結果とを用いて、最良と判断した項目を抽出する。そして、サーバ装置１０２のＣＰＵ２０１は、抽出した項目を用いて最終的なＯＣＲ結果を項目ごとに決定（採用）する。

ステップＳ７１７では、サーバ装置１０２のＣＰＵ２０１は、複数のＯＣＲエンジンを用いてＯＣＲを行った結果からステップＳ７１６で抽出したそれぞれの項目をマージし、最終的なＯＣＲ結果を出力する。

以上により、図７の説明を終了する。これにより、複数のＯＣＲエンジンを用いた場合にＯＣＲエンジンごとに最適な前処理をおこない、複数のＯＣＲエンジンを用いたＯＣＲ結果の中から最終的に最良の結果をマージすることでＯＣＲの認識精度を上げることが可能となる。

尚、本実施形態では、すべての処理をサーバ装置１０２で行ったが、処理を行う装置は処理ごとに分けて複数の装置で各処理を実行してもよい。

以上、本発明によれば、劣化傾向の分析を行うために必要な画像を容易に生成可能な仕組みを提供することができる。

なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されことは言うまでもない。

以上、本発明の実施形態を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、プログラムコード自体及びそのプログラムコードを記憶した記憶媒体は本発明を構成することになる。

プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭ等を用いることができる。

また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（基本システム或いはオペレーティングシステム）などが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

なお、上述した各実施形態及びその変形例を組み合わせた構成も全て本発明に含まれるものである。

１３０ＬＡＮ
１０１情報処理装置
１０２サーバ装置
２０１ＣＰＵ
２０２ＲＯＭ
２０３ＲＡＭ
２１１外部メモリ
２１２ＧＰＵ

Claims

画像の劣化に関する情報を含む第一の画像を取得する取得手段と、
前記取得手段で取得した第一の画像を、学習モデルに学習用データとして学習させる学習手段と、
前記第一の画像とは異なる第二の画像を前記学習モデルに入力することで、当該第二の画像と前記学習モデルで学習した結果とを用いた第三の画像を生成する生成手段と、
を備えることを特徴とする情報処理システム。
前記学習手段は、前記生成手段で生成された前記第三の画像を、学習用データとして前記学習モデルに学習させることを特徴とする請求項１に記載の情報処理システム。
前記学習手段は、前記第一の画像の前記劣化に関する情報を劣化パターンごとに前記学習モデルに学習させ、
前記生成手段は、劣化パターンごとに前記第三の画像を生成することを特徴とする請求項１または２に記載の情報処理システム。
前記生成手段は、前記学習モデルに入力された前記第二の画像に対して、前記学習手段で学習させた前記劣化に関する情報を適用させた前記第三の画像を生成することを特徴とする請求項１に記載の情報処理システム。
劣化パターンの選択を受け付ける受付手段、
をさらに備え、
前記生成手段は、前記第二の画像を前記学習モデルに入力することで、前記受付手段で受け付けた劣化パターンに基づいた前記第三の画像を生成することを特徴とする請求項１乃至４のいずれか１項に記載の情報処理システム。
画像に対してＯＣＲ処理を行うＯＣＲ処理手段、
をさらに備え、
前記ＯＣＲ処理手段は、前記生成手段で生成した前記第三の画像のＯＣＲ処理を行うことを特徴とする請求項１乃至５のいずれか１項に記載の情報処理システム。
情報処理システムの制御方法であって、
画像の劣化に関する情報を含む第一の画像を取得する取得ステップと、
前記取得ステップで取得した第一の画像を、学習モデルに学習用データとして学習させる学習ステップと、
前記第一の画像とは異なる第二の画像を前記学習モデルに入力することで、当該第二の画像と前記学習モデルで学習した結果とを用いた第三の画像を生成する生成ステップと、
を含むことを特徴とする情報処理システムの制御方法。
情報処理システムとして機能させるためのプログラムであって、
前記情報処理システムを、
画像の劣化に関する情報を含む第一の画像を取得する取得手段と、
前記取得手段で取得した第一の画像を、学習モデルに学習用データとして学習させる学習手段と、
前記第一の画像とは異なる第二の画像を前記学習モデルに入力することで、当該第二の画像と前記学習モデルで学習した結果とを用いた第三の画像を生成する生成手段、
として機能させるためのプログラム。