JP2021033721A - 情報処理システム、その制御方法、及びプログラム - Google Patents

情報処理システム、その制御方法、及びプログラム Download PDF

Info

Publication number
JP2021033721A
JP2021033721A JP2019154188A JP2019154188A JP2021033721A JP 2021033721 A JP2021033721 A JP 2021033721A JP 2019154188 A JP2019154188 A JP 2019154188A JP 2019154188 A JP2019154188 A JP 2019154188A JP 2021033721 A JP2021033721 A JP 2021033721A
Authority
JP
Japan
Prior art keywords
image
learning
learning model
deterioration
ocr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019154188A
Other languages
English (en)
Other versions
JP6989790B2 (ja
Inventor
浩輝 大野
Hiroki Ono
浩輝 大野
裕真 中村
Yuma Nakamura
裕真 中村
萌 若林
Moe Wakabayashi
萌 若林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Original Assignee
Canon Marketing Japan Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc filed Critical Canon Marketing Japan Inc
Priority to JP2019154188A priority Critical patent/JP6989790B2/ja
Publication of JP2021033721A publication Critical patent/JP2021033721A/ja
Application granted granted Critical
Publication of JP6989790B2 publication Critical patent/JP6989790B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】劣化傾向の分析を行うために必要な劣化画像を容易に生成可能な仕組みを提供すること。【解決手段】本発明の情報処理システムは、画像の劣化に関する情報を含む第一の画像を取得する。そして、情報処理システムは、その取得した第一の画像を、学習モデルに学習用データとして学習させる。さらに情報処理システムは、第一の画像とは異なる第二の画像を学習モデルに入力することで、当該第二の画像と学習モデルで学習した結果とを用いた第三の画像を生成する。【選択図】図4

Description

本発明は、情報処理システム、その制御方法、及びプログラムに関する。
従来、画像化された文字のパターンを解析し、文字データとして出力する文字認識技術がある。申込用紙や帳票などに記載された文字の画像を文字データとして取得することで、事務作業などの業務を効率化することが可能となる。
また、近年ではこの文字認識技術の精度をさらに向上させるため、機械学習を用いて文字認識及び文字データの抽出を行う仕組みが提供されている。
特許文献1には、異なる学習をさせる機械学習器を複数用いて、請求書などの帳票から文字情報を抽出する精度を向上させる仕組みが記載されている。
特開2019−82814号公報
ところで、OCR(Optical Character Recognition)処理により文字認識を行う際に、読み込む画像が劣化した画像だとうまく処理できないという問題が発生する。例えば、文字認識を行う画像が、帳票をカメラで撮影した画像であったり、スキャンした画像であったりすると、画像の一部分に影や白飛びが発生しうまく文字認識ができない場合がある。
そこで、このような文字認識が難しい画像を劣化画像として学習装置に学習させ、その上でOCR処理することで、OCR処理の認識精度、及び出力結果の精度向上を図ることが可能となる。
しかしながら、機械学習を行うためには、学習させるための多くの画像データが必要となる。画像の劣化のパターンはさまざまあるため複数の劣化パターンごとに多くの劣化画像を収集し用意することはユーザにとって非常に手間となる。
そこで、本発明は、劣化傾向の分析を行うために必要な画像を容易に生成可能な仕組みを提供することを目的とする。
本発明の情報処理システムは、画像の劣化に関する情報を含む第一の画像を取得する取得手段と、前記取得手段で取得した第一の画像を、学習モデルに学習用データとして学習させる学習手段と、前記第一の画像とは異なる第二の画像を前記学習モデルに入力することで、当該第二の画像と前記学習モデルで学習した結果とを用いた第三の画像を生成する生成手段と、を備えることを特徴とする。
本発明によれば、劣化傾向の分析を行うために必要な画像を容易に生成可能な仕組みを提供することができる。
本発明の実施形態に係るサーバ装置102を含む情報処理システムの構成の一例を示す図である。 本発明の実施形態に係るサーバ装置102のハードウェア構成の一例を示す図である。 本発明の実施形態に係るサーバ装置102の機能構成の一例を示す図である。 本発明の実施形態に係る劣化画像学習モデル生成処理と劣化画像生成処理の一例を示すフローチャートの図である。 本発明の実施形態に係るOCRモデル学習処理の一例を示すフローチャートの図である。 本発明の実施形態に係る画像のOCR処理における前処理からOCR結果出力までの全体像の処理の一例を示すフローチャートの図である。 本発明の実施形態に係る画像のOCR処理における前処理からOCR結果出力までの詳細な処理の一例を示すフローチャートの図である。 本発明の実施形態に係るグループ別前処理パターン800の一例を示す図である。 本発明の実施形態に係る前処理設定画面900の一例を示す図である。
以下、図面を参照して本発明の実施の形態について詳細に説明する。
図1に示すように、本実施形態の情報処理システム100は、情報処理装置101、及びサーバ装置102が、LAN103により通信可能に接続された構成をとる。情報処理装置101は、カメラでの撮像や画像形成装置によるスキャン等を用いて文書の画像を取り込み、画像をサーバ装置102に送信する。サーバ装置102は、画像の解析を行い、解析結果を情報処理装置101に送信する。またサーバ装置102は、情報処理装置101から取得した画像をもとに、劣化画像を生成するための情報を学習し、学習した情報をもとに劣化画像を生成して情報処理装置101に送信する。さらに、サーバ装置102は、情報処理装置101から取得した画像をもとに、当該画像をあらかじめ前処理が既定されたグループに分別し、該当グループの前処理を行い、前処理を行った画像に対してOCRを行い、OCR結果を情報処理装置101に送信する。情報処理装置101は、携帯電話、スマートフォン、タブレット端末、ノートPC、及びPDA端末などの持ち運び可能な携帯端末であってもよい。情報処理装置101は、ブラウザまたは画像解析アプリケーションがインストールされており、LAN103を介して、サーバ装置102と通信可能である。
尚、本実施形態における情報処理システムのシステム構成は一例であり、情報処理装置101とサーバ装置102以外のその他の構成例があってもよい。
次に、図2を用いてサーバ装置102に適用可能なハードウェア構成の一例について説明する。
CPU201は、システムバス204に接続される各デバイスやコントローラを統括的に制御する。
また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input / OutputSystem)やオペレーティングシステムプログラム(以下、OS)等が記憶されている。。また、ROM202あるいは外部メモリ211には、各サーバ或いは各PCの実行する機能を実現するために必要な各種プログラム等が記憶されている。RAM203は、CPU201の主メモリ、ワークエリア等として機能する。
CPU201は、処理の実行に際して必要なプログラム等をRAM203にロードして、プログラムを実行することで各種動作を実現するものである。
また、入力コントローラ(入力C)205は、キーボード等の入力デバイス209や不図示のマウス等のポインティングデバイスからの入力を制御する。
ビデオコントローラ(VC)206は、ディスプレイ210等の表示器への表示を制御する。表示器はCRTや液晶ディスプレイでも構わない。
メモリコントローラ(MC)207は、ブートプログラム、ブラウザソフトウエア、各種のアプリケーション、フォントデータ、ユーザファイル、編集ファイル、各種データ等を記憶するハードディスク(HD)等の外部メモリ211へのアクセスを制御する。また、メモリコントローラ(MC)207は、フレキシブルディスク(FD)或いはPCMCIAカードスロットにアダプタを介して接続されるカード型メモリ等の外部メモリ211へのアクセスを制御する。
通信I/Fコントローラ(通信I/FC)208は、ネットワークを介して、外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いたインターネット通信等が可能である。
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ210上での表示を可能としている。また、CPU201は、ディスプレイ210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
GPU212はデータをより多く並列処理することで効率的な演算を行うことができるため、ディープラーニングのような学習モデルを用いて複数回に渡り学習を行う場合にはGPU212で処理を行うことが有効である。そこで本発明の実施形態では、学習モデル生成部303や機械学習部305による処理にはCPU201に加えてGPU212を用いる。具体的には、学習モデルを含む学習プログラムを実行する場合に、CPU201とGPU212が協働して演算を行うことで学習を行う。なお、学習モデル生成部303や機械学習部305による処理はCPU201またはGPU212のみにより演算が行われても良い。また、劣化パターン分析部302や画像解析部306にも同様にGPU212を用いても良い。
本発明の各種装置及びサーバが後述する各種処理を実行するために用いられる各種プログラム等は外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201やGPU212によって実行されるものである。さらに、本発明に係わるプログラムが用いる定義ファイルや各種情報テーブルは外部メモリ211に格納されている。
図3は、サーバ装置102の機能構成の一例を示すブロック図である。
サーバ装置102は、画像取得部301、劣化パターン分析部302、学習モデル生成部303、劣化画像生成部304、機械学習部305を備える。また、サーバ装置102は、画像解析部306、前処理部307、前処理画像生成部308、OCR処理部309を備える。
画像取得部301は、カメラやスキャナ等を用いて文書や帳票の画像データを情報処理装置101から取得する機能部である。
劣化パターン分析部302は、情報処理装置101から取得した画像の劣化パターンを分析する機能部である。画像の劣化パターンとは、影による劣化や光の反射、白飛びなどによる劣化、書類の折れやたわみによる文字のゆがみが原因となる劣化等がある。劣化パターン分析部302では、取得した画像がこれらの劣化パターンのどれに当てはまるかを画像の輝度やコントラスト、傾きといった情報から分析する。
学習モデル生成部303は、劣化パターン分析部302で分析した情報を用いて劣化画像を生成するための学習モデルを生成する機能部である。学習モデル生成部303で生成された学習モデルを用いて、サーバ装置102は、特定の画像から劣化画像を生成することが可能となる。
劣化画像生成部304は、画像取得部301で取得した特定の画像と学習モデル生成部303とを用いて劣化画像を生成する機能部である。劣化画像生成部304では、生成した劣化画像と画像取得部301で取得、もしくはあらかじめ記憶している比較用の劣化画像とを比較して所望の劣化画像が生成できているかを確認する。
機械学習部305は、学習モデル生成部303で生成した学習モデルに劣化画像を投入することで劣化画像の劣化の特徴を学習して機械学習を行う機能部である。
画像解析部306は、画像取得部301で取得した画像を解析することにより、画像の傾向を分析してグループ別の前処理部に振り分ける機能部である。
前処理部307は、画像取得部301で取得した画像に対して前処理を行う機能部である。ここで言う前処理とは、OCRを行う画像に対してコントラストの調整やノイズ除去、二値化などを行う処理のことを示し、OCRの認識精度を上げるために画像に対して行う加工処理のことを示す。
前処理画像生成部308は、前処理部307で前処理を行った結果である前処理画像を生成する機能部である。画像取得部301で取得した画像に対して複数の前処理を行う場合は取得した画像を複製してそれぞれ異なる前処理を行うため、サーバ装置102は一つの画像から異なる前処理を行った複数の前処理画像を生成することができる。
OCR処理部309は、前処理部307で前処理を行った前処理画像に対してOCR処理を行う機能部である。OCR処理部309では複数のOCRエンジンを備えていてもよく、本実施形態ではOCRエンジンA、OCRエンジンB、OCRエンジンCの3つのエンジンを備えている。尚、OCRエンジンの数は1つでも複数でもよい。
次に、図4のフローチャートを用いて、本実施形態に係る劣化画像学習モデル生成処理と劣化画像生成処理の一例について説明する。劣化画像学習モデル生成処理は、劣化画像を生成する際に用いる学習モデルを生成する処理の一例であり、劣化画像生成処理は、劣化画像学習モデル生成処理で生成した劣化画像学習モデルを用いて、劣化画像を自動生成する処理の一例を示す。
ステップS401では、サーバ装置102のCPU201は、画像取得部301の機能により、情報処理装置101から劣化画像を取得する。本実施形態では情報処理装置101から劣化画像を取得するが、取得元は不図示のカメラや携帯端末、ファクシミリ(以下、FAX)、画像形成装置など画像が取得できる媒体であればどの媒体から取得してもよい。本実施形態における劣化画像とは、影による劣化や光の反射、白飛び、書類の折れやたわみによる文字のゆがみ、画像解像度の低下などによる文字のかけ、にじみなどが原因となって文字の読み取りが困難な画像を示す。ステップS401では、こうした劣化に関する情報を含んだ画像を取得する。
ステップS402では、サーバ装置102のCPU201は、ステップS401で取得した画像の劣化パターンをユーザの選択により受け付ける。ユーザが目視で判断した劣化パターンの傾向を、劣化パターン選択画面(不図示)に対してユーザの入力により受け付け、劣化パターンを選択すると良い。
ステップS403では、サーバ装置102のCPU201は、劣化パターン分析部302の機能により画像の劣化の傾向を分析する。劣化傾向は、画像の輝度やコントラストなど画像から取得できる情報と、ステップS402で受け付けた劣化パターンとを用いて、劣化パターンごとに劣化の特徴を分析する。尚、劣化パターンについてはステップS402でユーザから劣化パターンを受け付けずとも、ステップS403の分析によりサーバ装置102で劣化パターンを特定してもよい。また、ステップS403では、画像の劣化傾向の分析の際に、画像を撮影した装置の機種の情報や解像度、及び画像サイズなどの情報を画像のプロパティから取得し分析に用いてもよい。分析された情報や取得された画像のプロパティに関する情報は、サーバ装置102の外部メモリに記憶される。
ステップS404では、サーバ装置102のCPU201は、ステップS403で分析され取得された劣化画像の情報をもとに、劣化画像学習モデルを生成する。すなわち、ステップS401で取得した画像を学習モデルに学習用データとして学習させることで劣化画像学習モデルを生成する。劣化画像学習モデルは、ステップS401からステップS403の処理を繰り返すことで劣化パターンの情報を機械学習することが可能であり、この劣化画像学習モデルを用いて劣化画像を生成することが可能である。
ステップS405では、サーバ装置102のCPU201は、スキャナー(不図示)や画像形成装置(不図示)でスキャンして読み込んだ画像を情報処理装置101から取得し、劣化画像学習モデルに投入(入力)する。この時読み込んだ画像は、ステップS401で取得した画像とは異なる画像である。
ステップS406では、サーバ装置102のCPU201は、ステップS405で投入された画像をもとに劣化画像を生成する。この処理は、つまり、ステップS405で劣化画像学習モデルに画像を入力することで新たな劣化画像を生成する処理を示す。
ステップS407では、サーバ装置102のCPU201は、ステップS405で取得した画像と、ステップS405で取得した画像を基にしてステップS406で生成した劣化画像とを比較する。尚、ステップS406で生成した劣化画像はあらかじめサーバ装置102で記憶している同一の画像があればその画像と比較してもよい。
ステップS408では、サーバ装置102のCPU201は、ステップS407で二つの画像を比較した結果、ステップS405で取得した画像と、ステップS406で生成した劣化画像とが類似しているか否かを判定する。劣化画像の類似の判定は、例えば画像の特徴量を用いて、従来技術の画像解析を用いて判定されても良いし、画像の類似が判定できればどの技術を用いてもよい。サーバ装置102のCPU201は、ステップS405で取得した劣化画像とステップS406で生成した劣化画像とが類似していると判定した場合は、適切な劣化画像が生成できたと判断して一連の処理を終了する。サーバ装置102のCPU201は、ステップS405で取得した画像とステップS406で生成した劣化画像とが類似していないと判定した場合はステップS401へ処理を戻す。このとき、サーバ装置102のCPU201は、ステップS401ではなくステップS405に処理を戻してもよい。
次に、劣化画像生成処理について、図4のフローチャートのステップS409からステップS412の処理を用いて説明する。ステップS409からステップS412の処理は、ステップS401からステップS408の処理で生成された劣化画像学習モデルを用いて劣化画像を生成する処理である。本実施形態では、劣化画像学習モデルを用いて生成された劣化画像は、劣化画像学習モデルに学習させるための学習用データとして用いられ、さらに後述するOCRモデルを調整するための学習用データとしても用いられる。尚、学習用データ以外の他の用途で劣化画像を生成するために劣化画像学習モデルを用いて劣化画像を生成してもよい。
ステップS409では、サーバ装置102のCPU201は、画像取得部301の機能により、スキャンされた、もしくはカメラ(不図示)で撮影された画像を情報処理装置101から取得する。
ステップS410では、サーバ装置102のCPU201は、ユーザによりステップS409で取得した画像の劣化パターンの選択を受け付ける。例えば、ユーザの入力により、ユーザが目視で判断した劣化パターンの傾向を劣化パターン選択画面(不図示)に対して受け付けると良い。
ステップS411では、サーバ装置102のCPU201は、ステップS409で取得した画像をステップS404で作成した劣化画像学習モデルに投入(入力)する。
ステップS412では、サーバ装置102のCPU201は劣化画像生成部304の機能により、劣化画像学習モデルを用いて劣化画像を生成する。より具体的には、サーバ装置102のCPU201は、ステップS410で選択を受け付けた劣化パターンに基づいて、ステップS409で取得した画像をもとにした劣化画像を生成する。例えば、サーバ装置102のCPU201は、ステップS409で取得した画像の輝度やコントラストを、劣化パターンの情報と画像のプロパティ情報とに基づいて変更、調整して画像の劣化を再現する。そして、ステップS412で生成された劣化画像は、劣化画像学習モデルに学習用データとして投入される。この処理を繰り返すことで、劣化画像学習モデルは劣化画像に関する学習を繰り返し行う。
このように、サーバ装置102は、ステップS409からステップS412の処理を繰り返すことで、複数種類の劣化画像を自動生成することが可能となる。また、劣化画像学習モデルでは、選択を受け付ける劣化パターンや取得するスキャン画像の種類及びプロパティ情報に基づいて、取得した画像に合わせた劣化の傾向を学習可能である。さらに、劣化画像学習モデルは、その学習した結果を用いて一つの画像から複数種類の劣化画像を生成することが可能となる。これにより、異なる種類の劣化を再現する多量の劣化画像をユーザの手間なく生成することが可能となる。
次に、図5のフローチャートを用いて、OCRモデル学習処理について説明を行う。本実施形態のOCRモデルは、OCRエンジンと機械学習を組み合わせたもので、劣化パターンごとにOCR結果を学習してOCRの認識精度を高めることができる。
ステップS501では、サーバ装置102のCPU201は、図4のステップS412で生成した劣化画像をOCRモデルに投入する。
ステップS502では、サーバ装置102のCPU201は、劣化パターン分析部302の機能によりOCRモデルに投入された劣化画像の劣化パターンを分析し、特定する。
ステップS503では、サーバ装置102のCPU201は、機械学習部305の機能により、劣化画像を読み込んで劣化画像に含まれる文字列の認識やOCRを行い、その結果をOCRモデルに学習させる。ステップS502とステップS503の学習は、OCRモデルの認識精度を高めるために繰り返し行われる。
ステップS504では、サーバ装置102のCPU201は、テスト用としてあらかじめ記憶しているテスト用劣化画像をOCRモデルに投入する。
ステップS505では、サーバ装置102のCPU201は、OCR処理部309の機能によりステップS504で投入したテスト用劣化画像のOCRを行い、そのOCR結果が所定値以上であるか否かを判定する。サーバ装置102のCPU201は、OCR結果が所定値以上であると判定した場合はステップS506に処理を進める。また、サーバ装置102のCPU201は、OCR結果が所定値以上でないと判定した場合は、OCRの読み取り精度がまだ不十分であるため、ステップS501に処理を戻しOCRモデルの学習を繰り返す。
ステップS506では、サーバ装置102のCPU201は、ステップS504でOCRを行った結果を出力する。このとき、複数のOCRエンジンでOCRを行っていた場合はOCR結果をマージして出力する。出力した結果はOCRモデルに学習させてもよい。
以上で、図4と図5を用いた、劣化画像学習モデル生成処理と劣化画像生成処理、及びOCRモデル学習処理についての説明を終了する。
上記の処理を行うことにより、少ない劣化画像から様々な劣化パターンの画像を複数作成することが可能なため、機械学習のための劣化画像を多量に用意するユーザの手間を低減させることが可能となる。また、生成した劣化画像を学習用データとして劣化画像学習モデルに学習させることで、劣化画像の劣化の再限度を高めることができる。さらに、生成した劣化画像を学習用データとしてOCRモデルに学習させることで、OCR処理の認識精度を高めることも可能となる。
次に、図6から図7を用いて、複数のOCRエンジンでOCRを行う際に、OCRエンジンごとに適切な前処理を容易に行うための一連の流れについて説明する。複数のOCRエンジンを用いて画像のOCR処理を行うためには、画像に応じて適切なOCRエンジンに振り分けることが必要であり、さらに振り分けるOCRエンジンに応じた前処理を画像に施す必要がある。そのため、本実施形態では、画像を適切なOCRエンジンに振り分けつつ、振り分けたOCRエンジンに応じた前処理を行い、OCRの認識精度を上げるための処理を行う。
図6は、サーバ装置102で取得された画像に対して前処理を行い、OCRを行うまでの全体の流れを示すフローチャートである。
ステップS601は、サーバ装置102のCPU201は、取得画像の分析を行う。取得画像の分析については、図7の投入画像の分析のフローチャートを用いて詳細を説明する。
図7のステップS701では、サーバ装置102のCPU201は、画像を情報処理装置101から取得し、画像取得部301の機能により取得する。
ステップS702では、サーバ装置102のCPU201は、ステップS701で取得した画像のプロパティの情報を特定する。例えば、画像を撮影、スキャン、もしくはFAXした装置の機種や画像の解像度などの情報を特定する。
ステップS703では、サーバ装置102のCPU201は、画像解析部306の機能により画像から紙面部分を抽出し、紙面部分の解像度や傾きの情報を分析する。本実施形態における画像は文書や帳票の画像であるため、その紙面部分の情報を抽出して分析する。
ステップS704では、サーバ装置102のCPU201は、ステップS703で抽出した紙面部分の明るさを分析する。明るさは画像の輝度やコントラストの値などの情報から分析を行う。
ステップS705では、サーバ装置102のCPU201は、ステップS702からステップS704で取得、特定、及び分析した情報に基づいて、ステップS701で取得した画像が、あらかじめ設定している画像グループに該当するか否かを判定する。サーバ装置102のCPU201は、ステップS701で取得した画像が画像グループに該当すると判定した場合はステップS706に処理を進める、画像グループに該当しないと判定した場合はステップS707に処理を進める。
ここで、図8を用いて、画像のグループとグループごとの前処理パターンについて説明する。図8のグループ別前処理パターン800は画像のグループとグループごとの前処理パターンの対応関係の一例を表した図である。さらに、グループ別前処理パターン800は、画像の特徴と前処理パターンとの対応関係の一例を示した図でもある。画像グループは、劣化パターンの特徴ごとにグループが異なり、例えば、ノイズのある画像はグループAが当てはまり、全体的に暗い(所定値以下の明るさ)の画像はグループBが当てはまる。また、画像の明るさや傾きなど全体的な数値が所定値以上であれば良好な画像としてグループCが当てはまり、画像にノイズが含まれた上で暗い画像はグループDに当てはまる。
さらに、グループ別前処理パターン800はグループごとに画像に適用すべき前処理パターンが定義されている。グループにどの前処理を行うかについては、図9の前処理設定画面900で入力を受け付けた前処理をグループごとに設定する。前処理設定画面900では、チェックボックスに選択を受け付けることにより必要な前処理の設定が可能であり、二値化処理については二値化の数値を細かく設定することによって二値化の度合いを二値化パターンごとに指定することが可能となる。
図8に説明を戻す。例えば、図8のグループAは、前処理パターンaが適用される。前処理パターンaでは、二値化パターンA、黒点ノイズ除去、及び方向補正の前処理と、二値化パターンD、縦線ノイズ除去の前処理が設定されているため、この組み合わせの前処理が画像に対して適用される。
図7に説明を戻す。ステップS706では、サーバ装置102のCPU201は、ステップS705で取得された画像が既存の画像グループに該当すると判定した場合に、当てはめる画像グループを確定させる。例えば、ステップS705で取得された画像を図8のグループAに確定させる。
ステップS707は、サーバ装置102のCPU201は、ステップS705で画像が既存の画像グループに該当しないと判定した場合に、画像をその他グループとして確定させる。その他グループは前処理パターンが設定されていないグループを示す。
以上で、図7の説明を終了する。この処理により、取得した画像の劣化や種別に応じて画像の傾向ごとにグループ分けすることができ、後述する前処理の工程で適切な前処理を画像に対して行うことが可能となる。
ここで、図6に説明を戻す。ステップS602では、サーバ装置102のCPU201は、画像グループごとの前処理を実施する。詳細については図7のステップS708からステップS712を用いて説明する。
図7のステップS708では、サーバ装置102のCPU201は、画像グループが確定しているか否かを判定する。サーバ装置102のCPU201は、画像グループが確定していると判定した場合はステップS709に処理を進め、画像グループが確定していない、つまりステップS707でその他グループとして確定されていた場合はステップS710に処理を進める。
ステップS709では、サーバ装置102のCPU201は、ステップS701で取得した画像に対して確定した画像グループに設定されている前処理(加工処理)を実施する。このとき、1つの画像に対して1つの前処理パターン(加工パターン)を実施する。例えば、画像がグループAに確定されていた場合、グループAには前処理パターンが2つ設定されているため、画像を複製して一方の画像に対しては図8の前処理パターンaに設定されている前処理を実施する。そして複製したもう一方の画像に対しては前処理パターンdに設定されている前処理を実施し、それぞれの前処理画像を生成する。
ステップS710では、サーバ装置102のCPU201は、前処理画像を生成する。より具体的には、サーバ装置102のCPU201がステップS701で取得した画像を設定されている前処理のパターン分複製し、複製した画像それぞれに対して設定されている前処理パターンをすべて実施する(加工処理を行う)。このとき、1つの画像に対して1つの前処理パターンが実施され、設定されているすべての前処理パターン分の前処理画像が生成される。サーバ装置102のCPU201は、設定されている前処理パターンのすべての前処理画像を生成するまでステップS710の処理を繰り返す。
ステップS711では、サーバ装置102のCPU201は、OCR処理部309の機能により、生成した前処理画像に対して複数のOCRエンジンでOCRを実行する。前処理パターンはOCRエンジンごとに適切な前処理として設定されているため、実施した前処理に対応するOCRエンジンに前処理画像を振り分けてOCRを行う。
ステップS711では、サーバ装置102のCPU201は、ステップS711で実施したOCRの結果を出力する。
以上の処理により、図7の画像グループごとの前処理についての説明を終了する。これにより、画像グループが確定した画像に対しては必要な前処理を行うことができ、適切なOCRエンジンでOCR処理を行うことが可能となる。通常であれば、最適な前処理を行うためには、設定している全前処理パターン分の前処理画像を生成し、すべてのOCRエンジンでOCRを行う。しかしながら、そのやり方では前処理画像を多量に生成する必要があり、多くの前処理を実行しなければならないためサーバ装置102にとって負荷がかかってしまう。したがって、本発明のような処理を行うことにより、必要最低限かつ適切な前処理を行い、最適なOCRエンジンでOCRを実行することが可能となる。
図6に説明を戻す。図6では、ステップS602で行った前処理の前処理画像に対してOCRを行った結果を出力する。より具体的には、図7のステップS713からステップS717の処理を用いて説明する。
図7のステップS713では、サーバ装置102のCPU201は、OCRを行った帳票の画像における帳票の項目ごとに、複数のOCRエンジンで行ったOCR結果を比較し、項目の値が正規表現に合致しているか否かを判定する。
ステップS714では、サーバ装置102のCPU201は、OCRを行った帳票の画像における帳票の項目ごとに、正しい値の範囲内か否かを判定する。
ステップS715では、サーバ装置102のCPU201は、OCRを行った帳票の画像における帳票の項目ごとに、確信度が基準値以上か否かを判定する。
サーバ装置102のCPU201は、ステップS713からステップS715の処理を帳票の項目ごとOCRで出力された結果の分だけ繰り返す。
ステップS716では、サーバ装置102のCPU201は、複数のOCRエンジンを用いてOCRを行った結果と、ステップS713からステップS715の処理における判定結果とを用いて、最良と判断した項目を抽出する。そして、サーバ装置102のCPU201は、抽出した項目を用いて最終的なOCR結果を項目ごとに決定(採用)する。
ステップS717では、サーバ装置102のCPU201は、複数のOCRエンジンを用いてOCRを行った結果からステップS716で抽出したそれぞれの項目をマージし、最終的なOCR結果を出力する。
以上により、図7の説明を終了する。これにより、複数のOCRエンジンを用いた場合にOCRエンジンごとに最適な前処理をおこない、複数のOCRエンジンを用いたOCR結果の中から最終的に最良の結果をマージすることでOCRの認識精度を上げることが可能となる。
尚、本実施形態では、すべての処理をサーバ装置102で行ったが、処理を行う装置は処理ごとに分けて複数の装置で各処理を実行してもよい。
以上、本発明によれば、劣化傾向の分析を行うために必要な画像を容易に生成可能な仕組みを提供することができる。
なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されことは言うまでもない。
以上、本発明の実施形態を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、プログラムコード自体及びそのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(基本システム或いはオペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
なお、上述した各実施形態及びその変形例を組み合わせた構成も全て本発明に含まれるものである。
130 LAN
101 情報処理装置
102 サーバ装置
201 CPU
202 ROM
203 RAM
211 外部メモリ
212 GPU

Claims (8)

  1. 画像の劣化に関する情報を含む第一の画像を取得する取得手段と、
    前記取得手段で取得した第一の画像を、学習モデルに学習用データとして学習させる学習手段と、
    前記第一の画像とは異なる第二の画像を前記学習モデルに入力することで、当該第二の画像と前記学習モデルで学習した結果とを用いた第三の画像を生成する生成手段と、
    を備えることを特徴とする情報処理システム。
  2. 前記学習手段は、前記生成手段で生成された前記第三の画像を、学習用データとして前記学習モデルに学習させることを特徴とする請求項1に記載の情報処理システム。
  3. 前記学習手段は、前記第一の画像の前記劣化に関する情報を劣化パターンごとに前記学習モデルに学習させ、
    前記生成手段は、劣化パターンごとに前記第三の画像を生成することを特徴とする請求項1または2に記載の情報処理システム。
  4. 前記生成手段は、前記学習モデルに入力された前記第二の画像に対して、前記学習手段で学習させた前記劣化に関する情報を適用させた前記第三の画像を生成することを特徴とする請求項1に記載の情報処理システム。
  5. 劣化パターンの選択を受け付ける受付手段、
    をさらに備え、
    前記生成手段は、前記第二の画像を前記学習モデルに入力することで、前記受付手段で受け付けた劣化パターンに基づいた前記第三の画像を生成することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理システム。
  6. 画像に対してOCR処理を行うOCR処理手段、
    をさらに備え、
    前記OCR処理手段は、前記生成手段で生成した前記第三の画像のOCR処理を行うことを特徴とする請求項1乃至5のいずれか1項に記載の情報処理システム。
  7. 情報処理システムの制御方法であって、
    画像の劣化に関する情報を含む第一の画像を取得する取得ステップと、
    前記取得ステップで取得した第一の画像を、学習モデルに学習用データとして学習させる学習ステップと、
    前記第一の画像とは異なる第二の画像を前記学習モデルに入力することで、当該第二の画像と前記学習モデルで学習した結果とを用いた第三の画像を生成する生成ステップと、
    を含むことを特徴とする情報処理システムの制御方法。
  8. 情報処理システムとして機能させるためのプログラムであって、
    前記情報処理システムを、
    画像の劣化に関する情報を含む第一の画像を取得する取得手段と、
    前記取得手段で取得した第一の画像を、学習モデルに学習用データとして学習させる学習手段と、
    前記第一の画像とは異なる第二の画像を前記学習モデルに入力することで、当該第二の画像と前記学習モデルで学習した結果とを用いた第三の画像を生成する生成手段、
    として機能させるためのプログラム。
JP2019154188A 2019-08-27 2019-08-27 情報処理システム、その制御方法、及びプログラム Active JP6989790B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019154188A JP6989790B2 (ja) 2019-08-27 2019-08-27 情報処理システム、その制御方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019154188A JP6989790B2 (ja) 2019-08-27 2019-08-27 情報処理システム、その制御方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021033721A true JP2021033721A (ja) 2021-03-01
JP6989790B2 JP6989790B2 (ja) 2022-01-12

Family

ID=74676541

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019154188A Active JP6989790B2 (ja) 2019-08-27 2019-08-27 情報処理システム、その制御方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6989790B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7193188B1 (ja) * 2022-03-07 2022-12-20 株式会社ファーストプライオリティ 医療用項目抽出システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01230164A (ja) * 1988-03-10 1989-09-13 Nippon Telegr & Teleph Corp <Ntt> 自動学習型ニューラルネット・システム
JPH0484281A (ja) * 1990-07-26 1992-03-17 Nec Corp パターン学習装置
JPH10240869A (ja) * 1997-03-03 1998-09-11 Nippon Steel Corp 文字認識辞書作成装置及び文字認識辞書作成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01230164A (ja) * 1988-03-10 1989-09-13 Nippon Telegr & Teleph Corp <Ntt> 自動学習型ニューラルネット・システム
JPH0484281A (ja) * 1990-07-26 1992-03-17 Nec Corp パターン学習装置
JPH10240869A (ja) * 1997-03-03 1998-09-11 Nippon Steel Corp 文字認識辞書作成装置及び文字認識辞書作成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
石田 皓之 外3名: "車載カメラによる道路標識認識のための生成型学習法", 画像ラボ 第19巻 第9号, vol. 第19巻 第9号, JPN6021001012, 10 September 2008 (2008-09-10), JP, pages 36 - 39, ISSN: 0004429680 *
石田 皓之 外4名: "部分空間法による低解像度文字認識のための生成型学習法", 電子情報通信学会技術研究報告 VOL.104 NO.92 WIT2004−1〜11 福祉情報工学, vol. 第104巻 第92号, JPN6021001013, 20 May 2004 (2004-05-20), JP, pages 37 - 42, ISSN: 0004429681 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7193188B1 (ja) * 2022-03-07 2022-12-20 株式会社ファーストプライオリティ 医療用項目抽出システム

Also Published As

Publication number Publication date
JP6989790B2 (ja) 2022-01-12

Similar Documents

Publication Publication Date Title
JP7102170B2 (ja) 画像処理装置、および画像処理装置の制御方法とプログラム
US11663817B2 (en) Automated signature extraction and verification
US8825682B2 (en) Architecture for mixed media reality retrieval of locations and registration of images
US10943107B2 (en) Simulating image capture
US8856108B2 (en) Combining results of image retrieval processes
US11468694B1 (en) Systems and methods for document image processing using neural networks
US8868555B2 (en) Computation of a recongnizability score (quality predictor) for image retrieval
US20090074300A1 (en) Automatic adaption of an image recognition system to image capture devices
KR101064845B1 (ko) 문서 이미지 인코딩 시스템, 코드북 생성 시스템 및 방법, 코드북 탐색 시스템, 및 정보 인코딩 방법
Seethalakshmi et al. Optical character recognition for printed Tamil text using Unicode
CN101558416A (zh) 移动通信设备的文本检测
KR20190033451A (ko) 화상 처리 장치, 화상 처리 방법, 및 저장 매체
EP2808828A2 (en) Image matching method, image matching device, model template generation method, model template generation device, and program
CN112380566A (zh) 用于对文档图像进行脱敏的方法、装置、电子设备及介质
CN113592735A (zh) 文本页面图像还原方法及系统、电子设备和计算机可读介质
Dergachov et al. Data pre-processing to increase the quality of optical text recognition systems
JP6989790B2 (ja) 情報処理システム、その制御方法、及びプログラム
KR102562170B1 (ko) 딥러닝 기반 전자책 자동변환 서비스 제공 방법
US20240144711A1 (en) Reliable determination of field values in documents with removal of static field elements
CN111126273A (zh) 图像处理方法、装置、电子设备以及存储介质
JP2021033722A (ja) 情報処理システム、その制御方法、及びプログラム
CN113065619A (zh) 数据处理方法、装置、计算机可读存储介质及设备
Konya et al. Adaptive methods for robust document image understanding
Lins et al. HistDoc v. 2.0: enhancing a platform to process historical documents
Körber Improving Camera-based Document Analysis with Deep Learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211115

R151 Written notification of patent or utility model registration

Ref document number: 6989790

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250