JP2022090947A

JP2022090947A - 画像処理装置、画像処理方法およびプログラム

Info

Publication number: JP2022090947A
Application number: JP2020203561A
Authority: JP
Inventors: 健阿知波; Takeshi Achinami
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2022-06-20
Also published as: US20220180114A1

Abstract

【課題】劣化が生じている画像を高精度に復元することを目的とする。【解決手段】画像処理装置は、文字情報の画像を含む画像データを取得する取得手段と、文字情報の文字種を特定する特定手段と、複数の文字種条件のそれぞれに対応する学習用の画像と正解画像とを用いて機械学習された複数の学習済みモデルから、特定された文字種に対応する学習済みモデルを取得し、取得した学習済みモデルに文字情報の画像を入力して、当該文字情報の画像を復元する画像処理手段と、を含む。【選択図】図６

Description

本発明は、画像処理装置、画像処理方法およびプログラムに関する。

文字情報を含む画像に対して、光学文字認識処理（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）を施し、文字情報を抽出する技術が用いられている。関連する技術として、特許文献１の技術が提案されている。特許文献１の技術は、処理対象帳票の特徴を用いて、類似する帳票データを索出し、複数のＯＣＲエンジンのうち、索出された帳票データに関連付けられたＯＣＲエンジンを用いて処理対象帳票を処理する。これにより、処理対象の帳票または項目ごとに最適なＯＣＲエンジンが選択される。

特開２０１９－１６９０２５号公報

スキャナで読み取った画像やファクシミリで送信された画像等には劣化が生じる。劣化が生じた画像に対してＯＣＲの処理を施したとしても、高精度に文字情報を抽出することができず、文字情報を誤認識することがある。例えば、認識対象の画像に含まれる文字情報には類似した形状の文字が多く存在する。ＯＣＲの処理対象の画像が劣化していると、画像に含まれる文字情報に欠損や変形等が生じる。このため、劣化が生じた画像に対してＯＣＲの処理を施した場合、類似した形状の文字を誤認識する可能性が高くなる。特許文献１の技術は、処理対象の帳票または項目ごとに最適なＯＣＲエンジンを選択しているが、欠損や変形等が生じている文字情報を高精度に認識することは難しい。

そこで、本発明は、劣化が生じている画像を高精度に復元することを目的とする。

上記目的を達成するために、本発明の画像処理装置は、文字情報の画像を含む画像データを取得する取得手段と、前記文字情報の文字種を特定する特定手段と、複数の文字種条件のそれぞれに対応する学習用の画像と正解画像とを用いて機械学習された複数の学習済みモデルから、特定された前記文字種に対応する学習済みモデルを取得し、取得した前記学習済みモデルに前記文字情報の画像を入力して、当該文字情報の画像を復元する画像処理手段と、を備えることを特徴とする。

本発明によれば、劣化が生じている画像を高精度に復元することができる。

画像処理システムの一例を示す図である。画像処理システムの各装置のハードウェア構成の一例を示す図である。画像処理システムの利用の流れの一例を示すシーケンス図である。学習セットの生成の一例を示す図である。学習処理の流れの一例を示すフローチャートである。画像処理の流れの一例を示すフローチャートである。学習処理および推論処理のサンプルを示す図である。帳票の画像の一例を示す図である。劣化画像と復元画像と正解画像との一例を示す図である。

以下、本発明の各実施形態について図面を参照しながら詳細に説明する。しかしながら、以下の各実施形態に記載されている構成はあくまで例示に過ぎず、本発明の範囲は各実施形態に記載されている構成によって限定されることはない。

＜第１実施形態＞
図１は、画像処理システム１００の一例を示す図である。画像処理システム１００は、画像形成装置１０１、学習装置１０２および画像処理サーバ１０３を含む。画像形成装置１０１と学習装置１０２と画像処理サーバ１０３とは、ネットワーク１０４を介して、相互に接続される。ネットワーク１０４は、例えば、ＬＡＮやＷＡＮである。ネットワーク１０４は、有線通信または無線通信を行うネットワークであってもよい。画像形成装置１０１と学習装置１０２と画像処理サーバ１０３とは、別個の装置ではなく、一体の装置として構成されていてもよい。また、各装置は、単一の装置により構成されていてもよいし、別個の装置により構成されていてもよい。例えば、画像処理サーバ１０３は、高速演算リソースを有する第１サーバ装置と、大容量ストレージを有する第２サーバ装置とにより構成され、両者が接続される構成が採用されてもよい。

画像形成装置１０１は、プリントやスキャン、ＦＡＸ等の複数の機能を行うＭＦＰ（ＭｕｌｔｉＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）等の装置である。画像形成装置１０１は、画像データを取得する取得部１０１Ａの機能を有する。以下、各実施形態の画像データは、文字情報の画像を含む文書画像データ（原稿データ）であるものとする。画像形成装置１０１は、例えば、紙媒体に印字された帳票等の原稿をスキャンして画像データを取得する。また、画像形成装置１０１は、例えば、ファクシミリ装置が送信した帳票等の原稿（ＦＡＸデータ）を受信して、受信したＦＡＸデータに対して所定のＦＡＸ処理を施して画像データを取得する。画像形成装置１０１は、取得した画像データを、画像処理サーバ１０３に送信する。ここで、画像形成装置１０１が取得する画像データは、元の原稿の画像データよりも画質が劣化した劣化画像になる。例えば、劣化画像は、ＪＰＥＧ等の画像圧縮や解像度変換、二値化等の非可逆変換を施された画像データである。劣化画像が用いられることにより、データ量の削減を図ることができる。

学習装置１０２は、学習モデルの機械学習を行う。学習装置１０２は、機械学習を行う学習部１０２Ａを有する。学習装置１０２は、劣化画像が学習モデルに入力されたときに、圧縮ノイズ除去や高解像度化、多階調化等のように非可逆変換が施される前のオリジナル画像に近い復元画像が出力されるように学習モデルの機械学習を行う。本実施形態の機械学習は、多層構造のニューラルネットワークに対するディープラーニングであるものとして説明する。ただし、機械学習の手法としては、サポートベクターマシンや決定木等の任意の機械学習アルゴリズムが適用されてもよい。

オリジナル画像は、スキャンやＦＡＸによって非可逆変換が施される前の高画質な画像データである。本実施形態では、スキャンされる原稿やＦＡＸにより送信される原稿は、帳票であるものとして説明する。ただし、スキャンされる原稿やＦＡＸ送信される原稿は、帳票以外の原稿であってもよい。これら原稿は、スキャンされる過程やＦＡＸ送信される過程で、劣化するため、原稿に含まれる文字情報に欠損や変形等が生じる。

学習装置１０２は、学習用の画像データと教師データとを含む学習セットを用いて、機械学習を行う。学習用の画像データは劣化画像であり、教師データは劣化画像に対応する正解画像である。正解画像には、劣化画像が劣化する前の画像が用いられる。学習セットは、例えば、エンジニアにより学習装置１０２にセットされる。機械学習に用いられる学習セットは、多種多様な学習用の画像および教師データを含むことが好ましい。学習装置１０２が学習モデルの機械学習を行うことにより、学習モデルの重みパラメータが更新されて、機械学習された学習モデルが生成される。以下、機械学習がされた学習モデルを、学習済みモデルとする。学習装置１０２は、生成した学習済みモデルを画像処理サーバ１０３に送信する。

画像処理サーバ１０３は、画像形成装置１０１から受信した劣化画像を、学習装置１０２から受信した学習済みモデルを用いて、復元を行う画像処理装置である。画像処理サーバ１０３は、画像処理部１０３Ａおよび記憶部１０３Ｂを有する。画像処理部１０３Ａは、劣化画像を学習済みモデルに入力して、学習済みモデルから出力される推論結果である復元画像を記憶部１０３Ｂに記憶する。また、画像処理部１０３Ａは、復元画像に対してＯＣＲ処理（光学文字認識処理）を施し、復元画像に含まれる文字情報（テキストデータ）を抽出し、抽出した文字情報を復元画像と関連付けて記憶部１０３Ｂに記憶する。

図２は、各装置のハードウェア構成の一例を示す図である。図２（ａ）は、画像形成装置１０１のハードウェア構成の一例を示す図である。画像形成装置１０１は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、プリンタデバイス２０５、スキャナデバイス２０６および原稿搬送デバイス２０７を含む。また、画像形成装置１０１は、ストレージ２０８、入力デバイス２０９、表示デバイス２１０および外部インターフェイス２１１を含む。各部は、データバス２０３を介して、相互に接続される。

ＣＰＵ２０１は、画像形成装置１０１の全体の動作を制御する。ＣＰＵ２０１は、ＲＯＭ２０２に記憶されたブートプログラムを実行することで、画像形成装置１０１のシステムを起動する。そして、ＣＰＵ２０１は、ストレージ２０８に記憶された制御プログラムを実行することで、画像形成装置１０１の各種の制御を実現する。ＲＯＭ２０２は、不揮発性メモリ等で実現されるものであって、画像形成装置１０１を起動するブートプログラムを記憶する。データバス２０３は、画像形成装置１０１の各部の間でのデータ通信に用いられる。ＲＡＭ２０４は、揮発性メモリで実現されるものであって、ＣＰＵ２０１が制御プログラムを実行する際のワークメモリとして使用される。

プリンタデバイス２０５は、画像出力デバイスであって、画像形成装置１０１の内部の画像データを記憶媒体に印字して印刷出力する。スキャナデバイス２０６は、画像入力デバイスであって、文字や図表、写真等が印字された記憶媒体を光学的に読み取って画像データとして取得するための画像読み取り部である。原稿搬送デバイス２０７は、ＡＤＦ（オートドキュメントフィーダ）等で実現される。原稿搬送デバイス２０７は、原稿台に載置された帳票等の原稿を検知し、検知した原稿を１枚ずつスキャナデバイス２０６に搬送する。ストレージ２０８は、例えば、ＨＤＤ（ハードディスクドライブ）であり、制御プログラムや画像データ等を記憶する。

入力デバイス２０９は、タッチパネルやハードキー、マウス、キーボード等で実現される。ユーザ等が入力デバイス２０９を用いて操作を行うと、ＣＰＵ２０１は、当該操作を受け付ける。表示デバイス２１０は、液晶ディスプレイ等で実現されるものであって、ＣＰＵ２０１の制御により、設定画面等を含む各種の画面を表示する。外部インターフェイス２１１は、画像形成装置１０１とネットワーク１０４との間を接続する。外部インターフェイス２１１は、外部のＦＡＸ装置からＦＡＸデータを受信する。また、外部インターフェイス２１１は、劣化画像を含む画像データを画像処理サーバ１０３に送信する。

図２（ｂ）は、学習装置１０２のハードウェア構成の一例を示す図である。図２（ｂ）に示すように、学習装置１０２は、ＣＰＵ２３１、ＲＯＭ２３２、ＲＡＭ２３４、ストレージ２３５、入力デバイス２３６、表示デバイス２３７、外部インターフェイス２３８およびＧＰＵ２３９を含む。各部は、データバス２３３を介して、相互に接続される。ＣＰＵ２３１は、学習装置１０２における全体の動作を制御する。ＣＰＵ２３１は、ＲＯＭ２３２に記憶されたブートプログラムを実行することで、学習装置１０２のシステムを起動する。また、ＣＰＵ２３１は、ストレージ２０８に記憶された学習プログラムを実行することで、画像復元を行うための学習モデルの機械学習に関する制御を行う。ＲＯＭ２３２は、不揮発性メモリで実現されるものであって、学習装置１０２を起動するブートプログラムを記憶する。

データバス２３３は、学習装置１０２の各部の間でのデータ通信に用いられる。ＲＡＭ２３４は、揮発性メモリで実現されるものであって、ＣＰＵ２３１が学習プログラムを実行する際のワークメモリとして使用される。ストレージ２３５は、ＨＤＤ等で実現されるものであって、学習プログラムや学習データ等を記憶する。入力デバイス２３６は、マウスやキーボード等で実現される。エンジニア等が入力デバイス２３６を用いて操作を行うと、ＣＰＵ２３１は当該操作を受け付ける。表示デバイス２３７は、液晶ディスプレイ等で実現される。表示デバイス２３７には、設定画面を含む各種の画面が表示される。

外部インターフェイス２３８は、ネットワーク１０４に接続される。例えば、学習装置１０２は、外部サーバや外部端末（パーソナルコンピュータやエッジコンピュータ等）から、学習モデルの機械学習に用いられる学習セットを、外部インターフェイス２３８を介して、取得する。ＧＰＵ（グラフィックスプロセッシングユニット）２３９は、機械学習の演算に用いられる。ＧＰＵ２３９は、ＣＰＵ２３１の制御に基づき、学習セットを用いて、学習モデルの機械学習に関する演算処理を行う。学習モデルの機械学習は、ＧＰＵ２３９により行われてもよいし、ＣＰＵ２３１により行われてもよいし、ＧＰＵ２３９とＣＰＵ２３１との協働動作により行われてもよい。また、学習モデルの機械学習は、機械学習の演算に特化した回路により実現されてもよい。

図２（ｃ）は、画像処理サーバ１０３のハードウェア構成の一例を示す図である。画像処理サーバ１０３は、ＣＰＵ２６１、ＲＯＭ２６２、ＲＡＭ２６４、ストレージ２６５、入力デバイス２６６、表示デバイス２６７、外部インターフェイス２６８およびＧＰＵ２６９を含む。各部は、データバス２６３を介して、相互に接続される。ＣＰＵ２６１は、画像処理サーバ１０３における全体の動作を制御する。ＣＰＵ２６１は、取得手段および特定手段に対応する。ＣＰＵ２６１は、ＲＯＭ２６２に記憶されたブートプログラムを実行することで、画像処理サーバ１０３のシステムを起動する。ＣＰＵ２６１は、ストレージ２６５に記憶された画像処理プログラムを実行することで、帳票認識や画像復元、文字情報抽出等の画像処理を実行する。ＲＯＭ２６２は、不揮発性メモリで実現されるものであって、画像処理サーバ１０３を起動するブートプログラムを記憶する。データバス２６３は、画像処理サーバ１０３の各部の間でのデータ通信に用いられる。

ＲＡＭ２６４は、揮発性メモリで実現されるものであって、ＣＰＵ２６１が画像処理プログラムを実行する際のワークメモリとして使用される。ストレージ２６５は、ＨＤＤ等で実現されるものであって、画像処理プログラムや学習済みモデル、登録済帳票等を記憶する。入力デバイス２６６は、マウスやキーボード等で実現される。ユーザが入力デバイス２６６を用いて操作を行うと、ＣＰＵ２６１は当該操作を受け付ける。表示デバイス２６７は、液晶ディスプレイ等で実現されるものであって、設定画面を含む各種の画面を表示する。外部インターフェイス２６８は、ネットワーク１０４に接続される。画像処理サーバ１０３は、外部インターフェイス２６８を介して、学習装置１０２から学習済みモデルを取得し、画像形成装置１０１から劣化画像を含む画像データを取得する。

ＧＰＵ２６９は、ＣＰＵ２６１の制御に基づき、推論処理に関する演算を行う。ＧＰＵ２６９またはＣＰＵ２６１は、画像処理手段に対応する。ＣＰＵ２６１が復元対象となる劣化画像を学習済みモデルに入力すると、ＧＰＵ２６９は学習済みモデルの演算を行い、推論結果として復元画像を出力する。推論処理は、ＧＰＵ２６９により行われてもよいし、ＣＰＵ２６１により行われてもよいし、ＧＰＵ２６９とＣＰＵ２６１との協働動作により行われてもよい。また、推論処理は、機械学習の演算に特化した回路により実現されてもよい。

図３は、画像処理システム１００の利用の流れの一例を示すシーケンス図である。以下、受発注業務に画像処理システム１００が用いられる場合を想定した例について説明するが、画像処理システム１００は受発注業務以外のシステムにも適用可能である。受発注業務においては、発注者が受注者（ユーザ）に対して発注した注文書等の帳票の画像データおよび当該画像データに含まれる文字情報を画像処理サーバ１０３に登録する。画像処理サーバ１０３は、業務システムとも称される。

図３（ａ）は、発注者が受注者に、郵送により注文書等の帳票原稿を送付し、受注者が、帳票原稿をスキャンして画像処理サーバ１０３に登録する際の処理の流れを示す図である。Ｓ３０１で、学習装置１０２は、エンジニアの操作に基づき、学習セットを取得する。例えば、エンジニアが、自身の端末から学習装置１０２に学習セットを送信することで、学習装置１０２のＣＰＵ２３１は学習セットを取得してもよい。また、エンジニアが学習装置１０２に学習セットを入力する操作を行い、学習装置１０２は入力された学習セットを取得してもよい。

Ｓ３０２で、ＣＰＵ２３１は、学習セットの学習用の画像データ（劣化画像）を入力データとし、正解画像を教師データとして、学習モデルの機械学習を行う。劣化画像は、正解画像を劣化させる画像処理を施した画像である。後述するように、学習済みモデルは、複数の文字種条件のそれぞれについて生成される。従って、ＣＰＵ２３１は、複数の学習モデルの機械学習を行い、複数の学習済みモデルを生成する。Ｓ３０３で、ＣＰＵ２３１は、生成した複数の学習済みモデルを画像処理サーバ１０３に送信する。画像処理サーバ１０３のＣＰＵ２６１は、取得した複数の学習済みモデルをストレージ２６５等に記憶する。Ｓ３０１～Ｓ３０３は、推論処理が行われる前の事前の処理である。

Ｓ３０４以降の各処理は、受発注業務に関わる処理である。まず、受注者は、発注者が郵送により送付した帳票原稿を受け取る。Ｓ３０４で、受注者は、帳票原稿のスキャンを画像形成装置１０１に指示する。例えば、受注者は、原稿搬送デバイス２０７に帳票原稿をセットし、入力デバイス２０９を用いて、帳票原稿の流し読みを指示する操作を行う。スキャナデバイス２０６は帳票原稿を読み取り、読み取られた帳票原稿が画像データとして、ＣＰＵ２０１に出力される。これにより、ＣＰＵ２０１は、帳票原稿の画像データを取得する。取得された帳票原稿の画像データは、例えば、非可逆変換が施されており、画質が劣化画像になる。Ｓ３０５で、ＣＰＵ２０１は、例えば、受注者からの指示に基づき、画像データ（劣化画像）を画像処理サーバ１０３に送信する。

画像処理サーバ１０３のＣＰＵ２６１は、画像形成装置１０１から取得した劣化画像に対して画像処理を施す制御を行う。このとき、ＣＰＵ２６１は、ストレージ２６５等に記憶されている学習済みモデルを用いて、取得した劣化画像を復元する処理を行った後、復元した復元画像から文字情報を抽出する処理を行う。Ｓ３０７で、ＣＰＵ２６１は、復元画像と抽出された文字情報とを関連付けて、画像処理結果として、ストレージ２６５等に記憶する。Ｓ３０８で、ＣＰＵ２６１は、処理完了の通知を行う。ＣＰＵ２６１は、処理完了を示す通知を表示デバイス２３７に表示してもよい。また、ＣＰＵ２６１は、Ｓ３０４で原稿スキャンを指示する際にログインした受注者（ユーザ）に対応付けられたメールアドレスやメッセージアカウントに、処理完了を示す通知を送信してもよい。これにより、ユーザは、受発注業務に関わる処理が完了したことを認識できる。

図３（ｂ）は、発注者がＦＡＸ装置を用いて、画像処理サーバ１０３に帳票原稿をＦＡＸ送信して、画像処理サーバ１０３に登録する際の処理の流れを示す図である。Ｓ３２１～Ｓ３２３は上述したＳ３０１～Ｓ３０３と同様であり、Ｓ３２６～Ｓ３２８は上述したＳ３０６～Ｓ３０８と同様であるため、説明を省略する。図３（ｂ）の例では、受注者が、事前に、画像形成装置１０１の入力デバイス２０９を用いて、発注者によるＦＡＸ送信の受信設定を行っているものとする。

発注者がＦＡＸ装置を用いて、帳票原稿を画像形成装置１０１に送信する。Ｓ３２４で、画像形成装置１０１の外部インターフェイス２１１は、ＦＡＸ装置からＦＡＸデータを受信する。受信したＦＡＸデータの画像は、帳票原稿の画像から劣化した劣化画像になる。Ｓ３２５で、画像形成装置１０１のＣＰＵ２０１は、上述した受信設定に従い、画像データ（劣化画像）を画像処理サーバ１０３に送信する。そして、画像処理サーバ１０３は、Ｓ３２６～Ｓ２３８の処理を行う。

次に、学習装置１０２が行う学習モデルの機械学習について説明する。学習装置１０２が学習モデルの機械学習を行うときには、学習用の画像と教師データ（正解画像）とがペアになっている学習セット（学習データ）が用いられる。正解画像は、画質が劣化していないオリジナル画像であるか、または画質の劣化が少ない画像である。一方、学習用の画像は、正解画像の画質を劣化させた画像である。正解画像と学習用の画像とがペアになった学習セットが、学習モデルの機械学習に用いられる。学習装置１０２は、多くの学習セットを用いて、学習モデルの機械学習を行って学習済みモデルを生成することで、学習済みモデルの推論精度を向上させることができる。

図４は、学習セットの生成の一例を示す図である。ＰＤＬ（ＰｒｉｎｔｅｒＤｅｓｃｒｉｐｔｉｏｎＬａｎｇｕａｇｅ）データ４０１は、正解画像を高品質に記述したベクタ形式のデータである。ＰＤＬデータ４０１は、教師データとしての正解画像に対応する。ＰＤＬデータ４０１には、例えば、ＰｏｓｔＳｃｒｉｐｔやＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）等の形式のデータが適用されてもよい。教師データには、ＰＤＬとは異なる形式のデータが用いられてもよい。原稿４０２は、ＰＤＬデータ４０１を紙面に印刷した原稿である。スキャン画像４０３は、印刷された原稿４０２をスキャナデバイス等で読み取った画像である。

劣化画像４０４は、画像処理により、スキャン画像４０３を劣化させることにより生成される画像である。劣化画像４０４を生成するための画像処理として、例えば、ＦＡＸ送受信による画像の劣化を再現するために、解像度変換や二値化等のＦＡＸ画像処理を適用することができる。また、劣化画像４０４を生成するための画像処理として、スキャンによる画像の劣化を再現するために、スキャナデバイス２０６の特性に合わせた画像補正やＪＰＥＧ等の画像圧縮等のスキャン画像処理を適用することができる。

劣化画像４０４の生成は、例えば、エンジニアが所定の装置を用いて開発を行う環境下で行われる。このとき、エンジニアが用いる所定の装置により生成される劣化画像４０４は、学習済みモデルの推論精度を向上させるために、画像形成装置１０１のプリンタデバイス２０５やスキャナデバイス２０６と同等の再現性を有することが好ましい。また、劣化画像４０４は、プリンタデバイス２０５がＰＤＬデータ４０１に基づき印刷した原稿４０２をスキャナデバイス２０６が読み取り、読み取られたスキャン画像４０３に対して画像処理を施すことにより得られてもよい。また、劣化画像４０４は、プリンタデバイス２０５およびスキャナデバイス２０６を疑似的に再現するシミュレータにより生成されてもよい。

正解画像４０５は、ベクタ形式のＰＤＬ（ＰｒｉｎｔｅｒＤｅｓｃｒｉｐｔｉｏｎＬａｎｇｕａｇｅ）データ３０１を所定の解像度でラスタ形式に変換する描画処理（ＲＩＰ：ＲａｓｔｅｒＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ）した画像である。劣化画像４０４と正解画像４０５とがペアとして紐づけられることで、学習セット４０６が生成される。学習セット４０６の生成の方法や使用される装置等は、上述した例には限定されない。

次に、学習処理について説明する。図５は、学習処理の流れの一例を示すフローチャートである。図５の学習処理は、図３のＳ３０２およびＳ３２２に対応する。以下、学習モデルは、ニューラルネットワークであるものとして説明する。Ｓ５０１で、ＣＰＵ２３１は、ＧＰＵ２３９に設定されるニューラルネットワークの各層における重みパラメータの値を初期化する。このとき、ＣＰＵ２３１は、ニューラルネットワークの各重みパラメータをランダムな値または初期値に設定してもよいし、前回学習済の値をロードして各重みパラメータに再設定してもよい。

Ｓ５０２で、ＣＰＵ２３１は、複数の学習セットを取得する。このとき、ＣＰＵ２３１は、Ｓ３０１またはＳ３２１で取得された複数の学習セットのうち、データ形式の条件を満たす学習セット（学習用の画像と正解画像とのペア）を複数取得する。データ形式の条件としては、例えば、解像度と階調と圧縮方式（異なる圧縮率を含む）との少なくとも１つ以上の条件がある。ＣＰＵ２３１は、Ｓ３０１またはＳ３２１で取得された複数の学習セットのうち、解像度と階調と圧縮方式との全ての条件を満たす学習セットを複数取得してもよい。さらに、ＣＰＵ２３１は、データ形式の条件を満たす複数の学習セットのうち、所定の文字種条件を満たす学習セットを複数取得する。文字種は、数字や記号、アルファベット、漢字等である。

文字種条件は、１種類の文字種の場合もあり、複数種類の文字種により構成される場合もある。例えば、数字のみの文字種であれば、「０１２３４」等がある。また、数字と記号により構成される文字種であれば「０１２－３４５６」等がある。金額を示す文字情報の文字種条件は、例えば、「￥１０，０００」のように、数字と記号（「￥」と「，」）とにより構成される。また、和暦の日付を示す文字情報の文字種条件は、「令和１年１月１日」のように、漢字と数字とにより構成される。他にも、住所や氏名、電話番号、会社名、案件番号等の文字種条件は、１種類の文字種のみの条件であるか、または複数の文字種により構成される条件になる。

ＣＰＵ２３１は、例えば、金額の文字種条件を満たす学習セットを取得する際には、複数の学習セットのうち文字種条件として数字と金額とにより構成される条件を満たす複数の学習セットを取得する。また、ＣＰＵ２３１は、注文書番号等ように数字のみにより構成される文字種の文字種条件を満たす学習セットを取得する際には、複数の学習セットのうち文字種条件として数字のみの条件を満たす複数の学習セットを取得する。

Ｓ５０３で、ＣＰＵ２３１は、各学習セットの学習用の画像（劣化画像）をニューラルネットワークに入力し、正解画像を教師データとして、ＧＰＵ２３９に、学習用の画像と正解画像との誤差を算出させる。Ｓ５０４で、ＣＰＵ２３１は、ＧＰＵ２３９に、誤差逆伝搬法による演算を実行することにより、ニューラルネットワークの各層の重みパラメータを更新する。誤差逆伝搬法の演算が行われることで、Ｓ５０３で算出された誤差が最小化される。このとき、ＧＰＵ２３９は、学習用の画像をニューラルネットワークに入力した際に、出力される画像が正解画像に近づくように、ニューラルネットワークの各層のノードの重みパラメータ（重みやバイアス等）を更新する。

Ｓ５０５で、ＣＰＵ２３１は、ニューラルネットワークの学習回数が所定回数に達したかを判定する。所定回数は、任意に設定できるが、ニューラルネットワークの学習に十分な学習回数が設定されることが好ましい。ＣＰＵ２３１は、Ｓ５０５でＮｏと判定した場合、フローをＳ５０２に戻し、学習回数が所定回数に達するまで、Ｓ５０２～Ｓ５０４の処理を繰り返し実行する。ＣＰＵ２３１は、学習回数が所定回数に達した場合、Ｓ５０５でＹｅｓと判定し、フローをＳ５０６に進める。Ｓ５０６で、ＣＰＵ２３１は、ＧＰＵ２３９により更新された重みパラメータをストレージ２３５等に記憶する。

更新された重みパラメータが設定された学習モデルは、学習済みモデルである。学習済みモデルは、未知の劣化画像が入力されると、未知の劣化画像が劣化する前のオリジナル画像に近い画像を出力する。つまり、学習済みモデルは、劣化画像を復元する画像処理手段として機能する。例えば、学習済みモデルは、スキャン時の読取ノイズによって発生した画像中の孤立点を除去する画像復元を行う。また、学習済みモデルは、低解像度化や二値化によって発生した画像中の描画オブジェクトにおけるエッジ部分のがたつきを抑制して平滑化する画像復元を行う。

上述したように、Ｓ５０２で、データ形式の条件および文字種条件を満たす学習セットが取得される。Ｓ５０７で、学習装置１０２は、異なるデータ形式の条件または文字種条件で学習データの機械学習を行うかを判定する。ＣＰＵ２３１は、Ｓ５０７でＹｅｓと判定した場合、フローをＳ５０１に戻し、異なる条件で、別の学習モデルの機械学習を実行する制御を行う。一方、ＣＰＵ２３１は、Ｓ６０７でＮｏと判定した場合、図５のフローチャートの処理を終了させる。

Ｓ５０７の判定処理について説明する。例えば、Ｓ３０１またはＳ３２１で取得された学習セットに、複数のデータ形式の学習セットとして、異なる解像度の条件下で生成された複数の学習セットがあるとする。例えば、「６００×６００ｄｐｉ」、「３００×３００ｄｐｉ」および「２００×１００ｄｐｉ」の３種類の学習セットが取得されたとする。ＣＰＵ２３１は、Ｓ５０７で、３種類の学習セットのうち、未だ機械学習に用いられていない学習セットがある場合、Ｓ５０７でＹｅｓと判定する。また、Ｓ３０１またはＳ３２１で取得された学習セットに、複数のデータ形式の学習セットとして、異なる階調の条件下で生成された複数の学習セットがあるとする。例えば、１６ビット階調（＝６５５３６色）、８ビット階調（＝２５６色）および１ビット階調（＝２色）の３種類の学習セットが取得されたとする。ＣＰＵ２３１は、Ｓ５０７で、３種類の学習セットのうち、未だ学習モデルの機械学習に用いられていない学習セットがある場合、Ｓ５０７でＹｅｓと判定する。

また、取得された複数の学習セットに、複数の文字種条件があるとする。例えば、金額を表す文字画像に出現すると想定される文字種条件は、数字（“０”、“１”、“２”、…、“９”）と、一部の記号（“￥”、“，”、“－”等）とにより構成されることが条件である。また、日付を表す文字画像に出現すると想定される文字種条件は、数字と一部の漢字（“年”、“月”、“日”、“平”、“成”、“令”、“和”等）とにより構成されることが条件である。同様に、住所や氏名、電話番号、会社名、案件番号等の対象項目の文字画像に出現すると想定される文字種条件は、それぞれ異なる。ＣＰＵ２３１は、ＧＰＵ２６９を制御して、異なる文字種条件の全ての学習セットを用いた学習モデルの機械学習を行い、各条件のそれぞれに応じた学習済みモデルを生成する。従って、全てのデータ形式の条件と全ての文字種条件とのそれぞれに応じて、複数の学習済みモデルが生成される。

次に、画像処理サーバ１０３が行う画像処理の流れの一例について説明する。図６は、画像処理の流れの一例を示すフローチャートである。図６のフローチャートは、図３のＳ３０６およびＳ３２６の画像処理に対応する。上述したように、画像処理サーバ１０３は、画像形成装置１０１から画像データ（スキャンデータやＦＡＸデータ）を受信する。画像データは、推論対象の劣化画像である。Ｓ６０１で、ＣＰＵ２６１は、画像データを取得する。

Ｓ６０２で、ＣＰＵ２６１は、ブロックセレクション（ＢＳ）処理を実行する。ブロックセレクション処理は、画像データを構成するオブジェクト単位で分割するようにブロック領域を選択し、各ブロック領域の属性を判定する処理である。ブロックセレクション処理は、文字や写真、図表等の属性を判定し、異なる属性を持つブロック領域に分割する処理である。ブロックセレクション処理には、任意の領域判定技術を適用できる。以下、ブロックセレクション処理により文字領域と判定されたブロックを、ブロック領域と称する。

Ｓ６０３で、ＣＰＵ２６１は、帳票マッチング処理を実行する。帳票マッチング処理は、Ｓ６０１で取得した画像データと、ストレージ２６５等に記憶されている登録済帳票群との間で類似度を算出し、最大の類似度を持つ登録済帳票を抽出する処理である。帳票マッチング処理には任意の帳票認識技術を適用できる。登録済帳票群は、後述するＳ６０５で登録された過去に処理済みの画像データのグループである。登録済帳票群は、文書画像自体でなく、各文書画像のそれぞれについてのブロックセレクション処理結果等の帳票マッチング処理に利用可能な特徴量であってもよい。Ｓ６０３で、ＣＰＵ２６１は、最大の類似度を持つ登録済帳票について、その類似度の値が所定の閾値以上である場合、登録済帳票を抽出し、閾値未満である場合、登録済帳票を抽出しない。

Ｓ６０４で、ＣＰＵ２６１は、Ｓ６０３の帳票マッチング処理を行った結果、登録済帳票を抽出したかを判定する。ＣＰＵ２６１は、帳票マッチング処理により登録済帳票を抽出した場合、Ｓ６０４でＹｅｓと判定し、フローをＳ６０８に進める。一方、帳票マッチング処理により登録済帳票を抽出しなかった場合、Ｓ６０４でＮｏと判定し、フローをＳ６０５に進める。

Ｓ６０５で、ＣＰＵ２６１は、Ｓ６０１で取得した画像データを、Ｓ６０３の帳票マッチング処理で利用する登録済帳票群の中に追加する帳票登録処理を実行する。Ｓ６０６で、ＣＰＵ２６１は、Ｓ６０１で取得した画像データのうち、Ｓ６０２で文字領域と判定した各ブロック領域のそれぞれに対して、ＯＣＲ処理を実行し、文字情報を抽出する。Ｓ６０７で、ＣＰＵ２６１は、ＯＣＲ処理により抽出された文字情報に基づき、ブロック領域ごとに文字種情報を属性情報として記憶する。例えば、ブロック領域をＯＣＲ処理した結果、文字情報が数字と金額の表示に用いられる一部の記号とにより構成されているとする。この場合、ＣＰＵ２６１は、抽出された文字情報に基づき、ブロック領域の属性情報は金額であると判定し、文字種情報は数字と金額の表示に用いられる一部の記号であると判定する。

また、ブロック領域をＯＣＲ処理した結果、文字情報が数字と金額の表示に用いられる日付を表す一部の漢字とにより構成されているとする。この場合、ＣＰＵ２６１は、抽出された文字情報に基づき、ブロック領域の属性情報は「日付」、文字種情報は数字と金額の表示に用いられる一部の漢字（“年”、“月”、“日”、“平”、“成”、“令”、“和”等）であると判定する。以上の判定結果（文字種情報、属性情報）は登録済帳票と関連付けられて、ストレージ２６５等に記憶される。同様に、住所や氏名、電話番号、会社名、注文書番号等の各項目で出現すると想定される文字種情報、属性情報は登録済帳票と関連付けられて、ストレージ２６５等に記憶される。

ＣＰＵ２６１は、ブロック領域をＯＣＲ処理したことにより得られる文字情報が、何れの属性にも該当しないと判定した場合、属性情報を「該当なし」としてストレージ２６５等に記憶する。登録済帳票と関連付けられて記憶されたブロック領域ごとの属性情報、文字種情報は、ユーザが入力デバイス２６６等を用いて、編集可能であってもよい。

Ｓ６０８で、ＣＰＵ２６１は、ストレージ２６５等に記憶されたブロック領域ごとの文字種情報を特定する。Ｓ６０９で、Ｓ６０１で取得した画像データのデータ形式（解像度や階調、圧縮方式等）の情報を認識する。Ｓ６１０で、復元条件に合致した学習済みモデルがストレージ２６５に記憶されているかを判定する。図５を用いて説明したように、学習装置１０２は、複数のデータ形式の条件と複数の文字種条件とのそれぞれについて学習モデルの機械学習を行う。そして、複数のデータ形式の条件と複数の文字種条件とのそれぞれに適合した複数の学習済みモデルが生成される。生成された複数の学習済みモデルはストレージ２６５に記憶される。

従って、ストレージ２６５に記憶されている複数の学習済みモデルは、それぞれ異なるデータ形式および複数の文字種条件に適した学習処理が行われている。このため、劣化画像からオリジナル画像に近い出力画像を推論するためには、学習処理のデータ形式および文字種条件に合致した学習済みモデルが使用される。そこで、ＣＰＵ２６１は、Ｓ６１０の判定を行う。復元条件のうち文字種条件が合致しているかは、学習済みモデルが、ブロック領域で使用される全ての文字種を含む学習セットを用いて学習されているかに基づき判定される。

ここで、復元条件は、文字種条件のみであってもよい。データ形式の条件が考慮されていない学習済みモデルが使用されたとしても、文字種条件に適した学習済みモデルを用いて、オリジナル画像の推論が行われることで、ブロック領域に含まれる文字情報を高い精度で復元することができる。この場合、学習処理においても、データ形式の条件を考慮した学習モデルの機械学習は行われない。

ＣＰＵ２６１は、Ｓ６１０でＮｏと判定した場合、フローをＳ６１３に進める。一方、ＣＰＵ２６１は、Ｓ６１０でＹｅｓと判定した場合、フローをＳ６１１に進める。Ｓ６１１で、ＣＰＵ２６１は、ストレージ２６５に記憶されている複数の学習済みモデルのうち、復元条件に合致した学習済みモデルを取得する。

Ｓ６１２で、ＣＰＵ２６１は、取得した学習済みモデルを用いて、劣化画像を復元する画像処理を行う。ＣＰＵ２６１は、Ｓ６０１で取得した画像データ（劣化画像）のブロック領域の画像を、取得した学習済みモデルに入力する。このとき、ＣＰＵ２６１は、劣化画像のブロック領域の画像を学習済みモデルの入力として、推論処理のための演算をＧＰＵ２６９に実行させる制御を行う。学習済みモデルからは推論結果として、ブロック領域の画像を復元した画像（復元画像）が得られる。画像データに複数のブロック領域が含まれている場合、各ブロック領域の画像を復元した複数の復元画像が得られる。学習済みモデルから出力される復元画像は、オリジナル画像のブロック領域の画像に近い画像である。特に、学習済みモデルの推論精度が高い場合、復元画像は、オリジナル画像のブロック領域の画像をほぼ再現した画像になる。

Ｓ６１３で、ＣＰＵ２６１は、ブロック領域についての復元画像または劣化画像に対して、ＯＣＲ処理を実行して、画像データのブロック領域に記載された文字情報（テキストデータ）を抽出する。Ｓ６１４で、抽出した文字情報を画像データのブロック領域と関連付けて、ストレージ２６５に記憶する。

ここで、学習処理および推論処理について説明する。図７は、学習処理および推論処理のサンプルを示す図である。図７（ａ）は、学習装置１０２が学習処理を行う際に用いられる学習セットのサンプルを示す図である。サンプル１およびサンプル２では、高品質な正解画像として「電」および「驚」が示されている。入力画像（学習用の画像）は、正解画像を劣化させた画像であり、正解画像の文字に欠損や変形等が生じている。学習処理では、入力画像が正解画像に近づくようにニューラルネットワークの重みパラメータが更新される。

図７（ｂ）は、推論対象の劣化画像および復元画像のサンプルを示す図である。サンプル１には、劣化画像が示されている。サンプル１の劣化画像のオリジナル画像が示す文字は「源」である。劣化画像は、例えば、ＦＡＸ送信により欠損や変形等生じたことに起因して劣化しており、判別することが難しい。このため、劣化画像に対してＯＣＲ処理が施された場合、認識される文字は、オリジナル画像が示す文字とは異なる「瀧」になる。一方、本実施形態では、劣化画像は学習済みモデルに入力され、学習済みモデルの推論結果として、サンプル１の復元画像が出力される。復元画像が示す文字は、劣化画像が示す文字よりも判別しやすい。復元画像に対してＯＣＲ処理が施された場合、認識される文字は、オリジナル画像示す文字と同じ「源」になる。

サンプル２も同様である。劣化画像が示す文字は、欠損や変形等生じたことに起因して劣化しており、判別することが難しい。劣化画像に対してＯＣＲ処理が施された場合、認識される文字は、オリジナル画像が示す文字と異なる「Ｏ」になる。一方、復元画像は、学習済みモデルの推論処理により劣化画像から復元されており、復元画像に対してＯＣＲ処理が施された場合、認識される文字は、オリジナル画像が示す文字と同じ「Ｄ」になる。従って、学習済みモデルを用いて、劣化画像から復元画像を推論することで、ＯＣＲ処理により文字が誤認識されることが抑制される。

ＯＣＲ処理としては、帳票マッチング処理で抽出された帳票が活字帳票であれば、活字ＯＣＲ処理を適用することができ、手書き帳票であれば、手書きＯＣＲ処理を適用することができる。つまり、ＣＰＵ２６１は、帳票マッチング処理で抽出された帳票に応じて、活字ＯＣＲ処理や手書きＯＣＲ処理等の処理モジュールを適宜選択して、ＯＣＲ処理を実行してもよい。

次に、ブロック領域ごとに文字種条件を考慮した画像復元および情報抽出について説明する。図８は、帳票の画像の一例を示す図である。図８の帳票８００は、複数の項目８０１～８１０を含む。項目８０１は、発行日を示す。項目８０４は、注文書番号を示す。項目８１０は、金額の合計を示す。例えば、項目８０１、８０４、８１０の文字情報が入力項目である場合、帳票８００に対してＯＣＲ処理が実行されて、認識された文字情報がストレージ２６５に記憶される。

図９は、劣化画像と復元画像と正解画像との一例を示す図である。図９（ａ）～（ｃ）に示される例は、例えば、上述した項目８０４の注文書番号のブロック領域の画像であるとする。図９（ａ）の劣化画像は、例えば、ＦＡＸ送信により画質が劣化している。劣化画像に対応するオリジナル画像には「Ｆ１Ｇ３」が記載されていたとする。当該文字画像は、アルファベットと数字とにより構成される文字種の文字の画像である。図９（ａ）の劣化画像に対してＯＣＲ処理が実行されると、例えば、「Ｇ」が「６」と誤認識されることがある。この場合、項目８０４の注文書番号が誤認識され、誤った注文書番号の情報が、業務システムとして機能する画像処理サーバ１０３に記憶される。

一方、本実施形態では、劣化画像は、学習済みモデルによる推論処理により復元され、学習済みモデルは復元画像を出力する。復元画像は、劣化画像よりも「Ｆ１Ｇ３」をＯＣＲ処理により認識しやすい画像になっている。従って、復元画像に対してＯＣＲ処理が実行されると、項目８０４の注文書番号が正しく認識され、正確な注文書番号の情報が、業務システムとして機能する画像処理サーバ１０３に記憶される。

図９（ｂ）は、項目８０４に対応するブロック領域のオリジナル画像が「４８２４０４」の数字により構成された文字情報である。当該文字情報の書体は、明朝体であるとする。劣化画像には、文字を構成する線分に欠損が生じている。劣化画像に対してＯＣＲ処理が実行されると、正しい文字情報が認識されない場合がある。一方、学習済みモデルにより推論された復元画像に対してＯＣＲ処理が実行されると、復元画像は正解画像に近くなる。このため、復元画像からＯＣＲ処理により正しい文字情報が認識されるようになる。図９（ｃ）の例は、オリジナル画像が「２８８９９６」の数字により構成された文字情報である。当該文字情報は、ゴシック体であるとする。劣化画像には、変形が生じているが、学習済みモデルにより推論された復元画像は、変形の度合いが低減され、正解画像に近くなっている。このため、復元画像から復元画像からＯＣＲ処理により正しい文字情報が認識されるようになる。

上述したように、文字種条件やデータ形式の条件に応じた多くの学習セットを用いて機械学習がされた複数の学習済みモデルが画像処理サーバ１０３に記憶される。そして、画像処理サーバ１０３は、推論対象のブロック領域の文字種条件やデータ形式の条件に応じた学習済みモデルに対して、劣化画像のブロック領域の画像を入力し、推論結果として復元画像を得る。学習済みモデルの推論処理により、劣化画像は、高い尤度を持つ文字形状の画像に近づくため、オリジナル画像の文字に近い文字の画像を取得することができる。そして、復元画像にＯＣＲ処理を実行することにより、オリジナル画像に記載されていた文字の認識精度が向上する。これにより、業務システムとして機能する画像処理サーバ１０３に正しい文字情報を記憶させることができる。

例えば、処理対象の帳票をスキャンやＦＡＸ送信等を行った場合、帳票の画像には劣化が生じ、画像の文字に欠損や変形等を生じ得る。このとき、上述したように、画像処理サーバ１０３は、処理対象の帳票または帳票の項目ごとに、適した学習済みモデルを用いて復元画像を得る。そして、画像処理サーバ１０３は、復元画像に対してＯＣＲ処理を実行することで、文字情報を高精度に抽出できる。すなわち、解像度低下や圧縮ノイズ等の劣化要因を有し、且つ文字種が限定される処理対象の帳票または項目に対して、対応する学習済モデルを用いて画像復元した後にＯＣＲ処理を行うことで、文字情報を高精度に抽出できる。

以上の第１実施形態では、帳票の画像に含まれるブロック領域ごとに文字情報の復元処理が行われているが、帳票の画像全体に含まれる文字情報の復元処理が行われてもよい。例えば、帳票の画像に含まれている項目数が少ない場合（例えば、１項目や２項目等の場合）、帳票の画像の全体に文字情報の復元処理が行われてもよい。この点は、以下の第２実施形態および第３実施形態でも同様である。

＜第２実施形態＞
次に、第２実施形態について説明する。第２実施形態では、復元条件として文字サイズの条件も加味した学習処理および推論処理が行われる。図５のフローチャートのＳ５０７で、第１実施形態では、複数の文字種条件および複数のデータ形式の条件についての学習セットを用いた学習モデルの機械学習が行われる。第２実施形態では、複数の文字種条件および複数のデータ形式の条件に加味して、さらに複数の文字サイズの条件についても学習モデルの機械学習が行われる。従って、複数の文字種条件、複数のデータ形式の条件および複数の文字サイズの条件のそれぞれに応じた複数の学習済みモデルが生成される。

第２実施形態では、文字サイズは、画素数で表されるものとする。ただし、文字サイズは、ポイント等の数値で表されてもよい。例えば、２４ｐｔの文字を３００ｄｐｉの解像度で帳票に印字した場合に、文字サイズの情報として１００画素を文字サイズの情報として取得することができる。第２実施形態では、例えば、大きい文字サイズ（１４ｐｔ～２ｐｔ）に対応する画素数と小さいサイズ（８ｐｔ～１２ｐｔ）に対応する画素数との２つの文字サイズの条件に分類される。そして、それぞれの文字サイズの条件に対応する画素数の学習セット（学習用の画像および正解画像）を用いて、学習モデルの機械学習が行われる。これにより、複数の文字種条件、複数のデータ形式の条件および複数の文字サイズの条件のそれぞれに応じた学習済みモデルが生成される。文字サイズの条件の分類は、上述した例には限定されない。

次に、図６を参照して、第２実施形態の画像処理について説明する。Ｓ６０８で、ＣＰＵ２６１は、ブロック領域ごとの文字種情報を特定するとともに、ブロック領域ごとの文字サイズの情報を特定する。例えば、図８の項目８０１～８１０のうち、項目８０１～８０４は、１６ｐｔのポイントに対応する画素数であるとする。この場合、Ｓ６１１で、ＣＰＵ２６１は、大きい文字サイズの学習セットを用いて機械学習された学習済みモデルを取得する。そして、Ｓ６１２で、ＣＰＵ２６１は、取得された学習済みモデルに劣化画像を入力して、学習済みモデルが推論した復元画像を取得する。

図８の項目８０１～８１０のうち、項目８０５～８１０は、１０ｐｔのポイントに対応する画素数であるとする。この場合、Ｓ６１１で、ＣＰＵ２６１は、小さい文字サイズの学習セットを用いて機械学習された学習済みモデルを取得する。そして、Ｓ６１２で、ＣＰＵ２６１は、取得された学習済みモデルに劣化画像を入力して、学習済みモデルが推論した復元画像を取得する。以上により、文字サイズの条件も考慮した学習済みモデルによる復元処理を行うことができる。

上述したように、第２実施形態では、文字サイズの条件に合致した学習済モデルを適用して復元処理を行うことができるため、より高い精度で、劣化画像から復元画像を推論することができる。そして、復元画像に対してＯＣＲ処理が実行されると、文字情報を高度に抽出することができる。

＜第３実施形態＞
次に、第３実施形態について説明する。第３実施形態では、帳票に含まれる各ブロック領域のうち一部のブロック領域に限定して、復元処理およびＯＣＲ処理が行われる。第３実施形態では、画像処理サーバ１０３には、画像復元の対象となる１以上のブロック領域が予め指定されている。例えば、帳票における金額（単価、合計）や電話番号、商品コード、注文書番号等のように他のデータベース情報との照合に用いる数字および記号は、特に、高い認識精度が求められる。従って、帳票のうち高い認識精度が求められる１以上のブロック領域は、復元対象として予め指定される。指定される項目は、例えば、受注者が、入力デバイス２６６を用いて、画像処理サーバ１０３に登録してもよい。

例えば、図８の帳票８００の例において、数字のみの文字種条件で表される項目８０４、８０５、８０７に対応するブロック領域が、復元対象として指定されたとする。この場合、図６のＳ６１０で、ＣＰＵ２６１は、項目８０４、８０５、８０７については、Ｙｅｓと判定し、Ｓ６１１およびＳ６１２の処理を行う。一方、ＣＰＵ２６１は、項目８０４、８０５、８０７以外の各項目については、Ｓ６１０でＮｏと判定し、Ｓ６１１およびＳ６１２の処理を行わない。

また、図８の帳票８００の例において、数字と一部の記号とにより構成される文字種条件で表される項目８０４～８１０に対応するブロック領域が、復元対象として指定されたとする。この場合、図６のＳ６１０で、ＣＰＵ２６１は、項目８０４～８１０については、Ｙｅｓと判定し、Ｓ６１１およびＳ６１２の処理を行う。一方、ＣＰＵ２６１は、項目８０４～８１０以外の各項目については、Ｓ６１０でＮｏと判定し、Ｓ６１１およびＳ６１２の処理を行わない。

以上のように、第３実施形態では、予め指定された項目に対応するブロック領域に限定して、復元処理およびＯＣＲ処理が行われる。復元処理は、学習済みモデルによる推論処理により実現される。学習済みモデルによる推論処理の演算量は膨大である。第３実施形態のように、復元処理の対象となるブロック領域が限定されることで、演算量を低減される。その結果、画像処理にかかる時間を短縮できる。また、文字認識に高い精度が求められる項目に対応するブロック領域については、学習済みモデルを用いた復元処理が行われるため、必要最小限の処理が追加されることで、高い認識精度を維持することができる。

以上、本発明の好ましい実施の形態について説明したが、本発明は上述した各実施の形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。本発明は、上述の各実施の形態の１以上の機能を実現するプログラムを、ネットワークや記憶媒体を介してシステムや装置に供給し、そのシステム又は装置のコンピュータの１つ以上のプロセッサーがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０１画像形成装置
１０２学習装置
１０３画像処理サーバ
２６１ＣＰＵ
２９１ＧＰＵ

Claims

文字情報の画像を含む画像データを取得する取得手段と、
前記文字情報の文字種を特定する特定手段と、
複数の文字種条件のそれぞれに対応する学習用の画像と正解画像とを用いて機械学習された複数の学習済みモデルから、特定された前記文字種に対応する学習済みモデルを取得し、取得した前記学習済みモデルに前記文字情報の画像を入力して、当該文字情報の画像を復元する画像処理手段と、
を備えることを特徴とする画像処理装置。
前記画像処理手段は、復元した前記文字情報の画像に光学文字認識処理を施し、前記文字情報を認識することを特徴とする請求項１に記載の画像処理装置。
前記画像データは、スキャナで読み取られた画像データまたはＦＡＸ送信された画像データであることを特徴とする請求項１または２に記載の画像処理装置。
前記複数の学習済みモデルは、さらに複数のデータ形式の条件のそれぞれに対応する学習用の画像と正解画像とを用いて機械学習されており、
前記画像処理手段は、前記画像データのデータ形式に対応する学習済みモデルを取得することを特徴とする請求項１乃至３のうち何れか１項に記載の画像処理装置。
前記画像処理手段は、前記画像データに含まれる複数のブロック領域のそれぞれの文字情報の画像を復元することを特徴とする請求項１乃至４のうち何れか１項に記載の画像処理装置。
前記ブロック領域の文字情報の画像の文字種は、光学文字認識処理により特定されることを特徴とする請求項５に記載の画像処理装置。
前記画像データは、帳票の画像データであり、
前記ブロック領域は、前記帳票に含まれる１以上の項目であることを特徴とする請求項５または６に記載の画像処理装置。
前記画像処理手段は、前記複数のブロック領域のうち文字種が登録されているブロック領域に対して前記文字情報の画像を復元する処理を行い、前記文字種が登録されていないブロック領域に対して前記文字情報の画像を復元する処理を行わないことを特徴とする請求項５乃至７のうち何れか１項に記載の画像処理装置。
前記複数の学習済みモデルは、さらに複数の文字サイズの条件のそれぞれに対応する学習用の画像と正解画像とを用いて機械学習されており、
前記画像処理手段は、前記画像データの文字サイズに対応する学習済みモデルを取得することを特徴とする請求項５乃至８のうち何れか１項に記載の画像処理装置。
前記画像処理手段は、前記複数のブロック領域のうち指定されたブロック領域に対して前記文字情報の画像を復元する処理を行い、指定されていないブロック領域に対して前記文字情報の画像を復元する処理を行わないことを特徴とする請求項５乃至９のうち何れか１項に記載の画像処理装置。
文字情報の画像を含む画像データを取得する工程と、
前記文字情報の文字種を特定する工程と、
複数の文字種条件のそれぞれに対応する学習用の画像と正解画像とを用いて機械学習された複数の学習済みモデルから、特定された前記文字種に対応する学習済みモデルを取得し、取得した前記学習済みモデルに前記文字情報の画像を入力して、当該文字情報の画像を復元する工程と、
を備えることを特徴とする画像処理方法。
請求項１乃至１０のうち何れか１項に記載の画像処理装置の各手段をコンピュータに実行させるためのプログラム。