JP2023131230A

JP2023131230A - 画像処理システム及びプログラム

Info

Publication number: JP2023131230A
Application number: JP2022035831A
Authority: JP
Inventors: 茂田所; Shigeru Tadokoro
Original assignee: Canon Electronics Inc
Current assignee: Canon Electronics Inc
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2023-09-22

Abstract

【課題】前段の処理の内容によっては、後段の処理に充分な精度が得られない場合があった。【解決手段】画像処理システムにおいて、画像データを取得する画像取得部と、前記画像取得部で取得した画像データに画像処理を実施する画像処理部と、前記画像処理が実施された画像データに、前記画像処理に関するパラメーターであって、後段の処理で利用されるパラメーターを紐づけ、前記画像データと共に後段の処理を行う処理装置に引き渡す引き渡し部とを備えた。【選択図】図４

Description

本発明は、取得した画像データに画像処理を実施する画像処理システム及びそのシステムに用いられるプログラムに関する。

従来から、帳票や原稿を読み取って画像データを取得する画像読取装置と、この画像読取装置で取得した画像データに画像処理を行う画像処理装置とを備えた画像処理システムが知られている。特に近年においては、取得した画像データに光学文字認識（Optical Character Recognition：以下、ＯＣＲと記す）処理を行い、帳票や原稿に印刷された文字や、人の手によって書かれた手書き文字を認識させる技術が用いられている。この技術を応用すると、認識された文字に基づいて、画像データのファイル名の命名や、画像データから導出した一連のメタデータのタグ付け等の処理を自動的に行い、業務を効率化することが可能となる。

特許文献１には、画像処理装置でビットマップ画像に第１のＯＣＲ処理を行い、誤認識が含まれる可能性が高いと判定した場合には、第１のＯＣＲ処理の処理結果にビットマップ画像を付加して出力することで、ネットワークを介して接続されたより高性能なＯＣＲエンジンで第２のＯＣＲ処理を行うことが可能な画像処理システムが記載されている。

特開２００９－１８１４６５号公報

前述のような高性能なＯＣＲとしては、機械学習・深層学習により大量の学習データを基に予測判断を行う人工知能（Artificial Intelligence：以下、ＡＩと記す）を用いた、ＡＩ－ＯＣＲが知られている。このＡＩ－ＯＣＲは、学習データを集め易くするために、クラウドネットワーク上（サーバー上）に置かれることが多い。また、ＡＩ－ＯＣＲの学習データは、原稿をカラーで読み込んだ自然画像データが用いられる。

しかしながら、ＡＩ－ＯＣＲを用いる場合に、文字認識を行う画像データに、前段の画像処理装置において、人間が認知し易いように二値化等の画像処理が行われていると、学習データと異なるために、ＡＩ－ＯＣＲの認識精度を充分に発揮できないことが考えられた。

このような課題を解決するため、本発明の画像処理システムは、画像データを取得する画像取得部と、前記画像取得部で取得した画像データに画像処理を実施する画像処理部と、前記画像処理が実施された画像データに、前記画像処理に関するパラメーターであって、後段の処理で利用されるパラメーターを紐づけ、前記画像データと共に後段の処理を行う処理装置に引き渡す引き渡し部とを備えたことを特徴とする。

本発明によれば、画像処理が実施された画像データと共に、画像処理に関するパラメーターを後段の処理を行う処理装置に引き渡すので、後段の処理において、このパラメーターを用いて処理の精度を向上させることができる。

本発明の一実施形態の画像処理システムを示す斜視図。本実施形態に用いられる画像読取装置の構成を示す概略断面図。本実施形態に用いられる画像読取装置の機能ブロック図。本実施形態の画像処理システムの機能ブロック図。本実施形態における画像処理テーブルの一例を示す図。本実施形態における帳票ＩＤ認識処理テーブルの一例を示す図。本実施形態の制御ドライバーにおける画像処理の流れを説明するフローチャート。本実施形態のスキャンサービスプログラムにおける帳票ＩＤ認識処理の流れを説明するフローチャート。本実施形態のＡＩ－ＯＣＲサーバーにおけるＡＩ－ＯＣＲ処理の流れを説明するフローチャート。

以下、本発明の一実施形態に関して、図面を用いて詳細に説明する。なお、全ての図面を通して、同一の部材には同一の符号を付し、重複した説明は省略する。また、本発明は、以下に説明する実施形態に限定されるものではない。

＜画像処理システムの構成＞
図１は、本発明の一実施形態の画像処理システムを示す斜視図である。図１において、画像読取装置１には、通信ケーブル３を介して、画像処理装置２が通信可能に接続されている。本実施形態においては、画像処理装置２としてパーソナルコンピューター（以下、ＰＣと記す）が用いられている。一方、画像読取装置１は、原稿を載置するための原稿載置部４、原稿が搬送される搬送路１４及び原稿を排出する原稿排紙部１３を備えている。

＜画像読取装置の構成＞
図２は、図１の画像読取装置１の構成を示す概略断面図である。画像読取装置１は、原稿Ｓを搬送路１４に一枚ずつ給送する為、搬送ローラ５及び分離ローラ６を有している。また、搬送路１４内には、搬送された原稿の画像を読み取る為のタイミングを算出する為に、原稿の有無を検出するレジストセンサー９が設けられている。更に、搬送路１４には、原稿の表面の画像を読み取る為の表用画像読取部１０と、原稿の裏面の画像を読み取る為の裏用画像読取部１１とが設けられている。

＜画像読取装置の機能＞
図３は、図１に示す画像読取装置１の機能ブロック図である。図３に示すように、画像読取装置１は、情報を伝達するシステムバス１５に対し、ＡＤＦ（Auto Document Feeder）スキャナー部となる画像読取部１６が接続されている。また、システムバス１５には、ＣＰＵ（Central Processing Unit）からなる制御部１７、不揮発性の記録媒体１８、ＲＡＭ（Random Access Memory）１９及び外部通信Ｉ／Ｆ（インターフェース）２０がそれぞれ接続されている。

記録媒体１８には、実際の読取動作を指示する処理プログラム等が格納されている。制御部１７は、この処理プログラムに従って、画像読取部１６等を制御することによって、読取動作を行う。ＲＡＭ１９は、画像読取部１６で読み取られた画像データや、プログラムなどを一時的に蓄積する。また、外部通信Ｉ／Ｆ２０は、解像度等の各種読取条件などを画像処理装置２から受信し、読み取った画像データ等を画像処理装置２に送信する等の機能を有する。本実施形態では、外部通信Ｉ／Ｆ２０として、ＵＳＢ(Universal Serial Bus)を用いている。

＜画像読取装置の動作＞
画像読取装置１は、画像処理装置２上で起動している、後述する制御ドライバー２７（図４参照）から指示を受けると、画像読取動作を開始する。まず、原稿載置部４に載置された原稿を、分離ローラ６で一枚ずつ分離しながら、搬送ローラ５により搬送路１４の搬送方向下流へ給送を行う。レジストセンサー９によって原稿の先端が通過したのを検出すると、不図示のタイマーで時間の測定を行い、Ｌ１／Ｖ後に表用画像読取部１０で原稿Ｓの表面の読み取りを行う。ここで、Ｌ１はレジストセンサー９と表用画像読取部１０との距離、Ｖは原稿Ｓの搬送速度をそれぞれ示す。同様に、レジストセンサー９による検出からＬ２／Ｖ後に、裏用画像読取部１１で原稿Ｓの裏面の読み取りを行う。ここで、Ｌ２はレジストセンサー９と裏用画像読取部１１との距離である。

なお、レジストセンサー９の位置に、不図示の超音波重送検知センサーが設けられている。この超音波重送検知センサーは、超音波発生器と超音波受信器とを組み合わせて構成され、搬送される原稿Ｓが１枚か、２枚以上かを判別する。判別結果は、重送検知結果として記録される。ここでは、超音波発生器からある位相、強度の超音波を発生させ、紙を挟んだ対向面に配置された超音波受信器で受信し、超音波の位相のずれ、強度の減少に基づいて上記の判別を行う。

一方、原稿の後端がレジストセンサー９を通過したことを検出すると、Ｌ２／Ｖ経過後に画像一枚分の読取が終了したと判断し、読取を終了する。表用画像読取部１０及び裏用画像読取部１１は、図３における画像読取部１６に相当する。そのため、読み取られた画像データは随時、システムバス１５を通じてＲＡＭ１９に送られ、そこに蓄積される。先に説明した制御ドライバー２７（図４参照）は、画像読取装置１において１枚分の原稿の読み取りが完了しているかを監視している。制御ドライバー２７は、１枚分の原稿の読み取りを完了していることを検知したら、画像転送の開始を画像読取装置１に指示する。

制御ドライバー２７の指示に従って、原稿の画像読み取りを終えた画像読取装置１は、ＲＡＭ１９に蓄積された画像データを、システムバス１５、外部通信Ｉ／Ｆ２０及び通信ケーブル３を介して、後述する画像処理に関するパラメーターと共に画像処理装置２へ転送する。そして、原稿Ｓは、原稿排紙部１３へ排出される。なお、表用画像読取部１０と裏用画像読取部１１との搬送方向に対する上下流の位置については、本実施形態に限らず、表用画像読取部１０を上流側にしても良い。

＜画像処理システムの機能＞
図４は、本発明の画像処理システムの一実施形態である、ＡＩ－ＯＣＲネットワークスキャニングシステムの機能ブロック図である。本システムは、大きく分けて３つの装置、画像読取装置１、画像処理装置２及びハードウェアであるＡＩ（人工知能）－ＯＣＲ（光学文字認識）サーバー２１から構成されている。画像読取装置１と画像処理装置２は、先に説明したように、通信ケーブル３によって接続されている（図１参照）。一方、画像処理装置２とＡＩ－ＯＣＲサーバー２１は、無線又は有線接続によるネットワークを経由して接続されている。そのため、画像処理装置２とＡＩ－ＯＣＲサーバー２１は、ＩＰアドレスを用いて通信を行う。

画像処理装置２は、外部通信Ｉ／Ｆ２８、ユーザーＩ／Ｆ（インターフェース）２２、制御ドライバー２７及びスキャンサービスプログラム２６を有する。外部通信Ｉ／Ｆ２８は、ＡＩ－ＯＣＲサーバー２１等とネットワーク通信を行う。ユーザーＩ／Ｆ２２は、不図示のタッチパネルやキーボード等を介して、使用者（ユーザー）の指示を受け付ける。制御ドライバー２７及びスキャンサービスプログラム２６はソフトウェアである。制御ドライバー２７は、画像読取装置１を制御する。

画像処理装置２は、ユーザーＩ／Ｆ２２上で、ソフトウェア部品であるＷｅｂブラウザー２５の画面を表示する。Ｗｅｂブラウザー２５は、ユーザーＩ／Ｆ２２上でのユーザー入力の結果（スキャン設定）をスキャンサービスプログラム２６に通知する。スキャンサービスプログラム２６は、ユーザー入力に基づき、スキャン設定を決定する。スキャンサービスプログラム２６は、このスキャン設定を制御ドライバー２７に通知する。制御ドライバー２７は、通知されたスキャン設定のうち、本体スキャン設定に基づいて、画像読取装置１に読み取り動作（スキャン）を行わせる。一方、画像読取装置１において読み取られた（取得された）画像データは、スキャンサービスプログラム２６によって、ＡＩ－ＯＣＲサーバー２１に引き渡される。この際、後述する画像処理に関するパラメーターが画像データと共に、ＡＩ－ＯＣＲサーバー２１に引き渡される。

＜画像処理テーブル＞
本実施形態においては、前述の読み取り動作の際に、図５に示す画像処理テーブルを作成する。画像処理テーブルは、第１列が「行番号」、第２列が「画像処理の内容」、第３列が「画像処理の結果」、第４列がこのスキャン指示での「画像処理の実施の有無」を示すものとなっている。また、第５列が「処理実施の順番」、第６列が「画像読取装置における実施の可否」、第７列が、「処理実施の順番のテンプレート」となっている。この画像処理テーブルは、第３列が空欄、第４列が全て「未実施」、第５列が空欄の状態をテンプレートとして、画像処理装置２内の不図示のメモリに予め格納されている。

本実施形態においては、図５の画像処理テーブルの処理内容のうち、自動サイズ検知、斜行補正、ＪＰＥＧ（joint Photographic Experts Group）圧縮、重送検知、影消し、ガンマ補正、解像度変換及びエッジ強調処理がユーザーにより設定された場合を例として、以下に説明する。スキャンサービスプログラム２６は、ユーザーによって設定された画像処理に関し、画像処理テーブルの第４列を「未実施」から「実施」に変更する。続いて、画像処理テーブルのうち、第４列が「実施」となっている処理行を抽出する。そして、抽出された処理行の第５列に、第７列のテンプレートの順番の若い順に、数字を一つずつ増やしながら記録していく。これにより、今回のスキャン指示における画像処理の実施の順番が決定される。なお、それぞれの画像処理の内容については、後ほど説明する。

スキャンサービスプログラム２６は、ユーザーＩ／Ｆ２２からのユーザーの指示に基づいて、制御ドライバー２７に画像読取の開始の指示を行う。この指示に従い、制御ドライバー２７は画像読取装置１にコマンドを送信し、読み取り動作（スキャン）を実行させる。この際、コマンドには、図６の画像処理テーブルにおいて、画像読取装置で実施可能とされた重送検知及びＪＰＥＧ圧縮を実施する指示が含まれている。なお、コマンドには、画像を読み取る際の光学解像度、カラーモード（白黒、グレー、カラー）も含まれている。

＜画像読取装置における画像処理＞
制御ドライバー２７からコマンドを受けた画像読取装置１は、原稿の読み取りを行い、画像データを取得する。その際、コマンドに含まれた重送検知及びＪＰＥＧ圧縮を実施する。そして、取得した画像データを、重送検知及びＪＰＥＧ圧縮の結果（本体処理結果）と共に、制御ドライバー２７に送信する。ＪＰＥＧ圧縮の場合は、処理結果としてはＪＰＥＧ圧縮の有無である。ここで、本体処理結果は、画像処理に関するパラメーターの一部である。この処理結果の例は、図６に示した通りである。これらの処理結果は、後述するように、後段の処理において精度を向上させる上で、重要な情報となる。

＜制御ドライバーにおける画像処理＞
画像読取装置１から画像データ及び本体処理結果を受信した制御ドライバー２７は、図６の画像処理テーブルの第４列に実施とされた処理のうち、残りの画像処理を実施する。つまり、画像読取装置１で実施された重送検知及びＪＰＥＧ圧縮を除き、図６の第５列の順番で３番目以降の処理を順に実施する。そして、制御ドライバー２７で実施した画像処理の結果（ドライバー処理結果）を、本体処理結果とマージして図６のような画像処理結果（画像処理に関するパラメーター）を生成する。制御ドライバー２７は、この画像処理に関するパラメーターを、画像データと共に、スキャンサービスプログラム２６に送信する。制御ドライバー２７における処理は、後ほど詳述する。

＜スキャンサービスプログラムにおける画像処理＞
制御ドライバー２７から、画像データ及び本体処理結果を受信したスキャンサービスプログラム２６は、画像データに対して、帳票ＩＤ（identification）認識処理を実施する。帳票ＩＤ認識処理とは、読み取られた原稿が、予め登録された複数種類の帳票のいずれかに該当するかを判別するための処理である。帳票ＩＤ認識処理は、画像処理装置２の不図示のメモリに記憶されている帳票ＩＤ認識処理テーブルを読み出し、不図示のＲＡＭ上に展開した後、後述する流れで実施される。

＜帳票ＩＤ認識処理テーブル＞
図６は、前述の帳票ＩＤ認識処理テーブルの一例を示す図である。このテーブルは、第１列が「処理行番号」、第２列が「帳票ＩＤ認識処理内容」、第３列が「認識結果の出力」、第４列が「認識処理の成否」、第５列が「認識処理の確からしさ」を示すものとなっている。本実施形態においては、この帳票ＩＤ認識処理も、画像データの画像処理の一つである。そのため、帳票ＩＤ認識処理の結果も、画像処理に関するパラメーターとなる。

＜ＡＩ－ＯＣＲサーバーへの引き渡し＞
スキャンサービスプログラム２６は、帳票ＩＤ認識処理を終了すると、この認識処理の結果と、図５に示す画像処理の結果をマージする。そして、マージした情報（画像処理に関するパラメーター）を、画像データと共に、ＡＩ－ＯＣＲサーバー２１に引き渡す（送信する）。ＡＩ－ＯＣＲサーバー２１は、受信した画像処理に関するパラメーターを利用して、受信した画像データのＡＩ－ＯＣＲ処理を行う。ＡＩ－ＯＣＲ処理に関しては、後ほど詳述する。また、ＡＩ－ＯＣＲサーバー２１は、画像処理装置２に画像データとＯＣＲ結果を送信する。画像処理装置２は、ユーザーＩ／Ｆ２２において、ＯＣＲ結果を表示する。

＜本実施形態における効果＞
本実施形態においては、このように後段の処理を行う処理装置（ＡＩ－ＯＣＲサーバー）に、画像データと共に、画像処理に関するパラメーターを引き渡す。そのため、処理装置において、このパラメーターを用いて画像データに後段の処理（ＡＩ－ＯＣＲ処理）を実施することができ、後段の処理の精度を向上させることができる。

＜特許請求の範囲との対応＞
本実施形態の画像読取装置１、特に図３の画像読取部１６が、特許請求の範囲に記載の「画像取得部」に対応する。同じく、図４に示す画像読取装置１、制御ドライバー２７、スキャンサービスプログラム２６が、「画像処理部」に対応する。また、スキャンサービスプログラム２６が「引き渡し部」に対応する。更に、ＡＩ－ＯＣＲサーバー２１が、「後段の処理を行う処理装置」に対応する。また、画像読取装置１における本体処理結果、制御ドライバー２７におけるドライバー処理結果、スキャンサービスプログラム２６における帳票ＩＤ認識処理の結果が、「画像処理に関するパラメーター」に対応する。

＜制御ドライバーにおける画像処理の流れ＞
図７は、先に説明した制御ドライバー２７における画像処理の流れを説明するフローチャートである。まず、ステップＳ７１において、制御ドライバー２７は、画像読取装置１から送られてきた画像データを受信する（図４参照）。続いて、ステップＳ７２において、制御ドライバー２７は、前段の画像処理結果として、画像読取装置１で実施された画像処理の結果を受信する。本実施形態においては、ＪＰＥＧ圧縮の有無と重送検知の結果を受信する。ここで、制御ドライバー２７は、図５に示す画像処理テーブルの第４行及び第５行の第４列を「実施」から「実施済」に変更する。

次に、ステップＳ７３において、制御ドライバー２７は、現在の処理実施の順番を最初に行うものへ設定する。つまり、図６の画像処理テーブルにおいて、第４列が「実施」となっているもののうち、第５列の順番が最も早い処理を設定する。本実施形態においては、順番が３番目の「自動サイズ検知」となる。続いて、ステップＳ７４において、現在の実施順番に相当する画像処理があるか否かを判断する。本実施形態においては、順番が３番目の「自動サイズ検知」が存在するため、ステップＳ７５に進む。ステップＳ７５においては、現在の実施順番の画像処理を行う。本実施形態では、自動サイズ検知を実施する。

続いて、ステップＳ７６において、現在の実施順番の処理結果を記録する。本実施形態においては、自動サイズ検知の結果を記録する。そして、図５の画像処理テーブルにおいて、１行目の自動サイズ検知の第４列を「実施」から「実施済」に変更する。その後、ステップＳ７７において、現在の処理実施の順番をインクリメントして、ステップＳ７４に戻る。本実施形態においては、順番を３番目から４番目に変更する。ステップＳ７４に戻ると、実施順番が４番目の「斜行補正」があるので、ステップＳ７５に進み、「斜行補正」を実施する。この後、実施順番の処理がなくなるまで、ステップＳ７４～Ｓ７７をループする。本実施形態においては、図５の画像処理テーブルにおいて、実施順番が８番目の「エッジ強調処理」まで実施する。

実施順番が３～８番目までの画像処理を実施してステップＳ７４に戻ると、図５の画像処理テーブルにおいて、９番目に実施する処理は存在しないので、ステップＳ７８に進む。ステップＳ７８においては、実施順番が１～８番目までの画像処理が実施された処理済の画像データをスキャンサービスプログラム２６に送信する。その後、ステップＳ７９において、記録しておいた実施順番が３～８番目の画像処理の結果を、画像読取装置１から送信されたＪＰＥＧ圧縮と重送検知の結果とマージする。そして、このマージされた画像処理の結果（画像処理に関するパラメーター）を、スキャンサービスプログラム２６に送信して、処理を終了する。

＜帳票ＩＤ認識処理の流れ＞
図８は、スキャンサービスプログラム２６における、帳票ＩＤ認識処理の流れを説明するフローチャートである。まず、ステップＳ８１において、スキャンサービスプログラム２６は、制御ドライバー２７から送信された画像データ及び画像処理の結果を受信する（図４参照）。続いて、ステップＳ８２において、現在の処理行番号を「１」に設定して、ステップＳ８３に進む。ステップＳ８３においては、現在の処理行番号の処理があるか否かを判断する。本実施形態においては、図６に示す帳票ＩＤ認識処理テーブルにおいて、処理行番号が「１」の「領域指定ＯＣＲ」が存在するので、ステップＳ８４に進む。

ステップＳ８４においては、現在の処理行番号の処理を実施する。本実施形態では、処理行番号「１」の「領域指定ＯＣＲ」を実施する。そして、ステップＳ８５において、処理結果である、「認識結果の出力」、「認識処理の成否」及び「認識処理の確からしさ」を記録する。その後、ステップＳ８６において、現在の処理行番号をインクリメント、つまり処理行番号を「１」から「２」に変更して、ステップＳ８３に戻る。ステップＳ８３に戻ると、処理行番号「２」の「バーコード認識」が存在するので、ステップＳ８４に進み、「バーコード認識」を実施する。この後、現在の処理行番号の処理がなくなるまで、ステップＳ８３～Ｓ８６をループする。本実施形態においては、図６の帳票ＩＤ認識処理テーブルにおいて、処理行番号「４」までを実施する。なお、各処理行番号における処理の内容に関しては、後述する。

処理行番号が「１」～「４」までの処理を実施してステップＳ８３に戻ると、処理行番号が「５」の処理は存在しないので、ステップＳ８７に進む。ステップＳ８７においては、帳票ＩＤ認識処理が実施された処理済の画像データをＡＩ－ＯＣＲサーバー２１に送信する。その後、ステップＳ８８において、記録しておいた処理行番号「１」～「４」の処理結果を、制御ドライバー２７から送信された画像処理の結果とマージする。そして、このマージされた画像処理の結果（画像処理に関するパラメーター）を、ＡＩ－ＯＣＲサーバー２１に送信して、処理を終了する。

＜ＡＩ－ＯＣＲ処理の流れ＞
図９は、ＡＩ－ＯＣＲサーバー２１における、ＡＩ－ＯＣＲ処理の流れを説明するフローチャートである。まず、ステップＳ９１において、ＡＩ－ＯＣＲサーバー２１は、スキャンサービスプログラム２６からネットワークを通して送られてきた画像データを受信する（図４参照）。続いて、ステップＳ９２において、ＡＩ－ＯＣＲサーバー２１は、画像読取装置１及び画像処理装置２において実施された全ての画像処理の結果（画像処理に関するパラメーター）を受信する。

次に、ステップＳ９３において、受信した画像処理に関するパラメーターに基づいて、ＯＣＲ処理の内容を変更する。例えば、ＪＰＥＧ圧縮が行われていた場合、予めＪＰＥＧ圧縮を行った学習データで学習したＡＩ－ＯＣＲエンジンに切り換えて、ＯＣＲ処理を行う。また、原稿の斜行補正の結果から、副走査方向特有の色ずれ軽減補正が必要であれば、それをかけた状態の学習データを用意して、これに切り替えて処理を行う。このように、画像処理に関するパラメーターが引き渡されていることによって、学習データにフィルターを選択的にかける等により、認識精度を向上させることができる。

続いて、ステップＳ９４において、帳票ＩＤ認識処理の結果に基づいて、テンプレートを適用する。本実施形態においては、手書き文字認識を行う領域の抽出を行う。図６のテーブルの第４列の「認識処理の成否」から、まず成功しているものを抽出し、次に第５列の「認識処理の確からしさ」の値が高いものを選択する。そして、最後に「認識結果の出力」を抽出する。例えば、「２Ｄコード認識」が選択されると、テーブルに記録された帳票レイアウトデータを基に、手書き文字認識すべき領域を抽出する。そして、ステップＳ９５においてＡＩ－ＯＣＲ処理を実施して、結果を取得し、処理を終了する。本実施形態においては、ＡＩ－ＯＣＲ処理の結果、抽出した文字列は、画像処理装置２に送信され、ユーザーＩ／Ｆ２２上で動作するＷｅｂブラウザー２５で表示する。このように、前段で行った画像処理に関連したパラメーターを、後段の処理装置に引き渡すことによって、後段の処理の精度を向上させることができる。

＜画像処理内容の説明＞
以下、図５に示した画像処理テーブルに記載した画像処理のうち、本実施形態において実施した各処理の内容を説明する。また、図６に示した帳票ＩＤ認識処理テーブルにおける各処理の内容も説明する。

＜自動サイズ検知＞
画像処理テーブル（図５）の１行目の「自動サイズ検知」とは、原稿の紙サイズを画像情報やセンサー情報から検出し、切り出してフィットしたサイズの画像を作成する処理である。本実施形態では、矩形として検出された紙原稿の４隅の座標を検出している。画像処理の結果、サイズ情報として、原稿輪郭の点座標情報が記録される。このサイズ情報が、画像処理に関するパラメーターに相当する。

＜斜行補正＞
画像処理テーブル（図５）の３行目の「斜行補正」とは、画像読取装置に原稿が斜めに入った場合に、その角度を検出し、画像データに対し、斜めに入った分の角度を補正する技術である。本実施形態においては、先に説明した「自動サイズ検知」において検出した、４隅の座標と辺から、垂直に入った場合に対する角度の差異を検出し、アフィン変換を行って傾きを補正する。ここで、検知された斜行検知角度が、画像処理に関するパラメーターに相当する。

＜ＪＰＥＧ圧縮の結果＞
画像処理テーブル（図５）の４行目の「ＪＰＥＧ圧縮」に関しては、先に説明したように、ＪＰＥＧ圧縮の有無が、後段の処理を行う処理装置に引き渡される。詳述すると、ＪＰＥＧ圧縮を行った場合に、その都度、結果として一般的な品質のパラメーターに加え、ＹＵＶのサンプリングファクターも記録される。ここで、ＹＵＶとは、輝度信号Ｙと２つの色差信号を使って表現される色空間である。非可逆圧縮であるＪＰＥＧは一度ＹＵＶのサンプリングファクターを、ＹＵＶ４１１などに色差成分を間引くと、その後、ＹＵＶ４４４でリサンプリングしても、情報としては欠落する。例えば、画像読取装置１内部ではＹＵＶ４１１でＪＰＥＧ圧縮を行い、制御ドライバー２７で画像処理のために圧縮を解き、生画像で処理を行う。その後、ＹＵＶ４４４にサンプリングファクターを変化させてからＪＰＥＧ圧縮を行ったとする。すると、ヘッダー情報にはＹＵＶ４４４の圧縮が行われた時の情報が残っているが、画像読取装置１における圧縮の情報は残っていない。そこで、画像読取装置１内の圧縮時のパラメーターと、制御ドライバー２７の出力時の圧縮パラメーターの２つを引き渡すようにすれば、色差情報が元々の画像に比べて欠落していることが、後段の処理を行う処理装置に伝わる。このようにヘッダー以外に、画像処理に関するパラメーターを、付加情報として後段の処理に引き渡すことは、同じ処理でもパラメーターを変えて複数回行われるケースで有用である。

＜重送検知＞
画像処理テーブル（図５）の５行目の「重送検知」とは、２枚以上の原稿が重なって給送された場合に、これをセンサー又は画像情報から検出して、使用者（ユーザー）に通知する技術である。重送が検知された場合、基本的に原稿が重なって入った時点で、画像読取装置１が搬送を中断して、画像出力をキャンセルする。ところが、使用者（ユーザー）の判断で、付箋紙や訂正で貼り合わせた紙などが貼られている場合は、そのまま画像を出力させることがある。その場合に、重なって搬送された領域は、従来の帳票には無かった情報となる可能性がある。そのため、重送が検知された範囲を、画像処理に関するパラメーターとして後段の処理を行う処理装置に引き渡す。すると、帳票レイアウトを判定する際に、重なって搬送されたと検出された範囲を無視して判定することにより、判定の精度を上げることが出来る。このように、後段の処理装置に、重送検知結果のパラメーターを引き渡すことは有用である。

＜影消し＞
画像処理テーブル（図５）の９行目の「影消し」とは、画像読み取り時に原稿に照射される光により、原稿の縁に画像データとして付いてしまう影を検出して、除去する技術である。ここで、影として認識した領域の情報が、画像処理に関するパラメーターに相当する。

＜ガンマ補正＞
画像処理テーブル（図５）の１３行目の「ガンマ補正」とは、画像の明るさを調整するために、入力データに対して、出力データの出力値を補正する技術である。ガンマ補正処理では、指定されたガンマカーブ、指定された明るさ、もしくはコントラストを元に作成されたガンマカーブに基づき、画素ごとの入力データから出力データへの変換処理を行う。ガンマカーブは、入力データと出力データの相関関係を示すテーブルデータとなる。ここで、ガンマ補正の補正値（ガンマカーブ）が、画像処理に関するパラメーターに相当する。

＜解像度変換（拡縮処理）＞
画像処理テーブル（図５）の１５行目の「解像度変換（拡縮処理）」とは、画像読取装置１に指示した読み取り時の光学解像度から、指定された出力解像度に変換する技術のことを言う。本実施形態では、画像読取装置１で読み取りを行った時の入力(光学)解像度から、スキャン設定として指定された出力解像度に解像度変換を行う。解像度変換において、入力解像度から出力解像度を増やすアップコンバートでは、画像が拡大される。逆に、入力解像度から出力解像度が減らす処理となるダウンコンバートでは画像が縮小される。ここで、入力解像度と変更後の出力解像度が、画像処理に関するパラメーターに相当する。

＜エッジ強調処理＞
画像処理テーブル（図５）の１８行目の「エッジ強調処理」とは、画像内の輪郭を強調するため、注目画素の周囲、例えば３×３、或いは５×５の画素値のテーブルに基づき、注目画素の出力値を補正する技術である。本実施形態においては、指定されたエッジ強調レベルに基づくテーブルデータを基に、入力データから出力データへの変換処理を行う。ここで、エッジ強調レベル（テーブル）が画像処理に関するパラメーターに相当する。

＜領域指定ＯＣＲ＞
帳票ＩＤ認識処理テーブル（図６）の１行目の「領域指定ＯＣＲ」とは、指定された画像領域に対して、パターン認識で行うＯＣＲを実施し、認識された文字列を抽出する処理である。処理結果としては、認識された文字列が記録される。また、認識の確からしさを結果と共に記録する。本実施形態では、「領域指定ＯＣＲ」に失敗し、文字列は検出できなかったものとしている。確からしさは０％として記録される。ここで、認識された文字列、認識の成否、認識の確からしさが、画像処理に関するパラメーターに相当する。

＜バーコード認識＞
帳票ＩＤ認識処理テーブル（図６）の２行目の「バーコード認識」とは、予め定められたそれぞれのバーコードの書式に基づき、バーコードが印刷された領域があるかどうかを検出し、バーコードを文字や数字に変換する処理を行う技術のことを言う。本実施形態では、「バーコード認識」は失敗し、バーコードは認識できなかったものとしている。認識の確からしさは０％として記録される。ここで、変換された文字や数字、認識の成否、認識の確からしさが、画像処理に関するパラメーターに相当する。

＜定型帳票との一致度検出＞
帳票ＩＤ認識処理テーブル（図６）の３行目の「定型帳票との一致度検出」とは、予め定められた定型帳票のテンプレートと比較して、一致度が高い原稿が存在するかどうかを判定する処理である。一致度が高い原稿が存在する場合は、その定型帳票テンプレートのＩＤを記録する。本実施形態では、「定型帳票との一致度検出」は成功し、帳票ＩＤは「１」だったものとしている。確からしさは１０％として記録される。ここで、一致度検出の成否、検出された帳票のＩＤ、認識の確からしさが、画像処理に関するパラメーターに相当する。

＜２Ｄコード認識＞
帳票ＩＤ認識処理テーブル（図６）の４行目の「２Ｄコード認識」とは、予め定められたそれぞれの２Ｄコードの書式に基づき、２Ｄコードが印刷された領域があるかどうかを検出し、２Ｄコードを文字や数字に変換する処理である。２Ｄコードが検出出来たら、データを抽出する。データは帳票のＩＤ、帳票が格納されているＵＲＬ、帳票のレイアウトデータそのもの等である。本実施形態では、「２Ｄコード認識」は成功し、帳票ＩＤは「１」だったものとしている。確からしさは１００％として記録される。ここで、検出の成否、抽出されたデータ、認識の確からしさが、画像処理に関するパラメーターに相当する。

＜他の実施形態＞
本発明は、以上に説明した実施形態に限らず、種々の応用、変形が可能である。例えば、前述の実施形態においては、ＡＩ－ＯＣＲは手書き文字認識に特化したものとして、画像処理装置２内で帳票ＩＤ認識処理を行う例を説明した。ただ、ＡＩ－ＯＣＲの中には、高精度な帳票認識機能を備えたものも存在する。そのため、ＡＩ－ＯＣＲサーバー２１において、帳票ＩＤ認識処理を行うようにしても良い。また、前述の実施形態ではＡＩ－ＯＣＲサーバーが、自らＷｅｂブラウザーで結果を表示するとした。ただ、業務システムにおいては、ＡＩ－ＯＣＲサーバーがＷｅｂアプリのシステムの一部として組み込まれ、結果をＤＢ（データベース）に格納して用いるケースも多いので、そのように実装しても良い。

また、前述の実施形態では、一部の画像処理を画像処理装置２で行う例を説明したが、全ての画像処理を画像読取装置で行うようにしても構わない（図４参照）。一方で、画像処理装置２で行う画像処理を増やしても良い。また、画像処理装置２と説明上記載したが、画像処理を一切行わず、情報の受け渡しだけをするようにしても良い。その場合、画像処理装置２は情報処理装置となる。

画像処理に関するパラメーターの例として、例えば、斜行した時の補正角度や原稿正立機能により回転された角度、拡大処理によって拡大された倍率などの情報を引き渡すと、後段の処理の精度を向上させることができる。例えば、画像処理前の画像と補正後の出力画像とで、画素の補完によって意図せず発生した色ずれが、自然画像をベースに学習させるＡＩ－ＯＣＲにおいて、認識率の低下を招くことがある。その場合に、原稿の補正角度を後段の処理装置に引き渡し、一定以上の長さの罫線に、一定間隔で色が混じることを予めＡＩ－ＯＣＲエンジンに伝えてあれば、誤検出を防ぐことが出来る。

一方、９０度、２７０度回転を伴う原稿正立処理は、主走査と副走査の向きが入れ替わったことによって、ＡＤＦの1ラインセンサーだと完全に同じ位置では読めない。この弊害から、副走査方向で出やすい色ずれを副走査方向にのみフィルターをかけるようにしないと、文字のエッジの出方が異なるので、検出精度に影響が出る。なお、原稿正立処理とは紙原稿に表現されている情報に基づき、原稿の向きを印刷文字の向きに合わせる処理のことを言う。

また、拡大処理も、補正角度同様に処理中に補完処理を伴うため、補完の処理によって発生したアンチエリアシングの偽色によって、文字認識精度に影響が出ることがある。いずれのケースも、ＡＩ－ＯＣＲエンジンが、自然画像にどのようなモアレや画素補完が入る可能性があるかを事前に学習して知っていれば、認識精度を高く保つことが可能となる。

また、本実施形態におけるＡＩ－ＯＣＲの説明では、エンジンへ画像を入力する前に、画像処理に関するパラメーターに基づき、学習データそのものを切り替えてしまう「半自動」なエンジンを説明した。しかし、エンジンの機能向上や学習のさせ方により、ＡＩ－ＯＣＲエンジンそのものに、画像処理装置２から引き渡された画像処理に関するパラメーターを解釈して、自動的に学習データのフィルター処理を内部で変更、適用しながら、文字認識処理を行う機能を持たせる方が望ましい。そのようにエンジンが改良された場合でも本発明の意義は失われない。

更に、ユーザーＩ／Ｆ２２から、スキャン設定とスキャン開始指示が出た時点で、スキャンサービスプログラム２６とＡＩ－ＯＣＲサーバー２１が通信を行い、画像処理の実施の有無(図５の画像処理テーブルの第４列)を、ＡＩ－ＯＣＲサーバー２１からの指示で新たに追加するようにしても良い（図４参照）。また、画像読取装置１でも画像処理装置２でも画像処理を実施せず、ＡＩ－ＯＣＲサーバー２１が画像処理を実施するようにしても良い。更に、図５の画像処理テーブルにおいては、画像読取装置１内で処理する内容は予め定義していたが、複数種の画像読取装置１が存在する場合、可能な画像処理機能に差があることがある。その場合、画像読取装置１内の画像処理機能の有無に基づいて、画像処理装置２で実施すべき画像処理内容を変化させるように構成しても構わない。その場合は、画像処理テーブル全体も、画像読取装置１から画像処理内容と一緒に画像処理装置２へ引き渡されるようにしても良い。

図５の画像処理テーブルはあくまで一例であり、ＪＰＥＧ圧縮の代わりに、ＪＰＥＧ２０００や９０度ごとの画像回転処理、ＰＮＧ(Portable Network Graphics)などの別の圧縮処理を行うようにしても良い。また、ＰＤＦ（Portable Document Format）、ＴＩＦＦ（Tagged Image File Format）などのファイリング処理や、圧縮を行わないといったバリエーションがあっても良い。その際、前述の実施形態では、画像ファイルにデータを埋め込む形式を取らなかったが、埋め込むようにしても構わない。この場合、ファイル形式は、タグ、属性情報等を埋め込むことが可能な、ＴＩＦＦ形式、ＪＰＥＧ（ＥＸＩＦ（EXchangeable Image File format））形式、ＰＤＦ形式などが用いられることになる。

また、図５の画像処理テーブルでは、ＪＰＥＧ圧縮の行が１つしか用意されていないが、最終出力までに複数回ＪＰＥＧ圧縮が行われる場合、その都度、ＪＰＥＧ圧縮の行を区別して、追加して記録するようにするのが望ましい。その際、そのたびにＪＰＥＧ圧縮が行われた順番が記録されるようにする。また、ＡＩ－ＯＣＲエンジンが知らない付加情報が付与されている時、処理を続行させるために無視をしても良いが、ＡＩの学習エンジンに付加情報と処理後の画像を教師データとして渡しても良い。この場合、次回以降のＡＩ－ＯＣＲの認識精度の改善に繋がる。更に、前述の実施形態では、図５の画像処理テーブルの第７列に、処理の順番のテンプレートを予め定義していたが、スキャン設定によって処理の順番を動的に変更しても良い。また、処理内容によってはＪＰＥＧ画像の圧縮、伸長など複数回実施しても良い。その場合は実行した順番と共に、各圧縮時のパラメーターを残すようにしても良い。また、カラーのＪＰＥＧデータを、グレーのＪＰＥＧデータに変換したという情報を残し、ＡＩ－ＯＣＲエンジンをカラーのＪＰＥＧデータで学習させたエンジンからグレーのＪＰＥＧデータで学習させたエンジンに切り替えるようにしても良い。更に、画像処理テーブルにおいて、二値化されたことを示す項目があった場合、ＡＩ－ＯＣＲエンジンでＴＩＦＦ、ＰＮＧ、ＢＭＰなど、二値のデータを用いて学習させたエンジンを用いるように切り替えても良い。

また、画像読取装置１が、直接ネットワークに接続されている構成となっていた場合、同ネットワークに接続されたサーバー上でＯＣＲ処理を実行するようにしても構わない。また、前述の実施形態では、最適な処理としてＡＩ－ＯＣＲを選択したが、通常のＯＣＲ処理であっても、画像に基づいた仕分け処理でも、効果を得ることが出来る。

図６で示した帳票ＩＤ認識処理テーブルはあくまで一例であり、処理の順番や処理の数は変更しても良い。また、図６では挙げていない帳票認識方法を組み込んでも良い。前述の実施形態では、ＡＩ－ＯＣＲ処理しか記載しなかったが、帳票ＩＤ認識結果に基づき、通常のＯＣＲ処理を行った上で、手書き領域のみＡＩ－ＯＣＲ処理にかけるようにしても良い。帳票ＩＤ認識処理をＡＩ－ＯＣＲサーバーで行う場合、前述の通り、原稿が重なって搬送されたと検出された範囲を除いた原稿領域に対してのみ、認識処理を実施するようにしても良い。画像処理装置２内で行う帳票ＩＤ認識処理であっても、前述のＡＩ－ＯＣＲサーバーで行う処理同様、画像読取装置１や制御ドライバー２７の画像処理結果から認識処理を変化させるようにしても良い。

前述の実施形態では、後段の処理を行う処理装置を、ＡＩ－ＯＣＲサーバーとしたが、それ以外の後段処理を行う処理装置としても良い。一例としては、画像データの出力先を振り分けるシステムが挙げられる。例えば、本発明は、帳票ＩＤを認識した結果やサイズ検知で検出した用紙サイズに基づいて、ファイルの保存先を振り分けるシステムに用いることができる。また、専用名刺フィーダー投入口を保有する画像読取装置において、この投入口から投入されたことを示す情報を引き渡し、名刺の画像だけサーバーで振り分けて、名刺専用の処理をするシステムに適用することも出来る。更に、フィーダーとフラットベッドを有する画像読取装置において、どちらで読み取ったかを示す情報を引き渡し、その情報を元にファイルの保存先を振り分けるシステムに用いても良い。

なお、専用名刺フィーダー投入口とは、名刺のような小さな原稿を搬送するのが困難な搬送路上のローラ間が長いＡＤＦにおいて、搬送路の途上に専用投入口を用意して、その投入口からの搬送時はローラ間が短くなるように工夫された仕組みである。その際は、専用名刺フィーダー投入口から投入されたか否かを示す情報を、画像読取装置１、画像処理装置２、不図示の振り分けサーバーに通知する（図４参照）。専用名刺フィーダー投入口の他に、個人認証用プラスチックＩＤカードやパスポートを通す専用の投入口がある場合は、このような投入口から投入されたか否かの情報も、後段の処理を行う処理装置に引き渡すようにしても良い。ここで、上記のような投入口に関する情報が、画像処理に関するパラメーターに相当する。

なお、プラスチックのＩＤカードは専用の帳票レイアウトを用意し、顔写真とＩＤと手書き部分を認識できるようにしても良い。パスポートについても同様で、パスポート専用投入口から原稿が給送された場合や，パスポートと判断できる印（ＲＦＩＤ（Radio-Frequency Identification）センサーなど）を検知したら、パスポート専用の帳票レイアウトを用いるものとする。パスポートにはＭＲＺ(Machine-readable passport)
と呼ばれる専用印字文字列もあるので、それを検出認知してＯＣＲをかける専用の処理を行っても良い。

このように、本発明は、特許請求の範囲を逸脱しない限りにおいて、上記のような応用、変形を全て包含するものである。

１画像読取装置
２画像処理装置
２１ＡＩ－ＯＣＲサーバー
２２ユーザーＩ／Ｆ
２６スキャンサービスプログラム
２７制御ドライバー
２８外部通信Ｉ／Ｆ

Claims

画像データを取得する画像取得部と、
前記画像取得部で取得した画像データに画像処理を実施する画像処理部と、
前記画像処理が実施された画像データに、前記画像処理に関するパラメーターであって、後段の処理で利用されるパラメーターを紐づけ、前記画像データと共に後段の処理を行う処理装置に引き渡す引き渡し部と
を備えたことを特徴とする画像処理システム。
前記パラメーターは、ＪＰＥＧ圧縮の有無、重送が検知された範囲、エッジ強調レベル、サイズ情報、斜行検知角度、影として認識した領域、ガンマ補正の補正値、及び解像度変換の際の入力解像度と出力解像度の少なくとも一つを含むことを特徴とする請求項１に記載の画像処理システム。
更に、前記画像データの光学文字認識処理を行う前記処理装置を備え、前記処理装置は、光学文字認識処理を行うときに、前記パラメーターを用いて補正を行うことを特徴とする請求項１又は２に記載の画像処理システム。
更に、前記パラメーターを用いて前記画像データの出力先を振り分ける前記処理装置を備えたことを特徴とする請求項１又は２に記載の画像処理システム。
原稿の画像を読み取る画像読取装置と、前記画像読取装置と通信可能なコンピューターとから構成され、前記画像読取装置において前記画像データを取得し、前記画像読取装置及びコンピューターにおいて前記画像データに画像処理を実施し、前記コンピューターは前記画像データ及び前記パラメーターを前記処理装置に引き渡すことを特徴とする請求項１又は２に記載の画像処理システム。
請求項５に記載の画像処理システムに用いられ、前記コンピューターを前記画像処理部及び前記引き渡し部として機能させることを特徴とするプログラム。