JP2021149452A - 画像処理装置、制御方法及び制御プログラム - Google Patents

画像処理装置、制御方法及び制御プログラム Download PDF

Info

Publication number
JP2021149452A
JP2021149452A JP2020048213A JP2020048213A JP2021149452A JP 2021149452 A JP2021149452 A JP 2021149452A JP 2020048213 A JP2020048213 A JP 2020048213A JP 2020048213 A JP2020048213 A JP 2020048213A JP 2021149452 A JP2021149452 A JP 2021149452A
Authority
JP
Japan
Prior art keywords
image
character information
information
form data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020048213A
Other languages
English (en)
Inventor
正義 林
Masayoshi Hayashi
正義 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP2020048213A priority Critical patent/JP2021149452A/ja
Publication of JP2021149452A publication Critical patent/JP2021149452A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】利用者の作業負担をより軽減させることが可能な画像処理装置を提供する。【解決手段】画像処理装置は、複数の帳票データが記憶された記憶部210と、入力帳票画像を取得する取得部221と、罫線を用いたレイアウト認識処理、又は、画素特徴点を用いた画像認識処理により、複数の帳票データの中から、入力帳票画像と最も近似する帳票データを検出し、検出した帳票データに基づいて対象項目の文字情報を推測する推測部222と、OCRを用いた文字認識処理により、入力帳票画像から対象項目の文字情報を認識する認識部223と、推測された文字情報と認識された文字情報のずれ量を算出する算出部225と、ずれ量に基づいて、検出された帳票データが入力帳票画像に対応しているか否かを判定する判定部224と、判定部による判定結果又は判定結果に応じた対象項目に関する情報を出力する制御部226とを有する。【選択図】図6

Description

本発明は、画像処理装置、制御方法及び制御プログラムに関し、特に、入力帳票画像を処理する画像処理装置、制御方法及び制御プログラムに関する。
請求書等の帳票を担当者が手作業によりデータ化している会社では、膨大な数の帳票のデータ化が必要である場合に担当者の業務負担が大きくなるため、帳票のデータ化作業の効率化に対する要望が高まっている。帳票のデータ化を行う画像処理装置では、利用者の作業負担をより軽減させることが望まれている。
任意のフォーマットで情報が記入された媒体から読み取ったイメージに基づいて、その情報の認識を行う媒体処理装置が開示されている(特許文献1)。この媒体処理装置は、読み取ったイメージのデータから、そのイメージのレイアウトの特徴を抽出し、その特徴から認識すべき情報の存在する位置を特定し、特定された位置でのイメージを認識して、その情報を判別する。
識別対象の帳票の画像から複数の特徴量を抽出する帳票識別装置が開示されている(特許文献2)。この帳票識別装置は、抽出した特徴量のうちの1つと登録帳票の特徴量とを比較して識別対象の帳票の種別が識別できなかったとき、他の特徴量と登録帳票の特徴量とを比較して識別対象の帳票の種別を識別する。
特許第3088019号公報 特開2000−285190号公報
画像処理装置では、利用者の作業負担をより軽減させることが望まれている。
本発明の目的は、利用者の作業負担をより軽減させることが可能な画像処理装置、制御方法及び制御プログラムを提供することにある。
本発明の一側面に係る画像処理装置は、複数の帳票データが記憶された記憶部と、入力帳票画像を取得する取得部と、罫線を用いたレイアウト認識処理、又は、画素特徴点を用いた画像認識処理により、複数の帳票データの中から、入力帳票画像と最も近似する帳票データを検出し、検出した帳票データに基づいて対象項目の文字情報を推測する推測部と、OCRを用いた文字認識処理により、入力帳票画像から対象項目の文字情報を認識する認識部と、推測された文字情報と認識された文字情報のずれ量を算出する算出部と、ずれ量に基づいて、検出された帳票データが入力帳票画像に対応しているか否かを判定する判定部と、判定部による判定結果又は判定結果に応じた対象項目に関する情報を出力する制御部と、を有する。
本発明の一側面に係る制御方法は、記憶部を有する画像処理装置の制御方法であって、画像処理装置が、複数の帳票データを記憶部に記憶し、入力帳票画像を取得し、罫線を用いたレイアウト認識処理、又は、画素特徴点を用いた画像認識処理により、複数の帳票データの中から、入力帳票画像と最も近似する帳票データを検出し、検出した帳票データに基づいて対象項目の文字情報を推測し、OCRを用いた文字認識処理により、入力帳票画像から対象項目の文字情報を認識し、推測された文字情報と認識された文字情報のずれ量を算出し、ずれ量に基づいて、検出された帳票データが入力帳票画像に対応しているか否かを判定し、判定における判定結果又は判定結果に応じた対象項目に関する情報を出力する。
本発明の一側面に係る制御プログラムは、記憶部を有するコンピュータの制御プログラムであって、複数の帳票データを記憶部に記憶し、入力帳票画像を取得し、罫線を用いたレイアウト認識処理、又は、画素特徴点を用いた画像認識処理により、複数の帳票データの中から、入力帳票画像と最も近似する帳票データを検出し、検出した帳票データに基づいて対象項目の文字情報を推測し、OCRを用いた文字認識処理により、入力帳票画像から対象項目の文字情報を認識し、推測された文字情報と認識された文字情報のずれ量を算出し、ずれ量に基づいて、検出された帳票データが入力帳票画像に対応しているか否かを判定し、判定における判定結果又は判定結果に応じた対象項目に関する情報を出力することをコンピュータに実行させる。
本発明によれば、画像処理装置、制御方法及び制御プログラムは、利用者の作業負担をより軽減させることが可能となる。
実施形態に従った画像処理システム1の概略構成を示す図である。 帳票テーブルのデータ構造の一例を示す図である。 帳票テーブルのデータ構造の一例を示す図である。 第2記憶装置210及び第2処理回路220の概略構成を示す図である。 画像読取処理の動作の例を示すフローチャートである。 認識処理の動作の例を示すフローチャートである。 入力帳票画像700の一例を示す模式図である。 入力帳票画像800の一例を示す模式図である。 入力帳票画像900の一例を示す模式図である。 入力帳票画像1000の一例を示す模式図である。 入力帳票画像1100の一例を示す模式図である。 他の第2処理回路230の概略構成を示すブロック図である。
以下、本発明の一側面に係る画像処理装置、制御方法及び制御プログラムについて図を参照しつつ説明する。但し、本発明の技術的範囲はそれらの実施の形態に限定されず、特許請求の範囲に記載された発明とその均等物に及ぶ点に留意されたい。
図1は、実施形態に従った画像処理システム1の概略構成を示す図である。図1に示すように、画像処理システム1は、画像読取装置100と、情報処理装置200とを有する。
画像読取装置100は、例えばスキャナ装置等である。画像読取装置100は、情報処理装置200に接続されている。情報処理装置200は、画像処理装置の一例であり、例えばパーソナルコンピュータ等である。
画像読取装置100は、第1インタフェース装置101と、撮像装置102と、第1記憶装置110と、第1処理回路120とを有する。
第1インタフェース装置101は、USB(Universal Serial Bus)等のシリアルバスに準じるインタフェース回路を有し、情報処理装置200と電気的に接続して画像データ及び各種の情報を送受信する。また、第1インタフェース装置101の代わりに、無線信号を送受信するアンテナと、所定の通信プロトコルに従って、無線通信回線を通じて信号の送受信を行うための無線通信インタフェース回路とを有する通信装置が用いられてもよい。所定の通信プロトコルは、例えば無線LAN(Local Area Network)である。
撮像装置102は、主走査方向に直線状に配列されたCCD(Charge Coupled Device)による撮像素子を備える縮小光学系タイプの撮像センサを有する。さらに、撮像装置102は、光を照射する光源と、撮像素子上に像を結ぶレンズと、撮像素子から出力された電気信号を増幅してアナログ/デジタル(A/D)変換するA/D変換器とを有する。撮像装置102において、撮像センサは、搬送される媒体を撮像してアナログの画像信号を生成して出力し、A/D変換器は、このアナログの画像信号をA/D変換してデジタルの入力帳票画像を生成して出力する。入力帳票画像は、各画素データが、例えばRGB各色毎に8bitで表される計24bitのR(赤色)値、G(緑色)値、B(青色)値からなるカラー多値画像である。なお、CCDの代わりにCMOS(Complementary Metal Oxide Semiconductor)による撮像素子を備える等倍光学系タイプのCIS(Contact Image Sensor)が用いられてもよい。
第1記憶装置110は、RAM(Random Access Memory)、ROM(Read Only Memory)等のメモリ装置、ハードディスク等の固定ディスク装置、又はフレキシブルディスク、光ディスク等の可搬用の記憶装置等を有する。また、第1記憶装置110には、画像読取装置100の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、コンピュータ読み取り可能な可搬型記録媒体から公知のセットアッププログラム等を用いて第1記憶装置110にインストールされてもよい。可搬型記録媒体は、例えばCD−ROM(compact disk read only memory)、DVD−ROM(digital versatile disk read only memory)等である。また、第1記憶装置110は、撮像装置102により生成された入力帳票画像等を記憶する。
第1処理回路120は、予め第1記憶装置110に記憶されているプログラムに基づいて動作する。第1処理回路120は、例えばCPU(Control Processing Unit)である。なお、第1処理回路120として、DSP(digital signal processor)、LSI(large scale integration)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programming Gate Array)等が用いられてもよい。
第1処理回路120は、第1インタフェース装置101、撮像装置102及び第1記憶装置110等と接続され、これらの各部を制御する。第1処理回路120は、撮像装置102の媒体読取制御、第1インタフェース装置101を介した情報処理装置200とのデータ送受信制御等を行う。
情報処理装置200は、第2インタフェース装置201と、入力装置202と、表示装置203と、第2記憶装置210と、第2処理回路220とを有する。以下、情報処理装置200の各部について詳細に説明する。
第2インタフェース装置201は、画像読取装置100の第1インタフェース装置101と同様のインタフェース回路を有し、情報処理装置200と画像読取装置100とを接続する。また、第2インタフェース装置201の代わりに、無線信号を送受信するアンテナと、無線LAN等の所定の通信プロトコルに従って、無線通信回線を通じて信号の送受信を行うための無線通信インタフェース回路とを有する通信装置が用いられてもよい。
入力装置202は、キーボード、マウス等の入力装置及び入力装置から信号を取得するインタフェース回路を有し、利用者の操作に応じた信号を第2処理回路220に出力する。
表示装置203は、出力部の一例である。表示装置203は、液晶、有機EL(Electro-Luminescence)等から構成されるディスプレイ及びディスプレイに画像データを出力するインタフェース回路を有する。表示装置203は、第2処理回路220からの指示に従って、各種の情報をディスプレイに表示する。
第2記憶装置210は、記憶部の一例であり、画像読取装置100の第1記憶装置110と同様のメモリ装置、固定ディスク装置、可搬用の記憶装置等を有する。第2記憶装置210には、情報処理装置200の各種処理に用いられるコンピュータプログラム、データベース、テーブル等が格納される。コンピュータプログラムは、例えばCD−ROM、DVD−ROM等のコンピュータ読み取り可能な可搬型記録媒体から、公知のセットアッププログラム等を用いて第2記憶装置210にインストールされてもよい。
また、第2記憶装置210には、データとして、帳票テーブル等が予め記憶される。帳票テーブルの詳細については後述する。
第2処理回路220は、予め第2記憶装置210に記憶されているプログラムに基づいて動作する。第2処理回路220は、例えばCPUである。なお、第2処理回路220として、DSP、LSI、ASIC、FPGA等が用いられてもよい。
第2処理回路220は、第2インタフェース装置201、入力装置202、表示装置203及び第2記憶装置210等と接続され、これらの各部を制御する。第2処理回路220は、第2インタフェース装置201を介した画像読取装置100とのデータ送受信制御、入力装置202の入力制御、表示装置203の表示制御等を行う。
図2及び図3は、帳票テーブルのデータ構造の一例を示す図である。
帳票テーブルには、複数の帳票データが記憶される。各帳票データは、各帳票データの識別情報(帳票ID)、各帳票データに対応する罫線情報、色情報、キーワード情報、全体画像情報、部分画像情報、全域特徴量、局所特徴量、文字情報及び位置情報等を含む。
罫線情報は、帳票が撮像された帳票画像に含まれる罫線で示される図形の画像パターン及びその図形の帳票画像内の位置を示す。例えば、罫線で示される図形は表であり、画像パターンとして表全体の画像パターンが設定される。なお、画像パターンとして表内の水平方向に延伸する直線と垂直方向に延伸する直線との各交点の画像パターンが設定されてもよい。また、図形の位置として、帳票画像内のその図形の外接矩形の左上角及び右下角の座標等が設定される。なお、罫線情報として、帳票画像内の水平又は垂直方向に延伸する各直線の位置が設定されてもよい。また、罫線情報として、複数の図形の画像パターン及び各図形の帳票画像内の位置が設定されてもよい。
色情報は、帳票画像に含まれる色に関する情報を示す。例えば、色情報として、画像の二種類の色差(U、V)のそれぞれについて、各色差値(U値、V値)を階級とし、帳票画像内で各色差値を示す画素の数を度数としたヒストグラムが設定される。
キーワード情報は、一又は複数の文字(キーワード)及び各文字の帳票画像内の位置を示す。文字(キーワード)は、例えば請求書、領収書、金額等の単語、特にタイトルに用いられる単語である。文字の位置として、帳票画像内のその文字の外接矩形の左上角及び右下角の座標等が設定される。
全体画像情報は、帳票画像の全体を含む画像、即ち帳票画像自体を示す。部分画像情報は、帳票画像内の一部の画像である部分画像の帳票画像内の位置を示す。部分画像として、帳票画像内で、その帳票画像の特徴、特に文字情報に対応する特徴を含む領域の画像が設定される。部分画像は、帳票画像内の文字又は図形のエッジ、相互に直交する直線の交点等の画素特徴点が含まれるように設定される。部分画像の位置として、帳票画像内のその部分画像の左上角及び右下角の座標等が設定される。また、部分画像として、複数の部分画像が設定されてもよい。
全域特徴量は、全体画像、特に全体画像内の画素特徴点から算出される特徴量である。局所特徴量は、各部分画像、特に各部分画像内の画素特徴点から算出される特徴量である。各特徴量として、例えばA−KAZE特徴量又はORB(Oriented FAST and Rotated Binary Robust Independent Elementary Features)特徴量等が使用される。なお、特徴量として、ハールライク(Haar-Like)特徴量、HOG(Histograms of Oriented Gradients)特徴量等の他の特徴量が使用されてもよい。ハールライク特徴量は、画像領域中に任意に設定された複数の隣接矩形領域間の輝度値の差である。HOG特徴量は、画像領域内の局所領域(セル)の画素値の勾配方向毎の勾配強度のヒストグラムである。なお、特徴量として、複数の種類の特徴量が設定されてもよい。
文字情報は、その帳票画像における検出対象である対象項目を示す文字、特にその帳票画像に記載されている実際の文字を示す。例えば、帳票が請求書である場合、対象項目として請求元の会社名等が設定される。また、帳票が領収書である場合、対象項目として発行元の会社名等が設定される。
位置情報は、文字情報に示される対象項目を示す文字の帳票画像内の位置を示す。位置情報として、例えば帳票画像内の対象項目を示す文字の外接矩形の左上角及び右下角の座標等が設定される。
図4は、第2記憶装置210及び第2処理回路220の概略構成を示す図である。
図4に示すように第2記憶装置210には、取得プログラム211、推測プログラム212、認識プログラム213、判定プログラム214、算出プログラム215及び制御プログラム216等の各プログラムが記憶される。これらの各プログラムは、プロセッサ上で動作するソフトウェアにより実装される機能モジュールである。第2処理回路220は、第2記憶装置210に記憶された各プログラムを読み取り、読み取った各プログラムに従って動作する。これにより、第2処理回路220は、取得部221、推測部222、認識部223、判定部224、算出部225及び制御部226として機能する。
図5は、画像読取装置100による画像読取処理の動作の例を示すフローチャートである。以下、図5に示したフローチャートを参照しつつ、画像読取処理の動作を説明する。なお、以下に説明する動作のフローは、予め第1記憶装置110に記憶されているプログラムに基づき主に第1処理回路120により画像読取装置100の各要素と協働して実行される。
最初に、撮像装置102は、原稿として請求書、通知書又は証明書等の帳票を撮像して入力帳票画像を生成し、第1記憶装置110に保存する(ステップS101)。
次に、第1処理回路120は、第1記憶装置110に保存された入力帳票画像を、第1インタフェース装置101を介して情報処理装置200に送信し(ステップS102)、一連のステップを終了する。
図6は、情報処理装置200による認識処理の動作の例を示すフローチャートである。以下、図6に示したフローチャートを参照しつつ、認識処理の動作を説明する。なお、以下に説明する動作のフローは、予め第2記憶装置210に記憶されているプログラムに基づき主に第2処理回路220により情報処理装置200の各要素と協同して実行される。
最初に、取得部221は、入力帳票画像を、第2インタフェース装置201を介して画像読取装置100から取得し、第2記憶装置210に保存する(ステップS201)。
次に、推測部222は、罫線、色及び/又はキーワードを用いたレイアウト認識処理を実行する(ステップS202)。推測部222は、レイアウト認識処理において、帳票テーブルを参照し、罫線情報、色情報及び/又はキーワード情報に基づいて、入力帳票画像と帳票テーブルに記憶された各帳票データとのレイアウト類似度を算出する。
推測部222は、まず、入力帳票画像から罫線を検出する。推測部222は、入力帳票画像からエッジ画素を抽出し、入力帳票画像をエッジ画素と非エッジ画素に二値化したエッジ画像を生成する。推測部222は、入力帳票画像内の画素の水平方向の両隣の画素の階調値の差の絶対値(以下、隣接差分値と称する)を算出し、隣接差分値が第1閾値を越える場合、その入力帳票画像上の画素をエッジ画素として抽出する。階調値は、輝度値又は色値(R値、G値又はB値)である。第1閾値は、例えば、人が画像上の輝度の違いを目視により判別可能な輝度値の差(例えば20)に設定することができる。推測部222は、垂直方向についても隣接差分値を算出し、隣接差分値が第1閾値を越える場合、その入力帳票画像上の画素もエッジ画素として抽出する。一方、推測部222は、エッジ画素として抽出されなかった画素を非エッジ画素として抽出する。
なお、推測部222は、入力帳票画像内の画素から水平又は垂直方向に所定距離だけ離れた画素の階調値の差の絶対値を隣接差分値として算出してもよい。また、推測部222は、特定の画素の階調値が第1閾値未満であり、その特定の画素に隣接する画素又はその特定の画素から所定距離だけ離れた画素の階調値が第1閾値以上である場合、その特定の画素をエッジ画素として抽出してもよい。
次に、推測部222は、例えば、エッジ画像内でエッジ画素により非エッジ画素が囲まれた領域を、表のセルに対応するセル領域として検出する。推測部222は、エッジ画像内で相互に隣接するエッジ画素で囲まれる第1連結領域をラベリングによりグループ化し、各第1連結領域の内、水平又は垂直方向のサイズが第1サイズ以上である第1連結領域を抽出する。第1サイズは、内部に文字を含むことが可能なサイズに設定され、例えば16ポイントに相当する画素数に設定される。推測部222は、抽出した各第1連結領域内で、隣接する非エッジ画素で囲まれる第2連結領域をラベリングによりグループ化し、各第2連結領域の内、水平又は垂直方向の長さが第2サイズ以上である第2連結領域を抽出する。第2サイズは、文字の最低サイズに設定され、例えば8ポイントに相当する画素数に設定される。推測部222は、抽出した第2連結領域に隣接し且つその第2連結領域を囲むエッジ画素で囲まれた領域(第2連結領域を除く領域)をセル領域として検出する。
なお、推測部222は、エッジ画像内でエッジ画素が連続する直線を抽出し、抽出した直線で囲まれる領域(その内側領域を除く領域)をセル領域として検出してもよい。その場合、推測部222は、例えばモロフォジー変換を用いて、直線を抽出する。推測部222は、エッジ画像内で水平方向において非エッジ画素と隣接するエッジ画素を非エッジ画素に変換する収縮処理を所定回数(第1サイズ分)実行した後、エッジ画素と隣接する非エッジ画素をエッジ画素に変換する膨張処理を所定回数実行する。推測部222は、残ったエッジ画素を水平方向に延伸する直線として抽出する。同様に、推測部222は、エッジ画像内で、垂直方向において非エッジ画素と隣接するエッジ画素を非エッジ画素に変換する収縮処理を所定回数実行した後、エッジ画素と隣接する非エッジ画素をエッジ画素に変換する膨張処理を所定回数実行する。推測部222は、残ったエッジ画素を垂直方向に延伸する直線として抽出する。
次に、推測部222は、帳票テーブルに記憶された帳票データ毎に、対応する罫線情報に示される画像パターンと、エッジ画像から検出されたセル領域との罫線類似度を算出する。推測部222は、エッジ画像から、各罫線情報に示される位置に対応し且つ画像パターンと同一の大きさを有する領域を、その位置をずらしながら切り出した切り出し画像と、画像パターンとの類似の程度を算出する。類似の程度は、例えば正規化相互相関値である。なお、類似の程度は、SSD(Sum of Squared Difference)の逆数又はSAD(Sum of Absolute Difference)の逆数でもよい。推測部222は、各切り出し画像と画像パターンとの類似の程度の最大値をその帳票データに対する罫線類似度として算出する。なお、罫線情報として複数の図形の画像パターンが設定されている場合、推測部222は、複数の図形の画像パターン毎に算出した類似の程度の最大値の平均値、中央値、最小値又は最大値をその帳票データに対する罫線類似度として算出する。
また、罫線情報として、画像内の水平又は垂直方向に延伸する各直線の位置が設定されている場合、推測部222は、公知の画像処理技術を利用して、入力帳票画像から直線を検出する。推測部222は、各帳票データに対する罫線情報において設定された直線の総数に対する、入力帳票画像の対応する位置から検出された直線の数の割合を、その帳票データに対する罫線類似度として算出する。
また、推測部222は、画像の二種類の色差のそれぞれについて、各色差値を階級とし、入力帳票画像内で各色差値を示す画素数を度数とするヒストグラムを生成する。次に、推測部222は、帳票テーブルに記憶された帳票データ毎に、対応する色情報に示されるヒストグラムと、入力帳票画像から生成されたヒストグラムとの色類似度を算出する。推測部222は、色情報に示される各ヒストグラムと、入力帳票画像から生成した各ヒストグラムとの類似の程度を算出し、算出した類似の程度の平均値又は合計値等を、各帳票データに対する色類似度として算出する。類似の程度は、例えば各ヒストグラムの各階級の度数を要素とする各ベクトルの内積値である。
また、推測部222は、帳票テーブルに記憶された帳票データ毎に、対応するキーワード情報に示される位置に対応する入力帳票画像内の位置から文字を検出する。推測部222は、公知のOCR(Optical Character Recognition)技術を利用して、文字を検出する。推測部222は、検出した文字がキーワード情報に示されるキーワードと一致するか否かを判定する。推測部222は、キーワード情報において設定されたキーワードの総数に対する、入力帳票画像から検出した文字と一致したキーワードの数の割合を、各レイアウトの種類に対するキーワード類似度として算出する。
推測部222は、帳票テーブルに記憶された帳票データ毎に、算出した罫線類似度、色類似度及びキーワード類似度の平均値又は合計値を、各帳票データに対するレイアウト類似度として算出する。一般に、種類が異なる帳票データでは、表または直線等の罫線の配置が異なっている可能性が高いが、色は類似している可能性が高い。そこで、推測部222は、各帳票データに対するレイアウト類似度として、罫線類似度、キーワード類似度、色類似度の順に重みが大きくなるように罫線類似度、キーワード類似度及び色類似度の重み付け和を算出してもよい。また、推測部222は、罫線類似度、色類似度及びキーワード類似度の内の何れか一つ又は二つに基づいて類似度を算出してもよい。
次に、推測部222は、画像及び/又は画素特徴点を用いた画像認識処理を実行する(ステップS203)。推測部222は、画像認識処理において、帳票テーブルを参照し、全体画像情報、部分画像情報、全域特徴量及び/又は局所特徴量に基づいて、入力帳票画像と帳票テーブルに記憶された各帳票データとの画像類似度を算出する。
推測部222は、まず、入力帳票画像と全体画像情報に示される画像との類似の程度を、各帳票データに対する全体画像類似度として算出する。類似の程度は、例えば正規化相互相関値である。なお、類似の程度は、SSDの逆数又はSADの逆数でもよい。次に、推測部222は、入力帳票画像と、全体画像情報に示される画像のそれぞれから、部分画像情報に示される各位置の画像を切り出し、切り出した画像の類似の程度を算出する。推測部222は、部分画像情報に示される位置毎に算出した類似の程度の平均値、中央値、最小値又は最大値を、各帳票データに対する部分画像類似度として算出する。
次に、推測部222は、入力帳票画像の特徴量を算出し、算出した特徴量と全域特徴量との類似の程度を、各帳票データに対する全域特徴量類似度として算出する。推測部222が算出する特徴量は、全域特徴量と同じ種類の特徴量である。類似の程度は、例えば各特徴量(特徴ベクトル)の内積値である。次に、推測部222は、入力帳票画像から、部分画像情報に示される各位置の画像を切り出し、切り出した各画像の特徴量を算出し、算出した各特徴量と、対応する各局所特徴量との類似の程度を算出する。推測部222が算出する特徴量は、局所特徴量と同じ種類の特徴量である。類似の程度は、例えば各特徴量(特徴ベクトル)の内積値である。推測部222は、部分画像情報に示される位置毎に算出した類似の程度の平均値、中央値、最小値又は最大値を、各帳票データに対する局所特徴量類似度として算出する。
推測部222は、帳票テーブルに記憶された帳票データ毎に、算出した全体画像類似度、部分画像類似度、全域特徴量類似度及び局所特徴量類似度の平均値又は合計値を、各帳票データに対する画像類似度として算出する。なお、推測部222は、全体画像類似度、部分画像類似度、全域特徴量類似度及び局所特徴量類似度の重み付け和を、各帳票データに対する画像類似度として算出してもよい。その場合、推測部222は、帳票全体に対応する全体画像類似度及び全域特徴量類似度より、特徴的な画像部分に対応する部分画像類似度及び局所特徴量類似度の重みが大きくなるように重み付け和を算出する。なお、推測部222は、全体画像類似度、部分画像類似度、全域特徴量類似度及び局所特徴量類似度の内の何れか一つ、二つ又は三つに基づいて画像類似度を算出してもよい。
次に、推測部222は、レイアウト認識処理で算出したレイアウト類似度又は画像認識処理で算出した画像類似度に基づいて、帳票テーブルに記憶された複数の帳票データの中から、入力帳票画像と最も近似する帳票データを検出する(ステップS204)。推測部222は、レイアウト類似度及び画像類似度の平均値又は合計値を、入力帳票画像と各帳票データとの類似度として算出する。なお、推測部222は、レイアウト類似度及び画像類似度の何れか一方の重みが大きくなるように重み付けした重み付け和を入力帳票画像と各帳票データとの類似度として算出してもよい。推測部222は、帳票テーブルに記憶された帳票データの中で、類似度が最も大きい帳票データを、入力帳票画像と最も近似する帳票データとして検出する。なお、推測部222は、最も大きい類似度が類似度閾値未満である場合、入力帳票画像と近似する帳票データが存在しないとみなして、帳票データを検出しなくてもよい。類似度閾値は、例えば、様々な会社で作成された二つの帳票から類似度を算出する事前の実験において、算出された類似度の最小値に設定される。
このように、推測部222は、レイアウト認識処理又は画像認識処理により、複数の帳票データの中から、入力帳票画像と最も近似する帳票データを検出する。特に、推測部222は、入力帳票画像と複数の帳票データとの類似度に基づいて、入力帳票画像と最も近似する帳票データを検出する。なお、レイアウト認識処理又は画像認識処理の何れか一方は省略され、推測部222は、レイアウト類似度又は画像類似度の何れか一方のみにより帳票データを検出してもよい。
次に、推測部222は、帳票テーブルを参照し、検出した帳票データに基づいて対象項目の文字情報及び位置情報を推測する(ステップS205)。推測部222は、検出した帳票データに対応して帳票テーブルに記憶された文字情報及び位置情報を入力帳票画像における対象項目の文字情報及び位置情報として推測する。なお、推測部222は、推測した位置情報に示される入力帳票画像内の位置から、公知のOCR技術を利用して文字を検出し、検出した文字を示す文字情報を対象項目の文字情報として推測してもよい。これにより、推測部222は、レイアウト又は画像が登録されている帳票画像について、対象項目の文字情報を精度良く推測することができる。以下では、推測部222により推測された文字情報及び位置情報をそれぞれ推測文字情報及び推測位置情報と称する場合がある。また、推測部222は、入力帳票画像と、検出した帳票データとの類似度を、推測した文字情報の信頼度として設定する。
次に、認識部223は、OCRを用いた文字認識処理を実行する(ステップS206)。認識部223は、公知のOCR技術を利用して、入力帳票画像から文字を検出する。例えば、認識部223は、画像が入力された場合にその画像に含まれる文字、各文字の位置及び各文字の評価点を出力する公知のOCRエンジンに入力帳票画像を入力して、入力帳票画像内の文字、各文字の位置及び各文字の評価点を取得する。評価点は、画像から検出された文字が正しい確率、正確性又は精度等を示す点数である。なお、認識部223は、入力帳票画像内で各文字が含まれる画像と、予め登録された各文字の画像パターンとの類似の程度を、各文字の評価点として算出してもよい。類似の程度は、例えば正規化相互相関値である。なお、類似の程度は、SSDの逆数又はSADの逆数でもよい。
また、認識部223は、文字が含まれる画像が入力された場合に、その画像に含まれる文字を示す情報と、画像内で各文字が含まれる位置と、各文字の評価点とを出力するように事前学習された識別器により、各文字を検出して各文字の評価点を算出してもよい。各評価点は、出力される文字を示す情報が正しい確率、正確性又は精度等を示す点数であり、出力される文字を示す情報が正しい可能性が高いほど高くなるように事前学習される。この識別器は、例えばディープラーニング等により、様々な文字を撮影した複数の画像を用いて事前学習され、予め第2記憶装置210に記憶される。認識部223は、入力帳票画像を識別器に入力し、識別器から出力された文字を示す情報と、入力帳票画像内で各文字が含まれる位置と、各文字の評価点を取得する。
次に、認識部223は、文字認識処理における検出結果に基づいて、入力帳票画像から対象項目の文字情報及びその文字情報に対応する位置情報を認識する(ステップS207)。認識部223は、文字認識処理で検出した文字の内、第1位置関係を有する複数の文字を文字列として検出する。第1位置関係を有する複数の文字は、例えば垂直方向において相互に重複し、且つ、水平方向において一定範囲内で隣り合いつつ連続する文字である。一定範囲は、例えば空白に相当する画素数に設定される。認識部223は、検出した文字列から、キーワードを検出する。キーワードは、対象項目の項目名である。例えば対象項目が取引先の会社名である場合、キーワードとして「会社名」が設定され、対象項目が請求金額である場合、キーワードとして「金額」が設定され、対象項目が支払期限である場合、キーワードとして「期日」が設定される。
認識部223は、検出したキーワードに対して第2位置関係を有する文字列を対象項目の文字情報として認識し、入力帳票画像内のその文字列の位置を位置情報として認識する。第2位置関係は、所定の位置関係の一例である。第2位置関係は、方向(例えば右側、下側、右下側)及び距離(例えば30mmに相当する画素内)を含み、事前に設定される。認識部223は、例えば、入力帳票画像内の、検出した文字列の外接矩形の左上角及び右下角の座標を位置情報として認識する。これにより、認識部223は、レイアウト又は画像が登録されていない帳票画像についても、対象項目の文字情報を精度良く検出することができる。以下では、認識部223により認識された文字情報及びその文字情報に対応する位置情報をそれぞれ認識文字情報及び認識位置情報と称する場合がある。
また、認識部223は、文字情報に示される各文字の評価点を、認識された文字情報に示される各文字の評価点の信頼度として設定する。なお、認識部223は、文字情報に示される文字列に対して形態素解析を実行し、形態素解析で抽出した単語間の連接コストが小さいほど信頼度が大きくなるように、信頼度を設定してもよい。連接コストは、各単語の繋がりやすさを示す指標であり、様々な単語の組合せ毎に、各組合せに係る単語の対応関係(繋がりやすさ)に応じて、予め設定されている。
次に、判定部224は、推測文字情報及び推測位置情報が認識文字情報及び認識位置情報と対応するか否かを判定する(ステップS208)。判定部224は、推測文字情報と認識文字情報とが一致し、且つ、推測位置情報に示される領域と認識位置情報に示される領域とが重なる場合、推測文字情報及び推測位置情報が認識文字情報及び認識位置情報と対応すると判定する。一方、判定部224は、推測文字情報と認識文字情報とが一致しない場合、又は、推測位置情報に示される領域と認識位置情報に示される領域とが重ならない場合、推測文字情報及び推測位置情報が認識文字情報及び認識位置情報と対応しないと判定する。なお、判定部224は、推測位置情報に示される領域と認識位置情報に示される領域とが重なるか否かの代わりに、推測位置情報に示される領域と認識位置情報に示される領域とが重なるサイズ又は割合が所定閾値以上であるか否かを判定条件として用いてもよい。また、判定部224は、推測部222により、入力帳票画像と近似する帳票データが検出されなかった場合も、推測文字情報及び推測位置情報が認識文字情報及び認識位置情報と対応しないと判定する。
推測文字情報及び推測位置情報が認識文字情報及び認識位置情報と対応する場合、制御部226は、認識文字情報を表示装置203に表示することにより出力し(ステップS209)、一連のステップを終了する。なお、制御部226は、認識文字情報を、第2インタフェース装置201を介して他の情報処理装置に送信することにより出力してもよい。なお、制御部226は、認識文字情報の代わりに、推測文字情報を出力してもよい。
一方、推測文字情報及び推測位置情報が認識文字情報及び認識位置情報と対応しない場合、算出部225は、推測文字情報と認識文字情報のずれ量を算出する(ステップS210)。例えば、算出部225は、推測文字情報と認識文字情報のずれ量として、推測文字情報に示される文字列と、認識文字情報に示される文字列のレーベンシュタイン距離を算出する。レーベンシュタイン距離は、二つの文字列がどの程度異なっているかを示す距離の一種であり、1文字の挿入、削除又は置換によって、一方の文字列を他方の文字列に変形するために必要な手順の最小回数である。
算出部225は、認識文字情報に示される文字列に1文字を挿入、削除又は置換するコストを1として、認識文字情報に示される文字列を推測文字情報に示される文字列に変形するために発生するコストの合計をずれ量として算出する。なお、認識文字情報に示される文字列の内の1文字の置換のコストは、置換される文字の評価点(信頼度)を0から1の範囲で正規化した値としてもよい。即ち、算出部225は、文字認識処理における認識文字情報の信頼度に基づいて、推測文字情報と認識文字情報のずれ量を算出する。これにより、算出部225は、認識した文字の信頼度が低い場合には、その文字によるずれ量を小さくすることができ、より精度良く推測文字情報と認識文字情報のずれ量を算出することができる。また、「株」、「式」、「会」、「社」、「財」、「団」等の特定のキーワードを挿入するコストは0でもよい。また、推測部222により、入力帳票画像と近似する帳票データが検出されなかった場合、算出部225は、ずれ量として所定の上限値(最大値)を設定する。
なお、算出部225は、推測文字情報と認識文字情報のずれ量として、推測文字情報に示される文字列と、認識文字情報に示される文字列のジャロ・ウィンクラー距離の逆数を算出してもよい。ジャロ・ウィンクラー距離は、二つの文字列がどの程度類似しているかを示す距離の一種であり、二つの文字列が類似している程ジャロ・ウィンクラー距離は大きくなる。算出部225は、ジャロ・ウィンクラー距離を用いる場合も、認識処理の処理負荷を低減させつつ、各文字列の一致度合いを高精度に特定することができる。
次に、判定部224は、算出部225により算出されたずれ量がずれ量閾値以上であるか否かを判定する(ステップS211)。ずれ量閾値は、例えば、帳票の汚れ等により発生する文字の認識誤りによって生じ得るずれ量(例えば2文字の認識誤りに相当するずれ量)に設定される。
ずれ量がずれ量閾値以上である場合、判定部224は、推測部222により検出された帳票データが入力帳票画像に対応していないと判定する(ステップS212)。
次に、制御部226は、判定部224による判定結果又は判定部224による判定結果に応じた対象項目に関する情報を表示装置203に表示することにより出力し(ステップS213)、一連のステップを終了する。なお、制御部226は、判定結果又は対象項目に関する情報を、第2インタフェース装置201を介して他の情報処理装置に送信することにより出力してもよい。
例えば、制御部226は、対象項目に関する情報として認識文字情報を出力する。即ち、制御部226は、推測部222により検出された帳票データが入力帳票画像に対応していないと判定された場合、判定部224による判定結果に応じた対象項目に関する情報として認識文字情報を出力する。これにより、制御部226は、誤って推測された文字情報を出力して、利用者の作業負担を増大させてしまうことを抑制することができる。なお、制御部226は、対象項目に関する情報として、認識位置情報、又は、入力帳票画像から認識位置情報に示される領域を切り出した画像等を出力してもよい。
また、制御部226は、文字情報又は位置情報でなく、判定部224による判定結果、即ち推測部222により検出された帳票データが入力帳票画像に対応していない旨を出力してもよい。その場合、利用者は、検出された帳票データが入力帳票画像に対応していないことを確認することができる。これにより、利用者は、帳票テーブルに記憶された帳票データが適切でないことを認識でき、帳票テーブルの更新をシステム管理者に要求することができる。その結果、情報処理装置200は、帳票テーブルの品質を向上させることが可能となり、文字情報を正しく推測することが可能となる。
一方、ずれ量がずれ量閾値未満である場合、判定部224は、推測文字情報の信頼度が信頼度閾値以上であるか否かを判定する(ステップS214)。信頼度閾値は、例えば、様々な会社で作成された二つの帳票から類似度を算出する事前の実験において、算出された類似度の平均値又は中央値に設定される。なお、信頼度閾値は、固定値(例えば96%に相当する類似度)に設定されてもよい。
推測文字情報の信頼度が信頼度閾値未満である場合、判定部224は、推測部222により検出された帳票データが入力帳票画像に対応していないと判定する(ステップS212)。次に、制御部226は、ずれ量がずれ量閾値未満である場合と同様に、認識文字情報を出力し(ステップS213)、一連のステップを終了する。
一方、推測文字情報の信頼度が信頼度閾値以上である場合、判定部224は、推測部222により検出された帳票データが入力帳票画像に対応していると判定する(ステップS215)。
次に、制御部226は、判定部224による判定結果又は判定部224による判定結果に応じた対象項目に関する情報を表示装置203に表示することにより出力し(ステップS216)、一連のステップを終了する。なお、制御部226は、判定結果又は対象項目に関する情報を、第2インタフェース装置201を介して他の情報処理装置に送信することにより出力してもよい。
例えば、制御部226は、対象項目に関する情報として推測文字情報を出力する。即ち、制御部226は、推測部222により検出された帳票データが入力帳票画像に対応していると判定された場合、判定部224による判定結果に応じた対象項目に関する情報として推測文字情報を出力する。これにより、制御部226は、一部の文字が誤って認識された文字情報を出力して、利用者の作業負担を増大させてしまうことを抑制することができる。なお、制御部226は、対象項目に関する情報として、推測位置情報、又は、入力帳票画像から推測位置情報に示される領域を切り出した画像等を出力してもよい。
また、制御部226は、文字情報又は位置情報でなく、判定部224による判定結果、即ち推測部222により検出された帳票データが入力帳票画像に対応している旨を出力してもよい。その場合、利用者は、検出された帳票データが入力帳票画像に対応していることを確認することができる。これにより、利用者は、帳票テーブルに記憶された帳票データが適切であることを認識でき、情報処理装置200は、利用者の利便性を向上させることが可能となる。
このように、判定部224は、算出部225により算出されたずれ量に基づいて、推測部222により検出された帳票データが入力帳票画像に対応しているか否かを判定する。判定部224は、帳票レイアウト又は帳票画像から推測された文字情報と、OCRで認識された文字情報とが相互に対応するか否かにより、帳票レイアウト又は帳票画像に基づいて検出された帳票データが入力帳票画像に対応しているか否かを精度良く判定できる。その結果、情報処理装置200は、帳票レイアウト又は帳票画像から推測された文字情報の信頼性を正しく判別することが可能となり、正しい文字情報を出力することが可能となる。
また、上記したように、算出部225は、文字認識処理における認識文字情報の信頼度に基づいて、推測文字情報と認識文字情報のずれ量を算出している。したがって、判定部224は、文字認識処理における認識文字情報の信頼度にさらに基づいて、推測部222により検出された帳票データが入力帳票画像に対応しているか否かを判定している。判定部224は、OCRで認識された文字情報の信頼性を用いることにより、その帳票データが入力帳票画像に対応しているか否かをより精度良く判定することができる。
また、判定部224は、推測文字情報の信頼度、即ち入力帳票画像と推測部222により検出された帳票データとの類似度にさらに基づいて、推測部222により検出された帳票データが入力帳票画像に対応しているか否かを判定する。判定部224は、帳票レイアウト又は帳票画像に基づいて検出された帳票データの信頼性を用いることにより、その帳票データが入力帳票画像に対応しているか否かをより精度良く判定することができる。
また、上記したように、推測文字情報及び推測位置情報が認識文字情報及び認識位置情報と対応する場合、判定部224が、検出された帳票データが入力帳票画像に対応しているか否かを判定することなく、制御部226は認識文字情報又は推測文字情報を出力する。即ち、判定部224は、推測文字情報及び推測位置情報が認識文字情報及び認識位置情報と対応しない場合に限り、検出された帳票データが入力帳票画像に対応しているか否かを判定する。これにより、判定部224は、推測文字情報と認識文字情報の信頼性が高い場合に、認識処理の処理負荷を低減させることができる。
以下、請求書が撮像され、請求元の会社名が対象項目である入力帳票画像を例に、各入力帳票画像において特定される対象項目について説明する。
図7は、同様の帳票のレイアウト及び画像が登録されており且つ鮮明に撮像された帳票が含まれる入力帳票画像700の一例を示す模式図である。
図7に示すように、入力帳票画像700は、請求書が撮像された画像である。入力帳票画像700には、表701、赤色を有する印鑑702、タイトル703、請求元の会社名704及び請求先の会社名705が含まれている。帳票テーブルには、入力帳票画像700に含まれる請求書と同様のレイアウト及び入力帳票画像700と同様の画像を有する帳票データが登録されている。そのため、図6のステップS205では、請求元の会社名704と同一の文字列を示す文字情報、及び、請求元の会社名704の位置と同一の位置を示す位置情報が推測される。また、入力帳票画像700において各文字は鮮明に撮像されている。そのため、ステップS207では、請求元の会社名704を示す文字情報、及び、請求元の会社名704の位置を示す位置情報が正しく認識される。したがって、ステップS208で推測文字情報及び推測位置情報が認識文字情報及び認識位置情報と対応すると判定され、ステップS209で認識文字情報が出力される。このように、入力帳票画像700では、OCRで認識された請求元の会社名704を示す文字情報が正しく出力される。
図8は、同様の帳票のレイアウト及び画像が登録されており且つ不鮮明に撮像された帳票が含まれる入力帳票画像800の一例を示す模式図である。
図8に示すように、入力帳票画像800は、請求書が撮像された画像である。入力帳票画像800には、表801、赤色を有する印鑑802、タイトル803、請求元の会社名804及び請求先の会社名805が含まれている。帳票テーブルには、入力帳票画像800に含まれる請求書と同様のレイアウト及び入力帳票画像800と同様の画像を有する帳票データが登録されている。そのため、図6のステップS205では、請求元の会社名804と同一の文字列を示す文字情報、及び、請求元の会社名804の位置と同一の位置を示す位置情報が推測される。一方、入力帳票画像800において各文字は不鮮明に撮像されている。そのため、ステップS207で、請求元の会社名804の一部が正しく認識されず、ステップS208で推測文字情報及び推測位置情報が認識文字情報及び認識位置情報と対応しないと判定される。この場合、ステップS211でずれ量が小さいと判定され且つステップS212で推測文字情報の信頼度が高いと判定され、ステップS215で推測文字情報が出力される。このように、入力帳票画像800では、OCRで一部が誤って認識された文字情報が出力されず、予め登録されていた正しい文字情報が出力される。
図9は、同様の帳票のレイアウト及び画像が登録されておらず且つ鮮明に撮像された帳票が含まれる入力帳票画像900の一例を示す模式図である。
図9に示すように、入力帳票画像900は、請求書が撮像された画像である。入力帳票画像900には、表901、赤色を有する印鑑902、タイトル903、請求元の会社名904及び請求先の会社名905が含まれている。帳票テーブルには、入力帳票画像900に含まれる請求書と同様のレイアウト及び入力帳票画像900と同様の画像を有する帳票データが登録されていない。そのため、図6のステップS205では、文字情報及び位置情報が推測されない。また、入力帳票画像900において各文字は鮮明に撮像されている。そのため、ステップS207で、請求元の会社名904を示す文字情報、及び、請求元の会社名904の位置を示す位置情報が正しく認識される。その結果、ステップS208で推測文字情報及び推測位置情報が認識文字情報及び認識位置情報と対応しないと判定される。そして、会社名が類似していない場合はステップS211でずれ量が大きいと判定され、会社名が類似している場合はステップS212で推測文字情報の信頼度が低いと判定される。何れの場合も、ステップS215で認識文字情報が出力される。このように、入力帳票画像900では、OCRで正しく認識された文字情報が出力される。
図10は、同様の帳票のレイアウト及び画像が登録されており且つ鮮明に撮像された帳票が含まれる入力帳票画像1000の一例を示す模式図である。但し、その帳票データは、入力帳票画像1000を発行した会社とは異なる会社の帳票データであり、その帳票データには、入力帳票画像1000を発行した会社の会社名と異なる会社名を示す文字情報が登録されている。
図10に示すように、入力帳票画像1000は、請求書が撮像された画像である。入力帳票画像1000には、表1001、赤色を有する印鑑1002、タイトル1003、請求元の会社名1004及び請求先の会社名1005が含まれている。帳票テーブルには、入力帳票画像1000に含まれる請求書と同様のレイアウト及び入力帳票画像1000と同様の画像を有する帳票データが登録されている。但し、その帳票データには、請求元の会社名1004と異なる会社名を示す文字情報が登録されている。そのため、図6のステップS205では、請求元の会社名1004と異なる会社名を示す文字情報が推測される。また、入力帳票画像1000において各文字は鮮明に撮像されている。そのため、ステップS207で、請求元の会社名1004を示す文字情報が正しく認識される。その結果、ステップS208で推測文字情報及び推測位置情報が認識文字情報及び認識位置情報と対応しないと判定される。この場合、ステップS211でずれ量が大きいと判定され、ステップS215で認識文字情報が出力される。このように、入力帳票画像1000では、帳票データとして登録された誤った会社名を示す文字情報が出力されず、OCRで正しく認識された文字情報が出力される。
図11は、同様の帳票のレイアウト及び画像が登録されており且つ請求元の会社名がゴム印で記載された帳票が含まれる入力帳票画像1100の一例を示す模式図である。但し、入力帳票画像1100内で、請求元の会社名は、その帳票データに登録された位置情報に示される位置に対してずれた位置に記載されている。
図11に示すように、入力帳票画像1100は、請求書が撮像された画像である。入力帳票画像1100には、表1101、赤色を有する印鑑1102、タイトル1103、請求元の会社名1104及び請求先の会社名1105が含まれている。帳票テーブルには、入力帳票画像1100に含まれる請求書と同様のレイアウト及び入力帳票画像1100と同様の画像を有する帳票データが登録されている。但し、入力帳票画像1100内で、請求元の会社名は、その帳票データに登録された位置情報に示される位置に対してずれた位置に記載されている。そのため、図6のステップS205では、請求元の会社名1104の位置と異なる位置を示す位置情報が推測される。また、入力帳票画像1100において会社名がゴム印になっており文字認識が困難である。そのため、ステップS207で、請求元の会社名1104を示す文字情報が正しく認識されず、ステップS208では、位置情報が異なるため、推測文字情報及び推測位置情報が認識文字情報及び認識位置情報と対応しないと判定される。また、各文字の評価点の信頼度が低いため、ステップS211でずれ量が大きいと判定され、ステップS215で認識文字情報が出力される。このように、入力帳票画像1100では、OCRで認識された文字情報が出力される。
以上詳述したように、情報処理装置200は、レイアウト認識処理又は画像認識処理で検出された帳票データが入力帳票画像に対応しているか否かを、その帳票データに基づいて推測された文字情報と文字認識処理で認識された文字情報のずれ量に基づいて判定する。これにより、情報処理装置200は、入力帳票画像に記載されている対象項目の文字情報を精度良く特定することが可能となり、特定された対象項目の文字情報を利用者に修正させる回数を低減させることが可能となった。したがって、情報処理装置200は、利用者の作業負担をより軽減させることが可能となった。
その結果、情報処理装置200は、入力装置202を用いて利用者から対象項目の文字情報の修正を受け付ける回数が減少し、入力帳票画像を扱う処理におけるプロセッサの処理負荷を低減させることが可能となった。また情報処理装置200は、他の情報処理装置に対象項目の文字列に関する情報を送信する場合、他の情報処理装置から対象項目の文字列の修正要求を受信する回数が減少し、情報処理装置200と他の情報処理装置の間の通信量を低減させることが可能となった。
また、画像処理システム1は、OCR及びRPA(Robotic Process Automation)技術を利用して帳票入力業務を自動化する企業において、帳票入力業務の効率化を図り、担当者の業務負担を軽減させることが可能となった。特に、画像処理システム1は、請求書等の帳票を電子化して支払い依頼等の業務を自動化する際に、取引先の名称を精度良く特定することが可能となり、利用者の利便性を向上させることが可能となった。
請求書、領収書等の帳票における帳票レイアウトは会社毎に異なり、一つの会社の帳票は同一の帳票レイアウトに従って作成されている可能性が高い。情報処理装置200は、複数の帳票データを帳票のレイアウトと対応付けて記憶しておき、入力帳票画像のレイアウトに基づいて、各帳票データを使用可能であるか否かを判定する。これにより、情報処理装置200は、対象項目の会社名を精度良く検出することが可能となった。
特に、FAXで帳票が送信される場合、受信した帳票の解像度が低くなり、帳票内の文字がつぶれてしまって、OCRでは正しく認識されない可能性がある。また、請求書、領収書等の帳票において、会社名が特殊なフォントもしくはゴム印等で記載されている場合、又は、会社名に印鑑等が重畳されている場合等も、対象項目の会社名がOCRで正しく認識されない可能性がある。また、相互に異なる会社の帳票であっても、類似したレイアウトが使用される場合があるため、レイアウト又は画像のみに基づいて文字情報を推測する場合、誤って推測する可能性がある。情報処理装置200は、レイアウト又は画像に基づく文字情報の推測結果と、OCRを用いた文字情報の認識結果とを総合的に判断して、対象項目の文字情報を特定する。したがって、情報処理装置200は、精度良く対象項目の文字情報を特定することが可能となった。
図12は、他の実施形態に係る情報処理装置における第2処理回路230の概略構成を示すブロック図である。
第2処理回路230は、第2処理回路220の代わりに、認識処理を実行する。第2処理回路230は、取得回路231、推測回路232、認識回路233、判定回路234、算出回路235及び制御回路236等を有する。
取得回路231は、取得部の一例であり、取得部221と同様の機能を有する。取得回路231は、入力帳票画像を、第2インタフェース装置201を介して画像読取装置100から取得し、第2記憶装置210に保存する。
推測回路232は、推測部の一例であり、推測部222と同様の機能を有する。推測回路232は、第2記憶装置210から帳票テーブル及び入力帳票画像を読み出し、入力帳票画像と最も近似する帳票データを検出し、検出した帳票データに基づいて対象項目の文字情報を推測し、推測結果を第2記憶装置210に保存する。
認識回路233は、認識部の一例であり、認識部223と同様の機能を有する。認識回路233は、第2記憶装置210から入力帳票画像を読み出し、入力帳票画像から対象項目の文字情報を認識し、認識結果を第2記憶装置210に保存する。
判定回路234は、判定部の一例であり、判定部224と同様の機能を有する。判定回路234は、第2記憶装置210から文字情報の推測結果、認識結果、及び、推測文字情報と認識文字情報のずれ量を読み出し、帳票データが入力帳票画像に対応しているか否かを判定し、判定結果を第2記憶装置210に保存する。
算出回路235は、算出部の一例であり、算出部225と同様の機能を有する。算出回路235は、第2記憶装置210から文字情報の推測結果及び認識結果を読み出し、推測文字情報と認識文字情報のずれ量を算出し、第2記憶装置210に保存する。
制御回路236は、制御部の一例であり、制御部226と同様の機能を有する。制御回路236は、第2記憶装置210から文字情報の推測結果、認識結果、及び、帳票データが入力帳票画像に対応しているか否かの判定結果を読み出し、判定結果又は判定結果に応じた対象項目に関する情報を表示装置203に出力する。
以上詳述したように、情報処理装置は、第2処理回路230を用いる場合も、利用者の作業負担をより軽減させることが可能となった。
以上、好適な実施形態について説明してきたが、実施形態はこれらに限定されない。例えば、画像読取装置100と情報処理装置200の機能分担は、図1に示す画像処理システム1の例に限られず、画像読取装置100及び情報処理装置200の各部を画像読取装置100と情報処理装置200の何れに配置するかは適宜変更可能である。または、画像読取装置100と情報処理装置200を一つの装置で構成してもよい。
例えば、画像読取装置100の第1記憶装置110が、情報処理装置200の第2記憶装置210に記憶された各プログラム及び各データを記憶してもよい。また、画像読取装置100の第1処理回路120が、情報処理装置200の第2処理回路220により実現される各部として動作してもよい。また、画像読取装置100が、情報処理装置200の第2処理回路230と同様の処理回路を有してもよい。
その場合、画像読取装置100は、表示装置203と同様の表示装置を有する。認識処理は画像読取装置100で実行されるため、ステップS102、S201の帳票画像の送受信処理は省略される。ステップS202〜S216の各処理は、画像読取装置100の第1処理回路120によって実行される。これらの処理の動作は、情報処理装置200の第2処理回路220又は第2処理回路230によって実行される場合と同様である。この場合、画像読取装置100が画像処理装置として動作する。
また、画像処理システム1において、第1インタフェース装置101と第2インタフェース装置201は、インターネット、電話回線網(携帯端末回線網、一般電話回線網を含む)、イントラネット等のネットワークを介して接続してもよい。その場合、第1インタフェース装置101及び第2インタフェース装置201に、接続するネットワークの通信インタフェース回路を備える。また、その場合、クラウドコンピューティングの形態で画像処理のサービスを提供できるように、ネットワーク上に複数の情報処理装置を分散して配置し、各情報処理装置が協働して、認識処理等を分担するようにしてもよい。これにより、画像処理システム1は、複数の画像読取装置が読み取った帳票画像について、効率よく認識処理を実行できる。
200 情報処理装置
203 表示装置
210 第2記憶装置
221 取得部
222 推測部
223 認識部
224 判定部
225 算出部
226 制御部

Claims (9)

  1. 複数の帳票データが記憶された記憶部と、
    入力帳票画像を取得する取得部と、
    罫線を用いたレイアウト認識処理、又は、画素特徴点を用いた画像認識処理により、前記複数の帳票データの中から、前記入力帳票画像と最も近似する帳票データを検出し、前記検出した帳票データに基づいて対象項目の文字情報を推測する推測部と、
    OCRを用いた文字認識処理により、前記入力帳票画像から対象項目の文字情報を認識する認識部と、
    前記推測された文字情報と前記認識された文字情報のずれ量を算出する算出部と、
    前記ずれ量に基づいて、前記検出された帳票データが前記入力帳票画像に対応しているか否かを判定する判定部と、
    前記判定部による判定結果又は前記判定結果に応じた対象項目に関する情報を出力する制御部と、
    を有することを特徴とする画像処理装置。
  2. 前記制御部は、前記検出された帳票データが前記入力帳票画像に対応していると判定された場合、前記判定結果に応じた対象項目に関する情報として、前記推測された文字情報を出力し、前記検出された帳票データが前記入力帳票画像に対応していないと判定された場合、前記判定結果に応じた対象項目に関する情報として、前記認識された文字情報を出力する、請求項1に記載の画像処理装置。
  3. 前記推測部は、前記入力帳票画像と前記複数の帳票データとの類似度を算出し、前記類似度に基づいて、前記入力帳票画像と最も近似する帳票データを検出し、
    前記判定部は、前記入力帳票画像と前記検出された帳票データの類似度にさらに基づいて、前記検出された帳票データが前記入力帳票画像に対応しているか否かを判定する、請求項1または2に記載の画像処理装置。
  4. 前記判定部は、前記文字認識処理における前記認識された文字情報の信頼度にさらに基づいて、前記検出された帳票データが前記入力帳票画像に対応しているか否かを判定する、請求項1〜3の何れか一項に記載の画像処理装置。
  5. 前記推測部は、さらに、前記検出した帳票データに基づいて対象項目の位置情報を推測し、
    前記判定部は、前記推測部により推測された文字情報及び位置情報が、前記認識部により認識された文字情報及び当該文字情報に対応する位置情報と対応しない場合に限り、前記検出された帳票データが前記入力帳票画像に対応しているか否かを判定する、請求項1〜4の何れか一項に記載の画像処理装置。
  6. 前記記憶部には、前記複数の帳票データ毎に対象項目の文字情報及び位置情報が記憶され、
    前記推測部は、前記検出した帳票データに対応して前記記憶部に記憶された文字情報及び位置情報を、対象項目の文字情報及び位置情報として推測する、請求項1〜5の何れか一項に記載の画像処理装置。
  7. 前記認識部は、前記入力帳票画像からキーワードを検出し、検出したキーワードに対して所定の位置関係を有する文字列を対象項目の文字情報として認識する、請求項1〜6の何れか一項に記載の画像処理装置。
  8. 記憶部を有する画像処理装置の制御方法であって、前記画像処理装置が、
    複数の帳票データを前記記憶部に記憶し、
    入力帳票画像を取得し、
    罫線を用いたレイアウト認識処理、又は、画素特徴点を用いた画像認識処理により、前記複数の帳票データの中から、前記入力帳票画像と最も近似する帳票データを検出し、前記検出した帳票データに基づいて対象項目の文字情報を推測し、
    OCRを用いた文字認識処理により、前記入力帳票画像から対象項目の文字情報を認識し、
    前記推測された文字情報と前記認識された文字情報のずれ量を算出し、
    前記ずれ量に基づいて、前記検出された帳票データが前記入力帳票画像に対応しているか否かを判定し、
    前記判定における判定結果又は前記判定結果に応じた対象項目に関する情報を出力する、
    ことを特徴とする制御方法。
  9. 記憶部を有するコンピュータの制御プログラムであって、
    複数の帳票データを前記記憶部に記憶し、
    入力帳票画像を取得し、
    罫線を用いたレイアウト認識処理、又は、画素特徴点を用いた画像認識処理により、前記複数の帳票データの中から、前記入力帳票画像と最も近似する帳票データを検出し、前記検出した帳票データに基づいて対象項目の文字情報を推測し、
    OCRを用いた文字認識処理により、前記入力帳票画像から対象項目の文字情報を認識し、
    前記推測された文字情報と前記認識された文字情報のずれ量を算出し、
    前記ずれ量に基づいて、前記検出された帳票データが前記入力帳票画像に対応しているか否かを判定し、
    前記判定における判定結果又は前記判定結果に応じた対象項目に関する情報を出力する、
    ことを前記コンピュータに実行させることを特徴とする制御プログラム。
JP2020048213A 2020-03-18 2020-03-18 画像処理装置、制御方法及び制御プログラム Pending JP2021149452A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020048213A JP2021149452A (ja) 2020-03-18 2020-03-18 画像処理装置、制御方法及び制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020048213A JP2021149452A (ja) 2020-03-18 2020-03-18 画像処理装置、制御方法及び制御プログラム

Publications (1)

Publication Number Publication Date
JP2021149452A true JP2021149452A (ja) 2021-09-27

Family

ID=77848911

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020048213A Pending JP2021149452A (ja) 2020-03-18 2020-03-18 画像処理装置、制御方法及び制御プログラム

Country Status (1)

Country Link
JP (1) JP2021149452A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7425147B2 (ja) 2022-02-25 2024-01-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 画像処理方法、テキスト認識方法及び装置
JP7447928B2 (ja) 2022-04-08 2024-03-12 株式会社リコー 情報処理装置、プログラム、情報処理システム、情報処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7425147B2 (ja) 2022-02-25 2024-01-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 画像処理方法、テキスト認識方法及び装置
JP7447928B2 (ja) 2022-04-08 2024-03-12 株式会社リコー 情報処理装置、プログラム、情報処理システム、情報処理方法

Similar Documents

Publication Publication Date Title
JP4859025B2 (ja) 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
WO2017140233A1 (zh) 文字检测方法及系统、设备、存储介质
US8655107B2 (en) Signal processing apparatus, signal processing method, computer-readable medium and computer data signal
US20040213458A1 (en) Image processing method and system
US10970579B2 (en) Image processing apparatus for placing a character recognition target region at a position of a predetermined region in an image conforming to a predetermined format
JP2013042415A (ja) 画像処理装置、画像処理方法及びコンピュータプログラム
JP4100885B2 (ja) 帳票認識装置、方法、プログラムおよび記憶媒体
CN115497109B (zh) 基于智能翻译的文字图像预处理方法
US7146047B2 (en) Image processing apparatus and method generating binary image from a multilevel image
JP2021149452A (ja) 画像処理装置、制御方法及び制御プログラム
JP2008204184A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP2012155586A (ja) 画像2値化方法および画像2値化装置
JP6970834B2 (ja) 画像処理装置、制御方法及び制御プログラム
US11288536B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
JP2021149459A (ja) 画像処理装置、制御方法及び制御プログラム
WO2021181704A1 (ja) 画像処理装置、制御方法及び制御プログラム
Rosner et al. Text line processing for high-confidence skew detection in image documents
JP7478628B2 (ja) 画像処理装置、制御方法及び制御プログラム
WO2016069005A1 (en) Text line detection
WO2021186642A1 (ja) 画像処理装置、制御方法及び制御プログラム
JP4792117B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP4974794B2 (ja) 文書認識装置、文書認識方法、コンピュータプログラム
JP2022167414A (ja) 画像処理装置、画像処理方法およびプログラム
CN112825141B (zh) 识别文本的方法、装置、识别设备和存储介质
JP5298830B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム