JP2021179896A

JP2021179896A - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP2021179896A
Application number: JP2020085865A
Authority: JP
Inventors: 正三中島; Shozo Nakajima
Original assignee: Double Standard Inc
Current assignee: Double Standard Inc
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2021-11-18
Anticipated expiration: 2040-05-15
Also published as: JP2021179999A; JP6899603B1

Abstract

【課題】文書を効果的に読み取ることのできる情報処理装置、情報処理方法及び情報処理プログラムを提供すること。【解決手段】本発明に係る情報処理装置は、書類の画像から文字を認識する認識部と、書類から取得する項目の情報を参照し、認識部が認識した文字に項目が存在するか否かを判定する判定部と、判定部が存在すると判定しない項目がある場合、該項目を構成する各文字を認識部が認識した文字から探索する探索部と、探索部により探索された各文字を項目として認識可能に処理する結合部と、項目に対応する文字を取得する取得部と、を備える。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

業務効率化や手続きの利便性向上のためなど、文書を電子化する機会が増大している。例えば、金融業界では、諸契約をオンラインで行うことができるように、本人確認書類を読み取った画像に基づき本人確認を行う契約関連書類確認システムが提案されている（特許文献１参照）。この契約関連書類確認システムは、顧客と会社との間の契約に伴う処理を行なう自動契約機と、この自動契約機に通信回線を介して接続され、受信した顧客情報を利用して顧客の本人確認を行なう契約管理サーバとを有している。

自動契約機は、顧客の契約に関する契約関連書類の画像を読み取る画像読取手段と、画像読取手段によって読み取られた画像に基づき、画像上の文字列を認識する文字列認識手段と、認識された文字列の中から第１の定型単語と第２の定型単語との間に存在する文字情報を抽出する文字情報抽出手段と、抽出された文字情報を第１の定型単語及び第２の定型単語の種類から顧客属性に割り当てて顧客属性情報とする属性割当手段と、属性割当手段によって得られた顧客属性情報を含む顧客情報を契約管理サーバへ送信する顧客情報送信手段とを有している。

また、契約管理サーバは、受信した顧客情報の中の顧客属性情報が正当なものであるか否かを確認する顧客属性情報確認手段と、顧客属性情報確認手段により顧客属性情報が正当なものであると確認された場合に顧客情報に基づき本人確認を行う本人確認手段とを有している。

契約関連書類確認システムによれば、文字列認識手段により画像読取手段によって読み取られた画像から文字列が認識され、文字情報抽出手段により文字列認識手段によって認識された文字列の中から第１の定型単語と第２の定型単語との間に存在する文字情報が抽出され、属性割当手段により抽出された文字情報を第１及び第２の定型単語の種類から顧客属性に割り当てて顧客属性情報とし、その上で、顧客情報送信手段によりこの顧客属性情報を含む顧客情報を契約管理サーバへ送信するようにし、契約管理サーバにおいて、顧客属性情報確認手段により顧客情報の中の顧客属性情報が正当なものであるか否かを確認し、正当なものであると確認された場合に、顧客属性情報に基づき本人確認を行うことが可能となる、としている。

特開２００８−１２９８９２号公報

しかしながら、書類によって項目の位置が異なる、項目の記載方法が異なるなど、従来の手法では文書をうまく読み取ることができない場合があり、未だ向上の余地がある。

本発明は、上記課題に鑑みてなされたものであり、文書を効果的に読み取ることのできる情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。

上記課題を解決するため、本発明の情報処理装置は、書類の画像から文字を認識する認識部と、書類から取得する項目の情報を参照し、認識部が認識した文字に項目が存在するか否かを判定する判定部と、判定部が存在すると判定しない項目がある場合、該項目を構成する各文字を認識部が認識した文字から探索する探索部と、探索部により探索された各文字を項目として認識可能に処理する結合部と、項目に対応する文字を取得する取得部と、を備える。

本発明によれば、文書を効果的に読み取ることのできる情報処理装置、情報処理方法及び情報処理プログラムを提供することができる。

実施形態に係る情報処理サーバのハード構成の一例を示す図である。実施形態に係る情報処理サーバの記憶装置に記憶されているデータベースの一例を示す図である。各データベースに記憶されている情報の一例を示す図である。実施形態に係る情報処理サーバの機能ブロックの一例を示す図である。実施形態に係る情報処理サーバの文字認識処理の一例を示すフローチャートである。実施形態に係る情報処理サーバの認識部による文字認識の一例を示す図である。実施形態に係る情報処理サーバの認識部による位置情報付与の一例を示す図である。実施形態に係る情報処理サーバの探索部による探索の一例を示す図である。実施形態に係る情報処理サーバの結合部による横方向の結合の一例を示す図である。実施形態に係る情報処理サーバの結合部による縦方向の結合の一例を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。また、読み取る書類として本人確認書類（例えば、運転免許証の他、パスポート（旅券）、住民基本台帳カード、在留カードなど）を例に説明するが、書類は本人確認書類に限られない。

［実施形態］
図１は、本実施形態に係る情報処理サーバ１（情報処理装置）のハード構成の一例を示す図である。図１に示すように、情報処理サーバ１は、通信ＩＦ１００Ａ、記憶装置１００Ｂ及びＣＰＵ１００Ｃがバス１００Ｄを介して接続された構成を備える。

通信ＩＦ１００Ａは、外部端末と通信するためのインターフェースである。

記憶装置１００Ｂは、例えば、ＨＤＤや半導体記憶装置である。記憶装置１００Ｂには、情報処理サーバ１で利用する情報処理プログラムや各種データベースが記憶されている。なお、本実施形態では、情報処理プログラムや各種データベースは、情報処理サーバ１の記憶装置１００Ｂに記憶されているが、ＵＳＢメモリなどの外部記憶装置やネットワークを介して接続された外部サーバに記憶し、必要に応じて参照やダウンロード可能に構成されていてもよい。

図２は、情報処理サーバ１の記憶装置１００Ｂに記憶されているデータベースの一例を示す図である。図２に示すように、記憶装置１００Ｂには、補正パタンデータベース１（以下、補正パタンＤＢ１）、分類用データベース２（以下、分類用ＤＢ２）、項目マスタデータベース３（以下、項目マスタＤＢ３）が記憶されている。

（補正パタンＤＢ１）
補正パタンＤＢ１は、書類の画像データを補正するための補正パタンが複数記憶されている。図３（ａ）は、補正パタンＤＢ１に記憶されている情報の一例を示す図である。図３（ａ）に示すように、複数の補正パタンは、それぞれ１以上の補正を組み合わせて構成されている。例えば、補正パタン１は、補正１及び３を組み合わせて構成される。また、補正パタン２は、補正１、２及び４を組み合わせて構成される。また、補正パタン３は、補正１、２及び３を組み合わせて構成される。また、補正パタン４は、補正１、３及び５を組み合わせて構成される。また、補正パタン５は、補正１及び４を組み合わせて構成される。なお、補正パタンの数は５に限られず３以上であればよい。

また、補正１〜補正５は、例えば、それぞれ遠近法ワープ（台形補正）、明るさ補正、コントラスト補正、ガウス補正、ぼかし補正などである。なお、図３（ａ）に示す各補正パタンの補正の組み合わせはあくまで一例であり、各補正パタンをどのような補正で構成するかは任意である。また、補正は、補正１〜補正５の５つに限られない。

（分類用ＤＢ２）
分類用ＤＢ２には、書類を分類するための情報が記憶されている。図３（ｂ）は、分類用ＤＢ２に記憶されている情報の一例を示す図である。図３（ｂ）に示すように、分類用ＤＢ２には、書類の種別ごとに特有のパタンマッチ用データ（画像データや特徴点データ（例えば、印章の画像データや特徴点データなど））やキーワード（ＫＷ）が関連付けて記憶されている。なお、図３（ｂ）に示すパタンマッチ用データやキーワードはあくまで一例であり、書類を分類するための情報として、どのようなパタンマッチ用データやキーワードとするかは任意である。後述の分類部１０６は、分類用ＤＢ２を参照し、文書の画像データにパタンマッチ用データやキーワードが含まれているが否かに基づいて、書類の画像データを分類する。

（項目マスタＤＢ３）
取得する項目の情報が書類の種別ごとに記憶されている。図３（ｃ）は、項目マスタＤＢ３に記憶されている情報の一例を示す図である。図３（ｃ）に示すように、項目マスタＤＢ３には、書類の種別ごとに取得する情報の項目が関連付けて記憶されている。なお、書類からどのような項目の情報を取得するかは任意である。

ＣＰＵ１００Ｃは、情報処理サーバ１を制御し、図示しないＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）を備えている。

図４に示すように、情報処理サーバ１は、受信部１０１、送信部１０２、記憶装置制御部１０３、補正部１０４、認識部１０５、分類部１０６、判定部１０７、探索部１０８、結合部１０９、取得部１１０などの機能を有する。なお、図４に示す機能は、情報処理サーバ１のＲＯＭ（不図示）に記憶された情報処理プログラムをＣＰＵ１００Ｃが実行することにより実現される。

受信部１０１は、外部から送信される情報、例えば、書類の画像データなどを受信する。

送信部１０２は、認識したデータなどを外部へ送信する。

記憶装置制御部１０３は、記憶装置１００Ｂを制御する。具体的には、記憶装置制御部１０３は、記憶装置１００Ｂを制御して情報の書き込みや読み出しを行う。

補正部１０４は、書類の画像データを、補正パタンＤＢ１に記憶されている複数の補正パタン（各補正パタンには、各々１以上の異なる補正が含まれている）により補正し、各補正パタンに対応する複数の補正後の画像を生成する。具体的には、補正部１０４は、画像データを補正パタン１で補正した補正後画像データ１を生成する。また、補正部１０４は、画像データを補正パタン２で補正した補正後画像データ２を生成する。また、補正部１０４は、画像データを補正パタン３で補正した補正後画像データ３を生成する。また、補正部１０４は、画像データを補正パタン４で補正した補正後画像データ４を生成する。また、補正部１０４は、画像データを補正パタン５で補正した補正後画像データ５を生成する。

認識部１０５は、書類の画像データから文字を認識する。ここで、認識部１０５は、補正部１０４で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。次いで、認識部１０５は、複数の補正後の画像データから認識した文字のうち最も多いものを選択し、認識した文字とする。また、認識部１０５は、認識した文字に位置情報を付与する。なお、位置情報は、書類の左上をゼロ点としたＸＹ座標により表され、書類に向かって横方向がＸ軸（右方向が正）、縦方向がＹ軸（下方向が正）となっている。なお、座標を表す数値に画素数を利用してもよい。また、書類のどの位置をゼロ点とするかは任意である。また、座標を表す数値に画素数以外の数値を利用してもよい。

なお、認識部１０５は、書類の画像データから文字を認識する際、認識した文字の位置情報（座標）が横方向（Ｘ軸）又は縦方向（Ｙ軸）において所定距離内である場合（例えば、文字の位置を示す座標が重なっている場合）、一続きの言葉を構成する文字であると認識し、認識した文字の位置情報（座標）が横方向（Ｘ軸）又は縦方向（Ｙ軸）において所定距離より離れている場合（例えば、文字の位置を示す座標が重なっている場合）、一続きの言葉を構成する文字でなく別の文字又は言葉を構成する文字であると認識する。なお、文字の位置を示す座標が重なっているとは、例えば、「言葉」の文字が書類上に横方向（Ｘ軸）に記載されている場合、「言」の文字の右端の位置座標が、「葉」の文字の左端の位置座標よりも横方向（Ｘ軸）において右側に存在する場合、換言すると、「葉」の文字の左端の位置座標が、「言」の文字の右端の位置座標よりも横方向（Ｘ軸）において左側に存在する場合をいう。また、例えば、「言葉」の文字が書類上に縦方向（Ｙ軸）に記載されている場合、「言」の文字の下端の位置座標が、「葉」の文字の上端の位置座標よりも縦方向（Ｙ軸）において下側に存在する場合、換言すると、「葉」の文字の上端の位置座標が、「言」の文字の下端の位置座標よりも縦方向（Ｘ軸）において上側に存在する場合をいう。

分類部１０６は、分類用ＤＢ２を参照し、書類の画像データを分類する。具体的には、分類部１０６は、分類用ＤＢ２を参照し、書類の種別ごとに用意されたパタンマッチ用データやキーワードが存在するか否かに応じて、画像データのもととなった書類を分類する。分類部１０６は、分類した情報（書類の種別情報）を書類の画像データに付与する。

判定部１０７は、取得する項目の情報が書類の種別ごとに記憶された項目マスタＤＢ３を参照し、認識部１０５が認識した文字に項目が存在するか否かを、項目ごとに判定する。

探索部１０８は、判定部１０７が存在すると判定しない項目がある場合、該項目を構成する各文字を認識部１０５が認識した文字から探索する。ここで、探索部１０８は、各文字のうちの１文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。

結合部１０９は、探索部１０８により探索された書類の画像データ上の文字を項目として認識可能なようにデータ的に結合する。

取得部１１０は、項目に対応する文字を、項目ごとに取得する。具体的には、取得部１１０は、項目の第１側（本実施形態では右側）に存在する次の項目（次項目）までの文字又は改行までの文字を項目に対応する文字として取得する。また、取得部１１０は、項目の第１側（本実施形態では右側）の所定範囲内に文字（項目を構成する文字を除く）が存在しない場合、項目の第１側とは異なる第２側（本実施形態では下側）に存在する次の項目（次項目）までの文字又は改行までの文字を、項目に対応する文字として取得する。

（情報処理方法）
図５は、実施形態に係る情報処理サーバの書類分別処理の一例を示すフローチャートである。

（ステップＳ１０１）
情報処理サーバ１の補正部１０４は、補正パタンＤＢ１を参照し、文書の画像データを補正する。具体的には、補正部１０４は、書類の画像データを、補正パタンＤＢ１に記憶されている複数の補正パタン（各補正パタンには、各々１以上の異なる補正が含まれている）により補正し、各補正パタンに対応する複数の補正後の画像を生成する。

（ステップＳ１０２）
情報処理サーバ１の認識部１０５は、書類の画像データから文字を認識する。具体的には、認識部１０５は、補正部１０４で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。次いで、認識部１０５は、複数の補正後の画像データから認識した文字のうち最も多いものを選択し、認識した文字とする。

図６は、認識部１０５による文字認識の一例を示す図である。図６に示すように、認識部１０５は、補正部１０４で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。図６に示す例では、補正パタン１、３及び５では、認識結果が「山田太郎」となっている。また、補正パタン２では、認識結果が「山田大郎」となっている。また、補正パタン３では、認識結果が「認識不可」、すなわち文字を認識することができなかったとなっている。認識部１０５は、複数の補正後の画像データから認識した文字のうち最も多いもの、図６に示す例では「山田太郎」を選択し、認識した文字として決定する。なお、認識した文字のうち最も多いものがない場合（例えば、補正パタン１〜５の判定結果がそれぞれ２、２、２、２、１の場合）は、再度、ステップＳ１０２の処理を行ってもよいし、補正パタンを変更してステップＳ１０２の処理を行ってもよい、また、読み取れなったとして報知（エラーを出力）するようにしてもよい。

（ステップＳ１０３）
情報処理サーバ１の認識部１０５は、認識した文字に位置情報を付与する。図７は、認識部１０５による位置情報付与の一例を示す図である（図中の破線、矢印、Ｔｏｐ、Ｌｅｆｔ、Ｂｏｔｔｏｍ、Ｒｉｇｈｔの文字は、説明のために図示したものであり、実際の画像データとして存在するものではない）。図７（ａ）は、認識対象である書類の画像データの一例、図７（ｂ）は、図７（ａ）を認識した文字に付与された位置情報の一例である。図７に示すように、認識部１０５は、書類の左上をゼロ点としたＸＹ座標により表される位置情報を認識した文字に付与する。図７（ｂ）に示す例では、Ｔｏｐは文字の上端、Ｌｅｆｔは文字の左端、Ｂｏｔｔｏｍは、文字の下端、Ｒｉｇｈｔは文字の右端、Ｗｏｒｄは認識した文字である。なお、上述したように、本実施形態では、位置情報は書類の左上をゼロ点としたＸＹ座標により表され、座標の数値には画素数が利用されている。

上記のようにして、認識部１０５は、画像データに含まれる全ての文字を認識し、認識した文字に、書類の左上をゼロ点としたＸＹ座標により表される位置情報を付与する。なお、図７に示す例では、文字の上端（Ｔｏｐ）、左端（Ｌｅｆｔ）、下端（Ｂｏｔｔｏｍ）、右端（Ｒｉｇｈｔ）は、実際の文字から離れた位置となっているが、これは認識した文字のフォントサイズに応じて文字の上端（Ｔｏｐ）、左端（Ｌｅｆｔ）、下端（Ｂｏｔｔｏｍ）、右端（Ｒｉｇｈｔ）が決定されるためである。また、本実施形態では、文字の位置情報を上端（Ｔｏｐ）、左端（Ｌｅｆｔ）、下端（Ｂｏｔｔｏｍ）、右端（Ｒｉｇｈｔ）で示しているが、文字の左上及び右下のそれぞれのＸ軸及びＹ軸の位置座標、又は文字の右上及び左下のそれぞれのＸ軸及びＹ軸の位置座標で文字の位置を示すようにしてもよい。

（ステップＳ１０４）
分類部１０６は、分類用ＤＢ２を参照し、書類の画像データを分類する。具体的には、分類部１０６は、分類用ＤＢ２を参照し、認識部１０５で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定する。認識部１０５で認識された文字に、用意されたパタンマッチ用データ又はキーワードのいずれか一つが含まれている場合、分類部１０６は、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類する。また、分類部１０６は、分類した情報（書類の種別情報）を書類の画像データに付与する。

（ステップＳ１０５）
判定部１０７は、項目マスタＤＢ３を参照し、分類部１０６で分類された書類の種別に対応する項目が存在するか否かを項目ごとに判定する。判定部１０７が存在すると判定しない項目がある場合（ＹＥＳ）、情報処理サーバ１は、ステップＳ１０６の処理へ移行する。また、判定部１０７が存在すると判定しない項目がない場合（ＮＯ）、情報処理サーバ１は、ステップＳ１０８の処理へ移行する。

（ステップＳ１０６）
探索部１０８は、判定部１０７により存在しないとされた項目を構成する各文字を認識部１０５が認識した文字から探索する。ここで、探索部１０８は、各文字のうちの１文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。

図８は、探索部１０８による探索の一例を示す図である（図中の破線、矢印、Ｔｏｐ、Ｌｅｆｔ、Ｂｏｔｔｏｍ、Ｒｉｇｈｔの文字は、説明のために図示したものであり、実際の画像データとして存在するものではない）。図８（ａ）は、探索部１０８による横方向（Ｘ座標）探索の一例を示す図である。図８（ａ）に示すように「氏名」の項目が、横方向（Ｘ軸方向）に所定間隔以上離れて配置されている場合、「氏」の文字と「名」の文字とがそれぞれ単独で読み取られるため、「氏名」の項目が書類上に存在するにも関わらず「氏名」の項目として認識することができない。そこで、探索部１０８は、「氏名」の項目を構成する各文字のうちの１文字である「氏」を起点とした所定範囲内に「氏名」の項目を構成する他の文字である「名」が存在するか探索する。より具体的には、探索部１０８は、「氏」の文字のＹ座標内のＸ軸線上に連続して「名」の文字が存在するかを探索する。

なお、文字が横方向（Ｘ軸方向）に並んで配置されているか否かの判断は、認識部１０５が認識した文字の上端（図８（ａ）の「Ｔｏｐ」の位置）又は下端（図８（ａ）の「Ｂｏｔｔｏｍ」の位置）を基準としてもよい。具体的には、横方向（Ｘ軸方向）に所定間隔離れた各文字（図８（ａ）に示す例では「氏」及び「名」）の上端Ｔｏｐ又は下端ＢｏｔｔｏｍのＹ座標の値（ゼロ点からの画素数）の差が所定範囲内（例えば、±２０画素）であれば文字が横方向（Ｘ軸方向）に並んで配置されていると判定するようにしてもよい。項目を構成する文字同士であれば、通常、同じフォント及びサイズであると考えられることから横方向（Ｘ軸方向）に所定間隔離れた各文字（図８（ａ）に示す例では「氏」及び「名」）の上端Ｔｏｐ又は下端ＢｏｔｔｏｍのＹ座標の値（ゼロ点からの画素数）の差が所定範囲内であれば文字が横方向（Ｘ軸方向）に並んで配置されていると判定することができる。

図８（ｂ）は、探索部１０８による縦方向（Ｙ座標）探索の一例を示す図である。図８（ｂ）に示すように「記号」の項目が、縦方向（Ｙ軸方向）に配置されている場合、「記」の文字と「号」の文字とがそれぞれ単独で読み取られるため、「記号」の項目が書類上に存在するにも関わらず「記号」の項目として認識することができない。そこで、探索部１０８は、「記号」の項目を構成する各文字のうちの１文字である「記」を起点とした所定範囲内に「記号」の項目を構成する他の文字である「号」が存在するか探索する。より具体的には、探索部１０８は、「記」の文字のＸ座標内のＹ軸線上に連続して「号」の文字が存在するかを探索する。

なお、文字が縦方向（Ｙ軸方向）に並んで配置されているか否かの判断は、認識部１０５が認識した文字の左端（図８（ｂ）の「Ｌｅｆｔ」の位置）又は右端（図８（ｂ）の「Ｒｉｇｈｔ」の位置）を基準としてもよい。具体的には、縦方向（Ｙ軸方向）に所定間隔離れた各文字（図８（ｂ）に示す例では「記」及び「号」）の左端Ｌ又は右端ＲのＺ座標の値（ゼロ点からの画素数）の差が所定範囲内（例えば、±２０画素）であれば文字が縦方向（Ｙ軸方向）に並んで配置されていると判定するようにしてもよい。項目を構成する文字同士であれば、通常、同じフォント及びサイズであると考えられることから縦方向（Ｙ軸方向）に所定間隔離れた各文字（図８（ｂ）に示す例では「記」及び「号」）の左端Ｌ又は右端ＲのＸ座標の値（ゼロ点からの画素数）の差が所定範囲内であれば文字が縦方向（Ｙ軸方向）に並んで配置されていると判定することができる。

以上のように、探索部１０８は、各文字のうちの１文字を起点として横方向（Ｚ軸方向）及び縦方向（Ｙ軸方向）に項目を構成する他の文字が存在するか探索する。具体的には、項目を構成する各文字のうちの最初の１文字のＹ座標内のＸ軸線上に連続して、項目を構成する他の文字が存在するかを探索する。探索部１０８は、項目を構成する各文字のうちの最初の１文字のＹ座標内のＸ軸線上に連続して、項目を構成する他の文字が存在しない場合、項目を構成する各文字のうちの最初の１文字のＸ座標内のＹ軸線上に連続して、項目を構成する他の文字が存在するかを探索する。

（ステップＳ１０７）
結合部１０９は、探索部１０８により探索された書類の画像データ上の文字を、項目として認識可能なようにデータ的に結合する。より具体的には、結合部１０９は、探索部１０８により探索された文字を結合して、項目として認識できるようにデータ的に結合する処理を行う。図９は、結合部１０９による横方向の文字の結合の一例を示す図である（図中の破線は説明のために図示したものであり、実際の画像データとして存在するものではない）。図９（ａ）は、結合前の文字の画像データの一例を示す図である。図９（ｂ）は、認識部１０５で認識された「氏」及び「名」の文字に各々付与された位置情報の一例である。図９（ｃ）は、結合部１０９による結合後の文字の画像データの一例を示す図である。図９（ｄ）は、結合後の「氏名」の文字に付与された位置情報の一例である。図９（ｃ）及び図９（ｄ）に示すように結合部１０９は、「氏」の左端（Ｌｅｆｔ）の位置情報を「氏名」の左端（Ｌｅｆｔ）の位置情報とし、「名」の右端（Ｒｉｇｈｔ）の位置情報を「氏名」の右端（Ｒｉｇｈｔ）の位置情報とすることで、「氏」「名」の文字を一つの項目「氏名」として認識可能なようにデータ的に結合する。

図１０は、結合部１０９による縦方向の文字の結合の一例を示す図である（図中の破線は説明のために図示したものであり、実際の画像データとして存在するものではない）。図１０（ａ）は、結合前の文字の画像データの一例を示す図である。図１０（ｂ）は、認識部１０５で認識された「記」及び「号」の文字に各々付与された位置情報の一例である。図１０（ｃ）は、結合部１０９による結合後の文字の画像データの一例を示す図である。図１０（ｄ）は、結合後の「記号」の文字に付与された位置情報の一例である。図１０（ｃ）及び図１０（ｄ）に示すように結合部１０９は、「記」の上端（Ｔｏｐ）の位置情報を「記号」の上端（Ｔｏｐ）の位置情報とし、「号」の下端（Ｂｏｔｔｏｍ）の位置情報を「記号」の下端（Ｂｏｔｔｏｍ）の位置情報とすることで、「記」「号」の文字を一つの項目「記号」として認識可能なようにデータ的に結合する。
このように、結合部１０９は、探索部１０８により探索された文字を結合し、一つの情報として取り扱うことができるように結合処理を行う。

（ステップＳ１０８）
取得部１１０は、各項目に対応する文字を取得する。具体的には、取得部１１０は、項目の第１側（本実施形態では右側）に存在する次の項目（次項目）又は改行までの文字を項目に対応する文字として取得する（図９に示す例では「山田太郎」の文字、図１０に示す例では「２０１３７５」の文字）。また、取得部１１０は、項目の第１側（本実施形態では右側：横書きに対応）の所定範囲内に文字（項目を構成する文字を除く）が存在しない場合、項目の第１側とは異なる第２側（本実施形態では下側：縦書きに対応）に存在する次の項目（次項目）又は改行までの文字を、項目に対応する文字として取得する。

なお、取得部１１０は、分類部１０６で分類された処理の種別に応じて、項目の第１側（本実施形態では右側）に存在する文字を項目に対応する文字として取得するか、項目の第２側（本実施形態では下側：縦書きに対応）に存在する文字を項目に対応する文字として取得するかを決定するようにしてもよい。この場合、縦書きの書類であるか横書きの書類であるかを書類の種別に対応して分類用ＤＢ２に記憶しておき、取得部１１０は、分類用ＤＢ２を参照し、分類部１０６で分類された処理の種別に応じて、項目の第１側（本実施形態では右側）に存在する文字を項目に対応する文字として取得するか、項目の第２側（本実施形態では下側：縦書きに対応）に存在する文字を、項目に対応する文字として取得するかを決定するようにしてもよい。

（効果）
以上のように、実施形態に係る情報処理サーバ１は、書類の画像から文字を認識する認識部１０５と、書類から取得する項目の情報を参照し、認識部１０５が認識した文字に項目が存在するか否かを判定する判定部１０７と、判定部１０７が存在すると判定しない項目がある場合、該項目を構成する各文字を認識部１０５が認識した文字から探索する探索部１０８と、探索部１０８により探索された各文字を項目として認識可能に処理する結合部１０９と、各項目に対応する文字を取得する取得部１１０とを備える。このため、文書を効果的に読み取ることができ、文書の文字認識率が向上する。

また、本実施形態に係る情報処理サーバ１の探索部１０８は、各文字のうちの１文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。このように所定範囲内を探索するため、離れた箇所に存在する文字を間違って項目を構成する文字として認識することがない。このため、項目に対応する情報を間違って取得する虞を低減することができる。

また、本実施形態に係る情報処理サーバ１の取得部１１０は、項目の第１側に存在する文字を、項目に対応する文字として取得する。このため、項目に対応する情報を間違って取得する虞を低減することができる。

また、本実施形態に係る情報処理サーバ１の取得部１１０は、項目の第１側の所定範囲内に文字が存在しない場合、項目の第１側とは異なる第２側に存在する文字を、項目に対応する文字として取得する。このため、項目に対応する情報をより効果的に取得することができる。

また、本実施形態に係る情報処理サーバ１は、書類の画像を複数の補正パタンにより補正し、各補正パタンに対応する複数の補正後の画像を生成する補正部１０４を備えている。そして、認識部１０５は、補正部１０４で生成された各補正パタンに対応する複数の補正後の画像から文字を認識し、複数の補正後の画像から認識した文字のうち最も多いものを選択する。このため、文字を誤って読み取る確率及び文字を読み取れない確率の少なくとも一方を低減することができ、文字認識の正答率が向上する。

また、本実施形態では、補正パタンは、各々１以上の異なる補正を含んでいる。このように１以上の異なる補正を組み合わせているので、文字を誤って読み取る確率や文字を読み取れない確率の少なくとも一方をより低減することができ、文字認識の正答率が更に向上する。

[実施形態の変形例１]
上記実施形態では、分類部１０６は、分類用ＤＢ２を参照し、認識部１０５で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定し、認識部１０５で認識された文字に、用意されたパタンマッチ用データ又はキーワードのいずれか一つが含まれている場合、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類している。

しかしながら、分類部１０６は、分類用ＤＢ２を参照し、認識部１０５で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定し、認識部１０５で認識された文字に、用意されたパタンマッチ用データやキーワードが最も多く含まれている種別に書類の画像データを分類するようにしてもよい。

また、分類用ＤＢ２に、書類の種別ごとに含まれていてはいけないパタンマッチ用データ（画像データや特徴点データ（例えば、印章の画像データや特徴点データなど））やキーワード（ＫＷ）を記憶し、認識部１０５で認識された文字に、該含まれていてはいけないパタンマッチ用データやキーワードが含まれている場合、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類しないようにしてもよい。

[実施形態の変形例２]
また、上記実施形態では、項目マスタＤＢ３には、書類の種別ごとに取得する情報の項目が関連付けて記憶されているが、書類の種別ごとに取得する情報の項目の名称に、統一された項目の名称を関連付けて記憶するようにしてもよい。書類の種別によって同じ内容であるにも関わらず項目の名称が異なる場合がある。例えば、ある種別の書類では項目が「氏名」となっているが、他の種別の書類では項目が「名前」となっていることが考えられる。また、ある種別の書類では項目が「住所」となっているが、他の種別の書類では項目が「住まい」となっていることが考えられる。

このような場合に、項目マスタＤＢ３に、書類の種別ごとに取得する情報の項目の名称（例えば「住所」や「住まい」）に、統一された項目の名称（例えば「住所」）を関連付けて記憶し、項目に対応する文字に統一された項目の情報を付与するようにしてもよい。このように構成することで、書類の種別により異なる項目の名称を統一して管理することができ、例えば、検索や名寄せ等、データ利用の利便性が向上する。

以上のように、本発明は、種々の書類の読み取りに利用することができる。

１情報処理装置
１００Ａ通信ＩＦ
１００Ｂ記憶装置
１００ＣＣＰＵ
１００Ｄバス（ＢＵＳ）
１０１受信部
１０２送信部
１０３記憶装置制御部
１０４補正部
１０５認識部
１０６分類部
１０７判定部
１０８探索部
１０９結合部
１１０取得部
ＤＢ１補正パタンデータベース
ＤＢ２帳票データベース
ＤＢ３項目マスタデータベース

Claims

書類の画像から文字を認識する認識部と、
前記書類から取得する項目の情報を参照し、前記認識部が認識した文字に前記項目が存在するか否かを判定する判定部と、
前記判定部が存在すると判定しない項目がある場合、該項目を構成する各文字を前記認識部が認識した文字から探索する探索部と、
前記探索部により探索された各文字を項目として認識可能に処理する結合部と、
前記項目に対応する文字を取得する取得部と、
を備えることを特徴とする情報処理装置。
前記探索部は、
前記各文字のうちの１文字を起点とした所定範囲内に前記項目を構成する他の文字が存在するか探索することを特徴とする請求項１に記載の情報処理装置。
前記取得部は、
前記項目の第１側に存在する文字を、前記項目に対応する文字として取得することを特徴とする請求項１又は請求項２に記載の情報処理装置。
前記取得部は、
前記項目の第１側の所定範囲内に文字が存在しない場合、前記項目の第１側とは異なる第２側に存在する文字を、前記項目に対応する文字として取得することを特徴とする請求項３に記載の情報処理装置。
前記書類の画像を複数の補正パタンにより補正し、各補正パタンに対応する複数の補正後の画像を生成する補正部を備え、
前記認識部は、
前記補正部で生成された各補正パタンに対応する複数の補正後の画像から文字を認識し、
前記複数の補正後の画像から認識した文字のうち最も多いものを選択する
ことを特徴とする請求項１乃至請求項４のいずれかに記載の情報処理装置。
前記補正パタンは、
各々１以上の異なる補正を含むことを特徴とする
請求項５に記載の情報処理装置。
認識部が、書類の画像から文字を認識する工程と、
判定部が、前記書類から取得する項目の情報を参照し、前記認識部が認識した文字に前記項目が存在するか否かを判定する工程と、
探索部が、前記判定部が存在すると判定しない項目がある場合、該項目を構成する各文字を前記認識部が認識した文字から探索する工程と、
結合部が、前記探索部により探索された各文字を項目として認識可能に処理する工程と、
取得部が、前記項目に対応する文字を取得する工程と、
を有することを特徴とする情報処理方法。
コンピュータを、
書類の画像から文字を認識する認識部、
前記書類から取得する項目の情報を参照し、前記認識部が認識した文字に前記項目が存在するか否かを判定する判定部、
前記判定部が存在すると判定しない項目がある場合、該項目を構成する各文字を前記認識部が認識した文字から探索する探索部、
前記探索部により探索された各文字を項目として認識可能に処理する結合部、
前記項目に対応する文字を取得する取得部、
として機能させることを特徴とする情報処理プログラム。