JP7178445B2

JP7178445B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7178445B2
Application number: JP2021067196A
Authority: JP
Inventors: 孝治菊池; 正也大島; 真福沢; 直志綿貫
Original assignee: Primagest Inc
Current assignee: Primagest Inc
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-11-25
Anticipated expiration: 2041-04-12
Also published as: JP2022162379A

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに関する。

従来より、帳票を表す画像のデータを用いて、その帳票に存在する文字列を自動的に認識し、文字列間の対応関係を含めてデータ化する技術が存在する。そのような技術の中には、帳票を表す画像、及び文字列の認識結果をともに表示させ、ユーザが認識結果を選択した場合、その認識結果が得られた文字列の位置を帳票の画像上に示すようにしたものもある（例えば、特許文献１）。帳票を認識させた後には、通常、オペレータによる認識結果の確認、及び必要に応じた認識結果の修正等のための後続処理が行われる。

特開２００９－１２２７２２号公報

しかしながら、特許文献１を含む従来の技術において、文字列の認識結果とその認識結果が得られた帳票上の位置との対応関係を個別に確認できても、オペレータが後続処理全体を効率的に行えるとは必ずしも期待できない。これは、帳票には様々な形式があるだけでなく、多くの文字列が存在する帳票も少なくないからである。

例えば多くの文字列が存在する帳票では、認識結果とその認識結果が得られた文字列の帳票上の位置との間の対応関係を個別に確認するのはオペレータにとっては面倒な作業を行うことになる。複雑な形式の帳票、例えば小さな帳票が複数まとめられたような帳票では、或る認識結果とその認識結果が得られた文字列の帳票上の位置との間の対応関係を確認したことによって、他の対応関係もオペレータが適切に特定できるとは必ずしも期待できない。

本発明は、このような状況を鑑みてなされたものであり、帳票を認識させた後の後続処理をオペレータがより確実に効率的に行うのを可能にする技術を提供することを目的とする。

上記目的を達成するため、本発明の一態様の情報処理装置は、
帳票を表す画像のデータを用いて、前記帳票に存在する、１つ以上の文字が連なって意味を表している文字列が存在する可能性があるセルを認識し、認識した前記セルの前記画像における位置を特定することで、当該セルを抽出するセル抽出手段と、
前記セル抽出手段により抽出された１以上の前記セル及び位置に基づいて、前記画像においてグループを構成する１以上の前記セルを特定し、特定した前記１以上のセルが存在する範囲をテーブルとして抽出するテーブル抽出手段と、
前記帳票に存在する、前記文字列が存在する文字列領域を認識し、認識した前記文字列領域の前記画像における位置を特定することで、当該文字列領域を抽出する文字列抽出手段と、を備える。

本発明によれば、帳票を認識させた後の後続処理をオペレータがより確実に効率的に行うのが可能になる。

本発明の情報処理装置の一実施形態に係る帳票認識装置により実現可能となる第１のサービスの概要を説明する図である。帳票画像から抽出されるテーブル、セル、及び文字列領域の各抽出結果の例を説明する図である。表示領域でのテーブル、セル、及び文字列領域の各種抽出結果の表示例を示す図である。本発明の情報処理装置の一実施形態に係る帳票認識装置により実現可能となる第２のサービスの概要を説明する図である。帳票から特定される２つの文字列の組の例を示す図である。本発明の情報処理装置の一実施形態に係る帳票認識装置を用いて構築された情報処理システムの構成例を示す図である。本発明の情報処理装置の一実施形態に係る帳票認識装置のハードウェア構成の一例を示すブロック図である。本発明の情報処理装置の一実施形態に係る帳票認識装置上に実現される機能的構成の一例を示す機能ブロック図である。本発明の情報処理装置の一実施形態に係る帳票認識装置により実行されるセル検出処理の例を示すフローチャートである。適切に他の成分と接続されていない可能性が考えられるとして特定される成分の例を示す図である。ステップＳ１３で実行される処理の内容の第１の例を説明する図である。ステップＳ１３で実行される処理の内容の第２の例を説明する図である。帳票画像、その帳票画像から検出されるセル、検出されたセルのグルーピングの例を示す図である。本発明の情報処理装置の一実施形態に係る帳票認識装置により実行される外周取得処理の例を示すフローチャートである。セルの検出結果、及びその検出結果を変換して得られる節点情報の例を示す図である。グループ化された節点情報の例、及びその節点情報とからセルを含むテーブルの外周の抽出例を示す図である。本発明の情報処理装置の一実施形態に係る帳票認識装置上に実際にキー－バリュー抽出部の一部として実現された機能的構成の一例を示す機能ブロック図である。グラフ情報生成部により生成される各種情報の例を説明する図である。グラフ構築部の詳細例を示す図である。キー－バリューの関係がある文字列の組の他の特定例を説明する図である。

以下、本発明の実施形態について、図面を用いて説明する。
図１は、本発明の情報処理装置の一実施形態に係る帳票認識装置により実現可能となる第１のサービス（以下、「本第１のサービス」と呼ぶ）の概要を説明する図である。

本第１のサービスは、帳票認識装置（後述する図６参照）により実現可能なサービスである。サービス提供者は、例えば専用のアプリケーション・ソフトウェア（以下、「専用アプリ」と呼ぶ）を開発することにより、その専用アプリを購入した個人、或いは組織に対し、本第１のサービスを提供する。ここでは、専用アプリの購入等をしたのは組織と想定する。その組織は以下、「購入企業」と呼び、購入企業内で専用アプリを実際に使用する者は「オペレータ」と呼ぶこととする。

オペレータ（操作者）は、例えば購入企業内の任意の情報処理装置に専用アプリをインストールさせることにより、その情報処理装置を帳票認識装置として利用すること、つまり本第１のサービスを利用することができる。

帳票認識装置は、帳票のデータ化、つまり電子化に用いられる。例えば、紙媒体の帳票がスキャナにより読み取られると、当該スキャナからは、当該帳票を表す画像のデータが出力される。以下、帳票を表す画像を、「帳票画像」と適宜呼ぶ。また、帳票を表す画像のデータを、「帳票画像データ」と呼ぶ。帳票認識装置は、スキャナから出力された帳票画像データを入力する。

本第１のサービスで提供される帳票認識装置は、このような帳票画像データを解析することで、帳票に存在する、セル、テーブル、及び文字列領域の夫々を個別に抽出する機能を有している。以下、このような機能を「レイアウト解析機能」と呼ぶ。即ち、本第１のサービスとは、レイアウト解析機能を発揮可能な帳票認識装置を提供することであるとも言える。

ここで、セルとは、帳票上に存在する罫線によって囲まれた部分のことである。通常、帳票上の文字列の多くは、セル内に存在する。

文字列領域とは、１つ以上の文字が連なって何らかの意味を表している文字列が存在する領域のことである。
１つの文字列は、他の文字列と空間的に、或いは内容的に区別可能なものである。また、文字は、線、及び点のうちの少なくとも一方を用いて形作られた記号のことである。ひらがな、カタカナ、漢字、数字、アルファベット、及び各種マーク等は全て文字である。

テーブルとは、セル、及びその位置により、グループを構成する１つ以上のセルを特定し、特定した１つ以上のセルが存在する範囲のことである。それにより、表構造を形成している複数のセルは、グループを構成しているとして、１つのテーブルと見なされる。
本第１のサービスでは、セルが存在しない範囲に１つ以上の文字列が配置されていた場合、１つの文字列領域をテーブルとして抽出する。テーブルは、１つ以上のセル、及び１つ以上の文字列領域がグループを構成しているとして抽出する場合もある（後述する図２参照）。

具体的には例えば、本第１のサービスによれば、帳票認識装置は、レイアウト解析機能を発揮することで、帳票画像データを用いて次のような処理を実行する。
即ち、帳票認識装置は、帳票画像に存在する罫線からセルを認識し、認識したセルの帳票画像における位置を特定することで、当該セルを抽出する。
さらに、帳票認識装置は、このようにして抽出した１以上のセル及び位置に基づいて、帳票画像においてグループを構成する１以上のセルを特定し、特定した１以上のセルが存在する範囲をテーブルとして抽出する。なお、帳票画像においてグループを構成する１以上のセルが特定されることにより、テーブルの帳票画像における位置も特定されることになる。
また、帳票認識装置は、帳票に存在する文字列領域を認識し、認識した文字列領域の帳票画像における位置を特定することで、当該文字列領域を抽出する。

さらに以下、図１～図３を参照して、レイアウト解析機能の具体例について説明する。

図１には、本第１のサービスによるレイアウト解析機能の処理結果が表示可能な表示画面ＤＳが示されている。
この表示画面ＤＳには、図１に示すように、表示領域ＤＳ１、表示領域ＤＳ２、及び表示領域ＤＳ３が確保されている。

表示領域ＤＳ１は、レイアウト解析の対象となる帳票画像データ（ファイル）をオペレータに選択させるための表示領域である。
即ち、１以上の帳票画像データはファイルの形態で予め帳票認識装置に入力されている。オペレータは、これらの１以上の帳票画像データのうち、レイアウト解析の対象となる帳票画像データを選択する操作を、表示領域ＤＳ１において行う。

表示領域ＤＳ２は、表示領域ＤＳ１において解析対象として選択操作がなされた帳票画像データが表す帳票画像を表示させる領域である。さらに、表示領域ＤＳ２は、レイアウト解析の結果、即ちセル、テーブル、及び文字列領域の夫々の抽出結果を相互に独立して帳票画像に重畳表示させる領域である。
なお、表示領域ＤＳ２の上方部分には、解析対象とする帳票画像（原画像）を含む各種画像のサムネイル画像が表示される。サムネイル画像として表示される画像には、原画像の他に、原画像の２値化画像、原画像上の罫線に着目したサリエンシーマップ画像、及び原画像上の罫線と文字列領域に着目したサリエンシーマップ画像が含まれる。２つのサリエンシーマップ画像は、例えばＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いて生成された画像である。

表示領域ＤＳ３は、表示領域ＤＳ２に表示されたレイアウト解析の結果の詳細を表示させる領域である。

表示領域ＤＳ３の上方部分には、「テーブル」と内部に表示されたボタンＢＴ１、「セル」と内部に表示されたボタンＢＴ２、及び「テキスト」と内部に表示されたボタンＢＴ３が配置された領域ＤＳ３１（以下、「ボタン表示領域ＤＳ３１」と呼ぶ）が配置されている。
ボタンＢＴ１は、処理対象の帳票画像に対して、テーブルの抽出結果を重畳表示させる指示操作するためのボタンである。
ボタンＢＴ２は、処理対象の帳票画像に対して、セルの抽出結果を重畳表示させる指示操作するためのボタンである。
ボタンＢＴ３は、処理対象の帳票画像に対して、文字列領域の抽出結果を重畳表示させる指示操作するためのボタンである。

オペレータは、これらのボタンＢＴ１乃至ＢＴ３のうち、確認を所望する抽出結果のボタンを例えばクリック操作することにより、当該確認を所望する抽出結果のみを表示領域ＤＳ２において確認することができる。ここで、確認を所望する抽出結果とは、テーブル、セル、及び文字列領域のうち少なくとも１つ以上の抽出結果をいう。
なお、レイアウト解析の実行直後においては、３つのボタンＢＴ１乃至ＢＴ３の全ては選択状態となっている。この場合、オペレータは、テーブル、セル、及び文字列領域（テキスト）の夫々の抽出結果の全てを確認することができる。

ボタン表示領域ＤＳ３１の直下には、「テーブル」と内部に表示されたタブＴ１、「セル」と内部に表示されたタブＴ２、「テキスト」と内部に表示されたタブＴ３、及び、「認識結果（１）」と内部に表示されたタブＴ４が配置されている。これら４つのタブＴ１乃至Ｔ４の下方には、解析結果の詳細の表示用に確保された詳細表示領域ＤＳ３２が配置されている。

タブＴ１は、レイアウト解析の結果として、テーブルの抽出結果の詳細を表示させる指示操作をさせるためのタブである。本第１のサービスでは、テーブルの抽出結果の詳細として、テーブル毎に、その位置情報、及びそのイメージの抜粋が表示される。

位置情報は、帳票画像の左上の点を基点とするｘｙ座標を想定して表すものとしている。一方のテーブルの形状としては、基本的に、ｘ軸に平行な２つの線と、ｙ軸に平行な２つの線とで囲まれた矩形形状と想定している。それにより、本第１のサービスでは、位置情報として、基点とテーブルの左上の点との間のｘ軸上、ｙ軸上の各距離、ｘ軸上の長さである幅、及びｙ軸上の長さである高さが抽出される。これらの単位は全て画素（ｐｉｘｃｅｌ）である。この位置情報に含まれる情報は、セル、及び文字列領域についても同様である。
以下、ｘ軸と平行な方向は「左右方向」、ｙ軸と平行な方向は「上下方向」とも表現する。また、特に断らない限り、位置情報は領域の位置、及び形状を表すものの意味で用いる。

「セル」タブＴ２は、解析結果として、セルの抽出結果の詳細を表示させるのを指示するためのタブである。本第１のサービスでは、各セルの位置情報、及び各セルのイメージの抜粋を表示させるようにしている。
「テキスト」タブＴ３は、解析結果として、文字列領域の抽出結果の詳細を表示させるのを指示するためのタブである。本第１のサービスでは、各文字列領域の位置情報、及び各文字列領域のイメージの抜粋を表示させるようにしている。
「認識結果（１）」タブＴ４は、解析結果として、文字列（テキスト）の認識結果を表示させるのを指示するためのタブである。本第１のサービスでは、各文字列の認識結果、及び各文字列の画像の抜粋を夫々、対応させて表示させるようにしている。

オペレータは、これらタブＴ１～４のうちの１つをクリック操作することにより、望む解析結果の詳細のみを詳細表示領域ＤＳ３２で確認することができる。例えば図１に示すように、「認識結果（１）」タブＴ４へのクリック操作により、オペレータは、帳票上に存在する各文字列の認識結果を、その文字列の画像と対比させて確認することができる。また、位置情報の他に、抜粋したイメージも併せて表示させているため、オペレータは、文字列の認識結果を含む解析結果の確認もより迅速、且つより容易に行うことができる。

表示領域ＤＳ３内の詳細表示領域ＤＳ３２の下方には、「データ保存」ボタンＢＴ５が配置されている。このボタンＢＴ５は、文字列の認識結果、及び各種抽出結果を含む解析結果の保存をオペレータが指示するためのボタンである。図１に示すように、このボタンＢＴ５をクリック操作した場合、データの保存形式をオペレータに選択させるためのポップアップメニューＤＳ３２１が表示される。そのメニューＤＳ３２１には、「データ保存」ボタンＢＴ６が配置されている。それにより、オペレータは、望む保存形式を選択した後、「データ保存」ボタンＢＴ６をクリック操作することにより、望む保存形式で文字列の認識結果を含む解析結果を保存させることができる。

図２は、帳票画像から抽出されるテーブル、セル、及び文字列領域の各抽出結果の例を説明する図である。
図２に示す帳票画像ＦＩの抜粋部分では、テーブルＴＢは計５つが抽出される。５つのテーブルＴＢのうちの４つは全て、１つのセルが１つのテーブルＴＢとして抽出されている。残りの１つは、計１１つのセルＣＥと、そのうちの１つと上下方向に隣接する１つの文字列領域ＴＸとがグループにまとめられたテーブルとなっている。

図２に示すように、１つのセルＣＥのみを有する４つのテーブルＴＢは全て、他のセルＣＥ、及び文字列領域ＴＸの何れからも離れた位置に存在している。そのため、このようなセルＣＥは、他のセルＣＥ、及び文字列領域ＴＸの何れとも論理的な対応関係は存在しないとして、１つだけでも１つのテーブルＴＢとして抽出される。

一方、１１つのセルＣＥ、及び１つの文字列領域ＴＸを含むテーブルＴＢでは、各セルＣＥは少なくとも１つの別のセルＣＥと左右方向、或いは上下方向で隣接している。そのため、１１つのセルＣＥは、表構造を形成している要素として扱われ、グループ化される。

１１つのセルＣＥと同じグループとされた１つの文字列領域ＴＸは、セルＣＥ内に配置されていない。しかしながら、この文字列領域ＴＸは、上、及び右にそれぞれ位置する２つのセルＣＥと隣接している。その位置関係のため、文字列領域ＴＸは、その２つのセルＣＥ内に配置された何れかの文字列と対応関係が存在すると見なされる。この結果、セルＣＥ内に配置されていない文字列領域ＴＸは、１１つのセルＣＥとグループ化され、１つのテーブルＴＢの要素とされる。実際、この文字列領域ＴＸの文字列である「納期限」は、右に位置するセルＣＥ内の文字列である「平成２６年１２月２０日」との間に意味的な対応関係が存在する。なお、以下、「ＴＸ」は文字列そのものを指す意味でも用いる。

図２では、１１つのセルＣＥ、及び１つの文字列領域ＴＸを要素とするテーブルＴＢを例にとって、そのテーブルＴＢ、それに含まれる１つのセルＣＥ、及び文字列領域ＴＸの各位置情報の例を示している。
位置情報を示すセルＣＥは、テーブルＴＢの左側に位置するセルＣＥのうちで上から２番目に位置するセルＣＥである。そのため、位置情報に含まれるｘ軸上の距離がテーブルＴＢのその距離と一致し、ｙ軸上の距離がテーブルＴＢのその距離とは一致していない。

位置情報を示す文字列領域ＴＸは、テーブルＴＢの左側に位置するセルＣＥのうちで上から２番目に位置するセルＣＥ内に存在する文字列領域ＴＸである。そのため、位置情報は、ｘ軸上、及びｙ軸上の各距離は全てそのセルＣＥの距離より大きい。しかし、幅、及び高さは全て、その文字列領域ＴＸが内側に配置されているセルＣＥの幅、及び高さよりも小さくなっている。

図３は、表示領域でのテーブル、セル、及び文字列領域の各種抽出結果の表示例を示す図である。
上記のように、抽出結果としては、テーブルＴＢ、セルＣＥ、及び文字列領域ＴＸの３種類が存在する。ボタン表示領域ＤＳ３１内に配置された３つのボタンＢＴ１～３は、それらのうちの１つを選択的に表示させることを可能にする。その他に、本第１のサービスでは、３種類の抽出結果を初期表示として同時に表示させるようにしている。このことから、図３では、（Ａ）～（Ｄ）に、表示される抽出結果を異ならせて示している。具体的には、図３（Ａ）には初期表示、つまりテーブルＴＢ、セルＣＥ、及び文字列領域ＴＸの各抽出結果を表示させた場合の例を示している。同様に図３（Ｂ）～（Ｄ）には、夫々テーブルＴＢ、セルＣＥ、及び文字列領域ＴＸの抽出結果を表示させた場合の例を示している。それにより、図３（Ａ）では、「テーブル」「セル」「テキスト」の全てのボタンＢＴ１～３が選択状態となっている。図３（Ｂ）～（Ｄ）では、３つのボタンＢＴ１～３のうちの１つのみが選択状態となっている。

図３（Ａ）～（Ｄ）に示すように、テーブルＴＢ、セルＣＥ、及び文字列領域ＴＸの各抽出結果は、矩形の枠により示される。枠の色は、テーブルＴＢ、セルＣＥ、及び文字列ＴＸにより異ならせている。それにより、オペレータは、枠の色により、テーブルＴＢ、セルＣＥ、及び文字列領域ＴＸの各抽出結果を視認できるようになっている。

上記のように、本第１のサービスでは、他のセルＣＥと位置的に離れた１つのセルＣＥは１つのテーブルＴＢとして抽出している（図２参照）。本第１のサービスでは、同様に、他のセルＣＥ、及び他の文字列領域ＴＸの何れとも位置的に離れた１つの文字列領域ＴＸも１つのテーブルＴＢとして抽出している。それにより、図３（Ａ）に示すように、夫々、文字列領域ＴＸ内の文字列である「平成２９年度収支計算書」「収入の部」は何れも１つのテーブルＴＢ、及び１つのセルＣＥとしても抽出されている。文字列領域ＴＸ内の文字列である「自．平成２９年４月１日至．平成３０年０３月３１日」は、「自．平成２９年４月１日」「至．平成３０年０３月３１日」の２つの文節に分割され、各文節が夫々、存在する領域が１つの文字列領域ＴＸ、１つのセルＣＥ、及び１つのテーブルＴＢとして抽出されている。

本第１のサービスでは、図３（Ａ）～（Ｄ）に示すように、オペレータは、３つのボタンＢＴ１～３のうちの何れかをクリック操作することにより、望む抽出結果を個別に確認することができる。そのため、オペレータにとっては、テーブルＴＢ、セルＣＥ、及び文字列領域ＴＸの各抽出結果の確認が容易に行うことができる。

文字列ＴＸの全てを常に適切に認識できるとは限らない。帳票上に手書きの文字列ＴＸが存在している場合、その手書きの文字列ＴＸを適切に認識できる確率は比較的に低くなるのが普通である。ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等を用いて、データをイメージ化して印刷した帳票であっても、全ての文字列ＴＸを適切に認識できるとは限らない。これは、印刷時に発生した不具合、画像データ化の際に帳票上に付着していたゴミ、若しくは埃、帳票への書き込み、或いは帳票に生じていた損傷、等がありうるからである。

このようなことから、帳票のデータ化、つまり電子化の後、オペレータが文字列の認識結果を少なくとも確認し、認識結果の誤りを修正する後続処理を行うのが普通である。後続処理は、多数の帳票を対象にする場合も多く、対象となる帳票の形式も様々であることも多い。帳票の形式の種類が多くなるほど、オペレータにとっては文字列の認識結果、その対応関係の確認に必要となる時間は長くなる。このようなことから、購入企業にとっては、オペレータによる後続処理をより効率的に行えるようにすることが望まれる。

本第１のサービスでは、上記のようなレイアウト解析により、文字列の認識結果の他に、セルＣＥ、文字列領域ＴＸ、及びテーブルＴＢを夫々抽出した結果を含む解析結果が保存可能である。それにより、オペレータは、抽出されたセルＣＥ、文字列領域ＴＸ、及びテーブルＴＢの各抽出結果も視認できる。

帳票上の文字列の多くはセル内に存在する。そのため、セルＣＥ、及び文字列領域ＴＸの何れを視認可能にしても、文字列ＴＸの認識結果、及び文字列ＴＸ間の対応関係の確認をオペレータはより容易、且つより迅速に行えるようになる。

一方、テーブルを視認可能にした場合、オペレータに対し、テーブル単位で文字列ＴＸの認識結果、及びその対応関係を確認させることが可能となる。テーブルＴＢは、上記のように、１つのセルＣＥ（或いは１つの文字列領域ＴＸ）以上の領域であり、帳票によっては、表構造を考慮しつつ、その帳票を複数の部分に空間的、及び論理的に分割する。それにより、オペレータにとってのテーブル単位の認識結果の確認は、帳票平均ではより容易、且つより迅速に行えるようになる。これは、テーブルＴＢで分割する結果、考慮すべき文字列ＴＸの数がより少なくなる他に、表構造をより意識できるようになって、文字列ＴＸ間の適切な対応関係の予測がより容易となるためである。文字列ＴＸ間の適切な対応関係を予測できれば、オペレータは、文字列ＴＸの認識結果が適切か否かだけでなく、文字列ＴＸ間で特定された対応関係が適切か否かまでより容易、且つより迅速に確認することができる。
このようなことから、オペレータは、後続処理をより確実に効率的に行うことができる。

図４は、本発明の情報処理装置の一実施形態に係る帳票認識装置により実現可能となる第２のサービス（以下、「本第２のサービス」と呼ぶ）の概要を説明する図である。

本第２のサービスも、帳票認識装置（後述する図６参照）により実現可能なサービスである。サービス提供者は、例えば本第１のサービスと同様に、専用アプリを開発することにより、その専用アプリを購入した個人、或いは組織に対し、本第２のサービスを提供する。ここでも、専用アプリの購入等をしたのは組織と想定し、その組織も以下、「購入企業」と呼び、購入企業内で専用プリを実際に使用する者は「オペレータ」と呼ぶこととする。

オペレータは、例えば購入企業内の任意の情報処理装置に専用アプリをインストールさせることにより、その情報処理装置を帳票認識装置として利用すること、つまり本第２のサービスを利用することができる。

本第２のサービスで提供される帳票認識装置は、帳票画像データを用いた処理を行うことで、帳票に存在する文字列ＴＸを認識し、所定条件を満たす２つの文字列ＴＸの組を特定する機能を有している。以下、このような機能を「キー－バリュー抽出機能」と呼ぶ。即ち、本第２のサービスとは、キー－バリュー抽出機能を発揮可能な帳票認識装置を提供することであるとも言える。

ここで、キーとは、２つの文字列ＴＸの組での対応関係上、論理的に上位側に位置する文字列ＴＸのことである。バリューとは、その対応関係上、論理的に下位側に位置する文字列ＴＸのことである。通常、キーは、バリューとなる文字列ＴＸが表す具体的な内容に対応する識別子を表す文字列ＴＸである。

具体的には例えば、本第２のサービスによれば、帳票認識装置は、キー－バリュー抽出機能を発揮することで、帳票画像データを用いて次のような処理を実行する。
即ち、帳票認識装置は、帳票を表す画像のデータを用いて、帳票画像に存在する、１つ以上の文字が連なる文字列ＴＸを複数認識するとともに、認識した複数の文字列ＴＸの夫々の帳票画像における位置情報を特定する。
さらに、帳票認識装置は、複数の文字列ＴＸの夫々の認識結果、及び複数の文字列ＴＸの位置情報を用いて、帳票に存在する複数の文字列ＴＸのうち、所定の２つの文字列ＴＸの間の対応関係を決定する。
また、帳票認識装置は、対応関係が決定された所定の２つの文字列ＴＸのうち、所定条件を満たす２つの文字列ＴＸの組を特定する。

さらに以下、図４及び図５を参照して、レイアウト解析機能の具体例について説明する。

図４には、本第２のサービスの概要として、帳票画像ＦＩから文字列ＴＸを認識して、２つの文字列ＴＸの組を特定する流れの例が示されている。
本第２のサービスでは、帳票画像ＦＩから認識した文字列ＴＸはグラフのノードＮＤとして扱われる。このグラフは、ノードＮＤ間を線で結んだものであり、各線は２つのノードＮＤ間の対応関係、つまりエッジＥＤを示している。それにより、２つの文字列ＴＸの組の特定は、グラフから、エッジＥＤで結ぶ２つのノードＮＤを抽出することに相当する。

図４の右側に示すグラフでは、ノードＮＤに符号としてＮＤ１～３のうちの何れかを付し、エッジＥＤに符号としてＥＤ１～３のうちの何れかを付している。ＮＤ１～３は、夫々異なるノードＮＤの属性を表している。ＥＤ１～３は、そのエッジＥＤにより結びつけられるノードＮＤの属性の異なる組み合わせを表している。なお、区別する必要がないような場合、ノードの符号としては「ＮＤ」、エッジの符号としては「ＥＤ」を用いる。

具体的には、ＮＤ１はキーと分類されたノード、ＮＤ２はバリューと分類されたノード、ＮＤ３はそれら以外、つまりその他と分類されたノードを表している。また、ＥＤ１は、キー、及びバリューと夫々分類された２つのノードＮＤ１、ＮＤ２を結びつけるエッジを表している。同様に、ＥＤ２は、キー、及びその他と夫々分類された２つのノードＮＤ１、ＮＤ３を結びつけるエッジ、ＥＤ３は、それら以外の組み合わせとなっている２つのノードＮＤを結びつけるエッジ、を表している。

図５は、帳票画像から特定される２つの文字列の組の例を示す図である。
図５（Ａ）、及び（Ｂ）では、異なる帳票毎に、その帳票画像から夫々特定される２つの文字列ＴＸの組の例を示している。
図５（Ａ）に示す帳票画像では、２つの文字列ＴＸの組として、文字列ＴＸ１１である「賦課年度」と文字列ＴＸ１３である「平成２６」、及び文字列ＴＸ１２である「対象年度」と文字列ＴＸ１４である「平成２６」が特定される。他に、「通知書番号」と「６２００１００００１」、「期／月」と「７月」、「納期限」と「平成２６年１２月２０日」の２つの文字列ＴＸの組が特定される。

同様に図５（Ｂ）に示す帳票画像では、２つの文字列ＴＸの組として、文字列ＴＸ２１である「合計額」と文字列ＴＸ２３である「５３，９９９」が特定される。また、文字列ＴＸ２２である「領収金額」と文字列ＴＸ２４である「５３，９９９」も２つの文字列ＴＸの組として特定される。他に、「お客様番号」と「０７２－０００００２８－００５」、「使用期間」と「平成２６年８月１日～平成２６年９月３０日」、「汚水量」と「４４」、「使用量」と「５３，９９９」、「催促手数料」と「０」、「既納入済分」と「０」、「納入期限」と「平成２７年３月３１日」も２つの文字列ＴＸの組として特定される。

一般的に帳票認識装置では、帳票上に存在する全ての文字列ＴＸを認識し、その認識結果を保存する。オペレータによる後続処理では、基本的に、その認識結果の全てを確認するようになっている。

しかしながら、帳票上に存在する文字列ＴＸの重要度には違いがある場合がある。例えば表構造を形成する文字列は、他の文字列ＴＸとの間の対応関係が存在する場合が多いこともあり、オペレータが確認する必要性が比較的に高いのが普通である。これに対し、帳票の名称等の文字列ＴＸは、他の文字列ＴＸとは対応関係がないのが普通であることから、確認する必要性は比較的に低いのが普通である。

文字列ＴＸの間の対応関係については、３つ以上の文字列ＴＸの間で対応関係が存在する場合がある。それらのうちで重要度が特に高いのは、表構造上、端に位置する文字列ＴＸ、より具体的には右端、或いは下端に位置する文字列ＴＸである場合が多い。端に位置する文字列ＴＸとの間に直接的な対応関係がある文字列ＴＸも重要度が比較的に高い場合が多い。重要度が高い文字列ＴＸほど、適切に確認する必要がある。

また、オペレータの負担、或いは時間的な関係から、比較的に重要度の高い文字列ＴＸのみを後続処理で確認すれば良いというような状況が生じることもありうる。
重要度が比較的に高い文字列ＴＸの認識結果のみを後続処理で確認するような場合、オペレータは、全ての認識結果のうちから確認すべき認識結果を探し出して確認しなければならず、後続処理を迅速に行うのが困難となる。

これに対し、本第２のサービスでは、帳票画像上で認識された文字列ＴＸのうちから、後続処理の対象となる文字列ＴＸを制限させることができる。特に重要と考えられる２つの文字列ＴＸの組のみを保存する、或いはそれらを別に分ける、といったことができる。
このようなことから、オペレータにとっては、その２つの文字列ＴＸの組を適切に確認するのがより容易に行えるようになる。それにより、後続処理における重度のミスをするのをオペレータはより回避できるようにもなる。これらのことから、オペレータは、状況等に応じた適切な後続処理をより迅速に行うことができる。

図６は、本発明の情報処理装置の一実施形態に係る帳票認識装置を用いて構築された情報処理システムの構成例を示す図である。
帳票認識装置１は、購入組織が用意した情報処理装置であり、購入した専用アプリがインストールされている。その帳票認識装置１は、帳票のイメージを読み取って電子化し、電子化によって得られる帳票画像データを出力するのが可能なスキャナ２と接続されている。それにより、情報処理システムは、帳票認識装置１とスキャナ２とを接続させた構成となっている。ここでは、帳票認識装置１は後続処理にオペレータが使用する想定である。

図７は、本発明の情報処理装置の一実施形態に係る帳票認識装置のハードウェア構成の一例を示すブロック図である。
帳票認識装置１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｙ）１３と、バス１４と、入出力インターフェース１５と、出力部１６と、入力部１７と、記憶部１８と、通信部１９と、ドライブ２０と、を備えている。

ＣＰＵ１１は、ＲＯＭ１２に記録されているプログラム、又は記憶部１８からＲＡＭ１３にロードされた各種プログラムに従って各種の処理を実行する。各種プログラムには、上記２つの専用アプリが含まれる。その各種プログラムをＣＰＵ１１が実行することにより、情報処理装置は帳票認識装置１として機能する。
ＲＡＭ１３には、ＣＰＵ１１が各種の処理を実行する上において必要なデータ等も適宜記憶される。そのデータには、ＣＰＵ１１が実行する各種プログラムも含まれる。

ＣＰＵ１１、ＲＯＭ１２及びＲＡＭ１３は、バス１４を介して相互に接続されている。このバス１４にはまた、入出力インターフェース１５も接続されている。入出力インターフェース１５には、出力部１６、入力部１７、記憶部１８、通信部１９、及びドライブ２０が接続されている。

出力部１６は、例えば液晶等のディスプレイを含む構成である。出力部１６は、ＣＰＵ１１の制御により、各種画像を表示する。各種画像には、図１に示すような表示画面ＤＳが含まれる。
入力部１７は、例えばキーボード等の各種ハードウェア釦等を含む構成である。それにより、は、入力部１７を介して各種情報を入力することができる。入力部１７には、ポインティングデバイス、タッチパネル等の入力装置が複数、含まれていても良い。

記憶部１８は、例えばハードディスク装置、或いはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の補助記憶装置である。データ量の大きいデータは、この記憶部１８に記憶される。
通信部１９は、スキャナ２との間の通信を可能にする。

ドライブ２０は、必要に応じて設けられる。ドライブ２０には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリカード等のリムーバブルメディア３１を着脱させることができる。プログラムが記録されたリムーバブルメディア３１をドライブ２０に装着させた場合、そのプログラムを記憶部１８に記憶させることができる。また、リムーバブルメディア３１は、記憶部１８に記憶されている各種データのコピー先、或いは移動先として用いることができる。

このような帳票認識装置１が備えるハードウェア資源を各種プログラムによって制御する結果、帳票認識装置１は、専用アプリを購入した購入企業に属するオペレータに対し、本第１、及び第２のサービスを提供することができる。後述する各種処理は、各種プログラムがＣＰＵ１１に実行されることにより実現される。

図８は、本発明の情報処理装置の一実施形態に係る帳票認識装置上に実現される機能的構成の一例を示す機能ブロック図である。

図８に示すように、帳票認識装置１のＣＰＵ１１においては、２つの専用アプリが実行される想定の場合、レイアウト解析部１０１と、キー－バリュー抽出部１０２とが機能する。それにより、ＣＰＵ１１は、情報処理装置である帳票認識装置１を制御するコンピューターに相当する。

レイアウト解析部１０１は、本第１のサービスが提供可能なレイアウト解析機能を発揮する。スキャナ２から送信された帳票画像データは、通信部１９によって受信され、通信部１９からＣＰＵ１１に入力される。帳票画像データがＣＰＵ１１に入力された場合、有効となっているレイアウト解析部１０１においては、図８に示すように、セル抽出部１１１と、テーブル抽出部１１２と、文字列認識部１１３と、表示制御部１１４と、及び入力制御部１１５とが機能する。

セル抽出部１１１は、帳票画像データを用いて、帳票に存在するセルを認識し、認識したセルの帳票画像における位置を特定することで、当該セルを抽出する。
具体的には例えば、セル抽出部１１１は、帳票画像データが表す帳票画像ＦＩ上に存在する罫線を検出することにより、セルＣＥを抽出する。また、セル抽出部１１１は、抽出したセルＣＥ毎に、帳票画像においてセルＣＥが存在する範囲をセル領域として抽出するとともに、そのセル領域の位置情報を抽出する（図２参照）。なお、位置情報のｘｙ軸の各距離は、上記のように、帳票画像上で帳票と見なされる矩形形状が抽出され、抽出された矩形形状の左上の点が基点とされて表されたものである。これは、文字列領域ＴＸ、及びテーブルＴＢでも同様である。

文字列認識部１１３は、帳票画像ＦＩ上に存在する文字列領域ＴＸを認識し、認識した文字列領域ＴＸの帳票画像ＦＩにおける位置（位置情報）を特定することで、文字列領域ＴＸを抽出する。文字列ＴＸは、１つ以上の文字が連なるものである。文字列認識部１１３は、帳票画像ＦＩを表す画像のデータを用いて、帳票に存在する文字列ＴＸを複数認識する。なお、レイアウト解析部１０１の一部として機能させる場合、文字列領域ＴＸの認識、及びその位置の特定のみを行わせても良い。つまり文字列ＴＸの認識は必須とはならない。

テーブル抽出部１１２は、セル抽出部１１１により抽出された１以上のセルＣＥ及び位置に基づいて、帳票画像ＦＩにおいてグループを構成する１以上のセルＣＥを特定し、特定した１以上のセルＣＥが存在する範囲をテーブルＴＢとして抽出する。文字列領域ＴＸから、或いは文字列領域ＴＸを含むテーブルＴＢを抽出する場合もある。このことから、テーブル抽出部１１２は、セル抽出部１１１によるセルＣＥ毎の位置情報抽出結果、及び文字列認識部１１３による文字列領域ＴＸ毎の位置情報抽出結果を参照して、テーブルＴＢを抽出する。テーブル抽出部１１２は、抽出したテーブルＴＢ毎に、そのテーブルＴＢの位置情報も併せてを抽出する（図２参照）。

このようなセル抽出部１１１、テーブル抽出部１１２、及び文字列認識部１１３により、図１に示すような表示画面ＤＳの表示に必要な情報が生成される。セル抽出部１１１、テーブル抽出部１１２、及び文字列認識部１１３により得られた情報は、解析結果として、記憶部１８に確保された解析結果格納部１８２に格納される。また、スキャナ２から送信され、通信部１９を介してＣＰＵ１１に入力された帳票画像データは、記憶部１８に確保された画像格納部１８３に格納される。

表示制御部１１４は、夫々抽出されたセルＣＥ、テーブルＴＢ、及び文字列ＴＸの夫々の位置を視認可能な形態で、画像を表示させる制御を実行する。それにより、表示制御部１１４は、図１に示すような表示画面ＤＳを出力部１６に表示させることができる。表示画面ＤＳを出力部１６に表示させる場合、表示制御部１１４は、画像格納部１８３からは対応する帳票画像データ、解析結果格納部１８２からは対応する解析結果を夫々読み出し、表示画面ＤＳの表示用データを生成する。生成された表示用データが出力部１６に出力されることにより、出力部１６は表示画面ＤＳを表示させる。

入力制御部１１５は、入力部１７に対してオペレータが行った操作を認識して処理し、その認識結果に応じた制御を行う。つまり、入力制御部１１５は、３つのボタンＢＴ１～３、「データ保存」ボタンＢＴ５及びＢＴ６、並びに４つのタブＴ１～４へのオペレータによるクリック操作、メニューＤＳ３２１でのオペレータによる保存形式の選択に対応する。それにより、オペレータは、３つのボタンＢＴ１～３の何れかへのクリック操作により、表示領域ＤＳ２上で望む抽出結果を確認することができる。また、オペレータは、４つのタブＴ１～４の何れかへのクリック操作により、望む抽出結果の詳細、或いは文字列ＴＸの認識結果を表示領域ＤＳ３上で確認することができる。そのために、入力制御部１１５は、操作を認識したボタン、或いはタブに応じた指示を表示制御部１１４に対して行う。

オペレータがメニューＤＳ３２１で保存形式を選択した後、「データ保存」ボタンＢＴ６をクリック操作した場合、入力制御部１１５は、そのクリック操作に応じた指示を表示制御部１１４に対して行う。それにより、表示制御部１１４は、例えばメニューＤＳ３２１を表示させる前の状態の表示画面ＤＳを出力部１６に表示させる。

その一方、入力制御部１１５は、選択された保存形式を表す情報をテーブル抽出部１１２に渡し、その保存形式での解析結果の保存を指示する。
その指示により、テーブル抽出部１１２は、オペレータが選択した保存形式で解析結果を記憶部１８に確保された解析結果保存部１８１に格納する。

キー－バリュー抽出部１０２は、本第２のサービスが提供可能なキー－バリュー抽出機能を発揮する。有効となっているキー－バリュー抽出部１０２においては、図８に示すように、文字列認識部１１３と、対応関係決定部１１６と、及び特定部１１７とが機能する。

キー－バリュー抽出部１０２が有効となっている場合、文字列認識部１１３は、帳票画像ＦＩを表す画像のデータを用いて、帳票に存在する、１つ以上の文字が連なる文字列ＴＸを複数認識するとともに、認識した複数の文字列ＴＸの夫々の画像における位置情報を特定する。

対応関係決定部１１６は、文字列認識部１１３による複数の文字列ＴＸの夫々の認識結果、及び複数の文字列ＴＸの位置情報を用いて、帳票画像ＦＩに存在する複数の文字列ＴＸのうち、所定の２つの文字列ＴＸの間の対応関係を決定する（図５参照）。

特定部１１７は、対応関係決定部１１６により対応関係が決定された所定の２つの文字列ＴＸのうち、所定条件を満たす２つの文字列ＴＸの組を特定する（図５参照）。キーとバリューの関係にある２つの文字列ＴＸの組は、その例である。

以下、図９～図１６を用いて、本第１のサービスの提供のために実行される処理の概要例について説明する。

図９は、本発明の情報処理装置の一実施形態に係る帳票認識装置により実行されるセル検出処理の例を示すフローチャートである。
図８に示すセル抽出部１１１は、このセル検出処理をＣＰＵ１１が実行することで実現される。このことから、ここでは処理を実行する主体をセル抽出部１１１として説明を行う。

先ず、ステップＳ１１において、セル抽出部１１１は、帳票画像ＦＩを１チャネルのグレースケール画像に変換して２値化し、２値化した帳票画像ＦＩ上に存在する罫線を水平線成分、垂直線成分に分離する。

本実施形態では、罫線の水平線成分、垂直線成分への分離は、２値化した帳票画像ＦＩに対してモルフォロジー変換を用いることで行っている。罫線の水平線成分、垂直線成分の分離には、夫々用意したモルフォロジーフィルタの構造要素が用いられる。また、モルフォロジー変換は、水平線成分、垂直線成分の拡大・収縮処理を通して、線成分を太くする、線成分を補足する、等のためにも用いている。
モルフォロジー変換は、ＤＮＮを用いて行っている。表示領域ＤＳ２（図１）の上方部分にサムネイル画像として表示される２つのサリエンシーマップ画像には、罫線が含まれる。その罫線は、ＤＮＮを用いて分離させた水平線成分、垂直線成分を用いて特定されたものである。そのため、２つのサリエンシーマップ画像の生成にＤＮＮが用いられている。

ステップＳ１１においては、セル抽出部１１１は、水平線成分、及び垂直線成分と元の帳票画像ＦＩとの間で夫々ピクセル毎の論理積をとることにより、水平線成分のみ、及び垂直線成分のみの分離済み画像の生成も行う。

スキャナ２による帳票の読み取りが適切に行われるとは限らない。また、読み取らせた帳票に歪み等が生じている可能性もある。このようなことから、実際には、ステップＳ１１の処理を実行する前に、帳票画像ＦＩの回転、帳票画像ＦＩに生じている歪みの補正等のための前処理を行うことが必要である。

次に、ステップＳ１２において、セル抽出部１１１は、２つの分離済み画像を処理し、矩形領域を囲んでいる水平線成分、及び垂直線成分の各成分を検出する。セル抽出部１１１は、検出した成分が交差する点についての位置情報である交差情報も併せて抽出する。
また、セル抽出部１１１は、検出した各成分により囲まれた矩形領域を、接続、つまり隣接していると見なす範囲でグルーピングする。それにより、例えば上下左右のうちの何れかの方向で、定めた閾値以下の距離で隣り合う矩形領域は１つのグループにまとめられる。抽出した交差情報は、矩形領域のグルーピングのために参照される。
また、セル抽出部１１１は、検出した各成分のうちで適切に他の成分と接続されていない可能性が考えられる成分を特定し、特定した成分を必要に応じて操作する処理も併せて行う。

図１０は、適切に他の成分と接続されていない可能性が考えられるとして特定される成分の例を示す図である。
罫線では、図１０に示すように、水平線、或いは垂直線の成分Ｌの一部Ｌａが交差する他の成分Ｌからはみ出している場合がある。本第１のサービスでは、はみ出した一部Ｌａは、その一部Ｌａがはみ出した方向に存在する他の成分Ｌと接続させるべきものである可能性を考慮して対応するようにしている。具体的には、一部Ｌａがはみ出している方向に、その一部Ｌａに向かってはみ出している一部Ｌａを有する他の成分Ｌが存在する場合、その２つの一部Ｌａを、その２つの一部Ｌａを含む１つの成分Ｌに置き換えるようにしている。その置き換えにより、２つの一部Ｌａは、それらを結ぶ罫線として扱われる。以下、一部Ｌａは「はみ出し部Ｌａ」と呼ぶ。

このような置き換えにおいて、異なる２つの成分Ｌに、対向するはみ出し部Ｌａが存在することを条件としている。これは、成分Ｌの途中が何らかの理由によって消えた状態となって、その成分Ｌの代わりに２つの対向するはみ出し部Ｌａが生じた可能性が高いと考えられるからである。本第１のサービスでは、２つの対向するはみ出し部Ｌａの存在は、その可能性が高いことを示す根拠と見なしている。このような条件により、図１０に示すはみ出し部Ｌａの全ては、他の成分Ｌとは接続されない。

角が丸いセルＣＥでは、例え同じ成分Ｌを共有する隣接するセルＣＥであっても、丸い角の交差情報はその成分Ｌから離れた位置を示すことになる。そのため、交差情報を用いたグルーピングを適切に行うのが困難となる。

しかしながら、罫線を水平線成分と垂直線成分とに分離した場合、セルＣＥの丸い角の部分は無視され、丸い角に繋がる２つの成分Ｌはともに、適切に他の成分Ｌと接続されていない可能性が考えられる成分Ｌとして特定される。この２つの成分Ｌは、その成分Ｌの延長線上で他の成分Ｌと交差する。このことから、この２つの成分Ｌはともに、互いに他の成分Ｌと接続させるべき成分Ｌと見なされ、他の成分Ｌと交差する点までのびる成分Ｌに変更される。この結果、セルＣＥの丸い角は全て、直角の角に成形される。このような成形により、セルＣＥの角の形に係わらず、交差情報を用いたグルーピングも適切に行うことができる。

成分Ｌのうちには、途中で消えているか、或いは読み取り時に帳票に付着した埃等により、本来、１つの成分Ｌが複数の成分Ｌとして検出される場合がある。そのような複数の成分Ｌでは、同じ向きに対向する他の成分Ｌが存在する。そのため、これら複数の成分Ｌは、一つの成分Ｌに置き換えられる。

このような成分Ｌへの操作により、成分Ｌが交差する点が新たに生じた場合、その点の交差情報が抽出される。このことから、ステップＳ１２の処理の実行により、セルＣＥの可能性が考えられる矩形領域の各交差情報の大部分が抽出されることになる。

ステップＳ１３において、セル抽出部１１１は、水平線成分、及び垂直線成分を夫々、高さを持たない水平線成分、幅を持たない垂直線成分として、各成分の情報を変換する。セル抽出部１１１は、変換後の情報を格子座標情報として集約し、水平線成分と垂直線成分とが交差する点で分割される格子の各要素で罫線の有無を判定し、その判定結果を格子の要素ごとの罫線有無データとして保存する。

図１１は、ステップＳ１３で実行される処理の内容の第１の例を説明する図である。
水平線成分ＬＨ、及び垂直線成分ＬＶはともに、本来は太さを有する成分である。水平線成分ＬＨは高さを持たない成分に、垂直線成分ＬＶは幅を持たない成分に変換される。その結果、図１１に示すように、太さのない水平線成分と垂直線成分とで形成される格子を表す格子データが作成される。

太さのない水平線成分、垂直線成分を想定することにより、図１１に示すように、太さの違いによって座標情報が異なるのを回避させることができる。それにより、例えば垂直線成分では、ｙ軸上、異なる位置、及び異なる太さの２つの垂直線成分のｘ座標を同じにすることができ、処理が簡単化される。

格子の各要素は、水平線成分と垂直線成分とで分割される成分Ｌである。例えばｘ座標の値がｘ_１となっている垂直線成分では、４つの水平線成分によって分割される３つの部分が夫々要素となる。つまりｙ座標の値がｙ_０～ｙ_１の間、ｙ_１～ｙ_２の間、ｙ_２～ｙ_３までの間が夫々要素となる。

罫線の有無判定は、要素ごとに行われる。図１１に示す例では、ｘ座標の値がｘ_１、ｙ座標の値がｙ_１～ｙ_２の要素のみ、罫線は無しと判定され、その判定結果を表す「０」が罫線有無データとなっている。他の要素は全て、罫線は有りと判定され、その判定結果を表す「１」が罫線有無データとなっている。

ｘ座標の値がｘ_２、ｙ座標の値がｙ_２～ｙ_３までの間である要素では、垂直線成分ＬＶが全ての範囲に存在しない。しかし、その垂直線成分ＬＶは、その要素の大部分に存在する。そのため、この要素も罫線は有りと判定される。

このように、本第１のサービスでは、格子の要素ごとに、罫線の有無を判定している。そのため、要素に１つ以上の成分が存在し、その要素の全体を１つの成分がカバーしていなくとも、その要素には罫線が有りと判定され、その１つ以上の成分は適切な１つの成分に補完される。

図１２は、ステップＳ１３で実行される処理の内容の第２の例を説明する図である。
上記のように、ステップＳ１２では、他の成分Ｌからはみ出しているはみ出し部Ｌａが特定される。図１２では、同じ水平方向にはみ出している２つのはみ出し部Ｌａ、その逆向きにはみ出している１つのはみ出し部Ｌａ、及び垂直方向にはみ出している１つのはみ出し部Ｌａが特定された場合の例を示している。

図１２に示すように、各はみ出し部Ｌａは、はみ出した方向に、そのはみ出した方向に最初に存在する、その方向と直角な成分Ｌまで延長されている。それにより、ステップＳ１２の処理時に検出された成分Ｌは、ステップＳ１３の処理により、図１２に示すように操作される。角の２つの成分Ｌが交差していない部分は、要素ごとの罫線の有無の判定により、それらが直角に接続するように操作される。

各はみ出し部Ｌａをはみ出した方向に延長させているのは、そのはみ出した方向に、接続させる可能性が考えられる成分Ｌが存在するからである。言い換えれば、テーブルＴＢの範囲、つまり外周となる成分Ｌの一部が検出できなかった可能性が考えられるからである。

このような操作により、罫線を構成する成分を適切に補完することが期待できる。また、セルＣＥと見なすことが可能な矩形領域、及びその矩形領域が集まっている範囲は、より矩形形状に近づけることができる。

表構造となっている部分は、全体的に矩形形状となっている場合が多い。そのため、矩形領域、及びその矩形領域が集まっている範囲をより矩形形状に近づけることは、セルＣＥ、及びテーブルＴＢをより適切に抽出できるようにするうえで効果が期待できる。

ステップＳ１４において、セル抽出部１１１は、格子座標情報、及び格子の要素ごとの罫線有無データを参照し、他の矩形領域に含まれない領域を含む矩形領域を全てセルＣＥとして検出する。検出したセルＣＥの全てから、位置情報を夫々抽出する。そのようにして、セルＣＥの検出、及び検出したセルＣＥからの位置情報の抽出を行った後、セル検出処理が終了する。

図１３は、帳票画像、その帳票画像から検出されるセル、検出されたセルのグルーピングの例を示す図である。
図１３に示すように、帳票画像ＦＩ上に存在する罫線で囲まれ、且つ他の矩形領域に含まれた領域が存在しない矩形領域が全てセルＣＥとして検出される。検出されたセルＣＥは、形状を含む位置関係からグルーピングされ、１グループを構成するセルＣＥはテーブルＴＢの構成要素として扱われる。また、矩形形状となっていない領域を囲む罫線による閉罫線ＣＬは、セルＣＥとして検出されず、排除される。
その排除により、有効とする罫線が確定する。それにより、２つのサリエンシーマップ画像上の罫線も確定する。その一方に配置される文字列領域ＴＸは、罫線とは別に抽出されて特定される。

図１４は、本発明の情報処理装置の一実施形態に係る帳票認識装置により実行される外周取得処理の例を示すフローチャートである。
図８に示すテーブル抽出部１１２は、この外周取得処理をＣＰＵ１１が実行することで実現される。このことから、ここでは処理を実行する主体をテーブル抽出部１１２として説明を行う。
上記セル検出処理では、セルＣＥの検出、及びセルＣＥのグループ化を行う。このことから、外周取得処理では、グループ化されたセルＣＥの集合の外周を特定することにより、テーブルＴＢの範囲を抽出するようになっている。

先ず、ステップＳ２１において、テーブル抽出部１１２は、セルＣＥの位置情報を節点情報に変換する。節点情報は、各セルＣＥの位置情報から４つの角を特定し、特定した角で交差する水平線、及び垂直線を夫々引いたと想定した場合に、セルＣＥを表す罫線が水平線、或いは垂直線と交差する点の位置を表す情報のことである。

図１５は、セルの検出結果、及びその検出結果を変換して得られる節点情報の例を示す図である。
図１５の左側に示すようにセルＣＥが検出されるか、或いはグルーピングされることにより、各セルＣＥの角で交差する水平線、及び垂直線が格子線ＧＤとして引いた状態が想定される。節点Ｐは、セルＣＥを表す罫線が格子線ＧＤの水平線、或いは垂直線と交差する点である。節点情報は、節点Ｐの位置を表す位置情報である。

各節点Ｐには、セルＣＥを表す罫線の少なくとも一部が接続された形となっている。その一部は、各節点Ｐで少なくとも２つ存在する。その一部については、以下「リンクＬＫ」と総称する。

各節点Ｐでは、節点情報とともに、その節点Ｐと接続された各リンクＬＫを表すリンク情報が生成される。リンク情報は、節点Ｐと隣接する別の節点Ｐとの間の位置関係を示す情報である。本第１のサービスでは、位置関係を示す情報として、節点Ｐの左右上下の方向ごとに、隣接する節点Ｐの有無、節点Ｐが存在していれば、その節点Ｐまでの距離を保存するようにしている。距離は、ピクセルを単位として表したものである。そのリンク情報により、左右上下の４つの方向で隣接する別の節点Ｐの有無、隣接する別の節点Ｐが存在するならば、その節点Ｐまでの距離を特定することができる。

ステップＳ２２において、テーブル抽出部１１２は、生成した節点情報、及びリンク情報を、セルＣＥの検出の際にグルーピングされた結果に従ってグループ化する。

その後、ステップＳ２３において、テーブル抽出部１１２は、グループ毎に、そのグループの節点情報、及びリンク情報を参照して、グループ化されたセルＣＥの範囲の外周をテーブルＴＢの外周として抽出する。全てのテーブルＴＢの外周を抽出した後、外周取得処理が終了する。

図１６は、グループ化された節点情報の例、及びその節点情報からセルを含むテーブルの外周の抽出例を示す図である。
節点Ｐは、テーブルＴＢの外周を特定するために想定される。テーブルＴＢの外周の特定は、起点とする節点Ｐから、隣接する別の節点Ｐに着目する節点Ｐを順次、移動させる探索により行われる。この探索は、既に探索済みの節点Ｐに戻った時点で終了する。

本第１のサービスでは、グループ化された節点情報から特定される節点Ｐのうち、最も左側に位置し、且つ最も上に位置する節点Ｐを起点として探索を行うようにしている。次の節点Ｐに進行する進行方向には優先順位を設けている。その優先順位は、現在の節点Ｐに移動した進行方向から見て、左方向が最も優先順位が高いものとしている。次に高い優先順位は現在の進行方向、つまり前方向、その次に高い優先順位は右方向、最も低い優先順位は後方向、としている。それにより、図１６に示す例では、「Ｐ」を付した節点Ｐが起点となり、外周に位置する節点Ｐのみを移動させる探索が行われ、テーブルＴＢの外周が抽出される。

図１７は、本発明の情報処理装置の一実施形態に係る帳票認識装置上に実際にキー－バリュー抽出部の一部として実現された機能的構成の一例を示す機能ブロック図である。

図１７に示すように、帳票認識装置１のＣＰＵ１１においては、キー－バリュー抽出部１０２が機能する場合、グラフ情報生成部１２１、及びグラフ構築部１２２が機能する。グラフ情報生成部１２１、及びグラフ構築部１２２は、対応関係決定部１１６、及び特定部１１７の機能を含むものである。

本第２のサービスで想定するグラフは、ノードＮＤとエッジＥＤからなるデータ構造のものである。ここでのノードＮＤは、認識された文字列ＴＸである。エッジＥＤは、ノードＮＤ同士の対応関係、つまり関係性を表すデータである。以下、「ノード」は、認識された文字列ＴＸを指す意味で用いる。

グラフ情報生成部１２１は、文字列認識部１１３から帳票画像ＦＩを表す画像（データ）ＤＴ１、認識した文字列ＴＸが存在する文字列領域の位置情報ＤＴ２、及び文字列ＴＸの認識結果ＤＴ３を入力する。

グラフ情報生成部１２１では、図１７に示すように、グラフモデラ部１２１１、及び特徴演算部１２１２が機能する。
グラフモデラ部１２１１は、画像ＤＴ１、及び文字列領域ＴＸの位置情報ＤＴ２を参照し、文字列領域ＴＸ間の相対的な位置情報、つまり距離情報を生成する。
特徴演算部１２１２は、文字列ＴＸの認識結果ＤＴ３から、各文字列ＴＸの属性を表す属性情報、及び文字列の自然言語処理（ＮＬＰ：ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ）を行った結果であるＮＬＰ情報を生成する。

図１８は、グラフ情報生成部により生成される各種情報の例を説明する図である。
文字列領域ＴＸ間の相対的な位置情報は、空間的な特徴を表す情報である。グラフモデラ部１２１１は、認識された文字列ＴＸ、より正確には、その文字列ＴＸが存在する文字列領域毎に、隣接する文字列領域ＴＸとの間の相対的な位置情報を生成する。本第２のサービスでは、図１８に示すように、上下左右の４方向に分け、方向毎に、隣接する文字列領域ＴＸまでの位置情報を生成する。具体的には、上下に隣接する文字列領域ＴＸでは、その間の距離を、対象とする文字列領域ＴＸの高さで割って得られる位置情報を生成する。左右に隣接する文字列領域ＴＸでは、その間の距離を、対象とする文字列領域ＴＸの幅で割って得られる位置情報を生成する。

対象とする文字列領域ＴＸの大きさ（形状）で文字列領域ＴＸ間の距離を割ることにより、文字列領域ＴＸ間の相対的な位置情報は、文字列領域ＴＸ間の距離がその文字列領域ＴＸの大きさに応じて正規化された形となる。文字列領域ＴＸ間の距離は、ノード間の対応関係を特定するうえで重要な情報である。その距離を正規化することにより、文字列領域ＴＸの大きさに係わらず、文字列領域ＴＸ間の対応関係をより適切に特定できるようになる。

特徴演算部１２１２は、予め定められた分類に沿って、文字列ＴＸの属性を判定し、その属性を論理型の情報として生成する。文字列ＴＸは、図１８に示すように、例えば日付、数値、それらとは異なるその他のうちの何れかに分類される。論理型の属性情報は、分類毎に、その分類に属するか否かを２値で表す情報である。

ＮＬＰ情報は、認識された文字列ＴＸに対して自然言語処理を行って得られる情報である。このＮＬＰ情報は、例えば図１８に示すように、空白で区切られた複数の単語を１つの文字列ＴＸとして扱うのを可能にする。また、図１に示す「自．平成２９年４月１日至．平成３０年０３月３１日」を、「自．平成２９年４月１日」「至．平成３０年０３月３１日」の２つの文字列ＴＸとして扱うのを可能にする。

グラフモデラ部１２１１で生成された各種情報は、グラフ構築部１２２に渡される。
グラフ構築部１２２では、図１７に示すように、特徴抽出部１２２１、ノード分類部１２２２、ノード抽出部１２２３、エッジ分類部１２２４、及び結合部１２２５が機能する。特徴抽出部１２２１、ノード分類部１２２２、及びエッジ分類部１２２４は、ＭＬＰ（ＭｕｌｔｉＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ）を用いたものである。

特徴抽出部１２２１は、各ノードＮＤが持つ特徴量を繰り返して学習する機能である。例えばノードＮＤが「合計額」という文字列ＴＸの画像であった場合、そのノードＮＤは、教師データと比較することにより、「合計額」の意味の文字列ＴＸと認識される。

ノード分類部１２２２は、各ノードＮＤから抽出された特徴量を用いて、各ノードＮＤを分類し、その分類結果をノード分類子として生成する。ここでは、各ノードＮＤは、キー、バリュー、及びその他のうちの何れかに分類される。このノード分類子は、ノードＮＤの属性情報に相当する。

帳票画像ＦＩ上のノードＮＤ（文字列ＴＸ）のうちには、キー、及びバリューの両方に分類できるものも存在する。本第２のサービスでは、学習データを用いた学習により、キー、及びバリューの両方に分類できるノードＮＤをそのうちの一方にのみ分類する。それにより、特定すべき２つのノードＮＤの組、つまりノードＮＤ１とノードＮＤ２の組のみを特定できるようにしている。

ノードＮＤ間の対応関係、つまり関係性を特定すべきノードＮＤは、キー、或いはバリューと分類されたノードＮＤである。その他と分類されたノードＮＤ３は、対応関係を特定する対象には含まれない。このことから、ノード抽出部１２２３は、各ノードＮＤのうちから、キー、或いはバリューと分類されたノードＮＤ１、ＮＤ２のみを抽出する。

エッジ分類部１２２４は、キー、或いはバリューと分類されたノードＮＤのみを対象に、そのノードＮＤとの間に対応関係が存在するノードＮＤを予測することにより、エッジＥＤを生成する。対応関係を決定する、つまりエッジＥＤを予測するノードＮＤを、キー、或いはバリューと分類したものに限定しているため、全てのノードＮＤを対象にする場合と比較して、計算量、及び必要なメモリ量がともに低減される。

結合部１２２５には、各ノードＮＤのノード分類子、及びエッジＥＤの予測結果が渡される。それにより、結合部１２２５は、予測（決定）されたエッジＥＤのうち、ノード分類子がキー、及びバリューとなっている２つのノードＮＤ１、ＮＤ２を結びつけるエッジＥＤ１のみを抽出する。このエッジＥＤ１の抽出により、ノード分類子がキーとバリューとなっている２つのノードＮＤ１、ＮＤ２の組が特定される。

図１９は、グラフ構築部の詳細例を示す図である。
特徴抽出部１２２１は、図１９に示すように、３層のＮＮ（ＮｅｕｒａｌＮｅｔｗｏｒｋ）である。この特徴抽出部１２２１には、グラフ情報生成部１２１から、ノードＮＤの集合、及びエッジＥＤの集合を表すグラフ、ノード数、エッジ数、ノード属性、ノードラベル、隣接行列、マッピングマトリックス、等が渡される。

ノードラベルは、例えばノードＮＤの識別を可能にする情報である。マッピングマトリックスは、ノードＮＤ間の関係性を表す多次元行列であり、エッジＥＤの予測結果に応じて更新される。ノード属性は、図１８に示すように、論理型の情報である。

特徴抽出部１２２１は、上記のように、各ノードＮＤが持つ特徴量を抽出し、意味を特定する。その特定により、ノード分類子がその他と分類されるノードＮＤがノード抽出部１２２３に通知される。

ノード分類部１２２２も、図１９に示すように、３層のＮＮである。ノード分類部１２２２は、ノード属性、及びノードラベルを用いて、各ノードのノード分類子を生成する。ここでは、各ノードＮＤをキー、バリュー、及びその他のうちの何れかに分類することから、ノード分類子は０～２の数値で表している。０はキー、１はバリュー、２はその他を表している。各ノードのノード分類子は、ノード抽出部１２２３に渡される。

ノード分類部１２２２では、ノード分類子の生成のための学習データを用いた学習が行われている。この学習データは、グラフ理論を採用したものであり、例えばノードＮＤをキー、及びバリューの何れかに分類し、それらの間の関連性の強さをリンク情報としてアノテーションしたものである。それにより、ノード分類部１２２２は、他のノードＮＤを考慮し、各ノードＮＤのノード分類子を生成する。キー、及びバリューの両方に分類可能なノードＮＤは、そのうちの一方にのみ分類される。また、或る文字列ＴＸがキーに分類される場合、その類義語に相当する文字列ＴＸも全てキーに分類される。

ノード抽出部１２２３では、図１９に示すように、ノード削除部１２２３１、及びノード選択部１２２３２が機能する。
その他と分類されるノードＮＤは、ノード削除部１２２３１に通知され、各ノードのノード分類子はノード削除部１２２３１に渡される。それにより、ノード削除部１２２３１は、全てのノードＮＤのうちから、その他と分類されるノードＮＤを対象から削除する。この結果、ノード選択部１２２３２には、キー、或いはバリューと分類されたノードＮＤのみが通知される。

ノード選択部１２２３２は、ノード削除部１２２３１から通知されたノードＮＤを選択し、エッジ分類部１２２４に選択結果を通知する。
この結果、エッジ分類部１２２４は、キー、或いはバリューと分類されたノードＮＤのみを対象に、そのノードＮＤとの間に対応関係があると見なすノードＮＤを特定し、マッピングマトリックスを更新する。

マッピングマトリックスは、例えばノードＮＤ間の対応関係の有無を０、或いは１で表すマトリックスである。０は、対応関係が無いことを表し、１は、対応関係が有ることを表す。このことから、エッジ分類部１２２４は、対応関係が認められるノードＮＤ間に対応する要素の値を０から１に更新する。

エッジ分類部１２２４は、自然言語処理の機能を実装させた２層のＮＮである。それにより、エッジ分類部１２２４は、表構造上、キーとバリューの関係になっている２つのノードＮＤの間にエッジＥＤが存在すると見なす（図５参照）。しかし、その２つのノードＮＤが実際にキー、バリューと夫々分類されているとは限らない。このことから、結合部１２２５は、マッピングマトリックス、及びノード分類子を参照し、ノード分類子がキー、バリューを示す２つのノードＮＤ１、ＮＤ２を結ぶエッジＥＤ１を特定する。それにより、結合部１２２５は、そのエッジＥＤ１が結ぶ２つのノードＮＤ１、ＮＤ２の組のみを抽出する。この２つのノードＮＤ１、ＮＤ２の組は全て、特定結果として記憶部１８の特定結果格納部１８４に格納される。

以上、本発明の一実施形態について説明した、しかし、本発明が適用される実施形態は、例えば以下のようなものであっても良い。

例えば帳票には、キーに分類されるノードＮＤ１（文字列ＴＸ）に対し、バリューに分類されるノードＮＤ２が複数、存在するものもある。例えば図２０に示す帳票では、「氏名」の文字列ＴＸ３１がキーに分類されるノードＮＤ１に対応し、「山田太郎」の文字列ＴＸ４１、ＴＸ４２は、そのノードＮＤ１との対応関係があるバリューに分類されるノードＮＤ２に対応する。このことから、文字列ＴＸ４１の他に、文字列ＴＸ４２も文字列ＴＸ３１に対応づけるようにしても良い。同様にして、文字列ＴＸ４３、ＴＸ４４を文字列ＴＸ３２に、文字列ＴＸ４５、ＴＸ４６を文字列ＴＸ３３に、文字列ＴＸ４７、ＴＸ４８を文字列ＴＸ３４に、夫々対応づけるようにしても良い。

また、文字列ＴＸ４３～ＴＸ４７は、文字列ＴＸ４１の「山田太郎」とも対応づけられるものである。このことから、文字列ＴＸ４１と、文字列ＴＸ４３～ＴＸ４７との組をまとめて対応づけても良い。この組は、構造化データとして扱うことができる。
また、帳票画像ＦＩを表す帳票画像データは、スキャナ２から取得しているが、その帳票画像データは、ネットワークを介して接続可能な端末から取得するようにしても良い。つまり、帳票画像データを取得する装置は特に限定されない。それにより、図１に示すような表示画面ＤＳを表示させる装置も特に限定されない。

表示画面ＤＳの画面構成についても、図１に示すようなものに限定されない。例えばテーブルＴＢの抽出結果を常に表示させる表示領域を確保し、別の表示領域に、セル領域、文字列領域の各抽出結果を選択的に表示できるようにしても良い。詳細表示領域ＤＳ３２に表示させた文字列ＴＸの認識結果をオペレータが修正できるようにしても良い。
キー－バリューの関係にある２つの文字列ＴＸの組の抽出にＮＮを用いているが、ＮＮを用いなくても良い。しかし、ＮＮを用いた場合、用意する学習データにより、様々な帳票に対応させることが比較的に容易に可能になるという利点がある。
テーブルＴＢの範囲内に複種類の罫線が存在する場合がある。複種類の罫線とは、太さが異なる、１つの罫線を形成する線の数が異なる、及び色が異なる、等のうちの何れかにより区別される複種類の罫線である。罫線を異ならせていることには何らかの意図が存在するのが普通である。このことから、テーブルＴＢの抽出、或いは文字列ＴＸ（ノードＮＤ）間の対応関係の決定に、罫線の種類の判定結果を反映させるようにしても良い。
帳票は表構造となっている。そのため、テーブルＴＢの抽出、文字列ＴＸ間の対応関係の決定を行う対象を帳票としている。それにより、表構造を有しているものであれば対象にすることが可能である。つまり、対象は、帳票以外のものであっても良い。

本第１のサービス、及び本第２のサービスは、夫々異なる専用アプリにより提供されるものと説明したが、１つの専用アプリでそれらのサービスを提供可能にしても良い。図８では、本第２のサービスを提供可能な専用アプリが、本第１のサービスを提供可能な専用アプリの一部の機能（文字列認識部１１３を実現させる機能）を利用するものと想定している。

以上まとめると、本発明が適用される、本第１のサービスを提供可能な情報処理装置は、次のような構成を取れば足り、各種各様な実施形態を採ることができる。
即ち、本第１のサービスを提供可能な情報処理装置（例えば図６に示す帳票認識装置１）は、
帳票を表す画像のデータを用いて、前記帳票に存在するセルを認識し、認識した前記セルの前記画像における位置を特定することで、当該セルを抽出するセル抽出手段（例えば図８に示すセル抽出部１１１）と、
前記セル抽出手段によりが抽出された１以上の前記セル及び位置に基づいて、前記画像においてグループを構成する１以上の前記セルを特定し、特定した前記１以上のセルが存在する範囲をテーブルとして抽出するテーブル抽出手段（例えば図８に示すテーブル抽出部１１２）と、
前記帳票に存在する文字列領域を認識し、認識した前記文字列領域の前記画像における位置を特定することで、当該文字列領域を抽出する文字列抽出手段（例えば図８に示す文字列認識部１１３）と、
を備える情報処理装置。

これにより、オペレータは、セル、文字列領域、及びテーブルの各抽出結果を確認することができる。多くのセルには、内側に文字列が配置される。それにより、セルの抽出結果から、大部分の文字列が存在する位置を確認することができる。
テーブルの抽出結果は、テーブル単位で文字列の認識結果、及びその対応関係を確認する後続処理を行うことを可能にする。テーブル単位で確認できることから、一度に意識すべき文字列の数はより少なくなり、文字列間の対応関係の確認もより容易となる。
このようなことから、オペレータは、適切な後続処理をより容易、且つより迅速に行うことができる。

上記情報処理装置には、
前記セル抽出手段、前記テーブル抽出手段、及び前記文字列抽出手段により夫々抽出された前記セル、前記テーブル、及び前記文字列の夫々の位置を視認可能な形態で、前記画像を表示させる制御を実行する表示制御手段（例えば図８に示す表示制御部１１４）、を更に備えることができる。
これにより、オペレータは、表示された画像から、セル、テーブル、及び文字列領域の位置を確認することができる。

上記情報処理装置には、
前記表示制御手段は、
操作者による操作に基づいて、前記テーブル、前記セル、及び前記文字列領域のうちの１つ以上の位置を選択的に視認可能な形態で、前記画像を表示させる制御を実行する、ようにさせることができる。
これにより、オペレータは、表示された画像から、セル、テーブル、及び文字列領域のうちの任意の位置を選択的に確認することができる。そのため、位置の確認はより容易に行えるようになる。

また、本発明が適用される、本第２のサービスを提供可能な情報処理装置は、次のような構成を取れば足り、各種各様な実施形態を採ることができる。
即ち、本第２のサービスを提供可能な情報処理装置（例えば図６に示す帳票認識装置１）は、
帳票を表す画像のデータを用いて、前記帳票に存在する、１つ以上の文字が連なる文字列を複数認識するとともに、認識した前記複数の文字列の夫々の前記画像における位置情報を特定する文字列認識手段（例えば図８に示す文字列認識部１１３）と、
前記文字列認識手段による前記複数の文字列の夫々の認識結果、及び前記複数の文字列の前記位置情報を用いて、前記帳票に存在する前記複数の文字列のうち、所定の２つの文字列の間の対応関係を決定する対応関係決定手段（例えば図８に示す対応関係決定部１１６）と、
前記関係性決定手段により対応関係が決定された前記所定の２つの文字列のうち、所定条件を満たす２つの文字列の組を特定する特定手段（例えば図８に示す特定部１１７）と、
を備える情報処理装置。

これにより、オペレータは、帳票に存在する文字列のうち、特に重要度の高いような２つの文字列の組に限定した確認を容易に行うことが可能となる。文字列の認識結果のうちから、確認すべき認識結果を探すような作業を行う必要性は回避可能となる。視点を変えれば、確認を行う必要性がない、或いは比較的に低いような文字列の認識結果の確認を回避することが容易となる。
このようなことから、オペレータは、適切な後続処理をより迅速に行えるようになる。

上記情報処理装置には、
前記対応関係決定手段は、前記複数の文字列の中で、所定の１種類以上の属性のうち何れかの属性を有する文字列のみを前記所定の２つの文字列の夫々として採用して、当該所定の２つの文字列の対応関係を決定する、ようにさせることができる。
これにより、採用させる文字列の属性を通して、所望の２つの文字列の組を特定させることができる。

上記情報処理装置には、
前記所定条件は、一方の文字列がキーであり他方の文字列がバリューである関係が成立する条件を含む、ようにさせることができる。
これにより、その関係を有する２つの文字列の組を特定させることができる。

１帳票認識装置、２スキャナ、１１ＣＰＵ、１２ＲＯＭ、１３ＲＡＭ、１４バス、１５入出力インターフェース、１６出力部、１７入力部、１８記憶部、１９通信部、２０ドライブ、３１リムーバブル、エディア、１１１セル抽出部、１１２テーブル抽出部、１１３文字列認識部、１１４表示制御部、１１５入力制御部、１１６対応関係決定部、１１７特定部

Claims

帳票を表す画像のデータを用いて、前記帳票に存在する、１つ以上の文字が連なって意味を表している文字列が存在する可能性があるセルを認識し、認識した前記セルの前記画像における位置を特定することで、当該セルを抽出するセル抽出手段と、
前記セル抽出手段により抽出された１以上の前記セル及び位置に基づいて、前記画像においてグループを構成する１以上の前記セルを特定し、特定した前記１以上のセルが存在する範囲をテーブルとして抽出するテーブル抽出手段と、
前記帳票に存在する、前記文字列が存在する文字列領域を認識し、認識した前記文字列領域の前記画像における位置を特定することで、当該文字列領域を抽出する文字列抽出手段と、
を備える情報処理装置。
前記セル抽出手段、前記テーブル抽出手段、及び前記文字列抽出手段により夫々抽出された前記セル、前記テーブル、及び前記文字列領域の夫々の位置を視認可能な形態で、前記画像を表示させる制御を実行する表示制御手段、
を更に備える請求項１に記載の情報処理装置。
前記表示制御手段は、
操作者による操作に基づいて、前記テーブル、前記セル、及び前記文字列領域のうちの１つ以上の位置を選択的に視認可能な形態で、前記画像を表示させる制御を実行する、
請求項２に記載の情報処理装置。
情報処理装置が実行する情報処理方法において、
帳票を表す画像のデータを用いて、前記帳票に存在する、１つ以上の文字が連なって意味を表している文字列が存在する可能性があるセルを認識し、認識した前記セルの前記画像における位置を特定することで、当該セルを抽出するセル抽出ステップと、
前記セル抽出ステップの処理により抽出された１以上の前記セル及び位置に基づいて、前記画像においてグループを構成する１以上の前記セルを特定し、特定した前記１以上のセルが存在する範囲をテーブルとして抽出するテーブル抽出ステップと、
前記帳票に存在する、前記文字列が存在する文字列領域を認識し、認識した前記文字列領域の前記画像における位置を特定することで、当該文字列領域を抽出する文字列抽出ステップと、
を含む情報処理方法。
情報処理装置を制御するコンピューターに、
帳票を表す画像のデータを用いて、前記帳票に存在する、１つ以上の文字が連なって意味を表している文字列が存在する可能性があるセルを認識し、認識した前記セルの前記画像における位置を特定することで、当該セルを抽出するセル抽出ステップと、
前記セル抽出ステップの処理により抽出された１以上の前記セル及び位置に基づいて、前記画像においてグループを構成する１以上の前記セルを特定し、特定した前記１以上のセルが存在する範囲をテーブルとして抽出するテーブル抽出ステップと、
前記帳票に存在する、前記文字列が存在する文字列領域を認識し、認識した前記文字列領域の前記画像における位置を特定することで、当該文字列領域を抽出する文字列抽出ステップと、
を含む制御処理を実行するプログラム。