JP2009110445A

JP2009110445A - 画像認識装置、画像認識プログラムおよび画像認識方法

Info

Publication number: JP2009110445A
Application number: JP2007284295A
Authority: JP
Inventors: Yusaku Fujii; 勇作藤井; Katsuto Fujimoto; 克仁藤本; Hiroaki Takebe; 浩明武部; Hiroshi Tanaka; 宏田中; Yoshinobu Hotta; 悦伸堀田; Akihiro Minagawa; 明洋皆川; Noriaki Ozawa; 憲秋小澤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-10-31
Filing date: 2007-10-31
Publication date: 2009-05-21
Anticipated expiration: 2027-10-31
Also published as: CN101425141A; US8234254B2; CN101425141B; JP5253788B2; US20090110280A1

Abstract

【課題】論理構造モデルの更新に伴う不都合の発生を利用者に回避させることを課題とする。
【解決手段】論理構造の前記画像について、前記論理構造モデルにて処理される情報を収集し、新たな論理構造に対応するように前記論理構造モデルが新たな論理構造モデルに更新されると、収集された情報を当該更新後の論理構造モデルにて処理することで、更新前の論理構造モデルが対応する論理構造の画像について、当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得し、収集された情報が更新前の論理構造モデルにて処理された認識結果と、取得された更新後の論理構造モデルによる認識結果とが、一致するか否かを比較し、比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する。
【選択図】図１

Description

この発明は、画像認識装置、画像認識プログラムおよび画像認識方法に関する。

近年、業務の電子化に伴い、多くの電子化文書が利用されている。このため、紙の文書を電子化文書に変換する技術として、ＯＣＲ（Optical Character Reader、または、Optical Character Recognition）等の画像認識技術の重要性が増している。

ここで、かかる画像認識技術によって文書を認識するには、認識対象となる文書の論理構造に対応するように、一般論理構造モデルを設定しなければならない。例えば、新規取引先の登場により新規帳票を扱う場合には、新規の論理構造に対応するように一般論理構造モデルが更新される。

なお、特許文献１には、通信機器に接続されたシナリオ作成装置が、運用中の通信機器が実際に送受信している信号に基づいて、通信機器を試験するためのシナリオを作成する技術が開示されている。

特開２００６−３５２２９０号公報

ところで、上記した従来の技術では、一般論理構造モデルの更新に伴う不都合の発生を利用者に回避させることができないという課題があった。すなわち、一般論理構造モデルの更新が適切に行われないと、既存文書の認識が上手くいかなくなるといったおそれがあるが、このことに利用者が気づかずに運用を開始すると、トラブルの原因となりかねない。

そこで、この発明は、上記した従来技術の課題を解決するためになされたものであり、一般論理構造モデルの更新に伴う不都合の発生を利用者に回避させることが可能な画像認識装置、画像認識プログラムおよび画像認識方法を提供することを目的とする。

上述した課題を解決し、目的を達成するため、画像認識装置は、論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該論理構造に対応するように設定された論理構造モデルに基づいて当該論理要素各々を認識する画像認識装置であって、前記論理構造の前記画像について、前記論理構造モデルにて処理される情報を収集する収集手段と、新たな論理構造に対応するように前記論理構造モデルが新たな論理構造モデルに更新されると、前記収集手段によって収集された情報を当該更新後の論理構造モデルにて処理することで、更新前の論理構造モデルが対応する論理構造の画像について、当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得する更新後認識結果取得手段と、前記収集手段によって収集された情報が更新前の論理構造モデルにて処理された認識結果と、前記更新後認識結果取得手段によって取得された更新後の論理構造モデルによる認識結果とが、一致するか否かを比較する比較手段と、前記比較手段による比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する警告出力手段と、を備えたことを要件とする。

また、画像認識装置は、論理構造モデルに基づいて前記画像の論理要素各々を認識するにあたり、当該画像の文字列に関する情報と、当該画像のレイアウトに関する情報とを予め認識するものであって、前記収集手段は、前記論理構造モデルにて処理される情報として、予め認識された前記文字列に関する情報と前記レイアウトに関する情報とを収集し、前記更新後認識結果取得手段は、前記収集手段によって収集された前記文字列に関する情報と前記レイアウトに関する情報とを処理することで認識結果を取得することを要件とする。

また、画像認識装置の収集手段は、新たな論理構造に対応するように論理構造モデルが更新された際の当該新たな論理構造の画像について、前記情報を収集することを要件とする。

また、上述した課題を解決し、目的を達成するため、画像認識プログラムは、論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該論理構造に対応するように設定された論理構造モデルに基づいて当該論理要素各々を認識する方法をコンピュータに実行させる画像認識プログラムであって、前記論理構造の前記画像について、前記論理構造モデルにて処理される情報を収集する収集手順と、新たな論理構造に対応するように前記論理構造モデルが新たな論理構造モデルに更新されると、前記収集手順によって収集された情報を当該更新後の論理構造モデルにて処理することで、更新前の論理構造モデルが対応する論理構造の画像について、当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得する更新後認識結果取得手順と、前記収集手順によって収集された情報が更新前の論理構造モデルにて処理された認識結果と、前記更新後認識結果取得手順によって取得された更新後の論理構造モデルによる認識結果とが、一致するか否かを比較する比較手順と、前記比較手順による比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する警告出力手順と、をコンピュータに実行させることを要件とする。

また、上述した課題を解決し、目的を達成するため、画像認識方法は、論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該論理構造に対応するように設定された論理構造モデルに基づいて当該論理要素各々を認識する画像認識方法であって、前記論理構造の前記画像について、前記論理構造モデルにて処理される情報を収集する収集工程と、新たな論理構造に対応するように前記論理構造モデルが新たな論理構造モデルに更新されると、前記収集工程によって収集された情報を当該更新後の論理構造モデルにて処理することで、更新前の論理構造モデルが対応する論理構造の画像について、当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得する更新後認識結果取得工程と、前記収集工程によって収集された情報が更新前の論理構造モデルにて処理された認識結果と、前記更新後認識結果取得工程によって取得された更新後の論理構造モデルによる認識結果とが、一致するか否かを比較する比較工程と、前記比較工程による比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する警告出力工程と、を含んだことを要件とする。

開示の画像認識装置、画像認識プログラムおよび画像認識方法によれば、論理構造モデルの更新に伴う不都合の発生を利用者に回避させることが可能になる。

以下に添付図面を参照して、この発明に係る画像認識装置、画像認識プログラムおよび画像認識方法の実施例を詳細に説明する。なお、以下では、実施例で用いる主要な用語、実施例１に係る画像認識装置の概要および特徴、実施例１に係る画像認識装置の構成および処理の手順、実施例１の効果を順に説明し、続いて、他の実施例を説明する。

［用語の説明］
まず最初に、以下の実施例で用いる主要な用語を説明する。以下の実施例で用いる「画像」とは、所定の論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像のことであり、例えば、帳票画像のことである。ここで、帳票画像に、本人情報として、『名前』、『住所』および『電話番号』を記入させる項目があり、職場情報として、『住所』および『電話番号』を記入させる項目があり、複数の項目各々に文字列各々が記載されているとする。このような帳票画像において、「論理構造」とは、『本人情報』の下の階層に、『名前』、『住所』および『電話番号』があり、『職場情報』の下の階層に、『住所』および『電話番号』があり、『本人情報』の階層と『職場情報』の階層とが同じ階層である、といった構造のことをいう。また、『名前』、『住所』、『電話番号』等が、「論理構造」を構成する複数の「論理要素」各々のことである。言い換えると、「論理構造」や「論理要素」とは、例えば、帳票画像のフォーマットを作成する作成者によって当該帳票画像のフォーマットが作成される際に、（意識的か無意識的かに関わらず）複数の項目が形成する構造として「論理構造」が設定され、複数の項目各々が「論理要素」として設定されるものであるといえる。一方、画像認識装置が当該帳票画像について処理を行う際には、当該帳票画像において複数の項目が形成する構造を「論理構造」として扱い、複数の項目各々を「論理要素」として扱うことになる。なお、「画像」は、帳票画像に限られず、複数の質問各々に回答を記入させるアンケートの画像等、複数の項目各々に文字列各々が記載されている画像であれば、いずれでもよい。

ところで、実施例１に係る「画像認識装置」は、所定の論理構造に対応するように設定された「一般論理構造モデル」に基づいて、画像の論理要素各々を認識する。ここで、「一般論理構造モデル」とは、『本人情報』の下の階層に、『名前』、『住所』および『電話番号』があり、『職場情報』の下の階層に、『住所』および『電話番号』があり、『本人情報』の階層と『職場情報』の階層とが同じ階層である、といった構造に対応するように設定されたものである。また、当該「一般論理構造モデル」には、『本人情報』の下に『職場情報』が記載される、といった位置関係などが設定されることもある。

かかる「一般論理構造モデル」に基づいて、「画像認識装置」は、文字列各々と論理要素各々との対応を認識することで、画像の論理要素各々を認識する。例えば、「画像認識装置」は、帳票画像について、手書きで『特許太郎』と記載されている文字列を、ＯＣＲ等の画像認識技術を用いて『特許太郎』と認識し、また、文字列『特許太郎』が、「論理要素」の『名前』として記載されたものであることを、「一般論理構造モデル」に基づいて認識し、文字列『特許太郎』と論理要素『名前』との対応を認識することで、帳票画像の「論理要素」を認識する（なお、以下の実施例では、このような認識のことを、適宜、「論理構造認識」もしくは「論理構造を認識する」という）。

もっとも、「一般論理構造モデル」は、上記したように、所定の論理構造に対応するように設定されたものであって、あらゆる論理構造に対応するように設定されたものではない。したがって、対応すべき論理構造に変更があれば、「一般論理構造モデル」は、変更後の論理構造に対応するように更新されることになる。例えば、取引先が、雛形αに加えて雛形βも扱うようになると、雛形αに対応するように設定された一般論理構造モデルは、雛形βにも対応するように更新されることになる。しかしながら、このような場合に、一般論理構造モデルの更新が適切に行われないと、既存の雛形である雛形αの認識が上手くいかなくなるおそれがあり、このことに利用者が気づかずに運用を開始すると、トラブルの原因となりかねない。実施例１に係る「画像認識装置」は、一般論理構造モデルの更新に伴うこのような不都合の発生を利用者に回避させるものである。

［実施例１に係る画像認識装置の概要および特徴］
続いて、図１を用いて、実施例１に係る画像認識装置の概要および特徴を説明する。図１は、実施例１に係る画像認識装置の概要および特徴を説明するための図である。

実施例１に係る画像認識装置は、上記したように、所定の論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該所定の論理構造に対応するように設定された一般論理構造モデルに基づいて、当該論理要素各々を認識することを概要とし、一般論理構造モデルの更新に伴う不都合の発生を利用者に回避させることを主たる特徴とする。

この主たる特徴について簡単に説明すると、まず、実施例１に係る画像認識装置は、所定の論理構造の画像について、所定の一般論理構造モデルにて処理される情報を収集する。例えば、画像認識装置は、雛形αの帳票について、所定の一般論理構造モデル（更新前の一般論理構造モデル）にて処理される情報として、更新前の一般論理構造モデルに基づいて認識される場合の入力帳票画像と、当該入力帳票画像が更新前の一般論理構造モデルに基づいて認識された場合の認識結果とを、収集する（図１の（１）を参照）。

次に、画像認識装置は、新たな論理構造に対応するように所定の一般論理構造モデルが新たな一般論理構造モデル（更新後の一般論理構造モデル）に更新されると、収集した情報を更新後の一般論理構造モデルにて処理することで、所定の論理構造の画像について、更新後の一般論理構造モデルに基づいて認識した場合の認識結果を取得する。

例えば、画像認識装置は、雛形βに対応するように一般論理構造モデルが更新されると（図１の（２）を参照）、収集した入力帳票画像（雛形α）を更新後の一般論理構造モデルにて処理することで（図１の（３）を参照）、当該入力帳票画像について、更新後の一般論理構造モデルに基づいて認識した場合の認識結果を取得する（図１の（４）を参照）。

そして、画像認識装置は、収集した情報が更新前の一般論理構造モデルにて処理された認識結果と、更新後の一般論理構造モデルによる認識結果とが、一致するか否かを比較する。例えば、画像認識装置は、収集した認識結果と、更新後の一般論理構造モデルによる認識結果とが、一致するか否かを比較する（図１の（５）を参照）。

続いて、画像認識装置は、比較の結果が不一致である場合に、更新後の一般論理構造モデルについて警告することを示す警告情報を出力部に出力する。例えば、画像認識装置は、比較の結果が不一致である場合に、画像認識装置のディスプレイに警告情報を出力する（図１の（６）を参照）。

このようにして、実施例１に係る画像認識装置は、一般論理構造モデルの更新に伴う不都合の発生を利用者に回避させることが可能になる。すなわち、一般論理構造モデルが新たな一般論理構造モデルに更新されると、画像認識装置が、更新後の一般論理構造モデルが適切に更新されている否かを検証し、適切に更新されていない場合には、警告情報を出力することで利用者に通知するので、利用者は、一般論理構造モデルが適切に更新されていないことに気づくことができる。

［実施例１に係る画像認識装置の構成］
次に、図２〜１２を用いて、実施例１に係る画像認識装置を説明する。図２は、実施例１に係る画像認識装置の構成を示すブロック図であり、図３は、帳票画像記憶部を説明するための図であり、図４は、一般論理構造モデル記憶部を説明するための図であり、図５は、論理構造認識結果記憶部を説明するための図であり、図６は、テスト入力データ記憶部を説明するための図であり、図７〜９は、更新後一般論理構造モデル記憶部を説明するための図であり、図１０および１１は、論理構造認識結果比較結果記憶部を説明するための図であり、図１２は、警告出力部を説明するための図である。

図２に示すように、実施例１に係る画像認識装置１０は、入力部１１と、出力部１２と、入出力制御Ｉ／Ｆ部１３と、記憶部２０と、制御部３０とから構成される。ここで、図２の点線で囲む部分は、レイアウト定義体レス帳票自動認識部である。以下では、まず、『レイアウト定義体レス帳票自動認識』について、簡単に説明する。

［レイアウト定義体レス帳票自動認識について］
従来、紙の帳票をスキャンして得られた帳票画像データの中から必要なデータを抽出するには、予め、その帳票のレイアウトを定義しておく必要があった。つまり、どの領域に何が書かれているのかについて記述された『レイアウト定義体』を作成し、該当する領域に書かれた文字列を認識することによって、データの抽出が行われてきた。しかし、『レイアウト定義体』は人手で作成しなければならないことから、様々な帳票を扱う場合には、個々の『レイアウト定義体』を作成しなければならない結果、コストが高くなる。

このようなことから、実施例１に係る画像認識装置は、一般論理構造（もしくは、共通論理構造という）を用いた論理構造認識技術を用いている。この技術では、一般的な基本知識を『一般論理構造モデル』という形で保持し、『一般論理構造モデル』を参照しながら、帳票の論理構造（論理要素各々）を認識する。以下では、かかる技術を、『レイアウト定義体』を作成する必要がないという意味で、『レイアウト定義体レス帳票自動認識』と呼ぶ。

なお、『一般論理構造モデル』は、例えば、『氏名』は、『姓』および『名』の二つのデータから構成される、といった知識や、『氏名』は、『ふりがな』および『漢字』の二種類の方法がペアで記述されることがある、といった知識等、一般的な知識に関して記述されている。また、『一般論理構造モデル』は、一般に、各種帳票に対して用意される。例えば、納品書帳票、請求書帳票等の各帳票に、『一般論理構造モデル』が定義される。ここで、理想的には、例えば、納品書帳票に関する『一般論理構造モデル』には、全ての納品書帳票に対して正しく論理構造認識するだけの情報が含まれていなければならない。しかしながら、予め納品書帳票を全て収集し、その情報を『一般論理構造モデル』に盛り込むのは、困難である。したがって、通常の運用においては、その業務で使用する帳票に併せて、『一般論理構造モデル』をカスタマイズしていく。すなわち、その業務で扱う帳票に併せて、新しい見出し文字列やデータ構造を、追加したり修正したりする。この追加や修正が不適切であった場合に、過去に正しく認識できていた帳票が認識できなくなってしまうおそれがあるのである。

ところで、『レイアウト定義体レス帳票自動認識』は、帳票画像を入力とし、帳票論理構造（認識した論理要素各々）を出力とする。すなわち、『レイアウト定義体レス帳票自動認識』は、帳票画像が入力されると、当該帳票画像について、レイアウト解析と文字認識とを行い、レイアウト解析結果と文字認識結果とを用いて論理構造認識を行い、帳票論理構造を出力する。

実施例１に係る画像認識装置において、『レイアウト定義体レス帳票自動認識』には、二つのフェーズがある。まず、通常のレイアウト定義体レス帳票自動認識の運用フェーズ（フェーズ１）において、画像認識装置は、入力された帳票画像（電子画像やＰＤＦで表現された帳票画像）を論理構造解析し、帳票論理構造を出力する。また、フェーズ１において、画像認識装置は、帳票画像および当該帳票画像に対応する認識結果（帳票論理構造）の組を適宜収集する。一方、一般論理構造モデルの検証フェーズ（フェーズ２）において、画像認識装置は、通常の運用を停止し、一般論理構造モデルをメンテナンスする。具体的には、画像認識装置は、運用フェーズで収集した帳票画像に対し、更新後の一般論理構造モデルを用いてレイアウト定義体レス帳票自動認識を実行する。そして、画像認識装置は、更新後の一般論理構造モデルによる認識結果と、運用フェーズで収集された認識結果とを比較し、同一の結果が得られているかを確認する。同一でないとの結果が得られた場合には、画像認識装置は、一般論理構造モデルの更新が、従来入力されている帳票画像に対する論理構造認識結果に影響が出ている旨を警告する。

［各部について］
入力部１１は、帳票画像を入力する部である。具体的には、入力部１１は、画像認識装置１０の認識対象となる帳票画像を入力し、帳票画像記憶部２１に記憶させる。この場合、例えば、入力部１１は、スキャナ装置によって実現される。また、入力部１１は、画像認識装置１０の認識結果等を確認する利用者の操作を入力する部である。この場合、例えば、入力部１１は、マウスやキーボードなどによって実現される。

出力部１２は、画像認識装置１０の認識結果や、認識結果の比較結果等を出力する部である。具体的には、出力部１２は、後述する警告出力部３７によって出力される認識結果の比較結果（後述する論理構造認識結果比較結果記憶部２６に格納されている比較結果）を出力する。例えば、出力部１２は、ディスプレイや通信部などによって実現され、ディスプレイに警告情報を表示したり、警告情報を所定のメールアドレスに通信部を介して送信するなどする。なお、出力部１２は、特許請求の範囲に記載の「出力部」に対応する。

入出力制御Ｉ／Ｆ部１３は、入力部１１および出力部１２と、記憶部２０および制御部３０との間におけるデータ転送を制御する部である。

記憶部２０は、制御部３０による各種処理に用いるデータを記憶する部であり、特に本実施例に密接に関連するものとしては、図２に示すように、帳票画像記憶部２１と、一般論理構造モデル記憶部２２と、論理構造認識結果記憶部２３と、テスト入力データ記憶部２４と、更新後一般論理構造モデル記憶部２５と、論理構造認識結果比較結果記憶部２６とを備える。

帳票画像記憶部２１は、画像認識装置１０が認識対象とする帳票画像を記憶する部である。具体的には、帳票画像記憶部２１は、入力部１１（スキャナ装置など）によって入力された帳票画像を記憶し、記憶した帳票画像は、後述するレイアウト解析部３１、文字認識部３２、および論理構造認識部３３による処理に利用されるなどする。例えば、帳票画像記憶部２１は、図３に示すような帳票画像を記憶する。

図２に戻り、一般論理構造モデル記憶部２２は、画像認識装置１０が論理要素各々を認識する際に用いる一般論理構造モデルを記憶する部である。具体的には、一般論理構造モデル記憶部２２は、帳票画像記憶部２１に記憶されている帳票画像の論理要素各々を認識する際の一般論理構造モデルを記憶し、記憶した一般論理構造モデルは、後述する論理構造認識部３３による処理に利用されるなどする。なお、一般論理構造モデル記憶部２２は、画像認識装置１０を利用する利用者等によって予め準備された一般論理構造モデル（例えば、利用者等によって、論理構造や論理要素が適宜設計されている一般論理構造モデル）を記憶するなどする。

ここで、一般論理構造モデル記憶部２２が記憶する一般論理構造モデルについて具体的に例を挙げて説明すると、一般論理構造モデル記憶部２２は、一般論理構造モデルとして、例えば、図４に示す一般論理構造モデルを記憶する。図４に示す一般論理構造モデルは、図４の（Ａ）に示すように、概念的には木構造で表現されるものであり、実際には、図４の（Ｂ）に示すような表構造を記憶しているものである。

図４の（Ｂ）に示す表の各行には、論理要素の種類が記述されており、左から順に、論理要素のＩＤ番号、見出し文字列、意味、木構造の階層、木構造の親のＩＤ番号、論理要素間の位置関係、属性、およびデータ文字列の内容が記述されている。この内、見出し文字列は、図３の『購入申込書』を参照するとわかるように、帳票画像において項目の見出しとして記載されている文字列が記述されている。位置関係は、例えば、『姓』の項は、その右隣に『ＩＤ＝８』の名の項を持つことを意味するなど、論理要素間の相対的な位置が記述されたものである。属性は、木構造の中で実体を持つものを『ノード』、実体を持たず、意味的に関連した集合をまとめるためのものが『グループ』として記述されている。また、各ノードには、対応する文字列が満たすべき文字条件が記述されており、例えば、『電話番号』は、『数字』および『ハイフン（−）』というように、文字種が規定されている。

図２に戻り、論理構造認識結果記憶部２３は、帳票画像の論理要素各々を認識した結果を記憶する部である。具体的には、論理構造認識結果記憶部２３は、後述する論理構造認識部３３によって認識された結果を記憶し、記憶した認識結果は、後述するテスト入力データ収集部３４による処理に利用されるなどする。

ここで、論理構造認識結果記憶部２３が記憶する認識結果について具体的に例を挙げて説明すると、論理構造認識結果記憶部２３は、認識結果として、例えば、図５に示す認識結果を記憶する。図５に示す認識結果は、論理要素の種別ごとに、文字列を認識した認識結果と、当該文字列各々がどの論理要素として記載されたものであるのかを認識した認識結果とを示すものである。

論理要素各々について説明すると、例えば、『本人情報』としての『名前』の『姓』である論理要素は、文字列『特許』と認識されている。また、例えば、『申込情報』としての『コード』である論理要素は、文字列『16756400』等と認識されている。ここで、図４の（Ｂ）を参照するとわかるように、一般論理構造モデルにおいて、論理要素『コード』は、見出し文字列が『Ｎｏ．』である場合の数字列であることが記述されている。したがって、図３を参照するとわかるように、見出し文字列『Ｎｏ．』である場合の数字列である『16756400』等が、論理要素『コード』として認識されているのである。その他の論理要素についても同様である。

図２に戻り、テスト入力データ記憶部２４は、更新後の一般論理構造モデルを検証する際に用いるデータを記憶する部である。具体的には、テスト入力データ記憶部２４は、後述するテスト入力データ収集部３４によって収集されたテスト入力データを記憶し、記憶したテスト入力データは、後述するレイアウト解析部３１、文字認識部３２、および論理構造認識部３３による処理に利用されるなどする。

ここで、テスト入力データ記憶部２４が記憶する認識結果について具体的に例を挙げて説明すると、テスト入力データ記憶部２４は、テスト入力データとして、例えば、図６に示すデータを記憶する。図６に示すテスト入力データは、図６の（Ａ）が、入力された帳票画像であり、図６の（Ｂ）が、当該帳票画像の論理構造認識結果である。

図２に戻り、更新後一般論理構造モデル記憶部２５は、更新後の一般論理構造モデルを記憶する部である。具体的には、更新後一般論理構造モデル記憶部２５は、図示しない他のシステムで一般論理構造モデルが更新されると、当該システムから更新後の一般論理構造モデルを書き込んでもらうことで記憶し、記憶した更新後の一般論理構造モデルは、後述する論理構造認識部３３による処理に利用されるなどする。

ここで、一般論理構造モデルを更新する他のシステムについて説明する。他のシステムとは、例えば、一般論理構造モデル編集システムなるもので、入力された帳票画像に対して、更新前の一般論理構造モデルを用いてレイアウト定義体レス帳票自動認識を行い、その結果を利用者に提示することで、利用者が、意図した認識結果（あくまで、入力された帳票画像に関して意図した認識結果）を出力するように一般論理構造モデルを編集し、更新するシステムのことである。かかるシステムは、画像認識装置１０に備えられていてもよいし、実施例１のように、画像認識装置１０に接続する他のシステムとして備えられていてもよい。

一般論理構造モデル編集システムの利用シーンを想定すると、例えば、新たな取引先が参入したことで、新規帳票画像を取り扱わなければならなくなったという事態が想定される。このような場合、一般論理構造モデル編集システムの利用者は、新規帳票画像を入力し、当該新規帳票画像に関して意図した認識結果を出力するように、一般論理構造モデルを編集する。

例えば、図７に示す新規帳票画像を入力し、図８に示すように、一般論理構造モデルを編集する。ここで、図３と図７とを比較参照するとわかるように、図３の帳票画像においては、『お名前』の上に位置していた『受付番号』が、図７の新規帳票画像においては、『Ｎｏ．』の見出し文字列とともに帳票画像の右上に位置している。また、図３の帳票画像においては、『Ｎｏ．』の見出し文字列とともに記載されていた論理要素『コード』の数字列が、図７の新規帳票画像においては、見出し文字列はなく、数字列の列挙となっている。このような違いに対応するために、一般論理構造モデルは、図８に示すように更新されている。図８の（Ａ）に示すように、更新後の一般論理構造モデルは、その木構造にこそ変化はないものの、図８の（Ｂ）の網掛け部に示すように更新されている。具体的には、論理要素『受付番号』としての見出し文字列に『Ｎｏ．』を追加することで、図７の受付番号を認識しようとしている。また、見出し文字列はないが、『８桁数字列』である場合に、論理要素『コード』と認識することで、図７のコードを認識しようとしている。

一般論理構造モデル編集システムが、図８に示す更新後の一般論理構造モデルを用いて、図７に示す新規帳票画像を認識した場合の認識結果が、図９である。図９に示すように、見出し文字列『Ｎｏ．』とともに記載されている『２９』が、論理要素『受付番号』として認識されており、『８桁の数字列』が、論理要素『コード』として認識されている。一般論理構造モデル編集システムの利用者は、図９に示すように出力された認識結果を確認し、意図した認識結果であると判断して、一般論理構造モデルの編集を終了する。

実施例１においては、一般論理モデル編集システムにおいて一般論理モデルの編集が終了すると、更新後の一般論理構造モデルが、画像認識装置１０の更新後一般論理構造モデル記憶部２５に記憶されるものである。したがって、更新後一般論理構造モデル記憶部２５は、例えば、図８の（Ｂ）に示す更新後の一般論理構造モデルを記憶する。

図２に戻り、論理構造認識結果比較結果記憶部２６は、更新前の一般論理構造モデルにて処理された認識結果と、更新後の一般論理構造モデルにて処理された認識結果との比較結果を記憶する部である。具体的には、論理構造認識結果比較結果記憶部２６は、後述する一般論理構造モデル更新検出部３５によって更新後の一般論理構造モデルによる認識結果が取得された際に、当該認識結果を記憶するとともに、後述する論理構造認識結果比較部３６によって比較された際に比較結果を記憶し、記憶した比較結果は、後述する警告出力部３７による処理に利用されるなどする。

例えば、論理構造認識結果比較結果記憶部２６は、過去の帳票画像（図６の（Ａ））について、更新後の一般論理構造モデルに基づいて認識した場合の認識結果（図１０）を記憶するとともに、テスト入力データ記憶部２４に記憶された認識結果（図６の（Ｂ））と認識結果（図１０）との比較結果（図１１）を記憶する。

図２に戻り、制御部３０は、画像認識装置１０を制御して各種処理を実行する部であり、特に本実施例に密接に関連するものとしては、図２に示すように、レイアウト解析部３１と、文字認識部３２と、論理構造認識部３３と、テスト入力データ収集部３４と、一般論理構造モデル更新検出部３５と、論理構造認識結果比較部３６と、警告出力部３７とを備える。なお、テスト入力データ収集部３４は、特許請求の範囲に記載の「収集手段」に対応し、一般論理構造モデル更新検出部３５は、特許請求の範囲に記載の「更新後認識結果取得手段」に対応し、論理構造認識結果比較部３６は、特許請求の範囲に記載の「比較手段」に対応し、警告出力部３７は、特許請求の範囲に記載の「警告出力手段」に対応する。

レイアウト解析部３１は、帳票画像のレイアウトを解析する部である。具体的には、レイアウト解析部３１は、帳票画像記憶部２１に記憶された帳票画像のレイアウトを解析し、レイアウト解析結果は、後述する論理構造認識部３３による処理に利用されるなどする。例えば、レイアウト解析部３１は、帳票画像記憶部２１に記憶された帳票画像（図３など）を読み出し、表や罫線、テキストブロック、図、スタンプの存在箇所等を解析する。

文字認識部３２は、帳票画像の文字列を認識する部である。具体的には、文字認識部３２は、帳票画像記憶部２１に記憶された帳票画像の文字列を認識し、文字列認識結果は、後述する論理構造認識部３３による処理に利用されるなどする。例えば、文字認識部３２は、帳票画像記憶部２１に記憶された帳票画像（図３など）を読み出し、帳票画像上に存在する文字列を認識し、各文字に対応する文字コードを出力する。

論理構造認識部３３は、文字列各々がどの論理要素として記載されたものであるのかを認識する部である。具体的には、論理構造認識部３３は、レイアウト解析部３１による解析結果、文字認識部３２による認識結果、および一般論理構造モデル記憶部２２に記憶された一般論理構造モデル（図４の（Ｂ）など）を用いて、文字列各々がどの論理要素として記載されたものであるのかを認識し、認識結果を論理構造認識結果記憶部２３に記憶させる（図５など）。

テスト入力データ収集部３４は、帳票画像について、一般論理構造モデルにて処理される情報を収集する。具体的には、テスト入力データ収集部３４は、所定のタイミングで、帳票画像記憶部２１に記憶されている帳票画像と、当該帳票画像に対応する認識結果として論理構造認識結果記憶部２３に記憶されている認識結果との組を、テスト入力データ記憶部２４に記憶させる。なお、テスト入力データ収集部３４は、帳票画像と認識結果との組を収集するタイミングを、画像認識装置１０を利用する利用者等によって適宜設定されている（タイミングは、運用の形態に合わせるなどして適宜定められる）。

例えば、テスト入力データ収集部３４は、帳票画像記憶部２１と論理構造認識結果記憶部２３とを監視し、レイアウト定義体レス帳票自動認識の計算開始（レイアウト解析部２３１や文字認識部３２による処理の開始）および終了（論理構造認識部３３による処理の終了）を検出する。そして、テスト入力データ収集部３４は、図示しないカウンターを利用することで、レイアウト定義体レス帳票自動認識の動作回数を数える（カウンターは、レイアウト定義体レス帳票自動認識の動作回数を保持する）。動作回数が所定の条件を満たした時、テスト入力データ収集部３４は、その時に利用されていた帳票画像と論理構造認識結果との組を、テスト入力データ記憶部２４に記憶させる。ここで、所定の条件とは、例えば、レイアウト定義体レス帳票自動認識のｎ回の動作毎と設定する。また、カウンターをタイマーに変更し、ｎ秒ごとに記憶させる、カウンターおよびタイマーの両方を用いて、ｔ時間のアイドル状態の後、最初のｎ枚を記録させる等、情報を記憶させる（収集する）タイミングには、様々な条件が考えられ、運用の形態に適した条件であれば、いずれでもよい。なお、実施例１ではテスト入力データとして、帳票画像とその論理構造認識結果との組を収集する手法を説明したが、これに限られるものではなく、帳票画像と一般論理構造モデルとの組や、帳票画像のみなど、いずれでもよい。

一般論理構造モデル更新検出部３５は、一般論理構造モデルが更新されると、過去の帳票画像について、当該更新後の一般論理構造モデルに基づいて認識した場合の認識結果を取得する。具体的には、一般論理構造モデル更新検出部３５は、更新後一般論理構造モデル記憶部２５に更新後の一般論理構造モデルが書き込まれたことで一般論理構造モデルの更新を検出すると、テスト入力データ記憶部２４に記憶された過去の帳票画像（図６の（Ａ）など）について、更新後一般論理構造モデル記憶部２５に記憶された更新後の一般論理構造モデル（図８など）に基づいた認識（レイアウト解析部３１、文字認識部３２、および論理構造認識部３３による認識を再び実行）し、認識結果（図１０など）を論理構造認識結果比較結果記憶部２６に記憶させる。なお、一般論理構造モデルの更新の検出は、一般論理構造モデル編集システムから更新された旨を通知してもらってもよい。

ここで、図１０の認識結果をみるとわかるように、本来、論理要素『コード』として認識されるべき『８桁数字列』が、全て論理要素『受付番号』として認識されてしまっている。改めて更新後の一般論理構造モデル（図８の（Ｂ））をみると、見出し文字列として、『Ｎｏ．』が重複して登録されている。つまり、更新前の一般論理構造モデルで登録されていた論理要素『コード』としての『Ｎｏ．』と、更新後の一般論理構造モデルで登録されることになった論理要素『受付番号』としての『Ｎｏ．』である。このように、『Ｎｏ．』が重複して登録されてしまったがために、図３の帳票画像を図８の（Ｂ）の一般論理構造モデルに基づいて認識したところ、見出し文字列『Ｎｏ．』に続く８桁数字列が、全て、論理要素『受付番号』と誤認識されてしまったことがわかる。

このような更新は、不適切な更新であるが、更新前の一般論理構造モデル（もしくは、帳票画像）を熟知していない利用者が、一般論理構造モデルの更新を行おうとすると、このような不適切な更新が発生し得るおそれがある。

図２に戻り、論理構造認識結果比較部３６は、更新前の一般論理構造モデルによる認識結果と、更新後の一般論理構造モデルによる認識結果とが、一致するか否かを比較する。具体的には、論理構造認識結果比較部３６は、テスト入力データ記憶部２４に記憶された更新前の一般論理構造モデルによる認識結果を論理構造認識結果比較結果記憶部２６に記憶させ、論理構造認識結果比較結果記憶部２６に既に記憶されている更新後の一般論理構造モデルによる認識結果と比較する。

なお、論理構造認識結果比較部３６は、テスト入力データ記憶部２４に記憶されたテスト入力データが、帳票画像と一般論理構造モデルとの組の場合には、当該帳票画像と当該一般論理構造モデルとを用いて、当該帳票画像の更新前の一般論理構造モデルによる論理構造認識を行い、比較対象とする論理構造認識結果を得ればよい。また、論理構造認識結果比較部３６は、テスト入力データ記憶部２４に記憶されたテスト入力データが、帳票画像のみの場合には、一般論理構造モデル編集システムで編集された更新後の一般論理構造モデルを更新後の記憶部に受け付ける時などに、同時に、更新前の一般論理構造モデルも受け取るようにすればよい。そうすれば、上記したように、テスト入力データとして、帳票画像と一般論理構造モデルとの組を使った時と同じ状況になる。

警告出力部３７は、比較の結果が不一致である場合に、更新後の一般論理構造モデルについて警告することを示す警告情報を出力する。具体的には、警告出力部３７は、論理構造認識結果比較部３６による比較結果が不一致である場合に、警告情報を出力部１２に出力する。

例えば、警告出力部３７は、図１２に示すように、比較結果の異なる箇所（『受付番号』、『コード』）から、これと関連する一般論理構造モデルの記述箇所（『Ｎｏ．』など）を利用者に提示する。この場合、利用者は、一般論理構造モデルの修正すべき箇所を把握し、修正作業に取り掛かることができる（一般論理構造モデルの中で、比較結果の異なる箇所に関連する記述箇所は、例えば、比較結果の異なる領域にある見出し文字列の定義が、一般論理構造モデルのどこに記述されているかを探索することでわかる）。なお、警告出力部３７は、比較結果が異なった時の帳票画像を出力部１２に出力し、利用者に提示することで、一般論理構造モデルの修正時に注意すべき帳票画像を明示してもよい。あるいは、警告出力部３７は、警告情報を、一般論理構造モデル編集システムに送信するなどしてもよい。

［実施例１に係る画像認識装置による処理の手順］
次に、図１３を用いて、実施例１に係る画像認識装置による処理の手順を説明する。図１３は、実施例１に係る画像認識装置による処理の手順を示すフローチャート（運用フェーズ）であり、図１４は、実施例１に係る画像認識装置による処理の手順を示すフローチャート（検証フェーズ）である。

［運用フェーズ（図１３）］
まず、画像認識装置１０は、帳票画像の入力を受け付けると（ステップＳ１３０肯定）、帳票画像記憶部２１に記憶させ、次に、レイアウト解析部３１が、帳票画像記憶部２１に記憶された帳票画像のレイアウトを解析する（ステップＳ１３１）。

続いて、文字認識部３２が、帳票画像記憶部２１に記憶された帳票画像の文字列を認識し（ステップＳ１３２）、次に、論理構造認識部３３が、一般論理構造モデル記憶部２２から一般論理構造モデルを読み出し（ステップＳ１３３）、論理構造認識を実行し（ステップＳ１３４）、認識結果を論理構造認識結果記憶部２３に記憶させる（ステップＳ１３５）。

そして、テスト入力データ収集部３４が、レイアウト定義体レス帳票自動認識の動作回数をカウントし（ステップＳ１３６）、帳票自動認識回数が所定の条件を満たしたか否かを判定する（ステップＳ１３７）。所定の条件を満たしている場合には（ステップＳ１３７肯定）、テスト入力データ収集部３４は、今回のレイアウト定義体レス帳票自動認識に用いられた帳票画像および当該帳票画像の認識結果を、テスト入力データ記憶部２４に記憶させる（ステップＳ１３８）。一方、所定の条件を満たしていない場合には（ステップＳ１３７否定）、テスト入力データ収集部３４は、そのまま処理を終了する。

［検証フェーズ（図１３および図１４）］
まず、一般論理構造モデル更新検出部３５が、一般論理構造モデルの更新を検出すると（ステップＳ１４０肯定）、画像認識装置１０は、レイアウト定義体レス帳票自動認識を実行する（ステップＳ１４１）。

かかるステップＳ１４１は、図１３のステップＳ１３１からＳ１３５と同一であるが、処理を実行する部や対象となるデータなどが異なるので説明すると、まず、レイアウト解析部３１が、テスト入力データ記憶部２４に記憶された帳票画像のレイアウトを解析し（ステップＳ１３１）、続いて、文字認識部３２が、テスト入力データ記憶部２４に記憶された帳票画像の文字列を認識し（ステップＳ１３２）、次に、論理構造認識部３３が、更新後一般論理構造モデル記憶部２５から更新後の一般論理構造モデルを読み出し（ステップＳ１３３）、論理構造認識を実行し（ステップＳ１３４）、認識結果を論理構造認識結果比較結果記憶部２６に記憶させる（ステップＳ１３５）。

図１４に戻ると、続いて、論理構造認識結果比較部３６が、テスト入力データ記憶部２４に記憶された更新前の論理構造認識結果と、論理構造認識結果比較結果記憶部２６に記憶された更新後の論理構造認識結果とを比較する（ステップＳ１４２）。

そして、比較の結果が一致しない場合（ステップＳ１４３否定）、警告出力部３７が、警告情報を出力部１２に表示して（ステップＳ１４４）、処理を終了する。一方、比較の結果が一致する場合（ステップＳ１４３肯定）、画像認識装置１０は、テスト入力データ記憶部２４に記憶されている全ての過去の帳票画像に対して実行したか否かを判定し（ステップＳ１４５）、過去の帳票画像が残っている場合には（ステップＳ１４５否定）、ステップＳ１４１の処理に戻る。一方、残っていない場合には（ステップＳ１４５肯定）、処理を終了する。

［実施例１の効果］
上記してきたように、実施例１によれば、一般論理構造モデルの更新に伴う不都合の発生を利用者に回避させることが可能になる。

ところで、これまで実施例１においては、画像認識装置が、テスト入力データ用の帳票画像と論理構造認識結果との組を、運用フェーズにおいて適宜（所定のタイミングで）収集する手法について説明してきた。しかしながら、これに限られるものではなく、一般論理構造モデルが更新されたときに用いられていた帳票画像を収集する手法でもよい。そこで、以下では、実施例２として、一般論理構造モデルが更新されたときに用いられていた帳票画像を収集する手法について説明する。

利用者が一般論理構造モデルを更新するのは、新しく対応すべき帳票が登場した時や、正しく論理構造を認識できない帳票が見つかった時などであると考えられる。したがって、利用者が一般論理構造モデルを更新する時は、従来入力されてきた帳票画像とは動作状況が異なる帳票画像が入力された時である、と考えることができる。そこで、これらの帳票画像をテスト入力データとして収集すれば、網羅的に帳票画像のテストができるといえる。

図１５は、実施例２に係る画像認識装置におけるテスト入力データの収集タイミングについて説明するための図である。図１５の（Ａ）は、実施例１の手法を例示するものであり、図１５の（Ｂ）は、実施例２の手法を例示するものである。

図１５の（Ａ）および（Ｂ）に示すように、以下の説明においては、まず、雛形αに対応するように設定された一般論理構造モデルで、運用が開始されたものとする。この時の一般論理構造モデルは、雛形αの帳票ｘを入力として、一般論理構造モデル編集システムにおいて編集されたものであるとする。また、その後、図１５の（Ａ）に示すように、新しく対応すべき雛形βや、雛形γが登場した時に、一般論理構造モデルは、各々の雛形にも対応するように、帳票ｙや帳票ｚを入力として、一般論理構造モデル編集システムにおいて更新されたものであるとする。なお、帳票１〜５は、運用フェーズにおいて入力された帳票画像を意味する。帳票１〜３は、全て雛形αに対応するものであるが、一般論理構造モデルの更新後は、帳票４のように、雛形βに対応するものも、帳票５のように、雛形αに対応するものも、入力されている。

実施例１の手法によれば、画像認識装置は、所定のタイミングでテスト入力データとしての帳票画像を収集する。例えば、所定のタイミングが奇数回数というタイミングであったとすると、画像認識装置は、帳票１、帳票３、帳票５をテスト入力データとして収集する。すると、雛形γに対応する一般論理構造モデルに更新しなければならない際のテスト入力データが、いずれも、雛形αであることになってしまう。そうであるとすると、雛形γに対応するように設定された更新後の一般論理構造モデルに基づいて、雛形βが正しく認識されるか否か、検証することができない。

これに対し、実施例２の手法によれば、画像認識装置は、新たな帳票画像に対応するように一般論理構造モデルが更新された際の当該帳票画像を、テスト入力データとして収集する。例えば、図１５の（Ｂ）に示すように、画像認識装置は、帳票ｘ、帳票ｙをテスト入力データとして収集する。すると、雛形γに対応する一般論理構造モデルに更新しなければならない際のテスト入力データは、雛形αおよび雛形βであることになり、全ての帳票について検証することができる。

なお、一般論理構造モデルの検証は、全ての雛形で検証するのみならず、あらゆる帳票（実際の文字列が記載されている帳票）で検証する方が一般的には望ましい。したがって、全ての帳票をテスト入力データとして収集してもよく、結局、収集のタイミングは、運用の形態に併せるなどして適宜選択すればよい。

［実施例２の効果］
上記してきたように、実施例２によれば、テスト入力データを効率的かつ網羅的に収集することが可能になる。

これまで、実施例１および２では、テスト入力データとして、帳票画像のオリジナルを記憶していた。しかしながら、帳票画像の論理構造を認識するには、論理構造認識部に入力される直前の情報（中間処理データ）があればよいはずであり、オリジナルの帳票画像を記憶する必要はない。すなわち、図１６に示すように、帳票画像の代わりに、帳票画像を予め処理して得られたレイアウト解析結果（レイアウト解析部３１によって解析された結果）と、文字列認識結果（文字認識部３２によって認識された結果）とを、テスト入力データ記憶部２４に記憶させればよい。例えば、画像認識装置は、テスト入力データとして、レイアウト解析結果である「表や罫線、テキストブロック、図、スタンプの存在箇所等の解析結果」、および、文字列認識結果である「文字コード」を記憶すればよい。

このように、中間処理データを保持することで、再度の論理構造認識の計算時間が短くなり、また、帳票画像自体を保持するよりも、データサイズが小さくなりメモリ容量を削減することができる。

［実施例３の効果］
上記してきたように、実施例３によれば、論理構造認識の計算時間が短くなり、また、メモリ容量を削減することが可能になる。

［他の実施例］
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［システム構成等］
実施例１〜３においては、テスト入力データを収集する手段と、収集されたテスト入力データに基づいて検証する手段とが、同じ装置で実現される事例について説明してきたが、これに限られるものではない。すなわち、例えば、いわゆる運用フェーズで利用される画像認識装置が、レイアウト定義体レス帳票自動認識部とテスト入力データ収集部とテスト入力データ記憶部と通信部とを備え、いわゆる検証フェーズで利用される画像認識装置が、レイアウト定義体レス帳票自動認識部と更新後一般論理構造モデル記憶部と論理構造認識結果比較結果記憶部と一般論理構造モデル更新検出部と論理構造認識結果比較部と警告出力部と通信部とを備える構成であってもよい。この場合には、運用フェーズで利用される画像認識装置がテスト入力データ記憶部に格納したテスト入力データを、当該画像認識装置が通信部を介して検証フェーズで利用される画像認識装置に送信し、検証フェーズで利用される画像認識装置の通信部がこれを受信して、検証に利用するなどする。このような構成は、例えば、一方の画像認識装置が東京に設置され、他方の画像認識装置が大阪に設置されるなど、画像認識装置各々が遠隔地に設置される場合にも有効である。

また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順（例えば、図１３および１４など）、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示（図２など）の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［プログラム］
上記の実施例で説明した各種の処理は、予め用意されたプログラムやパーソナル・コンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１７を用いて、上記の実施例１と同様の機能を有する画像認識プログラムを実行するコンピュータの一例を説明する。図１７は、画像認識プログラムを実行するコンピュータを示す図である。

図１７に示すように、画像認識プログラム（コンピュータ）４０は、キャッシュ４１、ＲＡＭ４２、ＨＤＤ４３、ＲＯＭ４４およびＣＰＵ４５をバス４６で接続して構成される。ここで、ＲＯＭ４４には、上記の実施例１と同様の機能を発揮する画像認識プログラム、つまり、図１７に示すように、レイアウト解析プログラム４４ａ、文字認識プログラム４４ｂ、論理構造認識プログラム４４ｃ、テスト入力データ収集プログラム４４ｄ、一般論理構造モデル更新検出プログラム４４ｅ、論理構造認識結果比較プログラム４４ｆ、警告出力プログラム４４ｇが予め記憶されている。

そして、ＣＰＵ４５は、これらのプログラム４４ａ〜４４ｇを読み出して実行することで、図２２に示すように、各プログラム４４ａ〜４４ｇは、レイアウト解析プロセス４５ａ、文字認識プロセス４５ｂ、論理構造認識プロセス４５ｃ、テスト入力データ収集プロセス４５ｄ、一般論理構造モデル更新検出プロセス４５ｅ、論理構造認識結果比較プロセス４５ｆ、警告出力プロセス４５ｇとなる。なお、各プロセス４５ａ〜４５ｇは、図２に示した、レイアウト解析部３１、文字認識部３２、論理構造認識部３３、テスト入力データ収集部３４、一般論理構造モデル更新検出部３５、論理構造認識結果比較部３６、警告出力部３７に各々対応する。

また、ＨＤＤ４３には、図１７に示すように、帳票画像テーブル４３ａ、一般論理構造モデルテーブル４３ｂ、テスト入力データテーブル４３ｃ、更新後一般論理構造モデルテーブル４３ｄが設けられる。なお、各テーブル４３ａ〜４３ｄは、図２に示した、論理画像記憶部２１、一般論理構造モデル記憶部２２、テスト入力データ記憶部２４、更新後一般論理構造モデル記憶部２５に各々対応する。

ところで、上記した各プログラム４４ａ〜４４ｇについては、必ずしもＲＯＭ４４に記憶させておく必要はなく、例えば、コンピュータ４０に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＭＯディスク、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」、または、コンピュータ４０の内外に備えられるハードディスクドライブ（ＨＤＤ）などの「固定用の物理媒体」、さらには、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ４０に接続される「他のコンピュータ（またはサーバ）」に記憶させておき、コンピュータ４０がこれらからプログラムを読み出して実行するようにしてもよい。

以上のように、本発明に係る画像認識装置、画像認識プログラムおよび画像認識方法は、所定の論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該所定の論理構造に対応するように設定された一般論理構造モデルに基づいて、当該論理要素各々を認識することに有用であり、特に、一般論理構造モデルの更新に伴う不都合の発生を利用者に回避させることに適する。

実施例１に係る画像認識装置の概要および特徴を説明するための図である。実施例１に係る画像認識装置の構成を示すブロック図である。帳票画像記憶部を説明するための図である。一般論理構造モデル記憶部を説明するための図である。論理構造認識結果記憶部を説明するための図である。テスト入力データ記憶部を説明するための図である。更新後一般論理構造モデル記憶部を説明するための図である。更新後一般論理構造モデル記憶部を説明するための図である。更新後一般論理構造モデル記憶部を説明するための図である。論理構造認識結果比較結果記憶部を説明するための図である。論理構造認識結果比較結果記憶部を説明するための図である。警告出力部を説明するための図である。実施例１に係る画像認識装置による処理の手順を示すフローチャート（運用フェーズ）である。実施例１に係る画像認識装置による処理の手順を示すフローチャート（検証フェーズ）である。実施例２におけるテスト入力データの収集タイミングについて説明するための図である。実施例３に係る画像認識装置を説明するための図である。画像認識プログラムを実行するコンピュータを示す図である。

符号の説明

１０画像認識装置
１１入力部
１２出力部
１３入出力制御Ｉ／Ｆ部
２０記憶部
２１帳票画像記憶部
２２一般論理構造モデル記憶部
２３論理構造認識結果記憶部
２４テスト入力データ記憶部
２５更新後一般論理構造モデル記憶部
２６論理構造認識結果比較結果記憶部
３０制御部
３１レイアウト解析部
３２文字認識部
３３論理構造認識部
３４テスト入力データ収集部
３５一般論理構造モデル更新検出部
３６論理構造認識結果比較部
３７警告出力部

Claims

論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該論理構造に対応するように設定された論理構造モデルに基づいて当該論理要素各々を認識する画像認識装置であって、
前記論理構造の前記画像について、前記論理構造モデルにて処理される情報を収集する収集手段と、
新たな論理構造に対応するように前記論理構造モデルが新たな論理構造モデルに更新されると、前記収集手段によって収集された情報を当該更新後の論理構造モデルにて処理することで、更新前の論理構造モデルが対応する論理構造の画像について、当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得する更新後認識結果取得手段と、
前記収集手段によって収集された情報が更新前の論理構造モデルにて処理された認識結果と、前記更新後認識結果取得手段によって取得された更新後の論理構造モデルによる認識結果とが、一致するか否かを比較する比較手段と、
前記比較手段による比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する警告出力手段と、
を備えたことを特徴とする画像認識装置。
前記画像認識装置は、論理構造モデルに基づいて前記画像の論理要素各々を認識するにあたり、当該画像の文字列に関する情報と、当該画像のレイアウトに関する情報とを予め認識するものであって、
前記収集手段は、前記論理構造モデルにて処理される情報として、予め認識された前記文字列に関する情報と前記レイアウトに関する情報とを収集し、
前記更新後認識結果取得手段は、前記収集手段によって収集された前記文字列に関する情報と前記レイアウトに関する情報とを処理することで認識結果を取得することを特徴とする請求項１に記載の画像認識装置。
前記収集手段は、新たな論理構造に対応するように論理構造モデルが更新された際の当該新たな論理構造の画像について、前記情報を収集することを特徴とする請求項１または２に記載の画像認識装置。
論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該論理構造に対応するように設定された論理構造モデルに基づいて当該論理要素各々を認識する方法をコンピュータに実行させる画像認識プログラムであって、
前記論理構造の前記画像について、前記論理構造モデルにて処理される情報を収集する収集手順と、
新たな論理構造に対応するように前記論理構造モデルが新たな論理構造モデルに更新されると、前記収集手順によって収集された情報を当該更新後の論理構造モデルにて処理することで、更新前の論理構造モデルが対応する論理構造の画像について、当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得する更新後認識結果取得手順と、
前記収集手順によって収集された情報が更新前の論理構造モデルにて処理された認識結果と、前記更新後認識結果取得手順によって取得された更新後の論理構造モデルによる認識結果とが、一致するか否かを比較する比較手順と、
前記比較手順による比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する警告出力手順と、
をコンピュータに実行させることを特徴とする画像認識プログラム。
論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該論理構造に対応するように設定された論理構造モデルに基づいて当該論理要素各々を認識する画像認識方法であって、
前記論理構造の前記画像について、前記論理構造モデルにて処理される情報を収集する収集工程と、
新たな論理構造に対応するように前記論理構造モデルが新たな論理構造モデルに更新されると、前記収集工程によって収集された情報を当該更新後の論理構造モデルにて処理することで、更新前の論理構造モデルが対応する論理構造の画像について、当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得する更新後認識結果取得工程と、
前記収集工程によって収集された情報が更新前の論理構造モデルにて処理された認識結果と、前記更新後認識結果取得工程によって取得された更新後の論理構造モデルによる認識結果とが、一致するか否かを比較する比較工程と、
前記比較工程による比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する警告出力工程と、
を含んだことを特徴とする画像認識方法。
論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該論理構造に対応するように設定された論理構造モデルに基づいて当該論理要素各々を認識する画像認識装置であって、
新たな論理構造に対応するように前記論理構造モデルが新たな論理構造モデルに更新されると、当該論理構造の画像について収集された更新前の論理構造モデルにて処理される情報を当該更新後の論理構造モデルにて処理することで、更新前の論理構造モデルが対応する論理構造の画像について、当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得する更新後認識結果取得手段と、
収集された前記情報が更新前の論理構造モデルにて処理された認識結果と、前記更新後認識結果取得手段によって取得された更新後の論理構造モデルによる認識結果とが、一致するか否かを比較する比較手段と、
前記比較手段による比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する警告出力手段と、
を備えたことを特徴とする画像認識装置。