JP5253788B2 - 画像認識装置、画像認識プログラムおよび画像認識方法 - Google Patents

画像認識装置、画像認識プログラムおよび画像認識方法 Download PDF

Info

Publication number
JP5253788B2
JP5253788B2 JP2007284295A JP2007284295A JP5253788B2 JP 5253788 B2 JP5253788 B2 JP 5253788B2 JP 2007284295 A JP2007284295 A JP 2007284295A JP 2007284295 A JP2007284295 A JP 2007284295A JP 5253788 B2 JP5253788 B2 JP 5253788B2
Authority
JP
Japan
Prior art keywords
logical structure
image
structure model
updated
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007284295A
Other languages
English (en)
Other versions
JP2009110445A (ja
Inventor
勇作 藤井
克仁 藤本
浩明 武部
宏 田中
悦伸 堀田
明洋 皆川
憲秋 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007284295A priority Critical patent/JP5253788B2/ja
Priority to US12/258,896 priority patent/US8234254B2/en
Priority to CN2008101749820A priority patent/CN101425141B/zh
Publication of JP2009110445A publication Critical patent/JP2009110445A/ja
Application granted granted Critical
Publication of JP5253788B2 publication Critical patent/JP5253788B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Description

この発明は、画像認識装置、画像認識プログラムおよび画像認識方法に関する。
近年、業務の電子化に伴い、多くの電子化文書が利用されている。このため、紙の文書を電子化文書に変換する技術として、OCR(Optical Character Reader、または、Optical Character Recognition)等の画像認識技術の重要性が増している。
ここで、かかる画像認識技術によって文書を認識するには、認識対象となる文書の論理構造に対応するように、一般論理構造モデルを設定しなければならない。例えば、新規取引先の登場により新規帳票を扱う場合には、新規の論理構造に対応するように一般論理構造モデルが更新される。
なお、特許文献1には、通信機器に接続されたシナリオ作成装置が、運用中の通信機器が実際に送受信している信号に基づいて、通信機器を試験するためのシナリオを作成する技術が開示されている。
特開2006−352290号公報
ところで、上記した従来の技術では、一般論理構造モデルの更新に伴う不都合の発生を利用者に回避させることができないという課題があった。すなわち、一般論理構造モデルの更新が適切に行われないと、既存文書の認識が上手くいかなくなるといったおそれがあるが、このことに利用者が気づかずに運用を開始すると、トラブルの原因となりかねない。
そこで、この発明は、上記した従来技術の課題を解決するためになされたものであり、一般論理構造モデルの更新に伴う不都合の発生を利用者に回避させることが可能な画像認識装置、画像認識プログラムおよび画像認識方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、画像認識装置は、論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該論理構造に対応するように設定された論理構造モデルに基づいて当該論理要素各々を認識する画像認識装置であって、前記論理構造の前記画像について、前記論理構造モデルにて処理される情報を収集する収集手段と、新たな論理構造に対応するように前記論理構造モデルが新たな論理構造モデルに更新されると、前記収集手段によって収集された情報を当該更新後の論理構造モデルにて処理することで、更新前の論理構造モデルが対応する論理構造の画像について、当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得する更新後認識結果取得手段と、前記収集手段によって収集された情報が更新前の論理構造モデルにて処理された認識結果と、前記更新後認識結果取得手段によって取得された更新後の論理構造モデルによる認識結果とが、一致するか否かを比較する比較手段と、前記比較手段による比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する警告出力手段と、を備えたことを要件とする。
また、画像認識装置は、論理構造モデルに基づいて前記画像の論理要素各々を認識するにあたり、当該画像の文字列に関する情報と、当該画像のレイアウトに関する情報とを予め認識するものであって、前記収集手段は、前記論理構造モデルにて処理される情報として、予め認識された前記文字列に関する情報と前記レイアウトに関する情報とを収集し、前記更新後認識結果取得手段は、前記収集手段によって収集された前記文字列に関する情報と前記レイアウトに関する情報とを処理することで認識結果を取得することを要件とする。
また、画像認識装置の収集手段は、新たな論理構造に対応するように論理構造モデルが更新された際の当該新たな論理構造の画像について、前記情報を収集することを要件とする。
また、上述した課題を解決し、目的を達成するため、画像認識プログラムは、論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該論理構造に対応するように設定された論理構造モデルに基づいて当該論理要素各々を認識する方法をコンピュータに実行させる画像認識プログラムであって、前記論理構造の前記画像について、前記論理構造モデルにて処理される情報を収集する収集手順と、新たな論理構造に対応するように前記論理構造モデルが新たな論理構造モデルに更新されると、前記収集手順によって収集された情報を当該更新後の論理構造モデルにて処理することで、更新前の論理構造モデルが対応する論理構造の画像について、当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得する更新後認識結果取得手順と、前記収集手順によって収集された情報が更新前の論理構造モデルにて処理された認識結果と、前記更新後認識結果取得手順によって取得された更新後の論理構造モデルによる認識結果とが、一致するか否かを比較する比較手順と、前記比較手順による比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する警告出力手順と、をコンピュータに実行させることを要件とする。
また、上述した課題を解決し、目的を達成するため、画像認識方法は、論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該論理構造に対応するように設定された論理構造モデルに基づいて当該論理要素各々を認識する画像認識方法であって、前記論理構造の前記画像について、前記論理構造モデルにて処理される情報を収集する収集工程と、新たな論理構造に対応するように前記論理構造モデルが新たな論理構造モデルに更新されると、前記収集工程によって収集された情報を当該更新後の論理構造モデルにて処理することで、更新前の論理構造モデルが対応する論理構造の画像について、当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得する更新後認識結果取得工程と、前記収集工程によって収集された情報が更新前の論理構造モデルにて処理された認識結果と、前記更新後認識結果取得工程によって取得された更新後の論理構造モデルによる認識結果とが、一致するか否かを比較する比較工程と、前記比較工程による比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する警告出力工程と、を含んだことを要件とする。
開示の画像認識装置、画像認識プログラムおよび画像認識方法によれば、論理構造モデルの更新に伴う不都合の発生を利用者に回避させることが可能になる。
以下に添付図面を参照して、この発明に係る画像認識装置、画像認識プログラムおよび画像認識方法の実施例を詳細に説明する。なお、以下では、実施例で用いる主要な用語、実施例1に係る画像認識装置の概要および特徴、実施例1に係る画像認識装置の構成および処理の手順、実施例1の効果を順に説明し、続いて、他の実施例を説明する。
[用語の説明]
まず最初に、以下の実施例で用いる主要な用語を説明する。以下の実施例で用いる「画像」とは、所定の論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像のことであり、例えば、帳票画像のことである。ここで、帳票画像に、本人情報として、『名前』、『住所』および『電話番号』を記入させる項目があり、職場情報として、『住所』および『電話番号』を記入させる項目があり、複数の項目各々に文字列各々が記載されているとする。このような帳票画像において、「論理構造」とは、『本人情報』の下の階層に、『名前』、『住所』および『電話番号』があり、『職場情報』の下の階層に、『住所』および『電話番号』があり、『本人情報』の階層と『職場情報』の階層とが同じ階層である、といった構造のことをいう。また、『名前』、『住所』、『電話番号』等が、「論理構造」を構成する複数の「論理要素」各々のことである。言い換えると、「論理構造」や「論理要素」とは、例えば、帳票画像のフォーマットを作成する作成者によって当該帳票画像のフォーマットが作成される際に、(意識的か無意識的かに関わらず)複数の項目が形成する構造として「論理構造」が設定され、複数の項目各々が「論理要素」として設定されるものであるといえる。一方、画像認識装置が当該帳票画像について処理を行う際には、当該帳票画像において複数の項目が形成する構造を「論理構造」として扱い、複数の項目各々を「論理要素」として扱うことになる。なお、「画像」は、帳票画像に限られず、複数の質問各々に回答を記入させるアンケートの画像等、複数の項目各々に文字列各々が記載されている画像であれば、いずれでもよい。
ところで、実施例1に係る「画像認識装置」は、所定の論理構造に対応するように設定された「一般論理構造モデル」に基づいて、画像の論理要素各々を認識する。ここで、「一般論理構造モデル」とは、『本人情報』の下の階層に、『名前』、『住所』および『電話番号』があり、『職場情報』の下の階層に、『住所』および『電話番号』があり、『本人情報』の階層と『職場情報』の階層とが同じ階層である、といった構造に対応するように設定されたものである。また、当該「一般論理構造モデル」には、『本人情報』の下に『職場情報』が記載される、といった位置関係などが設定されることもある。
かかる「一般論理構造モデル」に基づいて、「画像認識装置」は、文字列各々と論理要素各々との対応を認識することで、画像の論理要素各々を認識する。例えば、「画像認識装置」は、帳票画像について、手書きで『特許 太郎』と記載されている文字列を、OCR等の画像認識技術を用いて『特許 太郎』と認識し、また、文字列『特許 太郎』が、「論理要素」の『名前』として記載されたものであることを、「一般論理構造モデル」に基づいて認識し、文字列『特許 太郎』と論理要素『名前』との対応を認識することで、帳票画像の「論理要素」を認識する(なお、以下の実施例では、このような認識のことを、適宜、「論理構造認識」もしくは「論理構造を認識する」という)。
もっとも、「一般論理構造モデル」は、上記したように、所定の論理構造に対応するように設定されたものであって、あらゆる論理構造に対応するように設定されたものではない。したがって、対応すべき論理構造に変更があれば、「一般論理構造モデル」は、変更後の論理構造に対応するように更新されることになる。例えば、取引先が、雛形αに加えて雛形βも扱うようになると、雛形αに対応するように設定された一般論理構造モデルは、雛形βにも対応するように更新されることになる。しかしながら、このような場合に、一般論理構造モデルの更新が適切に行われないと、既存の雛形である雛形αの認識が上手くいかなくなるおそれがあり、このことに利用者が気づかずに運用を開始すると、トラブルの原因となりかねない。実施例1に係る「画像認識装置」は、一般論理構造モデルの更新に伴うこのような不都合の発生を利用者に回避させるものである。
[実施例1に係る画像認識装置の概要および特徴]
続いて、図1を用いて、実施例1に係る画像認識装置の概要および特徴を説明する。図1は、実施例1に係る画像認識装置の概要および特徴を説明するための図である。
実施例1に係る画像認識装置は、上記したように、所定の論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該所定の論理構造に対応するように設定された一般論理構造モデルに基づいて、当該論理要素各々を認識することを概要とし、一般論理構造モデルの更新に伴う不都合の発生を利用者に回避させることを主たる特徴とする。
この主たる特徴について簡単に説明すると、まず、実施例1に係る画像認識装置は、所定の論理構造の画像について、所定の一般論理構造モデルにて処理される情報を収集する。例えば、画像認識装置は、雛形αの帳票について、所定の一般論理構造モデル(更新前の一般論理構造モデル)にて処理される情報として、更新前の一般論理構造モデルに基づいて認識される場合の入力帳票画像と、当該入力帳票画像が更新前の一般論理構造モデルに基づいて認識された場合の認識結果とを、収集する(図1の(1)を参照)。
次に、画像認識装置は、新たな論理構造に対応するように所定の一般論理構造モデルが新たな一般論理構造モデル(更新後の一般論理構造モデル)に更新されると、収集した情報を更新後の一般論理構造モデルにて処理することで、所定の論理構造の画像について、更新後の一般論理構造モデルに基づいて認識した場合の認識結果を取得する。
例えば、画像認識装置は、雛形βに対応するように一般論理構造モデルが更新されると(図1の(2)を参照)、収集した入力帳票画像(雛形α)を更新後の一般論理構造モデルにて処理することで(図1の(3)を参照)、当該入力帳票画像について、更新後の一般論理構造モデルに基づいて認識した場合の認識結果を取得する(図1の(4)を参照)。
そして、画像認識装置は、収集した情報が更新前の一般論理構造モデルにて処理された認識結果と、更新後の一般論理構造モデルによる認識結果とが、一致するか否かを比較する。例えば、画像認識装置は、収集した認識結果と、更新後の一般論理構造モデルによる認識結果とが、一致するか否かを比較する(図1の(5)を参照)。
続いて、画像認識装置は、比較の結果が不一致である場合に、更新後の一般論理構造モデルについて警告することを示す警告情報を出力部に出力する。例えば、画像認識装置は、比較の結果が不一致である場合に、画像認識装置のディスプレイに警告情報を出力する(図1の(6)を参照)。
このようにして、実施例1に係る画像認識装置は、一般論理構造モデルの更新に伴う不都合の発生を利用者に回避させることが可能になる。すなわち、一般論理構造モデルが新たな一般論理構造モデルに更新されると、画像認識装置が、更新後の一般論理構造モデルが適切に更新されている否かを検証し、適切に更新されていない場合には、警告情報を出力することで利用者に通知するので、利用者は、一般論理構造モデルが適切に更新されていないことに気づくことができる。
[実施例1に係る画像認識装置の構成]
次に、図2〜12を用いて、実施例1に係る画像認識装置を説明する。図2は、実施例1に係る画像認識装置の構成を示すブロック図であり、図3は、帳票画像記憶部を説明するための図であり、図4は、一般論理構造モデル記憶部を説明するための図であり、図5は、論理構造認識結果記憶部を説明するための図であり、図6は、テスト入力データ記憶部を説明するための図であり、図7〜9は、更新後一般論理構造モデル記憶部を説明するための図であり、図10および11は、論理構造認識結果比較結果記憶部を説明するための図であり、図12は、警告出力部を説明するための図である。
図2に示すように、実施例1に係る画像認識装置10は、入力部11と、出力部12と、入出力制御I/F部13と、記憶部20と、制御部30とから構成される。ここで、図2の点線で囲む部分は、レイアウト定義体レス帳票自動認識部である。以下では、まず、『レイアウト定義体レス帳票自動認識』について、簡単に説明する。
[レイアウト定義体レス帳票自動認識について]
従来、紙の帳票をスキャンして得られた帳票画像データの中から必要なデータを抽出するには、予め、その帳票のレイアウトを定義しておく必要があった。つまり、どの領域に何が書かれているのかについて記述された『レイアウト定義体』を作成し、該当する領域に書かれた文字列を認識することによって、データの抽出が行われてきた。しかし、『レイアウト定義体』は人手で作成しなければならないことから、様々な帳票を扱う場合には、個々の『レイアウト定義体』を作成しなければならない結果、コストが高くなる。
このようなことから、実施例1に係る画像認識装置は、一般論理構造(もしくは、共通論理構造という)を用いた論理構造認識技術を用いている。この技術では、一般的な基本知識を『一般論理構造モデル』という形で保持し、『一般論理構造モデル』を参照しながら、帳票の論理構造(論理要素各々)を認識する。以下では、かかる技術を、『レイアウト定義体』を作成する必要がないという意味で、『レイアウト定義体レス帳票自動認識』と呼ぶ。
なお、『一般論理構造モデル』は、例えば、『氏名』は、『姓』および『名』の二つのデータから構成される、といった知識や、『氏名』は、『ふりがな』および『漢字』の二種類の方法がペアで記述されることがある、といった知識等、一般的な知識に関して記述されている。また、『一般論理構造モデル』は、一般に、各種帳票に対して用意される。例えば、納品書帳票、請求書帳票等の各帳票に、『一般論理構造モデル』が定義される。ここで、理想的には、例えば、納品書帳票に関する『一般論理構造モデル』には、全ての納品書帳票に対して正しく論理構造認識するだけの情報が含まれていなければならない。しかしながら、予め納品書帳票を全て収集し、その情報を『一般論理構造モデル』に盛り込むのは、困難である。したがって、通常の運用においては、その業務で使用する帳票に併せて、『一般論理構造モデル』をカスタマイズしていく。すなわち、その業務で扱う帳票に併せて、新しい見出し文字列やデータ構造を、追加したり修正したりする。この追加や修正が不適切であった場合に、過去に正しく認識できていた帳票が認識できなくなってしまうおそれがあるのである。
ところで、『レイアウト定義体レス帳票自動認識』は、帳票画像を入力とし、帳票論理構造(認識した論理要素各々)を出力とする。すなわち、『レイアウト定義体レス帳票自動認識』は、帳票画像が入力されると、当該帳票画像について、レイアウト解析と文字認識とを行い、レイアウト解析結果と文字認識結果とを用いて論理構造認識を行い、帳票論理構造を出力する。
実施例1に係る画像認識装置において、『レイアウト定義体レス帳票自動認識』には、二つのフェーズがある。まず、通常のレイアウト定義体レス帳票自動認識の運用フェーズ(フェーズ1)において、画像認識装置は、入力された帳票画像(電子画像やPDFで表現された帳票画像)を論理構造解析し、帳票論理構造を出力する。また、フェーズ1において、画像認識装置は、帳票画像および当該帳票画像に対応する認識結果(帳票論理構造)の組を適宜収集する。一方、一般論理構造モデルの検証フェーズ(フェーズ2)において、画像認識装置は、通常の運用を停止し、一般論理構造モデルをメンテナンスする。具体的には、画像認識装置は、運用フェーズで収集した帳票画像に対し、更新後の一般論理構造モデルを用いてレイアウト定義体レス帳票自動認識を実行する。そして、画像認識装置は、更新後の一般論理構造モデルによる認識結果と、運用フェーズで収集された認識結果とを比較し、同一の結果が得られているかを確認する。同一でないとの結果が得られた場合には、画像認識装置は、一般論理構造モデルの更新が、従来入力されている帳票画像に対する論理構造認識結果に影響が出ている旨を警告する。
[各部について]
入力部11は、帳票画像を入力する部である。具体的には、入力部11は、画像認識装置10の認識対象となる帳票画像を入力し、帳票画像記憶部21に記憶させる。この場合、例えば、入力部11は、スキャナ装置によって実現される。また、入力部11は、画像認識装置10の認識結果等を確認する利用者の操作を入力する部である。この場合、例えば、入力部11は、マウスやキーボードなどによって実現される。
出力部12は、画像認識装置10の認識結果や、認識結果の比較結果等を出力する部である。具体的には、出力部12は、後述する警告出力部37によって出力される認識結果の比較結果(後述する論理構造認識結果比較結果記憶部26に格納されている比較結果)を出力する。例えば、出力部12は、ディスプレイや通信部などによって実現され、ディスプレイに警告情報を表示したり、警告情報を所定のメールアドレスに通信部を介して送信するなどする。なお、出力部12は、特許請求の範囲に記載の「出力部」に対応する。
入出力制御I/F部13は、入力部11および出力部12と、記憶部20および制御部30との間におけるデータ転送を制御する部である。
記憶部20は、制御部30による各種処理に用いるデータを記憶する部であり、特に本実施例に密接に関連するものとしては、図2に示すように、帳票画像記憶部21と、一般論理構造モデル記憶部22と、論理構造認識結果記憶部23と、テスト入力データ記憶部24と、更新後一般論理構造モデル記憶部25と、論理構造認識結果比較結果記憶部26とを備える。
帳票画像記憶部21は、画像認識装置10が認識対象とする帳票画像を記憶する部である。具体的には、帳票画像記憶部21は、入力部11(スキャナ装置など)によって入力された帳票画像を記憶し、記憶した帳票画像は、後述するレイアウト解析部31、文字認識部32、および論理構造認識部33による処理に利用されるなどする。例えば、帳票画像記憶部21は、図3に示すような帳票画像を記憶する。
図2に戻り、一般論理構造モデル記憶部22は、画像認識装置10が論理要素各々を認識する際に用いる一般論理構造モデルを記憶する部である。具体的には、一般論理構造モデル記憶部22は、帳票画像記憶部21に記憶されている帳票画像の論理要素各々を認識する際の一般論理構造モデルを記憶し、記憶した一般論理構造モデルは、後述する論理構造認識部33による処理に利用されるなどする。なお、一般論理構造モデル記憶部22は、画像認識装置10を利用する利用者等によって予め準備された一般論理構造モデル(例えば、利用者等によって、論理構造や論理要素が適宜設計されている一般論理構造モデル)を記憶するなどする。
ここで、一般論理構造モデル記憶部22が記憶する一般論理構造モデルについて具体的に例を挙げて説明すると、一般論理構造モデル記憶部22は、一般論理構造モデルとして、例えば、図4に示す一般論理構造モデルを記憶する。図4に示す一般論理構造モデルは、図4の(A)に示すように、概念的には木構造で表現されるものであり、実際には、図4の(B)に示すような表構造を記憶しているものである。
図4の(B)に示す表の各行には、論理要素の種類が記述されており、左から順に、論理要素のID番号、見出し文字列、意味、木構造の階層、木構造の親のID番号、論理要素間の位置関係、属性、およびデータ文字列の内容が記述されている。この内、見出し文字列は、図3の『購入申込書』を参照するとわかるように、帳票画像において項目の見出しとして記載されている文字列が記述されている。位置関係は、例えば、『姓』の項は、その右隣に『ID=8』の名の項を持つことを意味するなど、論理要素間の相対的な位置が記述されたものである。属性は、木構造の中で実体を持つものを『ノード』、実体を持たず、意味的に関連した集合をまとめるためのものが『グループ』として記述されている。また、各ノードには、対応する文字列が満たすべき文字条件が記述されており、例えば、『電話番号』は、『数字』および『ハイフン(−)』というように、文字種が規定されている。
図2に戻り、論理構造認識結果記憶部23は、帳票画像の論理要素各々を認識した結果を記憶する部である。具体的には、論理構造認識結果記憶部23は、後述する論理構造認識部33によって認識された結果を記憶し、記憶した認識結果は、後述するテスト入力データ収集部34による処理に利用されるなどする。
ここで、論理構造認識結果記憶部23が記憶する認識結果について具体的に例を挙げて説明すると、論理構造認識結果記憶部23は、認識結果として、例えば、図5に示す認識結果を記憶する。図5に示す認識結果は、論理要素の種別ごとに、文字列を認識した認識結果と、当該文字列各々がどの論理要素として記載されたものであるのかを認識した認識結果とを示すものである。
論理要素各々について説明すると、例えば、『本人情報』としての『名前』の『姓』である論理要素は、文字列『特許』と認識されている。また、例えば、『申込情報』としての『コード』である論理要素は、文字列『16756400』等と認識されている。ここで、図4の(B)を参照するとわかるように、一般論理構造モデルにおいて、論理要素『コード』は、見出し文字列が『No.』である場合の数字列であることが記述されている。したがって、図3を参照するとわかるように、見出し文字列『No.』である場合の数字列である『16756400』等が、論理要素『コード』として認識されているのである。その他の論理要素についても同様である。
図2に戻り、テスト入力データ記憶部24は、更新後の一般論理構造モデルを検証する際に用いるデータを記憶する部である。具体的には、テスト入力データ記憶部24は、後述するテスト入力データ収集部34によって収集されたテスト入力データを記憶し、記憶したテスト入力データは、後述するレイアウト解析部31、文字認識部32、および論理構造認識部33による処理に利用されるなどする。
ここで、テスト入力データ記憶部24が記憶する認識結果について具体的に例を挙げて説明すると、テスト入力データ記憶部24は、テスト入力データとして、例えば、図6に示すデータを記憶する。図6に示すテスト入力データは、図6の(A)が、入力された帳票画像であり、図6の(B)が、当該帳票画像の論理構造認識結果である。
図2に戻り、更新後一般論理構造モデル記憶部25は、更新後の一般論理構造モデルを記憶する部である。具体的には、更新後一般論理構造モデル記憶部25は、図示しない他のシステムで一般論理構造モデルが更新されると、当該システムから更新後の一般論理構造モデルを書き込んでもらうことで記憶し、記憶した更新後の一般論理構造モデルは、後述する論理構造認識部33による処理に利用されるなどする。
ここで、一般論理構造モデルを更新する他のシステムについて説明する。他のシステムとは、例えば、一般論理構造モデル編集システムなるもので、入力された帳票画像に対して、更新前の一般論理構造モデルを用いてレイアウト定義体レス帳票自動認識を行い、その結果を利用者に提示することで、利用者が、意図した認識結果(あくまで、入力された帳票画像に関して意図した認識結果)を出力するように一般論理構造モデルを編集し、更新するシステムのことである。かかるシステムは、画像認識装置10に備えられていてもよいし、実施例1のように、画像認識装置10に接続する他のシステムとして備えられていてもよい。
一般論理構造モデル編集システムの利用シーンを想定すると、例えば、新たな取引先が参入したことで、新規帳票画像を取り扱わなければならなくなったという事態が想定される。このような場合、一般論理構造モデル編集システムの利用者は、新規帳票画像を入力し、当該新規帳票画像に関して意図した認識結果を出力するように、一般論理構造モデルを編集する。
例えば、図7に示す新規帳票画像を入力し、図8に示すように、一般論理構造モデルを編集する。ここで、図3と図7とを比較参照するとわかるように、図3の帳票画像においては、『お名前』の上に位置していた『受付番号』が、図7の新規帳票画像においては、『No.』の見出し文字列とともに帳票画像の右上に位置している。また、図3の帳票画像においては、『No.』の見出し文字列とともに記載されていた論理要素『コード』の数字列が、図7の新規帳票画像においては、見出し文字列はなく、数字列の列挙となっている。このような違いに対応するために、一般論理構造モデルは、図8に示すように更新されている。図8の(A)に示すように、更新後の一般論理構造モデルは、その木構造にこそ変化はないものの、図8の(B)の網掛け部に示すように更新されている。具体的には、論理要素『受付番号』としての見出し文字列に『No.』を追加することで、図7の受付番号を認識しようとしている。また、見出し文字列はないが、『8桁数字列』である場合に、論理要素『コード』と認識することで、図7のコードを認識しようとしている。
一般論理構造モデル編集システムが、図8に示す更新後の一般論理構造モデルを用いて、図7に示す新規帳票画像を認識した場合の認識結果が、図9である。図9に示すように、見出し文字列『No.』とともに記載されている『29』が、論理要素『受付番号』として認識されており、『8桁の数字列』が、論理要素『コード』として認識されている。一般論理構造モデル編集システムの利用者は、図9に示すように出力された認識結果を確認し、意図した認識結果であると判断して、一般論理構造モデルの編集を終了する。
実施例1においては、一般論理モデル編集システムにおいて一般論理モデルの編集が終了すると、更新後の一般論理構造モデルが、画像認識装置10の更新後一般論理構造モデル記憶部25に記憶されるものである。したがって、更新後一般論理構造モデル記憶部25は、例えば、図8の(B)に示す更新後の一般論理構造モデルを記憶する。
図2に戻り、論理構造認識結果比較結果記憶部26は、更新前の一般論理構造モデルにて処理された認識結果と、更新後の一般論理構造モデルにて処理された認識結果との比較結果を記憶する部である。具体的には、論理構造認識結果比較結果記憶部26は、後述する一般論理構造モデル更新検出部35によって更新後の一般論理構造モデルによる認識結果が取得された際に、当該認識結果を記憶するとともに、後述する論理構造認識結果比較部36によって比較された際に比較結果を記憶し、記憶した比較結果は、後述する警告出力部37による処理に利用されるなどする。
例えば、論理構造認識結果比較結果記憶部26は、過去の帳票画像(図6の(A))について、更新後の一般論理構造モデルに基づいて認識した場合の認識結果(図10)を記憶するとともに、テスト入力データ記憶部24に記憶された認識結果(図6の(B))と認識結果(図10)との比較結果(図11)を記憶する。
図2に戻り、制御部30は、画像認識装置10を制御して各種処理を実行する部であり、特に本実施例に密接に関連するものとしては、図2に示すように、レイアウト解析部31と、文字認識部32と、論理構造認識部33と、テスト入力データ収集部34と、一般論理構造モデル更新検出部35と、論理構造認識結果比較部36と、警告出力部37とを備える。なお、テスト入力データ収集部34は、特許請求の範囲に記載の「収集手段」に対応し、一般論理構造モデル更新検出部35は、特許請求の範囲に記載の「更新後認識結果取得手段」に対応し、論理構造認識結果比較部36は、特許請求の範囲に記載の「比較手段」に対応し、警告出力部37は、特許請求の範囲に記載の「警告出力手段」に対応する。
レイアウト解析部31は、帳票画像のレイアウトを解析する部である。具体的には、レイアウト解析部31は、帳票画像記憶部21に記憶された帳票画像のレイアウトを解析し、レイアウト解析結果は、後述する論理構造認識部33による処理に利用されるなどする。例えば、レイアウト解析部31は、帳票画像記憶部21に記憶された帳票画像(図3など)を読み出し、表や罫線、テキストブロック、図、スタンプの存在箇所等を解析する。
文字認識部32は、帳票画像の文字列を認識する部である。具体的には、文字認識部32は、帳票画像記憶部21に記憶された帳票画像の文字列を認識し、文字列認識結果は、後述する論理構造認識部33による処理に利用されるなどする。例えば、文字認識部32は、帳票画像記憶部21に記憶された帳票画像(図3など)を読み出し、帳票画像上に存在する文字列を認識し、各文字に対応する文字コードを出力する。
論理構造認識部33は、文字列各々がどの論理要素として記載されたものであるのかを認識する部である。具体的には、論理構造認識部33は、レイアウト解析部31による解析結果、文字認識部32による認識結果、および一般論理構造モデル記憶部22に記憶された一般論理構造モデル(図4の(B)など)を用いて、文字列各々がどの論理要素として記載されたものであるのかを認識し、認識結果を論理構造認識結果記憶部23に記憶させる(図5など)。
テスト入力データ収集部34は、帳票画像について、一般論理構造モデルにて処理される情報を収集する。具体的には、テスト入力データ収集部34は、所定のタイミングで、帳票画像記憶部21に記憶されている帳票画像と、当該帳票画像に対応する認識結果として論理構造認識結果記憶部23に記憶されている認識結果との組を、テスト入力データ記憶部24に記憶させる。なお、テスト入力データ収集部34は、帳票画像と認識結果との組を収集するタイミングを、画像認識装置10を利用する利用者等によって適宜設定されている(タイミングは、運用の形態に合わせるなどして適宜定められる)。
例えば、テスト入力データ収集部34は、帳票画像記憶部21と論理構造認識結果記憶部23とを監視し、レイアウト定義体レス帳票自動認識の計算開始(レイアウト解析部231や文字認識部32による処理の開始)および終了(論理構造認識部33による処理の終了)を検出する。そして、テスト入力データ収集部34は、図示しないカウンターを利用することで、レイアウト定義体レス帳票自動認識の動作回数を数える(カウンターは、レイアウト定義体レス帳票自動認識の動作回数を保持する)。動作回数が所定の条件を満たした時、テスト入力データ収集部34は、その時に利用されていた帳票画像と論理構造認識結果との組を、テスト入力データ記憶部24に記憶させる。ここで、所定の条件とは、例えば、レイアウト定義体レス帳票自動認識のn回の動作毎と設定する。また、カウンターをタイマーに変更し、n秒ごとに記憶させる、カウンターおよびタイマーの両方を用いて、t時間のアイドル状態の後、最初のn枚を記録させる等、情報を記憶させる(収集する)タイミングには、様々な条件が考えられ、運用の形態に適した条件であれば、いずれでもよい。なお、実施例1ではテスト入力データとして、帳票画像とその論理構造認識結果との組を収集する手法を説明したが、これに限られるものではなく、帳票画像と一般論理構造モデルとの組や、帳票画像のみなど、いずれでもよい。
一般論理構造モデル更新検出部35は、一般論理構造モデルが更新されると、過去の帳票画像について、当該更新後の一般論理構造モデルに基づいて認識した場合の認識結果を取得する。具体的には、一般論理構造モデル更新検出部35は、更新後一般論理構造モデル記憶部25に更新後の一般論理構造モデルが書き込まれたことで一般論理構造モデルの更新を検出すると、テスト入力データ記憶部24に記憶された過去の帳票画像(図6の(A)など)について、更新後一般論理構造モデル記憶部25に記憶された更新後の一般論理構造モデル(図8など)に基づいた認識(レイアウト解析部31、文字認識部32、および論理構造認識部33による認識を再び実行)し、認識結果(図10など)を論理構造認識結果比較結果記憶部26に記憶させる。なお、一般論理構造モデルの更新の検出は、一般論理構造モデル編集システムから更新された旨を通知してもらってもよい。
ここで、図10の認識結果をみるとわかるように、本来、論理要素『コード』として認識されるべき『8桁数字列』が、全て論理要素『受付番号』として認識されてしまっている。改めて更新後の一般論理構造モデル(図8の(B))をみると、見出し文字列として、『No.』が重複して登録されている。つまり、更新前の一般論理構造モデルで登録されていた論理要素『コード』としての『No.』と、更新後の一般論理構造モデルで登録されることになった論理要素『受付番号』としての『No.』である。このように、『No.』が重複して登録されてしまったがために、図3の帳票画像を図8の(B)の一般論理構造モデルに基づいて認識したところ、見出し文字列『No.』に続く8桁数字列が、全て、論理要素『受付番号』と誤認識されてしまったことがわかる。
このような更新は、不適切な更新であるが、更新前の一般論理構造モデル(もしくは、帳票画像)を熟知していない利用者が、一般論理構造モデルの更新を行おうとすると、このような不適切な更新が発生し得るおそれがある。
図2に戻り、論理構造認識結果比較部36は、更新前の一般論理構造モデルによる認識結果と、更新後の一般論理構造モデルによる認識結果とが、一致するか否かを比較する。具体的には、論理構造認識結果比較部36は、テスト入力データ記憶部24に記憶された更新前の一般論理構造モデルによる認識結果を論理構造認識結果比較結果記憶部26に記憶させ、論理構造認識結果比較結果記憶部26に既に記憶されている更新後の一般論理構造モデルによる認識結果と比較する。
なお、論理構造認識結果比較部36は、テスト入力データ記憶部24に記憶されたテスト入力データが、帳票画像と一般論理構造モデルとの組の場合には、当該帳票画像と当該一般論理構造モデルとを用いて、当該帳票画像の更新前の一般論理構造モデルによる論理構造認識を行い、比較対象とする論理構造認識結果を得ればよい。また、論理構造認識結果比較部36は、テスト入力データ記憶部24に記憶されたテスト入力データが、帳票画像のみの場合には、一般論理構造モデル編集システムで編集された更新後の一般論理構造モデルを更新後の記憶部に受け付ける時などに、同時に、更新前の一般論理構造モデルも受け取るようにすればよい。そうすれば、上記したように、テスト入力データとして、帳票画像と一般論理構造モデルとの組を使った時と同じ状況になる。
警告出力部37は、比較の結果が不一致である場合に、更新後の一般論理構造モデルについて警告することを示す警告情報を出力する。具体的には、警告出力部37は、論理構造認識結果比較部36による比較結果が不一致である場合に、警告情報を出力部12に出力する。
例えば、警告出力部37は、図12に示すように、比較結果の異なる箇所(『受付番号』、『コード』)から、これと関連する一般論理構造モデルの記述箇所(『No.』など)を利用者に提示する。この場合、利用者は、一般論理構造モデルの修正すべき箇所を把握し、修正作業に取り掛かることができる(一般論理構造モデルの中で、比較結果の異なる箇所に関連する記述箇所は、例えば、比較結果の異なる領域にある見出し文字列の定義が、一般論理構造モデルのどこに記述されているかを探索することでわかる)。なお、警告出力部37は、比較結果が異なった時の帳票画像を出力部12に出力し、利用者に提示することで、一般論理構造モデルの修正時に注意すべき帳票画像を明示してもよい。あるいは、警告出力部37は、警告情報を、一般論理構造モデル編集システムに送信するなどしてもよい。
[実施例1に係る画像認識装置による処理の手順]
次に、図13を用いて、実施例1に係る画像認識装置による処理の手順を説明する。図13は、実施例1に係る画像認識装置による処理の手順を示すフローチャート(運用フェーズ)であり、図14は、実施例1に係る画像認識装置による処理の手順を示すフローチャート(検証フェーズ)である。
[運用フェーズ(図13)]
まず、画像認識装置10は、帳票画像の入力を受け付けると(ステップS130肯定)、帳票画像記憶部21に記憶させ、次に、レイアウト解析部31が、帳票画像記憶部21に記憶された帳票画像のレイアウトを解析する(ステップS131)。
続いて、文字認識部32が、帳票画像記憶部21に記憶された帳票画像の文字列を認識し(ステップS132)、次に、論理構造認識部33が、一般論理構造モデル記憶部22から一般論理構造モデルを読み出し(ステップS133)、論理構造認識を実行し(ステップS134)、認識結果を論理構造認識結果記憶部23に記憶させる(ステップS135)。
そして、テスト入力データ収集部34が、レイアウト定義体レス帳票自動認識の動作回数をカウントし(ステップS136)、帳票自動認識回数が所定の条件を満たしたか否かを判定する(ステップS137)。所定の条件を満たしている場合には(ステップS137肯定)、テスト入力データ収集部34は、今回のレイアウト定義体レス帳票自動認識に用いられた帳票画像および当該帳票画像の認識結果を、テスト入力データ記憶部24に記憶させる(ステップS138)。一方、所定の条件を満たしていない場合には(ステップS137否定)、テスト入力データ収集部34は、そのまま処理を終了する。
[検証フェーズ(図13および図14)]
まず、一般論理構造モデル更新検出部35が、一般論理構造モデルの更新を検出すると(ステップS140肯定)、画像認識装置10は、レイアウト定義体レス帳票自動認識を実行する(ステップS141)。
かかるステップS141は、図13のステップS131からS135と同一であるが、処理を実行する部や対象となるデータなどが異なるので説明すると、まず、レイアウト解析部31が、テスト入力データ記憶部24に記憶された帳票画像のレイアウトを解析し(ステップS131)、続いて、文字認識部32が、テスト入力データ記憶部24に記憶された帳票画像の文字列を認識し(ステップS132)、次に、論理構造認識部33が、更新後一般論理構造モデル記憶部25から更新後の一般論理構造モデルを読み出し(ステップS133)、論理構造認識を実行し(ステップS134)、認識結果を論理構造認識結果比較結果記憶部26に記憶させる(ステップS135)。
図14に戻ると、続いて、論理構造認識結果比較部36が、テスト入力データ記憶部24に記憶された更新前の論理構造認識結果と、論理構造認識結果比較結果記憶部26に記憶された更新後の論理構造認識結果とを比較する(ステップS142)。
そして、比較の結果が一致しない場合(ステップS143否定)、警告出力部37が、警告情報を出力部12に表示して(ステップS144)、処理を終了する。一方、比較の結果が一致する場合(ステップS143肯定)、画像認識装置10は、テスト入力データ記憶部24に記憶されている全ての過去の帳票画像に対して実行したか否かを判定し(ステップS145)、過去の帳票画像が残っている場合には(ステップS145否定)、ステップS141の処理に戻る。一方、残っていない場合には(ステップS145肯定)、処理を終了する。
[実施例1の効果]
上記してきたように、実施例1によれば、一般論理構造モデルの更新に伴う不都合の発生を利用者に回避させることが可能になる。
ところで、これまで実施例1においては、画像認識装置が、テスト入力データ用の帳票画像と論理構造認識結果との組を、運用フェーズにおいて適宜(所定のタイミングで)収集する手法について説明してきた。しかしながら、これに限られるものではなく、一般論理構造モデルが更新されたときに用いられていた帳票画像を収集する手法でもよい。そこで、以下では、実施例2として、一般論理構造モデルが更新されたときに用いられていた帳票画像を収集する手法について説明する。
利用者が一般論理構造モデルを更新するのは、新しく対応すべき帳票が登場した時や、正しく論理構造を認識できない帳票が見つかった時などであると考えられる。したがって、利用者が一般論理構造モデルを更新する時は、従来入力されてきた帳票画像とは動作状況が異なる帳票画像が入力された時である、と考えることができる。そこで、これらの帳票画像をテスト入力データとして収集すれば、網羅的に帳票画像のテストができるといえる。
図15は、実施例2に係る画像認識装置におけるテスト入力データの収集タイミングについて説明するための図である。図15の(A)は、実施例1の手法を例示するものであり、図15の(B)は、実施例2の手法を例示するものである。
図15の(A)および(B)に示すように、以下の説明においては、まず、雛形αに対応するように設定された一般論理構造モデルで、運用が開始されたものとする。この時の一般論理構造モデルは、雛形αの帳票xを入力として、一般論理構造モデル編集システムにおいて編集されたものであるとする。また、その後、図15の(A)に示すように、新しく対応すべき雛形βや、雛形γが登場した時に、一般論理構造モデルは、各々の雛形にも対応するように、帳票yや帳票zを入力として、一般論理構造モデル編集システムにおいて更新されたものであるとする。なお、帳票1〜5は、運用フェーズにおいて入力された帳票画像を意味する。帳票1〜3は、全て雛形αに対応するものであるが、一般論理構造モデルの更新後は、帳票4のように、雛形βに対応するものも、帳票5のように、雛形αに対応するものも、入力されている。
実施例1の手法によれば、画像認識装置は、所定のタイミングでテスト入力データとしての帳票画像を収集する。例えば、所定のタイミングが奇数回数というタイミングであったとすると、画像認識装置は、帳票1、帳票3、帳票5をテスト入力データとして収集する。すると、雛形γに対応する一般論理構造モデルに更新しなければならない際のテスト入力データが、いずれも、雛形αであることになってしまう。そうであるとすると、雛形γに対応するように設定された更新後の一般論理構造モデルに基づいて、雛形βが正しく認識されるか否か、検証することができない。
これに対し、実施例2の手法によれば、画像認識装置は、新たな帳票画像に対応するように一般論理構造モデルが更新された際の当該帳票画像を、テスト入力データとして収集する。例えば、図15の(B)に示すように、画像認識装置は、帳票x、帳票yをテスト入力データとして収集する。すると、雛形γに対応する一般論理構造モデルに更新しなければならない際のテスト入力データは、雛形αおよび雛形βであることになり、全ての帳票について検証することができる。
なお、一般論理構造モデルの検証は、全ての雛形で検証するのみならず、あらゆる帳票(実際の文字列が記載されている帳票)で検証する方が一般的には望ましい。したがって、全ての帳票をテスト入力データとして収集してもよく、結局、収集のタイミングは、運用の形態に併せるなどして適宜選択すればよい。
[実施例2の効果]
上記してきたように、実施例2によれば、テスト入力データを効率的かつ網羅的に収集することが可能になる。
これまで、実施例1および2では、テスト入力データとして、帳票画像のオリジナルを記憶していた。しかしながら、帳票画像の論理構造を認識するには、論理構造認識部に入力される直前の情報(中間処理データ)があればよいはずであり、オリジナルの帳票画像を記憶する必要はない。すなわち、図16に示すように、帳票画像の代わりに、帳票画像を予め処理して得られたレイアウト解析結果(レイアウト解析部31によって解析された結果)と、文字列認識結果(文字認識部32によって認識された結果)とを、テスト入力データ記憶部24に記憶させればよい。例えば、画像認識装置は、テスト入力データとして、レイアウト解析結果である「表や罫線、テキストブロック、図、スタンプの存在箇所等の解析結果」、および、文字列認識結果である「文字コード」を記憶すればよい。
このように、中間処理データを保持することで、再度の論理構造認識の計算時間が短くなり、また、帳票画像自体を保持するよりも、データサイズが小さくなりメモリ容量を削減することができる。
[実施例3の効果]
上記してきたように、実施例3によれば、論理構造認識の計算時間が短くなり、また、メモリ容量を削減することが可能になる。
[他の実施例]
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[システム構成等]
実施例1〜3においては、テスト入力データを収集する手段と、収集されたテスト入力データに基づいて検証する手段とが、同じ装置で実現される事例について説明してきたが、これに限られるものではない。すなわち、例えば、いわゆる運用フェーズで利用される画像認識装置が、レイアウト定義体レス帳票自動認識部とテスト入力データ収集部とテスト入力データ記憶部と通信部とを備え、いわゆる検証フェーズで利用される画像認識装置が、レイアウト定義体レス帳票自動認識部と更新後一般論理構造モデル記憶部と論理構造認識結果比較結果記憶部と一般論理構造モデル更新検出部と論理構造認識結果比較部と警告出力部と通信部とを備える構成であってもよい。この場合には、運用フェーズで利用される画像認識装置がテスト入力データ記憶部に格納したテスト入力データを、当該画像認識装置が通信部を介して検証フェーズで利用される画像認識装置に送信し、検証フェーズで利用される画像認識装置の通信部がこれを受信して、検証に利用するなどする。このような構成は、例えば、一方の画像認識装置が東京に設置され、他方の画像認識装置が大阪に設置されるなど、画像認識装置各々が遠隔地に設置される場合にも有効である。
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順(例えば、図13および14など)、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示(図2など)の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[プログラム]
上記の実施例で説明した各種の処理は、予め用意されたプログラムやパーソナル・コンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図17を用いて、上記の実施例1と同様の機能を有する画像認識プログラムを実行するコンピュータの一例を説明する。図17は、画像認識プログラムを実行するコンピュータを示す図である。
図17に示すように、画像認識プログラム(コンピュータ)40は、キャッシュ41、RAM42、HDD43、ROM44およびCPU45をバス46で接続して構成される。ここで、ROM44には、上記の実施例1と同様の機能を発揮する画像認識プログラム、つまり、図17に示すように、レイアウト解析プログラム44a、文字認識プログラム44b、論理構造認識プログラム44c、テスト入力データ収集プログラム44d、一般論理構造モデル更新検出プログラム44e、論理構造認識結果比較プログラム44f、警告出力プログラム44gが予め記憶されている。
そして、CPU45は、これらのプログラム44a〜44gを読み出して実行することで、図22に示すように、各プログラム44a〜44gは、レイアウト解析プロセス45a、文字認識プロセス45b、論理構造認識プロセス45c、テスト入力データ収集プロセス45d、一般論理構造モデル更新検出プロセス45e、論理構造認識結果比較プロセス45f、警告出力プロセス45gとなる。なお、各プロセス45a〜45gは、図2に示した、レイアウト解析部31、文字認識部32、論理構造認識部33、テスト入力データ収集部34、一般論理構造モデル更新検出部35、論理構造認識結果比較部36、警告出力部37に各々対応する。
また、HDD43には、図17に示すように、帳票画像テーブル43a、一般論理構造モデルテーブル43b、テスト入力データテーブル43c、更新後一般論理構造モデルテーブル43dが設けられる。なお、各テーブル43a〜43dは、図2に示した、論理画像記憶部21、一般論理構造モデル記憶部22、テスト入力データ記憶部24、更新後一般論理構造モデル記憶部25に各々対応する。
ところで、上記した各プログラム44a〜44gについては、必ずしもROM44に記憶させておく必要はなく、例えば、コンピュータ40に挿入されるフレキシブルディスク(FD)、CD−ROM、MOディスク、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、または、コンピュータ40の内外に備えられるハードディスクドライブ(HDD)などの「固定用の物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ40に接続される「他のコンピュータ(またはサーバ)」に記憶させておき、コンピュータ40がこれらからプログラムを読み出して実行するようにしてもよい。
以上のように、本発明に係る画像認識装置、画像認識プログラムおよび画像認識方法は、所定の論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該所定の論理構造に対応するように設定された一般論理構造モデルに基づいて、当該論理要素各々を認識することに有用であり、特に、一般論理構造モデルの更新に伴う不都合の発生を利用者に回避させることに適する。
実施例1に係る画像認識装置の概要および特徴を説明するための図である。 実施例1に係る画像認識装置の構成を示すブロック図である。 帳票画像記憶部を説明するための図である。 一般論理構造モデル記憶部を説明するための図である。 論理構造認識結果記憶部を説明するための図である。 テスト入力データ記憶部を説明するための図である。 更新後一般論理構造モデル記憶部を説明するための図である。 更新後一般論理構造モデル記憶部を説明するための図である。 更新後一般論理構造モデル記憶部を説明するための図である。 論理構造認識結果比較結果記憶部を説明するための図である。 論理構造認識結果比較結果記憶部を説明するための図である。 警告出力部を説明するための図である。 実施例1に係る画像認識装置による処理の手順を示すフローチャート(運用フェーズ)である。 実施例1に係る画像認識装置による処理の手順を示すフローチャート(検証フェーズ)である。 実施例2におけるテスト入力データの収集タイミングについて説明するための図である。 実施例3に係る画像認識装置を説明するための図である。 画像認識プログラムを実行するコンピュータを示す図である。
符号の説明
10 画像認識装置
11 入力部
12 出力部
13 入出力制御I/F部
20 記憶部
21 帳票画像記憶部
22 一般論理構造モデル記憶部
23 論理構造認識結果記憶部
24 テスト入力データ記憶部
25 更新後一般論理構造モデル記憶部
26 論理構造認識結果比較結果記憶部
30 制御部
31 レイアウト解析部
32 文字認識部
33 論理構造認識部
34 テスト入力データ収集部
35 一般論理構造モデル更新検出部
36 論理構造認識結果比較部
37 警告出力部

Claims (5)

  1. 論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該論理構造に対応するように設定された論理構造モデルに基づいて当該論理要素各々を認識する画像認識装置であって、
    対応済みの論理構造に関する情報を収集する収集手段と、
    前記対応済みの論理構造の画像に加え、新たに追加される論理構造の画像への対応が求められる前記論理構造モデルについて、新たな論理構造の追加に応じて論理要素と文字列との対応関係に変化を加える更新がなされると、前記収集手段によって収集された情報であって前記対応済みの論理構造に関する情報を当該更新後の論理構造モデルにて処理することで、当該対応済みの論理構造の画像を当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得する更新後認識結果取得手段と、
    前記対応済みの論理構造の画像が更新前の論理構造モデルに基づいて認識された場合の認識結果と、当該対応済みの論理構造の画像が更新後の論理構造モデルに基づいて認識された場合の認識結果とが、一致するか否かを比較する比較手段と、
    前記比較手段による比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する警告出力手段と、
    を備えたことを特徴とする画像認識装置。
  2. 前記収集手段は、新たな論理構造に対応するように論理構造モデルが更新された際に、当該新たな論理構造に関する情報を、前記対応済みの論理構造に関する情報として累積して収集することを特徴とする請求項1に記載の画像認識装置。
  3. 論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該論理構造に対応するように設定された論理構造モデルに基づいて当該論理要素各々を認識する方法をコンピュータに実行させる画像認識プログラムであって、
    対応済みの論理構造に関する情報を収集する収集手順と、
    前記対応済みの論理構造の画像に加え、新たに追加される論理構造の画像への対応が求められる前記論理構造モデルについて、新たな論理構造の追加に応じて論理要素と文字列との対応関係に変化を加える更新がなされると、前記収集手順によって収集された情報であって前記対応済みの論理構造に関する情報を当該更新後の論理構造モデルにて処理することで、当該対応済みの論理構造の画像を当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得する更新後認識結果取得手順と、
    前記対応済みの論理構造の画像が更新前の論理構造モデルに基づいて認識された場合の認識結果と、当該対応済みの論理構造の画像が更新後の論理構造モデルに基づいて認識された場合の認識結果とが、一致するか否かを比較する比較手順と、
    前記比較手順による比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する警告出力手順と、
    をコンピュータに実行させることを特徴とする画像認識プログラム。
  4. 論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該論理構造に対応するように設定された論理構造モデルに基づいて当該論理要素各々を認識する画像認識方法であって、
    対応済みの論理構造に関する情報を収集する収集工程と、
    前記対応済みの論理構造の画像に加え、新たに追加される論理構造の画像への対応が求められる前記論理構造モデルについて、新たな論理構造の追加に応じて論理要素と文字列との対応関係に変化を加える更新がなされると、前記収集工程によって収集された情報であって前記対応済みの論理構造に関する情報を当該更新後の論理構造モデルにて処理することで、当該対応済みの論理構造の画像を当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得する更新後認識結果取得工程と、
    前記対応済みの論理構造の画像が更新前の論理構造モデルに基づいて認識された場合の認識結果と、当該対応済みの論理構造の画像が更新後の論理構造モデルに基づいて認識された場合の認識結果とが、一致するか否かを比較する比較工程と、
    前記比較工程による比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する警告出力工程と、
    を含んだことを特徴とする画像認識方法。
  5. 論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該論理構造に対応するように設定された論理構造モデルに基づいて当該論理要素各々を認識する画像認識装置であって、
    対応済みの論理構造の画像に加え、新たに追加される論理構造の画像への対応が求められる前記論理構造モデルについて、新たな論理構造の追加に応じて論理要素と文字列との対応関係に変化を加える更新がなされると、前記対応済みの論理構造に関する情報を当該更新後の論理構造モデルにて処理することで、当該対応済みの論理構造の画像を当該更新後の論理構造モデルに基づいて認識した場合の認識結果を取得する更新後認識結果取得手段と、
    前記対応済みの論理構造の画像が更新前の論理構造モデルに基づいて認識された場合の認識結果と、当該対応済みの論理構造の画像が更新後の論理構造モデルに基づいて認識された場合の認識結果とが、一致するか否かを比較する比較手段と、
    前記比較手段による比較の結果が不一致である場合に、当該更新後の論理構造モデルについて警告することを示す警告情報を出力部に出力する警告出力手段と、
    を備えたことを特徴とする画像認識装置。
JP2007284295A 2007-10-31 2007-10-31 画像認識装置、画像認識プログラムおよび画像認識方法 Expired - Fee Related JP5253788B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007284295A JP5253788B2 (ja) 2007-10-31 2007-10-31 画像認識装置、画像認識プログラムおよび画像認識方法
US12/258,896 US8234254B2 (en) 2007-10-31 2008-10-27 Image recognition apparatus, method and system for realizing changes in logical structure models
CN2008101749820A CN101425141B (zh) 2007-10-31 2008-10-31 图像识别装置和图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007284295A JP5253788B2 (ja) 2007-10-31 2007-10-31 画像認識装置、画像認識プログラムおよび画像認識方法

Publications (2)

Publication Number Publication Date
JP2009110445A JP2009110445A (ja) 2009-05-21
JP5253788B2 true JP5253788B2 (ja) 2013-07-31

Family

ID=40582916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007284295A Expired - Fee Related JP5253788B2 (ja) 2007-10-31 2007-10-31 画像認識装置、画像認識プログラムおよび画像認識方法

Country Status (3)

Country Link
US (1) US8234254B2 (ja)
JP (1) JP5253788B2 (ja)
CN (1) CN101425141B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102385707A (zh) 2010-08-30 2012-03-21 阿里巴巴集团控股有限公司 一种数字图像识别的方法、装置及爬虫服务器
CN108200060B (zh) * 2018-01-03 2020-07-14 深圳壹账通智能科技有限公司 基于web子系统的单点登录验证方法、服务器及存储介质
CN112395439B (zh) * 2020-11-17 2024-03-01 林铭 一种图像数据库实现方法及其系统和网络通信设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3469345B2 (ja) * 1995-03-16 2003-11-25 株式会社東芝 画像のファイリング装置及びファイリング方法
JP3463008B2 (ja) * 1995-07-31 2003-11-05 富士通株式会社 媒体処理方法及び媒体処理装置
JPH1063744A (ja) * 1996-07-18 1998-03-06 Internatl Business Mach Corp <Ibm> 文書のレイアウト解析方法及びシステム
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
JPH11184894A (ja) * 1997-10-07 1999-07-09 Ricoh Co Ltd 論理要素抽出方法および記録媒体
JPH11328306A (ja) * 1998-03-09 1999-11-30 Ricoh Co Ltd 文書画像の論理要素抽出方法、装置および記録媒体
JP2000322502A (ja) * 1999-05-13 2000-11-24 Toshiba Corp 帳票検査装置、帳票検査方法及び記憶媒体
MC2491A1 (fr) * 1999-06-21 1999-11-22 Stringa Luigi Reconnaissance automatique de caractères sur fond structuré par combinaison des modèles du fond et des caractères
JP4742404B2 (ja) * 2000-05-17 2011-08-10 コニカミノルタビジネステクノロジーズ株式会社 画像認識装置、画像形成装置、画像認識方法および画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP2004139484A (ja) * 2002-10-21 2004-05-13 Hitachi Ltd 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
CN1238816C (zh) * 2003-03-14 2006-01-25 清华大学 基于单个汉字字符的字体识别方法
CN1619583B (zh) * 2003-11-20 2010-05-05 摩托罗拉公司 手写识别的方法和系统
US7904801B2 (en) * 2004-12-15 2011-03-08 Microsoft Corporation Recursive sections in electronic forms
CN100412885C (zh) * 2005-05-23 2008-08-20 株式会社东芝 图像识别装置及其方法
JP2006352290A (ja) 2005-06-14 2006-12-28 Nec Commun Syst Ltd シナリオ作成装置、試験システム、シナリオ作成方法及びプログラム
WO2008033439A2 (en) * 2006-09-13 2008-03-20 Aurilab, Llc Robust pattern recognition system and method using socratic agents
JP5012900B2 (ja) * 2007-07-27 2012-08-29 富士通株式会社 更新管理システム

Also Published As

Publication number Publication date
US20090110280A1 (en) 2009-04-30
JP2009110445A (ja) 2009-05-21
CN101425141B (zh) 2012-06-13
US8234254B2 (en) 2012-07-31
CN101425141A (zh) 2009-05-06

Similar Documents

Publication Publication Date Title
JP5338063B2 (ja) 画像認識プログラム、画像認識装置および画像認識方法
JP4998219B2 (ja) 帳票認識プログラム、帳票認識装置および帳票認識方法
JP2012083951A (ja) 情報処理装置、情報処理方法及びプログラム
JP4733577B2 (ja) 帳票認識装置及び帳票認識プログラム
US20110161303A1 (en) System and method for analyzing official notices of electronically filed patent applications
EP3757881A1 (en) Documentation determination device and documentation determination program
JP5253788B2 (ja) 画像認識装置、画像認識プログラムおよび画像認識方法
JP2007128450A (ja) ソフトウェア再利用部品管理システム
JP4172478B2 (ja) 文書管理装置及び文書管理方法
JP2004013813A (ja) 情報管理システムおよび情報管理方法
JP2004252881A (ja) テキストデータ修正方法
JP6217407B2 (ja) 情報処理システム、情報処理装置及びプログラム
JP2009230618A (ja) 設計書作成プログラム、該装置、及び該方法
JP7122896B2 (ja) 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム
JP5357711B2 (ja) 文書処理装置
JPWO2004068407A1 (ja) アプリケーション間のデータ連携支援方法
JP4160206B2 (ja) 文字認識装置を利用したデータベース登録方法
JP5670156B2 (ja) テスト結果照合システム、方法、及びプログラム
US10331948B1 (en) Rules based data extraction
JP2011154602A (ja) 文字列管理装置、文字列登録方法、文字列検索方法および文字列管理プログラム
WO2020044537A1 (ja) 画像照合装置、画像照合方法、及びプログラム
WO2020158374A1 (ja) 準拠性判定装置及びその方法
JP2004234402A (ja) Web画面作成ツール及び用語チェックツール
JP2010061449A (ja) 原画像探索装置及び原画像探索プログラム
JP7364998B2 (ja) 文書分類システムおよび文書分類プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111024

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120417

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120625

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120703

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20120817

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130417

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees