JP5338063B2 - 画像認識プログラム、画像認識装置および画像認識方法 - Google Patents

画像認識プログラム、画像認識装置および画像認識方法 Download PDF

Info

Publication number
JP5338063B2
JP5338063B2 JP2007284294A JP2007284294A JP5338063B2 JP 5338063 B2 JP5338063 B2 JP 5338063B2 JP 2007284294 A JP2007284294 A JP 2007284294A JP 2007284294 A JP2007284294 A JP 2007284294A JP 5338063 B2 JP5338063 B2 JP 5338063B2
Authority
JP
Japan
Prior art keywords
logical
recognition
recognition result
output
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007284294A
Other languages
English (en)
Other versions
JP2009110444A (ja
Inventor
宏 田中
勇作 藤井
浩明 武部
悦伸 堀田
明洋 皆川
憲秋 小澤
克仁 藤本
克夫 深沢
真樹 稲見
起一郎 渡邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007284294A priority Critical patent/JP5338063B2/ja
Priority to US12/250,302 priority patent/US8503784B2/en
Priority to CN2008101706878A priority patent/CN101425132B/zh
Publication of JP2009110444A publication Critical patent/JP2009110444A/ja
Application granted granted Critical
Publication of JP5338063B2 publication Critical patent/JP5338063B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • G06V30/127Detection or correction of errors, e.g. by rescanning the pattern with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Description

この発明は、画像認識プログラム、画像認識装置および画像認識方法に関する。
近年、業務の電子化に伴い、多くの電子化文書が利用されている。このため、紙の文書を電子化文書に変換する技術として、OCR(Optical Character Reader、または、Optical Character Recognition)等の画像認識技術の重要性が増している。
ところが、かかる画像認識技術によって文書を認識すると、認識結果に誤りが生じることがある。このような場合には、利用者が、入力文書中の文字列と認識結果の文字列とを目視で比較しながら訂正内容を入力する訂正作業を行う。
なお、特許文献1には、利用者によってデータが順に入力されるデータ入力装置が、既に入力された他項目のデータに基づいて、これから入力される項目のデータを限定する技術が開示されている。
特開平5−158605号公報
ところで、上記した従来の技術では、訂正作業の負荷が膨大になるという課題があった。すなわち、例えば、取引先や取引形態毎に異なる多数の帳票を扱う銀行において、上記の訂正作業が行われることを想定すると、訂正作業は多大な工数となり、負荷が膨大になる。
そこで、この発明は、上記した従来技術の課題を解決するためになされたものであり、訂正作業の負荷を軽減することが可能な画像認識プログラム、画像認識装置および画像認識方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、画像認識プログラムは、論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該文字列各々と当該論理要素各々との対応を認識することで、当該論理要素各々を認識する方法をコンピュータに実行させる画像認識プログラムであって、前記対応が認識または再認識されると、認識結果である複数の論理要素各々を出力部に出力する出力手順と、前記出力手順によって出力された認識結果を確認する利用者から、当該複数の論理要素各々の内正しいものとされる論理要素を確定する確定要求の入力を受け付けると、当該論理要素について、正しいものと確定する第1の確定手順と、前記第1の確定手順によって確定された前記論理要素よりも前に前記利用者によって確認済みであると位置づけられる順序で出力された論理要素各々全てについて、正しいものと確定する第2の確定手順と、前記第1の確定手順および前記第2の確定手順によって正しいものであると確定された論理要素各々の確定内容に基づいて、未だ正しいものであると確定されていない論理要素各々について前記対応を再認識する再認識手順と、をコンピュータに実行させることを要件とする。
また、上記の画像認識プログラムは、前記再認識手順による認識結果をバッファに格納する格納手順をさらに備え、前記出力手順は、前記再認識手順による認識結果を出力するにあたり、前記格納手順によって格納された認識結果が現に出力部に出力している認識結果と一致するか否かを論理要素ごとに比較し、一致しない論理要素については、前記再認識手順による認識結果が現に出力部に出力している認識結果と異なるものであることを示す情報を出力することを要件とする。
また、画像認識装置は、論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該文字列各々と当該論理要素各々との対応を認識することで、当該論理要素各々を認識する画像認識装置であって、前記対応が認識または再認識されると、認識結果である複数の論理要素各々を出力部に出力する出力手段と、前記出力手段によって出力された認識結果を確認する利用者から、当該複数の論理要素各々の内正しいものとされる論理要素を確定する確定要求の入力を受け付けると、当該論理要素について、正しいものと確定する第1の確定手段と、前記第1の確定手段によって確定された前記論理要素よりも前に前記利用者によって確認済みであると位置づけられる順序で出力された論理要素各々全てについて、正しいものと確定する第2の確定手段と、前記第1の確定手段および前記第2の確定手段によって正しいものであると確定された論理要素各々の確定内容に基づいて、未だ正しいものであると確定されていない論理要素各々について前記対応を再認識する再認識手段と、を備えたことを要件とする。
また、画像認識方法は、論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該文字列各々と当該論理要素各々との対応を認識することで、当該論理要素各々を認識する画像認識方法であって、前記対応が認識または再認識されると、認識結果である複数の論理要素各々を出力部に出力する出力工程と、前記出力工程によって出力された認識結果を確認する利用者から、当該複数の論理要素各々の内正しいものとされる論理要素を確定する確定要求の入力を受け付けると、当該論理要素について、正しいものと確定する第1の確定工程と、前記第1の確定工程によって確定された前記論理要素よりも前に前記利用者によって確認済みであると位置づけられる順序で出力された論理要素各々全てについて、正しいものと確定する第2の確定工程と、前記第1の確定工程および前記第2の確定工程によって正しいものであると確定された論理要素各々の確定内容に基づいて、未だ正しいものであると確定されていない論理要素各々について前記対応を再認識する再認識工程と、を含んだことを要件とする。
開示の画像認識プログラム、画像認識装置および画像認識方法によれば、訂正作業の負荷を軽減することが可能になる。
また、開示の画像認識プログラム、画像認識装置および画像認識方法によれば、未確定論理要素(未だ正しいものであると確定されていない論理要素)の改悪を防止することが可能になる。
以下に添付図面を参照して、この発明に係る画像認識プログラム、画像認識装置および画像認識方法の実施例を詳細に説明する。なお、以下では、実施例で用いる主要な用語、実施例1に係る画像認識装置の概要および特徴、実施例1に係る画像認識装置の構成および処理の手順、実施例1の効果を順に説明し、続いて、他の実施例を説明する。
[用語の説明]
まず最初に、以下の実施例で用いる主要な用語を説明する。以下の実施例で用いる「画像」とは、所定の論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像のことであり、例えば、帳票画像のことである。ここで、帳票画像に、本人情報として、『名前』、『住所』および『電話番号』を記入させる項目があり、職場情報として、『住所』および『電話番号』を記入させる項目があり、複数の項目各々に文字列各々が記載されているとする。このような帳票画像において、「論理構造」とは、『本人情報』の下の階層に、『名前』、『住所』および『電話番号』があり、『職場情報』の下の階層に、『住所』および『電話番号』があり、『本人情報』の階層と『職場情報』の階層とが同じ階層である、といった構造のことをいう。また、『名前』、『住所』、『電話番号』等が、「論理構造」を構成する複数の「論理要素」各々のことである。言い換えると、「論理構造」や「論理要素」とは、例えば、帳票画像のフォーマットを作成する作成者によって当該帳票画像のフォーマットが作成される際に、(意識的か無意識的かに関わらず)複数の項目が形成する構造として「論理構造」が設定され、複数の項目各々が「論理要素」として設定されるものであるといえる。一方、画像認識装置が当該帳票画像について処理を行う際には、当該帳票画像において複数の項目が形成する構造を「論理構造」として扱い、複数の項目各々を「論理要素」として扱うことになる。なお、「画像」は、帳票画像に限られず、例えば、複数の質問各々に回答を記入させるアンケートの画像等、複数の項目各々に文字列各々が記載されている画像であれば、いずれでもよい。
ところで、実施例1に係る「画像認識装置」は、文字列各々と論理要素各々との対応を認識することで、このような画像の論理要素各々を認識する。例えば、「画像認識装置」は、帳票画像に記載されている文字列各々を、OCR等の画像認識技術を用いて認識する。また、「画像認識装置」は、文字列各々がどの論理要素として記載されたものであるのかを、論理構造モデル等を用いて認識する。すなわち、「画像認識装置」は、例えば、手書きで『特許 太郎』と記載されている文字列を、OCR等の画像認識技術を用いて『特許 太郎』と認識し、また、文字列『特許 太郎』が、論理要素の『名前』として記載されたものであることを認識することで、帳票画像の論理要素各々を認識する(なお、以下の実施例では、かかる認識のことを、適宜、「論理構造認識」もしくは「論理構造を認識する」という)。
もっとも、「画像認識装置」は、文字列と論理要素との対応を常に正しく認識するものではなく、認識結果に誤りが生じることがある。例えば、「画像認識装置」は、帳票画像について、手書きで『東京都千代田区霞が関1−1−1』と記載されている文字列を、『東京都千代田区霞が関7−7−7』と誤認識し、また、文字列『東京都千代田区霞が関1−1−1』が、職場情報の『住所』として記載されたものであるのに、本人情報の『住所』として記載されたものであると誤認識することで、帳票画像の論理要素各々を誤認識することがある。このような場合、認識結果の誤りを訂正する訂正作業が行われることになるが、実施例1に係る「画像認識装置」は、かかる訂正作業の負荷を軽減するものである。
[実施例1に係る画像認識装置の概要および特徴]
続いて、図1を用いて、実施例1に係る画像認識装置の概要および特徴を説明する。図1は、実施例1に係る画像認識装置の概要および特徴を説明するための図である。
実施例1に係る画像認識装置は、上記したように、所定の論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該文字列各々と当該論理要素各々との対応を認識することで、当該論理要素各々を認識することを概要とし、訂正作業の負荷を軽減することを主たる特徴とする。
この主たる特徴について簡単に説明すると、まず、実施例1に係る画像認識装置は、図1に示すような帳票画像について、論理要素各々を認識するものとする。すなわち、画像認識装置は、本人情報としての『名前』、職場情報としての『住所』および『電話番号』、本人情報としての『住所』および『電話番号』を複数の論理要素各々として文字列各々が記載されている帳票画像について、文字列各々と論理要素各々との対応を認識するものとする。
また、実施例1に係る画像認識装置は、図1に示すように、論理構造モデル(図1においては、木構造の概念として表現)を記憶し、当該論理構造モデルに基づいて、論理構造を認識する。すなわち、画像認識装置は、『本人情報』の下の階層に、『名前』、『住所』および『電話番号』があり、『職場情報』の下の階層に、『住所』および『電話番号』があり、『本人情報』の階層と『職場情報』の階層とが同じ階層である、といった構造に対応するように設定された論理構造モデルを記憶している。また、当該論理構造モデルには、『本人情報』の下に『職場情報』が記載される、といった位置関係も設定されているものとする。
このような構成の下、実施例1に係る画像認識装置は、帳票画像の論理構造を認識すると(図1の(1)を参照)、認識結果である複数の論理要素各々を、所定の順序で出力部に出力する(図1の(2)を参照)。例えば、画像認識装置は、本人情報の『名前』として『特許 太郎』を、本人情報の『住所』として『東京都・・・』を、本人情報の『電話番号』として『03-444-555』を、職場情報の『住所』として『神奈川県・・・』を、職場情報の『電話番号』として『045-666-777』を、この順序で出力部に出力する。ここで、図1の帳票画像(申込書)の内容をみるとわかるように、画像認識装置は、本人情報の『住所』および『電話番号』と、職場情報の『住所』および『電話番号』とを、反対に認識(誤認識)している。
次に、画像認識装置は、認識結果を確認する利用者から、当該複数の論理要素各々の内の所定の論理要素を正しいものとする確定要求の入力を受け付けると、当該所定の論理要素について、正しいものと確定する(図1の(3)を参照)。例えば、画像認識装置は、利用者から、本人情報の『住所』が、『東京都・・・』ではなく、正しいものは『神奈川県・・・』であると確定する確定要求の入力を受け付けると、当該『住所』について、正しいものと確定する。
また、画像認識装置は、確定された所定の論理要素よりも前に利用者によって確認済みであると位置づけられる順序で出力された論理要素各々全てについて、正しいものと確定する(図1の(4)を参照)。例えば、図1の(2)に示す出力の順序において、利用者が一番上の項目から下方向に一項目ずつ順に確認していくのが通常の運用であるとする。そうであるとすると、確定された論理要素である本人情報の『住所』よりも前に利用者によって確認済みであると位置づけられる順序で出力された論理要素とは、本人情報の『住所』よりも上に位置づけられる論理要素のことであり、本人情報の『名前』がこれに該当することになる。このため、画像認識装置は、本人情報の『名前』についても、正しいものと確定する。
なお、実施例1においては、この時、画像認識装置が記憶する論理構造モデルにおいて、正しいものと確定された論理要素が、図1の(3)および(4)に示すように、確定された文字列そのものに置換され、論理構造モデル自体が変換されるものとする。
続いて、実施例1に係る画像認識装置は、正しいものであると確定された論理要素各々の確定内容に基づいて、未だ正しいものであると確定されていない論理要素各々について、論理構造を再認識する(図1の(5)は、画像認識装置が、再認識結果を所定の順序で出力したものである)。例えば、画像認識装置は、変換された論理構造モデルに基づいて、再び、文字列各々と論理要素各々との対応を認識する。例えば、画像認識装置は、本人情報の『電話番号』、職場情報の『住所』および『電話番号』を再認識し、再認識の認識結果として、『045-666-777』、『東京都・・・』、『03-444-555』を得る。ここで、図1の(2)の出力と(5)の出力とを比較するとわかるように、本人情報の『電話番号』、職場情報の『住所』および『電話番号』のいずれも、認識結果が異なるものとなっている(再認識の認識結果は、確定内容が反映された認識結果となっている)。
このようにして、実施例1に係る画像認識装置は、訂正作業の負荷を軽減することが可能になる。すなわち、図1の例で説明すると、画像認識装置による最初の認識結果では、本人情報の『名前』以外の情報は全て誤認識であったことになり、利用者は、これら誤認識の項目を全て訂正(もしくは確定)しなければならなかったはずである。しかしながら、実施例1に係る画像認識装置は、本人情報の『住所』が正しいものであると確定されると、本人情報の『住所』のみならず『名前』も正しいものであると確定した上で再認識を行う結果、次に利用者が確定しなければならない項目を削減することが可能になる。また、本人情報の『住所』と『電話番号』とが矛盾することから、本人情報の『電話番号』が誤りであることや、本人情報の『住所』と職場情報の『住所』とが矛盾することから、職場情報が誤りであることなどがわかり、次に利用者が訂正しなければならない項目を削減する(場合によっては、無くす)ことが可能になる。
このように、実施例1に係る画像認識装置は、利用者によって所定の論理要素が確定されたり訂正されるなどすると、確定された論理要素を固定した上で論理構造モデルを参照し、即座に論理構造を再認識することで、その他の未確定論理要素の認識結果を改善する。また、この時、未確定論理要素の認識結果の候補の数が一つになれば、その論理要素を確定することもできる。したがって、利用者が確定したり訂正した結果を用いて別の論理要素を確定することができるので、利用者における訂正作業の負荷を軽減することが可能になる。
[実施例1に係る画像認識装置の構成]
次に、図2〜10を用いて、実施例1に係る画像認識装置を説明する。図2は、実施例1に係る画像認識装置の構成を示すブロック図であり、図3は、帳票画像を説明するための図であり、図4は、認識結果表示画面を説明するための図であり、図5は、論理構造モデル記憶部を説明するための図であり、図6は、認識結果表示用バッファを説明するための図であり、図7は、誤り訂正操作について説明するための図であり、図8は、論理要素自動確定について説明するための図であり、図9は、論理構造モデル記憶部(変換後)を説明するための図であり、図10は、誤り訂正操作について説明するための図である。
図2に示すように、実施例1に係る画像認識装置10は、画像入力部11と、ユーザ操作入力部12と、表示部13と、記憶部20と、記憶部25と、制御部30とから構成される。
画像入力部11は、帳票画像を入力する部である。具体的には、画像入力部11は、画像認識装置10の認識対象となる帳票画像を、後述する文字列認識部31に入力する。例えば、画像入力部11は、スキャナ装置によって実現される場合や、事前に他の装置によって読み込まれた帳票画像(画像データ)をメモリに格納してから文字列認識部31に送信する機能によって実現される場合などがある。
ここで、画像入力部11が入力する帳票画像について具体的に例を挙げて説明すると、画像入力部11は、帳票画像として、例えば、図3に示す帳票画像を入力する。図3に示す帳票画像の論理構造は、『本人情報』の下の階層に、『名前』、『住所』および『電話番号』があり、『職場情報』の下の階層に、『住所』および『電話番号』があり、『本人情報』の階層と『職場情報』の階層とが同じ階層である、といった構造であると考えられる。また、図3に示す帳票画像の論理構造は、『本人情報』の『名前』の下に『職場情報』の『住所』および『電話番号』が記載され、その下に、『本人情報』の『住所』および『電話番号』が記載される、といった位置関係であると考えられる。なお、画像認識装置10が認識対象とする画像は、図3に示すような帳票画像に限られず、複数の質問各々に回答を記入させるアンケートの画像等、複数の項目各々に文字列各々が記載されている画像であれば、いずれでもよい。また、図3に示すような手書きの文字列が記載されている画像に限られない。
図2に戻り、ユーザ操作入力部12は、画像認識装置10の認識結果を確認する利用者(ユーザ)の操作を入力する部である。具体的には、ユーザ操作入力部12は、利用者から、複数の論理要素各々の内の所定の論理要素を正しいものと確定する確定要求の入力を受け付け、後述する第1の論理要素確定部34に送信する。一般に、ユーザ操作入力部12は、マウスやキーボードなどによって実現される。
表示部13は、画像認識装置10の認識結果を表示する部である。具体的には、表示部13は、後述する認識結果出力部33によって出力される認識結果(後述する認識結果表示用バッファ26に格納されている認識結果)を表示する。一般に、表示部13は、ディスプレイなどによって実現される。なお、表示部13は、特許請求の範囲に記載の「出力部」に対応する。
ここで、表示部13が表示する認識結果について具体的に例を挙げて説明すると、表示部13は、認識結果表示画面として、例えば、図4に示す画面を表示する。図4に示す画面は、左側に、認識対象となった帳票画像を表示し、右側に、認識結果を表示している。画面の左右を比較するとわかるように、図4は、画像認識装置10が、本人情報の『住所』および『電話番号』と、職場情報の『住所』および『電話番号』とを、反対に認識(誤認識)している例を示すものである。
図2に戻り、記憶部20(ROM(Read Only Memory)など)は、制御部30による各種処理に用いるデータを記憶する部であり、特に本実施例に密接に関連するものとしては、図2に示すように、文字認識辞書記憶部21と、論理構造モデル記憶部22とを備える。
文字認識辞書記憶部21は、OCR等の画像認識技術を用いて文字列を認識する際の辞書を記憶する部である。具体的には、文字認識辞書記憶部21は、文字列を認識する際の辞書を記憶し、記憶している辞書は、後述する文字列認識部31による処理に利用される。
論理構造モデル記憶部22は、画像認識装置10が帳票画像の論理構造を認識する際に用いる論理構造モデルを記憶する部である。具体的には、論理構造モデル記憶部22は、帳票画像の論理要素各々を認識する際の論理構造モデルを記憶し、記憶している論理構造モデルは、後述する論理構造認識部32による処理に利用される。なお、論理構造モデル記憶部22は、画像認識装置10を利用する利用者等によって予め準備された論理構造モデル(例えば、利用者等によって、論理構造や論理要素が適宜設計されている論理構造モデル)を記憶するなどする。
ここで、論理構造モデル記憶部22が記憶する論理構造モデルについて具体的に例を挙げて説明すると、論理構造モデル記憶部22は、論理構造モデルとして、例えば、図5に示す論理構造モデルを記憶する。図5に示す論理構造モデルは、図5の(A)に示すように、概念的には木構造で表現されるものであり、実際には、図5の(B)に示すような表構造を、記憶部20に記憶しているものである。
図5の(B)に示す表の各行には、論理要素の種類が記述されており、左から順に、論理要素のID番号、論理要素名、木構造の階層、木構造の親のID番号、論理要素間の位置関係、属性、およびデータ文字列の内容が記述されている。この内、位置関係は、例えば、『姓』の項は、その右隣に『ID=6』の『名』の項を持つことを意味するなど、論理要素間の相対的な位置が記述されたものである。属性は、木構造の中で実体を持つものを『ノード』、実体を持たず、意味的に関連した集合をまとめるためのものが『グループ』として記述されている。また、各ノードには、対応する文字列が満たすべき文字条件が記述されており、例えば、『電話番号』は、『数字列』および『ハイフン(−)』というように、文字種が規定されている。
図2に戻り、記憶部25(RAM(Random Access Memory)など)は、制御部30による各種処理に用いるデータを記憶する部であり、特に本実施例に密接に関連するものとしては、図2に示すように、認識結果表示用バッファ26を備える。
認識結果表示用バッファ26は、画像認識装置10による認識結果を記憶するバッファである。具体的には、認識結果表示用バッファ26は、後述する文字列認識部31や論理構造認識部32による認識結果を記憶し、記憶した認識結果は、後述する認識結果出力部33による処理に利用され、表示部13に出力される。
ここで、認識結果表示用バッファ26が記憶する認識結果について具体的に例を挙げて説明すると、認識結果表示用バッファ26は、認識結果として、例えば、図6に示す認識結果を記憶する。図6に示す認識結果は、論理要素の種別ごとに、文字列を認識した認識結果(候補を含む)と、当該文字列各々がどの論理要素として記載されたものであるのかを認識した認識結果(候補を含む)とを示すものである。
論理要素各々について説明すると、まず、『本人情報』の『名前』の『姓』である論理要素は、文字列『特許』と認識され、その他の候補はない。また、『本人情報』の『名前』の『名』である論理要素は、第1候補の文字列『太郎』、第2候補の文字列『太朗』として認識されている。また、『本人情報』の『住所』である論理要素は、第1候補の文字列から第4候補の文字列まで認識されている。なお、『7−7−7』および『1−1−1』が候補として認識されている点は、文字列を認識した結果、複数の候補が得られたものであると考えられ、一方、『東京都千代田区霞が関・・・』および『神奈川県横浜市中区・・・』が候補として認識されている点は、文字列各々がどの論理要素として記載されたものであるのかを認識した結果、複数の候補が得られたものであると考えられる。その他の論理要素についても同様である。
図2に戻り、制御部30は、画像認識装置10を制御して各種処理を実行する部であり、特に本実施例に密接に関連するものとしては、図2に示すように、文字列認識部31と、論理構造認識部32と、認識結果出力部33と、第1の論理要素確定部34と、第2の論理要素確定部35と、論理構造再認識制御部36と、論理構造モデル変換部37とを備える。なお、認識結果出力部33は、特許請求の範囲に記載の「出力手順」に対応し、第1の論理要素確定部34は、特許請求の範囲に記載の「第1の確定手順」に対応し、第2の論理要素確定部35は、特許請求の範囲に記載の「第2の確定手順」に対応し、論理構造再認識制御部36および論理構造モデル変換部37は、特許請求の範囲に記載の「再認識手順」に対応する。
文字列認識部31は、OCR等の画像認識技術を用いて文字列を認識する部である。具体的には、文字列認識部31は、画像入力部11によって入力された帳票画像について、文字認識辞書記憶部21に記憶されている辞書を用いて文字列の位置および候補を認識し、認識した結果は、論理構造認識部32による処理に利用される。
図6の認識結果表示用バッファのところでも説明したように、例えば、『太郎』と画像に記載されていた文字列を、第1候補『太郎』、第2候補『太朗』と認識するのは、文字列認識部31によって行われる認識である。
論理構造認識部32は、文字列各々がどの論理要素として記載されたものであるのかを認識する部である。具体的には、論理構造認識部32は、論理構造モデル記憶部22に記憶されている論理構造モデルを参照して、文字列認識部31によって認識された認識結果との対応づけを行い、認識した結果は、認識結果表示用バッファ26に格納され、認識結果出力部33による処理に利用される。
図6の認識結果表示用バッファのところでも説明したように、例えば、『本人情報』の『住所』である論理要素を、第1候補および第2候補『東京都千代田区霞が関・・・』と認識し、第3候補および第4候補『神奈川県横浜市中区・・・』と認識するのは、論理構造認識部32によって行われる認識である。
認識結果出力部33は、認識結果である複数の論理要素各々を所定の順序で出力する部である。具体的には、認識結果出力部33は、文字列認識部31や論理構造認識部32によって認識または再認識されると、認識結果表示用バッファ26に格納されている認識結果である論理要素各々を、所定の順序で表示部13に出力する。
認識結果出力部33によって出力される認識結果表示画面とは、表示部13のところでも説明したように、例えば、図4に示す画面である。ここで、実施例1における認識結果出力部33は、論理要素各々を、縦に並べて表示している。
第1の論理要素確定部34は、確定要求(複数の論理要素各々の内の所定の論理要素を正しいものと確定する要求)の入力を受け付けると、当該所定の論理要素について、正しいものと確定する部である。具体的には、第1の論理要素確定部34は、認識結果出力部33によって表示部13に出力された認識結果(認識結果表示用バッファ26に格納されていた認識結果)を確認する利用者から、ユーザ操作入力部12に入力された確定要求の入力を受け付けると、受け付けた論理要素について正しいものと確定し、第2の論理要素確定部35に伝達する。
ここで、第1の論理要素確定部34による確定について具体的に例を挙げて説明すると、例えば、認識結果出力部33によって、図7に示す認識結果表示画面が表示部13に出力されているとする。この時、認識結果を確認した利用者が、『本人情報』の『住所』の文字列である『東京都千代田区霞が関7−7−7』が誤り項目であるとして、当該項目を『神奈川県横浜市中区1−1−1』に訂正したいと考えたとする。このため、利用者が、ユーザ操作入力部12(マウス)を用いて『東京都千代田区霞が関7−7−7』の上にポインタを移動し、誤り項目を右クリックすると(図7の(1)を参照)、次候補の文字列である『東京都千代田区霞が関1−1−1』、『神奈川県横浜市中区7−7−7』、および『神奈川県横浜市中区1−1−1』が、ウィンドウ表示される(図7の(2)を参照)。なお、これらの次候補は、認識結果表示用バッファ26に格納されていた認識結果(図6を参照)である。
続いて、利用者が、ユーザ操作入力部12(マウス)を用いて『神奈川県横浜市中区1−1−1』を左クリックすると、(図7には図示されていないが)『住所』の文字列として『神奈川県横浜市中区1−1−1』が入力され、『確定』アイコンは、『確定』の文字に変化するなどする。
なお、第1の論理要素確定部34は、利用者によって誤り項目の訂正が行われた際に、訂正した内容を正しいものとして確定する他に、利用者が『確定』アイコンをクリックすることなどによって明示的に確定を指示した際に、指示された内容を正しいものとして確定する場合もある。
図2に戻り、第2の論理要素確定部35は、所定の論理要素よりも前に位置づけられる順序で出力された論理要素各々全てについて、正しいものと確定する部である。具体的には、第2の論理要素確定部35は、第1の論理要素確定部34によって所定の論理要素について正しいものであると確定されると、当該論理要素よりも前に利用者によって確認済みであると位置づけられる順序で出力された論理要素各々全てについて、正しいものと確定し、論理構造再認識制御部36に伝達する。
ここで、例えば、図7に示す認識結果表示画面の出力の順序において、利用者が一番上の項目から下方向に一項目ずつ順に確認していくのが通常の運用であるとする。すると、確定された論理要素である本人情報の『住所』よりも前に利用者によって確認済みであると位置づけられる順序で出力された論理要素とは、本人情報の『住所』よりも上に位置づけられる論理要素のことであり、本人情報の『名前』がこれに該当することになる。このため、第2の論理要素確定部35は、本人情報としての『名前』(『姓』および『名』)についても、正しいものと確定する。すなわち、第2の論理要素確定部35は、認識結果表示用バッファ26に格納された表示順序を取得するなどして(例えば、図6のような表の何行目にある論理要素であるかを数え、その行番号を取得するなどして)、表示順序が前の方(例えば、行番号が小さい方)の論理要素各々全てについて、正しいものと確定する。
この時、第2の論理要素確定部35は、認識結果表示用バッファ26に格納されていた認識結果の内、まず、第1の論理要素確定部34によって確定されていた『本人情報』の『住所』の論理要素を『神奈川県横浜市中区1−1−1』に確定し、第2候補以下の候補に無効の印を付けるなどして、実質的に削除する。また、『本人情報』の『姓』の論理要素を『特許』に確定し、さらに、『名』の論理要素を『太郎』に確定し、第2候補『太朗』に無効の印を付けるなどして、実質的に削除する。このように確定が反映された認識結果表示用バッファ26は、図8の(A)のような情報を格納することになる(網掛け部分は、確定された論理要素であることを示している)。
論理構造再認識制御部36は、論理要素各々の確定内容に基づいて、未だ正しいものであると確定されていない論理要素各々について、対応を再認識するように、論理構造認識部32および論理構造モデル変換部37を制御する部である。具体的には、論理構造再認識制御部36は、第1の論理要素確定部34および第2の論理要素確定部35によって正しいものであると確定された論理要素各々の確定内容に基づいて、未だ正しいものであると確定されていない論理要素各々について、文字列各々と論理要素各々との対応を論理構造認識部32によって再認識するように、論理構造認識部32および論理構造モデル変換部37を制御する。
ここで、論理構造モデル変換部37は、論理構造モデルを変換する部である。具体的には、論理構造モデル変換部37は、論理構造再認識制御部36に制御され、第1の論理要素確定部34および第2の論理要素確定部35によって確定された内容を、論理構造モデル記憶部22に記憶されている論理構造モデルに反映する。なお、論理構造モデルに反映するとは、論理構造モデルの中に確定内容を記述することによって、対応づけられる文字列を一意に決めることをいう。
論理構造モデル変換部37によって変換された後の論理構造モデルについて具体的に例を挙げて説明すると、論理構造モデル記憶部22は、論理構造モデル変換部37によって変換された後、例えば、図9の(A)に示す論理構造モデルを記憶する。図5の(B)と図9の(A)とを比較するとわかるように、論理構造モデル変換部37は、『本人情報』の『住所』、『姓』および『名』に、『神奈川県横浜市中区1−1−1』、『特許』および『太郎』という確定内容を記述することによって、対応づけられる文字列を一意に決めている。このように、論理構造モデル変換部37によって変換された結果、確定した内容が記述された論理構造モデルが生成されるのである。
論理構造再認識制御部36の説明に戻ると、論理構造再認識制御部36は、論理構造モデル記憶部22に記憶されている論理構造モデルを論理構造モデル変換部37に変換させた後に、論理構造認識部32を制御し、再認識させる。すなわち、この時、論理構造認識部32は、論理構造モデル記憶部22に記憶されている論理構造モデル(変換後の論理構造モデル)を参照して、文字列認識部31によって認識された認識結果との対応づけを行い、認識した結果は、認識結果表示用バッファ26に再び格納され、認識結果出力部33による処理に利用される。
具体的に例を挙げて説明すると、論理構造認識部32によって再認識された結果、認識結果表示用バッファ26に格納された認識結果は、図8の(B)のようになるとする。すなわち、『本人情報』の『住所』が確定されたことで、『本人情報』の『電話番号』が、『045』から開始される番号に限定され、『職場情報』の『住所』が、『東京都』から開始される住所に限定され、『職場情報』の『電話番号』が、『03』から開始される番号に限定されたとする。
すると、認識結果出力部33によって、今度は、図10に示す認識結果表示画面が表示部13に出力されると考えられる。なお、図10に示す認識結果表示画面において、『本人情報』の『氏名』および『住所』の右側の『確定』アイコンが、『確定』の文字に変化していることに注意されたい(確定済みであることを意味している)。この時、認識結果を確認した利用者が、『本人情報』の『電話番号』の文字列である『045-666-777』が誤り項目であるとして、当該項目を『045-666-111』に訂正したいと考えたとする。このため、利用者が、ユーザ操作入力部12(マウス)を用いて『045-666-777』の上にポインタを移動し、誤り項目を右クリックすると、次候補の文字列である『045-666-111』が表示される。続いて、利用者が、ユーザ操作入力部12(マウス)を用いて『045-666-111』を左クリックすると、図10の(B)に示すように、『電話番号』の文字列として『045-666-111』が入力され、『確定』アイコンは、『確定』の文字に変化する。
この時、第2の論理要素確定部35は、認識結果表示用バッファ26に格納されていた認識結果の内、第1の論理要素確定部34によって確定されていた『本人情報』の『電話番号』の論理要素を『045−666−111』に確定し、第2候補以下の候補に無効の印を付けるなどして、実質的に削除する(図8の(C)を参照)。
続いて、再度、論理構造再認識制御部36は、論理構造モデル変換部37によって論理構造モデル記憶部22に記憶されている論理構造モデルを変換させた後に(図9の(B)を参照)、論理構造認識部32を制御し、再認識させるが、この例において、認識結果はもはや変化せず(図8の(D)を参照)、認識結果出力部33によって表示される認識結果表示画面は、図10の(B)に示す画面のままである。
[実施例1に係る画像認識装置による処理の手順]
次に、図11を用いて、実施例1に係る画像認識装置による処理の手順を説明する。図11は、実施例1に係る画像認識装置による処理の手順を示すフローチャートである。
まず、画像認識装置10の文字列認識部31は、帳票画像の入力を画像入力部11から受け付けると(ステップS101肯定)、文字列を認識し(ステップS102)、認識した結果を、論理構造認識部32に伝達する。
続いて、論理構造認識部32は、論理構造モデル記憶部22に記憶されている論理構造モデルを参照して、文字列認識部31によって認識された認識結果との対応づけを行い(ステップS103)、認識した結果を、認識結果出力部33に伝達する。
すると、認識結果出力部33が、認識結果である複数の論理要素各々を所定の順序で表示部13に出力する(ステップS104)。
そして、第1の論理要素確定部34は、全項目確定ボタン(例えば、図4に示す認識結果表示画面の右側、一番下の『確定』アイコンなど)の押下があったか否かを判定し(ステップS105)、押下があった場合には(ステップS105肯定)、処理を終了する。
一方、押下がない場合で(ステップS105否定)、誤り訂正操作があった場合には(ステップS106肯定)、第1の論理要素確定部34は、誤り訂正操作がされた所定の論理要素について、正しいものと確定し(ステップS107)、第2の論理要素確定部35に伝達する。また、押下がない場合で(ステップS105否定)、かつ、誤り訂正操作もない場合で(ステップS106否定)、項目別の確定ボタン(例えば、図4に示す認識結果表示画面の右側、項目右の『確定』アイコンなど)の押下があった場合には(ステップS108肯定)、第1の論理要素確定部34は、項目別に確定された指定項目の論理要素について、正しいものと確定し(ステップS109)、第2の論理要素確定部35に伝達する。
続いて、第2の論理要素確定部35は、第1の論理要素確定部34によって所定の論理要素について正しいものであると確定されると(ステップS107、ステップS109)、認識結果表示用バッファ26に格納された表示順序を取得するなどして、確定項目の順番を取得し(ステップS110)、当該確定項目の論理要素よりも前に利用者によって確認済みであると位置づけられる順序で出力された論理要素各々全てについて、正しいものと確定し(ステップS111)、論理構造再認識制御部36に伝達する。
すると、論理構造再認識制御部36は、全項目確定した否か(例えば、利用者によって、全項目確定ボタンの押下があったか否か)を判定し(ステップS112)、未だ確定していない場合には(ステップS112否定)、論理構造モデル変換部37によって論理構造モデル記憶部22に記憶されている論理構造モデルを変換させた後に、論理構造認識部32を制御し、再認識させ(この時、論理構造認識部32は、変換後の論理構造モデルを参照して、文字列認識部31によって認識された認識結果との対応づけを行う)、ステップS104の処理へと戻る(ステップS113)。
[実施例1におけるその他の認識結果表示画面]
これまで認識結果表示画面として、図4に示す認識結果表示画面を前提として説明してきたが、これに限られるものではなく、例えば、図12に示す認識結果表示画面など、いずれでもよい。第2の論理要素確定部35が、所定の論理要素よりも前に利用者によって確認済みであると位置づけられる順序で出力された論理要素各々全てについて、正しいものと確定する部であることは、上記した通りであるが、ここで、「所定の論理要素よりも前に利用者によって確認済みであると位置づけられる順序」の意味について改めて説明する。
例えば、図12に示す認識結果表示画面の出力の順序において、利用者は、上の段の左端の項目から右方向に一項目ずつ順に確認し、上の段の右端の項目まで確認すると、下の段の左端の項目から右方向に一項目ずつ順に確認し、下の段の右端の項目まで確認するのが、通常の運用であるとする。すなわち、ここでいう「確認」は、利用者による操作を伴わない確認であるので、どのような順序で確認されるかは、本来任意ともいえる。しかしながら、運用の形態や画面のデザイン等によって、どのような順序で確認されるかを予め想定することはできるはずであり、実施例1に係る画像認識装置は、このような観点から、「所定の論理要素よりも前に利用者によって確認済みであると位置づけられる順序」を想定し、認識結果表示用バッファに認識結果を格納する際のIDの昇順が当該順序であるなどと設定して(画像認識装置を利用する利用者によって予め設定されるなどして)、運用している。また、このような観点から、利用者によって所定の論理要素が確定されたら、所定の論理要素よりも前に利用者によって確認済みであると位置づけられる順序に出力されている論理要素各々は、全て確定したものとみなしてよいとしているのである。
図12に示す認識結果表示画面の場合、第2の論理要素確定部35は、確定された論理要素が、勤務先の『住所』であるならば、本人情報の『氏名』、『住所』および『電話番号』は、勤務先の『住所』よりも前に利用者によって確認済みであると位置づけられる順序に出力された論理要素であるとして、全て正しいものと確定する。
[実施例1の効果]
上記してきたように、実施例1によれば、訂正作業の負荷を軽減することが可能になる。すなわち、実施例1に係る画像認識装置は、利用者が確定されたり訂正されるなどして確定された論理要素を固定した上で論理構造モデルを参照することで、その他の未確定論理要素の認識結果を改善する。また、この時、未確定論理要素の認識結果の候補の数が一つになれば、その論理要素を確定することもできる。したがって、利用者が確定したり訂正した結果を用いて別の論理要素を確定することができるので、利用者における訂正作業の負荷を軽減することが可能になる。
また、実施例1によれば、所定の論理要素が確定すると、確定した論理要素よりも前に位置づけられる論理要素を自動的に確定するので、多くの未確定論理要素を自動的に確定することができ、利用者における訂正作業の負荷をより軽減することが可能になる。
また、実施例1によれば、特に、書式が未知の帳票画像を認識して文字列データを項目別に登録するような場合に有効であり、帳票画像からのデータエントリ業務の効率化に役立つ。その結果、紙帳票と電子データとの相互変換がより容易になり、紙帳票を用いる業務の効率化が実現できる。
さて、これまで実施例1においては、画像認識装置が帳票画像を再認識した場合に、再認識の認識結果を認識結果表示画面に直ちに反映して表示する手法を説明した。しかしながら、再認識の認識結果を認識結果表示画面に直ちに反映するのではなく、現に出力部に出力している認識結果と異なるものであることを示す情報を表示する手法でもよい。以下では、実施例2として、かかる手法について説明する。
[実施例2に係る画像認識装置の概要および特徴]
以下、図13を用いて、実施例2に係る画像認識装置の概要および特徴を説明する。図13は、実施例2に係る画像認識装置の概要および特徴を説明するための図である。
画像認識装置が帳票画像を再認識すると、未確定論理要素の認識結果を改善すると考えられる。つまり、利用者からみれば、一つの項目を訂正すると、それ以外の項目の認識結果も、自動的に訂正されるということになる。例えば、複数の論理要素が表示されており、誤りが一つだけであったとする。ここで、利用者が一つの誤りを訂正すれば、全ての認識結果が正解になると期待するのが自然である。しかしながら、利用者が誤り訂正を行った後で再認識が実行された結果、それまで正解が表示されていた未確定の項目が、逆に誤り結果に変わってしまう場合もあり得る。つまり、多くの場合、再認識によって認識結果は改善するが、正解であった結果が改悪される可能性も否定しきれないのである。このように、未確定論理要素が自動的に変更されるというのは、場合によっては、利用者にとっての使い勝手を悪化させるおそれもある。
そこで、実施例2に係る画像認識装置は、図13に示すように、誤り項目を訂正した後に再認識した結果、未確定要素の第1候補の認識結果が変わった場合、その項目の文字列を単に変更するのではなく、認識結果が変わったことを強調表示で出力する。
すなわち、画像認識装置は、図13の(A)に示すように、誤り項目として、本人情報の『住所』を『東京都・・』から『神奈川県・・』に変更した後に再認識した結果、未確定要素である本人情報の『電話番号』の第1候補の認識結果が、『03-444-555』から『045-666-777』に変わった場合、その項目の文字列を単に変更するのではなく、認識結果が変わったことを、図13の(B)に示すように、強調表示で出力する。利用者は、強調表示で出力されている部分を重点的に確認すればよいので、作業負荷の軽減が期待される。
[実施例2に係る画像認識装置の構成]
次に、図14を用いて、実施例2に係る画像認識装置の構成を説明する。図14は、実施例2に係る画像認識装置の構成を示すブロック図である。
図14に示すブロック図において、太線で囲む部が、実施例1に係る画像認識装置と異なり追加された部である。具体的には、実施例2に係る画像認識装置10は、制御部30に再認識結果バッファ格納部38が追加され、記憶部25に再認識結果用バッファ27が追加される。
再認識結果バッファ格納部38は、再認識の認識結果を、再認識結果用バッファ27に格納する。再認識結果用バッファ27は、認識結果表示用バッファ26と同じ構造を持つメモリ領域であり、例えば、図15の(B)に示すような内容が記憶される。
認識結果出力部33は、再認識の認識結果を出力するにあたり、再認識結果バッファ格納部38によって再認識結果用バッファ27に格納された認識結果(図15の(B))が、現に表示部13に表示している認識結果(図15の(A))と一致するか否かを論理要素ごとに比較し、一致しない論理要素については、再認識の認識結果が現に表示部13に出力している認識結果と異なるものであることを示す情報として、再認識結果用バッファ27に格納された認識結果を強調表示で出力する。
[実施例2に係る画像認識装置による処理の手順]
次に、図16を用いて、実施例2に係る画像認識装置による処理の手順を説明する。図16は、実施例2に係る画像認識装置による処理の手順を示すフローチャートである。
図11と図16とを比較するとわかるように、実施例2に係る画像認識装置による処理の手順は、ステップS214が追加された点でのみ、実施例1に係る画像認識装置による処理の手順と異なる。
すなわち、実施例2に係る画像認識装置の論理構造再認識制御部36が、全項目確定したか否かを判定し(ステップS212)、未だ確定していない場合には(ステップS212否定)、論理構造モデル変換部37によって論理構造モデル記憶部22に記憶されている論理構造モデルを変換させた後に、論理構造認識部32を制御し、再認識すると(ステップS213)、再認識結果バッファ格納部38が、再認識結果用バッファ27に再認識結果を格納する(ステップS214)。
すると、ステップS204において、認識結果出力部33が、再認識結果用バッファ27に格納された認識結果が、認識結果表示用バッファ26に格納されている認識結果と一致するか否かを論理要素ごとに比較し、一致しない論理要素については、認識結果が現に表示部13に表示している認識結果と異なるものであることを示す情報として、再認識結果用バッファ27に格納された認識結果を強調表示で出力する。
[実施例2におけるその他の認識結果表示画面]
これまで認識結果表示画面として、図13に示す認識結果表示画面を前提として説明してきたが、これに限られるものではなく、例えば、図17に示す認識結果表示画面など、いずれでもよい。すなわち、画像認識装置は、図17に示すように、誤り項目を訂正した後でも未確定論理要素の表示を変えずに、未確定論理要素を選択した際に表示される文字列の候補に再認識の結果を反映するように出力している。
例えば、画像認識装置は、図17の(A)に示すように、誤り項目として、本人情報の『住所』を『東京都・・』から『神奈川県・・』に変更した後に再認識した結果、未確定要素である本人情報の『電話番号』の第1候補の認識結果が、『03-444-555』から『045-666-777』に変わった場合、その項目(本人情報の『電話番号』)の出力を即座に変更するのではなく(『03-444-555』のまま出力)、未確定論理要素である本人情報の『電話番号』を選択した際に表示される文字列の候補に、再認識の結果(『045-666-777』)を反映するように出力している(図17の(B)を参照)。
なお、この場合、再認識の認識結果は、直ぐには認識結果表示用バッファ26に格納されず、再認識が行われても、表示部13には出力されない(利用者には提示されない)。利用者がいずれかの項目を選択して認識結果の訂正操作を行うと、それが、認識結果出力部33に通知され、そこで利用者が選択した項目のみが、再認識結果用バッファ27から認識結果表示用バッファ26にコピーされる。こうして、利用者が誤り訂正のために選択した項目のみ、再認識結果が提示される。
[実施例2の効果]
上記してきたように、実施例2によれば、未確定論理要素(未だ正しいものであると確定されていない論理要素)の改悪を防止することが可能になる。
ところで、実施例2においては、画像認識装置が、利用者から所定の論理要素を確定する確定要求の入力を受け付けると、当該所定の論理要素よりも前に位置づけられる順序で出力された論理要素各々全てについて正しいものと確定した上で再認識を行い、この再認識の認識結果をバッファに一時的に格納する手法について説明してきた。しかしながら、「再認識の認識結果をバッファに一時的に格納する」手法は、画像認識装置が、論理要素を個別に確定しながら再認識を行った場合にも、同様に適用することができるものである。
すなわち、「再認識の認識結果をバッファに一時的に格納する」手法は、この手法のみで、利用者の訂正作業の負荷を軽減させるという効果や、未確定論理要素の改悪を防止するという効果を奏するものである。したがって、画像認識装置が、論理要素の確定を個別に行うか、あるいは、所定の論理要素よりも前に位置づけられる全ての論理要素各々の自動確定を行うかに関わらず、適用することができるのである。
[実施例3に係る画像認識装置の概要および特徴を説明するための図]
図18および19を用いて、実施例3に係る画像認識装置の概要および特徴を説明する。図18は、実施例3に係る画像認識装置の概要および特徴を説明するための図であり、図19は、認識結果表示用バッファおよび再認識結果用バッファを説明するための図である。
実施例3に係る画像認識装置は、図18に示すような認識結果表示画面を表示部13に出力すると考えられる。図18の(A)の認識結果表示画面において、認識結果を確認した利用者が、本人情報の『住所』の文字列である『東京都・・・』が誤り項目であるとして、当該項目を『神奈川県・・・』に訂正したとする。その後の認識結果表示画面が図18の(B)であるが、ここで、まず、『本人情報』の『氏名』の右側が、『確定』アイコンのままであることに注意されたい(『確定』の文字ではない)。
すなわち、実施例3に係る画像認識装置は、所定の論理要素(本人情報の『住所』)を正しいものと確定する確定要求の入力を受け付けても、当該所定の論理要素よりも前に利用者によって位置づけられる順序で出力された論理要素(本人情報の『名前』)について、正しいものと確定することなく、未確定論理要素として扱っているのである。
また、図18の(B)で、本人情報の『電話番号』、職場情報の『住所』および『電話番号』が強調表示で出力されている点にも注意されたい。
すなわち、実施例3に係る画像認識装置は、本人情報の『住所』を『東京都・・』から『神奈川県・・』に変更した後に再認識した結果、認識結果が変わらなかった未確定論理要素(本人情報の『名前』)については、強調表示で出力せず、一方、認識結果が変わった未確定要素(本人情報の『電話番号』、職場情報の『住所』および『電話番号』)については、強調表示で出力しているのである。
この時の認識結果表示用バッファ26および再認識結果用バッファ27について、図19を用いて説明する。図19の(A)は、利用者によって、本人情報の『住所』が確定された後であって再認識する前の認識結果表示用バッファ26を示すものであるが、本人情報の『姓』も『名』も、確定された論理要素として扱われていない。また、図19の(B)は、利用者によって、本人情報の『住所』が確定された後であって再認識した後の再認識結果用バッファ27を示すものであるが、(A)と第1候補が異なることになった論理要素のみ(本人情報の『電話番号』、職場情報の『住所』および『電話番号』のみ)、強調表示するものとして扱われている。
[実施例3に係る画像認識装置による処理の手順]
次に、図20を用いて、実施例3に係る画像認識装置による処理の手順を説明する。図20は、実施例3に係る画像認識装置による処理の手順を示すフローチャートである。
図16と図20とを比較するとわかるように、実施例3に係る画像認識装置による処理の手順は、図16におけるステップS210およびステップS211が削除された点でのみ、実施例2に係る画像認識装置による処理と異なる(第2の論理要素確定部35が不要になる)。
すなわち、実施例3に係る画像認識装置は、第1の論理要素確定部34は、全項目確定ボタンの押下があったか否かを判定し(ステップS305)、押下がない場合(ステップS305否定)、誤り訂正操作があった場合には(ステップS306肯定)、誤り訂正操作がされた所定の論理要素について、正しいものと確定し(ステップS307)、論理構造再認識制御部36に伝達する。
また、押下がない場合で(ステップS305否定)、かつ、誤り訂正操作もない場合で(ステップS306否定)、項目別の確定ボタンの押下があった場合には(ステップS308肯定)、第1の論理要素確定部34は、項目別に確定された指定項目の論理要素について、正しいものと確定し(ステップS309)、論理構造再認識制御部36に伝達する。
その後、論理構造再認識制御部36は、全項目確定したか否かを判定し(ステップS310)、未だ確定していない場合には(ステップS310否定)、論理構造モデル変換部37によって論理構造モデル記憶部22に記憶されている論理構造モデルを変換させた後に、論理構造認識部32を制御し、再認識させ(ステップS311)、再認識結果バッファ格納部38が、再認識結果用バッファ27に再認識結果を格納する(ステップS312)。
すると、ステップS304において、認識結果出力部33が、再認識結果用バッファ27に格納された認識結果が、認識結果表示用バッファ26に格納されている認識結果と一致するか否かを論理要素ごとに比較し、一致しない論理要素については、認識結果が現に表示部13に表示している認識結果と異なるものであることを示す情報として、再認識結果用バッファ27に格納された認識結果を強調表示で出力する。
[実施例3におけるその他の認識結果表示画面]
これまで認識結果表示画面として、図18に示す認識結果表示画面を前提として説明してきたが、これに限られるものではなく、例えば、図21に示す認識結果表示画面など、いずれでもよい。すなわち、画像認識装置は、図21に示すように、誤り項目を訂正した後でも未確定論理要素の表示を変えずに、未確定論理要素を選択した際に表示される文字列の候補に再認識の結果を反映するように出力している。
なお、この場合においても、図21の(B)に示すように、『本人情報』の『氏名』の右側が、『確定』アイコンのままであることに注意されたい(『確定』の文字ではない)。
[実施例3の効果]
上記してきたように、実施例3によれば、訂正作業の負荷を軽減することが可能になる。すなわち、実施例3に係る画像認識装置は、利用者が確定されたり訂正されるなどして確定された論理要素を固定した上で論理構造モデルを参照することで、その他の未確定論理要素の認識結果を改善する。また、この時、未確定論理要素の認識結果の候補の数が一つになれば、その論理要素を確定することもできる。したがって、利用者が確定したり訂正した結果を用いて別の論理要素を確定することができるので、利用者における訂正作業の負荷を軽減することが可能になる。
また、実施例3によれば、特に、書式が未知の帳票画像を認識して文字列データを項目別に登録するような場合に有効であり、帳票画像からのデータエントリ業務の効率化に役立つ。その結果、紙帳票と電子データとの相互変換がより容易になり、紙帳票を用いる業務の効率化が実現できる。
また、実施例3によれば、未確定論理要素(未だ正しいものであると確定されていない論理要素)の改悪を防止することが可能になる。
[他の実施例]
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
まず、上記の実施例においては、画像認識装置が再認識を行う手法として、画像認識装置が論理構造再認識制御部を備え、論理構造モデル変換部が論理構造モデルを変換してから論理構造認識部に再度認識させる手法を説明してきたが、本発明はこれに限られるものではない。確定された論理要素各々の確定内容に基づいて、未確定論理要素各々について論理構造を再認識する手法であれば、具体的な手法はいずれでもよい。
[システム構成等]
また、本実施例において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順(図11、16、20等)、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示(図2、14等)の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[プログラム]
上記の実施例で説明した各種の処理は、予め用意されたプログラムやパーソナル・コンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図22を用いて、上記の実施例1と同様の機能を有する画像認識プログラムを実行するコンピュータの一例を説明する。図22は、画像認識プログラムを実行するコンピュータを示す図である。
図22に示すように、画像認識プログラム(コンピュータ)40は、キャッシュ41、RAM42、HDD43、ROM44およびCPU45をバス46で接続して構成される。ここで、ROM44には、上記の実施例1と同様の機能を発揮する画像認識プログラム、つまり、図22に示すように、文字列認識プログラム44a、論理構造認識プログラム44b、認識結果出力プログラム44c、第1の論理要素確定プログラム44d、第2の論理要素確定プログラム44e、論理構造再認識制御プログラム44f、論理構造モデル変換プログラム44gが予め記憶されている。
そして、CPU45は、これらのプログラム44a〜44gを読み出して実行することで、図22に示すように、各プログラム44a〜44gは、文字列認識プロセス45a、論理構造認識プロセス45b、認識結果出力プロセス45c、第1の論理要素確定プロセス45d、第2の論理要素確定プロセス45e、論理構造再認識制御プロセス45f、論理構造モデル変換プロセス45gとなる。なお、各プロセス45a〜45gは、図2に示した、文字列認識部31、論理構造認識部32、認識結果出力部33、第1の論理要素確定部34、第2の論理要素確定部35、論理構造再認識制御部36、論理構造モデル変換部37に各々対応する。
また、HDD43には、図22に示すように、文字認識辞書テーブル43aおよび論理構造モデルテーブル43bが設けられる。なお、各テーブル43aおよび43bは、図2に示した、文字認識辞書記憶部21および論理構造モデル記憶部22に各々対応する。また、RAM42には、図22に示すように、認識結果表示用バッファ42aが設けられる。
ところで、上記した各プログラム44a〜44gについては、必ずしもROM44に記憶させておく必要はなく、例えば、コンピュータ40に挿入されるフレキシブルディスク(FD)、CD−ROM、MOディスク、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、または、コンピュータ40の内外に備えられるハードディスクドライブ(HDD)などの「固定用の物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ40に接続される「他のコンピュータ(またはサーバ)」に記憶させておき、コンピュータ40がこれらからプログラムを読み出して実行するようにしてもよい。
以上のように、本発明に係る画像認識プログラム、画像認識装置および画像認識方法は、所定の論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該文字列各々と当該論理要素各々との対応を認識することで、当該論理要素各々を認識することに有用であり、特に、訂正作業の負荷を軽減することに適する。
実施例1に係る画像認識装置の概要および特徴を説明するための図である。 実施例1に係る画像認識装置の構成を示すブロック図である。 帳票画像を説明するための図である。 認識結果表示画面を説明するための図である。 論理構造モデル記憶部を説明するための図である。 認識結果表示用バッファを説明するための図である。 誤り訂正操作について説明するための図である。 論理要素自動確定について説明するための図である。 論理構造モデル記憶部(変換後)を説明するための図である。 誤り訂正操作について説明するための図である。 実施例1に係る画像認識装置による処理の手順を示すフローチャートである。 その他の認識結果表示画面を説明するための図である。 実施例2に係る画像認識装置の概要および特徴を説明するための図である。 実施例2に係る画像認識装置の構成を示すブロック図である。 認識結果表示用バッファおよび再認識結果用バッファを説明するための図である。 実施例2に係る画像認識装置による処理の手順を示すフローチャートである。 その他の認識結果表示画面を説明するための図である。 実施例3に係る画像認識装置の概要および特徴を説明するための図である。 認識結果表示用バッファおよび再認識結果用バッファを説明するための図である。 実施例3に係る画像認識装置による処理の手順を示すフローチャートである。 その他の認識結果表示画面を説明するための図である。 画像認識プログラムを実行するコンピュータを示す図である。
符号の説明
10 画像認識装置
11 画像入力部
12 ユーザ操作入力部
13 表示部
20 記憶部
21 文字認識辞書記憶部
22 論理構造モデル記憶部
25 記憶部
26 認識結果表示用バッファ
27 再認識結果用バッファ
30 制御部
31 文字列認識部
32 論理構造認識部
33 認識結果出力部
34 第1の論理要素確定部
35 第2の論理要素確定部
36 論理構造再認識制御部
37 論理構造モデル変換部
38 再認識結果バッファ格納部

Claims (4)

  1. 論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該文字列各々と当該論理要素各々との対応を認識することで、当該論理要素各々を認識する方法をコンピュータに実行させる画像認識プログラムであって、
    前記対応が認識または再認識されると、認識結果である複数の論理要素各々を出力部に出力する出力手順と、
    前記出力手順によって出力された認識結果を確認する利用者から、当該複数の論理要素各々の内正しいものとされる論理要素を確定する確定要求の入力を受け付けると、当該論理要素について、正しいものと確定する第1の確定手順と、
    前記第1の確定手順によって確定された前記論理要素よりも前に前記利用者によって確認済みであると位置づけられる順序で出力された論理要素各々全てについて、前記第1の確定手順で確定した論理要素とは異なる他の論理要素を正しいものと確定する第2の確定手順と、
    前記第1の確定手順および前記第2の確定手順によって正しいものであると確定された論理要素各々の確定内容に基づいて、未だ正しいものであると確定されていない論理要素各々について前記対応を再認識する再認識手順と、
    をコンピュータに実行させることを特徴とする画像認識プログラム。
  2. 前記再認識手順による認識結果をバッファに格納する格納手順をさらに備え、
    前記出力手順は、前記再認識手順による認識結果を出力するにあたり、前記格納手順によって格納された認識結果が現に出力部に出力している認識結果と一致するか否かを論理要素ごとに比較し、一致しない論理要素については、前記再認識手順による認識結果が現に出力部に出力している認識結果と異なるものであることを示す情報を出力することを特徴とする請求項1に記載の画像認識プログラム。
  3. 論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該文字列各々と当該論理要素各々との対応を認識することで、当該論理要素各々を認識する画像認識装置であって、
    前記対応が認識または再認識されると、認識結果である複数の論理要素各々を出力部に出力する出力手段と、
    前記出力手段によって出力された認識結果を確認する利用者から、当該複数の論理要素各々の内正しいものとされる論理要素を確定する確定要求の入力を受け付けると、当該論理要素について、正しいものと確定する第1の確定手段と、
    前記第1の確定手段によって確定された前記論理要素よりも前に前記利用者によって確認済みであると位置づけられる順序で出力された論理要素各々全てについて、前記第1の確定手段で確定した論理要素とは異なる他の論理要素を正しいものと確定する第2の確定手段と、
    前記第1の確定手段および前記第2の確定手段によって正しいものであると確定された論理要素各々の確定内容に基づいて、未だ正しいものであると確定されていない論理要素各々について前記対応を再認識する再認識手段と、
    を備えたことを特徴とする画像認識装置。
  4. 論理構造を構成する複数の論理要素各々として文字列各々が記載されている画像について、当該文字列各々と当該論理要素各々との対応を認識することで、当該論理要素各々を認識する画像認識方法であって、
    前記対応が認識または再認識されると、認識結果である複数の論理要素各々を出力部に出力する出力工程と、
    前記出力工程によって出力された認識結果を確認する利用者から、当該複数の論理要素各々の内正しいものとされる論理要素を確定する確定要求の入力を受け付けると、当該論理要素について、正しいものと確定する第1の確定工程と、
    前記第1の確定工程によって確定された前記論理要素よりも前に前記利用者によって確認済みであると位置づけられる順序で出力された論理要素各々全てについて、前記第1の確定工程で確定した論理要素とは異なる他の論理要素を正しいものと確定する第2の確定工程と、
    前記第1の確定工程および前記第2の確定工程によって正しいものであると確定された論理要素各々の確定内容に基づいて、未だ正しいものであると確定されていない論理要素各々について前記対応を再認識する再認識工程と、
    を含んだことを特徴とする画像認識方法。
JP2007284294A 2007-10-31 2007-10-31 画像認識プログラム、画像認識装置および画像認識方法 Expired - Fee Related JP5338063B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007284294A JP5338063B2 (ja) 2007-10-31 2007-10-31 画像認識プログラム、画像認識装置および画像認識方法
US12/250,302 US8503784B2 (en) 2007-10-31 2008-10-13 Image recognition apparatus, image recognition method, and storage medium recording image recognition program
CN2008101706878A CN101425132B (zh) 2007-10-31 2008-10-30 图像识别装置和识别方法及记录图像识别程序的存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007284294A JP5338063B2 (ja) 2007-10-31 2007-10-31 画像認識プログラム、画像認識装置および画像認識方法

Publications (2)

Publication Number Publication Date
JP2009110444A JP2009110444A (ja) 2009-05-21
JP5338063B2 true JP5338063B2 (ja) 2013-11-13

Family

ID=40582918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007284294A Expired - Fee Related JP5338063B2 (ja) 2007-10-31 2007-10-31 画像認識プログラム、画像認識装置および画像認識方法

Country Status (3)

Country Link
US (1) US8503784B2 (ja)
JP (1) JP5338063B2 (ja)
CN (1) CN101425132B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4759638B2 (ja) * 2009-12-25 2011-08-31 株式会社スクウェア・エニックス リアルタイムなカメラ辞書
JP4923134B2 (ja) * 2010-06-08 2012-04-25 株式会社スクウェア・エニックス リアルタイムなカメラ辞書
WO2013079907A1 (en) * 2011-11-30 2013-06-06 The University Of Surrey System, process and method for the detection of common content in multiple documents in an electronic system
US20150006362A1 (en) * 2013-06-28 2015-01-01 Google Inc. Extracting card data using card art
CN103799997A (zh) * 2014-02-11 2014-05-21 辛勤 基于图像识别的生理监测参数的记录方法及系统
CN106909548B (zh) * 2015-12-22 2021-01-08 北京奇虎科技有限公司 基于服务器的图片加载方法及装置
US11256710B2 (en) 2016-10-20 2022-02-22 Microsoft Technology Licensing, Llc String transformation sub-program suggestion
US11620304B2 (en) * 2016-10-20 2023-04-04 Microsoft Technology Licensing, Llc Example management for string transformation
US10846298B2 (en) 2016-10-28 2020-11-24 Microsoft Technology Licensing, Llc Record profiling for dataset sampling
CN106789204A (zh) * 2016-12-09 2017-05-31 邯郸美的制冷设备有限公司 一种智能配网的方法、装置及智能设备
CN107545391A (zh) * 2017-09-07 2018-01-05 安徽共生物流科技有限公司 一种基于图像识别的物流单据智能分析与自动存储方法
CN107622266B (zh) * 2017-09-21 2019-05-07 平安科技(深圳)有限公司 一种ocr识别的处理方法、存储介质和服务器
US11562326B2 (en) * 2019-02-20 2023-01-24 eCU Technology, LLC User interface and system for client database management
JP2021114211A (ja) * 2020-01-21 2021-08-05 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7241822B2 (ja) * 2021-08-20 2023-03-17 株式会社マネーフォワード 証憑構造分析システム、証憑構造分析方法及び証憑構造分析プログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05158605A (ja) 1991-12-10 1993-06-25 Casio Comput Co Ltd データ入力装置
JPH07134750A (ja) * 1993-11-11 1995-05-23 Nec Corp 文書画像認識装置
JPH07192095A (ja) * 1993-12-27 1995-07-28 Nec Corp 文字列入力装置
JPH08194772A (ja) * 1995-01-13 1996-07-30 Toshiba Corp 光学的文字読取り装置
WO1997005561A1 (fr) * 1995-07-31 1997-02-13 Fujitsu Limited Processeur de supports et procede de traitement de supports
JP3452774B2 (ja) * 1997-10-16 2003-09-29 富士通株式会社 文字認識方法
JP3639126B2 (ja) * 1998-01-22 2005-04-20 富士通株式会社 住所認識装置及び住所認識方法
US7099507B2 (en) * 1998-11-05 2006-08-29 Ricoh Company, Ltd Method and system for extracting title from document image
JP3425408B2 (ja) * 2000-05-31 2003-07-14 株式会社東芝 文書読取装置
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
US6832726B2 (en) * 2000-12-19 2004-12-21 Zih Corp. Barcode optical character recognition
US7142728B2 (en) * 2002-05-17 2006-11-28 Science Applications International Corporation Method and system for extracting information from a document
JP4615272B2 (ja) * 2003-09-29 2011-01-19 富士フイルム株式会社 認証システム、プログラム、及び建築物
CN1848109A (zh) 2005-04-13 2006-10-18 摩托罗拉公司 用于编辑光学字符识别结果的方法和系统
JP2006293810A (ja) * 2005-04-13 2006-10-26 Oki Electric Ind Co Ltd 帳票データ化装置、帳票データ化システムおよび帳票データ化方法
JP2007222747A (ja) 2006-02-22 2007-09-06 Toshiba Corp 郵便物処理装置及び郵便物処理方法

Also Published As

Publication number Publication date
JP2009110444A (ja) 2009-05-21
CN101425132B (zh) 2012-10-17
CN101425132A (zh) 2009-05-06
US8503784B2 (en) 2013-08-06
US20090110282A1 (en) 2009-04-30

Similar Documents

Publication Publication Date Title
JP5338063B2 (ja) 画像認識プログラム、画像認識装置および画像認識方法
JP4998219B2 (ja) 帳票認識プログラム、帳票認識装置および帳票認識方法
JP5126068B2 (ja) 文言い換え方法、プログラムおよびシステム
JP4077909B2 (ja) 帳票処理装置
WO2020218512A1 (ja) 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム
JP4750802B2 (ja) 帳票処理プログラムおよび帳票処理装置
US7817825B2 (en) Apparatus, system and method for person verification
US20070009158A1 (en) Paper and electronic recognizable forms
JP2007317022A (ja) 手書文字処理装置及び手書文字処理方法
JP2008021068A (ja) 帳票認識装置及び帳票認識プログラム
JP2004013813A (ja) 情報管理システムおよび情報管理方法
JP5253788B2 (ja) 画像認識装置、画像認識プログラムおよび画像認識方法
JP2020087112A (ja) 帳票処理装置および帳票処理方法
Shirali-Shahreza et al. Multilingual captcha
Lund Ensemble Methods for Historical Machine-Printed Document Recognition
JP2019074807A (ja) 情報処理装置及びプログラム
JP3484446B2 (ja) 光学文字認識装置
JP4409408B2 (ja) 電子申請支援サーバ、電子申請支援方法、および電子申請支援プログラム
JP2010237909A (ja) 知識補正プログラム、知識補正装置および知識補正方法
JP4809024B2 (ja) 帳票読取装置、プログラム及び帳票読取システム
JP2002279352A (ja) 文字認識装置、文字認識方法および記録媒体
JP2004046388A (ja) 情報処理システムおよび文字修正方法
JP2004062351A (ja) レイアウト情報登録システム、レイアウト情報登録プログラム、およびレイアウト情報登録方法
JPH0749924A (ja) 手書き文字認識装置
JP2829002B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120717

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130520

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130722

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees