JP2004145736A

JP2004145736A - 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体

Info

Publication number: JP2004145736A
Application number: JP2002311439A
Authority: JP
Inventors: Kazunori Masuda; 増田　和紀
Original assignee: Canon Software Inc
Current assignee: Canon IT Solutions Inc
Priority date: 2002-10-25
Filing date: 2002-10-25
Publication date: 2004-05-20

Abstract

【課題】イメージデータから文字認識しテキストデータを、様々なアプリケーションとの連動が容易に可能な形式で出力すること。
【解決手段】所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として予め登録しておき、記入済みの前記記入用紙３００を光学的に読み取ることによって生成された文書画像情報を入力し、該入力された文書画像情報から文字認識を行い、該文字認識結果と前記登録された構造化情報から意味と構造を有するＸＭＬ文書を生成し、該生成されたＸＭＬ文書を出力する構成を特徴とする。
【選択図】　　　図３

Description

【０００１】
【発明の属する技術分野】
本発明は、イメージデータから文字認識しテキストデータを出力可能な文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体に関するものである。
【０００２】
【従来の技術】
従来より、ＯＣＲ（Ｏｐｔｉｃａｌ　Ｃｈａｒａｃｔｅｒ　Ｒｅａｄｅｒ）機能を備えた文字認識装置では、スキャナ等で読み取った紙文書のイメージデータをテキスト情報に変換して出力することが可能であった。そして、このような文書認識装置から、一般的に文書認識結果として出力されるテキストは、非構造化テキストであるＣＳＶ（Ｃｏｍｍａ　Ｓｅｐａｒａｔｅｄ　Ｖａｌｕｅ）等の形式を取っていた。
【０００３】
【発明が解決しようとする課題】
しかし、上述したように従来の文字認識装置が生成していた非構造化テキストは、単純なテキストの羅列であり、各テキストを意味のある情報とするためには、Ｃ言語やＪａｖａ（登録商標）などで作成された個別の変換プログラムを介在させ、文字列の順番のみから変換プログラム内で持っている意味情報と組み合わせること等によって、そのデータが持つ意味を取り出さなくてはならない。そのため、ＯＣＲ結果を各種業務アプリケーションで利用するには、業務アプリケーション毎に変換プログラムを開発する必要があり非常に煩雑であった。
【０００４】
なお、特開平１１−６６１９６号公報には、入力した文書画像からテキストデータの認識を行うとともに、文書画像のレイアウト（タイトル部，小見出し部，キャプション，ヘッダ・フッタ部等）を解析してレイアウト情報を抽出し、該抽出したレイアウト情報に基づいて、認識したテキストデータをレイアウトしたＰｏｓｔ　Ｓｃｒｉｐｔ文書，ＨＴＭＬ文書を生成する文書認識装置が提案されている。
【０００５】
しかしながら、上記特開平１１−６６１９６号公報に記載された文書認識装置は、ＯＣＲ認識した文書の表示上の再現（書式の再現）を目的としたものであるため、文書のタイトル部，小見出し部，キャプション，ヘッダ・フッタ部等を認識してＨＴＭＬ化しているだけであり、文書の表示上の再現には意味があるものの、ＯＣＲ認識したテキストデータに意味や論理的な構造を付されたものではなく、結局、各種業務アプリケーションで直接使用することはできなかった。もともとＨＴＭＬは、閲覧（ブラウズ）することを目的とした構造化言語であり、文書を構成する要素関係（文書の意味や構造）をつかむことは出来ない。
【０００６】
また、構造化テキストの中でＸＭＬ（ｅＸｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ）は、その中に意味のある名前を持ち、且つ論理的な構造を表すことが出来る（文書に、文書を構成する各要素の意味と各要素間の構造（関係）とを示す情報を埋め込むことができる）。このＸＭＬの普及に伴い、各種業務アプリケーションのデータの入出力にＸＭＬを標準的に採用するケースが増えてきている。なお、上記特開平１１−６６１９６号公報に記載された文書認識装置でも、ＸＭＬにより出力することが可能であるが、この特開平１１−６６１９６号公報に記載された文書認識装置でのＸＭＬ出力とは、上記ＨＴＭＬ出力の場合と同様にレイアウト情報の抽出，解析を行うものであり、文書の意味情報と構造を含んだＸＭＬを生成可能なものではなかった。
【０００７】
そのため、上記特開平１１−６６１９６号公報に記載された文書認識装置において生成されるＸＭＬ文書は、オリジナル文書の再現表示以外に利用することは困難であり、結局、個別の変換プログラムを介在させることなしには、文字列の意味を捉えることが出来ず、各種業務アプリケーションで直接使用することができず煩雑であるという問題点があった。
【０００８】
本発明は、上記の問題点を解決するためになされたもので、本発明の目的は、所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として予め登録しておき、記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力し、該入力された文書画像情報から文字認識を行い、該文字認識結果と前記登録された構造化情報から意味と構造を有する構造化言語を用いた文書を生成し、該生成された前記意味と構造を有する構造化言語を用いた文書を出力することにより、ＯＣＲの基となる指定用紙に記入された文書画像に内含している意味と構造を該指定用紙の構造化情報として登録しておき、該構造化情報により、ＸＭＬの表現を用いて、文書画像から構造の情報と意味のある文字列を取り出すことができ、ＯＣＲからの読み取りをそのままＸＭＬとして意味と構造をもたせたデータとして出力し、業務アプリケーションとの連動性を高めることを目的とした文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体を提供することである。
【０００９】
【課題を解決するための手段】
本発明に係る第１の発明は、所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として登録する登録手段（図４に示す用紙構造登録画面４００，図５に示すフィールド設定画面５００，図６に示す領域設定画面６００，図２に示すＣＰＵ２０１，ＨＤ２１１，図８）と、記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力する入力手段（図１に示すスキャナ１０２）と、前記入力手段により入力された文書画像情報から文字認識を行う文字認識手段（図２に示すＣＰＵ２０１，図９のステップＳ２０４）と、前記文書認識手段による文字認識結果と前記登録手段に登録された構造化情報から意味と構造を有する構造化言語（ＸＭＬ）を用いた文書（ＸＭＬ文書）を生成する生成手段（図２に示すＣＰＵ２０１，図９のステップＳ２０５，図１０）と、前記生成手段により生成された前記意味と構造を有する構造化言語を用いた文書を出力する出力手段（図２に示すＣＰＵ２０１，図９のステップＳ２０６）とを備えたことを特徴とする。
【００１０】
本発明に係る第２の発明は、前記登録手段は、複数種類の所定の記入用紙に対して、記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報としてそれぞれ登録可能なものであり、前記入力手段により入力された文書画像情報の構造化情報を、前記登録手段に登録されている構造化情報から特定する特定手段（図２に示すＣＰＵ２０１，図９のステップＳ２０２，Ｓ２０３）を有することを特徴とする。
【００１１】
本発明に係る第３の発明は、前記登録手段は、複数種類の所定の記入用紙に対して、前記各記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として、該記入用紙を光学的に読み取ることにより生成された用紙画像情報に対応させて登録するものであり、前記特定手段（図２に示すＣＰＵ２０１，図９のステップＳ２０２，Ｓ２０３）は、前記入力手段により入力された文書画像情報と前記登録手段に登録された用紙画像情報とを比較して前記入力手段により入力された文書画像情報の構造化情報を特定することを特徴とする。
【００１２】
本発明に係る第４の発明は、前記特定手段は、前記入力手段により入力された文書画像情報の構造化情報を前記登録手段に登録された構造化情報から指定することにより特定することを特徴とする。
【００１３】
本発明に係る第５の発明は、所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として登録する登録工程（図８）と、記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力する入力工程（図９のステップＳ２０１）と、該入力された文書画像情報から文字認識を行う文字認識工程（図９のステップＳ２０４）と、該文字認識結果と前記登録された構造化情報から意味と構造を有する構造化言語を用いた文書を生成する生成工程（図９のステップＳ２０５）と、該生成された前記意味と構造を有する構造化言語を用いた文書を出力する出力工程（図９のステップＳ２０６）とを有することを特徴とする。
【００１４】
本発明に係る第６の発明は、請求項５に記載された文字認識データ出力方法を実行するためのプログラムであることを特徴とする。
【００１５】
本発明に係る第７の発明は、請求項５に記載された文字認識データ出力方法を実行するためのプログラムを記録媒体にコンピュータが読み取り可能に記憶させたことを特徴とする。
【００１６】
【発明の実施の形態】
図１は、本発明の文字認識装置を適用可能なシステム構成を示す構成図である。
【００１７】
図において、１０１は本発明の文書認識装置を適用可能なコンピュータで、スキャナ１０２，デジタル複合機１０３等からイーサネット（登録商標）等のＬＡＮ１０５を介して入力された文書画像情報からＸＭＬファイルを生成する。
【００１８】
スキャナ１０２は、紙文書を光学的に読み取って文書画像を生成する。デジタル複合機１０３は、紙文書を光学的に読み取って文書画像を生成する機能や、画像情報をプリント出力するプリント機能や、公衆回線を介してＦＡＸ１０６にファクシミリ通信を行う機能等を有する。
【００１９】
１０４はアプリケーションサーバで、コンピュータ１０１により生成されたＸＭＬファイルを入力して各種業務アプリケーションを実行する。
【００２０】
図２は、図１に示したコンピュータ１０１の構成の一例を示すブロック図である。
【００２１】
図において、２０１はＣＰＵで、ＲＯＭ２０３のプログラム用ＲＯＭに記憶されたプログラムに基づいてシステムバス２０４に接続された各デバイスを制御し、クライアント１０１全体を統括制御する。
【００２２】
また、このＲＯＭ２０３のフォント用ＲＯＭにはフォントデータ等を記憶し、ＲＯＭ２０３のデータ用ＲＯＭには各種データを記憶する。２０２はＲＡＭで、ＣＰＵ２０１の主メモリ，ワークエリア等として機能する。
【００２３】
２０５はキーボードコントローラ（ＫＢＣ）で、キーボード（ＫＢ）２０９や例えばマウス等のポインティングデバイス（ＰＤ）２１２からの入力を制御する。２０６はＣＲＴコントローラ（ＣＲＴＣ）で、ＣＲＴディスプレイ（ＣＲＴ）２１０の表示を制御する。なお、ここでは、表示装置としてＣＲＴを設けているがＬＣＤ等のその他の形式の表示装置であってもよい。
【００２４】
２０７はメモリコントローラ（ＭＣ）で、ハードディスク（ＨＤ）２１１とのアクセスを制御する。２０８はネットワークインタフェース（ＮＷ　Ｉ／Ｆ）で、ＬＡＮ１０５を介してスキャナ１０２，デジタル複合機１０３，アプリケーションサーバ１０４等と通信可能である。このネットワークインタフェース２０８により、コンピュータ１０１はスキャナ１０２又はデジタル複合機１０３により画像入力を行い、生成したＸＭＬデータをアプリケーションサーバ１０４に出力することができる。
【００２５】
また、ＣＰＵ２０１は、ユーザからの指示（ＫＢ２０９又は図示しないマウス等からの指示）に基づいてサーバ１０４に対して種々の機能に対応する処理の実行を指示することができる。
【００２６】
さらに、パーソナルコンピュータ１０１は、図示しないフレキシブルディスクデバイスやＣＤ−ＲＯＭデバイス等を備えるものとする。
【００２７】
以下、図３を用いて、本発明の文字認識装置の機能について説明する。
【００２８】
図３は、本発明の文字認識装置の機能を示す模式図である。
【００２９】
図において、３００は指定用紙で、この指定用紙３００内の領域３０１〜３０７に記載された文字列を読み取り、領域３０１〜３０７から抽出されたテキストデータに、意味と構造（木構造）を付したＸＭＬ文書３２０を生成する。
【００３０】
なお、ＸＭＬでは、文書構造を構成する部分を「要素」（エレメント：Ｅｌｅｍｅｎｔ）と呼び、要素は（タグ：ｔａｇ）を使って記述される。このように、タグを使った記述方式を採用することで、データの意味やデータ構造を保持したまま、データを取り出すことが出来る。
【００３１】
よって、イメージデータから取り出した文字列からＸＭＬ文書を作成することにより、イメージデータから取り出した文字列データを、タグによって記述された要素として認識することが出来る。
【００３２】
すなわち、図３の例でいえば、ＸＭＬ文書では、郵便番号は、「＜郵便番号＞３３６−９９９９＜／郵便番号＞」という要素で記述される。
【００３３】
さらにＸＭＬは、タグでマークアップされた要素を入れ子構造にし、データ構造をも同様に表現することができる。
【００３４】
用紙は、その用紙そのものが全体として、意味と構造をもっている。図３の場合では、全体が「注文」という情報であることを示しており、その中に注文の明細情報を格納している。つまり、図３の用紙から生成されたＸＭＬ文書は、全体は「＜注文＞・＜／注文＞」という要素に、さらにはその中の「注文明細」は、「＜注文明細＞・＜／注文明細＞」という要素として、入れ子構造として記述され、意味と構造を表現することが可能になる。
【００３５】
このように、本発明は、ＯＣＲによって文書を解析し、意味と構造とをＸＭＬを用いて出力するものである。
【００３６】
以下、図４〜図８を参照して、本発明の文字認識装置における用紙構造登録処理手順について説明する。
【００３７】
図４は、図３に示した指定用紙３００等の用紙を登録するための用紙構造登録画面の一例を示す模式図であり、ユーザにより用紙構造登録が指示された場合に、図２に示したＣＲＴ２１０上に表示される。
【００３８】
図において、４００は用紙構造登録画面であり、この用紙構造登録画面４００において、４０１は用紙名入力欄で、登録する用紙の名称（図３の例では「注文」）を入力する。４０２は新規キーで、このキーを図２に示したＰＤ２１２等で指示することにより、図５に示すフィールド入力画面５００が表示され、フィールドを登録することができる。４０３はフィールド表示欄で、登録されたフィールドが木構造で表示される。
【００３９】
４０４はＯＫキーで、このキーをＰＤ２１２等で指示することにより用紙設定を確定し、用紙構造登録画面４００での設定内容で、用紙情報がＨＤ２１１内に登録され、用紙構造登録画面４００を終了する。
【００４０】
４０５はキャンセルキーで、このキーをＰＤ２１２等で指示することにより、用紙構造登録画面４００での登録内容を無効とし、用紙構造登録画面４００を終了する。
【００４１】
図５は、図４に示した用紙構造登録画面４００で登録される用紙にフィールド設定するためのフィールド設定画面の一例を示す模式図であり、図４に示した新規キー４０２が指示されたことに応じて図２に示したＣＲＴ２１０上に表示される。
【００４２】
図において、５０１はフィールド名入力欄で、後述する図６に示す領域入力画面６００により設定される本フィールドに対応する領域のフィールド名を入力する。
【００４３】
５０２は種類入力欄で、図６で設定される領域のデータ種別を入力する。例えば、図６で選択される領域内のＯＣＲ認識されるデータがテキストデータである場合は「テキスト」を選択し、数値データである場合には「数値」を選択し、日付データである場合には「日付」を選択する。これにより、文字認識時に、「テキスト」，「数値」，「日付」等の種類に応じた文字認識を行うことができ、文字認識精度を向上することが可能となる。
【００４４】
５０３はフィールド入力欄で、種類入力欄５０２で「テキスト」又は「数値」が選択された場合に、本フィールドのデータ量を入力する。
【００４５】
５０４はＯＫキーで、このキーをＰＤ２１２等で指示することによりフィールド設定を確定し、図６に示す領域指定画面６００に進む。
【００４６】
５０５はキャンセルキーで、このキーをＰＤ２１２等で指示することにより、フィールド設定画面５００での設定内容を無効とし、図４に示した用紙構造登録画面４００に戻る。
【００４７】
図６は、図５で設定したフィールドに対応する領域を設定するための領域設定画面の一例を示す模式図であり、図５に示したＯＫキー５０４が指示されたことに応じて図２に示したＣＲＴ２１０上に表示される。
【００４８】
図において、６０１は図３に示した指定用紙３００をスキャナ１０２等により入力した用紙イメージ情報である。
【００４９】
この用紙イメージ情報を、６０２〜６０８に示すように、ＰＤ２１２等で用紙上の所定の領域を指示（ドラッグ・アンド・ドロップ）し、ＯＫキー６０９を指示することにより、６０２で示した領域が図５で設定したフィールドに対応する領域として設定し、図５に示したフィールド設定画面５００に戻る。
【００５０】
なお、ドラッグ・アンド・ドロップによる領域の指定は、既にフィールド設定された領域の内側に指定してもよい。この場合、内側に指定されたフィールドは、そのフィールドを包含するフィールドの下位のフィールドとして定義される。この階層構造は、２層に限らず、同様の指定でさらに深く階層定義も可能になる。
【００５１】
具体的には、既にＰＤ２１２にてドラッグ・アンド・ドロップで文字入力領域に範囲指定を行って領域付けられたそのフィールド６０６に関して、さらに、複数の領域６０７〜６０８をドラッグ・アンド・ドロップすることにより、その領域６０７〜６０８を前記フィールドの下位のフィールドとして指定することができる。この階層構造は、２層に限らず、同様の指定でさらに深く階層定義も可能になる。
【００５２】
６１０はキャンセルキーで、このキーをＰＤ２１２等で指示することにより、領域設定画面６００での設定内容を無効とし、図５に示したフィールド設定画面５００に戻る。
【００５３】
図７は、本発明の文字認識装置における用紙構造登録結果の一例を示す模式図である。
【００５４】
（ａ）は、ユーザが、用紙７０１の用紙名を「注文」とし、領域７０２のフィールド名を「お客様名」、領域７０３を「郵便番号」、領域７０４を「住所」、領域７０５を「電話番号」、領域７０６名を「注文明細」、領域７０７を「商品番号」、領域７０８を「数量」としてフィールド指定し、用紙を登録した場合に相当する。
【００５５】
これにより、（ｂ）に示すような用紙構造が指定される。
【００５６】
なお、ここで、フィールド「注文明細」は、フィールド「商品番号」，「数量」という２つの要素（フィールド）から成り立つものであり、フィールド「商品番号」，「数量」という繰り返しのある複数の要素が、「注文明細」の下位の要素（フィールド）として定義されていることを示している。
【００５７】
図８は、本発明の文字認識装置における第１の制御処理手順の一例を示すフローチャートであり、用紙構造登録処理手順の一例に対応する。なお、このフローチャートの処理は、図２に示したＣＰＵ２０１によりＨＤ２１１又はＲＯＭ２０３又はその他の記録媒体に格納されたプログラムに基づいて実行されるものとする。また、Ｓ１０１〜Ｓ１０８は各ステップを示す。
【００５８】
まず、あらかじめ設定された機器、例えばスキャナ１０２により登録する用紙イメージ情報を入力し（なお、予め入力されていた用紙イメージ情報であってもよい）、用紙構造登録処理の開始が指示されると、ステップＳ１０１において、図４に示した用紙構造登録画面４００を表示する。
【００５９】
そして、用紙構造登録画面４００上で用紙名が入力され、ステップＳ１０２において、新規キー４０２が指示されフィールド設定が要求されたと判断した場合には、ステップＳ１０３に進み、図５に示したフィールド設定画面５００を表示し、ステップＳ１０４に進む。
【００６０】
次に、フィールド設定画面５００上で、各種フィールド情報が入力され、ステップＳ１０４で、ＯＫキー５０４が指示されて領域設定が要求されたと判断した場合には、ステップ１０５に進み、図６に示した領域設定画面６００を表示する。
【００６１】
そして、領域設定画面６００上で領域が指定され、ステップＳ１０６で、ＯＫキー６０９が指示されて領域設定が確定したと判断した場合には、ステップ１０２に戻り、次のフィールド設定を可能にする。
【００６２】
一方、ステップＳ１０２で、新規キー４０２が指示されていないと判断した場合には、ステップＳ１０７に進み、全てのフィールド設定が終了し、ＯＫキー４０４が指示され用紙設定が確定されたと判断した場合には、ステップＳ１０８に進み、用紙イメージデータと各種用紙情報（用紙名，フィールド情報，領域等）とを対応させて、図２に示したＨＤ２１１に登録し、処理を終了する。
【００６３】
これにより、用紙内の領域とその意味及び構造（フォームのＸＭＬ構造）を該用紙の構造化情報として登録することができる。
【００６４】
また、この用紙（フォーム）登録（用紙の構造化情報の登録）は、用紙の種類毎にそれぞれ行うことができる。
【００６５】
さらに、入力された用紙（記入済みの用紙）のイメージ情報と、登録された用紙のイメージ情報を比較することにより入力された用紙を特定し、該入力された用紙に登録されたフォームの構造（構造化情報）を対応づけることができる。
【００６６】
以下、図９，図１０を参照して、本発明の文字認識装置における文字認識データ出力処理手順について説明する。
【００６７】
図９は、本発明の文字認識装置における第２の制御処理手順の一例を示すフローチャートであり、文字認識データ出力処理手順の一例に対応する。なお、このフローチャートの処理は、図２に示したＣＰＵ２０１によりＨＤ２１１又はＲＯＭ２０３又はその他の記録媒体に格納されたプログラムに基づいて実行されるものとする。また、Ｓ２０１〜Ｓ２０６は各ステップを示す。
【００６８】
まず、用紙の認識処理の開始が指示されると、ステップＳ２０１において、予め設定されたスキャナから用紙を入力し、ステップＳ２０２において、ステップＳ２０１で入力された用紙のイメージ画像情報と、登録された用紙のイメージ画像情報とを比較して、ステップＳ２０１で入力された用紙のフォームを特定する（フォーム自動認識処理）。
【００６９】
次に、ステップＳ２０３において、ステップＳ２０２で特定されたフォームからＸＭＬ構造を確定する（用紙に登録されたフィールドの構造がそのままＸＭＬ構造となる）。
【００７０】
次に、ステップＳ２０４において、ステップＳ２０１で入力した用紙のイメージ画像情報からフィールド設定された各領域の文字認識を行う。
【００７１】
次に、ステップＳ２０５において、ステップＳ２０４で認識された各フィールド領域の文字列とステップＳ２０３で格納したＸＭＬ構造から、ＸＭＬ文書をメモリ（ＲＡＭ２０２）上に生成する（図１０）。
【００７２】
次に、ステップＳ２０６において、ステップＳ２０５で生成したＸＭＬ文書を予め設定された場所に出力し（業務アプリケーションに出力することも可能）、処理を終了する。
【００７３】
なお、このフローチャートでは、用紙のフォーム自動認識処理を行う場合について説明したが、ユーザが、手動で用紙のフォームを選択する（例えば、用紙名「注文」等で指定）ことにより、ステップＳ２０２のフォームの自動認識処理をスルーするように構成してもよい。
【００７４】
図１０は、本発明の文字認識装置における第３の制御処理手順の一例を示すフローチャートであり、図９のステップＳ２０５に示したＸＭＬ文書生成手順の一例に対応する。なお、このフローチャートの処理は、図２に示したＣＰＵ２０１によりＨＤ２１１又はＲＯＭ２０３又はその他の記録媒体に格納されたプログラムに基づいて実行されるものとする。また、Ｓ３０１〜Ｓ３０４は各ステップを示す。
【００７５】
まず、ステップＳ３０１において、メモリ（ＲＡＭ２０２）上の所定領域にＸＭＬ宣言（「＜？ｘｍｌ　ｖｅｒｓｉｏｎ＝”１．０”ｅｎｃｏｄｉｎｇ＝”Ｓｒｈｉｆｔ＿ＪＩＳ”？＞」）を出力し、次に、ステップＳ３０２において、メモリ上の続きの領域に、用紙名で定義されたルート要素の開始タグ（図６の場合では”＜注文＞”）を出力する。
【００７６】
次に、ステップＳ３０３において、各フィールド名を各要素名、各フィールド領域のＯＣＲ認識結果を各要素の内容、とした各要素を、図９のステップＳ２０３で確定したＸＭＬ構造に基づき生成し、メモリ上の続きの領域に出力する。
【００７７】
最後に、ステップＳ３０４において、メモリ上の続きの領域に、用紙名で定義されたルート要素の終了タグ（図６の場合では”＜／注文＞”）を出力し、リターンする。
【００７８】
以上の処理により、ＯＣＲの基となる指定用紙に記入された文書画像に内含している意味と構造を情報に基づいて、ＸＭＬの表現を用いて、文書画像から構造情報と意味のある文字列を取り出すことができ、ＯＣＲからの読み取りをそのままＸＭＬとして意味と構造をもたせて出力し、業務アプリケーションとの連動性を高めることができる。
【００７９】
なお、本実施形態では、図６〜図８に示したように、記入用紙をスキャナ等で光学的に読み取ることにより生成した記入用紙のイメージ情報内の領域をポインティングデバイスで指定することにより、記入用紙上の各記入領域を指定する構成について説明したが、記入用紙のイメージ情報を入力することなく、記入用紙上の各記入領域の左上座標，右下座標等を数値入力することにり、記入用紙上の各記入領域を指定するように構成してもよい。なお、この場合は、図９のステップＳ２０２に示したフォームの自動認識は実行されず、代りに、ユーザが登録した各用紙のフォームから対応する用紙のフォームを選択することにより、入力する用紙のフォーム特定するようにするものとする。
【００８０】
また、記入用紙のフィールド情報（フィールド名），フィールド領域の設定の全てを、図５，図６等により、ポインティングデバイス２１２やキーボード２０９等を用いて行う構成について説明したが、まずＯＣＲ機能によりフィールド名とフィールド領域を特定させ、その後、図５，図６等によりユーザが修正可能に構成してもよい。
【００８１】
以下、図１１〜図１６を参照して、本発明の文字認識装置における文字認識データ出力処理の一例を示す。
【００８２】
例えば、図１１に示す用紙に対して、用紙構造登録処理を行い、図１２に示すようにフィールドを設定する。
【００８３】
図において、１３００は用紙を示し、用紙名として「ｃａｍｅｒａｃｌｕｂ」が登録されている。また、図中で反転している領域には全てフィールドが設定されている。
【００８４】
例えば、領域１３０１にはフィールド名として「ＦａｍｉｌｙＮａｍｅ」、領域１３０２にはフィールド名として「ＦｉｒｓｔＮａｍｅ」、領域１３０３にはフィールド名として「ＫＡＮＡ」、領域１３０４にはフィールド名として「Ｂｉｒｔｈ」、領域１３０５にはフィールド名として「Ｍａｌｅ」、領域１３０６にはフィールド名として「Ｍａｌｅ＿Ｎａｍｅ」、領域１３０７にはフィールド名として「Ｆｅｍａｌｅ」、領域１３０８にはフィールド名として「Ｆｅｍａｌｅ＿Ｎａｍｅ」を設定する。その他の領域については説明を省略する。
【００８５】
次に、図１３に示すように記入された用紙に対して文書認識処理を行うことにより、図１４，図１５に示すようなＸＭＬ出力結果を得ることができる。
【００８６】
なお、今日、構造化テキストの一表現形式であるＸＭＬは、現在異機種、異アプリケーションシステム間の橋渡しをする標準的なデータ記述言語となっている。例えば、代表的なＥＲＰ（Ｅｎｔｅｒｐｒｉｓｅ　Ｒｅｓｏｕｒｃｅ　Ｐｌａｎｎｉｎｇ：経営資源利用計画）のパッケージでも、代表的なＣＲＭ（Ｃｕｓｔｏｍｅｒ　Ｒｅｌａｔｉｏｎｓｈｉｐ　Ｍａｎａｇｅｍｅｎｔ）のパッケージでもＸＭＬによる外部インターフェースを備えている。その他にも、外部とのデータの入出力にＸＭＬを使用するものは数多く、Ｗｅｂサーバ同士でデータを交換し合うＢ２Ｂ（Ｂｕｓｉｎｅｓｓ　ｔｏ　Ｂｕｓｉｎｅｓｓ）の分野でも、ＸＭＬは標準的に使用されている。
【００８７】
このようなコンピュータシステムを取り巻く環境において、本発明では、ＯＣＲから出力されるデータの表現形式を文書の意味と構造とを含んだＸＭＬとすることにより、様々なアプリケーションとの連動を容易にすることができるという効果を奏する。
【００８８】
以下、図１６に示すメモリマップを参照して本発明に係る文字認識装置で読み出し可能なデータ処理プログラムの構成について説明する。
【００８９】
図１６は、本発明に係る文字認識装置で読み出し可能な各種データ処理プログラムを格納する記録媒体のメモリマップを説明する図である。
【００９０】
なお、特に図示しないが、記録媒体に記憶されるプログラム群を管理する情報、例えばバージョン情報，作成者等も記憶され、かつ、プログラム読み出し側のＯＳ等に依存する情報、例えばプログラムを識別表示するアイコン等も記憶される場合もある。
【００９１】
さらに、各種プログラムに従属するデータも上記ディレクトリに管理されている。また、インストールするプログラムやデータが圧縮されている場合に、解凍するプログラム等も記憶される場合もある。
【００９２】
本実施形態における図８，図９，図１０に示す機能が外部からインストールされるプログラムによって、ホストコンピュータにより遂行されていてもよい。そして、その場合、ＣＤ−ＲＯＭやフラッシュメモリやＦＤ等の記録媒体により、あるいはネットワークを介して外部の記録媒体から、プログラムを含む情報群を出力装置に供給される場合でも本発明は適用されるものである。
【００９３】
以上のように、前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムコードを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
【００９４】
この場合、記録媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記録媒体は本発明を構成することになる。
【００９５】
プログラムコードを供給するための記録媒体としては、例えば、フレキシブルディスク，ハードディスク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ−Ｒ，ＤＶＤ−ＲＯＭ，磁気テープ，不揮発性のメモリカード，ＲＯＭ，ＥＥＰＲＯＭ，シリコンディスク等を用いることができる。
【００９６】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００９７】
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００９８】
また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのソフトウエアによって表されるプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【００９９】
さらに、本発明を達成するためのソフトウエアによって表されるプログラムをネットワーク上のデータベースから通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【０１００】
【発明の効果】
以上説明したように、本発明によれば、所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として予め登録しておき、記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力し、該入力された文書画像情報から文字認識を行い、該文字認識結果と前記登録された構造化情報から意味と構造を有する構造化言語を用いた文書を生成し、該生成された前記意味と構造を有する構造化言語を用いた文書を出力するので、文字認識処理の基となる指定用紙に記入された文書画像に内含している意味と構造を該指定用紙の構造化情報として登録しておき、該構造化情報により、ＸＭＬの表現を用いて、文書画像から構造の情報と意味のある文字列を取り出すことができ、文字認識処理からの認識情報をそのままＸＭＬとして意味と構造をもたせた情報として出力し、業務アプリケーションとの連動性を高めることができる等の効果を奏する。
【０１０１】
従って、イメージデータから文字認識しテキストデータを、様々なアプリケーションとの連動が容易に可能な形式で出力することができる。
【図面の簡単な説明】
【図１】本発明の文字認識装置を適用可能なシステム構成を示す構成図である。
【図２】図１に示したコンピュータの構成の一例を示すブロック図である。
【図３】本発明の文字認識装置の機能を示す模式図である。
【図４】図３に示した指定用紙等の用紙を登録するための用紙構造登録画面の一例を示す模式図である。
【図５】図４に示した用紙構造登録画面で登録される用紙にフィールド設定するためのフィールド設定画面の一例を示す模式図である。
【図６】図５で設定したフィールドに対応する領域を設定するための領域設定画面の一例を示す模式図である。
【図７】本発明の文字認識装置における用紙構造登録結果の一例を示す模式図である。
【図８】本発明の文字認識装置における第１の制御処理手順の一例を示すフローチャートである。
【図９】本発明の文字認識装置における第２の制御処理手順の一例を示すフローチャートである。
【図１０】本発明の文字認識装置における第３の制御処理手順の一例を示すフローチャートである。
【図１１】本発明の文字認識装置において使用可能な用紙の一例を示す模式図である。
【図１２】図１１に示した用紙に対する領域設定画面の一例を示す模式図である。
【図１３】図１１に示した用紙に対する記入例を示す模式図である。
【図１４】図１２に示した用紙（文書）から生成されたＸＭＬ文書の出力結果の一例を示す模式図である。
【図１５】図１２に示した用紙（文書）から生成されたＸＭＬ文書の出力結果の一例を示す模式図である。
【図１６】本発明に係る文字認識装置で読み出し可能な各種データ処理プログラムを格納する記録媒体のメモリマップを説明する図である。
【符号の説明】
２０１　ＣＰＵ
２０２　ＲＡＭ
２０３　ＲＯＭ
２１１　ＨＤ
２１２　ＰＤ

Claims

所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として登録する登録手段と、
記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力する入力手段と、
前記入力手段により入力された文書画像情報から文字認識を行う文字認識手段と、
前記文書認識手段による文字認識結果と前記登録手段に登録された構造化情報から意味と構造を有する構造化言語を用いた文書を生成する生成手段と、
前記生成手段により生成された前記意味と構造を有する構造化言語を用いた文書を出力する出力手段と、
を備えたことを特徴とする文字認識装置。
前記登録手段は、複数種類の所定の記入用紙に対して、記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報としてそれぞれ登録可能なものであり、
前記入力手段により入力された文書画像情報の構造化情報を、前記登録手段に登録されている構造化情報から特定する特定手段を有することを特徴とする請求項１記載の文字認識装置。
前記登録手段は、複数種類の所定の記入用紙に対して、前記各記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として、該記入用紙を光学的に読み取ることにより生成された用紙画像情報に対応させて登録するものであり、
前記特定手段は、前記入力手段により入力された文書画像情報と前記登録手段に登録された用紙画像情報とを比較して前記入力手段により入力された文書画像情報の構造化情報を特定することを特徴とする請求項２記載の文字認識装置。
前記特定手段は、前記入力手段により入力された文書画像情報の構造化情報を前記登録手段に登録された構造化情報から指定することにより特定することを特徴とする請求項２記載の文字認識装置。
所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として登録する登録工程と、
記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力する入力工程と、
該入力された文書画像情報から文字認識を行う文字認識工程と、
該文字認識結果と前記登録された構造化情報から意味と構造を有する構造化言語を用いた文書を生成する生成工程と、
該生成された前記意味と構造を有する構造化言語を用いた文書を出力する出力工程と、
を有することを特徴とする文字認識データ出力方法。
請求項５に記載された文字認識データ出力方法を実行するためのプログラム。
請求項５に記載された文字認識データ出力方法を実行するためのプログラムをコンピュータが読み取り可能に記憶した記録媒体。