JP2004145736A - 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体 - Google Patents
文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2004145736A JP2004145736A JP2002311439A JP2002311439A JP2004145736A JP 2004145736 A JP2004145736 A JP 2004145736A JP 2002311439 A JP2002311439 A JP 2002311439A JP 2002311439 A JP2002311439 A JP 2002311439A JP 2004145736 A JP2004145736 A JP 2004145736A
- Authority
- JP
- Japan
- Prior art keywords
- character recognition
- document
- input
- information
- meaning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】イメージデータから文字認識しテキストデータを、様々なアプリケーションとの連動が容易に可能な形式で出力すること。
【解決手段】所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として予め登録しておき、記入済みの前記記入用紙300を光学的に読み取ることによって生成された文書画像情報を入力し、該入力された文書画像情報から文字認識を行い、該文字認識結果と前記登録された構造化情報から意味と構造を有するXML文書を生成し、該生成されたXML文書を出力する構成を特徴とする。
【選択図】 図3
【解決手段】所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として予め登録しておき、記入済みの前記記入用紙300を光学的に読み取ることによって生成された文書画像情報を入力し、該入力された文書画像情報から文字認識を行い、該文字認識結果と前記登録された構造化情報から意味と構造を有するXML文書を生成し、該生成されたXML文書を出力する構成を特徴とする。
【選択図】 図3
Description
【0001】
【発明の属する技術分野】
本発明は、イメージデータから文字認識しテキストデータを出力可能な文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体に関するものである。
【0002】
【従来の技術】
従来より、OCR(Optical Character Reader)機能を備えた文字認識装置では、スキャナ等で読み取った紙文書のイメージデータをテキスト情報に変換して出力することが可能であった。そして、このような文書認識装置から、一般的に文書認識結果として出力されるテキストは、非構造化テキストであるCSV(Comma Separated Value)等の形式を取っていた。
【0003】
【発明が解決しようとする課題】
しかし、上述したように従来の文字認識装置が生成していた非構造化テキストは、単純なテキストの羅列であり、各テキストを意味のある情報とするためには、C言語やJava(登録商標)などで作成された個別の変換プログラムを介在させ、文字列の順番のみから変換プログラム内で持っている意味情報と組み合わせること等によって、そのデータが持つ意味を取り出さなくてはならない。そのため、OCR結果を各種業務アプリケーションで利用するには、業務アプリケーション毎に変換プログラムを開発する必要があり非常に煩雑であった。
【0004】
なお、特開平11−66196号公報には、入力した文書画像からテキストデータの認識を行うとともに、文書画像のレイアウト(タイトル部,小見出し部,キャプション,ヘッダ・フッタ部等)を解析してレイアウト情報を抽出し、該抽出したレイアウト情報に基づいて、認識したテキストデータをレイアウトしたPost Script文書,HTML文書を生成する文書認識装置が提案されている。
【0005】
しかしながら、上記特開平11−66196号公報に記載された文書認識装置は、OCR認識した文書の表示上の再現(書式の再現)を目的としたものであるため、文書のタイトル部,小見出し部,キャプション,ヘッダ・フッタ部等を認識してHTML化しているだけであり、文書の表示上の再現には意味があるものの、OCR認識したテキストデータに意味や論理的な構造を付されたものではなく、結局、各種業務アプリケーションで直接使用することはできなかった。もともとHTMLは、閲覧(ブラウズ)することを目的とした構造化言語であり、文書を構成する要素関係(文書の意味や構造)をつかむことは出来ない。
【0006】
また、構造化テキストの中でXML(eXtensible Markup Language)は、その中に意味のある名前を持ち、且つ論理的な構造を表すことが出来る(文書に、文書を構成する各要素の意味と各要素間の構造(関係)とを示す情報を埋め込むことができる)。このXMLの普及に伴い、各種業務アプリケーションのデータの入出力にXMLを標準的に採用するケースが増えてきている。なお、上記特開平11−66196号公報に記載された文書認識装置でも、XMLにより出力することが可能であるが、この特開平11−66196号公報に記載された文書認識装置でのXML出力とは、上記HTML出力の場合と同様にレイアウト情報の抽出,解析を行うものであり、文書の意味情報と構造を含んだXMLを生成可能なものではなかった。
【0007】
そのため、上記特開平11−66196号公報に記載された文書認識装置において生成されるXML文書は、オリジナル文書の再現表示以外に利用することは困難であり、結局、個別の変換プログラムを介在させることなしには、文字列の意味を捉えることが出来ず、各種業務アプリケーションで直接使用することができず煩雑であるという問題点があった。
【0008】
本発明は、上記の問題点を解決するためになされたもので、本発明の目的は、所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として予め登録しておき、記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力し、該入力された文書画像情報から文字認識を行い、該文字認識結果と前記登録された構造化情報から意味と構造を有する構造化言語を用いた文書を生成し、該生成された前記意味と構造を有する構造化言語を用いた文書を出力することにより、OCRの基となる指定用紙に記入された文書画像に内含している意味と構造を該指定用紙の構造化情報として登録しておき、該構造化情報により、XMLの表現を用いて、文書画像から構造の情報と意味のある文字列を取り出すことができ、OCRからの読み取りをそのままXMLとして意味と構造をもたせたデータとして出力し、業務アプリケーションとの連動性を高めることを目的とした文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体を提供することである。
【0009】
【課題を解決するための手段】
本発明に係る第1の発明は、所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として登録する登録手段(図4に示す用紙構造登録画面400,図5に示すフィールド設定画面500,図6に示す領域設定画面600,図2に示すCPU201,HD211,図8)と、記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力する入力手段(図1に示すスキャナ102)と、前記入力手段により入力された文書画像情報から文字認識を行う文字認識手段(図2に示すCPU201,図9のステップS204)と、前記文書認識手段による文字認識結果と前記登録手段に登録された構造化情報から意味と構造を有する構造化言語(XML)を用いた文書(XML文書)を生成する生成手段(図2に示すCPU201,図9のステップS205,図10)と、前記生成手段により生成された前記意味と構造を有する構造化言語を用いた文書を出力する出力手段(図2に示すCPU201,図9のステップS206)とを備えたことを特徴とする。
【0010】
本発明に係る第2の発明は、前記登録手段は、複数種類の所定の記入用紙に対して、記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報としてそれぞれ登録可能なものであり、前記入力手段により入力された文書画像情報の構造化情報を、前記登録手段に登録されている構造化情報から特定する特定手段(図2に示すCPU201,図9のステップS202,S203)を有することを特徴とする。
【0011】
本発明に係る第3の発明は、前記登録手段は、複数種類の所定の記入用紙に対して、前記各記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として、該記入用紙を光学的に読み取ることにより生成された用紙画像情報に対応させて登録するものであり、前記特定手段(図2に示すCPU201,図9のステップS202,S203)は、前記入力手段により入力された文書画像情報と前記登録手段に登録された用紙画像情報とを比較して前記入力手段により入力された文書画像情報の構造化情報を特定することを特徴とする。
【0012】
本発明に係る第4の発明は、前記特定手段は、前記入力手段により入力された文書画像情報の構造化情報を前記登録手段に登録された構造化情報から指定することにより特定することを特徴とする。
【0013】
本発明に係る第5の発明は、所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として登録する登録工程(図8)と、記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力する入力工程(図9のステップS201)と、該入力された文書画像情報から文字認識を行う文字認識工程(図9のステップS204)と、該文字認識結果と前記登録された構造化情報から意味と構造を有する構造化言語を用いた文書を生成する生成工程(図9のステップS205)と、該生成された前記意味と構造を有する構造化言語を用いた文書を出力する出力工程(図9のステップS206)とを有することを特徴とする。
【0014】
本発明に係る第6の発明は、請求項5に記載された文字認識データ出力方法を実行するためのプログラムであることを特徴とする。
【0015】
本発明に係る第7の発明は、請求項5に記載された文字認識データ出力方法を実行するためのプログラムを記録媒体にコンピュータが読み取り可能に記憶させたことを特徴とする。
【0016】
【発明の実施の形態】
図1は、本発明の文字認識装置を適用可能なシステム構成を示す構成図である。
【0017】
図において、101は本発明の文書認識装置を適用可能なコンピュータで、スキャナ102,デジタル複合機103等からイーサネット(登録商標)等のLAN105を介して入力された文書画像情報からXMLファイルを生成する。
【0018】
スキャナ102は、紙文書を光学的に読み取って文書画像を生成する。デジタル複合機103は、紙文書を光学的に読み取って文書画像を生成する機能や、画像情報をプリント出力するプリント機能や、公衆回線を介してFAX106にファクシミリ通信を行う機能等を有する。
【0019】
104はアプリケーションサーバで、コンピュータ101により生成されたXMLファイルを入力して各種業務アプリケーションを実行する。
【0020】
図2は、図1に示したコンピュータ101の構成の一例を示すブロック図である。
【0021】
図において、201はCPUで、ROM203のプログラム用ROMに記憶されたプログラムに基づいてシステムバス204に接続された各デバイスを制御し、クライアント101全体を統括制御する。
【0022】
また、このROM203のフォント用ROMにはフォントデータ等を記憶し、ROM203のデータ用ROMには各種データを記憶する。202はRAMで、CPU201の主メモリ,ワークエリア等として機能する。
【0023】
205はキーボードコントローラ(KBC)で、キーボード(KB)209や例えばマウス等のポインティングデバイス(PD)212からの入力を制御する。206はCRTコントローラ(CRTC)で、CRTディスプレイ(CRT)210の表示を制御する。なお、ここでは、表示装置としてCRTを設けているがLCD等のその他の形式の表示装置であってもよい。
【0024】
207はメモリコントローラ(MC)で、ハードディスク(HD)211とのアクセスを制御する。208はネットワークインタフェース(NW I/F)で、LAN105を介してスキャナ102,デジタル複合機103,アプリケーションサーバ104等と通信可能である。このネットワークインタフェース208により、コンピュータ101はスキャナ102又はデジタル複合機103により画像入力を行い、生成したXMLデータをアプリケーションサーバ104に出力することができる。
【0025】
また、CPU201は、ユーザからの指示(KB209又は図示しないマウス等からの指示)に基づいてサーバ104に対して種々の機能に対応する処理の実行を指示することができる。
【0026】
さらに、パーソナルコンピュータ101は、図示しないフレキシブルディスクデバイスやCD−ROMデバイス等を備えるものとする。
【0027】
以下、図3を用いて、本発明の文字認識装置の機能について説明する。
【0028】
図3は、本発明の文字認識装置の機能を示す模式図である。
【0029】
図において、300は指定用紙で、この指定用紙300内の領域301〜307に記載された文字列を読み取り、領域301〜307から抽出されたテキストデータに、意味と構造(木構造)を付したXML文書320を生成する。
【0030】
なお、XMLでは、文書構造を構成する部分を「要素」(エレメント:Element)と呼び、要素は(タグ:tag)を使って記述される。このように、タグを使った記述方式を採用することで、データの意味やデータ構造を保持したまま、データを取り出すことが出来る。
【0031】
よって、イメージデータから取り出した文字列からXML文書を作成することにより、イメージデータから取り出した文字列データを、タグによって記述された要素として認識することが出来る。
【0032】
すなわち、図3の例でいえば、XML文書では、郵便番号は、「<郵便番号>336−9999</郵便番号>」という要素で記述される。
【0033】
さらにXMLは、タグでマークアップされた要素を入れ子構造にし、データ構造をも同様に表現することができる。
【0034】
用紙は、その用紙そのものが全体として、意味と構造をもっている。図3の場合では、全体が「注文」という情報であることを示しており、その中に注文の明細情報を格納している。つまり、図3の用紙から生成されたXML文書は、全体は「<注文>・</注文>」という要素に、さらにはその中の「注文明細」は、「<注文明細>・</注文明細>」という要素として、入れ子構造として記述され、意味と構造を表現することが可能になる。
【0035】
このように、本発明は、OCRによって文書を解析し、意味と構造とをXMLを用いて出力するものである。
【0036】
以下、図4〜図8を参照して、本発明の文字認識装置における用紙構造登録処理手順について説明する。
【0037】
図4は、図3に示した指定用紙300等の用紙を登録するための用紙構造登録画面の一例を示す模式図であり、ユーザにより用紙構造登録が指示された場合に、図2に示したCRT210上に表示される。
【0038】
図において、400は用紙構造登録画面であり、この用紙構造登録画面400において、401は用紙名入力欄で、登録する用紙の名称(図3の例では「注文」)を入力する。402は新規キーで、このキーを図2に示したPD212等で指示することにより、図5に示すフィールド入力画面500が表示され、フィールドを登録することができる。403はフィールド表示欄で、登録されたフィールドが木構造で表示される。
【0039】
404はOKキーで、このキーをPD212等で指示することにより用紙設定を確定し、用紙構造登録画面400での設定内容で、用紙情報がHD211内に登録され、用紙構造登録画面400を終了する。
【0040】
405はキャンセルキーで、このキーをPD212等で指示することにより、用紙構造登録画面400での登録内容を無効とし、用紙構造登録画面400を終了する。
【0041】
図5は、図4に示した用紙構造登録画面400で登録される用紙にフィールド設定するためのフィールド設定画面の一例を示す模式図であり、図4に示した新規キー402が指示されたことに応じて図2に示したCRT210上に表示される。
【0042】
図において、501はフィールド名入力欄で、後述する図6に示す領域入力画面600により設定される本フィールドに対応する領域のフィールド名を入力する。
【0043】
502は種類入力欄で、図6で設定される領域のデータ種別を入力する。例えば、図6で選択される領域内のOCR認識されるデータがテキストデータである場合は「テキスト」を選択し、数値データである場合には「数値」を選択し、日付データである場合には「日付」を選択する。これにより、文字認識時に、「テキスト」,「数値」,「日付」等の種類に応じた文字認識を行うことができ、文字認識精度を向上することが可能となる。
【0044】
503はフィールド入力欄で、種類入力欄502で「テキスト」又は「数値」が選択された場合に、本フィールドのデータ量を入力する。
【0045】
504はOKキーで、このキーをPD212等で指示することによりフィールド設定を確定し、図6に示す領域指定画面600に進む。
【0046】
505はキャンセルキーで、このキーをPD212等で指示することにより、フィールド設定画面500での設定内容を無効とし、図4に示した用紙構造登録画面400に戻る。
【0047】
図6は、図5で設定したフィールドに対応する領域を設定するための領域設定画面の一例を示す模式図であり、図5に示したOKキー504が指示されたことに応じて図2に示したCRT210上に表示される。
【0048】
図において、601は図3に示した指定用紙300をスキャナ102等により入力した用紙イメージ情報である。
【0049】
この用紙イメージ情報を、602〜608に示すように、PD212等で用紙上の所定の領域を指示(ドラッグ・アンド・ドロップ)し、OKキー609を指示することにより、602で示した領域が図5で設定したフィールドに対応する領域として設定し、図5に示したフィールド設定画面500に戻る。
【0050】
なお、ドラッグ・アンド・ドロップによる領域の指定は、既にフィールド設定された領域の内側に指定してもよい。この場合、内側に指定されたフィールドは、そのフィールドを包含するフィールドの下位のフィールドとして定義される。この階層構造は、2層に限らず、同様の指定でさらに深く階層定義も可能になる。
【0051】
具体的には、既にPD212にてドラッグ・アンド・ドロップで文字入力領域に範囲指定を行って領域付けられたそのフィールド606に関して、さらに、複数の領域607〜608をドラッグ・アンド・ドロップすることにより、その領域607〜608を前記フィールドの下位のフィールドとして指定することができる。この階層構造は、2層に限らず、同様の指定でさらに深く階層定義も可能になる。
【0052】
610はキャンセルキーで、このキーをPD212等で指示することにより、領域設定画面600での設定内容を無効とし、図5に示したフィールド設定画面500に戻る。
【0053】
図7は、本発明の文字認識装置における用紙構造登録結果の一例を示す模式図である。
【0054】
(a)は、ユーザが、用紙701の用紙名を「注文」とし、領域702のフィールド名を「お客様名」、領域703を「郵便番号」、領域704を「住所」、領域705を「電話番号」、領域706名を「注文明細」、領域707を「商品番号」、領域708を「数量」としてフィールド指定し、用紙を登録した場合に相当する。
【0055】
これにより、(b)に示すような用紙構造が指定される。
【0056】
なお、ここで、フィールド「注文明細」は、フィールド「商品番号」,「数量」という2つの要素(フィールド)から成り立つものであり、フィールド「商品番号」,「数量」という繰り返しのある複数の要素が、「注文明細」の下位の要素(フィールド)として定義されていることを示している。
【0057】
図8は、本発明の文字認識装置における第1の制御処理手順の一例を示すフローチャートであり、用紙構造登録処理手順の一例に対応する。なお、このフローチャートの処理は、図2に示したCPU201によりHD211又はROM203又はその他の記録媒体に格納されたプログラムに基づいて実行されるものとする。また、S101〜S108は各ステップを示す。
【0058】
まず、あらかじめ設定された機器、例えばスキャナ102により登録する用紙イメージ情報を入力し(なお、予め入力されていた用紙イメージ情報であってもよい)、用紙構造登録処理の開始が指示されると、ステップS101において、図4に示した用紙構造登録画面400を表示する。
【0059】
そして、用紙構造登録画面400上で用紙名が入力され、ステップS102において、新規キー402が指示されフィールド設定が要求されたと判断した場合には、ステップS103に進み、図5に示したフィールド設定画面500を表示し、ステップS104に進む。
【0060】
次に、フィールド設定画面500上で、各種フィールド情報が入力され、ステップS104で、OKキー504が指示されて領域設定が要求されたと判断した場合には、ステップ105に進み、図6に示した領域設定画面600を表示する。
【0061】
そして、領域設定画面600上で領域が指定され、ステップS106で、OKキー609が指示されて領域設定が確定したと判断した場合には、ステップ102に戻り、次のフィールド設定を可能にする。
【0062】
一方、ステップS102で、新規キー402が指示されていないと判断した場合には、ステップS107に進み、全てのフィールド設定が終了し、OKキー404が指示され用紙設定が確定されたと判断した場合には、ステップS108に進み、用紙イメージデータと各種用紙情報(用紙名,フィールド情報,領域等)とを対応させて、図2に示したHD211に登録し、処理を終了する。
【0063】
これにより、用紙内の領域とその意味及び構造(フォームのXML構造)を該用紙の構造化情報として登録することができる。
【0064】
また、この用紙(フォーム)登録(用紙の構造化情報の登録)は、用紙の種類毎にそれぞれ行うことができる。
【0065】
さらに、入力された用紙(記入済みの用紙)のイメージ情報と、登録された用紙のイメージ情報を比較することにより入力された用紙を特定し、該入力された用紙に登録されたフォームの構造(構造化情報)を対応づけることができる。
【0066】
以下、図9,図10を参照して、本発明の文字認識装置における文字認識データ出力処理手順について説明する。
【0067】
図9は、本発明の文字認識装置における第2の制御処理手順の一例を示すフローチャートであり、文字認識データ出力処理手順の一例に対応する。なお、このフローチャートの処理は、図2に示したCPU201によりHD211又はROM203又はその他の記録媒体に格納されたプログラムに基づいて実行されるものとする。また、S201〜S206は各ステップを示す。
【0068】
まず、用紙の認識処理の開始が指示されると、ステップS201において、予め設定されたスキャナから用紙を入力し、ステップS202において、ステップS201で入力された用紙のイメージ画像情報と、登録された用紙のイメージ画像情報とを比較して、ステップS201で入力された用紙のフォームを特定する(フォーム自動認識処理)。
【0069】
次に、ステップS203において、ステップS202で特定されたフォームからXML構造を確定する(用紙に登録されたフィールドの構造がそのままXML構造となる)。
【0070】
次に、ステップS204において、ステップS201で入力した用紙のイメージ画像情報からフィールド設定された各領域の文字認識を行う。
【0071】
次に、ステップS205において、ステップS204で認識された各フィールド領域の文字列とステップS203で格納したXML構造から、XML文書をメモリ(RAM202)上に生成する(図10)。
【0072】
次に、ステップS206において、ステップS205で生成したXML文書を予め設定された場所に出力し(業務アプリケーションに出力することも可能)、処理を終了する。
【0073】
なお、このフローチャートでは、用紙のフォーム自動認識処理を行う場合について説明したが、ユーザが、手動で用紙のフォームを選択する(例えば、用紙名「注文」等で指定)ことにより、ステップS202のフォームの自動認識処理をスルーするように構成してもよい。
【0074】
図10は、本発明の文字認識装置における第3の制御処理手順の一例を示すフローチャートであり、図9のステップS205に示したXML文書生成手順の一例に対応する。なお、このフローチャートの処理は、図2に示したCPU201によりHD211又はROM203又はその他の記録媒体に格納されたプログラムに基づいて実行されるものとする。また、S301〜S304は各ステップを示す。
【0075】
まず、ステップS301において、メモリ(RAM202)上の所定領域にXML宣言(「<?xml version=”1.0”encoding=”Srhift_JIS”?>」)を出力し、次に、ステップS302において、メモリ上の続きの領域に、用紙名で定義されたルート要素の開始タグ(図6の場合では”<注文>”)を出力する。
【0076】
次に、ステップS303において、各フィールド名を各要素名、各フィールド領域のOCR認識結果を各要素の内容、とした各要素を、図9のステップS203で確定したXML構造に基づき生成し、メモリ上の続きの領域に出力する。
【0077】
最後に、ステップS304において、メモリ上の続きの領域に、用紙名で定義されたルート要素の終了タグ(図6の場合では”</注文>”)を出力し、リターンする。
【0078】
以上の処理により、OCRの基となる指定用紙に記入された文書画像に内含している意味と構造を情報に基づいて、XMLの表現を用いて、文書画像から構造情報と意味のある文字列を取り出すことができ、OCRからの読み取りをそのままXMLとして意味と構造をもたせて出力し、業務アプリケーションとの連動性を高めることができる。
【0079】
なお、本実施形態では、図6〜図8に示したように、記入用紙をスキャナ等で光学的に読み取ることにより生成した記入用紙のイメージ情報内の領域をポインティングデバイスで指定することにより、記入用紙上の各記入領域を指定する構成について説明したが、記入用紙のイメージ情報を入力することなく、記入用紙上の各記入領域の左上座標,右下座標等を数値入力することにり、記入用紙上の各記入領域を指定するように構成してもよい。なお、この場合は、図9のステップS202に示したフォームの自動認識は実行されず、代りに、ユーザが登録した各用紙のフォームから対応する用紙のフォームを選択することにより、入力する用紙のフォーム特定するようにするものとする。
【0080】
また、記入用紙のフィールド情報(フィールド名),フィールド領域の設定の全てを、図5,図6等により、ポインティングデバイス212やキーボード209等を用いて行う構成について説明したが、まずOCR機能によりフィールド名とフィールド領域を特定させ、その後、図5,図6等によりユーザが修正可能に構成してもよい。
【0081】
以下、図11〜図16を参照して、本発明の文字認識装置における文字認識データ出力処理の一例を示す。
【0082】
例えば、図11に示す用紙に対して、用紙構造登録処理を行い、図12に示すようにフィールドを設定する。
【0083】
図において、1300は用紙を示し、用紙名として「cameraclub」が登録されている。また、図中で反転している領域には全てフィールドが設定されている。
【0084】
例えば、領域1301にはフィールド名として「FamilyName」、領域1302にはフィールド名として「FirstName」、領域1303にはフィールド名として「KANA」、領域1304にはフィールド名として「Birth」、領域1305にはフィールド名として「Male」、領域1306にはフィールド名として「Male_Name」、領域1307にはフィールド名として「Female」、領域1308にはフィールド名として「Female_Name」を設定する。その他の領域については説明を省略する。
【0085】
次に、図13に示すように記入された用紙に対して文書認識処理を行うことにより、図14,図15に示すようなXML出力結果を得ることができる。
【0086】
なお、今日、構造化テキストの一表現形式であるXMLは、現在異機種、異アプリケーションシステム間の橋渡しをする標準的なデータ記述言語となっている。例えば、代表的なERP(Enterprise Resource Planning:経営資源利用計画)のパッケージでも、代表的なCRM(Customer Relationship Management)のパッケージでもXMLによる外部インターフェースを備えている。その他にも、外部とのデータの入出力にXMLを使用するものは数多く、Webサーバ同士でデータを交換し合うB2B(Business to Business)の分野でも、XMLは標準的に使用されている。
【0087】
このようなコンピュータシステムを取り巻く環境において、本発明では、OCRから出力されるデータの表現形式を文書の意味と構造とを含んだXMLとすることにより、様々なアプリケーションとの連動を容易にすることができるという効果を奏する。
【0088】
以下、図16に示すメモリマップを参照して本発明に係る文字認識装置で読み出し可能なデータ処理プログラムの構成について説明する。
【0089】
図16は、本発明に係る文字認識装置で読み出し可能な各種データ処理プログラムを格納する記録媒体のメモリマップを説明する図である。
【0090】
なお、特に図示しないが、記録媒体に記憶されるプログラム群を管理する情報、例えばバージョン情報,作成者等も記憶され、かつ、プログラム読み出し側のOS等に依存する情報、例えばプログラムを識別表示するアイコン等も記憶される場合もある。
【0091】
さらに、各種プログラムに従属するデータも上記ディレクトリに管理されている。また、インストールするプログラムやデータが圧縮されている場合に、解凍するプログラム等も記憶される場合もある。
【0092】
本実施形態における図8,図9,図10に示す機能が外部からインストールされるプログラムによって、ホストコンピュータにより遂行されていてもよい。そして、その場合、CD−ROMやフラッシュメモリやFD等の記録媒体により、あるいはネットワークを介して外部の記録媒体から、プログラムを含む情報群を出力装置に供給される場合でも本発明は適用されるものである。
【0093】
以上のように、前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
【0094】
この場合、記録媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記録媒体は本発明を構成することになる。
【0095】
プログラムコードを供給するための記録媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,DVD−ROM,磁気テープ,不揮発性のメモリカード,ROM,EEPROM,シリコンディスク等を用いることができる。
【0096】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0097】
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0098】
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのソフトウエアによって表されるプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0099】
さらに、本発明を達成するためのソフトウエアによって表されるプログラムをネットワーク上のデータベースから通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0100】
【発明の効果】
以上説明したように、本発明によれば、所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として予め登録しておき、記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力し、該入力された文書画像情報から文字認識を行い、該文字認識結果と前記登録された構造化情報から意味と構造を有する構造化言語を用いた文書を生成し、該生成された前記意味と構造を有する構造化言語を用いた文書を出力するので、文字認識処理の基となる指定用紙に記入された文書画像に内含している意味と構造を該指定用紙の構造化情報として登録しておき、該構造化情報により、XMLの表現を用いて、文書画像から構造の情報と意味のある文字列を取り出すことができ、文字認識処理からの認識情報をそのままXMLとして意味と構造をもたせた情報として出力し、業務アプリケーションとの連動性を高めることができる等の効果を奏する。
【0101】
従って、イメージデータから文字認識しテキストデータを、様々なアプリケーションとの連動が容易に可能な形式で出力することができる。
【図面の簡単な説明】
【図1】本発明の文字認識装置を適用可能なシステム構成を示す構成図である。
【図2】図1に示したコンピュータの構成の一例を示すブロック図である。
【図3】本発明の文字認識装置の機能を示す模式図である。
【図4】図3に示した指定用紙等の用紙を登録するための用紙構造登録画面の一例を示す模式図である。
【図5】図4に示した用紙構造登録画面で登録される用紙にフィールド設定するためのフィールド設定画面の一例を示す模式図である。
【図6】図5で設定したフィールドに対応する領域を設定するための領域設定画面の一例を示す模式図である。
【図7】本発明の文字認識装置における用紙構造登録結果の一例を示す模式図である。
【図8】本発明の文字認識装置における第1の制御処理手順の一例を示すフローチャートである。
【図9】本発明の文字認識装置における第2の制御処理手順の一例を示すフローチャートである。
【図10】本発明の文字認識装置における第3の制御処理手順の一例を示すフローチャートである。
【図11】本発明の文字認識装置において使用可能な用紙の一例を示す模式図である。
【図12】図11に示した用紙に対する領域設定画面の一例を示す模式図である。
【図13】図11に示した用紙に対する記入例を示す模式図である。
【図14】図12に示した用紙(文書)から生成されたXML文書の出力結果の一例を示す模式図である。
【図15】図12に示した用紙(文書)から生成されたXML文書の出力結果の一例を示す模式図である。
【図16】本発明に係る文字認識装置で読み出し可能な各種データ処理プログラムを格納する記録媒体のメモリマップを説明する図である。
【符号の説明】
201 CPU
202 RAM
203 ROM
211 HD
212 PD
【発明の属する技術分野】
本発明は、イメージデータから文字認識しテキストデータを出力可能な文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体に関するものである。
【0002】
【従来の技術】
従来より、OCR(Optical Character Reader)機能を備えた文字認識装置では、スキャナ等で読み取った紙文書のイメージデータをテキスト情報に変換して出力することが可能であった。そして、このような文書認識装置から、一般的に文書認識結果として出力されるテキストは、非構造化テキストであるCSV(Comma Separated Value)等の形式を取っていた。
【0003】
【発明が解決しようとする課題】
しかし、上述したように従来の文字認識装置が生成していた非構造化テキストは、単純なテキストの羅列であり、各テキストを意味のある情報とするためには、C言語やJava(登録商標)などで作成された個別の変換プログラムを介在させ、文字列の順番のみから変換プログラム内で持っている意味情報と組み合わせること等によって、そのデータが持つ意味を取り出さなくてはならない。そのため、OCR結果を各種業務アプリケーションで利用するには、業務アプリケーション毎に変換プログラムを開発する必要があり非常に煩雑であった。
【0004】
なお、特開平11−66196号公報には、入力した文書画像からテキストデータの認識を行うとともに、文書画像のレイアウト(タイトル部,小見出し部,キャプション,ヘッダ・フッタ部等)を解析してレイアウト情報を抽出し、該抽出したレイアウト情報に基づいて、認識したテキストデータをレイアウトしたPost Script文書,HTML文書を生成する文書認識装置が提案されている。
【0005】
しかしながら、上記特開平11−66196号公報に記載された文書認識装置は、OCR認識した文書の表示上の再現(書式の再現)を目的としたものであるため、文書のタイトル部,小見出し部,キャプション,ヘッダ・フッタ部等を認識してHTML化しているだけであり、文書の表示上の再現には意味があるものの、OCR認識したテキストデータに意味や論理的な構造を付されたものではなく、結局、各種業務アプリケーションで直接使用することはできなかった。もともとHTMLは、閲覧(ブラウズ)することを目的とした構造化言語であり、文書を構成する要素関係(文書の意味や構造)をつかむことは出来ない。
【0006】
また、構造化テキストの中でXML(eXtensible Markup Language)は、その中に意味のある名前を持ち、且つ論理的な構造を表すことが出来る(文書に、文書を構成する各要素の意味と各要素間の構造(関係)とを示す情報を埋め込むことができる)。このXMLの普及に伴い、各種業務アプリケーションのデータの入出力にXMLを標準的に採用するケースが増えてきている。なお、上記特開平11−66196号公報に記載された文書認識装置でも、XMLにより出力することが可能であるが、この特開平11−66196号公報に記載された文書認識装置でのXML出力とは、上記HTML出力の場合と同様にレイアウト情報の抽出,解析を行うものであり、文書の意味情報と構造を含んだXMLを生成可能なものではなかった。
【0007】
そのため、上記特開平11−66196号公報に記載された文書認識装置において生成されるXML文書は、オリジナル文書の再現表示以外に利用することは困難であり、結局、個別の変換プログラムを介在させることなしには、文字列の意味を捉えることが出来ず、各種業務アプリケーションで直接使用することができず煩雑であるという問題点があった。
【0008】
本発明は、上記の問題点を解決するためになされたもので、本発明の目的は、所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として予め登録しておき、記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力し、該入力された文書画像情報から文字認識を行い、該文字認識結果と前記登録された構造化情報から意味と構造を有する構造化言語を用いた文書を生成し、該生成された前記意味と構造を有する構造化言語を用いた文書を出力することにより、OCRの基となる指定用紙に記入された文書画像に内含している意味と構造を該指定用紙の構造化情報として登録しておき、該構造化情報により、XMLの表現を用いて、文書画像から構造の情報と意味のある文字列を取り出すことができ、OCRからの読み取りをそのままXMLとして意味と構造をもたせたデータとして出力し、業務アプリケーションとの連動性を高めることを目的とした文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体を提供することである。
【0009】
【課題を解決するための手段】
本発明に係る第1の発明は、所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として登録する登録手段(図4に示す用紙構造登録画面400,図5に示すフィールド設定画面500,図6に示す領域設定画面600,図2に示すCPU201,HD211,図8)と、記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力する入力手段(図1に示すスキャナ102)と、前記入力手段により入力された文書画像情報から文字認識を行う文字認識手段(図2に示すCPU201,図9のステップS204)と、前記文書認識手段による文字認識結果と前記登録手段に登録された構造化情報から意味と構造を有する構造化言語(XML)を用いた文書(XML文書)を生成する生成手段(図2に示すCPU201,図9のステップS205,図10)と、前記生成手段により生成された前記意味と構造を有する構造化言語を用いた文書を出力する出力手段(図2に示すCPU201,図9のステップS206)とを備えたことを特徴とする。
【0010】
本発明に係る第2の発明は、前記登録手段は、複数種類の所定の記入用紙に対して、記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報としてそれぞれ登録可能なものであり、前記入力手段により入力された文書画像情報の構造化情報を、前記登録手段に登録されている構造化情報から特定する特定手段(図2に示すCPU201,図9のステップS202,S203)を有することを特徴とする。
【0011】
本発明に係る第3の発明は、前記登録手段は、複数種類の所定の記入用紙に対して、前記各記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として、該記入用紙を光学的に読み取ることにより生成された用紙画像情報に対応させて登録するものであり、前記特定手段(図2に示すCPU201,図9のステップS202,S203)は、前記入力手段により入力された文書画像情報と前記登録手段に登録された用紙画像情報とを比較して前記入力手段により入力された文書画像情報の構造化情報を特定することを特徴とする。
【0012】
本発明に係る第4の発明は、前記特定手段は、前記入力手段により入力された文書画像情報の構造化情報を前記登録手段に登録された構造化情報から指定することにより特定することを特徴とする。
【0013】
本発明に係る第5の発明は、所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として登録する登録工程(図8)と、記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力する入力工程(図9のステップS201)と、該入力された文書画像情報から文字認識を行う文字認識工程(図9のステップS204)と、該文字認識結果と前記登録された構造化情報から意味と構造を有する構造化言語を用いた文書を生成する生成工程(図9のステップS205)と、該生成された前記意味と構造を有する構造化言語を用いた文書を出力する出力工程(図9のステップS206)とを有することを特徴とする。
【0014】
本発明に係る第6の発明は、請求項5に記載された文字認識データ出力方法を実行するためのプログラムであることを特徴とする。
【0015】
本発明に係る第7の発明は、請求項5に記載された文字認識データ出力方法を実行するためのプログラムを記録媒体にコンピュータが読み取り可能に記憶させたことを特徴とする。
【0016】
【発明の実施の形態】
図1は、本発明の文字認識装置を適用可能なシステム構成を示す構成図である。
【0017】
図において、101は本発明の文書認識装置を適用可能なコンピュータで、スキャナ102,デジタル複合機103等からイーサネット(登録商標)等のLAN105を介して入力された文書画像情報からXMLファイルを生成する。
【0018】
スキャナ102は、紙文書を光学的に読み取って文書画像を生成する。デジタル複合機103は、紙文書を光学的に読み取って文書画像を生成する機能や、画像情報をプリント出力するプリント機能や、公衆回線を介してFAX106にファクシミリ通信を行う機能等を有する。
【0019】
104はアプリケーションサーバで、コンピュータ101により生成されたXMLファイルを入力して各種業務アプリケーションを実行する。
【0020】
図2は、図1に示したコンピュータ101の構成の一例を示すブロック図である。
【0021】
図において、201はCPUで、ROM203のプログラム用ROMに記憶されたプログラムに基づいてシステムバス204に接続された各デバイスを制御し、クライアント101全体を統括制御する。
【0022】
また、このROM203のフォント用ROMにはフォントデータ等を記憶し、ROM203のデータ用ROMには各種データを記憶する。202はRAMで、CPU201の主メモリ,ワークエリア等として機能する。
【0023】
205はキーボードコントローラ(KBC)で、キーボード(KB)209や例えばマウス等のポインティングデバイス(PD)212からの入力を制御する。206はCRTコントローラ(CRTC)で、CRTディスプレイ(CRT)210の表示を制御する。なお、ここでは、表示装置としてCRTを設けているがLCD等のその他の形式の表示装置であってもよい。
【0024】
207はメモリコントローラ(MC)で、ハードディスク(HD)211とのアクセスを制御する。208はネットワークインタフェース(NW I/F)で、LAN105を介してスキャナ102,デジタル複合機103,アプリケーションサーバ104等と通信可能である。このネットワークインタフェース208により、コンピュータ101はスキャナ102又はデジタル複合機103により画像入力を行い、生成したXMLデータをアプリケーションサーバ104に出力することができる。
【0025】
また、CPU201は、ユーザからの指示(KB209又は図示しないマウス等からの指示)に基づいてサーバ104に対して種々の機能に対応する処理の実行を指示することができる。
【0026】
さらに、パーソナルコンピュータ101は、図示しないフレキシブルディスクデバイスやCD−ROMデバイス等を備えるものとする。
【0027】
以下、図3を用いて、本発明の文字認識装置の機能について説明する。
【0028】
図3は、本発明の文字認識装置の機能を示す模式図である。
【0029】
図において、300は指定用紙で、この指定用紙300内の領域301〜307に記載された文字列を読み取り、領域301〜307から抽出されたテキストデータに、意味と構造(木構造)を付したXML文書320を生成する。
【0030】
なお、XMLでは、文書構造を構成する部分を「要素」(エレメント:Element)と呼び、要素は(タグ:tag)を使って記述される。このように、タグを使った記述方式を採用することで、データの意味やデータ構造を保持したまま、データを取り出すことが出来る。
【0031】
よって、イメージデータから取り出した文字列からXML文書を作成することにより、イメージデータから取り出した文字列データを、タグによって記述された要素として認識することが出来る。
【0032】
すなわち、図3の例でいえば、XML文書では、郵便番号は、「<郵便番号>336−9999</郵便番号>」という要素で記述される。
【0033】
さらにXMLは、タグでマークアップされた要素を入れ子構造にし、データ構造をも同様に表現することができる。
【0034】
用紙は、その用紙そのものが全体として、意味と構造をもっている。図3の場合では、全体が「注文」という情報であることを示しており、その中に注文の明細情報を格納している。つまり、図3の用紙から生成されたXML文書は、全体は「<注文>・</注文>」という要素に、さらにはその中の「注文明細」は、「<注文明細>・</注文明細>」という要素として、入れ子構造として記述され、意味と構造を表現することが可能になる。
【0035】
このように、本発明は、OCRによって文書を解析し、意味と構造とをXMLを用いて出力するものである。
【0036】
以下、図4〜図8を参照して、本発明の文字認識装置における用紙構造登録処理手順について説明する。
【0037】
図4は、図3に示した指定用紙300等の用紙を登録するための用紙構造登録画面の一例を示す模式図であり、ユーザにより用紙構造登録が指示された場合に、図2に示したCRT210上に表示される。
【0038】
図において、400は用紙構造登録画面であり、この用紙構造登録画面400において、401は用紙名入力欄で、登録する用紙の名称(図3の例では「注文」)を入力する。402は新規キーで、このキーを図2に示したPD212等で指示することにより、図5に示すフィールド入力画面500が表示され、フィールドを登録することができる。403はフィールド表示欄で、登録されたフィールドが木構造で表示される。
【0039】
404はOKキーで、このキーをPD212等で指示することにより用紙設定を確定し、用紙構造登録画面400での設定内容で、用紙情報がHD211内に登録され、用紙構造登録画面400を終了する。
【0040】
405はキャンセルキーで、このキーをPD212等で指示することにより、用紙構造登録画面400での登録内容を無効とし、用紙構造登録画面400を終了する。
【0041】
図5は、図4に示した用紙構造登録画面400で登録される用紙にフィールド設定するためのフィールド設定画面の一例を示す模式図であり、図4に示した新規キー402が指示されたことに応じて図2に示したCRT210上に表示される。
【0042】
図において、501はフィールド名入力欄で、後述する図6に示す領域入力画面600により設定される本フィールドに対応する領域のフィールド名を入力する。
【0043】
502は種類入力欄で、図6で設定される領域のデータ種別を入力する。例えば、図6で選択される領域内のOCR認識されるデータがテキストデータである場合は「テキスト」を選択し、数値データである場合には「数値」を選択し、日付データである場合には「日付」を選択する。これにより、文字認識時に、「テキスト」,「数値」,「日付」等の種類に応じた文字認識を行うことができ、文字認識精度を向上することが可能となる。
【0044】
503はフィールド入力欄で、種類入力欄502で「テキスト」又は「数値」が選択された場合に、本フィールドのデータ量を入力する。
【0045】
504はOKキーで、このキーをPD212等で指示することによりフィールド設定を確定し、図6に示す領域指定画面600に進む。
【0046】
505はキャンセルキーで、このキーをPD212等で指示することにより、フィールド設定画面500での設定内容を無効とし、図4に示した用紙構造登録画面400に戻る。
【0047】
図6は、図5で設定したフィールドに対応する領域を設定するための領域設定画面の一例を示す模式図であり、図5に示したOKキー504が指示されたことに応じて図2に示したCRT210上に表示される。
【0048】
図において、601は図3に示した指定用紙300をスキャナ102等により入力した用紙イメージ情報である。
【0049】
この用紙イメージ情報を、602〜608に示すように、PD212等で用紙上の所定の領域を指示(ドラッグ・アンド・ドロップ)し、OKキー609を指示することにより、602で示した領域が図5で設定したフィールドに対応する領域として設定し、図5に示したフィールド設定画面500に戻る。
【0050】
なお、ドラッグ・アンド・ドロップによる領域の指定は、既にフィールド設定された領域の内側に指定してもよい。この場合、内側に指定されたフィールドは、そのフィールドを包含するフィールドの下位のフィールドとして定義される。この階層構造は、2層に限らず、同様の指定でさらに深く階層定義も可能になる。
【0051】
具体的には、既にPD212にてドラッグ・アンド・ドロップで文字入力領域に範囲指定を行って領域付けられたそのフィールド606に関して、さらに、複数の領域607〜608をドラッグ・アンド・ドロップすることにより、その領域607〜608を前記フィールドの下位のフィールドとして指定することができる。この階層構造は、2層に限らず、同様の指定でさらに深く階層定義も可能になる。
【0052】
610はキャンセルキーで、このキーをPD212等で指示することにより、領域設定画面600での設定内容を無効とし、図5に示したフィールド設定画面500に戻る。
【0053】
図7は、本発明の文字認識装置における用紙構造登録結果の一例を示す模式図である。
【0054】
(a)は、ユーザが、用紙701の用紙名を「注文」とし、領域702のフィールド名を「お客様名」、領域703を「郵便番号」、領域704を「住所」、領域705を「電話番号」、領域706名を「注文明細」、領域707を「商品番号」、領域708を「数量」としてフィールド指定し、用紙を登録した場合に相当する。
【0055】
これにより、(b)に示すような用紙構造が指定される。
【0056】
なお、ここで、フィールド「注文明細」は、フィールド「商品番号」,「数量」という2つの要素(フィールド)から成り立つものであり、フィールド「商品番号」,「数量」という繰り返しのある複数の要素が、「注文明細」の下位の要素(フィールド)として定義されていることを示している。
【0057】
図8は、本発明の文字認識装置における第1の制御処理手順の一例を示すフローチャートであり、用紙構造登録処理手順の一例に対応する。なお、このフローチャートの処理は、図2に示したCPU201によりHD211又はROM203又はその他の記録媒体に格納されたプログラムに基づいて実行されるものとする。また、S101〜S108は各ステップを示す。
【0058】
まず、あらかじめ設定された機器、例えばスキャナ102により登録する用紙イメージ情報を入力し(なお、予め入力されていた用紙イメージ情報であってもよい)、用紙構造登録処理の開始が指示されると、ステップS101において、図4に示した用紙構造登録画面400を表示する。
【0059】
そして、用紙構造登録画面400上で用紙名が入力され、ステップS102において、新規キー402が指示されフィールド設定が要求されたと判断した場合には、ステップS103に進み、図5に示したフィールド設定画面500を表示し、ステップS104に進む。
【0060】
次に、フィールド設定画面500上で、各種フィールド情報が入力され、ステップS104で、OKキー504が指示されて領域設定が要求されたと判断した場合には、ステップ105に進み、図6に示した領域設定画面600を表示する。
【0061】
そして、領域設定画面600上で領域が指定され、ステップS106で、OKキー609が指示されて領域設定が確定したと判断した場合には、ステップ102に戻り、次のフィールド設定を可能にする。
【0062】
一方、ステップS102で、新規キー402が指示されていないと判断した場合には、ステップS107に進み、全てのフィールド設定が終了し、OKキー404が指示され用紙設定が確定されたと判断した場合には、ステップS108に進み、用紙イメージデータと各種用紙情報(用紙名,フィールド情報,領域等)とを対応させて、図2に示したHD211に登録し、処理を終了する。
【0063】
これにより、用紙内の領域とその意味及び構造(フォームのXML構造)を該用紙の構造化情報として登録することができる。
【0064】
また、この用紙(フォーム)登録(用紙の構造化情報の登録)は、用紙の種類毎にそれぞれ行うことができる。
【0065】
さらに、入力された用紙(記入済みの用紙)のイメージ情報と、登録された用紙のイメージ情報を比較することにより入力された用紙を特定し、該入力された用紙に登録されたフォームの構造(構造化情報)を対応づけることができる。
【0066】
以下、図9,図10を参照して、本発明の文字認識装置における文字認識データ出力処理手順について説明する。
【0067】
図9は、本発明の文字認識装置における第2の制御処理手順の一例を示すフローチャートであり、文字認識データ出力処理手順の一例に対応する。なお、このフローチャートの処理は、図2に示したCPU201によりHD211又はROM203又はその他の記録媒体に格納されたプログラムに基づいて実行されるものとする。また、S201〜S206は各ステップを示す。
【0068】
まず、用紙の認識処理の開始が指示されると、ステップS201において、予め設定されたスキャナから用紙を入力し、ステップS202において、ステップS201で入力された用紙のイメージ画像情報と、登録された用紙のイメージ画像情報とを比較して、ステップS201で入力された用紙のフォームを特定する(フォーム自動認識処理)。
【0069】
次に、ステップS203において、ステップS202で特定されたフォームからXML構造を確定する(用紙に登録されたフィールドの構造がそのままXML構造となる)。
【0070】
次に、ステップS204において、ステップS201で入力した用紙のイメージ画像情報からフィールド設定された各領域の文字認識を行う。
【0071】
次に、ステップS205において、ステップS204で認識された各フィールド領域の文字列とステップS203で格納したXML構造から、XML文書をメモリ(RAM202)上に生成する(図10)。
【0072】
次に、ステップS206において、ステップS205で生成したXML文書を予め設定された場所に出力し(業務アプリケーションに出力することも可能)、処理を終了する。
【0073】
なお、このフローチャートでは、用紙のフォーム自動認識処理を行う場合について説明したが、ユーザが、手動で用紙のフォームを選択する(例えば、用紙名「注文」等で指定)ことにより、ステップS202のフォームの自動認識処理をスルーするように構成してもよい。
【0074】
図10は、本発明の文字認識装置における第3の制御処理手順の一例を示すフローチャートであり、図9のステップS205に示したXML文書生成手順の一例に対応する。なお、このフローチャートの処理は、図2に示したCPU201によりHD211又はROM203又はその他の記録媒体に格納されたプログラムに基づいて実行されるものとする。また、S301〜S304は各ステップを示す。
【0075】
まず、ステップS301において、メモリ(RAM202)上の所定領域にXML宣言(「<?xml version=”1.0”encoding=”Srhift_JIS”?>」)を出力し、次に、ステップS302において、メモリ上の続きの領域に、用紙名で定義されたルート要素の開始タグ(図6の場合では”<注文>”)を出力する。
【0076】
次に、ステップS303において、各フィールド名を各要素名、各フィールド領域のOCR認識結果を各要素の内容、とした各要素を、図9のステップS203で確定したXML構造に基づき生成し、メモリ上の続きの領域に出力する。
【0077】
最後に、ステップS304において、メモリ上の続きの領域に、用紙名で定義されたルート要素の終了タグ(図6の場合では”</注文>”)を出力し、リターンする。
【0078】
以上の処理により、OCRの基となる指定用紙に記入された文書画像に内含している意味と構造を情報に基づいて、XMLの表現を用いて、文書画像から構造情報と意味のある文字列を取り出すことができ、OCRからの読み取りをそのままXMLとして意味と構造をもたせて出力し、業務アプリケーションとの連動性を高めることができる。
【0079】
なお、本実施形態では、図6〜図8に示したように、記入用紙をスキャナ等で光学的に読み取ることにより生成した記入用紙のイメージ情報内の領域をポインティングデバイスで指定することにより、記入用紙上の各記入領域を指定する構成について説明したが、記入用紙のイメージ情報を入力することなく、記入用紙上の各記入領域の左上座標,右下座標等を数値入力することにり、記入用紙上の各記入領域を指定するように構成してもよい。なお、この場合は、図9のステップS202に示したフォームの自動認識は実行されず、代りに、ユーザが登録した各用紙のフォームから対応する用紙のフォームを選択することにより、入力する用紙のフォーム特定するようにするものとする。
【0080】
また、記入用紙のフィールド情報(フィールド名),フィールド領域の設定の全てを、図5,図6等により、ポインティングデバイス212やキーボード209等を用いて行う構成について説明したが、まずOCR機能によりフィールド名とフィールド領域を特定させ、その後、図5,図6等によりユーザが修正可能に構成してもよい。
【0081】
以下、図11〜図16を参照して、本発明の文字認識装置における文字認識データ出力処理の一例を示す。
【0082】
例えば、図11に示す用紙に対して、用紙構造登録処理を行い、図12に示すようにフィールドを設定する。
【0083】
図において、1300は用紙を示し、用紙名として「cameraclub」が登録されている。また、図中で反転している領域には全てフィールドが設定されている。
【0084】
例えば、領域1301にはフィールド名として「FamilyName」、領域1302にはフィールド名として「FirstName」、領域1303にはフィールド名として「KANA」、領域1304にはフィールド名として「Birth」、領域1305にはフィールド名として「Male」、領域1306にはフィールド名として「Male_Name」、領域1307にはフィールド名として「Female」、領域1308にはフィールド名として「Female_Name」を設定する。その他の領域については説明を省略する。
【0085】
次に、図13に示すように記入された用紙に対して文書認識処理を行うことにより、図14,図15に示すようなXML出力結果を得ることができる。
【0086】
なお、今日、構造化テキストの一表現形式であるXMLは、現在異機種、異アプリケーションシステム間の橋渡しをする標準的なデータ記述言語となっている。例えば、代表的なERP(Enterprise Resource Planning:経営資源利用計画)のパッケージでも、代表的なCRM(Customer Relationship Management)のパッケージでもXMLによる外部インターフェースを備えている。その他にも、外部とのデータの入出力にXMLを使用するものは数多く、Webサーバ同士でデータを交換し合うB2B(Business to Business)の分野でも、XMLは標準的に使用されている。
【0087】
このようなコンピュータシステムを取り巻く環境において、本発明では、OCRから出力されるデータの表現形式を文書の意味と構造とを含んだXMLとすることにより、様々なアプリケーションとの連動を容易にすることができるという効果を奏する。
【0088】
以下、図16に示すメモリマップを参照して本発明に係る文字認識装置で読み出し可能なデータ処理プログラムの構成について説明する。
【0089】
図16は、本発明に係る文字認識装置で読み出し可能な各種データ処理プログラムを格納する記録媒体のメモリマップを説明する図である。
【0090】
なお、特に図示しないが、記録媒体に記憶されるプログラム群を管理する情報、例えばバージョン情報,作成者等も記憶され、かつ、プログラム読み出し側のOS等に依存する情報、例えばプログラムを識別表示するアイコン等も記憶される場合もある。
【0091】
さらに、各種プログラムに従属するデータも上記ディレクトリに管理されている。また、インストールするプログラムやデータが圧縮されている場合に、解凍するプログラム等も記憶される場合もある。
【0092】
本実施形態における図8,図9,図10に示す機能が外部からインストールされるプログラムによって、ホストコンピュータにより遂行されていてもよい。そして、その場合、CD−ROMやフラッシュメモリやFD等の記録媒体により、あるいはネットワークを介して外部の記録媒体から、プログラムを含む情報群を出力装置に供給される場合でも本発明は適用されるものである。
【0093】
以上のように、前述した実施形態の機能を実現するソフトウエアのプログラムコードを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
【0094】
この場合、記録媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記録媒体は本発明を構成することになる。
【0095】
プログラムコードを供給するための記録媒体としては、例えば、フレキシブルディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,DVD−ROM,磁気テープ,不揮発性のメモリカード,ROM,EEPROM,シリコンディスク等を用いることができる。
【0096】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0097】
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0098】
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのソフトウエアによって表されるプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0099】
さらに、本発明を達成するためのソフトウエアによって表されるプログラムをネットワーク上のデータベースから通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0100】
【発明の効果】
以上説明したように、本発明によれば、所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として予め登録しておき、記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力し、該入力された文書画像情報から文字認識を行い、該文字認識結果と前記登録された構造化情報から意味と構造を有する構造化言語を用いた文書を生成し、該生成された前記意味と構造を有する構造化言語を用いた文書を出力するので、文字認識処理の基となる指定用紙に記入された文書画像に内含している意味と構造を該指定用紙の構造化情報として登録しておき、該構造化情報により、XMLの表現を用いて、文書画像から構造の情報と意味のある文字列を取り出すことができ、文字認識処理からの認識情報をそのままXMLとして意味と構造をもたせた情報として出力し、業務アプリケーションとの連動性を高めることができる等の効果を奏する。
【0101】
従って、イメージデータから文字認識しテキストデータを、様々なアプリケーションとの連動が容易に可能な形式で出力することができる。
【図面の簡単な説明】
【図1】本発明の文字認識装置を適用可能なシステム構成を示す構成図である。
【図2】図1に示したコンピュータの構成の一例を示すブロック図である。
【図3】本発明の文字認識装置の機能を示す模式図である。
【図4】図3に示した指定用紙等の用紙を登録するための用紙構造登録画面の一例を示す模式図である。
【図5】図4に示した用紙構造登録画面で登録される用紙にフィールド設定するためのフィールド設定画面の一例を示す模式図である。
【図6】図5で設定したフィールドに対応する領域を設定するための領域設定画面の一例を示す模式図である。
【図7】本発明の文字認識装置における用紙構造登録結果の一例を示す模式図である。
【図8】本発明の文字認識装置における第1の制御処理手順の一例を示すフローチャートである。
【図9】本発明の文字認識装置における第2の制御処理手順の一例を示すフローチャートである。
【図10】本発明の文字認識装置における第3の制御処理手順の一例を示すフローチャートである。
【図11】本発明の文字認識装置において使用可能な用紙の一例を示す模式図である。
【図12】図11に示した用紙に対する領域設定画面の一例を示す模式図である。
【図13】図11に示した用紙に対する記入例を示す模式図である。
【図14】図12に示した用紙(文書)から生成されたXML文書の出力結果の一例を示す模式図である。
【図15】図12に示した用紙(文書)から生成されたXML文書の出力結果の一例を示す模式図である。
【図16】本発明に係る文字認識装置で読み出し可能な各種データ処理プログラムを格納する記録媒体のメモリマップを説明する図である。
【符号の説明】
201 CPU
202 RAM
203 ROM
211 HD
212 PD
Claims (7)
- 所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として登録する登録手段と、
記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力する入力手段と、
前記入力手段により入力された文書画像情報から文字認識を行う文字認識手段と、
前記文書認識手段による文字認識結果と前記登録手段に登録された構造化情報から意味と構造を有する構造化言語を用いた文書を生成する生成手段と、
前記生成手段により生成された前記意味と構造を有する構造化言語を用いた文書を出力する出力手段と、
を備えたことを特徴とする文字認識装置。 - 前記登録手段は、複数種類の所定の記入用紙に対して、記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報としてそれぞれ登録可能なものであり、
前記入力手段により入力された文書画像情報の構造化情報を、前記登録手段に登録されている構造化情報から特定する特定手段を有することを特徴とする請求項1記載の文字認識装置。 - 前記登録手段は、複数種類の所定の記入用紙に対して、前記各記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として、該記入用紙を光学的に読み取ることにより生成された用紙画像情報に対応させて登録するものであり、
前記特定手段は、前記入力手段により入力された文書画像情報と前記登録手段に登録された用紙画像情報とを比較して前記入力手段により入力された文書画像情報の構造化情報を特定することを特徴とする請求項2記載の文字認識装置。 - 前記特定手段は、前記入力手段により入力された文書画像情報の構造化情報を前記登録手段に登録された構造化情報から指定することにより特定することを特徴とする請求項2記載の文字認識装置。
- 所定の記入用紙内の各記入領域の意味と構造を該記入用紙の構造化情報として登録する登録工程と、
記入済みの前記記入用紙を光学的に読み取ることによって生成された文書画像情報を入力する入力工程と、
該入力された文書画像情報から文字認識を行う文字認識工程と、
該文字認識結果と前記登録された構造化情報から意味と構造を有する構造化言語を用いた文書を生成する生成工程と、
該生成された前記意味と構造を有する構造化言語を用いた文書を出力する出力工程と、
を有することを特徴とする文字認識データ出力方法。 - 請求項5に記載された文字認識データ出力方法を実行するためのプログラム。
- 請求項5に記載された文字認識データ出力方法を実行するためのプログラムをコンピュータが読み取り可能に記憶した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002311439A JP2004145736A (ja) | 2002-10-25 | 2002-10-25 | 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002311439A JP2004145736A (ja) | 2002-10-25 | 2002-10-25 | 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004145736A true JP2004145736A (ja) | 2004-05-20 |
Family
ID=32456660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002311439A Pending JP2004145736A (ja) | 2002-10-25 | 2002-10-25 | 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004145736A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006303651A (ja) * | 2005-04-15 | 2006-11-02 | Nokia Corp | 電子装置 |
JP2008052439A (ja) * | 2006-08-23 | 2008-03-06 | Fuji Xerox Co Ltd | 画像処理システムおよび画像処理プログラム |
JP2008084186A (ja) * | 2006-09-28 | 2008-04-10 | Fuji Xerox Co Ltd | 画像処理システム及び画像処理プログラム |
JP2010510563A (ja) * | 2006-11-16 | 2010-04-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ハード・コピーの書式からの書式定義の自動発生 |
JP2017059008A (ja) * | 2015-09-17 | 2017-03-23 | コニカミノルタ株式会社 | 書込画像記録装置、書込画像記録方法、およびコンピュータプログラム |
-
2002
- 2002-10-25 JP JP2002311439A patent/JP2004145736A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006303651A (ja) * | 2005-04-15 | 2006-11-02 | Nokia Corp | 電子装置 |
JP2008052439A (ja) * | 2006-08-23 | 2008-03-06 | Fuji Xerox Co Ltd | 画像処理システムおよび画像処理プログラム |
JP2008084186A (ja) * | 2006-09-28 | 2008-04-10 | Fuji Xerox Co Ltd | 画像処理システム及び画像処理プログラム |
JP2010510563A (ja) * | 2006-11-16 | 2010-04-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ハード・コピーの書式からの書式定義の自動発生 |
JP2017059008A (ja) * | 2015-09-17 | 2017-03-23 | コニカミノルタ株式会社 | 書込画像記録装置、書込画像記録方法、およびコンピュータプログラム |
US10264157B2 (en) | 2015-09-17 | 2019-04-16 | Konica Minolta, Inc. | Image processing apparatus, image processing method and image processing program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100897635B1 (ko) | 문서 관리 시스템 및 그 방법과 정보 처리 장치 및 그 제어 방법 | |
US7434160B2 (en) | PDF document to PPML template translation | |
US7688459B2 (en) | Document processing method | |
EP1696337A2 (en) | Document processing apparatus, document processing method and computer program | |
JP2009524883A (ja) | デジタルコンテンツのネットワークへの提示 | |
JP2004139466A (ja) | 電子ドキュメント印刷プログラムおよび電子ドキュメント印刷システム | |
Merz | Web publishing with Acrobat/PDF | |
US20090225365A1 (en) | Information processing apparatus, image processing apparatus, method for controlling information processing apparatus, method for controlling image processing apparatus, and program | |
US20080141121A1 (en) | Information processing apparatus and information processing method | |
US20050125724A1 (en) | PPML to PDF conversion | |
JP4666996B2 (ja) | 電子ファイリングシステム、電子ファイリング方法 | |
US8069234B2 (en) | Web service execution method, processing method and apparatus | |
JP2004145736A (ja) | 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体 | |
JP2009093389A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US8335984B2 (en) | Information processing for generating print data for variable-data printing | |
JP2004326626A (ja) | 構造化文書ファイル管理装置および構造化文書ファイル管理方法 | |
US20040051901A1 (en) | Information processsing apparatus, a function extension program, computer readable storage medium storing the program, and information processing method | |
US20020038322A1 (en) | Information processing apparatus, method therefor,and computer-readable memory | |
JP2006185064A (ja) | データ処理装置及びプログラム | |
JP2005063243A (ja) | 情報処理装置、プログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2002342342A (ja) | 文書管理方法及びその実施システム並びにその処理プログラムと記録媒体 | |
JP2010170525A (ja) | 付加画像処理システム、画像形成装置及び付加画像追加方法 | |
JP2010224659A (ja) | 情報処理装置、情報処理方法、プログラム及び記憶媒体 | |
JP2005107635A (ja) | 電子フォーム入力システム、方法、プログラムおよび媒体 | |
JP4018528B2 (ja) | 文書処理装置、文書処理方法およびプログラム |