JP2001344562A - 文書読取装置および文書読取方法 - Google Patents

文書読取装置および文書読取方法

Info

Publication number
JP2001344562A
JP2001344562A JP2000163784A JP2000163784A JP2001344562A JP 2001344562 A JP2001344562 A JP 2001344562A JP 2000163784 A JP2000163784 A JP 2000163784A JP 2000163784 A JP2000163784 A JP 2000163784A JP 2001344562 A JP2001344562 A JP 2001344562A
Authority
JP
Japan
Prior art keywords
tag
line
tags
character
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000163784A
Other languages
English (en)
Other versions
JP3425408B2 (ja
Inventor
Yasuto Ishitani
康人 石谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000163784A priority Critical patent/JP3425408B2/ja
Priority to US09/650,750 priority patent/US6721451B1/en
Publication of JP2001344562A publication Critical patent/JP2001344562A/ja
Application granted granted Critical
Publication of JP3425408B2 publication Critical patent/JP3425408B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【課題】印刷された文書から所望のタグが付与された所
望の情報が抽出され、コンピュータシステムに自動入力
されることを目的とする。 【解決手段】文字行と、キーワード辞書にある該当する
論理要素に含まれるキーワードとが照合されて、その照
合結果を保持するキーワード照合部13に出力される。
分割処理部15を介して処理されたすべて文字行は、隣
接する文字行に付与されたタグがタグの組み合わせとし
て論理的に矛盾している場合に、論理的に矛盾しないよ
うにタグを置き換えるタグ付け変更部16に出力され
る。このタグ付け変更部16で適切なタグを付与するこ
とができない文字行は、その文字行に隣接するタグを参
照して適切なタグを推定して付与する不明タグ推定部1
7に出力される。さらに、この不明タグ推定部17にお
ける処理は、すべての文字行に対して適用され、タグの
置き換えがなくなるまで繰り返されることによる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書読取装置お
よび文書読取方法に係り、特に印刷された文書に記載さ
れている内容を抽出し、その抽出した内容を所定の工程
で構造化して、コンピュータに入力するための文書読取
装置および文書読取方法である。
【0002】
【従来の技術】コンピュータに、新聞記事、書籍、オフ
ィス文書、公文書などの印刷された文書の内容を取り込
んで、その内容をコンピュータで利用可能な電子情報と
して利用するための、文書読取装置がある。この読み取
り装置においては、印刷された文書がコンピュータにフ
ァイルとして取り込まれる。つぎに、このファイルから
取り込まれた文書の内容がどのように文書上に配置され
ているかを示すレイアウト構造と、文書中の文字または
その文字の集合である文字行が互いにどのような意味の
つながりを有しているかを示す論理構造とが抽出され
る。そして、それらの構造を対応づけて、コンピュータ
に取り込まれた印刷された文書をコンピュータ内で再現
するための一連の処理がされるのが一般的である。
【0003】これらレイアウト構造と論理構造とを抽出
するための手法として、論理構造がレイアウト構造と密
接な関係にあることを利用するものがある。たとえば、
文献「黄瀬浩一、山岡正輝、馬場口登、手塚慶一:“文
書画像構造解析のための知識ベースの一構成法”、情報
処理学会論文誌、Vol.34 No.1、PP75−
87、(Jan.1993)」には、レイアウト構造と
論理構造とその対応関係を表す文書モデルが用いられて
いる。このモデルにおいては、入力文書に対して所定の
推論が適用されることにより文書構造を抽出する手法が
記載されている。さらに、このモデルは、構造の階層性
を記述できるフレーム表現を採用している。これによっ
て、センタリングなどのレイアウト記述が可能となり、
各構成要素の変動の記述も可能になる。
【0004】
【発明が解決しようとする課題】しかしながら、従来
の、文書読取装置は、特定のレイアウト条件下の印刷文
書について処理できるといった程度にとどまり、印刷さ
れた多様な文書全般にわたって、詳細に解析して所望の
論理情報を柔軟に抽出することは困難である。
【0005】さらには、従来の、文書読取装置において
は、たとえば、複数の言語で記載されている文書、一行
中に複数の論理要素が混在している文書、または、一行
中で一部の文字が90度回転しているような文書などが
高精度に処理されることも困難である。また、抽出した
情報を所望の順序または形式で出力することも困難であ
る。
【0006】この発明の目的は、複数の言語で記載され
ている文書、一行中に複数の論理要素が混在している文
書、および、一行中で一部の文字が90度回転している
ような文書を含む、一段組みのビジネスレターから多段
組の新聞まで多様な文書から任意の論理要素を伴った、
所望の情報を抽出し、任意のデータ形式でコンピュータ
に入力することができる、文書読取装置および文書読取
方法を提供するにある。
【0007】
【課題を解決するための手段】この発明によれば、複数
のキーワードとこのキーワードを分類するための論理要
素とを対応付けて記憶しているキーワード記憶手段と、
文字を含み、複数の行を含む画像データから、所定の行
を選択する選択手段と、 この選択手段で選択された行
中の文字と、前記キーワード記憶手段に記憶されている
キーワードとを照合し、この照合された結果に基づいて
キーワードと対応付けられている論理要素を示すタグ
を、この行部分に付与して、この照合結果を保持する照
合手段を具備する、文書読取装置によって提供される。
【0008】また、この発明によれば、複数のキーワー
ドとこのキーワードを分類するための論理要素とを対応
付けて記憶しているキーワード記憶手段と、文字を含
み、複数の行を含む画像データから、行を選択する行選
択手段と、前記行選択手段によって選択された行中の行
部分と前記キーワード記憶手段に記憶されているキーワ
ードとを照合し、この照合された結果に基づいてキーワ
ードと対応付けられている論理要素を示すタグを、この
行部分に付与して、この照合結果を保持する照合手段
と、前記照合結果において、前記行が一つのタグのみを
有している場合に、前記タグを前記行全体のタグとし
て、タグの範囲を変更する範囲拡張手段と、前記照合結
果において、行内に二つ以上のタグが存在する場合に
は、当該行の内容を分割し、一つの文字行に一つのタグ
が付与されるまで行の分割処理を行う分割手段と、前記
照合結果において、隣接する行に付与されたタグがタグ
の組み合わせとして論理的に矛盾している場合に、それ
らのタグが論理的に矛盾しないようにタグを変更するタ
グ変更手段と、前記タグ変更手段において、適切なタグ
が付与されることが不可能な行は、その行に隣接するタ
グを参照して適切なタグを推定して付与するタグ推定手
段と、を具備する、文書読取装置によって提供される。
【0009】さらに、この発明によれば、複数のキーワ
ードとこのキーワードを分類するための論理要素とを対
応付けてキーワード記憶手段に記憶し、文字を含み、複
数の行を含む画像データから、行を選択し、前記選択さ
れた行中の行部分と前記キーワード記憶手段に記憶され
ているキーワードとを照合し、この照合された結果に基
づいてキーワードと対応付けられている論理要素を示す
タグを、この行部分に付与して、この照合結果を保持
し、前記照合結果において、前記行が一つのタグのみを
有している場合に、前記タグを前記行全体のタグとし
て、タグの範囲を変更し、前記照合結果において、行内
に二つ以上のタグが存在する場合には、当該行の内容を
分割し、一つの文字行に一つのタグが付与されるまで行
の分割処理を行い、前記照合結果において、隣接する行
に付与されたタグがタグの組み合わせとして論理的に矛
盾している場合に、それらのタグが論理的に矛盾しない
ようにタグを変更し、前記タグが変更される場合に、適
切なタグが付与されることが不可能な行は、その行に隣
接するタグを参照して適切なタグを推定して付与するこ
とを特徴とする文書読取方法によって提供される。
【0010】
【発明の実施の形態】以下、図面が参照されつつ、この
発明の、文書読取装置の一実施例が説明される。
【0011】図1は、この発明の文書読取装置のシステ
ム全体を示すブロック図である。
【0012】図1が参照されると、まず、紙媒体に文字
が記載された文書は、画像がデータ化された画像データ
としてコンピュータに取り込まれ、コンピュータにおい
てこの文書をコンピュータ上で操作できる画像形式に変
換して入力する文書画像入力部1に入力される。この文
書画像入力部1において処理された結果が、画面に表示
される。使用者が、この画面に表示された画像を参照し
ながら、再度、その表示された画像を修正することがで
きる。つぎに、使用者が文書画像入力結果を修正するこ
とができる処理結果修正GUI(Graphical User Inter
face)6が起動される。この処理結果修正GUI6にお
いては、文書画像入力部1にて変換された画像が表示さ
れる。文書が画像として正確に表示されていない場合
は、文書がコンピュータに取り込まれるときの条件が変
更されて、文書が再度コンピュータに取り込まれる。
【0013】コンピュータ上で操作できる画像形式に変
換されたこの画像データが、テキストブロックの位置情
報と、読み順通りに順序づけがなされた文字行単位の情
報とを抽出するレイアウト解析部2に出力される。ここ
で、テキストブロックとは、文書画像を構成する文書要
素中の隣接して配置している文字行(隣接して配置して
いる文字の集合)の集合である。このレイアウト解析部
2において処理された結果が、画面に表示され、そのレ
イアウト解析結果を使用者が修正することができる処理
結果修正GUI6が起動される。この処理結果修正GU
I6においては、文書の読み順が誤っているため誤認識
されている部分と、文書から誤って抽出された文字行と
を修正するツールが用いられて使用者が望むレイアウト
に編集することができる。
【0014】このレイアウト情報が、各文字の文字パタ
ーンを選択して、文字として認識することを可能にする
文字認識部3に出力される。また、この文字認識部3に
は、文字パターンを文字として認識するための辞書であ
る文字認識辞書(3−1、3−2、…、3−N)が複
数、接続されている。たとえば、日本語、英語、フラン
ス語、ドイツ語、イタリア語などの文字認識辞書が接続
されている。この文字認識部3において処理された結果
が画面に表示される。つぎに、使用者が、この画面に表
示された画像を参照しながら、再度その文字認識処理結
果を修正することができる処理結果修正GUI6が起動
される。この処理結果修正GUI6においては、文字行
単位で各文字の誤りが修正されることが可能になる。
【0015】文字として認識された文字認識情報が、テ
キストブロック、文字行、または文字ごとに、そのテキ
ストブロック、文字行、または文字の一般的な性質が示
される論理要素を意味するタグを付与するタグ付け部4
に出力される。このタグ付け部4において処理された結
果が画面に表示される。つぎに、使用者がそのタグ付け
処理結果を修正することができる処理結果修正GUI6
が起動される。この処理結果修正GUI6においては、
行単位のタグ付け結果が提示され、行ごとにタグを使用
者が変更することができる。
【0016】タグが付与された文書情報が、タグ付け結
果があらかじめ定義された出力形式によって、所望の文
書ファイルとして出力できるタグ付け結果出力部5に出
力される。このタグ付け部4において処理された結果が
画面に表示される。つぎに、使用者が、この画面に表示
された画像を参照しながら、そのタグ付け結果出力を修
正することができる処理結果修正GUI6が起動され
る。この処理結果修正GUI6においては、あらかじめ
定義されたファイル形式に出力されたタグ付け結果が提
示され、行ごとにタグを使用者が変更することができ
る。
【0017】さらに、上記タグ付け部4は、まず、文字
認識部3において文字として認識された文字パターンを
含む画像データを入力する。その画像データは、この文
字パターンを含む文字行のうち一つの文字行を選択する
文字選択部11に出力される。この選択された文字行
は、図2を参照すると、階層構造を有する論理要素に対
応するキーワードの選択肢が示されるキーワード辞書を
用いて、この文字行と、キーワード辞書にある該当する
論理要素に含まれるキーワードとを照合して、その照合
結果を保持するキーワード照合部13に出力される。キ
ーワード辞書は、キーワード辞書部12に格納されてい
る。この照合によって、文字行に存在する論理要素ごと
にタグを付与するタグ付けがなされる。ここで、階層構
造を有する論理要素とは、たとえば、下層要素として氏
名、所属機関、所在地などの構造を有する名刺という要
素を示す。さらに、所在地は、その下層要素として、た
とえば、郵便番号を有する。また、キーワードとは、た
とえば、論理要素が所属部署である場合は、業務、プロ
ジェクト、センターなどのことである。
【0018】つぎに、この照合結果が、文字行が一つの
タグのみ有している場合に、そのタグが文字行全体のタ
グであるとみなすタグ付け範囲の拡張をするタグ付け範
囲拡張部14に出力される。また、タグが付与されてい
ない文字行があった場合には、「不明」というタグがそ
の文字行に付与される。このように所定の文字行におい
てタグ付け範囲が拡張された後、再び文字行選択部11
にもどって、文書中の新たな文字行が選択されて、この
新たな文字行に対してこれまでの処理がされる。
【0019】文字行のすべてに対して、文字行内に二つ
以上のタグが存在する文字行が探しだされ、当該行の直
前直後でテキストブロックを分割する分割処理部15に
出力される。さらに、テキストブロックが分割されたあ
と、当該行のみを含むテキストブロックが発生され、異
なるタグの境界でテキストブロックおよび文字行が分割
される。以上の分割処理が、テキストブロックに一つの
文字行が存在し、かつ一つの文字行に一つのタグのみが
存在するまで繰り返される。
【0020】すべて文字行に対して、隣接する文字行に
付与されたタグがタグの組み合わせとして論理的に矛盾
している場合に、それらのタグが論理的に矛盾しないよ
うにタグを置き換えるタグ付け変更部16に出力され
る。このタグ付け変更部16において、適切なタグが付
与されることが不可能な文字行は、その文字行に隣接す
るタグを参照して適切なタグを推定して付与する不明タ
グ推定部17に出力される。さらに、この不明タグ推定
部17における処理は、すべての文字行に対して適用さ
れ、タグの置き換えがなくなるまで繰り返される。
【0021】つぎに、すべての文字行は、2つの隣接す
る文字行が同一のタグを有する場合、それら文字行を内
接するテキストブロックを発生させる文字行統合部18
に出力される。
【0022】さらに詳細に、文書読取装置の各部が説明
される。文字画像入力部においては、紙媒体である実際
の文書がコンピュータで取り扱うことのできる画像デー
タに変換される。具体的には、この文書画像入力部1
は、入力機器としてイメージスキャナやディジタルカメ
ラなどで構成されている。
【0023】所定の画像データに変換された文書は、入
力機器に付属しているソフトウェアや文書構造解析のた
めに前処理としてのソフトウエアを用いて、文書画像を
2値化することにより2値化画像に変換される。さら
に、ここでは、文書画像の文字方向である文書の入力方
向が検出されて、所望の方向に補正されることにより、
文書画像は、回転などして文字方向からずれていない、
常に正しい方向で入力されるものとする。
【0024】レイアウト解析部2においては、文書画像
入力部1から入力された文書画像からテキストブロック
の情報と文字行の情報とが抽出される。さらに、テキス
トブロックと文字行とは読み順が付与される。このと
き、例えば、縦書き文章と横書き文章が混在した文書に
対しても適用される。ここで、テキストブロックとは、
文書画像を構成する文書要素中の隣接して配置されてい
る文字行の集合である。また、文字行とは、隣接して配
置されている文字の集合である。たとえば、図3(A)
に示されるように、テキストブロックは、所定の文字行
(Str1、Str2、Str3、Str4およびSt
r5)を含む、これら文字行に外接する最小の矩形(T
B)である。また、図3(B)に示されるように、文字
行は、所定の文字(Ch1、Ch2、Ch3、Ch4、
Ch5)を含む、これら文字に外接する最小の矩形(S
tr1)である。また、図3(B)に示されるように、
文字は、一つの文字パターンを含む、その文字パターン
に外接する最小の矩形である。これらテキストブロッ
ク、文字行および文字は、それぞれの関係が木構造で表
現されている。すなわち、テキストブロックを上位構造
として、文字行があり、さらに文字行の下位構造として
文字が配位される(以下、ある構造について、そのある
構造のすぐの上位構造を親、そのある構造のすぐの下位
構造を子と称する)。また、これら各矩形は、図3
(C)のように左上端と右下端の座標値で表現すること
ができる。文字行内では横または縦書きの場合、それぞ
れ左上端のXまたはY座標値の昇順にソートすることに
よって、文字が読み順に並ぶようにすることができる。
【0025】文字認識部3においては、レイアウト解析
で得られた文字行が示される画像から個々の文字の形状
を示す文字パターンが取り出される。取り出された文字
パターンは、文字として認識され、順次、文字が符号化
された文字コード情報に変換される。さらに、この文字
パターンは、文字コード情報に変換されたのち、最終的
に読み順に並んだ状態にされ、文字認識結果は次段に出
力される。さらに、このように文字認識された文字行と
同一の文字行は、英文専用の文字認識方式が適用され、
上記と同様の文字認識結果が得られるようになってい
る。すなわち、取り出された文字パターンは、文字コー
ド情報に変換され、文字として最終的に読み順に並んだ
状態で文字認識結果は次段に出力される。以上のように
文字認識部3においては、レイアウト解析で得られた一
つの文字行情報に対して、複数の、文字認識が独立に適
用され、複数の文字認識結果が得られるようになってい
る。ここでは、日本語と英語に対応することのできる文
字認識部3を説明したが、さらにほかの言語にも対応す
るようにしても良い。このように、複数の文字認識辞書
(3−1、…、3−N)が文字行単位に出力された文字
に対してそれぞれ独立に適用されると、それら文字認識
による結果が統合、集計されることによって、後述する
タグ付け結果の精度が向上する。上述したように、日本
語を対象とした文字認識辞書が不得意とする英文字行あ
るいは数字列においては、英文を対象とした文字認識辞
書が出力した結果が採用されてタグ付け処理が行われる
ことによって、日本語の文字認識辞書のみが使用された
場合と比較して、文字行全体として高精度なタグ付け結
果が得られることが可能となる。
【0026】タグ付け部4においては、文字認識部3に
おいて文字コード情報に変換されたのち、最終的に読み
順に並んだ状態にされた文字が入力される。複数の文字
行で構成されるテキストブロックに対して、論理要素
(名刺の場合、氏名、所属機関、所在地など)に対応す
るタグがテキストブロック、文字行または文字ごとに付
与され、タグ付けされた文書画像は次段に出力される。
また、この論理要素は、排他的であり、一つの文字に複
数のタグが付与されることはない。
【0027】このタグ付け部4は、図4を参照すると、
まず、文字認識部3から文字パターンを含む画像データ
を入力して、この画像データから、その文字パターンを
含む文字行のうち一つの文字行が選択される(21)。
この選択された文字行は、上記のキーワード辞書が用い
られて、キーワード辞書にある該当する論理要素に含ま
れるキーワードと照合される(22)。
【0028】ここで、図5が参照されて、キーワード辞
書を作成する工程が説明される。まず、図6に示され
る、論理要素を定義するためのGUIが用いられて、使
用者は任意の論理要素を定義する(31)。このGUI
においては、各論理要素の名前、論理要素のタグ名(タ
グが開始する位置を示す開始タグ名とタグが終了する位
置を示す終了タグ名)、親となる論理要素および子とな
る論理要素が定義される。このように論理要素が定義さ
れると論理要素間の階層が明確になるので、図7に示さ
れるように同一階層の論理要素の一覧が表示されること
が可能になる。また、それら論理要素の間で順序が定義
されることも可能である。たとえば、入力された文書が
名刺である場合においては、図7が参照されると、名刺
という最上位論理要素(以下、ルートと称す)のすぐの
下位構造(すなわち、子)に、氏名、所属機関、所属部
署、役職、所在地、電話番号、FAX番号、Eメールア
ドレスおよびホームページアドレスという論理要素が、
ルートの子として定義される。これら子が図6に示され
るテンプレートに順に入力されると、その入力順に同一
階層の論理要素が順序付けられることが可能になる。さ
らに、たとえば所在地では、郵便番号、都道府県、市町
村群、番地という順に子の論理要素が定義されることが
可能となる。
【0029】つぎは、定義された論理要素ごとにタグが
定義される(32)。すなわち、ある論理要素は、開始
タグと終了タグとによって挟まれるとしてタグが定義さ
れる。たとえば、入力された文書が名刺の場合、氏名の
開始タグ</Name>、終了タグ<Name>、所属機関の開始タ
グ</Affiliation>、終了タグ<Affiliation>、所属部署
の開始タグ</Department>、終了タグ<Department>、役
職の開始タグ</Position>、終了タグ<Position>、所在
地の開始タグ</Address>、終了タグ<Address>、電話番
号の開始タグ</Phone>、終了タグ<Phone>、FAX番号
の開始タグ</Fax>、終了タグ<Fax>、Eメールアドレス
の開始タグ</Email_address>、終了タグ<Email_address
>、ホームページアドレスの開始タグ</HomePage_Addres
s>および終了タグ<HomePage_Address>などのタグの組で
あるタグセットが定義される。この場合、タグの形式は
任意のものでよく、ここに示された形式に限定されな
い。
【0030】このようにタグが定義されたのち、論理構
造が定義される(33)。すなわち、親と子の関係が定
義された複数の論理要素から、それら論理要素の間の階
層構造が決定される。まずは、親を持たない論理要素
(すなわち、ルート)が抽出され、複数のルートが検出
された場合(この場合は、異なるルートの階層構造は排
他的であるとする)は、そのルートが複数存在している
むねが画面に表示される。使用者は、ルートが一つにな
るまで論理要素の定義を変更する、あるいは、複数のル
ート間に、順序付けをする。つぎに、ルートの子の論理
要素が抽出され、これらすべての論理要素が画面に表示
され、使用者が、それらの論理要素間に順序付けをし
て、その順序付けにしたがって論理要素を並べる。この
ようにして各論理要素の子が順次辿られることによって
階層が抽出される。すなわち、ルートが第一次階層(最
上位階層)とされると、その子の論理要素は第二次階層
となり、さらにその子の論理要素は第三次階層となる。
各階層では、論理要素は、使用者により順序付けがなさ
れており、その順序にしたがって表示される。この手続
きがすべての論理要素について繰り返されると、論理要
素の階層と階層内における順序がわかるので、図8に示
される、各論理要素の階層構造を明示する木構造が作成
されることが可能になる。
【0031】このように論理構造が定義されたのち、論
理要素ごとにキーワードが入力される(34)。たとえ
ば、論理要素ごとに図6に示されるテンプレートが用意
され、このテンプレートの「キーワードの定義」の欄
に、使用者は、その論理要素名に適合するキーワードを
順次、入力する。ここでたとえば、所属部署に対して
は、「業務、プロジェクト、センター、センタ、グルー
プ、サービス、ソリューション部、ソリューション課、
工場、本社、支店、大学院、所長室、研究所、研究室、
研究部、研究科、学部、学科、本部、研究課、専攻、部
門、総局、報道局、局、担当、企画室、広報室、駐在、
事業所、事業部、技術部、情報部、推進部、営業部、管
理部、経理部、総務部、開発部、統括部、編集部、シス
テム部、放送部、販売部、販売課、開発課、営業所、営
業、一部、二部、三部、四部、五部、六部、七部、八
部、九部、一課、二課、三課、四課、五課、六課、七
課、八課、九課、1部、2部、3部、4部、5部、6
部、7部、8部、9部、1課、2課、3課、4課、5
課、6課、7課、8課、9課、第一部、第二部、第三
部、第四部、第五部、第六部、第七部、第八部、第九
部、第1部、第2部、第3部、第4部、第5部、第6
部、第7部、第8部、第9部、第一課、第二課、第三
課、第四課、第五課、第六課、第七課、第八課、第九
課、第1課、第2課、第3課、第4課、第5課、第6
課、第7課、第8課、第9課」といったキーワードが定
義されることが可能である。これらが、図6の論理要素
名が所属部署であるテンプレートに順次、入力されるも
のとする。これとは別の方法として、大量の文書に対し
て文字認識処理が行われ、実際のキーワードの文字認識
結果があらかじめ収集されて、所望の論理要素名に対応
するキーワードが抽出されて、テンプレートにコピーさ
れていてもよい。このように文字認識結果があらかじめ
収集される場合は、たとえば、実際の名刺における“プ
ロジェクト”というキーワードが、ブロジェクト、フロ
ジェクト、プ口ジェクト、プロジエクトなどのように誤
って認識されることが多い。誤って認識されることが多
い場合は、誤って認識されたキーワードがそのまま登録
されるようにして、それぞれのキーワードの出現確率
(特定のキーワードの出現確率=特定のキーワードの出
現頻度/すべてのキーワードの出現頻度)が求められ、
キーワードとそのキーワードに対応する出現確率とが登
録されるようにしておく。このようにすると、文字認識
誤りが少ないタグ付け処理が実現されることが可能にな
る。
【0032】キーワード辞書を作成する工程の最後は、
以上の結果を基にしてキーワード辞書を構築することで
ある(35)。各論理要素ごとに定義されたキーワード
が、所定のプログラムが用いられて自動的に文字行長の
降順にソートされる。同長の文字行においては、文字コ
ードの昇順(または降順)にソートされる。この工程に
よって、文字行と複数のキーワードとが照合されてその
文字行に対応する論理要素が決定されることが可能にな
る。ここでは、仮名漢字変換技術にも用いられているよ
うに、タグ付け処理の文字行照合において、文字行とも
っとも多くの文字が一致したキーワードが最優先されて
先頭にソートされることが原則とされている。
【0033】以上に述べたキーワード辞書が用いられ
て、選択された文字行とキーワード辞書にある、該当す
る論理要素に含まれるキーワードとが照合され、その照
合結果が保持される(23)。また、この照合結果が得
られるとき、認識誤りによる照合誤りがある程度回避さ
れて、使用者がオフラインで修正する処理結果修正GU
I6における作業が軽減されることが望ましい。これが
実現されるために、文字認識処理で文字パターンごとに
認識された複数の文字候補が得られている場合は、図9
に示されるように、文字パターンにより認識された文字
が候補順位ごと文字パターンごとに並べられた行列(ma
trix)が用いられる。ここで、候補順位の高い文字から
順に照合されるように設定されている。この行列におい
て、行成分は文字の候補順位(図9では、第1位文字認
識結果、…、第N位文字認識結果)が示され、列成分は
異なる文字パターンに対応する指標(図9では、1番
目、…、5番目)が示されている。ところで、タグ付け
処理したのちに実行される処理結果修正GUI6におい
て、認識誤りによる照合誤りは完全に回避される。
【0034】このキーワード辞書による照合結果によっ
て、文字行に存在する論理要素ごとにタグを付与するタ
グ付けがなされる。さらに、このタグ付けがより正確に
されるために、同じ論理要素の照合結果が隣接もしくは
重複していればそれらの論理要素を統合するルール1
(ここで隣接しているタグとは、二つのタグ間に他のタ
グが存在しないこの二つのタグのことであり、重複して
いるタグとは、一つ以上の文字に複数のタグが付与され
ているタグのことである)、異なるタグが重複していれ
ばそれらのタグを統合し、タグ名が長いタグを統合され
たタグとする(タグ名が短い方は棄却される)ルール
2、および、前記行中で第一、第二および第三の論理要
素が連続して付与されていて、第一および第三の論理要
素は同一で、かつ、第二の論理要素が第一および第二の
論理要素と異なる場合、第二の論理要素のタグを第一お
よび第三の論理要素のタグと同一なタグに変更するルー
ル3をタグ付け結果に適用する。これらのタグの変更前
後の状態が第一の記憶装置であるルールベース1に蓄積
される。
【0035】ルール1、2および3が適用されたこの照
合結果によって、文字行が一つのタグのみを有している
場合がある。そのタグがその文字行全体のタグでない場
合は、そのタグが文字行全体のタグにタグの範囲が変更
される。すなわち、文字行中において、タグが付与され
ていない箇所に、その文字行内のタグと同一のタグが拡
張されて付与される(24)。また、一つの文字行中に
複数のタグが存在して、あるタグの先頭と末尾のそれぞ
れが拡張可能である場合には、このタグの先頭がこのタ
グの直前にあるタグの末尾に、タグの末尾がこのタグの
直後にあるタグの先頭までタグ付け範囲が、図10に示
されるタグBのように、延長される。このようなタグ付
け範囲拡張部14が導入されることにより、文書の文字
が配列されている態様に依存することなく照合処理がさ
れることが可能になる。また未知単語などが統合されて
新たな単語として照合処理がされることが可能になる。
【0036】タグ付け範囲が拡張されたあとに、画像デ
ータ中のすべての文字行に対して再び、新たな文字行を
選択する工程(21)からタグ付け範囲を拡張する工程
(24)までの処理が適用される。この処理が終了して
も、タグが付与されてない文字行があった場合には、こ
の文字行に「不明」というタグが付与される。また各文
字行では、このタグ付け結果とあわせて上記の文字行と
キーワードとが照合されたときに棄却されたタグが候補
として保持されているものとする。
【0037】この処理のあとに、テキストブロックおよ
び文字行のそれぞれが分割される(25)。すなわち、
文字行内に二つ以上のタグが存在すれば、当該行の直前
直後でテキストブロックが分割され、当該行のみを含む
テキストブロックが発生される。さらに、異なるタグの
境界でテキストブロックおよび文字行が分割されて、テ
キストブロックに一つの文字行が存在し、一つの文字行
に一つのタグのみが存在するまで繰り返し分割処理がさ
れる。
【0038】この分割処理によってテキストブロックに
一つの文字行が存在し、一つの文字行に一つのタグのみ
が存在する画像データが得られる。この画像データにお
いて、二つの隣接する文字行のタグの組み合わせが論理
的に矛盾しないようにタグ付け結果が変更される(2
6)。すなわち、あらかじめ定義されている「タグの矛
盾した組み合わせ」に該当する場合、二つのタグのうち
優先度の高いタグがそのまま残されて、もう一つの、優
先度の低いタグの文字行の候補タグの中から、優先度の
高いタグと矛盾しないタグが選ばれ、優先度の低いタグ
がこの矛盾しないタグに置き換えられる。このとき候補
タグ中に適切なタグが見つからない場合には、その優先
度の低いタグが棄却されて、代わりに「不明タグ」が付
与される。そして、たとえば、タグA、タグBが並んで
いてタグBが棄却される場合、この手続きを(A,B)
→(A)と記述して、この記述が第二の記憶装置である
ルールベース2に蓄積される。ここで、優先度は、用意
されるタグにおいて使用者が優先順位をつけておくこと
によって決定される。または、タグの出現確率(特定の
タグの出現確率=特定のタグの出現頻度/すべてのタグ
の出現頻度)を求め、タグとそのタグに対応する出現確
率とが登録されて、出現確率の高いタグが上位として優
先順位がつけられていてもよい。または、タグ付けの基
になっているキーワードが参照されて、キーワード間で
あらかじめ優先順位がつけられて、そのキーワード間の
優先順位がそのキーワードに対応するタグ間の優先順位
に対応づけられていてもよい。
【0039】つぎに、タグ付け結果が変更された際に付
与させた「不明タグ」が推定される(27)。すなわ
ち、優先度が決められた隣接タグ関係をあらかじめ使用
者が定義しておき、その定義が参照されて不明タグが適
切なタグに変更される。この処理が不明タグが存在する
すべての文字行に対して適用され、タグの置き換えが生
じなくなるまで繰り返す。たとえば、タグA、不明、タ
グBという並びの場合、不明タグをタグCとみなすとい
う手続きは、(A、不明、B)→(A,C,B)と記述
されることが可能になる。そして、この記述は第三の記
憶装置であるルールベース3に蓄積される。
【0040】つぎに、テキストブロックまたは文字行
(ここでは、これらそれぞれをタグブロックと称す)の
うちいずれか二つのタグブロックが隣接して同一のタグ
を有する場合、それら二つが統合されて、先のタグと同
一な一つのタグを有するテキストブロックが発生される
(28)。この処理がすべての隣接して同一のタグを有
するタグブロックについて適用される。たとえば、図1
1に示されるように、隣接する三つの文字行が同一のタ
グを有している場合がある。まず、隣接する二つの文字
行が統合されて一つのテキストブロックとされて、この
テキストブロックに統合される前と同一な一つのタグが
付与される。つぎに、このテキストブロックとこれに隣
接する文字行とが統合されて一つのテキストブロックと
して、このテキストブロックに統合される前と同一な一
つのタグが付与される。この結果として、隣接する同一
のタグを有する三つの文字行が、これら文字行と同一の
タグを有する一つのテキストブロックに統合される。
【0041】以上に説明したタグ付け部4から出力され
た画像データが入力されるタグ付け結果出力部5におい
ては、タグ付け結果はあらかじめオペレータにより定義
された出力形式に基づいて所望の文書ファイルに出力さ
れる。たとえば、タグ間に階層構造が存在する場合は、
この階層構造は木構造により記述される。この木構造の
ルートから順次下位の階層の論理要素に向かい、同一階
層の論理要素では予め定義されている順序にしたがって
入力文書のタグ付け結果が出力される。さらに詳しく
は、各論理要素においては、その論理要素に対応する文
字認識結果が開始タグと終了タグとで挟まれた形式で出
力されることになる。各論理要素にさらに子の論理要素
が存在する場合は、この各論理要素の終了タグの直前
に、子の論理要素の開始タグ、この子の論理要素に対応
する文字認識結果、終了タグが順に挿入されていくこと
になる。子の論理要素にさらにその子の論理要素が定義
されている場合には、終了タグの前に子の論理要素の開
始タグ、文字認識結果、終了タグが順に再帰的に挿入さ
れる。
【0042】このほかの出力形式として、任意の論理要
素が任意の順序で出力されるようになっていてもよい。
この出力形式においては、たとえば、図7に示されるテ
ンプレートと同様の形式によって出力される論理要素を
順序づける出力順序定義ツールにおける空白のテンプレ
ートに、出力すべき論理要素が出力順に応じて順次記入
されることによって、タグ付け結果が出力される。この
出力形式によると、入力された文書が名刺である場合に
は、名刺に含まれる論理要素に対してタグ付け処理が行
われた後、テンプレートから論理要素が順次読み出さ
れ、この読み出された論理要素に対応するタグと合致す
るタグが処理結果から順次抜き出され、出力される。こ
のとき、テンプレートから読み出されたタグと合致する
タグのすべてが一度に出力されても良いし、読み順が最
小順位のものから一つずつ順次(すなわち、ひらがな順
またはアルファベット順)出力されてもよい。さらにほ
かの出力形式として、例えば、名刺画像から情報抽出し
た結果を 氏 名: 日本太郎 組織名: 日本株式会社 部署名: コンピュータ部 ・ ・ ・ のように、論理要素名と読み取り結果とが表形式にされ
て出力されてもよい。以上示されたようなタグ付け結果
出力部5が導入されることで、任意のタグ情報が付与さ
れた任意の情報が所望の順序・形式で出力されることが
可能になる。
【0043】この発明の、文書読取装置の各部における
処理後にそれら処理結果を修正する処理結果修正GUI
6においては、共通する処理として、各部の処理後に処
理された画像が表示され、その画像を使用者が観察する
ことによって、修正すべき画像部分を見出し、その修正
内容に応じて所定の操作をすることがある。使用者が、
これら所定の操作をすることによって、それぞれの処理
過程における所望の画像データを得ることができる。し
かし、各部によって具体的な処理内容は異なるので、以
下に各部の処理後における処理結果修正GUI6の処理
内容が説明される。
【0044】文書画像入力部1から出力された画像にお
いては、表示される二値化処理された画像を使用者が観
察して、必要であれば、二値化の程度が決定されるパラ
メータを使用者が変更して再度、文書をコンピュータに
取り込ませることができる。さらに、傾き補正された画
像がディスプレイに表示され、傾き検出が誤っていれ
ば、使用者が傾き補正角度を直接指定することで、所望
の傾き補正結果が得られるようになっていてもよい。
【0045】レイアウト解析部2から出力された画像に
おいては、レイアウト解析結果として、読み順通りに順
序付けされた文字行単位の処理結果が出力される。たと
えば、図12(A)に示される名刺の各文字行が、図1
2(B)に示されるように文字行単位で順序づけられて
処理結果が画面に表示される。また、読み順誤りを修正
するツール、もしくは行抽出誤りを修正するツールを用
いて使用者の所望のレイアウト解析結果が編集されるよ
うになっている。読み順誤りを修正するツールにおいて
は、連続する文字行がまとめて指定されることが可能で
あり、さらにそれらの先頭に所望の番号が付与されるこ
とが可能になる。先頭以降の文字行に対しては、順次、
連続した番号が自動的に付与されるようになっていても
良い。たとえば、図13(A)に示されるように、図12
(A)に示される名刺の住所、電話、FAXなどが記載
されている名刺の左下部分にある複数の文字行がまとめ
て指定される。さらに、それら文字行のうちの先頭部分
である住所に番号4を使用者が付与して、つぎの5から
8までは自動的に番号が付与される。行抽出誤りを修正
するツールが用いられる場合は、一つの文字行が誤って
複数に分割されて抽出されてしまったときである。その
ときは、それら文字行がすべて指定され統合されるよう
に指示される。すなわち、分割された文字行がまとめて
1行にされる。たとえば、図13(B)に示されるよう
に、図12(A)に示される名刺の名前部分が複数の文
字行に分割されている場合には、それら名前部分の分割
された文字行が統合されて1行にされる。また、行抽出
誤りを修正するツールが用いられる上記とは別の場合で
は、複数の文字行がまとめて1行の文字行として抽出さ
れる場合がある。そのときは、行間位置を使用者が指定
して、その行間位置で文字行が分割される。たとえば、
図13(C)に示されるように、図12(A)に示される
名刺のホームページアドレスと電子メールアドレスが記
載されている文字行がまとめて一つの文字行として抽出
されている場合に、ホームページアドレスと電子メール
アドレスとが切断されてそれぞれ一つの文字行として分
割される。このとき、水平または垂直のどちらかの切断
方向を使用者が選択することができる。
【0046】文字認識部3から出力された画像において
は、文字行単位で各文字の文字認識誤りが修正される。
画像中の文字認識誤りが存在する箇所に、使用者がカー
ソルを合わせて、文字入力画面で正しい文字を入力す
る。使用者が正しい文字を入力する際、文字の候補がい
くつか示されるように設定されていてもよい。
【0047】タグ付け部4から出力された画像において
は、使用者に提示される行単位のタグ付け結果を基にし
て、使用者は行ごとにタグを変更することができる。た
とえば、レイアウト解析において得られた1行の文字行
に複数のタグが付与され、タグ付け処理においてそれら
のタグの境界で文字行が分割され、一つの文字行には一
つのタグのみが付与されているとする。このとき、図1
4(A)に示されるように、タグ付け処理が誤ったため
に文字行がタグAとタグBとに誤分割されている場合
は、図14(B)に示されるようにタグAとタグBに含
まれる文字行がまとめられて一つの文字行が生成され、
その文字行に所望のタグ(ここでは、タグa)が付与さ
れることが可能になる。また、使用者が、各文字行にカ
ーソルを持って来たり、ポインティングディバイスで指
示をすると、その画面上の位置で候補タグの一覧が表示
され、その中から所望のタグを選択し、付与することが
できるようになっていても良い。たとえば、図15
(A)に示される名刺の電話番号とFAX番号とが記載
されている位置に、使用者がカーソルを持って行くと、
図15(B)に示されるように候補タグの一覧表が表示
され、使用者はその一覧表の中からカーソルでタグを選
択することができる。また、同一のタグが連続している
場合、それらのタグと文字行とが一つにまとめられて、
一つのテキストブロックが表示されることが可能にな
る。たとえば、図11(A)に示されるようなタグAが
付与された三つの文字行が、図11(B)に示されるよ
うに、三つの文字行が統合されてテキストブロックとな
り、使用者がこのテキストブロックに一つのタグAを付
与することができる。
【0048】以上に説明した処理結果修正GUI6が段
階的に利用されて常に正しい結果が得られるようにする
ことで、修正手順の後戻りが無くなるため、システム操
作が単純化され、効率良くかつ確実に正しい処理結果が
得られることが可能になる。ここでは、GUIは各処理
で呼び出されるように設定されていた。しかし、最後の
処理であるタグ付け結果出力部5の処理直後にGUI処
理が連続して動作されるように指定されていれば、その
処理に応じたGUIが起動されるようになっていてもよ
い。このとき、各処理過程の途中結果が中間ファイルと
して出力されていれば、それぞれの処理に対応したGU
Iが起動されることが可能となる。すなわち、すでに終
了したどの処理にも戻ることができ、それぞれの処理誤
りが修正されるようになっている。そして処理誤りが修
正されると、その後の段階の処理が、自動的に起動さ
れ、修正結果に基づいて動作するようになっている。
【0049】このGUIでは、論理要素ごとにテキスト
入力が可能となっているテンプレートがあり、論理要素
に対応する部分画像を使用者がポインティングディバイ
スで指定し、テンプレートにドラグアンドドロップする
ことにより部分画像の読み取り結果が入力されるように
なっていても良い。
【0050】このような複数の文字認識辞書による認識
結果が仮定されたタグ付け処理が導入されることで、一
つの文字認識辞書のみで処理される場合よりも高精度な
タグ付け結果が得られることが可能となり、さらには複
数言語混在下で任意形式のタグ情報が付与された任意の
情報が高精度に抽出されることが可能となる。また、簡
単なルールに基づくタグ付け処理が可能とされること
で、キーワード辞書の構築が不十分な場合(処理対象に
未知のキーワードが存在する場合)や、文字認識結果に
誤りが生じたために正しいタグ付けが行えない場合で
も、妥当な処理結果が得られることが可能となる。
【0051】この発明のほかの実施例である、文書読取
装置を図2および図16から図18までが参照されて説
明される。
【0052】この実施例は、上述の一実施例におけるタ
グ付け部4中のキーワード照合部13に関するもので、
そのほかの装置部分は、一実施例の、文書読取装置と同
様である。
【0053】上記の一実施例のキーワード辞書部12に
おいてキーワードごとに定められているキーワードの出
現確率が利用されて、図16に示される工程によって、
的確にキーワードが定められて、より精密にタグが付与
される。
【0054】文字行選択部11によって選択された文字
行が、キーワード辞書部12にあるキーワードと照合さ
れてゆき、全文書画像にある文字がキーワードに変換さ
れる。このキーワードのそれぞれに出現確率が付与され
ている。これらキーワードにはそのキーワードに対応す
るタグが付与されている。これらタグによって、キーワ
ードのうち互いの論理要素が矛盾しないように、文書画
像から抽出されたキーワードが選択される。すなわち、
2つのキーワードのタグが異なり、重複している場合
は、それらのキーワードが同時に選択されない。また
は、一実施例に示されたルール3(あらかじめ指定され
ている論理要素にほかの論理要素が囲まれている場合、
囲まれている論理要素のタグを囲んでいる論理要素のタ
グに変更する)が適用され得るキーワードがある場合、
囲まれている論理要素に対応するキーワードと囲んでい
る論理要素に対応するキーワードとは、同時に選択され
ない。このように、同時に選択可能なキーワードの組み
合わせが可能な限り探索され、これらのキーワードの組
み合わせのうちもっとも出現確率の高い組み合わせが選
択される。
【0055】具体的には、図17に示されるように、ま
ず、キーワードが選択される。この例では、キーワード
1および2、ならびにキーワード3および4が重複して
いるので、キーワード1および2、ならびにキーワード
3および4は、同時に選択されない。また、上記のルー
ル3に基づく同時に選択されない規則によれば、キーワ
ード2および3、キーワード4および5、キーワード1
および4、ならびにキーワード2および5も、同時に選
択されない。このキーワード間が同時に選択可能である
かどうかが単純明快に示されたのが図18である。この
図18は、キーワード間に線分が引かれいるキーワード
同士は、同時に選択可能であることを示している。そし
て、同時に選択可能であるすべてのキーワードの出現確
率がたし合わされて、総和が求められる。この総和が、
同時にキーワードが選択可能であるすべての場合におい
て計算されて、この総和がもっとも大きい場合が、もっ
とも出現確率の高いキーワードの組み合わせになる。し
たがって、上述の一実施例に比較してより精密なタグ付
けがなされる。
【0056】また、ここでは、キーワード照合結果にお
いて図17に示されるように出現確率が付与される場合
について説明したが、出現確率が別の値に変換されたコ
ストが採用されるようにしても良い。
【0057】この発明の、さらにほかの実施例である、
文書読取装置が図2および図16から図19までが参照
されて説明される。
【0058】この実施例は、上述の一実施例におけるタ
グ付け部4中のキーワード照合部13に関するもので、
そのほかの装置部分は、一実施例の、文書読取装置と同
様である。
【0059】この実施例も、この発明の、ほかの実施例
として示したものと同様で、上記の一実施例のキーワー
ド辞書部12においてキーワードごとに定められている
キーワードの出現確率が利用される。そして、図16に
示される工程によって、的確にキーワードが定められ
て、より精密にタグが付与される。
【0060】本実施例においても、上のほかの実施例で
示されている図18のように、キーワードのうち、どの
キーワードが同時に選択可能であるかが算出される。
【0061】本実施例の特徴は、あるN番目のタグが文
書中に現れる確率は、直前の(N−1)個のタグの出現
に依存するものとして、どのキーワードが選択されるか
が決定されることである。この特徴は、タグ列W1 n={w1,
…,wn}の出現確率がもっとも大きくなるようなキーワー
ドが選択されることに帰着される。ここで、タグ列W1 n=
{w1,…,wn}の出現確率P(w1,…,wn)は、確率的言語モデ
ルで用いられるNグラム・クラスモデルによれば、P
(w1,…,wn)=Πi=1 n P(wi|ci)P(ci|ci-1)(P(wi|ci):キ
ーワードwiにタグciがつけられる確率、P(ci|ci-1):タ
グciがタグci-1の直後に現れる確率)となる。
【0062】たとえば、図17に示される文書画像につ
いて本実施例の手法を用いると、同時に選択可能なキー
ワードが、図19に示されるように、順にならべられ
る。また、図17に示されているキーワードの出現確率
は、本実施例ではキーワードにタグがつけられる確率に
対応する。また、あるタグが所定のタグの直後に現れる
確率は、あらかじめ使用者がその確率を定義しておく、
または、あるタグが所定のタグの直後に現れる確率(=
あるタグが所定のタグの直後に現れる出現頻度/所定の
タグがほかのタグに移る出現頻度)が求められて、タグ
とそのタグに対応する出現確率とが登録されてもよい。
【0063】以上のように、同時にキーワードが選択可
能であるすべての場合において計算されて、タグ列の出
現確率がもっとも大きい場合が、もっとも出現確率の高
いキーワードの組み合わせになる。この実施例では、上
の実施例で述べられた手法に加え、あるタグが所定のタ
グの直後に現れる確率も考慮されるので、上の実施例に
比較してより精密なタグ付けがなされる。
【0064】
【発明の効果】この発明によれば、印刷文書から任意の
情報が抽出され、その情報に任意の属性情報が付与さ
れ、それらが任意の順序および形式でコンピュータシス
テムに入力されることが可能になる。文書がコンピュー
タシステムに入力される際、文書中に複数の言語が含ま
れていたり、文字行中に複数の角度方向を持つ文字が記
載されていても高精度な処理結果が得られることが可能
であり、広範囲にわたる文書からの情報抽出が可能とな
る。
【図面の簡単な説明】
【図1】この発明の、文書読取装置のシステム全体を示
すブロック図である。
【図2】図1に示される読み取り装置内のタグ付け部の
構成を示すブロック図である。
【図3】(A)図1に示される読み取り装置内のレイア
ウト解析部において用いられる、画面に表示された画像
データにおける文字行とテキストブロックの例を示す模
式図である。(B)図1に示される読み取り装置内のレ
イアウト解析部において用いられる、画面に表示された
画像データにおける文字行と文字の例を示す模式図であ
る。(C)図1に示される読み取り装置内のレイアウト
解析部において用いられる、画面に表示された画像デー
タにおける文字の位置が明示される座標を示す模式図で
ある。
【図4】図1に示される読み取り装置内のタグ付け部の
処理順序を示す流れ図である。
【図5】図2に示されるタグ付け部内のキーワード辞書
部内で用いられるキーワード辞書を作成する工程を示す
流れ図である。
【図6】図2に示されるキーワード辞書が定義されるた
めに、使用者が記入するためのテンプレート画面であ
る。
【図7】同一階層の論理要素が表示されるためのテンプ
レート画面である。
【図8】各論理要素の階層構造を明示した木構造を示す
模式図である。
【図9】図4に示されるタグ付け部の処理順序中のキー
ワード照合の工程において用いられる文字パターンによ
り認識された文字が候補順位ごと文字パターンごとに並
べられた行列を示す模式図である。
【図10】図4に示されるタグ付け部の処理順序中のタ
グ付け範囲の拡張の工程において、タグが拡張される態
様を示す模式図である。
【図11】図4に示されるタグ付け部の処理順序中の共
通タグの統合によるテキストブロックと文字行の統合の
工程において、文字行が統合されてテキストブロックに
なる態様を示す模式図である。
【図12】(A)図1に示される読み取り装置の文書画
像入力部に入力される名刺を示す模式図である。(B)
図12(A)に示される名刺が、読み取り装置内のレイ
アウト解析部においてに文字行単位で順序づけられて処
理結果を示す模式図である。
【図13】(A)図12(A)に示される名刺の左下部
分にある複数の文字行がまとめて指定され、それら文字
行のうちの先頭部分である住所に番号4を使用者が付与
して、つぎの5から8までは自動的に番号が付与される
態様を示す模式図である。(B)図12(A)に示され
る名刺の名前部分が複数の文字行に分割されている場合
に、それら名前部分の分割された文字行が統合されて1
行にされる態様を示す模式図である。(C)図12
(A)に示される名刺のホームページアドレスと電子メ
ールアドレスが記載されている文字行がまとめて一つの
文字行として抽出されている場合に、ホームページアド
レスと電子メールアドレスとが切断されてそれぞれ一つ
の文字行として分割される態様を示す模式図である。
【図14】(A)図1に示される読み取り装置内のタグ
付け部から出力された文字行がタグAとタグBとに誤分
割されている態様を示す模式図である。(B)図14
(A)に示されるタグAとタグBとが統合される態様を
示す模式図である。
【図15】(A)図1に示される読み取り装置の文書画
像入力部に入力される名刺を示す模式図である。(B)
図15(A)に示される名刺の電話番号とFAX番号が
記載されている位置に、使用者がカーソルを持って行く
と、候補タグの一覧表が表示され、使用者はその一覧表
の中からカーソルでタグを選択することができる態様を
示す模式図である。
【図16】この発明の、文書読取装置のほかの実施例に
おけるキーワード照合をする場合の工程を示す流れ図で
ある。
【図17】図16に示されるキーワード照合の工程にお
いて、キーワードが選択されている態様を示す模式図で
ある。
【図18】図17に示されるキーワード同士が同時に選
択可能であるかどうかを示すダイヤグラムである。
【図19】この発明の、文書読取装置のさらにほかの実
施例において、図17に示されるキーワード同士が同時
に選択可能であるキーワードのうちどのキーワードが選
択されればよいかを示すダイヤグラムである。

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 複数のキーワードとこのキーワードを分
    類するための論理要素とを対応付けて記憶しているキー
    ワード記憶手段と、 文字を含み、複数の行を含む画像データから、所定の行
    を選択する選択手段と、 この選択手段で選択された行
    中の文字と、前記キーワード記憶手段に記憶されている
    キーワードとを照合し、この照合された結果に基づいて
    キーワードと対応付けられている論理要素を示すタグ
    を、この行部分に付与して、この照合結果を保持する照
    合手段を具備することを特徴とする文書読取装置。
  2. 【請求項2】 前記照合手段は、前記照合結果におい
    て、同じタグが隣接もしくは重複して行部分に付与され
    ていればそれらのタグを統合する第一規則、異なるタグ
    が重複して行部分に付与されていれば所定の判定基準で
    それらのタグのうち一方を選択する第二規則、および、
    前記行中で第一、第二および第三のタグが連続して付与
    されていて、第一および第三のタグは同一で、かつ、第
    二のタグが第一および第二のタグと異なる場合、第二の
    タグを第一および第三のタグと同一なタグに変更する第
    三規則のうち少なくともいずれか一の規則を、タグ付け
    がなされた結果に適用する適用手段を含むことを特徴と
    する請求項1記載の文書読取装置。
  3. 【請求項3】 前記照合手段は、照合の結果、前記行が
    一つのタグのみを有している場合に、前記タグを前記行
    全体のタグとして、タグの範囲を変更する範囲拡張手段
    をさらに具備することを特徴とする請求項1記載の文書
    読取装置。
  4. 【請求項4】 前記範囲拡張手段は、タグが付与されて
    いない行があった場合には、所定の名称のタグをその行
    に付与して、タグ付けなしをタグ付けに変更する変更手
    段を含むことを特徴とする請求項3記載の文書読取装
    置。
  5. 【請求項5】 前記範囲拡張手段は、一つの行中に複数
    のタグが存在して、あるタグの先頭と末尾の少なくとも
    いずれか一つが拡張されることが可能である場合には、
    このタグの先頭をこのタグの直前にあるタグの末尾まで
    タグ付け範囲を延長する、および/または、タグの末尾
    をこのタグの直後にあるタグの先頭までタグ付け範囲を
    延長する延長手段を含むことを特徴とする請求項3記載
    の文書読取装置。
  6. 【請求項6】 前記照合手段は、照合の結果、行内に二
    つ以上のタグが存在する場合には、当該行の内容を分割
    し、一つの文字行に一つのタグが付与されるまで行の分
    割処理を行う分割手段をさらに具備することを特徴とす
    る請求項1記載の文書読取装置。
  7. 【請求項7】 前記分割手段は、隣接して配置している
    行の集合であるテキストブロック、および、行が異なる
    タグの境界で分割されて、テキストブロックに一つの行
    が存在し、一つの行に一つのタグのみが存在するまで繰
    り返しテキストブロックおよび行を分割する繰り返し手
    段を含むことを特徴とする請求項6記載の文書読取装
    置。
  8. 【請求項8】 前記照合手段は、照合の結果、隣接する
    行に付与されたタグがタグの組み合わせとして論理的に
    矛盾している場合に、それらのタグが論理的に矛盾しな
    いようにタグを変更するタグ変更手段をさらに具備する
    ことを特徴とする請求項1記載の文書読取装置。
  9. 【請求項9】 前記タグ変更手段は、隣接する行に付与
    されたタグがタグの組み合わせとして論理的に矛盾しな
    いタグが付与されることが不可能な行は、その行に隣接
    するタグを参照して適切なタグを推定して付与するタグ
    推定手段をさらに具備することを特徴とする請求項8記
    載の文書読取装置。
  10. 【請求項10】 前記タグ推定手段は、すべての行に対
    して適用して、タグの置き換えがなくなるまで繰り返す
    繰り返し手段を含むことを特徴とする請求項9記載の文
    書読取装置。
  11. 【請求項11】 前記タグ変更手段は、行単位のタグ付
    けがなされた結果が画面上に提示され、使用者が行ごと
    にタグを修正する修正手段をさらに具備することを特徴
    とする請求項8記載の文書読取装置。
  12. 【請求項12】 前記タグ変更手段は、論理的に矛盾し
    ないように選択されるタグが候補タグ中に見つからない
    場合には、候補タグが見つからないむねを明示したタグ
    を付与する付与手段を含むことを特徴とする請求項8記
    載の文書読取装置。
  13. 【請求項13】 前記タグ変更手段は、用意されている
    タグに、あらかじめ使用者が優先順位を付与する手段を
    具備し、タグの変更の際には、この優先順位に基づいて
    決定されることを特徴とする請求項8記載の文書読取装
    置。
  14. 【請求項14】 前記タグ変更手段は、候補タグは、す
    べてのタグの出現頻度に対する特定のタグの出現頻度の
    割合として定義されるタグの出現確率を求め、出現確率
    の高いタグを上位として優先順位がつけられることによ
    ってタグの変更を行う手段を具備することを特徴とする
    請求項8記載の文書読取装置。
  15. 【請求項15】 前記タグ変更手段は、タグ付けの基に
    なっているキーワードが参照され、キーワード間であら
    かじめ優先順位がつけられて、そのキーワード間の優先
    順位がそのキーワードに対応するタグ間の優先順位に対
    応づけられることによってタグの変更を行う手段を具備
    することを特徴とする請求項8記載の文書読取装置。
  16. 【請求項16】 複数のキーワードとこのキーワードを
    分類するための論理要素とを対応付けて記憶しているキ
    ーワード記憶手段と、 文字を含み、複数の行を含む画像データから、行を選択
    する行選択手段と、 前記行選択手段によって選択された行中の行部分と前記
    キーワード記憶手段に記憶されているキーワードとを照
    合し、この照合された結果に基づいてキーワードと対応
    付けられている論理要素を示すタグを、この行部分に付
    与して、この照合結果を保持する照合手段と、 前記照合結果において、前記行が一つのタグのみを有し
    ている場合に、前記タグを前記行全体のタグとして、タ
    グの範囲を変更する範囲拡張手段と、 前記照合結果において、行内に二つ以上のタグが存在す
    る場合には、当該行の内容を分割し、一つの文字行に一
    つのタグが付与されるまで行の分割処理を行う分割手段
    と、 前記照合結果において、隣接する行に付与されたタグが
    タグの組み合わせとして論理的に矛盾している場合に、
    それらのタグが論理的に矛盾しないようにタグを変更す
    るタグ変更手段と、 前記タグ変更手段において、適切なタグが付与されるこ
    とが不可能な行は、その行に隣接するタグを参照して適
    切なタグを推定して付与するタグ推定手段と、 を具備することを特徴とする文書読取装置。
  17. 【請求項17】 複数のキーワードとこのキーワードを
    分類するための論理要素とを対応付けてキーワード記憶
    手段に記憶し、 文字を含み、複数の行を含む画像データから、行を選択
    し、 前記選択された行中の行部分と前記キーワード記憶手段
    に記憶されているキーワードとを照合し、この照合され
    た結果に基づいてキーワードと対応付けられている論理
    要素を示すタグを、この行部分に付与して、この照合結
    果を保持し、 前記照合結果において、前記行が一つのタグのみを有し
    ている場合に、前記タグを前記行全体のタグとして、タ
    グの範囲を変更し、 前記照合結果において、行内に二つ以上のタグが存在す
    る場合には、当該行の内容を分割し、一つの文字行に一
    つのタグが付与されるまで行の分割処理を行い、 前記照合結果において、隣接する行に付与されたタグが
    タグの組み合わせとして論理的に矛盾している場合に、
    それらのタグが論理的に矛盾しないようにタグを変更
    し、 前記タグが変更される場合に、適切なタグが付与される
    ことが不可能な行は、その行に隣接するタグを参照して
    適切なタグを推定して付与することを特徴とする文書読
    取方法。
JP2000163784A 2000-05-31 2000-05-31 文書読取装置 Expired - Fee Related JP3425408B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000163784A JP3425408B2 (ja) 2000-05-31 2000-05-31 文書読取装置
US09/650,750 US6721451B1 (en) 2000-05-31 2000-08-30 Apparatus and method for reading a document image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000163784A JP3425408B2 (ja) 2000-05-31 2000-05-31 文書読取装置

Publications (2)

Publication Number Publication Date
JP2001344562A true JP2001344562A (ja) 2001-12-14
JP3425408B2 JP3425408B2 (ja) 2003-07-14

Family

ID=18667490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000163784A Expired - Fee Related JP3425408B2 (ja) 2000-05-31 2000-05-31 文書読取装置

Country Status (2)

Country Link
US (1) US6721451B1 (ja)
JP (1) JP3425408B2 (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005302011A (ja) * 2004-03-24 2005-10-27 Microsoft Corp スキャン・ドキュメントから電子フォームに取り込むための方法および装置
JP2008033830A (ja) * 2006-07-31 2008-02-14 Fujitsu Ltd 帳票処理プログラム、該プログラムを記録した記録媒体、帳票処理装置、および帳票処理方法
JP2008204457A (ja) * 2007-02-19 2008-09-04 Toshiba Corp ドキュメント管理装置及びドキュメント管理方法
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP2009140258A (ja) * 2007-12-06 2009-06-25 Fujitsu Ltd 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法
JP2010108208A (ja) * 2008-10-30 2010-05-13 Hitachi Software Eng Co Ltd 文書処理装置
WO2010064395A1 (en) * 2008-12-02 2010-06-10 Hitachi Software Engineering Co., Ltd. Business document processor
JP2010205122A (ja) * 2009-03-05 2010-09-16 Toshiba Corp レイアウト構造解析装置及びレイアウト構造解析方法
JP2011159283A (ja) * 2009-12-29 2011-08-18 Konica Minolta Laboratory Usa Inc 文書の特徴に基づく複数レベルの画像比較を用いて印刷文書を認証するための方法及び装置
JP2012008733A (ja) * 2010-06-23 2012-01-12 King Jim Co Ltd カード情報管理装置
US8189920B2 (en) 2007-01-17 2012-05-29 Kabushiki Kaisha Toshiba Image processing system, image processing method, and image processing program
US8290269B2 (en) 2007-01-15 2012-10-16 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8295600B2 (en) 2007-01-15 2012-10-23 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
CN111832256A (zh) * 2020-06-30 2020-10-27 万翼科技有限公司 审图的信息标记方法及相关装置
JP2020204861A (ja) * 2019-06-17 2020-12-24 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP2021117609A (ja) * 2020-01-23 2021-08-10 東芝テック株式会社 画像処理装置、及びプログラム
JP2023080708A (ja) * 2021-11-30 2023-06-09 政志 松本 データ保管装置、データ保管方法、及びデータ保管プログラム

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3494292B2 (ja) * 2000-09-27 2004-02-09 インターナショナル・ビジネス・マシーンズ・コーポレーション アプリケーションデータの誤り訂正支援方法、コンピュータ装置、アプリケーションデータ提供システム、および記憶媒体
JP2002300408A (ja) * 2001-03-30 2002-10-11 Toshiba Corp 画像ファイリング装置及び方法、並びに画像復元装置及び方法
US7428700B2 (en) * 2003-07-28 2008-09-23 Microsoft Corporation Vision-based document segmentation
US7508984B2 (en) * 2003-07-31 2009-03-24 Ricoh Company, Ltd. Language recognition method, system and software
JP4750802B2 (ja) * 2006-01-13 2011-08-17 富士通株式会社 帳票処理プログラムおよび帳票処理装置
US20080225340A1 (en) * 2007-03-14 2008-09-18 Ricoh Company, Limited Image processing apparatus, image processing method, and computer program product
US7912843B2 (en) * 2007-10-29 2011-03-22 Yahoo! Inc. Method for selecting electronic advertisements using machine translation techniques
JP5338063B2 (ja) * 2007-10-31 2013-11-13 富士通株式会社 画像認識プログラム、画像認識装置および画像認識方法
JP4906685B2 (ja) * 2007-11-14 2012-03-28 キヤノン株式会社 撮像装置、その制御方法及びプログラム
US20090279127A1 (en) * 2008-05-08 2009-11-12 Infoprint Solutions Company Llc Mechanism for data extraction of variable positioned data
KR100902092B1 (ko) * 2008-11-12 2009-06-09 이기준 문자인식 기술을 이용한 영업관리 시스템 및 이를 이용한 영업관리방법
JP5340847B2 (ja) 2009-07-27 2013-11-13 株式会社日立ソリューションズ 文書データ処理装置
CN102194123B (zh) * 2010-03-11 2015-06-03 株式会社理光 表格模板定义方法和装置
US8571270B2 (en) * 2010-05-10 2013-10-29 Microsoft Corporation Segmentation of a word bitmap into individual characters or glyphs during an OCR process
JP5508953B2 (ja) 2010-06-28 2014-06-04 株式会社日立ソリューションズ 文書処理装置及びプログラム
US8610788B2 (en) 2011-02-08 2013-12-17 International Business Machines Corporation Content storage management in cameras
JP5449460B2 (ja) * 2011-06-28 2014-03-19 富士フイルム株式会社 画像処理装置、画像処理方法および画像処理プログラム
CN103186911B (zh) * 2011-12-28 2015-07-15 北大方正集团有限公司 一种处理扫描书数据的方法及装置
US9230383B2 (en) * 2012-12-28 2016-01-05 Konica Minolta Laboratory U.S.A., Inc. Document image compression method and its application in document authentication
JP6472218B2 (ja) * 2014-11-17 2019-02-20 株式会社日立情報通信エンジニアリング 文字認識システム及び文字認識方法
JP6598080B2 (ja) * 2016-12-12 2019-10-30 京セラドキュメントソリューションズ株式会社 画像読取装置、画像読取方法、画像形成装置及び画像読取プログラム
US10331732B1 (en) * 2016-12-16 2019-06-25 National Technology & Engineering Solutions Of Sandia, Llc Information searching system
JP7406884B2 (ja) * 2019-06-27 2023-12-28 キヤノン株式会社 情報処理装置、プログラム及び制御方法
JP2024010503A (ja) * 2022-07-12 2024-01-24 京セラドキュメントソリューションズ株式会社 画像読取装置及び画像形成装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06103402A (ja) 1992-09-18 1994-04-15 Sony Corp 名刺認識装置
US5757963A (en) * 1994-09-30 1998-05-26 Xerox Corporation Method and apparatus for complex column segmentation by major white region pattern matching
JPH09101959A (ja) 1995-10-04 1997-04-15 Hitachi Ltd 構造化文書生成装置
JP3267487B2 (ja) * 1995-10-27 2002-03-18 富士通株式会社 文書処理装置
US6157738A (en) * 1996-06-17 2000-12-05 Canon Kabushiki Kaisha System for extracting attached text
US5765176A (en) * 1996-09-06 1998-06-09 Xerox Corporation Performing document image management tasks using an iconic image having embedded encoded information
US6562077B2 (en) * 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
JP3940491B2 (ja) 1998-02-27 2007-07-04 株式会社東芝 文書処理装置および文書処理方法
JPH11272871A (ja) * 1998-03-20 1999-10-08 Toshiba Corp 文書画像処理装置、文書画像処理方法、及び記録媒体
JP3767180B2 (ja) 1998-07-15 2006-04-19 日本電信電話株式会社 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005302011A (ja) * 2004-03-24 2005-10-27 Microsoft Corp スキャン・ドキュメントから電子フォームに取り込むための方法および装置
JP4676225B2 (ja) * 2004-03-24 2011-04-27 マイクロソフト コーポレーション スキャン・ドキュメントから電子フォームに取り込むための方法および装置
KR101122854B1 (ko) 2004-03-24 2012-03-22 마이크로소프트 코포레이션 스캔된 문서들로부터 전자 서식들을 채우기 위한 방법 및장치
JP2008033830A (ja) * 2006-07-31 2008-02-14 Fujitsu Ltd 帳票処理プログラム、該プログラムを記録した記録媒体、帳票処理装置、および帳票処理方法
US8295600B2 (en) 2007-01-15 2012-10-23 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8290269B2 (en) 2007-01-15 2012-10-16 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8189920B2 (en) 2007-01-17 2012-05-29 Kabushiki Kaisha Toshiba Image processing system, image processing method, and image processing program
JP2008204457A (ja) * 2007-02-19 2008-09-04 Toshiba Corp ドキュメント管理装置及びドキュメント管理方法
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP4533920B2 (ja) * 2007-07-23 2010-09-01 シャープ株式会社 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
JP2009140258A (ja) * 2007-12-06 2009-06-25 Fujitsu Ltd 論理構造モデル作成支援プログラム、論理構造モデル作成支援装置および論理構造モデル作成支援方法
JP2010108208A (ja) * 2008-10-30 2010-05-13 Hitachi Software Eng Co Ltd 文書処理装置
CN102171684A (zh) * 2008-12-02 2011-08-31 日立系统解决方案有限公司 商业文档处理器
JP2010134561A (ja) * 2008-12-02 2010-06-17 Hitachi Software Eng Co Ltd 業務文書処理装置
WO2010064395A1 (en) * 2008-12-02 2010-06-10 Hitachi Software Engineering Co., Ltd. Business document processor
JP2010205122A (ja) * 2009-03-05 2010-09-16 Toshiba Corp レイアウト構造解析装置及びレイアウト構造解析方法
JP2011159283A (ja) * 2009-12-29 2011-08-18 Konica Minolta Laboratory Usa Inc 文書の特徴に基づく複数レベルの画像比較を用いて印刷文書を認証するための方法及び装置
JP2012008733A (ja) * 2010-06-23 2012-01-12 King Jim Co Ltd カード情報管理装置
JP2020204861A (ja) * 2019-06-17 2020-12-24 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP7292988B2 (ja) 2019-06-17 2023-06-19 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP2021117609A (ja) * 2020-01-23 2021-08-10 東芝テック株式会社 画像処理装置、及びプログラム
JP7374003B2 (ja) 2020-01-23 2023-11-06 東芝テック株式会社 画像処理装置、及びプログラム
CN111832256A (zh) * 2020-06-30 2020-10-27 万翼科技有限公司 审图的信息标记方法及相关装置
JP2023080708A (ja) * 2021-11-30 2023-06-09 政志 松本 データ保管装置、データ保管方法、及びデータ保管プログラム
JP7345897B2 (ja) 2021-11-30 2023-09-19 政志 松本 データ保管装置、データ保管方法、及びデータ保管プログラム

Also Published As

Publication number Publication date
US6721451B1 (en) 2004-04-13
JP3425408B2 (ja) 2003-07-14

Similar Documents

Publication Publication Date Title
JP3425408B2 (ja) 文書読取装置
JP2726568B2 (ja) 文字認識方法及び装置
JP3427692B2 (ja) 文字認識方法および文字認識装置
US5860075A (en) Document data filing apparatus for generating visual attribute values of document data to be filed
JP4998219B2 (ja) 帳票認識プログラム、帳票認識装置および帳票認識方法
JP4343213B2 (ja) 文書処理装置および文書処理方法
JP2009238217A (ja) 情報処理システム、情報処理装置、情報処理方法およびプログラム
JP5380040B2 (ja) 文書処理装置
JP5446877B2 (ja) 目次構造特定装置
JP2005043990A (ja) 文書処理装置および文書処理方法
JP4466241B2 (ja) 文書処理手法及び文書処理装置
JP6322291B2 (ja) 文書処理装置および項目抽出方法
JP3470930B2 (ja) 自然語解析方法及び装置
JP2922365B2 (ja) Ocr処理システムにおける漢字住所データ処理方法
JP5374712B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP4462508B2 (ja) 情報処理装置並びに定義情報生成方法
JP4922030B2 (ja) 文字列検索装置、方法及びプログラム
JPH06203018A (ja) 文書処理装置
JP2874815B2 (ja) 日本語文字読取装置
JPH11316792A (ja) 情報処理装置及び帳表作成方法
CN115759020A (zh) 表格信息提取方法、表格模板配置方法和电子设备
JP2004127059A (ja) 情報処理方法および装置
JP4256841B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム
JPH0728795A (ja) 手書き文書清書システム
JP2019144618A (ja) 外字検索用プログラムおよび外字検索装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090502

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090502

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100502

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100502

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110502

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110502

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120502

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120502

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130502

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130502

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140502

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees