JP2001344562A

JP2001344562A - 文書読取装置および文書読取方法

Info

Publication number: JP2001344562A
Application number: JP2000163784A
Authority: JP
Inventors: Yasuto Ishitani; 康人石谷
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2000-05-31
Filing date: 2000-05-31
Publication date: 2001-12-14
Anticipated expiration: 2020-05-31
Also published as: US6721451B1; JP3425408B2

Abstract

(57)【要約】【課題】印刷された文書から所望のタグが付与された所
望の情報が抽出され、コンピュータシステムに自動入力
されることを目的とする。【解決手段】文字行と、キーワード辞書にある該当する
論理要素に含まれるキーワードとが照合されて、その照
合結果を保持するキーワード照合部１３に出力される。
分割処理部１５を介して処理されたすべて文字行は、隣
接する文字行に付与されたタグがタグの組み合わせとし
て論理的に矛盾している場合に、論理的に矛盾しないよ
うにタグを置き換えるタグ付け変更部１６に出力され
る。このタグ付け変更部１６で適切なタグを付与するこ
とができない文字行は、その文字行に隣接するタグを参
照して適切なタグを推定して付与する不明タグ推定部１
７に出力される。さらに、この不明タグ推定部１７にお
ける処理は、すべての文字行に対して適用され、タグの
置き換えがなくなるまで繰り返されることによる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、文書読取装置お
よび文書読取方法に係り、特に印刷された文書に記載さ
れている内容を抽出し、その抽出した内容を所定の工程
で構造化して、コンピュータに入力するための文書読取
装置および文書読取方法である。

【０００２】

【従来の技術】コンピュータに、新聞記事、書籍、オフ
ィス文書、公文書などの印刷された文書の内容を取り込
んで、その内容をコンピュータで利用可能な電子情報と
して利用するための、文書読取装置がある。この読み取
り装置においては、印刷された文書がコンピュータにフ
ァイルとして取り込まれる。つぎに、このファイルから
取り込まれた文書の内容がどのように文書上に配置され
ているかを示すレイアウト構造と、文書中の文字または
その文字の集合である文字行が互いにどのような意味の
つながりを有しているかを示す論理構造とが抽出され
る。そして、それらの構造を対応づけて、コンピュータ
に取り込まれた印刷された文書をコンピュータ内で再現
するための一連の処理がされるのが一般的である。

【０００３】これらレイアウト構造と論理構造とを抽出
するための手法として、論理構造がレイアウト構造と密
接な関係にあることを利用するものがある。たとえば、
文献「黄瀬浩一、山岡正輝、馬場口登、手塚慶一：“文
書画像構造解析のための知識ベースの一構成法”、情報
処理学会論文誌、Ｖｏｌ．３４Ｎｏ．１、ＰＰ７５−
８７、（Ｊａｎ．１９９３）」には、レイアウト構造と
論理構造とその対応関係を表す文書モデルが用いられて
いる。このモデルにおいては、入力文書に対して所定の
推論が適用されることにより文書構造を抽出する手法が
記載されている。さらに、このモデルは、構造の階層性
を記述できるフレーム表現を採用している。これによっ
て、センタリングなどのレイアウト記述が可能となり、
各構成要素の変動の記述も可能になる。

【０００４】

【発明が解決しようとする課題】しかしながら、従来
の、文書読取装置は、特定のレイアウト条件下の印刷文
書について処理できるといった程度にとどまり、印刷さ
れた多様な文書全般にわたって、詳細に解析して所望の
論理情報を柔軟に抽出することは困難である。

【０００５】さらには、従来の、文書読取装置において
は、たとえば、複数の言語で記載されている文書、一行
中に複数の論理要素が混在している文書、または、一行
中で一部の文字が９０度回転しているような文書などが
高精度に処理されることも困難である。また、抽出した
情報を所望の順序または形式で出力することも困難であ
る。

【０００６】この発明の目的は、複数の言語で記載され
ている文書、一行中に複数の論理要素が混在している文
書、および、一行中で一部の文字が９０度回転している
ような文書を含む、一段組みのビジネスレターから多段
組の新聞まで多様な文書から任意の論理要素を伴った、
所望の情報を抽出し、任意のデータ形式でコンピュータ
に入力することができる、文書読取装置および文書読取
方法を提供するにある。

【０００７】

【課題を解決するための手段】この発明によれば、複数
のキーワードとこのキーワードを分類するための論理要
素とを対応付けて記憶しているキーワード記憶手段と、
文字を含み、複数の行を含む画像データから、所定の行
を選択する選択手段と、この選択手段で選択された行
中の文字と、前記キーワード記憶手段に記憶されている
キーワードとを照合し、この照合された結果に基づいて
キーワードと対応付けられている論理要素を示すタグ
を、この行部分に付与して、この照合結果を保持する照
合手段を具備する、文書読取装置によって提供される。

【０００８】また、この発明によれば、複数のキーワー
ドとこのキーワードを分類するための論理要素とを対応
付けて記憶しているキーワード記憶手段と、文字を含
み、複数の行を含む画像データから、行を選択する行選
択手段と、前記行選択手段によって選択された行中の行
部分と前記キーワード記憶手段に記憶されているキーワ
ードとを照合し、この照合された結果に基づいてキーワ
ードと対応付けられている論理要素を示すタグを、この
行部分に付与して、この照合結果を保持する照合手段
と、前記照合結果において、前記行が一つのタグのみを
有している場合に、前記タグを前記行全体のタグとし
て、タグの範囲を変更する範囲拡張手段と、前記照合結
果において、行内に二つ以上のタグが存在する場合に
は、当該行の内容を分割し、一つの文字行に一つのタグ
が付与されるまで行の分割処理を行う分割手段と、前記
照合結果において、隣接する行に付与されたタグがタグ
の組み合わせとして論理的に矛盾している場合に、それ
らのタグが論理的に矛盾しないようにタグを変更するタ
グ変更手段と、前記タグ変更手段において、適切なタグ
が付与されることが不可能な行は、その行に隣接するタ
グを参照して適切なタグを推定して付与するタグ推定手
段と、を具備する、文書読取装置によって提供される。

【０００９】さらに、この発明によれば、複数のキーワ
ードとこのキーワードを分類するための論理要素とを対
応付けてキーワード記憶手段に記憶し、文字を含み、複
数の行を含む画像データから、行を選択し、前記選択さ
れた行中の行部分と前記キーワード記憶手段に記憶され
ているキーワードとを照合し、この照合された結果に基
づいてキーワードと対応付けられている論理要素を示す
タグを、この行部分に付与して、この照合結果を保持
し、前記照合結果において、前記行が一つのタグのみを
有している場合に、前記タグを前記行全体のタグとし
て、タグの範囲を変更し、前記照合結果において、行内
に二つ以上のタグが存在する場合には、当該行の内容を
分割し、一つの文字行に一つのタグが付与されるまで行
の分割処理を行い、前記照合結果において、隣接する行
に付与されたタグがタグの組み合わせとして論理的に矛
盾している場合に、それらのタグが論理的に矛盾しない
ようにタグを変更し、前記タグが変更される場合に、適
切なタグが付与されることが不可能な行は、その行に隣
接するタグを参照して適切なタグを推定して付与するこ
とを特徴とする文書読取方法によって提供される。

【００１０】

【発明の実施の形態】以下、図面が参照されつつ、この
発明の、文書読取装置の一実施例が説明される。

【００１１】図１は、この発明の文書読取装置のシステ
ム全体を示すブロック図である。

【００１２】図１が参照されると、まず、紙媒体に文字
が記載された文書は、画像がデータ化された画像データ
としてコンピュータに取り込まれ、コンピュータにおい
てこの文書をコンピュータ上で操作できる画像形式に変
換して入力する文書画像入力部１に入力される。この文
書画像入力部１において処理された結果が、画面に表示
される。使用者が、この画面に表示された画像を参照し
ながら、再度、その表示された画像を修正することがで
きる。つぎに、使用者が文書画像入力結果を修正するこ
とができる処理結果修正ＧＵＩ（Graphical User Inter
face）６が起動される。この処理結果修正ＧＵＩ６にお
いては、文書画像入力部１にて変換された画像が表示さ
れる。文書が画像として正確に表示されていない場合
は、文書がコンピュータに取り込まれるときの条件が変
更されて、文書が再度コンピュータに取り込まれる。

【００１３】コンピュータ上で操作できる画像形式に変
換されたこの画像データが、テキストブロックの位置情
報と、読み順通りに順序づけがなされた文字行単位の情
報とを抽出するレイアウト解析部２に出力される。ここ
で、テキストブロックとは、文書画像を構成する文書要
素中の隣接して配置している文字行（隣接して配置して
いる文字の集合）の集合である。このレイアウト解析部
２において処理された結果が、画面に表示され、そのレ
イアウト解析結果を使用者が修正することができる処理
結果修正ＧＵＩ６が起動される。この処理結果修正ＧＵ
Ｉ６においては、文書の読み順が誤っているため誤認識
されている部分と、文書から誤って抽出された文字行と
を修正するツールが用いられて使用者が望むレイアウト
に編集することができる。

【００１４】このレイアウト情報が、各文字の文字パタ
ーンを選択して、文字として認識することを可能にする
文字認識部３に出力される。また、この文字認識部３に
は、文字パターンを文字として認識するための辞書であ
る文字認識辞書（３−１、３−２、…、３−Ｎ）が複
数、接続されている。たとえば、日本語、英語、フラン
ス語、ドイツ語、イタリア語などの文字認識辞書が接続
されている。この文字認識部３において処理された結果
が画面に表示される。つぎに、使用者が、この画面に表
示された画像を参照しながら、再度その文字認識処理結
果を修正することができる処理結果修正ＧＵＩ６が起動
される。この処理結果修正ＧＵＩ６においては、文字行
単位で各文字の誤りが修正されることが可能になる。

【００１５】文字として認識された文字認識情報が、テ
キストブロック、文字行、または文字ごとに、そのテキ
ストブロック、文字行、または文字の一般的な性質が示
される論理要素を意味するタグを付与するタグ付け部４
に出力される。このタグ付け部４において処理された結
果が画面に表示される。つぎに、使用者がそのタグ付け
処理結果を修正することができる処理結果修正ＧＵＩ６
が起動される。この処理結果修正ＧＵＩ６においては、
行単位のタグ付け結果が提示され、行ごとにタグを使用
者が変更することができる。

【００１６】タグが付与された文書情報が、タグ付け結
果があらかじめ定義された出力形式によって、所望の文
書ファイルとして出力できるタグ付け結果出力部５に出
力される。このタグ付け部４において処理された結果が
画面に表示される。つぎに、使用者が、この画面に表示
された画像を参照しながら、そのタグ付け結果出力を修
正することができる処理結果修正ＧＵＩ６が起動され
る。この処理結果修正ＧＵＩ６においては、あらかじめ
定義されたファイル形式に出力されたタグ付け結果が提
示され、行ごとにタグを使用者が変更することができ
る。

【００１７】さらに、上記タグ付け部４は、まず、文字
認識部３において文字として認識された文字パターンを
含む画像データを入力する。その画像データは、この文
字パターンを含む文字行のうち一つの文字行を選択する
文字選択部１１に出力される。この選択された文字行
は、図２を参照すると、階層構造を有する論理要素に対
応するキーワードの選択肢が示されるキーワード辞書を
用いて、この文字行と、キーワード辞書にある該当する
論理要素に含まれるキーワードとを照合して、その照合
結果を保持するキーワード照合部１３に出力される。キ
ーワード辞書は、キーワード辞書部１２に格納されてい
る。この照合によって、文字行に存在する論理要素ごと
にタグを付与するタグ付けがなされる。ここで、階層構
造を有する論理要素とは、たとえば、下層要素として氏
名、所属機関、所在地などの構造を有する名刺という要
素を示す。さらに、所在地は、その下層要素として、た
とえば、郵便番号を有する。また、キーワードとは、た
とえば、論理要素が所属部署である場合は、業務、プロ
ジェクト、センターなどのことである。

【００１８】つぎに、この照合結果が、文字行が一つの
タグのみ有している場合に、そのタグが文字行全体のタ
グであるとみなすタグ付け範囲の拡張をするタグ付け範
囲拡張部１４に出力される。また、タグが付与されてい
ない文字行があった場合には、「不明」というタグがそ
の文字行に付与される。このように所定の文字行におい
てタグ付け範囲が拡張された後、再び文字行選択部１１
にもどって、文書中の新たな文字行が選択されて、この
新たな文字行に対してこれまでの処理がされる。

【００１９】文字行のすべてに対して、文字行内に二つ
以上のタグが存在する文字行が探しだされ、当該行の直
前直後でテキストブロックを分割する分割処理部１５に
出力される。さらに、テキストブロックが分割されたあ
と、当該行のみを含むテキストブロックが発生され、異
なるタグの境界でテキストブロックおよび文字行が分割
される。以上の分割処理が、テキストブロックに一つの
文字行が存在し、かつ一つの文字行に一つのタグのみが
存在するまで繰り返される。

【００２０】すべて文字行に対して、隣接する文字行に
付与されたタグがタグの組み合わせとして論理的に矛盾
している場合に、それらのタグが論理的に矛盾しないよ
うにタグを置き換えるタグ付け変更部１６に出力され
る。このタグ付け変更部１６において、適切なタグが付
与されることが不可能な文字行は、その文字行に隣接す
るタグを参照して適切なタグを推定して付与する不明タ
グ推定部１７に出力される。さらに、この不明タグ推定
部１７における処理は、すべての文字行に対して適用さ
れ、タグの置き換えがなくなるまで繰り返される。

【００２１】つぎに、すべての文字行は、２つの隣接す
る文字行が同一のタグを有する場合、それら文字行を内
接するテキストブロックを発生させる文字行統合部１８
に出力される。

【００２２】さらに詳細に、文書読取装置の各部が説明
される。文字画像入力部においては、紙媒体である実際
の文書がコンピュータで取り扱うことのできる画像デー
タに変換される。具体的には、この文書画像入力部１
は、入力機器としてイメージスキャナやディジタルカメ
ラなどで構成されている。

【００２３】所定の画像データに変換された文書は、入
力機器に付属しているソフトウェアや文書構造解析のた
めに前処理としてのソフトウエアを用いて、文書画像を
２値化することにより２値化画像に変換される。さら
に、ここでは、文書画像の文字方向である文書の入力方
向が検出されて、所望の方向に補正されることにより、
文書画像は、回転などして文字方向からずれていない、
常に正しい方向で入力されるものとする。

【００２４】レイアウト解析部２においては、文書画像
入力部１から入力された文書画像からテキストブロック
の情報と文字行の情報とが抽出される。さらに、テキス
トブロックと文字行とは読み順が付与される。このと
き、例えば、縦書き文章と横書き文章が混在した文書に
対しても適用される。ここで、テキストブロックとは、
文書画像を構成する文書要素中の隣接して配置されてい
る文字行の集合である。また、文字行とは、隣接して配
置されている文字の集合である。たとえば、図３（Ａ）
に示されるように、テキストブロックは、所定の文字行
（Ｓｔｒ１、Ｓｔｒ２、Ｓｔｒ３、Ｓｔｒ４およびＳｔ
ｒ５）を含む、これら文字行に外接する最小の矩形（Ｔ
Ｂ）である。また、図３（Ｂ）に示されるように、文字
行は、所定の文字（Ｃｈ１、Ｃｈ２、Ｃｈ３、Ｃｈ４、
Ｃｈ５）を含む、これら文字に外接する最小の矩形（Ｓ
ｔｒ１）である。また、図３（Ｂ）に示されるように、
文字は、一つの文字パターンを含む、その文字パターン
に外接する最小の矩形である。これらテキストブロッ
ク、文字行および文字は、それぞれの関係が木構造で表
現されている。すなわち、テキストブロックを上位構造
として、文字行があり、さらに文字行の下位構造として
文字が配位される（以下、ある構造について、そのある
構造のすぐの上位構造を親、そのある構造のすぐの下位
構造を子と称する）。また、これら各矩形は、図３
（Ｃ）のように左上端と右下端の座標値で表現すること
ができる。文字行内では横または縦書きの場合、それぞ
れ左上端のＸまたはＹ座標値の昇順にソートすることに
よって、文字が読み順に並ぶようにすることができる。

【００２５】文字認識部３においては、レイアウト解析
で得られた文字行が示される画像から個々の文字の形状
を示す文字パターンが取り出される。取り出された文字
パターンは、文字として認識され、順次、文字が符号化
された文字コード情報に変換される。さらに、この文字
パターンは、文字コード情報に変換されたのち、最終的
に読み順に並んだ状態にされ、文字認識結果は次段に出
力される。さらに、このように文字認識された文字行と
同一の文字行は、英文専用の文字認識方式が適用され、
上記と同様の文字認識結果が得られるようになってい
る。すなわち、取り出された文字パターンは、文字コー
ド情報に変換され、文字として最終的に読み順に並んだ
状態で文字認識結果は次段に出力される。以上のように
文字認識部３においては、レイアウト解析で得られた一
つの文字行情報に対して、複数の、文字認識が独立に適
用され、複数の文字認識結果が得られるようになってい
る。ここでは、日本語と英語に対応することのできる文
字認識部３を説明したが、さらにほかの言語にも対応す
るようにしても良い。このように、複数の文字認識辞書
（３−１、…、３−Ｎ）が文字行単位に出力された文字
に対してそれぞれ独立に適用されると、それら文字認識
による結果が統合、集計されることによって、後述する
タグ付け結果の精度が向上する。上述したように、日本
語を対象とした文字認識辞書が不得意とする英文字行あ
るいは数字列においては、英文を対象とした文字認識辞
書が出力した結果が採用されてタグ付け処理が行われる
ことによって、日本語の文字認識辞書のみが使用された
場合と比較して、文字行全体として高精度なタグ付け結
果が得られることが可能となる。

【００２６】タグ付け部４においては、文字認識部３に
おいて文字コード情報に変換されたのち、最終的に読み
順に並んだ状態にされた文字が入力される。複数の文字
行で構成されるテキストブロックに対して、論理要素
（名刺の場合、氏名、所属機関、所在地など）に対応す
るタグがテキストブロック、文字行または文字ごとに付
与され、タグ付けされた文書画像は次段に出力される。
また、この論理要素は、排他的であり、一つの文字に複
数のタグが付与されることはない。

【００２７】このタグ付け部４は、図４を参照すると、
まず、文字認識部３から文字パターンを含む画像データ
を入力して、この画像データから、その文字パターンを
含む文字行のうち一つの文字行が選択される（２１）。
この選択された文字行は、上記のキーワード辞書が用い
られて、キーワード辞書にある該当する論理要素に含ま
れるキーワードと照合される（２２）。

【００２８】ここで、図５が参照されて、キーワード辞
書を作成する工程が説明される。まず、図６に示され
る、論理要素を定義するためのＧＵＩが用いられて、使
用者は任意の論理要素を定義する（３１）。このＧＵＩ
においては、各論理要素の名前、論理要素のタグ名（タ
グが開始する位置を示す開始タグ名とタグが終了する位
置を示す終了タグ名）、親となる論理要素および子とな
る論理要素が定義される。このように論理要素が定義さ
れると論理要素間の階層が明確になるので、図７に示さ
れるように同一階層の論理要素の一覧が表示されること
が可能になる。また、それら論理要素の間で順序が定義
されることも可能である。たとえば、入力された文書が
名刺である場合においては、図７が参照されると、名刺
という最上位論理要素（以下、ルートと称す）のすぐの
下位構造（すなわち、子）に、氏名、所属機関、所属部
署、役職、所在地、電話番号、ＦＡＸ番号、Ｅメールア
ドレスおよびホームページアドレスという論理要素が、
ルートの子として定義される。これら子が図６に示され
るテンプレートに順に入力されると、その入力順に同一
階層の論理要素が順序付けられることが可能になる。さ
らに、たとえば所在地では、郵便番号、都道府県、市町
村群、番地という順に子の論理要素が定義されることが
可能となる。

【００２９】つぎは、定義された論理要素ごとにタグが
定義される（３２）。すなわち、ある論理要素は、開始
タグと終了タグとによって挟まれるとしてタグが定義さ
れる。たとえば、入力された文書が名刺の場合、氏名の
開始タグ</Name>、終了タグ<Name>、所属機関の開始タ
グ</Affiliation>、終了タグ<Affiliation>、所属部署
の開始タグ</Department>、終了タグ<Department>、役
職の開始タグ</Position>、終了タグ<Position>、所在
地の開始タグ</Address>、終了タグ<Address>、電話番
号の開始タグ</Phone>、終了タグ<Phone>、ＦＡＸ番号
の開始タグ</Fax>、終了タグ<Fax>、Ｅメールアドレス
の開始タグ</Email_address>、終了タグ<Email_address
>、ホームページアドレスの開始タグ</HomePage_Addres
s>および終了タグ<HomePage_Address>などのタグの組で
あるタグセットが定義される。この場合、タグの形式は
任意のものでよく、ここに示された形式に限定されな
い。

【００３０】このようにタグが定義されたのち、論理構
造が定義される（３３）。すなわち、親と子の関係が定
義された複数の論理要素から、それら論理要素の間の階
層構造が決定される。まずは、親を持たない論理要素
（すなわち、ルート）が抽出され、複数のルートが検出
された場合（この場合は、異なるルートの階層構造は排
他的であるとする）は、そのルートが複数存在している
むねが画面に表示される。使用者は、ルートが一つにな
るまで論理要素の定義を変更する、あるいは、複数のル
ート間に、順序付けをする。つぎに、ルートの子の論理
要素が抽出され、これらすべての論理要素が画面に表示
され、使用者が、それらの論理要素間に順序付けをし
て、その順序付けにしたがって論理要素を並べる。この
ようにして各論理要素の子が順次辿られることによって
階層が抽出される。すなわち、ルートが第一次階層（最
上位階層）とされると、その子の論理要素は第二次階層
となり、さらにその子の論理要素は第三次階層となる。
各階層では、論理要素は、使用者により順序付けがなさ
れており、その順序にしたがって表示される。この手続
きがすべての論理要素について繰り返されると、論理要
素の階層と階層内における順序がわかるので、図８に示
される、各論理要素の階層構造を明示する木構造が作成
されることが可能になる。

【００３１】このように論理構造が定義されたのち、論
理要素ごとにキーワードが入力される（３４）。たとえ
ば、論理要素ごとに図６に示されるテンプレートが用意
され、このテンプレートの「キーワードの定義」の欄
に、使用者は、その論理要素名に適合するキーワードを
順次、入力する。ここでたとえば、所属部署に対して
は、「業務、プロジェクト、センター、センタ、グルー
プ、サービス、ソリューション部、ソリューション課、
工場、本社、支店、大学院、所長室、研究所、研究室、
研究部、研究科、学部、学科、本部、研究課、専攻、部
門、総局、報道局、局、担当、企画室、広報室、駐在、
事業所、事業部、技術部、情報部、推進部、営業部、管
理部、経理部、総務部、開発部、統括部、編集部、シス
テム部、放送部、販売部、販売課、開発課、営業所、営
業、一部、二部、三部、四部、五部、六部、七部、八
部、九部、一課、二課、三課、四課、五課、六課、七
課、八課、九課、１部、２部、３部、４部、５部、６
部、７部、８部、９部、１課、２課、３課、４課、５
課、６課、７課、８課、９課、第一部、第二部、第三
部、第四部、第五部、第六部、第七部、第八部、第九
部、第１部、第２部、第３部、第４部、第５部、第６
部、第７部、第８部、第９部、第一課、第二課、第三
課、第四課、第五課、第六課、第七課、第八課、第九
課、第１課、第２課、第３課、第４課、第５課、第６
課、第７課、第８課、第９課」といったキーワードが定
義されることが可能である。これらが、図６の論理要素
名が所属部署であるテンプレートに順次、入力されるも
のとする。これとは別の方法として、大量の文書に対し
て文字認識処理が行われ、実際のキーワードの文字認識
結果があらかじめ収集されて、所望の論理要素名に対応
するキーワードが抽出されて、テンプレートにコピーさ
れていてもよい。このように文字認識結果があらかじめ
収集される場合は、たとえば、実際の名刺における“プ
ロジェクト”というキーワードが、ブロジェクト、フロ
ジェクト、プ口ジェクト、プロジエクトなどのように誤
って認識されることが多い。誤って認識されることが多
い場合は、誤って認識されたキーワードがそのまま登録
されるようにして、それぞれのキーワードの出現確率
（特定のキーワードの出現確率＝特定のキーワードの出
現頻度／すべてのキーワードの出現頻度）が求められ、
キーワードとそのキーワードに対応する出現確率とが登
録されるようにしておく。このようにすると、文字認識
誤りが少ないタグ付け処理が実現されることが可能にな
る。

【００３２】キーワード辞書を作成する工程の最後は、
以上の結果を基にしてキーワード辞書を構築することで
ある（３５）。各論理要素ごとに定義されたキーワード
が、所定のプログラムが用いられて自動的に文字行長の
降順にソートされる。同長の文字行においては、文字コ
ードの昇順（または降順）にソートされる。この工程に
よって、文字行と複数のキーワードとが照合されてその
文字行に対応する論理要素が決定されることが可能にな
る。ここでは、仮名漢字変換技術にも用いられているよ
うに、タグ付け処理の文字行照合において、文字行とも
っとも多くの文字が一致したキーワードが最優先されて
先頭にソートされることが原則とされている。

【００３３】以上に述べたキーワード辞書が用いられ
て、選択された文字行とキーワード辞書にある、該当す
る論理要素に含まれるキーワードとが照合され、その照
合結果が保持される（２３）。また、この照合結果が得
られるとき、認識誤りによる照合誤りがある程度回避さ
れて、使用者がオフラインで修正する処理結果修正ＧＵ
Ｉ６における作業が軽減されることが望ましい。これが
実現されるために、文字認識処理で文字パターンごとに
認識された複数の文字候補が得られている場合は、図９
に示されるように、文字パターンにより認識された文字
が候補順位ごと文字パターンごとに並べられた行列（ma
trix）が用いられる。ここで、候補順位の高い文字から
順に照合されるように設定されている。この行列におい
て、行成分は文字の候補順位（図９では、第１位文字認
識結果、…、第Ｎ位文字認識結果）が示され、列成分は
異なる文字パターンに対応する指標（図９では、１番
目、…、５番目）が示されている。ところで、タグ付け
処理したのちに実行される処理結果修正ＧＵＩ６におい
て、認識誤りによる照合誤りは完全に回避される。

【００３４】このキーワード辞書による照合結果によっ
て、文字行に存在する論理要素ごとにタグを付与するタ
グ付けがなされる。さらに、このタグ付けがより正確に
されるために、同じ論理要素の照合結果が隣接もしくは
重複していればそれらの論理要素を統合するルール１
（ここで隣接しているタグとは、二つのタグ間に他のタ
グが存在しないこの二つのタグのことであり、重複して
いるタグとは、一つ以上の文字に複数のタグが付与され
ているタグのことである）、異なるタグが重複していれ
ばそれらのタグを統合し、タグ名が長いタグを統合され
たタグとする（タグ名が短い方は棄却される）ルール
２、および、前記行中で第一、第二および第三の論理要
素が連続して付与されていて、第一および第三の論理要
素は同一で、かつ、第二の論理要素が第一および第二の
論理要素と異なる場合、第二の論理要素のタグを第一お
よび第三の論理要素のタグと同一なタグに変更するルー
ル３をタグ付け結果に適用する。これらのタグの変更前
後の状態が第一の記憶装置であるルールベース１に蓄積
される。

【００３５】ルール１、２および３が適用されたこの照
合結果によって、文字行が一つのタグのみを有している
場合がある。そのタグがその文字行全体のタグでない場
合は、そのタグが文字行全体のタグにタグの範囲が変更
される。すなわち、文字行中において、タグが付与され
ていない箇所に、その文字行内のタグと同一のタグが拡
張されて付与される（２４）。また、一つの文字行中に
複数のタグが存在して、あるタグの先頭と末尾のそれぞ
れが拡張可能である場合には、このタグの先頭がこのタ
グの直前にあるタグの末尾に、タグの末尾がこのタグの
直後にあるタグの先頭までタグ付け範囲が、図１０に示
されるタグＢのように、延長される。このようなタグ付
け範囲拡張部１４が導入されることにより、文書の文字
が配列されている態様に依存することなく照合処理がさ
れることが可能になる。また未知単語などが統合されて
新たな単語として照合処理がされることが可能になる。

【００３６】タグ付け範囲が拡張されたあとに、画像デ
ータ中のすべての文字行に対して再び、新たな文字行を
選択する工程（２１）からタグ付け範囲を拡張する工程
（２４）までの処理が適用される。この処理が終了して
も、タグが付与されてない文字行があった場合には、こ
の文字行に「不明」というタグが付与される。また各文
字行では、このタグ付け結果とあわせて上記の文字行と
キーワードとが照合されたときに棄却されたタグが候補
として保持されているものとする。

【００３７】この処理のあとに、テキストブロックおよ
び文字行のそれぞれが分割される（２５）。すなわち、
文字行内に二つ以上のタグが存在すれば、当該行の直前
直後でテキストブロックが分割され、当該行のみを含む
テキストブロックが発生される。さらに、異なるタグの
境界でテキストブロックおよび文字行が分割されて、テ
キストブロックに一つの文字行が存在し、一つの文字行
に一つのタグのみが存在するまで繰り返し分割処理がさ
れる。

【００３８】この分割処理によってテキストブロックに
一つの文字行が存在し、一つの文字行に一つのタグのみ
が存在する画像データが得られる。この画像データにお
いて、二つの隣接する文字行のタグの組み合わせが論理
的に矛盾しないようにタグ付け結果が変更される（２
６）。すなわち、あらかじめ定義されている「タグの矛
盾した組み合わせ」に該当する場合、二つのタグのうち
優先度の高いタグがそのまま残されて、もう一つの、優
先度の低いタグの文字行の候補タグの中から、優先度の
高いタグと矛盾しないタグが選ばれ、優先度の低いタグ
がこの矛盾しないタグに置き換えられる。このとき候補
タグ中に適切なタグが見つからない場合には、その優先
度の低いタグが棄却されて、代わりに「不明タグ」が付
与される。そして、たとえば、タグＡ、タグＢが並んで
いてタグＢが棄却される場合、この手続きを（Ａ，Ｂ）
→（Ａ）と記述して、この記述が第二の記憶装置である
ルールベース２に蓄積される。ここで、優先度は、用意
されるタグにおいて使用者が優先順位をつけておくこと
によって決定される。または、タグの出現確率（特定の
タグの出現確率＝特定のタグの出現頻度／すべてのタグ
の出現頻度）を求め、タグとそのタグに対応する出現確
率とが登録されて、出現確率の高いタグが上位として優
先順位がつけられていてもよい。または、タグ付けの基
になっているキーワードが参照されて、キーワード間で
あらかじめ優先順位がつけられて、そのキーワード間の
優先順位がそのキーワードに対応するタグ間の優先順位
に対応づけられていてもよい。

【００３９】つぎに、タグ付け結果が変更された際に付
与させた「不明タグ」が推定される（２７）。すなわ
ち、優先度が決められた隣接タグ関係をあらかじめ使用
者が定義しておき、その定義が参照されて不明タグが適
切なタグに変更される。この処理が不明タグが存在する
すべての文字行に対して適用され、タグの置き換えが生
じなくなるまで繰り返す。たとえば、タグＡ、不明、タ
グＢという並びの場合、不明タグをタグＣとみなすとい
う手続きは、（Ａ、不明、Ｂ）→（Ａ，Ｃ，Ｂ）と記述
されることが可能になる。そして、この記述は第三の記
憶装置であるルールベース３に蓄積される。

【００４０】つぎに、テキストブロックまたは文字行
（ここでは、これらそれぞれをタグブロックと称す）の
うちいずれか二つのタグブロックが隣接して同一のタグ
を有する場合、それら二つが統合されて、先のタグと同
一な一つのタグを有するテキストブロックが発生される
（２８）。この処理がすべての隣接して同一のタグを有
するタグブロックについて適用される。たとえば、図１
１に示されるように、隣接する三つの文字行が同一のタ
グを有している場合がある。まず、隣接する二つの文字
行が統合されて一つのテキストブロックとされて、この
テキストブロックに統合される前と同一な一つのタグが
付与される。つぎに、このテキストブロックとこれに隣
接する文字行とが統合されて一つのテキストブロックと
して、このテキストブロックに統合される前と同一な一
つのタグが付与される。この結果として、隣接する同一
のタグを有する三つの文字行が、これら文字行と同一の
タグを有する一つのテキストブロックに統合される。

【００４１】以上に説明したタグ付け部４から出力され
た画像データが入力されるタグ付け結果出力部５におい
ては、タグ付け結果はあらかじめオペレータにより定義
された出力形式に基づいて所望の文書ファイルに出力さ
れる。たとえば、タグ間に階層構造が存在する場合は、
この階層構造は木構造により記述される。この木構造の
ルートから順次下位の階層の論理要素に向かい、同一階
層の論理要素では予め定義されている順序にしたがって
入力文書のタグ付け結果が出力される。さらに詳しく
は、各論理要素においては、その論理要素に対応する文
字認識結果が開始タグと終了タグとで挟まれた形式で出
力されることになる。各論理要素にさらに子の論理要素
が存在する場合は、この各論理要素の終了タグの直前
に、子の論理要素の開始タグ、この子の論理要素に対応
する文字認識結果、終了タグが順に挿入されていくこと
になる。子の論理要素にさらにその子の論理要素が定義
されている場合には、終了タグの前に子の論理要素の開
始タグ、文字認識結果、終了タグが順に再帰的に挿入さ
れる。

【００４２】このほかの出力形式として、任意の論理要
素が任意の順序で出力されるようになっていてもよい。
この出力形式においては、たとえば、図７に示されるテ
ンプレートと同様の形式によって出力される論理要素を
順序づける出力順序定義ツールにおける空白のテンプレ
ートに、出力すべき論理要素が出力順に応じて順次記入
されることによって、タグ付け結果が出力される。この
出力形式によると、入力された文書が名刺である場合に
は、名刺に含まれる論理要素に対してタグ付け処理が行
われた後、テンプレートから論理要素が順次読み出さ
れ、この読み出された論理要素に対応するタグと合致す
るタグが処理結果から順次抜き出され、出力される。こ
のとき、テンプレートから読み出されたタグと合致する
タグのすべてが一度に出力されても良いし、読み順が最
小順位のものから一つずつ順次（すなわち、ひらがな順
またはアルファベット順）出力されてもよい。さらにほ
かの出力形式として、例えば、名刺画像から情報抽出し
た結果を氏名：日本太郎組織名：日本株式会社部署名：コンピュータ部・・・のように、論理要素名と読み取り結果とが表形式にされ
て出力されてもよい。以上示されたようなタグ付け結果
出力部５が導入されることで、任意のタグ情報が付与さ
れた任意の情報が所望の順序・形式で出力されることが
可能になる。

【００４３】この発明の、文書読取装置の各部における
処理後にそれら処理結果を修正する処理結果修正ＧＵＩ
６においては、共通する処理として、各部の処理後に処
理された画像が表示され、その画像を使用者が観察する
ことによって、修正すべき画像部分を見出し、その修正
内容に応じて所定の操作をすることがある。使用者が、
これら所定の操作をすることによって、それぞれの処理
過程における所望の画像データを得ることができる。し
かし、各部によって具体的な処理内容は異なるので、以
下に各部の処理後における処理結果修正ＧＵＩ６の処理
内容が説明される。

【００４４】文書画像入力部１から出力された画像にお
いては、表示される二値化処理された画像を使用者が観
察して、必要であれば、二値化の程度が決定されるパラ
メータを使用者が変更して再度、文書をコンピュータに
取り込ませることができる。さらに、傾き補正された画
像がディスプレイに表示され、傾き検出が誤っていれ
ば、使用者が傾き補正角度を直接指定することで、所望
の傾き補正結果が得られるようになっていてもよい。

【００４５】レイアウト解析部２から出力された画像に
おいては、レイアウト解析結果として、読み順通りに順
序付けされた文字行単位の処理結果が出力される。たと
えば、図１２（Ａ）に示される名刺の各文字行が、図１
２（Ｂ）に示されるように文字行単位で順序づけられて
処理結果が画面に表示される。また、読み順誤りを修正
するツール、もしくは行抽出誤りを修正するツールを用
いて使用者の所望のレイアウト解析結果が編集されるよ
うになっている。読み順誤りを修正するツールにおいて
は、連続する文字行がまとめて指定されることが可能で
あり、さらにそれらの先頭に所望の番号が付与されるこ
とが可能になる。先頭以降の文字行に対しては、順次、
連続した番号が自動的に付与されるようになっていても
良い。たとえば、図１３(Ａ)に示されるように、図１２
（Ａ）に示される名刺の住所、電話、ＦＡＸなどが記載
されている名刺の左下部分にある複数の文字行がまとめ
て指定される。さらに、それら文字行のうちの先頭部分
である住所に番号４を使用者が付与して、つぎの５から
８までは自動的に番号が付与される。行抽出誤りを修正
するツールが用いられる場合は、一つの文字行が誤って
複数に分割されて抽出されてしまったときである。その
ときは、それら文字行がすべて指定され統合されるよう
に指示される。すなわち、分割された文字行がまとめて
１行にされる。たとえば、図１３(Ｂ)に示されるよう
に、図１２（Ａ）に示される名刺の名前部分が複数の文
字行に分割されている場合には、それら名前部分の分割
された文字行が統合されて１行にされる。また、行抽出
誤りを修正するツールが用いられる上記とは別の場合で
は、複数の文字行がまとめて１行の文字行として抽出さ
れる場合がある。そのときは、行間位置を使用者が指定
して、その行間位置で文字行が分割される。たとえば、
図１３(Ｃ)に示されるように、図１２（Ａ）に示される
名刺のホームページアドレスと電子メールアドレスが記
載されている文字行がまとめて一つの文字行として抽出
されている場合に、ホームページアドレスと電子メール
アドレスとが切断されてそれぞれ一つの文字行として分
割される。このとき、水平または垂直のどちらかの切断
方向を使用者が選択することができる。

【００４６】文字認識部３から出力された画像において
は、文字行単位で各文字の文字認識誤りが修正される。
画像中の文字認識誤りが存在する箇所に、使用者がカー
ソルを合わせて、文字入力画面で正しい文字を入力す
る。使用者が正しい文字を入力する際、文字の候補がい
くつか示されるように設定されていてもよい。

【００４７】タグ付け部４から出力された画像において
は、使用者に提示される行単位のタグ付け結果を基にし
て、使用者は行ごとにタグを変更することができる。た
とえば、レイアウト解析において得られた１行の文字行
に複数のタグが付与され、タグ付け処理においてそれら
のタグの境界で文字行が分割され、一つの文字行には一
つのタグのみが付与されているとする。このとき、図１
４（Ａ）に示されるように、タグ付け処理が誤ったため
に文字行がタグＡとタグＢとに誤分割されている場合
は、図１４（Ｂ）に示されるようにタグＡとタグＢに含
まれる文字行がまとめられて一つの文字行が生成され、
その文字行に所望のタグ（ここでは、タグａ）が付与さ
れることが可能になる。また、使用者が、各文字行にカ
ーソルを持って来たり、ポインティングディバイスで指
示をすると、その画面上の位置で候補タグの一覧が表示
され、その中から所望のタグを選択し、付与することが
できるようになっていても良い。たとえば、図１５
（Ａ）に示される名刺の電話番号とＦＡＸ番号とが記載
されている位置に、使用者がカーソルを持って行くと、
図１５（Ｂ）に示されるように候補タグの一覧表が表示
され、使用者はその一覧表の中からカーソルでタグを選
択することができる。また、同一のタグが連続している
場合、それらのタグと文字行とが一つにまとめられて、
一つのテキストブロックが表示されることが可能にな
る。たとえば、図１１（Ａ）に示されるようなタグＡが
付与された三つの文字行が、図１１（Ｂ）に示されるよ
うに、三つの文字行が統合されてテキストブロックとな
り、使用者がこのテキストブロックに一つのタグＡを付
与することができる。

【００４８】以上に説明した処理結果修正ＧＵＩ６が段
階的に利用されて常に正しい結果が得られるようにする
ことで、修正手順の後戻りが無くなるため、システム操
作が単純化され、効率良くかつ確実に正しい処理結果が
得られることが可能になる。ここでは、ＧＵＩは各処理
で呼び出されるように設定されていた。しかし、最後の
処理であるタグ付け結果出力部５の処理直後にＧＵＩ処
理が連続して動作されるように指定されていれば、その
処理に応じたＧＵＩが起動されるようになっていてもよ
い。このとき、各処理過程の途中結果が中間ファイルと
して出力されていれば、それぞれの処理に対応したＧＵ
Ｉが起動されることが可能となる。すなわち、すでに終
了したどの処理にも戻ることができ、それぞれの処理誤
りが修正されるようになっている。そして処理誤りが修
正されると、その後の段階の処理が、自動的に起動さ
れ、修正結果に基づいて動作するようになっている。

【００４９】このＧＵＩでは、論理要素ごとにテキスト
入力が可能となっているテンプレートがあり、論理要素
に対応する部分画像を使用者がポインティングディバイ
スで指定し、テンプレートにドラグアンドドロップする
ことにより部分画像の読み取り結果が入力されるように
なっていても良い。

【００５０】このような複数の文字認識辞書による認識
結果が仮定されたタグ付け処理が導入されることで、一
つの文字認識辞書のみで処理される場合よりも高精度な
タグ付け結果が得られることが可能となり、さらには複
数言語混在下で任意形式のタグ情報が付与された任意の
情報が高精度に抽出されることが可能となる。また、簡
単なルールに基づくタグ付け処理が可能とされること
で、キーワード辞書の構築が不十分な場合（処理対象に
未知のキーワードが存在する場合）や、文字認識結果に
誤りが生じたために正しいタグ付けが行えない場合で
も、妥当な処理結果が得られることが可能となる。

【００５１】この発明のほかの実施例である、文書読取
装置を図２および図１６から図１８までが参照されて説
明される。

【００５２】この実施例は、上述の一実施例におけるタ
グ付け部４中のキーワード照合部１３に関するもので、
そのほかの装置部分は、一実施例の、文書読取装置と同
様である。

【００５３】上記の一実施例のキーワード辞書部１２に
おいてキーワードごとに定められているキーワードの出
現確率が利用されて、図１６に示される工程によって、
的確にキーワードが定められて、より精密にタグが付与
される。

【００５４】文字行選択部１１によって選択された文字
行が、キーワード辞書部１２にあるキーワードと照合さ
れてゆき、全文書画像にある文字がキーワードに変換さ
れる。このキーワードのそれぞれに出現確率が付与され
ている。これらキーワードにはそのキーワードに対応す
るタグが付与されている。これらタグによって、キーワ
ードのうち互いの論理要素が矛盾しないように、文書画
像から抽出されたキーワードが選択される。すなわち、
２つのキーワードのタグが異なり、重複している場合
は、それらのキーワードが同時に選択されない。また
は、一実施例に示されたルール３（あらかじめ指定され
ている論理要素にほかの論理要素が囲まれている場合、
囲まれている論理要素のタグを囲んでいる論理要素のタ
グに変更する）が適用され得るキーワードがある場合、
囲まれている論理要素に対応するキーワードと囲んでい
る論理要素に対応するキーワードとは、同時に選択され
ない。このように、同時に選択可能なキーワードの組み
合わせが可能な限り探索され、これらのキーワードの組
み合わせのうちもっとも出現確率の高い組み合わせが選
択される。

【００５５】具体的には、図１７に示されるように、ま
ず、キーワードが選択される。この例では、キーワード
１および２、ならびにキーワード３および４が重複して
いるので、キーワード１および２、ならびにキーワード
３および４は、同時に選択されない。また、上記のルー
ル３に基づく同時に選択されない規則によれば、キーワ
ード２および３、キーワード４および５、キーワード１
および４、ならびにキーワード２および５も、同時に選
択されない。このキーワード間が同時に選択可能である
かどうかが単純明快に示されたのが図１８である。この
図１８は、キーワード間に線分が引かれいるキーワード
同士は、同時に選択可能であることを示している。そし
て、同時に選択可能であるすべてのキーワードの出現確
率がたし合わされて、総和が求められる。この総和が、
同時にキーワードが選択可能であるすべての場合におい
て計算されて、この総和がもっとも大きい場合が、もっ
とも出現確率の高いキーワードの組み合わせになる。し
たがって、上述の一実施例に比較してより精密なタグ付
けがなされる。

【００５６】また、ここでは、キーワード照合結果にお
いて図１７に示されるように出現確率が付与される場合
について説明したが、出現確率が別の値に変換されたコ
ストが採用されるようにしても良い。

【００５７】この発明の、さらにほかの実施例である、
文書読取装置が図２および図１６から図１９までが参照
されて説明される。

【００５８】この実施例は、上述の一実施例におけるタ
グ付け部４中のキーワード照合部１３に関するもので、
そのほかの装置部分は、一実施例の、文書読取装置と同
様である。

【００５９】この実施例も、この発明の、ほかの実施例
として示したものと同様で、上記の一実施例のキーワー
ド辞書部１２においてキーワードごとに定められている
キーワードの出現確率が利用される。そして、図１６に
示される工程によって、的確にキーワードが定められ
て、より精密にタグが付与される。

【００６０】本実施例においても、上のほかの実施例で
示されている図１８のように、キーワードのうち、どの
キーワードが同時に選択可能であるかが算出される。

【００６１】本実施例の特徴は、あるＮ番目のタグが文
書中に現れる確率は、直前の（Ｎ−１）個のタグの出現
に依存するものとして、どのキーワードが選択されるか
が決定されることである。この特徴は、タグ列W₁ ⁿ={w₁,
…,w_n}の出現確率がもっとも大きくなるようなキーワー
ドが選択されることに帰着される。ここで、タグ列W₁ ⁿ=
{w₁,…,w_n}の出現確率P(w₁,…,w_n)は、確率的言語モデ
ルで用いられるＮグラム・クラスモデルによれば、P
(w₁,…,w_n)=Π_i=1 ⁿ P(w_i|c_i)P(c_i|c_i-1)（P(w_i|c_i)：キ
ーワードw_iにタグc_iがつけられる確率、P(c_i|c_i-1)：タ
グc_iがタグc_i-1の直後に現れる確率）となる。

【００６２】たとえば、図１７に示される文書画像につ
いて本実施例の手法を用いると、同時に選択可能なキー
ワードが、図１９に示されるように、順にならべられ
る。また、図１７に示されているキーワードの出現確率
は、本実施例ではキーワードにタグがつけられる確率に
対応する。また、あるタグが所定のタグの直後に現れる
確率は、あらかじめ使用者がその確率を定義しておく、
または、あるタグが所定のタグの直後に現れる確率（＝
あるタグが所定のタグの直後に現れる出現頻度／所定の
タグがほかのタグに移る出現頻度）が求められて、タグ
とそのタグに対応する出現確率とが登録されてもよい。

【００６３】以上のように、同時にキーワードが選択可
能であるすべての場合において計算されて、タグ列の出
現確率がもっとも大きい場合が、もっとも出現確率の高
いキーワードの組み合わせになる。この実施例では、上
の実施例で述べられた手法に加え、あるタグが所定のタ
グの直後に現れる確率も考慮されるので、上の実施例に
比較してより精密なタグ付けがなされる。

【００６４】

【発明の効果】この発明によれば、印刷文書から任意の
情報が抽出され、その情報に任意の属性情報が付与さ
れ、それらが任意の順序および形式でコンピュータシス
テムに入力されることが可能になる。文書がコンピュー
タシステムに入力される際、文書中に複数の言語が含ま
れていたり、文字行中に複数の角度方向を持つ文字が記
載されていても高精度な処理結果が得られることが可能
であり、広範囲にわたる文書からの情報抽出が可能とな
る。

【図面の簡単な説明】

【図１】この発明の、文書読取装置のシステム全体を示
すブロック図である。

【図２】図１に示される読み取り装置内のタグ付け部の
構成を示すブロック図である。

【図３】（Ａ）図１に示される読み取り装置内のレイア
ウト解析部において用いられる、画面に表示された画像
データにおける文字行とテキストブロックの例を示す模
式図である。（Ｂ）図１に示される読み取り装置内のレ
イアウト解析部において用いられる、画面に表示された
画像データにおける文字行と文字の例を示す模式図であ
る。（Ｃ）図１に示される読み取り装置内のレイアウト
解析部において用いられる、画面に表示された画像デー
タにおける文字の位置が明示される座標を示す模式図で
ある。

【図４】図１に示される読み取り装置内のタグ付け部の
処理順序を示す流れ図である。

【図５】図２に示されるタグ付け部内のキーワード辞書
部内で用いられるキーワード辞書を作成する工程を示す
流れ図である。

【図６】図２に示されるキーワード辞書が定義されるた
めに、使用者が記入するためのテンプレート画面であ
る。

【図７】同一階層の論理要素が表示されるためのテンプ
レート画面である。

【図８】各論理要素の階層構造を明示した木構造を示す
模式図である。

【図９】図４に示されるタグ付け部の処理順序中のキー
ワード照合の工程において用いられる文字パターンによ
り認識された文字が候補順位ごと文字パターンごとに並
べられた行列を示す模式図である。

【図１０】図４に示されるタグ付け部の処理順序中のタ
グ付け範囲の拡張の工程において、タグが拡張される態
様を示す模式図である。

【図１１】図４に示されるタグ付け部の処理順序中の共
通タグの統合によるテキストブロックと文字行の統合の
工程において、文字行が統合されてテキストブロックに
なる態様を示す模式図である。

【図１２】（Ａ）図１に示される読み取り装置の文書画
像入力部に入力される名刺を示す模式図である。（Ｂ）
図１２（Ａ）に示される名刺が、読み取り装置内のレイ
アウト解析部においてに文字行単位で順序づけられて処
理結果を示す模式図である。

【図１３】（Ａ）図１２（Ａ）に示される名刺の左下部
分にある複数の文字行がまとめて指定され、それら文字
行のうちの先頭部分である住所に番号４を使用者が付与
して、つぎの５から８までは自動的に番号が付与される
態様を示す模式図である。（Ｂ）図１２（Ａ）に示され
る名刺の名前部分が複数の文字行に分割されている場合
に、それら名前部分の分割された文字行が統合されて１
行にされる態様を示す模式図である。（Ｃ）図１２
（Ａ）に示される名刺のホームページアドレスと電子メ
ールアドレスが記載されている文字行がまとめて一つの
文字行として抽出されている場合に、ホームページアド
レスと電子メールアドレスとが切断されてそれぞれ一つ
の文字行として分割される態様を示す模式図である。

【図１４】（Ａ）図１に示される読み取り装置内のタグ
付け部から出力された文字行がタグＡとタグＢとに誤分
割されている態様を示す模式図である。（Ｂ）図１４
（Ａ）に示されるタグＡとタグＢとが統合される態様を
示す模式図である。

【図１５】（Ａ）図１に示される読み取り装置の文書画
像入力部に入力される名刺を示す模式図である。（Ｂ）
図１５（Ａ）に示される名刺の電話番号とＦＡＸ番号が
記載されている位置に、使用者がカーソルを持って行く
と、候補タグの一覧表が表示され、使用者はその一覧表
の中からカーソルでタグを選択することができる態様を
示す模式図である。

【図１６】この発明の、文書読取装置のほかの実施例に
おけるキーワード照合をする場合の工程を示す流れ図で
ある。

【図１７】図１６に示されるキーワード照合の工程にお
いて、キーワードが選択されている態様を示す模式図で
ある。

【図１８】図１７に示されるキーワード同士が同時に選
択可能であるかどうかを示すダイヤグラムである。

【図１９】この発明の、文書読取装置のさらにほかの実
施例において、図１７に示されるキーワード同士が同時
に選択可能であるキーワードのうちどのキーワードが選
択されればよいかを示すダイヤグラムである。

Claims

【特許請求の範囲】

【請求項１】複数のキーワードとこのキーワードを分
類するための論理要素とを対応付けて記憶しているキー
ワード記憶手段と、文字を含み、複数の行を含む画像データから、所定の行
を選択する選択手段と、この選択手段で選択された行
中の文字と、前記キーワード記憶手段に記憶されている
キーワードとを照合し、この照合された結果に基づいて
キーワードと対応付けられている論理要素を示すタグ
を、この行部分に付与して、この照合結果を保持する照
合手段を具備することを特徴とする文書読取装置。
【請求項２】前記照合手段は、前記照合結果におい
て、同じタグが隣接もしくは重複して行部分に付与され
ていればそれらのタグを統合する第一規則、異なるタグ
が重複して行部分に付与されていれば所定の判定基準で
それらのタグのうち一方を選択する第二規則、および、
前記行中で第一、第二および第三のタグが連続して付与
されていて、第一および第三のタグは同一で、かつ、第
二のタグが第一および第二のタグと異なる場合、第二の
タグを第一および第三のタグと同一なタグに変更する第
三規則のうち少なくともいずれか一の規則を、タグ付け
がなされた結果に適用する適用手段を含むことを特徴と
する請求項１記載の文書読取装置。
【請求項３】前記照合手段は、照合の結果、前記行が
一つのタグのみを有している場合に、前記タグを前記行
全体のタグとして、タグの範囲を変更する範囲拡張手段
をさらに具備することを特徴とする請求項１記載の文書
読取装置。
【請求項４】前記範囲拡張手段は、タグが付与されて
いない行があった場合には、所定の名称のタグをその行
に付与して、タグ付けなしをタグ付けに変更する変更手
段を含むことを特徴とする請求項３記載の文書読取装
置。
【請求項５】前記範囲拡張手段は、一つの行中に複数
のタグが存在して、あるタグの先頭と末尾の少なくとも
いずれか一つが拡張されることが可能である場合には、
このタグの先頭をこのタグの直前にあるタグの末尾まで
タグ付け範囲を延長する、および／または、タグの末尾
をこのタグの直後にあるタグの先頭までタグ付け範囲を
延長する延長手段を含むことを特徴とする請求項３記載
の文書読取装置。
【請求項６】前記照合手段は、照合の結果、行内に二
つ以上のタグが存在する場合には、当該行の内容を分割
し、一つの文字行に一つのタグが付与されるまで行の分
割処理を行う分割手段をさらに具備することを特徴とす
る請求項１記載の文書読取装置。
【請求項７】前記分割手段は、隣接して配置している
行の集合であるテキストブロック、および、行が異なる
タグの境界で分割されて、テキストブロックに一つの行
が存在し、一つの行に一つのタグのみが存在するまで繰
り返しテキストブロックおよび行を分割する繰り返し手
段を含むことを特徴とする請求項６記載の文書読取装
置。
【請求項８】前記照合手段は、照合の結果、隣接する
行に付与されたタグがタグの組み合わせとして論理的に
矛盾している場合に、それらのタグが論理的に矛盾しな
いようにタグを変更するタグ変更手段をさらに具備する
ことを特徴とする請求項１記載の文書読取装置。
【請求項９】前記タグ変更手段は、隣接する行に付与
されたタグがタグの組み合わせとして論理的に矛盾しな
いタグが付与されることが不可能な行は、その行に隣接
するタグを参照して適切なタグを推定して付与するタグ
推定手段をさらに具備することを特徴とする請求項８記
載の文書読取装置。
【請求項１０】前記タグ推定手段は、すべての行に対
して適用して、タグの置き換えがなくなるまで繰り返す
繰り返し手段を含むことを特徴とする請求項９記載の文
書読取装置。
【請求項１１】前記タグ変更手段は、行単位のタグ付
けがなされた結果が画面上に提示され、使用者が行ごと
にタグを修正する修正手段をさらに具備することを特徴
とする請求項８記載の文書読取装置。
【請求項１２】前記タグ変更手段は、論理的に矛盾し
ないように選択されるタグが候補タグ中に見つからない
場合には、候補タグが見つからないむねを明示したタグ
を付与する付与手段を含むことを特徴とする請求項８記
載の文書読取装置。
【請求項１３】前記タグ変更手段は、用意されている
タグに、あらかじめ使用者が優先順位を付与する手段を
具備し、タグの変更の際には、この優先順位に基づいて
決定されることを特徴とする請求項８記載の文書読取装
置。
【請求項１４】前記タグ変更手段は、候補タグは、す
べてのタグの出現頻度に対する特定のタグの出現頻度の
割合として定義されるタグの出現確率を求め、出現確率
の高いタグを上位として優先順位がつけられることによ
ってタグの変更を行う手段を具備することを特徴とする
請求項８記載の文書読取装置。
【請求項１５】前記タグ変更手段は、タグ付けの基に
なっているキーワードが参照され、キーワード間であら
かじめ優先順位がつけられて、そのキーワード間の優先
順位がそのキーワードに対応するタグ間の優先順位に対
応づけられることによってタグの変更を行う手段を具備
することを特徴とする請求項８記載の文書読取装置。
【請求項１６】複数のキーワードとこのキーワードを
分類するための論理要素とを対応付けて記憶しているキ
ーワード記憶手段と、文字を含み、複数の行を含む画像データから、行を選択
する行選択手段と、前記行選択手段によって選択された行中の行部分と前記
キーワード記憶手段に記憶されているキーワードとを照
合し、この照合された結果に基づいてキーワードと対応
付けられている論理要素を示すタグを、この行部分に付
与して、この照合結果を保持する照合手段と、前記照合結果において、前記行が一つのタグのみを有し
ている場合に、前記タグを前記行全体のタグとして、タ
グの範囲を変更する範囲拡張手段と、前記照合結果において、行内に二つ以上のタグが存在す
る場合には、当該行の内容を分割し、一つの文字行に一
つのタグが付与されるまで行の分割処理を行う分割手段
と、前記照合結果において、隣接する行に付与されたタグが
タグの組み合わせとして論理的に矛盾している場合に、
それらのタグが論理的に矛盾しないようにタグを変更す
るタグ変更手段と、前記タグ変更手段において、適切なタグが付与されるこ
とが不可能な行は、その行に隣接するタグを参照して適
切なタグを推定して付与するタグ推定手段と、を具備することを特徴とする文書読取装置。
【請求項１７】複数のキーワードとこのキーワードを
分類するための論理要素とを対応付けてキーワード記憶
手段に記憶し、文字を含み、複数の行を含む画像データから、行を選択
し、前記選択された行中の行部分と前記キーワード記憶手段
に記憶されているキーワードとを照合し、この照合され
た結果に基づいてキーワードと対応付けられている論理
要素を示すタグを、この行部分に付与して、この照合結
果を保持し、前記照合結果において、前記行が一つのタグのみを有し
ている場合に、前記タグを前記行全体のタグとして、タ
グの範囲を変更し、前記照合結果において、行内に二つ以上のタグが存在す
る場合には、当該行の内容を分割し、一つの文字行に一
つのタグが付与されるまで行の分割処理を行い、前記照合結果において、隣接する行に付与されたタグが
タグの組み合わせとして論理的に矛盾している場合に、
それらのタグが論理的に矛盾しないようにタグを変更
し、前記タグが変更される場合に、適切なタグが付与される
ことが不可能な行は、その行に隣接するタグを参照して
適切なタグを推定して付与することを特徴とする文書読
取方法。