JP3492442B2

JP3492442B2 - 語形状トークンを用いる文書内容特性表示

Info

Publication number: JP3492442B2
Application number: JP06307295A
Authority: JP
Inventors: サイブンペネロープ
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1994-03-31
Filing date: 1995-03-22
Publication date: 2004-02-03
Anticipated expiration: 2019-02-03
Also published as: JPH07271904A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、テキスト画像の非光学
式文字認識（ｎｏｎ−ＯＣＲ）内容特性表示に関する。
本発明は、特に、文字形状コードを用いてテキスト画像
を語形状トークンの記号列に変換しかつ文章毎に基づい
て語形状トークンの推定品詞を決定することに関する。

【０００２】

【従来の技術】文書分類、テキストデータベース構造
化、質問に対して文書を適合すること、及びトピック特
性表示のような、達成することが望ましい多くのテキス
ト処理タスクがある。計算言語学の分野は、アスキー
（ＡＳＩＩ）のような、文字コードによって表されるテ
キスト文書に対してこれらのタスクを達成するための種
々の技術を開発した。しかしながら、多くの文書は、文
字コードフォーマットでオンラインに記憶されない。そ
れよりも、これらの文書は、紙文書(paper documents)
上のテキスト画像としてだけ存在する。それゆえに、こ
れらの技術をこれらの文書に適用することは、不可能で
なないかもしれないが、難しい。光学式文字認識（ＯＣ
Ｒ）は、走査した文書画像を文字コードに変換するため
の技術である。ＯＣＲを用いて、文書画像は、既存のテ
キスト処理技術に従う形式に変換できる。

【０００３】

【発明が解決しようとする課題】しかしながら、ＯＣＲ
は、高価で、スローでかつしばしば不正確である。これ
らの欠点により、ＯＣＲを用いることは、もし可能なら
ば避けか、または文書がＯＣＲ処理を保証することがで
きるようになるまで少なくとも延期すべきである。換言
すれば、ＯＣＲは、所望の文書特徴を検出するのに十分
感度がよいけれど、それは、十分に高い帯域を有してい
る文書処理システムを提供しない。従って、本発明の目
的は、これらの必要性を満たすべく所望の文書特徴を検
出するのに十分感度がよい高帯域文書処理システムを提
供することである。また、本発明の他の目的は、ＯＣＲ
に依存しない文書画像から情報を抽出する方法を提供す
ることである。

【０００４】

【課題を解決するための手段】上述した本発明の目的
は、走査されたテキスト画像を表わすディジタルデータ
流を出力するスキャナと、ディジタルデータ流を入力し
かつ走査されたテキスト画像の語形状トークンを含んで
いる文字形状コード化表現を出力するトークナイザと、
語形状トークンを入力しかつ各語形状トークンと対の品
詞タグを出力する語形状タガーとを備えている非ＯＣＲ
文書解析システムによって達成される。上述した本発明
の他の目的は、文書シートのテキスト画像の語の品詞を
識別する方法であって、テキスト画像を電子画像に変換
し、電子画像のライン、語及び文字セルを決定し、文字
セルを文字形状コード化記号に変換し、文字形状コード
化記号を文字形状コード化語形状トークンに分類し、各
語形状トークンを、少なくとも一つの品詞タグを含んで
いる対応曖昧分類と対にし、対応曖昧分類に基づいて各
語形状トークンに対する最確品詞タグを識別し、語形状
トークン及び対応最確品詞タグを出力する段階を具備す
る方法によって達成される。

【０００５】

【作用】本発明の第１の実施例では、テキスト文書が走
査されかつ語形状トークンに変換される。語形状トーク
ンは、文字形状コードの語長記号列を含む。文字形状コ
ードは、文字の個別の構成要素の数、及びｘハイトライ
ン及びベースライン位置に対する文字の頂部及び底部部
分の関係に基づいて決定される。テキスト画像の語形状
トークンは、語形状トークンによって表される種々の語
の可能な品詞を識別すべくサーフェスフォーム辞書と比
較される。タガーは、文章内の各語形状トークンに対し
て可能な品詞の最高確率品詞を決定する。

【０００６】

【実施例】図１、図２及び図５に示すように、文章１０
４に分類された複数の語（ワード）１０６を含んでい
る、テキスト画像（テキストイメージ）１０２を包含し
ている文書１００は、通常の走査システム１１０を用い
て走査される。走査システム１１０は、電荷結合素子
（ＣＣＤ）等を有しているスキャナを含む。走査システ
ム１１０は、図１に示すような文書を走査しかつ原始文
書１００の画像１０２を含んでいる複数の画素の位置及
び画像密度を表わすディジタルデータ信号を出力する。
一度画像１０２が走査されると、それは一つ以上のライ
ンに分割される。各ラインは、一つ以上の文字セルに分
割される。各文字セルは、一つ以上の縦方向に位置調整
された連結構成要素を含んでいる。図５に示すように、
スキャナ１１０からのディジタルデータ信号は、Ｉ／Ｏ
ポート２４を介してコントローラ１１４にバッファメモ
リ１１２を通って入力される。ディジタルデータ信号
は、画像メモリ（イメージメモリ）２６またはバッファ
メモリ１１２のいずれかに記憶される。コントローラ
は、連結構成要素ジェネレーター２８を用いてテキスト
画像１０２の連結構成要素を発生する。連結構成要素
は、空間特徴ロケーター３０によってライン及び文字セ
ルに分割される。文字セルは、文字形状クラシファイヤ
ー（文字シェープクラシファイヤー）３２によって文字
形状コード化文字に変換される。文字形状コード化、ま
たはトークン化、テキスト画像１０２は、画像メモリ２
６に記憶される。ＲＯＭ２２ａは、コントローラ１１４
に対する制御プログラムを記憶する。ＲＯＭ２２ａまた
はＲＡＭ２２ｂのいずれかは、語形状タガー（ワードシ
ェープタガー）３４に対する関連曖昧分類及び語形状辞
書を記憶できる。トークン化テキスト画像１０２は、画
像メモリ１２６から出力されて語形状タガー３４に入力
される。語形状タガー３４は、トークン化テキスト画像
１０２の各語形状トークンに対応付けられた最確品詞タ
グを有する、トークン化テキスト画像１０２を出力す
る。このタグ化テキスト画像１０２は、バッファメモリ
１１２、画像メモリ１２６への、または名詞句レコグナ
イザー１１６または文書トピックアイデンディファイヤ
ー１１８のような、下流処理ステーションへの直接的な
出力である。

【０００７】即ち、図３に示す文字形状化コーディング
方式に基づいて、文字セルは、文字形状クラシファイヤ
ー（文字シェープクラシファイヤー）３２によって文字
形状コード化文字に変換される。語境界（ワードバウン
ダリー）は、維持されるので、これらの文字形状コード
化文字は、語形状トークン（ワードシェープトークン）
に分類される。また文章境界（文章バウンダリー）も維
持されるので、語形状トークンは、文章に分類される。
一般に、走査されたテキスト画像を文字形状化コード語
形状トークンに変換するために、各ラインがまず識別さ
れる。次に、各ラインにおいて、３つのゾーンが識別さ
れる。第１のゾーン、ｘゾーンは、ベースラインとｘハ
イトラインの間の領域である。ベースライン及びｘハイ
トラインは、“ｘ”文字形状コードによって表される文
字の、それぞれ、底部エッジ及び頂部エッジを識別す
る。次に、昇順ゾーンは、ｘゾーンの上の領域であり、
降順ゾーンは、ｘゾーンの下の領域である。テキストラ
インは、水平方向に分離した連結構成要素を描く垂直境
界を識別することによって文字セルに更に分割される。
それゆえに、ラインの縦方向に位置調整された連結構成
要素は、一つの文字セルに分類される。

【０００８】文字の主なものは、図３に示すように、少
数の個別の文字形状コードに変換される。図３に示すよ
うに、ｘゾーンに完全に包含される単一の連結構成要素
だけを有しているあらゆる文字セルは、“ｘ”文字形状
コードにマップされる。同様に、昇順ゾーンに延伸する
単一の連結構成要素を有しているあらゆる文字セルは、
“Ａ”文字形状コードにマップされ、降順ゾーンに延伸
する単一の連結構成要素を有しているあらゆる文字セル
は、“ｇ”文字形状コードにマップされる。同様に、降
順ゾーンに延伸しない二つの連結構成要素を有している
あらゆる文字セルは、“ｉ”文字形状コードにマップさ
れ、降順ゾーンに延伸する二つの連結構成要素を有して
いるあらゆる文字セルは、“ｊ”文字形状コードにマッ
プされる。加えて、語間の空間は、“空間”文字形状コ
ードによって識別されて、文字形状コードのグルーピイ
ングが語形状トークンに組合せられうる。同様に、“復
帰”文字形状コードは、各ラインの終わりを識別する。
種々の句読記号もそれら自体の文字形状コードにマップ
される；これらは、文章境界を示す“，”、“−”、及
び“．”を含む。一般に、文書処理に対するこのアプロ
ーチは、テキスト画像から文字コード化表示へのマッピ
ングに固有な問題を巧みに避ける。代わりに、テキスト
画像は、形状に基づく表現(shape-based representatio
n)にマップされる。この技術は、それゆえに、劣化した
画像でさえも文書のテキストについての有用な要約を供
給する表現に変形できる。勿論、既に文字コード化表現
である、電気的に記憶された、オンラインテキスト文書
に対して、文書の文字形状コード化バージョンは、生成
することがトリビアル(trivial) である。

【０００９】それゆえに、テキストタギング(text tagg
ing)の目的に対し、語形状トークン表現は、実際の語で
構成された表現の近似であると考えられうる。語と語形
状トークンの間の関係は、文字形状コーディング方式を
用いる語からその対応している語形状トークンへのマッ
ピングとして考えられうる。例えば、語“ａｐｐｌｅ”
は、語形状トークン“ｘｇｇＡｘ”にマップし、語“ａ
ｐｐｌｅｓ”は、語形状トークン“ｘｇｇＡｘｘ”にマ
ップする。文書では、語は、形態システムとしてよりも
サーフェスフォームとして存在する。それゆえに、“ａ
ｐｐｌｅ”及び“ａｐｐｌｅｓ”は、同じ語の異なる形
であるよりも、ことなる語である。それゆえに、あらゆ
る使用可能な辞書は、語幹や接尾辞により編成されるよ
りも“ａｐｐｌｅ”及び“ａｐｐｌｅｓ”のようなサー
フェスフォームで構成されていなければならない。従っ
て、このアプリケーションの目的に対し、“ｗｏｒｄｓ
（語）”は、サーフェスフォームを意味する。品詞タガ
ー(part-of-speech tagger) は、名詞、動詞、形容詞、
等のような品詞を語形状トークンに割り当てるべくコン
テキストを使用するシステムである。品詞情報を識別す
ることは、テキストの名詞句や他のパターンを認識する
ことのような、より高いレベルの解析を容易にする。

【００１０】テキストタガーを構築するために複数の異
なるアプローチが用いられている。マルコフモデルの特
定の形式が広く用いられている。このマルコフモデル
は、語は、二つの先行する語の品詞カテゴリーにのみ依
存する、その品詞カテゴリーに確率的に依存するという
ことを想定する。モデルを訓練することは、大きなタグ
化コーパス(tagged corpus) によりときどき行われる
が、しかしこれは必要ではない。前進−後退アルゴリズ
ム(Forward-Backward algorithm)としても知られてい
る、ボーム−ウェルッシュアルゴリズム(Baum-Welch al
gorithm)を用いることができる。この場合には、モデル
は、状態遷移（即ち、品詞カテゴリー）が観察不可であ
ると想定されるので、隠れマルコフモデル(hidden Mark
ov Model: ＨＭＭ) と称される。テキストタガーの好ま
しい実施例では、ゼロックス・パロアルト研究センター
から一般的に入手可能な、ＨＭＭに基づくテキストタガ
ーが用いられる。Cutting et al., “A Practical Part
-Of-Speech Tagger ”, Proceedings of the Third Con
ference on Applied Natural Language Processing(AC
L), pp. 133-140,Trento, Italy, 1992 (Report SSL-92
-01/P92-00001,Xerox Palo Alto ResearchCenter, 199
2)に記載されているゼロックスタガーは、特に効率的で
かつより柔軟である。特に、このテキストタガーは、あ
らゆる辞書(lexicon) を用いて、テキストのあらゆるコ
ーパス上で訓練することができる。この柔軟性は、訓練
しているコーパス及び辞書を、タガー自体を変更するこ
となく、文字形状コーディング方式を用いて、語から語
形状トークンに変換された形状であるようにさせる。

【００１１】語形状辞書は、語の標準辞書から導出され
うる。標準テキストタガーと共に用いる辞書は、言語に
おいて遭遇するであろう別個のサーフェスフォームの全
てのリストを包含する。各サーフェスフォームに対応付
けられているのは、サーフェスフォームが有しうる可能
な品詞のリストである。例えば、表１に示すように、サ
ーフェスフォーム“ａｐｐｌｅ”は、“名詞”品詞に、
サーフェスフォーム“ａｐｐｌｅｓ”は、“複数名詞”
に、サーフェスフォーム“ｅａｔ”は、“動詞”に、サ
ーフェスフォーム“ｅａｔｓ”は、“３人称単数動詞”
に、サーフェスフォーム“ｒｅｄ”は、“名詞”及び
“形容詞”に、そしてサーフェスフォーム“ｔｈｅ”
は、“限定詞”にそれぞれ対応付けられる。

【００１２】

【表１】語品詞 ──────────────────────── ａｐｐｌｅ名詞ｅａｔｓ３人称単数動詞ｒｅｄ名詞、形容詞ｔｈｅ限定詞サーフェスフォーム及び対応する品詞からなる辞書が一
度形成されると、それは、語形状トークンの辞書を形成
すべく用いられうる。特に、図６に示すように、ステッ
プＳ１０００でスタートした後、辞書は、ステップＳ１
０１０で、サーフェスフォームから対応する語形状トー
クンへ変換することによって、語形状辞書に変換され
る。次に、ステップＳ１０２０で、辞書は、全てのデュ
プリケート語形状トークンを辞書の単一エントリに分類
すべくサーフェスフォーム語形状によってソート(sort)
される。次に、ステップＳ１０３０において、同一の語
形状トークンに対する全ての種々の品詞は、単一語形状
トークンエントリに対応付けられ、デュプリケート品詞
エントリは、“曖昧分類(ambiguity class) ”を形成す
べく削除される。変換処理は、ステップＳ１０４０で停
止する。それゆえに、辞書の各語形状トークンは、ユニ
ーク(unique)であるべきであり、かつ各品詞は、各語形
状トークンに対応付けられた各曖昧分類内でユニークで
あるべきである。

【００１３】それゆえに、表１及び表２に示す辞書か
ら、語形状トークン“ｘｇｇＡｘ”（ａｐｐｌｅ）は、
その曖昧分類として品詞“名詞”を有する。同様に、語
形状トークン“ｘｇｇＡｘｘ”（ａｐｐｌｅｓ）は、そ
の曖昧分類として“複数名詞”を有し、語形状トークン
“ｘｘＡ”（ｅａｔ，ｒｅｄ）は、その曖昧分類として
“動詞、名詞、形容詞”を有する。表１の辞書の結果と
して得られる変換語形状辞書を表２に示す。

【００１４】

【表２】語形状トークン曖昧分類 ──────────────────────────── ｘｇｇＡｘ名詞ｘｇｇＡｘｘ複数名詞ｘｘＡ動詞、名詞、形容詞ｘｘＡｘ３人称単数動詞ＡＡｘ限定詞好ましい実施例では、ゼロックスパロアルト研究センタ
ーによって提供される辞書が用いられた。この辞書は、
表３に示すように、概略１５０，０００のサーフェスフ
ォームのそれぞれに対してエントリが存在するように編
成されている。辞書を語形状辞書に変換した後、約５
０，０００の別個の語形状トークンが残った。これは、
平均で、各語形状トークンが３つのサーフェスフォーム
のマッピングであることを示唆する。しかしながら、語
形状トークンの約３０，０００は、ユニークである。即
ち、語形状トークンの１／５（５分の１）が単一サーフ
ェスフォームだけに対応する。表３は、変換されたゼロ
ックス辞書の正確な数を示す。

【００１５】

【表３】サーフェスフォーム計数％全体 ────────────────────────────────── 標準辞書１４８，７０３１００．０形状変換された辞書４７，１０２３１．７形状変換されたユニーク２８，９４９１９．５それゆえに、語形状辞書は、標準辞書の約１／３（３分
の１）のサイズである。ある情報は変換処理で失われた
が、大部分の情報は残っている。表３に示すように、語
形状辞書の〜６０％からなる、語形状トークンの〜２０
％は、それらの対応する文字コード化語と全く同じ量の
情報を支持する。ユニーク語形状トークンにマップする
あるサーフェスフォームは、“ＡＡｉＡＡｘｘＡｉｇｉ
ＡＡｘＡ”にマップする、“ｆｌｉｂｂｅｒｔｉｇｉｂ
ｂｅｔ”のように、長くかつ稀であり、多くは、表４に
示すように、短く一般的な語である。

【００１６】

【表４】語サーフェスフォームユニーク語形状トークン ─────────────────────────────── ａｐｐｌｅｘｇｇＡｘａｐｐｌｅｓｘｇｇＡｘｘｔｈｉｇｈＡＡｉｇＡｔｈｉｒｓｔｙＡＡｉｘｘＡｇｌｉｆｅｌｉｋｅＡｉＡｘＡｉＡｘｇａｌａｘｙｇｘＡｘｘｇｐａｙｄａｙｇｘｇＡｘｇｐａｙｄａｙｓｇｘｇＡｘｇｘ明らかに、ユニーク語形状トークンは、それに対応する
サーフェスォームと同じ品詞を有するが、語形状トー
クンは、平均的に、平均サーフェスフォームよりも多く
の品詞を有する傾向にある。この全ては、何らかに形で
タグセットに依存する。一般的に、語形状トークンは、
それらの曖昧分類で１０〜１５の品詞をしばしば有す
る。対照的に、標準文字コード化サーフェスフォーム
は、それらの曖昧分類で４または５の品詞をめったに有
さない。

【００１７】タグセットは、辞書に潜在する。それは、
辞書のあらゆるエントリにリストされた全品詞と同様
に、読点（コンマ）、連字記号（ハイフン）及び文章境
界（例えば、終止符、疑問符または感嘆符）のような、
句読点に対するタグの小さなセットを含む。タグセット
は、明確に規定されないけれども、それは、辞書で見
出された選択されたタグから他の選択されたタグにマッ
ピングすることによって変更されうる。例えば、最初の
ゼロックス辞書は、動詞時制間を識別し、現在形動詞、
過去形動詞、３人称単数動詞等のような、動詞時制、人
称及び数の異なる組合せに対して個別のタグを有する。
好ましいならば、これらの異なる動詞形の全ては、単一
の“動詞”タグにマップされうる。しかしながら、その
ような識別は、タガーがそれらの品詞をユニークに識別
するために異なる時制を有する動詞のサーフェスフォー
ムにおける相違を利用することができるので、一般的に
好ましく維持される。形状変換は、異なるサーフェスフ
ォームを一つの語形状に崩壊させ、異なる曖昧分類を併
合する。結果として、より少ない個別のサーフェスフォ
ームになる傾向にあり、そして各サーフェスフォーム
は、平均して、大きな曖昧分類を有する。もしこの曖昧
が問題となるならば、それを縮小する一つの方法は、タ
グセットの大きさを縮小することでありうる。例えば、
時制、人称、及び数を区別するタグセットよりも、タグ
セットは、一つの分化していない（差別を立てられてい
ない）動詞タグを有しうる。選択すべきより少ない可能
な品詞で、ＨＭＭは、より拘束された品詞選択を見出し
うる。これは、次に、利用可能なタグの一つを選択する
ときにＨＭＭの精度を改善しうる。一般に、タグセット
の適宜な大きさは、抽出されるべき構文情報の量（更な
る情報がより大きなタグセットで利用可能である）によ
って一端で、そして語形状トークンの曖昧分類の大きさ
（より大きなタグセットが更なる曖昧を発生する）によ
って他端で拘束される。それゆえに、辞書に対するタグ
セットの適宜な大きさは、経験的な問題である。好まし
い実施例では、約３０の品詞を有しているタグセットが
用いられた。

【００１８】標準テキストタギングに対するＨＭＭが訓
練のためにテキストの大きなコーパスを要求するよう
に、語形状ＨＭＭは、語形状トークンに変換されたテキ
ストの大きなコーパスを要求する。好ましい実施例で
は、語形状タガーに対するコーパスを生成すべく、語形
状トークンに変換された文字形状コードであった、ＡＳ
ＩＩ（アスキー）テキストの約３．５メガバイトが用い
られた。このコーパスは、口語体から専門家までの、種
々の、異なる書き方(writing styles)、及びカジュアル
から学問的までの、難易レベルからなる。用いられた文
書の例は、ユーモア作家によるエッセイ、新しい政府政
策に対する議案、及び古典文学を含む。一般に、語形状
タガーを訓練する処理は、図７に示すステップを含む。
ステップＳ２０００でスタートした後、ステップＳ２０
１０で、タガーに対して前もって定められたテキスト
が、図３に示す文字形状コードを用いて語形状トークン
にまず変換される。各文章境界は、トークナイザ(token
izer) によっても識別され、そして特別の文章境界トー
クンとして渡される。次に、ステップＳ２０２０で、語
形状トークンのストリームを含んでいる、トークン化さ
れたテキスト(tokenized text)が語形状タガーに入力さ
れる。ステップＳ２０３０では、テキストストリームが
文章に分けられる。語形状タガーは、ステップＳ２０４
０で、辞書の語形状トークンを調べる。これは、各語形
状トークンに曖昧分類を割り当てる。

【００１９】次に、ステップＳ２０５０で、訓練された
ＨＭＭ語形状タガーを作り出すべくボーム−ウェルッシ
ュアルゴリズムが用いられる。この訓練処理は、ステッ
プＳ２０６０で停止する。ステップＳ２０２０で、トー
クナイザは、語形状トークンがサーフェスフォームのセ
ットと一致し、それぞれが品詞タグで注釈を付けられて
いる、辞書まで語形状トークンを通る。各トークンに対
応付けられたタグのセットは、“曖昧分類”を含む。ス
テップＳ２０５０で、語形状タガーは、曖昧分類の長い
シーケンスを入力し、訓練されたＨＭＭ語形状タガーを
作り出すべくボーム−ウェルッシュアルゴリズムを用い
る。一般に、訓練は、関心のあるコーパス上で実行され
る。このコーパスは、ブロードカバレージ(broad cover
age)でありうるし、または形式−特定(genre-specific)
でありうる。一度語形状タガーがステップＳ２０５０で
訓練されると、タギングモードで、語形状タガーは、文
章バウンタリー間の曖昧分類のシーケンスを緩衝する。
これらのシーケンスは、ビタビアルゴリズム(Viterbi a
lgorithm) でＨＭＭを通る最大経路を計算することによ
って明確にされる。文章境界が明確であるので、文章グ
ラニュラリティで作動することは、精度を犠牲にしな
い。それゆえに、出力は、サーフェスフォームとタグの
対からなる。

【００２０】語形状タギングは、次のステップからな
る。第１に、図８に示すように、ステップＳ３０００か
らスタートして、テキストのストリームは、ステップＳ
３０１０で語形状トークンのストリームに分けられる。
次にこのストリームは、ステップＳ３０２０で文章に分
けられる。次に、語形状タガーは、ステップＳ３０３０
で曖昧分類を各語形状トークンに割り当てるべく形状変
換された辞書を用いる。これは、曖昧分類と対になった
語形状トークンを含んでいる文章のストリームを結果と
して生ずる。図４のタグ化品詞に続く数字は、ステップ
Ｓ３０３０で各語形状トークンに割り当てられた曖昧分
類の品詞の数を表わす。次に、ステップＳ３０４０で、
語形状タガーは、その曖昧分類及び先行する語に対する
品詞に基づいて文章の各語形状トークンに対する最高確
率品詞を決定すべく訓練されたＨＭＭを用いる。ステッ
プＳ３０５０で、文章境界により分類された、語形状ト
ークンのストリーム及びそれらの品詞が出力される。処
理は、ステップＳ３０６０で停止する。この処理の結果
として得られた語形状トークンに対する識別された品詞
は、文書解析システムの他の部分を知らせるためにいま
用いることができる。要するに、語形状タガーは、文章
に分類された語形状トークンを受容する。これらの文章
内でテキストタガーは、図４に示すように、各語形状ト
ークンに最も適当な品詞を割り当てる。

【００２１】標準文字コード化タガーに対する語形状タ
ガーの性能を比較すべく、文章において名詞句を認識す
るシステムへの入力を供給するために、標準及び語形状
タガーが用いられた。一つの実験的比較において、二つ
のテキストが用いられた：一つは、標準タガーが非常に
よく機能する；そして一つは、標準タガーが相対的にあ
まりよく機能しない。語形状タガーは、いずれの場合に
もあまりよく機能しなかったが、語形状タガーの全体的
な動作は、同様な成功及び失敗を示すべく標準タガーの
それを追尾した。これらの実験において用いられた特定
のタスクにおいて、簡単な名詞句を見出すことは、語形
状タガーの機能は、標準タガーの機能以下であったが、
語形状タガーは、名詞句のかなりの割合いを識別するこ
とができた。名詞句認識装置に対して、簡単な名詞句
は、簡単な文法を満足しているタグの継続するシーケン
スを含む。この文法において、名詞句は、簡単な代名詞
タグ、名詞及び形容詞タグの任意のシーケンス等であり
うる。名詞及び形容詞シーケンスは、限定詞タグに先行
されうるし、かつ埋め込まれた所有代名詞（所有格）タ
グを含みうる。文書のトピックは、その最も頻繁な名詞
句によってしばしば示される。それゆえに、名詞句を認
識することは、トピック識別において重要な第１のステ
ップである。

【００２２】表５に示すように、タガー誤り率を評価す
るために多数の測定が用いられた。これらの測定は、全
誤り率(percentage of total errors)、自明誤り率(per
centage of trivial errors)、及び致命的誤り率(perce
ntage of pernicious errors) を含む。例えば、形容詞
品詞としてよりも現在分詞品詞として句“ｗｈａｔｔｈ
ｅａｄｖｏｃａｔｅｓａｒｅｆｉｎｄｉｎｇａ
ｌａｒｍｉｎｇ”の語“ａｌａｒｍｉｎｇ”を識別する
ことは、自明誤りの例である。対照的に、致命的誤り
は、名詞を動詞としてまたはその反対にミスタギング(m
istagging)することを一般的に含む。これは、英語に
は、名詞または動詞のどちらでもありうる多くのサーフ
ェスフォームが存在するので、発生する。これらの致命
的誤りは、真の名詞句を曖昧にしうるかまたは擬似の名
詞句を識別しうるので、これら致命的誤りは、簡単な名
詞句を識別するような、下流処理における問題の原因に
なる。標準テキストタガーと語形状タガーは、出力タグ
のストリームにおける一致を計数することによって比較
される。完全なる一致は要求されないけれども、一致と
考慮されるために、タグは、関連する同等分類(relevan
t equivalence class)に属さなければならない。例え
ば、標準タガーが名詞“ｍｏｎｉｔｏｒｓ”を複数名詞
としてラベル付けし、語形状タガーが対応するトークン
化されたフォーム“ｘｘｘｉＡｘｘｘ”を名詞としてラ
ベル付けるときに、これらの両方は、名詞の同等分類に
属する。それゆえに、標準タガーと語形状タガーからの
出力は、一致する。

【００２３】一般に、標準タガーと語形状タガーの出力
ストリームの比較から、出力ストリームが不一致した殆
ど全ての場合は、標準タガーが文字コード化語を正しく
ラベル付けしかつ語形状タガーが対応する語形状トーク
ンをあやまってラベル付けしたときに発生した。より重
要なのは、標準タガーによってなされた殆ど全ての致命
的誤りは、語形状タガーによって繰り返される。これ
は、語形状タガーの能力が標準タガーの性能に近づくこ
とを立証する。標準タガーが非常によく機能する、標準
タガーと語形状タガーの性能を比較することに用いられ
た第１のテキストは、政府文書から抜粋した約４００の
語からなる。表５の第１のラインに示すように、標準タ
ガーは、この第１のテキストをタギングすることにおい
て９５％以上正しく、かつ自明誤りが無視されたときに
は９７％以上正しい。

【００２４】

【表５】標準タガー全体自明致命的その他％誤り ──────────────────────────────── 政府４．６２．０２．３０．５無意味１１．１４．２４．９２．０表６の第１のラインに示されるように、もし完全な一致
だけが考慮されるならば、語形状タガーは、標準タガー
にその場合の５１％一致し、またはあらゆる一致が考慮
されたならばその場合の５９％一致した。

【００２５】

【表６】一致非自明完全％誤り ─────────────────── 政府５９５１無意味４７３８表７の第１のラインに示されるように、標準タガーは、
１１３の簡単な名詞句を識別した。語形状タガーは、標
準タガーによって識別された１１３の名詞句の６８％
（７７）を識別することができた。

【００２６】

【表７】認識した標準語形状名詞句タガータガー ───────────────────────── 政府１１３７７無意味４７１７表５〜表７の第２のラインは、無意味な詩句の１４４語
抜粋から標準タガーと語形状タガーの出力ストリームを
比較したことから発生した結果を示す。表５の第２のラ
インに示すように、標準タガーは、第２のテキストをタ
ギングするときに８９％正しく、また自明誤りを無視し
たときには９５％正しい。表６の第２のラインに示すよ
うに、語形状タガーは、標準タガーに、完全一致だけを
考慮した場合の３８％、不完全一致を考慮した場合の４
７％一致した。表７の第２のラインに示すように、標準
タガーは、４７の簡単な名詞句を識別し、語形状タガー
は、標準タガーによって識別された４７の名詞句の３８
％（１７）だけ識別した。それゆえに、走査しかつテキ
スト画像を文字形状コード化語形状トークンに変換する
ことによって、これらの語形状トークンは、品詞タガー
への有用な入力である。タガーによって識別された品詞
情報は、名詞句認識及びトピック識別を含んでいる、文
書解析の他のフェーズを知らせるために有用である。こ
の非ＯＣＲは、走査されたテキスト画像に包含された情
報の一部（全部ではない）が抽出されるうるような、曖
昧を発生する。それにもかかわらず、抽出可能な情報
は、文書の内容をかなりの精度で識別されるようにさせ
る。加えて、ＯＣＲを回避することによって、システム
のスピードが増大し、かつ計算のオーバーヘッドが縮小
される。

【００２７】

【発明の効果】本発明の非ＯＣＲ文書解析システムは、
走査されたテキスト画像を表わすディジタルデータ流を
出力するスキャナと、ディジタルデータ流を入力しかつ
走査されたテキスト画像の語形状トークンを含んでいる
文字形状コード化表現を出力するトークナイザと、語形
状トークンを入力しかつ各語形状トークンと対の品詞タ
グを出力する語形状タガーとを備えているので、走査さ
れたテキスト画像に包含された情報の一部が抽出される
うるような曖昧を発生して、抽出可能な情報が文書の内
容をかなりの精度で識別し、またシステムのスピードが
増大し、かつ計算のオーバーヘッドを縮小する。更に、
本発明の文書シートのテキスト画像の語の品詞を識別す
る方法は、テキスト画像を電子画像に変換し、電子画像
のライン、語及び文字セルを決定し、文字セルを文字形
状コード化記号に変換し、文字形状コード化記号を文字
形状コード化語形状トークンに分類し、各語形状トーク
ンを、少なくとも一つの品詞タグを含んでいる対応曖昧
分類と対にし、対応曖昧分類に基づいて各語形状トーク
ンに対する最確品詞タグを識別し、語形状トークン及び
対応最確品詞タグを出力する段階を具備するので、走査
されたテキスト画像に包含された情報の一部が抽出され
るうるような曖昧を発生して、抽出可能な情報が文書の
内容をかなりの精度で識別し、またシステムのスピード
が増大し、かつ計算のオーバーヘッドを縮小する。

【図面の簡単な説明】

【図１】文書のテキスト画像を示す図である。

【図２】文字形状コード化語形状トークンに変換された
図１のテキスト画像を示す図である。

【図３】文字形状コードと文字の間の関係を示す図であ
る。

【図４】その品詞タグに対応付けられた各語形状トーク
ンで、図２の文章を示しかつその曖昧分類の総括的サイ
ズを示している、図である。

【図５】品詞タガーを表わすブロック図である。

【図６】辞書変換処理のフローチャートである。

【図７】タガー訓練処理のフローチャートである。

【図８】タギング処理のフローチャートである。

【符号の説明】

２２メモリ２２ａＲＯＭ２２ｂＲＡＭ２４入／出力ポート２６画像メモリ２８連結構成要素ジェネレーター３０空間特徴ロケーター３２文字形状クラシファイヤー３４語形状タガー１１０スキャナ１１２メモリ１１４コントローラ１１６名詞句レコグナイザ１１８文書トピックアイデンティファイヤー

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平４−40853（ＪＰ，Ａ) 特開平１−245375（ＪＰ，Ａ) 特開昭63−223987（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06K 9/00 - 9/76

Claims

(57)【特許請求の範囲】

【請求項１】走査されたテキスト画像を表わすディジ
タルデータ流を出力するスキャナと、前記ディジタルデ
ータ流を入力しかつ前記走査されたテキスト画像の語形
状トークンを含んでいる文字形状コード化表現を出力す
るトークナイザと、前記語形状トークンを入力しかつ各
語形状トークンと対の品詞タグを出力する語形状タガー
とを備えていることを特徴とする非ＯＣＲ文書解析シス
テム。
【請求項２】文書シートのテキスト画像の語の品詞を
識別する方法であって、前記テキスト画像を電子画像に
変換し、前記電子画像のライン、語及び文字セルを決定
し、前記文字セルを文字形状コード化記号に変換し、前
記文字形状コード化記号を文字形状コード化語形状トー
クンに分類し、各語形状トークンを、少なくとも一つの
品詞タグを含んでいる対応曖昧分類と対にし、前記対応
曖昧分類に基づいて各語形状トークンに対する最確品詞
タグを識別し、前記語形状トークン及び前記対応最確品
詞タグを出力する段階を具備することを特徴とする方
法。