JP3492442B2 - 語形状トークンを用いる文書内容特性表示 - Google Patents

語形状トークンを用いる文書内容特性表示

Info

Publication number
JP3492442B2
JP3492442B2 JP06307295A JP6307295A JP3492442B2 JP 3492442 B2 JP3492442 B2 JP 3492442B2 JP 06307295 A JP06307295 A JP 06307295A JP 6307295 A JP6307295 A JP 6307295A JP 3492442 B2 JP3492442 B2 JP 3492442B2
Authority
JP
Japan
Prior art keywords
word shape
word
shape
character
tagger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06307295A
Other languages
English (en)
Other versions
JPH07271904A (ja
Inventor
サイブン ペネロープ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JPH07271904A publication Critical patent/JPH07271904A/ja
Application granted granted Critical
Publication of JP3492442B2 publication Critical patent/JP3492442B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、テキスト画像の非光学
式文字認識(non−OCR)内容特性表示に関する。
本発明は、特に、文字形状コードを用いてテキスト画像
を語形状トークンの記号列に変換しかつ文章毎に基づい
て語形状トークンの推定品詞を決定することに関する。
【0002】
【従来の技術】文書分類、テキストデータベース構造
化、質問に対して文書を適合すること、及びトピック特
性表示のような、達成することが望ましい多くのテキス
ト処理タスクがある。計算言語学の分野は、アスキー
(ASII)のような、文字コードによって表されるテ
キスト文書に対してこれらのタスクを達成するための種
々の技術を開発した。しかしながら、多くの文書は、文
字コードフォーマットでオンラインに記憶されない。そ
れよりも、これらの文書は、紙文書(paper documents)
上のテキスト画像としてだけ存在する。それゆえに、こ
れらの技術をこれらの文書に適用することは、不可能で
なないかもしれないが、難しい。光学式文字認識(OC
R)は、走査した文書画像を文字コードに変換するため
の技術である。OCRを用いて、文書画像は、既存のテ
キスト処理技術に従う形式に変換できる。
【0003】
【発明が解決しようとする課題】しかしながら、OCR
は、高価で、スローでかつしばしば不正確である。これ
らの欠点により、OCRを用いることは、もし可能なら
ば避けか、または文書がOCR処理を保証することがで
きるようになるまで少なくとも延期すべきである。換言
すれば、OCRは、所望の文書特徴を検出するのに十分
感度がよいけれど、それは、十分に高い帯域を有してい
る文書処理システムを提供しない。従って、本発明の目
的は、これらの必要性を満たすべく所望の文書特徴を検
出するのに十分感度がよい高帯域文書処理システムを提
供することである。また、本発明の他の目的は、OCR
に依存しない文書画像から情報を抽出する方法を提供す
ることである。
【0004】
【課題を解決するための手段】上述した本発明の目的
は、走査されたテキスト画像を表わすディジタルデータ
流を出力するスキャナと、ディジタルデータ流を入力し
かつ走査されたテキスト画像の語形状トークンを含んで
いる文字形状コード化表現を出力するトークナイザと、
語形状トークンを入力しかつ各語形状トークンと対の品
詞タグを出力する語形状タガーとを備えている非OCR
文書解析システムによって達成される。上述した本発明
の他の目的は、文書シートのテキスト画像の語の品詞を
識別する方法であって、テキスト画像を電子画像に変換
し、電子画像のライン、語及び文字セルを決定し、文字
セルを文字形状コード化記号に変換し、文字形状コード
化記号を文字形状コード化語形状トークンに分類し、各
語形状トークンを、少なくとも一つの品詞タグを含んで
いる対応曖昧分類と対にし、対応曖昧分類に基づいて各
語形状トークンに対する最確品詞タグを識別し、語形状
トークン及び対応最確品詞タグを出力する段階を具備す
る方法によって達成される。
【0005】
【作用】本発明の第1の実施例では、テキスト文書が走
査されかつ語形状トークンに変換される。語形状トーク
ンは、文字形状コードの語長記号列を含む。文字形状コ
ードは、文字の個別の構成要素の数、及びxハイトライ
ン及びベースライン位置に対する文字の頂部及び底部部
分の関係に基づいて決定される。テキスト画像の語形状
トークンは、語形状トークンによって表される種々の語
の可能な品詞を識別すべくサーフェスフォーム辞書と比
較される。タガーは、文章内の各語形状トークンに対し
て可能な品詞の最高確率品詞を決定する。
【0006】
【実施例】図1、図2及び図5に示すように、文章10
4に分類された複数の語(ワード)106を含んでい
る、テキスト画像(テキストイメージ)102を包含し
ている文書100は、通常の走査システム110を用い
て走査される。走査システム110は、電荷結合素子
(CCD)等を有しているスキャナを含む。走査システ
ム110は、図1に示すような文書を走査しかつ原始文
書100の画像102を含んでいる複数の画素の位置及
び画像密度を表わすディジタルデータ信号を出力する。
一度画像102が走査されると、それは一つ以上のライ
ンに分割される。各ラインは、一つ以上の文字セルに分
割される。各文字セルは、一つ以上の縦方向に位置調整
された連結構成要素を含んでいる。図5に示すように、
スキャナ110からのディジタルデータ信号は、I/O
ポート24を介してコントローラ114にバッファメモ
リ112を通って入力される。ディジタルデータ信号
は、画像メモリ(イメージメモリ)26またはバッファ
メモリ112のいずれかに記憶される。コントローラ
は、連結構成要素ジェネレーター28を用いてテキスト
画像102の連結構成要素を発生する。連結構成要素
は、空間特徴ロケーター30によってライン及び文字セ
ルに分割される。文字セルは、文字形状クラシファイヤ
ー(文字シェープクラシファイヤー)32によって文字
形状コード化文字に変換される。文字形状コード化、ま
たはトークン化、テキスト画像102は、画像メモリ2
6に記憶される。ROM22aは、コントローラ114
に対する制御プログラムを記憶する。ROM22aまた
はRAM22bのいずれかは、語形状タガー(ワードシ
ェープタガー)34に対する関連曖昧分類及び語形状辞
書を記憶できる。トークン化テキスト画像102は、画
像メモリ126から出力されて語形状タガー34に入力
される。語形状タガー34は、トークン化テキスト画像
102の各語形状トークンに対応付けられた最確品詞タ
グを有する、トークン化テキスト画像102を出力す
る。このタグ化テキスト画像102は、バッファメモリ
112、画像メモリ126への、または名詞句レコグナ
イザー116または文書トピックアイデンディファイヤ
ー118のような、下流処理ステーションへの直接的な
出力である。
【0007】即ち、図3に示す文字形状化コーディング
方式に基づいて、文字セルは、文字形状クラシファイヤ
ー(文字シェープクラシファイヤー)32によって文字
形状コード化文字に変換される。語境界(ワードバウン
ダリー)は、維持されるので、これらの文字形状コード
化文字は、語形状トークン(ワードシェープトークン)
に分類される。また文章境界(文章バウンダリー)も維
持されるので、語形状トークンは、文章に分類される。
一般に、走査されたテキスト画像を文字形状化コード語
形状トークンに変換するために、各ラインがまず識別さ
れる。次に、各ラインにおいて、3つのゾーンが識別さ
れる。第1のゾーン、xゾーンは、ベースラインとxハ
イトラインの間の領域である。ベースライン及びxハイ
トラインは、“x”文字形状コードによって表される文
字の、それぞれ、底部エッジ及び頂部エッジを識別す
る。次に、昇順ゾーンは、xゾーンの上の領域であり、
降順ゾーンは、xゾーンの下の領域である。テキストラ
インは、水平方向に分離した連結構成要素を描く垂直境
界を識別することによって文字セルに更に分割される。
それゆえに、ラインの縦方向に位置調整された連結構成
要素は、一つの文字セルに分類される。
【0008】文字の主なものは、図3に示すように、少
数の個別の文字形状コードに変換される。図3に示すよ
うに、xゾーンに完全に包含される単一の連結構成要素
だけを有しているあらゆる文字セルは、“x”文字形状
コードにマップされる。同様に、昇順ゾーンに延伸する
単一の連結構成要素を有しているあらゆる文字セルは、
“A”文字形状コードにマップされ、降順ゾーンに延伸
する単一の連結構成要素を有しているあらゆる文字セル
は、“g”文字形状コードにマップされる。同様に、降
順ゾーンに延伸しない二つの連結構成要素を有している
あらゆる文字セルは、“i”文字形状コードにマップさ
れ、降順ゾーンに延伸する二つの連結構成要素を有して
いるあらゆる文字セルは、“j”文字形状コードにマッ
プされる。加えて、語間の空間は、“空間”文字形状コ
ードによって識別されて、文字形状コードのグルーピイ
ングが語形状トークンに組合せられうる。同様に、“復
帰”文字形状コードは、各ラインの終わりを識別する。
種々の句読記号もそれら自体の文字形状コードにマップ
される;これらは、文章境界を示す“,”、“−”、及
び“.”を含む。一般に、文書処理に対するこのアプロ
ーチは、テキスト画像から文字コード化表示へのマッピ
ングに固有な問題を巧みに避ける。代わりに、テキスト
画像は、形状に基づく表現(shape-based representatio
n)にマップされる。この技術は、それゆえに、劣化した
画像でさえも文書のテキストについての有用な要約を供
給する表現に変形できる。勿論、既に文字コード化表現
である、電気的に記憶された、オンラインテキスト文書
に対して、文書の文字形状コード化バージョンは、生成
することがトリビアル(trivial) である。
【0009】それゆえに、テキストタギング(text tagg
ing)の目的に対し、語形状トークン表現は、実際の語で
構成された表現の近似であると考えられうる。語と語形
状トークンの間の関係は、文字形状コーディング方式を
用いる語からその対応している語形状トークンへのマッ
ピングとして考えられうる。例えば、語“apple”
は、語形状トークン“xggAx”にマップし、語“a
pples”は、語形状トークン“xggAxx”にマ
ップする。文書では、語は、形態システムとしてよりも
サーフェスフォームとして存在する。それゆえに、“a
pple”及び“apples”は、同じ語の異なる形
であるよりも、ことなる語である。それゆえに、あらゆ
る使用可能な辞書は、語幹や接尾辞により編成されるよ
りも“apple”及び“apples”のようなサー
フェスフォームで構成されていなければならない。従っ
て、このアプリケーションの目的に対し、“words
(語)”は、サーフェスフォームを意味する。品詞タガ
ー(part-of-speech tagger) は、名詞、動詞、形容詞、
等のような品詞を語形状トークンに割り当てるべくコン
テキストを使用するシステムである。品詞情報を識別す
ることは、テキストの名詞句や他のパターンを認識する
ことのような、より高いレベルの解析を容易にする。
【0010】テキストタガーを構築するために複数の異
なるアプローチが用いられている。マルコフモデルの特
定の形式が広く用いられている。このマルコフモデル
は、語は、二つの先行する語の品詞カテゴリーにのみ依
存する、その品詞カテゴリーに確率的に依存するという
ことを想定する。モデルを訓練することは、大きなタグ
化コーパス(tagged corpus) によりときどき行われる
が、しかしこれは必要ではない。前進−後退アルゴリズ
ム(Forward-Backward algorithm)としても知られてい
る、ボーム−ウェルッシュアルゴリズム(Baum-Welch al
gorithm)を用いることができる。この場合には、モデル
は、状態遷移(即ち、品詞カテゴリー)が観察不可であ
ると想定されるので、隠れマルコフモデル(hidden Mark
ov Model: HMM) と称される。テキストタガーの好ま
しい実施例では、ゼロックス・パロアルト研究センター
から一般的に入手可能な、HMMに基づくテキストタガ
ーが用いられる。Cutting et al., “A Practical Part
-Of-Speech Tagger ”, Proceedings of the Third Con
ference on Applied Natural Language Processing(AC
L), pp. 133-140,Trento, Italy, 1992 (Report SSL-92
-01/P92-00001,Xerox Palo Alto ResearchCenter, 199
2)に記載されているゼロックスタガーは、特に効率的で
かつより柔軟である。特に、このテキストタガーは、あ
らゆる辞書(lexicon) を用いて、テキストのあらゆるコ
ーパス上で訓練することができる。この柔軟性は、訓練
しているコーパス及び辞書を、タガー自体を変更するこ
となく、文字形状コーディング方式を用いて、語から語
形状トークンに変換された形状であるようにさせる。
【0011】語形状辞書は、語の標準辞書から導出され
うる。標準テキストタガーと共に用いる辞書は、言語に
おいて遭遇するであろう別個のサーフェスフォームの全
てのリストを包含する。各サーフェスフォームに対応付
けられているのは、サーフェスフォームが有しうる可能
な品詞のリストである。例えば、表1に示すように、サ
ーフェスフォーム“apple”は、“名詞”品詞に、
サーフェスフォーム“apples”は、“複数名詞”
に、サーフェスフォーム“eat”は、“動詞”に、サ
ーフェスフォーム“eats”は、“3人称単数動詞”
に、サーフェスフォーム“red”は、“名詞”及び
“形容詞”に、そしてサーフェスフォーム“the”
は、“限定詞”にそれぞれ対応付けられる。
【0012】
【表1】 語 品詞 ──────────────────────── apple 名詞 eats 3人称単数動詞 red 名詞、形容詞 the 限定詞 サーフェスフォーム及び対応する品詞からなる辞書が一
度形成されると、それは、語形状トークンの辞書を形成
すべく用いられうる。特に、図6に示すように、ステッ
プS1000でスタートした後、辞書は、ステップS1
010で、サーフェスフォームから対応する語形状トー
クンへ変換することによって、語形状辞書に変換され
る。次に、ステップS1020で、辞書は、全てのデュ
プリケート語形状トークンを辞書の単一エントリに分類
すべくサーフェスフォーム語形状によってソート(sort)
される。次に、ステップS1030において、同一の語
形状トークンに対する全ての種々の品詞は、単一語形状
トークンエントリに対応付けられ、デュプリケート品詞
エントリは、“曖昧分類(ambiguity class) ”を形成す
べく削除される。変換処理は、ステップS1040で停
止する。それゆえに、辞書の各語形状トークンは、ユニ
ーク(unique)であるべきであり、かつ各品詞は、各語形
状トークンに対応付けられた各曖昧分類内でユニークで
あるべきである。
【0013】それゆえに、表1及び表2に示す辞書か
ら、語形状トークン“xggAx”(apple)は、
その曖昧分類として品詞“名詞”を有する。同様に、語
形状トークン“xggAxx”(apples)は、そ
の曖昧分類として“複数名詞”を有し、語形状トークン
“xxA”(eat,red)は、その曖昧分類として
“動詞、名詞、形容詞”を有する。表1の辞書の結果と
して得られる変換語形状辞書を表2に示す。
【0014】
【表2】 語形状トークン 曖昧分類 ──────────────────────────── xggAx 名詞 xggAxx 複数名詞 xxA 動詞、名詞、形容詞 xxAx 3人称単数動詞 AAx 限定詞 好ましい実施例では、ゼロックスパロアルト研究センタ
ーによって提供される辞書が用いられた。この辞書は、
表3に示すように、概略150,000のサーフェスフ
ォームのそれぞれに対してエントリが存在するように編
成されている。辞書を語形状辞書に変換した後、約5
0,000の別個の語形状トークンが残った。これは、
平均で、各語形状トークンが3つのサーフェスフォーム
のマッピングであることを示唆する。しかしながら、語
形状トークンの約30,000は、ユニークである。即
ち、語形状トークンの1/5(5分の1)が単一サーフ
ェスフォームだけに対応する。表3は、変換されたゼロ
ックス辞書の正確な数を示す。
【0015】
【表3】 サーフェスフォーム 計数 %全体 ────────────────────────────────── 標準辞書 148,703 100.0 形状変換された辞書 47,102 31.7 形状変換されたユニーク 28,949 19.5 それゆえに、語形状辞書は、標準辞書の約1/3(3分
の1)のサイズである。ある情報は変換処理で失われた
が、大部分の情報は残っている。表3に示すように、語
形状辞書の〜60%からなる、語形状トークンの〜20
%は、それらの対応する文字コード化語と全く同じ量の
情報を支持する。ユニーク語形状トークンにマップする
あるサーフェスフォームは、“AAiAAxxAigi
AAxA”にマップする、“flibbertigib
bet”のように、長くかつ稀であり、多くは、表4に
示すように、短く一般的な語である。
【0016】
【表4】 語サーフェスフォーム ユニーク語形状トークン ─────────────────────────────── apple xggAx apples xggAxx thigh AAigA thirsty AAixxAg lifelike AiAxAiAx galaxy gxAxxg payday gxgAxg paydays gxgAxgx 明らかに、ユニーク語形状トークンは、それに対応する
サーフェス ォームと同じ品詞を有するが、語形状トー
クンは、平均的に、平均サーフェスフォームよりも多く
の品詞を有する傾向にある。この全ては、何らかに形で
タグセットに依存する。一般的に、語形状トークンは、
それらの曖昧分類で10〜15の品詞をしばしば有す
る。対照的に、標準文字コード化サーフェスフォーム
は、それらの曖昧分類で4または5の品詞をめったに有
さない。
【0017】タグセットは、辞書に潜在する。それは、
辞書のあらゆるエントリにリストされた全品詞と同様
に、読点(コンマ)、連字記号(ハイフン)及び文章境
界(例えば、終止符、疑問符または感嘆符)のような、
句読点に対するタグの小さなセットを含む。タグセット
は、明確に規定されないけれども、それは、 辞書で見
出された選択されたタグから他の選択されたタグにマッ
ピングすることによって変更されうる。例えば、最初の
ゼロックス辞書は、動詞時制間を識別し、現在形動詞、
過去形動詞、3人称単数動詞等のような、動詞時制、人
称及び数の異なる組合せに対して個別のタグを有する。
好ましいならば、これらの異なる動詞形の全ては、単一
の“動詞”タグにマップされうる。しかしながら、その
ような識別は、タガーがそれらの品詞をユニークに識別
するために異なる時制を有する動詞のサーフェスフォー
ムにおける相違を利用することができるので、一般的に
好ましく維持される。形状変換は、異なるサーフェスフ
ォームを一つの語形状に崩壊させ、異なる曖昧分類を併
合する。結果として、より少ない個別のサーフェスフォ
ームになる傾向にあり、そして各サーフェスフォーム
は、平均して、大きな曖昧分類を有する。もしこの曖昧
が問題となるならば、それを縮小する一つの方法は、タ
グセットの大きさを縮小することでありうる。例えば、
時制、人称、及び数を区別するタグセットよりも、タグ
セットは、一つの分化していない(差別を立てられてい
ない)動詞タグを有しうる。選択すべきより少ない可能
な品詞で、HMMは、より拘束された品詞選択を見出し
うる。これは、次に、利用可能なタグの一つを選択する
ときにHMMの精度を改善しうる。一般に、タグセット
の適宜な大きさは、抽出されるべき構文情報の量(更な
る情報がより大きなタグセットで利用可能である)によ
って一端で、そして語形状トークンの曖昧分類の大きさ
(より大きなタグセットが更なる曖昧を発生する)によ
って他端で拘束される。それゆえに、辞書に対するタグ
セットの適宜な大きさは、経験的な問題である。好まし
い実施例では、約30の品詞を有しているタグセットが
用いられた。
【0018】標準テキストタギングに対するHMMが訓
練のためにテキストの大きなコーパスを要求するよう
に、語形状HMMは、語形状トークンに変換されたテキ
ストの大きなコーパスを要求する。好ましい実施例で
は、語形状タガーに対するコーパスを生成すべく、語形
状トークンに変換された文字形状コードであった、AS
II(アスキー)テキストの約3.5メガバイトが用い
られた。このコーパスは、口語体から専門家までの、種
々の、異なる書き方(writing styles)、及びカジュアル
から学問的までの、難易レベルからなる。用いられた文
書の例は、ユーモア作家によるエッセイ、新しい政府政
策に対する議案、及び古典文学を含む。一般に、語形状
タガーを訓練する処理は、図7に示すステップを含む。
ステップS2000でスタートした後、ステップS20
10で、タガーに対して前もって定められたテキスト
が、図3に示す文字形状コードを用いて語形状トークン
にまず変換される。各文章境界は、トークナイザ(token
izer) によっても識別され、そして特別の文章境界トー
クンとして渡される。次に、ステップS2020で、語
形状トークンのストリームを含んでいる、トークン化さ
れたテキスト(tokenized text)が語形状タガーに入力さ
れる。ステップS2030では、テキストストリームが
文章に分けられる。語形状タガーは、ステップS204
0で、辞書の語形状トークンを調べる。これは、各語形
状トークンに曖昧分類を割り当てる。
【0019】次に、ステップS2050で、訓練された
HMM語形状タガーを作り出すべくボーム−ウェルッシ
ュアルゴリズムが用いられる。この訓練処理は、ステッ
プS2060で停止する。ステップS2020で、トー
クナイザは、語形状トークンがサーフェスフォームのセ
ットと一致し、それぞれが品詞タグで注釈を付けられて
いる、辞書まで語形状トークンを通る。各トークンに対
応付けられたタグのセットは、“曖昧分類”を含む。ス
テップS2050で、語形状タガーは、曖昧分類の長い
シーケンスを入力し、訓練されたHMM語形状タガーを
作り出すべくボーム−ウェルッシュアルゴリズムを用い
る。一般に、訓練は、関心のあるコーパス上で実行され
る。このコーパスは、ブロードカバレージ(broad cover
age)でありうるし、または形式−特定(genre-specific)
でありうる。一度語形状タガーがステップS2050で
訓練されると、タギングモードで、語形状タガーは、文
章バウンタリー間の曖昧分類のシーケンスを緩衝する。
これらのシーケンスは、ビタビアルゴリズム(Viterbi a
lgorithm) でHMMを通る最大経路を計算することによ
って明確にされる。文章境界が明確であるので、文章グ
ラニュラリティで作動することは、精度を犠牲にしな
い。それゆえに、出力は、サーフェスフォームとタグの
対からなる。
【0020】語形状タギングは、次のステップからな
る。第1に、図8に示すように、ステップS3000か
らスタートして、テキストのストリームは、ステップS
3010で語形状トークンのストリームに分けられる。
次にこのストリームは、ステップS3020で文章に分
けられる。次に、語形状タガーは、ステップS3030
で曖昧分類を各語形状トークンに割り当てるべく形状変
換された辞書を用いる。これは、曖昧分類と対になった
語形状トークンを含んでいる文章のストリームを結果と
して生ずる。図4のタグ化品詞に続く数字は、ステップ
S3030で各語形状トークンに割り当てられた曖昧分
類の品詞の数を表わす。次に、ステップS3040で、
語形状タガーは、その曖昧分類及び先行する語に対する
品詞に基づいて文章の各語形状トークンに対する最高確
率品詞を決定すべく訓練されたHMMを用いる。ステッ
プS3050で、文章境界により分類された、語形状ト
ークンのストリーム及びそれらの品詞が出力される。処
理は、ステップS3060で停止する。この処理の結果
として得られた語形状トークンに対する識別された品詞
は、文書解析システムの他の部分を知らせるためにいま
用いることができる。要するに、語形状タガーは、文章
に分類された語形状トークンを受容する。これらの文章
内でテキストタガーは、図4に示すように、各語形状ト
ークンに最も適当な品詞を割り当てる。
【0021】標準文字コード化タガーに対する語形状タ
ガーの性能を比較すべく、文章において名詞句を認識す
るシステムへの入力を供給するために、標準及び語形状
タガーが用いられた。一つの実験的比較において、二つ
のテキストが用いられた:一つは、標準タガーが非常に
よく機能する;そして一つは、標準タガーが相対的にあ
まりよく機能しない。語形状タガーは、いずれの場合に
もあまりよく機能しなかったが、語形状タガーの全体的
な動作は、同様な成功及び失敗を示すべく標準タガーの
それを追尾した。これらの実験において用いられた特定
のタスクにおいて、簡単な名詞句を見出すことは、語形
状タガーの機能は、標準タガーの機能以下であったが、
語形状タガーは、名詞句のかなりの割合いを識別するこ
とができた。名詞句認識装置に対して、簡単な名詞句
は、簡単な文法を満足しているタグの継続するシーケン
スを含む。この文法において、名詞句は、簡単な代名詞
タグ、名詞及び形容詞タグの任意のシーケンス等であり
うる。名詞及び形容詞シーケンスは、限定詞タグに先行
されうるし、かつ埋め込まれた所有代名詞(所有格)タ
グを含みうる。文書のトピックは、その最も頻繁な名詞
句によってしばしば示される。それゆえに、名詞句を認
識することは、トピック識別において重要な第1のステ
ップである。
【0022】表5に示すように、タガー誤り率を評価す
るために多数の測定が用いられた。これらの測定は、全
誤り率(percentage of total errors)、自明誤り率(per
centage of trivial errors)、及び致命的誤り率(perce
ntage of pernicious errors) を含む。例えば、形容詞
品詞としてよりも現在分詞品詞として句“whatth
e advocates are finding a
larming”の語“alarming”を識別する
ことは、自明誤りの例である。対照的に、致命的誤り
は、名詞を動詞としてまたはその反対にミスタギング(m
istagging)することを一般的に含む。これは、英語に
は、名詞または動詞のどちらでもありうる多くのサーフ
ェスフォームが存在するので、発生する。これらの致命
的誤りは、真の名詞句を曖昧にしうるかまたは擬似の名
詞句を識別しうるので、これら致命的誤りは、簡単な名
詞句を識別するような、下流処理における問題の原因に
なる。標準テキストタガーと語形状タガーは、出力タグ
のストリームにおける一致を計数することによって比較
される。完全なる一致は要求されないけれども、一致と
考慮されるために、タグは、関連する同等分類(relevan
t equivalence class)に属さなければならない。例え
ば、標準タガーが名詞“monitors”を複数名詞
としてラベル付けし、語形状タガーが対応するトークン
化されたフォーム“xxxiAxxx”を名詞としてラ
ベル付けるときに、これらの両方は、名詞の同等分類に
属する。それゆえに、標準タガーと語形状タガーからの
出力は、一致する。
【0023】一般に、標準タガーと語形状タガーの出力
ストリームの比較から、出力ストリームが不一致した殆
ど全ての場合は、標準タガーが文字コード化語を正しく
ラベル付けしかつ語形状タガーが対応する語形状トーク
ンをあやまってラベル付けしたときに発生した。より重
要なのは、標準タガーによってなされた殆ど全ての致命
的誤りは、語形状タガーによって繰り返される。これ
は、語形状タガーの能力が標準タガーの性能に近づくこ
とを立証する。標準タガーが非常によく機能する、標準
タガーと語形状タガーの性能を比較することに用いられ
た第1のテキストは、政府文書から抜粋した約400の
語からなる。表5の第1のラインに示すように、標準タ
ガーは、この第1のテキストをタギングすることにおい
て95%以上正しく、かつ自明誤りが無視されたときに
は97%以上正しい。
【0024】
【表5】 標準タガー 全体 自明 致命的 その他 %誤り ──────────────────────────────── 政府 4.6 2.0 2.3 0.5 無意味 11.1 4.2 4.9 2.0 表6の第1のラインに示されるように、もし完全な一致
だけが考慮されるならば、語形状タガーは、標準タガー
にその場合の51%一致し、またはあらゆる一致が考慮
されたならばその場合の59%一致した。
【0025】
【表6】 一致 非自明 完全 %誤り ─────────────────── 政府 59 51 無意味 47 38 表7の第1のラインに示されるように、標準タガーは、
113の簡単な名詞句を識別した。語形状タガーは、標
準タガーによって識別された113の名詞句の68%
(77)を識別することができた。
【0026】
【表7】 認識した 標準 語形状 名詞句 タガー タガー ───────────────────────── 政府 113 77 無意味 47 17 表5〜表7の第2のラインは、無意味な詩句の144語
抜粋から標準タガーと語形状タガーの出力ストリームを
比較したことから発生した結果を示す。表5の第2のラ
インに示すように、標準タガーは、第2のテキストをタ
ギングするときに89%正しく、また自明誤りを無視し
たときには95%正しい。表6の第2のラインに示すよ
うに、語形状タガーは、標準タガーに、完全一致だけを
考慮した場合の38%、不完全一致を考慮した場合の4
7%一致した。表7の第2のラインに示すように、標準
タガーは、47の簡単な名詞句を識別し、語形状タガー
は、標準タガーによって識別された47の名詞句の38
%(17)だけ識別した。それゆえに、走査しかつテキ
スト画像を文字形状コード化語形状トークンに変換する
ことによって、これらの語形状トークンは、品詞タガー
への有用な入力である。タガーによって識別された品詞
情報は、名詞句認識及びトピック識別を含んでいる、文
書解析の他のフェーズを知らせるために有用である。こ
の非OCRは、走査されたテキスト画像に包含された情
報の一部(全部ではない)が抽出されるうるような、曖
昧を発生する。それにもかかわらず、抽出可能な情報
は、文書の内容をかなりの精度で識別されるようにさせ
る。加えて、OCRを回避することによって、システム
のスピードが増大し、かつ計算のオーバーヘッドが縮小
される。
【0027】
【発明の効果】本発明の非OCR文書解析システムは、
走査されたテキスト画像を表わすディジタルデータ流を
出力するスキャナと、ディジタルデータ流を入力しかつ
走査されたテキスト画像の語形状トークンを含んでいる
文字形状コード化表現を出力するトークナイザと、語形
状トークンを入力しかつ各語形状トークンと対の品詞タ
グを出力する語形状タガーとを備えているので、走査さ
れたテキスト画像に包含された情報の一部が抽出される
うるような曖昧を発生して、抽出可能な情報が文書の内
容をかなりの精度で識別し、またシステムのスピードが
増大し、かつ計算のオーバーヘッドを縮小する。更に、
本発明の文書シートのテキスト画像の語の品詞を識別す
る方法は、テキスト画像を電子画像に変換し、電子画像
のライン、語及び文字セルを決定し、文字セルを文字形
状コード化記号に変換し、文字形状コード化記号を文字
形状コード化語形状トークンに分類し、各語形状トーク
ンを、少なくとも一つの品詞タグを含んでいる対応曖昧
分類と対にし、対応曖昧分類に基づいて各語形状トーク
ンに対する最確品詞タグを識別し、語形状トークン及び
対応最確品詞タグを出力する段階を具備するので、走査
されたテキスト画像に包含された情報の一部が抽出され
るうるような曖昧を発生して、抽出可能な情報が文書の
内容をかなりの精度で識別し、またシステムのスピード
が増大し、かつ計算のオーバーヘッドを縮小する。
【図面の簡単な説明】
【図1】文書のテキスト画像を示す図である。
【図2】文字形状コード化語形状トークンに変換された
図1のテキスト画像を示す図である。
【図3】文字形状コードと文字の間の関係を示す図であ
る。
【図4】その品詞タグに対応付けられた各語形状トーク
ンで、図2の文章を示しかつその曖昧分類の総括的サイ
ズを示している、図である。
【図5】品詞タガーを表わすブロック図である。
【図6】辞書変換処理のフローチャートである。
【図7】タガー訓練処理のフローチャートである。
【図8】タギング処理のフローチャートである。
【符号の説明】
22 メモリ 22a ROM 22b RAM 24 入/出力ポート 26 画像メモリ 28 連結構成要素ジェネレーター 30 空間特徴ロケーター 32 文字形状クラシファイヤー 34 語形状タガー 110 スキャナ 112 メモリ 114 コントローラ 116 名詞句レコグナイザ 118 文書トピックアイデンティファイヤー
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−40853(JP,A) 特開 平1−245375(JP,A) 特開 昭63−223987(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/76

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 走査されたテキスト画像を表わすディジ
    タルデータ流を出力するスキャナと、前記ディジタルデ
    ータ流を入力しかつ前記走査されたテキスト画像の語形
    状トークンを含んでいる文字形状コード化表現を出力す
    るトークナイザと、前記語形状トークンを入力しかつ各
    語形状トークンと対の品詞タグを出力する語形状タガー
    とを備えていることを特徴とする非OCR文書解析シス
    テム。
  2. 【請求項2】 文書シートのテキスト画像の語の品詞を
    識別する方法であって、前記テキスト画像を電子画像に
    変換し、前記電子画像のライン、語及び文字セルを決定
    し、前記文字セルを文字形状コード化記号に変換し、前
    記文字形状コード化記号を文字形状コード化語形状トー
    クンに分類し、各語形状トークンを、少なくとも一つの
    品詞タグを含んでいる対応曖昧分類と対にし、前記対応
    曖昧分類に基づいて各語形状トークンに対する最確品詞
    タグを識別し、前記語形状トークン及び前記対応最確品
    詞タグを出力する段階を具備することを特徴とする方
    法。
JP06307295A 1994-03-31 1995-03-22 語形状トークンを用いる文書内容特性表示 Expired - Fee Related JP3492442B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US22092594A 1994-03-31 1994-03-31
US08/220925 1994-03-31

Publications (2)

Publication Number Publication Date
JPH07271904A JPH07271904A (ja) 1995-10-20
JP3492442B2 true JP3492442B2 (ja) 2004-02-03

Family

ID=22825584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06307295A Expired - Fee Related JP3492442B2 (ja) 1994-03-31 1995-03-22 語形状トークンを用いる文書内容特性表示

Country Status (1)

Country Link
JP (1) JP3492442B2 (ja)

Also Published As

Publication number Publication date
JPH07271904A (ja) 1995-10-20

Similar Documents

Publication Publication Date Title
Mao et al. Document structure analysis algorithms: a literature survey
Kukich Techniques for automatically correcting words in text
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
Amin Off line Arabic character recognition: a survey
Lu et al. Information retrieval in document image databases
Chang A new approach for automatic Chinese spelling correction
Dengel et al. OFFICEMAID a system for office mail analysis, interpretation and delivery
CN112231537A (zh) 基于深度学习和网络爬虫的智能阅读系统
US6360010B1 (en) E-mail signature block segmentation
Srihari et al. Incorporating syntactic constraints in recognizing handwritten sentences
Bayer et al. Information extraction from paper documents
Chen et al. Integrating geometrical and linguistic analysis for email signature block parsing
Srihari et al. Combining statistical and syntactic methods in recognizing handwritten sentences
CN113836941B (zh) 一种合同导航方法及装置
JP3492442B2 (ja) 語形状トークンを用いる文書内容特性表示
Pal On the developement of an optical character recognition (ocr) system for printed bangla script
Srihari et al. Document understanding: Research directions
Reul et al. Automatic Semantic Text Tagging on Historical Lexica by Combining OCR and Typography Classification: A Case Study on Daniel Sander's Wörterbuch der Deutschen Sprache
Jaruskulchai An automatic indexing for Thai text retrieval
Srihari From pixels to paragraphs: the use of contextual models in text recognition
KR20000035325A (ko) 문서 인식 장치 및 우편 구분기
Mao et al. Stochastic language models for automatic acquisition of lexicons from printed bilingual dictionaries
Mon Spell checker for Myanmar language
Taylor et al. Integrating natural language understanding with document structure analysis
Rathnasena et al. Summarization based approach for old sinhala text archival search and preservation

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20031006

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071114

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081114

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091114

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees