JP2570784B2 - 文書リーダ後処理装置 - Google Patents

文書リーダ後処理装置

Info

Publication number
JP2570784B2
JP2570784B2 JP63007709A JP770988A JP2570784B2 JP 2570784 B2 JP2570784 B2 JP 2570784B2 JP 63007709 A JP63007709 A JP 63007709A JP 770988 A JP770988 A JP 770988A JP 2570784 B2 JP2570784 B2 JP 2570784B2
Authority
JP
Japan
Prior art keywords
character
word
candidate
words
post
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63007709A
Other languages
English (en)
Other versions
JPH01183795A (ja
Inventor
哲康 高尾
文人 西野
裕士 内田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63007709A priority Critical patent/JP2570784B2/ja
Publication of JPH01183795A publication Critical patent/JPH01183795A/ja
Application granted granted Critical
Publication of JP2570784B2 publication Critical patent/JP2570784B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔概 要〕 日本語文章を対象とした文書を読み取り機械可読な形
式に変換する文書リーダの後処理装置に関し、 単語辞書検索の回数を削減して処理速度を向上するこ
とを目的とし、 文書リーダの文字認識装置から出力される候補文字表
から、単語情報、文法情報、文脈情報、関連語情報等を
利用して、文字認識装置では一意に確定できなかった文
字を一意に確定させる後処理装置において、候補文字表
の文字を組み合わせてできる単語と、単語表記、品詞情
報等の単語情報を格納する単語辞書との照合を行う単語
照合部に、入力された候補文字表の全文字についてその
文字で始まる単語の全てを単語辞書から1回の辞書引き
で検索する辞書検索手段と、検索された単語について単
語の全ての文字が候補文字表にあるもののみを選別する
単語選別手段を備えるよう構成する。
〔産業上の利用分野〕
本発明は文書読取り認識装置(文書リーダ装置)に係
わり、特に日本語文章を対象とした文書リーダ後処理装
置に関する。
文書リーダ装置は、人間に可読な文字の形式で書かれ
た大量の印刷物、出版物、書類、手書き文書等を機械可
読の形式に変換する装置として需要が高まっている。こ
の装置は処理する文書量にもよるが、できるかぎり高速
な処理が望まれる。
文書リーダ後処理装置は、文書リーダの文字認識装置
から出力される候補文字列から単語情報、文法情報、文
脈情報、関連後情報等を利用して文字認識装置では一意
に確定できなかった文字を一意に確定させる機能を持
つ。本発明は、文書リーダ後処理装置で利用する各種情
報のうち単語情報を利用する際に必要な単語辞書との照
合を高速に行う文書リーダ後処理装置に関する。
〔従来の技術〕
従来の文書リーダ後処理装置における単語照合は、文
字認識装置から得られる候補文字を組み合わせて作られ
る単語のすべてについて単語辞書との照合を行い、単語
辞書中に存在するかどうかをチェックするものであっ
た。
〔発明が解決しようとする課題〕
文書リーダ後処理装置においては、文字認識装置から
得られた候補文字を組み合わせてできる単語は単語辞書
との照合を行うが、この際、文字認識装置から得られる
候補文字は通常、一位候補、二位候補、…、n位候補
(nは任意の正整数)のように複数であることが多い。
候補文字を単純に組み合わせてできる単語数は以下のよ
うになる。ここで、kは単語の文字数である。
n1+n2+・・・+nk しかし、kに無限に大きな数値までとらせることは実
際上は不可能であるから、一般には文字種(ひらがな、
カタカナ、記号、数式、漢字)の切れ目が単語の区切り
になることが多いという経験に基づいて最大のkの値を
単語候補を決定する時に決定している。
例えば、第6図に示すように、上記の区切りにより漢
字6文字が決定され、各文字についてそれぞれ四つの候
補が得られた時、従来はその全ての組み合わせについて
単語辞書にあるか否かを辞書引きしていた。即ち、1文
字の単語として、価、廊、晒、版があるかどうか、2文
字の単語として価格、価柏、価捲、価椅、廊格、廊柏、
・・があるかどうか、3文字の単語として価格対、価格
柏、価格捲、価格椅、価柏対、・・・があるかどうか、
4文字の単語として価格対性、価格対住、・・・がある
かどうか、5文字の単語として価格対性熊、価格対性
能、・・・があるかどうか、6文字の単語として価格対
性熊比、価格対性熊此、・・・があるかどうかを一々検
索する。その回数は、 41+42+43+44+45+46=5460 となる。
このように、単語の最大文字数が多く、候補文字数が
多いと組み合わせてできる単語数は増大して、後処理の
スループットが悪くなるという問題があった。
また、前述の文字種の切れ目が単語の区切りになるこ
とが多いという経験にも、例えば「ろ過」、「お手伝
い」、「A級」のように、例外が存在するため、このよ
うな場合には、単語照合そのものがうまくいかない場合
があるという問題があった。
本発明が解決しようとする課題は、このような従来の
問題点を解決した文書リーダ後処理における辞書引き方
式を提供することにある。
〔課題を解決するための手段〕
第1図は、本発明の文書リーダ後処理における辞書引
き方式の原理ブロック図を示す。
図において、11は単語照合部であり、入力された候補
文字表の文字を組み合わせてできる単語と単語辞書との
照合を行う。
12は単語辞書であり、単語表記、品詞情報、他単語と
の接続情報等の単語情報を格納する。
111は辞書検索手段であり、入力された候補文字表の
全文字についてその文字で始まる単語の全てを単語辞書
12から1回の辞書引きで検索する。
112は単語選別手段であり、検索された単語について
単語の全ての文字が候補文字表にあるもののみを選別す
る。
〔作 用〕
本発明の構成によれば、文字候補から始まるすべての
単語を一度の辞書引きで検索し、単語辞書へのアクセス
を減らす。単語辞書は、辞書順にソートされているの
で、同じ先頭文字で始まる単語は、辞書の内部では1個
所にまとまって存在するので、検索対象の辞書が二次記
憶(磁気ディスク装置等)上にあっても、従来の方法に
比べて入出力の回数を大幅に減らすことができる。
これによって、後処理の単語照合にかかる処理量およ
び時間を大幅に減らすことができる。
〔実施例〕
以下第2図〜第5図に示す実施例により、本発明をさ
らに具体的に説明する。
第2図は、本発明の一実施例のシステム構成として、
文書リーダ装置の構成を示す。
図において、6は一般印刷文書や手書き文書を画像イ
メージで読み込むイメージスキャナである。
5は文字ブロック切り出し装置であり、イメージスキ
ャナ6から得られた画像から文章が書かれている文字ブ
ロックを切り出す。
4は行切り出し装置であり、文字ブロックから行ブロ
ックを切り出す。
3は文字切り出し装置であり、行ブロックから文字を
1文字単位に切り出す。
2は文字認識装置であり、文字認識を行い、各文字に
対応して候補文字群を各候補ごとに距離値(重み付けの
ための量で値が小さいものほど正解に近いと判断した)
を付け、一位候補、二位候補、・・・、n位候補(nは
任意の数値)として出力する。
1は本発明の辞書引き方式を持つ文書リーダ後処理装
置であり、文字認識装置2から得られた候補文字列から
正解と思われる文字を決定する。
第3図は、本発明の一実施例の文書リーダ後処理装置
の構成を示す図である。
図において、16は文字認識装置2の出力する候補文字
列を入力し、文書リーダ後処理本体15の作業領域に格納
する。これを候補文字表と呼ぶ。
15は後処理本体であり、後処理の機能の主制御部であ
る。
17は後処理装置の後処理部であり、後処理本体15で確
定できなかった単語についての後処理等を行う。
11は本発明の辞書引き方式を採用した単語照合部であ
り、候補文字表の文字を組み合わせてできる単語と12の
単語辞書との照合を行う。単語辞書12は、単語表記およ
び品詞情報、並びにこの単語に隣接可能な単語の品詞情
報(隣接情報と呼ぶ)を格納してある。
13は文法照合部であり、単語照合部11から得られた隣
接情報を基に、14の文法辞書を参照して単語間で隣接可
能かどうかをチェックする。文法辞書14は、品詞別に隣
接可能な単語の品詞情報を格納してある。
第4図は、本発明の一実施例による文書リーダ後処理
装置の単語照合部の処理を示すフローチャートである。
まず、単語リストをリセットする。
候補文字表の現在確定位置(次に処理を行う単語の候
補文字表上の位置)の全ての候補文字についておよび
の処理を行う。
キー文字、即ちこれから処理しようとする一つの候補
文字を基に単語辞書を検索し、キー文字で始まる全ての
単語を検索する。即ち、先頭文字から始まる単語を含む
辞書上の領域を1ブロック(通常512〜4096バイト)読
み込む。
により検索された全ての単語について、単語の全て
の文字が候補文字表にあるもののみを選別して単語リス
トに加え、出力する。
この単語照合で得られた単語リストは、さらに文法照
合部13によるチェックによりさらにしぼられることにな
る。
第5図は、本発明の一実施例による単語照合過程例を
示す図である。
本例は、文字種の区切り等により漢字6文字が単語と
して決定され、各文字についてそれぞれ四つの候補が得
られて、これが候補文字表として入力された場合の単語
照合処理である。
まず、文字位置1の一位候補の「価」を先頭文字とす
る単語を一度に検索する。その結果、価、価格、価値、
価値づけの四つが得られ、二位候補の「廊」を先頭文字
とする単語では、廊下が一つだけ検索された。三位候補
の「晒」を先頭文字とする単語では、晒、晒しの二つが
検索された。四位候補の「版」を先頭文字とする単語で
は、版、版下、版画、版権、版元、版数の六つが検索さ
れ、文字位置1を候補を先頭文字とする単語で計13候補
が検索された。
同様に、文字位置2の候補文字「格、柏、捲、椅」を
先頭文字とする単語では、格、格安など計15候補が検索
された。
同様に、文字位置3の候補文字「対、封、村、材」を
先頭文字とする単語では、対、対ソなど80候補が検索さ
れた。
同様に、文字位置4の候補文字「性、住、佐、牲」を
先頭文字とする単語では、牲、性格など30候補が検索さ
れた。
同様に、文字位置5の候補文字を先頭文字とする単語
では6候補、文字位置6の候補文字を先頭文字とする単
語では40候補が検索され、合計184候補が検索された。
以上の検索は、一般用約7万語の単語辞書の場合であ
る。
これを、第6図に示した従来例の場合の5640候補に比
べると大幅に削減されており、且つ一つの文字を先頭文
字とする単語を1度のアクセスで全て取り出すから二次
記憶へのアクセス回数は24回で済むこととなり、大幅の
削減となる。
本例では、文書リーダ後処理の入力となる候補文字を
上位四位までにしぼったが、これをもっと緩くするとそ
の差は益々開くことが見込まれる。
次ぎに、検索された全ての単語について、単語の全て
の文字が候補文字表にあるもののみを選別する。その結
果棄却されたものが×印で示すもので、残されたものが
○印で示すものである。次いで、○の単語について、文
字位置の1から文字位置2、文字位置3へと順に接続す
る。文字位置1で検索した単語で文字位置2の候補文字
を含む場合は、文字位置3で検索した単語に接続する。
このようにして、単語選別手段により選別された単語
群は各文字位置とその単語長に応じてラティス構造にな
る。ことラティス構造の中から最適なパスを求めるに
は、文字認識におけるもっともらしさ(候補単語の候補
順位等により求められる)と、言語的なもっともらしさ
(文法情報や関連後情報等により求められる)により求
められ、図にアンダーライン(下線)を引いて示した単
語が、最終的に単語リストとして出力される。
〔発明の効果〕
以上説明のように本発明によれば、文書リーダ後処理
装置の単語照合部において、辞書引きの回数を大幅に減
らし、高速で効率の良い単語照合を行うことができ、文
書リーダ後処理の処理能力の向上に寄与する効果は極め
て大である。
【図面の簡単な説明】
第1図は本発明の原理ブロック図、 第2図は本発明の一実施例のシステム構成を示す図、 第3図は本発明の一実施例の文書リーダ後処理装置の構
成を示す図、 第4図は本発明の一実施例による処理を示すフローチャ
ート、 第5図は本発明の一実施例による単語照合過程例を示す
図、 第6図は従来例による単語辞書引き例を示す図である。 図面において、 1は後処理装置、2は文字認識装置、 3は文字切り出し装置、4は行切り出し装置、 5は文字ブロック切り出し装置、 6はイメージスキャナ、11は単語照合部、 111は辞書検索手段、112は単語選別手段、 12は単語辞書、13は文法照合部、 14は文法辞書、15は後処理本体、 16は候補文字列入力部、17は後処理後処理部、 をそれぞれ示す。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文書リーダ装置において、文字認識装置
    が、文字認識単位中の文字列の各文字に対して、文字認
    識の結果として候補文字の集合を出力し、 該出力を受けて、単語情報、文法情報、文脈情報、関連
    語情報等を利用して、文字認識装置では一意に確定でき
    なかった文字を確定させる文書リーダ後処理装置におい
    て、 前記文字認識装置から入力された各文字位置の全候補文
    字について、その文字を先頭文字とする単語の全てを、
    単語表記、品詞情報等を格納する単語辞書から取り出す
    辞書検索手段と、 前記辞書検索手段によって取り出された前記単語につい
    て、単語の全ての文字が前記候補文字集合中にあるもの
    のみを選別する単語選別手段を備え、 各文字位置に対応して上記単語選別手段によって選別さ
    れた単語の列を作成し、該単語の文字認識のもっともら
    しさと単語列の言語的なもっともらしさに基づいて単語
    列を決定することを特徴とする文書リーダ後処理装置。
JP63007709A 1988-01-18 1988-01-18 文書リーダ後処理装置 Expired - Lifetime JP2570784B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63007709A JP2570784B2 (ja) 1988-01-18 1988-01-18 文書リーダ後処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63007709A JP2570784B2 (ja) 1988-01-18 1988-01-18 文書リーダ後処理装置

Publications (2)

Publication Number Publication Date
JPH01183795A JPH01183795A (ja) 1989-07-21
JP2570784B2 true JP2570784B2 (ja) 1997-01-16

Family

ID=11673268

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63007709A Expired - Lifetime JP2570784B2 (ja) 1988-01-18 1988-01-18 文書リーダ後処理装置

Country Status (1)

Country Link
JP (1) JP2570784B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05189336A (ja) * 1992-01-09 1993-07-30 Fuji Xerox Co Ltd 文書認識装置および認識処理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0614375B2 (ja) * 1983-12-23 1994-02-23 株式会社日立製作所 文字入力装置
JPS6174086A (ja) * 1984-09-18 1986-04-16 Fujitsu Ltd 単語認識装置
JPS61161588A (ja) * 1985-01-11 1986-07-22 Hitachi Ltd 文字認識後処理方式

Also Published As

Publication number Publication date
JPH01183795A (ja) 1989-07-21

Similar Documents

Publication Publication Date Title
US5303150A (en) Wild-card word replacement system using a word dictionary
US20050251381A1 (en) Tokenizer for a natural language processing system
JP2570784B2 (ja) 文書リーダ後処理装置
JPS61248160A (ja) 文書情報登録方式
JPH08115330A (ja) 類似文書検索方法および装置
JPH07230468A (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP2592995B2 (ja) 文節切出し装置
JP2917310B2 (ja) 単語照合における単語辞書検索方式
JP3241854B2 (ja) 単語スペル自動補正装置
JP3508312B2 (ja) キーワード抽出装置
JPH01114976A (ja) 文書処理装置の辞書構造
JP2592993B2 (ja) 文節切り出し装置
JP2575947B2 (ja) 文節切出し装置
Kwon et al. Contextual postprocessing of a korean ocr system by linguistic constraints
JPH076212A (ja) 光学文字読取装置の知識処理装置
JPH07160730A (ja) 全文検索装置
JPH07319864A (ja) かな漢字変換装置
JPH10207890A (ja) 文章解析装置及び方法
JPH01114973A (ja) 文書作成・校正支援装置
JPH0498449A (ja) 単漢字変換装置
JPS5896376A (ja) 日本語入力装置
JPH0695330B2 (ja) 文書作成装置
JPH06208659A (ja) 手書き文章認識装置
JPH06332949A (ja) 電子ファイリング装置
JP2002236680A (ja) 固有名対応付け装置及び方法、その方法をコンピュータに実行させるプログラム並びにそのプログラムを記録した記録媒体