JP2917310B2 - 単語照合における単語辞書検索方式 - Google Patents

単語照合における単語辞書検索方式

Info

Publication number
JP2917310B2
JP2917310B2 JP1241447A JP24144789A JP2917310B2 JP 2917310 B2 JP2917310 B2 JP 2917310B2 JP 1241447 A JP1241447 A JP 1241447A JP 24144789 A JP24144789 A JP 24144789A JP 2917310 B2 JP2917310 B2 JP 2917310B2
Authority
JP
Japan
Prior art keywords
word
character
candidate
dictionary
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1241447A
Other languages
English (en)
Other versions
JPH03102587A (ja
Inventor
哲康 高尾
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1241447A priority Critical patent/JP2917310B2/ja
Publication of JPH03102587A publication Critical patent/JPH03102587A/ja
Application granted granted Critical
Publication of JP2917310B2 publication Critical patent/JP2917310B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔概要〕 文字認識によって得られた候補文字群から,入力文字
を決定する文字認識後処理装置に関し, 文字認識で得られた候補文字群から正解と思われる文
字列を決定する後処理に際して,単語辞書の照合処理を
高速に行い,かつ単語辞書の容量を削減する事を目的と
し, 入力文字から文字認識部が認識して出力した,複数の
候補数から成る候補文字群を,単語辞書と照合して入力
文字を決定する単語照合部を備えた文字認識後処理装置
において,上記単語照合部は,上記候補文字群の1文字
につき,その文字で始まる単語を全て上記単語辞書から
抽出する辞書検索部と,辞書検索したこれらの単語が入
力文字列中の対応する文字位置の候補文字群に含まれる
か否かのチェックをする単語チェック部とから成り,上
記単語辞書の各単語は,直前の単語との同一部分を前方
圧縮すると共に,該圧縮した文字数を格納し,上記単語
照合部中の単語チェック部は,照合の取れなかった単語
の後に,該照合のとれなかった単語の文字を前方圧縮し
た単語が存在するとき,それらの単語全てのチェックを
省略するように構成する。
〔産業上の利用分野〕
本発明は,文字認識をする文字認識装置において,特
に文字認識の後処理装置に関する。
文字認識装置は,従来の1枡1文字の読み取り装置か
ら,一般の印刷文字,一般の手書き文字を読み取る装置
への要求が高まりつつある。一般の印刷文字,手書き文
字を読み取る際,文字認識装置から得られた候補文字集
合列に対して後処理を行なう文書認識の後処理におい
て,後処理の1つのフェーズである単語照合処理の高速
化及び単語辞書の容量の削減が望まれていた。
ここで後処理について説明する。
後処理とは,文字認識で出力された複数の文字候補列
の内,正解と思われる文字列を決定する処理のことをい
う。
〔従来の技術〕
従来の文字認識の後処理装置では後処理としての単語
照合処理においては,文字認識装置から得られる候補文
字を組み合わせて作られる単語すべてについて単語辞書
との照合を行い,当該単語が単語辞書中に存在するかど
うかをチェックしていた。
第13図は,従来の単語照合処理を説明する図である。
図中,131は文字認識装置から得られた候補文字集合列
であり,文字位置132と,ある文字位置132の候補文字13
3の2次元の表の形を取る。従来は例えば,文字位置1
の第1位候補の「一」を考えると「一」から始まる単語
は,まず後続文字位置の第1位候補のみから選出する単
語(「一般」,「一般的」,「一般的在」,…)や後続
文字位置の第2位候補のみから選出される単語(「一
股」,「一股酌」,…)や後続文字位置の第3位候補の
みから選出される単語(「一船」,「一船曲」,…)や
順位間にまたがる組み合わせ(「一般曲」,「一般
酌」,「一般曲在」,…)の総体的な組み合わせとな
る。次に文字位置1の第2位候補の「メ」から始まる単
語も同様である。次に文字位置1の第3位候補の「ノ」
から始まる単語も同様である。更に,文字位置2から始
まる単語も上記の場合と全く同様にして求められる。従
来は,これらの組み合わされた全ての単語について単語
辞書との照合を行っていた。このため,単語辞書との照
合処理の処理量の削減が困難であった。
〔発明が解決しようとする課題〕
文字認識の後処理においては,文字認識装置から得ら
れた候補文字を組み合わせてできる単語と単語辞書との
照合を行うが,この際,文字認識装置から得られた候補
文字は,通常1位候補,2位候補,…,n位候補(nは任意
の正整数)と複数であることが多い。候補文字を単純に
組み合わせてできる単語数は以下のようになる。kは単
語の文字数である。
n+n×n+n×n×n+・・・+nのk乗+ しかし,kに無限に大きな数値まで取らせることは実際
上は不可能である。そのため,一般には第1位候補の文
字の正解率が高いことからその第1位候補文字の文字種
(ひらがな,カタカナ,記号,数値,漢字)の切れ目が
単語の区切りになる事が多いという経験に基づいて,最
初の文字から字種の切れ目までの文字数を最大のkの値
として,単語候補を決定する時に決定している。この場
合でも,候補文字が多いと,組み合わせてできる単語数
も増大するので,単語辞書との照合回数も増大する。そ
の結果,文書リーダ後処理にかかる処理ステップ数,時
間とも増大するのでスループットが悪くなるという問題
があった。また,前述の文字種の切れ目が単語の区切り
になる事が多いという経験も例外がいくらか存在する
(例;「ろ過」,「お手伝い」,「A級」)ため,この
ような場合には単語照合そのものがうまくいかない場合
があるという問題があった。
〔課題を解決するための手段〕
第1図に,本発明の原理説明図を示す。
1は単語辞書であり,単語辞書の単語表記は既に存在
する漢字を省略して表記する事で単語辞書を圧縮してあ
る。2は単語照合部であり,候補文字集合列から得られ
る単語候補の先頭1文字の情報からその文字で始まる単
語を全て1度の辞書引きで単語辞書1から検索する辞書
検索部2aと,その後にこれらの単語の内,候補文字集合
列の候補文字群に含まれる物のみを抽出する単語チェッ
ク部2bから成る。ただし該単語チェック部2bは,単語辞
書1の各見出し語が,直前の見出し語との同一部分を前
方圧縮してあるので,照合の取れなかった単語の後に,
該照合のとれなかった単語の文字を前方圧縮した単語が
存在する時,それらの単語全てのチェックを省略する。
文字認識部から出力された候補文字集合列から単語辞
書集合部2を起動し,該単語辞書照合部2中の辞書検索
部2aと単語チェック部2bを起動させ,単語辞書1から正
解と思われる文字列を出力させる。
〔作用〕
文字認識の後処理装置において,後処理の一つのフェ
ーズである単語照合処理時に,文字認識装置が認識した
候補文字集合列の中から作られる単語候補の先頭1文字
の情報からその文字で始まる単語をすべて1度の辞書引
きで検索し,その後にこれらの単語から候補文字集合列
に含まれる物のみを高速に抽出する事により,辞書アク
セスを減らし,後処理の単語照合処理にかかる処理量,
時間を減らす事ができる。辞書は単語表記の順にソート
されているので,同じ先頭文字で始まる単語は辞書の内
部では1箇所にまとまって存在する。このため,検索対
象の辞書が二次記憶上にあっても従来の方法に比べてI/
Oの回数を大幅に減らす事ができる。更に,単語辞書は
単語表記について前方圧縮しているので,単語照合アル
ゴリズムにより辞書に登録されている単語数が増加して
も,単語照合にかかる処理量は増加した単語数の数割程
度にしか増加しない事が実験により確認されている。
〔実施例〕
ここで,本発明の一実施例として文書リーダ後処理装
置を考える。文書リーダ後処理装置における処理は,文
書を文字認識装置で認識した結果の候補文字集合列から
正解文字列を決定する際に自然言語処理技術の一つであ
る形態素解析の技術を利用する。この方法では,単語辞
書及び単語品詞間の接続可否の情報を持つ文法辞書を利
用して,入力となる候補文字集合列に対して言語の文法
規則を満たすように正解文字列を指定する。
第2図は,本発明の一実施例である文書リーダ後処理
装置の文書リーダ装置中の位置づけを示す。
図中,21は文書リーダ後処理装置を含む文書リーダ装
置である。22は一般印刷文書や手書き文書を画像イメー
ジで読み込むイメージキャナである。23は文字ブロック
切り出し装置で,イメージスキャナ22から得られた画像
から,文章が書かれている文字ブロック(文字領域)を
切り出す。24は行切り出し装置で,文字ブロックから行
ブロックを切り出す。25は文字切り出し装置で,行ブロ
ックから文字を切り出して1文字単位にする。26は文字
認識装置で,文字認識を行い,各文字に対応して候補文
字群を各候補文字ごとに評価値(文字の確からしさを表
す量で最大値は1.00である。値が大きいものほど正解文
字に近いものと文字認識装置で判断した事を意味する)
を付け,1位候補,2位候補,・・・,n位候補(nは任意の
数値)として出力する。27は本発明の文書リーダ後処理
装置であり,文字認識装置26から得られた候補文字列と
評価値から正解と思われる文字を決定する。
第14図に本発明の文書リーダ後処理装置の構成図を示
す。
151は候補文字入力部であり,候補文字集合列と各候
補文字毎の評価値を読み込む所である。ここで,候補文
字集合列とは,文書リーダ装置の文字認識部から出力さ
れる各入力文字に対する候補文字の表である。評価値と
は文字認識において,その文字の正解率(確からしさ)
を表す数値で,各候補文字毎に付けられている。152は
主制御部であり,単語照合部154と文法照合部155を制御
し,候補文字集合列から形態素解析の結果を得る。単語
照合部154は候補文字集合列から得られる単語候補の先
頭1文字の情報からその文字で始まる単語を全て1度の
辞書引きで単語辞書6から検索する辞書検索部154aと,
その後にこれらの単語の内,候補文字集合列の候補文字
群に含まれる物のみを抽出する単語チェック部154bとか
ら成る。156は単語辞書である。文法照合部155は単語候
補が前の単語と連接可能か否かを文法辞書を用いて照合
する。153は後処理出力部であり,後処理で得られた文
を外部記憶に出力する。
以上の構成で候補文字入力部151で読み込んだ候補文
字集合列と評価値を,主制御部152に渡し,主制御部152
で単語照合部154と文法照合部155を起動させ,得られた
正解文を後処理出力部153で外部に出力させる。
第3図に単語辞書の構成図を示す。図中,31は単語表
記である。32は左隣接品詞で,単語表記で表される単語
の左隣接の単語から見て,該単語表記上の単語が持つ品
詞を表す。33は右隣接品詞で,単語表記で表される単語
の右隣接の単語から見て,該単語表記上の単語が持つ品
詞を表す。このように単語表記31で表される単語の品詞
は,左隣接品詞32と右隣接品詞33との両面を持っている
事になる。
第4図に第3図の単語辞書を前方圧縮した単語辞書の
構成図を示す。図中,41は単語表記で,単語表記中の□
の部分は記述されないので,圧縮して詰められる。42は
サプレス量で,詰められた文字の量である。43は左隣接
品詞で,44は右隣接品詞である。
第5図に文法辞書の構成図を示す。文法辞書とは,右
隣接の品詞と左隣接の品詞とが接続可能か否かを示すテ
ーブルである。図中,○は接続可能,×は接続不可能を
示す。
第6図は,文書リーダ装置の文字認識装置からの候補
文字集合列の例である。ただし,ここでは文書リーダ後
処理装置の入力となる候補文字群を上位4位までとし
た。尚,下線のある文字が正解文字列である。
第7図に文書リーダ後処理装置の処理アルゴリズムの
例を示す。
第7図の処理アルゴリズムを第6図と第11図を使っ
て,以下に説明する。ここで,第11図は第6図に示すよ
うな候補文字集合列に関して,従来の圧縮されていない
単語辞書を使って後処理を施した単語照合過程の例であ
る。
図中,S1で初期設定をする。即ち,確定単語リスト,
候補リストをリセットする。候補文字集合列上の現在確
定位置を1にする。ここで,確定単語リスト,候補リス
ト及び候補文字集合列上の現在確定位置に関しては,各
々が使われる各処理の所で説明する。次に,S2で,文字
認識装置が認識した候補文字集合列の中から作られる単
語候補の先頭1文字の情報からその文字で始まる単語を
全て一度の辞書引きで検索する。この処理を第11図で説
明すると,例えば第6図で現在文字位置2の所まで後処
理が終わったとする。次に,文字位置3からの処理をす
るのだが,この文字位置3の事を現在確定位置という。
この位置から始まる単語は,まず第1位候補の「対」か
ら始まるものとして,(「対」,「対ソ」,…「対
抗」,…)を一度の辞書引きで検索する。第2位候補の
「封」から始まるものとして,(「封」,「封じ」,
…,「封建」,…)を検索する。以下同様にして全ての
候補位について辞書検索を行う。その後,これらの単語
から候補文字集合列に含まれる物のみを抽出し,同時に
その単語の接続情報を得る。この処理を第11図で説明す
ると,「対」〜「材料」の内,第6図の候補文字集合列
の中に含まれるものは「対」,「封」,「村」,「材」
の4つであり,これらの単語を抽出する。図中の○は候
補文字集合列に含まれる物。×は候補文字集合列に含ま
れない物である。次に,S3でいままで確定した単語の後
に接続可能かどうかをチェックし,接続可能な単語のみ
を候補リストに追加する。候補リストとは,現在確定位
置から辞書検索して得た単語群の内,文字認識装置から
の候補文字集合列の中にある単語で,前の確定した単語
に接続可能なものの全てを言う。第11図では現在確定位
置と3として,「対」,「封」,「村」,「材」が候補
リストに格納される。候補リストは評価値の順にソート
する。ここで,評価値とは,単語長と単語を構成する各
候補文字の評価値(文字認識部から得られる)から計算
される値。単語長は大きいほど,また各候補文字の評価
値は認識結果の候補文字群中の上位にあるものほど大き
い。後処理における評価値計算式の例は第8図に示す。
第8図の詳細は後述する。次に,S4で接続可能な単語が
存在するか否かを判断し,存在すればS5で接続可能な単
語のうち最も評価値の大きい単語を確定させ,確定単語
リストに追加,現在確定位置をこの単語の分だけ増や
す。第11図で説明すると,「対」,「封」,「村」,
「材」の内,評価値の最も高い「対」という単語を確定
させ,確定単語リストに追加して,現在確定位置を3か
ら「対」という単語の長さ1だけ増やし,4にする。接続
可能な単語が存在しなければS11で前回確定した単語を
確定単語リストからはずし,次の候補を候補リストから
取り出し,確定単語リストに追加,なければ未登録語と
して処理(未確定としてこの部分をパスする)し,S2以
下の処理にもどる。第11図で説明すると,例えば「価
格」に接続可能な単語が存在しない場合には,前回確定
した単語「価格」を確定単語リストから外し,次に評価
値の高い「価」を確定単語リストに追加する。
S6では現在確定位置が文の区切りに到達したか否か判
断し,到達しなければS2以下の処理にもどり,到達すれ
ばS7において文の区切りまでの確定単語リスト中の単語
を後処理認識結果として出力,未確定ならば1位候補を
出力する。次にS8において現在確定位置が候補文字表の
終わりに到達したか否かを判断し,到達したらS9で処理
を終了させる。到達しなかったらS10において確定単語
リスト,候補リストをリセットし,S2以下の処理にもど
る。
この例では文書リーダ後処理における単語の確定処理
を候補単語リストから文法的に妥当な単語候補の探索と
とらえ,単語長と候補文字の文字認識から得られる評価
値から算出される評価値の大きいものから優先的に探索
する最良優先探索技法を利用している。候補単語の抽出
は,文頭から文末に向かって行われるため,この探索空
間は木構造をなす。従って,この探索は探索木の探索と
なり,無限ループにおちいることはない。
次に,第8図に第7図の処理アルゴリズムで使用され
る評価値の計算式の例を示す。
ここで,この評価値とは候補単語の評価値であり,該
単語の発生確率の相対的な値である。この評価値の高い
単語ほど正しい候補単語となる。
Wは評価値である。Ckは候補単語を構成する文字であ
り,V(Ck)は,そのCkの文字認識から得られる評価値で
ある。nは候補単語を構成する文字数である。αは各項
の重みづけのための定数で,文字認識手法,後処理の性
能などの観点からチューニングした値を持つ。この計算
式より,候補単語はそれを構成する文字の評価値が高
く,かつ文字数が多い程正解として採用される確率が高
いという事になる。
次に,第7図で説明した処理アルゴリズムで述べられ
た単語照合について述べる。第9図は本発明の文書リー
ダ後処理装置の単語照合部の処理アルゴリズムである。
S21で単語リストの初期設定をする。単語リストは辞
書検索して得た単語の内,候補文字集合列にあるものの
みを抽出したものである。次に,S22で候補文字列集合列
の現在確定位置のすべての候補文字について以下の処理
を行う。S23でキー文字をもとに単語辞書を検索し,キ
ー文字で始まるすべての単語を検索する。次にS24でこ
の検索された全ての単語について単語の全ての文字が候
補文字集合列にあるもののみを単語リストに加える。
次に,第10図は第9図のS24の処理の具体例を示す。
(1)は非圧縮辞書の例,(2)は前方圧縮辞書の例で
ある。
第10図の(1)の処理手順は以下の通りである。図
中,S31でS32〜S36の処理を全ての単語について行う。S3
2で現在の単語位置i=1とし,次に,S33でiが単語長
以下か否か即ち,すべての単語位置の文字の照合を終え
たか否かの判断をし,以下なら即ち文字照合を終えてい
なければ,S34でiの位置の文字が候補文字群中にあるか
否かを判断し,以下でないなら即ち,文字照合を終えた
らS36で当該単語を単語リストに登録して次の単語の処
理にいく。S34の判断で候補文字群中にあれば,S35でi
に1を加算して即ち,次の単語位置に行き,S33以下の処
理にもどり,候補文字群中になければ次の単語の処理に
行く。
第10図の(2)の処理手順は以下の通りである。図
中,S41でp=0とする。ここで,pは単語チェックをして
いく際に,直前のチェック済の単語が候補文字集合列と
照合した際の,最長の一致文字位置の事である。例え
ば,(価,□格,□値,□□づけ)という単語列に関し
て,候補文字集合列との集合をする場合を考える。ここ
で□は第4図の前方圧縮された単語辞書に述べてあるよ
うに圧縮して詰められてある情報である。「□格」とい
う単語のチェックをする際には,直前のチェック済の単
語「価」が候補文字集合列にあった場合は,最長の一致
文字位置は1であるのでpは1となる。又,「□□づ
け」という単語のチェックをする際に,直前のチェック
済の単語「□値」の内,「□」は候補文字集合列にあっ
て「値」がない場合はpは1となる。ここでは最初の初
期設定なのでp=0とするのである。S42でS43〜S50の
処理を全ての単語について行う。S43で単語のサプレス
量>pか否かを判断する。これは直前の単語が候補文字
集合列に含まれない場合に,原単語の単語チェックをし
ないで,次の単語チェックに移る処理である。以下なら
次の単語の処理に行く。以下でないならS44でp=単語
のサプレス量とする。次に,S45で単語の現在位置i=p
+1とし,単語の現在位置の設定をする。次に,S46でi
−単語のサプレス量<=前方圧縮された単語長以下か否
かを判断する,即ちチェックすべき単語の全ての文字に
ついてチェックしたか否かの判定をするものである。以
下なら即ち,単語の全ての文字についてチェックしなか
ったらS47で単語の(i−単語のサプレス量)の位置の
文字が候補文字群中にあるか否かを判断し,以下でない
なら即ち,単語の全ての文字についてチェックし終わっ
たらS50で当該単語を単語リストに登録して次の単語の
処理にいく。S47の判断で候補文字群中にあれば,S48で
p=iにする。次に,S49で単語の現在位置iに1を加算
してS46以下の処理にもどる。候補文字群中になければ
次の単語の処理に行く。
次に,第10図(2)の処理の詳細を第6図の候補文字
集合列と第12図の単語照合過程を用いて具体的に説明す
る。
まず第6図で文字位置1から始まる全ての単語を辞書
検索部で検索する。第12図の左端にこの処理によって得
られた全単語(価,□格,…,□元)が挙げられてい
る。次に,該単語が第6図の候補文字集合列の中に含ま
れるか否かのチェックをする。即ち,圧縮情報利用単語
チェック部の処理になる。
まず,S41でpを0に設定する。次に第12図の上記全単
語の内,最初の単語「価」が選ばれる。この単語に関し
て,まずS43で該単語のサプレス量(この場合は0)が
上記初期設定したpの値より大きいか否かを判定する。
この場合は,大きくないので,S44でpに単語のサプレス
量(この場合は0)を設定する。次にS45で文字位置と
してpに1を加算したもの即ち1を初期の文字位置iと
する。次にS46で,文字位置から単語のサプレス量を引
いたもの(この場合1)が前方圧縮された単語の単語長
(この場合は1)より大きいか否かを判定し,大きけれ
ばS49の処理をし,大きくなければS47の処理をする。こ
の場合はS47の処理をし,文字位置から単語のサプレス
量を引いた文字位置の文字(この場合「価」)が候補文
字集合列中にあるか否か判定し,あればS48の処理を
し,なければ次の単語の処理をする。この場合,「価」
は候補文字集合列の中にあるので,S48の処理をする。S4
8ではpを現在文字位置iにする。この場合,pは1にな
る。次に,S49の処理をし,現在文字位置iに1を加算
し,この場合は現在文字位置iが2になる。次に,S46の
処理に戻り,現在文字位置と単語サプレス量の差(この
場合は2)が前方圧縮された単語の単語長(この場合は
1)より大きいので,S50の処理をし,「価」という単語
を単語リストに登録し,当該単語に関する処理を終了さ
せ,次の単語「□格」に関してS43〜S50の処理をする事
になる。
次に,「□値」に関して同様にしてS43〜S50の処理を
する。この場合,前の単語「□格」の処理をした時点で
pは2,文字位置iは3になっている。まずS43で「価」
と同様の判定をして,この場合はS44でpは1になる。
次に,S45の処理をし,文字位置iは2となる。次に,S46
を,次にS47の処理をし,1の文字位置の文字(「価」)
が候補文字群中にあるか否かを判断し,この場合はない
ので,S48の処理をせず,pは1のままで2にはならない状
態で次の単語「□□づけ」の処理に移る。まずS43の処
理をする。この場合,単語のサプレス量は2であり,pは
1であるので,S46により次の単語の処理に移る。以上の
ように直前の単語(この場合は「□値」)が候補文字集
合列に含まれない場合は,次の単語(この場合は「□□
づけ」)は,単語文字チェックを行わないで,候補文字
集合列に含まれないとみなす処理をして次の単語のチェ
ックに移る。
本発明に関する実行例を第11図と対比して,第12図に
示す。
ここで,従来の方法による単語候補数を以下に示す。
まず,最初の第1文字位置から始まる1文字の単語候
補は4であり(価,廊,晒,版),2文字からなる単語候
補は4×4であり(価格,価拍,価捲,価椅,廊格,廊
拍,廊捲,廊椅,晒格,晒拍,晒捲,晒椅,版格,版
拍,版捲,版椅),以下同様にして6文字の候補は4の
6乗である。これらの和(4+42+43+44+45+46)が
先頭1文字から始まる単語候補の数である。同様にして
文字位置2から始まる単語候補数も求まる。全ての単語
候補数は文字位置1〜6から始まる全ての単語候補数の
和であるから,以下の計算式で示される。
(4+42+43+44+45+46)+ (4+42+43+44+45)+ (4+42+43+44)+ (4+42+43)+ (4+42)+ (4) =7272候補 第11図に示すような従来の単語圧縮していない方式に
よる単語候補数は,計188候補である。又,チェックが
必要な文字数は,計555文字である。
第12図は,第6図の候補文字集合列に対して,単語辞
書の前方圧縮を行なった単語照合過程の例を示す。
第12図の過程は第11図の場合と同様である。ただし,
×は候補文字集合列に存在しない事により棄却された事
を示す。□は前方圧縮辞書を使用したためにこの部分に
相当する文字が候補文字群にあるかどうかをチェックし
なくてもよい事を示す。三角は単語候補そのものを1文
字もチェックしなくてもよい単語を示す。
以上,本発明の方式による単語候補数は計148候補
(三角の単語を除いた単語数)である。チェックが必要
な文字数は計271文字(□の文字を除いた部分)であ
る。
実験によれば,第12図の場合は第11図の場合に比べ,
単語辞書(約8.5万語)の所要メモり量は約15%削減で
き,処理速度は約20%高速になる。また,辞書の登録単
語数が25%増加(6.7万語から8.5万語)すると非圧縮辞
書の場合は単語辞書の所要メモリ量,単語照合にかかる
処理時間いずれも25%増加になるが,圧縮辞書の場合は
いずれも約15%増加にとどまる。
〔発明の効果〕
以上述べたように,本発明によれば,文字認識の後処
理装置の一つのフェーズである単語照合処理において,
辞書引きの回数を減らし,高速照合アルゴリズムにより
高速で効率の良い単語照合処理が行え,又,単語辞書の
容量を削減できるので文字認識の後処理の処理能力が向
上するという効果がある。又,この高速照合アルゴリズ
ムでは単語辞書に登録されている単語数が増加しても,
増加した単語数の割合ほどには単語辞書の容量及び単語
照合の処理量が増加しないという効果がある。
【図面の簡単な説明】
第1図は,本発明の原理構成図であり, 第2図は,本発明の一実施例である文書リーダ後処理装
置の文書リーダ装置中の位置付けであり, 第3図は,非圧縮の単語辞書の例であり, 第4図は,圧縮形式の単語辞書の例であり, 第5図は,文法辞書の例であり, 第6図は,候補文字集合列の例であり, 第7図は,文書リーダ後処理装置の処理アルゴリズムの
例であり, 第8図は,第7図の処理アルゴリズムで使用される評価
値の計算式の例であり, 第9図は,本発明の文書リーダ後処理装置の単語照合処
理部の処理アルゴリズムの例であり, 第10図(1)は,第9図の単語チェック部の非圧縮辞書
によるフローであり, 第10図(2)は,圧縮辞書による単語チェック部のフロ
ーであり, 第11図は,単語辞書の前方圧縮を行わない場合の単語照
合過程の例であり, 第12図は,単語辞書の前方圧縮を行った場合の単語照合
過程の例である。 第13図は,従来の単語照合処理を説明する図であり, 第14図は,本発明の一実施例の構成図である。 第1図中, 1は単語辞書であり, 2は単語照合部であり, 2aは単語検索部であり, 2bは単語チェック部である。
フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06K 9/72

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力文字から文字認識部が認識して出力し
    た,複数の候補数から成る候補文字群を,単語辞書と照
    合して入力文字を決定する単語照合部を備えた文字認識
    後処理装置において, 上記単語照合部は,上記候補文字群の1文字につき,そ
    の文字で始まる単語を全て上記単語辞書から抽出する辞
    書検索部と,辞書検索したこれらの単語が入力文字列中
    の対応する文字位置の候補文字群に含まれるか否かのチ
    ェックをする単語チェック部とから成り, 上記単語辞書の各単語は,直前の単語との同一部分を前
    方圧縮すると共に,該圧縮した文字数を格納し, 上記単語照合部中の単語チェック部は,照合の取れなか
    った単語の後に,該照合のとれなかった単語の文字を前
    方圧縮した単語が存在するとき,それらの単語全てのチ
    ェックを省略することを特徴とする単語照合における単
    語辞書検索方式。
JP1241447A 1989-09-18 1989-09-18 単語照合における単語辞書検索方式 Expired - Lifetime JP2917310B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1241447A JP2917310B2 (ja) 1989-09-18 1989-09-18 単語照合における単語辞書検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1241447A JP2917310B2 (ja) 1989-09-18 1989-09-18 単語照合における単語辞書検索方式

Publications (2)

Publication Number Publication Date
JPH03102587A JPH03102587A (ja) 1991-04-26
JP2917310B2 true JP2917310B2 (ja) 1999-07-12

Family

ID=17074444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1241447A Expired - Lifetime JP2917310B2 (ja) 1989-09-18 1989-09-18 単語照合における単語辞書検索方式

Country Status (1)

Country Link
JP (1) JP2917310B2 (ja)

Also Published As

Publication number Publication date
JPH03102587A (ja) 1991-04-26

Similar Documents

Publication Publication Date Title
JP2726568B2 (ja) 文字認識方法及び装置
JPH08305730A (ja) 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法
JPH087033A (ja) 情報処理方法及び装置
US6360010B1 (en) E-mail signature block segmentation
JPH0682403B2 (ja) 光学式文字読取装置
JPH05324730A (ja) 文書情報検索装置
JP2001175661A (ja) 全文検索装置及び全文検索方法
JP2917310B2 (ja) 単語照合における単語辞書検索方式
JP2681663B2 (ja) 日本文訂正候補文字抽出方法
JP2570784B2 (ja) 文書リーダ後処理装置
JPH08272813A (ja) ファイリング装置
JP3123181B2 (ja) 文字認識装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH0256086A (ja) 文字認識の後処理方法
JPH08180064A (ja) 文書検索方法及び文書ファイリング装置
JP4584507B2 (ja) 住所認識装置、記録媒体及びプログラム
JP2947832B2 (ja) 単語照合方法
JPS63282586A (ja) 文字認識装置
JP2845463B2 (ja) パターン認識装置
JP3552750B2 (ja) 文書処理装置
JP3123169B2 (ja) 文字認識方法
JPH0757059A (ja) 文字認識装置
JPS63138479A (ja) 文字認識装置
JPH0614375B2 (ja) 文字入力装置
JPH0746374B2 (ja) 文字認識方法