JPH01194088A

JPH01194088A - 文字列と単語の照合装置

Info

Publication number: JPH01194088A
Application number: JP63019141A
Authority: JP
Inventors: Katsuhiko Fujita; 克彦藤田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1988-01-29
Filing date: 1988-01-29
Publication date: 1989-08-04

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】技術分野本発明は、例えば０ＣＲ１識結果に対する後処理装置、
さらには文書校正装置等に利用し得る文字列と単語の照
合装置に関する。

従来技術近年、ＯＣＲ技術の向上に伴い、文字認識精度の向上は
著しく、現在では、活字による漢字の認識率で９５％を
越えるレベルに達している。しかし、誤った認識（置換
誤り）を皆無とすることは難しい。

そこで、一般には得られたＯＣＲ認識結果を基に単語辞
書の検索を行ない、辞書に登録されている単語の表記と
一致する認識結果を正しい認識結果とみなすための照合
処理が行なわれている。具体的には、「研究開発結果」
なる文字列に対するＯＣＲによる認識結果の一例として
は例えば第７図に示すように第１位の候補文字「砿」「
究」「開」　「発」　「給」　「果」以外に、各々第２
位から第ｎ（例えば、４）位までの候補が出力される。

そして、これらの組合せ、例えば先頭２文字分の組合せ
により第８図に示すような辞書検索用の文字列「研究」
　「破究」　「破空」・・・等を作成する。

次いで、これらを辞書検索のキーとして外部記憶上の辞
書にアクセスする、というのが−船釣な考え方、方法で
ある。

しかし、このような文字列と単語の照合方式の場合、外
部記憶へのアクセス回数が増え、時間及びコストがかか
る。第７図及び第８図に示した例では、先頭２文字だけ
で合計１６回のアクセスが必要となる。この点は、特に
、第１位の候補文字の正解率が最近のＯＣＲ技術の向上
により高くなっていることを考慮すると、効率が悪い。

目的本発明は、このような点に鑑みなされたもので、近年の
認識率の向上に伴い、２文字連続で誤る確率が極めて低
い点に着目し、置換誤りの可能性を持つ文字列と単語辞
書中の単語との照合を少ない回数で効率的に行なうこと
ができる文字列と単語の照合装置を得ることを目的とす
る。

構成本発明は、上記目的を達成するため、置換誤りの可能性
を持つ候補文字を伴う入力文字列に対し単語辞書を用い
て正しい文字列に対応した単語の候補を抽出する文字列
と単語の照合装置において、単語をその単語情報として
辞書表記及び辞書表記と入力文字列との照合方法を示す
フラグ領域を備え文字毎に領域を区分して格納する単語
辞書と、文字をキーとしてその文字を表記中に含む単語
群が格納された前記単語辞書中の区分された領域のアド
レスを参照するインデクスと、入力文字列中の各位置か
ら前記インデクスを用いて前記単語辞書中を検索する辞
書検索手段と、この辞書検索手段の検索により得られた
単語群と入力文字列及び置換誤りの候補文字との照合時
に前記フラグ領域のフラグ値により照合方法を変更する
照合手段とからなることを特徴とする。

以下、本発明の一実施例を第１図ないし第６図に基づい
て説明する。本実施例のブロック構成を第１図に示す。

まず、入力文字列メモリ１が設けられている。この人力
文字列メモリ１はＯＣＲ等により認識され本発明の対象
とする入力文字列を蓄えたメモリである。即ち、置換誤
りの可能性を持つ候補文字を伴い得るものであり、実際
の文字列の格納方式は例えば第７図の模式図に示すよう
な方式である。

このような入力文字列メモリ１は制御部２に接続されて
いる。この制御部２はマイクロプロセッサ構成のもので
あり、図示しないメモリ中に格納された制御プログラム
に従い後述するデータ処理を行なう。具体的には、辞書
検索手段３と照合手段４とを備えている。辞書検索手段
３は入力文字列に対し主記憶上にあるインデクス５を利
用して外部記憶上の単語辞書６を検索し、その結果を主
記憶上の作業領域７に書込むものである。即ち、この作
業領域７はインデクス５に基づき検索された外部辞書の
内容を一時的に保存しておくためのものである。また、
照合手段４は辞書検索手段３による検索結果と入力文字
列とを照合し、照合に成功した単語を単語ラティス８に
書込むものである。即ち、この単語ラティス８も主記憶
上のメモリである。また、現在、入力文字列中のどの位
置について処理しているか等についての情報も、この制
御部２における制御プログラムが管理している。

ここに、前記インデクス５は辞書検索しようとする文字
列の先頭１文字に対応した外部記憶上の単語辞書６の特
定領域のアドレスを示したインデクスである。そのデー
タ構造は例えば第２図に示すようなものであり、インデ
クスのキーと外部記憶アドレスとからなり、例えば「泣
」なるインデクスのキーに対してはｒ２０１０Ｊなる外
部記憶アドレスが割当てられている。「究」であれば、
ｒ２０２０Ｊが割当てられている。

また、外部記憶上の単語辞書６は例えば第３図（ａ）（
ｂ）に示す如きデータ構造として構成されている。例え
ば第３図（ａ）は１文字目の第１位の候補文字である「
破」の単語辞書６におけるデータの模式図を示し、同図
（ｂ）は２文字目の第１位の候補文字である「究」の単
語辞書６におけるデータの模式図を示す。何れも、フラ
グ領域６ａと、辞書表記領域６ｂ（辞書表記領域６ｂに
おいて、「＊」は表記が尽きていることを示す）と、単
語情報領域６ｃとからなる。ここに、フラグ領域６ａに
示す逆転フラグＦは本実施例において重要な機能を持つ
。まず、この逆転フラグＦが０の時には通常の辞書と同
様に照合することを意味する。

一方、逆転フラグＦ＝１のものは、表記の１文字目は辞
書検索のインデクスとなった文字の位置より１つ前の入
力文字列と照合すべきことを示すものである。即ち、こ
の逆転フラグＦが０か１かにより、照合手段４による照
合方式を変更させるものである。例えば、第３図（ｂ）
中の逆転フラグＦ＝１なる「班会」という文字列の場合
、「研」を「究」の直前の入力文字列と照合すべきこと
、　　′「会」は「究」の次の文字と照合すべきことを
意味する。このような逆転フラグＦを照合処理に利用す
ることにより、単語の先頭文字が誤認識されている場合
でも照合が可能となるものである。

このような構成において、本実施例による照合処理方法
を第４図及び第５図のフローチャートを参照して説明す
る。ここでは、「研究開発結果」なる文字列に対し第７
図に示したように認識された入力文字列があったものと
する。

まず、入力文字列の先頭の位置（１文字目）にポインタ
をセットする（Ｐ←１）。本例では、先頭の第１位候補
文字「破」に対しこの文字をキーとしてインデクスＳを
調べ、外部記憶上の単語辞書６中のアドレスを得る。前
述したように第２図に示すインデクスＳの模式図中では
「破」の例が示されていないが、図示例のものと同様に
、単語辞書６中のアドレスがインデクス５により得られ
る。

ついで、このアドレスに基づき外部記憶上の単語辞書６
をアクセスし、文字「破」を１文字目又は２文字目に含
む単語の全てを一括して検索する。

この検索結果を主記憶上の作業領域７に一時的に書込む
。本例の場合、第３図（ａ）に従い、例えば逆転フラグ
Ｆ＝Ｏなる「破（ら行５段動詞語幹）」や「破壊（す変
名詞）Ｊ、逆転フラグＦ＝１なる「大破（す変名詞）」
などが得られる。

この後、照合手段４による照合処理を実行する。

この照合処理は第５図のフローチャートに従い行なわれ
る。ここでは、単語辞書６の検索により得られた単語を
１つずつ取り上げ、入力文字列との照合を行なう。この
際、逆転フラグＦが０かｌによって、照合方法が変更さ
れる。

例えば、文字「破」に関しては最初の「ら行５段動詞語
幹」の単語だけが照合に成功し、これだけが単語ラティ
ス８に書込まれる。これにより、入力文字列の１文字目
に対する照合処理が終了するので、制御部２ではポイン
タを１つ進め、入力文字列中の２文字目に対する同様な
処理を行なう。

ここに、第７図の例では２文字目の第１位候補は「究」
であるので、この「究」をキーとしてインデクスＳを検
索する。これにより、単語辞書６中におけるアドレス２
０２０番地を得る。これに従い、単語辞書６中を検索し
、第３図（ｂ）に示したような「究」に関するデータを
作業領域７上に書込む。そして、第５図の照合処理を行
なう。ここでは、第３図（ｂ）中に示したものの内、逆
転フラグＦ＝１なる「研＊Ｊのデータが入力文字列と照
合する。「研Ｊは１字前の第４位候補文字（第７図参照
）だからである。この照合結果を単語ラティス８に書込
む。

以下、同様に辞書検索の位置を１文字ずつずらしながら
、入力文字列が尽きるまで繰返すことにより、「研究開
発結果」なる正しい照合結果が得られることになる。

第６図はこのような処理に従う単語ラティス７の書込み
状態の変遷の模式図を示すものであり、図中、Ｐは各々
のポインタによる結果との対応関係を示す。

本実施例によれば、候補文字の組合せ作成−外部記憶上
の辞書検索ではなく、辞書検索により得られた単語群に
ついて入力文字列との照合を行なうので、例えばｎ文字
からなる文字列に対し、９回だけ外部記憶上の単語辞書
６をアクセスすればよく、そのアクセス回数を大幅に減
少させ得る。

従来方式による場合、同一の照合位置にて何回も（少な
くとも候補文字の数）だけ外部記憶をアクセスする必要
があるのに比べると、遥かに高速処理し得る。

ところで、本実施例による場合、正解なる文字が２文字
連続して第１位候補文字以外となった場合には、求める
べき正しい単語が得られる保証はない。しかるに、最近
のようにＯＣＲ認識率が９５％以上にも達している現状
にあっては、２文字連続して誤る確率は極めて小さく、
実用上、問題にならないものといえる。

効果本発明は、上述したように構成したので、入力文字列の
構成文字分の辞書検索により得られた単語群のみについ
て入力文字列との照合を行なうので、外部記憶上に存在
し検索時間のかかる単語辞書へのアクセス回数を大幅に
減少させ、効率がよく、全体として照合処理時間の短縮
化を図ることができる。

【図面の簡単な説明】

第１図は本発明の一実施例を示すブロック図、第２図は
インデクスの模式図、第３図は単語辞書におけるデータ
の模式図、第４図はフローチャート、第５図は照合処理
のフローチャート、第６図は単語ラティスの模式図、第
７図は入力文字列の模式図、第８図は候補文字の組合せ
例を示す模式図である。３・・・辞書検索手段、４・・・照合手段、Ｓ・・・イ
ンデクス、６・・・単語辞書、６ａ・・・フラグ領域出
　願　人　　　株式会社　　　リ　コ　−〕へＬＯＮ

Claims

【特許請求の範囲】

　置換誤りの可能性を持つ候補文字を伴う入力文字列に
対し単語辞書を用いて正しい文字列に対応した単語の候
補を抽出する文字列と単語の照合装置において、単語を
その単語情報として辞書表記及び辞書表記と入力文字列
との照合方法を示すフラグ領域を備え文字毎に領域を区
分して格納する単語辞書と、文字をキーとしてその文字
を表記中に含む単語群が格納された前記単語辞書中の区
分された領域のアドレスを参照するインデクスと、入力
文字列中の各位置から前記インデクスを用いて前記単語
辞書中を検索する辞書検索手段と、この辞書検索手段の
検索により得られた単語群と入力文字列及び置換誤りの
候補文字との照合時に前記フラグ領域のフラグ値により
照合方法を変更する照合手段とからなることを特徴とす
る文字列と単合の照合装置。