JPH01194088A - 文字列と単語の照合装置 - Google Patents

文字列と単語の照合装置

Info

Publication number
JPH01194088A
JPH01194088A JP63019141A JP1914188A JPH01194088A JP H01194088 A JPH01194088 A JP H01194088A JP 63019141 A JP63019141 A JP 63019141A JP 1914188 A JP1914188 A JP 1914188A JP H01194088 A JPH01194088 A JP H01194088A
Authority
JP
Japan
Prior art keywords
word
dictionary
character string
character
input character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63019141A
Other languages
English (en)
Inventor
Katsuhiko Fujita
克彦 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP63019141A priority Critical patent/JPH01194088A/ja
Publication of JPH01194088A publication Critical patent/JPH01194088A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明は、例えば0CR1識結果に対する後処理装置、
さらには文書校正装置等に利用し得る文字列と単語の照
合装置に関する。
従来技術 近年、OCR技術の向上に伴い、文字認識精度の向上は
著しく、現在では、活字による漢字の認識率で95%を
越えるレベルに達している。しかし、誤った認識(置換
誤り)を皆無とすることは難しい。
そこで、一般には得られたOCR認識結果を基に単語辞
書の検索を行ない、辞書に登録されている単語の表記と
一致する認識結果を正しい認識結果とみなすための照合
処理が行なわれている。具体的には、「研究開発結果」
なる文字列に対するOCRによる認識結果の一例として
は例えば第7図に示すように第1位の候補文字「砿」「
究」「開」 「発」 「給」 「果」以外に、各々第2
位から第n(例えば、4)位までの候補が出力される。
そして、これらの組合せ、例えば先頭2文字分の組合せ
により第8図に示すような辞書検索用の文字列「研究」
 「破究」 「破空」・・・等を作成する。
次いで、これらを辞書検索のキーとして外部記憶上の辞
書にアクセスする、というのが−船釣な考え方、方法で
ある。
しかし、このような文字列と単語の照合方式の場合、外
部記憶へのアクセス回数が増え、時間及びコストがかか
る。第7図及び第8図に示した例では、先頭2文字だけ
で合計16回のアクセスが必要となる。この点は、特に
、第1位の候補文字の正解率が最近のOCR技術の向上
により高くなっていることを考慮すると、効率が悪い。
目的 本発明は、このような点に鑑みなされたもので、近年の
認識率の向上に伴い、2文字連続で誤る確率が極めて低
い点に着目し、置換誤りの可能性を持つ文字列と単語辞
書中の単語との照合を少ない回数で効率的に行なうこと
ができる文字列と単語の照合装置を得ることを目的とす
る。
構成 本発明は、上記目的を達成するため、置換誤りの可能性
を持つ候補文字を伴う入力文字列に対し単語辞書を用い
て正しい文字列に対応した単語の候補を抽出する文字列
と単語の照合装置において、単語をその単語情報として
辞書表記及び辞書表記と入力文字列との照合方法を示す
フラグ領域を備え文字毎に領域を区分して格納する単語
辞書と、文字をキーとしてその文字を表記中に含む単語
群が格納された前記単語辞書中の区分された領域のアド
レスを参照するインデクスと、入力文字列中の各位置か
ら前記インデクスを用いて前記単語辞書中を検索する辞
書検索手段と、この辞書検索手段の検索により得られた
単語群と入力文字列及び置換誤りの候補文字との照合時
に前記フラグ領域のフラグ値により照合方法を変更する
照合手段とからなることを特徴とする。
以下、本発明の一実施例を第1図ないし第6図に基づい
て説明する。本実施例のブロック構成を第1図に示す。
まず、入力文字列メモリ1が設けられている。この人力
文字列メモリ1はOCR等により認識され本発明の対象
とする入力文字列を蓄えたメモリである。即ち、置換誤
りの可能性を持つ候補文字を伴い得るものであり、実際
の文字列の格納方式は例えば第7図の模式図に示すよう
な方式である。
このような入力文字列メモリ1は制御部2に接続されて
いる。この制御部2はマイクロプロセッサ構成のもので
あり、図示しないメモリ中に格納された制御プログラム
に従い後述するデータ処理を行なう。具体的には、辞書
検索手段3と照合手段4とを備えている。辞書検索手段
3は入力文字列に対し主記憶上にあるインデクス5を利
用して外部記憶上の単語辞書6を検索し、その結果を主
記憶上の作業領域7に書込むものである。即ち、この作
業領域7はインデクス5に基づき検索された外部辞書の
内容を一時的に保存しておくためのものである。また、
照合手段4は辞書検索手段3による検索結果と入力文字
列とを照合し、照合に成功した単語を単語ラティス8に
書込むものである。即ち、この単語ラティス8も主記憶
上のメモリである。また、現在、入力文字列中のどの位
置について処理しているか等についての情報も、この制
御部2における制御プログラムが管理している。
ここに、前記インデクス5は辞書検索しようとする文字
列の先頭1文字に対応した外部記憶上の単語辞書6の特
定領域のアドレスを示したインデクスである。そのデー
タ構造は例えば第2図に示すようなものであり、インデ
クスのキーと外部記憶アドレスとからなり、例えば「泣
」なるインデクスのキーに対してはr2010Jなる外
部記憶アドレスが割当てられている。「究」であれば、
r2020Jが割当てられている。
また、外部記憶上の単語辞書6は例えば第3図(a)(
b)に示す如きデータ構造として構成されている。例え
ば第3図(a)は1文字目の第1位の候補文字である「
破」の単語辞書6におけるデータの模式図を示し、同図
(b)は2文字目の第1位の候補文字である「究」の単
語辞書6におけるデータの模式図を示す。何れも、フラ
グ領域6aと、辞書表記領域6b(辞書表記領域6bに
おいて、「*」は表記が尽きていることを示す)と、単
語情報領域6cとからなる。ここに、フラグ領域6aに
示す逆転フラグFは本実施例において重要な機能を持つ
。まず、この逆転フラグFが0の時には通常の辞書と同
様に照合することを意味する。
一方、逆転フラグF=1のものは、表記の1文字目は辞
書検索のインデクスとなった文字の位置より1つ前の入
力文字列と照合すべきことを示すものである。即ち、こ
の逆転フラグFが0か1かにより、照合手段4による照
合方式を変更させるものである。例えば、第3図(b)
中の逆転フラグF=1なる「班会」という文字列の場合
、「研」を「究」の直前の入力文字列と照合すべきこと
、  ′「会」は「究」の次の文字と照合すべきことを
意味する。このような逆転フラグFを照合処理に利用す
ることにより、単語の先頭文字が誤認識されている場合
でも照合が可能となるものである。
このような構成において、本実施例による照合処理方法
を第4図及び第5図のフローチャートを参照して説明す
る。ここでは、「研究開発結果」なる文字列に対し第7
図に示したように認識された入力文字列があったものと
する。
まず、入力文字列の先頭の位置(1文字目)にポインタ
をセットする(P←1)。本例では、先頭の第1位候補
文字「破」に対しこの文字をキーとしてインデクスSを
調べ、外部記憶上の単語辞書6中のアドレスを得る。前
述したように第2図に示すインデクスSの模式図中では
「破」の例が示されていないが、図示例のものと同様に
、単語辞書6中のアドレスがインデクス5により得られ
る。
ついで、このアドレスに基づき外部記憶上の単語辞書6
をアクセスし、文字「破」を1文字目又は2文字目に含
む単語の全てを一括して検索する。
この検索結果を主記憶上の作業領域7に一時的に書込む
。本例の場合、第3図(a)に従い、例えば逆転フラグ
F=Oなる「破(ら行5段動詞語幹)」や「破壊(す変
名詞)J、逆転フラグF=1なる「大破(す変名詞)」
などが得られる。
この後、照合手段4による照合処理を実行する。
この照合処理は第5図のフローチャートに従い行なわれ
る。ここでは、単語辞書6の検索により得られた単語を
1つずつ取り上げ、入力文字列との照合を行なう。この
際、逆転フラグFが0かlによって、照合方法が変更さ
れる。
例えば、文字「破」に関しては最初の「ら行5段動詞語
幹」の単語だけが照合に成功し、これだけが単語ラティ
ス8に書込まれる。これにより、入力文字列の1文字目
に対する照合処理が終了するので、制御部2ではポイン
タを1つ進め、入力文字列中の2文字目に対する同様な
処理を行なう。
ここに、第7図の例では2文字目の第1位候補は「究」
であるので、この「究」をキーとしてインデクスSを検
索する。これにより、単語辞書6中におけるアドレス2
020番地を得る。これに従い、単語辞書6中を検索し
、第3図(b)に示したような「究」に関するデータを
作業領域7上に書込む。そして、第5図の照合処理を行
なう。ここでは、第3図(b)中に示したものの内、逆
転フラグF=1なる「研*Jのデータが入力文字列と照
合する。「研Jは1字前の第4位候補文字(第7図参照
)だからである。この照合結果を単語ラティス8に書込
む。
以下、同様に辞書検索の位置を1文字ずつずらしながら
、入力文字列が尽きるまで繰返すことにより、「研究開
発結果」なる正しい照合結果が得られることになる。
第6図はこのような処理に従う単語ラティス7の書込み
状態の変遷の模式図を示すものであり、図中、Pは各々
のポインタによる結果との対応関係を示す。
本実施例によれば、候補文字の組合せ作成−外部記憶上
の辞書検索ではなく、辞書検索により得られた単語群に
ついて入力文字列との照合を行なうので、例えばn文字
からなる文字列に対し、9回だけ外部記憶上の単語辞書
6をアクセスすればよく、そのアクセス回数を大幅に減
少させ得る。
従来方式による場合、同一の照合位置にて何回も(少な
くとも候補文字の数)だけ外部記憶をアクセスする必要
があるのに比べると、遥かに高速処理し得る。
ところで、本実施例による場合、正解なる文字が2文字
連続して第1位候補文字以外となった場合には、求める
べき正しい単語が得られる保証はない。しかるに、最近
のようにOCR認識率が95%以上にも達している現状
にあっては、2文字連続して誤る確率は極めて小さく、
実用上、問題にならないものといえる。
効果 本発明は、上述したように構成したので、入力文字列の
構成文字分の辞書検索により得られた単語群のみについ
て入力文字列との照合を行なうので、外部記憶上に存在
し検索時間のかかる単語辞書へのアクセス回数を大幅に
減少させ、効率がよく、全体として照合処理時間の短縮
化を図ることができる。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
インデクスの模式図、第3図は単語辞書におけるデータ
の模式図、第4図はフローチャート、第5図は照合処理
のフローチャート、第6図は単語ラティスの模式図、第
7図は入力文字列の模式図、第8図は候補文字の組合せ
例を示す模式図である。 3・・・辞書検索手段、4・・・照合手段、S・・・イ
ンデクス、6・・・単語辞書、6a・・・フラグ領域出
 願 人   株式会社   リ コ −〕へ LO N

Claims (1)

    【特許請求の範囲】
  1.  置換誤りの可能性を持つ候補文字を伴う入力文字列に
    対し単語辞書を用いて正しい文字列に対応した単語の候
    補を抽出する文字列と単語の照合装置において、単語を
    その単語情報として辞書表記及び辞書表記と入力文字列
    との照合方法を示すフラグ領域を備え文字毎に領域を区
    分して格納する単語辞書と、文字をキーとしてその文字
    を表記中に含む単語群が格納された前記単語辞書中の区
    分された領域のアドレスを参照するインデクスと、入力
    文字列中の各位置から前記インデクスを用いて前記単語
    辞書中を検索する辞書検索手段と、この辞書検索手段の
    検索により得られた単語群と入力文字列及び置換誤りの
    候補文字との照合時に前記フラグ領域のフラグ値により
    照合方法を変更する照合手段とからなることを特徴とす
    る文字列と単合の照合装置。
JP63019141A 1988-01-29 1988-01-29 文字列と単語の照合装置 Pending JPH01194088A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63019141A JPH01194088A (ja) 1988-01-29 1988-01-29 文字列と単語の照合装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63019141A JPH01194088A (ja) 1988-01-29 1988-01-29 文字列と単語の照合装置

Publications (1)

Publication Number Publication Date
JPH01194088A true JPH01194088A (ja) 1989-08-04

Family

ID=11991175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63019141A Pending JPH01194088A (ja) 1988-01-29 1988-01-29 文字列と単語の照合装置

Country Status (1)

Country Link
JP (1) JPH01194088A (ja)

Similar Documents

Publication Publication Date Title
Dengel et al. Techniques for improving OCR results
CN101388012A (zh) 带有易混淆音识别的拼音检查系统和方法
JPS6140671A (ja) 単語分割処理方法
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
JPH01194088A (ja) 文字列と単語の照合装置
JP2570784B2 (ja) 文書リーダ後処理装置
JPH0441388B2 (ja)
JPS59100939A (ja) 日本語入力装置
KR950001059B1 (ko) 한글주소 인식방법 및 장치
JPS646499B2 (ja)
JPH0438026B2 (ja)
JPH06274701A (ja) 単語照合装置
JP3725206B2 (ja) 文字認識装置
JP2839515B2 (ja) 文字読取システム
JPH1021252A (ja) 情報検索装置
JP2947832B2 (ja) 単語照合方法
JPH0233185B2 (ja)
JPH0340434B2 (ja)
JPS63138479A (ja) 文字認識装置
JPH0484290A (ja) 文字認識後処理方式
JPH03127254A (ja) 単語検索装置
JPH09120436A (ja) 単語照合方法
JPS6121581A (ja) 文字認識装置
JPS62107388A (ja) パタ−ン認識装置
JPH0786908B2 (ja) 単語照合装置