JPH07152774A - 文書検索方法および装置 - Google Patents

文書検索方法および装置

Info

Publication number
JPH07152774A
JPH07152774A JP5326330A JP32633093A JPH07152774A JP H07152774 A JPH07152774 A JP H07152774A JP 5326330 A JP5326330 A JP 5326330A JP 32633093 A JP32633093 A JP 32633093A JP H07152774 A JPH07152774 A JP H07152774A
Authority
JP
Japan
Prior art keywords
document
character
search
character string
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5326330A
Other languages
English (en)
Inventor
Atsushi Hatakeyama
敦 畠山
Hiromichi Fujisawa
浩道 藤澤
Yoshihiro Shima
好博 嶋
Satoshi Asakawa
悟志 浅川
Kanji Kato
寛次 加藤
Katsumi Marukawa
勝美 丸川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP5326330A priority Critical patent/JPH07152774A/ja
Publication of JPH07152774A publication Critical patent/JPH07152774A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文書をOCRにより検索用の文字コード列に
変換する文書検索装置において、検索文字列を誤認識し
易い文字列へ展開して検索漏れを少なくする。 【構成】 文字コード列130には紙の形態の文書をス
キャナ120を用いてイメージ入力し、文字を文字認識
手段を用いて認識し、その認識出力をそのまま用いてテ
キストコードに変換し、登録した文字コード列であり、
画像データ140は上記のイメージデータである。文字
展開用ルールベース150には文字認識手段が誤認識し
易い文字について複数の候補をあげた類似文字列リスト
が登録されている。検索時には、検索文字列展開プログ
ラムにより検索条件式の検索文字列を類似文字列リスト
を用いて展開して展開文字列を生成し、該展開文字列の
いずれかの文字列を含む文書を文字列検索プログラムに
より検索する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書データベースを登
録及び検索する装置に係わり、特に登録する文書が紙の
形態で提供される場合に文書の登録作業を軽減するのに
好適な文書検索装置に関する。
【0002】
【従来の技術】従来より、文書を画像としてファイリン
グし、フルテキストサーチを行う文書ファイリングシス
テムが「特開昭62−44878」で提案されている。
このシステムは、文書を画像として蓄積すると共に、該
文書の本文またはその一部を文字コード列として記憶す
ること、さらに、該文字コード列は曖昧性を残した文字
認識結果を許容し、該文字列のストリングマッチングを
行うことによりフルテキストサーチを可能とすることを
特徴としている。ここで曖昧性を残した文字認識結果と
は、画像から文字コード列へ自動変換する手段であるO
CR(Optical Character Read
er)の出力の候補文字をオペレータの修正無しにその
まま出力したものである。具体的には、「・・・文字認
識による本文検索・・・」の文字認識結果として「・・
・文[字学]認[識職]による[本木]文検索・・・」
のように、一文字単位に候補文字を特殊記号の‘[’と
‘]’で囲んで表現した文字コード列を示している。こ
の例でいえば、‘字’と‘学’、‘識’と‘職’、およ
び‘本’と‘木’が一意に候補を定められなかった曖昧
性のある文字認識結果である。上記システムでは、この
ような曖昧性を残した文字認識結果を検索対象とするこ
とによって、文書認識結果を人間が逐次検査し、誤りを
修正する作業を無くすることが効果としてあげられてい
る。そのために、文字列を探索する有限オートマトンに
ついて、OCRの候補文字を示す特殊記号‘[’
と‘]’を許容するための拡張を行っている。この拡張
は、‘[’と‘]’の間にある文字のいずれかが照合す
べき文字とマッチングした場合に次の状態へ遷移するた
めの拡張で、一意的に定まる変換であるとしている。こ
のオートマトンの拡張を行うことで、「・・・文[字
学]認[識職]による[本木]文検索・・・」のような
曖昧性を残した文字認識結果のテキストと「文字認識」
という検索文字列との照合を可能としている。このよう
に、従来は画像データからOCRを用いて文字コード列
に自動変換するときに、認識文字単位でOCRの候補文
字を文字コード列に残しておくことで、認識誤りによる
検索漏れを少なくする技術が知られていた。また、OC
Rにおける文字切り出しによる誤認識を解決する方法と
して「特開平2−139686」が提案されている。こ
れは、半角サイズ、全角サイズの2通りで切り出した画
像データをそれぞれOCRに認識させ、類似度の大きい
方の文字コードを認識結果として採用するものである。
【0003】
【発明が解決しようとする課題】しかしながら、前記の
従来技術では検索漏れを少なくするために候補文字をす
べて検索対象の文字コード列中に格納しておく必要があ
った。このことは、蓄積するデータ量が増大することを
意味する。これを具体的に数値で説明する。今、全n文
字の文書があり、このすべてのn文字についてそれぞれ
5個ずつの候補文字をOCRが出力したとする。一個の
文字について2バイトのデータを必要とし、候補文字の
識別コード‘[’と‘]’をそれぞれ1バイトとすれ
ば、この認識結果の文字コード列のデータ長は、 (1+5×2+1)n = 12n[バイト] となり、もとのデータ量 2n[バイト]に較べ、6倍
に増大していることがわかる。また、文字単位にOCR
の候補文字を出力する前記方式では、文字の切り出し誤
りにより、“林”と“木木"あるいは“111”と“川”の
ように、一文字と捉えていた画像データが実際には複数
文字と認識されたり、逆に複数文字で構成された文字列
を一文字と誤って認識した場合に、検索漏れを避ける方
法がなかった。つまり、“林”という文字の画像データ
から、“材”“社”“林”“竹”“牧”や“朴”のよう
に他の文字の候補を列挙することはできるが、その画像
データが複数文字に分解できることを考えていなかっ
た。そのため、“林”と認識した文字が、“木木”のよ
うに実際には複数文字からなっていた場合には、文書検
索の際に検索文字列“木木”で探索すると、実際にはそ
の文字列を含む文書であるにもかかわらす検索漏れとな
ってしまう。逆に、実際には“川”と書かれている文書
を誤って“111”とOCRで認識すると、文字単位に
“1”は“l”かもしれないと候補文字をあげることはあ
っても、“111”の3文字からなる文字列が一文字の
“川”であるかもしれないという候補をあげることはな
かった。そのため、該文書を検索文字列“川”で探索す
ると、“川”と“111”が照合せずに検索漏れとなって
しまう。さらにまた前記方式によれば、OCRが候補文
字として正解の文字コードを出力しなければ永久にその
該当文字列を検索することができないという欠点があ
る。具体的には、テキスト「・・・文字認識による本文
検索・・・」の文字認識結果として「・・・文[写学]
認[識職]による[本木]文検索・・・」のような文字
コード列が得られた場合には、‘字’の部分が正しく認
識されていないため、“文字認識”という検索文字列で
は該文書が絶対に検索できないことを意味している。本
発明の目的は、上記の問題点を解決し、登録する文書が
紙の形態で提供されOCRを利用して検索用の文字コー
ド列に変換する文書検索装置において、第1に蓄積する
データ量を少なく保つようにすることにあり、第2に複
数文字単位での認識誤りを修正できるようにすることに
あり、第3に認識結果の候補文字に正解の文字が無くと
もデータベース構築後に検索漏れを救うようにすること
にある。
【0004】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、紙の形態の文書をイメージデータとして
取り込むためのスキャナと、検索結果を表示するディス
プレイと、検索条件式を入力するキーボードと、文書を
テキストコードの状態で蓄積する蓄積手段と、蓄積した
テキストコードを読出して検索条件式として指示された
文字列が存在する文書を検索する検索手段と、文書を登
録する際に紙の形態の文書を該スキャナを用いてイメー
ジ入力し文字認識手段を用いてテキストコードに変換し
て前記蓄積手段に登録する手段を持つ文書検索装置にお
いて、蓄積手段への文書のテキストコード登録時には文
字認識手段が認識出力した文字をそのまま登録し、検索
時には、検索条件式の検索文字列を文字認識手段が誤認
識しやすい文字について複数の候補をあげた類似文字列
リストにより展開して展開文字列を生成し、該展開文字
列のいずれかの文字列を含む文書を検索するようにして
いる。また、類似文字列リストには、文字認識手段の誤
認識しやすい文字の形に着目して類似しているものを候
補文字として列挙するようにしている。また、類似文字
列リストには、蓄積手段に登録する文書とは別に予め全
ての文字について文字認識を行いその結果の認識候補を
候補文字として列挙するようにしている。また、類似文
字列リストには、“林”に対する“木木"あるいは“11
1”に対する“川”のような文字認識手段の文字切り出
し処理に起因して誤認識となる認識候補を候補文字とし
て含むようにしている。また、単語辞書を設け、検索時
に、検索文字列を展開した展開文字列により最初に単語
辞書を検索し、ヒットした単語があるとき、該単語を検
索する可能性のあることをユーザに対して表示した後に
文書を検索するようにしている。また、検索時にユーザ
に表示した単語辞書中の単語のうち探したくない単語を
ユーザが選択指示したとき、該ユーザが選択指示した単
語のみを前記展開文字列から省いて検索するようにして
いる。また、取り込んだイメージデータを蓄積手段に登
録し、検索の結果該当する文書を表示するときには蓄積
手段に登録されたイメージデータを表示するようにして
いる。また、蓄積手段への文書のテキストコード登録時
には文字認識手段が認識出力した文字をそのまま登録
し、該登録の際に複数個の候補があげられた文字につい
ては、どのような候補があげられたかを示す統計情報を
生成してこれを格納し、検索時には、検索条件式の検索
文字列を前記統計情報に基づき展開して展開文字列を生
成し、該展開文字列のいずれかの文字列を含む文書を検
索するようにしている。
【0005】
【作用】ユーザが入力する検索文字列を類似文字列リス
トに基づき展開して展開文字列を生成し、検索時には、
この展開文字列により検索対象の文字コード列との照合
を行なうため、OCRで認識された候補文字を検索対象
文字コード列にあらかじめ挿入しなくとも、OCRの認
識誤りを補正して、検索漏れを少なくすることができ
る。これにより、検索対象文字コード列の容量を削減す
ることができるとともに、OCRの文字切り出し誤りを
も補正して検索することが可能となる。また、類似文字
列リストを検索対象の文字コード列にあわせて入れ替え
ることで、より適切な展開文字列を生成することがで
き、検索ノイズも軽減することができる。
【0006】
【実施例】まず、本発明の概略について説明する。OC
Rの出力する文字コード列は、文書のOCRが一文字と
判定した文字の画像データのそれぞれについて一種類の
文字コードを出力したものである。 文字展開用ルールベースは、 「“材”“社”“林”“竹”“牧”“朴”“木ト”“ホ
ト”“木木”“ホホ”」 のように、認識誤りしやすいと考えられる文字列につい
て、その例を列記した文字列のリストを蓄積しており、
検索時には与えられた文字列の該当部分を文字列のリス
トで置き換えることによって、検索文字列を展開した展
開文字列を生成する。以後、この認識誤りしやすい文字
列を列記したリストを類似文字列リストと呼ぶ。例え
ば、検索文字列として“小林”の文字列が与えられた場
合には、“林”の部分を上記例の類似文字列リストで置
き換えて “小[材,社,林,竹,牧,朴,木ト,ホト,木木,ホ
ホ]” という展開文字列を出力する。ここでは、“[”
と“]”は候補文字列リストの区切り記号、“,”は候
補文字列の区切り記号としての特殊な文字を示す。 この文字列は、 “小材” “小社” “小林” “小竹” “小牧” “小朴” “小木ト” “小ホト” “小木木” “小ホホ” の各文字列を表すものである。
【0007】上記の展開文字列を用いて文書のデータベ
ースを格納しているディスク内の文書の文字コード列を
検索する。すなわち、ディスクにある文字コード列を順
次読み出して、該当する文字列があるか照合する。例え
ば、検索文字列の展開文字列の例が前記の“小林”の
例、すなわち “小[材,社,林,竹,牧,朴,木ト,ホト,木木,ホ
ホ]” であり、ディスク中の蓄積された文字コード列が、 「・・・私の小字校時代には、同級生に小木木という男
がいた・・・」 のように、“学”が“字”に、“林”が“木木”にそれ
ぞれ誤認識されている場合でも、展開文字列の中に“小
木木”の文字列があるので照合することができるように
なる。
【0008】次ぎに、処理の概要を説明する。まず、文
書検索装置への文書登録について説明し、次に検索処理
について説明する。文書登録は、まず紙の形態の文書か
らイメージスキャナを用いて画像データの形で装置へ取
り込む形で行われる。取り込んだ画像データは、データ
ベースへ蓄積すると共に、文字認識手段のOCRにより
文字コード列へ変換され、画像データと同様にデータベ
ースへ蓄積する。ここでデータベースは、文書の画像デ
ータとそれを文字認識した結果の文字コード列の2種類
のデータで構成される。これら2種類のデータは、文書
単位に識別子を付けて管理され、この識別子によって文
書単位にデータを取りだす。例えば、文字コード列のデ
ータを検索して検索条件に合致する文書の識別子を選
び、検索結果としてその識別子を持つ画像データを取り
出すようにする。
【0009】検索処理では、まず、ユーザの要求してい
る文書を探す条件として、文書中に含むべき文字列すな
わち検索文字列を入力する。入力した検索文字列を展開
して展開文字列を得る。次に、この展開文字列により、
データベースから文字コード列のデータを読み出して照
合を行ない検索をする。検索の結果、展開文字列のいず
れかに照合する文字コード列を持つ文書があれば、その
識別子を出力する。そして、得られたユーザの要求する
検索文字列を含む文書を一覧表示し、あるいは画像デー
タをディスクから取り出して表示する。
【0010】次に展開文字列の生成と検索について説明
する。文字展開用ルールベースは、類似文字列リストを
蓄えており、これにより与えられた文字列の一部を候補
文字列で置き換える処理が行なわれる。以下、この処理
を具体例で説明する。類似文字列リストは次のように部
分文字列の組として蓄えられるものである。 「“材”“社”“林”“竹”“牧”“朴”“木ト”“ホ
ト”“木木”“ホホ”」 「“織”“識”“職”」 「“字”“学”」 「“c”“C”」 「“O”“o”“0”」 ここで、‘「’と‘」’で囲まれる部分文字列が、類似
文字列リストを表している。つまり、アルファベット大
文字の“O”という文字列は、アルファベット小文字の
“o”や数字の“0”に誤って読み取られる可能性があ
ることを示している。検索文字列が与えられると、該当
する部分を類似文字列リストで置き換えていくものであ
る。例えば、 “文字認識” という検索文字列が与えられると、上記の類似文字列リ
ストの中に“字”の部分と“識”の部分が該当するの
で、その部分を類似文字列リストで置き換えた文字列、 “文[字,学]認[織,識,職]” を出力する。この文字列は、部分的に挿入された文字列
リストのそれぞれの部分文字列のすべての組合せ、 “文字認織” “文学認織” “文字認識” “文学認識” “文字認職” “文学認職” を表している。
【0011】このような類似文字列リストに格納される
OCRで誤りやすい文字列の組は、文字の偏やつくりに
着目して、形の似ているものを選んで作成することがで
きる。また、実際にすべての文字コードに対応する文字
を一度スキャナを通して画像データにし、OCRで一文
字について少なくとも一文字以上の候補文字を抽出する
ことで作成することもできる。つまり、この時はOCR
の出力する候補文字の文字コードと正解の文字コードの
組が、類似文字列リストであるということができる。さ
らに、この類似文字列リストをOCRの特性別に複数個
用意することで、データベースを作成したときのOCR
の特性にあった候補文字列をあげることができ、もう一
度認識処理を繰り返すことなく検索漏れをなくすことが
できるようになる。
【0012】また、1バイトのアルファベット文字列か
らなる英文文書用、あるいは1バイト2バイトコードの
混在する日本語文書用など、文字認識する文書の種類に
よって部分文字列の組を取り替えて候補文字列の生成を
行うことで、その文書の特性にあった候補文字列の生成
を行うことができる。具体的には、英文文書用ならば、
2バイト文字の生成は必要ないので、 「“c”“C”」 「“o”“O”“0”」 「“l”“1”」 のように、1バイトの文字についての候補文字を列挙す
れば良い。日本語文書用の類似文字列リストについて
は、上記の1バイト文字の候補文字に加えて、同一の文
字を表す2バイトの文字と、“川”のような1バイト文
字に認識誤りされやすい文字についての候補文字を加え
る。例えば、日本語文書用の類似文字列リストは以下の
ようになる。 「“c”“C”“c”“C”」 「“o”“O”“0"“o”“O”“0”」 「“l”“1”“l”“1”」 「“lll”“川”」 「“材”“社”“林”“竹”“牧”“朴”“木ト”“ホ
ト”“木木”“ホホ”」 「“織”“識”“職”」 「“字”“学”」 このように、英文文書用、日本語文書用と2種類の部分
文字列の組を蓄積し、展開文字列の生成時にどちらの部
分文字列の組を使用するか選択することも可能である。
これにより、データベースに格納された文書の文字の特
性に応じた適切な展開文字列への展開が可能となる。
【0013】次ぎに、検索について説明する。検索で
は、検索文字列から生成された展開文字列とディスクに
蓄積された検索対象の文書の文字コード列との照合を行
う。今、検索文字列“小林”が以下のように展開文字列
に展開されたとする。 “小[材,社,林,竹,牧,朴,木ト,ホト,木木,ホ
ホ]” そして、ディスク内の文書の文字コード列は、以下のよ
うになっているとする。 「私の小字校時代には、同級生に小木木という男がいた
・・・」 既に説明したように、記号‘[’及び‘]’は、その中
の文字列のいずれかが探索対称に存在すれば、検索文字
列に照合することを意味する。そこで、展開文字列を参
照し、‘[’と‘]’で囲まれた部分文字列であればそ
のいずれかと、‘[’と‘]’で囲まれていない文字列
についてはそれ自身との照合動作を行う。例えば、展開
文字列“小[材,社,林,竹,牧,朴,木ト,ホト,木
木,ホホ]”の最初の文字“小”は‘[’と‘]’で囲
まれていないので、検索対象の文字コード列に“小”の
文字がある場合に照合する。照合した場合は、展開文字
列中の次の文字との照合を行う。この場合、次の文字は
記号‘[’である。従って、候補文字列の終端を表す記
号‘]’までのそれぞれの候補文字列との照合を行う。
今、検索文字列の最初の文字“小”が探索対象文字コー
ド列の3文字目で照合したので探索対象文字コード列の
次の文字すなわち、“字”と展開文字列の第2文字目に
相当する候補文字列、 “[材,社,林,竹,牧,朴,木ト,ホト,木木,ホ
ホ]” のそれぞれの文字列との照合を行っていく。この場合
は、いずれの文字列とも“字”は照合しないので、展開
文字列に該当する文字列は対象文字コード列に存在しな
いとして、また第1文字目の“小”の照合動作を対象文
字コード列の次の文字から行っていく。次に“小”が照
合するのは、対象文字コード列の15文字目であるの
で、その次の文字“木”と展開文字列の第2文字目に相
当する候補文字列、 “[材,社,林,竹,牧,朴,木ト,ホト,木木,ホ
ホ]” との照合を行う。この場合には、候補文字列中の第7番
目及び、第9番目が照合するので、引き続き対象文字コ
ード列との照合を続け、最終的に候補文字列の第9番目
の文字列“木木”と照合する。ここで、展開文字列のす
べての文字と照合したことになるため、該当の展開文字
列における文字列“小木木”が対照文字コード列にある
ことが出力される。これにより、一致した文字列が存在
した文書を照合する文書として出力する。
【0014】以下、本発明の実施例について詳細に説明
する。図1は、本実施例の構成を示す図である。本実施
例は、端末100、登録及び検索処理を実行するCPU
110、紙の形態の文書を画像データとして読み取るス
キャナ120、文字認識後の文字コード列を格納する磁
気ディスク130、文字認識前の画像データを格納する
磁気ディスク140、類似文字列リストを格納した文字
展開用ルールベース150、文字認識用パターン辞書1
60、文書登録プログラム、文字認識プログラム、文書
検索表示プログラム、文字列検索プログラム、検索文字
列展開プログラムを格納したメモリ170及びワークメ
モリ180からなる。
【0015】まず、登録処理の流れに従って、各プログ
ラムの処理の詳細を説明する。図2は、登録処理の概要
を示す図である。まず、メモリ170上の文書登録プロ
グラムを起動することにより、スキャナを用いて紙の形
態の文書を画像データとして取り込む。画像データは磁
気ディスク140へそのまま格納するとともに、文字認
識プログラムを用いて文字コード列へ変換して磁気ディ
スク130へも登録する。このような文書登録プログラ
ム及び文字認識プログラムのアルゴリズムを図3のPA
D図を用いて説明する。まず、文書登録プログラムはス
キャナから文書の画像データを取り込み、次に文字認識
プログラムを起動して取り込んだ画像データに含まれる
文字情報を、パターン辞書をもとに文字コード列へ変換
する。文字認識プログラムのアルゴリズムは、従来の方
法で知られるように、まず一文字単位に画像データを切
り出す文字切り出しを行い、次に切り出した一文字分の
画像データを該当する文字コードへと変換していく。こ
の画像データ取り込み及び文字コードへの変換を一文書
分すべて行なった後、認識した文字コード列を格納し、
かつ認識前の画像データも磁気ディスクへと格納する。
【0016】次に、文書検索処理の流れについて説明す
る。まず、検索処理の概略について図4を用いて説明す
る。メモリ170上の文書検索表示プログラムでは、端
末100よりユーザが探そうとしている検索文字列を入
力し、検索文字列展開プログラムを用いて類似文字列リ
ストを含む文字列へ検索文字列を展開する。展開した後
の文字列は、文字列検索プログラムにより、文字列探索
用のオートマトンを生成し、磁気ディスク130に格納
されている文字コード列を読み出して該当文字列の探索
を始める。最後に文書検索表示プログラムは結果の件数
を表示し、ユーザの要求に従い画像データを表示する。
【0017】検索文字列展開プログラムでは、図に示す
ような文字展開用のルールベースを使って展開処理を行
なう。例えば、検索文字列“文字認識”が入力された場
合には、図の文字展開用ルールベースの第1レコードに
ある[識,織,職]のルールが検索文字列の第4文字目
“識”に適用され、 “文字認[識,織,職]” と展開される。以上の展開処理の詳細を図5及び図6を
用いて説明する。図5は、文字展開用ルールベースとル
ールベースにアクセスするためのインデクステーブルを
示している。ルールベース中のすべての文字はインデク
ステーブル中に登録され、一文字単位で該当の文字を含
むルールベースへのアクセスができるようになってい
る。ルールベースは、展開すべき文字列を特殊記
号‘,’で区切った部分文字列の組の列として表されて
いる。もちろん、“識”のように一文字の場合もあれば
“木木”のように複数文字が登録されている場合もあ
る。例えば、“識”の文字が検索文字列中に出てきた場
合には、インデクステーブルの“識”を参照し、該当す
るルールベース「識,織,職」があることがわかる。検
索文字列展開プログラムでは、図6のPAD図に示すよ
うに、まずワークポインタを検索文字列の先頭文字にセ
ットし、検索文字列の終わりまでインデクステーブル
に、文字展開用ルールベースへのポインタ情報があるか
探索を繰り返す。インデクステーブルにポインタ情報が
あり、かつポインタの指す文字展開用ルールベースの文
字列リスト中の文字列に照合する場合、検索文字列の該
当部分をそのリストで置き換える処理を行う。例えば、
前記の例で、“文字認識”という検索文字列が入力され
た場合、第4番目の文字“識”がインデクステーブルに
登録されており、かつインデクステーブルの指す文字展
開用ルールベースの第一レコードの“識”の文字列と照
合するので、検索文字列の該当部分を置き換えることに
より、最終的に検索文字列を展開した展開文字列 “文字認[識,織,職]” が得られる。
【0018】文字列探索用のオートマトンとは、図7に
示すもので、文字を一文字ずつ取り込みながら、該当文
字が来ると状態を遷移させ、最終の状態に達した時に該
当文字があったことがわかる仕組みになっているもので
ある。このオートマトンは、図8に示す状態遷移表に従
って状態を変化させ、図9に示す出力テーブルにある該
当の状態に遷移したときに検索文字列があったことを示
す出力ID(検索文字列、例えば「文字認識」、に付与
されたID)を出力するものである。図7に示したオー
トマトンは、検索文字列の展開結果 “文字認[識,織,職]” を探索するオートマトンの例である。この例では、図8
の状態遷移表に従って、状態0から、“文”が入力して
状態1へ、“字”が入力して状態2、“認”が入力して
状態3へと遷移していくことを意味している。図示して
いない文字が、入力した場合には、状態0へ戻ることに
なる。そして、状態3から状態4への遷移は、“識”
“織”あるいは“職”のいずれかの文字で遷移できるよ
うに、3本の遷移がある。 状態4まで来ると、 “文字認識” “文字認織”あるいは “文字認職” のいずれかの文字コード列が入力されたことを意味して
いるので、検索文字列が見つかったことになる。つま
り、この例では、図9に示す出力テーブルにある状態4
に遷移したときにID101を出力する。これにより、
検索文字列 “文字認識” “文字認織”あるいは “文字認職” のいずれかの文字列が見つかったことがわかる。最終的
に、検索文字列の存在した文書は、検索結果として端末
へ表示される。この検索結果の表示は、文字認識前の画
像データを表示する。
【0019】以上の文書検索表示プログラムのアルゴリ
ズムを図10のPAD図を用いて説明する。まず、条件
式を入力し、検索文字列展開プログラムにより条件式中
の検索文字列について上記の展開処理を行う。次に文字
列検索プログラムにより、展開した文字列を探索するた
めのオートマトンを生成して、蓄えているテキストデー
タをオートマトンに入力していくことで与えられた検索
文字列に該当するテキストコード列がある文書を探索し
ていく。このとき、ヒットした文書の文書IDをワーク
メモリ180に一時退避しておき、全てのテキストデー
タの探索が終わった後に、ヒット件数を表示する。ヒッ
ト件数の表示後、ヒットした文書の画像データを表示す
るかユーザに問い合わせ、表示する場合には、文書ID
をもとに対応する画像データを画像データファイル14
0より取り出して表示する。テキストデータ及び画像デ
ータは図11と図12に示すように、文書IDによりデ
ータ中の該当部分が取り出せるようになっている。すな
わち、文書ID順にファイルの先頭位置からのオフセッ
トとデータ長さを格納するディレクトリ部によって、該
当文書がデータファイル中のどの位置にあるかがわかる
ので、文書単位での読み出しが可能である。
【0020】以上、第一の実施例を説明した。本実施例
によれば、紙の形態の文書を登録するのに、登録時の文
字認識の誤りを検索時に補正して検索することができる
ので、認識誤りのテキストデータ列がデータベースに登
録されていても、データベースを変更することなく、正
しい検索結果を得ることができる。
【0021】次に、図13を用いて第2の実施例を説明
する。図13は、第2の実施例を説明する構成図であ
る。第1の実施例と異なる点は、第1の実施例はスタン
ドアロンの装置であったが、第2の実施例の場合はネッ
トワークを介したクライアントサーバシステムになって
いることである。各クライアントは、スキャナと画像読
込み転送プログラムを持ち、手元の文書を画像データと
してサーバに送り、サーバで文字認識処理をしてテキス
トデータとして登録することができるようになってい
る。もちろん、サーバ側のスキャナから文書の画像デー
タを取り込んで登録することも可能である。クライアン
トには、検索条件式作成転送プログラムと、検索結果表
示プログラムを持ち、これらのプログラムがLANアダ
プタを介して、サーバのサーバ管理プログラムと通信す
ることによって、検索条件式の入力、検索、検索結果の
表示を行うことができる。
【0022】さらに、第1の実施例と異なる点は、サー
バ側に単語辞書と単語照合用プログラムを有する点であ
る。これらは、文字列展開処理後の展開文字列が検索文
字列とは全く意味の異なる単語を含んでいる場合、ユー
ザにそのような意味の異なる単語でも照合してしまう可
能性のあることを伝えるために用いる。具体的に説明す
ると、検索文字列“識別”を展開して “[識,織,職]別” となった場合、OCRが認識誤りをしていなくとも、
“職別”という単語が使われている文書が全てヒットす
ることになる。このような場合に、単語辞書と展開処理
後の文字列との照合を行い、検索文字列の“識別”以外
に“職別”という単語が辞書中に存在すれば、ユーザに
その旨を伝えることができる。クライアントの検索条件
式作成転送プログラムは、ユーザに確認を求めその単語
を除外して検索する指示をサーバに送るか、もしくは検
索した後にそのような意味の異なる単語でもヒットして
いる可能性があることを表示することもできる。このよ
うに、単語辞書を用いることで、文字列展開処理によっ
てノイズがヒットしてしまうことをユーザにワーニング
を出したり、その語を除外して検索することができる。
【0023】以上第2の実施例を説明した。本実施例に
よれば、多数のクライアントから集中管理されたサーバ
にアクセスすることで、文書データを共有し、再利用す
ることが可能となる。また、単語辞書及び単語辞書照合
プログラムを持つことで、検索文字列展開処理から発生
するノイズもユーザに告知し、未然に防ぐことが可能と
なる。
【0024】次ぎに、第3の実施例を説明する。
【0025】図14は、本実施例を説明する構成図であ
る。本実施例では、第1の実施例と異なり、文字展開用
ルールベースの代わりに文字コード・文字認識結果対応
テーブルを用いている。文字コード・文字認識結果対応
テーブルとは、図15に示すようにあらかじめ全ての文
字を印字した紙をスキャナを用いて文字認識を行ない、
その結果得られた候補文字列を正解の文字コードと対応
付け類似文字列リストとして登録したものである。図1
5の例で、検索の流れを説明する。第1の実施例と同様
に、検索対象とする文字コード列は、OCRの認識誤り
を含む文字コード列である。本図が示す例では、検索文
字列として"挨拶"を入力している。入力された検索文字
列は、文字コード・文字認識結果対応テーブルを用いて
検索文字列展開プログラムにより展開される。ここで
は、"挨"の文字が文字コード・文字認識結果対応テーブ
ルに登録されているので、"[挨,拝]"と展開して、展開
文字列 "[挨,拝]拶"で文字列検索を行なう。文字コー
ド・文字認識結果対応テーブルには、実際に印刷された
文字の認識結果の候補文字が登録されているので、OC
Rの認識誤りを起こしやすい文字列が含まれていること
になるため、より検索のヒット率が良くなる。以上、第
3の実施例の説明をした。本実施例によれば、実際の文
字認識結果の候補を利用して検索文字列の展開を行なう
ために、OCRの特性や文書の文字フォントに応じた検
索文字列の展開が適切に行なえるという効果がある。
【0026】また、第3の実施例の拡張として、全ての
文字を印字した紙をスキャナを用いて文字認識を行なう
のではなく、図16に示すように登録文書の認識結果か
ら文字展開用ルールベースを作成することも可能であ
る。図16の例では、過去の入力文書の文字認識結果を
蓄えておく共起確率テーブルを用いて文字展開用ルール
ベースを作成している。共起確率テーブルとは、文字認
識において複数候補があげられた場合に、第1候補の文
字を文字カテゴリとして、その語の出現回数と、認識候
補文字の現われた頻度を蓄えたテーブルである。この候
補文字の現れる頻度をここでは共起確率として表現して
いる。共起確率とは、該当する文字カテゴリについて、
その文字が候補としてあげられる確率のことである。例
えば、図16の例では、"識"と第1候補にあげられた文
字は20,456回これまでに出現し、"織"が候補にあ
げられた確率が0.5すなわち10,228回で、"職"
が候補にあげられた確率が0.4すなわち8,182回
であることが記録されている。
【0027】図16はこのような共起確率テーブルを登
録文書を認識しながら更新し、文字展開用ルールベース
を作成する例を示している。登録文書を文字認識した結
果、図では"文"について[文,大]と、"識"について
[識,職]とそれぞれ複数の候補があげられているので、
共起確率テーブルの文字カテゴリ"文"と"識"のレコード
の出現回数を1増加し、それぞれのレコードの共起確率
を計算し直す。すなわち"織"や"職"などの共起確率から
それまでの候補としてあげられた回数を計算し、新たに
出現した回数を元にして共起確率を計算し直す。このよ
うにして得られた共起確率テーブルの共起確率のうち設
定された基準値よりも大きなものを用いて類似文字列リ
ストを生成し、これにより文字展開用ルールベースを作
成する。例えば、文字展開用ルールベースを作成する基
準値として、0.3を設定すると図のように"味"に関す
るレコードが省かれ、より認識結果候補としてあげられ
易い、すなわち誤認識を起こしやすい文字列を文字展開
用ルールベースとすることができるようになる。
【0028】このように、認識結果としてあげられた候
補文字列を統計情報として蓄えておくことによっても、
文字展開用ルールベースを作成することが可能である。
又、本方式ではデータベースに登録する毎に、より精度
の良い文字展開用ルールベースを人手を介することなく
自動的に作成していくことも可能となる。
【0029】
【発明の効果】本発明によれば、登録時にOCRの候補
文字を検索対象文字コード列に挿入しなくとも、OCR
の認識誤りを補正して検索漏れを少なくする文書検索装
置を実現することができる。これにより、検索対象文字
コード列の容量を削減することができるとともに、OC
Rの文字切り出し誤りをも補正して検索することが可能
となる。また、類似文字列リストを検索対照文字コード
列や登録の時に用いた文字認識システムの特性にあわせ
て入れ替えることで、より適切な候補文字列を生成する
ことができ、検索ノイズも軽減できるという利点があ
る。さらにまた、一般の単語辞書を持ち検索文字列の展
開後にその辞書との照合を行うことで、検索文字列展開
処理から発生するノイズもユーザに告知し、未然に防ぐ
ことが可能になる。
【図面の簡単な説明】
【図1】第1の実施例の構成を示す図である。
【図2】文書登録の処理概要を示す図である。
【図3】文書登録の処理を示すPAD図である。
【図4】検索処理の処理概要を示す図である。
【図5】文字列展開用のルールベースへのアクセス方法
の概念を示す図である。
【図6】文字列展開処理を示すPAD図である。
【図7】文字列検索用のオートマトンの概要を示す図で
ある。
【図8】文字列検索用オートマトンを示す状態遷移を示
す図である。
【図9】文字列検索用オートマトンの出力テーブルを示
す図である。
【図10】文書検索表示プログラムの処理を示すPAD
図である。
【図11】文書(文字コード列)のデータ格納状態を説
明するための図である。
【図12】文書(画像データ)のデータ格納状態を説明
するための図である。
【図13】第2の実施例の構成を示す図である。
【図14】第3の実施例の構成を示す図である。
【図15】文字コード・文字認識結果対応テーブルへの
登録処理と該テーブルを用いた検索処理の処理概要を示
す図である。
【図16】登録文書の認識結果から文字展開用ルールベ
ースを作成する処理を示す図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 浅川 悟志 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内 (72)発明者 加藤 寛次 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (72)発明者 丸川 勝美 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 紙の形態の文書をイメージデータとして
    取り込むためのスキャナと、検索結果を表示するディス
    プレイと、検索条件式を入力するキーボードと、文書を
    テキストコードの状態で蓄積する蓄積手段と、蓄積した
    テキストコードを読出して検索条件式として指示された
    文字列が存在する文書を検索する検索手段と、文書を登
    録する際に紙の形態の文書を該スキャナを用いてイメー
    ジ入力し文字認識手段を用いてテキストコードに変換し
    て前記蓄積手段に登録する手段を持つ文書検索装置にお
    ける文書検索方法であって、前記蓄積手段への文書のテ
    キストコード登録時には前記文字認識手段が認識出力し
    た文字をそのまま登録し、検索時には、検索条件式の検
    索文字列を文字認識手段が誤認識しやすい文字について
    複数の候補をあげた類似文字列リストにより展開して展
    開文字列を生成し、該展開文字列のいずれかの文字列を
    含む文書を検索することを特徴とする文書検索方法。
  2. 【請求項2】 請求項1記載の文書検索方法において、
    前記類似文字列リストには、文字認識手段の誤認識しや
    すい文字の形に着目して類似しているものを候補文字と
    して列挙したことを特徴とする文書検索方法。
  3. 【請求項3】 請求項1記載の文書検索方法において、
    前記類似文字列リストには、前記蓄積手段に登録する文
    書とは別に予め全ての文字について文字認識を行いその
    結果の認識候補を候補文字として列挙したことを特徴と
    する文書検索方法。
  4. 【請求項4】 請求項1記載の文書検索方法において、
    前記類似文字列リストには、“林”に対する“木木"あ
    るいは“111”に対する“川”のような文字認識手段の
    文字切り出し処理に起因して誤認識となる認識候補を候
    補文字として含むようにしたことを特徴とする文書検索
    方法。
  5. 【請求項5】 請求項1記載の文書検索方法において、
    単語辞書を設け、検索時に、前記検索文字列を展開した
    展開文字列により最初に単語辞書を検索し、ヒットした
    単語があるとき、該単語を検索する可能性のあることを
    ユーザに対して表示した後に文書を検索することを特徴
    とする文書検索方法。
  6. 【請求項6】 請求項5記載の文書検索方法において、
    検索時にユーザに表示した単語辞書中の単語のうち探し
    たくない単語をユーザが選択指示したとき、該ユーザが
    選択指示した単語のみを前記展開文字列から省いて検索
    することを特徴とする文書検索方法。
  7. 【請求項7】 請求項1記載の文書検索方法において、
    前記取り込んだイメージデータを蓄積手段に登録し、検
    索の結果該当する文書を表示するときには前記蓄積手段
    に登録されたイメージデータを表示することを特徴とす
    る文書検索方法。
  8. 【請求項8】 紙の形態の文書をイメージデータとして
    取り込むためのスキャナと、検索結果を表示するディス
    プレイと、検索条件式を入力するキーボードと、文書を
    テキストコードの状態で蓄積する蓄積手段と、蓄積した
    テキストコードを読出して検索条件式として指示された
    文字列が存在する文書を検索する検索手段と、文書を登
    録する際に紙の形態の文書を該スキャナを用いてイメー
    ジ入力し文字認識手段を用いてテキストコードに変換し
    て前記蓄積手段に登録する手段を持つ文書検索装置にお
    ける文書検索方法であって、前記蓄積手段への文書のテ
    キストコード登録時には前記文字認識手段が認識出力し
    た文字をそのまま登録し、該登録の際に複数個の候補が
    あげられた文字については、どのような候補があげられ
    たかを示す統計情報を生成してこれを格納し、検索時に
    は、検索条件式の検索文字列を前記統計情報に基づき展
    開して展開文字列を生成し、該展開文字列のいずれかの
    文字列を含む文書を検索することを特徴とする文書検索
    方法。
  9. 【請求項9】 紙の形態の文書をイメージデータとして
    取り込むためのスキャナと、検索結果を表示するディス
    プレイと、検索条件式を入力するキーボードと、文書を
    テキストコードの状態で蓄積する蓄積手段と、蓄積した
    テキストコードを読出して検索条件式として指示された
    文字列が存在する文書を検索する検索手段と、文書を登
    録する際に紙の形態の文書を該スキャナを用いてイメー
    ジ入力し文字認識手段を用いてテキストコードに変換し
    て前記蓄積手段に登録する手段を持つ文書検索装置にお
    いて、前記蓄積手段に登録する手段は蓄積手段への文書
    のテキストコード登録時には前記文字認識手段が認識出
    力した文字をそのまま登録し、文字認識手段が誤認識し
    やすい文字について複数の候補をあげた類似文字列リス
    トを格納した蓄積手段と、検索条件式の検索文字列を前
    記類似文字列リストにより展開して展開文字列を生成す
    る手段を備え、前記検索手段は前記展開文字列のいずれ
    かの文字列を含む文書を検索することを特徴とする文書
    検索装置。
  10. 【請求項10】 請求項9記載の文書検索装置におい
    て、前記類似文字列リストには、文字認識手段の誤認識
    しやすい文字の形に着目して類似しているものを候補文
    字として列挙したことを特徴とする文書検索装置。
  11. 【請求項11】 請求項9記載の文書検索装置におい
    て、前記類似文字列リストには、前記蓄積手段に登録す
    る文書とは別に予め全ての文字について文字認識を行い
    その結果の認識候補を候補文字として列挙したことを特
    徴とする文書検索装置。
  12. 【請求項12】 請求項9記載の文書検索装置におい
    て、前記類似文字列リストには、“林”に対する“木
    木"あるいは“111”に対する“川”のような文字認識手
    段の文字切り出し処理に起因して誤認識となる認識候補
    を候補文字として含むようにしたことを特徴とする文書
    検索装置。
  13. 【請求項13】 請求項9記載の文書検索装置におい
    て、単語辞書と、前記検索文字列を展開した展開文字列
    により単語辞書を検索する手段と、該手段によりヒット
    した単語を表示する手段を備え、ヒットした単語を表示
    することにより該単語を検索する可能性のあることをユ
    ーザに対して示すようにしたことを特徴とする文書検索
    装置。
  14. 【請求項14】 請求項13記載の文書検索装置におい
    て、前記表示したヒットした単語の内から単語を選択指
    示する手段を備え、前記検索手段は前記展開文字列から
    前記選択指示された単語のみを省いて検索することを特
    徴とする文書検索装置。
  15. 【請求項15】 請求項9記載の文書検索装置におい
    て、前記取り込んだイメージデータを蓄積手段に登録す
    る手段と、検索の結果該当する文書を表示するときには
    前記蓄積手段に登録されたイメージデータを表示する手
    段を備えることを特徴とする文書検索装置。
  16. 【請求項16】 紙の形態の文書をイメージデータとし
    て取り込むためのスキャナと、検索結果を表示するディ
    スプレイと、検索条件式を入力するキーボードと、文書
    をテキストコードの状態で蓄積する蓄積手段と、蓄積し
    たテキストコードを読出して検索条件式として指示され
    た文字列が存在する文書を検索する検索手段と、文書を
    登録する際に紙の形態の文書を該スキャナを用いてイメ
    ージ入力し文字認識手段を用いてテキストコードに変換
    して前記蓄積手段に登録する手段を持つ文書検索装置に
    おいて、前記蓄積手段への文書のテキストコード登録時
    には前記文字認識手段が認識出力した文字をそのまま登
    録し、該登録の際に複数個の候補があげられた文字につ
    いてはどのような候補があげられたかを示す統計情報を
    生成する手段と、該生成された統計情報を格納した蓄積
    手段と、検索条件式の検索文字列を前記統計情報に基づ
    き展開して展開文字列を生成する手段を備え、前記検索
    手段は前記展開文字列のいずれかの文字列を含む文書を
    検索することを特徴とする文書検索装置。
JP5326330A 1993-11-30 1993-11-30 文書検索方法および装置 Pending JPH07152774A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5326330A JPH07152774A (ja) 1993-11-30 1993-11-30 文書検索方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5326330A JPH07152774A (ja) 1993-11-30 1993-11-30 文書検索方法および装置

Publications (1)

Publication Number Publication Date
JPH07152774A true JPH07152774A (ja) 1995-06-16

Family

ID=18186574

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5326330A Pending JPH07152774A (ja) 1993-11-30 1993-11-30 文書検索方法および装置

Country Status (1)

Country Link
JP (1) JPH07152774A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916619A (ja) * 1995-07-03 1997-01-17 Canon Inc 情報処理方法及び装置
WO1997004409A1 (fr) * 1995-07-18 1997-02-06 Nomura Research Institute, Ltd. Dispositif de recherche de fichiers
US5943443A (en) * 1996-06-26 1999-08-24 Fuji Xerox Co., Ltd. Method and apparatus for image based document processing
JP2006343870A (ja) * 2005-06-07 2006-12-21 Canon Inc 文書検索装置及び方法と記憶媒体
JP2008102641A (ja) * 2006-10-18 2008-05-01 Ns Solutions Corp 検索装置、検索方法及びプログラム
JP2010225137A (ja) * 2009-02-27 2010-10-07 Fujitsu Ltd 検索プログラム及び検索方法
US8160402B2 (en) 2007-07-23 2012-04-17 Sharp Kabushiki Kaisha Document image processing apparatus
US8208765B2 (en) 2007-07-23 2012-06-26 Sharp Kabushiki Kaisha Search and retrieval of documents indexed by optical character recognition
US8290269B2 (en) 2007-01-15 2012-10-16 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8295600B2 (en) 2007-01-15 2012-10-23 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
JP2019185631A (ja) * 2018-04-17 2019-10-24 富士ゼロックス株式会社 情報処理装置及びプログラム
WO2022059556A1 (ja) * 2020-09-16 2022-03-24 昭和電工株式会社 文書検索装置
CN115757699A (zh) * 2022-11-19 2023-03-07 深圳市宁远科技股份有限公司 基于模糊匹配的医疗平台智能用户实体搜索系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916619A (ja) * 1995-07-03 1997-01-17 Canon Inc 情報処理方法及び装置
WO1997004409A1 (fr) * 1995-07-18 1997-02-06 Nomura Research Institute, Ltd. Dispositif de recherche de fichiers
US5943443A (en) * 1996-06-26 1999-08-24 Fuji Xerox Co., Ltd. Method and apparatus for image based document processing
JP2006343870A (ja) * 2005-06-07 2006-12-21 Canon Inc 文書検索装置及び方法と記憶媒体
JP2008102641A (ja) * 2006-10-18 2008-05-01 Ns Solutions Corp 検索装置、検索方法及びプログラム
US8290269B2 (en) 2007-01-15 2012-10-16 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8295600B2 (en) 2007-01-15 2012-10-23 Sharp Kabushiki Kaisha Image document processing device, image document processing method, program, and storage medium
US8160402B2 (en) 2007-07-23 2012-04-17 Sharp Kabushiki Kaisha Document image processing apparatus
US8208765B2 (en) 2007-07-23 2012-06-26 Sharp Kabushiki Kaisha Search and retrieval of documents indexed by optical character recognition
JP2010225137A (ja) * 2009-02-27 2010-10-07 Fujitsu Ltd 検索プログラム及び検索方法
JP2019185631A (ja) * 2018-04-17 2019-10-24 富士ゼロックス株式会社 情報処理装置及びプログラム
CN110390243A (zh) * 2018-04-17 2019-10-29 富士施乐株式会社 信息处理装置以及存储介质
WO2022059556A1 (ja) * 2020-09-16 2022-03-24 昭和電工株式会社 文書検索装置
US12093292B2 (en) 2020-09-16 2024-09-17 Resonac Corporation Document retrieval device
CN115757699A (zh) * 2022-11-19 2023-03-07 深圳市宁远科技股份有限公司 基于模糊匹配的医疗平台智能用户实体搜索系统
CN115757699B (zh) * 2022-11-19 2023-07-25 深圳市宁远科技股份有限公司 基于模糊匹配的医疗平台智能用户实体搜索系统

Similar Documents

Publication Publication Date Title
JP2726568B2 (ja) 文字認識方法及び装置
JP3689455B2 (ja) 情報処理方法及び装置
US20100268724A1 (en) Method and system for approximate string matching
JPH10207988A (ja) 文字認識方法および文字認識装置
JPH07152774A (ja) 文書検索方法および装置
EA003619B1 (ru) Система и способ поиска электронных документов, созданных с помощью оптического распознавания знаков
CN1106620C (zh) 信息处理方法和设备
JP4991407B2 (ja) 情報処理装置、その制御プログラムおよび該制御プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに制御方法
US7076423B2 (en) Coding and storage of phonetical characteristics of strings
JP3727995B2 (ja) 文書処理方法及び装置
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
CN115244539A (zh) 单词或词段词元化的推断方法
JP2003141447A (ja) 帳票検索システム
JPH09259132A (ja) 情報登録検索装置及びその方法
JP2023111074A (ja) 検索支援装置、検索支援方法、及びプログラム
JP4584507B2 (ja) 住所認識装置、記録媒体及びプログラム
JP2002189743A (ja) 情報登録システム
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP3241854B2 (ja) 単語スペル自動補正装置
JP2560959B2 (ja) 文字認識後処理方式
JP2000251017A (ja) 単語辞書作成装置および単語認識装置
JPH0887528A (ja) 文書ファイリングシステム
JP2839515B2 (ja) 文字読取システム
JPH07160730A (ja) 全文検索装置
JPH05258100A (ja) 文字認識装置