JPH07160730A - 全文検索装置 - Google Patents

全文検索装置

Info

Publication number
JPH07160730A
JPH07160730A JP5306363A JP30636393A JPH07160730A JP H07160730 A JPH07160730 A JP H07160730A JP 5306363 A JP5306363 A JP 5306363A JP 30636393 A JP30636393 A JP 30636393A JP H07160730 A JPH07160730 A JP H07160730A
Authority
JP
Japan
Prior art keywords
keyword
conversion
document
data
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5306363A
Other languages
English (en)
Inventor
Ryoko Aoyanagi
良子 青柳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP5306363A priority Critical patent/JPH07160730A/ja
Publication of JPH07160730A publication Critical patent/JPH07160730A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 本発明は、誤認識を含んだ文書であっても確
実に検索することにある。 【構成】 活字で印刷された文書のイメージデータから
テキストデータに変換が困難なとき、標準パターン等を
用いて複数の変換候補を作成し、第1候補を確定文書デ
ータ、第2候補以降を変換候補データとする変換候補作
成手段3と、この作成された確定文書データおよび変換
候補データを格納するファイル4,5と、入力されるキ
ーワードの文字に前記ファイルに格納されている変換候
補データの文字を入れ変えて類似キーワードを作成し、
キーワードと類似キーワードとからなる検索式を作成す
るキーワード変換手段6と、ここで作成された検索式に
基づいて前記ファイルから確定文書データを検索する検
索手段7とを設けた全文検索装置である。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、学術文書,書籍,特許
明細書その他活字によって印刷される各種の情報文書を
検索する場合に利用される全文検索装置に係わり、特に
イメージデータからテキストデータに変換するときに生
じる誤認識文書を適切に検索する検索技術を設けた全文
検索装置に関する。
【0002】
【従来の技術】従来、OCR(光学文字読取り)装置と
検索装置とが独立装置として提案されている。そのう
ち、前者の一般的なOCR(光学文字読取り)装置は、
活字で印刷された文字をスキャナ(文字読取り装置)お
よびテキストリーダ(文字認識装置)を通すことによ
り、テキストデータの形に変換することがよく行われて
いる。
【0003】一方、後者の一般的な検索装置は、コード
化された大量の文書に対し、外部から検索キーワードを
入力し、必要な文書を検索する,いわゆる全文検索が行
われている。
【0004】ところで、以上のようなOCR装置を用い
た文字認識装置では、活字で印刷された文書に対し、イ
メージデータからテキストデータの形に変換する際、誤
認識がよく見うけられる。この文字認識装置では、複数
の変換候補を作成し、各変換候補ごとにそれぞれ類似度
(0〜100)を設定し、それらの変換候補のうち類似
度が最も高い文字を第1候補としている。
【0005】しかし、通常,何れの変換候補をテキスト
データとして選択するかに対し、類似度の同じくらいの
候補が多数存在する場合がある。そこで、従来、文書中
の認識困難な文字は、少しでも類似度の高い第1候補を
もって決定するとか、或いは複数の候補を読み出して表
示し、人間が視覚的に見て正しいと思われる候補に決定
するようにしている。
【0006】
【発明が解決しようとする課題】従って、以上のように
イメージデータからテキストデータに変換するとき、シ
ステムで定めた類似度に従って自動的に候補を決定し幾
つかの誤認識を許容するか、或いは人間の操作により誤
認識を徹底的に探し出して修正するかにつき、それぞれ
一長一短がある。
【0007】例えば類似度に従って自動的に候補を決定
し誤認識を許容する場合、テキストデータに対して全文
検索を行っても、誤認識の文書は正しく検索されない。
このことは、所要とする文書を正しく検索できないばか
りか、検索された文書であっても誤認識を含むものがあ
り、しかも内容が正しく読み取りにくく、その検索され
た文書を種々の用途に利用する場合には信用のおけない
文書となる。
【0008】一方、後者の人間が介在して誤認識を許容
せずに修正する場合には、誤認識のある文字ごとに1つ
1つ修正する必要があるので、誤認識の修正に非常に多
くの時間を要する問題がある。
【0009】本発明は上記実情に鑑みてなされたもの
で、誤認識を含んだ文書であっても確実に検索可能な全
文検索装置を提供することを目的とする。また、本発明
の他の目的は、誤認識を含んだ文書であっても効率的に
検索可能とする全文検索装置を提供することにある。さ
らに、本発明の他の目的は、誤認識と判断した場合に確
実に正しい文書に修正可能とする全文検索装置を提供す
ることにある。
【0010】
【課題を解決するための手段】上記課題を解決するため
に、請求項1に対応する発明は、例えば活字で印刷され
た文書のイメージデータからテキストデータに変換困難
なとき、例えば標準パターン等から複数の変換候補を作
成し、第1候補を確定文書データ、第2候補以降を変換
候補データとする変換候補作成手段と、この変換候補作
成手段によって作成された確定文書データおよび変換候
補データを格納するファイルと、外部から入力されるキ
ーワードの中の認識困難な文字を前記ファイルに格納さ
れている変換候補データの文字に入れ変えて類似キーワ
ードを作成し、前記キーワードおよび類似キーワードか
らなる検索式を作成するキーワード変換手段と、このキ
ーワード変換手段によって作成された検索式を用いて前
記ファイルから変換候補にあがっている文字全部を検索
する検索手段とを設けた全文検索装置である。
【0011】次に、請求項2に対応する発明は、イメー
ジデータからテキストデータに変換が困難なとき、類似
度をもった複数の変換候補データを作成する変換候補作
成手段と、この変換候補作成手段によって作成された類
似度をもった複数の変換候補を格納するファイルと、外
部から入力されるキーワードの中の認識困難な文字に対
し、予め設定されたしきい値と前記ファイルに格納され
ている変換候補データの類似度とを比較し、前記キーワ
ードの中の認識困難な文字を前記しきい値以上の変換候
補データの文字に入れ変えて類似キーワードを作成し、
前記キーワードおよび類似キーワードからなる検索式を
作成するキーワード変換手段と、このキーワード変換手
段によって作成された検索式を用いて変換候補にあがっ
ている文字の中で類似度がしきい値以上の全ての文字を
検索する検索手段とを設けた全文検索装置である。
【0012】さらに、請求項3に対応する発明は、請求
項1または請求項2に記載の構成要件に新たに、前記イ
メージデータを格納する原文イメージデータファイル
と、前記検索手段によって検索された確定文章データを
前記ファイルから読み出して表示するとき、前記原文イ
メージデータファイルに格納される前記イメージデータ
を表示し、正しい文字を認識可能とする表示手段とを付
加した全文検索装置である。
【0013】
【作用】従って、請求項1に対応する発明は、以上のよ
うな手段を講じたことにより、変換候補作成手段では例
えば活字で印刷された文書のイメージデータからテキス
トデータに変換困難なとき、例えば標準パターン等から
複数の変換候補を作成し、第1候補を確定文書データ、
第2候補以降を変換候補データとしてファイルに格納す
る。その後、外部からキーワードが入力されると、キー
ワード変換手段では、当該キーワードの中の認識困難な
文字があれば、前記ファイルに格納される変換候補デー
タの文字に入れ変えて類似キーワードを作成し、キーワ
ードおよび類似キーワードからなる検索式を作成する。
その結果、検索手段では、その検索式に基づいて変換候
補としてあがっている文書でも前記ファイルの確定文書
データから検索可能となる。従って、変換候補にあがっ
てさえいれば、誤認識を含む文書でも正しく検索でき
る。これにより、誤認識による検索漏れを防ぐことがで
きる。
【0014】次に、請求項2に対応する発明は、外部か
らキーワードが入力されると、キーワード変換手段で
は、当該キーワードの中の認識困難な文字に予め設定さ
れたしきい値以上の類似度をもつ変換候補データを入れ
変えて類似キーワードを作成し、キーワードと類似キー
ワードとからなる検索式を作成するので、逆に類似度の
低い変換候補データによる類似キーワードの作成が除外
され、これにより効率的に検索できる。
【0015】また、誤認識が殆んどないと思われる文書
に対しては、高いしきい値を設定すれば、類似キーワー
ド作成の手間をかなり省くことができる。さらに、請求
項3に対応する発明は、類似キーワードによって検索さ
れた文書があるとき、誤認識の可能性が高いので、確定
文書を表示するとき、原文イメージデータファイルから
原文イメージデータを読み出して表示するので、正しい
文書を確認でき、誤認識のある確定文書を正確に修正で
きる。
【0016】
【実施例】以下、本発明の実施例について図面を参照し
て説明する。図1は本発明装置の第1の実施例を示すブ
ロック図である。同図において1は学術文書,書籍,特
許明細書その他活字によって印刷された種々の文書をイ
メージデータとして読み取る文字読取部であって、ここ
で読み取った原イメージデータは原文イメージデータフ
ァイル2に格納され、また文字認識部3にも送られる。
【0017】この文字認識部3は、文字読取部1から送
られてくるイメージデータと例えば標準パターンの比較
或いはイメージデータの構造上の特徴等からテキストデ
ータに変換するものであって、このテキストデータの変
換困難な場合には例えば類似度の数値等から幾つかの変
換候補,つまり第1候補,第2候補,第3候補,…を作
成し、そのうち第1候補となった文字は確定文書ファイ
ル4に確定文書ないしはテキストデータとして格納し、
第2候補以降の文字は第1候補またはそれに類する文書
名等で所対応関係をとりながら変換候補ファイル5に格
納する。
【0018】6は外部から入力される検索キーワードか
ら検索式を作成するキーワード変換部であって、具体的
には検索キーワードの中の認識困難な文字と、この文字
と対応関係を有する変換候補ファイル5に格納される文
字とを比較し、一致する場合にはキーワードの中の認識
困難な文字、第2候補以降の文字に入れ換えて類似キー
ワードを作成し、その全てを「OR」で結ぶことにより
検索式を作成する。
【0019】7はキーワード変換部6によって作成され
た検索式を用いて確定文書ファイル4から検索キーワー
ドおよび類似キーワードを含む文書を検索する検索部で
あって、これら検索式および検索結果の文書は結果表示
部8に送られる。この結果表示部8では、検索式および
検索結果の文書を受け取ると、文書表示用プログラムに
基づいて検索結果の文書に基づいて確定文書ファイル4
から確定文書を読み出し、それら確定文書の中に類似キ
ーワードを含む文字が存在するか否かを調べ、含む場合
には誤認識があると判断し、原文イメージデータファイ
ル2から原文イメージを読み出して表示し、変更するか
否かの問い合わせ指示を確定文書変更部9に送出する。
なお、結果表示部8は検索部7から送られてくる検索式
および検索結果の文書を表示してもよい。
【0020】この確定文書変更部9は、例えば表示部お
よびキーボード等を含む入出力機器からなり、ユーザが
文書の変更を要望するときには変換候補ファイル5の文
書や確定文書ファイル4の文書を適宜変更する。
【0021】次に、以上のような構成された装置の動作
について説明する。今、印刷された文書として、例えば
「コンピュータ」という文字を含む3つの文書(文書
名:文書1,文書2,文書3)を読み取り、それに対し
て検索する例について説明する。
【0022】先ず、文字読取部1は、「コンピュータ」
の文字を含む3つの文書をイメージデータとして読み取
った後、原文イメージデータとして原文イメージデータ
ファイル2に格納し、さらに文字認識部3に送出する。
ここで、文字認識部3は、文字読取部1から送られてく
るイメージデータに対し、例えば標準パターン等の比較
からテキストデータに変換するが、変換困難な場合には
標準パターンとの間の類似度等の数値から変換候補を決
定する。このとき、「コンピュータ」の「ー(長音)」
に対し、図2(a)に示すような変換候補が作成された
とする。因みに、文書1は「コンピュ「ー(長音)タ」
と認識したが、文書2では「コンピュ一(いち)タ」、
文書3では「コンピュ−(ハイフン)タ」と認識し、そ
れぞれが確定文書ないしはテキストデータとして確定文
書ファイル4に格納する。さらに、第2候補以降の文字
は第1候補またはそれに類する文書名等で所対応関係を
とりながら変換候補ファイル5に格納する。
【0023】このような状態において「コンピュータ」
という検索キーワードをキーワード変換部6に入力し、
文書の検索を行う。このキーワード変換部6では、変換
候補ファイル5から「ー(長音)」を変換候補としても
つ他の文字を探すと、図2(a)から「一(いち)」、
「−(ハイフン)」を見つけることができる。そこで、
検索キーワードである「コンピュータ」の「ー(長
音)」を「一(いち)」、「−(ハイフン)」に入れ変
えて類似キーワードを作成し、それらを「OR」で結ぶ
と、コンピュータ OR コンピュ一(いち)タ OR
コンピュ−(ハイフン)タなる検索式ができ上がる。
【0024】しかる後、検索部7においては、キーワー
ド変換部6から送られてくる検索式を構成するキーワー
ドおよび類似キーワードに基づき、確定文書ファイル4
から確定文書(文書1,文書2,文書3)を検索し、こ
れら検索式および検索結果の文書は結果表示部8に送出
する。この結果表示部8では、検索式および検索結果の
文書を受け取ると、表示用プログラムに基づいて検索結
果の文書の中に類似キーワードの文字が含むか否かを判
断する。このとき、文書1は確定文書を表示するが、文
書2,文書3には類似キーワードの文字を含むので、誤
認識があると判断し、ここで原文イメージデータファイ
ル2から原文イメージを読み出して表示し、変更するか
否かの問い合わせ指示を確定文書変更部9に通知する。
【0025】そこで、ユーザが文書の変更を要望すると
き、確定文書変更部9から確定文書ファイル4の文書
2,文書3の「一(いち)」および「−(ハイフン)」
をそれぞれ「ー(長音)」に変更し、さらに変換候補フ
ァイル5の変換候補データも図2(a)から図2(b)
のように書き換える。そして、図2(a)に示す変換候
補データを削除する。
【0026】従って、以上のような実施例の構成によれ
ば、キーワードの中の認識困難な文字を第2候補以降の
文字に入れ換えて類似キーワードを作成し、キーワード
および類似キーワードからなる検索式に従って検索をす
るので、文字認識の段階で誤認識が生じた場合でも検索
可能である。また、文字認識の段階で誤認識があったと
き、その誤認識のある文書だけでなく、誤認識のない文
書も見ることができ、しかも原文イメージデータを表示
するので、正しい文字を容易に判断できる。さらに、誤
認識のある文書に対しては、検索式の文字列に対応する
誤認識のテキストデータを一括して容易に修正できる。
【0027】次に、本発明装置の第2の実施例について
図3を参照して説明する。この実施例は、図1とほぼ同
様な構成であり、特に異なるところは、変換候補ファイ
ル5の格納データ構造および類似キーワードの作成方法
にある。
【0028】すなわち、この実施例は、変換候補に類似
度を採用し、かつ、極端に誤認識の高い変換候補を除外
して類似キーワードを作成することから、キーワード変
換部6の内部または外部に変換候補を除外するための類
似度しきい値設定部11が設けられている。
【0029】以下、この第2の実施例の動作について説
明する。今、「コンピュータ」という文字を含む2つの
文書(文書1,文書2)を読み取り、それに対して検索
する例について説明する。
【0030】先ず、文字読取部1は、2つの文書をイメ
ージデータとして読み取った後、原文イメージデータと
して原文イメージデータファイル2に格納する。また、
文字読取部1で読み取ったイメージデータは文字認識部
3に送られる。
【0031】この文字認識部3は、文字読取部1からの
イメージデータと例えば標準パターンの比較から変換候
補の類似度を決定すると、イメージデータである「コン
ピュータ」の「ン」に対し、図4(a)のような括弧書
きの数値をもつ変換候補が作成されたとする。この例で
は、文書1は他に候補がなく「コンピュータ」と認識し
た後、確定文書ファイル4に格納する。文書2では類似
度80で「コソピュータ」と認識し、その他の候補とし
て類似度70で「コンピュータ」、類似度40で「コニ
ピュータ」と認識されている。従って、文書2では、最
も類似度の高い「コソピュータ」を確定文書ファイル4
に格納し、当該類似度の高い候補およびそれ以外の候補
を変換候補ファイル5に格納する。
【0032】この状態において「コンピュータ」という
検索キーワードをキーワード変換部6に入力し、文書の
検索を行う。このとき、類似度しきい値設定部11には
予め例えばしきい値50を設定しておく。その結果、キ
ーワード変換部6は、検索キーワードに基づいて変換候
補ファイル5から「ン」を変換候補とする他の文字を探
すと、図4(a)から明らかなように第1候補の「ソ」
と第3候補の「ニ」を見つけることができる。
【0033】そこで、見つけた各候補について、それら
候補の類似度と類似度しきい値設定部11のしきい値と
を比較し、候補の中に類似度がしきい値50を越えてい
る文字「ソ」があれば、その文字「ソ」を「コンピュー
タ」の「ン」に入れ変えて類似キーワードを作成し、そ
れらを「OR」で結ぶと、 コンピュータ OR コソピュータ なる検索式ができあがり、この検索式を検索部7に送出
する。
【0034】この検索部7では、キーワード変換部6か
ら検索式を受けとると、当該検索式に基づいて確定文書
ファイル4から文書を検索すると、文書1,文書2の文
書を取り出すことができる。そして、この検索部7にお
いては、検索式および文書名を結果表示部8に送出す
る。
【0035】この結果表示部8は、必要に応じて検索式
および文書を表示する一方、この文書に基づいて確定文
書ファイル4から文書を取り出して表示し、類似キーワ
ードを含む文書を探すと、文書2が得られる。この文書
1は確定文書を表示するが、文書2は誤認識があるの
で、原文イメージデータファイル2から原文イメージデ
ータを読み出して表示する。しかる後、結果表示部8
は、文書2の変更を行うか否かの問い合わせを確定文書
変後部9に通知する。
【0036】この確定文書変後部9は、確定文書ファイ
ル4の文書2に係わる文書中の文字「ソ」を「ン」に変
更する一方、変換候補ファイル5の変換候補データであ
る図3(a)から図3(b)のように書き換える。な
お、変換候補ファイル5に図3(a)と図3(b)の変
換候補データが併存する場合には図3(a)を削除す
る。
【0037】従って、以上のような第1実施例によれ
ば、予め類似度のしきい値を設定し、著しく類似度の低
い候補を検索の対象外としたので、類似キーワードの個
数を減らして検索式を単純化でき、検索の効率を上げる
ことができる。
【0038】なお、この実施例では、類似度のしきい値
が50としたが、これよりもしきい値を低く設定した
り、高く設定することは任意であり、またしきい値を0
に設定すれば、第1実施例と同様のシステムを実現でき
る。また、認識率が非常に高く、殆んど読み違いのない
システムの場合にはしきい値を高く設定することによ
り、さらに類似キーワードの個数を減らして検索の効率
を上げることができる。また、しきい値を100とする
ことにより、確定文書のみを対象に検索することも可能
である。
【0039】また、上記実施例では、OCR装置を用い
て文書のイメージデータをテキストデータに変換するよ
うにしたが、例えば手書き文書によるイメージデータを
テキストデータに変換する構成のものでも同様に適用で
きる。その他、本発明はその要旨を逸脱しない範囲で種
々変形して実施できる。
【0040】
【発明の効果】以上説明したように本発明によれば、次
のような種々の効果を奏する。請求項1の発明において
は、変換候補にあがっていれば、誤認識を含んだ文書で
あっても確実に検索することができる。
【0041】請求項2の発明においては、あるしきい値
以下の類似度をもつ変換候補の類似キーワードの作成を
除外でき、誤認識を含んだ文書であっても効率よく検索
できる。次に、請求項3の発明は、検索された文書以外
に原文イメージデータを表示するので、原文イメージデ
ータを参照しつつ確実に正確な文書に修正可能である。
【図面の簡単な説明】
【図1】本発明に係わる全文検索装置の第1実施例を示
すブロック図。
【図2】第1実施例装置で用いる変換候補データの一例
図。
【図3】本発明に係わる全文検索装置の第2実施例を示
すブロック図。
【図4】第2実施例装置で用いる変換候補データの一例
図。
【符号の説明】
1…文字読取部、2…原文イメージデータファイル、3
…文字認識部、4…確定文書ファイル、5…変換候補フ
ァイル、6…キーワード変換部、7…検索部、8…結果
表示部、9…確定文書変更部、11…類似度しきい値設
定部。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 イメージデータからテキストデータに変
    換が困難なとき、複数の変換候補を作成し、第1候補を
    確定文書データ、第2候補以降を変換候補データとする
    変換候補作成手段と、 この変換候補作成手段によって作成された確定文書デー
    タおよび変換候補データを格納するファイルと、 外部から入力されるキーワードの中の変換困難な文字を
    前記ファイルに格納されている変換候補データの文字に
    入れ変えて類似キーワードを作成し、前記キーワードお
    よび類似キーワードからなる検索式を作成するキーワー
    ド変換手段と、 このキーワード変換手段によって作成された検索式を用
    いて前記ファイルから変換候補にあがっている文字全部
    を対象とする検索を行う検索手段と、 を備えたことを特徴とする全文検索装置。
  2. 【請求項2】 イメージデータからテキストデータに変
    換が困難なとき、類似度をもった複数の変換候補データ
    を作成する変換候補作成手段と、 この変換候補作成手段によって作成された類似度をもっ
    た複数の変換候補を格納するファイルと、 外部から入力されるキーワードの中の変換困難な文字に
    対し、予め設定されたしきい値と前記ファイルに格納さ
    れている変換候補データの類似度とを比較し、前記キー
    ワードの中の変換困難な文字を前記しきい値以上の変換
    候補データの文字に入れ変えて類似キーワードを作成
    し、前記キーワードおよび類似キーワードからなる検索
    式を作成するキーワード変換手段と、 このキーワード変換手段によって作成された検索式を用
    いて変換候補にあがっている文字の中で類似度がしきい
    値以上の全ての文字を検索する検索手段と、 を備えたことを特徴とする全文検索装置。
  3. 【請求項3】 請求項1または請求項2記載の全文検索
    装置において、 前記イメージデータを格納する原文イメージデータファ
    イルと、 前記検索手段によって検索された変換候補にあがってい
    る文字を表示するとき、前記原文イメージデータファイ
    ルに格納されている前記イメージデータを表示し、正し
    い文字を認識可能とする表示手段とを付加したことを特
    徴とする全文検索装置。
JP5306363A 1993-12-07 1993-12-07 全文検索装置 Pending JPH07160730A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5306363A JPH07160730A (ja) 1993-12-07 1993-12-07 全文検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5306363A JPH07160730A (ja) 1993-12-07 1993-12-07 全文検索装置

Publications (1)

Publication Number Publication Date
JPH07160730A true JPH07160730A (ja) 1995-06-23

Family

ID=17956159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5306363A Pending JPH07160730A (ja) 1993-12-07 1993-12-07 全文検索装置

Country Status (1)

Country Link
JP (1) JPH07160730A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916619A (ja) * 1995-07-03 1997-01-17 Canon Inc 情報処理方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916619A (ja) * 1995-07-03 1997-01-17 Canon Inc 情報処理方法及び装置

Similar Documents

Publication Publication Date Title
JP3689455B2 (ja) 情報処理方法及び装置
US4903206A (en) Spelling error correcting system
JPH087033A (ja) 情報処理方法及び装置
JPH07152774A (ja) 文書検索方法および装置
Lund Ensemble Methods for Historical Machine-Printed Document Recognition
JP6737117B2 (ja) 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置
JPH07160730A (ja) 全文検索装置
JP3979288B2 (ja) 文書検索装置および文書検索プログラム
JP3531222B2 (ja) 類似文字列検索装置
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
JP2000090193A (ja) 文字認識装置および項目分類方法
JP2932667B2 (ja) 情報の検索方法および情報蓄積装置
JPH08115330A (ja) 類似文書検索方法および装置
JPH113401A (ja) 情報処理装置及びその方法
JP2570784B2 (ja) 文書リーダ後処理装置
JP2996823B2 (ja) 文字認識装置
JPH04104367A (ja) ファイルシステム
JP3548372B2 (ja) 文字認識装置
JP2560959B2 (ja) 文字認識後処理方式
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP3501240B2 (ja) 文書作成支援装置
JPS63282586A (ja) 文字認識装置
Holmes Named Entity Resolution for Historical Texts
JP3241854B2 (ja) 単語スペル自動補正装置
Varol et al. Application of the Near Miss Strategy and Edit Distance to Handle Dirty Data