JP3371983B2 - 不完全文字列と文字列の照合方法および装置 - Google Patents

不完全文字列と文字列の照合方法および装置

Info

Publication number
JP3371983B2
JP3371983B2 JP15762993A JP15762993A JP3371983B2 JP 3371983 B2 JP3371983 B2 JP 3371983B2 JP 15762993 A JP15762993 A JP 15762993A JP 15762993 A JP15762993 A JP 15762993A JP 3371983 B2 JP3371983 B2 JP 3371983B2
Authority
JP
Japan
Prior art keywords
character
data
string
input
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP15762993A
Other languages
English (en)
Other versions
JPH0736926A (ja
Inventor
英昭 小澤
透 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP15762993A priority Critical patent/JP3371983B2/ja
Publication of JPH0736926A publication Critical patent/JPH0736926A/ja
Application granted granted Critical
Publication of JP3371983B2 publication Critical patent/JP3371983B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、情報を検索するシステ
ムにおいて、特に文字コードを用いて検索を行なう全文
データベース、および、その応用システムに関する。
【0002】特に具体的な応用分野としては、新聞や、
雑誌、文書などの文字で表現された情報と、それに付け
加わる写真、図表などを含む情報を格納するデータベー
スにおいて、格納されている情報の元になっている文書
や雑誌、新聞などの一部を切り抜いて作成したスクラッ
プブックなどから、切り抜いた情報を文字を認識する装
置(OCR)を利用して、文字コード化し、該部分情報
を含む情報全体を検索するシステムがある。
【0003】
【従来の技術】従来の全文データベースのシステムで
は、データを検索するために、利用者は検索したいデー
タ中に含まれていると思う単語や1つの文字といった、
データと完全に含まれると考えられる文字列を入力して
いた。これに対しシステム側では、入力された文字列と
完全に一致する文字列を含むデータを利用者に返してい
た。改良された手法としては、入力された文字列が単語
である場合には、同義語展開等を行なって複数個の文字
列を生成し、一致する文字列を含むデータを検索してい
た。
【0004】
【発明が解決しようとする課題】しかし入力された文字
列が一般的な単語や文字である場合には、従来の全文デ
ータベース中の多くのデータが一致してしまい、不用意
に多くのデータを得てしまうと言う問題点があった。逆
に、特定のデータとのみ一致できるように、データ中に
含まれる一文や一文節のような単語よりも長い文字列を
入力する場合には、利用者の入力ミスや、記憶の間違い
などにより、文字列の一部分が誤っていると、正しいデ
ータを検索できないといった問題点があった。
【0005】そこで、本発明の目的は、入力された文字
列中に含まれる文字コードの内データベース中のデータ
と一致できるものに対して一致させていきながら、多く
の文字コードが一致するデータを検索すべきデータとし
て判定することにより、入力された文字列中に誤った文
字コードが含まれていたり、部分的に存在しない文字コ
ードが混在したり、逆に文字コードの不足があったとし
ても、必要な情報を検索することが可能な、不完全文字
列と文字列の照合方法および装置を提供することにあ
る。
【0006】
【課題を解決するための手段】本発明の第1の、不完全
文字列と文字列の照合方法は、入力される文字コードの
列中に必ずしも検索対象のデータには含まれていない文
字を含む、不完全な文字コードの列が入力される際に、
入力される不完全な文字コードの列の個々の文字コード
に付けられている、該文字コードがデータベース中の検
索したいデータに含まれている可能性の高さを示す値
と、あらかじめ与えられた第1の閾値とを比較し、デー
タベースを検索する際に利用する検索対象データ中に含
まれる可能性の高い文字コードを選択し、選択された文
字コードとデータベース中の各データの文字コードが一
致する回数を、選択された個々の文字コードが、入力さ
れたときの文字コードの列中で登場した順序に従って計
測し、一致した回数とあらかじめ定められた第2の闘値
とを比較して、第2の闘値よりも多くの回数一致する文
字があったデータを検索対象のデータの候補とし、次
に、該検索対象のデータの各候補に含まれる文字コード
と、入力された不完全な文字列中に含まれる全ての文字
コードが一致する数を、入力された不完全な文字列の個
々の文字コードが出現した順番に従って計測し、一致す
る文字コードの数とあらかじめ定められた第3の閾値と
を比較して、第3の閾値以上に一致するデータを検索す
べきデータと判断する。本発明の第2の、不完全文字列
と文字列の照合方法は、入力される文字コードの列中に
必ずしも検索対象のデータには含まれていない文字を含
む、不完全な文字コードの列が入力される際に、入力さ
れた文字コードの列中の個々の文字コードが出現した順
番に従って、入力された文字コードとデータベース中の
データの文字コードが一致する数を計測し、入力された
不完全な文字列中の文字コードの中で、データベース中
のデータに含まれる文字コードと一致する2つの文字間
の距離を、入力された不完全な文字列とデータベース中
のデータのそれぞれにおいて計測し、文字間の距離の違
いを前記一致する文字コードの数量に反映して評価値を
定め、検索すべきデータを判断する。
【0007】本発明の、第1の不完全文字列と文字列の
照合装置は、利用者の入力した文字列の個々の文字に対
して、その文字から想定される検索対象データ中に含ま
れる可能性のある1つ以上の文字コードとその文字コー
ドが検索対象データ中に含まれる可能性の高さを示す信
頼度を生成する手段と、個々の文字コードにつけられた
前記信頼度と、あらかじめ与えられている第1の闘値と
を比較し、第1の闘値よりも信頼度が高い文字コードを
検索利用文字として選択する検索利用文字選定手段と、
選択された検索利用文字を、入力された文字列で出現し
た順に並べ、データベース中の各データと検索利用文字
を順次照合し、入力された文字列中での文字の順に検索
利用文字が含まれるデータを選び出す順序付文字照合手
段と、 前記順序付文字照合手段により選択された各デー
タと、入力された文字列中に含まれる全ての文字コード
とを用いて、入力された文字列の個々の文字コードが出
現した順番に従って、文字コードが一致する数を計測
し、一致文字数を各データの評価値とする一致量計算手
段と、 前記評価値をあらかじめ与えられた判定基準によ
って出力するデータを決定する出力データ判定手段とを
備える。本発明の第2の、不完全文字列と文字列の照合
装置は、データベースの各データと、入力された文字列
中に含まれる全ての文字コードとを用いて、 入力された
文字列の個々の文字コードが出現した順番に従って文字
コードが一致する数量を計測する手段と、入力された文
字列中の文字コードの中で、データベース中のデータに
含まれる文字コードと一致する2つの文字間の距離を、
入力された文字列とデータベース中のデータのそれぞれ
において計測し、文字間の距離の違いを前記文字コード
が一致する数量に反映して評価値を定める手段と、 前記
評価値をあらかじめ与えられた判定基準によって出力す
るデータを決定する出力データ判定手段とを備える。
【0008】
【0009】
【作用】データベース中には多くの文字コードのパター
ンが存在するので、入力された不完全な文字列中の誤っ
た文字がデータと一致してしまう場合が存在する。そこ
で、請求項の発明は、データベース中のデータに対し
て、入力された不完全な文字列を含むか否かを判定する
際に、入力された不完全な文字列の個々の文字に付けら
れているデータベース中の検索すべきデータに含まれ
ている可能性の高さを示す値と、あらかじめ与えられた
閾値とを比較し、比較した結果閾値よりも検索対象のデ
ータに含まれる可能性の高い文字コードのみを用いてデ
ータベース中のデータと個々の文字コードが一致するか
の判断をすることにより、検索対象のデータである可能
性の高いデータのみをあらかじめ選択する。入力された
不完全な文字列に含まれる全ての文字コードと選択され
データ中の文字コードとが一致する個数を計測し、一
致する文字の個数と、あらかじめ与えられた閾値とを比
較し、閾値よりも一致する文字の個数が多いデータを検
索すべきデータとして判断する。これにより不完全な文
字列中に含まれる、検索すべきデータに含まれる可能性
の高い文字コードのみによって検索対象であるデータ集
合のみを優先して選択し、不完全な文字列中の誤った文
字コードによる影響を排除することが可能になる。
【0010】データベース中の個々のデータは、多くの
文字コードから構成されている場合がある。利用者から
入力された文字列に誤りなどがなければ、検索対象のデ
ータのある連続した一部分と完全に一致するはずであ
る。しかし、入力された文字列に対してデータベース中
のデータと部分的に一致する箇所を検出する場合には、
検索対象データ中で離れて存在する文字と偶然に一致す
ることにより、誤ったデータが検索されてしまう可能性
がある。そこで、請求項の発明は、利用者が入力した
文字列上での文字間の距離と、データベース中のデータ
上で一致した文字における文字間の距離との比を計算
し、その比の値とあらかじめ与えられた閾値とを比較し
て、閾値よりも文字間の距離の比が大きい検索対象デー
タに対してデータベース中の該データが入力された文字
列を含む可能性の高さを上げることにより、入力文字列
中で近接しているのにデータベース中のデータ上では文
字が離れてしまう、検索対象とすべきでないデータを検
索してしまうことを防ぐことができる。
【0011】
【0012】入力される不完全な文字列において、例え
ば大きな’い’と小さな’ぃ’のように類似する文字の
どちらがデータベース中の検索対象のデータに含まれる
と言う場合のように、入力された1つの文字に対して、
検索対象データ中に含まれる可能性のある文字が複数個
存在する場合があるが、検索対象のデータ中に含まれる
正しい文字は1つなので、不用意に多くの文字コード列
の生成を行なって、照合を行なう文字コード列の候補を
作ると、正しくない文字が一致してしまう可能性も高く
なる場合がある。特に’い’と’ぃ’の様に大小の文字
は平仮名、片仮名に多く存在し、漢字仮名交じり文の日
本語のテキストでは、複数箇所に大小文字のどちらかが
存在する場合がある。そこで、請求項の発明は、入力
する不完全な文字列の個々の文字に対して、1つ以上の
文字候補を与え、個々の文字候補にデータベース中の検
索対象データに含まれる可能性の高さを示す値を与える
手段により、検索対象のデータに含まれる可能性の最も
高い文字候補を第一候補、以下可能性の高い順に第二候
補、第三候補とする。特に第一候補の文字コードの中で
あらかじめ与えられた闘値よりも検索対象データ中に含
まれる可能性の高い文字コードのみを選択して、データ
ベースを検索する手段により、候補データを絞り込む。
次に、第一候補と、第二候補以下の可能性の高さの差を
計測する手段により、あらかじめ定められた閾値よりも
可能性の高さの差が小さい文字コードの候補を用いて、
入力された文字列に対応する文字コード列を生成する手
段により、1つ以上の照合対象の文字コード列を生成
し、さらに生成された文字コード列中の文字コードと、
検索された候補データ中の文字コードとが一致する個数
を計測し、該候補データの一致量とする手段により各候
補データに対して入力された不完全な文字列を含む可能
性の高さの値を付ける。さらに、請求項4の発明では、
利用者が入力した文字列上での文字間の距離と、データ
ベース中のデータ上で一致した文字における文字間の距
離との比を計算する手段と、その比の値とあらかじめ与
えられた闘値とを比較して、データベース中の該データ
が入力された文字列を含む可能性の高さを計算する手段
により、一致量の値を不完全な文字列上で近接する文字
が、データベース中のデータ上でも近接する場合には、
一致量の値を大きくし、不完全文字列上では近接するが
データベース中のデータ上では離れているデータに対し
ては、一致量の値を小さくし、あらかじめ与えられた検
索対象のデータを判定するための闘値と一致量とを比較
して、該闘値よりも一致量の大きいデータのみを検索対
象データとして判定する手段により、不完全な文字列が
含まれるデータを的確に検索することができる。
【0013】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0014】本発明は、情報を文字コードによって表現
し格納する全文データベース全般に対して有効である
が、ここでは一例として時事情報のデータを扱う新聞記
事テキストデータベースを例として説明する。
【0015】(第1の実施例)図1は本発明の第1の実
施例の不完全文字列照合装置のシステム構成図、図2は
本実施例における不完全文字列照合処理を示すフローチ
ャート、図3は文字列一致度計算部3での処理例を示す
図、図4は一致量計算部6の計算原理を示す図、図5は
不完全文字列のデータおよびテキストデータベース2中
のデータ例を示す図である。
【0016】本実施例の不完全文字列照合装置は、利用
者から入力される文字列が格納される不完全文字列入力
部1と、検索対象データが格納されているテキストデー
タベース2と、テキストデータベース2中のデータと不
完全文字列入力部1中の文字列とを照合し、入力された
文字列中の文字とテキストデータベース2中のデータの
文字とが一致する個数を数える文字列一致度計算部3か
らなる。文字列一致度計算部3はさらに、入力された不
完全文字列に付けられている、その文字が検索したいデ
ータに含まれている可能性の高さを示す信頼度の値とあ
らかじめ与えられている閾値とを比較して、テキストデ
ータベース2中のデータを検索する際に利用する検索利
用文字を選ぶ検索利用文字選定部4と、選択された検索
利用文字を、入力された不完全文字列で出現した順に並
べ、テキストデータベース2中の各データと検索利用文
字とを順次照合し、不完全文字列中での文字の順に検索
利用文字が含まれるデータを選び出す順序付文字照合部
5と、テキストデータベース2から選択された各データ
に対して、入力された不完全文字列の当てはまりの良さ
を計算する一致量計算部6と、計算結果(当てはまりの
良さ)が格納される中間結果バッファ7と、中間結果バ
ッファ7中の当てはまりの良さの値をあらかじめ与えら
れた判定基準によって出力するデータを決定する出力デ
ータ判定部8からなる。
【0017】次に、本実施例における不完全文字列照合
処理を図2のフローチャートにしたがって説明する。
【0018】不完全文字列入力部1に与えられた文字コ
ードの列を文字列一致度計算部3に転送する(ステップ
11)。文字列一致度計算部3では、検索利用文字選定
部4において、入力された文字列につけられている信頼
度の値とあらかじめ与えられている閾値の値とを比較し
て、信頼度の値が閾値の値よりも小さい文字を検索利用
文字として選ぶ(ステップ12)。入力された不完全文
字列に、例えば図3に示す信頼度の値がついており、与
えられた閾値の値が140だとすると、’ま’、’
で’、’団’、’田’、’開’といった文字が検索利用
文字として選択される。次に、順序付文字照合部5にお
いてテキストデータベース2中の全てのデータの文字を
調べて、検索利用文字があらかじめ定められた閾値以上
の個数含まれているデータを選択し、一致量計算部6に
送る(ステップ13)。ステップ13の処理は、例えば
ステップ12で選択された検索利用文字が、図3のよう
に、’ま’、’で’、’団’、’田’、’開’であり、
閾値が3であったとすると、図3のように、検索利用文
字の最初の方から順に3個以上の文字が現れる3−1や
3−5,3−7といったデータが選ばれる。入力された
不完全文字列に信頼度の値がついていない場合には、入
力された不完全文字列の全ての文字に対して同一の信頼
度の値がついているとして、入力された不完全文字列全
ての文字を検索利用文字とする。
【0019】入力された不完全な文字列に信頼度の値が
ついていない場合の他の例としては、検索利用文字選定
部4において、例えば日本語の文字コード列を扱う場合
には、電子化された国語辞典や熟語辞典を用意し、入力
された不完全文字列中に含まれる、任意の連続した少な
くとも2文字の文字コードの列が辞書に含まれる場合に
は、その文字コードの列を構成している各文字コードの
信頼度の値を高くし、含まれない場合には、信頼度の値
を低くすることで、入力された不完全な文字コードの列
に対して信頼度の値を自動的に付加することもできる。
例えば図3における不完全な文字列が信頼度の値なしに
入力された場合には、隣接する文字コードを、2文字、
3文字などと組合せ、’まで’、’で化’等の文字列を
生成し、辞書データを検索する。そして’まで’、’公
団’、’開発’と言った文字列の各文字コードの信頼度
を120とし、それ以外の文字コードの信頼度を160
とすることで、データベース中の検索対象のデータに含
まれる可能性の高い文字を決定することもできる。
【0020】信頼度の値を付加する他の例としては、入
力された不完全な文字コードの列中の連続する任意の3
文字や4文字が熟語として辞書に含まれている場合に
は、2文字のみからなる単語の場合よりも、個々の文字
コードに付加する信頼度の値を高くすることで、検索対
象データ中に含まれる可能性の高さをより細かく判定で
きる。
【0021】選択されたデータは、一致量計算部6にお
いて、入力された不完全文字列の全ての文字を用いた、
当てはまりの良さの評価値の計算に用いられる(ステッ
プ14,15)。当てはまりの良さの計算の過程として
は、まず入力された不完全文字列の中で、選択された各
データ中の文字と最初に一致する文字を探す(ステップ
14)。最初に一致した文字から順次、入力された不完
全文字列中の個々の文字コードとテキストデータベース
2から検索されたデータの文字コードとを一致させた場
合、一致させない場合の候補を作成する(ステップ1
5)。各候補の評価値を計算する(ステップ16)。こ
の過程は、図4に示すようにテキストデータベース2か
ら検索された1つのテキストデータに対して、複数箇所
で一致する文字が現れる可能性があるので、順次繰り返
して、データの最後の文字に達するまで繰り返し行な
う。当てはまりの良さの評価値を表現する式としては、
例えば2のα乗(α=一致した文字数)で表し、1つの
テキストデータに対して得られた全ての候補の評価値の
内、最大の値と共にテキストデータを中間結果バッファ
7に格納する。図4の例では、テキストデータ3−1は
検索対象データではないので、高々4個か6個の文字が
一致するのみであるが、テキストデータ3−5は検索対
象データであるので、8個と多くの数字が一致してお
り、テキストデータ3−5とその評価値512が中間バ
ッファ7に格納される。
【0022】次に、出力データ判定部8において、中間
結果バッファ7に格納されている評価値を、与えられた
判定基準によって評価し、利用者に与えるデータを決定
する(ステップ17)。判定基準は、例えば、最大値を
求める場合であれば、中間結果バッファ7から順次評価
値とデータを取り出し、評価値を比較して最大の値を持
つデータを結果として利用者に返す。
【0023】不完全文字列入力部1に入力されるデータ
は、例えば図5(1)に示すように、文字候補と文字候
補の信頼度の値を持つ。このようなデータは、例えば紙
に印刷された文字列を読みとるOCR装置から容易に入
手することができる。また、不完全文字列入力部1に値
を入力する他の手法としては、例えばキーボードを介し
て文字列を入力する方法があり、これにより容易にデー
タを投入することができる。
【0024】検索対象となる文字コードによるデータベ
ースとしては、例えば図5(2)に示すように、情報の
本体を表す文字情報と、それに附随する日付などの属性
的な情報、タイトルのような要約的情報、または写真や
動画のような、文字では表現できないイメージや音など
を符号化した画像的情報を持つ場合もある。このような
文字コードによって表現される情報は、例えば新聞記事
やテレビニュースのデータベースとして、既に広く存在
する。
【0025】(第2の実施例)図6は本発明の第2の実
施例の不完全文字列照合装置のシステム構成図、図7は
本実施例における不完全文字列照合処理を示すフローチ
ャート、図8は多重文字候補を用いた場合の一致量計算
部37での計算原理を示す図、図9は文字列間の距離を
用いた場合の一致量計算部37での計算原理を示す図、
図10は文字列間の距離を用いた場合の一致量計算部3
7での他の計算原理を示す図である。
【0026】本実施例の不完全文字列照合装置は、図6
に示すように、例えば紙に印刷された文字列を読みと
り、紙に印刷された個々の文字に対して複数個の文字候
補と、文字候補が紙に書かれた文字と一致する可能性の
高さを示す信頼度とを生成する多重不完全文字列生成部
31と、例えば紙に印刷された文書を画像として表現し
たデータと、文字コードとして表現したデータの両者か
らなる文書のデータが格納されているデータベース32
と、多重不完全文字列生成部31によって生成された文
字候補情報を用いてデータベース32を検索し、利用者
に出力すべき情報を決定する文字列一致度計算部33
と、一致度計算の結果出力すべきと判断されたデータに
対して、データ中の画像情報を表示する画像情報表示部
34からなる。
【0027】文字列一致度計算部33はさらに、検索利
用文字選定部35と、順序付文字照合部36と、一致量
計算部37と、中間結果バッファ38と、出力データ判
定部39からなる。中間結果バッファ38以外の各部の
構成は、図1の装置と同様で、容易に類推できるため、
その説明は省略する。中間結果バッファ38は、データ
ベース32のデータの内、文書の画像データを利用でき
るように、一致量計算部37から得られた評価値と共
に、該当文書の画像データが格納される。
【0028】次に、本実施例の不完全文字列照合方法を
図7のフローチャートにしたがって説明する。
【0029】まず、多重不完全文字列生成部31におい
て、例えば紙に印刷された画像として入力された個々の
文字を示すと思われる少なくとも1つの文字コードと、
その文字コードが画像の文字を表している可能性の高さ
を表現する信頼度の2種類のデータを生成する(ステッ
プ41)。次に、検索利用文字選定部35において、デ
ータベース32を検索するために使用する文字候補を選
択する(ステップ42)。文字候補の選択は、例えば第
1の実施例のステップ12と同様に、入力された各文字
画像に対応する文字候補の内、第一候補の文字のみを取
り出し、その中からあらかじめ与えられた閾値以下の候
補のみを選択することで実施できる。検索利用文字の選
択の他の手法としては、入力された文字候補の中で、特
に図8に示すように第一候補と第二候補の信頼度の差
が、あらかじめ与えられた閾値よりも大きい文字候補の
みを選択する方法があり、入力された文書に含まれてい
る可能性の高い文字のみを選択することができる。
【0030】次に、信頼度の高い文字候補のみを用いて
データベース32を検索し、文字候補中の文字が、あら
かじめ与えられた閾値以上に文字候補中で登場した順に
含まれているデータを取得する(ステップ43)。デー
タベース32から取得した各データに対して、一致量計
算部33において、入力された多重不完全文字列の全て
の文字を用いて、図8に示すように、不完全文字列中の
文字と文書データベース32中から検索されたデータ中
の文字データの間での当てはまりの良さを計算する(ス
テップ44〜46)。
【0031】この時基本的な手法としては、、第一候補
の文字がデータベース32中の文字の情報に一致する可
能性が最も高いので、第一候補の文字を集め、図5に示
すように、評価候補を作り、最も評価値の高い場合を選
択する。
【0032】他の例としては、個々の文字画像に対応す
る複数個の文字候補の内、第一候補の文字に付けられた
信頼度の値と、第二候補以下の文字に付けられた信頼度
の値が、あらかじめ定められた閾値よりも小さい文字に
対して、文字候補を第一候補の文字と置き換えて当ては
まりの良さを計算することで、より評価値の高い値を生
成することができる。例えば図8に示すような多重不完
全文字列が入力された場合、「柚」は、第3候補の
「油」の誤りである。そこで、与えらえれた閾値が50
であったとすると、「油」を含む文字列候補が文書デー
タの文字列と一致する対象となるので、最大の評価値が
2048となり、一致した文字列である可能性がより高
くなる。
【0033】更に別の評価値計算の例としては、入力さ
れた多重不完全文字列は、データベース32中の文字コ
ードデータのある一部分と一致するはずなので、不完全
文字列中で隣接する文字は、データベース32中の文字
コード上でも隣接するか、近接する場所に存在するはず
である。そこで、不完全文字列中で、データベース2中
の文字コードデータと一致した文字候補間の距離と、文
書データベース2上での文字コード間の距離の比が、あ
らかじめ与えられた閾値よりも大きければ、その評価値
用の文字候補は、不一致として、評価値を0にする。例
えば図9に示すように、閾値の値が20であったとする
と、不完全文字列上で隣接する「M」と「九」が、デー
タベース32中の文字コード上で20以上離れている候
補は、評価値を0にする。
【0034】評価値の計算法のさらに他の例としては、
不完全文字列内の文字で近接する文字は、データベース
32上の文字コードの中でも近接する可能性が高いの
で、不完全文字列上での文字間の距離と、データベース
32上での該当文字間の距離を比較して、距離の違いに
より評価値の重み(距離重み)を変化させることにより
評価値の値を変化させることで、当てはまりの良い文書
情報を選択する。例えば、評価値を求める式を、
【0035】
【数1】 と定義すると、図10に示すように、検索対象であるデ
ータ3−5の評価値と、検索対象ではないが文字が一致
してしまったデータ3−1に対する評価値の差が大きく
なり、検索対象のデータ3−5のみを容易に選択するこ
とができる。
【0036】次に、中間結果バッファ38の中で、評価
値が最大のデータを探し、そのデータを画像情報表示部
34へ送る(ステップ47)。画像情報表示部34で
は、データ中の画像情報を取り出して、例えばディスプ
レイのような画像情報を表示する装置に表示する(ステ
ップ48)。
【0037】画像情報表示部34の他の例としては、F
AXや写植機のような紙などを表示媒体として表現する
装置を用いることもできる。
【0038】多重不完全文字生成部31の一例として
は、紙等の媒体に書かれた文字を1つ以上の文字コード
の候補に変換する文字認識装置があげられる。文字認識
装置は、紙などの媒体に書かれた1つの文字に対し、1
つ以上の文字コードの候補を生成し、正しいと判断した
順に順序づけできるので、多重不完全文字列となり得
る。
【0039】多重不完全文字列生成部31の他の一例と
しては、ワードプロセッサと呼ばれる日本語入力装置を
用いることも可能である。例えば仮名混じりの漢字文
を、その文の読みによって入力する装置では、日本語に
は1つの読みに対して複数の漢字が対応するので、読み
で入力すると誤った仮名混じり漢字文が生成される場合
がある。一例としては、「せきゆこうだんが、かいはつ
にのりだし」と入力すると、ワードプロセッサにより、
「石油講談が、開発に載りだし」と変換されてしまう場
合がある。しかしワードプロセッサ中には、入力された
読みに対しての正しい漢字である、「公団」や「乗りだ
し」が存在する。そこで読みで入力されることにより曖
昧となる漢字に対して、第二、第三候補の漢字を付加し
て、仮名混じり漢字文を生成すると、上記の例は、「石
油(講公)(談団)が、開発に(載乗)りだし」の様に
曖昧な、「こう」などの文字を複数候補で表現すること
により、容易に多重不完全文字列を生成できる。
【0040】
【発明の効果】以上説明したように、本発明は、以下の
ような効果がある。 ()請求項1と3の発明は、入力された文字列と一致
する文字列を含むデータを検索する際に、入力された文
字列中の各文字に、その文字が検索対象のデータに含ま
れる可能性の高さを示す値を持つ時、あらかじめ与えら
れた閾値と可能性の高さの値とを比較することにより、
データベース中に含まれる可能性の高い文字のみを選択
し、選択された文字について、先頭から順にデータベー
ス中のデータと文字コードを一致させることで、入力さ
れた文字列中に含まれる誤った文字がデータベース中の
データと一致して検索されてしまうことを排除すること
ができる。 ()請求項2と4の発明は、入力された文字列と一致
する文字列を含むデータを検索する際に、入力した文字
列とデータベース中の文字コードを一致させる時、一致
した2つの文字コードに対して、入力した文字列上での
文字コード間の距離と、データベース中のデータ上での
文字コード間の距離との比を計算し、入力された文字列
上での位置関係とデータベース中のデータ上で一致する
文字間の位置関係を値化し、あらかじめ与えられた閾値
と距離の比の値とを比較することにより、例えば入力さ
れた文字列上で近接する文字が、データベース中のデー
タ上でも近接する場合には、検索対象とする可能性を高
くし、入力された文字列上で近接する文字が、データベ
ース中のデータ上で離れている場合には、検索対象とす
る可能性を低くすることで、入力された文字列上では近
接する文字が、データベース上では離れているのに検索
してしまう可能性を低下させることができる。
【0041】本発明の効果の値としては、例えば約20
0個の情報を持ち、検索対象となる文字が約100,0
00文字のデータからなるデータベースにおいて、入力
された不完全文字列が平均12〜13文字で、誤ってい
る文字が平均4文字程度の場合には、請求項1、2、3
の発明を用いて、入力された不完全文字列に合致するた
だ1つのデータを検索する場合に、81.25%の割合
で正しいデータを検索できた。特に、この内入力された
不完全な文字列の内、5文字以上の文字コードが一致す
る場合には、92.5%の高い割合で、正しいデータの
みを検索することが可能となった。
【図面の簡単な説明】
【図1】本発明の第1の実施例の不完全文字列照合装置
のシステム構成図である。
【図2】図1の実施例における不完全文字列照合処理を
示すフローチャートである。
【図3】文字列一致度計算部3での処理例を示す図であ
る。
【図4】一致量計算部6の計算原理を示す図である。
【図5】不完全文字列のデータおよびテキストデータベ
ース2中のデータ例を示す図である。
【図6】本発明の第2の実施例の不完全文字列照合装置
のシステム構成図である。
【図7】図1の実施例における不完全文字列照合処理を
示すフローチャートである。
【図8】多重文字候補を用いた場合の一致量計算部37
での計算原理を示す図である。
【図9】文字列間の距離を用いた場合の一致量計算部3
7での計算原理を示す図である。
【図10】文字列間の距離を用いた場合の一致量計算部
37での他の計算原理を示す図である。
【符号の説明】
1 不完全文字列入力部 2 テキストデータベース 3 文字列一致度計算部 4 検索利用文字選定部 5 順序付文字照合部 6 一致量計算部 7 中間結果バッファ 8 出力データ判定部 10〜17 ステップ 31 多重不完全文字列抽出部 32 データベース 33 文字列一致度計算部 34 画像情報表示部 35 検索利用文字選定部 36 順序付文字照合部 37 一致量計算部 38 中間結果バッファ 39 出力データ判定部 41〜48 ステップ
フロントページの続き (56)参考文献 特開 昭60−116083(JP,A) 特開 平2−17573(JP,A) 特開 平4−104367(JP,A) 特開 平3−116377(JP,A) 特開 平2−108157(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 情報を少なくとも文字コードによって表
    現したデータが格納されているデータベース中のデータ
    の一部である1文字以上の文字コードの列を入力してデ
    ータベース中のデータの検索を行なう、文字コードの列
    によるデータ検索方法において、入力される文字コードの列中に必ずしも検索対象のデー
    タには含まれていない文字を含む、不完全な文字コード
    の列が入力される際に、 入力される不完全な文字コードの列の個々の文字コード
    に付けられている、該文字コードがデータベース中の検
    索したいデータに含まれている可能性の高さを示す値
    と、あらかじめ与えられた第1の閾値とを比較し、デー
    タベースを検索する際に利用する検索対象データ中に含
    まれる可能性の高い文字コードを選択し、選択された文
    字コードとデータベース中の各データの文字コードが一
    致する回数を、選択された個々の文字コードが、入力さ
    れたときの文字コードの列中で登場した順序に従って計
    測し、一致した回数とあらかじめ定められた第2の闘値
    とを比較して、第2の闘値よりも多くの回数一致する文
    字があったデータを検索対象のデータの候補とし、 次に、該検索対象のデータの各候補に含まれる文字コー
    ドと、入力された不完全な文字列中に含まれる全ての文
    字コードが一致する数を、入力された不完全な文字列の
    個々の文字コードが出現した順番に従って計測し、一致
    する文字コードの数とあらかじめ定められた第3の閾値
    とを比較して、第3の閾値以上に一致するデータを検索
    すべきデータと判断する、 不完全文字列と文字列の照合
    方法。
  2. 【請求項2】 情報を少なくとも文字コードによって表
    現したデータが格納されているデータベース中のデータ
    の一部である1文字以上の文字コードの列を入力してデ
    ータベース中のデータの検索を行なう、文字コードの列
    によるデータ検索方法において、 入力される文字コードの列中に必ずしも検索対象のデー
    タには含まれていない文字を含む、不完全な文字コード
    の列が入力される際に、 入力された文字コードの列中の個々の文字コードが出現
    した順番に従って、入力された文字コードとデータベー
    ス中のデータの文字コードが一致する数を計測 し、 入力された不完全な文字列中の文字コードの中で、デー
    タベース中のデータに含まれる文字コードと一致する2
    つの文字間の距離を、入力された不完全な文字列とデー
    タベース中のデータのそれぞれにおいて計測し、文字間
    の距離の違いを前記一致する文字コードの数量に反映し
    て評価値を定め、検索すべきデータを判断する、 不完全
    文字列と文字列の照合方法。
  3. 【請求項3】 利用者が入力した文字列の個々の文字に
    対して、その文字から想定される検索対象データ中に含
    まれる可能性のある1つ以上の文字コードとその文字コ
    ードが検索対象データ中に含まれる可能性の高さを示す
    信頼度とを生成する手段と、 個々の文字コードにつけられた前記信頼度と、あらかじ
    め与えられている第1の闘値とを比較し、第1の闘値よ
    りも信頼度が高い文字コードを検索利用文字として選択
    する検索利用文字選定手段と、 選択された検索利用文字を、入力された文字列で出現し
    た順に並べ、データベース中の各データと検索利用文字
    を順次照合し、入力された文字列中での文字の順に検索
    利用文字が含まれるデータを選び出す順序付文字照合手
    段と、 前記順序付文字照合手段により選択された各データと、
    入力された文字列中に含まれる全ての文字コードとを用
    いて、入力された文字列の個々の文字コードが出現した
    順番に従って、文字コードが一致する数を計測し、一致
    文字数を各データの評価値とする一致量計算手段と、 前記評価値をあらかじめ与えられた判定基準によって出
    力するデータを決定する出力データ判定手段と、 を備える、不完全文字列と文字列の照合装置。
  4. 【請求項4】 データベースの各データと、入力された
    文字列中に含まれる全ての文字コードとを用いて、入力
    された文字列の個々の文字コードが出現した順番に従っ
    て文字コードが一致する数量を計測する手段と、 入力された文字列中の文字コードの中で、データベース
    中のデータに含まれる文字コードと一致する2つの文字
    間の距離を、入力された文字列とデータベース中のデー
    タのそれぞれにおいて計測し、文字間の距離の違いを前
    記文字コードが 一致する数量に反映して評価値を定める
    手段と、 前記評価値をあらかじめ与えられた判定基準によって出
    力するデータを決定する出力データ判定手段と、 を備える、不完全文字列と文字列の照合装置。
JP15762993A 1993-06-28 1993-06-28 不完全文字列と文字列の照合方法および装置 Expired - Fee Related JP3371983B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP15762993A JP3371983B2 (ja) 1993-06-28 1993-06-28 不完全文字列と文字列の照合方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP15762993A JP3371983B2 (ja) 1993-06-28 1993-06-28 不完全文字列と文字列の照合方法および装置

Publications (2)

Publication Number Publication Date
JPH0736926A JPH0736926A (ja) 1995-02-07
JP3371983B2 true JP3371983B2 (ja) 2003-01-27

Family

ID=15653905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP15762993A Expired - Fee Related JP3371983B2 (ja) 1993-06-28 1993-06-28 不完全文字列と文字列の照合方法および装置

Country Status (1)

Country Link
JP (1) JP3371983B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175557A (ja) * 1997-12-16 1999-07-02 Sanyo Electric Co Ltd 情報通信端末装置
JP3589007B2 (ja) * 1998-02-18 2004-11-17 三菱電機株式会社 文書ファイリングシステムおよび文書ファイリング方法
JP2007193641A (ja) * 2006-01-20 2007-08-02 Sharp Corp 情報検索装置、情報検索方法、情報検索プログラム、および情報検索プログラムを記録したコンピュータ読取り可能な記録媒体
CN111145783A (zh) * 2019-12-29 2020-05-12 杭州联汇科技股份有限公司 一种音频信号字符串匹配方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60116083A (ja) * 1983-11-28 1985-06-22 Toshiba Corp 文字列判定装置
JPH0217573A (ja) * 1988-07-06 1990-01-22 Mitsubishi Electric Corp フアイル装置
JP2760524B2 (ja) * 1988-10-17 1998-06-04 三洋電機株式会社 情報検索方法
JP2872706B2 (ja) * 1989-09-29 1999-03-24 株式会社リコー 情報検索装置
JPH04104367A (ja) * 1990-08-23 1992-04-06 Mitsubishi Electric Corp ファイルシステム

Also Published As

Publication number Publication date
JPH0736926A (ja) 1995-02-07

Similar Documents

Publication Publication Date Title
JP5075291B2 (ja) 情報処理装置、情報処理方法、情報処理プログラムを記録した記録媒体
JP4421134B2 (ja) 文書画像検索装置
JP2742115B2 (ja) 類似文書検索装置
EP0844583A2 (en) Method and apparatus for character recognition
CN111428494A (zh) 专有名词的智能纠错方法、装置、设备及存储介质
US8510312B1 (en) Automatic metadata identification
EP1949261A1 (en) Apparatus, method, and storage medium storing program for determining naturalness of array of words
JPH058464B2 (ja)
US20230342400A1 (en) Document search device, document search program, and document search method
JP3371983B2 (ja) 不完全文字列と文字列の照合方法および装置
EP0271664A2 (en) A morphological/phonetic method for ranking word similarities
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN111767733A (zh) 一种基于统计分词的文献密级甄别方法
JP3369127B2 (ja) 形態素解析装置
US8549008B1 (en) Determining section information of a digital volume
JP3958722B2 (ja) イメージデータ文書検索システム
JPH08115330A (ja) 類似文書検索方法および装置
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2006294069A (ja) 文書校正装置およびプログラム記憶媒体
JP2745484B2 (ja) 手書文字認識方法および装置
JP3471381B2 (ja) 文字列処理方法
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2005189955A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JPH0954781A (ja) 文書検索システム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071122

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081122

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091122

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101122

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111122

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111122

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121122

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees