JP3371983B2

JP3371983B2 - 不完全文字列と文字列の照合方法および装置

Info

Publication number: JP3371983B2
Application number: JP15762993A
Authority: JP
Inventors: 英昭小澤; 透中川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1993-06-28
Filing date: 1993-06-28
Publication date: 2003-01-27
Anticipated expiration: 2018-01-27
Also published as: JPH0736926A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、情報を検索するシステ
ムにおいて、特に文字コードを用いて検索を行なう全文
データベース、および、その応用システムに関する。

【０００２】特に具体的な応用分野としては、新聞や、
雑誌、文書などの文字で表現された情報と、それに付け
加わる写真、図表などを含む情報を格納するデータベー
スにおいて、格納されている情報の元になっている文書
や雑誌、新聞などの一部を切り抜いて作成したスクラッ
プブックなどから、切り抜いた情報を文字を認識する装
置（ＯＣＲ）を利用して、文字コード化し、該部分情報
を含む情報全体を検索するシステムがある。

【０００３】

【従来の技術】従来の全文データベースのシステムで
は、データを検索するために、利用者は検索したいデー
タ中に含まれていると思う単語や１つの文字といった、
データと完全に含まれると考えられる文字列を入力して
いた。これに対しシステム側では、入力された文字列と
完全に一致する文字列を含むデータを利用者に返してい
た。改良された手法としては、入力された文字列が単語
である場合には、同義語展開等を行なって複数個の文字
列を生成し、一致する文字列を含むデータを検索してい
た。

【０００４】

【発明が解決しようとする課題】しかし入力された文字
列が一般的な単語や文字である場合には、従来の全文デ
ータベース中の多くのデータが一致してしまい、不用意
に多くのデータを得てしまうと言う問題点があった。逆
に、特定のデータとのみ一致できるように、データ中に
含まれる一文や一文節のような単語よりも長い文字列を
入力する場合には、利用者の入力ミスや、記憶の間違い
などにより、文字列の一部分が誤っていると、正しいデ
ータを検索できないといった問題点があった。

【０００５】そこで、本発明の目的は、入力された文字
列中に含まれる文字コードの内データベース中のデータ
と一致できるものに対して一致させていきながら、多く
の文字コードが一致するデータを検索すべきデータとし
て判定することにより、入力された文字列中に誤った文
字コードが含まれていたり、部分的に存在しない文字コ
ードが混在したり、逆に文字コードの不足があったとし
ても、必要な情報を検索することが可能な、不完全文字
列と文字列の照合方法および装置を提供することにあ
る。

【０００６】

【課題を解決するための手段】本発明の第１の、不完全
文字列と文字列の照合方法は、入力される文字コードの
列中に必ずしも検索対象のデータには含まれていない文
字を含む、不完全な文字コードの列が入力される際に、
入力される不完全な文字コードの列の個々の文字コード
に付けられている、該文字コードがデータベース中の検
索したいデータに含まれている可能性の高さを示す値
と、あらかじめ与えられた第１の閾値とを比較し、デー
タベースを検索する際に利用する検索対象データ中に含
まれる可能性の高い文字コードを選択し、選択された文
字コードとデータベース中の各データの文字コードが一
致する回数を、選択された個々の文字コードが、入力さ
れたときの文字コードの列中で登場した順序に従って計
測し、一致した回数とあらかじめ定められた第２の闘値
とを比較して、第２の闘値よりも多くの回数一致する文
字があったデータを検索対象のデータの候補とし、次
に、該検索対象のデータの各候補に含まれる文字コード
と、入力された不完全な文字列中に含まれる全ての文字
コードが一致する数を、入力された不完全な文字列の個
々の文字コードが出現した順番に従って計測し、一致す
る文字コードの数とあらかじめ定められた第３の閾値と
を比較して、第３の閾値以上に一致するデータを検索す
べきデータと判断する。本発明の第２の、不完全文字列
と文字列の照合方法は、入力される文字コードの列中に
必ずしも検索対象のデータには含まれていない文字を含
む、不完全な文字コードの列が入力される際に、入力さ
れた文字コードの列中の個々の文字コードが出現した順
番に従って、入力された文字コードとデータベース中の
データの文字コードが一致する数を計測し、入力された
不完全な文字列中の文字コードの中で、データベース中
のデータに含まれる文字コードと一致する２つの文字間
の距離を、入力された不完全な文字列とデータベース中
のデータのそれぞれにおいて計測し、文字間の距離の違
いを前記一致する文字コードの数量に反映して評価値を
定め、検索すべきデータを判断する。

【０００７】本発明の、第１の不完全文字列と文字列の
照合装置は、利用者の入力した文字列の個々の文字に対
して、その文字から想定される検索対象データ中に含ま
れる可能性のある１つ以上の文字コードとその文字コー
ドが検索対象データ中に含まれる可能性の高さを示す信
頼度を生成する手段と、個々の文字コードにつけられた
前記信頼度と、あらかじめ与えられている第１の闘値と
を比較し、第１の闘値よりも信頼度が高い文字コードを
検索利用文字として選択する検索利用文字選定手段と、
選択された検索利用文字を、入力された文字列で出現し
た順に並べ、データベース中の各データと検索利用文字
を順次照合し、入力された文字列中での文字の順に検索
利用文字が含まれるデータを選び出す順序付文字照合手
段と、前記順序付文字照合手段により選択された各デー
タと、入力された文字列中に含まれる全ての文字コード
とを用いて、入力された文字列の個々の文字コードが出
現した順番に従って、文字コードが一致する数を計測
し、一致文字数を各データの評価値とする一致量計算手
段と、前記評価値をあらかじめ与えられた判定基準によ
って出力するデータを決定する出力データ判定手段とを
備える。本発明の第２の、不完全文字列と文字列の照合
装置は、データベースの各データと、入力された文字列
中に含まれる全ての文字コードとを用いて、入力された
文字列の個々の文字コードが出現した順番に従って文字
コードが一致する数量を計測する手段と、入力された文
字列中の文字コードの中で、データベース中のデータに
含まれる文字コードと一致する２つの文字間の距離を、
入力された文字列とデータベース中のデータのそれぞれ
において計測し、文字間の距離の違いを前記文字コード
が一致する数量に反映して評価値を定める手段と、前記
評価値をあらかじめ与えられた判定基準によって出力す
るデータを決定する出力データ判定手段とを備える。

【０００８】

【０００９】

【作用】データベース中には多くの文字コードのパター
ンが存在するので、入力された不完全な文字列中の誤っ
た文字がデータと一致してしまう場合が存在する。そこ
で、請求項１の発明は、データベース中のデータに対し
て、入力された不完全な文字列を含むか否かを判定する
際に、入力された不完全な文字列の個々の文字に付けら
れている、データベース中の検索すべきデータに含まれ
ている可能性の高さを示す値と、あらかじめ与えられた
閾値とを比較し、比較した結果閾値よりも検索対象のデ
ータに含まれる可能性の高い文字コードのみを用いてデ
ータベース中のデータと個々の文字コードが一致するか
の判断をすることにより、検索対象のデータである可能
性の高いデータのみをあらかじめ選択する。入力された
不完全な文字列に含まれる全ての文字コードと選択され
たデータ中の文字コードとが一致する個数を計測し、一
致する文字の個数と、あらかじめ与えられた閾値とを比
較し、閾値よりも一致する文字の個数が多いデータを検
索すべきデータとして判断する。これにより不完全な文
字列中に含まれる、検索すべきデータに含まれる可能性
の高い文字コードのみによって検索対象であるデータ集
合のみを優先して選択し、不完全な文字列中の誤った文
字コードによる影響を排除することが可能になる。

【００１０】データベース中の個々のデータは、多くの
文字コードから構成されている場合がある。利用者から
入力された文字列に誤りなどがなければ、検索対象のデ
ータのある連続した一部分と完全に一致するはずであ
る。しかし、入力された文字列に対してデータベース中
のデータと部分的に一致する箇所を検出する場合には、
検索対象データ中で離れて存在する文字と偶然に一致す
ることにより、誤ったデータが検索されてしまう可能性
がある。そこで、請求項２の発明は、利用者が入力した
文字列上での文字間の距離と、データベース中のデータ
上で一致した文字における文字間の距離との比を計算
し、その比の値とあらかじめ与えられた閾値とを比較し
て、閾値よりも文字間の距離の比が大きい検索対象デー
タに対してデータベース中の該データが入力された文字
列を含む可能性の高さを上げることにより、入力文字列
中で近接しているのにデータベース中のデータ上では文
字が離れてしまう、検索対象とすべきでないデータを検
索してしまうことを防ぐことができる。

【００１１】

【００１２】入力される不完全な文字列において、例え
ば大きな’い’と小さな’ぃ’のように類似する文字の
どちらがデータベース中の検索対象のデータに含まれる
と言う場合のように、入力された１つの文字に対して、
検索対象データ中に含まれる可能性のある文字が複数個
存在する場合があるが、検索対象のデータ中に含まれる
正しい文字は１つなので、不用意に多くの文字コード列
の生成を行なって、照合を行なう文字コード列の候補を
作ると、正しくない文字が一致してしまう可能性も高く
なる場合がある。特に’い’と’ぃ’の様に大小の文字
は平仮名、片仮名に多く存在し、漢字仮名交じり文の日
本語のテキストでは、複数箇所に大小文字のどちらかが
存在する場合がある。そこで、請求項３の発明は、入力
する不完全な文字列の個々の文字に対して、１つ以上の
文字候補を与え、個々の文字候補にデータベース中の検
索対象データに含まれる可能性の高さを示す値を与える
手段により、検索対象のデータに含まれる可能性の最も
高い文字候補を第一候補、以下可能性の高い順に第二候
補、第三候補とする。特に第一候補の文字コードの中で
あらかじめ与えられた闘値よりも検索対象データ中に含
まれる可能性の高い文字コードのみを選択して、データ
ベースを検索する手段により、候補データを絞り込む。
次に、第一候補と、第二候補以下の可能性の高さの差を
計測する手段により、あらかじめ定められた閾値よりも
可能性の高さの差が小さい文字コードの候補を用いて、
入力された文字列に対応する文字コード列を生成する手
段により、１つ以上の照合対象の文字コード列を生成
し、さらに生成された文字コード列中の文字コードと、
検索された候補データ中の文字コードとが一致する個数
を計測し、該候補データの一致量とする手段により各候
補データに対して入力された不完全な文字列を含む可能
性の高さの値を付ける。さらに、請求項４の発明では、
利用者が入力した文字列上での文字間の距離と、データ
ベース中のデータ上で一致した文字における文字間の距
離との比を計算する手段と、その比の値とあらかじめ与
えられた闘値とを比較して、データベース中の該データ
が入力された文字列を含む可能性の高さを計算する手段
により、一致量の値を不完全な文字列上で近接する文字
が、データベース中のデータ上でも近接する場合には、
一致量の値を大きくし、不完全文字列上では近接するが
データベース中のデータ上では離れているデータに対し
ては、一致量の値を小さくし、あらかじめ与えられた検
索対象のデータを判定するための闘値と一致量とを比較
して、該闘値よりも一致量の大きいデータのみを検索対
象データとして判定する手段により、不完全な文字列が
含まれるデータを的確に検索することができる。

【００１３】

【実施例】次に、本発明の実施例について図面を参照し
て説明する。

【００１４】本発明は、情報を文字コードによって表現
し格納する全文データベース全般に対して有効である
が、ここでは一例として時事情報のデータを扱う新聞記
事テキストデータベースを例として説明する。

【００１５】（第１の実施例）図１は本発明の第１の実
施例の不完全文字列照合装置のシステム構成図、図２は
本実施例における不完全文字列照合処理を示すフローチ
ャート、図３は文字列一致度計算部３での処理例を示す
図、図４は一致量計算部６の計算原理を示す図、図５は
不完全文字列のデータおよびテキストデータベース２中
のデータ例を示す図である。

【００１６】本実施例の不完全文字列照合装置は、利用
者から入力される文字列が格納される不完全文字列入力
部１と、検索対象データが格納されているテキストデー
タベース２と、テキストデータベース２中のデータと不
完全文字列入力部１中の文字列とを照合し、入力された
文字列中の文字とテキストデータベース２中のデータの
文字とが一致する個数を数える文字列一致度計算部３か
らなる。文字列一致度計算部３はさらに、入力された不
完全文字列に付けられている、その文字が検索したいデ
ータに含まれている可能性の高さを示す信頼度の値とあ
らかじめ与えられている閾値とを比較して、テキストデ
ータベース２中のデータを検索する際に利用する検索利
用文字を選ぶ検索利用文字選定部４と、選択された検索
利用文字を、入力された不完全文字列で出現した順に並
べ、テキストデータベース２中の各データと検索利用文
字とを順次照合し、不完全文字列中での文字の順に検索
利用文字が含まれるデータを選び出す順序付文字照合部
５と、テキストデータベース２から選択された各データ
に対して、入力された不完全文字列の当てはまりの良さ
を計算する一致量計算部６と、計算結果（当てはまりの
良さ）が格納される中間結果バッファ７と、中間結果バ
ッファ７中の当てはまりの良さの値をあらかじめ与えら
れた判定基準によって出力するデータを決定する出力デ
ータ判定部８からなる。

【００１７】次に、本実施例における不完全文字列照合
処理を図２のフローチャートにしたがって説明する。

【００１８】不完全文字列入力部１に与えられた文字コ
ードの列を文字列一致度計算部３に転送する（ステップ
１１）。文字列一致度計算部３では、検索利用文字選定
部４において、入力された文字列につけられている信頼
度の値とあらかじめ与えられている閾値の値とを比較し
て、信頼度の値が閾値の値よりも小さい文字を検索利用
文字として選ぶ（ステップ１２）。入力された不完全文
字列に、例えば図３に示す信頼度の値がついており、与
えられた閾値の値が１４０だとすると、’ま’、’
で’、’団’、’田’、’開’といった文字が検索利用
文字として選択される。次に、順序付文字照合部５にお
いてテキストデータベース２中の全てのデータの文字を
調べて、検索利用文字があらかじめ定められた閾値以上
の個数含まれているデータを選択し、一致量計算部６に
送る（ステップ１３）。ステップ１３の処理は、例えば
ステップ１２で選択された検索利用文字が、図３のよう
に、’ま’、’で’、’団’、’田’、’開’であり、
閾値が３であったとすると、図３のように、検索利用文
字の最初の方から順に３個以上の文字が現れる３−１や
３−５，３−７といったデータが選ばれる。入力された
不完全文字列に信頼度の値がついていない場合には、入
力された不完全文字列の全ての文字に対して同一の信頼
度の値がついているとして、入力された不完全文字列全
ての文字を検索利用文字とする。

【００１９】入力された不完全な文字列に信頼度の値が
ついていない場合の他の例としては、検索利用文字選定
部４において、例えば日本語の文字コード列を扱う場合
には、電子化された国語辞典や熟語辞典を用意し、入力
された不完全文字列中に含まれる、任意の連続した少な
くとも２文字の文字コードの列が辞書に含まれる場合に
は、その文字コードの列を構成している各文字コードの
信頼度の値を高くし、含まれない場合には、信頼度の値
を低くすることで、入力された不完全な文字コードの列
に対して信頼度の値を自動的に付加することもできる。
例えば図３における不完全な文字列が信頼度の値なしに
入力された場合には、隣接する文字コードを、２文字、
３文字などと組合せ、’まで’、’で化’等の文字列を
生成し、辞書データを検索する。そして’まで’、’公
団’、’開発’と言った文字列の各文字コードの信頼度
を１２０とし、それ以外の文字コードの信頼度を１６０
とすることで、データベース中の検索対象のデータに含
まれる可能性の高い文字を決定することもできる。

【００２０】信頼度の値を付加する他の例としては、入
力された不完全な文字コードの列中の連続する任意の３
文字や４文字が熟語として辞書に含まれている場合に
は、２文字のみからなる単語の場合よりも、個々の文字
コードに付加する信頼度の値を高くすることで、検索対
象データ中に含まれる可能性の高さをより細かく判定で
きる。

【００２１】選択されたデータは、一致量計算部６にお
いて、入力された不完全文字列の全ての文字を用いた、
当てはまりの良さの評価値の計算に用いられる（ステッ
プ１４，１５）。当てはまりの良さの計算の過程として
は、まず入力された不完全文字列の中で、選択された各
データ中の文字と最初に一致する文字を探す（ステップ
１４）。最初に一致した文字から順次、入力された不完
全文字列中の個々の文字コードとテキストデータベース
２から検索されたデータの文字コードとを一致させた場
合、一致させない場合の候補を作成する（ステップ１
５）。各候補の評価値を計算する（ステップ１６）。こ
の過程は、図４に示すようにテキストデータベース２か
ら検索された１つのテキストデータに対して、複数箇所
で一致する文字が現れる可能性があるので、順次繰り返
して、データの最後の文字に達するまで繰り返し行な
う。当てはまりの良さの評価値を表現する式としては、
例えば２のα乗（α＝一致した文字数）で表し、１つの
テキストデータに対して得られた全ての候補の評価値の
内、最大の値と共にテキストデータを中間結果バッファ
７に格納する。図４の例では、テキストデータ３−１は
検索対象データではないので、高々４個か６個の文字が
一致するのみであるが、テキストデータ３−５は検索対
象データであるので、８個と多くの数字が一致してお
り、テキストデータ３−５とその評価値５１２が中間バ
ッファ７に格納される。

【００２２】次に、出力データ判定部８において、中間
結果バッファ７に格納されている評価値を、与えられた
判定基準によって評価し、利用者に与えるデータを決定
する（ステップ１７）。判定基準は、例えば、最大値を
求める場合であれば、中間結果バッファ７から順次評価
値とデータを取り出し、評価値を比較して最大の値を持
つデータを結果として利用者に返す。

【００２３】不完全文字列入力部１に入力されるデータ
は、例えば図５（１）に示すように、文字候補と文字候
補の信頼度の値を持つ。このようなデータは、例えば紙
に印刷された文字列を読みとるＯＣＲ装置から容易に入
手することができる。また、不完全文字列入力部１に値
を入力する他の手法としては、例えばキーボードを介し
て文字列を入力する方法があり、これにより容易にデー
タを投入することができる。

【００２４】検索対象となる文字コードによるデータベ
ースとしては、例えば図５（２）に示すように、情報の
本体を表す文字情報と、それに附随する日付などの属性
的な情報、タイトルのような要約的情報、または写真や
動画のような、文字では表現できないイメージや音など
を符号化した画像的情報を持つ場合もある。このような
文字コードによって表現される情報は、例えば新聞記事
やテレビニュースのデータベースとして、既に広く存在
する。

【００２５】（第２の実施例）図６は本発明の第２の実
施例の不完全文字列照合装置のシステム構成図、図７は
本実施例における不完全文字列照合処理を示すフローチ
ャート、図８は多重文字候補を用いた場合の一致量計算
部３７での計算原理を示す図、図９は文字列間の距離を
用いた場合の一致量計算部３７での計算原理を示す図、
図１０は文字列間の距離を用いた場合の一致量計算部３
７での他の計算原理を示す図である。

【００２６】本実施例の不完全文字列照合装置は、図６
に示すように、例えば紙に印刷された文字列を読みと
り、紙に印刷された個々の文字に対して複数個の文字候
補と、文字候補が紙に書かれた文字と一致する可能性の
高さを示す信頼度とを生成する多重不完全文字列生成部
３１と、例えば紙に印刷された文書を画像として表現し
たデータと、文字コードとして表現したデータの両者か
らなる文書のデータが格納されているデータベース３２
と、多重不完全文字列生成部３１によって生成された文
字候補情報を用いてデータベース３２を検索し、利用者
に出力すべき情報を決定する文字列一致度計算部３３
と、一致度計算の結果出力すべきと判断されたデータに
対して、データ中の画像情報を表示する画像情報表示部
３４からなる。

【００２７】文字列一致度計算部３３はさらに、検索利
用文字選定部３５と、順序付文字照合部３６と、一致量
計算部３７と、中間結果バッファ３８と、出力データ判
定部３９からなる。中間結果バッファ３８以外の各部の
構成は、図１の装置と同様で、容易に類推できるため、
その説明は省略する。中間結果バッファ３８は、データ
ベース３２のデータの内、文書の画像データを利用でき
るように、一致量計算部３７から得られた評価値と共
に、該当文書の画像データが格納される。

【００２８】次に、本実施例の不完全文字列照合方法を
図７のフローチャートにしたがって説明する。

【００２９】まず、多重不完全文字列生成部３１におい
て、例えば紙に印刷された画像として入力された個々の
文字を示すと思われる少なくとも１つの文字コードと、
その文字コードが画像の文字を表している可能性の高さ
を表現する信頼度の２種類のデータを生成する（ステッ
プ４１）。次に、検索利用文字選定部３５において、デ
ータベース３２を検索するために使用する文字候補を選
択する（ステップ４２）。文字候補の選択は、例えば第
１の実施例のステップ１２と同様に、入力された各文字
画像に対応する文字候補の内、第一候補の文字のみを取
り出し、その中からあらかじめ与えられた閾値以下の候
補のみを選択することで実施できる。検索利用文字の選
択の他の手法としては、入力された文字候補の中で、特
に図８に示すように第一候補と第二候補の信頼度の差
が、あらかじめ与えられた閾値よりも大きい文字候補の
みを選択する方法があり、入力された文書に含まれてい
る可能性の高い文字のみを選択することができる。

【００３０】次に、信頼度の高い文字候補のみを用いて
データベース３２を検索し、文字候補中の文字が、あら
かじめ与えられた閾値以上に文字候補中で登場した順に
含まれているデータを取得する（ステップ４３）。デー
タベース３２から取得した各データに対して、一致量計
算部３３において、入力された多重不完全文字列の全て
の文字を用いて、図８に示すように、不完全文字列中の
文字と文書データベース３２中から検索されたデータ中
の文字データの間での当てはまりの良さを計算する（ス
テップ４４〜４６）。

【００３１】この時基本的な手法としては、、第一候補
の文字がデータベース３２中の文字の情報に一致する可
能性が最も高いので、第一候補の文字を集め、図５に示
すように、評価候補を作り、最も評価値の高い場合を選
択する。

【００３２】他の例としては、個々の文字画像に対応す
る複数個の文字候補の内、第一候補の文字に付けられた
信頼度の値と、第二候補以下の文字に付けられた信頼度
の値が、あらかじめ定められた閾値よりも小さい文字に
対して、文字候補を第一候補の文字と置き換えて当ては
まりの良さを計算することで、より評価値の高い値を生
成することができる。例えば図８に示すような多重不完
全文字列が入力された場合、「柚」は、第３候補の
「油」の誤りである。そこで、与えらえれた閾値が５０
であったとすると、「油」を含む文字列候補が文書デー
タの文字列と一致する対象となるので、最大の評価値が
２０４８となり、一致した文字列である可能性がより高
くなる。

【００３３】更に別の評価値計算の例としては、入力さ
れた多重不完全文字列は、データベース３２中の文字コ
ードデータのある一部分と一致するはずなので、不完全
文字列中で隣接する文字は、データベース３２中の文字
コード上でも隣接するか、近接する場所に存在するはず
である。そこで、不完全文字列中で、データベース２中
の文字コードデータと一致した文字候補間の距離と、文
書データベース２上での文字コード間の距離の比が、あ
らかじめ与えられた閾値よりも大きければ、その評価値
用の文字候補は、不一致として、評価値を０にする。例
えば図９に示すように、閾値の値が２０であったとする
と、不完全文字列上で隣接する「Ｍ」と「九」が、デー
タベース３２中の文字コード上で２０以上離れている候
補は、評価値を０にする。

【００３４】評価値の計算法のさらに他の例としては、
不完全文字列内の文字で近接する文字は、データベース
３２上の文字コードの中でも近接する可能性が高いの
で、不完全文字列上での文字間の距離と、データベース
３２上での該当文字間の距離を比較して、距離の違いに
より評価値の重み（距離重み）を変化させることにより
評価値の値を変化させることで、当てはまりの良い文書
情報を選択する。例えば、評価値を求める式を、

【００３５】

【数１】と定義すると、図１０に示すように、検索対象であるデ
ータ３−５の評価値と、検索対象ではないが文字が一致
してしまったデータ３−１に対する評価値の差が大きく
なり、検索対象のデータ３−５のみを容易に選択するこ
とができる。

【００３６】次に、中間結果バッファ３８の中で、評価
値が最大のデータを探し、そのデータを画像情報表示部
３４へ送る（ステップ４７）。画像情報表示部３４で
は、データ中の画像情報を取り出して、例えばディスプ
レイのような画像情報を表示する装置に表示する（ステ
ップ４８）。

【００３７】画像情報表示部３４の他の例としては、Ｆ
ＡＸや写植機のような紙などを表示媒体として表現する
装置を用いることもできる。

【００３８】多重不完全文字生成部３１の一例として
は、紙等の媒体に書かれた文字を１つ以上の文字コード
の候補に変換する文字認識装置があげられる。文字認識
装置は、紙などの媒体に書かれた１つの文字に対し、１
つ以上の文字コードの候補を生成し、正しいと判断した
順に順序づけできるので、多重不完全文字列となり得
る。

【００３９】多重不完全文字列生成部３１の他の一例と
しては、ワードプロセッサと呼ばれる日本語入力装置を
用いることも可能である。例えば仮名混じりの漢字文
を、その文の読みによって入力する装置では、日本語に
は１つの読みに対して複数の漢字が対応するので、読み
で入力すると誤った仮名混じり漢字文が生成される場合
がある。一例としては、「せきゆこうだんが、かいはつ
にのりだし」と入力すると、ワードプロセッサにより、
「石油講談が、開発に載りだし」と変換されてしまう場
合がある。しかしワードプロセッサ中には、入力された
読みに対しての正しい漢字である、「公団」や「乗りだ
し」が存在する。そこで読みで入力されることにより曖
昧となる漢字に対して、第二、第三候補の漢字を付加し
て、仮名混じり漢字文を生成すると、上記の例は、「石
油（講公）（談団）が、開発に（載乗）りだし」の様に
曖昧な、「こう」などの文字を複数候補で表現すること
により、容易に多重不完全文字列を生成できる。

【００４０】

【発明の効果】以上説明したように、本発明は、以下の
ような効果がある。（１）請求項１と３の発明は、入力された文字列と一致
する文字列を含むデータを検索する際に、入力された文
字列中の各文字に、その文字が検索対象のデータに含ま
れる可能性の高さを示す値を持つ時、あらかじめ与えら
れた閾値と可能性の高さの値とを比較することにより、
データベース中に含まれる可能性の高い文字のみを選択
し、選択された文字について、先頭から順にデータベー
ス中のデータと文字コードを一致させることで、入力さ
れた文字列中に含まれる誤った文字がデータベース中の
データと一致して検索されてしまうことを排除すること
ができる。（２）請求項２と４の発明は、入力された文字列と一致
する文字列を含むデータを検索する際に、入力した文字
列とデータベース中の文字コードを一致させる時、一致
した２つの文字コードに対して、入力した文字列上での
文字コード間の距離と、データベース中のデータ上での
文字コード間の距離との比を計算し、入力された文字列
上での位置関係とデータベース中のデータ上で一致する
文字間の位置関係を値化し、あらかじめ与えられた閾値
と距離の比の値とを比較することにより、例えば入力さ
れた文字列上で近接する文字が、データベース中のデー
タ上でも近接する場合には、検索対象とする可能性を高
くし、入力された文字列上で近接する文字が、データベ
ース中のデータ上で離れている場合には、検索対象とす
る可能性を低くすることで、入力された文字列上では近
接する文字が、データベース上では離れているのに検索
してしまう可能性を低下させることができる。

【００４１】本発明の効果の値としては、例えば約２０
０個の情報を持ち、検索対象となる文字が約１００，０
００文字のデータからなるデータベースにおいて、入力
された不完全文字列が平均１２〜１３文字で、誤ってい
る文字が平均４文字程度の場合には、請求項１、２、３
の発明を用いて、入力された不完全文字列に合致するた
だ１つのデータを検索する場合に、８１．２５％の割合
で正しいデータを検索できた。特に、この内入力された
不完全な文字列の内、５文字以上の文字コードが一致す
る場合には、９２．５％の高い割合で、正しいデータの
みを検索することが可能となった。

【図面の簡単な説明】

【図１】本発明の第１の実施例の不完全文字列照合装置
のシステム構成図である。

【図２】図１の実施例における不完全文字列照合処理を
示すフローチャートである。

【図３】文字列一致度計算部３での処理例を示す図であ
る。

【図４】一致量計算部６の計算原理を示す図である。

【図５】不完全文字列のデータおよびテキストデータベ
ース２中のデータ例を示す図である。

【図６】本発明の第２の実施例の不完全文字列照合装置
のシステム構成図である。

【図７】図１の実施例における不完全文字列照合処理を
示すフローチャートである。

【図８】多重文字候補を用いた場合の一致量計算部３７
での計算原理を示す図である。

【図９】文字列間の距離を用いた場合の一致量計算部３
７での計算原理を示す図である。

【図１０】文字列間の距離を用いた場合の一致量計算部
３７での他の計算原理を示す図である。

【符号の説明】

１不完全文字列入力部２テキストデータベース３文字列一致度計算部４検索利用文字選定部５順序付文字照合部６一致量計算部７中間結果バッファ８出力データ判定部１０〜１７ステップ３１多重不完全文字列抽出部３２データベース３３文字列一致度計算部３４画像情報表示部３５検索利用文字選定部３６順序付文字照合部３７一致量計算部３８中間結果バッファ３９出力データ判定部４１〜４８ステップ

フロントページの続き (56)参考文献特開昭60−116083（ＪＰ，Ａ) 特開平２−17573（ＪＰ，Ａ) 特開平４−104367（ＪＰ，Ａ) 特開平３−116377（ＪＰ，Ａ) 特開平２−108157（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30

Claims

(57)【特許請求の範囲】

【請求項１】情報を少なくとも文字コードによって表
現したデータが格納されているデータベース中のデータ
の一部である１文字以上の文字コードの列を入力してデ
ータベース中のデータの検索を行なう、文字コードの列
によるデータ検索方法において、入力される文字コードの列中に必ずしも検索対象のデー
タには含まれていない文字を含む、不完全な文字コード
の列が入力される際に、入力される不完全な文字コードの列の個々の文字コード
に付けられている、該文字コードがデータベース中の検
索したいデータに含まれている可能性の高さを示す値
と、あらかじめ与えられた第１の閾値とを比較し、デー
タベースを検索する際に利用する検索対象データ中に含
まれる可能性の高い文字コードを選択し、選択された文
字コードとデータベース中の各データの文字コードが一
致する回数を、選択された個々の文字コードが、入力さ
れたときの文字コードの列中で登場した順序に従って計
測し、一致した回数とあらかじめ定められた第２の闘値
とを比較して、第２の闘値よりも多くの回数一致する文
字があったデータを検索対象のデータの候補とし、次に、該検索対象のデータの各候補に含まれる文字コー
ドと、入力された不完全な文字列中に含まれる全ての文
字コードが一致する数を、入力された不完全な文字列の
個々の文字コードが出現した順番に従って計測し、一致
する文字コードの数とあらかじめ定められた第３の閾値
とを比較して、第３の閾値以上に一致するデータを検索
すべきデータと判断する、不完全文字列と文字列の照合
方法。
【請求項２】情報を少なくとも文字コードによって表
現したデータが格納されているデータベース中のデータ
の一部である１文字以上の文字コードの列を入力してデ
ータベース中のデータの検索を行なう、文字コードの列
によるデータ検索方法において、入力される文字コードの列中に必ずしも検索対象のデー
タには含まれていない文字を含む、不完全な文字コード
の列が入力される際に、入力された文字コードの列中の個々の文字コードが出現
した順番に従って、入力された文字コードとデータベー
ス中のデータの文字コードが一致する数を計測し、入力された不完全な文字列中の文字コードの中で、デー
タベース中のデータに含まれる文字コードと一致する２
つの文字間の距離を、入力された不完全な文字列とデー
タベース中のデータのそれぞれにおいて計測し、文字間
の距離の違いを前記一致する文字コードの数量に反映し
て評価値を定め、検索すべきデータを判断する、不完全
文字列と文字列の照合方法。
【請求項３】利用者が入力した文字列の個々の文字に
対して、その文字から想定される検索対象データ中に含
まれる可能性のある１つ以上の文字コードとその文字コ
ードが検索対象データ中に含まれる可能性の高さを示す
信頼度とを生成する手段と、個々の文字コードにつけられた前記信頼度と、あらかじ
め与えられている第１の闘値とを比較し、第１の闘値よ
りも信頼度が高い文字コードを検索利用文字として選択
する検索利用文字選定手段と、選択された検索利用文字を、入力された文字列で出現し
た順に並べ、データベース中の各データと検索利用文字
を順次照合し、入力された文字列中での文字の順に検索
利用文字が含まれるデータを選び出す順序付文字照合手
段と、前記順序付文字照合手段により選択された各データと、
入力された文字列中に含まれる全ての文字コードとを用
いて、入力された文字列の個々の文字コードが出現した
順番に従って、文字コードが一致する数を計測し、一致
文字数を各データの評価値とする一致量計算手段と、前記評価値をあらかじめ与えられた判定基準によって出
力するデータを決定する出力データ判定手段と、を備える、不完全文字列と文字列の照合装置。
【請求項４】データベースの各データと、入力された
文字列中に含まれる全ての文字コードとを用いて、入力
された文字列の個々の文字コードが出現した順番に従っ
て文字コードが一致する数量を計測する手段と、入力された文字列中の文字コードの中で、データベース
中のデータに含まれる文字コードと一致する２つの文字
間の距離を、入力された文字列とデータベース中のデー
タのそれぞれにおいて計測し、文字間の距離の違いを前
記文字コードが一致する数量に反映して評価値を定める
手段と、前記評価値をあらかじめ与えられた判定基準によって出
力するデータを決定する出力データ判定手段と、を備える、不完全文字列と文字列の照合装置。