JPH0869474A - 類似文字列検索装置 - Google Patents

類似文字列検索装置

Info

Publication number
JPH0869474A
JPH0869474A JP6203880A JP20388094A JPH0869474A JP H0869474 A JPH0869474 A JP H0869474A JP 6203880 A JP6203880 A JP 6203880A JP 20388094 A JP20388094 A JP 20388094A JP H0869474 A JPH0869474 A JP H0869474A
Authority
JP
Japan
Prior art keywords
character
character string
similar
input
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6203880A
Other languages
English (en)
Other versions
JP3531222B2 (ja
Inventor
Hide Fuji
秀 富士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP20388094A priority Critical patent/JP3531222B2/ja
Publication of JPH0869474A publication Critical patent/JPH0869474A/ja
Application granted granted Critical
Publication of JP3531222B2 publication Critical patent/JP3531222B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】類似文字列検索装置に関し、入力キーワードに
類似したキーワードを的確に判定、出力することができ
るものを提供することを目的とする。 【構成】ある文字と置換可能な文字を対応づけた文字置
換表2と、文字成分表3を作成する文字成分表作成部1
と、入力文字列を作る各文字に関する情報を保持する文
字成分表3と、様々な文字列を登録した辞書5と、入力
文字列と辞書5内の各登録文字列とを比較するための文
字列対応表を作成する文字列対応表作成部4と、文字列
対応表から入力文字列と各登録文字列との類似度を判定
する類似度判定部6とを設けることにより構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、キーワードによる情報
検索装置において、入力キーワードと完全に一致するキ
ーワードだけではなく、入力キーワードに類似したキー
ワードをも検索対象とすることができる類似文字列検索
装置に関する。
【0002】
【従来の技術】キーワード入力による情報検索装置で
は、キーワードの表記の揺れなどにより検索洩れが生じ
るが、これを解消するために種々の類似キーワード・検
索装置が考案されている。
【0003】例えば、ある類似キーワード・検索装置で
は、入力キーワードに合致する文字列が検索対象の文書
中に存在しない場合(つまり「ヒット」しない場合)
に、その入力キーワードに類似した文字列を自動的に判
定、抽出し、この類似文字列をキーワードとして新たに
検索を行う。また、「ヒット」があった場合でも、他に
そのキーワードに類似したキーワードがあれば、これも
検索の対象にする。
【0004】類似キーワードの判定方法はいろいろ考案
されているが、まず、起こりやすい文字列の置き換えを
規則化しておき、これを入力キーワードに適用するもの
がある。この方法では、置き換えによって得られたさま
ざまな文字列を、データベースの辞書(単語インデック
ス)などと比較し、語彙中にあるものを類似文字列とみ
なす。一方、入力文字列と単語インデックスのエントリ
を文字単位に対応付けて比較し、類似したものを類似文
字列として用いるものもある。
【0005】
【発明が解決しようとする課題】類似キーワードを判定
する場合において、上述したように文字列の置き換えを
規則化する方法では、規則のメンテナンスが面倒である
ばかりでなく、規則が適当でないためにヒットしない場
合には全く類似キーワードを出力することができない。
実際、入力キーワードがヒットしない原因が、新語や造
語、固有名詞などにあることが多いので、規則による方
法では対応しきれない場合がでてくる。
【0006】また、文字単位の対応付けによって類似キ
ーワードを判定する方法では、規則による判定方法と比
べ、いかなる場合でも何らかの類似キーワードを出力す
ることができるという利点がある。しかし、規則的な要
素を入れにくいという問題があり、例えば、「は」と
「ば」は類似した文字であっても全く違う別文字として
扱うので、「は」と「ば」のような類似文字の対応はと
れなかった。
【0007】本発明は、このような従来技術の問題点に
鑑みて為されたものであり、キーワードの表記の揺れな
どにより検索洩れが生じることのないように、入力キー
ワードに類似したキーワードを的確に判定、出力するこ
とができる類似文字列検索装置を提供することを目的と
する。
【0008】
【課題を解決するための手段】本発明によれば、上述の
目的は、前記特許請求の範囲に記載した手段にて達成さ
れる。
【0009】すなわち、請求項1の発明は、入力文字列
に類似した文字列を出力する機能を有する類似文字列検
索装置において、ある文字と置換可能な文字を対応づけ
た文字置換表と、文字成分表を作成する文字成分表作成
部と、入力文字列を作る各文字に関する情報を保持する
文字成分表と、様々な文字列を登録した辞書と、入力文
字列と辞書内の各登録文字列とを比較するための文字列
対応表を作成する文字列対応表作成部と、文字列対応表
から入力文字列と各登録文字列との類似度を判定する類
似度判定部とを設ける類似文字列検索装置である。
【0010】また、請求項2の発明は、入力文字列との
類似度評価が為された登録文字列を類似度が高い順番に
ソートする整列部を備える類似文字列検索装置であり、
請求項3の発明は、文字置換表に基づいて文字置換を行
うたびに、その置換文字を含む登録文字列に付与する類
似度の評価値を修正する手段を設ける類似文字列検索装
置であり、請求項4の発明は、前記文字置換表における
エントリとして、濁音のある文字と無い文字、又は大文
字と小文字といった類似文字を含む類似文字列検索装置
である。
【0011】図1に本発明の概略構成図を示す。図1に
おいて、文字成分表作成部1は、受けとった入力文字列
の文字成分表3を作成するものである。ここで、文字成
分表3は、文字列に含まれる全ての文字の一覧、及びこ
れらの文字の文字列中における出現位置を格納したもの
とする。
【0012】文字成分表作成部1は、文字成分表3を作
成する際には文字置換表2を参照する。文字置換表2は
起こりやすい文字置換の一覧であるが、文字置換表2を
参照した結果適当な置換文字があった場合には、この置
換文字は文字成分表3に追加される。
【0013】文字列対応表作成部4は、入力文字列(の
文字成分表)を参照しながら、辞書5の各登録文字列に
対する文字列対応表を作成する。類似度判定部6は、文
字列対応表作成部4によって作成された文字列対応表を
使って、比較対象となる文字列対の類似度計算を行い、
各比較対象に対して評価値を与える。整列部7は、辞書
エントリを評価値の順に整列させ、ある閾値以上の評価
値を得た辞書エントリを類似文字列群として出力する。
【0014】
【作用】図2は本発明装置の動作概要を示す流れ図であ
る。以下、本発明の作用を図2を用いて説明する。ま
ず、最初のステップS1で入力文字列を受け取り、次の
ステップS2で受け取った入力文字列に対応する文字成
分表を作成する。この文字成分表には、入力文字列を構
成する文字の一覧と、これらの文字の文字列中における
出現位置とを格納する。
【0015】ステップS3では、文字成分表に一覧表示
された各文字に対して、文字置換表に基づく置換文字の
検索を行う。もし、置換文字があれば、この置換文字は
ステップS4で文字成分表に追加される。
【0016】続いて、ステップS5では辞書エントリを
一つ取り出して、ステップS6でこの辞書エントリおよ
び入力文字列の文字成分表を参照して文字列対応表を作
成する。ステップS7では、作成した文字列対応表を用
いて、入力文字列と辞書エントリとの類似度を計算す
る。この類似度は、辞書エントリと入力文字列との類似
度に対応する。この類似度計算を全ての辞書エントリに
対して行う。
【0017】類似度計算が終ったら、ステップS8で辞
書エントリを類似度の順番に整列させる。そして、ステ
ップS9では、整列させた辞書エントリの中から、類似
度が高く且つ一定の閾値以上のものを抽出し、出力す
る。
【0018】
【実施例】図3〜5は本発明の一実施例を示す図であ
る。当例では、「カラーテコーダ」のようなタイプミス
を含むような文字列が辞書中に存在する場合でも、類似
文字列を検索することができる。「カラーテコーダ」の
ようなタイプミスは、自由形式の文献などから辞書(単
語インデックス)を作成した場合などに起こりうる。検
索者としては、このようなタイプミスなどを含んだ文献
も検索対象としたい場合が多い。以下、当例を順を追っ
て説明する。
【0019】図3(a)は入力された文字列であるが、
各文字「カ」「ラ」「ー」「デ」「コ」「ー」「ダ」の
上には適宜上、文字の出現位置を示す番号を付してあ
る。ここでは、入力文字列「カラーデコーダ」における
最初の文字「カ」の位置番号を‘0’とし、二番目の文
字「ラ」の位置番号を‘1’と、中央の文字「デ」の位
置番号を‘3’と、最後尾の文字「ダ」の位置番号を
‘6’としてある。
【0020】図(b)は、入力文字列「カラーデコー
ダ」の文字成分表である。文字成分表には、入力文字列
を構成する文字の一覧と、入力文字列中における各文字
の出現位置を示す情報とが格納されている。図(b)の
文字成分表では、文字一覧の下に記載した位置番号で、
入力文字列中における各文字の出現位置を表している。
なお、文字成分表は、インデックスとなっており、文字
を指定することによって高速に検索できるように構成さ
れている。
【0021】図(c)は文字置換表であり、固定の情報
である。この表には、本システムが対象としている文献
の範囲内で起こりそうな文字置換を事前に登録してお
く。図示する文字置換表には、三種類の類似文字が登録
済であり、濁点のある文字「ヅ」「デ」「ド」と濁点の
無い文字「ツ」「テ」「ト」とがそれぞれ対応付けられ
ている。もちろん、文字置換表には、「つ」と「っ」、
「A」と「a」などといった大文字、小文字の類似文字
を登録しておくこともできる。
【0022】図(d)は置換文字を図(b)の文字成分
表に加えたものである。この例では、「デ」の置換文字
として「テ」が追加されており、「ダ」の置換文字とし
て「タ」が追加されている。置換文字の出現位置として
は、置き換えられた文字の出現位置と同じ番号が付与さ
れている。
【0023】つまり、「テ」の出現位置としては「デ」
の出現位置と同じ‘3’が付与されており、同様に
「タ」の出現位置としては「ダ」の出現位置と同じ
‘6’が付与されている。
【0024】図4は、文字列対応表であり、入力文字列
と、現在比較対象となっている辞書エントリ文字列との
対応を表にしたものである。図4(イ)の表は、比較対
象の辞書エントリの各文字毎に、文字成分表を検索し、
文字成分表に検索した文字が存在する場合には、その文
字の出現位置を取り出すことによって得られる。取り出
された出現位置は、入力文字列の出現位置を表す。
【0025】図4(ロ)の表は最適対応文字を決定した
後の文字列対応表である。最適対応文字は、一対一対応
となるような対応の中で最も自然なものであり、当例で
は、最長一致となるような対応を最適対応としている。
なお、最長一致の手法は既にいろいろ考案されている。
例えば、WagnerとFischer による2次法、Hirschbergに
よる1次領域法、HuntとSzymanski による高速法、Hirs
chbergによるpn法などが知られているので、これらを用
いることができる。
【0026】図5は入力文字列「カラーデコーダ」との
比較計算の結果得られた各辞書エントリの評価値を示し
たものである。辞書登録されているある文字列の最適対
応が見つかったら、この対応に対して評価値を与える。
この例では、入力文字列の全ての文字が最適対応文字と
して対応したものに100点を与えるようになってい
る。よって、辞書エントリ中の「カラーデコーダ」は1
00点となっている。
【0027】また、当例では文字置換を一回する毎に2
点ずつ減点するようにしている。その結果、辞書エント
リ中の「カラーテコーダ」は、「テ」の置換文字「デ」
の使用により2点の減点で98点を得ている。さらに、
当例では入力文字列の文字と一字食い違う毎に20点ず
つ減点するようにしている。その結果、辞書エントリ中
の「カラーレコーダ」は「レ」と「デ」の食い違いがあ
るから、20点の減点で80点を得ている。
【0028】同様に点数計算をすると、「カラーデー
タ」は五文字目の「」(空白)と「コ」の食い違いで2
0点、最後尾「タ」の置換文字「ダ」の使用により2
点、合計22点の減点で78点を得ている。一方、「カ
ラーコード」は四文字目の「」(空白)と「デ」の食い
違いで20点、最後尾「ド」と「ダ」の食い違いで20
点、合計40点の減点で60点を得ている。
【0029】ところで、本実施例は辞書エントリ中(検
索文献中)に表記の揺れがあった場合における類似文字
列の検索例であるが、本発明によると、入力文字列側に
表記の揺れがあった場合にも対処することができる。
【0030】
【発明の効果】以上説明したように、本発明によれば、
類似文字列を検索する場合などにおける入力文字列と類
似文字列との対応付け、比較対照の際に、起こりやすい
文字置換を反映させることができるので、よりきめ細か
い点数づけや精度の高い類似文字列検索をおこなうこと
ができる。
【図面の簡単な説明】
【図1】本発明装置の概略構成図である。
【図2】本発明装置の動作概要を説明する流れ図であ
る。
【図3】文字成分表等の構成例を示す図である。
【図4】文字列対応表の構成例を示す図である。
【図5】類似度を表す評価値の計算例を示す図である。
【符号の説明】
1 文字成分表作成部 2 文字置換表 3 文字成分表 4 文字列対応表作成部 5 辞書 6 類似度判定部 7 整列部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 9288−5L G06F 15/20 590 E

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】入力文字列に類似した文字列を出力する機
    能を有する類似文字列検索装置において、 ある文字と置換可能な文字を対応づけた文字置換表と、
    文字成分表を作成する文字成分表作成部と、入力文字列
    を作る各文字に関する情報を保持する文字成分表と、様
    々な文字列を登録した辞書と、入力文字列と辞書内の各
    登録文字列とを比較するための文字列対応表を作成する
    文字列対応表作成部と、文字列対応表から入力文字列と
    各登録文字列との類似度を判定する類似度判定部とを設
    けることを特徴とする類似文字列検索装置。
  2. 【請求項2】入力文字列との類似度評価が為された登録
    文字列を類似度が高い順番にソートする整列部を備える
    請求項1記載の類似文字列検索装置。
  3. 【請求項3】文字置換表に基づいて文字置換を行うたび
    に、その置換文字を含む登録文字列に付与する類似度の
    評価値を修正する手段を設ける請求項1記載の類似文字
    列検索装置。
  4. 【請求項4】前記文字置換表におけるエントリとして、
    濁音のある文字と無い文字、又は大文字と小文字といっ
    た類似文字を含む請求項1記載の類似文字列検索装置。
JP20388094A 1994-08-29 1994-08-29 類似文字列検索装置 Expired - Fee Related JP3531222B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20388094A JP3531222B2 (ja) 1994-08-29 1994-08-29 類似文字列検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20388094A JP3531222B2 (ja) 1994-08-29 1994-08-29 類似文字列検索装置

Publications (2)

Publication Number Publication Date
JPH0869474A true JPH0869474A (ja) 1996-03-12
JP3531222B2 JP3531222B2 (ja) 2004-05-24

Family

ID=16481253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20388094A Expired - Fee Related JP3531222B2 (ja) 1994-08-29 1994-08-29 類似文字列検索装置

Country Status (1)

Country Link
JP (1) JP3531222B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263333B1 (en) 1998-10-22 2001-07-17 International Business Machines Corporation Method for searching non-tokenized text and tokenized text for matches against a keyword data structure
JP2004110633A (ja) * 2002-09-20 2004-04-08 Ricoh Co Ltd 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
JP2008102641A (ja) * 2006-10-18 2008-05-01 Ns Solutions Corp 検索装置、検索方法及びプログラム
JP2009277068A (ja) * 2008-05-15 2009-11-26 Aisin Aw Co Ltd 検索装置及び検索プログラム
US11960541B2 (en) 2019-12-19 2024-04-16 Nippon Telegraph And Telephone Corporation Name data matching apparatus, and name data matching method and program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263333B1 (en) 1998-10-22 2001-07-17 International Business Machines Corporation Method for searching non-tokenized text and tokenized text for matches against a keyword data structure
JP2004110633A (ja) * 2002-09-20 2004-04-08 Ricoh Co Ltd 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
JP2008102641A (ja) * 2006-10-18 2008-05-01 Ns Solutions Corp 検索装置、検索方法及びプログラム
JP2009277068A (ja) * 2008-05-15 2009-11-26 Aisin Aw Co Ltd 検索装置及び検索プログラム
US11960541B2 (en) 2019-12-19 2024-04-16 Nippon Telegraph And Telephone Corporation Name data matching apparatus, and name data matching method and program

Also Published As

Publication number Publication date
JP3531222B2 (ja) 2004-05-24

Similar Documents

Publication Publication Date Title
US8041560B2 (en) System for adaptive multi-cultural searching and matching of personal names
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US7546316B2 (en) Determining a known character string equivalent to a query string
KR100318762B1 (ko) 외래어 음차표기의 음성적 거리 계산방법
EP0394633A2 (en) Method for language-independent text tokenization using a character categorization
US20090193005A1 (en) Processor for Fast Contextual Matching
JP2006512629A (ja) 1つまたは複数の自然言語において語およびその品詞を認識するためのシステム、方法、プログラム製品、およびネットワーク上での使用
JPH079655B2 (ja) スペルの誤りの検出訂正方法及び装置
JP2001505330A (ja) テキストストリーム中の単語の切れ目を与える方法及び装置
JP2005038395A (ja) データベース検索装置
KR100318763B1 (ko) 외래어 음차표기 유사도 비교 방법
JPH05225238A (ja) データベース検索システム
JP3531222B2 (ja) 類似文字列検索装置
JP2000132560A (ja) 中国語テレテキスト処理方法及び装置
JPH06282587A (ja) 文書の自動分類方法及び装置並びに分類用の辞書作成方法及び装置
Kranig Evaluation of language identification methods
Nongmeikapam et al. Genetic algorithm (ga) implementation for feature selection in manipuri pos tagging
Daciuk Treatment of unknown words
EP1076305A1 (en) A phonetic method of retrieving and presenting electronic information from large information sources, an apparatus for performing the method, a computer-readable medium, and a computer program element
Gross Getty synoname: The development of software for personal name pattern matching
JP3508312B2 (ja) キーワード抽出装置
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
JPH0810452B2 (ja) 日本語対象文固有用語抽出処理装置
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
JP3139624B2 (ja) 形態素解析装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040223

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080312

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090312

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120312

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees