JP3531222B2 - 類似文字列検索装置 - Google Patents

類似文字列検索装置

Info

Publication number
JP3531222B2
JP3531222B2 JP20388094A JP20388094A JP3531222B2 JP 3531222 B2 JP3531222 B2 JP 3531222B2 JP 20388094 A JP20388094 A JP 20388094A JP 20388094 A JP20388094 A JP 20388094A JP 3531222 B2 JP3531222 B2 JP 3531222B2
Authority
JP
Japan
Prior art keywords
character
character string
string
input
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP20388094A
Other languages
English (en)
Other versions
JPH0869474A (ja
Inventor
秀 富士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP20388094A priority Critical patent/JP3531222B2/ja
Publication of JPH0869474A publication Critical patent/JPH0869474A/ja
Application granted granted Critical
Publication of JP3531222B2 publication Critical patent/JP3531222B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、キーワードによる情報
検索装置において、入力キーワードと完全に一致するキ
ーワードだけではなく、入力キーワードに類似したキー
ワードをも検索対象とすることができる類似文字列検索
装置に関する。
【0002】
【従来の技術】キーワード入力による情報検索装置で
は、キーワードの表記の揺れなどにより検索洩れが生じ
るが、これを解消するために種々の類似キーワード・検
索装置が考案されている。
【0003】例えば、ある類似キーワード・検索装置で
は、入力キーワードに合致する文字列が検索対象の文書
中に存在しない場合(つまり「ヒット」しない場合)
に、その入力キーワードに類似した文字列を自動的に判
定、抽出し、この類似文字列をキーワードとして新たに
検索を行う。また、「ヒット」があった場合でも、他に
そのキーワードに類似したキーワードがあれば、これも
検索の対象にする。
【0004】類似キーワードの判定方法はいろいろ考案
されているが、まず、起こりやすい文字列の置き換えを
規則化しておき、これを入力キーワードに適用するもの
がある。この方法では、置き換えによって得られたさま
ざまな文字列を、データベースの辞書(単語インデック
ス)などと比較し、語彙中にあるものを類似文字列とみ
なす。一方、入力文字列と単語インデックスのエントリ
を文字単位に対応付けて比較し、類似したものを類似文
字列として用いるものもある。
【0005】
【発明が解決しようとする課題】類似キーワードを判定
する場合において、上述したように文字列の置き換えを
規則化する方法では、規則のメンテナンスが面倒である
ばかりでなく、規則が適当でないためにヒットしない場
合には全く類似キーワードを出力することができない。
実際、入力キーワードがヒットしない原因が、新語や造
語、固有名詞などにあることが多いので、規則による方
法では対応しきれない場合がでてくる。
【0006】また、文字単位の対応付けによって類似キ
ーワードを判定する方法では、規則による判定方法と比
べ、いかなる場合でも何らかの類似キーワードを出力す
ることができるという利点がある。しかし、規則的な要
素を入れにくいという問題があり、例えば、「は」と
「ば」は類似した文字であっても全く違う別文字として
扱うので、「は」と「ば」のような類似文字の対応はと
れなかった。
【0007】本発明は、このような従来技術の問題点に
鑑みて為されたものであり、キーワードの表記の揺れな
どにより検索洩れが生じることのないように、入力キー
ワードに類似したキーワードを的確に判定、出力するこ
とができる類似文字列検索装置を提供することを目的と
する。
【0008】
【課題を解決するための手段】本発明によれば、上述の
目的は、前記特許請求の範囲に記載した手段にて達成さ
れる。
【0009】すなわち、請求項1の発明は、入力文字列
に類似した文字列を出力する機能を有する類似文字列検
索装置において、ある文字と置換可能な文字を対応づけ
た文字置換表と、入力文字列を構成する文字の一覧と、
前記各文字の前記入力文字列中の出現位置を示す情報と
を保持する入力文字列の文字成分表、前記文字置換表
を参照して前記入力文字列に置換可能な文字がある場合
には前記入力文字列中の置き換えられる文字の出現位置
を置換文字の出現位置として、置換文字とその出現位置
を示す情報とを追加した文字成分表を作成する文字成分
表作成部と、様々な文字列を登録した辞書と、前記辞書
に登録された文字列の各文字毎に文字成分表を検索し、
検索した文字が存在する場合には、その文字の出現位置
を取り出して、前記辞書に登録された文字列と入力文字
列の各文字の一対一対応を表す文字列対応表を作成する
文字列対応表作成部と、前記辞書の各登録文字列毎に、
入力文字列と登録文字列との類似度の評価値を、入力文
字列と登録文字列の全ての文字が最適対応文字として対
応したときの値から、前記文字列対応表をもとに対応し
ない文字分の減点を行うことで求め、置換文字を置換す
るときの減点の値を文字に食い違いがあるとき減点の値
よりも少なくすることで、起こり易い文字置換を反映し
た形で入力文字列と各登録文字列との類似度を判定する
類似度判定部とを設けることを特徴とする類似文字列検
索装置である。
【0010】また、請求項2の発明は、入力文字列との
類似度評価が為された登録文字列を類似度が高い順番に
ソートする整列部を備える類似文字列検索装置であり、
請求項3の発明は、前記文字置換表におけるエントリと
して、濁音のある文字と無い文字、又は大文字と小文字
を含む類似文字列検索装置である。
【0011】図1に本発明の概略構成図を示す。図1に
おいて、文字成分表作成部1は、受けとった入力文字列
の文字成分表3を作成するものである。ここで、文字成
分表3は、文字列に含まれる全ての文字の一覧、及びこ
れらの文字の文字列中における出現位置を格納したもの
とする。
【0012】文字成分表作成部1は、文字成分表3を作
成する際には文字置換表2を参照する。文字置換表2は
起こりやすい文字置換の一覧であるが、文字置換表2を
参照した結果適当な置換文字があった場合には、この置
換文字は文字成分表3に追加される。
【0013】文字列対応表作成部4は、入力文字列(の
文字成分表)を参照しながら、辞書5の各登録文字列に
対する文字列対応表を作成する。類似度判定部6は、文
字列対応表作成部4によって作成された文字列対応表を
使って、比較対象となる文字列対の類似度計算を行い、
各比較対象に対して評価値を与える。整列部7は、辞書
エントリを評価値の順に整列させ、ある閾値以上の評価
値を得た辞書エントリを類似文字列群として出力する。
【0014】
【作用】図2は本発明装置の動作概要を示す流れ図であ
る。以下、本発明の作用を図2を用いて説明する。ま
ず、最初のステップS1で入力文字列を受け取り、次の
ステップS2で受け取った入力文字列に対応する文字成
分表を作成する。この文字成分表には、入力文字列を構
成する文字の一覧と、これらの文字の文字列中における
出現位置とを格納する。
【0015】ステップS3では、文字成分表に一覧表示
された各文字に対して、文字置換表を参照して置換文字
の検索を行う。もし、置換文字があれば、この置換文字
はステップS4で文字成分表に追加される。
【0016】続いて、ステップS5では辞書エントリを
一つ取り出して、ステップS6でこの辞書エントリおよ
び入力文字列の文字成分表を参照して文字列対応表を作
成する。ステップS7では、作成した文字列対応表を用
いて、入力文字列と辞書エントリとの類似度を計算す
る。この類似度は、辞書エントリと入力文字列との類似
度に対応する。この類似度計算を全ての辞書エントリに
対して行う。
【0017】類似度計算が終ったら、ステップS8で辞
書エントリを類似度の順番に整列させる。そして、ステ
ップS9では、整列させた辞書エントリの中から、類似
度が高く且つ一定の閾値以上のものを抽出し、出力す
る。
【0018】
【実施例】図3〜5は本発明の一実施例を示す図であ
る。当例では、「カラーテコーダ」のようなタイプミス
を含むような文字列が辞書中に存在する場合でも、類似
文字列を検索することができる。「カラーテコーダ」の
ようなタイプミスは、自由形式の文献などから辞書(単
語インデックス)を作成した場合などに起こりうる。検
索者としては、このようなタイプミスなどを含んだ文献
も検索対象としたい場合が多い。以下、当例を順を追っ
て説明する。
【0019】図3(a)は入力された文字列であるが、
各文字「カ」「ラ」「ー」「デ」「コ」「ー」「ダ」の
上には適宜上、文字の出現位置を示す番号を付してあ
る。ここでは、入力文字列「カラーデコーダ」における
最初の文字「カ」の位置番号を‘0’とし、二番目の文
字「ラ」の位置番号を‘1’と、中央の文字「デ」の位
置番号を‘3’と、最後尾の文字「ダ」の位置番号を
‘6’としてある。
【0020】図(b)は、入力文字列「カラーデコー
ダ」の文字成分表である。文字成分表には、入力文字列
を構成する文字の一覧と、入力文字列中における各文字
の出現位置を示す情報とが格納されている。図(b)の
文字成分表では、文字一覧の下に記載した位置番号で、
入力文字列中における各文字の出現位置を表している。
なお、文字成分表は、インデックスとなっており、文字
を指定することによって高速に検索できるように構成さ
れている。
【0021】図(c)は文字置換表であり、固定の情報
である。この表には、本システムが対象としている文献
の範囲内で起こりそうな文字置換を事前に登録してお
く。図示する文字置換表には、三種類の類似文字が登録
済であり、濁点のある文字「ヅ」「デ」「ド」と濁点の
無い文字「ツ」「テ」「ト」とがそれぞれ対応付けられ
ている。もちろん、文字置換表には、「つ」と「っ」、
「A」と「a」などといった大文字、小文字の類似文字
を登録しておくこともできる。
【0022】図(d)は置換文字を図(b)の文字成分
表に加えたものである。この例では、「デ」の置換文字
として「テ」が追加されており、「ダ」の置換文字とし
て「タ」が追加されている。置換文字の出現位置として
は、置き換えられた文字の出現位置と同じ番号が付与さ
れている。
【0023】つまり、「テ」の出現位置としては「デ」
の出現位置と同じ‘3’が付与されており、同様に
「タ」の出現位置としては「ダ」の出現位置と同じ
‘6’が付与されている。
【0024】図4は、文字列対応表であり、入力文字列
と、現在比較対象となっている辞書エントリ文字列との
対応を表にしたものである。図4(イ)の表は、比較対
象の辞書エントリの各文字毎に、文字成分表を検索し、
文字成分表に検索した文字が存在する場合には、その文
字の出現位置を取り出すことによって得られる。取り出
された出現位置は、入力文字列の出現位置を表す。
【0025】図4(ロ)の表は最適対応文字を決定した
後の文字列対応表である。最適対応文字は、一対一対応
となるような対応の中で最も自然なものであり、当例で
は、最長一致となるような対応を最適対応としている。
なお、最長一致の手法は既にいろいろ考案されている。
例えば、WagnerとFischer による2次法、Hirschbergに
よる1次領域法、HuntとSzymanski による高速法、Hirs
chbergによるpn法などが知られているので、これらを用
いることができる。
【0026】図5は入力文字列「カラーデコーダ」との
比較計算の結果得られた各辞書エントリの評価値を示し
たものである。辞書登録されているある文字列の最適対
応が見つかったら、この対応に対して評価値を与える。
この例では、入力文字列の全ての文字が最適対応文字と
して対応したものに100点を与えるようになってい
る。よって、辞書エントリ中の「カラーデコーダ」は1
00点となっている。
【0027】また、当例では文字置換を一回する毎に2
点ずつ減点するようにしている。その結果、辞書エント
リ中の「カラーテコーダ」は、「テ」の置換文字「デ」
の使用により2点の減点で98点を得ている。さらに、
当例では入力文字列の文字と一字食い違う毎に20点ず
つ減点するようにしている。その結果、辞書エントリ中
の「カラーレコーダ」は「レ」と「デ」の食い違いがあ
るから、20点の減点で80点を得ている。
【0028】同様に点数計算をすると、「カラーデー
タ」は五文字目の「」(空白)と「コ」の食い違いで2
0点、最後尾「タ」の置換文字「ダ」の使用により2
点、合計22点の減点で78点を得ている。一方、「カ
ラーコード」は四文字目の「」(空白)と「デ」の食い
違いで20点、最後尾「ド」と「ダ」の食い違いで20
点、合計40点の減点で60点を得ている。
【0029】ところで、本実施例は辞書エントリ中(検
索文献中)に表記の揺れがあった場合における類似文字
列の検索例であるが、本発明によると、入力文字列側に
表記の揺れがあった場合にも対処することができる。
【0030】
【発明の効果】以上説明したように、本発明によれば、
類似文字列を検索する場合などにおける入力文字列と類
似文字列との対応付け、比較対照の際に、起こりやすい
文字置換を反映させることができるので、よりきめ細か
い点数づけや精度の高い類似文字列検索をおこなうこと
ができる。
【図面の簡単な説明】
【図1】本発明装置の概略構成図である。
【図2】本発明装置の動作概要を説明する流れ図であ
る。
【図3】文字成分表等の構成例を示す図である。
【図4】文字列対応表の構成例を示す図である。
【図5】類似度を表す評価値の計算例を示す図である。
【符号の説明】
1 文字成分表作成部 2 文字置換表 3 文字成分表 4 文字列対応表作成部 5 辞書 6 類似度判定部 7 整列部

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力文字列に類似した文字列を出力する
    機能を有する類似文字列検索装置において、 ある文字と置換可能な文字を対応づけた文字置換表と、 入力文字列を構成する文字の一覧と、前記各文字の前記
    入力文字列中の出現位置を示す情報とを保持する入力文
    字列の文字成分表、前記文字置換表を参照して前記入
    力文字列に置換可能な文字がある場合には前記入力文字
    列中の置き換えられる文字の出現位置を置換文字の出現
    位置として、置換文字とその出現位置を示す情報とを追
    加した文字成分表を作成する文字成分表作成部と、 様々な文字列を登録した辞書と、前記辞書に登録された文字列の各文字毎に文字成分表を
    検索し、検索した文字が存在する場合には、その文字の
    出現位置を取り出して、前記辞書に登録された文字列と
    入力文字列の各文字の一対一対応を表す文字列対応表を
    作成する文字列対応表作成部と、前記辞書の各登録文字列毎に、入力文字列と登録文字列
    との類似度の評価値を、入力文字列と登録文字列の全て
    の文字が最適対応文字として対応したときの値から、前
    記文字列対応表をもとに対応しない文字分の減点を行う
    ことで求め、置換文字を置換するときの減点の値を文字
    に食い違いがあるとき減点の値よりも少なくすること
    で、起こり易い文字置換を反映した形で 入力文字列と各
    登録文字列との類似度を判定する類似度判定部とを設け
    ることを特徴とする類似文字列検索装置。
  2. 【請求項2】 入力文字列との類似度評価が為された登
    録文字列を類似度が高い順番にソートする整列部を備え
    る請求項1記載の類似文字列検索装置。
  3. 【請求項3】 前記文字置換表におけるエントリとし
    て、濁音のある文字と無い文字、又は大文字と小文字を
    含む請求項1記載の類似文字列検索装置。
JP20388094A 1994-08-29 1994-08-29 類似文字列検索装置 Expired - Fee Related JP3531222B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20388094A JP3531222B2 (ja) 1994-08-29 1994-08-29 類似文字列検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20388094A JP3531222B2 (ja) 1994-08-29 1994-08-29 類似文字列検索装置

Publications (2)

Publication Number Publication Date
JPH0869474A JPH0869474A (ja) 1996-03-12
JP3531222B2 true JP3531222B2 (ja) 2004-05-24

Family

ID=16481253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20388094A Expired - Fee Related JP3531222B2 (ja) 1994-08-29 1994-08-29 類似文字列検索装置

Country Status (1)

Country Link
JP (1) JP3531222B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263333B1 (en) 1998-10-22 2001-07-17 International Business Machines Corporation Method for searching non-tokenized text and tokenized text for matches against a keyword data structure
JP4253483B2 (ja) * 2002-09-20 2009-04-15 株式会社リコー 異表記辞書作成装置および異表記辞書作成方法およびその方法をコンピュータに実行させるためのプログラム
JP5190192B2 (ja) * 2006-10-18 2013-04-24 新日鉄住金ソリューションズ株式会社 検索装置、検索方法及びプログラム
JP5234408B2 (ja) * 2008-05-15 2013-07-10 アイシン・エィ・ダブリュ株式会社 検索装置及び検索プログラム
WO2021124525A1 (ja) 2019-12-19 2021-06-24 日本電信電話株式会社 名称データ対応付け装置、名称データ対応付け方法及びプログラム

Also Published As

Publication number Publication date
JPH0869474A (ja) 1996-03-12

Similar Documents

Publication Publication Date Title
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
KR100318762B1 (ko) 외래어 음차표기의 음성적 거리 계산방법
EP0907924B1 (en) Identification of words in japanese text by a computer system
US5715469A (en) Method and apparatus for detecting error strings in a text
US8041560B2 (en) System for adaptive multi-cultural searching and matching of personal names
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US5337232A (en) Morpheme analysis device
US20070244890A1 (en) Determining a known character string equivalent to a query string
JP2006512629A (ja) 1つまたは複数の自然言語において語およびその品詞を認識するためのシステム、方法、プログラム製品、およびネットワーク上での使用
JP2001505330A (ja) テキストストリーム中の単語の切れ目を与える方法及び装置
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH03172966A (ja) 類似文書検索装置
KR100318763B1 (ko) 외래어 음차표기 유사도 비교 방법
JP3531222B2 (ja) 類似文字列検索装置
JPS584378B2 (ja) カナ漢字変換装置
JP2002503849A (ja) 漢字文における単語区分方法
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
Daciuk Treatment of unknown words
KR100484943B1 (ko) 한국어 텍스트 상의 개체명 인식 방법
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
JPH07230468A (ja) キーワード自動抽出装置およびキーワード自動抽出方法
Gross Getty synoname: The development of software for personal name pattern matching
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
JP3508312B2 (ja) キーワード抽出装置
JPH0810452B2 (ja) 日本語対象文固有用語抽出処理装置

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040223

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080312

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090312

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100312

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110312

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120312

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees