JPH0962685A - 単語間表記類似度の計算方法 - Google Patents
単語間表記類似度の計算方法Info
- Publication number
- JPH0962685A JPH0962685A JP7221599A JP22159995A JPH0962685A JP H0962685 A JPH0962685 A JP H0962685A JP 7221599 A JP7221599 A JP 7221599A JP 22159995 A JP22159995 A JP 22159995A JP H0962685 A JPH0962685 A JP H0962685A
- Authority
- JP
- Japan
- Prior art keywords
- word
- search
- characters
- index
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 検索語と該検索語により検索される索引語と
の間の表記類似度の計算方法の効率を改善する。 【解決手段】 縦軸に取られた検索語K“eudora”に対
して横軸に取られた索引語I“eudra ”があったとする
と、これは“o ”の脱落である。そのため、脱落のコス
トが1及び検索語Kと索引語Iの文字数の和が11なの
で、単語間距離は1/11となる。1からこの単語間距
離1/11を引いたものをキーワード間表記類似度と
し、これが或る閾値以上であれば検索結果として出力す
ることにすれば、少々のスペルミスは救済されることに
なる。閾値は0.8程度が妥当であるが、検索の用途に
よって動的に決めるのが良い。
の間の表記類似度の計算方法の効率を改善する。 【解決手段】 縦軸に取られた検索語K“eudora”に対
して横軸に取られた索引語I“eudra ”があったとする
と、これは“o ”の脱落である。そのため、脱落のコス
トが1及び検索語Kと索引語Iの文字数の和が11なの
で、単語間距離は1/11となる。1からこの単語間距
離1/11を引いたものをキーワード間表記類似度と
し、これが或る閾値以上であれば検索結果として出力す
ることにすれば、少々のスペルミスは救済されることに
なる。閾値は0.8程度が妥当であるが、検索の用途に
よって動的に決めるのが良い。
Description
【0001】
【発明の属する技術分野】本発明は、例えばデータベー
スのキーワード検索システム等において、テキストデー
タの検索を行うための単語の表記類似度の計算方法に関
するものである。
スのキーワード検索システム等において、テキストデー
タの検索を行うための単語の表記類似度の計算方法に関
するものである。
【0002】
【従来の技術】現在の情報検索では、通常、検索語によ
り検索される側の索引語は該検索語と完全に一致しなけ
れば検索結果となりえないので、検索語又は索引語のど
ちらにおいても1字でもスペルミスをしてしまうと、意
図した検索結果は得られない。情報検索の分野では、あ
まり表記のミスを積極的に扱う例はないが、かな漢字変
換システムにおいては、ルールを登録することで複数の
ローマ字綴りから同じ表記を出力するなどの工夫がなさ
れている。例えば、“kanma”又は“kamma”
のいずれを入力しても“,”が出力されるようになって
いる。又、単語間の表記類似度をはかる場合、文字ベク
トルを用いる方法がある。これは或る単語に含まれる文
字数を字毎に持っている(例えば、“alphabe
t”という単語の場合、a:2,b:1,c:0,…,
z:0)もので、英語であればアルファベットの26次元
ベトクルになり、単語間距離は簡単なユークリッド距離
やニューラルネット(神経回路網)によって学習した判
別関数によって求められる。
り検索される側の索引語は該検索語と完全に一致しなけ
れば検索結果となりえないので、検索語又は索引語のど
ちらにおいても1字でもスペルミスをしてしまうと、意
図した検索結果は得られない。情報検索の分野では、あ
まり表記のミスを積極的に扱う例はないが、かな漢字変
換システムにおいては、ルールを登録することで複数の
ローマ字綴りから同じ表記を出力するなどの工夫がなさ
れている。例えば、“kanma”又は“kamma”
のいずれを入力しても“,”が出力されるようになって
いる。又、単語間の表記類似度をはかる場合、文字ベク
トルを用いる方法がある。これは或る単語に含まれる文
字数を字毎に持っている(例えば、“alphabe
t”という単語の場合、a:2,b:1,c:0,…,
z:0)もので、英語であればアルファベットの26次元
ベトクルになり、単語間距離は簡単なユークリッド距離
やニューラルネット(神経回路網)によって学習した判
別関数によって求められる。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
単語間表記類似度の計算方法では、次のような課題があ
った。即ち、インターネットやパソコン通信等における
大量のニュースから記事をキーワード検索するために
は、予め記事から索引語を抽出して索引付けする。この
索引語には膨大なスペルミスや漢字の変換間違いが含ま
れており、7文字程度の英単語には1割程度のスペルミ
スが含まれている。例えば、日本人には発音が区別しに
くい“r”と“l”の間違い、及び母音の脱落や付加
(例えば、searchをserchとする)等が多
い。従来の情報検索システムでは、通常、検索される側
の索引語は、検索語と完全に一致しなければ検索結果と
成りえなかったので、大量の記事中に含まれる大量のス
ペルミスに対応するには、検索語をスペルミスを想定し
て複数指定しなければならない。例えば「モニタ」に関
する記事を検索したい場合、英語の綴りでは“monitor
”、“monitar ”、及び“monita”の3種の綴りが発
生しやすい。このようなことを検索語の入力の度に行う
ことは、非常にわずらわしい。又、検索語自体がスペル
ミスを起こす可能性もある。この場合にも表記の似た索
引語と一致した方が、2度目の検索語の入力の指針にな
ると考えられる。
単語間表記類似度の計算方法では、次のような課題があ
った。即ち、インターネットやパソコン通信等における
大量のニュースから記事をキーワード検索するために
は、予め記事から索引語を抽出して索引付けする。この
索引語には膨大なスペルミスや漢字の変換間違いが含ま
れており、7文字程度の英単語には1割程度のスペルミ
スが含まれている。例えば、日本人には発音が区別しに
くい“r”と“l”の間違い、及び母音の脱落や付加
(例えば、searchをserchとする)等が多
い。従来の情報検索システムでは、通常、検索される側
の索引語は、検索語と完全に一致しなければ検索結果と
成りえなかったので、大量の記事中に含まれる大量のス
ペルミスに対応するには、検索語をスペルミスを想定し
て複数指定しなければならない。例えば「モニタ」に関
する記事を検索したい場合、英語の綴りでは“monitor
”、“monitar ”、及び“monita”の3種の綴りが発
生しやすい。このようなことを検索語の入力の度に行う
ことは、非常にわずらわしい。又、検索語自体がスペル
ミスを起こす可能性もある。この場合にも表記の似た索
引語と一致した方が、2度目の検索語の入力の指針にな
ると考えられる。
【0004】似たような文献が多量にあって、一番適切
な記事を検索する場合なら1割程度の切り捨ては支障が
ないが、文献数が少なく、関連した記事を網羅したい場
合、表記の揺らぎを自動的に吸収する方法が望まれてい
る。前述した文字ベクトルによる方法では、文字の出現
順序の情報が欠落しているので、例えば“doom”と“mo
od”との距離が0といった不自然なことが起こってしま
う。本発明は、以上述べた記事中や検索語のスペルミス
の問題を除去するため、検索語と索引語の表記類似度を
計算し、類似度の高い索引語を適切と見做して出力する
方法を提供することを目的とする。
な記事を検索する場合なら1割程度の切り捨ては支障が
ないが、文献数が少なく、関連した記事を網羅したい場
合、表記の揺らぎを自動的に吸収する方法が望まれてい
る。前述した文字ベクトルによる方法では、文字の出現
順序の情報が欠落しているので、例えば“doom”と“mo
od”との距離が0といった不自然なことが起こってしま
う。本発明は、以上述べた記事中や検索語のスペルミス
の問題を除去するため、検索語と索引語の表記類似度を
計算し、類似度の高い索引語を適切と見做して出力する
方法を提供することを目的とする。
【0005】
【課題を解決するための手段】第1の発明は、前記課題
を解決するために、検索語と該検索語により検索される
索引語との間の表記類似度を計算する単語間表記類似度
の計算方法において、前記検索語を構成する各文字と前
記索引語を構成する各文字との一致/不一致を1文字ず
つ順次照合し、それらの各照合結果に応じた重みの総和
の前記検索語を構成する文字の数と前記索引語を構成す
る文字の数との総和に対する割合を求めて前記表記類似
度とする表記類似度計算処理を、行うようにしている。
この第1の発明によれば、以上のように単語間表記類似
度の計算方法を構成したので、表記類似度計算処理にお
いて、検索語を構成する各文字と索引語を構成する各文
字との一致/不一致が1文字ずつ順次照合され、それら
の各照合結果に応じた重みの総和の前記検索語を構成す
る文字の数と前記索引語を構成する文字の数との総和に
対する割合が求められ、該割合が前記検索語と前記索引
語との表記類似度となる。そのため、表記類似度が大き
い索引語は適切とみなされ、記事中や検索語の1字程度
のスペルミスが救済される。
を解決するために、検索語と該検索語により検索される
索引語との間の表記類似度を計算する単語間表記類似度
の計算方法において、前記検索語を構成する各文字と前
記索引語を構成する各文字との一致/不一致を1文字ず
つ順次照合し、それらの各照合結果に応じた重みの総和
の前記検索語を構成する文字の数と前記索引語を構成す
る文字の数との総和に対する割合を求めて前記表記類似
度とする表記類似度計算処理を、行うようにしている。
この第1の発明によれば、以上のように単語間表記類似
度の計算方法を構成したので、表記類似度計算処理にお
いて、検索語を構成する各文字と索引語を構成する各文
字との一致/不一致が1文字ずつ順次照合され、それら
の各照合結果に応じた重みの総和の前記検索語を構成す
る文字の数と前記索引語を構成する文字の数との総和に
対する割合が求められ、該割合が前記検索語と前記索引
語との表記類似度となる。そのため、表記類似度が大き
い索引語は適切とみなされ、記事中や検索語の1字程度
のスペルミスが救済される。
【0006】第2の発明では、第1の発明の各照合結果
に応じた重みは、類似した文字間の照合結果に応じた重
みを、一致の照合結果に応じた重みと不一致の照合結果
に応じた重みとの間に設定するようにしている。この第
2の発明によれば、類似した文字間の照合結果に応じた
重みは、一致の照合結果に応じた重みと不一致の照合結
果に応じた重みとの間に設定される。そのため、類似し
た文字は適切とみなされ、記事中や検索キーワードの1
字程度のスペルミスが救済される。第3の発明では、第
1の発明の各照合結果に応じた重みは、出現頻度の高い
連接パタンを構成する文字間の照合結果に応じた重み
を、マルコフモデルを用いて計算した重みに設定して単
語間表記非類似度を緩和するようにしている。この第3
の発明によれば、出現頻度の高い連接パタンを構成する
文字間の照合結果に応じた重みは、マルコフモデルを用
いて計算した重みに設定される。そのため、出現頻度の
高い連接パタンの単語間表記非類似度が緩和され、記事
中や検索語の1字程度のスペルミスが救済される。従っ
て、前記課題を解決できるのである。
に応じた重みは、類似した文字間の照合結果に応じた重
みを、一致の照合結果に応じた重みと不一致の照合結果
に応じた重みとの間に設定するようにしている。この第
2の発明によれば、類似した文字間の照合結果に応じた
重みは、一致の照合結果に応じた重みと不一致の照合結
果に応じた重みとの間に設定される。そのため、類似し
た文字は適切とみなされ、記事中や検索キーワードの1
字程度のスペルミスが救済される。第3の発明では、第
1の発明の各照合結果に応じた重みは、出現頻度の高い
連接パタンを構成する文字間の照合結果に応じた重み
を、マルコフモデルを用いて計算した重みに設定して単
語間表記非類似度を緩和するようにしている。この第3
の発明によれば、出現頻度の高い連接パタンを構成する
文字間の照合結果に応じた重みは、マルコフモデルを用
いて計算した重みに設定される。そのため、出現頻度の
高い連接パタンの単語間表記非類似度が緩和され、記事
中や検索語の1字程度のスペルミスが救済される。従っ
て、前記課題を解決できるのである。
【0007】
【発明の実施の形態】第1の実施形態 図2は、マッチングのコストを説明する図である。ネッ
トワークニュースには相当なスペルミス、漢字変換ミス
が混在している。これらのミスに対応するため、本実施
形態では、従来の単語ベクトルによる方法でなく、市街
地距離による方法を用いる。市街地距離による方法と
は、検索語を構成する各文字と該検索語により検索され
る索引語を構成する各文字とをそれぞれ直交座標軸上に
順次配置し、該検索語を構成する各文字と該索引語を構
成する各文字との一致/不一致を1文字ずつ順次照合
し、それらの各照合結果に応じた重みを格子状に形成さ
れた座標(以下、市街地地図という)上に記録してを作
成し、該重みの総和の前記検索語を構成する文字の数と
前記索引語を構成する文字の数との総和に対する割合を
求めて前記検索語と前記索引語との間の表記類似度とす
る方法である。検索語と検索される索引語とのマッチン
グのコスト(即ち、重み)は、図2に示すように、1文
字単位の照合で一致に対して0、付加又は脱落に対して
1、及び置換(即ち、不一致)に対して2とする。図3
は、マッチングのパスの制限を説明する図である。市街
地地図の右上の終点に至る最短のパスを計算し、最後に
検索語と索引語の文字数の和で割って表記類似度を計算
する。実際は動的計画法を用いて再帰的に計算する。こ
の際、図3に示すようなパスの制限を行うことが一般的
である。図1は、本発明の実施形態を示す最短のマッチ
ングパスを説明する図である。この図と図2及び図3を
参照しつつ、本発明の実施形態を示す最短のマッチング
パスを説明する。
トワークニュースには相当なスペルミス、漢字変換ミス
が混在している。これらのミスに対応するため、本実施
形態では、従来の単語ベクトルによる方法でなく、市街
地距離による方法を用いる。市街地距離による方法と
は、検索語を構成する各文字と該検索語により検索され
る索引語を構成する各文字とをそれぞれ直交座標軸上に
順次配置し、該検索語を構成する各文字と該索引語を構
成する各文字との一致/不一致を1文字ずつ順次照合
し、それらの各照合結果に応じた重みを格子状に形成さ
れた座標(以下、市街地地図という)上に記録してを作
成し、該重みの総和の前記検索語を構成する文字の数と
前記索引語を構成する文字の数との総和に対する割合を
求めて前記検索語と前記索引語との間の表記類似度とす
る方法である。検索語と検索される索引語とのマッチン
グのコスト(即ち、重み)は、図2に示すように、1文
字単位の照合で一致に対して0、付加又は脱落に対して
1、及び置換(即ち、不一致)に対して2とする。図3
は、マッチングのパスの制限を説明する図である。市街
地地図の右上の終点に至る最短のパスを計算し、最後に
検索語と索引語の文字数の和で割って表記類似度を計算
する。実際は動的計画法を用いて再帰的に計算する。こ
の際、図3に示すようなパスの制限を行うことが一般的
である。図1は、本発明の実施形態を示す最短のマッチ
ングパスを説明する図である。この図と図2及び図3を
参照しつつ、本発明の実施形態を示す最短のマッチング
パスを説明する。
【0008】表記類似度計算処理 図1では、例えば縦軸に取られた検索語K“eudora”に
対して横軸に取られた索引語I“eudra ”があったとす
ると、これは“o ”の脱落である。そのため、脱落のコ
ストが1となり、検索語Kの文字数と索引語Iの文字数
の和が11となるので、単語間距離は1/11となる。
1からこの単語間距離1/11を引いたものをキーワー
ド間表記類似度とし、これが或る閾値以上であれば検索
結果として出力することにすれば、少々のスペルミスは
救済されることになる。閾値は0.8程度が妥当である
が、検索の用途によって動的に決めるのが良い。以上の
ように、この第1の実施形態では、検索語Kと索引語I
との距離を市街地距離を用いて計算し、該検索語Kとの
距離の小さい索引語Iは適切とみなして出力するように
したので、記事中や検索語の1字程度のスペルミスが救
済される。
対して横軸に取られた索引語I“eudra ”があったとす
ると、これは“o ”の脱落である。そのため、脱落のコ
ストが1となり、検索語Kの文字数と索引語Iの文字数
の和が11となるので、単語間距離は1/11となる。
1からこの単語間距離1/11を引いたものをキーワー
ド間表記類似度とし、これが或る閾値以上であれば検索
結果として出力することにすれば、少々のスペルミスは
救済されることになる。閾値は0.8程度が妥当である
が、検索の用途によって動的に決めるのが良い。以上の
ように、この第1の実施形態では、検索語Kと索引語I
との距離を市街地距離を用いて計算し、該検索語Kとの
距離の小さい索引語Iは適切とみなして出力するように
したので、記事中や検索語の1字程度のスペルミスが救
済される。
【0009】第2の実施形態 日本人にとって、例えば英語の“l”と“r”の区別を
つけにくいので、スペルにおいても間違えやすい。この
ように間違えやすいものについてはコストを緩和する
と、より人間よりの類似度が得られる。即ち、図1にお
いて、位置(i,j)の文字Xi,j から位置(i+1,
j+1)の文字Xi+1,j+1 に進む際のコストは、 2×d(Xij,Xi+1 ,j+1 ) 但し、d(Xij,Xi+1 ,j+1 ) 0(XijとXi+1 ,j+1 とが一致した場合) =0.5(Xij又はXi+1 ,j+1 が“r”又は“l”の場合) 1(上記以外の場合) となる。付加や脱落の場合もコストを変化させることが
できるが、あまり有効ではない。
つけにくいので、スペルにおいても間違えやすい。この
ように間違えやすいものについてはコストを緩和する
と、より人間よりの類似度が得られる。即ち、図1にお
いて、位置(i,j)の文字Xi,j から位置(i+1,
j+1)の文字Xi+1,j+1 に進む際のコストは、 2×d(Xij,Xi+1 ,j+1 ) 但し、d(Xij,Xi+1 ,j+1 ) 0(XijとXi+1 ,j+1 とが一致した場合) =0.5(Xij又はXi+1 ,j+1 が“r”又は“l”の場合) 1(上記以外の場合) となる。付加や脱落の場合もコストを変化させることが
できるが、あまり有効ではない。
【0010】この形式で前記第1の実施形態のd
(Xij,Xi+1 ,j+1 )を表すと、 となる。以上のように、この第2の実施形態では、検索
語Kと索引語Iとの距離を、市街地距離の重みを考慮し
ながら計算し、該検索語Kとの距離が小さい索引語Iは
適切とみなして出力するようにしたので、記事中や検索
語の1字程度のスペルミスが救済される。例えば、
“l”と“r”のように間違えやすい文字のコストを緩
和して、より人間に即したシステムにすることができ
る。
(Xij,Xi+1 ,j+1 )を表すと、 となる。以上のように、この第2の実施形態では、検索
語Kと索引語Iとの距離を、市街地距離の重みを考慮し
ながら計算し、該検索語Kとの距離が小さい索引語Iは
適切とみなして出力するようにしたので、記事中や検索
語の1字程度のスペルミスが救済される。例えば、
“l”と“r”のように間違えやすい文字のコストを緩
和して、より人間に即したシステムにすることができ
る。
【0011】第3の実施形態 本実施形態では、図1に示すマッチングのコストに(1
次マルコフモデルによる事後確率)を掛けたものを、格
子間距離とする。即ち、 格子間距離=パスのコスト×(1次マルコフモデルによ
る事後確率) である。パスのコストcは図1に示すようにYijを格子
点の文字として、付加又は脱落の場合、 c(Yij,Yi+1,j )=c(Yij,Yi,j+1 )=1 置換の場合、 c(Yij,Yi+1,j+1 )=2 であり、Xi-m ,Xi-m-1 ,...,Xi-1 の後にXi
が現れる事後確率を、 P(Xi |Xi-m ,Xi-m-1 ,...,Xi-1 ) で表すと、格子間距離Dは付加、脱落の場合、 D=1−1×P(Xi |Xi-m ,Xi-m-1 ,...,X
i-1 ) となる。置換の場合、 D=1−2×P(Xi |Xi-m ,Xi-m-1 ,...,X
i-1 ) となる。このようにして、よく現れる連接パタンのとき
には文字が一致しなくても単語間距離を緩和させてい
る。
次マルコフモデルによる事後確率)を掛けたものを、格
子間距離とする。即ち、 格子間距離=パスのコスト×(1次マルコフモデルによ
る事後確率) である。パスのコストcは図1に示すようにYijを格子
点の文字として、付加又は脱落の場合、 c(Yij,Yi+1,j )=c(Yij,Yi,j+1 )=1 置換の場合、 c(Yij,Yi+1,j+1 )=2 であり、Xi-m ,Xi-m-1 ,...,Xi-1 の後にXi
が現れる事後確率を、 P(Xi |Xi-m ,Xi-m-1 ,...,Xi-1 ) で表すと、格子間距離Dは付加、脱落の場合、 D=1−1×P(Xi |Xi-m ,Xi-m-1 ,...,X
i-1 ) となる。置換の場合、 D=1−2×P(Xi |Xi-m ,Xi-m-1 ,...,X
i-1 ) となる。このようにして、よく現れる連接パタンのとき
には文字が一致しなくても単語間距離を緩和させてい
る。
【0012】次に、第1の実施形態と同様に、市街地地
図の右上の終点に至る最短のパスを計算し、最後に検索
語Kの文字数と索引語Iの文字数の総和で割って表記類
似度を計算する。実際は動的計画法を用いて再帰的に計
算する。この際、図2に示すようなパスの制限を行うこ
とが一般的である。例えば、検索語K“eudora”に対し
て索引語I“eudra ”があったとすると、これは“o ”
の脱落であり、最短パスは図1に示すように1/11と
なる。1からこの距離を引いたものを単語間の表記類似
度とし、情報検索において検索語Kと索引語I間の距離
を計算し、これがある閾値以上であれば検索結果として
出力することにすれば、少々のスペルミスは救済される
ことになる。閾値は0.8程度が妥当であるが、検索の
用途によって動的に決めるのが良い。以上のように、こ
の第3の実施形態では、検索語Kと索引語Iとの距離
を、マルコフモデルを用いて計算した市街地距離の重み
を考慮しながら計算し、距離の小さい索引語は適切とみ
なして出力するようにしたので、記事中や検索語の1字
程度のスペルミスが救済される。
図の右上の終点に至る最短のパスを計算し、最後に検索
語Kの文字数と索引語Iの文字数の総和で割って表記類
似度を計算する。実際は動的計画法を用いて再帰的に計
算する。この際、図2に示すようなパスの制限を行うこ
とが一般的である。例えば、検索語K“eudora”に対し
て索引語I“eudra ”があったとすると、これは“o ”
の脱落であり、最短パスは図1に示すように1/11と
なる。1からこの距離を引いたものを単語間の表記類似
度とし、情報検索において検索語Kと索引語I間の距離
を計算し、これがある閾値以上であれば検索結果として
出力することにすれば、少々のスペルミスは救済される
ことになる。閾値は0.8程度が妥当であるが、検索の
用途によって動的に決めるのが良い。以上のように、こ
の第3の実施形態では、検索語Kと索引語Iとの距離
を、マルコフモデルを用いて計算した市街地距離の重み
を考慮しながら計算し、距離の小さい索引語は適切とみ
なして出力するようにしたので、記事中や検索語の1字
程度のスペルミスが救済される。
【0013】第4の実施形態 マルコフモデルの学習は、スペルミスを伴った大量のネ
ットワークニュースで行うと、学習データにありえない
スペルが混じっているので、極めて小さい確率は0とす
ることにより、ノイズ(即ち、スペルミス) の削除がで
きる可能性がある。例えば、 P(Xi |Xi-m ,Xi-m-1 ,...,Xi-1 )=0
(P(Xi |Xi-m ,Xi-m-1 ,...,Xi-1 )<T
の場合) という置き換えをする。但し、Tは閾値であり、利用者
が変更できるようにしておく。以上のように、この第4
の実施形態では、検索語と索引語との距離を、マルコフ
モデルを用いて計算した市街地距離の重みを考慮しなが
ら計算し、距離の小さい索引語は適切とみなして出力す
るようにしたので、記事中や検索語の1字程度のスペル
ミスを救済できるようになった。更に、例えば“l”と
“r”のように間違えやすい文字のコストを自動的に調
整して、より人間に即したシステムにすることができ
る。
ットワークニュースで行うと、学習データにありえない
スペルが混じっているので、極めて小さい確率は0とす
ることにより、ノイズ(即ち、スペルミス) の削除がで
きる可能性がある。例えば、 P(Xi |Xi-m ,Xi-m-1 ,...,Xi-1 )=0
(P(Xi |Xi-m ,Xi-m-1 ,...,Xi-1 )<T
の場合) という置き換えをする。但し、Tは閾値であり、利用者
が変更できるようにしておく。以上のように、この第4
の実施形態では、検索語と索引語との距離を、マルコフ
モデルを用いて計算した市街地距離の重みを考慮しなが
ら計算し、距離の小さい索引語は適切とみなして出力す
るようにしたので、記事中や検索語の1字程度のスペル
ミスを救済できるようになった。更に、例えば“l”と
“r”のように間違えやすい文字のコストを自動的に調
整して、より人間に即したシステムにすることができ
る。
【0014】尚、本発明は上記実施形態に限定されず、
種々の変形が考えられる。その変形例としては、例えば
次のようなものがある。 (a) 実施形態では、検索語Kと索引語Iとのマッチ
ングのコストは、一致に対して0、及び付加及び脱落に
対して1としているが、この逆にしてもよい。 (b) 本発明は、ネットワーク記事の検索のみでな
く、プログラム合成やエキスパートシステムのための知
識獲得システムなどに応用できる。
種々の変形が考えられる。その変形例としては、例えば
次のようなものがある。 (a) 実施形態では、検索語Kと索引語Iとのマッチ
ングのコストは、一致に対して0、及び付加及び脱落に
対して1としているが、この逆にしてもよい。 (b) 本発明は、ネットワーク記事の検索のみでな
く、プログラム合成やエキスパートシステムのための知
識獲得システムなどに応用できる。
【0015】
【発明の効果】以上詳細に説明したように、第1の発明
によれば、検索語を構成する各文字と索引語を構成する
各文字との一致/不一致を1文字ずつ順次照合し、それ
らの各照合結果に応じた重みの総和の前記検索語を構成
する文字の数と前記索引語を構成する文字の数との総和
に対する割合を求めて表記類似度とし、該検索語との距
離の小さい索引語は適切とみなして出力するようにした
ので、記事中や検索語の1字程度のスペルミスを救済で
きる。第2の発明によれば、第1の発明の各照合結果に
応じた重みのうち、類似した文字間の照合結果に応じた
重みを、一致の照合結果に応じた重みと不一致の照合結
果に応じた重みとの間に設定し、類似した文字は適切と
みなして出力するようにしたので、記事中や検索キーワ
ードの1字程度のスペルミスを救済できる。第3の発明
によれば、第1の発明の各照合結果に応じた重みのう
ち、出現頻度の高い連接パタンを構成する文字間の照合
結果に応じた重みを、マルコフモデルを用いて計算した
重みに設定して単語間表記非類似度を緩和するようにし
たので、記事中や検索語の1字程度のスペルミスを救済
できる。
によれば、検索語を構成する各文字と索引語を構成する
各文字との一致/不一致を1文字ずつ順次照合し、それ
らの各照合結果に応じた重みの総和の前記検索語を構成
する文字の数と前記索引語を構成する文字の数との総和
に対する割合を求めて表記類似度とし、該検索語との距
離の小さい索引語は適切とみなして出力するようにした
ので、記事中や検索語の1字程度のスペルミスを救済で
きる。第2の発明によれば、第1の発明の各照合結果に
応じた重みのうち、類似した文字間の照合結果に応じた
重みを、一致の照合結果に応じた重みと不一致の照合結
果に応じた重みとの間に設定し、類似した文字は適切と
みなして出力するようにしたので、記事中や検索キーワ
ードの1字程度のスペルミスを救済できる。第3の発明
によれば、第1の発明の各照合結果に応じた重みのう
ち、出現頻度の高い連接パタンを構成する文字間の照合
結果に応じた重みを、マルコフモデルを用いて計算した
重みに設定して単語間表記非類似度を緩和するようにし
たので、記事中や検索語の1字程度のスペルミスを救済
できる。
【図1】本発明の実施形態を示す最短のマッチングパス
を説明する図である。
を説明する図である。
【図2】マッチングのコストを説明する図である。
【図3】マッチングのパスの制限を説明する図である。
K 検索語 I 索引語
Claims (3)
- 【請求項1】 検索語と該検索語により検索される索引
語との間の表記類似度を計算する単語間表記類似度の計
算方法において、 前記検索語を構成する各文字と前記索引語を構成する各
文字との一致/不一致を1文字ずつ順次照合し、それら
の各照合結果に応じた重みの総和の前記検索語を構成す
る文字の数と前記索引語を構成する文字の数との総和に
対する割合を求めて前記表記類似度とする表記類似度計
算処理を、行うことを特徴とする単語間表記類似度の計
算方法。 - 【請求項2】 請求項1記載の各照合結果に応じた重み
は、 類似した文字間の照合結果に応じた重みを、一致の照合
結果に応じた重みと不一致の照合結果に応じた重みとの
間に設定することを特徴とする単語間表記類似度の計算
方法。 - 【請求項3】 請求項1記載の各照合結果に応じた重み
は、 出現頻度の高い連接パタンを構成する文字間の照合結果
に応じた重みを、マルコフモデルを用いて計算した重み
に設定して単語間表記非類似度を緩和することを特徴と
する単語間表記類似度の計算方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7221599A JPH0962685A (ja) | 1995-08-30 | 1995-08-30 | 単語間表記類似度の計算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7221599A JPH0962685A (ja) | 1995-08-30 | 1995-08-30 | 単語間表記類似度の計算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0962685A true JPH0962685A (ja) | 1997-03-07 |
Family
ID=16769291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7221599A Withdrawn JPH0962685A (ja) | 1995-08-30 | 1995-08-30 | 単語間表記類似度の計算方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0962685A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001084381A (ja) * | 1999-08-30 | 2001-03-30 | Mitsubishi Electric Inf Technol Center America Inc | マルチメディア・コンテンツの表現を生成する方法 |
JP2005011078A (ja) * | 2003-06-19 | 2005-01-13 | Patolis Corp | 類似単語検索装置、この方法、このプログラム、このプログラムを記録した記録媒体、および情報検索システム |
-
1995
- 1995-08-30 JP JP7221599A patent/JPH0962685A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001084381A (ja) * | 1999-08-30 | 2001-03-30 | Mitsubishi Electric Inf Technol Center America Inc | マルチメディア・コンテンツの表現を生成する方法 |
JP2005011078A (ja) * | 2003-06-19 | 2005-01-13 | Patolis Corp | 類似単語検索装置、この方法、このプログラム、このプログラムを記録した記録媒体、および情報検索システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190087403A1 (en) | Online spelling correction/phrase completion system | |
Trujillo | Translation engines: techniques for machine translation | |
JP3981734B2 (ja) | 質問応答システムおよび質問応答処理方法 | |
Haghighi et al. | Coreference resolution in a modular, entity-centered model | |
EP0277356B1 (en) | Spelling error correcting system | |
Escudero et al. | Naive Bayes and exemplar-based approaches to word sense disambiguation revisited | |
US20140250046A1 (en) | Probabilistic parsing | |
JPH02299068A (ja) | 入力文字列からワードを分離する方法 | |
US11113470B2 (en) | Preserving and processing ambiguity in natural language | |
US20050278292A1 (en) | Spelling variation dictionary generation system | |
CN106168954B (zh) | 一种基于编辑距离的负面信息模式模糊匹配方法 | |
JPS62163173A (ja) | 機械翻訳方法 | |
Kumar et al. | A study of spell checking techniques for indian languages | |
Zhang et al. | Semantic role labeling using a grammar-driven convolution tree kernel | |
CN113673252A (zh) | 一种基于字段语义的数据表自动join推荐方法 | |
Klahold et al. | Computer aided writing | |
JPH0962685A (ja) | 単語間表記類似度の計算方法 | |
KR101359039B1 (ko) | 복합명사 분석장치 및 복합명사 분석 방법 | |
Randhawa et al. | Study of spell checking techniques and available spell checkers in regional languages: a survey | |
KR102430918B1 (ko) | 한국어 맞춤법 교정장치 및 방법 | |
JPH09319767A (ja) | 類義語辞書登録方法 | |
CN112949287A (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
JPH08180066A (ja) | インデックス作成方法、文書検索方法及び文書検索装置 | |
JPH0612451A (ja) | 例文検索システム | |
JPH0869474A (ja) | 類似文字列検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20021105 |