JPH09319767A - 類義語辞書登録方法 - Google Patents

類義語辞書登録方法

Info

Publication number
JPH09319767A
JPH09319767A JP8157722A JP15772296A JPH09319767A JP H09319767 A JPH09319767 A JP H09319767A JP 8157722 A JP8157722 A JP 8157722A JP 15772296 A JP15772296 A JP 15772296A JP H09319767 A JPH09319767 A JP H09319767A
Authority
JP
Japan
Prior art keywords
keyword
dictionary
keywords
synonym
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8157722A
Other languages
English (en)
Inventor
Toshihiko Jiyoufuu
敏彦 城風
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP8157722A priority Critical patent/JPH09319767A/ja
Publication of JPH09319767A publication Critical patent/JPH09319767A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【解決手段】 データベースが検索される際には、検索
用端末3からOR結合やAND結合によって各種のキー
ワードが入力される。このとき、どのようなキーワード
がORで結合されたか、あるいはANDで結合されたか
を示すデータを学習データファイル6に格納しておく。
類義語辞書登録用端末4を使用して類義語登録を行う場
合に、学習データファイル6を利用し、あるキーワード
と同時に検索される率の高い単語や類似度の高い単語を
取り出し、これらをディスプレイに表示する。登録者は
そのリストを見ながら適切なキーワードを検索し、類義
語辞書に登録する。 【効果】 これから登録しようとするキーワードと同時
に使用される率の高いキーワードが実際の検索結果から
経験的に求められ、これが基準となって類義語選択が行
われるため、広く用語が抽出され、新造語等も含めた精
度の高い辞書が生成できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子化された文書
をキーワードを用いて検索する場合に使用される類義語
辞書登録方法に関する。
【0002】
【従来の技術】例えば、インターネットのようなネット
ワーク上で情報検索を行おうとする場合には、膨大な量
の文書が検索対象となる。これらの文書は元々任意の思
想で任意の言語で作成され、しかもスペルミスや新造語
等も多く含んでいる。従って、キーワードを用いてこれ
らを検索するような場合に、適当な検索結果を得るた
め、利用者は各種の工夫を必要とする。例えば、一定の
キーワードを用いて検索を行う際に、そのキーワードに
意味がよく似た単語を登録してこれらの単語を同時に検
索に使用する。この方法をキーワードの拡張という。こ
のようなキーワードを自動的に拡張するための類義語辞
書を作成する方法が、例えば次のような文献に記載され
ている(電子情報通信学会.TECHNICAL REPORT OF IEIC
E AI95-24 (1995-09) PP15-22.“統計的シソーラスを用
いた分散型ニュース検索システム”)。
【0003】
【発明が解決しようとする課題】ところで、上記のよう
な従来の類義語辞書登録方法には次のような解決すべき
課題があった。類義語辞書には、検索を実行する前に、
予め検索に使用されるキーワードとこれと意味の近い言
葉とがリストアップされて登録される。辞書作成を担当
する登録者は、予めキーワードを名詞、動詞、形容詞と
いった品詞に分類し、更に様々の視点からキーワードを
分類し、各キーワードの上位概念、下位概念に相当する
単語を類義語として登録している。例えば、“産業”と
いうキーワードには人間活動、精神及び行為といった分
類が付与され、類義語として、同じ視点から見て“工
業”、“実業”、“興業”、結果としての視点から見て
“生産”、“増産”、“減産”、過程としての視点から
見て“創業”、“分類”、“巡業”といった言葉が登録
される。
【0004】また、ファジイ論理に関する文献を検索し
ようとする場合、検索条件としては、“ファジイ”OR
“FUZZY”OR“曖昧”OR“あいまい”、またこ
れに加えて“柔軟”、“アナログ的”、“柔らか”、
“ニューラルネット”といった言葉を類義語として使用
することが好ましい。従って、これらの言葉が類義語と
して登録される。ところが、このように類義語を広く選
択して登録することは必ずしも容易でない。また、不十
分な類義語辞書を用いて検索をした場合には利用者の要
求に応えられないこともある。従って、類義語辞書の登
録者に大きな負担がかかるという問題があった。
【0005】また、検索の際に入力するキーワードに1
字でもスペルミスがあると適切な検索をすることができ
ない。接頭語や語尾の違いを考慮して部分一致等の手法
を用いて検索すると、ノイズが増大し実用的でないこと
もある。特に、日々新しい専門用語が生み出される分野
に適切なキーワードとこれに対応する十分な量の類義語
を設定し、予め登録することは非常に困難である。従っ
て、類義語辞書登録作業をより簡便にし、能率よく精度
の高い検索結果が得られるシステムの構築が望まれる。
【0006】
【課題を解決するための手段】本発明は以上の点を解決
するため次の構成を採用する。 〈構成1〉データベース検索のためのキーワードに対し
て、意味的に距離が近い単語を、キーワードを拡張する
ための類義語辞書に登録する場合において、一組のキー
ワードの共起確率を意味的な距離の近さを表す基準とす
るとき、利用者が上記データベースの検索のために入力
したキーワードの組のうち、OR結合されて使用された
各キーワードの共起確率を、その入力のつど増加させる
ように学習によって補正し、辞書登録対象とされた任意
のキーワードに対して、上記共起確率の高い他のキーワ
ードリストを表示して、このリスト中から選択された他
のキーワードを辞書登録対象とされたキーワードに対す
る類義語として類義語辞書に登録することを特徴とする
類義語辞書登録方法。
【0007】〈説明〉あるキーワードに対して幾つかの
キーワードが類義語として類義語辞書に登録されると、
データベース検索の際に、利用者が与えたキーワードを
自動的に拡張して検索精度を向上させる。共起確率と
は、データベースに含まれる任意の文書中で一組のキー
ワードが離れ離れでもどこかで共に使われる確率のこと
である。利用者が実際のデータベース検索の際にOR結
合で入力するキーワードは、互いに意味的な距離が近い
と認められる。そこで、そのキーワードの組が入力され
る度に共起確率を大きくするように学習させる。こうし
て、類義語辞書登録のための基礎となるデータが自動的
に蓄積される。これにより、実用的な類似度が加味され
るから、類義語辞書登録作業の困難さを緩和し、全文検
索等の手法によりデータベースをファジイ検索する際の
精度を向上させる。
【0008】〈構成2〉データベース検索のためのキー
ワードに対して、意味的に距離が近い単語を、キーワー
ドを拡張するための類義語辞書に登録する場合におい
て、一組のキーワードの連接確率を同時に出現する確率
の高さを表す基準とするとき、利用者が上記データベー
スの検索のために入力したキーワードの組のうち、AN
D結合されて使用された各キーワードの連接確率を、そ
の入力のつど増加させるように学習によって補正し、辞
書登録対象とされた任意のキーワードに対して、上記連
接確率の高い他のキーワードリストを表示して、このリ
スト中から選択された他のキーワードを辞書登録対象と
されたキーワードに対する類義語として類義語辞書に登
録することを特徴とする類義語辞書登録方法。
【0009】〈説明〉連接確率とは、データベースに含
まれる任意の文書中で一組のキーワードが同時に連続し
て出現する確率のことである。利用者が実際のデータベ
ース検索の際にAND結合で入力するキーワードは、同
時に出現する確率が高いと認められる。そこで、そのキ
ーワードの組が入力される度に連接確率を大きくするよ
うに学習させる。こうして、類義語辞書登録のための基
礎となるデータが自動的に蓄積される。これにより、意
味的に近い言葉に加えて同時に出現する確率の高い言葉
も類義語として登録するから、全文検索等の手法により
データベースをファジイ検索する際の精度を向上させ
る。
【0010】〈構成3〉データベース検索のためのキー
ワードに対して、意味的に距離が近い単語を、キーワー
ドを拡張するための類義語辞書に登録する場合におい
て、利用者が上記データベースの検索のために入力した
誤入力キーワードを記憶し、辞書登録対象とされた任意
のキーワードに対して、上記誤入力キーワードの中から
表記類似度の高いものを抽出して、表記類似度の高い他
のキーワードリストを表示して、このリスト中から選択
された他のキーワードを辞書登録対象とされたキーワー
ドに対する類義語として類義語辞書に登録することを特
徴とする類義語辞書登録方法。
【0011】〈説明〉利用者が実際のデータベース検索
の際に入力するキーワードには、多くの表記上の間違い
が混ざっている。そこで、実際に使用された誤入力キー
ワードリスト中から、表記類似度の大きいものを取り出
して、正しいキーワードのための類義語辞書に登録すれ
ば、いわゆるスペルミス等を自動的に修正して検索をす
ることができる。これにより、類義語辞書登録作業の困
難さを緩和し、全文検索等の手法によりデータベースを
ファジイ検索する際の精度を向上させる。
【0012】
【発明の実施の形態】以下、本発明の実施の形態を具体
例を用いて説明する。 〈具体例〉図1は、本発明の実施のためのシステムブロ
ック図である。本発明の方法は、例えばこの図に示すよ
うなシステムによって実施される。図において、ネット
ワーク1には任意のデータベース2−1,2−2,2−
3等が接続されている。なお、これらのデータベースは
更に別のリンクされたネットワークを介して接続されて
いてもよいし様々な形態をとることができる。これは、
例えばインターネット等により構成されたものとする。
【0013】ここで、これらのデータベース上の各種の
文献をキーワードを用いて全文検索するために、この図
に示すようなシステムが用意される。まず、検索のため
に検索用端末3が設けられ、検索すべきキーワード拡張
のために類義語辞書5が利用される。この類義語辞書5
を生成し登録するために類義語辞書登録用端末4及び、
本発明において利用される学習データファイル6が設け
られる。本発明においては、実際に検索用端末3を用い
てキーワードを入力し、各種データベースを検索した場
合に、その利用されたキーワード等を学習データファイ
ル6に格納する。これによって、類義語辞書登録のため
の基礎データを得る。
【0014】類義語辞書登録用端末4は、登録者が登録
対象となるキーワードを入力した場合に、学習データフ
ァイル6からそのキーワードと類似度の高い単語を読み
出して、類似度が高い順にいくつか表示する。登録者は
これらの単語の中から適当なものを選択して類義語辞書
5に登録する。学習データファイル6は、具体例1では
共起確率学習データファイル、具体例2では連接確率学
習データファイル、具体例3では付加、脱落、置換リス
トファイルとされる。以上が本発明の概略であるが、以
下、それぞれ具体例を用いてその登録の実際を説明す
る。
【0015】〈具体例1〉図2には、具体例1の動作説
明図を示す。この図に示すように、登録者7は、登録イ
ンタフェース8を介して類義語登録処理を行う。この登
録インタフェース8は、図1に示した類義語辞書登録用
端末4に含まれる。また、検索情報10からキーワード
の類義語登録に利用できる情報を抽出して保存するため
に、共起確率学習データファイル11が設けられてい
る。また、類似度計算のために類似度計算モジュール9
が設けられる。この類似度計算モジュール9も図1に示
した類義語辞書登録用端末4に含められるものとする。
【0016】実際の検索において、2以上のキーワード
をOR結合によって検索する場合、これらのキーワード
にはいずれも互いに非常に意味がよく似ているものが含
まれる。従って、これらを類義語辞書5に登録すること
によって検索精度の向上が図れる。また、OR結合させ
て検索されるキーワードは互いに1つの文書中のどこか
に、互いに必ずしも接近していないが同時に使用されて
いる。このように1つの文書に同時に使用される確率を
共起確率と呼んでいる。この共起確率が高いキーワード
は互いに類似度が高いと判断できる。この共起確率その
ものは、例えばデータベースを構成する各文書の全文検
索をして、解析をすることにより取り出すことができ
る。この具体例1では、このような共起確率を実際の検
索の際に検索者がOR結合を用いて使用する度合によっ
て補正する。従って、OR結合で検索される度合が高い
ほど共起確率が次第に高まる。このように検索のつど共
起確率を高めるため、共起確率学習データファイル11
というものを設けた。
【0017】この図2に従って本発明の方法を順に説明
すると、まず、通常のデータベース検索において検索者
が入力した検索情報10は、ステップS1において、類
似度計算モジュール9を介して共起確率学習データファ
イル11に蓄積される(ステップS2)。この共起確率
は次のように計算される。 共起確率Wij= 単語i と単語j が共起した回数/単語i と単語j のどちらかが出現した文書数 …(1)
【0018】なお、あるキーワードKi とKj との類似
度をWijと見るのは、従来から知られている。例えば、
(1)式によれば、“メール”というキーワードに対し
て、“電子”は共起確率が0.5、“ネットワーク”が
0.3、“受信”が0.2、“mail”は0.3という値
が得られる。一方、この具体例1では、実際の検索結果
を取り入れて学習し共起確率を補正する。例えば、検索
者が与えた検索式が“マルチメディアORmulti-media
”であった場合に、“マルチメディア”をKi、“mult
i-media ”をKj とすると新しい共起確率Wij*は次の
式に示すようになる。 Wij*= Wij+ Ki とKj がOR結合した回数/Ki とKj のどちらかが出現した回数 ×(1−Wij) …(2) なお、上記の式の1−WijはWijを除く確率の増分の計
算であることを示している。
【0019】このように学習によって共起確率が補正さ
れると、頻繁にOR結合によって使用される各単語間の
類似度が高まる。このような計算を行うための基礎デー
タが検索のつど共起確率学習データファイル11に格納
される(図2のステップS2)。なお、このデータファ
イルの形式は、例えばどのようなキーワードがOR結合
して検索されたかという事実をリストアップしたもので
あればよい。類似度計算モジュール9は、所定のタイミ
ングで(1)式や(2)式の計算を行う。
【0020】こうして共起確率学習データファイル11
が生成されると、登録者7は登録のための新たなキーワ
ードを投入する(ステップS3)。登録インタフェース
8は、類似度計算モジュール9に対し、そのキーワード
と類似度の高いキーワードリストを表示するようにその
候補の出力を要求する(ステップS4)。類似度計算モ
ジュール9は共起確率学習データファイル11を参照し
(ステップS5)、類似度計算を行った後、類似度の高
いものから順に配列して候補を出力する(ステップS
6)。
【0021】そのリストが、例えば“メール”というキ
ーワードに対して“mail”が共起確率0.6、“電子”
が共起確率0.5、“ネットワーク”が共起確率0.3
5、“受信”が共起確率0.2、“e-mail”が共起確率
0.1といった形で表示される。ここで、登録者7は、
全てのキーワードを類義語辞書5に登録する場合にはこ
れら全てを選択する。また、一部のみを登録する場合に
はその一部を選択する。また、これらのキーワードに
は、それぞれ付属情報を付ける。この付属情報は、例え
ば登録の対象となるキーワードの下位語であるという情
報や、どういった文脈で用いられた場合に意味が同じに
なるといった情報である。例えば、“電子”は付属情報
として「種類」、“ネットワーク”は付属情報として
「要素」、“受信”は付属情報として「動作」、“メー
ル”は付属情報として「英語」、“e-mail”は付属情報
として「種類」といった登録が行われる。
【0022】〈具体例1の効果〉以上のように、予め共
起確率学習データファイル11に、実際に検索に使用さ
れたキーワード間の類似度を共起確率を基準として判断
する場合に役に立つ情報が学習され蓄積されているた
め、これを利用して類似度の高いキーワードのリストを
自動的に表示し、これらを選択することで辞書登録が可
能になる。このため登録者の負担が軽減され、全文検索
等を行った場合のファジイ検索精度の向上を図ることが
できる。こうして、例えばネットワークニュース等の、
膨大な新造語や専門用語を含んだ各種データの検索が柔
軟に容易に行えるようになる。しかも、実際の検索結果
を利用するため、日々発生する新事実を表す用語等につ
いても自動的に学習され蓄積されることから、登録者が
この種の単語を予め用意して登録する負担を軽減でき
る。
【0023】〈具体例2〉図3は、具体例2の動作説明
図である。上記の具体例1では、単語間の類似度を共起
確率によって表した。一方、検索を行う場合に、複数の
キーワードをAND結合して検索することがある。この
ようなキーワードは互いに該当する文書中に同時に隣接
して出現する。従って、一方を含む文書中には他方が同
時に含まれる確率が高い。そこで、これらを類似度の高
いキーワードとして登録する。このように互いにAND
結合して検索される単語の出現する確率を連接確率と呼
んでいる。この連接確率は次の式で表される。 連接確率Wij= 単語i と単語j が連接した回数/単語i と単語j のどちらかが出現した文書数 …(3)
【0024】例えば、“メール”というキーワードに対
して“電子”の連接確率が0.5、“ネットワーク”の
連接確率が0.3、“受信”の連接確率が0.2といっ
た状態となる。ここで、具体例1と同様に実際に検索に
よりAND結合で使用された結果を図3に示す連接確率
学習データファイル12に蓄積する。これによって、具
体例1と同様にして連接確率を学習によって補正する。
その演算処理は次のようにして行う。この式の形式は具
体例1と同様である。 Wij*= Wij+ Ki とKj がAND結合した回数/Ki とKj のどちらかが出現した回数 ×(1−Wij) …(4) これによって、よくAND結合で検索されるキーワード
間の類似度が学習により次第に大きくなるため、ファジ
イ検索において検索結果の精度が向上する。通常、キー
ワード検索を行う場合にはAND結合あるいはOR結合
が最も多く使用される。特に、連接確率の高いキーワー
ドは相互に連接して熟語や複合語を作るということが多
いという特徴がある。
【0025】この具体例2においても、図3に示すよう
に、検索情報10がステップS1において入力される
と、その結果が類似度計算モジュール9を介して連接確
率学習データファイル12に蓄積される(ステップS
2)。そして、登録者7がキーワードの登録のためにキ
ーワードを投入し(ステップS3)、登録インタフェー
ス8は類似度計算モジュール9に候補を要求する(ステ
ップS4)。類似度計算モジュール9は連接確率学習デ
ータファイル12を参照することによって候補を得てこ
れを登録インタフェース8に出力する(ステップS5,
S6)。その結果は登録者7に対して表示され(ステッ
プS7)、選択された類義語が類義語辞書5に登録され
る(ステップS8)。
【0026】例えば、キーワード“メール”に対して
“電子”は連接確率0.7、“受信”は連接確率0.
4、“ソフト”は連接確率0.2となる。従って、例え
ばこれら全てを登録するならば、それぞれその付属情報
として“電子”は「種類」、“受信”は「動作」、“ソ
フト”は「種類」といった情報を合わせて登録する。
【0027】〈具体例2の効果〉以上のように、具体例
2によれば、検索情報から連接確率の高いキーワードに
ついての使用実績がそのまま連接確率学習データファイ
ル12に格納され、これを用いて類義語登録を行うこと
ができるため、類義語辞書5の登録作業を容易にする。
しかも具体例1と同様にしてファジイ検索の精度を向上
させ、検索精度を高めることができる。
【0028】〈具体例3〉図4には、具体例3の動作説
明図を示す。この具体例は、主にキーワードのスペルミ
ス等を考慮した類義語辞書の登録方法を示す。例えば、
“eudora”というメイラーがある。このキーワードを含
む文書の検索を行う場合、検索者は例えば“eudra ”と
入力することがある。日本人にとって、英単語は母音の
付加、脱落、子音の置換といったスペルミスが多い。こ
の例は、母音“o ”が脱落した例で、全体の2割程度こ
うしたスペルミスによるキーワード入力が行われること
が分かっている。また、r 、l とを誤って置き換えてス
ペルミスを生じるようなものを置換と呼んでいる。更
に、ハイフンを付加したり脱落するような誤りもある。
【0029】こうしたスペルミスを自動的に救済するた
めには、表記上の類似度の高い単語も含めて検索するよ
うな類義語辞書の採用が好ましい。この具体例3では、
実際の検索情報を利用して、実際に生じ易いスペルミス
を付加脱落置換リストファイル13に蓄積し学習させ
て、これを類義語として類義語辞書5に登録する。即
ち、スペルミスも類義語として登録するようにして検索
精度の向上を図る。なお、このような類似度を表記類似
度と呼んでいる。表記類似度の計算方法には、例えば市
街地距離計算が知られている。
【0030】図5には、“eudora”と“eudra ”の市街
地計算方法説明図を示す。ここでは縦軸と横軸に比較対
象の単語を1文字ずつばらばらに配置し、同一の文字の
場合には格子点へ進み、脱落等の場合には垂直あるいは
水平の方向に進むといった方法で左下隅から右上隅に足
跡を進めていく。この場合、縦軸と横軸の文字数の和を
分母とし、脱落した文字数の数を1として両キーワード
の距離を11分の1というように計算する。類似度は1
−(1/11)として求める。
【0031】図6には、動的計画法利用時のパスの制限
を示す。図5のような縦軸と横軸の文字を比較する場
合、動的計画法を用いると、そのパスは右横方向、垂直
上方向及び斜め右上方向に制限される。これらのパスの
いずれかを通り、左下隅から右上隅まで最短のパスをた
どる。こうして、両キーワードの表記類似度を11分の
10というように求める。このような方法で得た類似度
計算結果を元に、表記類似度の高いものから順に類義語
の候補が登録インタフェース8に出力される。登録者7
はこれらのうちから適当なものを選択して類義語辞書5
に登録する。
【0032】その他の処理はこれまで説明した具体例
1、具体例2と同様である。例えば、キーワード“イン
ターフェース”に対し“インタフェース”は表記類似度
が15分の14となる。なお、その付属情報は、例えば
「表記」といった内容となる。こうして登録を行うこと
によって、検索の際、このようなスペルの異なる単語も
キーワードとして自動的に選択され、検索精度を上げる
ことができる。しかも、検索の際にそのつど表記類似度
の計算等を行うと、検索時間が長時間かかる。これに対
して予め類義語辞書5を用いたスペルミスも考慮したキ
ーワードを選ぶことによって2分探索等の高速検索手法
を用いることができ、検索時間を短時間にすることがで
きる。
【0033】なお、表記類似度の計算を高速に行うため
に、例えば次のような手法も採用できる。図7には、市
街地距離計算の整合窓説明図を示す。この図に示すよう
に、縦軸と横軸に示した任意の単語i とj について、動
的計画法を利用して類似度を計算する場合の最短ルート
は、この菱形で囲まれた範囲以内に含まれるはずであ
る。従って、これ以外の部分についての計算を除外する
ようにすれば、計算の対象が縮小され、計算時間が短縮
できる。
【0034】〈具体例3の効果〉以上のように、検索者
が起こし易いスペルミス等も予め実際の検索結果を元に
学習し蓄積しておき、それを利用して類義語辞書登録を
行うようにすれば、利用者がスペルミスを行った場合に
これを自動的に修正したり、データそのもののスペルミ
スも考慮してその単語を検索語とすることによってより
検索精度を高めることが可能になる。
【図面の簡単な説明】
【図1】本発明の実施のためのシステムブロック図であ
る。
【図2】具体例1の動作説明図である。
【図3】具体例2の動作説明図である。
【図4】具体例3の動作説明図である。
【図5】市街地距離計算説明図である。
【図6】動的計画法利用時のパスの制限説明図である。
【図7】市街地距離計算の整合窓説明図である。
【符号の説明】
1 ネットワーク 2−1〜2−3 データベース 3 検索用端末 4 類義語辞書登録用端末 5 類義語辞書 6 学習データファイル

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 データベース検索のためのキーワードに
    対して、意味的に距離が近い単語を、キーワードを拡張
    するための類義語辞書に登録する場合において、 一組のキーワードの共起確率を意味的な距離の近さを表
    す基準とするとき、 利用者が前記データベースの検索のために入力したキー
    ワードの組のうち、OR結合されて使用された各キーワ
    ードの共起確率を、その入力のつど増加させるように学
    習によって補正し、 辞書登録対象とされた任意のキーワードに対して、前記
    共起確率の高い他のキーワードリストを表示して、この
    リスト中から選択された他のキーワードを辞書登録対象
    とされたキーワードに対する類義語として類義語辞書に
    登録することを特徴とする類義語辞書登録方法。
  2. 【請求項2】 データベース検索のためのキーワードに
    対して、意味的に距離が近い単語を、キーワードを拡張
    するための類義語辞書に登録する場合において、 一組のキーワードの連接確率を同時に出現する確率の高
    さを表す基準とするとき、 利用者が前記データベースの検索のために入力したキー
    ワードの組のうち、AND結合されて使用された各キー
    ワードの連接確率を、その入力のつど増加させるように
    学習によって補正し、 辞書登録対象とされた任意のキーワードに対して、前記
    連接確率の高い他のキーワードリストを表示して、この
    リスト中から選択された他のキーワードを辞書登録対象
    とされたキーワードに対する類義語として類義語辞書に
    登録することを特徴とする類義語辞書登録方法。
  3. 【請求項3】 データベース検索のためのキーワードに
    対して、意味的に距離が近い単語を、キーワードを拡張
    するための類義語辞書に登録する場合において、 利用者が前記データベースの検索のために入力した誤入
    力キーワードを記憶し、 辞書登録対象とされた任意のキーワードに対して、前記
    誤入力キーワードの中から表記類似度の高いものを抽出
    して、表記類似度の高い他のキーワードリストを表示し
    て、このリスト中から選択された他のキーワードを辞書
    登録対象とされたキーワードに対する類義語として類義
    語辞書に登録することを特徴とする類義語辞書登録方
    法。
JP8157722A 1996-05-29 1996-05-29 類義語辞書登録方法 Pending JPH09319767A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8157722A JPH09319767A (ja) 1996-05-29 1996-05-29 類義語辞書登録方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8157722A JPH09319767A (ja) 1996-05-29 1996-05-29 類義語辞書登録方法

Publications (1)

Publication Number Publication Date
JPH09319767A true JPH09319767A (ja) 1997-12-12

Family

ID=15655946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8157722A Pending JPH09319767A (ja) 1996-05-29 1996-05-29 類義語辞書登録方法

Country Status (1)

Country Link
JP (1) JPH09319767A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002502073A (ja) * 1998-01-30 2002-01-22 ネット−エクスプレス リミテッド Wwwアドレス指定
JP2002518748A (ja) * 1998-06-15 2002-06-25 アマゾン ドット コム インコーポレイテッド 検索照会改善システムおよび方法
JP2003216634A (ja) * 2002-01-28 2003-07-31 Ricoh Techno Systems Co Ltd 情報検索システム
JP2006085389A (ja) * 2004-09-15 2006-03-30 Kyoto Univ 検索装置
JP2008152454A (ja) * 2006-12-15 2008-07-03 Industrial Property Cooperation Center 類義語統合システム
JP2008234047A (ja) * 2007-03-16 2008-10-02 Industrial Property Cooperation Center 関連語統合システム
US7631032B1 (en) 1998-01-30 2009-12-08 Net-Express, Ltd. Personalized internet interaction by adapting a page format to a user record
JP2010524099A (ja) * 2007-04-10 2010-07-15 アリババ グループ ホールディング リミテッド 更新パラメータを生成および相関するキーワードを表示するための方法および装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06314296A (ja) * 1993-03-02 1994-11-08 Fujitsu Ltd 情報検索システム
JPH0773197A (ja) * 1993-09-03 1995-03-17 Fujitsu Ltd 異表記語辞書作成支援装置
JPH0877204A (ja) * 1994-09-07 1996-03-22 Fuji Xerox Co Ltd 関連語辞書作成支援装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06314296A (ja) * 1993-03-02 1994-11-08 Fujitsu Ltd 情報検索システム
JPH0773197A (ja) * 1993-09-03 1995-03-17 Fujitsu Ltd 異表記語辞書作成支援装置
JPH0877204A (ja) * 1994-09-07 1996-03-22 Fuji Xerox Co Ltd 関連語辞書作成支援装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8464159B2 (en) 1998-01-30 2013-06-11 Net-Express, Ltd. Personalized internet interaction
JP2002502073A (ja) * 1998-01-30 2002-01-22 ネット−エクスプレス リミテッド Wwwアドレス指定
US8661094B2 (en) 1998-01-30 2014-02-25 Net-Express Ltd. WWW addressing
US7596609B1 (en) 1998-01-30 2009-09-29 Net-Express, Ltd. WWW addressing
US7631032B1 (en) 1998-01-30 2009-12-08 Net-Express, Ltd. Personalized internet interaction by adapting a page format to a user record
JP2002518748A (ja) * 1998-06-15 2002-06-25 アマゾン ドット コム インコーポレイテッド 検索照会改善システムおよび方法
JP2003216634A (ja) * 2002-01-28 2003-07-31 Ricoh Techno Systems Co Ltd 情報検索システム
JP2006085389A (ja) * 2004-09-15 2006-03-30 Kyoto Univ 検索装置
JP2008152454A (ja) * 2006-12-15 2008-07-03 Industrial Property Cooperation Center 類義語統合システム
JP4656330B2 (ja) * 2006-12-15 2011-03-23 一般財団法人工業所有権協力センター 類義語統合システム
JP2008234047A (ja) * 2007-03-16 2008-10-02 Industrial Property Cooperation Center 関連語統合システム
JP2010524099A (ja) * 2007-04-10 2010-07-15 アリババ グループ ホールディング リミテッド 更新パラメータを生成および相関するキーワードを表示するための方法および装置
JP2013152744A (ja) * 2007-04-10 2013-08-08 Alibaba Group Holding Ltd 更新パラメータを生成および相関するキーワードを表示するための方法および装置
US8676811B2 (en) 2007-04-10 2014-03-18 Alibaba Group Holding Limited Method and apparatus of generating update parameters and displaying correlated keywords
US8874588B2 (en) 2007-04-10 2014-10-28 Alibaba Group Holding Limited Method and apparatus of generating update parameters and displaying correlated keywords
US9135370B2 (en) 2007-04-10 2015-09-15 Alibaba Group Holding Limited Method and apparatus of generating update parameters and displaying correlated keywords

Similar Documents

Publication Publication Date Title
EP0597630B1 (en) Method for resolution of natural-language queries against full-text databases
Weiss et al. Text mining: predictive methods for analyzing unstructured information
US6957213B1 (en) Method of utilizing implicit references to answer a query
Kowalski et al. Information storage and retrieval systems: theory and implementation
CN111177591B (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
US20020133483A1 (en) Systems and methods for computer based searching for relevant texts
JPH04357568A (ja) テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
JPH07219969A (ja) 画像部品を検索する装置及びその方法
WO2009117835A1 (en) Search system and method for serendipitous discoveries with faceted full-text classification
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN113886604A (zh) 一种职位知识图谱生成方法和系统
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN113407697A (zh) 深度百科学习的中文医疗问句分类系统
JP4931114B2 (ja) データ表示装置、データ表示方法及びデータ表示プログラム
JPH09319767A (ja) 類義語辞書登録方法
JP2000020537A (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
KR100376931B1 (ko) 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법
JP2002183194A (ja) 検索式生成装置およびその方法
JP2732661B2 (ja) テキスト型データベース装置
JP2005158044A (ja) 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
JPH10105562A (ja) 検索システム
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
JPH0612451A (ja) 例文検索システム
Knopp et al. Classification of named entities in a large multilingual resource using the Wikipedia category system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050322

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051018