JPH09153055A - 情報検索方法 - Google Patents

情報検索方法

Info

Publication number
JPH09153055A
JPH09153055A JP7310959A JP31095995A JPH09153055A JP H09153055 A JPH09153055 A JP H09153055A JP 7310959 A JP7310959 A JP 7310959A JP 31095995 A JP31095995 A JP 31095995A JP H09153055 A JPH09153055 A JP H09153055A
Authority
JP
Japan
Prior art keywords
information
words
search
importance
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7310959A
Other languages
English (en)
Inventor
Hiromi Haniyuda
博美 羽生田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GIJUTSU KENKYU KUMIAI SHINJOHO
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Oki Electric Industry Co Ltd
Original Assignee
GIJUTSU KENKYU KUMIAI SHINJOHO
GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GIJUTSU KENKYU KUMIAI SHINJOHO, GIJUTSU KENKYU KUMIAI SHINJOHO SHIYORI KAIHATSU KIKO, Oki Electric Industry Co Ltd filed Critical GIJUTSU KENKYU KUMIAI SHINJOHO
Priority to JP7310959A priority Critical patent/JPH09153055A/ja
Publication of JPH09153055A publication Critical patent/JPH09153055A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 単語間の関係を示す2種以上の関係を格納し
たシソーラスからキーワードの関連語を抽出しこれによ
りデータベースを検索してキーワードに関連する情報を
得る方法であって、検索者が求める情報の分野の変化が
あったり、検索者が複数存在する場合でも検索意図によ
り適した検索ができる方法を提供する。 【解決手段】 2種以上の前記関係の少なくとも1種を
除外し残りの関係に基づいてキーワードの予備関連語を
ファイルから抽出する。予備関連語によりデータベース
を検索し予備情報を得る。キーワードの関連語をファイ
ルから抽出するための制御情報を、前記除外した単語間
の関係と前記予備情報とに基づいて生成する。この制御
情報を用いキーワードの関連語をファイルから抽出す
る。この関連語によりデータベースを検索する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、キーワードに関
連する情報をデータベースから検索する際に、該キーワ
ードに関連する単語(関連語)をシソーラスから先ず抽
出しこの抽出した関連語を用いて前記検索を行なう情報
検索方法に関するものである。
【0002】
【従来の技術】従来この種の情報検索方法として、例え
ば文献I(信学技報AI94-47(1994),pp.17-22「情報検索
用シソーラスの自己組織化」)に開示の方法や、文献II
(情処研報 自然言語処理76-9(1990.3.9),pp.1-8
「動的シソーラスを用いた連想検索」)に開示の方法が
あった。前者は、単語間の上位・下位・類義・同義関係
などの単語間の意味的な関係を格納したシソーラス(初
期シソーラス)を予め用意し、このシソーラスからキー
ワードに対し意味的関係のある単語(関連語)の集合を
抽出する。そしてこの関連語の集合を用いデータベース
を検索し、次に関連語の集合のうち上記検索に有効であ
った関連語の組み合わせを単語間の関係としてシソーラ
スに加えてシソーラスを変形させ、次回からの検索では
この変形したシソーラスを用いるという方法であった。
また後者は、重要度を付加された単語と単語間の関係
(意味的関係や共起(同一データに2つの単語が共に含
まれる)関係)とを格納したシソーラスを予め用意し、
このシソーラスからキーワードに対し一定の距離にあり
かつ閾値以上の重要度を持つ単語(関連語)を抽出し、
この関連語を用いデータベースを検索するという方法で
あった。ここで共起関係および重要度は予め与えられた
サンプルデータから抽出したものとされていた。
【0003】
【発明が解決しようとする課題】このように文献Iに開
示の従来方法では、検索を重ねるに従って、初期シソー
ラスには含まれない単語間の関係、すなわちデータベー
ス中における単語間の共起関係のうち関連語の集合中に
現れた関係が、シソーラスに加えられて行く。その結
果、シソーラスからの関連語抽出は、データベース中に
おける単語の共起関係のうち、検索において実際に検索
されるデータが存在すると予測されるような共起関係を
利用した関連語抽出となる。これは換言すれば次の様な
ことになる。利用者が検索意図を検索要求において十分
に表現することは困難であるが検索要求中には利用者の
検索意図が潜在的に表現されているといえる。文献Iに
開示の従来方法ではこの潜在的検索意図を上述したよう
にシソーラスの変形によりシソーラスに反映させている
ので、利用者の検索意図により良く適合した検索が可能
であった。
【0004】また、文献IIに開示の従来方法では、サン
プルデータから単語間の共起関係および重要度を抽出し
これらをシソーラスに加えることで検索意図が反映され
たシソーラスを構成するので、この場合も利用者の検索
意図により良く適合した検索が可能であった。
【0005】しかしながら、利用者が求める情報の分野
あるいは利用者の興味・関心が状況によって変化したり
利用者が複数存在する場合には、個々の検索毎に特有の
検索意図が存在することになるため、この検索意図に対
応して、検索要求中の単語の共起パターンは個々の検索
毎に特有なものが含まれるようになり、また、検索に際
しての単語の重要度も個々の検索毎に異なるようにな
る。このようなとき、上述の文献Iに開示の従来方法で
は、シソーラスに加えられて行く単語間の共起関係は、
異なる検索意図をも含む複数の検索を通じて累積的にシ
ソーラスに付加されるため、個々の検索において、その
検索特有の利用者の検索意図を的確にとらえることを困
難とする場合が生じてしまう。また、文献IIに開示の従
来方法では、シソーラスに加えられた単語の重要度は、
予め与えられたサンプルデータから抽出したものである
ため、個々の検索において、その検索特有の利用者の検
索意図を的確にとらえることを困難とする場合が生じて
しまう。そのため、上記いずれの方法も、利用者が求め
る情報の分野あるいは利用者の興味・関心が状況によっ
て変化したり、利用者が複数存在する場合には、各々の
検索要求に対して、その検索意図に適合する情報を検索
することが困難になるという問題があった。
【0006】
【課題を解決するための手段】そこで、この出願の第一
発明では、任意に与えられるキーワードに関連する情報
をデータベースから検索する際の当該検索を、単語間の
関係を示す2種以上の関係を格納したファイルから前記
キーワードの関連語を抽出して該抽出した関連語を用い
て行なう、情報検索方法において、以下の各処理(a)
〜(e)を含むことを特徴とする。
【0007】(a).2種以上の前記関係の少なくとも
1種を除外して残りの関係に基づいて前記任意に与えら
れるキーワードの予備関連語を前記ファイルからそれぞ
れ抽出する予備関連語抽出処理。
【0008】(b).前記抽出された予備関連語を用い
て前記データベースから情報を検索する予備検索処理。
【0009】(c).前記任意に与えられるキーワード
の関連語を前記ファイルから抽出するための制御情報
を、前記除外した単語間の関係と前記予備検索処理で検
索された情報とに基づいて生成する制御情報生成処理。
【0010】(d).前記生成される制御情報を用い前
記任意に与えられるキーワードの関連語を前記ファイル
から抽出する関連語抽出処理。
【0011】(e).該抽出した関連語を用い前記デー
タベースを検索して前記関連する情報を得るデータベー
ス検索処理。
【0012】この第一発明によれば、次の様な作用が得
られる。一般的に単語間の関係にはいろいろなものがあ
り、そのような関係を利用してキーワードに関連する単
語をシソーラスから抽出し検索に利用し利用者の検索意
図により良く適合した検索が可能になる。しかし、例え
ば、情報検索システムの利用者が複数であること、また
複数の検索要求がシステムに対し出されるということか
ら考えると、これら単語間の関係は、それを有効に利用
できる範囲がどの程度広いかという性質によって2つの
種類に大別できると考えられる。すなわち、:多くの
利用者あるいは多くの検索要求で共通に利用し得るもの
(例えば単語間の上位・下位・類義・同義関係などの単
語間の意味的関係)、:個々の利用者あるいは個々の
検索要求で共通に利用し得るもの(例えば単語間の共起
関係)。このようなとき、この第一発明では、上記の様
な単語間の関係の性質に基づいて2種以上の単語間の関
係を類別し、かつ、類別したものをそれぞれの性質に適
した方法で利用できるようになる。その結果、2種以上
の単語間の関係をそれぞれに関し適切に利用することが
出来るようなると同時に、もれなく利用することができ
るようになる。
【0013】また、この出願の第二発明によれば、任意
に与えられるキーワードに関連する情報をデータベース
から検索する際の当該検索を、単語の重要度と単語間の
関係とを格納したファイルから前記キーワードの関連語
を抽出して該抽出した関連語を用いて行なう、情報検索
方法において、(i)単語及び該単語の重要度を修正す
るための修正係数を含む重要度修正情報を入力する処理
と、(ii)前記重要度修正情報が入力されるごとに、前
記ファイル中に前記重要度修正情報における単語に対応
する単語がある場合はその重要度を前記修正係数に基づ
き修正する重要度修正処理と、を含むことを特徴とす
る。この第二発明によれば、シソーラス中の単語の重要
度を個々の検索要求ごとに利用者の検索意図に応じて偏
倚させることができる。
【0014】
【発明の実施の形態】以下、図面を参照してこの出願の
第一発明および第二発明それぞれの実施の形態について
説明する。しかしながら、説明に用いる各図はこの発明
を理解出来る程度に概略的に示してあるにすぎない。
【0015】1.第一発明の第1の実施の形態 先ず、単語間の関係を示す2種以上の関係を格納したフ
ァイルの一例としてのシソーラスについて説明する。図
2は第一発明でのシソーラスのデータ構造および単語展
開の一例を示したものである。
【0016】この場合のシソーラスは、単語をノードと
し、単語間の上位・下位・同義・類義関係等の単語間の
意味的関係および共起関係(すなわち、2種の単語間の
関係)をリンクとするグラフ構造を有したものとなって
いる。なお、以下の説明では、説明の都合上、上位・下
位・同義・類義関係を区別せずに、意味的関係と呼ぶこ
とにする。
【0017】また、以下の説明においては次の表記法を
用いる。 w:単語wおよびシソーラス中のノード L(w1 ,w2 ):w1 とw2 との意味的関係リンク C(w1 ,w2 ):w1 とw2 との間の共起関係リンク D(w1 ,w2 ):w1 とw2 との距離、すなわち、w
1 とw2 との間の最短経路を構成するリンク数 また、図2中では、意味的関係リンク(例えば、L(w
111 ,w121 )やL(w112 ,w122 )などを実線で、
共起関係リンク(例えば、C(w122 ,w221)を点線
で表し、ノードは対応する単語(例えば、w111 ,w
122 など)で表している。
【0018】次に、図1および図3〜図6を参照して第
一発明の情報検索方法における処理手順の例を説明す
る。ここで、図1は第一発明の情報検索方法の全体の処
理を概略的に示した図、図3は予備関連語抽出処理の説
明図、図4および図5は制御情報生成処理の説明図、図
6は関連語抽出処理の説明図である。ただし、図1に
は、説明を容易にするため、ファイル(シソーラス)1
1と被検索データとしてのデータベース13とを併せて
示してある。
【0019】この第一発明の情報検索方法は、検索要求
入力処理、予備関連語抽出処理、予備検索処理、制御情
報生成処理、関連語抽出処理、データベース検索処理お
よび回答生成処理を含む。以下、各処理についてそれぞ
れ説明する。
【0020】(1). 検索要求入力処理(図1のステッ
プS1) 利用者あるいは応用プログラムから検索要求が入力され
る。検索要求は、キーワード、予備抽出距離Dpおよび
抽出距離Deから構成される。なお、キーワードは、1
つの場合、複数の場合いずれもあり得る。またここでは
第一発明の理解を深めるため具体例をもって説明を進め
ることとする。そこで、w111 およびw 211 を単語とし
て、キーワードは語集合{w111 ,w211 }であり、予
備抽出距離Dpは3であり、抽出距離Deは4である例
を考える。ここで、予備抽出距離Dpは後の予備関連語
抽出において使用され、また、抽出距離Deは後の関連
語抽出処理において使用されるものである。なお、ここ
ではキーワードが2個の例を挙げたが3個以上の場合も
容易に類推できる。
【0021】入力された検索要求は、予備関連語抽出処
理に渡される。
【0022】(2).予備関連語抽出処理(図1のステ
ップS2) 予備関連語抽出処理では、シソーラス11に格納された
2種類の単語間関係すなわちここでは単語間の意味的関
係および単語間の共起関係のうちの共起関係リンク(こ
こでは、C(w122 ,w221 ))を除外して、各キーワ
ードW111 、W211 に関して、距離が予備抽出距離Dp
(ここでは3)以下のノード(単語)からなるノード集
合を得る。具体例の場合、図3に示したように、キーワ
ードw111 に対しては{w111 ,w112 ,w121 ,w
122 ,w131 ,w132 ,w141 ,w142 ,w143 }、ま
たキーワードw211 に対しては{w211 ,w221 ,w
231 ,w241 ,w242 }を得る。このように得られるノ
ード集合を予備関連語集合と呼びPE(wnnn )と表記
することにする。各キーワードw111 、w211 について
の予備関連語集合はそれぞれ、PE(w111 )、PE
(w211 )と表記される。すなわち、PE(w111 )=
{w|D(w111 ,w)≦Dp},PE(w211 )=
{w|D(w211 ,w)≦Dp}である。
【0023】(3).予備検索処理(図1のステップS
3) 予備検索処理では予備関連語抽出処理で得た予備関連
語、この場合は2つの予備関連語集合PE(w111 )、
PE(w211 )を用いデータベース13から予備的な情
報検索をする。これをこの場合、各予備関連語集合PE
毎に要素の単語をor結合し、さらにそれらをand結
合したものを検索条件としてデータベース13を予備的
に検索する。ここでは、(w111 orw112 orw121
orw122orw131 orw132 orw141 orw142
orw143 )and(w211 orw 221 orw231 or
241 orw242 )となる。これは、「予備関連語集合
PE(w111 )中の単語を少なくとも一つ含み、かつ、
もうひとつの予備関連語集合PE(w211 )中の単語を
少なくとも一つ含む」という条件を満足するデータを検
索することを意味する。
【0024】(4).制御情報生成処理(図1のステッ
プS4) 制御情報生成処理では、キーワードの関連語(予備関連
語ではなく本来の関連語の意味)をシソーラスから抽出
するための制御情報を、予備関連語抽出処理の際に除外
した単語間の関係と予備検索処理において検索した情報
とに基づいて生成する。これを例えば以下の様に行な
う。
【0025】先ず、w1 およびw2 を単語として、w1
とw2 がそれぞれ別々の予備関連語集合に属し、かつw
1 とw2 の間に共起関係リンクが存在し、かつw1 とw
2 とが共起する予備検索データが存在するとき、この共
起関係を質問依存共起関係(QCと表記)と呼ぶことに
する。また、この質問依存共起関係をQC(w1 ,w
2 )などと表記する。この質問依存共起関係についてよ
り具体的に説明すると以下の様になる。すなわち、図4
に示した様に、予備関連語集合PEおよびPE’が存在
し、w1 がPEに含まれ、w2 がPE’に含まれ、共起
関係リンクC(w1 ,w2 )がシソーラス11中に存在
し、かつw1 とw2 とが共起する予備検索データ15a
が存在するとき、この共起関係が質問依存共起関係(Q
Cと表記)に当たるのである。なお、図4中15は検索
されたデータの集合を示し、15a〜15cは個々の予
備検索データをそれぞれ示す。
【0026】また、w1 およびw2 を単語として、w1
とw2 とが別々の予備関連語集合に属し、かつw1 とw
2 とが共起する予備検索データが存在する時、すなわ
ち、予備関連語集合PEおよびPE’が存在し、w1
PEに含まれ、w2 がPE’に含まれ、w1 とw2 とが
共起する予備検索データが存在する時、この共起関係を
疑似共起関係(PCと表記)と呼ぶことにする。また、
疑似共起関係をPC(w1,w2)などと表記する。な
お、この疑似共起関係と上記の質問依存共起関係との違
いは、シソーラス中に共起リンク関係があるかないかで
ある。
【0027】予備関連語集合それぞれに関して、質問依
存共起関係または疑似共起関係にあるような単語集合を
得る。これを制御可能共起単語集合と呼び、キーワード
に応じてCC(w111 )、CC(w211 )などと表記す
る。各キーワードに関して、各キーワードから対応する
制御可能共起単語集合への経路中の単語を抽出する。こ
れら単語の集合を制御可能単語集合(CNと表記)と呼
び、また各キーワードに対応して、CN(w111 )、C
N(w211 )などと表記する。この実施の形態において
は「制御可能単語集合CN」が第一発明でいう「制御情
報」に当たる。また制御可能単語集合CNにおける要素
を制御可能単語と呼ぶ。
【0028】また具体例では、質問依存共起関係QC
(w122 ,w221 )および疑似共起関係PC(w143
241 )が存在する。また、制御可能共起単語集合CC
(w111 )として{w122 ,w143 }が存在し、制御可
能共起単語集合CC(w211 )として{w211 ,w
241 }が存在する。また制御可能単語集合CN(w
111 )として{w111 ,w112 ,w121 ,w122 ,w
132 ,w143 }が得られ、制御可能単語集合CN(w
211 )として{w211 ,w221 ,w231 ,w241 }が得
られる。上記の様に生成される制御情報(制御可能単語
集合CN)の理解を深めるため、図5に、制御可能単語
集合CNと質問依存共起関係QCと、疑似共起関係PC
との関係を示した。この図5において質問依存共起関係
QCは丸で囲み、疑似共起関係PCは矩形で囲んであ
る。制御可能単語集合CN(w111 )およびCN(w
211 )それぞれは、枠で囲まれた範囲内の単語集合とな
る。
【0029】(5).関連語抽出処理(図1のステップ
S5) 次に、上記生成された制御情報を用いキーワードの関連
語を抽出する処理をする。この抽出処理に当たり、予備
関連語集合PE中に含まれ制御可能単語集合CN中に含
まれない単語(ここでは、w111 に関しては、w131
141 とw142、w211 に関しては、w242 が該当)は
除外する。然も、予備抽出距離Dpの代わりに抽出距離
Deを用いる。それ以外は予備関連語抽出処理と同様に
して関連語を抽出する。これらを関連語集合(Eと表
記)と呼び、またキーワードに対応してE(w111 )、
E(w211 )などと表記する。具体例の場合、図6に示
した様に、関連語集合E(w111 )として{w111 ,w
112 ,w121 ,w122 ,w132 ,w133 ,w143 ,w
151 ,w152 }が、また、関連語集合E(w211 )とし
て{w211 ,w221 ,w231 ,w241 ,w251 }が得ら
れる。
【0030】(6).データベース検索処理(図1のス
テップS6) 関連語抽出処理で抽出した関連語Eを用いデータベース
13を検索する。
【0031】(7).回答生成処理(図1のステップ
7) データベース検索処理の結果得られた結果を利用者から
の検索要求の結果として利用者に返す。
【0032】この第一発明の第1の実施の形態によれば
次の様な効果が得られる。従来技術では、累積的にシソ
ーラスに累積された単語の共起関係を用いることで、利
用者の潜在的な検索意図により良く適合した検索を行っ
ていた。しかしこの共起関係(上記具体例ではC(w
122 ,w211 ))は、全ての検索に共通に用いられるよ
うになっていたため、このデータに対応する検索意図が
全ての検索に共通である場合に限って検索図に適合した
情報検索を可能にする。これに対し第一発明の第1の実
施の形態では、これに加えて、個々の検索毎に疑似共起
関係(上記例ではPC(w143 ,w241 ))を用いる。
このような疑似共起関係は、個々の検索要求に特有の単
語間の関係であり、個々の検索要求に特有の検索意図を
反映した単語間の関係であって、利用者が求める情報の
分野あるいは利用者の興味・関心が状況によって変化し
たり利用者が複数存在する場合に、個々の質問に応じて
変化するものである。このため、この第一発明の情報検
索方法によれば、利用者が求める情報の分野あるいは利
用者の興味・関心が状況によって変化したり利用者が複
数存在する場合にも、個々の検索要求の特有の検索意図
により適合した情報を検索する事が可能となる。
【0033】2.第一発明の第2の実施の形態 上述の第一発明の第1の実施の形態では、予備検索処理
で検索した情報は制御情報を生成するため(具体的には
質問依存共起関係や疑似共起関係を発見するため)その
まま用いていた。しかし、制御情報生成に不都合な情報
は用いない方がより検索要求に適合した検索が可能にな
ると考えられる。第2の実施の形態はその例である。そ
こで、この第2の実施の形態では、予備検索処理と制御
情報生成処理との間に、予備検索処理において検索され
た情報を利用者に提示しかつ該提示した情報の中に前記
制御情報生成に不都合なものがあった場合の利用者によ
るその情報の廃棄機会を与える予備検索修正処理を実施
する。具体的には、予備検索処理において検索された情
報を例えば表示装置等に表示しかつこの情報中に上記不
都合なものがあれば例えばキーボード操作等によりこれ
を除外できるような処理が可能な様にする。
【0034】この処理により、制御情報を生成する際
(質問依存共起関係および疑似共起関係を求める際)に
用いる予備検索データは、利用者が検索意図に適合する
と判断したものだけになる。
【0035】第一発明の第2の実施の形態によれば、第
1の実施の形態における、個々の検索要求に特有の単語
間の共起関係の中、利用者が検索意図に適合すると判断
したものだけを利用することが可能になり、第1の形態
よりもさらに利用者の検索要求に適合した検索を行うこ
とが可能になる。
【0036】上述の第一発明の第1、第2の実施の形態
ではシソーラスに格納された2種以上の単語間の関係が
意味的関係および共起関係の2種である例を説明した
が、格納する単語間の関係および種類数はこれに限られ
ない。互いに競合が少ない単語間の関係であればどのよ
うなものを用いて良い。例えば、熟語、慣用句あるいは
複合語(データベースサバーなどの技術用語に多いと思
われる)を構成する単語間の関係は格納し得る単語間の
関係の別の例として挙げられる。
【0037】3.第二発明の第1の実施の形態 次に、第二発明の第1の実施の形態について説明する。
そこで先ず、単語の重要度と単語間の関係とを格納して
いるファイルの一例としてのシソーラスについて説明す
る。図7はこの第二発明でのシソーラスのデータ構造お
よび単語展開の一例を示したものである。なお、説明に
用いる各図および以下の説明では次の表記法を用いる。
【0038】k:単語およびシソーラス中のノード D(k1,k2):k1とk2の距離、すなわち、k1
とk2間の最短経路を構成するリンク数 第二発明でのシソーラスは、単語をノードとし、単語間
の上位・下位・同義・類義・共起関係等の単語間の関係
をリンクとするグラフ構造をしている。然も、各ノード
(単語)には重要度が付加されている。図7はその一部
を例示したものである。図7では模式的に、ノードは対
応する単語名を重要度に応じた太さの円で囲み、リンク
は実線で示している(以下の図12において同じ。)。
【0039】またシソーラス中の各単語の重要度は図8
の通りであったとする(ただし、図8には図7中の単語
に対応するもののみを示した)。
【0040】次に、図9〜図13を参照して第二発明の
情報検索方法における処理手順の例を説明する。ここ
で、図9は第二発明の情報検索方法の全体の処理を概略
的に示した図、図10は重要度修正情報の説明図、図1
1は修正重要度の説明図、図12は関連語抽出処理の説
明図、図13は複数の重要度修正情報の説明図である。
ただし、図9には、説明を容易にするため、第二発明で
のファイル(シソーラス)21と被検索データとしての
データベース13とを併せて示してある。
【0041】この第二発明の情報検索方法は、第二発明
の特徴的な処理としての重要度修正情報入力処理および
重要度修正処理と、情報検索のための通常処理としての
キーワード入力処理、関連語抽出処理、データベース検
索処理および回答生成処理とを含むものとできる。以
下、各処理についてそれぞれ説明する。
【0042】(1).重要度修正情報入力処理(図9の
ステップS1) 利用者あるいは応用プログラムから検索要求が入力され
る。検索要求は、キーワード、重要度修正情報、関連語
抽出距離、関連語抽出閾値で構成できる。
【0043】検索要求のうちの重要度修正情報(これを
ECと表記する)は、単語とその単語に関する重要度の
修正係数との組の集合である(ただし、この集合は上記
組が1組の場合も含む)。単語と重要度修正係数との組
を修正係数付き単語と呼び、kを単語、cを修正係数と
して(k,c)などと表記する。これは、シソーラス中
で単語kに付された重要度を、関連語抽出に際して係数
cで修正して処理するための情報である。この重要度修
正情報は、利用者がキーワード入力に先だって、求める
情報の分野あるいは利用者の興味・関心に応じて、重要
視する単語とその度合い(重要度修正係数)を決めたう
えで、入力する。図10に、重要度修正情報の一例を示
している。この図10の例では修正係数付き単語が7個
で構成された重要度修正情報の例を示している。この図
10に示した重要度修正情報は、単語k5とk11の重
要度を下げ、k7およびk8,k10,k16,k17
の重要度を上げることを要求している。すなわちこの場
合、単語k5とk11に拘わる分野は重要視せず(ある
いは、興味・関心がなく)、k7およびk8,k10,
k16,k17を重要視している(あるいは、興味・関
心を持っている)ことを意味する。
【0044】また、検索要求のうち関連語抽出距離をD
e、関連語抽出閾値をTと表記する。
【0045】なお、以下の説明では第二発明の理解を深
めるため具体例をもって説明を進めることとする。そこ
でここでは、ki(iは数字)を単語として、キーワー
ドは単語k1であり、重要度修正情報は図10に示すも
のであり、関連語抽出距離De=2、関連語抽出閾値T
=0.7である例を考える。
【0046】入力された検索要求のうち重要度修正情報
は重要度修正処理に渡され、また、関連語抽出距離De
=2、関連語抽出閾値T=0.7は関連語抽出処理に渡
され、また、キーワードはキーワード入力処理に渡され
る。
【0047】(2).重要度修正処理(図9のステップ
S2) 重要度修正処理では、重要度修正情報が入力されるごと
に、シソーラス中に前記重要度修正情報における単語に
対応する単語がある場合はその重要度を前記修正係数に
基づき修正する。ここでは、シソーラス中の該当単語に
関して、その重要度に重要度修正情報中の重要度修正係
数を乗じて得た値を、修正重要度とする。これを単語k
についてWe(k)などと表記する。なお、シソーラス
中の単語のうち重要度修正情報中に含まれない単語に関
しては、シソーラス中の単語に付加された重要度をその
まま修正重要度とする。図8に示したシソーラス中の単
語k1〜k23の各重要度を、図10に示した重要度修
正情報により修正した場合の修正重要度は図11に示し
た様になる。この場合、単語k5、k7、k8、k1
0、k11、k16,k17の各重要度が別の値に変更
される。
【0048】(3).キーワード入力処理(図9のステ
ップS3) 検索要求のうちのキーワードは従来と同様に関連語抽出
処理に渡される。
【0049】(4).関連語抽出処理(図9のステップ
S4) 関連語抽出処理ではキーワードk1に関して、k1から
の距離が関連語抽出距離De以内でかつ修正重要度が関
連語抽出閾値T以上の単語をシソーラスから抽出する。
この抽出される単語を関連語と呼び、キーワードに応じ
て、R(k1)などと表記する。すなわち、R(k1)
={k:D(k1,k)≦De,T≦We(k)}であ
り、ここでは、R(k1)として{k1,k2,k3,
k4,k7,k8,k10}が抽出される。
【0050】図12に、具体例に関し、この関連語抽出
処理によってシソーラスから抽出される単語の範囲31
を示す。これを、検索要求に対応して、E(k1,E
C,De,T)などと表記する。なお、図12中におい
て範囲33は、K1から距離De以内の単語の範囲を示
している。また、35は重要度修正処理をもし行なわな
かった場合すなわちシソーラス中の単語重要度が図8の
状態のままの場合に抽出される単語の範囲を示してい
る。この場合は、R(k1)として{k1,k2,k
3,k4,k5}が抽出される。
【0051】(5).検索処理(図9のステップS5) 関連語抽出処理で得た関連語をor結合したものを検索
条件としてデータベース13の検索を行う。ここでは、
(k1ork2ork3ork4ork7ork8or
k10)となる。これは、「E(k1,EC,De,
T)中の単語を少なくとも一つ含む」という条件を満足
するデータを検索することを意味する。
【0052】(6).回答生成処理(ステップS6) データベース検索の結果を利用者からの検索要求の結果
として利用者に返す。この第二発明によれば以下のよう
な効果が得られる。従来技術では、シソーラスに格納さ
れた単語に付加されている単語の重要度は、予め与えら
れたサンプル・データをもとに計算したものであり、す
べての検索に関して共通に用いられる。したがって、こ
の重要度が全ての検索に共通である場合に限って検索意
図に適した情報検索を可能にする。これに対しこの第二
発明における修正重要度は、個々の検索要求ごと、シソ
ーラス中の単語の重要度を利用者の検索意図に応じて偏
倚させた重要度であり、個々の検索要求ごとに計算され
る。したがって、利用者が求める情報の分野あるいは利
用者の興味・関心が状況によって変化したり利用者が複
数存在する場合に、個々の検索要求ごとに単語の重要度
を制御することができ、個々の検索要求に特有の検索意
図により良く適合した情報を検索することが可能にな
る。具体的にいえば、重要度修正処理を行なわない場合
は既に説明した様に図6中の範囲35で示される単語が
抽出されていたものが、重要度修正を行なうことにより
範囲31で示される単語が抽出される。これは、検索要
求で指定した、すなわち検索要求特有の検索意図を反映
した単語が抽出されたことを意味する。範囲35に含ま
れる単語に変えて、範囲31に含まれる単語によりデー
タベース検索を行うことで、利用者の検索要求により良
く適合した情報を検索できる。
【0053】4.第二発明の第2の実施の形態 上述の第二発明の第1の実施の形態では重要度修正情報
は1種類(1つの集合)であったが重要度修正情報を複
数(2以上の集合)としても良い。図13に重要度修正
情報1および重要度修正情報2という2種類の重要度修
正情報を用いる場合の一例を示した。もちろん、重要度
修正情報1が(k1,0.1)で重要度修正情報2が
(k1,1.2)というような場合があっても良い。複
数の重要度修正情報を用いる場合の同一の単語に関する
修正重要度は、複数の修正係数に基づいてそれぞれ修正
された重要度の平均値を求めこれを修正重要度とする。
これについてシソーラス中の例えばk1の例により具体
的に説明すれば、例えば図13中の重要度修正情報1で
の修正係数0.1に基づいて修正重要度We1(k1)
を計算し、かつ、重要度修正情報2での修正係数1.2
に基づいて修正重要度We2(k1)を計算し、修正重
要度We(k1)はWe(k1)=(We1(k1)+
We2(k1))/2により計算するということにな
る。重要度修正情報を3つ以上与えた場合も容易に類推
できる。
【0054】この第二発明の第2の実施の形態によれ
ば、利用者の検索意図が、複数の分野に関係する情報の
検索であった場合、それぞれの分野に対応して重要度修
正情報を与えることができ、その結果、個々の検索要求
に特有の検索意図に第1の実施の形態よりもさらに適合
した情報を検索することが可能になる。
【0055】なお、この第二発明は上述の形態に限られ
ない。例えば、上記第1および第2の実施の形態では、
重要度修正情報を利用者が検索要求とともに与える例を
考えたが、検索結果から重要度修正情報を生成し、これ
を用いて関連語抽出処理を行ってもよい。すなわち検索
結果を見てある単語はもっとプラスに偏るように、一方
別のある単語はもっとマイナスに偏るように、修正係数
を変えたり、或は、重要度を修正すべき単語を追加する
などを行なうなどして重要度修正情報を生成しこれを入
力しても良いのである。
【0056】また、第2の実施の形態では、検索要求に
おいて複数の重要度修正情報を与えているが、これを、
:検索要求において与える重要度修正情報は1つと
し、:修正単語重要度の計算に際しては、当該検索要
求で与えられた重要度修正情報と、当該検索要求に先行
する検索要求で与えられた重要度修正情報とを利用する
ようにしてもよい。さらにその場合、修正重要度の計算
を、過去に遡るほど軽い重みになるようにして、重み付
き平均としてもよい。
【0057】また、一般に、情報検索では、 :利用者による検索要求の発行 :検索処理および検索結果の提示 :検索結果を見て検索要求の修正 という検索過程を繰り返して(これを検索系列と呼ぶこ
とにする)、最終的に求める情報を得る。したがって、
第二発明の第2の実施の形態において、複数の重要度修
正情報とキーワードとを、大分類に関する条件、小分類
に関する条件、個々のデータに関する条件といったよう
に考え、検索系列の中でそれぞれを別々に制御すること
で、よりきめ細やかな検索が可能になるようにしても良
い。
【0058】また、第1、第2の実施の形態において、
単語抽出距離および閾値は、検索要求とは独立に予め設
定しておいてもよい。
【0059】また、第1、第2の実施の形態において
は、修正重要度の計算を重要度修正情報を直接に用いて
行なっているが、ニューラル・ネットワークなどを用い
て、重要度修正情報を一旦変換し、その結果を用いて行
ってもよい。
【0060】
【発明の効果】上述した説明から明らかな様に、この出
願の第一発明によれば、任意に与えられるキーワードに
関連する情報をデータベースから検索する際の当該検索
を、単語間の関係を示す2種以上の関係を格納したファ
イルから前記キーワードの関連語を抽出して該抽出した
関連語を用いて行なう、情報検索方法において、前記関
係の少なくとも1種を除外し残りの関係に基づいてキー
ワードについての予備関連語を抽出する処理と、この予
備関連語を用いてデータベースから情報を検索する処理
と、キーワードについての本来の関連語をファイルから
抽出するための制御情報を、前記除外した単語間の関係
と予備検索処理での情報とに基づいて生成する処理と、
この制御情報に基づきシソーラスから本来の関連語を抽
出する処理と、この関連語を用いてのデータベース検索
処理とを実施する。このため、単語間の関係の性質を考
慮した関連語抽出が行なえることになるので、ファイル
からデータベース検索用の関連語を検索意図により適合
した状態で抽出できる。
【0061】また、この出願の第二発明によれば、任意
に与えられるキーワードに関連する情報をデータベース
から検索する際の当該検索を、単語の重要度と単語間の
関係とを格納したファイルから前記キーワードの関連語
を抽出して該抽出した関連語を用いて行なう、情報検索
方法において、重要度修正情報を入力する処理と、前記
重要度修正情報が入力されるごとに重要度を修正する処
理とを実施する。このため、ファイルを検索意図により
適合したものとできる。
【0062】したがって、これら第一及び第二発明によ
れば、利用者が求める情報の分野あるいは利用者の興味
・関心が状況によって変化したり、利用者が複数存在す
る場合であっても、各々の検索要求に対して、その検索
意図に適合する情報を検索することができる。
【図面の簡単な説明】
【図1】第一発明の情報検索方法の手順の説明図であ
る。
【図2】第一発明でのシソーラスのデータ構造の説明図
である。
【図3】予備関連語抽出処理の説明図である。
【図4】制御情報生成処理の説明図(その1)である。
【図5】制御情報生成処理の説明図(その2)である。
【図6】第一発明での関連語抽出処理の説明図である。
【図7】第二発明でのシソーラスのデータ構造の説明図
である。
【図8】シソーラス中の単語の重要度(一部)の説明図
である。
【図9】第二発明の情報検索方法の手順の説明図であ
る。
【図10】重要度修正情報の説明図である。
【図11】修正重要度の説明図である。
【図12】第二発明での関連語抽出処理の説明図であ
る。
【図13】複数の重要度修正情報の説明図である。
【符号の説明】
11:ファイル(シソーラス) 13:データベース PE(w111 ),PE(w211 ):予備関連語の集合 CN(w111 ),CN(w211 ):制御可能単語集合
(制御情報) E(w111 ),E(w211 ):関連語の集合 21:第二発明でのファイル(シソーラス) 31:修正重要度により抽出される単語の範囲 33:距離De以内の範囲 35:修正なしの重要度により抽出される単語の範囲

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 任意に与えられるキーワードに関連する
    情報をデータベースから検索する際の当該検索を、単語
    間の関係を示す2種以上の関係を格納したファイルから
    前記キーワードの関連語を抽出して該抽出した関連語を
    用いて行なう、情報検索方法において、 2種以上の前記関係の少なくとも1種を除外して残りの
    関係に基づいて前記任意に与えられるキーワードの予備
    関連語を前記ファイルからそれぞれ抽出する予備関連語
    抽出処理と、 前記抽出された予備関連語を用いて前記データベースか
    ら情報を検索する予備検索処理と、 前記任意に与えられるキーワードの関連語を前記ファイ
    ルから抽出するための制御情報を、前記除外した単語間
    の関係と前記予備検索処理で検索された情報とに基づい
    て生成する制御情報生成処理と、 前記生成される制御情報を用い前記任意に与えられるキ
    ーワードの関連語を前記ファイルから抽出する関連語抽
    出処理と、 該抽出した関連語を用い前記データベースを検索して前
    記関連する情報を得るデータベース検索処理とを含むこ
    とを特徴とする情報検索方法。
  2. 【請求項2】 請求項1に記載の情報検索方法におい
    て、 前記予備検索処理と制御情報生成処理との間に、前記予
    備検索処理において検索された情報を利用者に提示しか
    つ該提示した情報の中に前記制御情報生成に不都合なも
    のがあった場合の利用者によるその情報の廃棄機会を与
    える予備検索修正処理を実施することを特徴とする情報
    検索方法。
  3. 【請求項3】 請求項1に記載の情報検索方法におい
    て、 単語間の関係を示す前記2種以上の関係のうちの2つが
    単語間の意味的関係および単語間の共起関係であること
    を特徴とする情報検索方法。
  4. 【請求項4】 任意に与えられるキーワードに関連する
    情報をデータベースから検索する際の当該検索を、単語
    の重要度と単語間の関係とを格納したファイルから前記
    キーワードの関連語を抽出して該抽出した関連語を用い
    て行なう、情報検索方法において、 単語および該単語の重要度を修正するための修正係数で
    構成される重要度修正情報を入力する処理と、 前記重要度修正情報が入力されるごとに、前記ファイル
    中に前記重要度修正情報における単語に対応する単語が
    ある場合はその重要度を前記修正係数に基づき修正する
    重要度修正処理とを含むことを特徴とする情報検索方
    法。
  5. 【請求項5】 請求項4に記載の情報検索方法におい
    て、 前記重要度修正情報として同一の単語と互いに異なる値
    の修正係数とを含む複数の重要度修正情報を用い、 前記重要度修正処理における前記同一の単語の重要度の
    修正については前記異なる値の修正係数に基づいてそれ
    ぞれ修正された重要度の平均値を求めこれを修正重要度
    とすることを特徴とする情報検索方法。
  6. 【請求項6】 請求項4または5に記載の情報検索方法
    において、 前記重要度修正情報はデータベースを検索した結果から
    抽出し入力することを特徴とする情報検索方法。
JP7310959A 1995-11-29 1995-11-29 情報検索方法 Pending JPH09153055A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7310959A JPH09153055A (ja) 1995-11-29 1995-11-29 情報検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7310959A JPH09153055A (ja) 1995-11-29 1995-11-29 情報検索方法

Publications (1)

Publication Number Publication Date
JPH09153055A true JPH09153055A (ja) 1997-06-10

Family

ID=18011469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7310959A Pending JPH09153055A (ja) 1995-11-29 1995-11-29 情報検索方法

Country Status (1)

Country Link
JP (1) JPH09153055A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000056977A (ja) * 1998-06-02 2000-02-25 Internatl Business Mach Corp <Ibm> テキスト情報を処理する方法および装置
JP2000112968A (ja) * 1998-10-02 2000-04-21 Fujitsu Ltd 情報検索支援装置および情報検索支援プログラム記憶媒体
US8126712B2 (en) 2005-02-08 2012-02-28 Nippon Telegraph And Telephone Corporation Information communication terminal, information communication system, information communication method, and storage medium for storing an information communication program thereof for recognizing speech information

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000056977A (ja) * 1998-06-02 2000-02-25 Internatl Business Mach Corp <Ibm> テキスト情報を処理する方法および装置
JP2000112968A (ja) * 1998-10-02 2000-04-21 Fujitsu Ltd 情報検索支援装置および情報検索支援プログラム記憶媒体
US8126712B2 (en) 2005-02-08 2012-02-28 Nippon Telegraph And Telephone Corporation Information communication terminal, information communication system, information communication method, and storage medium for storing an information communication program thereof for recognizing speech information

Similar Documents

Publication Publication Date Title
KR101190230B1 (ko) 정보 검색 시스템에서의 문구 식별
US7216121B2 (en) Search engine facility with automated knowledge retrieval, generation and maintenance
US6865571B2 (en) Document retrieval method and system and computer readable storage medium
US7844595B2 (en) Document similarity scoring and ranking method, device and computer program product
US6567805B1 (en) Interactive automated response system
US6112203A (en) Method for ranking documents in a hyperlinked environment using connectivity and selective content analysis
US8812493B2 (en) Search results ranking using editing distance and document information
CN102945237B (zh) 基于原始用户输入建议和细分用户输入的系统和方法
US20040139107A1 (en) Dynamically updating a search engine&#39;s knowledge and process database by tracking and saving user interactions
US20040249808A1 (en) Query expansion using query logs
US6886016B2 (en) Method and system for supporting multivalue attributes in a database system
US7065536B2 (en) Automated maintenance of an electronic database via a point system implementation
JP2002230021A (ja) 情報検索装置及び情報検索方法並びに記憶媒体
JP2011175670A (ja) 情報検索システムにおけるフレーズに基づく検索方法
JPH0675265B2 (ja) 情報検索方法及びシステム
US7024405B2 (en) Method and apparatus for improved internet searching
JP2006048685A (ja) 情報検索システムにおけるフレーズに基づくインデックス化方法
JP2008533596A (ja) 検索結果の関連性の再ランク付けおよびその増強
JP2019087249A (ja) 自動検索辞書およびユーザインターフェイス
Malhotra et al. An ingenious pattern matching approach to ameliorate web page rank
JPH09153055A (ja) 情報検索方法
JPH09212517A (ja) 情報代行検索方法及び装置
Kushwaha et al. A Comparative study of Algorithms in SEO & approach for Optimizing the search engine results using Hybrid of Query Recommendation and Document clustering, Genetic algorithm
US20090319505A1 (en) Techniques for extracting authorship dates of documents
JP2002108933A (ja) データ検索システム