JP2000090110A

JP2000090110A - 全文検索方法、装置、および全文検索プログラムを記録した記録媒体

Info

Publication number: JP2000090110A
Application number: JP10258558A
Authority: JP
Inventors: Junji Tomita; 準二富田; Hiroshi Takeno; 浩竹野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1998-09-11
Filing date: 1998-09-11
Publication date: 2000-03-31

Abstract

(57)【要約】【課題】より精度の高い情報検索を行う。【解決手段】文単位生成部１００は検索対象の文書を
入力し、それぞれの文書を文単位に分割する。関連度計
算部１１０および１２０は分割された文書内のすべての
２語の組み合わせについて文書内でのそれらの関連度を
計算する。重要度付与部１３０はそれぞれの文書内のそ
れぞれの単語について関連度に基づき重要度を付与し、
データベース１４０に保存する。検索条件解析部１５０
は検索条件内の単語を抽出する。合致度計算部１６０は
検索条件内の単語の重要度をデータベース１４０から
得、文書の合致度を計算する。検索結果決定部１７０は
合致度に基づいて検索結果を決定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報検索方法およ
び装置に関し、特に検索対象のそれぞれの文書に対し
て、その文書の主題（内容）を適切に表す文書内の単語
に適切な重要度を付与することによって検索の精度を高
めた全文検索方法および装置に関する。

【０００２】

【従来の技術】全文検索では、まず、検索対象となるそ
れぞれの文書に対して、その文書の主題を適切に表す単
語（キーワード）およびその単語の重要度からなるリス
トを付ける。次に、ユーザが入力した検索条件に含まれ
るそれぞれの単語が、それぞれの文書でどの程度の重要
度になっているのかを調べ、それらの単語の重要度の合
計などで合致度を計算する。ここで、合致度とは、その
文書がユーザの入力した検索条件にどの程度合っている
のかを表す数値である。そして合致度の高い順にソート
を行い検索結果とする。

【０００３】従来技術では、このような単語の重要度
を、１．文書に含まれるすべての単語の出現頻度を計算し、
出現頻度に比例した値とする。例えば、単語「情報」が
ある文書内に１０回出現し、「検索」がその文書に２０
回出現したとすれば、その文書内における「検索」の重
要度は、「情報」の重要度の２倍となる。

【０００４】２．ある単語が、検索対象文書全体の中で
何個の文書内に出現するのかを調べて、この文書数の逆
数に比例した値とする。例えば、単語「検索」が１０個
の文書に出現し、「情報」が２０個の文書に出現したと
すれば、「検索」の重要度は「情報」の重要度の２倍と
なる。

【０００５】３．１で得られる重要度と２で得られる重
要度の積とする。例えば１，２で示した例の場合、「検
索」の重要度は「情報」の重要度の４倍となる。

【０００６】４．文書構造と単語の出現位置を用いて求
める。例えば、タイトルなどに使用されている単語には
高い重要度を与える。ものであった。

【０００７】

【発明が解決しようとする課題】１．単語の文書内での
出現頻度を用いる方法では、（ａ）色々な意味をもつ一般的な単語は、文書内で何度
も使用されることから、このような一般的で文書の主題
を表すのに適切でない単語により高い重要度を付与して
しまうという問題がある。例えば、「問題」や「必要」
といった単語は、文書の主題とは関係が薄いにも係ら
ず、文書内で何度も使用されるため、このような単語に
高い重要度を付与してしまう。

【０００８】（ｂ）文書全体にわたって出現する単語と
ある特定の文脈（例えば特定の章）だけに出現する単語
の重要度の区別を付けることができない。例えば、ある
文書内に図７に示すように、単語「人間」と「コンピュ
ータ」が分布していたとする。この場合、この文書は、
全体として「コンピュータ」に関する文書であり、ある
章などでは「人間」に関しても論じている文書である。
つまり、この文書の主題は「コンピュータ」に関係があ
り、副題は「人間」に関係がある。しかしながら、「コ
ンピュータ」と「人間」は全体として、ほぼ同じ出現頻
度であるので、「コンピュータ」と「人間」に対しては
ほぼ同じ重要度を付与してしまう。このように、主題で
はなく副題に関係する「人間」にも高い重要度を付与し
てしまうという問題がある。

【０００９】（ｃ）文書の主題とは関係なく、多数回出
現する単語にも高い重要度を付与してしまう。例えば、
検索にしばしば使用される「パソコン」という単語をコ
メント文（文書表示ツールによって表示されない文）と
して多数回文書の先頭に置く。こうすると単語「パソコ
ン」の出現頻度が非常に大きくなってしまい文書の主題
とは関係ないにも係らず、この単語に高い重要度を付与
してしまう。そのため検索条件として「パソコン」が使
われたときには、その文書の主題はパソコンに関係がな
いにも係らず、高い合致度となってしまうという問題が
ある。このことを防ごうとして、先頭の２００文字程度
を無視して出現頻度を測定する方法、コメント文を読み
飛ばす方法などが提案されているが、先頭の何文字を無
視すればよいのかは問題であり、また、コメント文の形
式が変わると読み飛ばしができない。

【００１０】２．検索対象文書全体のうちでのある単語
の出現する文書数を用いる方法では、ある単語の重要度
はどの文書内においても同じ値となってしまう。したが
って、検索条件として単語「コンピュータ」の一語だけ
を入力した場合「コンピュータ」を含む文書の合致度は
すべて等しい値となってしまう。そのため、合致度によ
る順序付けができなくなり、合致する文書が多い場合
に、ユーザはどの文書が自分の入力した検索条件に一番
合致するのかを判断することができない。

【００１１】３．単語の出現頻度と、検索対象文書集合
内でのある単語の出現する文書数の積を用いる方法で
は、一般的な単語に高い重要度を付与してしまう問題、
文書毎に違う重要度を付与することができない問題を解
決できる。しかしながら、特定の文脈だけに出現する単
語にも高い重要度を付与してしまう問題、主題と関係な
く多数回出現する単語にも高い重要度を付与してしまう
問題は解決できない。

【００１２】４．文書構造を用いる方法では、文書の構
造をあらかじめ決めた形式に統一しておかなければなら
ないという問題がある。

【００１３】以上のように、従来の技術では、１．タイトルなどの文書構造を前提としないと単語に重
要度が付与できない。

【００１４】２．文書全体にわたって出現する単語と特
定の文脈だけに出現する単語に対しても、同じ重要度を
付与してしまう。

【００１５】３．主題と関係なく多数回出現する単語に
も高い重要度を付与してしまう。という問題があった。

【００１６】本発明の目的は、より精度の高い情報検索
を行うことができる全文検索方法および装置を提供する
ことである。

【００１７】

【課題を解決するための手段】本発明は、文書内の単語
への重要度の自動付与に関するものであるが、単に文書
内の単語の出現頻度を調べるだけではなく、また、文書
構造の情報を前提とすることなしに、単語間の関連度を
用いて重要度を計算することを最大の特徴とする。ここ
で、関連度とは、単語と単語が文書内でどの程度の強さ
で関連し合っているのかを表す数値である。

【００１８】本発明では、次のステップによって、文書
内のそれぞれの単語に重要度を付与する。

【００１９】１．文書内の単語間の関連度を計算する。

【００２０】２．ある単語と他の単語との関連度に基づ
きその単語の重要度を決定する。

【００２１】以下、それぞれのステップについて詳しく
述べる。

【００２２】＜関連度の計算＞まず、文書を文単位に分
割する。ここで、文単位とは、文、タイトル、箇条書の
項目などからなる文字列である。次に、単語間の関連度
を、文単位内での単語の共出現（共に出現する）を利用
する方法（計算方法１）か、または文単位内での単語間
の係り受け関係を利用する方法（計算方法２）のどちら
かによって、計算する。計算方法２は、計算方法１と比
べてより正確な関連度の値を求めることができるが、処
理が複雑になるという違いがある。

【００２３】以下、それぞれの方法について述べる。

【００２４】計算方法１（共出現を利用する方法）関連
度に関する以下の４つの条件を求める。

【００２５】条件（ａ）文単位内で共出現する単語間
には関連がある。

【００２６】条件（ｂ）一度だけある文単位内で共出
現するよりも、様々な文単位内で多数回共出現した方
が、これらの単語間の関連度はより大きい。

【００２７】条件（ｃ）共出現した文単位の長さより
短い方が、これらの単語間の関連度はより大きい。

【００２８】条件（ｄ）一般的な単語は、様々な文単
位内で出現するので、このような単語と共出現しても関
連度は小さい。

【００２９】これらの条件に基づき次の方法で、単語ｘ
と単語ｙに対する関連度Ｐ（ｙ｜ｘ）を計算する。ある
文書内において、単語ｘと単語ｙが同じ文単位内で共出
現した場合、これらの単語間の関連度Ｐ（ｙ｜ｘ）の値
を増加させていく（条件（ａ）および条件（ｂ）を利
用）。ここで、増加させる値は、文単位の長さが短い方
が大きい値とする（条件（ｃ）を利用）。また、文単位
内で単語ｘが出現した場合はＰ（ｘ）を、単語ｙが出現
した場合はＰ（ｙ）を増加させていく。ここで、増加さ
せる値は、文単位の長さが短い程大きな値とする。最後
に、Ｐ（ｘｙ）が大きければ大きい程、Ｐ（ｘ）および
Ｐ（ｙ）が小さければ小さい程、関連度Ｐ（ｙ｜ｘ）を
大きな値とする（条件（ｄ）を利用）。

【００３０】計算方法２（係り受け関係を利用する方
法）関連度に関する以下の４つの条件を定める。

【００３１】条件（ａ）文単位内で係り受け関係にあ
る単語間には関連がある。特に直接的な係り受け関係に
ある単語間の方が、間接的な係り受け関係にある単語間
と比べて、関連度はより大きい。

【００３２】条件（ｂ）一度だけ文単位内で係り受け
関係にあるよりも、様々な文単位内で多数回係り受け関
係にあった方が、これらの単語間の関連度はより大き
い。

【００３３】条件（ｃ）係り受け関係が起こる文単位
の長さより短い方が、これらの単語間の関連度はより大
きい。

【００３４】条件（ｄ）一般的な単語は、様々な文単
位内で出現するので、このような語と係り受けの関係に
あったとしても関連度は小さい。

【００３５】これらの条件に基づき、次の方法で、単語
ｘの単語ｙに対する関連度Ｐ（ｙ｜ｘ）を計算する。そ
れぞれの文単位から単語および単語の品詞情報を抽出す
る。品詞の係り受け可能性を記述した辞書を利用して、
文単位内の単語間の係り受け関係を解析し、係り受け関
係を表す解析木を作成する。ここで述べた文単位から解
析木を作成する処理は従来技術を用いる。次に、解析木
内での任意の２単語ｘとｙの間の距離ｄを求める。ここ
で、距離とは、単語ｘを含むノードから単語ｙを含むノ
ードに至るまでに通過するリンクの本数である。この距
離ｄが小さい程、これらの２単語間には、より直接的な
係り受け関係があるので、係り受け関係の強さを表す値
ｒをより大きくする。

【００３６】例えば、文単位「情報の検索に単語の関連
度を利用する」があったとする。この文単位から図６の
ような解析木を作成する。次に文単位内の任意の２単語
について、距離ｄを以下のように求める。

【００３７】情報検索１情報利用２情報関連度３情報単語４検索利用１検索関連度２検索単語３利用関連度１利用単語２関連度単語１これらの値から「情報」と「検索」などの距離が小さい
ものについては、係り受けの関係の強さを表す値ｒをよ
り大きくし、「情報」と「単語」などの距離が大きいも
のについては、ｒを小さな値とする。

【００３８】以下の説明では、変数Ｐ（ｘ）、Ｐ
（ｙ）、Ｐ（ｘｙ）を用いる。ある文書内において、単
語ｘと単語ｙがある文単位内で係り受けの関係にあった
場合、Ｐ（ｘｙ）を増加させていく。ここで、増加させ
る値は、前述した方法で計算したｒが大きい程大きな値
とし（条件（ａ）および条件（ｂ）を利用）、その文単
位の長さが短い程大きな値とする（条件（ｃ）を利
用）。また、文単位内で単語ｘが出現した場合はＰ
（ｘ）を、単語ｙが出現した場合はＰ（ｙ）を増加させ
ていく。ここで、増加させる値は、文単位の長さが短い
程大きな値とする。最後にＰ（ｘｙ）が大きければ大き
い程、Ｐ（ｘ）およびＰ（ｙ）が小さければ小さい程、
関連度Ｐ（ｙ｜ｘ）を大きな値とする（条件（ｄ）を利
用）。

【００３９】＜重要度の計算＞「文書内で他の多くの単
語に対して強い関連をもっている単語は重要語であ
る。」という考えに基づき、単語ａも重要度を単語ａの
文書内の他のすべての単語ｘに対する関連度Ｐ（ｘ｜
ａ）の総和または積などによって計算する。

【００４０】本発明では、より短い文単位内で出現する
単語に対してはより高い関連度を付与するので、結果と
してそのような単語の重要度は高くなる。ところで、文
書内において、タイトルや箇条書の項目などは重要な文
であると考えられるが、これらは通常の文と比べて長さ
が短い傾向にある。したがって、本発明を用いるとタイ
トルなどに出現する単語により高い重要度を付与するこ
とができる。このように、本発明は、文書構造をあらか
じめ指定しなくても、タイトルや箇条書の項目内などに
出現する単語に高い重要度を付与することができる。

【００４１】単語は「コンピュータ」と「人間」の出現
頻度が同じであったとする。ただし、「コンピュータ」
は文書全体に散らばっているのに対し、「人間」は文書
内の特定の文脈にだけ出現していたとする。文書全体に
散らばっている単語「コンピュータ」が当然、多くの種
類の単語と関連するので、本発明を利用すると「コンピ
ュータ」の重要度は大きな値となる。これに対して、特
定の文脈にしか出現しない単語「人間」は、多くの単語
と関連しないので、「人間」の重要度は小さな値とな
る。このように本発明は、特定の文脈にだけ出現する単
語と比べて、文書全体にわたって出現する単語に高い重
要度を付与することができる。

【００４２】同じ単語が文頭などで多数回出現したとし
ても、このような単語は、他の多くの種類の単語と関連
することはない。そのため、本発明を用いるとこのよう
な単語には高い重要度を付与しない。したがって、文脈
と関係なく多数回出現する単語にも高い重要度を付与し
てしまうという問題を解決できる。

【００４３】

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。

【００４４】図１を参照すると、本発明の一実施形態の
全文検索装置は文単位生成部１００と関連度計算部１１
０，１２０と重要度付与部１３０と解析済文書データベ
ース１４０と検索条件解析部１５０と合致度判定部１６
０と検索結果決定部１７０で構成されている。

【００４５】検索前処理：以下の手順（ステップ２１０
〜２３０）によって、検索対象となる文書を、検索を行
いやすい形式にあらかじめ変換し、解析済文書データベ
ース１４０に蓄積する。ここで、関連度計算部１１０は
計算方法１に基づくものであり、関連度計算部１２０は
計算方法２に基づくものであり、あらかじめ指定したい
ずれか一方を利用するものとする。

【００４６】文単位生成部１００は入力された検索対象
のぞれぞれの文書を文単位に分割する（ステップ２１
０）。

【００４７】関連度計算部１１０は検索対象の文書内の
すべての２語の組み合わせについて文書内でのそれらの
単語間の関連度を計算方法１に基づき計算する（ステッ
プ２２０）。具体的な単語ｘの単語ｙに対する関連度の
計算方法を図２に示す。単語ｘの出現頻度をＰ（ｘ）、
単語ｙの出現頻度をＰ（ｙ）、単語ｘと単語ｙの共出現
頻度をＰ（ｘｙ）とする。ここで、ｑ（ｑ≧０）は定数
である。

【００４８】（ａ）Ｐ（ｘ），Ｐ（ｙ），Ｐ（ｘｙ）に
０を入れる（ステップ３００）。

【００４９】（ｂ）文書内のすべての文単位について、
以下の処理を行う（ステップ３１０，３７０）。

【００５０】ｉ．その文単位が単語ｘを含むなら、その
長さＬを調べ、Ｐ（ｘ）に１／Ｌを加える（ステップ３
２０）。

【００５１】ii．その文単位が単語ｙを含むなら、その
長さＬを調べ、Ｐ（ｙ）に１／Ｌを加える（ステップ３
３０）。

【００５２】iii.その文単位が単語ｘと単語ｙの両方を
含むならば、その長さＬを調べ、Ｐ（ｘ）、Ｐ（ｙ）、
Ｐ（ｘｙ）にそれぞれ１／Ｌ、１／Ｌ、１／Ｌ^qを加え
る。（ステップ３４０〜３６０）。

【００５３】（ｃ）Ｐ（ｘ），Ｐ（ｙ），Ｐ（ｘｙ）の
それぞれを文書内に存在する全文単位の長さの逆数の総
和で正規化する（ステップ３８０）。

【００５４】

【数４】（ｄ）以下の式によって単語ｘの単語ｙに対する関連度
Ｐ（ｙ｜ｘ）を求める（ステップ３９０）。

【００５５】

【数５】関連度計算部１２０は、検索対象の文書内のすべての２
語の組み合わせについて文書内でのそれらの単語間の関
連度を計算方法２に基づき計算する（ステップ２２
０）。具体的な単語ｘの単語ｙに対する関連度の計算方
法を図３に示す。単語ｘの出現頻度をＰ（ｘ）、単語ｙ
の出現頻度をＰ（ｙ）、単語ｘと単語ｙの文書内での係
り受け関係の強さを表す値をＰ（ｘｙ）とする。ここ
で、ｑ（ｑ≧０）、ｐ（ｐ≧０）は定数である。

【００５６】（ａ）Ｐ（ｘ），Ｐ（ｙ），Ｐ（ｘｙ）に
０を入れる。（ステップ４００）。

【００５７】（ｂ）文書内のすべての文単位について、
以下の処理を行う（ステップ４１０，４５０）。

【００５８】ｉ．その文単位が単語ｘを含むなら、その
長さＬを調べ、Ｐ（ｘ）に１／Ｌを加える（ステップ４
２０）。

【００５９】ii．その文単位が単語ｙを含むなら、その
長さＬを調べ、Ｐ（ｙ）に１／Ｌを加える（ステップ４
３０）。

【００６０】iii.その文単位が単語ｘと単語ｙの両方を
含むならば、その文単位を係り受け解析し、解析木を作
成し、この解析木内での単語ｘと単語ｙの距離ｄを求め
る。また、文単位の長さＬを調べ、Ｐ（ｘ）に１／Ｌ、
Ｐ（ｙ）に１／Ｌ、Ｐ（ｘｙ）に１／（ｄ^p ×Ｌ^q ）を
それぞれ加える（ステップ４４０〜４６０）。

【００６１】（ｃ）Ｐ（ｘ），Ｐ（ｙ），Ｐ（ｘｙ）の
それぞれを文書内に存在する全文単位の長さの逆数の総
和で正規化する（ステップ４８０）。

【００６２】

【数６】（ｄ）以下の式によって単語ｘの単語ｙに対する関連度
Ｐ（ｙ｜ｘ）を求める（ステップ４９０）。

【００６３】

【数７】なお、定数ｐ、ｑ、ｓ、ｔとｕは「係り受け関係の強
さ」、「文単位の長さ」、「共出現回数」、「それぞれ
の出現回数」のどれに重点をおいて関連度を計算するの
かを指定するためのものである。例えば、ｑの値を大き
くすればする程、「文単位の長さ」の違いによって関連
度は大きく変化する。

【００６４】重要度付与部１３０は、それぞれの文書内
のそれぞれの単語に対して、関連度に基づき重要度を計
算する。具体的な重要度の計算方法を以下に示す。ここ
で、単語ａの重要度ＴＤ（ａ）とする。また、ｘは文書
内のａ以外のすべての単語を表す。

【００６５】

【数８】このようにして計算した単語の重要度を文書と共に、解
析済文書データベース１４０に保存する。

【００６６】検索処理：以下の手順によって、ユーザが
入力した検索条件に合致する文書を解析済文書データベ
ース１４０から探し、検索結果として、ユーザに提示す
る。

【００６７】１．検索条件解析部１５０は、ユーザが入
力した検索条件内の単語を抽出する。

【００６８】２．合致度判定部１６０は、検索対象のそ
れぞれの文書内での、検索条件内の単語の重要度を解析
済文書データベース１４０から得、これらの重要度の総
和などによってそれぞれの文書の合致度を計算する。

【００６９】３．検索結果決定部１７０は、合致度の高
い順に文書のソートを行い、上位何件かを検索結果とし
てユーザに出力する。

【００７０】図５を参照すると、本発明の第２の実施形
態の全文検索装置は、入力装置５１０とデータベース５
２０と出力装置５３０と記録媒体５４０とデータ処理装
置５５０で構成されている。

【００７１】入力装置５１０は検索対象文書、検索条件
をユーザが入力するためのものである。データベース５
２０は図１中の解析済データベース１４０に相当する。
出力装置５３０は解析結果が出力される、プリンタ、デ
ィスプレイなどの出力装置である。記録媒体５４０は、
図１中の文単位生成部１００、関連度計算部１１０，１
２０、重要度付与部１３０、検索条件解析部１５０、合
致度判定部１６０、検索結果決定部１７０の各部の処理
からなる全文検索プログラムが記録されている、フロッ
ピィ・ディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導
体メモリなどの記録媒体である。データ処理装置５５０
は記録媒体５４０から全文検索プログラムを読み込ん
で、これを実行するＣＰＵである。

【００７２】

【発明の効果】以上述べたように、本発明によれば、文
書の構造を前提とせず、文書全体にわたって分布してい
る単語により大きい重要度を付与し、また、文脈と関係
なく多数回出現する単語に対しては大きい重要度を付与
しないので、より精度の高い情報検索を実現できる。

【図面の簡単な説明】

【図１】本発明の一実施形態の全文検索装置の構成図で
ある。

【図２】図１の実施形態の処理の流れを示すフローチャ
ートである。

【図３】関連計算方法１を示すフローチャートである。

【図４】関連計算方法２を示すフローチャートである。

【図５】本発明の他の実施形態の全文検索装置の構成図
である。

【図６】単語の分布例を示すグラフである。

【図７】係り受け関係を解析木の例を示す図である。

【符号の説明】

１００文単位生成部１１０，１２０関連度計算部１３０重要度付与部１４０解析済文書データベース１５０解析条件解析部１６０合致度判定部１７０検索結果決定部２１０〜２６０，３００〜３９０，４００〜４９０
ステップ５１０入力装置５２０データベース５３０出力装置５４０記録媒体５５０データ処理装置

Claims

【特許請求の範囲】

【請求項１】１つまたは複数個の文書からなる検索対
象に対して、検索条件が与えられると、前記検索対象の
それぞれの文書に対して、その文書に使用されている単
語を抽出して、それらそれぞれの単語にその文書の主題
との関係の強さに応じた重要度を付与し、この重要度に
基づきその文書がどの程度検索条件と合致しているのか
を計算し、この合致の度合いに基づいて検索結果を決定
する全文検索方法において、それぞれの単語の重要度を
文書内にある単語間の関連の強さに基づき計算すること
を特徴とする全文検索方法。
【請求項２】前記単語間の関連の強さを、これらの単
語が、同一の文や項目内で多数回共出現すればする程、
より大きな値とし、より短い文やより短い項目内で共出
現すればする程、より大きな値とし、それぞれの単語の
出現頻度が大きい程、より小さな値とするように計算を
行う請求項１記載の全文検索方法。
【請求項３】単語ｘの出現頻度をＰ（ｘ）、単語ｙの
出現頻度をＰ（ｙ）、単語ｘとｙの共出現頻度をＰ（ｘ
ｙ）とした場合、Ｐ（ｘ），Ｐ（ｙ），Ｐ（ｘｙ）に０を入れるステップ
と、文書内のすべての文単位について、その文単位が単語ｘ
を含むならば、その長さＬを調べ、Ｐ（ｘ）に１／Ｌ
を加え、その文単位が単語ｙを含むならば、その長さＬ
を調べ、Ｐ（ｙ）に１／Ｌを加え、その文単位が単語ｘ
と単語ｙの両方を含むならば、その長さＬを調べ、Ｐ
（ｘ）に１／Ｌ、Ｐ（ｙ）に１／Ｌ、Ｐ（ｘｙ）に１／
Ｌ^q （ｑは零または正の定数）をそれぞれ加えるステッ
プと、Ｐ（ｘ），Ｐ（ｙ），Ｐ（ｘｙ）のそれぞれを文書内に
存在する全文単位の長さの逆数の総和で正規化するステ
ップと、次式【数１】によって、単語ｘの単語ｙに対する関連度を求めるステ
ップを有する請求項２記載の方法。
【請求項４】前記単語間の関連の強さを、これらの単
語が、同一の文や項目内で多数回係り受けの関係にあれ
ば、より大きな値とし、これらの係り受け関係がより直
接的なものであれば、より大きな値とし、より短い文
や、より短い項目内で係り受けの関係にあれば、より大
きな値とし、それぞれの単語の出現頻度が大きい程、よ
り小さな値とするように計算を行う請求項１記載の全文
検索方法。
【請求項５】単語ｘの出現頻度をＰ（ｘ）、単語ｙの
出現頻度をＰ（ｙ）、単語ｘとｙの文書内での係り受け
関係の強さをＰ（ｘｙ）とした場合、Ｐ（ｘ）、Ｐ（ｙ），Ｐ（ｘｙ）に０を入れるステップ
と、文書内のすべての文単位について、その文単位が単語ｘ
を含むならば、その長さＬを調べ、Ｐ（ｘ）に１／Ｌ
を加え、その文単位が単語ｙを含むならば、その長さＬ
を調べ、Ｐ（ｙ）に１／Ｌを加え、その文単位が単語ｘ
と単語ｙの両方を含むならば、解析木を作成し、この解
析木内での単語ｘと単語ｙ間の距離ｄを求め、また文単
位の長さＬを調べて、Ｐ（ｘ）に１／Ｌ、Ｐ（ｙ）に１
／ＬＰ（ｘｙ）に１／（ｄ^p ×Ｌ^q）（ｐ，ｑは零また
は正の定数）をそれぞれ加えるステップと、Ｐ（ｘ），Ｐ（ｙ），Ｐ（ｘｙ）のそれぞれを文書内に
存在する全文単位の長さの逆数の総和で正規化するステ
ップと、次式【数２】によって、単語ｘの単語ｙに対する関連度を求めるステ
ップを有する請求項４記載の方法。
【請求項６】前記文書内の単語の重要度を、その単語
と関連する単語の種類が多い程、大きな値とし、これら
の単語との関連の強さが大きい程、大きな値とするよう
に計算する請求項１から５のいずれか１項記載の全文検
索方法。
【請求項７】単語ａの重要度ＴＤ（ａ）を次式【数３】によって計算する、請求項６記載の方法。
【請求項８】検索対象の文書を文単位に分割する文単
位生成手段と、前記文単位生成手段で分割された文書内のすべての２語
の組み合わせについて文書内でのそれらの単語間の関連
度を計算する関連度計算手段と、解析済文書データベースと、それぞれの文書内のそれぞれの単語について、前記関連
度に基づき重要度を付与し、各単語をその重要度ととも
に解析済文書データベースに保存する重要度付与手段
と、ユーザが入力した検索条件内の単語を抽出する検索条件
解析手段と、検索対象のそれぞれの文書内の、前記検索条件内の単語
の重要度を前記解析済文書データベースから得、文書の
合致度を判定する合致度判定手段と、前記合致度に基づいて検索結果を決定し、前記ユーザに
提示する検索結果決定手段を有する全文検索装置。
【請求項９】前記関連度計算手段は、前記単語間の関
連の強さを、これらの単語が、同一の文や項目内で多数
回共出現すればする程、より大きな値とし、より短い文
やより短い項目内で共出現すればする程、より大きな値
とし、それぞれの単語の出現頻度が大きい程、より小さ
な値とするように計算を行う請求項８記載の全文検索装
置。
【請求項１０】前記関連度計算手段は、前記単語間の
関連の強さを、これらの単語が、同一の文や項目内で多
数回係り受けの関係にあれば、より大きな値とし、これ
らの係り受け関係がより直接的なものであれば、より大
きな値とし、より短い文やより短い項目内で係り受けの
関係にあれば、より大きな値とし、それぞれの単語の出
現頻度が大きい程、より小さな値とするように計算を行
う請求項８記載の全文検索装置。
【請求項１１】前記重要度付与手段は、前記文書内の
単語の重要度を、その単語と関連する単語の種類が多い
程、大きな値とし、これら単語との関連の強さが大きい
程、大きな値とするように文書内の単語の重要度を計算
する請求項８から１０のいずれか１項記載の全文検索装
置。
【請求項１２】検索対象の文書を文単位に分割する文
単位生成処理と、前記文単位生成処理で分割された文書内のすべての２語
の組み合わせについて文書内でのそれらの単語間の関連
度を計算する関連度計算処理と、それぞれの文書内のそれぞれの単語について、前記関連
度に基づき重要度を付与し、各単語をその重要度ともに
解析済文書データベースに保存する重要度付与処理と、ユーザが入力した検索条件内の単語を抽出する検索条件
解析処理と、検索対象のそれぞれの文書内の、前記検索条件内の単語
の重要度を前記解析済文書データベースから得、文書の
合致度を判定する合致度判定処理と、前記合致度に基づいて検索結果を決定し、前記ユーザに
提示する検索結果決定処理をコンピュータに実行させる
ための全文検索プログラムを記録した記録媒体。
【請求項１３】前記関連度計算処理は、前記単語間の
関連の強さを、これらの単語が、同一の文や項目内で多
数回共出現すればする程、より大きな値とし、より短い
文やより短い項目内で共出現すればする程、より大きな
値とし、それぞれの単語の出現頻度が大きい程、より小
さな値とするように計算を行う請求項１２記載の記録媒
体。
【請求項１４】前記関連度計算処理は、前記単語間の
関連の強さを、これらの単語が、同一の文や項目内で多
数回係り受けの関係にあれば、より大きな値とし、これ
らの係り受け関係がより直接的なものであれば、より大
きな値とし、より短い文やより短い項目内で係り受けの
関係にあれば、より大きな値とし、それぞれの単語の出
現頻度が大きい程、より小さな値とするように計算を行
う請求項１２記載の記録媒体。
【請求項１５】前記重要度付与処理は、前記文書内の
単語の重要度を、その単語と関連する単語の種類が多い
程、大きな値とし、これら単語との関連の強さが大きい
程、大きな値とするように文書内の単語の重要度を計算
する請求項１２から１４のいずれか１項記載の記録媒
体。