JP2000090110A - 全文検索方法、装置、および全文検索プログラムを記録した記録媒体 - Google Patents

全文検索方法、装置、および全文検索プログラムを記録した記録媒体

Info

Publication number
JP2000090110A
JP2000090110A JP10258558A JP25855898A JP2000090110A JP 2000090110 A JP2000090110 A JP 2000090110A JP 10258558 A JP10258558 A JP 10258558A JP 25855898 A JP25855898 A JP 25855898A JP 2000090110 A JP2000090110 A JP 2000090110A
Authority
JP
Japan
Prior art keywords
word
document
words
importance
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10258558A
Other languages
English (en)
Inventor
Junji Tomita
準二 富田
Hiroshi Takeno
浩 竹野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP10258558A priority Critical patent/JP2000090110A/ja
Publication of JP2000090110A publication Critical patent/JP2000090110A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 より精度の高い情報検索を行う。 【解決手段】 文単位生成部100は検索対象の文書を
入力し、それぞれの文書を文単位に分割する。関連度計
算部110および120は分割された文書内のすべての
2語の組み合わせについて文書内でのそれらの関連度を
計算する。重要度付与部130はそれぞれの文書内のそ
れぞれの単語について関連度に基づき重要度を付与し、
データベース140に保存する。検索条件解析部150
は検索条件内の単語を抽出する。合致度計算部160は
検索条件内の単語の重要度をデータベース140から
得、文書の合致度を計算する。検索結果決定部170は
合致度に基づいて検索結果を決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報検索方法およ
び装置に関し、特に検索対象のそれぞれの文書に対し
て、その文書の主題(内容)を適切に表す文書内の単語
に適切な重要度を付与することによって検索の精度を高
めた全文検索方法および装置に関する。
【0002】
【従来の技術】全文検索では、まず、検索対象となるそ
れぞれの文書に対して、その文書の主題を適切に表す単
語(キーワード)およびその単語の重要度からなるリス
トを付ける。次に、ユーザが入力した検索条件に含まれ
るそれぞれの単語が、それぞれの文書でどの程度の重要
度になっているのかを調べ、それらの単語の重要度の合
計などで合致度を計算する。ここで、合致度とは、その
文書がユーザの入力した検索条件にどの程度合っている
のかを表す数値である。そして合致度の高い順にソート
を行い検索結果とする。
【0003】従来技術では、このような単語の重要度
を、 1.文書に含まれるすべての単語の出現頻度を計算し、
出現頻度に比例した値とする。例えば、単語「情報」が
ある文書内に10回出現し、「検索」がその文書に20
回出現したとすれば、その文書内における「検索」の重
要度は、「情報」の重要度の2倍となる。
【0004】2.ある単語が、検索対象文書全体の中で
何個の文書内に出現するのかを調べて、この文書数の逆
数に比例した値とする。例えば、単語「検索」が10個
の文書に出現し、「情報」が20個の文書に出現したと
すれば、「検索」の重要度は「情報」の重要度の2倍と
なる。
【0005】3.1で得られる重要度と2で得られる重
要度の積とする。例えば1,2で示した例の場合、「検
索」の重要度は「情報」の重要度の4倍となる。
【0006】4.文書構造と単語の出現位置を用いて求
める。例えば、タイトルなどに使用されている単語には
高い重要度を与える。ものであった。
【0007】
【発明が解決しようとする課題】1.単語の文書内での
出現頻度を用いる方法では、 (a)色々な意味をもつ一般的な単語は、文書内で何度
も使用されることから、このような一般的で文書の主題
を表すのに適切でない単語により高い重要度を付与して
しまうという問題がある。例えば、「問題」や「必要」
といった単語は、文書の主題とは関係が薄いにも係ら
ず、文書内で何度も使用されるため、このような単語に
高い重要度を付与してしまう。
【0008】(b)文書全体にわたって出現する単語と
ある特定の文脈(例えば特定の章)だけに出現する単語
の重要度の区別を付けることができない。例えば、ある
文書内に図7に示すように、単語「人間」と「コンピュ
ータ」が分布していたとする。この場合、この文書は、
全体として「コンピュータ」に関する文書であり、ある
章などでは「人間」に関しても論じている文書である。
つまり、この文書の主題は「コンピュータ」に関係があ
り、副題は「人間」に関係がある。しかしながら、「コ
ンピュータ」と「人間」は全体として、ほぼ同じ出現頻
度であるので、「コンピュータ」と「人間」に対しては
ほぼ同じ重要度を付与してしまう。このように、主題で
はなく副題に関係する「人間」にも高い重要度を付与し
てしまうという問題がある。
【0009】(c)文書の主題とは関係なく、多数回出
現する単語にも高い重要度を付与してしまう。例えば、
検索にしばしば使用される「パソコン」という単語をコ
メント文(文書表示ツールによって表示されない文)と
して多数回文書の先頭に置く。こうすると単語「パソコ
ン」の出現頻度が非常に大きくなってしまい文書の主題
とは関係ないにも係らず、この単語に高い重要度を付与
してしまう。そのため検索条件として「パソコン」が使
われたときには、その文書の主題はパソコンに関係がな
いにも係らず、高い合致度となってしまうという問題が
ある。このことを防ごうとして、先頭の200文字程度
を無視して出現頻度を測定する方法、コメント文を読み
飛ばす方法などが提案されているが、先頭の何文字を無
視すればよいのかは問題であり、また、コメント文の形
式が変わると読み飛ばしができない。
【0010】2.検索対象文書全体のうちでのある単語
の出現する文書数を用いる方法では、ある単語の重要度
はどの文書内においても同じ値となってしまう。したが
って、検索条件として単語「コンピュータ」の一語だけ
を入力した場合「コンピュータ」を含む文書の合致度は
すべて等しい値となってしまう。そのため、合致度によ
る順序付けができなくなり、合致する文書が多い場合
に、ユーザはどの文書が自分の入力した検索条件に一番
合致するのかを判断することができない。
【0011】3.単語の出現頻度と、検索対象文書集合
内でのある単語の出現する文書数の積を用いる方法で
は、一般的な単語に高い重要度を付与してしまう問題、
文書毎に違う重要度を付与することができない問題を解
決できる。しかしながら、特定の文脈だけに出現する単
語にも高い重要度を付与してしまう問題、主題と関係な
く多数回出現する単語にも高い重要度を付与してしまう
問題は解決できない。
【0012】4.文書構造を用いる方法では、文書の構
造をあらかじめ決めた形式に統一しておかなければなら
ないという問題がある。
【0013】以上のように、従来の技術では、 1.タイトルなどの文書構造を前提としないと単語に重
要度が付与できない。
【0014】2.文書全体にわたって出現する単語と特
定の文脈だけに出現する単語に対しても、同じ重要度を
付与してしまう。
【0015】3.主題と関係なく多数回出現する単語に
も高い重要度を付与してしまう。という問題があった。
【0016】本発明の目的は、より精度の高い情報検索
を行うことができる全文検索方法および装置を提供する
ことである。
【0017】
【課題を解決するための手段】本発明は、文書内の単語
への重要度の自動付与に関するものであるが、単に文書
内の単語の出現頻度を調べるだけではなく、また、文書
構造の情報を前提とすることなしに、単語間の関連度を
用いて重要度を計算することを最大の特徴とする。ここ
で、関連度とは、単語と単語が文書内でどの程度の強さ
で関連し合っているのかを表す数値である。
【0018】本発明では、次のステップによって、文書
内のそれぞれの単語に重要度を付与する。
【0019】1.文書内の単語間の関連度を計算する。
【0020】2.ある単語と他の単語との関連度に基づ
きその単語の重要度を決定する。
【0021】以下、それぞれのステップについて詳しく
述べる。
【0022】<関連度の計算>まず、文書を文単位に分
割する。ここで、文単位とは、文、タイトル、箇条書の
項目などからなる文字列である。次に、単語間の関連度
を、文単位内での単語の共出現(共に出現する)を利用
する方法(計算方法1)か、または文単位内での単語間
の係り受け関係を利用する方法(計算方法2)のどちら
かによって、計算する。計算方法2は、計算方法1と比
べてより正確な関連度の値を求めることができるが、処
理が複雑になるという違いがある。
【0023】以下、それぞれの方法について述べる。
【0024】計算方法1(共出現を利用する方法)関連
度に関する以下の4つの条件を求める。
【0025】条件(a) 文単位内で共出現する単語間
には関連がある。
【0026】条件(b) 一度だけある文単位内で共出
現するよりも、様々な文単位内で多数回共出現した方
が、これらの単語間の関連度はより大きい。
【0027】条件(c) 共出現した文単位の長さより
短い方が、これらの単語間の関連度はより大きい。
【0028】条件(d) 一般的な単語は、様々な文単
位内で出現するので、このような単語と共出現しても関
連度は小さい。
【0029】これらの条件に基づき次の方法で、単語x
と単語yに対する関連度P(y|x)を計算する。ある
文書内において、単語xと単語yが同じ文単位内で共出
現した場合、これらの単語間の関連度P(y|x)の値
を増加させていく(条件(a)および条件(b)を利
用)。ここで、増加させる値は、文単位の長さが短い方
が大きい値とする(条件(c)を利用)。また、文単位
内で単語xが出現した場合はP(x)を、単語yが出現
した場合はP(y)を増加させていく。ここで、増加さ
せる値は、文単位の長さが短い程大きな値とする。最後
に、P(xy)が大きければ大きい程、P(x)および
P(y)が小さければ小さい程、関連度P(y|x)を
大きな値とする(条件(d)を利用)。
【0030】計算方法2(係り受け関係を利用する方
法)関連度に関する以下の4つの条件を定める。
【0031】条件(a) 文単位内で係り受け関係にあ
る単語間には関連がある。特に直接的な係り受け関係に
ある単語間の方が、間接的な係り受け関係にある単語間
と比べて、関連度はより大きい。
【0032】条件(b) 一度だけ文単位内で係り受け
関係にあるよりも、様々な文単位内で多数回係り受け関
係にあった方が、これらの単語間の関連度はより大き
い。
【0033】条件(c) 係り受け関係が起こる文単位
の長さより短い方が、これらの単語間の関連度はより大
きい。
【0034】条件(d) 一般的な単語は、様々な文単
位内で出現するので、このような語と係り受けの関係に
あったとしても関連度は小さい。
【0035】これらの条件に基づき、次の方法で、単語
xの単語yに対する関連度P(y|x)を計算する。そ
れぞれの文単位から単語および単語の品詞情報を抽出す
る。品詞の係り受け可能性を記述した辞書を利用して、
文単位内の単語間の係り受け関係を解析し、係り受け関
係を表す解析木を作成する。ここで述べた文単位から解
析木を作成する処理は従来技術を用いる。次に、解析木
内での任意の2単語xとyの間の距離dを求める。ここ
で、距離とは、単語xを含むノードから単語yを含むノ
ードに至るまでに通過するリンクの本数である。この距
離dが小さい程、これらの2単語間には、より直接的な
係り受け関係があるので、係り受け関係の強さを表す値
rをより大きくする。
【0036】例えば、文単位「情報の検索に単語の関連
度を利用する」があったとする。この文単位から図6の
ような解析木を作成する。次に文単位内の任意の2単語
について、距離dを以下のように求める。
【0037】 情報 検索 1 情報 利用 2 情報 関連度 3 情報 単語 4 検索 利用 1 検索 関連度 2 検索 単語 3 利用 関連度 1 利用 単語 2 関連度 単語 1 これらの値から「情報」と「検索」などの距離が小さい
ものについては、係り受けの関係の強さを表す値rをよ
り大きくし、「情報」と「単語」などの距離が大きいも
のについては、rを小さな値とする。
【0038】以下の説明では、変数P(x)、P
(y)、P(xy)を用いる。ある文書内において、単
語xと単語yがある文単位内で係り受けの関係にあった
場合、P(xy)を増加させていく。ここで、増加させ
る値は、前述した方法で計算したrが大きい程大きな値
とし(条件(a)および条件(b)を利用)、その文単
位の長さが短い程大きな値とする(条件(c)を利
用)。また、文単位内で単語xが出現した場合はP
(x)を、単語yが出現した場合はP(y)を増加させ
ていく。ここで、増加させる値は、文単位の長さが短い
程大きな値とする。最後にP(xy)が大きければ大き
い程、P(x)およびP(y)が小さければ小さい程、
関連度P(y|x)を大きな値とする(条件(d)を利
用)。
【0039】<重要度の計算>「文書内で他の多くの単
語に対して強い関連をもっている単語は重要語であ
る。」という考えに基づき、単語aも重要度を単語aの
文書内の他のすべての単語xに対する関連度P(x|
a)の総和または積などによって計算する。
【0040】本発明では、より短い文単位内で出現する
単語に対してはより高い関連度を付与するので、結果と
してそのような単語の重要度は高くなる。ところで、文
書内において、タイトルや箇条書の項目などは重要な文
であると考えられるが、これらは通常の文と比べて長さ
が短い傾向にある。したがって、本発明を用いるとタイ
トルなどに出現する単語により高い重要度を付与するこ
とができる。このように、本発明は、文書構造をあらか
じめ指定しなくても、タイトルや箇条書の項目内などに
出現する単語に高い重要度を付与することができる。
【0041】単語は「コンピュータ」と「人間」の出現
頻度が同じであったとする。ただし、「コンピュータ」
は文書全体に散らばっているのに対し、「人間」は文書
内の特定の文脈にだけ出現していたとする。文書全体に
散らばっている単語「コンピュータ」が当然、多くの種
類の単語と関連するので、本発明を利用すると「コンピ
ュータ」の重要度は大きな値となる。これに対して、特
定の文脈にしか出現しない単語「人間」は、多くの単語
と関連しないので、「人間」の重要度は小さな値とな
る。このように本発明は、特定の文脈にだけ出現する単
語と比べて、文書全体にわたって出現する単語に高い重
要度を付与することができる。
【0042】同じ単語が文頭などで多数回出現したとし
ても、このような単語は、他の多くの種類の単語と関連
することはない。そのため、本発明を用いるとこのよう
な単語には高い重要度を付与しない。したがって、文脈
と関係なく多数回出現する単語にも高い重要度を付与し
てしまうという問題を解決できる。
【0043】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
【0044】図1を参照すると、本発明の一実施形態の
全文検索装置は文単位生成部100と関連度計算部11
0,120と重要度付与部130と解析済文書データベ
ース140と検索条件解析部150と合致度判定部16
0と検索結果決定部170で構成されている。
【0045】検索前処理:以下の手順(ステップ210
〜230)によって、検索対象となる文書を、検索を行
いやすい形式にあらかじめ変換し、解析済文書データベ
ース140に蓄積する。ここで、関連度計算部110は
計算方法1に基づくものであり、関連度計算部120は
計算方法2に基づくものであり、あらかじめ指定したい
ずれか一方を利用するものとする。
【0046】文単位生成部100は入力された検索対象
のぞれぞれの文書を文単位に分割する(ステップ21
0)。
【0047】関連度計算部110は検索対象の文書内の
すべての2語の組み合わせについて文書内でのそれらの
単語間の関連度を計算方法1に基づき計算する(ステッ
プ220)。具体的な単語xの単語yに対する関連度の
計算方法を図2に示す。単語xの出現頻度をP(x)、
単語yの出現頻度をP(y)、単語xと単語yの共出現
頻度をP(xy)とする。ここで、q(q≧0)は定数
である。
【0048】(a)P(x),P(y),P(xy)に
0を入れる(ステップ300)。
【0049】(b)文書内のすべての文単位について、
以下の処理を行う(ステップ310,370)。
【0050】i.その文単位が単語xを含むなら、その
長さLを調べ、P(x)に1/Lを加える(ステップ3
20)。
【0051】ii.その文単位が単語yを含むなら、その
長さLを調べ、P(y)に1/Lを加える(ステップ3
30)。
【0052】iii.その文単位が単語xと単語yの両方を
含むならば、その長さLを調べ、P(x)、P(y)、
P(xy)にそれぞれ1/L、1/L、1/Lqを加え
る。(ステップ340〜360)。
【0053】(c)P(x),P(y),P(xy)の
それぞれを文書内に存在する全文単位の長さの逆数の総
和で正規化する(ステップ380)。
【0054】
【数4】 (d)以下の式によって単語xの単語yに対する関連度
P(y|x)を求める(ステップ390)。
【0055】
【数5】 関連度計算部120は、検索対象の文書内のすべての2
語の組み合わせについて文書内でのそれらの単語間の関
連度を計算方法2に基づき計算する(ステップ22
0)。具体的な単語xの単語yに対する関連度の計算方
法を図3に示す。単語xの出現頻度をP(x)、単語y
の出現頻度をP(y)、単語xと単語yの文書内での係
り受け関係の強さを表す値をP(xy)とする。ここ
で、q(q≧0)、p(p≧0)は定数である。
【0056】(a)P(x),P(y),P(xy)に
0を入れる。(ステップ400)。
【0057】(b)文書内のすべての文単位について、
以下の処理を行う(ステップ410,450)。
【0058】i.その文単位が単語xを含むなら、その
長さLを調べ、P(x)に1/Lを加える(ステップ4
20)。
【0059】ii.その文単位が単語yを含むなら、その
長さLを調べ、P(y)に1/Lを加える(ステップ4
30)。
【0060】iii.その文単位が単語xと単語yの両方を
含むならば、その文単位を係り受け解析し、解析木を作
成し、この解析木内での単語xと単語yの距離dを求め
る。また、文単位の長さLを調べ、P(x)に1/L、
P(y)に1/L、P(xy)に1/(dp ×Lq )を
それぞれ加える(ステップ440〜460)。
【0061】(c)P(x),P(y),P(xy)の
それぞれを文書内に存在する全文単位の長さの逆数の総
和で正規化する(ステップ480)。
【0062】
【数6】 (d)以下の式によって単語xの単語yに対する関連度
P(y|x)を求める(ステップ490)。
【0063】
【数7】 なお、定数p、q、s、tとuは「係り受け関係の強
さ」、「文単位の長さ」、「共出現回数」、「それぞれ
の出現回数」のどれに重点をおいて関連度を計算するの
かを指定するためのものである。例えば、qの値を大き
くすればする程、「文単位の長さ」の違いによって関連
度は大きく変化する。
【0064】重要度付与部130は、それぞれの文書内
のそれぞれの単語に対して、関連度に基づき重要度を計
算する。具体的な重要度の計算方法を以下に示す。ここ
で、単語aの重要度TD(a)とする。また、xは文書
内のa以外のすべての単語を表す。
【0065】
【数8】 このようにして計算した単語の重要度を文書と共に、解
析済文書データベース140に保存する。
【0066】検索処理:以下の手順によって、ユーザが
入力した検索条件に合致する文書を解析済文書データベ
ース140から探し、検索結果として、ユーザに提示す
る。
【0067】1.検索条件解析部150は、ユーザが入
力した検索条件内の単語を抽出する。
【0068】2.合致度判定部160は、検索対象のそ
れぞれの文書内での、検索条件内の単語の重要度を解析
済文書データベース140から得、これらの重要度の総
和などによってそれぞれの文書の合致度を計算する。
【0069】3.検索結果決定部170は、合致度の高
い順に文書のソートを行い、上位何件かを検索結果とし
てユーザに出力する。
【0070】図5を参照すると、本発明の第2の実施形
態の全文検索装置は、入力装置510とデータベース5
20と出力装置530と記録媒体540とデータ処理装
置550で構成されている。
【0071】入力装置510は検索対象文書、検索条件
をユーザが入力するためのものである。データベース5
20は図1中の解析済データベース140に相当する。
出力装置530は解析結果が出力される、プリンタ、デ
ィスプレイなどの出力装置である。記録媒体540は、
図1中の文単位生成部100、関連度計算部110,1
20、重要度付与部130、検索条件解析部150、合
致度判定部160、検索結果決定部170の各部の処理
からなる全文検索プログラムが記録されている、フロッ
ピィ・ディスク、CD−ROM、光磁気ディスク、半導
体メモリなどの記録媒体である。データ処理装置550
は記録媒体540から全文検索プログラムを読み込ん
で、これを実行するCPUである。
【0072】
【発明の効果】以上述べたように、本発明によれば、文
書の構造を前提とせず、文書全体にわたって分布してい
る単語により大きい重要度を付与し、また、文脈と関係
なく多数回出現する単語に対しては大きい重要度を付与
しないので、より精度の高い情報検索を実現できる。
【図面の簡単な説明】
【図1】本発明の一実施形態の全文検索装置の構成図で
ある。
【図2】図1の実施形態の処理の流れを示すフローチャ
ートである。
【図3】関連計算方法1を示すフローチャートである。
【図4】関連計算方法2を示すフローチャートである。
【図5】本発明の他の実施形態の全文検索装置の構成図
である。
【図6】単語の分布例を示すグラフである。
【図7】係り受け関係を解析木の例を示す図である。
【符号の説明】
100 文単位生成部 110,120 関連度計算部 130 重要度付与部 140 解析済文書データベース 150 解析条件解析部 160 合致度判定部 170 検索結果決定部 210〜260,300〜390,400〜490
ステップ 510 入力装置 520 データベース 530 出力装置 540 記録媒体 550 データ処理装置

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 1つまたは複数個の文書からなる検索対
    象に対して、検索条件が与えられると、前記検索対象の
    それぞれの文書に対して、その文書に使用されている単
    語を抽出して、それらそれぞれの単語にその文書の主題
    との関係の強さに応じた重要度を付与し、この重要度に
    基づきその文書がどの程度検索条件と合致しているのか
    を計算し、この合致の度合いに基づいて検索結果を決定
    する全文検索方法において、それぞれの単語の重要度を
    文書内にある単語間の関連の強さに基づき計算すること
    を特徴とする全文検索方法。
  2. 【請求項2】 前記単語間の関連の強さを、これらの単
    語が、同一の文や項目内で多数回共出現すればする程、
    より大きな値とし、より短い文やより短い項目内で共出
    現すればする程、より大きな値とし、それぞれの単語の
    出現頻度が大きい程、より小さな値とするように計算を
    行う請求項1記載の全文検索方法。
  3. 【請求項3】 単語xの出現頻度をP(x)、単語yの
    出現頻度をP(y)、単語xとyの共出現頻度をP(x
    y)とした場合、 P(x),P(y),P(xy)に0を入れるステップ
    と、 文書内のすべての文単位について、その文単位が単語x
    を含むならば、その長さLを調べ、P(x)に1/L
    を加え、その文単位が単語yを含むならば、その長さL
    を調べ、P(y)に1/Lを加え、その文単位が単語x
    と単語yの両方を含むならば、その長さLを調べ、P
    (x)に1/L、P(y)に1/L、P(xy)に1/
    q (qは零または正の定数)をそれぞれ加えるステッ
    プと、 P(x),P(y),P(xy)のそれぞれを文書内に
    存在する全文単位の長さの逆数の総和で正規化するステ
    ップと、 次式 【数1】 によって、単語xの単語yに対する関連度を求めるステ
    ップを有する請求項2記載の方法。
  4. 【請求項4】 前記単語間の関連の強さを、これらの単
    語が、同一の文や項目内で多数回係り受けの関係にあれ
    ば、より大きな値とし、これらの係り受け関係がより直
    接的なものであれば、より大きな値とし、より短い文
    や、より短い項目内で係り受けの関係にあれば、より大
    きな値とし、それぞれの単語の出現頻度が大きい程、よ
    り小さな値とするように計算を行う請求項1記載の全文
    検索方法。
  5. 【請求項5】 単語xの出現頻度をP(x)、単語yの
    出現頻度をP(y)、単語xとyの文書内での係り受け
    関係の強さをP(xy)とした場合、 P(x)、P(y),P(xy)に0を入れるステップ
    と、 文書内のすべての文単位について、その文単位が単語x
    を含むならば、その長さLを調べ、P(x)に1/L
    を加え、その文単位が単語yを含むならば、その長さL
    を調べ、P(y)に1/Lを加え、その文単位が単語x
    と単語yの両方を含むならば、解析木を作成し、この解
    析木内での単語xと単語y間の距離dを求め、また文単
    位の長さLを調べて、P(x)に1/L、P(y)に1
    /LP(xy)に1/(dp ×Lq) (p,qは零また
    は正の定数)をそれぞれ加えるステップと、 P(x),P(y),P(xy)のそれぞれを文書内に
    存在する全文単位の長さの逆数の総和で正規化するステ
    ップと、 次式 【数2】 によって、単語xの単語yに対する関連度を求めるステ
    ップを有する請求項4記載の方法。
  6. 【請求項6】 前記文書内の単語の重要度を、その単語
    と関連する単語の種類が多い程、大きな値とし、これら
    の単語との関連の強さが大きい程、大きな値とするよう
    に計算する請求項1から5のいずれか1項記載の全文検
    索方法。
  7. 【請求項7】 単語aの重要度TD(a)を次式 【数3】 によって計算する、請求項6記載の方法。
  8. 【請求項8】 検索対象の文書を文単位に分割する文単
    位生成手段と、 前記文単位生成手段で分割された文書内のすべての2語
    の組み合わせについて文書内でのそれらの単語間の関連
    度を計算する関連度計算手段と、 解析済文書データベースと、 それぞれの文書内のそれぞれの単語について、前記関連
    度に基づき重要度を付与し、各単語をその重要度ととも
    に解析済文書データベースに保存する重要度付与手段
    と、 ユーザが入力した検索条件内の単語を抽出する検索条件
    解析手段と、 検索対象のそれぞれの文書内の、前記検索条件内の単語
    の重要度を前記解析済文書データベースから得、文書の
    合致度を判定する合致度判定手段と、 前記合致度に基づいて検索結果を決定し、前記ユーザに
    提示する検索結果決定手段を有する全文検索装置。
  9. 【請求項9】 前記関連度計算手段は、前記単語間の関
    連の強さを、これらの単語が、同一の文や項目内で多数
    回共出現すればする程、より大きな値とし、より短い文
    やより短い項目内で共出現すればする程、より大きな値
    とし、それぞれの単語の出現頻度が大きい程、より小さ
    な値とするように計算を行う請求項8記載の全文検索装
    置。
  10. 【請求項10】 前記関連度計算手段は、前記単語間の
    関連の強さを、これらの単語が、同一の文や項目内で多
    数回係り受けの関係にあれば、より大きな値とし、これ
    らの係り受け関係がより直接的なものであれば、より大
    きな値とし、より短い文やより短い項目内で係り受けの
    関係にあれば、より大きな値とし、それぞれの単語の出
    現頻度が大きい程、より小さな値とするように計算を行
    う請求項8記載の全文検索装置。
  11. 【請求項11】 前記重要度付与手段は、前記文書内の
    単語の重要度を、その単語と関連する単語の種類が多い
    程、大きな値とし、これら単語との関連の強さが大きい
    程、大きな値とするように文書内の単語の重要度を計算
    する請求項8から10のいずれか1項記載の全文検索装
    置。
  12. 【請求項12】 検索対象の文書を文単位に分割する文
    単位生成処理と、 前記文単位生成処理で分割された文書内のすべての2語
    の組み合わせについて文書内でのそれらの単語間の関連
    度を計算する関連度計算処理と、 それぞれの文書内のそれぞれの単語について、前記関連
    度に基づき重要度を付与し、各単語をその重要度ともに
    解析済文書データベースに保存する重要度付与処理と、 ユーザが入力した検索条件内の単語を抽出する検索条件
    解析処理と、 検索対象のそれぞれの文書内の、前記検索条件内の単語
    の重要度を前記解析済文書データベースから得、文書の
    合致度を判定する合致度判定処理と、 前記合致度に基づいて検索結果を決定し、前記ユーザに
    提示する検索結果決定処理をコンピュータに実行させる
    ための全文検索プログラムを記録した記録媒体。
  13. 【請求項13】 前記関連度計算処理は、前記単語間の
    関連の強さを、これらの単語が、同一の文や項目内で多
    数回共出現すればする程、より大きな値とし、より短い
    文やより短い項目内で共出現すればする程、より大きな
    値とし、それぞれの単語の出現頻度が大きい程、より小
    さな値とするように計算を行う請求項12記載の記録媒
    体。
  14. 【請求項14】 前記関連度計算処理は、前記単語間の
    関連の強さを、これらの単語が、同一の文や項目内で多
    数回係り受けの関係にあれば、より大きな値とし、これ
    らの係り受け関係がより直接的なものであれば、より大
    きな値とし、より短い文やより短い項目内で係り受けの
    関係にあれば、より大きな値とし、それぞれの単語の出
    現頻度が大きい程、より小さな値とするように計算を行
    う請求項12記載の記録媒体。
  15. 【請求項15】 前記重要度付与処理は、前記文書内の
    単語の重要度を、その単語と関連する単語の種類が多い
    程、大きな値とし、これら単語との関連の強さが大きい
    程、大きな値とするように文書内の単語の重要度を計算
    する請求項12から14のいずれか1項記載の記録媒
    体。
JP10258558A 1998-09-11 1998-09-11 全文検索方法、装置、および全文検索プログラムを記録した記録媒体 Pending JP2000090110A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10258558A JP2000090110A (ja) 1998-09-11 1998-09-11 全文検索方法、装置、および全文検索プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10258558A JP2000090110A (ja) 1998-09-11 1998-09-11 全文検索方法、装置、および全文検索プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2000090110A true JP2000090110A (ja) 2000-03-31

Family

ID=17321905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10258558A Pending JP2000090110A (ja) 1998-09-11 1998-09-11 全文検索方法、装置、および全文検索プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2000090110A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009199192A (ja) * 2008-02-19 2009-09-03 Ohbayashi Corp 文書情報提示方法、文書情報提示プログラムおよび文書情報提示装置
WO2011099355A1 (ja) * 2010-02-12 2011-08-18 日本電気株式会社 文書分析装置、文書分析方法、およびコンピュータ読み取り可能な記録媒体
US8117212B2 (en) 2006-09-21 2012-02-14 Sony Corporation Information processing apparatus and method, program and recording medium
JP2015132899A (ja) * 2014-01-09 2015-07-23 日本放送協会 重要語抽出装置、及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8117212B2 (en) 2006-09-21 2012-02-14 Sony Corporation Information processing apparatus and method, program and recording medium
JP2009199192A (ja) * 2008-02-19 2009-09-03 Ohbayashi Corp 文書情報提示方法、文書情報提示プログラムおよび文書情報提示装置
WO2011099355A1 (ja) * 2010-02-12 2011-08-18 日本電気株式会社 文書分析装置、文書分析方法、およびコンピュータ読み取り可能な記録媒体
US9311392B2 (en) 2010-02-12 2016-04-12 Nec Corporation Document analysis apparatus, document analysis method, and computer-readable recording medium
JP2015132899A (ja) * 2014-01-09 2015-07-23 日本放送協会 重要語抽出装置、及びプログラム

Similar Documents

Publication Publication Date Title
US7814102B2 (en) Method and system for linking documents with multiple topics to related documents
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
JP5321583B2 (ja) 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JP2002169834A (ja) 文書のベクトル解析を行うコンピュータおよび方法
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
JP2004110200A (ja) テキスト文比較装置
JPH03172966A (ja) 類似文書検索装置
JP2008077163A (ja) 検索システム、検索方法及び検索プログラム
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JPH11102377A (ja) データベースからドキュメントを検索する方法および装置
JP3198932B2 (ja) 文書検索装置
JP2005301856A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP3612914B2 (ja) 構造化文書検索装置及び構造化文書検索方法
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JPH11110409A (ja) 情報分類方法及び装置
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2000090110A (ja) 全文検索方法、装置、および全文検索プログラムを記録した記録媒体
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム