JP2002140366A - 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体 - Google Patents

関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体

Info

Publication number
JP2002140366A
JP2002140366A JP2000333509A JP2000333509A JP2002140366A JP 2002140366 A JP2002140366 A JP 2002140366A JP 2000333509 A JP2000333509 A JP 2000333509A JP 2000333509 A JP2000333509 A JP 2000333509A JP 2002140366 A JP2002140366 A JP 2002140366A
Authority
JP
Japan
Prior art keywords
document
keyword
related word
documents
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000333509A
Other languages
English (en)
Other versions
JP4154118B2 (ja
Inventor
Hiroko Mano
博子 真野
Yasutsugu Ogawa
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2000333509A priority Critical patent/JP4154118B2/ja
Publication of JP2002140366A publication Critical patent/JP2002140366A/ja
Application granted granted Critical
Publication of JP4154118B2 publication Critical patent/JP4154118B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 キーワードに関連する単語を選出するとき、
検索に寄与する単語を選び出すようにした関連語選出装
置を提供する。 【解決手段】 本発明の関連語選出装置は、複数の文書
を保持する文書データベースから入力したキーワードに
関連する関連語を選出する関連語選出装置において、前
記キーワードによって前記文書データベースから検索さ
れた適合度の高い文書のうち文書内容が同一か、または
ほぼ同一の文書を削除し、削除されずに残った文書から
適合度の高い文書を抽出し、この抽出された適合文書か
ら前記キーワードに関連する関連語を抽出して、ユーザ
の所望する的確な文書を検索する関連語を選出するよう
にした。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、関連語選出装置、
その方法および記録媒体並びに文書検索装置、その方法
および記録媒体に関し、より詳細には、文書データベー
スから与えられたキーワードに適合する文書を検索し、
その適合文書中からキーワードに関連のある関連語を選
出する技術並びに与えられたキーワードの関連語を付加
して再検索するための技術に関する。
【0002】
【従来の技術】一般に、文書の特徴をあらわすものにキ
ーワードがある。また、その文書に対して別の面から特
徴をあらわすためにシソーラスのような関連語をもつ方
法もある。また、この関連語の応用面として、文書を多
数集積している文書データベースからユーザの必要とす
る文書を探しだすときに、ユーザが入力したキーワード
を用いて一旦検索した後、そのキーワードに適合した文
書中に出現する単語の中から入力したキーワードに関連
した単語を選出し、はじめに入力したキーワードに追加
し、再度、検索することで、よりユーザの求めるものに
近いものを得る方法が知られている。たとえば、キーワ
ードの関連語を選出する方法として、適合文書中の各単
語について、適合文書の中での出現状況などの統計情報
を利用して、キーワードとの関連度を算出し、その値の
大きい上位何単語かを選出する方法が提案されている
(文献1:Robertson, S.E. "On term selection for q
uery expansion" Journal of Documentation 46, Dec 1
990,p359-364)。
【0003】次に、この従来の関連語の抽出方法につい
てより詳細に説明する。まず、ユーザから入力されたキ
ーワード中の各単語に対して単語の重要度に応じた重み
を付与する。この単語の重みの計算式には、たとえば、
確率モデルにもとづく Robertson の計算式(式1)が
知られている(文献2:Robertson, S.E.and Walker,
S. "On relevance weights with little relevance inf
ormation," SIGIR 97, ACM Press, pp.16-24)。この文
献2の技術においては、キーワード中の各単語の重み
は、検索対象文書全体の中での各単語の出現状況 Wp、W
q に応じて付与される。 W(重み) = Wp Wq ……… (式1) ここで Wp = k4 + log(N / (N - n)) Wq = log(n / (N - n)) N: 検索対象総文書数 n: 単語の出現する文書数 k4: 調整パラメータ 次に、キーワード中の各単語の重みをもとに、各文書の
文書適合度を計算する。この文書適合度の計算式は、た
とえば、文献2の計算式(式2)で求まる。 F(適合度) = Σ(W × tf /(k1 + tf)) ……… (式2) ここで W :(式1)で計算された重み tf: 文書あたりの単語の出現数 k1: 調整パラメータ 各文書の文書適合度を求め、適合度の高い順に各文書を
順序づけ、上位何件かを適合文書とみなし、下位何件か
を非適合文書とみなす。適合文書の選出後、適合文書中
の不要語(たとえば、冠詞の a など)を除いたすべて
の単語について、適合文書および非適合文書での出現状
況、すなわちフィードバック情報を反映させて、それぞ
れの単語の重みを再計算する。適合文書選出後の重み
は、たとえば、文献2の計算式(式3)を用いて、検索
対象文書全体での出現状況 Wp、Wq (上記の(式1)の
コメント参照)と適合文書/非適合文書の中での出現状
況 WrとWs を比率 CpとCq で足し合わせて付与される。 W'(重み)=(Cp・Wp+(1-Cp)・Wr)-(Cq・Wq+(1-Cq)・Ws) ……(式3) ここで Wr = log((r + 0.5) / (R - r + 0.5)) Ws = log((s + 0.5) / (S - s + 0.5)) Cp = k5 / (k5 + √R) Cq = k6 / (k6 + √S) R: 適合文書数 r: 適合文書集合の中で単語の出現する文書数 S: 非適合文書数 s: 非適合文書集合の中で単語の出現する文書数 k5, k6: 調整パラメータ さらに、この重みとフィードバック情報から適合文書中
の不要語を除いた各単語について、キーワードとの関連
度を求める。
【0004】関連度の算出方法としては、たとえば、Bo
ughanem の計算式(式4)がある(文献3:Walker, S.
et al., "Okapi at TREC-6:Automated ad hoc, VLC, ro
uting, filtering and QSDR," The Sixth Test REtriev
al Conference (TREC-6), 1996, NIST)。 関連度 = (r / R - α・s / S) × W' ……… (式4) ここで α: 調整パラメータ このようにして、適合文書中の各単語について、キーワ
ードとの関連度を求めて、関連度の高いものから順にキ
ーワード関連語として選出する。文書検索装置に利用す
るときには、入力したキーワードにこの関連語を追加し
て新しいキーワードを作成し、この新しいキーワードを
用いて、再度、適合文書を選出する。
【0005】
【発明が解決しようとする課題】上記のような関連語を
抽出するためには、検索対象の文書の内容が異なるもの
としてデータベースを検索するのが通例であった。しか
し、たとえば、インターネット上で公開されている文書
というのは、複数のサーバー(ミラーサイト)上で同一
の文書を公開することもめずらしくない。これらは、同
一文書であっても、文書の識別子であるインターネット
のアドレスは異なっているので、データベースから見れ
ば、別文書とみなされてしまう。また、もともと同一文
書だった複数の文書(以下、重複文書と呼ぶ)に、個別
に、異なったタイミングで小さな修正が加えられた結
果、厳密には同じでないものの、ほぼ同一といえる複数
の文書(以下、準重複文書と呼ぶ)がデータベース上に
混在することになる場合もある。従って、このような文
書データベースには、重複文書や準重複文書の複数の文
書が存在する可能性があり、従来の技術で提案されてき
たキーワードの関連語選出方法では、次のような問題が
出てくることになった。キーワードと単語の関連度は、
適合文書中でその単語が出現する文書数等をもとに計算
されるため、当然、重複文書および準重複文書中の単語
は、出現文書数が多くなり、その結果、キーワード関連
度が高いとみなされてしまうことになる。適切な関連語
を得るには、中身の異なる複数の文書から広く共通に出
現する単語を選出するのが望ましく、中身の似通ったい
くつかの文書に出現しているからといって高い関連度を
付与してしまうと、汎用性のとぼしい偏った単語が選ば
れてしまうおそれがある。本発明は、上述の問題を解決
するためのものであり、文書データベースの中から与え
られたキーワードの関連語を偏ることなく選出し、検索
に寄与できる関連語選出装置、その方法および記録媒体
を提供することを目的とする。また、このような関連語
を用いてユーザの所望する的確な文書を検索することが
できる文書検索装置、その方法および記録媒体を提供す
ることを目的とする。
【0006】
【課題を解決するための手段】上記の問題を解決するた
めに、本発明の請求項1の関連語選出装置は、複数の文
書を保持する文書データベースから入力したキーワード
に関連する関連語を選出する関連語選出装置において、
前記キーワードによって前記文書データベースから検索
された適合度の高い文書のうち文書内容が同一か、また
はほぼ同一の文書を削除し、削除されずに残った文書か
ら適合度の高い文書を抽出する適合文書抽出部と、前記
適合文書抽出部で抽出された適合文書から前記キーワー
ドに関連する関連語を抽出する関連語抽出部とを備え、
ユーザの所望する的確な文書を検索する関連語を選出す
るようにしたことを特徴とする。また、本発明の請求項
2の関連語選定装置は、請求項1に記載の関連語選出装
置において、前記関連語抽出部で抽出された関連語を前
記キーワードに付加して新しいキーワードを生成するキ
ーワード生成部を有し、前記適合文書抽出部は、このキ
ーワード生成部によって生成された新しいキーワードに
よって、再度、適合文書を抽出し、前記関連語抽出部で
この再度抽出された適合文書から関連語を選出するよう
にしたことを特徴とする。また、本発明の請求項3の関
連語選定装置は、請求項1または請求項2に記載の関連
語選出装置において、前記適合文書抽出部は、前記キー
ワードによって前記文書データベースから検索された適
合度の高い文書の中で単語数が同じ文書は、適合度のも
っとも高い文書のひとつを残して削除することを特徴と
する。また、本発明の請求項4の関連語選定装置は、請
求項1または請求項2に記載の関連語選出装置におい
て、前記適合文書抽出部は、前記キーワードによって前
記文書データベースから検索された適合度の高い文書の
中で適合度が同じ文書は、その中のひとつを残して削除
することを特徴とする。
【0007】また、本発明の請求項5の関連語選定装置
は、請求項1または請求項2に記載の関連語選出装置に
おいて、前記重複文書削除部は、前記キーワードによっ
て前記文書データベースから検索された適合度の高い文
書の中でキーワード中の各単語の出現頻度が同じ文書
は、適合度のもっとも高い文書のひとつを残して削除す
ることを特徴とする。また、本発明の請求項6の関連語
選定装置は、請求項1または請求項2に記載の関連語選
出装置において、前記適合文書抽出部は、前記キーワー
ドによって前記文書データベースから検索された適合度
の高い文書の中でキーワード中の各単語の出現位置およ
び出現間隔が同じ文書は、適合度のもっとも高い文書の
ひとつを残して削除することを特徴とする。また、本発
明の請求項7の関連語選定装置は、請求項1乃至請求項
6のいずれか一つに記載の関連語選出装置において、前
記関連語抽出部は、前記適合文書抽出部で抽出された適
合文書から前記キーワードと関連する関連語を抽出する
とき、この適合文書中での出現頻度が低く、すでに関連
語として選出した単語と同じ文書群に出現する単語であ
って、その関連語の前記キーワードとの関連度よりこの
単語の関連度の方が低いときは、この単語を関連語とし
て登録しないようにしたことを特徴とする。また、本発
明の請求項8の関連語選定方法は、複数の文書を保持す
る文書データベースから入力したキーワードに関連する
関連語を選出する関連語選出方法において、前記キーワ
ードによって前記文書データベースから検索された適合
度の高い文書のうち文書内容が同一か、またはほぼ同一
の文書を削除し、削除されずに残った適合度の高い文書
を抽出し、この適合文書から前記キーワードに関連する
関連語を抽出し、ユーザの所望する的確な文書を検索す
る関連語を選出するようにしたことを特徴とする。ま
た、本発明の請求項9の記録媒体は、コンピュータを、
複数の文書を保持する文書データベースから入力したキ
ーワードに関連する関連語を選出する関連語選出装置と
して機能させるためのプログラムを記録したコンピュー
タ読み取り可能な記録媒体であって、前記キーワードに
よって前記文書データベースから検索された適合度の高
い文書のうち文書内容が同一か、またはほぼ同一の文書
を削除して、削除されずに残った文書から適合度の高い
文書を抽出する適合文書抽出部と、前記適合文書抽出部
で抽出された適合文書から前記キーワードと関連のある
関連語を抽出する関連語抽出部と、前記関連語抽出部で
抽出された関連語を前記キーワードに付加して新しいキ
ーワードを生成するキーワード生成部とを備え、前記適
合文書抽出部は、再度、前記キーワード生成部で生成し
た新しいキーワードで適合文書を抽出し、前記関連語抽
出部でユーザの所望する的確な文書を検索する関連語を
選出する機能を実現するための関連語選出プログラムを
記録した。
【0008】また、本発明の請求項10の文書検索装置
は、複数の文書を保持する文書データベースから入力し
たキーワードに適合する文書を検索する文書検索装置に
おいて、前記キーワードによって前記文書データベース
から検索された適合度の高い文書のうち文書内容が同一
か、またはほぼ同一の文書を削除し、削除されずに残っ
た文書から適合度の高い文書を抽出する適合文書抽出部
と、前記適合文書抽出部で抽出された適合文書から前記
キーワードに関連する関連語を抽出する関連語抽出部
と、前記関連語抽出部で抽出された関連語を前記キーワ
ードに付加して新しいキーワードを生成するキーワード
生成部とを備え、前記適合文書抽出部は、再度、前記キ
ーワード生成部で生成した新しいキーワードによって検
索し、ユーザの所望する的確な文書を得るようにしたこ
とを特徴とする。また、本発明の請求項11の文書検索
方法は、複数の文書を保持する文書データベースから入
力したキーワードに適合する文書を検索する文書検索方
法において、前記キーワードによって前記文書データベ
ースから検索された文書のうち文書内容が同一か、また
はほぼ同一の文書を削除し、その削除されずに残った文
書から適合度の高い文書を抽出し、この抽出された文書
から前記キーワードと関連のある関連語を抽出し、この
関連語を前記キーワードに付加して新しいキーワードを
生成し、この新しいキーワードを用いて、再度、前記文
書データベースを検索することによってユーザの所望す
る文書を検索することを特徴とする。また、本発明の請
求項12の記録媒体は、コンピュータを、複数の文書を
保持する文書データベースから入力したキーワードに適
合する文書を検索する文書検索装置として機能させるた
めのプログラムを記録したコンピュータ読み取り可能な
記録媒体であって、前記キーワードによって前記文書デ
ータベースから検索された適合度の高い文書のうち文書
内容が同一か、またはほぼ同一の文書を削除し、削除さ
れずに残った文書から適合度の高い文書を抽出する適合
文書抽出部と、前記適合文書抽出部で抽出された適合文
書から前記キーワードに関連する関連語を抽出する関連
語抽出部と、前記関連語抽出部で抽出された関連語を前
記キーワードに付加して新しいキーワードを生成するキ
ーワード生成部とを備え、前記適合文書抽出部は、再
度、前記キーワード生成部で生成した新しいキーワード
によって検索し、ユーザの所望する的確な文書を得る機
能を実現するための文書検索プログラムを記録した。
【0009】
【発明の実施の形態】以下に、図面を用いて本発明の実
施の形態の構成および動作を詳細に述べる。 (1)第1の実施の形態の構成 図1は、本発明に係る関連語選出装置の第1の実施の形
態の機能ブロック図である。第1の実施の形態の関連語
選出装置は、キーワード入力部110、適合文書抽出部
120、関連語抽出部130、キーワード生成部14
0、出力部150、文書データベース160より構成さ
れる。キーワード入力部110は、ユーザがキーボード
等により、文書データベース160中にある文書の特徴
をあらわすキーワードとなる文字列を入力する。適合文
書抽出部120は、キーワード入力部110から渡され
たキーワードに対して、文書データベース160を検索
し、適合する文書と適合しない文書とを選定する。この
とき、適合度の高い検索対象文書のうち文書内容が同一
の文書(重複文書)か、またはほぼ同一の文書(準重複
文書)(ここでは、これら重複文書と準重複文書をまと
めて重複文書と呼ぶことにする)を一つだけ残して他の
重複文書を削除する。この削除作業は、予め決められた
適合文書数になるまで繰り返す。これにより適合度の高
い文書には重複が少なくなる。関連語抽出部130は、
適合文書抽出部120で抽出された適合文書の中から取
り出された単語と入力されたキーワードとの間で計算さ
れる関連度に応じて関連語を抽出し、キーワード生成部
140へ渡す。キーワード生成部140は、関連語抽出
部130から渡された関連語をもとのキーワードに追加
して新しいキーワードを生成する。この新しいキーワー
ドは、さらにもとのキーワードと関連のある関連語を抽
出するために適合文書抽出部120へ渡すようにしても
よいし、そのまま出力部150からユーザに提示させて
もよい。出力部150は、関連語抽出部130で抽出さ
れた関連語およびその元となったキーワードとをプリン
タ、表示装置、記憶装置等へ出力するか、または、ネッ
トワークを介して他のコンピュータ装置へ送信する。文
書データベース160は、検索対象となる文書を保持す
る文書情報と、その文書中に含まれている各単語の単語
統計情報から構成される(図2参照)。たとえば、文書
情報には、各文書に対して次のような情報が保持され
る。文書識別子(ID)、文書名、書誌事項(作成者、
作成日、発行所等)、文書実体へのポインタ等また、単
語統計情報には、単語ごとに次のような統計情報を保持
する。単語の表記、この単語の文書データベース全体で
の出現頻度、単語出現情報等ここで単語出現情報として
は、単語が出現する文書ごとに次の情報を保持する。こ
の単語が出現する文書の文書識別子、この文書に出現す
る単語出現頻度、この文書にこの単語が出現する出現位
置の一覧等
【0010】(2)第1の実施の形態の動作 次に、このように構成された第1の実施の形態の関連語
選出装置の動作について、図3のフローチャートに基い
て説明する。まず、キーボード等の入力装置からキーワ
ードの文字列を入力する(ステップS100)。これに
より、キーワード入力部110を構成する。このキーワ
ードは、たとえば、英語や日本語の単語や単語の組み合
わせで構成し、必要に応じて単語の組み合わせは、単単
語へ分解する。この入力されたキーワード中のそれぞれ
の単語について、文書データベース160の単語統計情
報を参照し、たとえば、上記(式1)を用いて単語の重
要度に応じた重みを計算する(ステップS110)。次
に、検索対象である文書データベース160中のそれぞ
れの文書に対して、次の情報を計算し、文書一覧表を作
成する(ステップS120)。
【0011】(A)文書ごとに適合度の計算 文書データベース160の単語統計情報とステップS1
10で計算されたキーワードの単語の重みとを参照し、
その文書にキーワード中の単語がどのくらい含まれてい
るかを示す適合度を、たとえば、上記(式2)を用いて
計算する。 (B)文書ごとに含まれる単語数 文書データベース160の単語統計情報から文書に含ま
れる単語数を計算する。この単語統計情報で、同じ文書
識別子をもつ単語の出現頻度を総計することによって計
算できる。この文書一覧表を文書の適合度を第1キー、
文書に含まれる単語数を第2キーとして、降順に各文書
を順序づける(ステップS130)。この順序付けられ
た文書一覧表で、同じ単語数の文書があった場合、その
うちの適合度のもっとも高い文書のみを残して、残りの
同じ単語数の文書を削除する。この操作を適合度の高い
ほうから所定の数(たとえば、10文書数程度)になる
まで繰り返す。ここで選定されたものが適合文書として
抽出される。これは、中身の異なる二つの文書が同じ単
語数となることは、極めてまれであることから、単語数
が同じ文書は、中身も同じ可能性が高いと本発明ではみ
なしている。さらに、文書一覧表の下位から所定の件数
(たとえば、500件程度)の文書を非適合文書とみな
す。この非適合文書に対しても適合文書と同じように重
複文書を削除する(ステップS140)。この適合文書
か非適合文書かは、順序づけられた文書の一覧表(適合
度、文書名や書誌事項等の一覧)をユーザに提示し、ユ
ーザに指示させて決定するようにしてもよい。
【0012】ステップS110からステップ140まで
により、適合文書抽出部120を構成する。ステップS
140で求めた適合文書中の単語を入力キーワードの関
連語の候補となる関連語単語表として作成する。これは
文書データベース160の単語統計情報に保持された適
合文書に含まれる単語を取り出して作成される。このと
き、予め用意された不要語表を参照して、これに登録さ
れている単語は関連語単語表へは登録しない。さらに、
この関連語単語表に登録された単語ごとに、適合文書お
よび非適合文書での出現状況を文書データベース160
の単語統計情報から取り出し、たとえば、(式3)およ
び(式4)を使って、キーワードとの関連度を計算す
る。この関連度の高いものから順に所定の数(たとえ
ば、10単語程度)だけ選択し、これをキーワード関連
語として抽出する(ステップS150)。ステップS1
50により関連語抽出部130を構成する。ステップS
150で抽出したキーワード関連語を入力されたときの
元のキーワードへ追加し、新しいキーワードを作成する
(ステップS160)。これにより、キーワード生成部
140を構成する。さらに、関連語を抽出するかをユー
ザに指定させ(ステップS170)、抽出を行うという
指示の時には、この新しいキーワードを用いてステップ
S110から繰り返す。抽出を終了するときには、ステ
ップS180へ進む。なお、この関連語の抽出は、繰り
返さずともよいし、所定の回数これを繰り返すようにし
てもよいし、また、ユーザに適合文書を検索するたびに
出力して繰り返すように構成してもよい。ステップS1
60で生成された新しいキーワードを表示装置、プリン
タや記憶装置等の出力装置へ出力することによってユー
ザに提示される(ステップS180)。これにより、出
力部150を構成する。また、出力は、適合文書をネッ
トワークで接続された他のコンピュータ装置へ送信する
ようにしてもよい。関連語選出装置を第1の実施の形態
のような構成にすることによって、中身の異なる複数の
文書から広く共通に出現する単語をキーワードの関連語
として選出することができるようになり、ユーザの所望
する的確な文書を検索することに寄与できる。
【0013】<第1の実施の形態の変形例(1)>第1
の実施の形態の変形例の関連語選出装置について説明す
る。本変形例の構成は、図1に示される第1の実施の形
態の構成と同じである。しかし、適合文書抽出部120
の動作が次の点で第1の実施の形態とは相違している。
第1の実施の形態では、重複文書と見なす基準として、
文書に含まれている単語の数に注目したが、本変形例で
は、適合度が同じ文書の場合に重複文書または準重複文
書と見なしている。この場合、図3のフローチャートの
ステップS120の文書一覧表を作成するときに、ステ
ップS130では適合度だけで降順に順序づける。その
上で、ステップS140では、文書一覧表で同じ適合度
を持つ文書のうちのひとつのみを残し、他の同じ適合度
をもつ文書を削除する。これは、中身の異なる二つの文
書が同じ適合度となることは、極めてまれであることか
ら、適合度が同じ文書は、中身も同じ可能性が高いとみ
なしている。関連語選出装置を本変形例のような構成に
することによって、中身の異なる複数の文書から広く共
通に出現する単語をキーワードの関連語として選出する
ことができるようになり、ユーザの所望する的確な文書
を検索することに寄与できる。
【0014】<第1の実施の形態の変形例(2)>第1
の実施の形態の別の変形例の関連語選出装置について説
明する。本変形例の構成は、図1に示される第1の実施
の形態の構成と同じである。しかし、適合文書抽出部1
20の動作が次の点で第1の実施の形態とは相違してい
る。第1の実施の形態では、重複文書と見なす基準とし
て、文書に含まれている単語の数に注目したが、本変形
例では、キーワード中の各単語の出現頻度が同じ文書の
場合に重複文書または準重複文書と見なしている。この
場合、図3のフローチャートのステップS120の文書
一覧表を作成するときに、各文書中に出現するキーワー
ド中の各単語の出現頻度を計算する。ステップS130
では、適合度とこのキーワード中の各単語の出現頻度と
をキーとして降順に順序づける。その上で、ステップS
140では、文書一覧表でキーワード中の各単語の出現
頻度が同じ文書のうちの適合度のもっとも高い文書のう
ちのひとつのみを残し、各単語の出現頻度が同じ他の文
書を削除する。たとえば、キーワードが「情報検索」で
あった場合に、文書1は、「情報」が2回、「検索」が
1回出現し、適合度が0.87である。さらに、文書2は、
「情報」が2回、「検索」が1回出現し、適合度が0.85
である。このような場合には、文書一覧表から文書2を
削除し、文書1のみを残すようにする。これは、中身の
異なる二つの文書にキーワード中の各単語が同じ頻度で
出現することは、極めてまれであることから、キーワー
ド中の各単語の出現頻度が同じ文書は、中身も同じ可能
性が高いとみなしている。関連語選出装置を本変形例の
ような構成にすることによって、中身の異なる複数の文
書から広く共通に出現する単語をキーワードの関連語と
して選出することができるようになり、ユーザの所望す
る的確な文書を検索することに寄与できる。
【0015】<第1の実施の形態の変形例(3)>第1
の実施の形態の更に別の変形例の関連語選出装置につい
て説明する。本変形例の構成は、図1に示される第1の
実施の形態の構成と同じである。しかし、適合文書抽出
部120の動作が次の点で第1の実施の形態とは相違し
ている。第1の実施の形態では、重複文書と見なす基準
として、文書に含まれている単語の数に注目したが、本
変形例では、キーワード中の各単語の出現位置および出
現間隔が同じ文書の場合に重複文書または準重複文書と
見なしている。この場合、図3のフローチャートのステ
ップS120の文書一覧表を作成するときに、各文書中
に出現するキーワード中の各単語の出現位置(文書の前
・後から何語目に)および出現間隔(何語離れて)を抽
出する。ステップS130では、適合度とこのキーワー
ド中の各単語の出現位置および出現間隔とをキーとして
降順に順序づける。ステップS140では、文書一覧表
でキーワード中の各単語の出現位置および出現間隔が同
じ文書のうちの適合度のもっとも高い文書のうちのひと
つのみを残し、他の文書を削除する。
【0016】たとえば、キーワードが「情報検索」であ
った場合に、文書1は、10語目と20語目に「情報」が、
11語目に「検索」が出現し、適合度が0.87である。さら
に、文書2は、10語目と20語目に「情報」が、11語目に
「検索」が出現し適合度が0.85である。このような場合
には、文書一覧表から文書2を削除し、文書1のみを残
すようにする。これは、中身の異なる二つの文書にキー
ワード中の各単語が同じ出現位置および出現間隔で出現
することは、極めてまれであることから、キーワード中
の各単語が同じ出現位置および出現間隔が同じ文書は、
中身も同じ可能性が高いとみなしている。本変形例の関
連語選出装置をこのような構成にすることによって、中
身の異なる複数の文書から広く共通に出現する単語をキ
ーワードの関連語として選出することができるようにな
り、ユーザの所望する的確な文書を検索することに寄与
できる。なお、本発明の関連語選出装置は、適合文書抽
出部120として、上記した第1の実施の形態、変形例
(1)、(2)または(3)を単独に使用して構成する
だけでなく、適宜、組合せた構成をとってもよい。たと
えば、最初の重複文書の削除で残った文書に対して、他
の方法を適用してさらに重複文書を削除するように構成
してもよい。
【0017】<第1の実施の形態の変形例(4)>第1
の実施の形態の更に別の変形例の関連語選出装置につい
て説明する。本変形例の構成は、図1に示される第1の
実施の形態の構成と同じである。しかし、関連語抽出部
130の動作が次の点で上述した第1の実施の形態およ
び変形例(1)〜(3)とは相違している。第1の実施
の形態の関連語抽出部130では、単にキーワードと関
連度の高い単語を関連語と見なしている。しかし、本変
形例では、関連語として一旦、抽出されたもののうち低
頻度語を削除してから、関連度の高い関連語を残すよう
にしている点が相違している。この低頻度語の削除は、
適合文書中に出現する各単語に対してキーワードとの関
連度を算出し、適合文書での出現頻度が低く、すでに関
連語として選出した単語と同じ文書群に出現する、より
関連度の低い単語を関連語として採用しないようにす
る。たとえば、キーワード「情報検索」に対して、適合
文書抽出部120で適合文書として10文書を選出し、
それらの文書から関連語として文書2と文書7に出現し
ており、関連度が0.68である単語「Okapi」が選出され
ているとする。この場合、関連語の候補の単語「BM25」
が、文書2と文書7に出現しており関連度が0.62であっ
たときには、単語「BM25」を関連語とはせず、単語「Ok
api」のみを関連語として残すようにする。一般に、適
合文書中で単語の出現頻度が高く、検索対象文書全体で
その単語の出現頻度が低いほど、単語とキーワードとの
関連度は高くなることは、(式3)および(式4)から
導出することができる。逆に、適合文書中で出現頻度が
低く、関連度が高い単語は、検索対象文書全体での出現
頻度が低いと考えられる。このような検索対象文書全体
での出現頻度が低い単語(低頻度語)同士が同じ文書に
同時に出現することは、極めてまれであり、複数の低頻
度語がともに出現する文書群は、たがいに中身が非常に
近い可能性が高いと判断する。従って、適合文書中で出
現頻度が低く、すでに関連語として選出した単語と同じ
文書群に出現する、より関連度の低い単語は、関連語と
して採用しないことで、中身がほぼ同一である可能性の
高い文書にある単語を省いて、より関連度の高いキーワ
ード関連語を選択することができるようになる。
【0018】本変形例の場合、図3のフローチャートの
ステップS160のキーワードの関連語を抽出して新し
いキーワードを生成するときに、次のような手順で低頻
度の単語を削除して関連語を抽出する。先ず、適合文書
中に出現する単語を抽出し、たとえば、(式3)および
(式4)を用いて、これらの単語に対してキーワードと
の関連度を算出する。また、これらの単語の適合文書中
での出現頻度と、この単語がどの文書に出現するかも抽
出する。この出現頻度が所定の数より低い単語に対し
て、すでに関連語として選出した単語と同じ文書群にも
出現する場合、単語とその関連語の関連度を比較し、単
語の方の関連度が低いときは、関連語として採用しな
い。この操作によって、残された単語をキーワードの関
連語として採用し、新しいキーワードを生成する。本変
形例の関連語選出装置をこのような構成にすることによ
って、中身の異なる複数の文書からより関連度の強い単
語をキーワードの関連語として選出することができるよ
うになり、ユーザの所望する的確な文書を検索すること
に寄与できる。
【0019】<第2の実施の形態> (1)第2の実施の形態の構成 図4は、本発明に係る文書検索装置の実施の形態の機能
構成例を示すブロック図である。この実施の形態の文書
検索装置は、キーワード入力部110、適合文書抽出部
120、関連語抽出部130、キーワード生成部14
0、文書出力部170、文書データベース160より構
成される。第1の実施の形態の関連語選出装置と同様の
機能をもつブロックには同じ符号を付けてあり、以下で
は、相違点についてのみ説明する。適合文書抽出部12
0では、キーワード入力部110またはキーワード生成
部140から受け取るキーワードに対して、文書データ
ベース160を検索し、適合度を計算した時点(図3の
ステップS120に相当)で、文書出力部を介して、ユ
ーザに検索結果を出力し、その当否を判断させる。ここ
でユーザが否とした場合、キーワードを再入力するかま
たは関連語を選出して、キーワードに付加し、再度、検
索のやり直しをさせるようにする。関連語を抽出するよ
うに指示された場合、適合文書抽出部120は、重複文
書を削除する(図3のステップS130からS150ま
でに相当)。この削除法には、上記した第1の実施の形
態(変形例(1)〜(3)も含まれる)が使われる。キ
ーワード生成部140では、生成された関連語を付加し
た新しいキーワードを生成し、この新キーワードを適合
文書抽出部120へ直接渡すようにする。文書出力部1
70は、適合文書抽出部120で検索された適合度の高
い文書の一覧(たとえば、適合度、文書名、書誌事項等
による一覧表)をプリンタ、表示装置またはフ記憶装置
等の出力装置へ出力したり、または、ネットワークを介
して他のコンピュータへ送信することによって、ユーザ
へキーワードに適合する文書の一覧を提供できる。文書
検索装置を第2の実施の形態のような構成にすることに
よって、中身の異なる複数の文書からより関連度の強い
単語をキーワードの関連語として選出することができる
ようになり、ユーザの所望する的確な文書を検索するこ
とができる。
【0020】<コンピュータによる実施の形態>さら
に、本発明は上記の実施の形態のみに限定されたもので
はない。たとえば、図1または図4に示した関連語選出
装置や文書検索装置は、図5のようなハードウェア構成
を持つコンピュータ装置200によっても実現が可能で
ある。すなわち、コンピュータ装置200は、キーボー
ド、マウス、タッチパネル、スキャナ等により構成さ
れ、情報の入力に使用される入力装置1と、種々の出力
情報や入力装置1からの入力された情報などを表示出力
させる表示装置2と、種々のプログラムを動作させるC
PU(Central ProcessingUni
t;中央処理ユニット)3と、プログラム自身を保持
し、またそのプログラムがCPU3によって実行される
ときに一時的に作成される情報等を保持するメモリ4
と、本発明の関連語選出装置や文書検索装置の文書デー
タベース160およびプログラムやプログラム実行時の
一時的な情報等を保持する記憶装置5と、プログラムや
データ等を記憶した記録媒体を装着してそれらを読み込
み、メモリ4または記憶装置5へ格納するのに用いられ
る媒体駆動装置6と、ネットワーク9へ接続するための
インタフェースであるネットワーク接続装置7とから構
成され、それらはバス8で接続されている。また、ネッ
トワーク9は、コンピュータ装置200と他のコンピュ
ータ装置200とを結合するための伝送路であって、一
般には、ケーブルで実現され、通信プロトコルにはTC
P/IPが使われる。但し、伝送路としてはケーブルだ
けではなく、それらの間の通信プロトコルが一致するも
のであれば無線、有線および放送波のいずれでもよく、
たとえば、LAN(Local Area Netwo
rk)、WAN(Wide Area Networ
k)、インターネット、アナログ電話網、デジタル電話
網(ISDN:Integral Service D
igital Network)、PHS(パーソナル
ハンディシステム)、携帯電話網、衛星通信網などを用
いることができる。このようなコンピュータ装置200
の構成において、図1または図4に示した関連語選出装
置や文書検索装置を構成する各機能をそれぞれプログラ
ム化し、予めCD−ROM等の記録媒体に書き込んでお
き、このCD−ROMを各サイトのCD−ROMドライ
ブのような媒体駆動装置6を搭載したコンピュータ装置
に装着して、これらのプログラムをそれぞれのコンピュ
ータ装置のメモリ4あるいは記憶装置5に格納し、それ
を実行することによって、上記の実施の形態と同様な機
能を実現することができる。
【0021】なお、記録媒体としては半導体媒体(たと
えば、ROM、ICメモリカード等)、光媒体(たとえ
ば、DVD、MO、MD、CD−R等)、磁気媒体(た
とえば、磁気テープ、フレキシブルディスク等)のいず
れであってもよい。また、コンピュータ装置200のメ
モリ4へロードしたプログラムを実行することにより上
記した実施の形態の機能が実現されるだけでなく、その
プログラムの指示に基づき、オペレーティングシステム
等が実際の処理の一部または全部を行い、その処理によ
って上記した実施の形態の機能が実現される場合も含ま
れる。また、上記した実施の形態を実現するプログラム
がROM等のような半導体の記録媒体である場合には、
媒体駆動装置6からではなく、直接、メモリ4へロード
して実行される。
【0022】<本発明のネットワーク環境での運用>図
6は、本発明を有線または無線の通信ネットワークに接
続して運用する形態の構成を示している。たとえば、関
連語選出プログラムや文書検索プログラムを保持するサ
ーバー300と複数のユーザが利用する端末310とを
ネットワーク9で接続する。この場合、サーバー300
およびユーザの端末310は、図5に示した汎用のコン
ピュータ装置200で構成される。ユーザは、端末31
0からサーバー300に対してログインしたり、文書検
索のためのキーワードを入力し、サーバー300の文書
検索プログラムへ検索の実行を依頼する。サーバー30
0の文書検索プログラムは指定されたキーワードに適合
した検索結果を要求もとの端末310へ戻す。ユーザの
端末310は、この検索結果を出力する。このようにす
ることで、常に最新の文書検索プログラムを使えるとい
う利点がある。ユーザは、関連語選出プログラムに対し
ても文書検索プログラム同様にして実行することによ
り、キーワードに関連した関連語を得ることができる。
また、図6のようにサーバー300と端末310とを有
線または無線の通信ネットワークで接続した場合、サー
バー300の磁気ディスク等の記憶装置に本発明の機能
を実現する関連語選出プログラムや文書検索プログラム
を格納しておき、端末310に対してダウンロード等の
形式で頒布することも可能である。さらに、本発明の機
能を実現する関連語選出プログラムや文書検索プログラ
ムを媒体や放送波による配布で提供するようにしてもよ
い。
【0023】
【発明の効果】以上説明したように、本発明によれば、
キーワード関連語選出の際に、適合文書中に中身が同一
あるいは、ほぼ同一である文書が複数含まれていても、
それによって関連語が偏ることなく、検索に寄与できる
適切な関連語を選ぶことができる。これによって、ユー
ザの所望する的確な文書を検索することができる。
【図面の簡単な説明】
【図1】第1の実施の形態の関連語選出装置の構成を示
すブロック図である。
【図2】文書データベースのデータ構造を説明するため
の図である。
【図3】第1の実施の形態の関連語選出装置の処理の流
れを説明するためのフローチャートである。
【図4】第2の実施の形態の文書検索装置の構成を示す
ブロック図である。
【図5】本発明をコンピュータで実現するときのハード
ウェアの構成を示す図である。
【図6】本発明をネットワーク環境で運用する場合を説
明するための図である。
【符号の説明】
110 …… キーワード入力部 120 …… 適合文書抽出部 130 …… 関連語抽出部 140 …… キーワード生成部 150 …… 出力部 160 …… 文書データベース 170 …… 文書出力部 200 …… コンピュータ装置 300 …… サーバー 310 …… 端末 1 …… 入力装置 2 …… 表示装置 3 …… CPU 4 …… メモリ 5 …… 記憶装置 6 …… 媒体駆動装置 7 …… ネットワーク接続装置 8 …… バス 9 …… ネットワーク

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書を保持する文書データベース
    から入力したキーワードに関連する関連語を選出する関
    連語選出装置において、 前記キーワードによって前記文書データベースから検索
    された適合度の高い文書のうち文書内容が同一か、また
    はほぼ同一の文書を削除し、削除されずに残った文書か
    ら適合度の高い文書を抽出する適合文書抽出部と、 前記適合文書抽出部で抽出された適合文書から前記キー
    ワードに関連する関連語を抽出する関連語抽出部とを備
    え、 ユーザの所望する的確な文書を検索する関連語を選出す
    るように構成したことを特徴とする関連語選出装置。
  2. 【請求項2】 請求項1に記載の関連語選出装置におい
    て、 前記関連語抽出部で抽出された関連語を前記キーワード
    に付加して新しいキーワードを生成するキーワード生成
    部を有し、 前記適合文書抽出部は、このキーワード生成部によって
    生成された新しいキーワードによって、再度、適合文書
    を抽出し、前記関連語抽出部でこの再度抽出された適合
    文書から関連語を選出するようにしたことを特徴とする
    関連語選出装置。
  3. 【請求項3】 請求項1または請求項2に記載の関連語
    選出装置において、前記適合文書抽出部は、前記キーワ
    ードによって前記文書データベースから検索された適合
    度の高い文書の中で単語数が同じ文書は、適合度のもっ
    とも高い文書のひとつを残して削除することを特徴とす
    る関連語選出装置。
  4. 【請求項4】 請求項1または請求項2に記載の関連語
    選出装置において、 前記適合文書抽出部は、前記キーワードによって前記文
    書データベースから検索された適合度の高い文書の中で
    適合度が同じ文書は、その中のひとつを残して削除する
    ことを特徴とする関連語選出装置。
  5. 【請求項5】 請求項1または請求項2に記載の関連語
    選出装置において、 前記重複文書削除部は、前記キーワードによって前記文
    書データベースから検索された適合度の高い文書の中で
    キーワード中の各単語の出現頻度が同じ文書は、適合度
    のもっとも高い文書のひとつを残して削除することを特
    徴とする関連語選出装置。
  6. 【請求項6】 請求項1または請求項2に記載の関連語
    選出装置において、前記適合文書抽出部は、前記キーワ
    ードによって前記文書データベースから検索された適合
    度の高い文書の中でキーワード中の各単語の出現位置お
    よび出現間隔が同じ文書は、適合度のもっとも高い文書
    のひとつを残して削除することを特徴とする関連語選出
    装置。
  7. 【請求項7】 請求項1乃至請求項6のいずれか一つに
    記載の関連語選出装置において、 前記関連語抽出部は、前記適合文書抽出部で抽出された
    適合文書から前記キーワードと関連する関連語を抽出す
    るとき、この適合文書中での出現頻度が低く、すでに関
    連語として選出した単語と同じ文書群に出現する単語で
    あって、その関連語の前記キーワードとの関連度よりこ
    の単語の関連度の方が低いときは、この単語を関連語と
    して登録しないようにしたことを特徴とする関連語選出
    装置。
  8. 【請求項8】 複数の文書を保持する文書データベース
    から入力したキーワードに関連する関連語を選出する関
    連語選出方法において、 前記キーワードによって前記文書データベースから検索
    された適合度の高い文書のうち文書内容が同一か、また
    はほぼ同一の文書を削除し、 削除されずに残った適合度の高い文書を抽出し、 この適合文書から前記キーワードに関連する関連語を抽
    出し、 ユーザの所望する的確な文書を検索する関連語を選出す
    るようにしたことを特徴とする関連語選出方法。
  9. 【請求項9】 コンピュータを、複数の文書を保持する
    文書データベースから入力したキーワードに関連する関
    連語を選出する関連語選出装置として機能させるための
    プログラムを記録したコンピュータ読み取り可能な記録
    媒体であって、 前記キーワードによって前記文書データベースから検索
    された適合度の高い文書のうち文書内容が同一か、また
    はほぼ同一の文書を削除して、削除されずに残った文書
    から適合度の高い文書を抽出する適合文書抽出部と、 前記適合文書抽出部で抽出された適合文書から前記キー
    ワードと関連のある関連語を抽出する関連語抽出部と、 前記関連語抽出部で抽出された関連語を前記キーワード
    に付加して新しいキーワードを生成するキーワード生成
    部とを備え、 前記適合文書抽出部は、再度、前記キーワード生成部で
    生成した新しいキーワードで適合文書を抽出し、 前記関連語抽出部でユーザの所望する的確な文書を検索
    する関連語を選出する機能を実現するための関連語選出
    プログラムを記録したコンピュータ読み取り可能な記録
    媒体。
  10. 【請求項10】 複数の文書を保持する文書データベー
    スから入力したキーワードに適合する文書を検索する文
    書検索装置において、 前記キーワードによって前記文書データベースから検索
    された適合度の高い文書のうち文書内容が同一か、また
    はほぼ同一の文書を削除し、削除されずに残った文書か
    ら適合度の高い文書を抽出する適合文書抽出部と、 前記適合文書抽出部で抽出された適合文書から前記キー
    ワードに関連する関連語を抽出する関連語抽出部と、 前記関連語抽出部で抽出された関連語を前記キーワード
    に付加して新しいキーワードを生成するキーワード生成
    部とを備え、 前記適合文書抽出部は、再度、前記キーワード生成部で
    生成した新しいキーワードによって検索し、ユーザの所
    望する的確な文書を得るようにしたことを特徴とする文
    書検索装置。
  11. 【請求項11】 複数の文書を保持する文書データベー
    スから入力したキーワードに適合する文書を検索する文
    書検索方法において、 前記キーワードによって前記文書データベースから検索
    された文書のうち文書内容が同一か、またはほぼ同一の
    文書を削除し、 その削除されずに残った文書から適合度の高い文書を抽
    出し、 この抽出された文書から前記キーワードと関連のある関
    連語を抽出し、この関連語を前記キーワードに付加して
    新しいキーワードを生成し、 この新しいキーワードを用いて、再度、前記文書データ
    ベースを検索することによってユーザの所望する文書を
    検索するようにしたことを特徴とする文書検索方法。
  12. 【請求項12】 コンピュータを、複数の文書を保持す
    る文書データベースから入力したキーワードに適合する
    文書を検索する文書検索装置として機能させるためのプ
    ログラムを記録したコンピュータ読み取り可能な記録媒
    体であって、 前記キーワードによって前記文書データベースから検索
    された適合度の高い文書のうち文書内容が同一か、また
    はほぼ同一の文書を削除し、削除されずに残った文書か
    ら適合度の高い文書を抽出する適合文書抽出部と、 前記適合文書抽出部で抽出された適合文書から前記キー
    ワードに関連する関連語を抽出する関連語抽出部と、 前記関連語抽出部で抽出された関連語を前記キーワード
    に付加して新しいキーワードを生成するキーワード生成
    部とを備え、 前記適合文書抽出部は、再度、前記キーワード生成部で
    生成した新しいキーワードによって検索し、ユーザの所
    望する的確な文書を得る機能を実現するための文書検索
    プログラムを記録したコンピュータ読み取り可能な記録
    媒体。
JP2000333509A 2000-10-31 2000-10-31 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体 Expired - Fee Related JP4154118B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000333509A JP4154118B2 (ja) 2000-10-31 2000-10-31 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000333509A JP4154118B2 (ja) 2000-10-31 2000-10-31 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体

Publications (2)

Publication Number Publication Date
JP2002140366A true JP2002140366A (ja) 2002-05-17
JP4154118B2 JP4154118B2 (ja) 2008-09-24

Family

ID=18809583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000333509A Expired - Fee Related JP4154118B2 (ja) 2000-10-31 2000-10-31 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体

Country Status (1)

Country Link
JP (1) JP4154118B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058566A (ja) * 2001-08-20 2003-02-28 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
JP2009193584A (ja) * 2008-02-13 2009-08-27 Fujitsu Ltd ワードセットに関係するワードの決定
JP2010055155A (ja) * 2008-08-26 2010-03-11 Nec Biglobe Ltd サーバ装置、情報処理方法およびプログラム
JP2010055159A (ja) * 2008-08-26 2010-03-11 Nec Biglobe Ltd 情報検索装置、情報検索方法、およびプログラム
JP2010286888A (ja) * 2009-06-09 2010-12-24 Nec Corp 情報収集システムおよび情報収集方法ならびにそのプログラム
JP2013069170A (ja) * 2011-09-22 2013-04-18 Toshiba Corp 検索装置、検索方法およびプログラム
JP2014006737A (ja) * 2012-06-25 2014-01-16 Yahoo Japan Corp 情報提供装置、情報提供方法及び情報提供プログラム
JP2014006735A (ja) * 2012-06-25 2014-01-16 Yahoo Japan Corp 情報提供装置、情報提供方法及び情報提供プログラム
JP2015165348A (ja) * 2014-02-28 2015-09-17 三菱日立パワーシステムズ株式会社 運転支援システム及びその制御方法並びにその制御プログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058566A (ja) * 2001-08-20 2003-02-28 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
JP2009193584A (ja) * 2008-02-13 2009-08-27 Fujitsu Ltd ワードセットに関係するワードの決定
JP2010055155A (ja) * 2008-08-26 2010-03-11 Nec Biglobe Ltd サーバ装置、情報処理方法およびプログラム
JP2010055159A (ja) * 2008-08-26 2010-03-11 Nec Biglobe Ltd 情報検索装置、情報検索方法、およびプログラム
JP4587236B2 (ja) * 2008-08-26 2010-11-24 Necビッグローブ株式会社 情報検索装置、情報検索方法、およびプログラム
JP4640554B2 (ja) * 2008-08-26 2011-03-02 Necビッグローブ株式会社 サーバ装置、情報処理方法およびプログラム
US8838616B2 (en) 2008-08-26 2014-09-16 Nec Biglobe, Ltd. Server device for creating list of general words to be excluded from search result
JP2010286888A (ja) * 2009-06-09 2010-12-24 Nec Corp 情報収集システムおよび情報収集方法ならびにそのプログラム
JP2013069170A (ja) * 2011-09-22 2013-04-18 Toshiba Corp 検索装置、検索方法およびプログラム
JP2014006737A (ja) * 2012-06-25 2014-01-16 Yahoo Japan Corp 情報提供装置、情報提供方法及び情報提供プログラム
JP2014006735A (ja) * 2012-06-25 2014-01-16 Yahoo Japan Corp 情報提供装置、情報提供方法及び情報提供プログラム
JP2015165348A (ja) * 2014-02-28 2015-09-17 三菱日立パワーシステムズ株式会社 運転支援システム及びその制御方法並びにその制御プログラム

Also Published As

Publication number Publication date
JP4154118B2 (ja) 2008-09-24

Similar Documents

Publication Publication Date Title
JP5437557B2 (ja) 検索処理方法及び検索システム
US8150846B2 (en) Content searching and configuration of search results
US6985948B2 (en) User's right information and keywords input based search query generating means method and apparatus for searching a file
JP2006331117A (ja) 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム
JP4796538B2 (ja) コメントデータを関連付ける方法
JP2001175680A (ja) 人脈データ管理システムと人脈探索方法
JP4154118B2 (ja) 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体
JP2011203964A (ja) 文書管理システム及び方法
JP5458861B2 (ja) 文書検索装置、プログラム、文書登録装置、および文書検索システム
JP2010282241A (ja) ファイル管理装置、ファイル管理システム、ファイル管理方法、および、プログラム
JP4212347B2 (ja) 文書検索装置、プログラムおよび記録媒体
JPH09212517A (ja) 情報代行検索方法及び装置
JP2002024262A (ja) 情報源所在推定方法及び装置及び情報源所在推定プログラムを格納した記憶媒体
JP4208402B2 (ja) 文書検索装置、文書検索方法および記録媒体
JP4671212B2 (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2002245039A (ja) 文書検索方法及びシステム及び文書検索プログラム及び文書検索プログラムを格納した記憶媒体
KR100382600B1 (ko) 네트워크 시스템을 이용한 통합웹검색서비스 제공방법 및그 방법을 기록한 컴퓨터로 읽을 수 있는 기록매체
JP2006185059A (ja) コンテンツ管理装置
JP4259858B2 (ja) Wwwサイト履歴検索装置及び方法並びにプログラム
JP4773003B2 (ja) 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
JP4152669B2 (ja) 文書検索装置、文書検索方法、記録媒体及びプログラム
JP2812357B2 (ja) データベース検索システム
JP2004178070A (ja) 情報検索方法及び情報検索装置並びにプログラム
JP2003216646A (ja) 文書検索装置、文書検索方法、文書検索プログラム及びこのプログラムを記録した記録媒体
JP2003296349A (ja) データ検索装置及びサーバ更新方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050127

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071218

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080617

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080707

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110711

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120711

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120711

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130711

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees