JPH1145267A - 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JPH1145267A
JPH1145267A JP9201984A JP20198497A JPH1145267A JP H1145267 A JPH1145267 A JP H1145267A JP 9201984 A JP9201984 A JP 9201984A JP 20198497 A JP20198497 A JP 20198497A JP H1145267 A JPH1145267 A JP H1145267A
Authority
JP
Japan
Prior art keywords
search
document
retrieval
score
noun phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9201984A
Other languages
English (en)
Other versions
JP4091146B2 (ja
Inventor
Kazunobu Ukikawa
和宣 浮川
Hatsuko Ukikawa
初子 浮川
Atsushi Takato
淳 高藤
Yoshiya Arai
好哉 荒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP20198497A priority Critical patent/JP4091146B2/ja
Publication of JPH1145267A publication Critical patent/JPH1145267A/ja
Application granted granted Critical
Publication of JP4091146B2 publication Critical patent/JP4091146B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 情報分析や新たな価値の創出に寄与すること
ができるようにすること。 【解決手段】 検索サーバ103は、クライアント10
0から検索条件を入力して該当する文書を検索し、検索
結果の文書から名詞句を抽出し、抽出した名詞句に対し
て、検索結果の文書および検索対象の文書における出現
頻度および分布等の統計情報に応じたスコアを付与し、
予め設定された抽出条件に該当するスコアの名詞句を検
索条件の関連語として抽出する検索ソフト105と、少
なくとも、検索条件,検索手段による検索結果,関連語
抽出手段で抽出した関連語および検索を行った日付を検
索結果履歴として記憶して管理する検索結果履歴管理ソ
フト106と、を備えており、クライアント100は、
検索結果履歴管理ソフト106で管理された検索結果履
歴を読み出して画面表示し、この検索結果履歴を利用し
て検索を行ったり、情報の分析を行ったりすることがで
きる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索を行った後、
少なくとも、検索条件,検索結果,関連語および検索を
行った日付を検索結果履歴として記憶しておき、記憶し
た検索結果履歴を後の検索処理に利用することができる
ようにして、情報分析や新たな価値の創出に寄与するこ
とができるようにした文書検索装置およびその装置とし
てコンピュータを機能させるためのプログラムを記録し
たコンピュータ読み取り可能な記録媒体に関する。
【0002】
【従来の技術】複数の文書を格納した文書DB(データ
ベース)から特定の文書を検索する文書検索装置は、一
般に、検索式や検索文等の検索条件を入力し、入力した
検索条件に該当する文書を文書DBから検索するもので
ある。
【0003】ところで、文書検索装置で一度検索を行っ
た後、同一または類似の検索条件で再度検索を行うには
再び検索条件を入力しなければならなかったことから、
検索を行う毎に検索条件や検索結果を保存できるように
し、次回検索を行う際に、保存しておいた検索条件や検
索結果を利用することができるようにした文書検索装置
が提案されている。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の技術においては、単に検索条件や検索結果を保存す
るだけであるため、検索結果を元にして情報の分析を行
う場合等には使い勝手が悪いという問題点があった。特
に、検索結果を定点観測的な比較分析に利用する場合に
は、ユーザが独自に分析のためのデータの整理および管
理を行う必要があった。
【0005】本発明は上記に鑑みてなされたものであっ
て、検索を行った後、少なくとも、検索条件,検索結
果,関連語および検索を行った日付を検索結果履歴とし
て記憶しておき、記憶した検索結果履歴を後の検索処理
に利用することができるようにして、情報分析や新たな
価値の創出に寄与することができるようにすることを目
的とする。
【0006】
【課題を解決するための手段】上記目的を達成するた
め、請求項1の文書検索装置は、検索条件に基づいて、
検索対象の文書から該当する文書を検索する文書検索装
置において、前記検索条件を入力し、入力した検索条件
に基づいて、該当する文書を検索する検索手段と、前記
検索手段で検索した結果の文書から名詞句を抽出し、抽
出した名詞句に対して、前記検索手段で検索した結果の
文書および検索対象の文書における出現頻度および分布
等の統計情報に応じたスコアを付与するスコア付与手段
と、前記スコア付与手段で付与したスコアに基づいて、
予め設定された抽出条件に該当するスコアの名詞句を前
記検索条件の関連語として抽出する関連語抽出手段と、
前記入力した検索条件,検索手段による検索結果,関連
語抽出手段で抽出した関連語および検索を行った日付を
少なくとも検索結果履歴として記憶する履歴記憶手段
と、前記履歴記憶手段に記憶された検索結果履歴を読み
出して画面表示する表示手段と、を備えたものである。
【0007】また、請求項2のコンピュータ読み取り可
能な記録媒体は、前記請求項1に記載の文書検索装置の
各手段としてコンピュータを機能させるためのプログラ
ムを記録したものである。
【0008】
【発明の実施の形態】以下、本発明の文書検索装置およ
びその装置としてコンピュータを機能させるためのプロ
グラムを記録したコンピュータ読み取り可能な記録媒体
の実施の形態について、添付の図面を参照しつつ詳細に
説明する。
【0009】図1は、本実施の形態の文書検索装置のシ
ステム構成図である。図1に示す文書検索装置は、所望
の文書を検索するための検索条件を出力する複数のクラ
イアント100と、文書DB(データベース)101の
文書を用いて転置ファイル102を生成すると共に、ベ
クトル空間法を用いた検索を行う検索エンジン(例え
ば、CLARITECH社のCLARIT等)を用い
て、クライアント100から検索条件を入力し、入力し
た検索条件に基づいて、転置ファイル102から該当す
る文書を検索し、さらに、検索結果の文書から検索条件
の関連語を抽出する検索ソフト105および検索ソフト
105による検索結果の履歴を管理する検索結果履歴管
理ソフト106を備えた検索サーバ103と、上記クラ
イアント100や検索サーバ103等を接続するネット
ワーク104と、から構成されている。
【0010】図1において、文書DB101は、クライ
アント100等で作成された複数の文書を格納したもの
であり、格納される文書は、ワープロ文書や、SGM
L,HTML等の構造化文書等、いかなる種類の文書で
あっても良い。本実施の形態においては、文書DB10
1に格納された文書を検索対象とするが、検索対象を文
書DB101中の文書に限定するものではない。
【0011】転置ファイル102は、文書DB101中
の複数の文書と、これら複数の文書それぞれから後述す
る方法で抽出した複数の索引語との関係を規定すること
により、ある索引語が各文書それぞれにおいてどの程度
重要な語彙であるかをベクター表現を用いて示したもの
であって、この索引語を用いて該当する文書を検索する
ことができるようにしたものである。
【0012】具体的には、1つの文書を予め定めた複数
のセンテンスからなるサブドキュメント単位に区切り、
サブドキュメントから上記索引語となる名詞句を抽出し
て、抽出した名詞句それぞれについて、サブドキュメン
ト中の出現頻度,文書DB101全体における分布等の
統計情報を求め、求めた名詞句毎の統計情報を用いて各
サブドキュメントをベクター表現に変換する。そして、
変換したサブドキュメントのベクター表現に基づいて、
文書のベクター表現を生成する。転置ファイル102
は、このようにしてベクター表現された文書DB101
中の文書を格納するものである。
【0013】なお、各索引語には、対応する文書中の重
要度に応じた重み付けを行うことができる。また、文書
のベクター表現については、実際の検索を行う際に、サ
ブドキュメントのベクター表現に基づいて生成すること
にしても良い。
【0014】クライアント100および検索サーバ10
3は、パーソナルコンピュータやワークステーション等
によって構成される。図2は、検索サーバ103におけ
る検索ソフト105の処理を示す概略ブロック図であ
る。検索サーバソフト105は、文書DB101中の文
書を転置ファイル102に登録する処理と、ベクトル空
間法を利用した文書の検索処理と、検索結果の文書から
検索条件の関連語を抽出する処理を行うものである。
【0015】検索ソフト105において、文書DB10
1中の文書を転置ファイル102に登録する処理は、自
然言語処理モジュール200と、データベース・ビルド
・コンポーネント205とによって行われる。
【0016】具体的に、自然言語処理モジュール200
は、文書DB101から文書を入力し、入力した文書に
ついて、フォーマットの認識処理や、品詞情報等を格納
した辞書201および各単語の係り受け等を解析するた
めの文法辞書202を用いて形態素解析,構文解析,名
詞句抽出等の解析処理を行い、上述したサブドキュメン
ト毎の名詞句リストを含むドキュメント・セット204
を生成する。
【0017】データベース・ビルド・コンポーネント2
05は、自然言語処理モジュール200で生成したドキ
ュメント・セット204を入力し、入力したドキュメン
ト・セット204中の各サブドキュメントをベクター表
現に変換すると共に、サブドキュメントのベクター表現
に基づいて、文書のベクター表現を生成して転置ファイ
ル102に登録する。
【0018】また、検索ソフト105において、文書の
検索処理は、自然言語処理モジュール200と、クエリ
ー・ビルド・コンポーネント207と、検索エンジン2
09とによって行われる。
【0019】具体的に、自然言語処理モジュール200
は、クライアント100から検索条件206を入力し、
品詞情報等を格納した辞書201および各単語の係り受
け等を解析するための文法辞書202を用いて形態素解
析,構文解析,名詞句抽出等の解析処理を行い、検索条
件206の名詞句のリストを含むドキュメント・セット
204を生成する。
【0020】クエリー・ビルド・コンポーネント207
は、ドキュメント・セット204を入力し、検索条件2
06を構成する各名詞句について、検索条件206(ド
キュメント・セット204)中の出現頻度,文書DB1
01(転置ファイル102)全体における分布等の統計
情報を求め、求めた統計情報を用いて検索条件206を
ベクター表現に変換したクエリー・ドキュメント208
を生成する。
【0021】検索エンジン209は、クエリー・ビルド
・コンポーネント207で生成したクエリー・ドキュメ
ント208を入力し、転置ファイル102中の各文書の
ベクター表現とクエリー・ドキュメント208(検索条
件206のベクター表現)とを比較して、クエリー・ド
キュメント208との類似度に応じたスコアを各文書に
付与し、所定の閾値を超えるスコアが付与された文書リ
スト210を出力する。
【0022】さらに、検索ソフト105において、関連
語の抽出処理は、自然言語処理モジュール200と、関
連語抽出エンジン211とによって行われる。
【0023】具体的に、自然言語処理モジュール200
は、クライアント100で文書リスト210から文書を
選択した結果を検索結果として入力し、文書DB101
から検索結果に該当する文書を入力する。そして、入力
した全ての文書について、フォーマットの認識処理や、
品詞情報等を格納した辞書201および各単語の係り受
け等を解析するための文法辞書202を用いて形態素解
析,構文解析,名詞句抽出等の解析処理を行い、上述し
たサブドキュメント毎の名詞句リストを含むドキュメン
ト・セット204を生成する。
【0024】関連語抽出エンジン211は、自然言語処
理モジュール200で生成したドキュメント・セット2
04を入力し、入力したドキュメント・セット204中
の各名詞句それぞれについて、各文書(ドキュメント・
セット204)中の出現頻度や文書DB101(転置フ
ァイル102)中の分布等の統計データを演算し、演算
した統計データに基づいて、各名詞句にスコアを付与す
る。そして、予め設定した閾値を超えるスコアの名詞句
を検索条件206の関連語句として抽出し、抽出した結
果を関連語リスト212として出力する。
【0025】また、検索サーバ103において、検索結
果履歴ソフト106は、検索を行った後、検索条件,検
索対象,検索結果,関連語,関連文書,日付,検索者,
コメント等を検索結果履歴として記憶しておき、クライ
アント100の要求に応じて、クライアント100のユ
ーザが参照することができるように管理するものであ
る。
【0026】なお、図1においては、文書DB101お
よび転置ファイル102をネットワーク104に単独に
接続した構成を示したが、これらを検索サーバ103に
直接接続する構成としても良い。また、図1において
は、本実施の形態の文書検索装置をネットワーク104
を介したシステムで構成するように示したが、クライア
ント100と検索サーバ103の処理を1つのコンピュ
ータで行うようにすることもできる。
【0027】次に、上述した構成を備えた文書検索装置
の動作について、(1)転置ファイルの生成処理,
(2)文書の検索処理,(3)関連語の抽出処理,
(4)検索結果履歴の利用の順で詳細に説明する。
【0028】(1)転置ファイルの生成処理 図3は、転置ファイルの生成処理を示すフローチャート
である。検索サーバ103の検索ソフト105は、新た
な文書が文書DB101に登録された場合(S30
1)、この文書を入力して転置ファイル102に登録す
るための処理を開始する(S302)。
【0029】検索ソフト105において、自然言語処理
モジュール200は、ステップS302で入力した文書
を解析する処理を行う(S303)。具体的には、入力
した文書がワープロ文書,HTML等の構造化文書等、
いかなるフォーマットの文書であるかを判定する処理を
行う。その後、辞書201および文法辞書202を用い
て形態素解析,係り受け等の構文解析を行い、文書を複
数のサブドキュメントに区分すると共に、区分したサブ
ドキュメントから名詞句を抽出する等の処理を行う。
【0030】そして、自然言語処理モジュール200
は、ステップS303における処理の結果に基づいて、
サブドキュメント毎に名詞句リストを生成し、生成した
名詞句リストを含むドキュメント・セット204を生成
する(S304)。
【0031】その後、データベース・ビルド・コンポー
ネント205は、自然言語処理モジュール200で生成
したドキュメント・セット204を入力し、文書のベク
ター表現を生成して転置ファイル102に登録する処理
を行う(S305)。
【0032】具体的には、ドキュメント・セット204
中のサブドキュメントの各名詞句を転置ファイル102
の索引語として、サブドキュメント中の出現頻度,文書
DB101全体における分布等の統計情報を求め、求め
た名詞句毎の統計情報を用いてサブドキュメントをベク
ター表現に変換する。この処理をドキュメント・セット
204中の全てのサブドキュメントについて行い、変換
したサブドキュメントのベクター表現に基づいて、文書
のベクター表現を生成して転置ファイル102に登録す
る。その結果、文書DB101に新たに登録された文書
がベクター表現に変換されて転置ファイル102に登録
されることになり、転置ファイル102は常に最新の状
態に保たれる。
【0033】(2)文書の検索処理 次に、上述したようにして生成した転置ファイル102
に基づいて、文書を検索する処理について説明する。図
4は、文書の検索処理を示すフローチャートである。
【0034】検索サーバ103の検索ソフト105は、
クライアント100から検索条件206を入力すると
(S401)、自然言語処理モジュール200におい
て、検索条件206の解析処理を行う(S402)。こ
の検索条件206は、自然言語で記述された検索文であ
り、文書検索装置の構成により、検索式,キーワードの
集合等に変更することも可能である。自然言語処理モジ
ュール200は、具体的に、検索条件206について、
辞書201および文法辞書202を用いて形態素解析,
係り受け等の構文解析処理を行い、検索条件206から
名詞句を抽出する処理を行う。
【0035】そして、自然言語処理モジュール200
は、ステップS402で解析処理を行うことによって抽
出した名詞句からなるドキュメント・セット204を生
成する(S403)。
【0036】続いて、クエリー・ビルド・コンポーネン
ト207は、自然言語処理モジュール200からドキュ
メント・セット204を入力し、入力したドキュメント
・セット204を構成する各名詞句について、検索条件
206(ドキュメント・セット204)中の出現頻度,
文書DB101(転置ファイル102)全体における分
布等の統計情報を求め、求めた統計情報を用いてドキュ
メント・セット204をベクター表現に変換したクエリ
ー・ドキュメント208を生成する(S404)。
【0037】検索エンジン209は、クエリー・ビルド
・コンポーネント207で生成したクエリー・ドキュメ
ント208を入力し、転置ファイル102中の各文書の
ベクター表現とクエリー・ドキュメント208(検索条
件206のベクター表現)とを比較して、クエリー・ド
キュメント208との類似度に応じたスコアを各文書に
付与する(S405)。すなわち、ベクトル空間法を用
いた検索処理が行われる。
【0038】なお、類似度に応じたスコアは、各文書と
クエリー・ドキュメント208との類似度を余弦距離に
基づいて表現したものであり、スコアが大きい文書がよ
りクエリー・ドキュメント208と類似していることを
表している。
【0039】そして、検索エンジン209は、予め設定
されたスコアの閾値に基づいて、閾値を超えるスコアが
付与された文書を選択し、選択した文書に基づいて、文
書リスト210を生成してクライアント100に出力す
る(S406)。
【0040】クライアント100は、検索サーバ103
から文書リスト210を入力し、入力した文書リスト2
10に基づいて、検索された文書一覧を画面表示する
(S407)。クライアント100のユーザは、画面表
示された文書一覧から所望の文書を選択することによ
り、文書DB101中の文書を画面表示させることがで
きる。
【0041】なお、クライアント100においては、上
位のランキングの文書から順に一覧表示される。したが
って、検索条件206に最も類似する文書から順に表示
されることになり、ユーザが文書を選択する際の基準を
提供することができる。
【0042】(3)関連語の抽出処理 続いて、上述した検索処理において検索した文書から検
索条件206の関連語を抽出する処理について説明す
る。図5は、関連語の抽出処理を示すフローチャートで
ある。
【0043】クライアント100のユーザは、画面表示
された文書一覧から検索結果としてふさわしい文書を選
択し、選択した文書を検索結果として検索サーバ103
に出力する。検索サーバ103の検索ソフト105は、
クライアント100から検索結果を入力すると(S50
1)、検索結果に該当する文書を文書DB101から入
力する(S502)。
【0044】なお、後に詳細に説明するが、クライアン
ト100から入力した検索結果は、検索結果履歴管理ソ
フトにおいて検索結果履歴として記憶され、管理される
ことになる。
【0045】文書DB101から文書を入力すると、自
然言語処理モジュール200は、入力した全ての文書に
ついて、フォーマットの認識処理や、品詞情報等を格納
した辞書201および各単語の係り受け等を解析するた
めの文法辞書202を用いて形態素解析,構文解析,名
詞句抽出等の解析処理を行う(S503)。
【0046】その後、ステップS503における解析処
理の結果に基づいて、サブドキュメント毎の名詞句リス
トを含むドキュメント・セット204を生成する(S5
04)。
【0047】関連語抽出エンジン211は、自然言語処
理モジュール200で生成したドキュメント・セット2
04を入力し、入力したドキュメント・セット204中
の各名詞句それぞれについて、各文書(ドキュメント・
セット204)中の出現頻度や文書DB101(転置フ
ァイル102)中の分布等の統計データを演算する(S
505)。
【0048】ステップS505で統計データを演算した
後、関連語抽出エンジン211は、求めた統計データに
基づいて、各名詞句に対してスコア付けを行う(S50
6)。このスコアは、文書200における各名詞句の重
要性および検索条件206中の名詞句に対する関連性を
表すもので、スコアが大きいもの程、重要性および関連
性が高いことを表している。
【0049】関連語抽出エンジン211は、ステップS
506で行ったスコア付けの結果に基づいて、予め設定
された閾値を超えるスコアの名詞句を検索条件206中
の名詞句に関連する関連語として抽出する(S50
7)。なお、ここでは、関連語を抽出する条件として閾
値を用いることにしたが、閾値に代えて、例えば、上位
5番までのスコアの名詞句を抽出することにしても良
い。
【0050】その後、関連語抽出エンジン211は、ス
テップS507で抽出した関連語からなる関連語リスト
212を生成して、クライアント100に出力する(S
508)。
【0051】クライアント100は、検索サーバ103
から関連語リスト212を入力し、抽出された関連語を
一覧表示する。クライアント100のユーザは、一覧表
示された関連語から検索結果履歴として記憶させる関連
語を選択して、検索サーバ103に出力する。
【0052】(4)検索結果履歴の利用 さらに、上述したようにして文書を検索した結果および
検索結果の文書から抽出した関連語等を検索結果履歴と
して記憶し、記憶した検索結果履歴をいかにして利用す
るかについて説明する。
【0053】検索サーバ103の検索結果履歴管理ソフ
ト106は、クライアント100から入力した検索結果
(図5のステップS501参照)および関連語の選択結
果、さらには、検索を行った日付やユーザ名等のユーザ
情報等を用いて、検索結果履歴を作成して記憶する。
【0054】図6は、検索結果履歴の一例を示す説明図
である。図6に示す検索結果履歴600には、検索に用
いた検索条件,検索対象,関連語,検索結果,関連文
書,日付,検索者等の欄が設けられている。また、この
検索結果履歴600には、どのような意図で検索を行っ
たかを記録しておくためのコメント欄が設けられてお
り、クライアント100からコメントを書き込むことが
できるようになっている。
【0055】上述したように、文書DB101に新たな
文書が登録される毎に、転置ファイル102は常に更新
されることになる。したがって、同一の検索条件206
を用いて検索を行った場合であっても、最新の検索結果
と一年前の検索結果は異なることがあり、この間の定点
観測的な比較分析により、予測やリスク管理等の状況を
見出せることがある。
【0056】例えば、同一トピックに関する新聞記事の
経時的変化(検索結果)とその時々の社会状況(政権交
代など)等のコメントとを併せ、検索結果履歴600中
に記憶・管理しておくことにより、ある出来事が起きた
場合にその検索結果履歴600を利用して、情報の分析
を行うことができる。このような情報(コメント)の例
としては、「火山の噴火で小麦の収穫量が変化する」、
「産業政策によってある産業の景気が左右される」等が
ある。
【0057】このように、検索結果履歴管理ソフト10
6で作成し、記憶した検索結果履歴600は、クライア
ント100から必要に応じて読み出すことができ、クラ
イアント100のユーザは、この検索結果履歴600を
利用して、検索処理に活用することができると共に、最
新の検索結果と過去の検索結果履歴とを利用して、情報
の分析を行うことができる。
【0058】なお、図6に示してあるように、検索結果
履歴600には、同一の検索条件206を用いて定期的
に検索を行うことができるように、自動検索条件欄が設
けられている。ここに検索を自動的に行う時期等の条件
を書き込んでおくことにより、検索ソフト105に定期
的にかつ自動的に検索を行わせることができる。
【0059】以上のように、本実施の形態の文書検索装
置によれば、検索を行った後、少なくとも、検索条件,
検索結果,関連語および検索を行った日付を検索結果履
歴として記憶しておき、記憶した検索結果履歴を利用し
て検索処理を行うことができるようにすることにより、
情報分析や新たな価値の創出に寄与することができる。
【0060】なお、検索結果として一覧表示された文書
において、ユーザが検索結果としてふさわしいと思う文
書やふさわしくないと思う文書については、その結果を
検索サーバ103にフィードバックすることができる。
すなわち、ユーザは、検索結果としてふさわしいと思う
文書に対して、正の重み、例えば「+」を指定すること
ができ、検索結果としてふさわしくないと思う文書に対
して負の重み、例えば「−」を指定することができる。
その結果、入力した重みが正の指定である場合には、転
置ファイル102中の該当する文書の重みが強化され、
入力した重みが負の指定である場合には、文書の重みが
弱められる。
【0061】また、本実施の形態においては、ベクトル
空間法による検索を例にとって説明したが、ブーリアン
検索により検索処理を行うことにしても良い。
【0062】さらに、本実施の形態で説明した文書検索
装置は、予め用意されたプログラムをコンピュータやワ
ークステーションで実行することによって実現される。
このプログラムは、ハードディスク,フロッピーディス
ク,CD−ROM,MO,DVD等のコンピュータで読
み取り可能な記録媒体に記録され、コンピュータによっ
て記録媒体から読み出されることによって実行される。
また、このプログラムは、上記記録媒体を介して、また
はネットワークを介して配布することができる。
【0063】
【発明の効果】以上説明したように、本発明の文書検索
装置(請求項1)によれば、検索条件を入力し、入力し
た検索条件に基づいて、該当する文書を検索する検索手
段と、検索手段で検索した結果の文書から名詞句を抽出
し、抽出した名詞句に対して、検索手段で検索した結果
の文書および検索対象の文書における出現頻度および分
布等の統計情報に応じたスコアを付与するスコア付与手
段と、スコア付与手段で付与したスコアに基づいて、予
め設定された抽出条件に該当するスコアの名詞句を検索
条件の関連語として抽出する関連語抽出手段と、入力し
た検索条件,検索手段による検索結果,関連語抽出手段
で抽出した関連語および検索を行った日付を少なくとも
検索結果履歴として記憶する履歴記憶手段と、履歴記憶
手段に記憶された検索結果履歴を読み出して画面表示す
る表示手段と、を備えたため、情報分析や新たな価値の
創出に寄与することができる。
【0064】また、本発明のコンピュータ読み取り可能
な記録媒体(請求項2)によれば、請求項1に記載の文
書検索装置の各手段としてコンピュータを機能させるた
めのプログラムを記録したため、このプログラムをコン
ピュータに実行させることにより、情報分析や新たな価
値の創出に寄与することができる文書検索装置を実現す
ることができる。
【図面の簡単な説明】
【図1】本実施の形態の文書検索装置のシステム構成図
である。
【図2】本実施の形態の文書検索装置において、検索ソ
フトの処理を示す概略ブロック図である。
【図3】本実施の形態の文書検索装置において、転置フ
ァイルの生成処理を示すフローチャートである。
【図4】本実施の形態の文書検索装置において、文書の
検索処理を示すフローチャートである。
【図5】本実施の形態の文書検索装置において、関連語
の抽出処理を示すフローチャートである。
【図6】本実施の形態の文書検索装置において、検索結
果履歴の一例を示す説明図である。
【符号の説明】
100 クライアント 101 文書DB 102 転置ファイル 103 検索サーバ 104 ネットワーク 105 検索ソフト 106 検索結果履歴管理ソフト 200 自然言語処理モジュール 201 辞書 202 文法辞書 204 ドキュメント・セット 205 データベース・ビルド・コンポーネント 206 検索条件 207 クエリー・ビルド・コンポーネント 208 クエリー・ドキュメント 209 検索エンジン 210 文書リスト 211 関連語抽出エンジン 212 関連語リスト 600 検索結果履歴
───────────────────────────────────────────────────── フロントページの続き (72)発明者 荒井 好哉 徳島市沖浜東3丁目46番地 株式会社ジャ ストシステム内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 検索条件に基づいて、検索対象の文書か
    ら該当する文書を検索する文書検索装置において、 前記検索条件を入力し、入力した検索条件に基づいて、
    該当する文書を検索する検索手段と、 前記検索手段で検索した結果の文書から名詞句を抽出
    し、抽出した名詞句に対して、前記検索手段で検索した
    結果の文書および検索対象の文書における出現頻度およ
    び分布等の統計情報に応じたスコアを付与するスコア付
    与手段と、 前記スコア付与手段で付与したスコアに基づいて、予め
    設定された抽出条件に該当するスコアの名詞句を前記検
    索条件の関連語として抽出する関連語抽出手段と、 前記入力した検索条件,検索手段による検索結果,関連
    語抽出手段で抽出した関連語および検索を行った日付を
    少なくとも検索結果履歴として記憶する履歴記憶手段
    と、 前記履歴記憶手段に記憶された検索結果履歴を読み出し
    て画面表示する表示手段と、 を備えたことを特徴とする文書検索装置。
  2. 【請求項2】 前記請求項1に記載の文書検索装置の各
    手段としてコンピュータを機能させるためのプログラム
    を記録したことを特徴とするコンピュータ読み取り可能
    な記録媒体。
JP20198497A 1997-07-28 1997-07-28 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP4091146B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20198497A JP4091146B2 (ja) 1997-07-28 1997-07-28 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20198497A JP4091146B2 (ja) 1997-07-28 1997-07-28 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPH1145267A true JPH1145267A (ja) 1999-02-16
JP4091146B2 JP4091146B2 (ja) 2008-05-28

Family

ID=16450019

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20198497A Expired - Fee Related JP4091146B2 (ja) 1997-07-28 1997-07-28 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4091146B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000063310A (ko) * 2000-06-26 2000-11-06 민재기 통신망을 통한 명사의 순위 검색 시스템과 그 방법
JP2001344276A (ja) * 2000-06-02 2001-12-14 Hitachi Ltd 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
JP2002073678A (ja) * 2000-06-23 2002-03-12 Internatl Business Mach Corp <Ibm> 検索エンジン照会のwebベースの共用のためのシステムおよび方法
JP2002073639A (ja) * 2000-08-31 2002-03-12 Nri & Ncc Co Ltd ナレッジマネジメントシステム
KR100408965B1 (ko) * 2000-06-26 2003-12-06 주식회사쓰리소프트 검색조건을 추천하는 검색결과 제공방법 및 검색서버
JP2004326220A (ja) * 2003-04-22 2004-11-18 Ricoh Co Ltd 文書検索装置、方法、プログラム、及び記録媒体
JP2005258496A (ja) * 2004-03-09 2005-09-22 Hitachi Ltd 検索意図を表す文字列を利用した情報検索システム
JP2006505020A (ja) * 2002-02-12 2006-02-09 ユナイテッド パーセル サービス オブ アメリカ インコーポレイテッド 外国由来の出荷品及び輸出品及び/又は手荷物検査点での乗客及び手荷物を電子処理に使用するシステム及び方法
JP2007183939A (ja) * 2006-01-06 2007-07-19 Internatl Business Mach Corp <Ibm> 検索方法、システム、プログラム記憶装置(前にアクセスしたローカルおよびオンラインの利用可能な情報ソースにアクセスし、強調表示する検索サービス)
KR100906928B1 (ko) 2007-03-26 2009-07-10 엔에이치엔비즈니스플랫폼 주식회사 비즈니스 키워드에 대한 연관 요소를 반영하는 검색어 추천 서비스 방법, 컴퓨터 판독 가능 기록 매체 및 그 시스템
JP2009169541A (ja) * 2008-01-11 2009-07-30 Yahoo Japan Corp Webページ検索サーバ及びクエリ推薦方法
JP2009223652A (ja) * 2008-03-17 2009-10-01 Toshiba Corp 情報提供サーバ及び情報提供方法
KR20110102317A (ko) * 2008-12-11 2011-09-16 마이크로소프트 코포레이션 최근 이력에 검색 결과를 제공
JP2018156328A (ja) * 2017-03-16 2018-10-04 富士通株式会社 検索支援プログラム、検索支援装置および検索支援方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001344276A (ja) * 2000-06-02 2001-12-14 Hitachi Ltd 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
US7725526B1 (en) 2000-06-23 2010-05-25 International Business Machines Corporation System and method for web based sharing of search engine queries
JP2002073678A (ja) * 2000-06-23 2002-03-12 Internatl Business Mach Corp <Ibm> 検索エンジン照会のwebベースの共用のためのシステムおよび方法
KR100408965B1 (ko) * 2000-06-26 2003-12-06 주식회사쓰리소프트 검색조건을 추천하는 검색결과 제공방법 및 검색서버
KR20000063310A (ko) * 2000-06-26 2000-11-06 민재기 통신망을 통한 명사의 순위 검색 시스템과 그 방법
JP2002073639A (ja) * 2000-08-31 2002-03-12 Nri & Ncc Co Ltd ナレッジマネジメントシステム
JP2006505020A (ja) * 2002-02-12 2006-02-09 ユナイテッド パーセル サービス オブ アメリカ インコーポレイテッド 外国由来の出荷品及び輸出品及び/又は手荷物検査点での乗客及び手荷物を電子処理に使用するシステム及び方法
US7738995B2 (en) 2002-02-12 2010-06-15 United Parcel Service Of America, Inc. Systems and methods for use in electronic processing of foreign origin and export shipments and/or passengers and baggage at security check points
JP2004326220A (ja) * 2003-04-22 2004-11-18 Ricoh Co Ltd 文書検索装置、方法、プログラム、及び記録媒体
JP2005258496A (ja) * 2004-03-09 2005-09-22 Hitachi Ltd 検索意図を表す文字列を利用した情報検索システム
JP2007183939A (ja) * 2006-01-06 2007-07-19 Internatl Business Mach Corp <Ibm> 検索方法、システム、プログラム記憶装置(前にアクセスしたローカルおよびオンラインの利用可能な情報ソースにアクセスし、強調表示する検索サービス)
KR100906928B1 (ko) 2007-03-26 2009-07-10 엔에이치엔비즈니스플랫폼 주식회사 비즈니스 키워드에 대한 연관 요소를 반영하는 검색어 추천 서비스 방법, 컴퓨터 판독 가능 기록 매체 및 그 시스템
JP2009169541A (ja) * 2008-01-11 2009-07-30 Yahoo Japan Corp Webページ検索サーバ及びクエリ推薦方法
JP2009223652A (ja) * 2008-03-17 2009-10-01 Toshiba Corp 情報提供サーバ及び情報提供方法
KR20110102317A (ko) * 2008-12-11 2011-09-16 마이크로소프트 코포레이션 최근 이력에 검색 결과를 제공
JP2018156328A (ja) * 2017-03-16 2018-10-04 富士通株式会社 検索支援プログラム、検索支援装置および検索支援方法

Also Published As

Publication number Publication date
JP4091146B2 (ja) 2008-05-28

Similar Documents

Publication Publication Date Title
US7783644B1 (en) Query-independent entity importance in books
JP3820242B2 (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
US8346795B2 (en) System and method for guiding entity-based searching
US7676452B2 (en) Method and apparatus for search optimization based on generation of context focused queries
US20160062981A1 (en) Methods and apparatus related to determining edit rules for rewriting phrases
US8521739B1 (en) Creation of inferred queries for use as query suggestions
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP4935243B2 (ja) 検索プログラム、情報検索装置及び情報検索方法
JP5204203B2 (ja) 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム
WO2019200699A1 (zh) 政务系统发文方法、装置、计算机设备及存储介质
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3767763B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145268A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145252A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP4000332B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2012104051A (ja) 文書インデックス作成装置
JPH1145266A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000105769A (ja) 文書表示方法
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070626

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080228

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110307

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees