JPH1145254A - 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JPH1145254A
JPH1145254A JP9199614A JP19961497A JPH1145254A JP H1145254 A JPH1145254 A JP H1145254A JP 9199614 A JP9199614 A JP 9199614A JP 19961497 A JP19961497 A JP 19961497A JP H1145254 A JPH1145254 A JP H1145254A
Authority
JP
Japan
Prior art keywords
document
search
sub
vector expression
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9199614A
Other languages
English (en)
Inventor
Atsushi Takato
淳 高藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP9199614A priority Critical patent/JPH1145254A/ja
Publication of JPH1145254A publication Critical patent/JPH1145254A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 検索対象を文書全体ではなく、文書のサブド
キュメントとし、検索条件に直接関連する文書中の記述
を検索結果として得ることができるようにして、検索結
果を便利に利用することができるようにすること。 【解決手段】 文書DB101中の文書を構成する各セ
ンテンスを任意の数のセンテンス,パラグラフ毎のセン
テンス等からなるグループに区分して、区分したグルー
プをサブドキュメントと定義し、このサブドキュメント
を管理する転置ファイル102と、クライアント100
から入力した検索条件に基づいて、該当するサブドキュ
メントの検索処理をベクトル空間法を用いて行う検索サ
ーバ103と、を備えている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書を構成するセ
ンテンスのいくつかをまとめたサブドキュメントを検索
対象とし、検索条件に直接関連する文書中の記述を検索
結果として得ることができるようにした文書検索装置お
よびその装置としてコンピュータを機能させるためのプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体に関する。
【0002】
【従来の技術】コンピュータの発達に伴って、紙を媒体
として記録され、また保存されていた文書についても、
電子化された情報として取り扱うことが一般的となり、
大量の電子化された文書がデータベースに蓄積されるこ
ととなっている。
【0003】ところで、大量の電子化された文書が蓄積
されていくに従って、大量の文書の中から所望の文書を
容易に探し出すことができる検索技術が重要となってく
る。特に、誰もがコンピュータを用いて作業を行う今日
にあっては、特殊な手法を用いることなく、コンピュー
タの初心者であっても簡単に所望の文書を検索できるよ
うな検索システムを構築することが重要なポイントとな
る。
【0004】検索の容易化を図るための1つの手法とし
て、人間が通常用いる自然言語を用いてクエリー(Qu
ery)を入力することができるようにする技術を挙げ
ることができる。この技術は、近年の自然言語処理技術
の発達に伴って、多くの検索システムに取り入れられつ
つある。
【0005】
【発明が解決しようとする課題】しかしながら、上記従
来の検索システムによれば、自然言語を用いることによ
ってクエリーの入力の容易化を図ることができるが、実
際に行われる処理は、クエリーに該当する文書を検索す
るものであるため、クエリーに直接該当する記述を含む
センテンスやパラグラフが欲しい場合に不便であるとい
う問題点があった。換言すれば、検索結果として得るこ
とができるのは文書そのものあるため、ある事項に関す
る記述を引用したいような場合においては、検索によっ
て得られた文書から必要な記述を探し出す作業が必要で
あった。このことは、従来の検索システムにおいては、
文書全体が検索対象であり、センテンスやパラグラフ等
の部分的な範囲を検索対象とすることが不可能であった
ことによるものである。
【0006】また、ベクトル空間法を用いて検索を行う
場合においては、検索対象となる文書とクエリーとをベ
クター表現に変換し、文書とクエリーとの類似度を求
め、所定の閾値を超える文書を検索結果として出力する
処理が行われる。ここで、検索対象の文書に複数のトピ
ックが含まれているような場合には、文書をベクター表
現に変換することによって各トピックが平均化されるこ
とになるため、たとえクエリーとの関連度の高いトピッ
クが文書中に含まれている場合であっても、文書全体と
クエリーの類似度は小さなものとなり、クエリーとの関
連性が低い文書として扱われる虞があるという問題があ
った。
【0007】本発明は上記に鑑みてなされたものであっ
て、検索条件に直接関連する文書中の記述を検索結果と
して得ることができるようにして、検索結果を便利に利
用することができるようにすることを目的とする。
【0008】また、本発明は上記に鑑みてなされたもの
であって、ベクトル空間法を用いて検索を行う場合に、
複数のトピックを含む文書を確実に検索することができ
るようにすることを目的とする。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、請求項1の文書検索装置は、ベクトル空間法を用い
て検索処理を行う文書検索装置において、文書を構成す
る各センテンスを任意の数のセンテンスまたはパラグラ
フ毎のセンテンス等からなるグループに区分して、区分
したグループをサブドキュメントと定義し、予め用意し
た文書をサブドキュメントの単位でベクター表現に変換
して格納する格納手段と、検索条件を入力する入力手段
と、前記入力手段を介して入力した検索条件をベクター
表現に変換する変換手段と、前記変換手段から入力した
前記検索条件のベクター表現に基づいて、前記格納手段
から該当する前記サブドキュメントを検索する検索手段
と、を備えたものである。
【0010】また、請求項2の文書検索装置は、請求項
1に記載の文書検索装置において、前記検索手段が、前
記検索条件のベクター表現と前記サブドキュメントのベ
クター表現との類似度を求め、求めた類似度が所定の閾
値を超えるサブドキュメントを選択し、選択したサブド
キュメントを類似度に応じて配列したリストを検索結果
として出力するものである。
【0011】また、請求項3の文書検索装置は、請求項
1または2に記載の文書検索装置において、さらに、前
記文書を構成するセンテンスの区分方法を指定するため
の指定手段と、前記指定手段を介して指定された前記セ
ンテンスの区分方法に基づいて、前記文書から前記サブ
ドキュメントを生成する生成手段と、を備え、前記格納
手段が、前記生成手段で生成したサブドキュメントをベ
クター表現に変換して格納するものである。
【0012】さらに、請求項4のコンピュータ読み取り
可能な記録媒体は、前記請求項1〜3のいずれか1つに
記載の文書検索装置の各手段としてコンピュータを機能
させるためのプログラムを記録したものである。
【0013】
【発明の実施の形態】以下、本発明の文書検索装置およ
びその装置としてコンピュータを機能させるためのプロ
グラムを記録したコンピュータ読み取り可能な記録媒体
の一実施の形態について、添付の図面を参照しつつ詳細
に説明する。
【0014】図1は、本実施の形態の文書検索装置のシ
ステム構成図である。図1に示す文書検索装置は、文書
中の所望の記述を検索するための検索条件を出力する複
数のクライアント100と、文書DB(データベース)
101から転置ファイル102を生成すると共に、ベク
トル空間検索を行うことができる検索エンジン(例え
ば、CLARITECH社のCLARIT等)を備え、
クライアント100から検索条件を入力し、入力した検
索条件に基づいて、転置ファイル102を用いて該当す
る文書中の記述を検索する検索サーバ103と、上記ク
ライアント100や検索サーバ103等を接続するネッ
トワーク104と、から構成されている。
【0015】図1において、文書DB101は、クライ
アント100等で作成された複数の文書を格納したもの
であり、格納される文書は、ワープロ文書や、SGM
L,HTML等の構造化文書等、いかなる種類の文書で
あっても良い。本実施の形態においては、この文書DB
101中の文書の一部分を検索対象とするが、検索対象
を文書DB101中のものに限定するものではない。
【0016】転置ファイル102は、一般に、文書DB
101中の複数の文書と、これら複数の文書それぞれか
ら後述する方法で抽出した複数の索引語との関係を規定
し、ある索引語が各文書それぞれにおいてどの程度重要
な語彙であるかを示したものであって、この索引語を用
いて該当する文書を検索することができるようにしたも
のである。本実施の形態の文書検索装置においては、こ
の転置ファイル102を、文書を検索対象とするのでは
なく、文書の一部分(後述するサブドキュメント)を検
索対象とするために用いる。
【0017】具体的には、1つの文書をサブドキュメン
トと呼ばれる任意の数のセンテンスからなる単位に区切
り、このサブドキュメントから上記索引語となる名詞句
を抽出する。そして、抽出した名詞句それぞれについ
て、サブドキュメント中の出現頻度,文書DB101全
体における分布等の統計情報を求め、求めた名詞句毎の
統計情報を用いて各サブドキュメントをベクター表現に
変換する。この処理を文書中の全てのサブドキュメント
について行い、転置ファイル102に格納する。
【0018】なお、各索引語には、対応する文書中の重
要度に応じた重み付けを行うことができる。また、サブ
ドキュメントだけでなく、文書を検索対象とする検索を
行う場合には、サブドキュメントのベクター表現に基づ
いて、文書のベクター表現を生成しておくか、検索を行
う際に生成することにすれば良い。
【0019】クライアント100および検索サーバ10
3は、パーソナルコンピュータやワークステーション等
によって構成される。図2は、クライアント100の処
理を示す概略ブロック図である。クライアント100
は、自然言語によって記述されたクエリー200を入力
し、入力したクエリー200について、品詞情報等を格
納した辞書202および各単語の係り受け等を解析する
ための文法辞書203を用いて形態素解析,構文解析等
の解析処理を行い、解析処理の結果に基づいて、クエリ
ー200から上記転置ファイル102の索引語に対応す
る名詞句からなる検索条件206を生成し、生成した検
索条件206を検索サーバ103に出力する自然言語処
理モジュール201を備えている。
【0020】また、図3は、検索サーバ103の処理を
示す概略ブロック図である。検索サーバ103は、文書
DB101中の文書を転置ファイル102に登録する処
理と、ベクトル空間検索を利用した検索処理とを行うも
のである。
【0021】この検索サーバ103は、文書DB101
から文書を入力し、文書のフォーマットの認識処理や、
品詞情報等を格納した辞書301および各単語の係り受
け等を解析するための文法辞書302を用いて形態素解
析,構文解析,名詞句抽出等の解析処理を行い、上述し
たサブドキュメント毎の名詞句リストを含むドキュメン
ト・セット303を生成する自然言語処理モジュール3
00と、自然言語処理モジュール300で生成したドキ
ュメント・セット303を入力し、入力したドキュメン
ト・セット303中の各サブドキュメントをベクター表
現に変換して転置ファイル102に登録するデータベー
ス・ビルド・コンポーネント304と、クライアント1
00から検索条件206を入力し、入力した検索条件2
06を構成する各名詞句について、クエリー200中の
出現頻度,文書DB101全体における分布等の統計情
報を求め、求めた名詞句毎の統計情報を用いて検索条件
206をベクター表現に変換したクエリー・ドキュメン
ト306を生成するクエリー・ビルド・コンポーネント
305と、クエリー・ビルド・コンポーネント305で
生成したクエリー・ドキュメント306を入力し、転置
ファイル102中の各サブドキュメントのベクトルとク
エリー・ドキュメント306のベクトルとを比較して、
クエリー・ドキュメント306との類似度に応じたスコ
アを各サブドキュメントに付与し、所定の閾値を超える
スコアが付与されたサブドキュメントを選択してサブド
キュメントリスト308を生成し、生成したサブドキュ
メントリスト308を検索結果として出力する検索エン
ジン307と、を備えている。
【0022】なお、図1においては、文書DB101お
よび転置ファイル102をネットワーク104に単独に
接続した構成を示したが、これらを検索サーバ103に
直接接続する構成としても良い。また、図1において
は、本実施の形態の文書検索装置をネットワーク104
を介したシステムで構成するように示したが、図2に示
したクライアント100の処理を図3に示した検索サー
バ103の自然言語処理モジュール300に行わせるよ
うに構成することにより、1台のコンピュータで本実施
の形態の文書検索装置を構成することができる。
【0023】次に、上述した構成を備えた文書検索装置
の動作について、(1)転置ファイルの生成処理,
(2)サブドキュメントの検索処理の順で詳細に説明す
る。
【0024】(1)転置ファイルの生成処理 図4は、転置ファイルの生成処理を示すフローチャート
である。検索サーバ103は、クライアント100等に
よって作成された新たな文書が文書DB101に登録さ
れた場合(S401)、この文書を入力して転置ファイ
ル102に登録するための処理を開始する(S40
2)。
【0025】検索サーバ103において、自然言語処理
モジュール300は、ステップS402で入力した文書
を解析する処理を行う(S403)。具体的には、入力
した文書がワープロ文書,HTML等の構造化文書等、
いかなるフォーマットの文書であるかを判定する処理を
行う。その後、辞書301および文法辞書302を用い
て形態素解析,係り受け等の構文解析を行い、文書を複
数のサブドキュメントに区分すると共に、区分したサブ
ドキュメントから名詞句を抽出する等の処理を行う。
【0026】なお、ステップS403で区分されたサブ
ドキュメントは、任意の数のセンテンスで構成される。
例えば、予め複数のセンテンスをサブドキュメントとし
ても良いし、パラグラフ単位のセンテンスをサブドキュ
メントとしても良い。本実施の形態においては、このサ
ブドキュメントが検索対象となることから、サブドキュ
メントをどのように構成するか、即ちセンテンスをどの
ように区切るかはユーザの好みにより設定・変更するこ
とができる。
【0027】そして、自然言語処理モジュール300
は、ステップS403における処理の結果に基づいて、
サブドキュメント毎に名詞句リストを生成し、生成した
名詞句リストを含むドキュメント・セット303を生成
する(S404)。
【0028】その後、データベース・ビルド・コンポー
ネント304は、自然言語処理モジュール300で生成
したドキュメント・セット303を入力し、転置ファイ
ル102に登録する処理を行う(S405)。
【0029】具体的には、ドキュメント・セット303
中のサブドキュメントの各名詞句を転置ファイル102
の索引語として、サブドキュメント中の出現頻度,文書
DB101全体における分布等の統計情報を求め、求め
た名詞句毎の統計情報を用いてサブドキュメントをベク
ター表現に変換する。この処理をドキュメント・セット
303中の全てのサブドキュメントについて行って、転
置ファイル102に登録する。
【0030】(2)サブドキュメントの検索処理 続いて、サブドキュメントの検索処理について説明す
る。図5は、サブドキュメントの検索処理を示すフロー
チャートである。クライアント100の自然言語処理モ
ジュール201は、ユーザによって入力されたクエリー
200を入力する(S501)。
【0031】自然言語処理モジュール201は、クエリ
ー200を入力すると、入力したクエリー200の解析
処理を行う(S502)。具体的には、辞書202およ
び文法辞書203を用いて形態素解析,係り受け等の構
文解析処理を行う。
【0032】続いて、自然言語処理モジュール201
は、ステップS502における解析結果に基づいて、ク
エリー200から検索条件を生成する(S503)。す
なわち、自然言語処理モジュール201は、クエリー2
00を構成する文字列から、転置ファイル102中の索
引語に対応する名詞句を抽出し、抽出した名詞句からな
る検索条件206を生成する。
【0033】上述したようにしてクエリー200から生
成した検索条件206は、クライアント100から検索
サーバ103に出力される。
【0034】そして、検索サーバ103のクエリー・ビ
ルド・コンポーネント305は、クライアント100か
ら検索条件206を入力し、入力した検索条件206を
構成する各名詞句について、クエリー200中の出現頻
度,文書DB101全体における分布等の統計情報を求
め、求めた名詞句毎の統計情報を用いて検索条件206
をベクター表現に変換したクエリー・ドキュメント30
6を生成する(S504)。
【0035】検索エンジン307は、クエリー・ビルド
・コンポーネント305で生成したクエリー・ドキュメ
ント306を入力し、転置ファイル102中のサブドキ
ュメントのベクトルとクエリー・ドキュメント306の
ベクトルとを比較して、クエリー・ドキュメント306
との類似度に応じたスコアを各サブドキュメントに付与
し、所定の閾値を超えるスコアが付与されたサブドキュ
メントを選択して、サブドキュメントリスト308を生
成する(S505)。
【0036】なお、類似度に応じたスコアは、各サブド
キュメントとクエリー・ドキュメント306との類似度
を余弦距離に基づいて表現したものであり、スコアが大
きいサブドキュメントがよりクエリー・ドキュメント3
06と類似していることを表している。そして、検索エ
ンジン307には、予めスコアの閾値が設定されてお
り、この閾値を超えるスコアが付与されたサブドキュメ
ントが検索結果とされる。
【0037】その後、検索エンジン307は、生成した
サブドキュメントリスト308を検索結果としてクライ
アント100に出力し、このサブドキュメントリスト3
08はクライアント100に画面表示される(S50
6)。
【0038】図6は、サブドキュメントリスト308の
一例を示す説明図である。サブドキュメントリスト30
8には、クエリー・ドキュメント306との類似度に応
じたスコアのランキング,文書中のいずれのサブドキュ
メントかを特定するためのサブドキュメントIDおよび
サブドキュメントを含む文書の文書名が表示されてい
る。
【0039】クライアント100のユーザは、画面表示
されたサブドキュメントリスト308から任意のサブド
キュメントを選択することにより、文書DB101中の
文書のサブドキュメントを画面表示させることができ
る。
【0040】ここで、上述した本実施の形態の文書検索
装置の利用法について説明する。例えば、クエリー20
0を「インターネット」として、本実施の形態の文書検
索装置を用いて検索処理を行った場合、検索結果である
サブドキュメントリスト308には、「インターネッ
ト」に関して記述しているサブドキュメントがリストア
ップされる。したがって、文書検索装置を辞書代わりに
利用することができる。
【0041】また、文書の編集中に引用や脚注を作成し
たい場合において、引用や脚注を作成する対象となる文
章をクエリー200として、本実施の形態の文書検索装
置を用いて検索処理を行うことにより、引用や脚注とな
るサブドキュメントを容易に得ることができる。そし
て、この検索結果のサブドキュメントを編集中の文書に
挿入することにより、引用や脚注を作成することができ
る。この場合、文書中の挿入箇所を指定し、指定した箇
所に検索結果のサブドキュメントを自動的に挿入できる
ようにすることもできる。
【0042】また、文書を検索対象として、予め1つの
文書を選択し(文書を検索対象として検索したものでも
良い)、選択した文書のサブドキュメントを検索して、
文書中の所望の記述を探し出すために利用することがで
きる。
【0043】さらに、図6に示したサブドキュメントリ
スト308を利用して、文書のランキングを生成するこ
ともできる。その結果、複数のトピックを含む文書が複
数ある場合であっても、特定のトピックに関する文書の
ランキングを作成することができ、特定の記述を含む文
書を容易に得ることができる。
【0044】このように、本実施の形態の文書検索装置
によれば、検索対象を文書全体ではなく、文書のサブド
キュメントとし、検索条件に直接関連する文書中の記述
を検索結果として得ることができるようにしたため、検
索結果を便利に利用することができる。また、文書中の
必要な箇所を探す必要がないため、作業効率の向上を図
ることができる。さらに、ベクトル空間法を用いて検索
を行う場合に、検索条件との関連性の大きなトピックだ
けでなく、複数の他のトピックを含む文書をも確実に検
索することができる。
【0045】なお、上述した本実施の形態の文書検索装
置で得た検索結果であるサブドキュメントリスト308
において、ユーザが検索結果としてふさわしいと思うサ
ブドキュメントやふさわしくないと思うサブドキュメン
トについては、その結果を検索サーバ103にフィード
バックすることができる。すなわち、ユーザは、検索結
果としてふさわしいと思うサブドキュメントに対して、
正の重み、例えば「+」を指定することができ、検索結
果としてふさわしくないと思うサブドキュメントに対し
て負の重み、例えば「−」を指定することができる。そ
の結果、入力した重みが正の指定である場合には、転置
ファイル102中の該当するサブドキュメントの重みが
強化され、入力した重みが負の指定である場合には、サ
ブドキュメントの重みが弱められる。
【0046】さらに、本実施の形態で説明した文書検索
装置は、予め用意されたプログラムをコンピュータやワ
ークステーションで実行することによって実現される。
このプログラムは、ハードディスク,フロッピーディス
ク,CD−ROM,MO,DVD等のコンピュータで読
み取り可能な記録媒体に記録され、コンピュータによっ
て記録媒体から読み出されることによって実行される。
また、このプログラムは、上記記録媒体を介して、また
はネットワークを介して配布することができる。
【0047】
【発明の効果】以上説明したように、本発明の文書検索
装置(請求項1)によれば、文書を構成する各センテン
スを任意の数のセンテンスまたはパラグラフ毎のセンテ
ンス等からなるグループに区分して、区分したグループ
をサブドキュメントと定義し、予め用意した文書をサブ
ドキュメントの単位でベクター表現に変換して格納する
格納手段と、検索条件を入力する入力手段と、入力手段
を介して入力した検索条件をベクター表現に変換する変
換手段と、変換手段から入力した検索条件のベクター表
現に基づいて、格納手段から該当するサブドキュメント
を検索する検索手段と、を備えたため、文書のサブドキ
ュメントを検索対象とすることができる。したがって、
検索条件に直接関連する文書中の記述を検索結果として
得ることができ、検索結果を便利に利用することができ
る。さらに、ベクトル空間法を用いて検索を行う場合
に、検索条件との関連性の大きなトピックだけでなく、
複数の他のトピックを含む文書をも確実に検索すること
ができる。
【0048】また、本発明の文書検索装置(請求項2)
によれば、請求項1に記載の文書検索装置において、検
索手段は、検索条件のベクター表現とサブドキュメント
のベクター表現との類似度を求め、求めた類似度が所定
の閾値を超えるサブドキュメントを選択し、選択したサ
ブドキュメントを類似度に応じて配列したリストを検索
結果として出力するため、所望のサブドキュメントを容
易に選択することができる。
【0049】また、本発明の文書検索装置(請求項3)
によれば、請求項1または2に記載の文書検索装置にお
いて、さらに、文書を構成するセンテンスの区分方法を
指定するための指定手段と、指定手段を介して指定され
たセンテンスの区分方法に基づいて、文書からサブドキ
ュメントを生成する生成手段と、を備え、格納手段は、
生成手段で生成したサブドキュメントをベクター表現に
変換して格納するため、ユーザの好みの長さのサブドキ
ュメントを検索対象とすることができる。
【0050】さらに、本発明のコンピュータ読み取り可
能な記録媒体(請求項4)によれば、請求項1〜3のい
ずれか1つに記載の文書検索装置の各手段としてコンピ
ュータを機能させるためのプログラムを記録したため、
このプログラムをコンピュータに実行させることによ
り、文書のサブドキュメントを検索対象とし、検索条件
に直接関連する文書中の記述を検索結果として得ること
ができる文書検索装置を実現することができる。
【図面の簡単な説明】
【図1】本実施の形態の文書検索装置のシステム構成図
である。
【図2】図1に示したクライアントの処理を示す概略ブ
ロック図である。
【図3】図1に示した検索サーバの処理を示す概略ブロ
ック図である。
【図4】本実施の形態の文書検索装置において、転置フ
ァイルの生成処理を示すフローチャートである。
【図5】本実施の形態の文書検索装置において、サブド
キュメントの検索処理を示すフローチャートである。
【図6】本実施の形態の文書検索装置において、サブド
キュメントリストの一例を示す説明図である。
【符号の説明】
100 クライアント 101 文書DB 102 転置ファイル 103 検索サーバ 104 ネットワーク 200 クエリー 201,300 自然言語処理モジュール 202,301 辞書 203,302 文法辞書 206 検索条件 303 ドキュメント・セット 304 データベース・ビルド・コンポーネント 305 クエリー・ビルド・コンポーネント 306 クエリー・ドキュメント 307 検索エンジン 308 サブドキュメントリスト

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 ベクトル空間法を用いて検索処理を行う
    文書検索装置において、 文書を構成する各センテンスを任意の数のセンテンスま
    たはパラグラフ毎のセンテンス等からなるグループに区
    分して、区分したグループをサブドキュメントと定義
    し、予め用意した文書を前記サブドキュメントの単位で
    ベクター表現に変換して格納する格納手段と、 検索条件を入力する入力手段と、 前記入力手段を介して入力した検索条件をベクター表現
    に変換する変換手段と、 前記変換手段から入力した前記検索条件のベクター表現
    に基づいて、前記格納手段から該当する前記サブドキュ
    メントを検索する検索手段と、 を備えたことを特徴とする文書検索装置。
  2. 【請求項2】 前記検索手段は、前記検索条件のベクタ
    ー表現と前記サブドキュメントのベクター表現との類似
    度を求め、求めた類似度が所定の閾値を超えるサブドキ
    ュメントを選択し、選択したサブドキュメントを類似度
    に応じて配列したリストを検索結果として出力すること
    を特徴とする請求項1に記載の文書検索装置。
  3. 【請求項3】 さらに、前記文書を構成するセンテンス
    の区分方法を指定するための指定手段と、 前記指定手段を介して指定された前記センテンスの区分
    方法に基づいて、前記文書から前記サブドキュメントを
    生成する生成手段と、を備え、 前記格納手段は、前記生成手段で生成したサブドキュメ
    ントをベクター表現に変換して格納することを特徴とす
    る請求項1または2に記載の文書検索装置。
  4. 【請求項4】 前記請求項1〜3のいずれか1つに記載
    の文書検索装置の各手段としてコンピュータを機能させ
    るためのプログラムを記録したことを特徴とするコンピ
    ュータ読み取り可能な記録媒体。
JP9199614A 1997-07-25 1997-07-25 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 Pending JPH1145254A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9199614A JPH1145254A (ja) 1997-07-25 1997-07-25 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9199614A JPH1145254A (ja) 1997-07-25 1997-07-25 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (1)

Publication Number Publication Date
JPH1145254A true JPH1145254A (ja) 1999-02-16

Family

ID=16410793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9199614A Pending JPH1145254A (ja) 1997-07-25 1997-07-25 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JPH1145254A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005103950A1 (en) * 2004-04-20 2005-11-03 Newsouth Innovations Pty Limited A method and apparatus for indexing documents
WO2016162961A1 (ja) * 2015-04-08 2016-10-13 株式会社日立製作所 文章検索装置
JP2019101993A (ja) * 2017-12-07 2019-06-24 富士通株式会社 特定プログラム、特定方法および情報処理装置
WO2020079752A1 (ja) * 2018-10-16 2020-04-23 株式会社島津製作所 文献検索方法および文献検索システム
WO2020261479A1 (ja) * 2019-06-27 2020-12-30 株式会社島津製作所 関連文書を検索して表示する方法およびシステム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0628403A (ja) * 1992-07-09 1994-02-04 Mitsubishi Electric Corp 文書検索装置
JPH0816611A (ja) * 1994-06-27 1996-01-19 Sharp Corp 自然言語に基づくデータ検索装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0628403A (ja) * 1992-07-09 1994-02-04 Mitsubishi Electric Corp 文書検索装置
JPH0816611A (ja) * 1994-06-27 1996-01-19 Sharp Corp 自然言語に基づくデータ検索装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005103950A1 (en) * 2004-04-20 2005-11-03 Newsouth Innovations Pty Limited A method and apparatus for indexing documents
WO2016162961A1 (ja) * 2015-04-08 2016-10-13 株式会社日立製作所 文章検索装置
JP2019101993A (ja) * 2017-12-07 2019-06-24 富士通株式会社 特定プログラム、特定方法および情報処理装置
WO2020079752A1 (ja) * 2018-10-16 2020-04-23 株式会社島津製作所 文献検索方法および文献検索システム
JPWO2020079752A1 (ja) * 2018-10-16 2021-10-28 株式会社島津製作所 文献検索方法および文献検索システム
US11630824B2 (en) 2018-10-16 2023-04-18 Shimadzu Corporation Document search method and document search system
WO2020261479A1 (ja) * 2019-06-27 2020-12-30 株式会社島津製作所 関連文書を検索して表示する方法およびシステム
JPWO2020261479A1 (ja) * 2019-06-27 2020-12-30

Similar Documents

Publication Publication Date Title
JP3691844B2 (ja) 文書処理方法
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP2006215717A (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP4091146B2 (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3767763B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145268A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145252A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145255A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4138048B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145266A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4000332B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4484957B1 (ja) 検索式生成装置、検索式生成方法、およびプログラム
JP2002132789A (ja) 文書検索方法
JP4497337B2 (ja) 概念検索装置およびコンピュータプログラムを記録した記録媒体
JPH1145269A (ja) 文書管理支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145236A (ja) 文書管理支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4085568B2 (ja) テキストマイニング方法およびテキストマイニング装置並びにコンピュータ読み取り可能な記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070724

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070925

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071106