JP2001282827A - 文書検索装置、クエリ出力装置、文書検索方法、クエリ出力方法、並びに、記録媒体 - Google Patents

文書検索装置、クエリ出力装置、文書検索方法、クエリ出力方法、並びに、記録媒体

Info

Publication number
JP2001282827A
JP2001282827A JP2000093657A JP2000093657A JP2001282827A JP 2001282827 A JP2001282827 A JP 2001282827A JP 2000093657 A JP2000093657 A JP 2000093657A JP 2000093657 A JP2000093657 A JP 2000093657A JP 2001282827 A JP2001282827 A JP 2001282827A
Authority
JP
Japan
Prior art keywords
query
terms
document
character string
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000093657A
Other languages
English (en)
Other versions
JP3444592B2 (ja
Inventor
Toshihiro Ajiki
敏宏 安食
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2000093657A priority Critical patent/JP3444592B2/ja
Publication of JP2001282827A publication Critical patent/JP2001282827A/ja
Application granted granted Critical
Publication of JP3444592B2 publication Critical patent/JP3444592B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 パラメータを用いて適切なクエリを生成して
文書を検索する文書検索装置等を提供する。 【解決手段】 文字列入力受付部202は、文字列の入
力を受け付け、ターム抽出部207は、受け付けられた
文字列を形態素解析し、これに含まれるタームを抽出
し、検索パラメータ入力受付部203は、検索パラメー
タの入力を受け付け、シソーラス部204は、複数のタ
ームのそれぞれに対して、検索パラメータに対応付けて
関連タームを1つ以上記憶し、関連語取得部205は、
シソーラス部204から、抽出されたタームのそれぞれ
に対して受け付けられた検索パラメータに対応付けられ
て記憶された関連タームを取得し、クエリ生成出力部2
06は、抽出されたタームと、そのそれぞれに対して取
得された関連タームと、を含むクエリを生成して出力
し、文書検索エンジン部208は、当該クエリを用いて
文書を検索する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、検索にパラメータ
を与え、キーワードからパラメータに応じた関連語を得
て、これらによりクエリを生成して文書を検索するのに
好適な文書検索装置、クエリ出力装置、文書検索方法、
クエリ出力方法、並びに、これらを実現するためのプロ
グラムを記録したコンピュータ読取可能な記録媒体に関
する。
【0002】
【従来の技術】WWW(World Wide Web)技術の発展に
ともない、多数の文書から所望の文書を検索する文書検
索技術はますますその重要性を増している。
【0003】このような文書検索では、従来、以下のよ
うな手法が用いられていた。すなわち、ユーザは、所望
の文書を検索するためのキーワードを指定するか、ある
いは、文書を検索するための条件をより詳細に指定した
クエリを入力する。
【0004】すると、文書検索エンジンは、文書中に当
該キーワードが含まれる個数や、ベクトル空間法により
クエリにより指定された条件と文書との適合度を求め、
これらを元に当該文書の得点を計算する。
【0005】最後に、ユーザに対して、得点の高い文書
を検索結果として順に提示する。
【0006】なお、ベクトル空間法では、クエリに含ま
れる検索用のキーワード(以下「ターム」という。)に
対して適宜重みを付ける手法や、文書検索エンジンの検
索範囲に含まれる文書に対して、それぞれ、当該文書か
ら抽出されたターム(以下「検索用ターム」という。)
を別途記憶しておき、得点計算を高速化する手法も提案
されている。
【0007】
【発明が解決しようとする課題】しかしながら、指定さ
れたキーワードが用意された検索用タームでない場合に
は、検索結果として有意な結果が得られないおそれがあ
る。
【0008】一方で、このような検索用タームを一般ユ
ーザがあらかじめ自分で調査するのは繁雑であり、ま
た、適切な検索用タームを選択できないおそれもある。
【0009】このような検索用タームは、一般ユーザが
指定したキーワードから自動的に選択されることが強く
望まれている。
【0010】本発明が解決しようとする課題は、検索に
パラメータを与え、キーワードからパラメータに応じた
関連語を得て、これらによりクエリを生成して文書を検
索することにある。
【0011】
【課題を解決するための手段】上記課題を解決するた
め、本発明の第1の観点に係る文書検索装置は、文字列
入力受付部と、検索パラメータ入力受付部と、シソーラ
ス部と、関連語取得部と、文書検索部と、を備えるよう
に構成する。
【0012】ここで、文字列入力受付部は、文字列の入
力を受け付ける。
【0013】一方、検索パラメータ入力受付部は、検索
パラメータの入力を受け付ける。
【0014】さらに、シソーラス部は、複数の文字列の
それぞれに対して、検索パラメータに対応付けて関連文
字列を1つ以上記憶する。
【0015】そして、関連語取得部は、前記シソーラス
部から、前記受け付けられた文字列に対して前記受け付
けられた検索パラメータに対応付けられて記憶された関
連文字列を取得する。
【0016】一方、文書検索部は、前記受け付けられた
文字列と前記取得された関連文字列とにより文書を検索
する。
【0017】本発明により、あらかじめ定めた検索用タ
ームを、一般ユーザが指定した簡単なパラメータによっ
て自動的に取得して、これらにより文書の検索を適切に
行うことができる。
【0018】本発明の第2の観点に係るクエリ出力装置
は、タームを含むクエリを文書に対して適用して得られ
た得点が所定の範囲に含まれる文書を獲得する文書検索
エンジンに与えるクエリを出力し、文字列入力受付部
と、ターム抽出部と、検索パラメータ入力受付部と、シ
ソーラス部と、関連語取得部と、クエリ生成出力部と、
を備えるように構成する。
【0019】ここで、文字列入力受付部は、文字列の入
力を受け付ける。
【0020】一方、ターム抽出部は、前記受け付けられ
た文字列を形態素解析し、これに含まれるタームを抽出
する。
【0021】さらに、検索パラメータ入力受付部は、検
索パラメータの入力を受け付ける。
【0022】そして、シソーラス部は、複数のタームの
それぞれに対して、検索パラメータに対応付けて関連タ
ームを1つ以上記憶する。
【0023】一方、関連語取得部は、前記シソーラス部
から、前記抽出されたタームのそれぞれに対して前記受
け付けられた検索パラメータに対応付けられて記憶され
た関連タームを取得する。
【0024】さらに、クエリ生成出力部は、前記抽出さ
れたタームと、そのそれぞれに対して前記取得された関
連タームと、を含むクエリを生成して出力する。
【0025】本発明により、一般ユーザが入力した普通
の文章から、あらかじめ定めた検索用タームを、一般ユ
ーザが指定した簡単なパラメータによって、自動的に取
得して、文書の検索を行うためのクエリを適切に生成し
て出力することができる。
【0026】また、本発明のクエリ出力装置において、
前記生成されるクエリは、前記受け付けられた検索パラ
メータに対応付けられてあらかじめ定められた重みによ
り、前記抽出されたタームと前記取得された関連ターム
とを重み付けするように構成することができる。
【0027】本発明により、あらかじめ定めた検索用タ
ームのそれぞれに、一般ユーザが指定したパラメータに
基づいて重み付けを行い、一般ユーザの所望の範囲の文
書を検索するためのクエリを適切に生成して出力するこ
とができる。
【0028】また、本発明のクエリ出力装置において、
前記生成されるクエリにおいて、前記抽出されたターム
に対する重み付けの重みと、前記取得された関連ターム
に対する重み付けの重みと、は異なるように構成するこ
とができる。
【0029】本発明により、一般ユーザが入力した検索
用の普通の文章に検索用タームが含まれる場合には、こ
れの重みを大きくし、これに関連するタームの重みは小
さくするようなクエリを適切に生成して出力することが
できる。
【0030】本発明の第3の観点に係る文書検索装置
は、上記のクエリ出力装置と、文書検索エンジン部と、
を備えるように構成する。
【0031】ここで、上記のクエリ出力装置はクエリを
出力する。
【0032】一方、文書検索エンジン部は、前記出力さ
れたクエリを文書に対して適用して得られた得点が所定
の範囲に含まれる文書を獲得して出力する。
【0033】本発明により、一般ユーザが入力した検索
用の普通の文章から、あらかじめ定めた検索用ターム
を、一般ユーザが指定した簡単なパラメータによって自
動的に取得して、これらにより文書の検索を適切に行う
ことができる。
【0034】本発明の第4の観点に係る文書検索方法
は、文字列入力受付工程と、検索パラメータ入力受付工
程と、関連語取得工程と、文書検索工程と、を備えるよ
うに構成する。
【0035】ここで、文字列入力受付工程では、文字列
の入力を受け付ける。
【0036】一方、検索パラメータ入力受付工程では、
検索パラメータの入力を受け付ける。
【0037】さらに、関連語取得工程では、複数の文字
列のそれぞれに対して検索パラメータに対応付けて記憶
された1つ以上の関連文字列から、前記受け付けられた
文字列に対して前記受け付けられた検索パラメータに対
応付けられて記憶された関連文字列を取得する。
【0038】そして、文書検索工程では、前記受け付け
られた文字列と前記取得された関連文字列とにより文書
を検索する。
【0039】本発明の第5の観点に係るクエリ出力方法
は、タームを含むクエリを文書に対して適用して得られ
た得点が所定の範囲に含まれる文書を獲得する文書検索
エンジンに与えるクエリを出力し、文字列入力受付工程
と、ターム抽出工程と、検索パラメータ入力受付工程
と、関連語取得工程と、クエリ生成出力工程と、を備え
るように構成する。
【0040】ここで、文字列入力受付工程では、文字列
の入力を受け付ける。
【0041】一方、ターム抽出工程では、前記受け付け
られた文字列を形態素解析し、これに含まれるタームを
抽出する。
【0042】さらに、検索パラメータ入力受付工程で
は、検索パラメータの入力を受け付ける。
【0043】そして、関連語取得工程では、複数のター
ムのそれぞれに対して検索パラメータに対応付けて記憶
された1つ以上の関連タームから、前記抽出されたター
ムのそれぞれに対して前記受け付けられた検索パラメー
タに対応付けられて記憶された関連タームを取得する。
【0044】一方、クエリ生成出力工程では、前記抽出
されたタームと、そのそれぞれに対して前記取得された
関連タームと、を含むクエリを生成して出力する。
【0045】また、本発明のクエリ出力方法において、
前記生成されるクエリは、前記受け付けられた検索パラ
メータに対応付けられてあらかじめ定められた重みによ
り、前記抽出されたタームと前記取得された関連ターム
とを重み付けするように構成することができる。
【0046】また、本発明のクエリ出力方法において、
前記生成されるクエリにおいて、前記抽出されたターム
に対する重み付けの重みと、前記取得された関連ターム
に対する重み付けの重みと、は異なるように構成するこ
とができる。
【0047】本発明の第6の観点に係る文書検索方法
は、クエリ出力工程と、文書検索エンジン工程と、を備
える。
【0048】ここで、クエリ出力工程では、上記クエリ
出力方法を使用してクエリを出力する。
【0049】一方、文書検索エンジン工程では、前記出
力されたクエリを文書に対して適用して得られた得点が
所定の範囲に含まれる文書を獲得して出力する。
【0050】本発明の第7の観点に係るコンピュータ読
取可能な記録媒体は、コンピュータを、文字列入力受付
部、検索パラメータ入力受付部、シソーラス部、関連語
取得部、および、文書検索部として機能させるプログラ
ムを記録するように構成する。
【0051】ここで、文字列入力受付部は、文字列の入
力を受け付ける。
【0052】一方、検索パラメータ入力受付部は、検索
パラメータの入力を受け付ける。
【0053】さらに、シソーラス部は、複数の文字列の
それぞれに対して、検索パラメータに対応付けて関連文
字列を1つ以上記憶する。
【0054】そして、関連語取得部は、前記シソーラス
部から、前記受け付けられた文字列に対して前記受け付
けられた検索パラメータに対応付けられて記憶された関
連文字列を取得する。
【0055】一方、文書検索部は、前記受け付けられた
文字列と前記取得された関連文字列とにより文書を検索
する。
【0056】本発明の第8の観点に係るコンピュータ読
取可能な記録媒体は、コンピュータを、タームを含むク
エリを文書に対して適用して得られた得点が所定の範囲
に含まれる文書を獲得する文書検索エンジンに与えるク
エリを出力するクエリ出力装置として機能させるプログ
ラムを記録するように構成する。
【0057】ここで、前記プログラムは、前記コンピュ
ータを、文字列入力受付部、ターム抽出部、検索パラメ
ータ入力受付部、シソーラス部、関連語取得部、およ
び、クエリ生成出力部として機能させる。
【0058】ここで、文字列入力受付部は、文字列の入
力を受け付ける。
【0059】一方、ターム抽出部は、前記受け付けられ
た文字列を形態素解析し、これに含まれるタームを抽出
する。
【0060】さらに、検索パラメータ入力受付部は、検
索パラメータの入力を受け付ける。
【0061】そして、シソーラス部は、複数のタームの
それぞれに対して、検索パラメータに対応付けて関連タ
ームを1つ以上記憶する。
【0062】一方、関連語取得部は、前記シソーラス部
から、前記抽出されたタームのそれぞれに対して前記受
け付けられた検索パラメータに対応付けられて記憶され
た関連タームを取得する。
【0063】さらに、クエリ生成出力部は、前記抽出さ
れたタームと、そのそれぞれに対して前記取得された関
連タームと、を含むクエリを生成して出力する。
【0064】また、本発明のコンピュータ読取可能な記
録媒体に記録されるプログラムは、前記コンピュータに
おいて、前記生成されるクエリは、前記受け付けられた
検索パラメータに対応付けられてあらかじめ定められた
重みにより、前記抽出されたタームと前記取得された関
連タームとを重み付けするように機能させるように構成
することができる。
【0065】また、本発明のコンピュータ読取可能な記
録媒体に記録されるプログラムは、前記コンピュータに
おいて、前記生成されるクエリにおいて、前記抽出され
たタームに対する重み付けの重みと、前記取得された関
連タームに対する重み付けの重みと、は異なるように機
能させるように構成することができる。
【0066】本発明の第9の観点に係るコンピュータ読
取可能な記録媒体に記録されるプログラムは、コンピュ
ータを、上記のクエリ出力装置、および、文書検索エン
ジン部として機能させるように構成する。
【0067】ここで、上記のクエリ出力装置はクエリを
出力する。
【0068】一方、文書検索エンジン部は、前記出力さ
れたクエリを文書に対して適用して得られた得点が所定
の範囲に含まれる文書を獲得して出力する。
【0069】
【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。
【0070】(概要構成)図1は、本発明のクエリ出力
装置として機能する典型的な情報処理装置(汎用のコン
ピュータ、各種端末、携帯端末、携帯電話、ゲーム装置
などの専用機器を含む)の概要構成を示す模式図であ
る。以下、本図を参照して説明する。
【0071】情報処理装置101は、CPU(Central
Processing Unit;中央処理ユニット)102によって
制御される。情報処理装置101に電源を投入すると、
CPU102は、ROM(Read Only Memory;読出専用
メモリ)103に記憶されたIPL(Initial Program
Loader;初期プログラムローダ)を実行する。
【0072】IPLは、ハードディスク104、FD
(Floppy Disk;フロッピー(登録商標)ディスク)ド
ライブ110に装着されたFD、CD−ROM(Compac
t Disk ROM)ドライブ111に装着されたCD−ROM
などの記録媒体に記憶されたOS(Operating System;
オペレーティング・システム)プログラムを読み出して
実行するプログラムである。
【0073】OSを起動した後、CPU102は、キー
ボード105やマウス106などにより入力されたユー
ザの指示にしたがって、あるいは、ハードディスクなど
にあらかじめ記述された設定ファイルの内容にしたがっ
て、ハードディスクなどに記憶されたアプリケーション
プログラムを実行する。
【0074】なお、携帯端末などの小規模な情報処理装
置では、IPL自体がOSやアプリケーションプログラ
ムとしての機能を果たすような実施形態も採用すること
ができる。
【0075】CPU102は、プログラムの実行の際
に、RAM(Random Access Memory)107を一時的な
作業用記憶領域として用いる。このほか、一時的な作業
用記憶領域として、CPU102内に設けられたレジス
タやキャッシュ(図示せず)が使われる。
【0076】プログラムの実行に伴ない、ユーザに結果
を報告したり、途中経過を見せるため、CPU102
は、液晶ディスプレイやCRT(Cathode Ray Tube)な
どの表示装置108に当該情報を表示することができ
る。マウス106による指示操作では、マウス106を
移動することにより、画面に表示されたカーソルが移動
し、マウス106をクリックすることにより、カーソル
が指すメニュー項目を選択することができる。
【0077】情報処理装置101は、NIC(Network
Interface Card)やモデムなどのインターフェース10
9を介してインターネットなどのコンピュータ通信網と
通信を行うことができる。インターフェース109を介
して他のサーバコンピュータ(文書検索エンジン)にク
エリを送信したり、これから応答として送信された検索
結果を受信することができる。また、インターフェース
109を介して受信したプログラムを実行することもで
きる。
【0078】図2は、上記情報処理装置101が本発明
のクエリ出力装置並びに文書検索装置として機能する場
合の、各機能の概要構成を示す模式図である。以下、本
図を参照して説明する。
【0079】クエリ出力装置201は、文字列入力受付
部202と、検索パラメータ入力受付部203と、シソ
ーラス部204と、関連語取得部205と、クエリ生成
出力部206と、を備える。
【0080】さらに、本実施形態では、ユーザが普通の
文章で検索用キーワードを入力できるようにするため、
ターム抽出部207を用意する。なお、ユーザがキーワ
ードを単語や語句単位で入力するような実施形態では、
ターム抽出部207を用意しなくともよい。
【0081】さらに、本実施形態では、生成出力された
クエリにより、実際に文書の検索を行う文書検索エンジ
ン部208を用意する。
【0082】文字列入力受付部202は、ユーザから検
索用の自然な文章を表す文字列の入力を受け付ける。し
たがって、キーボード105やマウス106などの入力
装置は、文字列入力受付部202として機能する。
【0083】ターム抽出部207は、与えられた文字列
を形態素解析し、これに含まれるタームを抽出する。し
たがって、CPU102は、ターム抽出部207として
機能する。
【0084】検索パラメータ入力受付部203は、たと
えば、「大変ゆるい検索〜ゆるい検索〜普通の検索〜き
つい検索〜大変きつい検索」のような5段階からいずれ
かを検索パラメータとしてユーザが選択した結果の入力
を受け付ける。したがって、キーボード105やマウス
106などの入力装置は、検索パラメータ入力受付部2
03として機能する。
【0085】シソーラス部204は、タームのそれぞれ
に対して、上記検索パラメータのそれぞれに対応付け
て、関連する関連タームを1つ以上記憶する。したがっ
て、ROM103、ハードディスク104、FDD11
0に装着されたFD、CD−ROMドライブ111に装
着されたCD−ROM、インターフェース109を介し
て接続された他のコンピュータは、シソーラス部204
として機能する。
【0086】関連語取得部205は、形態素解析の結果
抽出されて得られたタームのそれぞれについて、シソー
ラス部204から、現在の検索パラメータに基づいて、
関連タームを取得する。したがって、CPU102は、
関連語取得部205として機能する。
【0087】クエリ生成部206は、ターム抽出部20
7が抽出したタームと、関連語取得部20が取得した関
連タームと、を含むクエリを生成して出力する。したが
って、CPU102は、クエリ生成出力部206として
機能する。
【0088】文書検索エンジン部208は、生成出力さ
れたクエリにより、文書を検索する。したがって、CP
U102が、これらの文書を記憶するROM103、ハ
ードディスク104、FDD110に装着されたFD、
CD−ROMドライブ111に装着されたCD−ROM
と共働して、文書検索エンジン部208として機能す
る。
【0089】また、たとえばWWW検索サーバのよう
に、インターフェース109を介して接続された他のコ
ンピュータが、文書検索エンジン部208として機能す
る。この場合は、文書検索エンジン部208以外の部分
が、クエリ出力装置201として機能する。
【0090】このように、文書検索エンジン部208
と、クエリ出力装置201とを、同じ情報処理装置10
1上に構成することも、異なる情報処理装置101上に
構成することも、いずれも可能である。ただし、負荷分
散や文書データベースの集中管理の観点からは、これら
を分離した態様とすることが望ましい。
【0091】このほか、ハードディスク104、FDド
ライブ110に装着されたFD、CD−ROMドライブ
111に装着されたCD−ROM、ROM103、RA
M107、および、インターフェース109を介して接
続された他のコンピュータなど、これらコンピュータ読
取可能な情報記憶装置に相当するものは、CPU102
で実行されるプログラムを記録することにより、本発明
の記録媒体として機能する。
【0092】上述のように、図1に示す情報処理装置1
01は、図2に示す本発明の文書検索装置211、並び
に、クエリ出力装置201として機能する。これは、本
発明のクエリ出力装置201、および、文書検索装置2
11の典型的な実施態様である。
【0093】一方、携帯端末等にて本発明の文書検索装
置211、並びに、クエリ出力装置201を実現する場
合は、外部記憶装置として、不揮発性半導体メモリ(フ
ラッシュメモリカード)やバッテリバックアップがされ
たRAMを使用することができる。この場合、必ずしも
ハードディスク104、FDドライブ110、CD−R
OMドライブ111等は必要ない。
【0094】(文書検索処理)図3は、図1に示す情報
処理装置101を本発明の文書検索装置211として機
能させる場合の文書検索処理の手順を示すフローチャー
トである。以下、本図を参照して説明する。
【0095】まず、CPU102は、ユーザから検索対
象の文書を特定するための検索条件を示す文章の入力を
受け付ける(ステップS301)。ユーザは、たとえ
ば、「日本と中国の合弁企業」のような自然な文章を検
索条件として入力することができる。
【0096】また、この際に、合わせて検索パラメータ
の入力も受け付ける(ステップS302)。本実施形態
では、検索のゆるさ〜きつさを5段階で入力することが
できる。
【0097】図4は、このような文章入力と検索パラメ
ータの入力の両方を受け付ける入力フォームの表示例で
ある。
【0098】入力フォーム401は、情報処理装置10
1の表示装置108に表示される。ユーザは、検索に用
いる文章を、文章入力欄402に入力し、検索のゆるさ
〜きつさをパラメータ用スライダ403を用いて入力す
る。これらを入力した後に、検索実行ボタン404を用
いてクエリの生成、および、文書の検索の実行を指示す
る。
【0099】次に、CPU102は、入力された文字列
を形態素解析して、これに含まれるタームを抽出する
(ステップS303)。上記入力例の場合は、タームは
形態素解析の結果は、「日本/と/中国/の/合弁/企
業」のように形態素解析される。ここで「/」は形態素
の区切りを示す。ここからタームとして「日本」「中
国」「合弁/企業」を抽出する。
【0100】タームがほかのタームを含む場合には、こ
れらも抽出する(ステップS304)。他のタームに含
まれるタームを「サブターム」という。たとえば、「合
弁/企業」のサブタームは、「合弁」と「企業」であ
る。
【0101】さらに、これらタームやサブタームの同義
語・類義語など、関連するターム(以下「関連ターム」
という。)を、シソーラス部204を用いて取得する
(ステップS305)。シソーラス部204には、検索
パラメータのゆるさ〜きつさに応じて、各種の関連ター
ムが記憶されている。
【0102】本実施形態では、あるタームと、これの関
連タームとの情報は、あらかじめハードディスク104
などに記憶しておく。たとえば、「日本」の関連ターム
として、きつい検索用には、「日本国」「ニッポン」
「ジャパン」「Japan」などが記憶されている。ゆ
るい検索用には、「東アジア」「北海道」「九州」「四
国」「本州」などが記憶されている。
【0103】さらに、CPU102は、タームと、形態
素解析によって得られた当該タームの品詞情報や係り受
けの情報と、検索パラメータと、から、クエリを生成し
て出力する(ステップS306)。
【0104】ここで生成されるクエリには、以下の情報
が含まれる。 ・ターム。サブタームや関連タームを含む。 ・当該タームの重み。ベクトル空間法で文書の得点を計
算する際に用いる。 ・必須ターム情報。当該タームが必須タームか否かを示
す。
【0105】タームの重みや必須ターム情報の決定の手
法については後述する。
【0106】なお、出力先としては、たとえば、RAM
107を採用することができる。
【0107】さらに、出力されたクエリを用いて、文書
検索エンジン部208へ問い合わせて(ステップS30
7)、本処理を終了する。この詳細については、後述す
る。なお、本実施形態では、上述のように、同じ情報処
理装置101上にクエリ出力装置201と文書検索エン
ジン部208とが実現されているが、異なる情報処理装
置101上にこれらを配置してもよい。
【0108】(タームの例)たとえば、ユーザが「日本
と中国の合弁企業」を入力した場合に、抽出もしくは取
得されるタームの様子を以下に示す。
【0109】「きつい検索」を選んだ場合には、以下の
抽出済タームと関連タームからクエリを生成する。 ・日本 ・Japan、ジャパン、ニッポン (「日本」の関連
ターム) ・中国 ・China、チャイナ (「中国」の関連ターム) ・合弁企業
【0110】「ゆるい検索」を選んだ場合には、以下の
抽出済タームと関連タームからクエリを生成する。 ・日本 ・Japan、ジャパン、ニッポン (「日本」の関連
ターム) ・北海道、本州、九州、四国 (「日本」の関連ター
ム) ・中国 (「中国」の関連ターム) ・China、チャイナ (「中国」の関連ターム) ・広州、香港、澳門 (「中国」の関連ターム) ・合弁企業 ・合弁 (「合弁企業」のサブターム) ・企業 (「合弁企業」のサブターム)
【0111】このように、検索パラメータの相違に基づ
いて、異なるタームを用いて検索用クエリを生成するこ
とにより、ユーザの所望の範囲の文書を検索結果として
得ることが容易になる。
【0112】(問合せ処理)図5は、出力されたクエリ
を用いて、異なる情報処理装置101上に配置された文
書検索エンジン部208へ問い合わせを行う問合せ処理
の流れを示すフローチャートである。
【0113】CPU102は、ステップS307におい
て、RAM107に出力されたクエリを、インターフェ
ース109を介して文書検索エンジン部208へ送信す
る(ステップS601)。
【0114】文書検索エンジン部208は、当該クエリ
を受信し(ステップS602)、当該クエリに基づい
て、各文書の得点を計算し(ステップS603)、上位
の所定の数の文書を取得し(ステップS604)、これ
らを検索結果として送信する(ステップS605)。
【0115】CPU102は、インターフェース109
を介して、検索結果の文書を受信し(ステップS60
6)、当該文書を表示装置108に表示し、あるいは、
RAM107やハードディスク104などの記憶装置に
出力して(ステップS607)、本処理を終了する。
【0116】このように、ユーザは、自然な文章を入力
することで検索の条件を指定することができる一方、検
索パラメータを入力することで、所望の範囲に含まれる
検索結果を得ることができる。
【0117】(重みの決定)クエリ生成部206、およ
び、ステップS306においては、タームと、形態素解
析によって得られた当該タームの品詞情報や係り受けの
情報と、検索パラメータと、から、クエリを生成する。
以下では、このクエリにおけるタームの重みの決定手法
の一例について説明する。
【0118】日本語では名詞同士の係り受けや複合名詞
が多用されるため、文書検索においてもこれらを考慮す
る必要がある。そこで、これらを検索結果の傾向から以
下のように類型化して、各タームの重みを決定する。
【0119】第1の類型は、一般名詞と一般名詞が連接
(助詞「の」を挟んで連なる場合を含む。以下同様。)
する場合である。この場合は、前に配置された一般名詞
が主題となる場合が多い。たとえば、「食事/療法」
「食事/の/療法」「ゴルフ/トーナメント」「ゴルフ
/の/トーナメント」の場合、主題となるのはそれぞれ
「食事」「ゴルフ」である。そこで、これら主題となる
前に配置されたタームの重みを大きくする。
【0120】第2の類型は、サブタームを含むタームの
場合である。サブタームとタームとで、意味が大きく異
なる場合は、サブタームの重みを低くし、全体のターム
の重みを高くする。たとえば、「地方/銀行」「就職/
協定」では、これら全体の重みを高くし、「地方」「銀
行」「就職」「協定」の重みは低くする。
【0121】本実施形態では、これらの重み決定の手法
を採用するが、自然言語による研究の成果に応じ、他の
重みの決定のためのヒューリスティックスを採用するこ
とができる。また、他国語についても同様の処理を行う
ことができる。
【0122】(必須ターム情報の決定)クエリ生成部2
06、および、ステップS306においては、ターム
と、形態素解析によって得られた当該タームの品詞情報
や係り受けの情報と、検索パラメータと、から、クエリ
を生成する。以下では、このクエリにおける必須ターム
情報の決定手法の一例について説明する。
【0123】必須タームか否かは、そのタームが主題で
あるか否かに関わる。そこで、上記の重み決定の類型に
おいて、「重みを高くする」としたタームを必須ターム
とすることができる。
【0124】また、上記第2の類型において、サブター
ム「地方」「銀行」「就職」「協定」を用いずにクエリ
を作成してもよい。
【0125】(検索パラメータによる調整)本実施形態
では、ユーザが入力した検索パラメータに応じてターム
の重みや必須ターム情報を決定する。図4に示す入力フ
ォーム401では、スライダ403により「きつい検
索」から「ゆるい検索」まで検索パラメータを数段階の
値として入力することができる。
【0126】「きつい検索」の場合には、重みの高低の
差を増し、あるいは、必須タームの割合を増す。一方、
「ゆるい検索」の場合には、重みの高低の差を減らし、
あるいは、必須タームの割合を減らす。
【0127】たとえば、「格安/旅行」(後に配置され
たタームが主題となる場合)について、「ゆるい検索」
から「きつい検索」までクエリに含まれる情報を順に列
挙すると以下のようになる。 ・「格安」は重み小、「旅行」は重み小 ・「格安」は重み小、「旅行」は重み大 ・「格安」は重み小、「旅行」は重み大かつ必須 ・「格安」は重み大、「旅行」は重み大かつ必須 ・「格安」は重み大かつ必須、「旅行」は重み大かつ必
【0128】さらに、本実施形態では、「きつい検索」
の場合には、抽出された各タームに対してきつい検索用
の関連タームとして記憶されたものを採用し、「ゆるい
検索」の場合には、ゆるい検索用の関連タームとして記
憶されたものを採用する。これらにも、上記と同様に重
み付けをすることができる。また、あらかじめ重みをシ
ソーラス部204に記憶させておいてもよい。
【0129】これらの検索パラメータと生成されるクエ
リとの関係についても、適宜変更が可能であり、変更し
た実施形態も本発明の範囲に含まれる。
【0130】
【発明の効果】本発明により、検索にパラメータを与
え、キーワードからパラメータに応じた関連語を得て、
これらによりクエリを生成して文書を検索するのに好適
な文書検索装置、クエリ出力装置、文書検索方法、クエ
リ出力方法、並びに、これらを実現するためのプログラ
ムを記録したコンピュータ読取可能な記録媒体を提供す
ることができる。
【図面の簡単な説明】
【図1】本発明の文書検索装置、並びに、クエリ出力装
置として機能する典型的な情報処理装置の概要構成を示
す模式図である。
【図2】本発明の文書検索装置、並びに、クエリ出力装
置の各機能の概要構成を示す模式図である。
【図3】本発明の文書検索処理の手順を示すフローチャ
ートである。
【図4】入力フォームの表示例を示す説明図である。
【図5】本発明の問合せ処理の手順を示すフローチャー
トである。
【符号の説明】
101 情報処理装置 102 CPU 103 ROM 104 ハードディスク 105 キーボード 106 マウス 107 RAM 108 表示装置 109 インターフェース 110 FDドライブ 111 CD−ROMドライブ 201 クエリ出力装置 202 文字列入力受付部 203 検索パラメータ入力受付部 204 シソーラス部 205 関連語取得部 206 クエリ生成出力部 207 ターム抽出部 208 文書検索エンジン部 211 文書検索装置 401 入力フォーム 402 文章入力欄 403 パラメータ用スライダ 404 検索実行ボタン

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】文字列の入力を受け付ける文字列入力受付
    部と、 検索パラメータの入力を受け付ける検索パラメータ入力
    受付部と、 複数の文字列のそれぞれに対して、検索パラメータに対
    応付けて関連文字列を1つ以上記憶するシソーラス部
    と、 前記シソーラス部から、前記受け付けられた文字列に対
    して前記受け付けられた検索パラメータに対応付けられ
    て記憶された関連文字列を取得する関連語取得部と、 前記受け付けられた文字列と前記取得された関連文字列
    とにより文書を検索する文書検索部と、を備えることを
    特徴とする文書検索装置。
  2. 【請求項2】タームを含むクエリを文書に対して適用し
    て得られた得点が所定の範囲に含まれる文書を獲得する
    文書検索エンジンに与えるクエリを出力するクエリ出力
    装置であって、 文字列の入力を受け付ける文字列入力受付部と、 前記受け付けられた文字列を形態素解析し、これに含ま
    れるタームを抽出するターム抽出部と、 検索パラメータの入力を受け付ける検索パラメータ入力
    受付部と、 複数のタームのそれぞれに対して、検索パラメータに対
    応付けて関連タームを1つ以上記憶するシソーラス部
    と、 前記シソーラス部から、前記抽出されたタームのそれぞ
    れに対して前記受け付けられた検索パラメータに対応付
    けられて記憶された関連タームを取得する関連語取得部
    と、 前記抽出されたタームと、そのそれぞれに対して前記取
    得された関連タームと、を含むクエリを生成して出力す
    るクエリ生成出力部と、を備えることを特徴とするクエ
    リ出力装置。
  3. 【請求項3】前記生成されるクエリは、前記受け付けら
    れた検索パラメータに対応付けられてあらかじめ定めら
    れた重みにより、前記抽出されたタームと前記取得され
    た関連タームとを重み付けすることを特徴とする請求項
    2に記載のクエリ出力装置。
  4. 【請求項4】前記生成されるクエリにおいて、前記抽出
    されたタームに対する重み付けの重みと、前記取得され
    た関連タームに対する重み付けの重みと、は異なること
    を特徴とする請求項3に記載のクエリ出力装置。
  5. 【請求項5】クエリを出力する請求項2から4のいずれ
    か1項に記載のクエリ出力装置と、 前記出力されたクエリを文書に対して適用して得られた
    得点が所定の範囲に含まれる文書を獲得して出力する文
    書検索エンジン部と、を備えることを特徴とする文書検
    索装置。
  6. 【請求項6】文字列の入力を受け付ける文字列入力受付
    工程と、 検索パラメータの入力を受け付ける検索パラメータ入力
    受付工程と、 複数の文字列のそれぞれに対して検索パラメータに対応
    付けて記憶された1つ以上の関連文字列から、前記受け
    付けられた文字列に対して前記受け付けられた検索パラ
    メータに対応付けられて記憶された関連文字列を取得す
    る関連語取得工程と、 前記受け付けられた文字列と前記取得された関連文字列
    とにより文書を検索する文書検索工程と、を備えること
    を特徴とする文書検索方法。
  7. 【請求項7】タームを含むクエリを文書に対して適用し
    て得られた得点が所定の範囲に含まれる文書を獲得する
    文書検索エンジンに与えるクエリを出力するクエリ出力
    方法であって、 文字列の入力を受け付ける文字列入力受付工程と、 前記受け付けられた文字列を形態素解析し、これに含ま
    れるタームを抽出するターム抽出工程と、 検索パラメータの入力を受け付ける検索パラメータ入力
    受付工程と、 複数のタームのそれぞれに対して検索パラメータに対応
    付けて記憶された1つ以上の関連タームから、前記抽出
    されたタームのそれぞれに対して前記受け付けられた検
    索パラメータに対応付けられて記憶された関連タームを
    取得する関連語取得工程と、 前記抽出されたタームと、そのそれぞれに対して前記取
    得された関連タームと、を含むクエリを生成して出力す
    るクエリ生成出力工程と、を備えることを特徴とするク
    エリ出力方法。
  8. 【請求項8】前記生成されるクエリは、前記受け付けら
    れた検索パラメータに対応付けられてあらかじめ定めら
    れた重みにより、前記抽出されたタームと前記取得され
    た関連タームとを重み付けすることを特徴とする請求項
    7に記載のクエリ出力方法。
  9. 【請求項9】前記生成されるクエリにおいて、前記抽出
    されたタームに対する重み付けの重みと、前記取得され
    た関連タームに対する重み付けの重みと、は異なること
    を特徴とする請求項8に記載のクエリ出力方法。
  10. 【請求項10】請求項7から9のいずれか1項に記載の
    クエリ出力方法を使用してクエリを出力するクエリ出力
    工程と、 前記出力されたクエリを文書に対して適用して得られた
    得点が所定の範囲に含まれる文書を獲得して出力する文
    書検索エンジン工程と、を備えることを特徴とする文書
    検索方法。
  11. 【請求項11】コンピュータを、 文字列の入力を受け付ける文字列入力受付部、 検索パラメータの入力を受け付ける検索パラメータ入力
    受付部、 複数の文字列のそれぞれに対して、検索パラメータに対
    応付けて関連文字列を1つ以上記憶するシソーラス部、 前記シソーラス部から、前記受け付けられた文字列に対
    して前記受け付けられた検索パラメータに対応付けられ
    て記憶された関連文字列を取得する関連語取得部、およ
    び、 前記受け付けられた文字列と前記取得された関連文字列
    とにより文書を検索する文書検索部として機能させるこ
    とを特徴とするプログラムを記録したコンピュータ読取
    可能な記録媒体。
  12. 【請求項12】コンピュータを、タームを含むクエリを
    文書に対して適用して得られた得点が所定の範囲に含ま
    れる文書を獲得する文書検索エンジンに与えるクエリを
    出力するクエリ出力装置として機能させるプログラムで
    あって、 前記プログラムは、前記コンピュータを、 文字列の入力を受け付ける文字列入力受付部、 前記受け付けられた文字列を形態素解析し、これに含ま
    れるタームを抽出するターム抽出部、 検索パラメータの入力を受け付ける検索パラメータ入力
    受付部、 複数のタームのそれぞれに対して、検索パラメータに対
    応付けて関連タームを1つ以上記憶するシソーラス部、 前記シソーラス部から、前記抽出されたタームのそれぞ
    れに対して前記受け付けられた検索パラメータに対応付
    けられて記憶された関連タームを取得する関連語取得
    部、および、 前記抽出されたタームと、そのそれぞれに対して前記取
    得された関連タームと、を含むクエリを生成して出力す
    るクエリ生成出力部として機能させることを特徴とする
    プログラムを記録したコンピュータ読取可能な記録媒
    体。
  13. 【請求項13】前記プログラムは、前記コンピュータに
    おいて、 前記生成されるクエリは、前記受け付けられた検索パラ
    メータに対応付けられてあらかじめ定められた重みによ
    り、前記抽出されたタームと前記取得された関連ターム
    とを重み付けするように機能させることを特徴とする請
    求項12に記載の記録媒体。
  14. 【請求項14】前記プログラムは、前記コンピュータに
    おいて、 前記生成されるクエリにおいて、前記抽出されたターム
    に対する重み付けの重みと、前記取得された関連ターム
    に対する重み付けの重みと、は異なるように機能させる
    ことを特徴とする請求項13に記載の記録媒体。
  15. 【請求項15】コンピュータを、 クエリを出力する請求項2から4のいずれか1項に記載
    のクエリ出力装置、および、 前記出力されたクエリを文書に対して適用して得られた
    得点が所定の範囲に含まれる文書を獲得して出力する文
    書検索エンジン部として機能させることを特徴とするプ
    ログラムを記録したコンピュータ読取可能な記録媒体。
JP2000093657A 2000-03-30 2000-03-30 文書検索装置、クエリ出力装置、文書検索方法、クエリ出力方法、並びに、記録媒体 Expired - Fee Related JP3444592B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000093657A JP3444592B2 (ja) 2000-03-30 2000-03-30 文書検索装置、クエリ出力装置、文書検索方法、クエリ出力方法、並びに、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000093657A JP3444592B2 (ja) 2000-03-30 2000-03-30 文書検索装置、クエリ出力装置、文書検索方法、クエリ出力方法、並びに、記録媒体

Publications (2)

Publication Number Publication Date
JP2001282827A true JP2001282827A (ja) 2001-10-12
JP3444592B2 JP3444592B2 (ja) 2003-09-08

Family

ID=18608812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000093657A Expired - Fee Related JP3444592B2 (ja) 2000-03-30 2000-03-30 文書検索装置、クエリ出力装置、文書検索方法、クエリ出力方法、並びに、記録媒体

Country Status (1)

Country Link
JP (1) JP3444592B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010186494A (ja) * 2004-04-29 2010-08-26 Harris Corp ビデオニュースセグメントを管理するためのメディア資産管理システムおよび関連する方法
JP2011521379A (ja) * 2008-05-23 2011-07-21 マイクロソフト コーポレーション 時間および場所によるピボット検索結果
US8386914B2 (en) 2004-06-30 2013-02-26 Google Inc. Enhanced document browsing with automatically generated links to relevant information

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63261424A (ja) * 1987-04-17 1988-10-28 Matsushita Electric Ind Co Ltd 文書検索装置
JPH02245971A (ja) * 1989-03-20 1990-10-01 Nippon Telegr & Teleph Corp <Ntt> 情報検索処理方法及び装置
JPH05204978A (ja) * 1992-01-23 1993-08-13 Nec Home Electron Ltd 情報検索装置
JPH05324728A (ja) * 1992-05-18 1993-12-07 Hitachi Ltd 情報検索装置
JPH1026981A (ja) * 1996-07-11 1998-01-27 Matsushita Electric Ind Co Ltd 電子楽器
JPH1131156A (ja) * 1997-07-14 1999-02-02 Toshiba Corp 文書検索装置及び方法
JP3023943B2 (ja) * 1993-07-29 2000-03-21 富士通株式会社 文書検索装置
JP2000200281A (ja) * 1999-01-05 2000-07-18 Matsushita Electric Ind Co Ltd 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63261424A (ja) * 1987-04-17 1988-10-28 Matsushita Electric Ind Co Ltd 文書検索装置
JPH02245971A (ja) * 1989-03-20 1990-10-01 Nippon Telegr & Teleph Corp <Ntt> 情報検索処理方法及び装置
JPH05204978A (ja) * 1992-01-23 1993-08-13 Nec Home Electron Ltd 情報検索装置
JPH05324728A (ja) * 1992-05-18 1993-12-07 Hitachi Ltd 情報検索装置
JP3023943B2 (ja) * 1993-07-29 2000-03-21 富士通株式会社 文書検索装置
JPH1026981A (ja) * 1996-07-11 1998-01-27 Matsushita Electric Ind Co Ltd 電子楽器
JPH1131156A (ja) * 1997-07-14 1999-02-02 Toshiba Corp 文書検索装置及び方法
JP2000200281A (ja) * 1999-01-05 2000-07-18 Matsushita Electric Ind Co Ltd 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010186494A (ja) * 2004-04-29 2010-08-26 Harris Corp ビデオニュースセグメントを管理するためのメディア資産管理システムおよび関連する方法
US8386914B2 (en) 2004-06-30 2013-02-26 Google Inc. Enhanced document browsing with automatically generated links to relevant information
US9697205B2 (en) 2004-06-30 2017-07-04 Google Inc. Enhanced document browsing with automatically generated links to relevant information
JP2011521379A (ja) * 2008-05-23 2011-07-21 マイクロソフト コーポレーション 時間および場所によるピボット検索結果
US8839140B2 (en) 2008-05-23 2014-09-16 Microsoft Corporation Pivot search results by time and location

Also Published As

Publication number Publication date
JP3444592B2 (ja) 2003-09-08

Similar Documents

Publication Publication Date Title
US7526474B2 (en) Question answering system, data search method, and computer program
US6687689B1 (en) System and methods for document retrieval using natural language-based queries
US20080177528A1 (en) Method of enabling any-directional translation of selected languages
US20060195435A1 (en) System and method for providing query assistance
US20070118519A1 (en) Question answering system, data search method, and computer program
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006293731A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2003288360A (ja) 言語横断情報検索装置及び方法
JP4049317B2 (ja) 検索支援装置およびプログラム
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP3767763B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3444592B2 (ja) 文書検索装置、クエリ出力装置、文書検索方法、クエリ出力方法、並びに、記録媒体
JP3411246B2 (ja) クエリ出力装置、文献検索システム、クエリ出力方法、文献検索方法、並びに、記録媒体
JP2003108584A (ja) 情報検索システム及びプログラム
JP4000332B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2011232855A (ja) 文字変換装置、文字変換システム、文字変換方法およびプログラム
JP2010266970A (ja) 情報検索装置、情報検索方法、辞書作成装置、およびプログラム
JP4138048B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2001101207A (ja) 文書要約装置
JP4368550B2 (ja) 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145269A (ja) 文書管理支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH1145249A (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10207904A (ja) 知識情報検索システムおよび知識情報検索方法
JP4617015B2 (ja) 文書表示装置、文書表示方法ならびに、プログラム

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090627

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120627

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees