JP3444592B2 - Document search device, query output device, document search method, query output method, and recording medium - Google Patents

Document search device, query output device, document search method, query output method, and recording medium

Info

Publication number
JP3444592B2
JP3444592B2 JP2000093657A JP2000093657A JP3444592B2 JP 3444592 B2 JP3444592 B2 JP 3444592B2 JP 2000093657 A JP2000093657 A JP 2000093657A JP 2000093657 A JP2000093657 A JP 2000093657A JP 3444592 B2 JP3444592 B2 JP 3444592B2
Authority
JP
Japan
Prior art keywords
query
term
terms
document
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000093657A
Other languages
Japanese (ja)
Other versions
JP2001282827A (en
Inventor
敏宏 安食
Original Assignee
株式会社ジャストシステム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジャストシステム filed Critical 株式会社ジャストシステム
Priority to JP2000093657A priority Critical patent/JP3444592B2/en
Publication of JP2001282827A publication Critical patent/JP2001282827A/en
Application granted granted Critical
Publication of JP3444592B2 publication Critical patent/JP3444592B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、検索にパラメータ
を与え、キーワードからパラメータに応じた関連語を得
て、これらによりクエリを生成して文書を検索するのに
好適な文書検索装置、クエリ出力装置、文書検索方法、
クエリ出力方法、並びに、これらを実現するためのプロ
グラムを記録したコンピュータ読取可能な記録媒体に関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document search apparatus suitable for searching a document by giving a parameter to a search, obtaining a related word corresponding to the parameter from a keyword, and generating a query using these. Device, document search method,
The present invention relates to a query output method and a computer-readable recording medium in which a program for realizing these is recorded.

【0002】[0002]

【従来の技術】WWW(World Wide Web)技術の発展に
ともない、多数の文書から所望の文書を検索する文書検
索技術はますますその重要性を増している。
2. Description of the Related Art With the development of WWW (World Wide Web) technology, a document search technology for searching a desired document from a large number of documents is becoming more and more important.

【0003】このような文書検索では、従来、以下のよ
うな手法が用いられていた。すなわち、ユーザは、所望
の文書を検索するためのキーワードを指定するか、ある
いは、文書を検索するための条件をより詳細に指定した
クエリを入力する。
In such document retrieval, the following methods have been conventionally used. That is, the user specifies a keyword for searching for a desired document, or inputs a query specifying a condition for searching for a document in more detail.

【0004】すると、文書検索エンジンは、文書中に当
該キーワードが含まれる個数や、ベクトル空間法により
クエリにより指定された条件と文書との適合度を求め、
これらを元に当該文書の得点を計算する。
Then, the document search engine obtains the number of times the keyword is included in the document and the matching degree between the document and the condition specified by the query by the vector space method.
The score of the document is calculated based on these.

【0005】最後に、ユーザに対して、得点の高い文書
を検索結果として順に提示する。
Finally, documents with high scores are presented to the user in order as search results.

【0006】なお、ベクトル空間法では、クエリに含ま
れる検索用のキーワード(以下「ターム」という。)に
対して適宜重みを付ける手法や、文書検索エンジンの検
索範囲に含まれる文書に対して、それぞれ、当該文書か
ら抽出されたターム(以下「検索用ターム」という。)
を別途記憶しておき、得点計算を高速化する手法も提案
されている。
In the vector space method, a method of appropriately weighting a search keyword (hereinafter referred to as "term") included in a query, and a document included in a search range of a document search engine Each term extracted from the document (hereinafter referred to as "search term")
There is also proposed a method for accelerating score calculation by separately storing.

【0007】[0007]

【発明が解決しようとする課題】しかしながら、指定さ
れたキーワードが用意された検索用タームでない場合に
は、検索結果として有意な結果が得られないおそれがあ
る。
However, if the specified keyword is not a prepared search term, there is a possibility that no significant result will be obtained as a search result.

【0008】一方で、このような検索用タームを一般ユ
ーザがあらかじめ自分で調査するのは繁雑であり、ま
た、適切な検索用タームを選択できないおそれもある。
On the other hand, it is troublesome for a general user to research such a search term in advance by himself, and there is also a possibility that an appropriate search term cannot be selected.

【0009】このような検索用タームは、一般ユーザが
指定したキーワードから自動的に選択されることが強く
望まれている。
It is strongly desired that such a search term is automatically selected from keywords specified by general users.

【0010】本発明が解決しようとする課題は、検索に
パラメータを与え、キーワードからパラメータに応じた
関連語を得て、これらによりクエリを生成して文書を検
索することにある。
A problem to be solved by the present invention is to give a parameter to a search, obtain a related word corresponding to the parameter from a keyword, generate a query by using these, and search a document.

【0011】[0011]

【課題を解決するための手段】上記課題を解決するた
め、本発明の第1の観点に係る文書検索装置は、文字列
入力受付部と、検索パラメータ入力受付部と、シソーラ
ス部と、関連語取得部と、文書検索部と、を備えるよう
に構成する。
In order to solve the above-mentioned problems, a document search device according to a first aspect of the present invention includes a character string input receiving unit, a search parameter input receiving unit, a thesaurus unit, and a related word. It is configured to include an acquisition unit and a document search unit.

【0012】ここで、文字列入力受付部は、文字列の入
力を受け付ける。
Here, the character string input receiving unit receives the input of the character string.

【0013】一方、検索パラメータ入力受付部は、検索
パラメータの入力を受け付ける。
On the other hand, the search parameter input receiving unit receives the input of the search parameter.

【0014】さらに、シソーラス部は、複数の文字列の
それぞれに対して、検索パラメータに対応付けて関連文
字列を1つ以上記憶する。
Further, the thesaurus unit stores, for each of the plurality of character strings, one or more related character strings in association with the search parameter.

【0015】そして、関連語取得部は、前記シソーラス
部から、前記受け付けられた文字列に対して前記受け付
けられた検索パラメータに対応付けられて記憶された関
連文字列を取得する。
Then, the related word acquisition unit acquires, from the thesaurus unit, the related character string stored in association with the received character string with the received search parameter.

【0016】一方、文書検索部は、前記受け付けられた
文字列と前記取得された関連文字列とにより文書を検索
する。
On the other hand, the document retrieving section retrieves a document from the received character string and the acquired related character string.

【0017】本発明により、あらかじめ定めた検索用タ
ームを、一般ユーザが指定した簡単なパラメータによっ
て自動的に取得して、これらにより文書の検索を適切に
行うことができる。
According to the present invention, a predetermined search term can be automatically acquired by a simple parameter specified by a general user, and a document can be searched appropriately by using these.

【0018】本発明の第2の観点に係るクエリ出力装置
は、タームを含むクエリを文書に対して適用して得られ
た得点が所定の範囲に含まれる文書を獲得する文書検索
エンジンに与えるクエリを出力し、文字列入力受付部
と、ターム抽出部と、検索パラメータ入力受付部と、シ
ソーラス部と、関連語取得部と、クエリ生成出力部と、
を備えるように構成する。
A query output device according to a second aspect of the present invention is a query given to a document search engine that obtains a document having a score obtained by applying a query including a term to a document within a predetermined range. Is output, a character string input reception unit, a term extraction unit, a search parameter input reception unit, a thesaurus unit, a related word acquisition unit, a query generation output unit,
To be provided.

【0019】ここで、文字列入力受付部は、文字列の入
力を受け付ける。
Here, the character string input receiving unit receives the input of the character string.

【0020】一方、ターム抽出部は、前記受け付けられ
た文字列を形態素解析し、これに含まれるタームを抽出
する。
On the other hand, the term extracting unit morphologically analyzes the received character string and extracts terms included in this.

【0021】さらに、検索パラメータ入力受付部は、検
索パラメータの入力を受け付ける。
Further, the search parameter input receiving section receives the input of the search parameter.

【0022】そして、シソーラス部は、複数のタームの
それぞれに対して、検索パラメータに対応付けて関連タ
ームを1つ以上記憶する。
Then, the thesaurus section stores one or more related terms for each of the plurality of terms in association with the search parameters.

【0023】一方、関連語取得部は、前記シソーラス部
から、前記抽出されたタームのそれぞれに対して前記受
け付けられた検索パラメータに対応付けられて記憶され
た関連タームを取得する。
On the other hand, the related term acquiring unit acquires, from the thesaurus unit, the related terms stored in association with the received search parameters for each of the extracted terms.

【0024】さらに、クエリ生成出力部は、前記抽出さ
れたタームと、そのそれぞれに対して前記取得された関
連タームと、を含むクエリを生成して出力する。
Further, the query generation / output unit generates and outputs a query including the extracted terms and the acquired related terms for each of them.

【0025】本発明により、一般ユーザが入力した普通
の文章から、あらかじめ定めた検索用タームを、一般ユ
ーザが指定した簡単なパラメータによって、自動的に取
得して、文書の検索を行うためのクエリを適切に生成し
て出力することができる。
According to the present invention, a query for automatically obtaining a predetermined search term from an ordinary sentence input by a general user with a simple parameter specified by the general user and performing a document search. Can be appropriately generated and output.

【0026】また、本発明のクエリ出力装置において、
前記生成されるクエリは、前記受け付けられた検索パラ
メータに対応付けられてあらかじめ定められた重みによ
り、前記抽出されたタームと前記取得された関連ターム
とを重み付けするように構成することができる。
In the query output device of the present invention,
The generated query may be configured to weight the extracted term and the acquired related term by a predetermined weight associated with the received search parameter.

【0027】本発明により、あらかじめ定めた検索用タ
ームのそれぞれに、一般ユーザが指定したパラメータに
基づいて重み付けを行い、一般ユーザの所望の範囲の文
書を検索するためのクエリを適切に生成して出力するこ
とができる。
According to the present invention, each of predetermined search terms is weighted based on a parameter specified by a general user, and a query for searching a document in a range desired by the general user is appropriately generated. Can be output.

【0028】また、本発明のクエリ出力装置において、
前記生成されるクエリにおいて、前記抽出されたターム
に対する重み付けの重みと、前記取得された関連ターム
に対する重み付けの重みと、は異なるように構成するこ
とができる。
In the query output device of the present invention,
In the generated query, the weighting weight for the extracted term and the weighting weight for the acquired related term may be different from each other.

【0029】本発明により、一般ユーザが入力した検索
用の普通の文章に検索用タームが含まれる場合には、こ
れの重みを大きくし、これに関連するタームの重みは小
さくするようなクエリを適切に生成して出力することが
できる。
According to the present invention, when a search term is included in an ordinary text for search input by a general user, a query is made such that the weight of the search term is increased and the weight of the related terms is decreased. It can be generated and output appropriately.

【0030】本発明の第3の観点に係る文書検索装置
は、上記のクエリ出力装置と、文書検索エンジン部と、
を備えるように構成する。
A document retrieval device according to a third aspect of the present invention comprises the above query output device, a document retrieval engine section,
To be provided.

【0031】ここで、上記のクエリ出力装置はクエリを
出力する。
Here, the query output device outputs a query.

【0032】一方、文書検索エンジン部は、前記出力さ
れたクエリを文書に対して適用して得られた得点が所定
の範囲に含まれる文書を獲得して出力する。
On the other hand, the document search engine unit acquires and outputs a document in which the score obtained by applying the output query to the document is within a predetermined range.

【0033】本発明により、一般ユーザが入力した検索
用の普通の文章から、あらかじめ定めた検索用ターム
を、一般ユーザが指定した簡単なパラメータによって自
動的に取得して、これらにより文書の検索を適切に行う
ことができる。
According to the present invention, a predetermined search term is automatically acquired from a normal text for search input by a general user by a simple parameter specified by the general user, and a document is searched by these. It can be done properly.

【0034】本発明の第4の観点に係る文書検索方法
は、文字列入力受付工程と、検索パラメータ入力受付工
程と、関連語取得工程と、文書検索工程と、を備えるよ
うに構成する。
A document search method according to a fourth aspect of the present invention is configured to include a character string input reception step, a search parameter input reception step, a related word acquisition step, and a document search step.

【0035】ここで、文字列入力受付工程では、文字列
の入力を受け付ける。
Here, in the character string input receiving step, the input of the character string is received.

【0036】一方、検索パラメータ入力受付工程では、
検索パラメータの入力を受け付ける。
On the other hand, in the search parameter input receiving step,
Accept search parameter input.

【0037】さらに、関連語取得工程では、複数の文字
列のそれぞれに対して検索パラメータに対応付けて記憶
された1つ以上の関連文字列から、前記受け付けられた
文字列に対して前記受け付けられた検索パラメータに対
応付けられて記憶された関連文字列を取得する。
Further, in the related word acquisition step, the received character string is received from the one or more related character strings stored in association with the search parameter for each of the plurality of character strings. The related character string stored in association with the search parameter is acquired.

【0038】そして、文書検索工程では、前記受け付け
られた文字列と前記取得された関連文字列とにより文書
を検索する。
Then, in the document search step, a document is searched by the received character string and the acquired related character string.

【0039】本発明の第5の観点に係るクエリ出力方法
は、タームを含むクエリを文書に対して適用して得られ
た得点が所定の範囲に含まれる文書を獲得する文書検索
エンジンに与えるクエリを出力し、文字列入力受付工程
と、ターム抽出工程と、検索パラメータ入力受付工程
と、関連語取得工程と、クエリ生成出力工程と、を備え
るように構成する。
A query output method according to a fifth aspect of the present invention is a query given to a document search engine that obtains a document whose score obtained by applying a query including a term to a document falls within a predetermined range. And a character string input receiving step, a term extracting step, a search parameter input receiving step, a related word acquiring step, and a query generating and outputting step.

【0040】ここで、文字列入力受付工程では、文字列
の入力を受け付ける。
Here, in the character string input receiving step, the input of the character string is received.

【0041】一方、ターム抽出工程では、前記受け付け
られた文字列を形態素解析し、これに含まれるタームを
抽出する。
On the other hand, in the term extracting step, the received character string is subjected to morphological analysis to extract the terms contained therein.

【0042】さらに、検索パラメータ入力受付工程で
は、検索パラメータの入力を受け付ける。
Further, in the search parameter input receiving step, the input of the search parameter is received.

【0043】そして、関連語取得工程では、複数のター
ムのそれぞれに対して検索パラメータに対応付けて記憶
された1つ以上の関連タームから、前記抽出されたター
ムのそれぞれに対して前記受け付けられた検索パラメー
タに対応付けられて記憶された関連タームを取得する。
Then, in the related word acquisition step, the received term is received for each of the extracted terms from one or more related terms stored in association with the search parameter for each of the plurality of terms. The related term stored in association with the search parameter is acquired.

【0044】一方、クエリ生成出力工程では、前記抽出
されたタームと、そのそれぞれに対して前記取得された
関連タームと、を含むクエリを生成して出力する。
On the other hand, in the query generation / output step, a query including the extracted terms and the acquired related terms is generated and output.

【0045】また、本発明のクエリ出力方法において、
前記生成されるクエリは、前記受け付けられた検索パラ
メータに対応付けられてあらかじめ定められた重みによ
り、前記抽出されたタームと前記取得された関連ターム
とを重み付けするように構成することができる。
In the query output method of the present invention,
The generated query may be configured to weight the extracted term and the acquired related term by a predetermined weight associated with the received search parameter.

【0046】また、本発明のクエリ出力方法において、
前記生成されるクエリにおいて、前記抽出されたターム
に対する重み付けの重みと、前記取得された関連ターム
に対する重み付けの重みと、は異なるように構成するこ
とができる。
In the query output method of the present invention,
In the generated query, the weighting weight for the extracted term and the weighting weight for the acquired related term may be different from each other.

【0047】本発明の第6の観点に係る文書検索方法
は、クエリ出力工程と、文書検索エンジン工程と、を備
える。
A document search method according to a sixth aspect of the present invention comprises a query output step and a document search engine step.

【0048】ここで、クエリ出力工程では、上記クエリ
出力方法を使用してクエリを出力する。
Here, in the query output step, the query is output using the above query output method.

【0049】一方、文書検索エンジン工程では、前記出
力されたクエリを文書に対して適用して得られた得点が
所定の範囲に含まれる文書を獲得して出力する。
On the other hand, in the document search engine process, a document having a score obtained by applying the output query to a document within a predetermined range is acquired and output.

【0050】本発明の第7の観点に係るコンピュータ読
取可能な記録媒体は、コンピュータを、文字列入力受付
部、検索パラメータ入力受付部、シソーラス部、関連語
取得部、および、文書検索部として機能させるプログラ
ムを記録するように構成する。
A computer-readable recording medium according to a seventh aspect of the present invention causes a computer to function as a character string input reception unit, a search parameter input reception unit, a thesaurus unit, a related word acquisition unit, and a document search unit. It is configured to record the program to be performed.

【0051】ここで、文字列入力受付部は、文字列の入
力を受け付ける。
Here, the character string input receiving unit receives the input of the character string.

【0052】一方、検索パラメータ入力受付部は、検索
パラメータの入力を受け付ける。
On the other hand, the search parameter input receiving section receives the input of the search parameter.

【0053】さらに、シソーラス部は、複数の文字列の
それぞれに対して、検索パラメータに対応付けて関連文
字列を1つ以上記憶する。
Further, the thesaurus section stores one or more related character strings in association with the search parameters for each of the plurality of character strings.

【0054】そして、関連語取得部は、前記シソーラス
部から、前記受け付けられた文字列に対して前記受け付
けられた検索パラメータに対応付けられて記憶された関
連文字列を取得する。
Then, the related word acquiring unit acquires, from the thesaurus unit, the related character string stored in association with the received character string, in association with the received search parameter.

【0055】一方、文書検索部は、前記受け付けられた
文字列と前記取得された関連文字列とにより文書を検索
する。
On the other hand, the document retrieving unit retrieves a document from the received character string and the acquired related character string.

【0056】本発明の第8の観点に係るコンピュータ読
取可能な記録媒体は、コンピュータを、タームを含むク
エリを文書に対して適用して得られた得点が所定の範囲
に含まれる文書を獲得する文書検索エンジンに与えるク
エリを出力するクエリ出力装置として機能させるプログ
ラムを記録するように構成する。
A computer-readable recording medium according to an eighth aspect of the present invention obtains a document in which a score obtained by applying a query including a term to a document by a computer is within a predetermined range. It is configured to record a program that functions as a query output device that outputs a query given to the document search engine.

【0057】ここで、前記プログラムは、前記コンピュ
ータを、文字列入力受付部、ターム抽出部、検索パラメ
ータ入力受付部、シソーラス部、関連語取得部、およ
び、クエリ生成出力部として機能させる。
Here, the program causes the computer to function as a character string input reception unit, a term extraction unit, a search parameter input reception unit, a thesaurus unit, a related word acquisition unit, and a query generation output unit.

【0058】ここで、文字列入力受付部は、文字列の入
力を受け付ける。
Here, the character string input receiving unit receives the input of the character string.

【0059】一方、ターム抽出部は、前記受け付けられ
た文字列を形態素解析し、これに含まれるタームを抽出
する。
On the other hand, the term extracting unit morphologically analyzes the received character string and extracts terms included in this.

【0060】さらに、検索パラメータ入力受付部は、検
索パラメータの入力を受け付ける。
Further, the search parameter input receiving section receives the input of the search parameter.

【0061】そして、シソーラス部は、複数のタームの
それぞれに対して、検索パラメータに対応付けて関連タ
ームを1つ以上記憶する。
Then, the thesaurus section stores, for each of the plurality of terms, one or more related terms in association with the search parameters.

【0062】一方、関連語取得部は、前記シソーラス部
から、前記抽出されたタームのそれぞれに対して前記受
け付けられた検索パラメータに対応付けられて記憶され
た関連タームを取得する。
On the other hand, the related term acquisition unit acquires, from the thesaurus unit, the related terms stored in association with the received search parameters for each of the extracted terms.

【0063】さらに、クエリ生成出力部は、前記抽出さ
れたタームと、そのそれぞれに対して前記取得された関
連タームと、を含むクエリを生成して出力する。
Further, the query generation / output unit generates and outputs a query including the extracted terms and the acquired related terms for each of them.

【0064】また、本発明のコンピュータ読取可能な記
録媒体に記録されるプログラムは、前記コンピュータに
おいて、前記生成されるクエリは、前記受け付けられた
検索パラメータに対応付けられてあらかじめ定められた
重みにより、前記抽出されたタームと前記取得された関
連タームとを重み付けするように機能させるように構成
することができる。
Further, the program recorded in the computer-readable recording medium of the present invention is, in the computer, the generated query is associated with the accepted search parameter by a predetermined weight, The extracted terms and the retrieved related terms may be configured to function to be weighted.

【0065】また、本発明のコンピュータ読取可能な記
録媒体に記録されるプログラムは、前記コンピュータに
おいて、前記生成されるクエリにおいて、前記抽出され
たタームに対する重み付けの重みと、前記取得された関
連タームに対する重み付けの重みと、は異なるように機
能させるように構成することができる。
Further, the program recorded in the computer-readable recording medium of the present invention is, in the computer, in the generated query, weighting weight for the extracted term, and for the acquired related term. The weighting weights can be configured to function differently.

【0066】本発明の第9の観点に係るコンピュータ読
取可能な記録媒体に記録されるプログラムは、コンピュ
ータを、上記のクエリ出力装置、および、文書検索エン
ジン部として機能させるように構成する。
The program recorded on the computer-readable recording medium according to the ninth aspect of the present invention causes a computer to function as the above-described query output device and document search engine unit.

【0067】ここで、上記のクエリ出力装置はクエリを
出力する。
Here, the query output device outputs a query.

【0068】一方、文書検索エンジン部は、前記出力さ
れたクエリを文書に対して適用して得られた得点が所定
の範囲に含まれる文書を獲得して出力する。
On the other hand, the document search engine unit acquires and outputs a document in which the score obtained by applying the output query to the document is within a predetermined range.

【0069】[0069]

【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the accompanying drawings.

【0070】(概要構成)図1は、本発明のクエリ出力
装置として機能する典型的な情報処理装置(汎用のコン
ピュータ、各種端末、携帯端末、携帯電話、ゲーム装置
などの専用機器を含む)の概要構成を示す模式図であ
る。以下、本図を参照して説明する。
(Outline Configuration) FIG. 1 shows a typical information processing device (including a general-purpose computer, various terminals, mobile terminals, mobile phones, game machines, and other dedicated equipment) that functions as a query output device of the present invention. It is a schematic diagram which shows a schematic structure. Hereinafter, description will be given with reference to this figure.

【0071】情報処理装置101は、CPU(Central
Processing Unit;中央処理ユニット)102によって
制御される。情報処理装置101に電源を投入すると、
CPU102は、ROM(Read Only Memory;読出専用
メモリ)103に記憶されたIPL(Initial Program
Loader;初期プログラムローダ)を実行する。
The information processing apparatus 101 has a CPU (Central
Processing Unit (Central Processing Unit) 102. When the information processing apparatus 101 is powered on,
The CPU 102 has an IPL (Initial Program) stored in a ROM (Read Only Memory) 103.
Loader; initial program loader) is executed.

【0072】IPLは、ハードディスク104、FD
(Floppy Disk;フロッピー(登録商標)ディスク)ド
ライブ110に装着されたFD、CD−ROM(Compac
t Disk ROM)ドライブ111に装着されたCD−ROM
などの記録媒体に記憶されたOS(Operating System;
オペレーティング・システム)プログラムを読み出して
実行するプログラムである。
The IPL is the hard disk 104, FD
(Floppy Disk; FD, CD-ROM (Compac)
CD-ROM installed in the drive 111
OS (Operating System) stored in a recording medium such as
Operating system) A program that reads and executes a program.

【0073】OSを起動した後、CPU102は、キー
ボード105やマウス106などにより入力されたユー
ザの指示にしたがって、あるいは、ハードディスクなど
にあらかじめ記述された設定ファイルの内容にしたがっ
て、ハードディスクなどに記憶されたアプリケーション
プログラムを実行する。
After booting the OS, the CPU 102 is stored in the hard disk or the like according to the user's instruction input through the keyboard 105 or the mouse 106 or according to the contents of the setting file previously described in the hard disk or the like. Run the application program.

【0074】なお、携帯端末などの小規模な情報処理装
置では、IPL自体がOSやアプリケーションプログラ
ムとしての機能を果たすような実施形態も採用すること
ができる。
In a small-scale information processing device such as a mobile terminal, an embodiment in which the IPL itself functions as an OS and an application program can be adopted.

【0075】CPU102は、プログラムの実行の際
に、RAM(Random Access Memory)107を一時的な
作業用記憶領域として用いる。このほか、一時的な作業
用記憶領域として、CPU102内に設けられたレジス
タやキャッシュ(図示せず)が使われる。
The CPU 102 uses a RAM (Random Access Memory) 107 as a temporary work storage area when executing a program. In addition, a register and a cache (not shown) provided in the CPU 102 are used as a temporary work storage area.

【0076】プログラムの実行に伴ない、ユーザに結果
を報告したり、途中経過を見せるため、CPU102
は、液晶ディスプレイやCRT(Cathode Ray Tube)な
どの表示装置108に当該情報を表示することができ
る。マウス106による指示操作では、マウス106を
移動することにより、画面に表示されたカーソルが移動
し、マウス106をクリックすることにより、カーソル
が指すメニュー項目を選択することができる。
In order to report the result to the user and show the progress along with the execution of the program, the CPU 102
Can display the information on a display device 108 such as a liquid crystal display or a CRT (Cathode Ray Tube). In the instruction operation by the mouse 106, the cursor displayed on the screen is moved by moving the mouse 106, and the menu item pointed by the cursor can be selected by clicking the mouse 106.

【0077】情報処理装置101は、NIC(Network
Interface Card)やモデムなどのインターフェース10
9を介してインターネットなどのコンピュータ通信網と
通信を行うことができる。インターフェース109を介
して他のサーバコンピュータ(文書検索エンジン)にク
エリを送信したり、これから応答として送信された検索
結果を受信することができる。また、インターフェース
109を介して受信したプログラムを実行することもで
きる。
The information processing apparatus 101 has a NIC (Network
Interface card, interface such as modem 10
9 can communicate with a computer communication network such as the Internet. It is possible to send a query to another server computer (document search engine) through the interface 109 and receive a search result sent as a response. It is also possible to execute the program received via the interface 109.

【0078】図2は、上記情報処理装置101が本発明
のクエリ出力装置並びに文書検索装置として機能する場
合の、各機能の概要構成を示す模式図である。以下、本
図を参照して説明する。
FIG. 2 is a schematic diagram showing a schematic configuration of each function when the information processing apparatus 101 functions as the query output apparatus and the document search apparatus of the present invention. Hereinafter, description will be given with reference to this figure.

【0079】クエリ出力装置201は、文字列入力受付
部202と、検索パラメータ入力受付部203と、シソ
ーラス部204と、関連語取得部205と、クエリ生成
出力部206と、を備える。
The query output device 201 includes a character string input reception unit 202, a search parameter input reception unit 203, a thesaurus unit 204, a related word acquisition unit 205, and a query generation output unit 206.

【0080】さらに、本実施形態では、ユーザが普通の
文章で検索用キーワードを入力できるようにするため、
ターム抽出部207を用意する。なお、ユーザがキーワ
ードを単語や語句単位で入力するような実施形態では、
ターム抽出部207を用意しなくともよい。
Further, in the present embodiment, in order to allow the user to input a search keyword in an ordinary sentence,
A term extraction unit 207 is prepared. Note that in an embodiment in which the user inputs keywords in units of words or phrases,
It is not necessary to prepare the term extraction unit 207.

【0081】さらに、本実施形態では、生成出力された
クエリにより、実際に文書の検索を行う文書検索エンジ
ン部208を用意する。
Further, in the present embodiment, the document search engine unit 208 for actually searching for a document by the query generated and output is prepared.

【0082】文字列入力受付部202は、ユーザから検
索用の自然な文章を表す文字列の入力を受け付ける。し
たがって、キーボード105やマウス106などの入力
装置は、文字列入力受付部202として機能する。
The character string input receiving unit 202 receives input of a character string representing a natural sentence for retrieval from the user. Therefore, the input device such as the keyboard 105 and the mouse 106 functions as the character string input receiving unit 202.

【0083】ターム抽出部207は、与えられた文字列
を形態素解析し、これに含まれるタームを抽出する。し
たがって、CPU102は、ターム抽出部207として
機能する。
The term extraction unit 207 morphologically analyzes the given character string and extracts terms included in this. Therefore, the CPU 102 functions as the term extracting unit 207.

【0084】検索パラメータ入力受付部203は、たと
えば、「大変ゆるい検索〜ゆるい検索〜普通の検索〜き
つい検索〜大変きつい検索」のような5段階からいずれ
かを検索パラメータとしてユーザが選択した結果の入力
を受け付ける。したがって、キーボード105やマウス
106などの入力装置は、検索パラメータ入力受付部2
03として機能する。
The search parameter input acceptance unit 203 indicates the result selected by the user as one of the five search parameters, such as "very loose search-slow search-normal search-tight search-very tight search". Accept input. Therefore, the input device such as the keyboard 105 or the mouse 106 is equivalent to the search parameter input acceptance unit 2
Function as 03.

【0085】シソーラス部204は、タームのそれぞれ
に対して、上記検索パラメータのそれぞれに対応付け
て、関連する関連タームを1つ以上記憶する。したがっ
て、ROM103、ハードディスク104、FDD11
0に装着されたFD、CD−ROMドライブ111に装
着されたCD−ROM、インターフェース109を介し
て接続された他のコンピュータは、シソーラス部204
として機能する。
The thesaurus unit 204 stores, for each term, one or more related related terms in association with each of the search parameters. Therefore, the ROM 103, the hard disk 104, the FDD 11
The FD installed in 0, the CD-ROM installed in the CD-ROM drive 111, and another computer connected via the interface 109 are the thesaurus section 204.
Function as.

【0086】関連語取得部205は、形態素解析の結果
抽出されて得られたタームのそれぞれについて、シソー
ラス部204から、現在の検索パラメータに基づいて、
関連タームを取得する。したがって、CPU102は、
関連語取得部205として機能する。
The related word acquiring unit 205 receives, from the thesaurus unit 204, each of the terms obtained as a result of the morphological analysis based on the current search parameters.
Get related terms. Therefore, the CPU 102
It functions as the related word acquisition unit 205.

【0087】クエリ生成部206は、ターム抽出部20
7が抽出したタームと、関連語取得部20が取得した関
連タームと、を含むクエリを生成して出力する。したが
って、CPU102は、クエリ生成出力部206として
機能する。
The query generation unit 206 includes a term extraction unit 20.
A query including the term extracted by 7 and the related term acquired by the related word acquisition unit 20 is generated and output. Therefore, the CPU 102 functions as the query generation output unit 206.

【0088】文書検索エンジン部208は、生成出力さ
れたクエリにより、文書を検索する。したがって、CP
U102が、これらの文書を記憶するROM103、ハ
ードディスク104、FDD110に装着されたFD、
CD−ROMドライブ111に装着されたCD−ROM
と共働して、文書検索エンジン部208として機能す
る。
The document search engine unit 208 searches for a document by the generated and output query. Therefore, CP
U102 is a ROM 103 for storing these documents, a hard disk 104, an FD mounted on the FDD 110,
CD-ROM installed in the CD-ROM drive 111
It functions as the document search engine unit 208 in cooperation with.

【0089】また、たとえばWWW検索サーバのよう
に、インターフェース109を介して接続された他のコ
ンピュータが、文書検索エンジン部208として機能す
る。この場合は、文書検索エンジン部208以外の部分
が、クエリ出力装置201として機能する。
Further, another computer connected through the interface 109, such as a WWW search server, functions as the document search engine unit 208. In this case, the parts other than the document search engine unit 208 function as the query output device 201.

【0090】このように、文書検索エンジン部208
と、クエリ出力装置201とを、同じ情報処理装置10
1上に構成することも、異なる情報処理装置101上に
構成することも、いずれも可能である。ただし、負荷分
散や文書データベースの集中管理の観点からは、これら
を分離した態様とすることが望ましい。
As described above, the document search engine unit 208
And the query output device 201 are the same information processing device 10
It is possible to configure them on one or different information processing devices 101. However, from the viewpoint of load distribution and centralized management of the document database, it is desirable to separate them.

【0091】このほか、ハードディスク104、FDド
ライブ110に装着されたFD、CD−ROMドライブ
111に装着されたCD−ROM、ROM103、RA
M107、および、インターフェース109を介して接
続された他のコンピュータなど、これらコンピュータ読
取可能な情報記憶装置に相当するものは、CPU102
で実行されるプログラムを記録することにより、本発明
の記録媒体として機能する。
In addition, the hard disk 104, the FD installed in the FD drive 110, the CD-ROM installed in the CD-ROM drive 111, the ROM 103, and the RA
A CPU 102 is equivalent to the computer-readable information storage device such as M107 and another computer connected via the interface 109.
By recording the program executed in step 1, the program functions as the recording medium of the present invention.

【0092】上述のように、図1に示す情報処理装置1
01は、図2に示す本発明の文書検索装置211、並び
に、クエリ出力装置201として機能する。これは、本
発明のクエリ出力装置201、および、文書検索装置2
11の典型的な実施態様である。
As described above, the information processing apparatus 1 shown in FIG.
01 functions as the document search device 211 and the query output device 201 of the present invention shown in FIG. This is the query output device 201 and the document search device 2 of the present invention.
11 is an exemplary embodiment.

【0093】一方、携帯端末等にて本発明の文書検索装
置211、並びに、クエリ出力装置201を実現する場
合は、外部記憶装置として、不揮発性半導体メモリ(フ
ラッシュメモリカード)やバッテリバックアップがされ
たRAMを使用することができる。この場合、必ずしも
ハードディスク104、FDドライブ110、CD−R
OMドライブ111等は必要ない。
On the other hand, when the document search device 211 and the query output device 201 of the present invention are realized by a portable terminal or the like, a non-volatile semiconductor memory (flash memory card) or a battery backup is used as an external storage device. RAM can be used. In this case, the hard disk 104, FD drive 110, CD-R
The OM drive 111 or the like is not necessary.

【0094】(文書検索処理)図3は、図1に示す情報
処理装置101を本発明の文書検索装置211として機
能させる場合の文書検索処理の手順を示すフローチャー
トである。以下、本図を参照して説明する。
(Document Retrieval Processing) FIG. 3 is a flowchart showing the procedure of the document retrieval processing when the information processing apparatus 101 shown in FIG. 1 is made to function as the document retrieval apparatus 211 of the present invention. Hereinafter, description will be given with reference to this figure.

【0095】まず、CPU102は、ユーザから検索対
象の文書を特定するための検索条件を示す文章の入力を
受け付ける(ステップS301)。ユーザは、たとえ
ば、「日本と中国の合弁企業」のような自然な文章を検
索条件として入力することができる。
First, the CPU 102 receives an input of a sentence indicating a search condition for specifying a document to be searched from the user (step S301). The user can input a natural sentence such as “Japanese-Chinese joint venture” as a search condition.

【0096】また、この際に、合わせて検索パラメータ
の入力も受け付ける(ステップS302)。本実施形態
では、検索のゆるさ〜きつさを5段階で入力することが
できる。
At this time, input of search parameters is also accepted (step S302). In the present embodiment, it is possible to input the ease of search to the tightness in five steps.

【0097】図4は、このような文章入力と検索パラメ
ータの入力の両方を受け付ける入力フォームの表示例で
ある。
FIG. 4 is a display example of an input form that accepts both such text input and search parameter input.

【0098】入力フォーム401は、情報処理装置10
1の表示装置108に表示される。ユーザは、検索に用
いる文章を、文章入力欄402に入力し、検索のゆるさ
〜きつさをパラメータ用スライダ403を用いて入力す
る。これらを入力した後に、検索実行ボタン404を用
いてクエリの生成、および、文書の検索の実行を指示す
る。
The input form 401 is used for the information processing device 10.
No. 1 display device 108 is displayed. The user inputs a sentence to be used for the search in the sentence input field 402, and inputs the degree of looseness to the tightness of the search using the parameter slider 403. After inputting these, a search execution button 404 is used to instruct generation of a query and execution of document search.

【0099】次に、CPU102は、入力された文字列
を形態素解析して、これに含まれるタームを抽出する
(ステップS303)。上記入力例の場合は、タームは
形態素解析の結果は、「日本/と/中国/の/合弁/企
業」のように形態素解析される。ここで「/」は形態素
の区切りを示す。ここからタームとして「日本」「中
国」「合弁/企業」を抽出する。
Next, the CPU 102 morphologically analyzes the input character string and extracts terms included in this (step S303). In the case of the above input example, the result of the morphological analysis of terms is morphologically analyzed as "Japan / and / China / of / joint venture / company". Here, “/” indicates a morpheme delimiter. From this, "Japan", "China", and "joint venture / company" are extracted as terms.

【0100】タームがほかのタームを含む場合には、こ
れらも抽出する(ステップS304)。他のタームに含
まれるタームを「サブターム」という。たとえば、「合
弁/企業」のサブタームは、「合弁」と「企業」であ
る。
If the term includes other terms, these terms are also extracted (step S304). Terms included in other terms are called "subterms". For example, the sub-terms of “joint venture / company” are “joint venture” and “company”.

【0101】さらに、これらタームやサブタームの同義
語・類義語など、関連するターム(以下「関連ターム」
という。)を、シソーラス部204を用いて取得する
(ステップS305)。シソーラス部204には、検索
パラメータのゆるさ〜きつさに応じて、各種の関連ター
ムが記憶されている。
Furthermore, related terms such as synonyms and synonyms of these terms and sub-terms (hereinafter referred to as "related terms")
Say. ) Is acquired using the thesaurus unit 204 (step S305). The thesaurus unit 204 stores various related terms according to how loose or tight the search parameters are.

【0102】本実施形態では、あるタームと、これの関
連タームとの情報は、あらかじめハードディスク104
などに記憶しておく。たとえば、「日本」の関連ターム
として、きつい検索用には、「日本国」「ニッポン」
「ジャパン」「Japan」などが記憶されている。ゆ
るい検索用には、「東アジア」「北海道」「九州」「四
国」「本州」などが記憶されている。
In this embodiment, information on a certain term and related terms is stored in advance in the hard disk 104.
Etc. For example, as a related term of "Japan", for tight search, "Japan""Nippon"
"Japan", "Japan", etc. are stored. For the loose search, "East Asia", "Hokkaido", "Kyushu", "Shikoku", "Honshu", etc. are stored.

【0103】さらに、CPU102は、タームと、形態
素解析によって得られた当該タームの品詞情報や係り受
けの情報と、検索パラメータと、から、クエリを生成し
て出力する(ステップS306)。
Further, the CPU 102 generates and outputs a query from the term, the part-of-speech information and the dependency information of the term obtained by the morphological analysis, and the search parameter (step S306).

【0104】ここで生成されるクエリには、以下の情報
が含まれる。 ・ターム。サブタームや関連タームを含む。 ・当該タームの重み。ベクトル空間法で文書の得点を計
算する際に用いる。 ・必須ターム情報。当該タームが必須タームか否かを示
す。
The query generated here includes the following information. ·term. Includes sub-terms and related terms. -The weight of the term. It is used when calculating the score of a document by the vector space method.・ Required term information. Indicates whether the term is an essential term.

【0105】タームの重みや必須ターム情報の決定の手
法については後述する。
The method of determining the weight of terms and the essential term information will be described later.

【0106】なお、出力先としては、たとえば、RAM
107を採用することができる。
The output destination is, for example, a RAM.
107 can be adopted.

【0107】さらに、出力されたクエリを用いて、文書
検索エンジン部208へ問い合わせて(ステップS30
7)、本処理を終了する。この詳細については、後述す
る。なお、本実施形態では、上述のように、同じ情報処
理装置101上にクエリ出力装置201と文書検索エン
ジン部208とが実現されているが、異なる情報処理装
置101上にこれらを配置してもよい。
Further, using the output query, an inquiry is made to the document search engine unit 208 (step S30
7) Then, this process ends. The details will be described later. In the present embodiment, the query output device 201 and the document search engine unit 208 are realized on the same information processing device 101 as described above, but they may be arranged on different information processing devices 101. Good.

【0108】(タームの例)たとえば、ユーザが「日本
と中国の合弁企業」を入力した場合に、抽出もしくは取
得されるタームの様子を以下に示す。
(Example of Term) For example, when the user inputs “Japanese-Chinese joint venture”, the states of terms extracted or acquired are shown below.

【0109】「きつい検索」を選んだ場合には、以下の
抽出済タームと関連タームからクエリを生成する。 ・日本 ・Japan、ジャパン、ニッポン (「日本」の関連
ターム) ・中国 ・China、チャイナ (「中国」の関連ターム) ・合弁企業
When "tight search" is selected, a query is generated from the following extracted terms and related terms.・ Japan ・ Japan, Japan, Nippon ("Japan" related terms) ・ China ・ China, China ("China" related terms) ・ Joint venture

【0110】「ゆるい検索」を選んだ場合には、以下の
抽出済タームと関連タームからクエリを生成する。 ・日本 ・Japan、ジャパン、ニッポン (「日本」の関連
ターム) ・北海道、本州、九州、四国 (「日本」の関連ター
ム) ・中国 (「中国」の関連ターム) ・China、チャイナ (「中国」の関連ターム) ・広州、香港、澳門 (「中国」の関連ターム) ・合弁企業 ・合弁 (「合弁企業」のサブターム) ・企業 (「合弁企業」のサブターム)
When "loose search" is selected, a query is generated from the following extracted terms and related terms.・ Japan ・ Japan, Japan, Japan (related terms of "Japan") ・ Hokkaido, Honshu, Kyushu, Shikoku (related terms of "Japan") ・ China (related terms of "China") ・ China (China) Related terms) ・ Guangzhou, Hong Kong, Macao ("China" related terms) ・ Joint ventures ・ Joint ventures ("Joint ventures" sub-terms) ・ Companies ("joint ventures" sub-terms)

【0111】このように、検索パラメータの相違に基づ
いて、異なるタームを用いて検索用クエリを生成するこ
とにより、ユーザの所望の範囲の文書を検索結果として
得ることが容易になる。
As described above, by generating the search query using different terms based on the difference in the search parameters, it becomes easy to obtain the documents in the range desired by the user as the search results.

【0112】(問合せ処理)図5は、出力されたクエリ
を用いて、異なる情報処理装置101上に配置された文
書検索エンジン部208へ問い合わせを行う問合せ処理
の流れを示すフローチャートである。
(Inquiry Processing) FIG. 5 is a flow chart showing the flow of inquiry processing for making an inquiry to the document search engine unit 208 arranged on a different information processing apparatus 101 using the output query.

【0113】CPU102は、ステップS307におい
て、RAM107に出力されたクエリを、インターフェ
ース109を介して文書検索エンジン部208へ送信す
る(ステップS601)。
The CPU 102 transmits the query output to the RAM 107 in step S307 to the document search engine unit 208 via the interface 109 (step S601).

【0114】文書検索エンジン部208は、当該クエリ
を受信し(ステップS602)、当該クエリに基づい
て、各文書の得点を計算し(ステップS603)、上位
の所定の数の文書を取得し(ステップS604)、これ
らを検索結果として送信する(ステップS605)。
The document search engine unit 208 receives the query (step S602), calculates the score of each document based on the query (step S603), and obtains a predetermined number of high-order documents (step S603). (S604), these are transmitted as a search result (step S605).

【0115】CPU102は、インターフェース109
を介して、検索結果の文書を受信し(ステップS60
6)、当該文書を表示装置108に表示し、あるいは、
RAM107やハードディスク104などの記憶装置に
出力して(ステップS607)、本処理を終了する。
The CPU 102 has an interface 109.
The document of the search result is received via (step S60
6) display the document on the display device 108, or
The data is output to a storage device such as the RAM 107 or the hard disk 104 (step S607), and this processing ends.

【0116】このように、ユーザは、自然な文章を入力
することで検索の条件を指定することができる一方、検
索パラメータを入力することで、所望の範囲に含まれる
検索結果を得ることができる。
As described above, the user can specify the search condition by inputting a natural sentence, and can obtain the search result included in the desired range by inputting the search parameter. .

【0117】(重みの決定)クエリ生成部206、およ
び、ステップS306においては、タームと、形態素解
析によって得られた当該タームの品詞情報や係り受けの
情報と、検索パラメータと、から、クエリを生成する。
以下では、このクエリにおけるタームの重みの決定手法
の一例について説明する。
(Determination of Weight) In the query generation unit 206 and step S306, a query is generated from a term, part-of-speech information or dependency information of the term obtained by morphological analysis, and a search parameter. To do.
Hereinafter, an example of a method for determining the term weight in this query will be described.

【0118】日本語では名詞同士の係り受けや複合名詞
が多用されるため、文書検索においてもこれらを考慮す
る必要がある。そこで、これらを検索結果の傾向から以
下のように類型化して、各タームの重みを決定する。
In Japanese, since the relation between nouns and compound nouns are often used, it is necessary to consider them also in the document search. Therefore, these are categorized as follows from the tendency of the search result, and the weight of each term is determined.

【0119】第1の類型は、一般名詞と一般名詞が連接
(助詞「の」を挟んで連なる場合を含む。以下同様。)
する場合である。この場合は、前に配置された一般名詞
が主題となる場合が多い。たとえば、「食事/療法」
「食事/の/療法」「ゴルフ/トーナメント」「ゴルフ
/の/トーナメント」の場合、主題となるのはそれぞれ
「食事」「ゴルフ」である。そこで、これら主題となる
前に配置されたタームの重みを大きくする。
The first type is a concatenation of general nouns and general nouns (including a case where particles are continuous with a particle "no" in between. The same applies hereinafter).
This is the case. In this case, the common noun placed before is often the subject. For example, "meal / therapy"
In the case of “meal / no / therapy”, “golf / tournament”, and “golf / no / tournament”, the main subjects are “meal” and “golf”, respectively. Therefore, the weight of terms placed before these subjects are increased.

【0120】第2の類型は、サブタームを含むタームの
場合である。サブタームとタームとで、意味が大きく異
なる場合は、サブタームの重みを低くし、全体のターム
の重みを高くする。たとえば、「地方/銀行」「就職/
協定」では、これら全体の重みを高くし、「地方」「銀
行」「就職」「協定」の重みは低くする。
The second type is the case of terms containing subterms. When the meanings of subterms and terms are significantly different, the weight of the subterm is lowered and the weight of the entire term is raised. For example, "Regional / Bank""Job /
In the “Agreement,” the overall weight of these is increased, and the weight of “regional,” “bank,” “employment,” and “agreement” is lowered.

【0121】本実施形態では、これらの重み決定の手法
を採用するが、自然言語による研究の成果に応じ、他の
重みの決定のためのヒューリスティックスを採用するこ
とができる。また、他国語についても同様の処理を行う
ことができる。
In the present embodiment, these weight determining methods are adopted, but heuristics for determining other weights can be adopted according to the results of research by natural language. Further, similar processing can be performed for other languages.

【0122】(必須ターム情報の決定)クエリ生成部2
06、および、ステップS306においては、ターム
と、形態素解析によって得られた当該タームの品詞情報
や係り受けの情報と、検索パラメータと、から、クエリ
を生成する。以下では、このクエリにおける必須ターム
情報の決定手法の一例について説明する。
(Determination of Required Term Information) Query Generation Unit 2
In 06 and step S306, a query is generated from the term, the part-of-speech information and the dependency information of the term obtained by the morphological analysis, and the search parameter. Below, an example of a method of determining the essential term information in this query will be described.

【0123】必須タームか否かは、そのタームが主題で
あるか否かに関わる。そこで、上記の重み決定の類型に
おいて、「重みを高くする」としたタームを必須ターム
とすることができる。
Whether or not a required term is related to whether or not the term is a subject. Therefore, in the above type of weight determination, the term “increasing weight” can be made an essential term.

【0124】また、上記第2の類型において、サブター
ム「地方」「銀行」「就職」「協定」を用いずにクエリ
を作成してもよい。
In the second type, the query may be created without using the sub-terms “region”, “bank”, “employment”, and “agreement”.

【0125】(検索パラメータによる調整)本実施形態
では、ユーザが入力した検索パラメータに応じてターム
の重みや必須ターム情報を決定する。図4に示す入力フ
ォーム401では、スライダ403により「きつい検
索」から「ゆるい検索」まで検索パラメータを数段階の
値として入力することができる。
(Adjustment by Search Parameter) In this embodiment, the weight of the term and the essential term information are determined according to the search parameter input by the user. In the input form 401 shown in FIG. 4, a slider 403 can be used to input search parameters from "tight search" to "loose search" as values in several stages.

【0126】「きつい検索」の場合には、重みの高低の
差を増し、あるいは、必須タームの割合を増す。一方、
「ゆるい検索」の場合には、重みの高低の差を減らし、
あるいは、必須タームの割合を減らす。
In the case of "tight search", the difference in height between weights is increased, or the proportion of essential terms is increased. on the other hand,
In the case of "loose search", reduce the difference in weight level,
Alternatively, reduce the proportion of mandatory terms.

【0127】たとえば、「格安/旅行」(後に配置され
たタームが主題となる場合)について、「ゆるい検索」
から「きつい検索」までクエリに含まれる情報を順に列
挙すると以下のようになる。 ・「格安」は重み小、「旅行」は重み小 ・「格安」は重み小、「旅行」は重み大 ・「格安」は重み小、「旅行」は重み大かつ必須 ・「格安」は重み大、「旅行」は重み大かつ必須 ・「格安」は重み大かつ必須、「旅行」は重み大かつ必
For example, for “cheap / travel” (when the term placed later is the subject), “loose search”
The information included in the query is listed in order from to "tight search".・ "Cheap" is light weight, "Travel" is light weight ・ "Cheap" is light weight, "Travel" is heavy weight ・ "Cheap" is light weight, "Travel" is heavy weight and mandatory ・ "Cheap" is heavy weight Large, "Travel" is heavy and essential ・ "Cheap" is heavy and essential, "Travel" is heavy and essential

【0128】さらに、本実施形態では、「きつい検索」
の場合には、抽出された各タームに対してきつい検索用
の関連タームとして記憶されたものを採用し、「ゆるい
検索」の場合には、ゆるい検索用の関連タームとして記
憶されたものを採用する。これらにも、上記と同様に重
み付けをすることができる。また、あらかじめ重みをシ
ソーラス部204に記憶させておいてもよい。
Further, in this embodiment, "tight search" is performed.
In the case of, the one stored as the related term for the tight search is adopted for each extracted term, and in the case of "loose search", the one stored as the related term for the loose search is adopted. To do. These can be weighted in the same manner as above. Further, the weight may be stored in the thesaurus unit 204 in advance.

【0129】これらの検索パラメータと生成されるクエ
リとの関係についても、適宜変更が可能であり、変更し
た実施形態も本発明の範囲に含まれる。
The relationship between these search parameters and the generated query can be modified as appropriate, and modified embodiments are also included in the scope of the present invention.

【0130】[0130]

【発明の効果】本発明により、検索にパラメータを与
え、キーワードからパラメータに応じた関連語を得て、
これらによりクエリを生成して文書を検索するのに好適
な文書検索装置、クエリ出力装置、文書検索方法、クエ
リ出力方法、並びに、これらを実現するためのプログラ
ムを記録したコンピュータ読取可能な記録媒体を提供す
ることができる。
According to the present invention, a parameter is given to a search, a related word corresponding to the parameter is obtained from a keyword,
A document search device, a query output device, a document search method, a query output method suitable for generating a query by these and searching for a document, and a computer-readable recording medium recording a program for realizing these. Can be provided.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の文書検索装置、並びに、クエリ出力装
置として機能する典型的な情報処理装置の概要構成を示
す模式図である。
FIG. 1 is a schematic diagram illustrating a schematic configuration of a document search device of the present invention and a typical information processing device that functions as a query output device.

【図2】本発明の文書検索装置、並びに、クエリ出力装
置の各機能の概要構成を示す模式図である。
FIG. 2 is a schematic diagram showing a schematic configuration of each function of a document search device and a query output device of the present invention.

【図3】本発明の文書検索処理の手順を示すフローチャ
ートである。
FIG. 3 is a flowchart showing a procedure of document search processing according to the present invention.

【図4】入力フォームの表示例を示す説明図である。FIG. 4 is an explanatory diagram showing a display example of an input form.

【図5】本発明の問合せ処理の手順を示すフローチャー
トである。
FIG. 5 is a flowchart showing a procedure of inquiry processing according to the present invention.

【符号の説明】[Explanation of symbols]

101 情報処理装置 102 CPU 103 ROM 104 ハードディスク 105 キーボード 106 マウス 107 RAM 108 表示装置 109 インターフェース 110 FDドライブ 111 CD−ROMドライブ 201 クエリ出力装置 202 文字列入力受付部 203 検索パラメータ入力受付部 204 シソーラス部 205 関連語取得部 206 クエリ生成出力部 207 ターム抽出部 208 文書検索エンジン部 211 文書検索装置 401 入力フォーム 402 文章入力欄 403 パラメータ用スライダ 404 検索実行ボタン 101 Information processing device 102 CPU 103 ROM 104 hard disk 105 keyboard 106 mice 107 RAM 108 display device 109 interface 110 FD drive 111 CD-ROM drive 201 query output device 202 Character string input reception part 203 Search parameter input acceptance section 204 Thesaurus 205 Related word acquisition unit 206 Query generation output unit 207 Term extractor 208 Document Search Engine Section 211 Document Retrieval Device 401 input form 402 text input field 403 Parameter slider 404 Search execution button

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−204978(JP,A) 特開 平11−31156(JP,A) 特開 昭63−261424(JP,A) 特開 平5−324728(JP,A) 特開 平10−26981(JP,A) 特開 平2−245971(JP,A) 特開2000−200281(JP,A) 特許3023943(JP,B2) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 - 17/30 419 ─────────────────────────────────────────────────── ─── Continuation of the front page (56) Reference JP-A-5-204978 (JP, A) JP-A-11-31156 (JP, A) JP-A-63-261424 (JP, A) JP-A-5- 324728 (JP, A) JP 10-26981 (JP, A) JP 2-245971 (JP, A) JP 2000-200281 (JP, A) Patent 3023943 (JP, B2) (58) Field (Int.Cl. 7 , DB name) G06F 17/30-17/30 419

Claims (15)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】タームを含むクエリを文書に対して適用し
て得られた得点が所定の範囲に含まれる文書を獲得する
文書検索エンジンに与えるクエリを出力するクエリ出力
装置であって、 文字列の入力を受け付ける文字列入力受付部と、 前記受け付けられた文字列を形態素解析し、これに含ま
れるタームを抽出するターム抽出部と、 検索パラメータの入力を受け付ける検索パラメータ入力
受付部と、 複数のタームのそれぞれに対して、検索パラメータに対
応付けて関連タームを1つ以上記憶するシソーラス部
と、 前記シソーラス部から、前記抽出されたタームのそれぞ
れに対して前記受け付けられた検索パラメータに対応付
けられて記憶された関連タームを取得する関連語取得部
と、 前記抽出されたタームと、そのそれぞれに対して前記取
得された関連タームと、を含むクエリを生成して出力す
るクエリ生成出力部と、を備え、 前記クエリ生成出力部は、前記抽出されたタームが複数
あり、あるタームと他のタームとに係り受け関係がある
場合、もしくは、あるタームが他のタームを含む場合、
これらのタームおよびそのそれぞれに対応付けられた関
連タームの重みを、当該タームと当該他のタームとの当
該係り受け関係もしくは当該タームが当該他のタームを
含む関係に基づいて決定し、さらに、当該重みを当該検
索パラメータにより調整して、クエリを生成することを
特徴とするクエリ出力装置。
1. A query output device for outputting a query to a document search engine that obtains a document whose score obtained by applying a query including a term to a document is a character string. A character string input accepting unit that accepts an input, a term extracting unit that morphologically analyzes the accepted character string and extracts terms included in the character string, a search parameter input accepting unit that accepts input of a search parameter, and a plurality of For each of the terms, a thesaurus unit that stores at least one related term in association with the search parameter; and from the thesaurus unit, associates with the accepted search parameter for each of the extracted terms. Related term acquisition unit for acquiring the related terms stored by the above, the extracted terms, and the acquisition for each of them. And a query generation output unit that generates and outputs a query including the related term, and the query generation output unit has a plurality of the extracted terms, and is related to a certain term and another term. If there is a relationship, or if one term contains another term,
The weights of these terms and the associated terms associated with each of them are assigned to the corresponding terms.
The dependency relationship or the term relates to another term
It is determined based on the relationship that includes
A query output device which is characterized by adjusting a search parameter to generate a query.
【請求項2】前記クエリ生成出力部は、あるタームと他
のタームとに係り受け関係がある場合、前記受け付けら
れた検索パラメータが所定の値であれば、重みを大きく
したタームを必須タームとして、当該クエリを生成する
ことを特徴とする請求項1に記載のクエリ出力装置。
2. The query generation output unit, when there is a dependency relation between a certain term and another term, if the accepted search parameter is a predetermined value, the term with a larger weight is regarded as an essential term. The query output device according to claim 1, wherein the query is generated.
【請求項3】前記クエリ生成出力部は、あるタームが他
のタームを含む場合、前記受け付けられた検索パラメー
タが所定の値であれば、当該他のタームを含まないよう
にして当該クエリを生成することを特徴とする請求項1
に記載のクエリ出力装置。
3. The query generation output unit, when a certain term includes another term, generates the query without including the other term if the accepted search parameter has a predetermined value. Claim 1 characterized by the above.
The query output device described in 1.
【請求項4】前記クエリ生成出力部は、前記シソーラス
部にあらかじめ記憶された値を前記取得された関連ター
ムの重みとして、クエリを生成することを特徴とする請
求項1から3のいずれか1項に記載のクエリ出力装置。
4. The query generation output unit generates a query using a value stored in advance in the thesaurus unit as a weight of the acquired related term. The query output device according to item.
【請求項5】クエリを出力する請求項1から4のいずれ
か1項に記載のクエリ出力装置と、 前記出力されたクエリを文書に対して適用して得られた
得点が所定の範囲に含まれる文書を獲得して出力する文
書検索エンジン部と、を備えることを特徴とする文書検
索装置。
5. The query output device according to claim 1, which outputs a query, and a score obtained by applying the output query to a document is included in a predetermined range. And a document search engine section for acquiring and outputting a document to be output.
【請求項6】タームを含むクエリを文書に対して適用し
て得られた得点が所定の範囲に含まれる文書を獲得する
文書検索エンジンに与えるクエリを出力するクエリ出力
方法であって、 文字列の入力を受け付ける文字列入力受付工程と、 前記受け付けられた文字列を形態素解析し、これに含ま
れるタームを抽出するターム抽出工程と、 検索パラメータの入力を受け付ける検索パラメータ入力
受付工程と、 複数のタームのそれぞれに対して検索パラメータに対応
付けて記憶された1つ以上の関連タームから、前記抽出
されたタームのそれぞれに対して前記受け付けられた検
索パラメータに対応付けられて記憶された関連タームを
取得する関連語取得工程と、 前記抽出されたタームと、そのそれぞれに対して前記取
得された関連タームと、を含むクエリを生成して出力す
るクエリ生成出力工程と、を備え、 前記クエリ生成出力工程では、前記抽出されたタームが
複数あり、あるタームと他のタームとに係り受け関係が
ある場合、もしくは、あるタームが他のタームを含む場
合、これらのタームおよびそのそれぞれに対応付けられ
た関連タームの重みを、当該タームと当該他のタームと
の当該係り受け関係もしくは当該タームが当該他のター
ムを含む関係に基づいて決定し、さらに、当該重みを当
該検索パラメータにより調整して、クエリを生成するこ
とを特徴とするクエリ出力方法。
6. A query output method for outputting a query given to a document search engine which obtains a document whose score obtained by applying a query including a term to a document, the character string. A character string input accepting step for accepting an input, a morphological analysis of the accepted character string, a term extracting step for extracting terms included in the character string, a search parameter input accepting step for accepting a search parameter input, From one or more related terms stored for each of the terms in association with the search parameter, the related terms stored for each of the extracted terms in association with the accepted search parameter are stored. A related word acquisition step of acquiring, the extracted terms, and the acquired related terms for each of them. A query generation output step of generating and outputting a query, wherein in the query generation output step, there are a plurality of the extracted terms, and there is a dependency relationship between a certain term and another term, or there is If the term contains other terms, the weights of these terms and their associated terms are
The dependency relationship or the term
It is decided based on the relationship including the
A query output method , which comprises adjusting the search parameters to generate a query.
【請求項7】前記クエリ生成出力工程では、あるターム
と他のタームとに係り受け関係がある場合、前記受け付
けられた検索パラメータが所定の値であれば、重みを大
きくしたタームを必須タームとして、当該クエリを生成
することを特徴とする請求項6に記載のクエリ出力方
法。
7. In the query generation and output step, when a certain term and another term have a dependency relationship, if the accepted search parameter is a predetermined value, the term with a larger weight is regarded as an essential term. The query output method according to claim 6, wherein the query is generated.
【請求項8】前記クエリ生成出力工程では、あるターム
が他のタームを含む場合、前記受け付けられた検索パラ
メータが所定の値であれば、当該他のタームを含まない
ようにして当該クエリを生成することを特徴とする請求
項6に記載のクエリ出力方法。
8. In the query generating and outputting step, when a certain term includes another term, if the accepted search parameter has a predetermined value, the query is generated without including the other term. The query output method according to claim 6, wherein:
【請求項9】前記クエリ生成出力工程では、前記取得さ
れた関連タームのそれぞれについてあらかじめ記憶され
た値をその重みとして、クエリを生成することを特徴と
する請求項6から8のいずれか1項に記載のクエリ出力
方法。
9. A query is generated in the query generation and output step, using a value stored in advance for each of the acquired related terms as its weight, to generate a query. Query output method described in.
【請求項10】請求項6から9のいずれか1項に記載の
クエリ出力方法を使用してクエリを出力するクエリ出力
工程と、 前記出力されたクエリを文書に対して適用して得られた
得点が所定の範囲に含まれる文書を獲得して出力する文
書検索エンジン工程と、を備えることを特徴とする文書
検索方法。
10. A query output step of outputting a query using the query output method according to claim 6, and a query output step obtained by applying the output query to a document. And a document search engine step of acquiring and outputting a document whose score is included in a predetermined range.
【請求項11】コンピュータを、タームを含むクエリを
文書に対して適用して得られた得点が所定の範囲に含ま
れる文書を獲得する文書検索エンジンに与えるクエリを
出力するクエリ出力装置として機能させるプログラムで
あって、 前記プログラムは、前記コンピュータを、 文字列の入力を受け付ける文字列入力受付部、 前記受け付けられた文字列を形態素解析し、これに含ま
れるタームを抽出するターム抽出部、 検索パラメータの入力を受け付ける検索パラメータ入力
受付部、 複数のタームのそれぞれに対して、検索パラメータに対
応付けて関連タームを1つ以上記憶するシソーラス部、 前記シソーラス部から、前記抽出されたタームのそれぞ
れに対して前記受け付けられた検索パラメータに対応付
けられて記憶された関連タームを取得する関連語取得
部、および、 前記抽出されたタームと、そのそれぞれに対して前記取
得された関連タームと、を含むクエリを生成して出力す
るクエリ生成出力部として機能させ、 前記クエリ生成出力部は、前記抽出されたタームが複数
あり、あるタームと他のタームとに係り受け関係がある
場合、もしくは、あるタームが他のタームを含む場合、
これらのタームおよびそのそれぞれに対応付けられた関
連タームの重みを、当該タームと当該他のタームとの当
該係り受け関係もしくは当該タームが当該他のタームを
含む関係に基づいて決定し、さらに、当該重みを当該検
索パラメータにより調整して、クエリを生成するように
機能させることを特徴とするプログラムを記録したコン
ピュータ読取可能な記録媒体。
11. A computer is operated as a query output device that outputs a query to a document search engine that obtains a document in which a score obtained by applying a query including a term to a document is within a predetermined range. A program, wherein the program causes the computer to perform a character string input acceptance unit that accepts a character string input, a term extraction unit that morphologically analyzes the accepted character string and extracts terms included in the character string, and a search parameter. A search parameter input receiving unit that receives an input of, a thesaurus unit that stores, for each of a plurality of terms, one or more related terms in association with a search parameter, for each of the extracted terms from the thesaurus unit. Related terms stored in association with the received search parameters are retrieved. And a related word acquisition unit that functions as a query generation output unit that generates and outputs a query including the extracted terms and the acquired related terms for each of the terms. Is a case where there are a plurality of the extracted terms and there is a dependency relationship between one term and another term, or when one term includes another term,
The weights of these terms and the associated terms associated with each of them are assigned to the corresponding terms.
The dependency relationship or the term relates to another term
It is determined based on the relationship that includes
A computer-readable recording medium on which a program is recorded, which is adjusted by a search parameter and is made to function so as to generate a query.
【請求項12】前記プログラムは、前記コンピュータに
おいて、 前記クエリ生成出力部は、あるタームと他のタームとに
係り受け関係がある場合、前記受け付けられた検索パラ
メータが所定の値であれば、重みを大きくしたタームを
必須タームとして、当該クエリを生成するように機能さ
せることを特徴とする請求項11に記載の記録媒体。
12. The computer-readable storage medium according to claim 12, wherein, in the computer, when the query generation output unit has a dependency relationship between a certain term and another term, if the received search parameter has a predetermined value, a weight is given. The recording medium according to claim 11, wherein the recording medium is made to function so as to generate the query, with an increased term as an essential term.
【請求項13】前記プログラムは、前記コンピュータに
おいて、 前記クエリ生成出力部は、あるタームが他のタームを含
む場合、前記受け付けられた検索パラメータが所定の値
であれば、当該他のタームを含まないようにして当該ク
エリを生成するように機能させることを特徴とする請求
項11に記載の記録媒体。
13. The program in the computer according to claim 13, wherein the query generation output unit includes another term if the accepted search parameter has a predetermined value when the term includes another term. The recording medium according to claim 11, wherein the recording medium is caused to function so as to generate the query.
【請求項14】前記プログラムは、前記コンピュータに
おいて、 前記クエリ生成出力部は、前記シソーラス部にあらかじ
め記憶された値を前記取得された関連タームの重みとし
て、クエリを生成するように機能させることを特徴とす
る請求項11から13のいずれか1項に記載の記録媒
体。
14. The program in the computer, wherein the query generation output unit causes a function stored in the thesaurus unit to generate a query by using a value stored in advance in the thesaurus unit as a weight of the acquired related term. The recording medium according to any one of claims 11 to 13, which is characterized.
【請求項15】コンピュータを、 クエリを出力する請求項1から4のいずれか1項に記載
のクエリ出力装置、および、 前記出力されたクエリを文書に対して適用して得られた
得点が所定の範囲に含まれる文書を獲得して出力する文
書検索エンジン部として機能させることを特徴とするプ
ログラムを記録したコンピュータ読取可能な記録媒体。
15. The query output device according to claim 1, wherein the computer outputs a query, and a score obtained by applying the output query to a document is predetermined. A computer-readable recording medium having a program recorded thereon, which is characterized by causing it to function as a document search engine unit for acquiring and outputting documents included in the range.
JP2000093657A 2000-03-30 2000-03-30 Document search device, query output device, document search method, query output method, and recording medium Expired - Fee Related JP3444592B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000093657A JP3444592B2 (en) 2000-03-30 2000-03-30 Document search device, query output device, document search method, query output method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000093657A JP3444592B2 (en) 2000-03-30 2000-03-30 Document search device, query output device, document search method, query output method, and recording medium

Publications (2)

Publication Number Publication Date
JP2001282827A JP2001282827A (en) 2001-10-12
JP3444592B2 true JP3444592B2 (en) 2003-09-08

Family

ID=18608812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000093657A Expired - Fee Related JP3444592B2 (en) 2000-03-30 2000-03-30 Document search device, query output device, document search method, query output method, and recording medium

Country Status (1)

Country Link
JP (1) JP3444592B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8250613B2 (en) * 2004-04-29 2012-08-21 Harris Corporation Media asset management system for managing video news segments and associated methods
US7698626B2 (en) 2004-06-30 2010-04-13 Google Inc. Enhanced document browsing with automatically generated links to relevant information
US8839140B2 (en) 2008-05-23 2014-09-16 Microsoft Corporation Pivot search results by time and location

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63261424A (en) * 1987-04-17 1988-10-28 Matsushita Electric Ind Co Ltd Document retrieving device
JPH02245971A (en) * 1989-03-20 1990-10-01 Nippon Telegr & Teleph Corp <Ntt> Method and device for information retrieve processing
JPH05204978A (en) * 1992-01-23 1993-08-13 Nec Home Electron Ltd Information retrieving device
JPH05324728A (en) * 1992-05-18 1993-12-07 Hitachi Ltd Information retrieving device
JP3023943B2 (en) * 1993-07-29 2000-03-21 富士通株式会社 Document search device
JPH1026981A (en) * 1996-07-11 1998-01-27 Matsushita Electric Ind Co Ltd Electronic musical instrument
JPH1131156A (en) * 1997-07-14 1999-02-02 Toshiba Corp Device and method for retrieving document
JP2000200281A (en) * 1999-01-05 2000-07-18 Matsushita Electric Ind Co Ltd Device and method for information retrieval and recording medium where information retrieval program is recorded

Also Published As

Publication number Publication date
JP2001282827A (en) 2001-10-12

Similar Documents

Publication Publication Date Title
US6687689B1 (en) System and methods for document retrieval using natural language-based queries
US20160342948A1 (en) Interactively entering data into the database
US6996561B2 (en) System and method for interactively entering data into a database
US20060206481A1 (en) Question answering system, data search method, and computer program
JP3266586B2 (en) Data analysis system
JPH11250105A (en) Method and system for retrieving multi-language information
JP2006293731A (en) Question answering system, data retrieval method, and computer program
JP4049317B2 (en) Search support apparatus and program
US7440938B2 (en) Method and apparatus for calculating similarity among documents
JP4065346B2 (en) Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method
JP3444592B2 (en) Document search device, query output device, document search method, query output method, and recording medium
JP3767763B2 (en) Information retrieval device and computer-readable recording medium recording a program for causing a computer to function as the device
JP2012123675A (en) Method and system for extracting system component
JP3411246B2 (en) Query output device, document search system, query output method, document search method, and recording medium
JPH1145252A (en) Information retrieval device and computer readable recording medium for recording program for having computer function as the same device
JP3851712B2 (en) Document management system and computer-readable recording medium storing a program for causing a computer to function as the system
JP4368550B2 (en) Document search apparatus, document search method, and program causing computer to execute the method
JP4384736B2 (en) Image search device and computer-readable recording medium storing program for causing computer to function as each means of the device
JP4074687B2 (en) Summary sentence creation support system and computer-readable recording medium recording a program for causing a computer to function as the system
JPH1145255A (en) Document retrieval device and computer-readable recording medium where program making computer function as same device is recorded
JP2001101207A (en) Document summarizing device
JPH1145249A (en) Information retrieval device and computer-readable recording medium where program for making computer function as same device is recorded
JP2006120169A (en) Information search device and computer-readable recording medium recording program for functioning computer as information search device
JP4617015B2 (en) Document display device, document display method, and program
JP2002140355A (en) Device and method for document retrieval and recording medium

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090627

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120627

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees