JP2002269138A - Method for generating retrieval condition - Google Patents

Method for generating retrieval condition

Info

Publication number
JP2002269138A
JP2002269138A JP2001064400A JP2001064400A JP2002269138A JP 2002269138 A JP2002269138 A JP 2002269138A JP 2001064400 A JP2001064400 A JP 2001064400A JP 2001064400 A JP2001064400 A JP 2001064400A JP 2002269138 A JP2002269138 A JP 2002269138A
Authority
JP
Japan
Prior art keywords
search
word
candidate
retrieval
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001064400A
Other languages
Japanese (ja)
Inventor
Yasutsugu Ogawa
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001064400A priority Critical patent/JP2002269138A/en
Publication of JP2002269138A publication Critical patent/JP2002269138A/en
Withdrawn legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To generate such a retrieval condition that does not take retrieval time so much by taking an index characteristic into consideration and by making a retrieval condition generating means adjust the length of a retrieval word included in the retrieval condition to be generated. SOLUTION: This retrieval condition generating method generates a retrieval condition that can be processed by a retrieval system from a retrieval request sentence in which a retrieval request is described in a natural language, and has a division step for dividing the retrieval request sentence into words, a candidate selection step for removing undesired words from word division results and selecting retrieval word candidates, an adjustment step for adjusting the length of a retrieval word candidate in accordance with the index format of an object to be retrieved by using the generated retrieval condition to generate a retrieval word, and a connection step for connecting a plurality of retrieved words with an operator when there are the plurality of selected retrieval words.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、自然言語で与えら
れた検索要求から検索条件を生成する検索条件生成方法
に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a search condition generating method for generating a search condition from a search request given in a natural language.

【0002】[0002]

【従来の技術】文書検索システムの入力としては、通
常、キーワードをAND,OR等の論理演算子で結合し
た条件が使用される。しかし、そうした演算子を使用し
た検索条件を生成することは一般ユーザにはなじみのな
い処理であり、ユーザの意図に適した検索条件を生成す
ることは難しかった。この問題を解決するものとして、
ユーザは自然言語で検索要求を記述し、文書検索システ
ムあるいはその支援システムが、文書検索システム向き
の検索条件を生成する方法が提案されている。
2. Description of the Related Art Normally, a condition in which keywords are combined by a logical operator such as AND or OR is used as an input to a document search system. However, generating a search condition using such an operator is a process unfamiliar to general users, and it has been difficult to generate a search condition suitable for the user's intention. To solve this problem,
A method has been proposed in which a user describes a search request in a natural language, and a document search system or its support system generates search conditions suitable for the document search system.

【0003】検索条件生成方法の従来技術の一例とし
て、特開平10−334115号公報、特開平11−4
5249号公報がある。これらに記載された手法のいず
れも、入力された検索要求文を単語に分割し、分割され
た単語から不要なものを除き、残った単語を必要に応じ
て適切な演算子で結合するという点で共通である。
As examples of a conventional search condition generation method, Japanese Patent Application Laid-Open Nos. Hei 10-334115 and Hei 11-4
No. 5249 is known. In each of these methods, the input search request sentence is divided into words, unnecessary words are removed from the divided words, and the remaining words are combined with appropriate operators as necessary. Is common.

【0004】文書検索を実現する場合、検索を高速化す
るために索引が一般的に使用される。日本語のように単
語がスペースなどで明示的に示されない場合、検索対象
文書からn−gram(n文字組)を索引単位とするn
−gram索引が使用されることも多い。n=2のn−
gram索引では、「兎を飼う」という文書(文書1と
する)からは「兎を」「を飼」「飼う」という2文字組
を抽出し、それらが文書1に出現したことを索引ファイ
ルに記録しておく。検索時には、検索単語からn−gr
amを抽出し、そのn−gramの出現情報を用いて指
定された検索単語を含む文書を決定する。例えば、検索
単語が「飼う」であれば、検索単語自身が2文字組なの
で「飼う」を含む文書は簡単に決定できる。しかし、検
索単語が「兎」のように索引単位のn−gramよりも
短い場合、「兎」を含むn−gramのいずれかを含む
文書を決定しなければならず、検索に時間がかかる(参
照:小川他「n−gram索引を用いた効率的な文書検
索法」,電子情報通信学会論文誌, Vol.J82−
D−I, No.1, pp.121−129,199
9)。
When implementing a document search, an index is generally used to speed up the search. When words are not explicitly indicated by spaces or the like as in Japanese, n-gram (n-character set) is used as an index unit from the search target document.
-Gram indexes are often used. n- for n = 2
In the gram index, a two-character set “rabbit”, “raising”, and “raising” is extracted from the document “raising a rabbit” (referred to as document 1), and the appearance of those characters in document 1 is recorded in an index file. Record it. At the time of search, n-gr
Am is extracted, and a document including the specified search word is determined using the appearance information of the n-gram. For example, if the search word is "Kai", the document including "Kai" can be easily determined because the search word itself is a two-character set. However, when the search word is shorter than the index unit n-gram such as “rabbit”, a document including any of n-grams including “rabbit” must be determined, and the search takes time ( Reference: Ogawa et al., "Efficient Document Retrieval Method Using n-gram Index", IEICE Transactions, Vol.
DI, No. 1 pp. 121-129,199
9).

【0005】[0005]

【発明が解決しようとする課題】しかし、上述の従来技
術では単語の長さが考慮されていないので、生成された
検索条件で検索を行った場合には検索に時間がかかると
いう問題があった。
However, in the above-mentioned prior art, since the length of a word is not taken into consideration, there is a problem that it takes a long time to perform a search when the generated search condition is used. .

【0006】本発明では、検索条件生成手段が索引の特
性を考慮し、生成する検索条件に含まれる検索単語の長
さの調整を行うので、検索時間のかからないような検索
条件を生成することができる。
According to the present invention, the search condition generation means adjusts the length of the search word included in the search condition to be generated in consideration of the characteristics of the index. it can.

【0007】[0007]

【課題を解決するための手段】請求項1記載の発明は、
検索要求を自然言語で記述した検索要求文から検索シス
テムが処理可能な検索条件を生成する検索条件生成方法
であって、検索要求文を単語に分割する分割ステップ、
単語分割結果から不要語を取り除いて検索単語候補を選
択する候補選択ステップ、生成した検索条件を用いて検
索を行う対象の索引形式に応じて検索単語候補の長さを
調整し検索単語を生成する調整ステップ、選択された検
索単語が複数である場合にはそれらを演算子で結合する
結合ステップを有することを特徴とする検索条件生成方
法である。
According to the first aspect of the present invention,
A search condition generating method for generating a search condition that can be processed by a search system from a search request sentence in which a search request is described in a natural language, comprising a dividing step of dividing the search request sentence into words;
A candidate selecting step of selecting a search word candidate by removing unnecessary words from the word segmentation result, generating a search word by adjusting the length of the search word candidate according to the index format of the search target using the generated search condition A search condition generation method characterized by comprising an adjusting step and a combining step of combining selected search words with an operator when a plurality of search words are selected.

【0008】請求項2記載の発明は、請求項1記載の検
索条件生成方法において、検索対象の索引形式がn−g
ram(n個の連続する文字の組;ただしnは2以上と
する)を索引単位とするn−gram索引である場合、
調整ステップはn文字未満の検索単語候補が他の検索単
語候補と検索要求文において隣接している場合にはn文
字未満の検索単語候補は除外し、n文字以上の検索単語
候補のみを検索単語とすることを特徴とするものであ
る。
According to a second aspect of the present invention, in the search condition generating method according to the first aspect, the index format of the search target is ng
In the case of an n-gram index using ram (a set of n consecutive characters; n is 2 or more) as an index unit,
In the adjusting step, when the search word candidate having less than n characters is adjacent to another search word candidate in the search request sentence, the search word candidates having less than n characters are excluded, and only the search word candidates having n or more characters are searched. It is characterized by the following.

【0009】請求項3記載の発明は、請求項1記載の検
索条件生成方法において、検索対象の索引形式がn−g
ram索引(ただしnは2以上)である場合、調整ステ
ップはn文字未満の検索単語候補が他の検索単語候補と
検索要求文において隣接している場合には両者を連結し
た単語を生成し、生成された単語を検索単語とすること
を特徴とするものである。
According to a third aspect of the present invention, in the search condition generating method according to the first aspect, the index format of the search target is ng
If the index is a ram index (where n is 2 or more), the adjusting step generates a word connecting the two search word candidates if the search word candidate is shorter than another search word candidate in the search request sentence, It is characterized in that the generated word is used as a search word.

【0010】請求項4記載の発明は、請求項1記載の検
索条件生成方法において、検索対象の索引形式がn−g
ram索引(ただしnは2以上)である場合、調整ステ
ップはn文字未満の検索単語候補と他の検索単語候補
(連結対象候補と呼ぶ)が検索要求文において隣接して
いる場合には両者を連結した単語を生成し、生成された
単語と連結対象候補を検索単語とすることを特徴とする
ものである。
According to a fourth aspect of the present invention, in the search condition generating method according to the first aspect, the index format of the search target is ng
If the index is a ram index (where n is 2 or more), the adjusting step is performed when the search word candidate having less than n characters and another search word candidate (referred to as a connection target candidate) are adjacent to each other in the search request sentence. A connected word is generated, and the generated word and a candidate for connection are set as search words.

【0011】請求項5記載の発明は、請求項4記載の検
索条件生成方法において、結合ステップは生成された単
語と連結対象候補の重要度を調整して結合することを特
徴とするものである。
According to a fifth aspect of the present invention, in the search condition generating method according to the fourth aspect, the combining step adjusts the importance of the generated word and the candidate for the connection target and combines them. .

【0012】請求項6記載の発明は、請求項3又は4記
載の検索条件生成方法において、n文字未満の検索単語
候補の品詞が接頭辞である場合には連結対象候補が検索
要求文において接頭辞の後ろにある場合にのみ連結を行
うことを特徴とするものである。
According to a sixth aspect of the present invention, in the search condition generating method according to the third or fourth aspect, when the part of speech of a search word candidate having less than n characters is a prefix, the concatenation target candidate is prefixed in the search request sentence. It is characterized in that concatenation is performed only when it is after the letter.

【0013】請求項7記載の発明は、請求項3又は4記
載の検索条件生成方法において、n文字未満の検索単語
候補の品詞が接尾辞である場合には連結対象候補が検索
要求文において接尾辞の前にある場合にのみ連結を行う
ことを特徴とするものである。
According to a seventh aspect of the present invention, in the search condition generating method according to the third or fourth aspect, when the part of speech of a search word candidate having less than n characters is a suffix, the candidate to be connected is suffixed in the search request sentence. It is characterized in that concatenation is performed only when it is before a letter.

【0014】[0014]

【発明の実施の形態】本発明の一実施の形態を図1に示
す。この図1において、分割ステップは検索要求文を単
語に分割するステップ、候補選択ステップは単語分割結
果から不要語を取り除いて検索単語候補を選択するステ
ップ、調整ステップは検索に用いる索引の形式に応じて
検索単語候補の長さを調整し検索単語を生成するステッ
プ、結合ステップは選択された検索単語が複数である場
合にはそれらを演算子で結合するステップである。
FIG. 1 shows an embodiment of the present invention. In FIG. 1, a dividing step is a step of dividing a search request sentence into words, a candidate selecting step is a step of removing unnecessary words from a word division result and selecting a search word candidate, and an adjusting step is according to an index format used in the search. The step of adjusting the length of the search word candidates to generate a search word, and the step of combining, when there are a plurality of selected search words, combining them by an operator.

【0015】例えば、検索要求文が「抗マラリア活性の
薬剤」であったとする。この場合、まず、分割ステップ
により「抗」「マラリア」「活性」「の」「薬剤」と単
語に分割される。単語に分割する方法としては、日本語
解析の基本的な手法である形態素解析を採用すればよ
い。
For example, assume that the search request sentence is "drug having antimalarial activity". In this case, first, words are divided into “anti”, “malaria”, “active”, “no”, and “drug” in the dividing step. As a method of dividing words into words, a morphological analysis, which is a basic method of Japanese analysis, may be employed.

【0016】つぎの候補選択ステップでは、分割結果か
ら検索に適する単語を検索単語候補として選択する。一
般に助詞などは検索に向いていないので除き、名詞など
を選択する。この場合では、助詞である「の」を削除
し、それ以外の「抗」「マラリア」「活性」「薬剤」を
検索単語候補として残す。
In the next candidate selection step, a word suitable for the search is selected from the division results as a search word candidate. Generally, nouns are not selected because they are not suitable for retrieval. In this case, the particle “no” is deleted, and the other “anti”, “malaria”, “activity”, and “drug” are left as search word candidates.

【0017】つぎの調整ステップが、索引形式に応じて
検索単語候補を調整するステップである。前述のよう
に、索引形式がn−gram索引であればn文字未満の
単語の検索には時間がかかるので、n=2のn−gra
m索引であれば「抗」をそのままでは用いないほうがよ
い。そこで、本実施の形態では、n文字未満の検索単語
候補は削除し、それ以外の検索単語候補である「マラリ
ア」「活性」「薬剤」を検索単語として出力する。な
お、調整ステップではn文字未満の検索単語候補が単独
で現れている場合には削除しない。これは、例えば「骨
の形成」のような検索要求文が与えられた際に検索単語
候補となる「骨」が検索条件から抜け落ちてしまうこと
を避けるためである。
The next adjustment step is a step of adjusting the search word candidates according to the index format. As described above, if the index format is an n-gram index, it takes a long time to search for a word of less than n characters.
If the index is m, it is better not to use “anti” as it is. Therefore, in the present embodiment, search word candidates with less than n characters are deleted, and the other search word candidates “malaria”, “activity”, and “drug” are output as search words. In the adjustment step, if a search word candidate having less than n characters appears alone, it is not deleted. This is to avoid that “bone”, which is a search word candidate, falls out of the search condition when a search request sentence such as “formation of bone” is given.

【0018】最後の結合ステップでは、検索単語が複数
であれば、それを適切な演算子で結合する。検索用の演
算子としては、AND演算子・OR演算子などがある。
OR演算子(’+’であらわす)を用いることとすれ
ば、最終的に生成される検索条件は「マラリア+活性+
薬剤」となる。
In the final combining step, if there are a plurality of search words, they are combined with an appropriate operator. Search operators include an AND operator and an OR operator.
If the OR operator (represented by '+') is used, the finally generated search condition is “malaria + activity +
Drug ”.

【0019】上に示したn文字未満の検索単語候補を削
除するという方法では、検索単語候補を削除してしまう
ので検索意図が正しく検索条件に示されないことがあ
る。実際、上の例で削除した「抗」があるのとないのと
では意味が異なるので、例えばマラリア活性を高めるよ
うな薬剤について書かれた文書が検索されることになり
かねない。
In the above-described method of deleting a search word candidate having less than n characters, the search word candidate is deleted, so that the search intention may not be correctly indicated in the search condition. In fact, the meaning differs from the presence or absence of the deleted "anti" in the above example, which could lead to a search for a document describing, for example, a drug that increases malaria activity.

【0020】この問題を解決するには、(隣接する検索
単語候補がある)n文字未満の検索単語候補は削除する
のではなく、隣接する検索単語候補と連結したものを検
索単語すればよい。このとき、連結されたもう一方の検
索単語候補は削除する。上の例であれば、「抗」と「マ
ラリア」を連結した「抗マラリア」を検索単語する(な
お、「マラリア」と「活性」はどちらもn文字未満では
ないので連結しない)。最終的に生成される検索条件は
「抗マラリア+活性+薬剤」となる。
In order to solve this problem, search word candidates having less than n characters (there are adjacent search word candidates) need not be deleted, but may be linked to adjacent search word candidates. At this time, the other connected search word candidate is deleted. In the above example, the search word "antimalarial" is obtained by connecting "anti" and "malaria" (note that "malaria" and "activity" are not less than n characters and are not connected). The search condition finally generated is “antimalarial + activity + drug”.

【0021】実際には2番目に示した方法でも十分とは
言えない。例えば、文書中で「抗マラリア」ではなく
「対マラリア」という表現を用いている場合も考えられ
るが、2番目の方法ではこのような文書を検索すること
ができないからである。
In practice, the second method is not sufficient. For example, it is conceivable that the expression “antimalarial” is used instead of “antimalarial” in the document, but such a document cannot be searched by the second method.

【0022】この問題を解決するには、検索要求文と同
じ表現がある場合にはそれで文書が特定されるととも
に、ほぼ類似しているものの全く同一でない表現がある
場合にも文書が検索されるようにすればよい。そこで、
第3の方法では、他の検索単語候補が隣接するn文字未
満の検索単語候補は、隣接する検索単語候補と連結した
ものを検索単語すると同時に、連結されたもう一方の検
索単語候補を削除せず検索単語として選択する。上の例
であれば、「抗」と「マラリア」から両者を連結した
「抗マラリア」と連結対象候補である「マラリア」を検
索単語とする。この場合、最終的な検索条件は「抗マラ
リア+マラリア+活性+薬剤」である。
In order to solve this problem, if there is an expression that is the same as the search request sentence, the document is specified by using the same expression, and if there is an expression that is almost similar but not completely the same, the document is searched. What should I do? Therefore,
In the third method, as for a search word candidate having another search word candidate with less than n adjacent characters, the search word candidate connected with the adjacent search word candidate is searched and the other connected search word candidate is deleted at the same time. And select it as a search word. In the above example, “antimalaria”, which is a combination of “anti” and “malaria”, and “malaria”, which is a candidate for connection, are set as search words. In this case, the final search condition is “antimalarial + malaria + activity + drug”.

【0023】3番目の方法は検索文書に検索条件との類
似度(あるいは一致度・適合度)を計算し、その値にお
いて文書を順序つけるランキング検索において有効であ
る。それは、ランキングを行わない完全一致検索の場合
「抗マラリア」を含む文書は「マラリア」も必ず含むの
で、後者を検索単語に加えることに意味はない。一方、
ランキング検索であれば、それぞれの検索単語の出現状
況に基づいて類似度が計算されるので、「抗マラリア」
「マラリア」の一方だけを用いた場合と、両者を用いた
場合では類似度が異なるので、ランキング結果に相違が
生じるからである。例えば、類似度を以下の方針で計算
することとする。
The third method is effective in a ranking search in which the similarity (or the degree of coincidence / fitness) of a search document with a search condition is calculated, and the documents are ordered based on the calculated value. It is meaningless to add the latter to the search word, because in the case of an exact match search without ranking, a document containing "antimalarial" always includes "malaria". on the other hand,
In the case of ranking search, similarity is calculated based on the appearance of each search word, so "antimalarial"
This is because the similarity differs when only one of the "malarias" is used and when both are used, resulting in a difference in the ranking result. For example, the similarity is calculated according to the following policy.

【0024】(1)検索単語の文書における重要度は検
索単語の文書における出現回数とする。
(1) The importance of a search word in a document is the number of appearances of the search word in the document.

【0025】(2)検索条件に対する文書の類似度は検
索単語の重要度の合計とする。
(2) The similarity of a document to a search condition is the sum of the importance of the search word.

【0026】この場合、「新しい抗マラリア剤が発売さ
れた」という文書の「抗マラリア+マラリア+活性+薬
剤」に対する類似度は、「抗マラリア」の重要度はこの
文書に1回出現しているので1、「マラリア」も同様に
1であり、両者の合計である2となる。しかし、「抗マ
ラリア」の出現と「マラリア」の出現は重なっているた
め、両者をそのまま合計するのでは不当に類似度が高く
なり、問題である。
In this case, the similarity of the document “New antimalarial drug was released” to “antimalarial + malaria + activity + drug” indicates that the importance of “antimalarial” appears once in this document. Therefore, 1 and “malaria” are also 1, and the sum of the two is 2. However, since the appearance of "anti-malaria" and the appearance of "malaria" overlap, if the two are summed as they are, the similarity will unduly increase, which is a problem.

【0027】この問題を解決するには、ランキング検索
において、検索単語の重要度を適当な演算子を用いて調
整すればよい。例えば、検索単語の重要度を係数をかけ
た値に調整する演算子としてadjust演算子(AD
JUST(0.5,マラリア)のように表現し、これで
マラリア本来の重要度に0.5をかけた値を重要度とす
る)を導入し、それを3番目の方式で生成された検索単
語に適用する。この場合、最終的な検索条件は「ADJ
EST(0.5,抗マラリア)+ADJUST(0.
5,マラリア)+活性+薬剤」となる。
To solve this problem, in the ranking search, the importance of the search word may be adjusted using an appropriate operator. For example, as an operator for adjusting the importance of a search word to a value multiplied by a coefficient, an adjust operator (AD
JUST (0.5, malaria) is expressed, and the original importance of malaria multiplied by 0.5 is used as the importance.) A search generated by the third method Apply to words. In this case, the final search condition is "ADJ
EST (0.5, antimalarial) + ADJUST (0.
5, malaria) + activity + drug.

【0028】2番目あるいは3番目の方法には問題があ
る。例えば、「強力抗マラリア薬剤」という検索要求文
は「強力」「抗」「マラリア」「薬剤」に分割される。
調整ステップでは、「抗」は隣接する他の検索単語候補
と連結されるので、「強力抗」および「抗マラリア」が
生成される。このとき、「抗マラリア」は意味のある単
語だが、「強力抗」は意味をなさない単語であるため、
検索条件に含めないほうがよい。
The second or third method has problems. For example, a search request sentence "strong antimalarial drug" is divided into "strong", "anti", "malaria", and "drug".
In the adjusting step, since “anti” is linked to other adjacent search word candidates, “strong anti” and “antimalarial” are generated. At this time, "antimalaria" is a meaningful word, but "strong anti-malaria" is a meaningless word,
It is better not to include it in the search condition.

【0029】この問題を解決するには、品詞を利用すれ
ばよい。接頭辞は後続する単語を修飾する役割を持って
いるので、接頭辞は後続する検索単語候補とのみ連結さ
せる。上の例では「抗」は接頭辞なのでこの規則に該当
する。したがって、「強力抗」は生成されず「抗マラリ
ア」だけが生成される。
In order to solve this problem, the part of speech may be used. Since the prefix has the role of modifying the following word, the prefix is connected only to the following search word candidates. In the above example, "anti" is a prefix, so this rule applies. Therefore, "strong anti-malaria" is not generated and only "anti-malaria" is generated.

【0030】一方、接尾辞は前にある単語を修飾する役
割を持っているので、接尾辞は前にある検索単語候補と
のみ連結させる。例えば、「遺伝的アルゴリズム」とい
う検索要求文は「遺伝」「的」「アルゴリズム」と分割
され、かつ「的」は接尾辞である。したがって、「遺伝
的」は生成するが「的アルゴリズム」は生成しない。
On the other hand, since the suffix has the role of modifying the preceding word, the suffix is connected only to the preceding search word candidate. For example, a search request sentence “Genetic Algorithm” is divided into “Genetic”, “Target” and “Algorithm”, and “Target” is a suffix. Therefore, "genetic" is generated, but "target algorithm" is not generated.

【0031】[0031]

【発明の効果】請求項1の検索条件生成方法において
は、検索条件生成手段が索引の特性を考慮し、生成する
検索条件に含まれる検索単語の長さの調整を行うので、
検索時間のかからないような検索条件を生成することが
できる。
According to the search condition generating method of the first aspect, the search condition generating means adjusts the length of the search word included in the generated search condition in consideration of the index characteristics.
It is possible to generate a search condition that does not require a search time.

【0032】請求項2の検索条件生成方法においては、
n−gram索引を用いている場合にn文字未満の検索
単語候補を除外することで、検索時間のかからないよう
な検索条件を生成することができる。
[0032] In the search condition generating method of claim 2,
By using the n-gram index to exclude search word candidates with less than n characters, it is possible to generate a search condition that does not require a search time.

【0033】請求項3の検索条件生成方法においては、
n文字未満の検索単語候補を隣接する他の検索単語候補
と連結することで、ユーザの意図に合った検索条件を生
成することができる。
In the search condition generating method according to the third aspect,
By linking a search word candidate having less than n characters with another adjacent search word candidate, it is possible to generate a search condition that meets the user's intention.

【0034】請求項4の検索条件生成方法においては、
n文字未満の検索単語候補を隣接する他の検索単語候補
と連結するとともに連結対象となった検索単語候補その
ものも検索単語することで、よりユーザの意図に合った
検索条件を生成することができる。
[0034] In the search condition generating method of claim 4,
By linking a search word candidate having less than n characters with another adjacent search word candidate and also performing a search word on the search word candidate itself to be connected, a search condition more suited to the user's intention can be generated. .

【0035】請求項5の検索条件生成方法においては、
請求項4の方法で決定された検索単語の重要度を調整す
ることで、よりユーザの意図に合った検索条件を生成す
ることができる。
In the search condition generating method according to claim 5,
By adjusting the importance of the search word determined by the method of claim 4, it is possible to generate a search condition more suited to the user's intention.

【0036】請求項6および請求項7の検索条件生成方
法においては、n文字未満の検索単語候補の品詞を利用
することで、よりユーザの意図に合った検索条件を生成
することができる。
In the search condition generating method according to claims 6 and 7, it is possible to generate a search condition more suited to the user's intention by using a part of speech of a search word candidate having less than n characters.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施の形態を示すもので、検索条件
生成のフローチャートである。
FIG. 1 shows an embodiment of the present invention, and is a flowchart of search condition generation.

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 検索要求を自然言語で記述した検索要求
文から検索システムが処理可能な検索条件を生成する検
索条件生成方法であって、検索要求文を単語に分割する
分割ステップ、単語分割結果から不要語を取り除いて検
索単語候補を選択する候補選択ステップ、生成した検索
条件を用いて検索を行う対象の索引形式に応じて検索単
語候補の長さを調整し検索単語を生成する調整ステッ
プ、選択された検索単語が複数である場合にはそれらを
演算子で結合する結合ステップを有することを特徴とす
る検索条件生成方法。
1. A search condition generating method for generating a search condition that can be processed by a search system from a search request sentence in which a search request is described in a natural language, comprising: a dividing step of dividing the search request sentence into words; A candidate selecting step of selecting a search word candidate by removing unnecessary words from, an adjusting step of adjusting the length of the search word candidate according to the index format of the search to be performed using the generated search condition, and generating a search word; A search condition generation method, comprising: when there are a plurality of selected search words, combining them with an operator.
【請求項2】 検索対象の索引形式がn−gram(n
個の連続する文字の組;ただしnは2以上とする)を索
引単位とするn−gram索引である場合、調整ステッ
プはn文字未満の検索単語候補が他の検索単語候補と検
索要求文において隣接している場合にはn文字未満の検
索単語候補は除外し、n文字以上の検索単語候補のみを
検索単語とすることを特徴とする請求項1記載の検索条
件生成方法。
2. The search target index format is n-gram (n
In the case of an n-gram index in which a set of consecutive characters; n is 2 or more) as an index unit, the adjustment step is performed when the search word candidate having less than n characters is included in another search word candidate and a search request sentence. 2. The search condition generation method according to claim 1, wherein when adjacent, a search word candidate having less than n characters is excluded, and only search word candidates having n characters or more are set as search words.
【請求項3】 検索対象の索引形式がn−gram索引
(ただしnは2以上)である場合、調整ステップはn文
字未満の検索単語候補が他の検索単語候補と検索要求文
において隣接している場合には両者を連結した単語を生
成し、生成された単語を検索単語とすることを特徴とす
る請求項1記載の検索条件生成方法。
3. When the index format of the search target is an n-gram index (where n is 2 or more), the adjusting step is such that a search word candidate having less than n characters is adjacent to another search word candidate in the search request sentence. 2. The search condition generating method according to claim 1, wherein when the search condition is present, a word is generated by connecting the two, and the generated word is used as a search word.
【請求項4】 検索対象の索引形式がn−gram索引
(ただしnは2以上)である場合、調整ステップはn文
字未満の検索単語候補と他の検索単語候補(連結対象候
補と呼ぶ)が検索要求文において隣接している場合には
両者を連結した単語を生成し、生成された単語と連結対
象候補を検索単語とすることを特徴とする請求項1記載
の検索条件生成方法。
4. If the index format of the search target is an n-gram index (where n is 2 or more), the adjusting step is performed when a search word candidate having less than n characters and another search word candidate (referred to as a connection target candidate) are used. 2. The search condition generation method according to claim 1, wherein when the search request sentences are adjacent to each other, a word is generated by connecting the two, and the generated word and the connection target candidate are used as search words.
【請求項5】 結合ステップは生成された単語と連結対
象候補の重要度を調整して結合することを特徴とする請
求項4記載の検索条件生成方法。
5. The search condition generating method according to claim 4, wherein the combining step adjusts the importance of the generated word and the candidate to be connected and combines them.
【請求項6】 n文字未満の検索単語候補の品詞が接頭
辞である場合には連結対象候補が検索要求文において接
頭辞の後ろにある場合にのみ連結を行うことを特徴とす
る請求項3又は4記載の検索条件生成方法。
6. The method according to claim 3, wherein when the part of speech of the search word candidate having less than n characters is a prefix, the connection is performed only when the connection target candidate is located after the prefix in the search request sentence. Or the search condition generation method according to 4.
【請求項7】 n文字未満の検索単語候補の品詞が接尾
辞である場合には連結対象候補が検索要求文において接
尾辞の前にある場合にのみ連結を行うことを特徴とする
請求項3又は4記載の検索条件生成方法。
7. The method according to claim 3, wherein when the part of speech of the search word candidate having less than n characters is a suffix, the connection is performed only when the connection target candidate precedes the suffix in the search request sentence. Or the search condition generation method according to 4.
JP2001064400A 2001-03-08 2001-03-08 Method for generating retrieval condition Withdrawn JP2002269138A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001064400A JP2002269138A (en) 2001-03-08 2001-03-08 Method for generating retrieval condition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001064400A JP2002269138A (en) 2001-03-08 2001-03-08 Method for generating retrieval condition

Publications (1)

Publication Number Publication Date
JP2002269138A true JP2002269138A (en) 2002-09-20

Family

ID=18923223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001064400A Withdrawn JP2002269138A (en) 2001-03-08 2001-03-08 Method for generating retrieval condition

Country Status (1)

Country Link
JP (1) JP2002269138A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006057007A1 (en) * 2004-11-29 2006-06-01 Vaman Technologies (R & D) Limited Method of interpreting a request using a novel dictionary
JP2007219620A (en) * 2006-02-14 2007-08-30 Fuji Xerox Co Ltd Text retrieval device, program, and method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006057007A1 (en) * 2004-11-29 2006-06-01 Vaman Technologies (R & D) Limited Method of interpreting a request using a novel dictionary
JP2007219620A (en) * 2006-02-14 2007-08-30 Fuji Xerox Co Ltd Text retrieval device, program, and method

Similar Documents

Publication Publication Date Title
US6408270B1 (en) Phonetic sorting and searching
JP5113750B2 (en) Definition extraction
US20050120020A1 (en) System, method and apparatus for prediction using minimal affix patterns
EP1225517A2 (en) System and methods for computer based searching for relevant texts
JPH11110415A (en) Method for retrieving information and system therefor, and computer-readable recording medium for recording instruction for retrieving information from one set of documents
JP4861375B2 (en) Document processing apparatus, document processing program, and recording medium
JP3770919B2 (en) File processing method, data processing apparatus, and storage medium
JP4065346B2 (en) Method for expanding keyword using co-occurrence between words, and computer-readable recording medium recording program for causing computer to execute each step of the method
JP2002269138A (en) Method for generating retrieval condition
JP3363501B2 (en) Text search device
JP3790187B2 (en) Text summarization method, apparatus, and text summarization program
JP2004258723A (en) Topic extraction device, topic extraction method and program
JP6451414B2 (en) Information processing apparatus, summary sentence editing method, and program
JP3558854B2 (en) Data retrieval device and computer-readable recording medium
JPH09185632A (en) Method and device for retrieving/editing information
JPH07134720A (en) Method and device for presenting relative information in sentence preparing system
JP4384736B2 (en) Image search device and computer-readable recording medium storing program for causing computer to function as each means of the device
JP2004246824A (en) Speech document retrieval method and device, and speech document retrieval program
JP2004178351A (en) Quantitative expression search device
JPH1145254A (en) Document retrieval device and computer readable recording medium recorded with program for functioning computer as the device
JPH1145249A (en) Information retrieval device and computer-readable recording medium where program for making computer function as same device is recorded
JP2000348059A (en) Method for retrieving document
JP2001092831A (en) Device and method for document retrieval
JP2002140355A (en) Device and method for document retrieval and recording medium
JP2002342373A (en) Method, device and program for retrieving document and, recording medium with the program recorded thereon

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040930

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20051021

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060823

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060811

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080218