JP2005275524A - Retrieval request understanding keyword extension system using co-occurrence verb information - Google Patents
Retrieval request understanding keyword extension system using co-occurrence verb information Download PDFInfo
- Publication number
- JP2005275524A JP2005275524A JP2004084213A JP2004084213A JP2005275524A JP 2005275524 A JP2005275524 A JP 2005275524A JP 2004084213 A JP2004084213 A JP 2004084213A JP 2004084213 A JP2004084213 A JP 2004084213A JP 2005275524 A JP2005275524 A JP 2005275524A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- search
- keyword
- information
- verb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、データベースなど多量に保持されているデータ集合の中から、検索者がキーワードを指定することにより、検索者の意とするデータを検索するシステムに適用可能である。また、インターネットにおける検索エンジンなど、検索者がキーワードを指定することにより、検索者の意とするページを検索するシステムや、キーワードを指定することにより、検索者の意とする拡充されたデータを検索するシステムなどに適用可能である。 The present invention can be applied to a system that retrieves data intended by a searcher by designating a keyword from a large amount of data such as a database. In addition, search engines such as the Internet search system that searches for the pages intended by the searcher by specifying the keyword, or by searching for the expanded data intended by the searcher by specifying the keyword It can be applied to systems that
従来のデータベースなど多量に保持されているデータ集合の中から、検索者がキーワードを指定することにより、検索者の意とするデータを検索するシステムにおいては、検索者が指定したキーワードのみを対象として、データ集合内に存在する文字情報との照合を行い、完全に一致する文字列を含むデータを検索結果として抽出していた。 In a system that searches for data intended by the searcher by specifying keywords from a large amount of data such as a conventional database, only the keywords specified by the searcher are targeted. Then, collation with character information existing in the data set is performed, and data including a completely matched character string is extracted as a search result.
また近年は、検索者が入力したキーワードの表記の揺れへの対応として、キーワードが「アイウエオ」などカタカナで表記していても、同一文字列の平仮名文字列「あいおえお」も検索対象キーワードとしたり、英字キーワードを全角小文字で「abc」と指定しても半角小文字「abc」や全角大文字「ABC」、半角大文字「ABC」も検索対象キーワードとするなどの検索者が入力したキーワードを拡張解釈する機能は存在していた。そのほかにも、「行う」と「行なう」などの送り仮名の表記揺れを単語単位で処理できる単純にキーワードを拡張解釈する機能は存在していた。 Also, in recent years, as a response to the fluctuation of the keyword notation entered by the searcher, even if the keyword is written in katakana such as “Aiueo”, the hiragana character string “Aioeo” of the same character string is also set as the search target keyword. Even if the alphabetic keyword is specified as “abc” in full-width lowercase letters, the keyword entered by the searcher is expanded as a search target keyword, such as half-width lowercase letters “abc”, full-width capital letters “ABC”, and half-width uppercase letters “ABC” There was a function to do. In addition, there was a function for simply expanding and interpreting keywords that can handle the fluctuations of the kana notation such as “do” and “do” in word units.
検索システムにおいては、検索者が入力したキーワードと検索対象となるデータ集合内に存在する文字情報とを照合することで、完全に一致する文字列が含まれるデータを検索結果として出力するものが普通である。また、前記背景技術にも記載したように検索者が入力したキーワードに対して単純に拡張解釈する場合においても、入力したキーワードそのままの文字列を照合した後に、拡張解釈により作成されたキーワード文字列に対しての照合を行っているだけであった。 In a search system, it is common to output data containing a completely matched character string as a search result by matching the keyword entered by the searcher with the character information existing in the search target data set. It is. In addition, as described in the background art, even when the keyword input by the searcher is simply expanded and interpreted, the keyword character string created by the expanded interpretation is checked after matching the character string of the input keyword as it is. I was just collating against.
このように、これまでの検索システムにおいては、検索者が入力したキーワードに対しては、その意味内容をなどはまったく考慮せず、ただ単なる記号列として取り扱われ、検索対象となるデータ集合内に存在する文字情報と照合をするだけであった。 As described above, in the search system so far, the keyword entered by the searcher is not considered at all in the meaning content, but is simply treated as a symbol string and included in the data set to be searched. It was only checked against existing character information.
このような状況下で、検索者が持っている具体的な検索イメージをキーワードの中に反映できなかった場合、検索結果は検索者の意図とはかけ離れたものを出力するものになってしまう。このようにこれまでの検索システムでは、検索者の持つ知識量のほか、検索システムに対する利用経験によって得られる検索システムの癖をどの程度把握しているかという知識量により、その検索結果に大きく左右されてしまうという問題点が生じていた。 Under such circumstances, if a specific search image possessed by the searcher cannot be reflected in the keyword, the search result is output that is far from the searcher's intention. As described above, in the conventional search system, in addition to the amount of knowledge possessed by the searcher, the amount of knowledge indicating how much of the search system is gained from the experience of using the search system greatly depends on the search result. There was a problem that it would end up.
上記課題を解決するために、本願発明は、検索システムに入力された検索キーワードを解析して、検索キーワード中に動詞語句が存在するかを検索・抽出し、次に抽出した動詞語句に対して主部となる名詞語句の存在を判定して、当該主述関係を持つ動詞語句と名詞語句に対応する格語句情報となる語句を検出して、これを抽出した格語句情報を検索キーワードとして拡充することで、検索漏れを縮小し検索効率を向上させる検索キーワード拡充検索システムを開発したのである。 In order to solve the above problems, the present invention analyzes a search keyword input to a search system, searches and extracts whether a verb phrase is present in the search keyword, and then extracts the verb phrase Determine the presence of the main part of the noun phrase, detect the phrase that becomes the phrase information corresponding to the verb phrase and the noun phrase with the main predicate relationship, and expand the extracted phrase information as the search keyword By doing so, we developed a search keyword expansion search system that reduces search omissions and improves search efficiency.
特許を受けようとする第1発明は、基本的な単語を知識として単語の表記と言語解析に必要となる解析情報を保持する基本辞書部と、基本辞書部中の動詞語句に対して、その主部となる名詞語句との主述関係情報を保持すると共に主述関係情報の組み合わせ毎にその道具や手段や場所などの格を示す語句である格語句情報をセットで保持する格知識言語辞書部とを有する言語解析を行う知識辞書データーベースと、検索システムに入力された検索キーワードを解析するロジックであって、前記言語解析を行う知識辞書データーベースの基本辞書部を用いて検索キーワード中に動詞語句が存在するかを検索し、存在する場合にはその動詞語句を抽出すると共に、知識言語辞書手段を用いて抽出した動詞語句に対して主部となる名詞語句が存在するかを判定し、存在する場合にはその名詞語句を抽出することで検索キーワード中の主述関係情報を抽出する検索キーワード解析手段と、前記検索キーワード解析手段で検索システムに入力された検索キーワードを解析した結果、動詞語句とその動詞語句の主部となる名詞語句が存在した場合、その主述関係を持つ動詞語句と名詞語句に対応する格語句情報となる語句を、前記格知識言語辞書部から検出する格語句情報検索手段とからなり、検索システムに入力された検索キーワードを前記言語解析を行う知識辞書データーベースと検索キーワード解析手段を介して動詞語句とその動詞語句の主部となる名詞語句を抽出することで検索キーワード中の主述関係情報を抽出し、動詞語句とその動詞語句の主部となる名詞語句が存在した場合、格語句情報検索手段を用いてその主述関係を持つ動詞語句と名詞語句に対応する格語句情報となる語句を検出し、その検出した格語句情報を検索キーワードとして拡充したうえ、当該入力された検索キーワードと拡充された検索キーワードとから検索することで検索漏れを縮小し、これによって検索効率を向上するようにしたことを特徴とする共起動詞情報による検索要求理解キーワード拡充検索システムである。 The first invention to be patented is based on a basic dictionary part that stores basic word knowledge and analysis information necessary for word notation and language analysis, and a verb phrase in the basic dictionary part. A case knowledge language dictionary that holds main predicate relationship information with the main noun word and also holds a set of case information that indicates the case of the tool, means, place, etc. for each combination of main predicate relationship information A knowledge dictionary database that performs language analysis and a logic that analyzes a search keyword input to the search system, and includes a basic dictionary portion of the knowledge dictionary database that performs the language analysis. Searches for the presence of a verb phrase, and if so, extracts the verb phrase, and there is a main noun phrase for the verb phrase extracted using the knowledge language dictionary means. A search keyword analysis unit that extracts main predicate relation information in the search keyword by extracting the noun phrase when it exists, and a search keyword input to the search system by the search keyword analysis unit As a result of the analysis, if there is a verb phrase and a noun phrase that is the main part of the verb phrase, the phrase that is the phrase information corresponding to the verb phrase and the noun phrase having the main predicate relationship is stored in the case knowledge language dictionary unit. A noun that is a main part of a verb phrase and its verb phrase via the knowledge dictionary database that performs the language analysis of the search keyword input to the search system and the search keyword analysis means If the predicate relation information in the search keyword is extracted by extracting the phrase and there is a noun phrase that is the main part of the verb phrase and the verb phrase, The phrase search means is used to detect the phrase that becomes the phrase information corresponding to the verb phrase and the noun phrase having the main predicate relationship, and the detected phrase information is expanded as a search keyword, and the input search is performed. A search request comprehension keyword expansion search system using co-starter information characterized in that search omissions are reduced by searching from keywords and expanded search keywords, thereby improving search efficiency.
当該第1発明は、言語解析を行う知識辞書データーベースと、検索キーワード解析手段と、格語句情報検索手段とで構成され、検索システムに入力された検索キーワードを解析して、当該主述関係を持つ動詞語句と名詞語句に対応する格語句情報となる語句を抽出し、この格語句情報を検索キーワードとして拡充することで、検索漏れを縮小し検索効率を向上させる共起動詞情報による検索要求理解キーワード拡充検索システムである。 The first invention comprises a knowledge dictionary database that performs language analysis, a search keyword analysis means, and a phrase information search means. The search keyword input to the search system is analyzed, and the main statement relationship is determined. Understanding search requests with co-starter information that reduces search omissions and improves search efficiency by extracting phrases that become case phrase information corresponding to verb phrases and noun phrases and expanding this case phrase information as search keywords This is a keyword expansion search system.
特許を受けようとする第2発明は、基本的な単語を知識として単語の表記と言語解析に必要となる解析情報を保持する基本辞書部と、基本辞書部中の動詞語句に対して、その主部となる名詞語句との主述関係情報を保持すると共に、主述関係情報の組み合わせ毎にその道具や手段や場所などの格を示す語句である格語句情報をセットで保持する格知識言語辞書部とを有することを特徴とする言語解析を行う知識辞書データーベースである。 The second invention to receive a patent is based on a basic dictionary part that stores basic word knowledge and analysis information necessary for word notation and linguistic analysis, and a verb phrase in the basic dictionary part. A case knowledge language that retains main predicate relationship information with the main noun word and phrase, and that holds case information that is a word indicating the case of each tool, means, place, etc. for each combination of main predicate relationship information It is a knowledge dictionary database for performing language analysis characterized by having a dictionary part.
当該第2発明では、検索システムに入力された検索者の検索要求を理解するシステムに係わる第1の手段としての言語解析を行う知識辞書データーベースであって、基本的な単語を知識として単語の表記と言語解析に必要となる解析情報を保持する基本辞書部と、基本辞書部中の動詞語句に対して、その主部となる名詞語句との主述関係情報を保持すると共に主述関係情報の組み合わせ毎にその道具や手段や場所などの格を示す語句である格語句情報をセットで保持する格知識言語辞書部とを有する辞書を採用したものである。 The second invention is a knowledge dictionary database that performs linguistic analysis as a first means related to a system that understands a searcher's search request input to a search system, and uses basic words as knowledge to identify words. Main dictionary relation information that holds analysis information necessary for notation and linguistic analysis, and main phrase relation information for the noun word phrase that is the main part of the verb phrase in the basic dictionary section For each combination, a dictionary having a case knowledge language dictionary unit that holds case phrase information, which is a phrase indicating the case of the tool, means, place, etc., as a set is employed.
特許を受けようとする第3発明は、検索システムに入力された検索キーワードを解析するロジックであって、基本的な単語を知識として単語の表記と言語解析に必要となる解析情報を保持する基本辞書部を用いて検索キーワード中に動詞語句が存在するかを検索し、存在する場合にはその動詞語句を抽出すると共に、抽出した動詞語句に対して主部となる名詞語句が存在するかを判定し、存在する場合にはその名詞語句を抽出することで検索キーワード中の主述関係情報を抽出することを特徴とする検索キーワード解析手段である。 The third invention to receive a patent is a logic for analyzing a search keyword input to a search system, and holds basic analysis information necessary for word notation and language analysis using basic words as knowledge. The dictionary part is used to search for the presence of a verb phrase in the search keyword. If there is, the verb phrase is extracted, and whether the main noun phrase exists for the extracted verb phrase. The search keyword analysis means is characterized in that the main description relation information in the search keyword is extracted by determining and extracting the noun word / phrase if it exists.
当該第3発明は、検索システムに入力された検索者の検索要求を理解するシステムに係わる第2の手段として、検索キーワード中の主述関係情報を抽出する検索キーワード解析手段を採用した。当該検索キーワード解析手段は、検索システムに入力された検索キーワードを解析するロジックであって、上記第1の手段における基本辞書部を用いて検索キーワード中に動詞語句が存在するかを検索し、存在する場合にはその動詞語句を抽出すると共に、抽出した動詞語句に対して主部となる名詞語句が存在するかを判定し、存在する場合にはその名詞語句を抽出することで検索キーワード中の主述関係情報を抽出する。 The third invention employs a search keyword analysis means for extracting main description relation information in a search keyword as a second means related to a system for understanding a searcher's search request input to the search system. The search keyword analysis means is a logic for analyzing the search keyword input to the search system, and searches for a verb phrase in the search keyword using the basic dictionary part in the first means. If it does, the verb phrase is extracted and it is determined whether there is a main noun phrase for the extracted verb phrase. If there is, the noun phrase is extracted to extract the noun phrase in the search keyword. Extract main predicate relation information.
特許を受けようとする第4発明は、第3発明に記載する検索キーワード解析手段で検索システムに入力された検索キーワードを解析した結果、動詞語句とその動詞語句の主部となる名詞語句が存在した場合、その主述関係を持つ動詞語句と名詞語句に対応する格語句情報となる語句を、第1発明に示す格知識言語辞書部から検出することを特徴とする格語句情報検索手段である。 As a result of analyzing the search keyword input to the search system by the search keyword analysis means described in the third invention, the fourth invention to be patented has a verb phrase and a noun phrase that is the main part of the verb phrase. In this case, the phrase information search means is characterized in that the phrase that becomes the phrase information corresponding to the verb phrase and the noun phrase having the main predicate relationship is detected from the case knowledge language dictionary part shown in the first invention. .
当該第4発明は、検索システムに入力された検索者の検索要求を理解するシステムに係わる第3の手段として、上記第1の手段に示す格知識言語辞書部から検出することを特徴とする格語句情報検索手段を採用する。当該格語句情報検索手段は、上記第2の手段で動詞語句とその動詞語句の主部となる名詞語句が存在した場合、その主述関係を持つ動詞語句と名詞語句に対応する格語句情報となる語句を、上記第1の手段に示す格知識言語辞書部から検出する。 According to the fourth aspect of the present invention, as a third means related to a system for understanding a search request of a searcher input to a search system, a case is detected from a case knowledge language dictionary section shown in the first means. Adopt phrase information retrieval means. In the case where there is a verb phrase and a noun phrase that is the main part of the verb phrase in the second means, the phrase information search means includes a verb phrase having the main predicate relationship and phrase information corresponding to the noun phrase, Is detected from the case knowledge language dictionary shown in the first means.
特許を受けようとする第5発明は、第4発明に示す格語句情報検索手段が抽出した格語句情報を検索キーワードとして拡充することで、検索漏れを縮小し、これによって検索効率を向上するようにしたことを特徴とする共起動詞情報による検索要求理解キーワード拡充検索システムである。 The fifth invention to receive a patent expands the phrase information extracted by the phrase information search means shown in the fourth invention as a search keyword, thereby reducing the search omission and thereby improving the search efficiency. This is a search request comprehension keyword expansion search system based on co-starter information characterized by the above.
当該第5発明は、検索システムに入力された検索者の検索要求を理解するシステムに係わる第4の手段として、上記第3の手段に示す格語句情報検索システムが抽出した格語句情報を検索キーワードとして拡充することで、検索漏れを縮小し検索効率を向上する検索システムである。 According to the fifth aspect of the present invention, as the fourth means related to the system for understanding the search request of the searcher input to the search system, the phrase information extracted by the phrase information search system shown in the third means is used as the search keyword. It is a search system that reduces search omissions and improves search efficiency.
特許を受けようとする第6発明は、請求項2に記載す言語解析を行う知識辞書データーベースと、請求項3に記載する検索キーワード解析手段と、請求項4に記載する格語句情報検索手段とからなり、検索者が指定し入力した検索キーワードから前記言語解析を行う知識辞書データーベースと検索キーワード解析手段を介して動詞語句とその動詞語句の主部となる名詞語句を抽出することで検索キーワード中の主述関係情報を抽出し、動詞語句とその動詞語句の主部となる名詞語句が存在した場合、格語句情報検索手段を用いてその主述関係を持つ動詞語句と名詞語句に対応する格語句情報となる語句を検出し、検索者が指定した入力キーワードから検索者の検索意図を理解、推論し、当該検索者の検索意図をより的確に表現する検索キーワードを生成するようにしたことを特徴とする検索意図推論キーワード生成システムである。
A sixth invention to be patented is a knowledge dictionary database for performing language analysis according to
当該第6発明は、キーワード検索処理の先行処理として、検索者が指定した入力キーワードから検索者の検索意図を理解、推論し、当該検索者の検索意図をより的確に表現する検索キーワードを生成する検索意図推論キーワード生成システムを具現化したものである。これにより、検索者の意図をを推論し、適切なキーワードに置き換え、検索処理を実行すればより的確な検索キーワードによる検索が行われ、的中率を向上させることができる。 According to the sixth aspect of the present invention, as a preceding process of the keyword search process, the search intention of the searcher is understood and inferred from the input keyword specified by the searcher, and a search keyword that more accurately expresses the search intention of the searcher is generated. A search intention reasoning keyword generation system is embodied. As a result, if a searcher's intention is inferred, replaced with an appropriate keyword, and a search process is executed, a search with a more accurate search keyword is performed, and the hit rate can be improved.
本願発明は、検索者が検索システムに対して指定した入力検索キーワードだけでなく、検索者の検索意図を反映したキーワードである格語句情報も自動的に追加、拡充することになる。よって、データ検索手段は、検索者が検索システムに対して指定した入力検索キーワードと、検索者の検索意図を反映した格語句情報に基づく拡充検索キーワードとにより、検索対象データ集合からデータ検索を行い、その検索結果データを出力する。 In the present invention, not only the input search keyword specified by the searcher for the search system, but also the phrase information that is a keyword reflecting the search intention of the searcher is automatically added and expanded. Therefore, the data search means performs a data search from the search target data set using the input search keyword specified by the searcher for the search system and the expanded search keyword based on the phrase information reflecting the searcher's search intention. The search result data is output.
以上のように、検索者が指定した入力検索キーワードから、検索者の意図を推論した格語句情報を検索キーワードとして拡充し、両検索キーワードによって検索処理を実行するので検索の的中率を向上させることができると共に、検索の漏れ率を低下させることができる。 As described above, from the input search keyword specified by the searcher, the phrase information inferring the searcher's intention is expanded as the search keyword, and the search process is executed by both search keywords, so the hit rate of the search is improved. And the search leak rate can be reduced.
また、本発明は、検索者の検索意図を反映したキーワードの拡充に際して、言語解析を行う知識辞書データーベースから自動的に追加するので、常に安定した検索要求理解キーワードの拡充が可能となり、検索者の持つ知識量の程度や、検索システムに対する利用経験によって得られる検索システムの癖をどの程度把握しているかという経験知識量などの個人差により、その検索結果に大きく左右されてしまうという問題点を解消することができる。 In addition, since the present invention automatically adds from the knowledge dictionary database that performs linguistic analysis when expanding keywords that reflect the search intention of the searcher, it is possible to constantly expand the search request understanding keywords stably. There is a problem that the search results greatly depend on individual differences, such as the degree of knowledge possessed by and the degree of knowledge of the search system obtained by the experience of using the search system. Can be resolved.
以下、図面を参照して、本発明に係わる共起動詞情報による検索要求理解キーワード拡充検索システムの一実施形態について説明する。
なお本発明の実施形態は、複数のデータから構成される検索対象データ集合から、検索者がキーワードを入力することで、検索者の意とするデータを検索するシステムに対して、検索を実行する処理を行うものである。ここで、インターネットは複数のページから構成されているため、検索対象データ集合をインターネットに置き換えれば、インターネットの検索システムとしても、同様の構成で実現可能である。
Hereinafter, an embodiment of a search request understanding keyword expansion search system using co-starter information according to the present invention will be described with reference to the drawings.
In the embodiment of the present invention, a search is performed on a system that searches for data intended by a searcher by inputting a keyword from a search target data set including a plurality of data. The processing is performed. Here, since the Internet is composed of a plurality of pages, if the search target data set is replaced with the Internet, the Internet search system can be realized with the same configuration.
図1は、本発明の実施形態のシステム構成図である。まず、検索者が検索システムに対して指定した入力検索キーワード1は、検索キーワード拡充システム2中の検索キーワード解析手段21によって解析が行われる。解析の手順は、格知識言語辞書部3中の基本辞書部31を用いて検索キーワード中に動詞語句が存在するかを検索する。存在する場合にはその動詞語句を抽出すると共に、抽出した動詞語句に対して主部となる名詞語句が存在するかを判定し、存在する場合にはその名詞語句を抽出することで検索キーワード中の主述関係情報22を抽出する。
FIG. 1 is a system configuration diagram of an embodiment of the present invention. First, the
検索キーワード中に主述関係情報22が存在する場合、抽出した主述関係情報22に対して、格語句情報検索手段23により格知識言語辞書部3中の格語句情報32に検索者の深層要求を示す格情報が存在するかを判定する。存在する場合、検索者の深層要求を示す格情報に登録されているキーワードである格語句情報24を抽出する。検索キーワード拡充システム2は、抽出した格語句情報24をデータ検索手段5へと受け渡す。
When the predicate relationship information 22 exists in the search keyword, the searcher's deep request is added to the
以上の処理により、データ検索手段5に入力される検索キーワードは、検索者が検索システムに対して指定した入力検索キーワード1だけでなく、検索者の検索意図を反映した格語句情報24に基ずく拡充検索キーワードも自動的に追加する。そのうえで、データ検索手段5は、検索者が検索システムに対して指定した入力検索キーワード1と検索者の検索意図を反映した格語句情報24による拡充検索キーワードとにより、検索対象データ集合4から、データ検索を行い検索結果データ6を出力する。
Through the above processing, the search keyword input to the data search means 5 is based not only on the
このように本発明は、データ検索手段5に入力される入力検索キーワードから検索者の検索意図を反映した格語句情報24に基づく拡充検索キーワードを自動的に追加、拡充する。そのうえで入力検索キーワードと拡充検索キーワードによって検索処理を実行するので検索の的中率を向上させることができると共に、検索の漏れ率を低下させることができる。
As described above, the present invention automatically adds and expands the expanded search keyword based on the
また、本発明は、入力検索キーワードの追加・拡充に際して、言語解析を行う知識辞書データーベースから自動的に追加するので、常に安定した検索要求理解キーワードの拡充が可能となり、検索者の持つ知識量のほか、検索システムに対する利用経験によって得られる検索システムの癖をどの程度把握しているかという知識量により、その検索結果に大きく左右されてしまうという問題点を解決するものである。 In addition, since the present invention automatically adds from the knowledge dictionary database that performs linguistic analysis when adding / enlarging input search keywords, it is possible to constantly expand search request understanding keywords, and the knowledge amount of the searcher In addition, it solves the problem that the search result greatly depends on the amount of knowledge of how much of the search system is obtained by the use experience of the search system.
以下、図面を参照して、本発明に係わる共起動詞情報による検索要求理解キーワード拡充システムの実施例を、上記の「発明を実施するための最良の形態」における入力検索キーワード1を具体化して説明する。
Hereinafter, with reference to the drawings, an embodiment of a search request understanding keyword expansion system using co-initiator information according to the present invention will be described by embodying the
図2は、入力検索キーワード1として「ワイン 上手 造る」11と3つの単語を指定した場合を例に、本発明に係わる共起動詞情報による検索要求理解キーワード拡充システムによる処理で、入力検索キーワード「ワイン 上手 造る」11がどのように解析されるかを、そのデータ遷移により具象化した図である。
FIG. 2 shows an example of the case where “wine skill” 11 and three words are designated as the
図3は、格知識言語辞書部3中の格語句情報32の内容のうち、一部分を抜粋したものの構成を記した例である。
FIG. 3 is an example in which the configuration of a part of the content of the
入力検索キーワード1として入力された「ワイン 上手 造る」11の3つの単語は、検索キーワード拡充システム2中の検索キーワード解析手段21によって解析が行われる。解析の手順は、「ワイン 上手 造る」11の各々の単語を格知識言語辞書部3中の基本辞書部31内に登録された語句と照合する。このとき、検索キーワード解析手段21では、形容詞や動詞などの語尾活用や、カタカナ表記とひらがな表記など表記の揺れがあっても照合できる機能を持たせるとよい。
The three words “wine craft” 11 input as the
検索キーワード解析手段21では、入力検索キーワードの「ワイン 上手 造る」11の品詞が、「ワイン(名詞)」、「上手(形容詞)」、「造る(動詞)」という情報を得る。 In the search keyword analysis means 21, the part of speech of the input search keyword “wine well-made” 11 obtains information of “wine (noun)”, “good (adjective)”, and “build (verb)”.
ここで、「造る(動詞)」が動詞であることから、この動詞の主格となる名詞が存在するかの係り受けを解析する。係り受け解析の結果、「ワイン(名詞)」は、「造る(動詞)」の主格になりうる名詞なので、検索キーワード解析手段21は主述関係情報として「ワイン−造る」221を出力する。 Here, since “build (verb)” is a verb, the dependency on whether or not a noun that is the main character of this verb exists is analyzed. As a result of the dependency analysis, since “wine (noun)” is a noun that can be the main character of “build (verb)”, the search keyword analysis means 21 outputs “wine-make” 221 as main description relation information.
格語句情報検索手段23では、「ワイン−造る」221より、この主述関係の情報が格語句情報32に存在するかを確認する。格語句情報32の構造は、図3に示すように、「ワイン(名詞)」321と「造る(動詞)」322といように、主述関係を構成する名詞と動詞が一対になっており、主述関係となる名詞と動詞の語句が決定すれば、容易に検索できるような構造となっている。
In the phrase information search means 23, it is confirmed from “Wine-Make” 221 whether the information of the main predicate relationship exists in the
格語句情報検索手段23では、主述関係情報22が「ワイン−造る」221より、図3に示す「ワイン(名詞)」321と「造る(動詞)」322を検索する。この主述関係情報には、その下位階層に場所格323や道具格234や手段格325などが存在する。ここで、場所格323に登録されている格語句情報「ワイナリー、シャトー、…」326や、道具格324に登録されている格語句情報「ワインキット、樽、…」327などを検索し、「ワイナリー、シャトー、ワインキット、樽、…」241などの語句を格語句情報24として出力する。
In the phrase information search means 23, “wine (noun)” 321 and “build (verb)” 322 shown in FIG. In the main predicate relation information, there are a
このように本システムを適用すれば、上述の例に示すように、「ワインを造りたい」という検索者の深層要望に対して、検索者が目的に対する専門的な言葉である「ワイナリー」や「シャトー」などの単語を知らなくても、これらの専門的な用語を検索キーワードとして自動的に拡充でき、結果的に検索の的中率を向上させるという効果をもたらすものである。 When this system is applied in this way, as shown in the above example, in response to a deep search request from a searcher who wants to “make wine”, the searcher can use “winery” and “ Even without knowing words such as “château”, these specialized terms can be automatically expanded as search keywords, resulting in an improvement in the hit rate of the search.
本発明は、入力検索キーワード1として、ただキーワードを指定するだけでなく、自然言語文を入力する自然言語指定検索システムとして拡張することも可能である。図2に示す、本発明に係わる共起動詞情報による検索要求理解キーワード拡充システムによる処理で、例えば入力検索キーワード1として自然言語文「ワインを上手に造りたい。」が入力された場合を例に解説する。
The present invention can be extended not only to specify a keyword as the
入力された「ワインを上手に造りたい。」は、検索キーワード拡充システム2中の検索キーワード解析手段21によって解析する。この場合、検索キーワード解析手段21に既存の文を単語単位に分割し、分割した単語の品詞を確定する形態素解析システムを導入すれば、入力文「ワインを上手に造りたい。」から、「ワイン(名詞)」、「上手(形容詞)」と動詞の終止形である「造る(動詞)」を抽出することができる。
The input “I want to make wine well” is analyzed by the search keyword analysis means 21 in the search
以上のように、検索キーワード解析手段21に形態素解析システムを導入することで「ワイン(名詞)」、「上手(形容詞)」と「造る(動詞)」が抽出できれば、その後の処理は前記「実施例1」から「実施例2」に示す手順と同様で、キーワードの拡充処理が可能となる。 As described above, if “wine (noun)”, “advance (adjective)”, and “build (verb)” can be extracted by introducing a morphological analysis system into the search keyword analysis means 21, the subsequent processing is performed as described above. Similar to the procedure shown in “Example 1” to “Example 2”, keyword expansion processing can be performed.
本発明は、キーワードを拡充するだけでなく、検索者の検索意図を理解し、検索者が指定した入力キーワードよりも検索者の検索意図をより的確に表現する検索キーワードを生成する検索意図推論キーワード生成システムとしても適用可能である。 The present invention not only expands the keywords, but also understands the search intention of the searcher, and generates a search keyword that expresses the search intention of the searcher more accurately than the input keyword specified by the searcher It can also be applied as a generation system.
例えば、入力検索キーワード1として、自然言語文で「ワインを上手に造れる場所を知りたい。」12とか、「ワイン、造る、場所」など、動詞の「造る(動詞)」と、その動詞と主述関係を構成する名詞「ワイン(名詞)」、更には主述関係情報である「ワイン−造る」に存在する格情報である「場所」が抽出できれば、検索者が指定したキーワードを破棄し、「ワイン−造る」の場所格の単語のみを検索キーワードとすることも可能である。
For example, as an
この処理を行う場合、検索者が入力した入力検索キーワード1を破棄しなければならないので、図4に示すように、データ検索手段5も本発明の検索キーワード拡充システム2内の一部分に取り込めば、検索キーワード拡充システム2においてデータ検索手段5を制御可能となるため、実現可能である。
When this processing is performed, since the
以上のように、検索者が指定した入力検索キーワード1から、検索者の意図を推論し、適切なキーワードに置き換え、検索処理を実行すれば検索の的中率を向上させることが可能と共に、検索の漏れ率を低下させることが可能となるであろう。
As described above, it is possible to infer the searcher's intention from the
以上のように、本発明の共起動詞情報による検索要求理解キーワード拡充システムを、データベースの検索エンジンやインターネットの検索エンジンなど多量のデータ集合からキーワードを指定することで検索を実行する検索システム中に組み込めば、検索者が検索意図を反映するためのキーワードを指定する操作をサポートし、より検索効率を向上できる検索システムを実現することが可能となる。 As described above, the search request understanding keyword expansion system using co-starter information according to the present invention is included in a search system that executes a search by specifying keywords from a large amount of data sets such as a database search engine and an Internet search engine. If it is incorporated, it becomes possible to realize a search system that supports an operation for a searcher to specify a keyword for reflecting a search intention and can further improve search efficiency.
1 :入力検索キーワード
11 :入力検索キーワードの一例
12 :入力検索キーワードの一例
2 :検索キーワード拡充システム
21 :検索キーワード解析手段
22 :主述関係情報
221 :主述関係情報の一例
222 :主述関係情報の一例
23 :格語句情報検索手段
24 :格語句情報
241 :格語句情報の一例
3 :格知識言語辞書部
31 :基本辞書部
32 :格語句情報
321 :格語句情報主部の一例
322 :格語句情報述部の一例
323 :格語句情報の場所格
324 :格語句情報の道具格
325 :格語句情報の手段格
326 :格語句情報の場所格登録語句の一例
327 :格語句情報の道具格登録語句の一例
4 :検索対象データ集合
5 :データ検索手段
6 :検索結果データ
1: Input search keyword 11: Example of input search keyword 12: Example of input search keyword 2: Search keyword expansion system 21: Search keyword analysis means 22: Main description relation information 221: Example of main description relation information 222: Main description relation Example of information 23: Case phrase information search means 24: Case phrase information 241: Example of case phrase information 3: Case knowledge language dictionary unit 31: Basic dictionary unit 32: Case phrase information 321: Example of phrase information main part 322: An example of a phrase information predicate 323: A location case of the phrase information 324: A tool case of the phrase information 325: A means of the phrase information 326: An example of a location case registration phrase of the phrase information 327: A tool of the phrase information Example 4 of case registration phrase: Search target data set 5: Data search means 6: Search result data
Claims (6)
検索システムに入力された検索キーワードを解析するロジックであって、前記言語解析を行う知識辞書データーベースの基本辞書部を用いて検索キーワード中に動詞語句が存在するかを検索し、存在する場合にはその動詞語句を抽出すると共に、知識言語辞書手段を用いて抽出した動詞語句に対して主部となる名詞語句が存在するかを判定し、存在する場合にはその名詞語句を抽出することで検索キーワード中の主述関係情報を抽出する検索キーワード解析手段と、
前記検索キーワード解析手段で検索システムに入力された検索キーワードを解析した結果、動詞語句とその動詞語句の主部となる名詞語句が存在した場合、その主述関係を持つ動詞語句と名詞語句に対応する格語句情報となる語句を、前記格知識言語辞書部から検出する格語句情報検索手段とからなり、
検索システムに入力された検索キーワードから前記言語解析を行う知識辞書データーベースと検索キーワード解析手段を介して動詞語句とその動詞語句の主部となる名詞語句を抽出することで検索キーワード中の主述関係情報を抽出し、動詞語句とその動詞語句の主部となる名詞語句が存在した場合、格語句情報検索手段を用いてその主述関係を持つ動詞語句と名詞語句に対応する格語句情報となる語句を検出し、その検出した格語句情報を検索キーワードとして拡充したうえ、当該入力された検索キーワードと拡充された検索キーワードから検索することで検索漏れを縮小し、これによって検索効率を向上するようにしたことを特徴とする共起動詞情報による検索要求理解キーワード拡充検索システム。 Basic dictionary that holds basic word knowledge and analysis information necessary for word notation and linguistic analysis, and the main predicate relationship between the noun phrase that is the main part of the verb phrase in the basic dictionary Knowledge dictionary data for linguistic analysis with case knowledge language dictionary part that retains information and holds case information that is a word indicating the case of each tool, means, place, etc. for each combination of main predicate relation information Base and
A logic for analyzing a search keyword input to a search system, and searches for a verb phrase in the search keyword using a basic dictionary part of a knowledge dictionary database that performs the language analysis. Extracts the verb phrase, determines whether there is a main noun phrase for the verb phrase extracted using the knowledge language dictionary means, and if so, extracts the noun phrase A search keyword analysis means for extracting main predicate relation information in the search keyword;
As a result of analyzing the search keyword input to the search system by the search keyword analysis means, if there is a noun phrase that is the main part of the verb phrase and the verb phrase, it corresponds to the verb phrase and the noun phrase having the main predicate relationship A phrase that becomes the phrase information to be performed, and a phrase information search means for detecting from the case knowledge language dictionary part,
The main description in the search keyword is extracted from the search keyword input to the search system by extracting the verb phrase and the noun phrase that is the main part of the verb phrase through the knowledge dictionary database that performs the language analysis and the search keyword analysis means. When the relation information is extracted and there is a verb phrase and a noun phrase that is the main part of the verb phrase, the phrase information corresponding to the noun phrase and the verb phrase having the main predicate relationship using the phrase information search means The search phrase is detected, and the detected phrase information is expanded as a search keyword, and the search omission is reduced by searching from the input search keyword and the expanded search keyword, thereby improving the search efficiency. A search request comprehension keyword expansion search system using co-starter information characterized by the above.
基本辞書部中の動詞語句に対して、その主部となる名詞語句との主述関係情報を保持すると共に
主述関係情報の組み合わせ毎にその道具や手段や場所などの格を示す語句である格語句情報をセットで保持する格知識言語辞書部とを有することを特徴とする言語解析を行う知識辞書データーベース。 A basic dictionary that holds basic word knowledge and analysis information necessary for word notation and language analysis,
This is a phrase that holds the main predicate relation information with the noun word phrase that is the main part of the verb phrase in the basic dictionary part and indicates the case of the tool, means, place, etc. for each combination of the main predicate relation information A knowledge dictionary database for performing language analysis, comprising: a case knowledge language dictionary unit that holds case phrase information as a set.
基本的な単語を知識として単語の表記と言語解析に必要となる解析情報を保持する基本辞書部を用いて検索キーワード中に動詞語句が存在するかを検索し、存在する場合にはその動詞語句を抽出すると共に、
抽出した動詞語句に対して主部となる名詞語句が存在するかを判定し、
存在する場合にはその名詞語句を抽出することで
検索キーワード中の主述関係情報を抽出することを特徴とする検索キーワード解析手段。 Logic that analyzes search keywords entered into the search system,
Searches for the presence of a verb phrase in the search keyword using the basic dictionary part that stores the basic word knowledge and analysis information necessary for language analysis, and if so, the verb phrase And extracting
Determine whether there is a main noun phrase for the extracted verb phrase,
A search keyword analysis means for extracting main predicate relation information in a search keyword by extracting the noun word phrase when it exists.
その主述関係を持つ動詞語句と名詞語句に対応する格語句情報となる語句を、請求項1に示す格知識言語辞書部から検出することを特徴とする格語句情報検索手段。 As a result of analyzing the search keyword input to the search system by the search keyword analysis means according to claim 3, when a verb phrase and a noun phrase that is the main part of the verb phrase are present,
A phrase information retrieval means for detecting a phrase that is case phrase information corresponding to a verb phrase and a noun phrase having the main predicate relationship from the case knowledge language dictionary section shown in claim 1.
検索漏れを縮小し、これによって検索効率を向上するようにしたことを特徴とする共起動詞情報による検索要求理解キーワード拡充検索システム。 By expanding the phrase information extracted by the phrase information search means according to claim 4 as a search keyword,
A search request comprehension keyword expansion search system using co-initiator information characterized by reducing search omissions and thereby improving search efficiency.
検索者が指定し入力した検索キーワードから前記言語解析を行う知識辞書データーベースと検索キーワード解析手段を介して動詞語句とその動詞語句の主部となる名詞語句を抽出することで検索キーワード中の主述関係情報を抽出し、動詞語句とその動詞語句の主部となる名詞語句が存在した場合、格語句情報検索手段を用いてその主述関係を持つ動詞語句と名詞語句に対応する格語句情報となる語句を検出し、検索者が指定した入力キーワードから検索者の検索意図を理解、推論し、当該検索者の検索意図をより的確に表現する検索キーワードを生成するようにしたことを特徴とする検索意図推論キーワード生成システム。 A knowledge dictionary database for performing language analysis according to claim 2, a search keyword analysis means according to claim 3, and a phrase information search means according to claim 4.
By extracting a verb phrase and a noun phrase that is the main part of the verb phrase from a search keyword specified and entered by a searcher through a knowledge dictionary database that performs the language analysis and a search keyword analysis means, the main keyword in the search keyword is extracted. When predicate relation information is extracted and there is a verb phrase and a noun phrase that is the main part of the verb phrase, the phrase information corresponding to the verb phrase and the noun phrase having the main predicate relation using the phrase information search means The search keyword is detected, the searcher's search intention is understood and inferred from the input keyword specified by the searcher, and a search keyword that more accurately expresses the searcher's search intention is generated. Search intention reasoning keyword generation system.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004084213A JP2005275524A (en) | 2004-03-23 | 2004-03-23 | Retrieval request understanding keyword extension system using co-occurrence verb information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004084213A JP2005275524A (en) | 2004-03-23 | 2004-03-23 | Retrieval request understanding keyword extension system using co-occurrence verb information |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005275524A true JP2005275524A (en) | 2005-10-06 |
Family
ID=35175173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004084213A Pending JP2005275524A (en) | 2004-03-23 | 2004-03-23 | Retrieval request understanding keyword extension system using co-occurrence verb information |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005275524A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203997A (en) * | 2007-02-16 | 2008-09-04 | Toshiba Corp | Document retrieval device and program |
JP2009037603A (en) * | 2007-07-05 | 2009-02-19 | Nec (China) Co Ltd | Query requirement expander and query requirement expansion method |
JPWO2022049664A1 (en) * | 2020-09-02 | 2022-03-10 |
-
2004
- 2004-03-23 JP JP2004084213A patent/JP2005275524A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203997A (en) * | 2007-02-16 | 2008-09-04 | Toshiba Corp | Document retrieval device and program |
JP2009037603A (en) * | 2007-07-05 | 2009-02-19 | Nec (China) Co Ltd | Query requirement expander and query requirement expansion method |
US8180628B2 (en) | 2007-07-05 | 2012-05-15 | Nec (China) Co., Ltd. | Apparatus and method for expanding natural language query requirement |
JPWO2022049664A1 (en) * | 2020-09-02 | 2022-03-10 | ||
WO2022049664A1 (en) * | 2020-09-02 | 2022-03-10 | 三菱電機株式会社 | Information processing device, generation method, and generation program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6473729B1 (en) | Word phrase translation using a phrase index | |
JP5243167B2 (en) | Information retrieval system | |
US8438142B2 (en) | Suggesting and refining user input based on original user input | |
Huang et al. | Mining key phrase translations from web corpora | |
US20070011132A1 (en) | Named entity translation | |
JP2012248210A (en) | System and method for retrieving content of complicated language such as japanese | |
JP5710581B2 (en) | Question answering apparatus, method, and program | |
JP6466138B2 (en) | Foreign language sentence creation support apparatus, method and program | |
JP2010519655A (en) | Name matching system name indexing | |
Alhasan et al. | POS tagging for arabic text using bee colony algorithm | |
JP4162223B2 (en) | Natural sentence search device, method and program thereof | |
Ehsan et al. | A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection. | |
JPH08129554A (en) | Relation expression extracting device and retrieval device for relation expression | |
JP2005275524A (en) | Retrieval request understanding keyword extension system using co-occurrence verb information | |
Yeh et al. | Chinese spelling checker based on an inverted index list with a rescoring mechanism | |
JP4435144B2 (en) | Data search system and program | |
JP5025603B2 (en) | Machine translation apparatus, machine translation program, and machine translation method | |
JP4153843B2 (en) | Natural sentence search device, natural sentence search method, natural sentence search program, and natural sentence search program storage medium | |
Stekel et al. | Word sense induction with attentive context clustering | |
Anbananthen et al. | Typographic error identification and correction in chatbot using n-gram overlapping approach | |
Jakubícek et al. | A Distributional Multi-word Thesaurus in Sketch Engine. | |
JP2005275560A (en) | Adjective keyword extension system, intention understanding retrieval system of retriever from adjective information using same system and intention inference retrieval system of retriever from adjective information | |
JP4812811B2 (en) | Machine translation apparatus and machine translation program | |
Tsai et al. | Illinois CCG Entity Discovery and Linking, Event Nugget Detection and Co-reference, and Slot Filler Validation Systems for TAC 2016. | |
Bhowmik et al. | Development of A Word Based Spell Checker for Bangla Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060519 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20060530 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060519 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090428 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090908 |