JP2009157458A - Index creation device, its method, program, and recording medium - Google Patents

Index creation device, its method, program, and recording medium Download PDF

Info

Publication number
JP2009157458A
JP2009157458A JP2007332154A JP2007332154A JP2009157458A JP 2009157458 A JP2009157458 A JP 2009157458A JP 2007332154 A JP2007332154 A JP 2007332154A JP 2007332154 A JP2007332154 A JP 2007332154A JP 2009157458 A JP2009157458 A JP 2009157458A
Authority
JP
Japan
Prior art keywords
word
document
query
class
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007332154A
Other languages
Japanese (ja)
Inventor
Takaaki Hasegawa
隆明 長谷川
Kenji Imamura
賢治 今村
Yoshihiro Matsuo
義博 松尾
Genichiro Kikui
玄一郎 菊井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007332154A priority Critical patent/JP2009157458A/en
Publication of JP2009157458A publication Critical patent/JP2009157458A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To retrieve a document with high ranking precision even when link information between pages is little, and even when the quantity of content written in a page is poor. <P>SOLUTION: An index creation device is configured to; detect a query word belonging to one word class by a query word detection means 6 from each correct answer document in a correct answer document group DB1 and each incorrect answer document in an incorrect answer document group DB2; measure the appearance frequency of an optional word appearing in the neighborhood of the detected query word in each document by a neighboring word frequency measuring part 7; calculate the significance of the optional word in one word class to which the query word is belonging by a neighboring word significance calculation means 8; calculate scores for the word belonging to one word class included in each retrieval object document in a retrieval object document DB3 by using the significance of the optional word; and generate an index with the scores corresponding to the combination of the respective words belonging to each retrieval object document and one word class by an index generation means 10. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、文書の集合からクエリ(処理要求を文字列で表したもの)に適合する文書を検索し、適合順にランク付けするためのインデックスを作成する技術に関する。   The present invention relates to a technique for searching a document that matches a query (a processing request represented by a character string) from a set of documents and creating an index for ranking in the order of matching.

従来より、文書の集合からクエリに適合する文書を検索し、適合順にランク付け(ランキング)する方法として、様々な方法が提案されていた。例えば、文書の内容を表現する方法としてベクトル空間モデルが代表的であり(例えば、非特許文献1、2参照)、ページ間のリンク情報を考慮する方法としてページランクが有名である(例えば、非特許文献3参照)。
徳永健伸、「言語と計算5 情報検索と言語処理」、財団法人東京大学出版会、1999年、P.154〜159 北研二、津田和彦、獅々堀正幹、「情報検索アルゴリズム」、共立出版株式会社、2002年、P.60〜65 山名早人、近藤秀和、解説 サーチエンジンGoogle、「情報処理」、社団法人情報処理学会、2001年、第42巻、第8号、P.775〜780
Conventionally, various methods have been proposed as a method of searching documents that match a query from a set of documents and ranking (ranking) them in the order of matching. For example, a vector space model is typical as a method for expressing the contents of a document (see, for example, Non-Patent Documents 1 and 2), and a page rank is famous as a method for considering link information between pages (for example, non-patent documents). (See Patent Document 3).
Takenobu Tokunaga, “Language and Computation 5 Information Retrieval and Language Processing”, The University of Tokyo Press, 1999, p. 154-159 Kita Kenji, Tsuda Kazuhiko, Sasabori Masatomi, “Information Retrieval Algorithm”, Kyoritsu Publishing Co., Ltd., 2002, p. 60-65 Hayato Yamana, Hidekazu Kondo, Commentary Search Engine Google, “Information Processing”, Information Processing Society of Japan, 2001, Vol. 42, No. 8, p. 775-780

しかしながら、従来の文書検索方法では、ページ間のリンク情報が多い場合やページに記載されている内容量が豊富な場合には高い精度のランキングができるものの、ページ間のリンク情報が少ない場合やページに記載されている内容量が乏しい場合にはランキングの精度が良くないという課題があった。   However, with the conventional document search method, high-accuracy ranking can be performed when there is a lot of link information between pages or when the amount of content described on the page is abundant. There is a problem that the ranking accuracy is not good when the content described in the above is insufficient.

本発明の目的は、予めサンプリングされたある種のクエリに適合しているかどうか、言い換えれば検索ランキングの上位に位置すべきかどうか判定された文書の集合をもとにして、検索対象となる文書の集合のインデックスを作成することで、同種のクエリに対して検索時のランキングの精度を向上させることを可能とする、特にページ間のリンク情報が少ない場合やページに記載されている内容量が乏しい場合においても、精度の高い検索のランキングを可能とすることにある。   An object of the present invention is to determine whether a document to be searched is based on a set of documents that have been determined whether or not they conform to a certain kind of pre-sampled query, in other words, whether or not to be positioned higher in the search ranking. By creating an index for a set, it is possible to improve the accuracy of ranking when searching for the same kind of queries, especially when there is little link information between pages or the amount of content described on the page is scarce Even in such a case, it is to enable ranking of search with high accuracy.

本発明のインデックス作成装置は、検索対象文書の集合からクエリに適合する文書を検索し、適合順にランク付けするためのインデックスを作成する装置であって、単語に関する何らかの分類を表す単語クラスのうちの一の単語クラスに属するクエリ単語の集合と当該集合内の各クエリ単語に対して適合する正解文書の集合とを格納する正解文書集合データベースと、前記一の単語クラスに属するクエリ単語の集合と当該集合内の各クエリ単語に対して適合しない不正解文書の集合とを格納する不正解文書集合データベースと、検索対象文書の集合を格納する検索対象文書データベースと、正解文書集合データベースに格納されている各正解文書及び不正解文書集合データベースに格納されている各不正解文書から、正解文書集合データベース及び不正解文書集合データベースに格納されているクエリ単語と合致する単語を検出するクエリ単語検出手段と、正解文書集合データベースに格納されている各正解文書及び不正解文書集合データベースに格納されている各不正解文書において、クエリ単語検出手段で検出された前記各文書内のクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度を当該任意の単語毎に計測する近傍語頻度計測手段と、近傍語頻度計測手段で計測された、正解文書におけるクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度及び不正解文書におけるクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度から、クエリ単語の属する前記一の単語クラスにおける前記任意の単語の重要度を当該任意の単語毎に計算する近傍語重要度計算手段と、検索対象文書データベースに格納されている検索対象文書から前記一の単語クラスに属する単語をその近傍の単語とともに抽出し、近傍語重要度計算手段で計算されたクエリ単語の属する前記一の単語クラスにおける前記任意の単語の重要度のうち、前記近傍の単語と一致する前記任意の単語の重要度を用いて前記一の単語クラスに属する単語に対する当該検索対象文書のスコアを計算し、これを各検索対象文書中に含まれる全ての前記一の単語クラスに属する単語について繰り返し、各検索対象文書と前記一の単語クラスに属する各単語との組み合わせに対応するスコアを要素とするインデックスを生成するインデックス生成手段とを有することを特徴とする。   An index creation apparatus according to the present invention is an apparatus for retrieving documents that match a query from a set of search target documents, and creating an index for ranking in the order of matching. A correct document set database that stores a set of query words that belong to one word class and a set of correct documents that match each query word in the set; a set of query words that belong to the one word class; Stored in the incorrect document set database that stores a set of incorrect documents that do not match each query word in the set, the search target document database that stores the set of search target documents, and the correct document set database From the correct answer documents stored in the correct answer document and incorrect answer document set database, the correct answer document set database is obtained. Query word detecting means for detecting a word that matches the query word stored in the incorrect document set database, each correct document stored in the correct document set database, and each stored in the incorrect document set database A neighboring word frequency measuring unit that measures, for each arbitrary word, an appearance frequency of an arbitrary word that appears in the vicinity of a word that matches the query word in each document detected by the query word detecting unit in an incorrect answer document; , The frequency of occurrence of any word that appears in the vicinity of a word that matches the query word in the correct document, and any word that appears in the vicinity of the word that matches the query word in the incorrect answer document, measured by the neighborhood word frequency measurement means The importance of the arbitrary word in the one word class to which the query word belongs is calculated for each arbitrary word from the appearance frequency of A query word calculated by the neighborhood word importance calculating means and a word belonging to the one word class from the search target document stored in the search target document database together with words in the vicinity thereof, and calculated by the neighborhood word importance calculating means Of the importance of the arbitrary word in the one word class to which the word belongs, the score of the search target document with respect to the word belonging to the one word class using the importance of the arbitrary word that matches the neighboring word This is repeated for all the words belonging to the one word class included in each search target document, and the score corresponding to the combination of each search target document and each word belonging to the one word class And an index generating means for generating an index.

また、本発明のインデックス作成方法は、検索対象文書の集合からクエリに適合する文書を検索し、適合順にランク付けするためのインデックスを作成する方法であって、単語に関する何らかの分類を表す単語クラスのうちの一の単語クラスに属するクエリ単語の集合と当該集合内の各クエリ単語に対して適合する正解文書の集合とを格納する正解文書集合データベースと、前記一の単語クラスに属するクエリ単語の集合と当該集合内の各クエリ単語に対して適合しない不正解文書の集合とを格納する不正解文書集合データベースと、検索対象文書の集合を格納する検索対象文書データベースとを用い、クエリ単語検出手段が、正解文書集合データベースに格納されている各正解文書及び不正解文書集合データベースに格納されている各不正解文書から、正解文書集合データベース及び不正解文書集合データベースに格納されているクエリ単語と合致する単語を検出するステップと、近傍語頻度計測手段が、正解文書集合データベースに格納されている各正解文書及び不正解文書集合データベースに格納されている各不正解文書において、クエリ単語検出ステップで検出された前記各文書内のクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度を当該任意の単語毎に計測するステップと、近傍語重要度計算手段が、近傍語頻度計測ステップで計測された正解文書におけるクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度及び近傍語頻度計測ステップで計測された不正解文書におけるクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度から、クエリ単語の属する前記一の単語クラスにおける前記任意の単語の重要度を当該任意の単語毎に計算するステップと、インデックス生成手段が、検索対象文書データベースに格納されている検索対象文書から前記一の単語クラスに属する単語をその近傍の単語とともに抽出し、近傍語重要度計算ステップで計算されたクエリ単語の属する前記一の単語クラスにおける前記任意の単語の重要度のうち、前記近傍の単語と一致する前記任意の単語の重要度を用いて前記一の単語クラスに属する単語に対する当該文書のスコアを計算し、これを各検索対象文書中に含まれる全ての前記一の単語クラスに属する単語について繰り返し、各検索対象文書と前記一の単語クラスに属する各単語との組み合わせに対応するスコアを要素とするインデックスを生成するステップとを含むことを特徴とする。   The index creation method of the present invention is a method of creating an index for searching documents that match a query from a set of search target documents and ranking them in the order of matching, and includes a word class that represents some classification related to words. A correct document set database that stores a set of query words belonging to one of the word classes and a set of correct answer documents that match each query word in the set, and a set of query words that belong to the one word class Query word detecting means using a wrong document set database that stores a set of incorrect documents that do not match each query word in the set and a search target document database that stores a set of search target documents. , Each correct document stored in the correct document set database and each incorrect stored in the incorrect document set database Detecting a word that matches a query word stored in the correct document set database and the incorrect document set database from the document, and a neighborhood word frequency measuring means, each correct document stored in the correct document set database, In each incorrect answer document stored in the incorrect answer document set database, the appearance frequency of an arbitrary word appearing in the vicinity of a word that matches the query word in each document detected in the query word detection step is The step of measuring for each word, and the neighborhood word importance calculation means measure the appearance frequency and neighborhood word frequency of any word that appears in the vicinity of the word that matches the query word in the correct word measured in the neighborhood word frequency measurement step. Frequency of occurrence of any word that appears in the vicinity of a word that matches the query word in the incorrect document measured in step Calculating the importance of the arbitrary word in the one word class to which the query word belongs, for each arbitrary word, and an index generating means from the search target document stored in the search target document database, A word belonging to one word class is extracted together with its neighboring words, and among the importance of the arbitrary word in the one word class to which the query word calculated in the neighborhood word importance calculating step belongs, the neighboring word The score of the document for the word belonging to the one word class is calculated using the importance of the arbitrary word that matches the word, and this is used for all the words belonging to the one word class included in each search target document The index is formed with a score corresponding to a combination of each search target document and each word belonging to the one word class as an element. Generating a process.

本発明によれば、正解文書と不正解文書に存在するクエリ単語の近傍語の重要度を学習し、検索対象文書に対して近傍語の重要度を学習したクエリ単語と同じ単語クラスのインスタンス(単語)のスコアを予め格納しておくことにより、当該単語クラスのインスタンスをクエリ単語として検索した場合に、リンク情報が少ない場合や文書の内容量が少ない場合でも精度の高いランキングを実現することが可能である。例えば、クエリ単語が人名クラスに属する場合には、クエリ単語が人名インスタンスである場合に準備された正解文書と不正解文書の人名インスタンスと近傍語とから当該人名クラスの近傍語の重要度を学習しておき、検索対象文書の集合に対しては、文書中に存在する人名クラスの近傍語について前記学習した重要度を人名インスタンスのスコアに反映させ、これを格納した人名文書行列を作成し、検索要求としてクエリ単語が人名クラスのあるインスタンスである場合に当該人名インスタンスのスコアが高い順番に文書を出力することで、精度の高い検索ランキングを実現することが可能となる。本発明は、特にクエリ単語の数が1つしかない場合の検索要求に対して有効である。   According to the present invention, the importance of neighboring words of query words existing in correct and incorrect documents is learned, and an instance of the same word class as the query word having learned the importance of neighboring words for the search target document ( By storing the score of the word) in advance, when an instance of the word class is searched as a query word, a highly accurate ranking can be realized even when the link information is small or the content of the document is small. Is possible. For example, when a query word belongs to a person name class, the importance level of the neighboring word of the person name class is learned from the correct answer document prepared when the query word is a person name instance, the person name instance of the incorrect answer document, and the neighbor word. In addition, for the set of search target documents, the learned importance level is reflected in the score of the personal name instance for the neighborhood words of the personal name class existing in the document, and a personal name document matrix storing this is created, When a query word is an instance having a personal name class as a search request, a document is output in the order from the highest score of the personal name instance, whereby a highly accurate search ranking can be realized. The present invention is particularly effective for a search request when there is only one query word.

以下、本発明の実施の形態について図面を参照して説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図1は本発明のインデックス作成装置の実施の形態の一例を示すもので、本実施の形態のインデックス作成装置は、正解文書データベース(DB)1と、不正解文書データベース(DB)2と、検索対象文書データベース(DB)3と、形態素解析部4と、単語クラス同定部5と、クエリ単語検出部6と、近傍語頻度計測部7と、近傍語重要度計算部8と、近傍語重要度テーブル9と、インデックス生成部10とからなっている。   FIG. 1 shows an example of an embodiment of an index creation apparatus according to the present invention. The index creation apparatus according to the present embodiment includes a correct document database (DB) 1, an incorrect document database (DB) 2, and a search. Target document database (DB) 3, morphological analysis unit 4, word class identification unit 5, query word detection unit 6, neighborhood word frequency measurement unit 7, neighborhood word importance calculation unit 8, neighborhood word importance It consists of a table 9 and an index generation unit 10.

正解文書DB1は、様々なクエリに対してそれに適合する文書を検索エンジンで検索するための単語(以下、クエリ単語と呼ぶ。)であって、人名、地名等の固有表現や、特定の分野、目的を示すジャンル名等の、単語に関する何らかの分類を表す単語クラスのうちの一の単語クラスに属するクエリ単語の集合と、前記クエリ単語の集合内の各クエリ単語に対して適合する文書(いずれかのクエリ単語を少なくとも1つ含み且つ当該クエリ単語の検索結果として適切な文書)である正解文書の集合とを格納している。   The correct document DB 1 is a word (hereinafter referred to as a query word) for searching a document that matches a query for various queries (hereinafter referred to as a query word), such as a specific expression such as a person name or a place name, a specific field, A set of query words belonging to one of the word classes representing a certain classification of words, such as a genre name indicating a purpose, and a document that matches each query word in the set of query words (any one And a set of correct documents that are at least one query word and are appropriate documents as a search result of the query word.

不正解文書DB2は、前記一の単語クラスに属するクエリ単語の集合と、当該集合内の各クエリ単語に対して適合しない文書(いずれかのクエリ単語を少なくとも1つ含むが、当該クエリ単語の検索結果としては不適切な文書)である不正解文書の集合とを格納している。   The incorrect answer document DB 2 includes a set of query words belonging to the one word class and a document that does not match each query word in the set (including at least one of the query words. As a result, it stores a set of incorrect documents that are inappropriate documents).

なお、前述した正解文書及び不正解文書は、任意の大規模テキストコーパスに含まれる文書から、予め手作業でその適合・不適合を判定することにより取得するものとする。また、前述した不正解文書の代わりに、正解文書以外の文書を不正解文書として不正解文書DB2に格納しても良い。   Note that the correct answer document and the incorrect answer document described above are acquired by manually determining in advance whether the document is included in an arbitrary large-scale text corpus. Further, instead of the above-mentioned incorrect answer document, a document other than the correct answer document may be stored in the incorrect answer document DB 2 as an incorrect answer document.

検索対象文書DB3は、検索対象文書の集合を格納している。   The search target document DB 3 stores a set of search target documents.

形態素解析部4は、入力された文書を形態素(単語)に分割し、各単語に表記、読み、品詞等の単語情報を付与して単語情報付の単語列(以下、単に単語列と呼ぶ。)を出力する。   The morpheme analysis unit 4 divides the input document into morphemes (words), and gives word information such as notation, reading, part of speech, etc. to each word, and a word string with word information (hereinafter simply referred to as a word string). ) Is output.

単語クラス同定部5は、入力された単語列中の各単語についてその単語クラスを、予め用意された単語クラスの集合、ここでは各クエリ単語が属する単語クラスの集合の中から判別(同定)し、当該単語クラスを表す識別子を付与して出力する。なお、具体的な単語クラス同定の手法としては、周知の固有表現抽出に用いられている、予めデータから学習した統計的モデルに基づく手法(例えば、特許第4005477号公報(特願2002−317435)参照)を用いることができる。   The word class identification unit 5 discriminates (identifies) the word class of each word in the input word string from a set of prepared word classes, here, a set of word classes to which each query word belongs. , An identifier representing the word class is assigned and output. As a specific word class identification method, a method based on a statistical model previously learned from data, which is used for well-known specific expression extraction (for example, Japanese Patent No. 4005477 (Japanese Patent Application No. 2002-317435)). Reference) can be used.

クエリ単語検出部6は、正解文書集合DB1に格納されている各正解文書及び不正解文書集合DB2に格納されている各不正解文書から、正解文書集合DB1及び不正解文書集合DB2に格納されているクエリ単語と合致する単語を検出する。   The query word detection unit 6 stores the correct answer document stored in the correct answer document set DB1 and the incorrect answer document stored in the incorrect answer document set DB2 and stored in the correct answer document set DB1 and the incorrect answer document set DB2. Find the words that match the query words you have.

近傍語頻度計測部7は、正解文書集合DB1に格納されている各正解文書及び不正解文書集合DB2に格納されている各不正解文書において、クエリ単語検出部6で検出された前記各文書内のクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度を当該任意の単語毎に計測する。   The neighborhood word frequency measurement unit 7 is configured to determine whether each of the correct documents stored in the correct document set DB1 and the incorrect answer documents stored in the incorrect answer document set DB2 includes each document The frequency of appearance of an arbitrary word that appears in the vicinity of a word that matches the query word is measured for each arbitrary word.

近傍語重要度計算部8は、近傍語頻度計測部7で計測された、正解文書におけるクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度及び不正解文書におけるクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度から、クエリ単語の属する前記一の単語クラスにおける前記任意の単語の重要度を当該任意の単語毎に計算する。   The neighborhood word importance calculation unit 8 matches the appearance frequency of an arbitrary word appearing in the vicinity of a word that matches the query word in the correct document and the query word in the incorrect answer document measured by the neighborhood word frequency measurement unit 7. The importance of the arbitrary word in the one word class to which the query word belongs is calculated for each arbitrary word from the appearance frequency of the arbitrary word appearing in the vicinity of the word.

近傍語重要度テーブル9は、近傍語頻度計測部7で計測された正解文書におけるクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度及び近傍語頻度計測部7で計測された不正解文書におけるクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度を格納するとともに、近傍語重要度計算部8で計算されたクエリ単語の属する前記一の単語クラスにおける前記任意の単語の重要度を格納する。   The neighborhood word importance level table 9 includes the appearance frequency of an arbitrary word that appears in the vicinity of a word that matches the query word in the correct word measured by the neighborhood word frequency measurement unit 7 and the error measured by the neighborhood word frequency measurement unit 7. Stores the appearance frequency of an arbitrary word that appears in the vicinity of a word that matches the query word in the correct answer document, and also stores the arbitrary word in the one word class to which the query word calculated by the neighborhood word importance calculation unit 8 belongs. Stores the importance of.

インデックス生成部10は、検索対象文書DB3に格納されている検索対象文書から前記一の単語クラスに属する単語をその近傍の単語とともに抽出し、近傍語重要度計算部8で計算されたクエリ単語の属する前記一の単語クラスにおける前記任意の単語の重要度のうち、前記近傍の単語と一致する前記任意の単語の重要度を用いて前記一の単語クラスに属する単語に対する当該検索対象文書のスコアを計算し、これを各検索対象文書中に含まれる全ての前記一の単語クラスに属する単語について繰り返し、各検索対象文書と前記一の単語クラスに属する各単語との組み合わせに対応するスコアを要素とするインデックスを生成する。   The index generation unit 10 extracts the words belonging to the one word class from the search target document stored in the search target document DB 3 together with the words in the vicinity thereof, and calculates the query word calculated by the neighborhood word importance calculation unit 8. Of the importance of the arbitrary word in the one word class to which it belongs, the score of the search target document for the word belonging to the one word class is calculated using the importance of the arbitrary word that matches the neighboring word. Calculating, repeating this for all the words belonging to the one word class included in each search target document, and taking the score corresponding to the combination of each search target document and each word belonging to the one word class as an element Generate an index to

図2乃至図4は本発明のインデックス作成処理の概要、ここではクエリが人名クラスに属するインスタンス(クエリ単語)の場合の処理の概要を示すものである。   2 to 4 show an overview of index creation processing according to the present invention, and here, an overview of processing when a query is an instance (query word) belonging to a personal name class.

即ち、まず、様々なクエリ単語Qi(i=1,2,…)(人名)を含む文書のうち、ランキング上位が望ましい正解文書Aの集合及びランキング上位にしたくない不正解文書Bの集合をクエリ単語Qi毎に用意し、文書中で一のクエリ単語Qiの近傍に出現する任意の単語W1,W2,…Wnの出現頻度を正解文書A及び不正解文書Bについてカウントし、これを各クエリ単語Qiについて同様に繰り返し、さらにこの出現頻度を任意の単語W1,W2,…Wn毎に加算し、人名クラスに属する単語に対する単語W1,W2,…Wnの重要度を学習(計算)する(Step1)。   That is, first, among documents including various query words Qi (i = 1, 2,...) (Person names), a query is performed for a set of correct documents A that are preferably ranked higher and a set of incorrect documents B that are not desired to be ranked higher. Prepared for each word Qi, and the occurrence frequency of arbitrary words W1, W2,... Wn appearing in the vicinity of one query word Qi in the document is counted for the correct document A and the incorrect document B, and this is counted for each query word. Repeat similarly for Qi, and further add this appearance frequency for each arbitrary word W1, W2,... Wn to learn (calculate) the importance of words W1, W2,... Wn with respect to words belonging to the personal name class (Step 1). .

次に、検索対象文書から人名クラスに属する単語P1,P2,…Pmをその近傍の単語とともに抽出し、当該近傍の単語と一致する前記学習した単語W1,W2,…Wnの重要度に基づいて単語P1,P2,…Pmに対する検索対象文書のスコアを計算し、これを各検索対象文書D1,D2,…Doについて繰り返して人名文書行列(インデックス)を生成する(Step2)。   Next, the words P1, P2,... Pm belonging to the personal name class are extracted from the search target document together with the neighboring words, and based on the importance of the learned words W1, W2,. The score of the search target document for the words P1, P2,... Pm is calculated, and this is repeated for each search target document D1, D2,... Do to generate a personal name document matrix (index) (Step 2).

以上の処理はオフラインにて事前に行われ、オンラインで実行される任意の検索エンジンに対するクエリが人名クラスのインスタンスである場合に、前記人名文書行列中のそのインスタンスのスコアを検索ランキングに反映させることができる。特に、(1)クエリに対する近傍の単語の情報を用いるので、リンク情報が少ない文書集合に対しても有効である。(2)必要とするのは近傍の単語のみなので、内容量が少ない文書でも有効である。   The above processing is performed offline in advance, and when a query to an arbitrary search engine executed online is an instance of a person name class, the score of that instance in the person name document matrix is reflected in the search ranking. Can do. In particular, since (1) information of words in the vicinity of the query is used, it is effective even for a document set with little link information. (2) Since only a nearby word is required, it is effective even for a document with a small content.

以下、前述した各部における処理の詳細について例を挙げて説明する。   Hereinafter, the details of the processing in each unit described above will be described with examples.

[クエリ単語検出部6]
クエリ単語検出部6は、正解文書DB1に格納されている各正解文書に対して、同じく正解文書DB1に格納されているクエリ単語に合致する単語の当該文書内での出現位置を検出し、また、不正解文書DB2に格納されている各不正解文書に対して、同じく不正解文書DB2に格納されているクエリ単語に合致する単語の当該文書内での出現位置を検出する。
[Query word detection unit 6]
The query word detection unit 6 detects, for each correct document stored in the correct document DB1, the appearance position of a word that matches the query word stored in the correct document DB1 in the document. For each incorrect answer document stored in the incorrect answer document DB 2, the appearance position of the word that matches the query word also stored in the incorrect answer document DB 2 is detected.

この際、クエリ単語に合致する単語の検出には、形態素解析部4及び単語クラス同定部5を用いる。例えば、正解文書DB1または不正解文書DB2に格納されているクエリ単語が人名クラスに属するという情報が予め与えられている場合、クエリ単語検出部3は、正解文書DB1に格納されている正解文書または不正解文書DB2に格納されている不正解文書の各単語の単語クラスを形態素解析部4及び単語クラス同定部5を用いて同定させ、前記正解文書または不正解文書中より人名クラスの識別子が付与された単語(人名インスタンス)を抽出し、該抽出された人名インスタンスの集合の中から当該クエリ単語に合致する単語の当該文書内での出現位置を検出する。   At this time, the morphological analysis unit 4 and the word class identification unit 5 are used to detect a word that matches the query word. For example, when the information that the query word stored in the correct document DB1 or the incorrect document DB2 belongs to the personal name class is given in advance, the query word detection unit 3 selects the correct document stored in the correct document DB1 or The word class of each word of the incorrect document stored in the incorrect document DB 2 is identified using the morphological analysis unit 4 and the word class identification unit 5, and an identifier of the personal name class is given from the correct document or the incorrect document. The extracted word (person name instance) is extracted, and the appearance position in the document of the word that matches the query word is detected from the set of the extracted person name instances.

図5は単語クラス同定部5における学習モデルの一例を示すもので、ここでは連続する2つの形態素の出現頻度を格納した例を示している。   FIG. 5 shows an example of a learning model in the word class identification unit 5, and here shows an example in which the appearance frequencies of two consecutive morphemes are stored.

また、図6は文書に対して形態素解析及び単語クラス同定を行った後の単語列の一例を示すもので、ここでは「横須賀銀行頭取の長谷川さんってほんとにいい人かもね」という文書に対して形態素解析を行って各単語に表記、読み、品詞を付与し、さらに単語クラス同定(但し、ここでは狭義の単語クラス同定としての固有表現抽出)を行って識別子(ここでは固有表現タグ)を付与した例を示している。この際、クエリ単語が人名クラスに属するという情報が与えられていると、固有表現タグが人名クラス(<PSN>)の単語「長谷川」が抽出される。   FIG. 6 shows an example of a word string after performing morphological analysis and word class identification on the document. Here, for the document “Mr. Hasegawa, Yokosuka Bank President, is really a good person”. Perform morphological analysis to add notation, reading, and part of speech to each word, and further perform word class identification (here, specific expression extraction as word class identification in a narrow sense) to identify an identifier (here, a specific expression tag) An example is given. At this time, if the information that the query word belongs to the personal name class is given, the word “Hasegawa” whose personal expression tag is the personal name class (<PSN>) is extracted.

なお、クエリ単語に合致する単語の検出には、単純に文字列での照合を利用するなどの方法を取っても良く、必ずしも形態素解析部4及び単語クラス同定部5を用いることを必要としない。   It should be noted that detection of a word that matches the query word may take a method such as simply using collation with a character string, and it is not always necessary to use the morpheme analysis unit 4 and the word class identification unit 5. .

[近傍語頻度計測部7]
近傍語頻度計測部7は、正解DB1に格納されている各正解文書において、クエリ単語検出部6で検出された各正解文書内のクエリ単語と合致する単語の当該文書内での出現位置の近傍に出現する、正確には当該出現位置からその前後の予め近傍と定義されたウインドウサイズ内に出現する任意の単語(例えば、近傍と定義されたウインドウサイズが5の場合は、クエリ単語と合致する単語の前後5個の任意の単語)の出現頻度を当該任意の単語毎にカウントし、また、不正解文書DB2に格納されている各不正解文書において、クエリ単語検出部6で検出された各不正解文書内のクエリ単語と合致する単語の当該文書内での出現位置の前記同様の近傍に出現する任意の単語の出現頻度を当該任意の単語毎にカウントし、これらを正解文書における前記任意の単語の総数及び不正解文書における前記任意の単語の総数とともに近傍語重要度テーブル9に格納する。
[Neighboring word frequency measurement unit 7]
The neighborhood word frequency measurement unit 7 is a neighborhood of the appearance position in the document of the word that matches the query word in each correct document detected by the query word detection unit 6 in each correct document stored in the correct answer DB 1. Any word that appears in a window size defined as a pre-neighbor before and after the appearance position, for example (if the window size defined as a neighborhood is 5, for example, matches the query word) Occurrence frequency of 5 arbitrary words before and after the word) is counted for each arbitrary word, and each incorrect word stored in the incorrect word document DB 2 is detected by the query word detection unit 6. The frequency of occurrence of any word that appears in the same vicinity of the appearance position of the word that matches the query word in the incorrect document in the document is counted for each arbitrary word, and these are converted into the correct document. And stores in the vicinity word importance table 9 with kicking the total number of said any word in the arbitrary total number of words and incorrect document.

なお、出現頻度をカウントする単語は形態素解析部4が付与した品詞等の情報を用いて取捨選択、例えば品詞が助詞や助動詞等の機能語に相当する単語は除外するようにしても良い。また、この際、形態素解析部4を用いない場合、予め重要度を計算したい単語の集合を格納したリストを用意しておき、文字列照合で検出したクエリ単語に合致する単語の近傍に当該リストに格納された単語が含まれているかを文字列照合で調べることにより、前記同様に品詞が助詞や助動詞等の機能語に相当する単語は除外するようにしても良い。   It should be noted that the words for which the appearance frequency is counted are selected using information such as part of speech provided by the morphological analysis unit 4, for example, words whose part of speech corresponds to a functional word such as a particle or auxiliary verb may be excluded. At this time, if the morphological analysis unit 4 is not used, a list storing a set of words whose importance is to be calculated is prepared in advance, and the list is placed near a word that matches the query word detected by the character string matching. In the same manner as described above, words corresponding to function words such as particles and auxiliary verbs may be excluded by checking whether the stored word is included by character string matching.

[近傍語重要度計算部8]
近傍語重要度計算部8は、近傍語頻度計測手段7で計測され近傍語重要度テーブル9に格納された、正解文書におけるクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度(正解近傍頻度)、不正解文書におけるクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度(不正解近傍頻度)、正解文書における前記任意の単語の総数(正解近傍単語総数)及び不正解文書における前記任意の単語の総数(不正解近傍単語総数)から、クエリ単語の属する前記一の単語クラスにおける前記任意の単語の重要度を当該任意の単語毎に計算し、近傍語重要度テーブル9に格納する。
[Neighboring word importance calculator 8]
The neighborhood word importance degree calculation unit 8 measures the appearance frequency of an arbitrary word appearing in the vicinity of a word that matches the query word in the correct document, which is measured by the neighborhood word frequency measuring means 7 and stored in the neighborhood word importance degree table 9 ( Correct neighborhood frequency), the appearance frequency of any word that appears in the vicinity of a word that matches the query word in the incorrect document (incorrect neighborhood frequency), the total number of the arbitrary word in the correct document (total number of correct neighborhood words) and The importance level of the arbitrary word in the one word class to which the query word belongs is calculated for each arbitrary word from the total number of arbitrary words in the correct answer document (total number of incorrect neighboring words), and the neighborhood word importance level table 9 is stored.

図7は近傍語重要度テーブルの一例を示すもので、任意の単語W1,W2,…Wnに対する正解近傍頻度、不正解近傍頻度、正解近傍単語総数、不正解近傍単語総数及び重要度が格納されている。   FIG. 7 shows an example of the neighborhood word importance degree table, in which correct answer frequencies, incorrect answer neighborhood frequencies, correct answer neighborhood words total number, incorrect answer neighborhood words total number, and importance levels for arbitrary words W1, W2,. ing.

ここで重要度、例えばCは、任意の単語W1,W2,…Wn毎に、正解近傍頻度(E)、不正解近傍頻度(F)、正解近傍単語総数(G)及び不正解近傍単語総数(H)から、
C=ln〔(E/G)/{(E+F)/(G+H)}〕 …(1)
によって求めることができる。なお、重要度は負の値をとっても良い。また、上記式(1)は一例であり、正解文書と不正解文書を比較した結果、正解文書において頻出する割合の高い単語が大きな値の重要度を持つことになる式であれば、これに限定するものではない。
Here, the importance, for example, C is the correct neighborhood frequency (E), incorrect answer neighborhood frequency (F), correct answer neighborhood word count (G), and incorrect answer neighborhood word count (for each arbitrary word W1, W2,. H)
C = ln [(E / G) / {(E + F) / (G + H)}] (1)
Can be obtained. Note that the importance may take a negative value. Also, the above formula (1) is an example, and as a result of comparing the correct answer document and the incorrect answer document, if the word that has a high ratio of frequent occurrence in the correct answer document has a large importance, It is not limited.

[インデックス生成部10]
インデックス生成部10は、検索対象文書DB3に格納されている検索対象文書から前記一の単語クラスに属する単語をその近傍の単語、正確には前記一の単語クラスに属する単語の位置からその前後の予め定義されたウインドウサイズ内に出現する単語(例えば、近傍と定義されたウインドウサイズが3の場合は、一の単語クラスに属する単語の前後3個の任意の単語)とともに抽出し、近傍語重要度計算部8で計算され、近傍語重要度テーブル9に格納されたクエリ単語の属する前記一の単語クラスにおける前記任意の単語の重要度のうち、前記近傍の単語と一致する前記任意の単語の重要度を用いて前記一の単語クラスに属する単語に対する当該検索対象文書のスコアを計算し、これを各検索対象文書中に含まれる全ての前記一の単語クラスに属する単語について繰り返し、各検索対象文書と前記一の単語クラスに属する各単語との組み合わせに対応するスコアを要素とするインデックスを生成する。
[Index generation unit 10]
The index generation unit 10 selects a word belonging to the one word class from a search target document stored in the search target document DB 3, and more precisely, a word in the vicinity thereof, more precisely, from a position of a word belonging to the one word class. Extracted with words that appear within a predefined window size (for example, if the window size defined as the neighborhood is 3, any three words before and after a word belonging to one word class) Of the importance of the arbitrary word in the one word class to which the query word belongs, which is calculated by the degree calculation unit 8 and stored in the neighborhood word importance table 9, of the arbitrary word that matches the neighboring word The score of the search target document for the words belonging to the one word class is calculated using the importance, and this is used for all the one words included in each search target document. Repeating the words belonging to the class, to generate an index to a score corresponding to the combination of each word belonging to said one word class of each search target document element.

この際、一の単語クラスに属する単語の抽出には、形態素解析部4及び単語クラス同定部5を用いる。即ち、インデックス生成部10は、検索対象文書DB3に格納されている検索対象文書の各単語の単語クラスを形態素解析部4及び単語クラス同定部5を用いて同定させ、前記検索対象文書中より前記一の単語クラスの識別子が付与された単語を抽出することにより行う。   At this time, the morphological analysis unit 4 and the word class identification unit 5 are used to extract words belonging to one word class. That is, the index generation unit 10 identifies the word class of each word of the search target document stored in the search target document DB 3 by using the morphological analysis unit 4 and the word class identification unit 5, and This is done by extracting words to which an identifier of one word class is assigned.

ここで、一の単語クラスに属する単語(クエリ単語)となり得るインスタンス(q)を含む文書(d)のスコア(S(d,q))は、各インスタンス(qi)の近傍語(Wj)の重要度(C(qi,Wj))の和に当該一の単語クラスのインスタンスの文書内頻度(TF(q))を重み付きで加え、
S(d,q)=αΣΣC(qi,Wj)+βTF(q) …(2)
として求めることができる。
Here, the score (S (d, q)) of the document (d) including the instance (q) that can be a word (query word) belonging to one word class is the neighborhood word (Wj) of each instance (qi). Add the in-document frequency (TF (q)) of the instance of the one word class with a weight to the sum of importance (C (qi, Wj)),
S (d, q) = αΣΣC (qi, Wj) + βTF (q) (2)
Can be obtained as

計算されたスコアは、前記一の単語クラスの各インスタンスと各検索対象文書との行列の要素として格納する。例えば、単語クラスが人名クラスの場合は、人名インスタンスと検索対象文書を軸とする人名文書行列を作成し、各要素には各検索対象文書に含まれる人名インスタンスのスコアを格納する。   The calculated score is stored as a matrix element between each instance of the one word class and each search target document. For example, when the word class is a personal name class, a personal name document matrix is created around the personal name instance and the search target document, and the score of the personal name instance included in each search target document is stored in each element.

図8はインデックスの一例、ここでは人名文書行列の一例を示すものである。検索対象文書D1からDoに対して、各々の文書に含まれる人名インスタンスとして人名P1から人名Pmのスコアを格納する。なお、ある検索対象文書にある人名インスタンスが存在しなければ、当該文書における当該人名インスタンスのスコアは0とする。   FIG. 8 shows an example of an index, here an example of a personal name document matrix. For the search target documents D1 to Do, the scores of the person names P1 to Pm are stored as person name instances included in the respective documents. If there is no personal name instance in a certain search target document, the score of the personal name instance in the document is 0.

図9はインデックス生成部10における詳細な処理の流れの一例を示すもので、検索対象文書には形態素解析及び固有表現抽出が適用され、単語列に固有表現のカテゴリを表す固有表現タグが付与されているものとする。   FIG. 9 shows an example of a detailed processing flow in the index generation unit 10, morphological analysis and specific expression extraction are applied to the search target document, and a specific expression tag representing a specific expression category is given to the word string. It shall be.

まず、ステップs1により検索対象文書の文頭にポインタをセットし、ステップs2、ステップs12、ステップs13でポインタが文末に達するまでポインタの指す単語を順次取得していく。   First, in step s1, a pointer is set at the head of the document to be searched, and in step s2, step s12, and step s13, the word pointed to by the pointer is sequentially acquired until the pointer reaches the end of the sentence.

ステップs3にて前記取得した単語が人名インスタンスPk(k=1,2,…m)を構成する単語かどうかを判定し、そうであれば、当該人名インスタンスPkが出現したことを反映させるため、ステップs4にて当該人名インスタンスPkに対する当該検索対象文書のスコアに1を加算する。なお、ステップs4は省略しても良い。   In step s3, it is determined whether or not the acquired word is a word constituting a personal name instance Pk (k = 1, 2,... M), and if so, to reflect that the personal name instance Pk has appeared, In step s4, 1 is added to the score of the search target document for the person name instance Pk. Note that step s4 may be omitted.

ステップs5からステップs11にて、当該人名インスタンスPkの前後N個の単語について、近傍語重要度計算部8で重要度が計算された任意の単語と一致する単語があれば、その重要度を当該人名インスタンスPkに対する当該検索対象文書のスコアに加算する。   In steps s5 to s11, for the N words before and after the personal name instance Pk, if there is a word that matches an arbitrary word whose importance is calculated by the neighborhood word importance calculator 8, the importance is assigned to the word It adds to the score of the said search object document with respect to person name instance Pk.

最後に、ステップs14にて検索対象文書中の全ての人名インスタンスP1〜Pmに対する当該検索対象文書のスコアを出力する。   Finally, in step s14, the score of the search target document is output for all the personal name instances P1 to Pm in the search target document.

図9に示す処理を行うことで検索対象文書における各人名インスタンスPmに対する当該文書のスコアを得ることができ、この結果、人名文書行列を得ることができる。   By performing the processing shown in FIG. 9, the score of the document for each personal name instance Pm in the search target document can be obtained, and as a result, a personal name document matrix can be obtained.

なお、前述した実施の形態において、正解文書DB1に他の単語クラスに属するクエリ単語の集合と当該集合内の各クエリ単語に対して適合する正解文書の集合を格納させ、不正解文書DB2に前記他の単語クラスに属するクエリ単語の集合と当該集合内の各クエリ単語に対して適合しない不正解文書の集合を格納させれば、各検索対象文書と前記他の単語クラスに属する各単語との組み合わせに対応するスコアを要素とするインデックスを生成できることはいうまでもない。   In the above-described embodiment, a set of query words belonging to another word class and a set of correct documents that match each query word in the set are stored in the correct document DB1, and the incorrect document DB2 stores the above-described correct answer document DB2. If a set of query words belonging to another word class and a set of incorrect documents that do not match each query word in the set are stored, each search target document and each word belonging to the other word class Needless to say, an index having a score corresponding to the combination as an element can be generated.

また、本発明は、周知のコンピュータに記録媒体もしくは通信回線を介して、図1の構成図に示された機能を実現するプログラムをインストールすることによっても実現可能である。   The present invention can also be realized by installing a program for realizing the functions shown in the configuration diagram of FIG. 1 via a recording medium or a communication line in a known computer.

本発明のインデックス作成装置の実施の形態の一例を示す構成図The block diagram which shows an example of embodiment of the index production apparatus of this invention 本発明のインデックス作成処理の概要を示す説明図Explanatory drawing which shows the outline | summary of the index creation process of this invention 図2中のStep1の詳細を示す説明図Explanatory drawing which shows the detail of Step1 in FIG. 図2中のStep2の詳細を示す説明図Explanatory drawing which shows the detail of Step2 in FIG. 単語クラス同定部における学習モデルの一例を示す説明図Explanatory drawing which shows an example of the learning model in a word class identification part 形態素解析及び単語クラス同定を行った後の単語列の一例を示す説明図Explanatory drawing which shows an example of the word string after performing morphological analysis and word class identification 近傍語重要度テーブルの一例を示す説明図Explanatory drawing which shows an example of a neighborhood word importance degree table インデックスの一例を示す説明図Explanatory drawing which shows an example of an index インデックス生成部の処理の流れの一例を示すフローチャートThe flowchart which shows an example of the flow of a process of an index production | generation part

符号の説明Explanation of symbols

1:正解文書データベース、2:不正解文書データベース、3:検索対象文書データベース、4:形態素解析部、5:単語クラス同定部、6:クエリ単語検出部、7:近傍語頻度計測部、8:近傍語重要度計算部、9:近傍語重要度テーブル、10:インデックス生成部。   1: correct document database, 2: incorrect document database, 3: search object document database, 4: morpheme analysis unit, 5: word class identification unit, 6: query word detection unit, 7: neighborhood word frequency measurement unit, 8: Neighborhood word importance calculator 9: Neighborhood word importance table 10: Index generator

Claims (5)

検索対象文書の集合からクエリに適合する文書を検索し、適合順にランク付けするためのインデックスを作成する装置であって、
単語に関する何らかの分類を表す単語クラスのうちの一の単語クラスに属するクエリ単語の集合と当該集合内の各クエリ単語に対して適合する正解文書の集合とを格納する正解文書集合データベースと、
前記一の単語クラスに属するクエリ単語の集合と当該集合内の各クエリ単語に対して適合しない不正解文書の集合とを格納する不正解文書集合データベースと、
検索対象文書の集合を格納する検索対象文書データベースと、
正解文書集合データベースに格納されている各正解文書及び不正解文書集合データベースに格納されている各不正解文書から、正解文書集合データベース及び不正解文書集合データベースに格納されているクエリ単語と合致する単語を検出するクエリ単語検出手段と、
正解文書集合データベースに格納されている各正解文書及び不正解文書集合データベースに格納されている各不正解文書において、クエリ単語検出手段で検出された前記各文書内のクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度を当該任意の単語毎に計測する近傍語頻度計測手段と、
近傍語頻度計測手段で計測された、正解文書におけるクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度及び不正解文書におけるクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度から、クエリ単語の属する前記一の単語クラスにおける前記任意の単語の重要度を当該任意の単語毎に計算する近傍語重要度計算手段と、
検索対象文書データベースに格納されている検索対象文書から前記一の単語クラスに属する単語をその近傍の単語とともに抽出し、近傍語重要度計算手段で計算されたクエリ単語の属する前記一の単語クラスにおける前記任意の単語の重要度のうち、前記近傍の単語と一致する前記任意の単語の重要度を用いて前記一の単語クラスに属する単語に対する当該検索対象文書のスコアを計算し、これを各検索対象文書中に含まれる全ての前記一の単語クラスに属する単語について繰り返し、各検索対象文書と前記一の単語クラスに属する各単語との組み合わせに対応するスコアを要素とするインデックスを生成するインデックス生成手段とを有する
ことを特徴とするインデックス作成装置。
A device that searches a document that matches a query from a set of search target documents and creates an index for ranking in order of matching,
A correct document set database that stores a set of query words belonging to one of the word classes representing a certain class of words and a set of correct documents that match each query word in the set;
An incorrect answer document set database for storing a set of query words belonging to the one word class and an incorrect answer document set that does not match each query word in the set;
A search target document database for storing a set of search target documents;
A word that matches a query word stored in the correct document set database and the incorrect document set database from each correct document stored in the correct document set database and each incorrect document stored in the incorrect document set database Query word detection means for detecting
In each correct answer document stored in the correct answer document set database and each incorrect answer document stored in the incorrect answer document set database, the vicinity of a word that matches the query word in each document detected by the query word detecting means Near word frequency measuring means for measuring the frequency of appearance of any word appearing in each arbitrary word;
The frequency of occurrence of an arbitrary word that appears in the vicinity of a word that matches the query word in the correct answer document and the word that appears in the vicinity of the word that matches the query word in the incorrect answer document, measured by the neighborhood word frequency measuring means. From the appearance frequency, neighborhood word importance calculating means for calculating the importance of the arbitrary word in the one word class to which the query word belongs for each arbitrary word;
A word belonging to the one word class is extracted from the search target document stored in the search target document database together with words in the vicinity thereof, and the query word calculated by the neighborhood word importance calculating unit is included in the one word class to which the query word belongs. Of the importance levels of the arbitrary words, the score of the search target document for the words belonging to the one word class is calculated using the importance levels of the arbitrary words that match the neighboring words. Index generation that repeats for all the words belonging to the one word class included in the target document and generates an index having a score corresponding to a combination of each search target document and each word belonging to the one word class as an element Means for creating an index.
検索対象文書の集合からクエリに適合する文書を検索し、適合順にランク付けするためのインデックスを作成する方法であって、
単語に関する何らかの分類を表す単語クラスのうちの一の単語クラスに属するクエリ単語の集合と当該集合内の各クエリ単語に対して適合する正解文書の集合とを格納する正解文書集合データベースと、
前記一の単語クラスに属するクエリ単語の集合と当該集合内の各クエリ単語に対して適合しない不正解文書の集合とを格納する不正解文書集合データベースと、
検索対象文書の集合を格納する検索対象文書データベースとを用い、
クエリ単語検出手段が、正解文書集合データベースに格納されている各正解文書及び不正解文書集合データベースに格納されている各不正解文書から、正解文書集合データベース及び不正解文書集合データベースに格納されているクエリ単語と合致する単語を検出するステップと、
近傍語頻度計測手段が、正解文書集合データベースに格納されている各正解文書及び不正解文書集合データベースに格納されている各不正解文書において、クエリ単語検出ステップで検出された前記各文書内のクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度を当該任意の単語毎に計測するステップと、
近傍語重要度計算手段が、近傍語頻度計測ステップで計測された正解文書におけるクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度及び近傍語頻度計測ステップで計測された不正解文書におけるクエリ単語と合致する単語の近傍に出現する任意の単語の出現頻度から、クエリ単語の属する前記一の単語クラスにおける前記任意の単語の重要度を当該任意の単語毎に計算するステップと、
インデックス生成手段が、検索対象文書データベースに格納されている検索対象文書から前記一の単語クラスに属する単語をその近傍の単語とともに抽出し、近傍語重要度計算ステップで計算されたクエリ単語の属する前記一の単語クラスにおける前記任意の単語の重要度のうち、前記近傍の単語と一致する前記任意の単語の重要度を用いて前記一の単語クラスに属する単語に対する当該文書のスコアを計算し、これを各検索対象文書中に含まれる全ての前記一の単語クラスに属する単語について繰り返し、各検索対象文書と前記一の単語クラスに属する各単語との組み合わせに対応するスコアを要素とするインデックスを生成するステップとを含む
ことを特徴とするインデックス作成方法。
A method for searching documents that match a query from a set of search target documents and creating an index for ranking in the order of matching,
A correct document set database that stores a set of query words belonging to one of the word classes representing a certain class of words and a set of correct documents that match each query word in the set;
An incorrect answer document set database for storing a set of query words belonging to the one word class and an incorrect answer document set that does not match each query word in the set;
Using a search target document database that stores a set of search target documents,
The query word detecting means is stored in the correct document set database and the incorrect document set database from each correct document stored in the correct document set database and each incorrect document stored in the incorrect document set database. Detecting a word that matches the query word;
The query in each document detected by the query word detection step in each correct answer document stored in the correct answer document set database and each incorrect answer document stored in the incorrect answer document set database Measuring the appearance frequency of an arbitrary word appearing in the vicinity of a word that matches the word for each arbitrary word;
Incorrect document measured by the neighborhood word importance calculation means by the appearance frequency of an arbitrary word appearing in the vicinity of a word that matches the query word in the correct word document measured by the neighborhood word frequency measurement step and the neighborhood word frequency measurement step Calculating the importance of the arbitrary word in the one word class to which the query word belongs for each arbitrary word from the appearance frequency of the arbitrary word appearing in the vicinity of the word that matches the query word in
The index generation means extracts the words belonging to the one word class from the search target documents stored in the search target document database together with the words in the vicinity thereof, and the query words to which the query words calculated in the neighborhood word importance calculating step belong Calculating the score of the document for the words belonging to the one word class using the importance of the arbitrary word that matches the neighboring word among the importance of the arbitrary word in one word class, Is repeated for all the words belonging to the one word class included in each search target document, and an index having a score corresponding to a combination of each search target document and each word belonging to the one word class as an element is generated. And an indexing method comprising the steps of:
インデックス生成ステップは、
検索対象文書中の単語を文頭から文末まで順次取得するステップと、
前記取得した単語が一の単語クラスに属する単語かどうかを判定し、そうであれば当該取得した一の単語クラスに属する単語の前後N個の単語について、近傍語重要度計算ステップで重要度が計算された任意の単語と一致する単語があれば、その重要度を当該取得した一の単語クラスに属する単語に対する当該検索対象文書のスコアに加算するステップと、
検索対象文書から取得した一の単語クラスに属する全ての単語に対する当該検索対象文書のスコアを出力するステップとを含む
ことを特徴とする請求項2に記載のインデックス作成方法。
The index generation step
Sequentially acquiring words in the search target document from the beginning to the end of the sentence;
It is determined whether or not the acquired word belongs to one word class. If so, the importance level is calculated in the neighborhood word importance calculation step for N words before and after the acquired word belonging to the one word class. If there is a word that matches the calculated arbitrary word, adding the importance to the score of the search target document for the word belonging to the acquired one word class;
The index creation method according to claim 2, further comprising: outputting scores of the search target document for all words belonging to one word class acquired from the search target document.
コンピュータを、請求項1に記載のインデックス作成装置の各手段として機能させるためのプログラム。   The program for functioning a computer as each means of the index production apparatus of Claim 1. 請求項4に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。   The computer-readable recording medium which recorded the program of Claim 4.
JP2007332154A 2007-12-25 2007-12-25 Index creation device, its method, program, and recording medium Pending JP2009157458A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007332154A JP2009157458A (en) 2007-12-25 2007-12-25 Index creation device, its method, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007332154A JP2009157458A (en) 2007-12-25 2007-12-25 Index creation device, its method, program, and recording medium

Publications (1)

Publication Number Publication Date
JP2009157458A true JP2009157458A (en) 2009-07-16

Family

ID=40961451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007332154A Pending JP2009157458A (en) 2007-12-25 2007-12-25 Index creation device, its method, program, and recording medium

Country Status (1)

Country Link
JP (1) JP2009157458A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081626A (en) * 2009-10-07 2011-04-21 Kddi R & D Laboratories Inc Dictionary registering device, document label determination system, and dictionary registration program
JP2015125764A (en) * 2013-12-27 2015-07-06 富士通株式会社 Information collection program, information collection method, and information collection device
JP2015523659A (en) * 2012-06-13 2015-08-13 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited Multilingual mixed search method and system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011081626A (en) * 2009-10-07 2011-04-21 Kddi R & D Laboratories Inc Dictionary registering device, document label determination system, and dictionary registration program
JP2015523659A (en) * 2012-06-13 2015-08-13 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited Multilingual mixed search method and system
US9582570B2 (en) 2012-06-13 2017-02-28 Alibaba Group Holding Limited Multilingual mixed search method and system
JP2015125764A (en) * 2013-12-27 2015-07-06 富士通株式会社 Information collection program, information collection method, and information collection device

Similar Documents

Publication Publication Date Title
AU2019263758B2 (en) Systems and methods for generating a contextually and conversationally correct response to a query
Jung Semantic vector learning for natural language understanding
CN104636466B (en) Entity attribute extraction method and system for open webpage
JP5597255B2 (en) Ranking search results based on word weights
CN110807102B (en) Knowledge fusion method, apparatus, computer device and storage medium
US20120143895A1 (en) Query pattern generation for answers coverage expansion
JP2009193219A (en) Indexing apparatus, method thereof, program, and recording medium
JPWO2014002776A1 (en) Synonym extraction system, method and recording medium
WO2021112984A1 (en) Feature and context based search result generation
CN111259262A (en) Information retrieval method, device, equipment and medium
Ranjan et al. Question answering system for factoid based question
CN111782892B (en) Similar character recognition method, device, apparatus and storage medium based on prefix tree
JPWO2014002774A1 (en) Synonym extraction system, method and recording medium
CN115422372A (en) Knowledge graph construction method and system based on software test
CN111104503A (en) Construction engineering quality acceptance standard question-answering system and construction method thereof
CN101369285B (en) Spell emendation method for query word in Chinese search engine
JP2009157458A (en) Index creation device, its method, program, and recording medium
Li et al. PRIS at Knowledge Base Population 2013.
Dickinson et al. Building a Korean web corpus for analyzing learner language
CN110909532B (en) User name matching method and device, computer equipment and storage medium
Morstatter et al. Text, topics, and turkers: A consensus measure for statistical topics
Lin et al. IndiTag: An Online Media Bias Analysis and Annotation System Using Fine-Grained Bias Indicators
CN113722421A (en) Contract auditing method and system and computer readable storage medium
Wilcox et al. A New Semantic Similarity Scheme for more Accurate Identification in Medical Data
Sīle et al. level matching of Web of Science to a local database in a comparative context