JP2004192546A - Information retrieval method, device, program, and recording medium - Google Patents

Information retrieval method, device, program, and recording medium Download PDF

Info

Publication number
JP2004192546A
JP2004192546A JP2002362603A JP2002362603A JP2004192546A JP 2004192546 A JP2004192546 A JP 2004192546A JP 2002362603 A JP2002362603 A JP 2002362603A JP 2002362603 A JP2002362603 A JP 2002362603A JP 2004192546 A JP2004192546 A JP 2004192546A
Authority
JP
Japan
Prior art keywords
index
list
search
word
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002362603A
Other languages
Japanese (ja)
Inventor
Masanori Harada
昌紀 原田
Original Assignee
Nippon Telegr & Teleph Corp <Ntt>
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegr & Teleph Corp <Ntt>, 日本電信電話株式会社 filed Critical Nippon Telegr & Teleph Corp <Ntt>
Priority to JP2002362603A priority Critical patent/JP2004192546A/en
Publication of JP2004192546A publication Critical patent/JP2004192546A/en
Application status is Pending legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To perform ranking retrieval targeting a large-scale document set at high speed and low costs.
SOLUTION: A retrieval processing part 7 inputs an appearance location list of an index word from a high-frequency word transposition index 4 in which a list of index words and appearance locations of documents of which the frequencies of the index word are equal to or more than a threshold F is stored when a search word is constituted of only one index word, inputs the appearance location list of the respective index words from the high-frequency word transposition index 4 when the retrieval word is a line of a plurality of index words, calculates a list of locations where all the index words adjacently appear, transfers the list to an adaptation calculation part 6 and receives an adaptation document list. When the obtained adaptation document list refers to T or more documents required for display of retrieval results and when documents with top T-th adaptation have adaptation larger than the maximum adaptation which can be taken by low-frequency documents not to be stored in the high-frequency word transposition index 4, they are outputted.
COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】 [0001]
【発明の属する技術分野】 BACKGROUND OF THE INVENTION
本発明は、検索対象となる文書集合を索引づけし、利用者の入力した検索条件に適合する文書を検索する情報検索方法および装置に関する。 The present invention indexed to the document set to be searched, to search for information retrieval method and apparatus compatible document input search criteria of the user.
【0002】 [0002]
【従来の技術】 BACKGROUND OF THE INVENTION
情報検索装置は、文書集合の中から、利用者によって与えられた検索質問に適合する文書を検索し、それらを利用者に提示する装置である。 Information retrieval device, from the document set, and searches the documents matching the search query provided by the user is a device that presents them to the user. そこで、今日の情報検索装置の多くは、単に検索語を含む文書を列挙するのではなく、それぞれの文書の検索質問に対する適合度を計算し、高い適合度を得た文書のみを適合度の降順に提示する。 Therefore, many of today's information retrieval device, instead of simply enumerating documents containing the search term, the fit to the search question each document calculated, descending only fit document to obtain a high adaptability presented to the. これをランキング検索と呼ぶ。 This is referred to as ranking search.
【0003】 [0003]
適合度の計算には索引語の重みという考え方が用いられる(非特許文献3、非特許文献4)。 The calculation of the fitness concept weights index word is used (non-patent documents 3 and 4). ここで索引語とは、文書の内容を特徴づける語のことであるが、今日の全文検索装置では、基本的に文書中のすべての語を索引語とみなす。 Here, the index term, but that word characterizing the contents of the document, full-text search apparatus today is considered a and index words all words essentially in the document. 日本語などのアジア圏の言語では語の区切りが明確ではないため、形態素あるいは文字Nグラムを索引語とするのが一般的である。 Since word of the break in the language of Asia, such as Japanese is not clear, it is common to a morphological or character N-gram and index words. 索引語の重みとは、索引語が文書の内容を表わす上でどれだけの重要度を持っているかを示す数値であり、一般に索引語w iの文書D jにおける重みd i,jは、局所的重みl i,j 、大域的重みg i 、文書正規化係数n jという3つの指標から、式(1)のように特徴づけられる(非特許文献3)。 The weight of the index word, a numerical value indicating whether the index word has how much importance in terms of representing the content of a document, the weight of the document D j of general index term w i d i, j is the local weights l i, j, the global weights g i, three indication that document a normalization factor n j, characterized by the equation (1) (non-Patent document 3).
【0004】 [0004]
【数1】 [Number 1]
【0005】 [0005]
たとえば、もっとも基本的な重み付け方法として知られるTF・IDF法では、局所的重みl i,jとして文書内での索引語の出現回数である索引語頻度(TF:term frequency)を、大域的重みg iとして索引語が出現する文書の割合の逆数(IDF:inverse document frequency)を用いている。 For example, most in the TF · IDF method known as basic weighting methods, local weight l i, the index word frequency is the number of occurrences of index words in a document in the j: the (TF term frequency), the global weight the reciprocal of the ratio of the document index word appears as g i: are used (IDF inverse document frequency). また、文書正規化係数n jとしては文書サイズ(索引語頻度の総和)を用いるのがもっとも単純な方法である。 As the document normalization factor n j is the simplest way to use the document size (sum of index words frequency). すなわち、TF・IDF法による索引語の重みd i,jは式(2)のようになる。 That is, the weights d i, j of the index words by TF · IDF method is as Equation (2).
【0006】 [0006]
【数2】 [Number 2]
【0007】 [0007]
また、TF・IDF法以外の方法でも、l i,jは索引語頻度から、g iは文書頻度から、n jは文書サイズから求めるものが多い。 In addition, even by a method other than the TF · IDF method, l i, j from the index word frequency, g i from the document frequency, n j is in many cases determined from the document size.
【0008】 [0008]
多数の文書を対象とする情報検索装置は、検索処理を高速におこなうために、索引語と、それらの出現位置の情報を、索引と呼ばれる一種のデータベースにあらかじめ格納しておく。 Numerous document information retrieval device intended for, in order to perform a search processing at high speed, and an index word, information for those appearance position, advance stored in one database called index. これを索引検索方式という(非特許文献3、非特許文献4)。 This is called index search system (non-patent documents 3 and 4). 索引検索の代表的な実現方式として転置索引がある(非特許文献3、非特許文献4)。 There is an inverted index as a typical implementation method of index search (Non-Patent Document 3, Non-Patent Document 4). 転置索引とは索引語を辞書順に列挙し、それらをキーとして、索引語の出現位置リストを参照できるように構成されたデータベースである(図5)。 And the inverted index enumerates index words in dictionary order, them as a key, a database that is configured to refer to the appearance position list of index terms (Figure 5). 転置索引方式では、位置情報として文書番号だけでなく文書内での位置まで格納しておくことで、複数の索引語の並びから構成される検索語の出現位置を文書自体を参照することなしに求めることができる。 The inverted index method, by storing to a position in the document as well article as position information, without reference to the document itself the search word occurrence position of composed of a sequence of a plurality of index words it can be determined. また、検索語の各文書での出現回数や、検索語が出現する文書数、検索語の総出現回数など、適合度の計算に必要な基本的なパラメータも同時に求められるため、転置索引はランキング検索に適した索引検索方式といえる。 Further, and the number of occurrences of each document in the search term, the document number of the search term appears, such as the total number of occurrences of search terms, because it is determined at the same time the basic parameters required for the calculation of the goodness of fit, the inverted index ranking it can be said that the index search method suitable for the search.
【0009】 [0009]
【非特許文献1】 Non-Patent Document 1]
Michael Persin, Justin Zobel, Ron Sacks-Davis: "Filtered Document Retrieval with Frequency-Sorted Indexes", Journal of the American Society of Information Science, Vol.47, No.10, pp. 749-764, 1996. Michael Persin, Justin Zobel, Ron Sacks-Davis:. "Filtered Document Retrieval with Frequency-Sorted Indexes", Journal of the American Society of Information Science, Vol.47, No.10, pp 749-764, 1996.
【非特許文献2】 Non-Patent Document 2]
速水賢史、竹野浩、永瀬智哉、藤本典幸、萩原兼一「スケーラビリティのあるWWW並列全文検索システム構築法の提案と評価」、情報処理学会データベース研究会研究報告、Vol. Kenji Hayami, Hiroshi Takeno, Nagase Tomoya, Noriyuki Fujimoto, "Proposal and Evaluation of WWW parallel full-text search system construction method that is scalable," Kenichi Hagiwara, Information Processing Society of Japan database Study Group research report, Vol. 123、No. 123, No. 7、pp. 7, pp. 45−52、2001。 45-52,2001.
【非特許文献3】 Non-Patent Document 3]
北研二、津田和彦、獅子堀正幹「情報検索アルゴリズム」、共立出版、2002。 KitaKenji, Kazuhiko Tsuda, lion Masamiki Hori "information retrieval algorithm", Kyoritsu Shuppan, 2002.
【非特許文献4】 Non-Patent Document 4]
徳永健伸「情報検索と言語処理」、東京大学出版会、1999。 Tokunaga KenShin "information retrieval and language processing", University of Tokyo Press, 1999.
【0010】 [0010]
【発明が解決しようとする課題】 [Problems that the Invention is to Solve
転置索引を採用した情報検索装置の場合、ランキング検索の処理時間の大部分は、出現位置リストを転置索引から主記憶上に読み出す処理と、検索結果となる文書の適合度を計算する処理によって占められる。 For adopted information retrieval apparatus inverted index, most of the processing time of ranking search occupies repeats reading of occurrence position list from the inverted index into the main memory, the process of calculating the fitness of a document to be retrieved results It is. そのため、ランキング検索には、検索質問に含まれる検索語の出現回数の総和におおむね比例する時間が必要になる。 For this reason, the ranking search, it is necessary to time to be approximately proportional to the sum of the number of occurrences of the search terms that are included in the search query.
【0011】 [0011]
一般に、語句の出現回数は、検索対象となる文書集合中のテキストの量に比例して大きくなる。 In general, the number of occurrences of the phrase, increases in proportion to the amount of text in the document set in to be searched. したがって、WWWサーチエンジンのような大規模な情報検索システムでは、従来の転置索引では検索処理に非常に時間がかかる場合がある。 Thus, in a large information retrieval systems, such as the WWW search engine, the conventional inverted index may take too long to search process. この問題に対処するために、文書集合を分割し、それぞれの部分文書集合を複数の計算機システムによって並列に検索し、それらの検索結果を併合するという並列検索方式が用いられることがある(非特許文献2)。 To address this problem, split the document set, the respective partial document set retrieved in parallel by a plurality of computer systems, parallel search scheme that merge their results is sometimes used (Non-patent Document 2). しかし、多くのハードウェアが必要となるため、システムの導入や維持に要するコストが大きい。 However, since many hardware is required, a large cost for installation and maintenance of the system.
【0012】 [0012]
本発明の目的は、大規模な文書集合を対象としたランキング検索を高速、かつ低コストにおこなうことのできる情報検索方法、装置、プログラムおよび記録媒体を提供することにある。 An object of the present invention is to provide an information retrieval method that can be performed ranking search on a large document set fast, and low cost, apparatus, program and recording medium.
【0013】 [0013]
【課題を解決するための手段】 In order to solve the problems]
本発明の情報検索装置は索引作成手段と転置索引と高頻度語抽出手段と高頻度語転置索引と適合度計算手段と検索処理手段を有する。 Information retrieval apparatus of the present invention has a search processing means and adaptability calculation means and indexing means and the inverted index and the high frequency words extraction means and the high frequency words inverted index.
【0014】 [0014]
転置索引には索引作成手段によって、索引語と出現位置の組のリストが格納されている。 The inverted index indexing means, the list of pairs of appearance position and index words are stored. 高頻度語転置索引には高頻度語抽出手段によって、索引語頻度があらかじめ定められた閾値以上の索引語とその出現位置の組のリストが格納されている。 The high frequency words inverted index by frequent word extraction means, a list of pairs of index words frequently predetermined threshold or more index word and its occurrence position is stored. 検索処理手段は、利用者から検索語を受け取り、検索語が1つのみの索引語から構成される場合には高頻度語転置索引から該索引語の出現位置のリストを入力し、検索語が複数の索引語の並びである場合には、それぞれの索引語の出現位置のリストを高頻度語転置索引から入力し、すべての索引語が隣接して出現する位置のリストを求め、高頻度語転置索引から求められた出現位置のリストが、検索結果の表示に必要なT個以上(Tは1以上の整数)の文書を参照している場合には該出現位置のリストを適合度計算手段に渡して、適合文書リストを受け取り、適合度上位T番目の文書が、高頻度語転置索引には格納されない低頻度の文書がとり得る最大の適合度よりも大きい適合度を持つ場合は、それらを出力し、高頻度語転置索引からT個 Search processing means receives the search word from the user to enter a list of high frequency words inverted index to be composed of the appearance position of the index word search term from only one of the index words, the search term if a sequence of a plurality of index words, a list of appearance position of each index word inputted from the high frequency words inverted index, obtains a list of locations where all the index word appears adjacent, high-frequency words list of occurrence position obtained from the inverted index is a search display T or more necessary for the results (T is an integer of 1 or more) with reference to a list of the output current position in the case have adaptability calculation means documents to pass, receive relevant documents list, adaptability upper T-th document, if the high-frequency words inverted index with a higher fitness than the maximum goodness of fit document infrequent not stored may take, they It outputs a, T pieces from high-frequency words inverted index 上の文書を参照する出現位置のリストが得られなかった場合、あるいは適合度上位T個の文書が正しく検索されていない可能性がある場合には、転置索引を用いて検索語の出現位置のリストを求め、それを適合度計算手段に出力し、適合度計算手段から適合文書のリストを入力し、適合文書を、適合度の降順で上位最大T個出力する。 If the list of the appearance position of the documentation above is not obtained, or fitness when higher the T document might not correctly search the occurrence position of the search term by using the inverted index obtains a list, and outputs it to the adaptability calculation means, to enter a list of relevant documents from adaptability calculation means, the relevant documents, to the upper up to T output in descending order of relevance.
【0015】 [0015]
本発明の情報検索装置は、通常の転置索引に加えて、索引語頻度が大きい出現位置リストのみを格納した高頻度語転置索引をあらかじめ用意することで、検索質問が一つの検索語のみから構成されている場合には、比較的小さな高頻度語転置索引のみを使って適合度の高い文書を検索し、検索質問が複数の検索語から構成される場合には、従来の検索方法を用いる。 Information retrieval apparatus of the present invention, in addition to the usual inverted index, by previously preparing a high-frequency words inverted index that stores only index word frequency greater occurrence position list, a retrieval query is a search term only if it is, search high document of relevance with only a relatively small high frequency words inverted index, if the search query is composed of a plurality of search terms, using the conventional search method.
【0016】 [0016]
【発明の実施の形態】 DETAILED DESCRIPTION OF THE INVENTION
次に、本発明の実施の形態について図面を参照して説明する。 It will now be described with reference to the drawings, embodiments of the present invention.
【0017】 [0017]
図1を参照すると、本発明の一実施形態の情報検索装置は索引作成部1と転置索引2と高頻度語抽出部3と高頻度語転置索引4と検索受付部5と適合度計算部6と検索処理部7と文書集合データベース8と文書サイズデータベース9で構成されている。 Referring to FIG. 1, one embodiment of an information retrieval apparatus and indexing portion 1 and the inverted index 2 and the high frequency word extracting unit 3 and the high-frequency words inverted index 4 and search acceptance unit 5 adaptability calculation unit of the present invention 6 It is composed of a search processing unit 7 and the document set database 8 and the document size database 9 and.
【0018】 [0018]
索引作成部1は文書集合データベース8から検索対象となる文書を入力し、該文書を特徴づける索引語を抽出し、索引語と、それら出現位置のリストを転置索引2に格納する。 Indexing unit 1 inputs a document to be searched from the document set database 8, then extracted index word characterizing the said document, stores the index word, a list of those appearing positioned inverted index 2.
【0019】 [0019]
高頻度語抽出部3は、図2に示すように、索引語と出現位置の組を転置索引2から順次読出し(ステップ11)、索引語頻度があらかじめ決められた閾値以上になる文書に対応する出現位置を抽出し(ステップ12)、そのような文書の数が、検索結果の上位として表示される文書数T以上(Tは1以上の整数)の場合には、抽出された索引語と出現位置のリストを高頻度語転置索引4に格納する(ステップ13)。 Frequent word extraction unit 3, as shown in FIG. 2, sequentially reads a set of appearance position and index words from the inverted index 2 (step 11), index word frequency corresponding to the document to be more than the threshold value to a predetermined extract the appearance position (step 12), the number of such documents, the search results level document number T or more that is displayed as the (T is an integer of 1 or more) in the case of the emergence and extracted index terms stores a list of locations in the high-frequency words inverted index 4 (step 13).
【0020】 [0020]
検索受付部5は利用者から検索質問を受付け、検索処理部7に渡し、検索処理部7から適合文書リストを受け取り、文書集合データベース8から適合文書リスト内の文書番号に対応する文書の情報を読み出し、利用者に提示する。 Search receiving unit 5 accepts a search query from a user, passed to the search processing unit 7, receives the relevant documents list from the search processing unit 7, the information of the corresponding document in the document number in the relevant documents list from the document set database 8 reading, presented to the user.
【0021】 [0021]
適合度計算部6は、図3に示すように、検索処理部7から検索語の出現位置リストを受け取り(ステップ21)、文書サイズデータベース9から文書サイズを受け取り(ステップ22)、各文書における検索語の頻度と文書サイズから、TF・IDF法などの計算式にしたがって文書毎に適合度を計算し(ステップ23)、適合文書リストとして検索処理部7に出力する(ステップ24)。 Adaptability calculation unit 6, as shown in FIG. 3, receive occurrence position list of search terms from the search processing unit 7 (step 21), receives the document size from the document size database 9 (Step 22), the search for each document from the frequency and the document size of the word, to calculate the fitness for each document in accordance with equation such as TF · IDF method (step 23) to the search processing section 7 as relevant documents list (step 24). 検索質問が1つの検索語のみの場合(AND検索やOR検索でない、単なる1つの言葉の検索)、文書頻度(検索語が出現する文書の数)は定数とみなせるため、適合度の計算に用いなくてもよい。 Search query may only one search term (not AND search or OR search, search just one word), (the number of documents that the search term appears) document frequency is can be considered a constant, used to calculate the goodness of fit may or may not. すなわち、この場合「検索質問が文書とどれだけ適合するか」は「文書に含まれる索引語が文書をどれだけ強く特徴づけるか」と同じであると考えて、TF・IDF法のような文書中の索引語の重みを計算する式で適合度を計算する。 In other words, in this case, "or search questions will fit much and the document" is considered to be the same as "or index words included in the document characterize strongly characterized much of the document", documents, such as TF · IDF method calculating a goodness of fit by the formula for calculating the weight of the index word in. たとえば、"携帯電話"という検索語で検索し、TF・IDF法で適合度を計算する場合、 For example, search for the search term "mobile phone", when calculating the goodness of fit in the TF · IDF method,
ある文書と"携帯電話"の適合度=f i,j log(N/F i )/Σ ii,j Relevance of a document as "mobile phone" = f i, j log ( N / F i) / Σ i f i, j
ここで、f i,jはその文書内での"携帯電話"の出現回数、Nは文書の総数、F iは"携帯電話"が出現する文書数、Σ ii,jはその文書における索引語頻度の総和である。 Here, f i, j is the number of occurrences of "mobile phone" in the document, N is the total number of documents, F i is the number of documents in which "mobile phone" appears, Σ i f i, j is the document is the sum of the index word frequency.
"携帯電話"という語を一定回数以上含む文書すべてについて、この適合度を計算し比較することで、どの文書がよく適合するか("携帯電話"というトピックに強く関連した文書であるか)がわかる。 For all documents that contain "mobile phone" word a certain number of times or more that, the goodness-of-fit by the calculated comparison, (or is a document that is strongly associated with the topic of "mobile phone") which documents to better fit Recognize. Σ ii,jはある文書jでのすべての索引語の索引語頻度の総和であるので、要するに文書jの大きさである。 Since the sum of the index term frequency of all index terms in Σ i f i, j is a document j, it is the size of the short document j. これは転置索引2から計算することもできるが、それでは索引全体を読み込んで集計する必要があって非効率なので、文書サイズデータベース9のように別途用意しておく。 This can also be calculated from the inverted index 2, So since there must be aggregated load the entire index inefficient, set aside as the document size database 9.
【0022】 [0022]
図5の"検索"という語の場合、出現位置リストは(2,100),(2,121),(2,207),(3,24),(19,31)になる。 In the case of the word "search" in FIG. 5, the appearance position list (2,100), (2,121), (2,207), (3, 24), and (19, 31). つまり、"検索"という語は全体で5回出現しており、文書番号2の文書では3回、文書番号3の文書では1回、文書番号19の文書では1回出現していることがわかる。 In other words, the term "search" has appeared five times in total, three times in the document of the document ID NO: 2, 1 times in the document of the document number 3, in the document of the document number 19 it can be seen that emerged once .
【0023】 [0023]
このように出現位置リストから文書ごとの索引語頻度を求めつつ、前記説明したように(log(N/F i )の部分は定数とみなした上で)各文書の適合度を計算する。 While thus determined index words frequency for each document from the appearance position list, as described above explained (part of the log (N / F i) is in terms of was considered constant) calculating the fitness of each document.
【0024】 [0024]
検索処理部7は、図4に示すように、まず利用者から検索受付部5を介して渡される検索語を受け取り、高頻度語転置索引4を用いて、その検索語の出現位置リストを求める(ステップ31)。 Search processing unit 7, as shown in FIG. 4, receives a first search term that is passed through a search reception unit 5 from the user, using a high-frequency words inverted index 4, obtains the occurrence position list of search terms (step 31). すなわち、検索語が一つの索引語のみから構成される場合には、高頻度語転置索引4からその索引語の出現位置リストを入力し、検索語が複数の索引語の並びである場合には、それぞれの索引語の出現位置リストを高頻度語転置索引4から入力し、すべての索引語が隣接して出現する位置のリストを求める。 That is, when the search word is made up of only one of the index words, the high frequency words inverted index 4 enter the occurrence position list of index words, if the search word is a sequence of a plurality of index words the appearance position list of each index word inputted from the high frequency words inverted index 4, all index words determine the list of positions that appear adjacent. 次に、高頻度語転置索引4から求められた出現位置リストが、検索結果の表示に必要なT個以上の文書を参照している場合には、その出現位置リストを適合度計算部6に渡し、適合文書リストを受け取る(ステップ32,36,37)。 Next, the appearance position list obtained from the high-frequency words inverted index 4, search if the result of referencing the T or more documents required for display, the appearance position list adaptability calculation unit 6 passing, receiving the relevant documents list (step 32,36,37). そして、適合度上位T番目の文書が、高頻度語転置索引4には格納されない低頻度の文書がとり得る最大の適合度よりも大きい適合度を持つ場合は、適合度上位T個の文書が正しく検索されているので、それらを出力する(ステップ38,39)。 The adaptability upper T-th document, if it has a greater fitness than the maximum goodness of fit for high-frequency words inverted index 4 can be taken by the document of the low frequency with which not stored, the adaptability higher the T document because it is correctly searched, it outputs them (step 38, 39). たとえば、適合度の計算にTF・IDF法を用いた場合、適合度の降順でT番目の文書D Tの索引語頻度がF T 、文書サイズがS Tとすると、F T /S Tが(F−1)/S minより大きければ、転置索引2に格納された索引語頻度(F−1)以下の文書は適合度の上位T個に入らないことが保証される。 For example, when using the TF · IDF method for calculation of fitness, index word frequency F T of the T-th document D T in descending order of relevance, the document size and S T, the F T / S T ( larger than F-1) / S min, index words frequencies stored in the inverted index 2 (F-1) the following documents are guaranteed not enter the upper T-number of fitness. ここで、S minは文書集合中で最小の文書サイズである。 Here, S min is the minimum document size of the document set in. 高頻度語転置索引4からはT個以上の文書を参照する出現位置リストが得られなかった場合、あるいは適合度上位T個の文書が正しく検索されていない可能性がある場合には、通常の転置索引2を用いてランキング検索処理をおこなう。 If from the high-frequency words inverted index 4 which may if appearance position list that references T or more documents is not obtained or adaptability higher the T document is not properly search, normal It performs ranking search process using the inverted index 2. すなわち、転置索引2を用いて検索語の出現位置リストを求め(ステップ33)、それを適合度計算部6に出力し(ステップ34)、適合度計算部6から適合文書リストを入力し(ステップ35)、適合度の降順で上位最大T個を出力する(ステップ39)。 That is, using the inverted index 2 obtains the occurrence position list of search terms (step 33), and outputs it to the adaptability calculation section 6 (step 34), enter the relevant documents list from adaptability calculation section 6 (step 35), and it outputs the upper up to T in descending order of relevance (step 39).
【0025】 [0025]
一つ以上の検索語を用いた検索質問が与えられた場合や、適合度によるランキング検索をおこなわない場合には、通常の転置索引を使った従来通りの検索処理をおこなえばよい。 And if the search query using one or more search terms is given, if not performed ranking search by fit may be performed a search process of conventional using conventional inverted index. 本発明の方法は既存の情報検索装置に付加的に導入することが可能である。 The method of the present invention can additionally be introduced into the existing information retrieval device.
【0026】 [0026]
日本語の文書を索引づけする場合、索引語として形態素を用いる方法、Nグラムを用いる方法、両者を組み合わせた方法などがあるが、本発明の方法はいずれの場合にも適用可能である。 If you indexed documents Japanese, a method of using the morphemes as an index word, a method of using the N-gram, although there is a method that combines both methods of the present invention is applicable to all cases.
【0027】 [0027]
本発明の方法ではあらかじめ固定された閾値Fを用いているが、索引語ごとに異なった閾値を設定することもできる。 Although the method of the present invention uses a pre-fixed threshold F, it is also possible to set a different threshold for each index word. その場合、検索語フレーズに含まれる索引語の閾値のうち最大の値をF maxとすれば、F T /S Tが(F max −1)/S minより大きい場合に、高頻度語転置索引のみで検索できたと判断できる。 In that case, if the maximum value of the index word threshold included in the search phrases with F max, if F T / S T is greater than (F max -1) / S min , high-frequency words inverted index it can be determined that can be retrieved only.
【0028】 [0028]
本発明の方法は、TF・IDF法に限らず、索引語頻度と文書サイズを適合度計算の主要パラメータとして利用している多くの適合度計算法に適用可能である。 The method of the present invention is not limited to TF · IDF method is applicable to many adaptability calculation method utilizing index word frequency and document size as the main parameter for adaptability calculation. また、適合度の計算が厳密である必要がない場合には、高頻度語転置索引でT個以上の文書が検索された時点で、その上位T個を検索結果としてもよい。 When it is unnecessary to calculate the goodness of fit is exact is when T or more documents at a high frequency word inverted index is retrieved, the higher the T that may be search results.
【0029】 [0029]
高頻度語転置索引を別途作成するかわりに、転置索引に格納する出現位置リストを索引語頻度の降順に並べておくことで、出現位置リストの先頭部分を高頻度語転置索引とみなして本発明と同様の検索処理をおこなうこともできる(非特許文献1)。 Instead of separately creating a high frequency words inverted index, by keeping side by side appearance position list to be stored in an inverted index in descending order of the index word frequency, the present invention and a head portion of the occurrence position list regarded as high frequency words inverted index it is also possible to perform the same search process (non-patent Document 1). ただし、そのような構成の転置索引では、本発明の方法を用いない通常の検索処理の速度が遅くなる。 However, in the inverted index such configuration, the speed of the normal search process without using the method of the present invention is delayed.
【0030】 [0030]
本発明と類似した方法として、あらかじめすべての索引語でランキング検索をおこなっておき、適合文書リストの上位T個を保存しておく方法も考えられる(非特許文献2)。 As a method similar to the present invention, previously performed ranking search beforehand all index terms, it is conceivable a method to store the upper T-number of relevant documents list (Non-Patent Document 2). ただし、その方法では本発明の方法とは異なり、複数の索引語の並びであるフレーズを検索することができない。 However, unlike the method of the present invention is in that way, it is not possible to search for a phrase is a sequence of a plurality of index terms. 本発明の方法はこのような方法と併用することも可能である。 The method of the present invention can be used in combination with such a method.
【0031】 [0031]
なお、本発明は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。 In addition to the ones present invention which is realized by dedicated hardware, a program for realizing the function, may be recorded on a computer readable recording medium, the program recorded on this recording medium into a computer system read then, it may be the one to run. コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。 The computer-readable recording medium refers to a floppy disk, a magneto-optical disk, recording medium such as a CD-ROM, a storage device such as a hard disk device incorporated in a computer system. さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。 Further, the computer-readable recording medium, like a short period of time, to hold the dynamic program (transmission medium or transmission wave), and in that case the server when the program is transmitted via the Internet like a volatile memory inside a computer system, including those that holds the program for a certain time.
【0032】 [0032]
【発明の効果】 【Effect of the invention】
以上説明したように、本発明によれば、単一の検索語を検索する場合に、高頻度語索引のみを使って適合度の高い文書を検索するため、従来の検索方法と比べて、データベースから主記憶上に読み出すデータ量や、適合度の計算に必要となるCPU処理時間を大幅に減らすことが可能となり、検索処理が高速化される。 As described above, according to the present invention, when searching for a single search term, in order to find the high relevance document using only the high-frequency words index, compared with the conventional search methods, a database from the amount of data and to be read on the main memory, it is possible to greatly reduce the CPU processing time required for the calculation of the goodness of fit, the search process is faster. たとえば、WWWサーチエンジンでは検索質問の7割前後が単一の検索語のみから構成されているため、本発明による高速化の効果が大きいと期待される。 For example, around 70% of the search question in WWW search engines because it is composed of only a single search term, the effect of speeding up according to the invention is expected to be greater.
【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS
【図1】本発明の一実施形態の情報検索装置の構成を示すブロック図である。 1 is a block diagram showing a configuration of an information retrieval apparatus according to an embodiment of the present invention.
【図2】図1の情報検索装置の高頻度語抽出部の処理を示す流れ図である。 2 is a flow diagram that illustrates the processing of a high-frequency word extraction unit of the information retrieval apparatus of FIG.
【図3】図1の情報検索装置の適合度計算部の処理を示す流れ図である。 3 is a flow diagram showing the process of adaptability calculation unit of the information retrieval apparatus of FIG.
【図4】図1の情報検索装置の検索処理部の処理を示す流れ図である。 4 is a flow diagram that illustrates the processing of the search processor of the information retrieval system of FIG.
【図5】転置索引の一般的な構成を示す図である。 5 is a diagram showing a general configuration of an inverted index.
【符号の説明】 DESCRIPTION OF SYMBOLS
1 索引作成部2 転置索引3 高頻度語抽出部4 高頻度語転置索引5 検索受付部6 適合度計算部7 検索処理部8 文書データベース9 文書サイズデータベース11〜14,21〜24,31〜39 ステップ 1 indexing unit 2 inverted index 3 frequent word extraction section 4 high frequency words inverted index 5 search receiving unit 6 adaptability calculation unit 7 search processing unit 8 the document database 9 document size database 11~14,21~24,31~39 step

Claims (4)

  1. 検索対象の文書から索引語を抽出し、それらと、それらの出現位置の組のリストを転置索引に格納する索引作成ステップと、 Extracting index terms from the search of the document, and they, and the indexing step of storing a list of pairs of their appearance position in inverted index,
    前記転置索引から、索引語頻度があらかじめ定められた閾値以上になる索引語と出現位置の組のリストを抽出し、高頻度語転置索引に格納する高頻度語抽出ステップと、 From the inverted index, and extract a list of pairs of index words and appearance position index words frequently becomes equal to or greater than a predetermined threshold value, the high frequency words extraction step of storing the high frequency words inverted index,
    検索語の出現位置リストを受け取り、各文書における検索語の頻度と文書サイズから文書毎に適合度を計算し、適合文書リストとして出力する適合度計算ステップと、 Receive occurrence position list of search terms, the fitness for each document from the frequency and the document size of the search term in each document calculated, and adaptability calculation step of outputting as relevant documents list,
    利用者から検索語を受け取り、検索語が1つの索引語のみから構成される場合には前記高頻度語転置索引から該索引語の出現位置のリストを入力し、検索語が複数の索引語の並びである場合には、それぞれの索引語の出現位置のリストを前記高頻度語転置索引から入力し、すべての索引語が隣接して出現する位置のリストを求め、前記高頻度語転置索引から求められた出現位置のリストが、検索結果の表示に必要なT個(Tは1以上の整数)以上の文書を参照している場合には該出現位置のリストを前記適合度計算ステップに渡して、適合文書リストを受け取り、適合度上位T番目の文書が、前記高頻度語転置索引には格納されない低頻度の文書がとり得る最大の適合度よりも大きい適合度を持つ場合は、それらを出力し、前記高頻度語転置 Receiving a search term from a user, the search word in the case consists of only one index word enter a list of appearance position of the index word from the high frequency words inverted index, search terms of a plurality of index words if a sequence is a list of appearance position of each index word inputted from the high frequency words inverted index, it obtains a list of locations where all the index word appears adjacent, from the high-frequency words inverted index list of the obtained occurrence position, T number required to display the search results (T is an integer of 1 or more) pass a list of the output current position if you see more documents to the adaptability calculation step Te, receive relevant documents list, if the matching degree higher T th document, the high the frequency words inverted index with the maximum high adaptability than fit the document infrequent not stored may take is their and output, the high-frequency words transposed 引からT個以上の文書を参照する出現位置のリストが得られなかった場合、あるいは適合度上位T個の文書が正しく検索されていない可能性がある場合には、前記転置索引を用いて検索語の出現位置のリストを求め、それを前記適合度計算ステップに出力し、前記適合度計算ステップから適合文書のリストを入力し、適合文書を、適合度の降順で上位最大T個出力する検索処理ステップを有する情報検索方法。 If the list of appearance position referencing the pulled et T or more documents is not obtained, or if the matching degree higher the T document might not correctly search using the inverted index search obtains a list of the occurrence position of the word, and outputs it to the matching degree calculation step, to enter a list of relevant documents from the matching degree calculation step, the relevant documents, to the upper up to T output in descending order of relevance search information retrieval method comprising the process steps.
  2. 索引語と出現位置の組を格納する転置索引と、 And the inverted index to store a set of index words and the appearance position,
    検索対象の文書から索引語を抽出し、それら索引語と、それらの出現位置の組を前記転置索引に格納する索引作成手段と、 Extracting index terms from the search of the document, and their index word, and index creation means for storing a set of their occurrence position to the inverted index,
    高頻度の索引語とその出現位置の組のみを格納する高頻度語転置索引と、 Frequent index word and the high-frequency words inverted index that contains only the set of appearance position,
    前記転置索引から、索引語頻度があらかじめ定められた閾値以上になる索引語と出現位置の組のリストを抽出し、前記高頻度語索引に格納する高頻度語抽出手段と、 From the inverted index, the high frequency words extraction means index word frequency to extract a list of pairs of index words and the appearance position where the above predetermined threshold is stored in the high frequency words index,
    検索語の出現位置リストを受け取り、各文書における検索語の頻度と文書サイズから文書毎に適合度を計算し、適合文書リストとして出力する適合度計算手段と、 Receive occurrence position list of search terms, and adaptability calculation means for the fitness for each document from the frequency and the document size of the search term in each document is calculated and output as the relevant documents list,
    利用者から検索語を受け取り、検索語が1つの索引語のみから構成される場合には前記高頻度語転置索引から該索引語の出現位置のリストを入力し、検索語が複数の索引語の並びである場合には、それぞれの索引語の出現位置のリストを前記高頻度語転置索引から入力し、すべての索引語が隣接して出現する位置のリストを求め、前記高頻度語転置索引から求められた出現位置のリストが、検索結果の表示に必要なT個以上(Tは1以上の整数)の文書を参照している場合には該出現位置のリストを前記適合度計算手段に渡して、適合文書リストを受け取り、適合度上位T番目の文書が、前記高頻度語転置索引には格納されない低頻度の文書がとり得る最大の適合度よりも大きい適合度を持つ場合は、それらを出力し、前記高頻度語転置索引 Receiving a search term from a user, the search word in the case consists of only one index word enter a list of appearance position of the index word from the high frequency words inverted index, search terms of a plurality of index words if a sequence is a list of appearance position of each index word inputted from the high frequency words inverted index, it obtains a list of locations where all the index word appears adjacent, from the high-frequency words inverted index list of the obtained occurrence position, passes Serving T or more necessary for the results (T is an integer of 1 or more) to said adaptability calculation means a list of the output current position if that reference documentation Te, receive relevant documents list, if the matching degree higher T th document, the high the frequency words inverted index with the maximum high adaptability than fit the document infrequent not stored may take is their and output, the high-frequency words inverted index らT個以上の文書を参照する出現位置のリストが得られなかった場合、あるいは適合度上位T個の文書が正しく検索されていない可能性がある場合には、前記転置索引を用いて検索語の出現位置のリストを求め、それを前記適合度計算手段に出力し、前記適合度計算手段から適合文書のリストを入力し、適合文書を、適合度の降順で上位最大T個出力する検索処理手段を有する情報検索装置。 When there is a possibility that if the list of appearance position referencing Luo T or more documents is not obtained or adaptability higher the T document is not properly search, the search word using the inverted index obtains a list of the occurrence position, and outputs it to the adaptability calculation means, said fitness to enter a list of relevant documents from the calculation means, the relevant documents, the higher up to T output search process in descending order of relevance information retrieval apparatus having means.
  3. 請求項1記載の情報検索方法をコンピュータに実行させるための情報検索プログラム。 Information retrieval program for executing the information retrieval method according to claim 1, wherein the computer.
  4. 請求項3記載の情報検索プログラムを記録した、コンピュータ読み取り可能な記録媒体。 It was recorded claim 3, wherein the information search program, a computer readable recording medium.
JP2002362603A 2002-12-13 2002-12-13 Information retrieval method, device, program, and recording medium Pending JP2004192546A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002362603A JP2004192546A (en) 2002-12-13 2002-12-13 Information retrieval method, device, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002362603A JP2004192546A (en) 2002-12-13 2002-12-13 Information retrieval method, device, program, and recording medium

Publications (1)

Publication Number Publication Date
JP2004192546A true JP2004192546A (en) 2004-07-08

Family

ID=32761008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002362603A Pending JP2004192546A (en) 2002-12-13 2002-12-13 Information retrieval method, device, program, and recording medium

Country Status (1)

Country Link
JP (1) JP2004192546A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008065395A (en) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd Translation device, translation method and translation program
JP2009301511A (en) * 2008-06-17 2009-12-24 Ns Solutions Corp Index information preparing device, index information preparing method and program
JP2010507857A (en) * 2006-10-23 2010-03-11 モンロ、ドナルド・マーティン Fast database matching
US8091218B2 (en) 2005-07-29 2012-01-10 Fujikura Ltd. Method of manufacturing a rigid printed wiring board
JP4881322B2 (en) * 2005-01-25 2012-02-22 グーグル インコーポレイテッドGoogle Inc. Information retrieval system based on multiple index
JP2012064159A (en) * 2010-09-17 2012-03-29 Casio Comput Co Ltd Generation method and generation device for transposition index for n-gram retrieval, retrieval method and retrieval device using transposition index, and computer program
US8489628B2 (en) 2004-07-26 2013-07-16 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US8612427B2 (en) 2005-01-25 2013-12-17 Google, Inc. Information retrieval system for archiving multiple document versions
US8631027B2 (en) 2007-09-07 2014-01-14 Google Inc. Integrated external related phrase information into a phrase-based indexing information retrieval system

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9037573B2 (en) 2004-07-26 2015-05-19 Google, Inc. Phase-based personalization of searches in an information retrieval system
US9817886B2 (en) 2004-07-26 2017-11-14 Google Llc Information retrieval system for archiving multiple document versions
US9817825B2 (en) 2004-07-26 2017-11-14 Google Llc Multiple index based information retrieval system
US9569505B2 (en) 2004-07-26 2017-02-14 Google Inc. Phrase-based searching in an information retrieval system
US9384224B2 (en) 2004-07-26 2016-07-05 Google Inc. Information retrieval system for archiving multiple document versions
US8489628B2 (en) 2004-07-26 2013-07-16 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US8560550B2 (en) 2004-07-26 2013-10-15 Google, Inc. Multiple index based information retrieval system
US9990421B2 (en) 2004-07-26 2018-06-05 Google Llc Phrase-based searching in an information retrieval system
US9361331B2 (en) 2004-07-26 2016-06-07 Google Inc. Multiple index based information retrieval system
JP4881322B2 (en) * 2005-01-25 2012-02-22 グーグル インコーポレイテッドGoogle Inc. Information retrieval system based on multiple index
US8612427B2 (en) 2005-01-25 2013-12-17 Google, Inc. Information retrieval system for archiving multiple document versions
US8091218B2 (en) 2005-07-29 2012-01-10 Fujikura Ltd. Method of manufacturing a rigid printed wiring board
JP2008065395A (en) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd Translation device, translation method and translation program
JP2010507857A (en) * 2006-10-23 2010-03-11 モンロ、ドナルド・マーティン Fast database matching
US8631027B2 (en) 2007-09-07 2014-01-14 Google Inc. Integrated external related phrase information into a phrase-based indexing information retrieval system
JP2009301511A (en) * 2008-06-17 2009-12-24 Ns Solutions Corp Index information preparing device, index information preparing method and program
JP2012064159A (en) * 2010-09-17 2012-03-29 Casio Comput Co Ltd Generation method and generation device for transposition index for n-gram retrieval, retrieval method and retrieval device using transposition index, and computer program

Similar Documents

Publication Publication Date Title
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US7249121B1 (en) Identification of semantic units from within a search query
US7113943B2 (en) Method for document comparison and selection
KR101196935B1 (en) Method and system for providing reprsentation words of real-time popular keyword
US6119114A (en) Method and apparatus for dynamic relevance ranking
CN1133127C (en) Document retrieval system
KR101122942B1 (en) New word collection and system for use in word-breaking
US20030004942A1 (en) Method and apparatus of metadata generation
US20140289177A1 (en) Finding and disambiguating references to entities on web pages
US20050187923A1 (en) Intelligent search and retrieval system and method
US5822731A (en) Adjusting a hidden Markov model tagger for sentence fragments
US5721902A (en) Restricted expansion of query terms using part of speech tagging
US20020123988A1 (en) Methods and apparatus for employing usage statistics in document retrieval
US20110202526A1 (en) Semantic search system using semantic ranking scheme
US8131724B2 (en) System for similar document detection
US20080215563A1 (en) Pseudo-Anchor Text Extraction for Vertical Search
US5640553A (en) Relevance normalization for documents retrieved from an information retrieval system in response to a query
US5717914A (en) Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query
KR100451978B1 (en) A method of retrieving data and a data retrieving apparatus
US20100281034A1 (en) Query-Independent Entity Importance in Books
US5873076A (en) Architecture for processing search queries, retrieving documents identified thereby, and method for using same
US20090265338A1 (en) Contextual ranking of keywords using click data
US6904560B1 (en) Identifying key images in a document in correspondence to document text
US20070185859A1 (en) Novel systems and methods for performing contextual information retrieval
US6678677B2 (en) Apparatus and method for information retrieval using self-appending semantic lattice

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050614