JP5145202B2 - Document search apparatus and document search program - Google Patents

Document search apparatus and document search program Download PDF

Info

Publication number
JP5145202B2
JP5145202B2 JP2008310226A JP2008310226A JP5145202B2 JP 5145202 B2 JP5145202 B2 JP 5145202B2 JP 2008310226 A JP2008310226 A JP 2008310226A JP 2008310226 A JP2008310226 A JP 2008310226A JP 5145202 B2 JP5145202 B2 JP 5145202B2
Authority
JP
Japan
Prior art keywords
phrase
word
index
document
transposed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008310226A
Other languages
Japanese (ja)
Other versions
JP2010134720A (en
Inventor
宜仁 安田
孝史 井上
幸生 植松
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008310226A priority Critical patent/JP5145202B2/en
Publication of JP2010134720A publication Critical patent/JP2010134720A/en
Application granted granted Critical
Publication of JP5145202B2 publication Critical patent/JP5145202B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、電子文書群中からキーワードに該当する電子文書を検索する技術に関する。   The present invention relates to a technique for retrieving an electronic document corresponding to a keyword from a group of electronic documents.

文書の電子化の普及やインターネットの爆発的な普及に伴い、インターネットや企業内ネットワークのユーザは、大量の電子文書を閲覧可能になっている。このような大量の電子文書に対して、ユーザが表現した検索要求を満たす文書を高速に検索できる検索システム(全文検索システム)が広く使われている。検索要求の一般的な表現方法としては、検索対象の電子文書に含まれるような語の列(キーワード列)を指定する方法が使われている。   With the spread of computerization of documents and the explosive spread of the Internet, users of the Internet and corporate networks can browse a large amount of electronic documents. For such a large number of electronic documents, a search system (full-text search system) that can quickly search for a document that satisfies a search request expressed by a user is widely used. As a general expression method of a search request, a method of specifying a word string (keyword string) included in an electronic document to be searched is used.

特定のキーワードを含む電子文書の数は文書全体の一部であるため、検索要求が入力される度に蓄積された全ての文書毎にキーワードの有無を確認したのでは、キーワードを一切含まない文書に対する処理を数多く繰り返すことになり効率が悪い。このため、語を索引語として、その語を含むような文書群、およびそれら各文書における索引語の出現位置を持つ語転置索引と呼ばれる索引を使って高速化する方法が非特許文献1に提案されている。   Since the number of electronic documents that contain a specific keyword is a part of the whole document, every time a search request is entered, the existence of the keyword is checked for every document that is stored. The process is repeated many times, which is inefficient. For this reason, Non-Patent Document 1 proposes a method of speeding up using a word group as an index word, a document group including the word, and an index called a word transposition index having an occurrence position of the index word in each document. Has been.

大量の電子文書を検索対象とする場合、複数のキーワードが入力された場合には、それぞれのキーワードを少なくともひとつ含むような文書の検索(AND検索)を実行することが一般的である。一方で、複数のキーワードを個別に扱うのではなく、それらのキーワードの検索要求内での隣接情報や順序の情報を保持したような、句による文書検索を行いたいという需要がある。   When a large number of electronic documents are to be searched, when a plurality of keywords are input, it is common to execute a document search (AND search) that includes at least one of each keyword. On the other hand, instead of handling a plurality of keywords individually, there is a demand for performing a document search by phrase that retains adjacent information and order information in a search request for those keywords.

しかし、単純な語転置索引だけを用いて句が出現するような文書を検索しようとする場合、計算のための負荷が大きいという問題がある。なぜなら、句を構成する各語が順序を保って隣接して出現することを確認するためには、句を構成する各語を鍵として得られる転置索引の値(転置リスト)を併合し、その結果のリストを逐次確認し、句を構成する各語が要求された順序で隣接して出現しているかどうかを文書毎に確認する必要があるためである。   However, when searching for a document in which a phrase appears using only a simple transposed index, there is a problem that the load for calculation is large. Because, in order to confirm that the words constituting the phrase appear adjacent in order, the values of the inverted index (transposed list) obtained using each word constituting the phrase as a key are merged, This is because it is necessary to sequentially check the list of results and check for each document whether each word constituting the phrase appears adjacently in the requested order.

上記の問題に対し、語を単位とした索引だけではなく、句全体をあたかもひとつの語であるかのように取り扱い、句に対応する索引(以下、句転置索引と呼ぶ)を保持することにより、句を含んだ検索のための計算負荷を下げる方法が知られている。   In response to the above problem, by treating not only the word-by-word index but the entire phrase as if it were one word, the index corresponding to the phrase (hereinafter referred to as the phrase transposed index) is maintained. There are known methods for reducing the computational load for searches involving phrases.

しかし、全ての句に対して句転置索引を用意したのでは、膨大な容量の記憶装置が必要になり現実的ではない。このため、限られた容量の句転置索引に対してどのような句を格納するのかについて、何らかの基準に基づいて選択することが必要となる。そこで、句の選択基準として、過去の検索履歴中に高頻度で出現する句を句転置索引に格納する方法が非特許文献2に提案されている。
「分散型高速情報収集/全文検索システムInfoBee/Evangelist」,竹野浩,井上孝史,NTT R&D,vol.52,no.2,2003,pp78−84. “Fast Phrase querying with combined indexes”,Hugh E.Williams,Justin Zobel and Dirk Bahle,ACM TOIS,vol.22,no.4,2004
However, if phrase transposition indexes are prepared for all phrases, a huge amount of storage device is required, which is not practical. For this reason, it is necessary to select what phrase is to be stored for a limited amount of phrase transposed index based on some criteria. Thus, as a phrase selection criterion, Non-Patent Document 2 proposes a method for storing phrases that frequently appear in the past search history in a phrase transposed index.
“Distributed high-speed information collection / full-text search system InfoBee / Evangelist”, Hiroshi Takeno, Takashi Inoue, NTT R & D, vol. 52, no. 2, 2003, pp 78-84. “Fast Phrase querying with combined indexes”, Hugh E. et al. Williams, Justin Zobel and Dirk Bahr, ACM TOIS, vol. 22, no. 4,2004

非特許文献2の手法では、検索に利用される頻度の高い句を優先的に句転置索引へ格納している。しかしながら、この手法では、句を含んだ検索の計算負荷を効率的に削減できないおそれがある。   In the technique of Non-Patent Document 2, a phrase frequently used for search is preferentially stored in the phrase transposed index. However, with this method, there is a possibility that the calculation load of a search including a phrase cannot be reduced efficiently.

すなわち、そもそも句検索を語転置索引のみで対処した場合の計算負荷の大きさは、句を構成する各語の転置リストの長さに依存する。したがって、もともと転置リストが短いような語から構成される句の格納によって削減される計算負荷は小さいという問題があった。   That is, in the first place, the magnitude of the calculation load when the phrase search is handled only by the word transposed index depends on the length of the transposed list of each word constituting the phrase. Therefore, there has been a problem that the calculation load reduced by storing a phrase composed of words having a short transposed list is small.

そこで本発明は、このような問題に鑑み、句転置索引へ格納すべき句を適切に選択し、索引を用いた検索における計算負荷を効率的に低減することを解決課題としている。   Therefore, in view of such a problem, the present invention has an object to solve the problem of efficiently selecting a phrase to be stored in the phrase transposed index and efficiently reducing a calculation load in a search using the index.

本発明は、前記課題を解決するため、句を構成する各単語の連接関係の確認に処理時間がかかることに鑑み、利用頻度の高い句を転置索引の生成対象とする。このとき、句を構成する各単語の転置リストのうち長さが最小のものが必要処理量であり、処理時間に比例するとの考えに基づいて、索引生成対象の句を決定している。   In order to solve the above-described problem, the present invention sets a phrase that is frequently used as a target for generating an inverted index, in view of the fact that it takes a long time to check the connection relation of each word constituting the phrase. At this time, the phrase to be indexed is determined based on the idea that the shortest of the transposed lists of the words constituting the phrase is the required processing amount and is proportional to the processing time.

具体的には、請求項1記載の発明は、ユーザ端末から検索指示された単語を含む電子文書を検索するときに、単語と電子文書との関連情報を格納する語転置索引と、複数の単語からなる句と電子文書との関連情報を格納する句転置索引とを利用する文書検索装置であって、検索履歴に含まれる句を抽出し、該抽出した各句を含む電子文書を前記語転置索引を用いて検索するときの計算量を求める算出手段と、前記算出した各句の計算量および検索履歴中での出現頻度に基づいて前記句転置索引に格納する句を決定する決定手段とを備えることを特徴としている。   Specifically, according to the first aspect of the present invention, when searching for an electronic document including a word instructed to be searched from a user terminal, a word transposition index for storing information related to the word and the electronic document, and a plurality of words A phrase search apparatus that uses a phrase transposition index that stores related information between a phrase and an electronic document, the phrase that is included in the search history is extracted, and the electronic document that includes each of the extracted phrases is transposed to the word A calculating means for obtaining a calculation amount when searching using an index; and a determining means for determining a phrase to be stored in the phrase transposed index based on the calculated calculation amount of each phrase and the appearance frequency in the search history. It is characterized by providing.

また、請求項2記載の発明は、前記算出手段は、前記検索履歴から抽出した句を構成する各単語をもって前記語転置索引を参照し、該各単語の転置リストを前記関連情報として取得するとともに、取得した各転置リストのうち最短の転置リストの長さを前記計算量として求めることを特徴としている。   The invention according to claim 2 is characterized in that the calculation means refers to the word transposition index with each word constituting a phrase extracted from the search history, and acquires a transposed list of each word as the related information. The length of the shortest transposed list among the obtained transposed lists is obtained as the calculation amount.

また、請求項3記載の発明は、前記決定手段は、前記計算量および前記出現頻度を用いて各句のスコアを算出し、該スコアに従って前記句転置索引に格納する句を決定することを特徴としている。   The invention according to claim 3 is characterized in that the determining means calculates a score of each phrase using the calculation amount and the appearance frequency, and determines a phrase to be stored in the phrase transposed index according to the score. It is said.

また、請求項4記載の発明は、文書検索プログラムであり、請求項1〜3のいずれか1項に記載の文書検索装置を構成する各手段としてコンピュータを機能させることを特徴としている。   According to a fourth aspect of the present invention, there is provided a document search program, wherein a computer is caused to function as each means constituting the document search device according to any one of the first to third aspects.

請求項1〜4記載の発明によれば、句の利用頻度および句を構成する単語の連接確認に要する計算負荷を考慮して、索引生成対象とする句が適切に選択されることから、検索処理の計算負荷が低減され、処理時間が短縮される。   According to the first to fourth aspects of the present invention, the phrase to be indexed is appropriately selected in consideration of the usage frequency of the phrase and the calculation load required for checking the connection of the words constituting the phrase. Processing load on processing is reduced, and processing time is shortened.

図1は、本発明の実施形態に係る文書検索装置1の構成例を示している。この文書検索装置1は、ネットワークを介して検索条件(キーワード)を指示するユーザ端末2と、検索対象の電子文書群を格納するコンテンツサーバSと通信可能に接続されている。   FIG. 1 shows a configuration example of a document search apparatus 1 according to an embodiment of the present invention. The document search apparatus 1 is communicably connected to a user terminal 2 that instructs a search condition (keyword) via a network and a content server S that stores a search target electronic document group.

ここでは前記文書検索装置1は、インターネット上の前記コンテンツサーバSに存在するコンテンツなどを検索するサーバ(例えば検索エンジンなど)として構成されているものとする。なお、文書検索装置1は、例えばネットワークに接続可能で文書検索の処理ロジックを実行可能な計算機などでもよく、また前記文書検索装置1を社内LAN(Local Area Network)などのインターネット以外のネットワークに接続してもよい。   Here, it is assumed that the document search device 1 is configured as a server (for example, a search engine) that searches for content and the like existing in the content server S on the Internet. The document search apparatus 1 may be, for example, a computer that can be connected to a network and can execute processing logic for document search. The document search apparatus 1 is connected to a network other than the Internet such as an in-house LAN (Local Area Network). May be.

前記ユーザ端末2は、ネットワークに接続可能なブラウザなどのユーザインタフェースを備えていればよい。例えば、パーソナルコンピュータ(PC)や携帯電話などが該当する。このユーザ端末2をもって、ユーザはキーワードを送信し文書検索を行う。なお、前記文書検索装置1には、通常はユーザ端末2が複数台接続されている。   The user terminal 2 only needs to have a user interface such as a browser that can be connected to a network. For example, a personal computer (PC) or a mobile phone is applicable. With this user terminal 2, the user transmits a keyword and performs a document search. Note that a plurality of user terminals 2 are normally connected to the document search apparatus 1.

前記文書検索装置1は、事前に転置索引を生成する索引生成機能と、生成された転置索引を利用して電子文書を検索する検索エンジンの機能とを有している。   The document search apparatus 1 has an index generation function for generating an inverted index in advance, and a search engine function for searching an electronic document using the generated inverted index.

前記索引生成機能は、図1中の文書収集手段3,文書データベース4,索引生成手段5,語転置索引データベース6,句・頻度抽出手段7,検索履歴データベース8,併合負荷算出手段9,格納句決定手段10,句転置索引データベース11をもって実行されている。また、前記検索エンジンの機能は、検索実行手段12をもって実行されている。   The index generation function includes: document collection means 3, document database 4, index generation means 5, word transposition index database 6, phrase / frequency extraction means 7, search history database 8, merge load calculation means 9, storage phrase in FIG. The determination unit 10 and the phrase transposed index database 11 are used. The search engine function is executed by the search execution means 12.

前記各手段3〜12の機能は、コンピュータのハードウェアとソフトウェアの協働で実現されている。なお、前記文書検索装置1は、コンピュータの通常の構成要素、例えば前記各手段3〜12の処理データを一時記憶する書き換え可能なメモリ(RAM)と、ネットワーク接続に使用する通信デバイスと、前記各手段3〜12の制御や演算処理などを行う処理部(CPU:Central Processor Unit等)と、ハードディスクドライブ装置などの保存部を備え、前記各データベース4.6.8.11は前記ハードディスクドライブ装置上に構築されている。以下、前記各手段3〜11の索引生成処理を図2のフローチャートに基づき説明する。   The functions of the means 3 to 12 are realized by the cooperation of computer hardware and software. The document retrieval apparatus 1 includes a normal component of a computer, for example, a rewritable memory (RAM) that temporarily stores processing data of each of the units 3 to 12, a communication device used for network connection, A processing unit (CPU: Central Processor Unit, etc.) for controlling the means 3 to 12 and a processing unit and a storage unit such as a hard disk drive device are provided, and each database 4.6.8.11 is stored on the hard disk drive device. Has been built. Hereinafter, the index generation processing of each of the means 3 to 11 will be described with reference to the flowchart of FIG.

S01:まず、前記文書収集手段3は、前記通信デバイスを通じて前記コンテンツサーバSにアクセスし、検索対象となる電子文書群を収集して前記文書データベース4に格納する。この文書収集手段3の機能は、前記コンテンツサーバSから電子文書群を回収するプログラム(クローラなど)で実現される。   S01: First, the document collection means 3 accesses the content server S through the communication device, collects electronic document groups to be searched, and stores them in the document database 4. The function of the document collection unit 3 is realized by a program (crawler or the like) that collects an electronic document group from the content server S.

S02:前記索引生成手段5は、前記文書データベース4に格納された電子文書群を参照して語転置索引(語転置インデックス)を生成し、前記語転置索引データベース6に格納する。   S02: The index generating means 5 generates a word transposed index (word transposed index) by referring to the electronic document group stored in the document database 4 and stores it in the word transposed index database 6.

語転置索引は、語を索引キーとして、その語を含むような文書番号(文書ID)と、各文書内での語の出現開始位置を含む索引である。この索引は転置リストと呼ばれ、その長さは通常、各語が出現する文書数などに応じて異なっている。語転置索引データベース6のデータ例を表1に示す。   The word transposition index is an index including a document number (document ID) including the word and an occurrence start position of the word in each document using the word as an index key. This index is called an inverted list, and its length usually differs depending on the number of documents in which each word appears. An example of data in the word transposition index database 6 is shown in Table 1.

Figure 0005145202
Figure 0005145202

表1の例は、「今日」「しかし」「docomo」「NTT」の単語が含まれる文書数および文書IDを示している。なお、前記索引生成手段5および前記語転置索引データベース6は、情報検索において広く使われている既存の手法を用いることができる。   The example of Table 1 shows the number of documents and document IDs including the words “today”, “but”, “docomo”, and “NTT”. The index generating means 5 and the word transposed index database 6 can use existing methods widely used in information retrieval.

S03:前記句・頻度抽出手段7は、前記検索履歴データベース8に格納されている検索履歴を参照して、過去にキーワードとして使用された句およびその頻度を抽出する。   S03: The phrase / frequency extraction means 7 refers to the search history stored in the search history database 8 and extracts a phrase used as a keyword in the past and its frequency.

前記検索履歴データベース8には、文書検索装置1に対してこれまでにユーザが入力した検索要求(キーワード)が日時情報付きで格納される。検索履歴データベース8のデータ例を表2に示す。   In the search history database 8, search requests (keywords) input by the user so far with respect to the document search apparatus 1 are stored with date and time information. A data example of the search history database 8 is shown in Table 2.

Figure 0005145202
Figure 0005145202

表2の例には、「天気」「“NTT Docomo”」「“Next Generation”」「カメラ」の検索履歴の日付・時刻が示されている。   In the example of Table 2, the date and time of the search history of “weather”, “NTT Docomo”, “Next Generation”, and “camera” are shown.

前記句・頻度抽出手段7は、一定期間内(例えば1ヶ月)での検索履歴中に出現した句を抽出するとともに、抽出した各句の出現頻度Fiを調べる。ここでは、一定期間内の検索履歴中に出現した回数を前記出現頻度Fiとして説明する。 The phrase / frequency extraction means 7 extracts a phrase that appears in the search history within a certain period (for example, one month), and checks the appearance frequency F i of each extracted phrase. Here, the number of appearances in the search history within a certain period will be described as the appearance frequency F i .

具体的には、一定期間内の検索履歴から引用符(「」や“”)を含んでいるキーワードを抽出する。そして、それらキーワード中の引用符の内側を句とし、それぞれの句について出現回数を対応付けた「句→出現回数」の連想配列(ハッシュテーブル)Aを生成する。   Specifically, keywords including quotation marks (“” and “”) are extracted from the search history within a certain period. Then, an associative array (hash table) A of “phrase → appearance count” in which the inside of the quotation marks in the keywords is a phrase and the appearance count is associated with each phrase is generated.

なお、本実施例では明示的な引用符を含むものについて説明したが、これ以外にもキーワード中から暗黙的に句とみなせる部分を抽出する既存技術を用いることもできる。そのような手法で句の抽出を行う場合、場合によっては、本来句ではないような語の並びを誤って句とみなす可能性もある。そのような誤りはない方が好ましいが、仮に誤りが含まれていたとしても本発明自体は適用可能である。   In addition, although the present Example demonstrated what includes an explicit quotation mark, the existing technique which extracts the part which can be regarded as a phrase implicitly from a keyword besides this can also be used. When a phrase is extracted by such a method, there is a possibility that a word sequence that is not originally a phrase is mistakenly regarded as a phrase. Although it is preferable that there is no such error, the present invention is applicable even if an error is included.

S04:前記併合負荷算出手段9は、前記検索履歴データベース8に格納されている検索履歴を参照して、前記句・頻度抽出手段7と同様の手法で、一定期間内での検索履歴中に出現した句を抽出する。そして、抽出した各句が含まれる文書を、前記語転置索引データベース6を用いて検査する場合に予想される計算負荷を算出する。   S04: The merge load calculating means 9 refers to the search history stored in the search history database 8 and appears in the search history within a certain period in the same manner as the phrase / frequency extracting means 7. Extract the phrase. Then, a calculation load expected when a document including each extracted phrase is inspected using the word transposed index database 6 is calculated.

すなわち、句が文書中に出現することを確認するためには、句を構成する各語が順序を保ち、隣接して文書中に出現することを確認する必要がある。そのためには、まず、句を構成する各語を索引キーとして、前記語転置索引データベース6から各語の転置リストを取得し、取得した各転置リストの各値を併合する。次に、併合した結果のリストに含まれた全ての文書に対し、句を構成する各語が要求された順序で隣接して出現するかどうかを逐次確認する必要がある。そのため、この場合の計算負荷は、各語の転置リストを併合したリストの長さに依存する。   That is, in order to confirm that the phrase appears in the document, it is necessary to confirm that the words constituting the phrase remain in order and appear in the document adjacent to each other. For this purpose, first, a transposed list of each word is obtained from the word transposed index database 6 using each word constituting the phrase as an index key, and the values of the obtained transposed lists are merged. Next, it is necessary to sequentially check whether or not each word constituting the phrase appears adjacently in the requested order for all the documents included in the merged list. Therefore, the calculation load in this case depends on the length of the list obtained by merging the transposed list of each word.

ここで計算負荷は、各語の転置リストのうち、最短となる転置リストの長さに比例するとの考えに基づいて算出される。すなわち、前記併合負荷算出部9は、句を構成する各語の転置リストのうち最短のリストの長さをこの句の併合負荷Ciとして算出する。そして、検索履歴から抽出したそれぞれの句について、前記併合負荷Ciを対応付けた「句→併合負荷」の連想配列(ハッシュテーブル)Bを生成する。 Here, the calculation load is calculated based on the idea that it is proportional to the length of the shortest transposed list among the transposed lists of each word. That is, the merge load calculation unit 9 calculates the shortest list length among the transposed lists of the words constituting the phrase as the merge load C i of the phrase. Then, for each phrase extracted from the search history, an associative array (hash table) B of “phrase → merged load” in which the merged load C i is associated is generated.

S05:前記格納句決定手段10は、前記両連想配列A.Bを参照して、前記句転置索引データベース11に索引を格納する句を決定する。ここでは、句の利用頻度および単語の連接関係の確認に要する計算負荷を考慮して、転置索引を生成すべき句を選択している。   S05: The storage phrase determining means 10 determines that the associative array Referring to B, the phrase for storing the index in the phrase transposed index database 11 is determined. Here, the phrase for which the inverted index is to be generated is selected in consideration of the usage frequency of the phrase and the calculation load required to confirm the word connection relation.

すなわち、前記格納句決定手段10は、前記連想配列Aを参照して、句Piの一定期間内の検索履歴における出現頻度Fiを読み出す。また、これと同時に前記連想配列Bを参照して、句Piの併合負荷Ciを読み出す。そして、これらを用いて句Piの句格納スコアSiを以下の式(1)により算出する。 That is, the stored phrase determining means 10 refers to the associative array A and reads the appearance frequency F i in the search history within a certain period of the phrase P i . Further, referring to the same time the associative array B, reads the merge load C i clause P i. And using these, the phrase storage score S i of the phrase P i is calculated by the following equation (1).

Figure 0005145202
Figure 0005145202

ここで、αは重みを表し、句の出現頻度Fiあるいは併合負荷Ciのどちらを優先してスコアを付与するかを任意に設定することができる。この式(1)は、プログラムなどに定義されていればよい。 Here, α represents a weight, and it is possible to arbitrarily set which of the phrase appearance frequency F i and the merged load C i is given priority. This expression (1) only needs to be defined in a program or the like.

前記格納句決定手段10は、このように算出した句格納スコアSiの値が大きい句から順に、句転置索引の生成対象とする。これにより、検索履歴に出現した頻度の高い句や、語転置索引を用いて検索を行った場合の併合負荷が大きい句を、優先的に句転置索引の生成対象とすることができる。なお、句格納スコアSiおよび前記両連想配列A.Bは、前記メモリ(RAM)あるいは前記ハードディスクドライブ装置に保存して処理を行ってもよい。 The stored phrase determining means 10 sets phrase transposition indexes to be generated in order from the phrase having the largest phrase storage score S i calculated in this way. As a result, phrases that frequently appear in the search history and phrases that have a large merge load when a search is performed using a word inverted index can be preferentially generated as a phrase inverted index generation target. The phrase storage score S i and the both associative arrays A. B may be stored in the memory (RAM) or the hard disk drive device for processing.

S06:句転置索引の生成対象となった句のデータは、前記格納句決定手段10から前記索引生成手段5へ送信され、該索引生成手段5にて各句の句転置索引(句転置インデックス)が生成される。生成された句転置索引は、事前に設定された記憶容量を超えない範囲で前記句転置索引データベース11に格納される。なお、S01〜06で説明した索引生成処理は一定期間ごとに行ってもよく、これにより前記両索引データベース6.11は最新の状態に更新される。   S06: The phrase data for which the phrase inverted index is to be generated is transmitted from the stored phrase determining means 10 to the index generating means 5, and the index generating means 5 uses the phrase inverted index (phrase inverted index) of each phrase. Is generated. The generated phrase transposed index is stored in the phrase transposed index database 11 within a range not exceeding a preset storage capacity. Note that the index generation processing described in S01 to 06 may be performed at regular intervals, whereby both the index databases 6.11 are updated to the latest state.

このように生成された句転置索引データベース11は、前記ユーザ端末2から受信したキーワードをもって前記検索実行手段12が電子文書を検索するときに利用される。ここでは前記検索実行手段12は、キーワードが句であり、かつ前記句転置索引データベース11に存在した場合には、該句転置索引データベース11を検索し、その結果を前記ユーザ端末2へ返信する。   The phrase transposed index database 11 generated in this way is used when the search execution means 12 searches for an electronic document with the keyword received from the user terminal 2. Here, when the keyword is a phrase and the keyword is present in the phrase inverted index database 11, the search execution means 12 searches the phrase inverted index database 11 and returns the result to the user terminal 2.

このとき、前記句転置索引データベース11に格納された句転置索引は、利用頻度が高く、かつ単語の連接関係確認に処理時間を要する句について優先的に生成されているので、前記検索実行手段12が文書を検索するときの処理時間が短縮される。   At this time, the phrase transposition index stored in the phrase transposition index database 11 is preferentially generated for a phrase that is frequently used and requires processing time for confirmation of word connection relations. Reduces the processing time when searching for documents.

なお、前記ユーザ端末2から受信したキーワードが語、あるいは前記句転置索引データベース11に存在しない句であった場合には、前記検索実行手段12はさらに前記語転置索引データベース6を検索し、その結果を前記ユーザ端末2へ返信する。   If the keyword received from the user terminal 2 is a word or a phrase that does not exist in the phrase transposition index database 11, the search execution means 12 further searches the word transposition index database 6, and the result To the user terminal 2.

本発明は、コンピュータを前記文書検索装置1の各手段3〜12として機能させる文書検索プログラムとしても提供することができる。このプログラムは、コンピュータに各手段3〜12の全ての機能を実現させるものでもよく、あるいは一部の機能を実現させるものであってもよい。   The present invention can also be provided as a document search program that causes a computer to function as each means 3 to 12 of the document search apparatus 1. This program may cause the computer to realize all the functions of the respective means 3 to 12, or may realize a part of the functions.

このプログラムは、Webサイトなどからのダウンロードによってコンピュータに提供される。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,Blu−ray Disk(登録商標)などの記録媒体に格納してコンピュータに提供してもよい。   This program is provided to the computer by downloading from a website or the like. The program is stored in a recording medium such as a CD-ROM, DVD-ROM, CD-R, CD-RW, DVD-R, DVD-RW, MO, HDD, Blu-ray Disk (registered trademark). It may be provided to a computer.

本発明の実施形態に係る文書検索装置の構成図。1 is a configuration diagram of a document search apparatus according to an embodiment of the present invention. 同 索引生成の処理フロー図。The processing flow figure of the same index generation.

符号の説明Explanation of symbols

1…文書検索装置
2…ユーザ端末
3…文書収集手段
4…文書データベース
5…索引生成手段
6…語転置索引データベース
7…句・頻度抽出手段
8…検索履歴データベース
9…併合負荷算出手段
10…格納句決定手段
11…句転置索引データベース
12…検索実行手段
S…コンテンツサーバ
DESCRIPTION OF SYMBOLS 1 ... Document search device 2 ... User terminal 3 ... Document collection means 4 ... Document database 5 ... Index generation means 6 ... Word transposition index database 7 ... Phrase / frequency extraction means 8 ... Search history database 9 ... Merge load calculation means 10 ... Store Phrase determination means 11 ... Phrase transposed index database 12 ... Search execution means S ... Content server

Claims (4)

ユーザ端末から検索指示された単語を含む電子文書を検索するときに、単語と電子文書との関連情報を格納する語転置索引と、
複数の単語からなる句と電子文書との関連情報を格納する句転置索引とを利用する文書検索装置であって、
検索履歴に含まれる句を抽出し、該抽出した各句を含む電子文書を前記語転置索引を用いて検索するときの計算量を求める算出手段と、
前記算出した各句の計算量および検索履歴中での出現頻度に基づいて前記句転置索引に格納する句を決定する決定手段と、
を備えることを特徴とする文書検索装置。
A word transposition index for storing related information between a word and an electronic document when searching for an electronic document including a word instructed to be searched from a user terminal;
A document search device using a phrase composed of a plurality of words and a phrase transposition index for storing information related to an electronic document,
Calculating means for extracting a phrase included in the search history and obtaining a calculation amount when searching the electronic document including each extracted phrase using the word transposed index;
Determining means for determining a phrase to be stored in the phrase transposed index based on the calculated amount of each calculated phrase and the appearance frequency in the search history;
A document search apparatus comprising:
前記算出手段は、前記検索履歴から抽出した句を構成する各単語をもって前記語転置索引を参照し、
該各単語の転置リストを前記関連情報として取得するとともに、取得した各転置リストのうち最短の転置リストの長さを前記計算量として求める
ことを特徴とする請求項1記載の文書検索装置。
The calculating means refers to the transposed index with each word constituting a phrase extracted from the search history,
The document search apparatus according to claim 1, wherein the transposed list of each word is obtained as the related information, and the length of the shortest transposed list among the obtained transposed lists is obtained as the calculation amount.
前記決定手段は、前記計算量および前記出現頻度を用いて各句のスコアを算出し、該スコアに従って前記句転置索引に格納する句を決定する
ことを特徴とする請求項1または2のいずれか1項に記載の文書検索装置。
The said determination means calculates the score of each phrase using the said calculation amount and the said appearance frequency, and determines the phrase stored in the said phrase transposition index according to this score. The document search apparatus according to item 1.
請求項1〜3のいずれか1項に記載の文書検索装置を構成する各手段としてコンピュータを機能させることを特徴とする文書検索プログラム。   A document search program for causing a computer to function as each means constituting the document search device according to claim 1.
JP2008310226A 2008-12-04 2008-12-04 Document search apparatus and document search program Expired - Fee Related JP5145202B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008310226A JP5145202B2 (en) 2008-12-04 2008-12-04 Document search apparatus and document search program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008310226A JP5145202B2 (en) 2008-12-04 2008-12-04 Document search apparatus and document search program

Publications (2)

Publication Number Publication Date
JP2010134720A JP2010134720A (en) 2010-06-17
JP5145202B2 true JP5145202B2 (en) 2013-02-13

Family

ID=42345956

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008310226A Expired - Fee Related JP5145202B2 (en) 2008-12-04 2008-12-04 Document search apparatus and document search program

Country Status (1)

Country Link
JP (1) JP5145202B2 (en)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3328995B2 (en) * 1993-05-13 2002-09-30 富士通株式会社 Information retrieval system
JPH09198395A (en) * 1996-01-16 1997-07-31 Fuji Xerox Co Ltd Document retrieval device
JPH09204437A (en) * 1996-01-26 1997-08-05 Fuji Xerox Co Ltd Document retrieval device
JPH09330331A (en) * 1996-06-10 1997-12-22 Nippon Telegr & Teleph Corp <Ntt> Phrase detecting method
JP3627850B2 (en) * 2000-06-28 2005-03-09 松下電器産業株式会社 Document search device
JP4108337B2 (en) * 2002-01-10 2008-06-25 三菱電機株式会社 Electronic filing system and search index creation method thereof
JP4439496B2 (en) * 2006-07-18 2010-03-24 株式会社東芝 Search processing apparatus and program

Also Published As

Publication number Publication date
JP2010134720A (en) 2010-06-17

Similar Documents

Publication Publication Date Title
JP5492187B2 (en) Search result ranking using edit distance and document information
US9195738B2 (en) Tokenization platform
CN110362727B (en) Third party search application for search system
US8280878B2 (en) Method and apparatus for real time text analysis and text navigation
US8631097B1 (en) Methods and systems for finding a mobile and non-mobile page pair
JP5550669B2 (en) SEARCH DEVICE, SEARCH METHOD, AND PROGRAM
US20090094262A1 (en) Automatic Generation Of Ontologies Using Word Affinities
US9251289B2 (en) Matching target strings to known strings
JP4237813B2 (en) Structured document management system
US8484221B2 (en) Adaptive routing of documents to searchable indexes
JP2010055164A (en) Sentence retrieval device, sentence retrieval method, sentence retrieval program and its storage medium
JP5145202B2 (en) Document search apparatus and document search program
JP4091586B2 (en) Structured document management system, index construction method and program
JP5358481B2 (en) Document search apparatus, document search method, and document search program
JP2008197700A (en) Document management system and document management method
JP4304226B2 (en) Structured document management system, structured document management method and program
JP5292322B2 (en) Document search method, document search apparatus, and document search program
JP4160627B2 (en) Structured document management system and program
US12026157B2 (en) Narrowing synonym dictionary results using document attributes
JP2011128669A (en) Device and program for retrieving information
JP5193952B2 (en) Document search apparatus and document search program
Harrison et al. Indexing
Sheguri ENHANCING THE QUEUING PROCESS FOR YIOOP'S SCHEDULER
Poomagal et al. Semantic similarity-based PageRank using wordnet
JP2008198236A (en) Structured document management system

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100611

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121120

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121126

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5145202

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees