JP2011192029A - Information retrieval device, method and program - Google Patents
Information retrieval device, method and program Download PDFInfo
- Publication number
- JP2011192029A JP2011192029A JP2010057747A JP2010057747A JP2011192029A JP 2011192029 A JP2011192029 A JP 2011192029A JP 2010057747 A JP2010057747 A JP 2010057747A JP 2010057747 A JP2010057747 A JP 2010057747A JP 2011192029 A JP2011192029 A JP 2011192029A
- Authority
- JP
- Japan
- Prior art keywords
- word
- synonym
- search
- index
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、情報検索装置及び方法及びプログラムに係り、特に、インターネット上の検索エンジンをはじめとする、情報検索装置及び方法及びプログラムに関する。 The present invention relates to an information search apparatus, method, and program, and more particularly, to an information search apparatus, method, and program including search engines on the Internet.
近年、インターネットの普及により、インターネット上には膨大な電子文書群が存在し、利用者がその中から必要とする情報を的確に検索する検索システム及びサービスの重要性が高まっている。一般的な検索サービスでは、ユーザが入力した検索語が検索対象の文書や該文書に対する別の文書からのリンクアンカーテキストに含まれる数に基づき、検索語と文書の一致度と、該文書が別の文書から参照されている度合い等を用いた該文書の重要度とを合わせて検索結果の出力順を決定している。 In recent years, with the widespread use of the Internet, there are an enormous amount of electronic documents on the Internet, and the importance of search systems and services for accurately searching for information required by users is increasing. In a general search service, based on the number of search terms entered by the user included in the search target document or the link anchor text from another document to the document, the match rate between the search term and the document is separated from the document. The output order of the search results is determined together with the importance of the document using the degree of reference from the document.
文書の一致度には「BM25」や「tf・idf」といった単語の統計量を用いた手法が利用されている(例えば、非特許文献1参照)。ここでは特定の文書群全体の平均と比較して文書に高い頻度で現れる単語が、該文書を特徴付けるものであるという推定に基づいて、ユーザが入力した検索語が文書の特徴と一致する度合いが高い文書を高い出力順位としている。 A method using a statistic of a word such as “BM25” or “tf · idf” is used for the degree of matching of documents (for example, see Non-Patent Document 1). Here, based on the presumption that words that appear more frequently in a document than the average of a specific group of documents characterize the document, the degree to which the search term input by the user matches the document characteristics A high document has a high output ranking.
この手法によれば、検索語が比較的珍しい単語であれば良好な検索結果が得られるが、検索語が極ありふれた単語であれば同程度の一致度となる文書が多くなりすぎてしまう。一般的な情報検索サービスでは、検索語との一致度が同程度となった文書が多い場合に、順位付けのために文書毎の重要度を利用して、検索結果の出力順を決定している。 According to this method, a good search result can be obtained if the search word is a relatively rare word, but if the search word is a very common word, too many documents have the same degree of matching. In general information search services, when there are many documents that have the same degree of matching with the search terms, the order of search results is determined using the importance of each document for ranking. Yes.
文書の重要度としては、PageRank(例えば、非特許文献2参照)やHITS(例えば、非特許文献3参照)といった手法が一般的に利用されている。これらの手法は、Webページのリンク情報を用いて、特定の文書が他の多くの文書からリンクされている場合にはその文書が重要であろうという推定に基づいている。 As the importance of a document, techniques such as PageRank (for example, see Non-Patent Document 2) and HITS (for example, see Non-Patent Document 3) are generally used. These techniques are based on the assumption that a particular document will be important if it is linked from many other documents using the link information of the web page.
また、インターネットにおける検索サービスを利用するユーザにとって、入力する検索語が含まれるWebページ以外にも、検索語の同義語が含まれているWebページもユーザの意図に沿ったものであることもある。ユーザが探しているものを意味する単語が複数あり、各Webページで異なる単語で書かれている場合があるからである(例:「秋葉原」と「アキバ」、「セール」と「バーゲン」、など)。このように同じ物や事柄などを同じく意味する異なる単語を同義語や類義語と呼び(本明細書では以下「同義語」と記す)、同義語辞書として数多くまとめられている。 In addition to a Web page that includes a search term to be input, a Web page that includes a synonym for the search term may also be in line with the user's intention for a user who uses a search service on the Internet. . This is because there are a number of words that mean what the user is looking for, and there are cases where each Web page is written with a different word (for example, “Akihabara” and “Akiba”, “Sale” and “Bargain”, Such). Different words that mean the same thing or matter in the same way are called synonyms and synonyms (hereinafter referred to as “synonyms” in the present specification), and a number of synonym dictionaries are collected.
上記のように、ユーザが入力した検索語は無いが同義語は含まれており、ユーザの検索意図に沿ったページを検索結果として出力する手段として、検索語に対して検索システムが自動的もしくは利用者の応答を介して同義語を検索語に追加及び置換し、それを用いて検索する方式などがある。(例えば、特許文献1参照)。 As described above, there is no search term input by the user, but synonyms are included. As a means for outputting a page according to the user's search intention as a search result, the search system automatically or There is a method in which a synonym is added to and replaced with a search word through a user response and a search is performed using the same. (For example, refer to Patent Document 1).
しかしながら、従来のこのような同義語を考慮した検索方式には次の問題が存在する。 However, there are the following problems in the conventional search method considering such synonyms.
検索語が多数の同義語を持つものであった場合、検索システムが同義語を検索語に追加をすると、多数の単語を用いた検索となり、検索システムにおける一致度の算出や、検索結果表示順の計算に要する処理が大きくなってしまう。 If the search term has many synonyms, if the search system adds the synonym to the search term, the search will use many words, and the search system will calculate the degree of matching and the search result display order. The processing required for the calculation becomes large.
通常、検索システムは検索対象となるWebページを任意の単位(以下「単語」)に分割したインデックスを保持しており、インデックス内を、検索語をキーとして適合するWebページを参照しているため、検索語に多数の同義語が追加されると、文書インデックス内を参照する回数が増加する。また、ページと検索語に対する一致度は各組み合わせ毎に計算され、検索語が複数の場合には各検索語と当該ページとの一致度を任意の割合や均等に足し合わせたり、任意の関数で集約したものを用いる。検索語が増加すれば、各検索語と各ページの一致度を算出するための計算量が増加し、各検索語及び同義語毎に算出された各ページの一致度を突合せながらページ毎に集約する作業にも時間を要してしまうため、ユーザへの応答時間が長くなり、利便性を低下させてしまう。同義語の数を制限すれば、結果表示は迅速に表示されるが、除外された同義語が含まれる文書が検索されず、ユーザを満足させる検索結果が得られない可能性が高くなる。 Usually, a search system holds an index obtained by dividing a Web page to be searched into arbitrary units (hereinafter “words”), and refers to a Web page that matches the search word as a key in the index. When a large number of synonyms are added to the search term, the number of times of reference in the document index increases. In addition, the degree of coincidence between the page and the search term is calculated for each combination. When there are multiple search terms, the degree of coincidence between each search term and the page can be added in an arbitrary ratio or evenly, or with any function. Use aggregated ones. If the number of search terms increases, the amount of calculation for calculating the degree of coincidence between each search term and each page increases, and the amount of coincidence of each page calculated for each search term and synonym is aggregated for each page. Since the work to be performed also takes time, the response time to the user becomes long and the convenience is lowered. If the number of synonyms is limited, the result display is displayed quickly, but a document including the excluded synonyms is not searched, and there is a high possibility that a search result that satisfies the user cannot be obtained.
本発明は上記課題を解決するものであり、その目的は検索実行時に検索結果の表示に遅延を生じることなく、検索語の同義語を考慮した高精度の検索結果を出力することができる情報検索装置及び方法及びプログラムを提供することである。 SUMMARY OF THE INVENTION The present invention solves the above-mentioned problems, and its purpose is to search for information that can output a high-precision search result considering synonyms of a search term without causing a delay in the display of the search result when executing a search. An apparatus, method, and program are provided.
図1は、本発明の原理構成図である。 FIG. 1 is a principle configuration diagram of the present invention.
本発明(請求項1)は、ユーザ端末から指示された検索語(単語単位)を用いて電子文書群を検索する際に、検索範囲となる電子文書を任意の単位(以下、「単語」と記す)に分割して格納したインデックスを参照して該検索語との一致度を算出する情報検索装置であって、
予め同義語の関係にある単語同士をグループ化し、グループ毎にID付けした情報(以下、「同義語ID」と記す)を持つ同義語テーブルを格納した同義語テーブル記憶手段101と、
検索範囲を解析し、単語毎に各電子文書内での出現頻度等の情報(以下、「単語頻度情報」と記す)と、当該単語の含まれる同義語IDの情報を合わせて当該単語のレコードとして集約した単語インデックスを作成し、単語インデックス記憶手段102に格納するインデックス作成手段110と、
単語インデックス記憶手段102の単語インデックスの単語毎の単語頻度情報を同義語ID毎に集約した同義語インデックスを作成し、同義語インデックス記憶手段103に格納する同義語インデックス作成手段120と、
検索語との一致度を、検索語をキーとして単語インデックス記憶手段102を参照して得られた同義語IDをキーとして同義語インデックス記憶手段103を参照して取得した単語頻度情報を用いて算出する検索語一致度計算手段130と、を有する。
According to the present invention (claim 1), when searching for an electronic document group using a search word (word unit) instructed from a user terminal, an electronic document serving as a search range is referred to as an arbitrary unit (hereinafter referred to as “word”). An information search device that calculates the degree of coincidence with the search term by referring to the index divided and stored
Synonym table storage means 101 storing a synonym table having information (hereinafter, referred to as “synonym ID”) in which words having synonym relations are grouped in advance and ID is assigned to each group;
Analyzing the search range, for each word, combining information such as the appearance frequency in each electronic document (hereinafter referred to as “word frequency information”) and the information of the synonym ID included in the word together with the record of the word An
A synonym
The degree of coincidence with the search term is calculated using the word frequency information obtained by referring to the synonym
また、本発明(請求項2)は、検索語一致度計算手段130において、
検索語との一致度を計算する際に、検索語をキーとして単語インデックス記憶手段を参照し、当該単語の同義語IDに加えて、単語頻度情報も取得しておき、同義語インデックス記憶手段を参照して得られた同義語IDの単語頻度情報と併せて、一致度の算出に用いる。
Further, the present invention (Claim 2), in the search word matching degree calculation means 130,
When calculating the degree of coincidence with the search word, the word index storage means is referred to using the search word as a key, and the word frequency information is acquired in addition to the synonym ID of the word, and the synonym index storage means Together with the word frequency information of the synonym ID obtained by reference, it is used to calculate the degree of coincidence.
また、本発明(請求項3)は、同義語インデックス作成手段120において、
単語インデックス記憶手段の情報から各単語頻度情報の集約の際に任意に設定した条件を用いて、情報を取捨選択して同義語インデックスとして同義語インデックス記憶手段に格納する。
Further, the present invention (Claim 3) is the synonym
Information is selected and stored in the synonym index storage means as a synonym index using conditions arbitrarily set when the word frequency information is aggregated from the information in the word index storage means.
図2は、本発明の原理を説明するための図である。 FIG. 2 is a diagram for explaining the principle of the present invention.
本発明(請求項4)は、ユーザ端末から指示された検索語(単語単位)を用いて電子文書群を検索する際に、検索範囲となる電子文書を任意の単位(以下、「単語」と記す)に分割して格納したインデックスを参照して該検索語との一致度を算出する情報検索方法であって、
予め同義語の関係にある単語同士をグループ化し、グループ毎にID付けした情報(以下、「同義語ID」と記す)を持つ同義語テーブルを格納した同義語テーブル記憶手段と、
単語インデックスを格納する単語インデックス記憶手段と、
同義語インデックスを格納する同義語インデックス記憶手段と、
を有する装置が、
検索範囲を解析し、単語毎に各電子文書内での出現頻度等の情報(以下、「単語頻度情報」と記す)と、当該単語の含まれる同義語IDの情報を合わせて当該単語のレコードとして集約した単語インデックスを作成し、単語インデックス記憶手段に格納するインデックス作成ステップ(ステップ1)と、
単語インデックス記憶手段の単語インデックスの単語毎の単語頻度情報を同義語ID毎に集約した同義語インデックスを作成し、同義語インデックス記憶手段に格納する同義語インデックス作成ステップ(ステップ2)と、
検索語との一致度を、検索語をキーとして単語インデックス記憶手段を参照して得られた同義語IDをキーとして同義語インデックス記憶手段を参照して取得した単語頻度情報を用いて算出する検索語一致度計算ステップ(ステップ3)と、を行う。
According to the present invention (claim 4), when searching for an electronic document group using a search word (word unit) instructed from a user terminal, an electronic document as a search range is referred to as an arbitrary unit (hereinafter referred to as “word”). An information search method for calculating the degree of coincidence with the search term by referring to the index divided and stored
Synonym table storage means storing a synonym table having information (hereinafter referred to as “synonym ID”) in which words in synonym relations are grouped in advance and ID is assigned to each group;
Word index storage means for storing a word index;
Synonym index storage means for storing a synonym index;
A device having
Analyzing the search range, for each word, combining information such as the appearance frequency in each electronic document (hereinafter referred to as “word frequency information”) and the information of the synonym ID included in the word together with the record of the word An index creation step (step 1) for creating a word index aggregated as follows and storing it in a word index storage means;
A synonym index creating step (step 2) for creating a synonym index in which word frequency information for each word in the word index of the word index storage unit is aggregated for each synonym ID and storing the synonym index in the synonym index storage unit;
A search for calculating the degree of coincidence with a search word using word frequency information obtained by referring to the synonym index storage means using the synonym ID obtained by referring to the word index storage means using the search words as keys. A word matching degree calculation step (step 3) is performed.
また、本発明(請求項5)は、検索語一致度計算ステップ(ステップ3)において、
検索語との一致度を計算する際に、検索語をキーとして単語インデックス記憶手段を参照し、当該単語の同義語IDに加えて、単語頻度情報も取得しておき、同義語インデックス記憶手段を参照して得られた同義語IDの単語頻度情報と併せて、一致度の算出に用いる。
Further, the present invention (Claim 5), in the search word matching degree calculation step (Step 3),
When calculating the degree of coincidence with the search word, the word index storage means is referred to using the search word as a key, and the word frequency information is acquired in addition to the synonym ID of the word, and the synonym index storage means Together with the word frequency information of the synonym ID obtained by reference, it is used to calculate the degree of coincidence.
また、本発明(請求項6)は、同義語インデックス作成ステップ(ステップ2)において、
単語インデックス記憶手段の情報から各単語頻度情報の集約の際に任意に設定した条件を用いて、情報を取捨選択して同義語インデックスとして同義語インデックス記憶手段に格納する。
Further, the present invention (Claim 6), in the synonym index creation step (Step 2),
Information is selected and stored in the synonym index storage means as a synonym index using conditions arbitrarily set when the word frequency information is aggregated from the information in the word index storage means.
本発明(請求項7)は、請求項1乃至3のいずれか1項に記載の情報検索装置を構成する各手段としてコンピュータを機能させるための情報検索プログラムである。 The present invention (Claim 7) is an information search program for causing a computer to function as each means constituting the information search apparatus according to any one of Claims 1 to 3.
上記のように本発明によれば、以下のような効果を奏する。 As described above, the present invention has the following effects.
(1)検索語の同義語を多く含んでいても、インデックスの参照は単語インデックスを検索語を用いて参照する1回と、そこで得られた同義語IDを用いて同義語インデックスを参照する2回だけでよく、検索語の同義語が2つ以上ある場合に、インデックスの参照回数が削減され、検索に要する時間を短縮できる。 (1) Even if many synonyms of the search word are included, the index is referred to once by referring to the word index by using the search word and by referring to the synonym index by using the synonym ID obtained there. If there are two or more synonyms of the search term, the number of index references is reduced, and the time required for the search can be shortened.
(2)検索語の同義語を多く含んでいても、各ページの検索語に対する一致度は同義語インデックスからの単語頻度情報から計算される1つの値だけであるため、従来の技術で行っていた、各検索語及び同義語毎に計算された一致度の突合せ処理が不要となり、検索に要する時間を短縮できる。 (2) Even if many synonyms of the search word are included, the degree of coincidence with respect to the search word of each page is only one value calculated from the word frequency information from the synonym index. In addition, the matching process of the degree of coincidence calculated for each search word and synonym is unnecessary, and the time required for the search can be shortened.
(3)請求項2、5の発明によれば、検索語を含む電子文書を優先し、検索結果の上位とするとことで、よりユーザの満足度の高い検索結果をユーザに提供することができる。
(3) According to the inventions of
(4)請求項3、6の発明によれば、単語頻度情報が低い電子文書は検索結果の下位となることが多いため、検索結果の上位に重点を置き単語頻度を絞り込むことで、全体の計算量を削減し、より迅速な検索結果をユーザに提供することができる。 (4) According to the inventions of claims 3 and 6, since an electronic document with low word frequency information is often lower in the search result, the word frequency is narrowed down by placing emphasis on the upper position of the search result. The amount of calculation can be reduced, and a quicker search result can be provided to the user.
以下、図面と共に本発明の実施の形態を説明する。
以下、本発明の情報検索装置は、電子文書を検索対象とし、電子文書内(以下、「検索範囲」を記す)の検索語の有無に加えて、同義語を考慮し、検索語と各電子文書の一致度を計算し、その一致度に基づいて検索結果の出力を実行する装置である。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
Hereinafter, an information search apparatus according to the present invention targets an electronic document as a search target, considers synonyms in addition to presence / absence of search words in the electronic document (hereinafter referred to as “search range”), This is a device that calculates the matching level of documents and outputs search results based on the matching level.
[第1の実施の形態]
図3は、本発明の第1の実施の形態における情報検索システムの構成を示す。
[First Embodiment]
FIG. 3 shows the configuration of the information search system according to the first embodiment of the present invention.
同図に示す情報検索システムは、情報検索装置100、検索対象文書記憶装置200、情報検索端末300から構成される。
The information search system shown in FIG. 1 includes an
情報検索装置100は、インデックス機能部110、同義語インデックス機能部120、検索語一致度計算部130、総合ランキング計算部140、同義語テーブル記憶部101、単語インデックス記憶部102、同義語インデックス記憶部103から構成される。
The
インデックス機能部110は、外部の検索対象文書記憶装置200に接続されており、また、検索語一致度計算部130と総合ランキング計算部140は情報検索端末300に接続されており、インターネット等のネットワークを通じてデータの送受信が可能である。
The
情報検索端末300は、パーソナルコンピュータ(PC等や携帯やPDA含む)からなり、ユーザ入力の検索要求(検索語含む)を情報検索装置100の検索一致度計算部130に送信し、その検索要求に対する検索結果を総合ランキング計算部140から受信する。
The
情報検索装置100は、予め全文検索用の単語インデックスと同義語インデックスを作成し、それぞれ単語インデックス記憶部102と同義語インデックス記憶部103に保存しておく事前処理と、情報検索端末300から検索要求時に送信される検索語に応じて単語インデックス記憶部102及び同義語インデックス記憶部103を参照して検索結果を作成する検索処理を実施する。
The
情報検索装置100は、インターネット上等に存在する電子文書群を検索する検索エンジンのシステムを構成し、通常のコンピュータのハードウェアリソース(CPUやメモリ、HDD、各インタフェース等)を備える。
The
このハードウェアリソースと、その上で動作する各種ソフトウェア(OSやアプリケーション等)により、情報検索装置100は、検索対象文書記憶装置200の検索対象の電子文書と同義語テーブル記憶部101の同義語情報から単語インデックスを作成し、単語インデックス記憶部102に格納するインデックス機能部110と、単語インデックス記憶部102と同義語テーブル記憶部101の情報から同義語インデックスを作成し、同義語インデックス記憶部103に格納する同義語インデックス機能部120と、情報検索端末300から送信された検索語に基づき単語インデックス記憶部102及び同義語インデックス記憶部103を参照して検索語と検索対象の電子文書との一致度を計算する検索語一致度計算部130と、検索語一致度計算部130の算出した一致度に基づき情報検索端末300に返却する検索結果の出力順を決定する総合ランキング計算部140とを実装する。
With this hardware resource and various software (OS, application, etc.) operating on the hardware resource, the
インデックス機能部110及び同義語インデックス機能部120を通じて事前処理が実施され、検索語一致度計算部130及び総合ランキング計算部140を通じて検索処理が実施される。また、情報検索装置100と情報検索端末300とのデータ送受信は、ハードウェアリソースに含まれる通信インタフェースを通じて実施され、同義語テーブル記憶部101、単語インデックス記憶部102、同義語インデックス記憶部103は、ハードウェアリソースに含まれるハードディスクドライブ装置上に構築される。
Pre-processing is performed through the
なお、前記同義語テーブル記憶部101に記録される同義語に関する情報は、既存のシソーラス辞書や各種辞典の利用により得ることができる。以下、インデックス機能部110、同義語インデックス機能部120、検索語一致度計算部130、総合ランキング計算部140の処理内容を、検索対象文書記憶装置200の電子文書10,11を検索対象とする事例に基づき説明する。
Information about synonyms recorded in the synonym
<事前処理部分>
・インデックス機能部110
インデックス機能部110は、検索対象文書の情報を単語、n-gram、サフィックスアレイといった全文検索用の単位(以下「単語」とする)に分割して単語インデックスを作成し、単語頻度情報((電子文書番号,単語頻度)の組の情報の集合)及び、単語が同義語テーブル記憶部101内の同義語テーブルのいずれかの同義語のグループに含まれる場合はその同義語IDを単語インデックス記憶部102に保存する。なお、分割単位は任意であり、当該方法以外の方式を用いて分割してもよい。
<Pre-processing part>
The
ここでは単語インデックス記憶部102の単語インデックスの一例として、検索対象文書記憶装置200の電子文書10,11を単語インデックス記憶部102に格納している。この文書インデックスには、単語頻度情報以外に通常の全文検索インデックスで利用されている情報が含まれてもよい。「html」による単語のマークアップ統計情報など電子文書単位の情報で他の単語の情報との加算が可能なものは単語頻度情報に加えても良い。
Here, as an example of the word index of the word
・同義語インデックス機能部120
同義語インデックス機能部120は、単語インデックス記憶部102の単語インデックスの単語頻度情報を同義語ID毎に集約したものを同義語インデックスとして作成し、同義語インデックス記憶部103に格納する。各単語頻度情報は電子文書番号が同じならば単語頻度は加算される。
・ Synonym
The synonym
例として、共に同義語ID「002」である「特売」と「セール」について説明する。単語インデックスは「特売」の単語頻度情報として「(10(電子文書番号),1(出現頻度))(11(電子文書番号),1(出現頻度))」を、「セール」の単語頻度情報として「(11(電子文書番号),1(出現頻度))」を保持している。これを同義語インデックスに集約すると、同義語ID「002」の単語頻度情報「(10,1)(11,2)」として同義語インデックス記憶部103に保存される。
As an example, “sale” and “sale” having synonym ID “002” will be described. The word index is “(10 (electronic document number), 1 (appearance frequency)) (11 (electronic document number), 1 (appearance frequency))” as the word frequency information of “sale”, and the word frequency information of “sale”. As “(11 (electronic document number), 1 (appearance frequency))”. When this is collected into the synonym index, it is stored in the synonym
<検索処理部分>
・検索語一致度計算部130
検索語一致度計算部130は、情報検索端末300から検索語を指定した検索要求を受信後に、検索語をキーとして単語インデックス記憶部102を参照し、検索語の同義語IDが無ければ、単語インデックスの単語頻度情報を用いて一致度を計算する。同義語IDがあれば同義語IDを取得し、同義語IDをキーとして同義語インデックス記憶部103を参照し、取得した単語頻度情報を用いて一致度を計算する。ここで一致度を非特許文献1のBM25,BM25F,tf・idfなどの方法で算出する。
<Search processing part>
Search term matching
After receiving the search request specifying the search word from the
・総合ランキング計算部140
総合ランキング計算部140は、検索語一致度計算部130から転送された一致度の情報に基づき検索結果の出力順を決定する。ここで決定された出力順に従って前記情報検索端末300に検索結果が送信される。
・
The general
[第2の実施の形態]
第1の実施の形態に加えて以下の点を変更したものを第2の実施の形態とし、図4に第2の実施の形態における情報検索システムを示す。
[Second Embodiment]
The information search system according to the second embodiment is shown in FIG. 4 as a second embodiment in which the following points are changed in addition to the first embodiment.
図4において、第1の実施の形態に、文書番号と重要度の項目を有する文書重要度テーブル記憶部104が加わり、これにより、総合ランキング計算部140の処理が異なる。図4において、図3と同一構成部分については同一符号を付し、その説明を省略する。
In FIG. 4, a document importance level
・総合ランキング計算部140
総合ランキング計算部140は、文書番号毎の重要度を格納した文書重要度テーブル記憶部104を参照してリスト化された各文書の重要度のリストを取得する。取得したリストに掲載された各電子文書の重要度と検索語一致度計算部130から転送された一致度とを総合して検索結果の出力順を決定する。
・
The general
なお、文書重要度テーブル記憶部104に記録される各電子文書の重要度は、非特許文献2、3などに記載の手法により算出する事が出来る。
Note that the importance of each electronic document recorded in the document importance
[第3の実施の形態]
本実施の形態は、請求項2,5に対応する。
[Third Embodiment]
This embodiment corresponds to
本実施の形態では、検索語一致度計算部130の処理が前述の第1、第2の実施の形態と異なる。当該検索語一覧計算部130以外の機能については、第1、第2の実施の形態のいずれを適用してもよい。
In the present embodiment, the processing of the search word matching
同義語インデックス記憶部103からの単語頻度情報と単語インデックス記憶部102からの単語頻度情報とを任意の割合で加算する方式は下記のように実施する。
A method of adding the word frequency information from the synonym
単語「特売」での検索をした場合、単語インデックス記憶部102からの単語頻度情報は、
(電子文書10、電子文書11)=(tt10=1,tt11=1)
であり、同義語インデックス記憶部103から同義語IDを利用しての単語頻度情報は
(電子文書10、電子文書11)=(td10=1,td11=2)
であり、同義語インデックス記憶部103の単語頻度情報と単語インデックス記憶部102の単語頻度情報を1:αの割合で加算をする際は、
(電子文書10、電子文書11)=(td10+(α×tt10),td11+(α×tt11))
となる。但し、(td10,td11)には(tt10,tt11)が含まれているため、α=1の際には「特売」は他の同義語「セール」等に対して2倍の重みを与えられている事となる。
When searching for the word “special sale”, the word frequency information from the word
(Electronic document 10, electronic document 11) = (t t10 = 1, t t11 = 1)
The word frequency information using the synonym ID from the synonym
When adding the word frequency information in the synonym
(Electronic document 10, electronic document 11) = (t d10 + (α × t t10 ), t d11 + (α × t t11 ))
It becomes. However, since (t d10 , t d11 ) includes (t t10 , t t11 ), when α = 1, “special sale” is twice as large as other synonyms “sale” etc. It will be given weight.
[第4の実施の形態]
本実施の形態は、請求項3、6に対応する。
[Fourth Embodiment]
This embodiment corresponds to claims 3 and 6.
本実施の形態は、前述の実施の形態の処理とは同義語インデックス機能部120の処理が異なる。なお、他の機能については、第1〜第3の実施の形態のいずれを適用してもよい。
In the present embodiment, the processing of the synonym
単語インデックス記憶部102の単語インデックスから情報を同義語ID毎に単語頻度情報を集約する際に任意で設定した条件を用いて、情報を取捨選択する。例としては、条件が、
条件:「文書内での単語頻度が1の情報は除外する」
であるとき、例えば、図3において同義語ID「001」の集約を行うと
「アキバ:(10,2)」「秋葉原:(11,1)」⇒「001:(10,2)」
となる。
Information is selected from the word index stored in the word
Condition: “Exclude information with a word frequency of 1 in the document”
For example, when the synonym ID “001” is aggregated in FIG. 3, “Akiba: (10, 2)” “Akihabara: (11, 1)” → “001: (10, 2)”
It becomes.
以下に、従来の同義語を追加するクエリ拡張手法(図5)と本発明の手法(図6)の比較を示す。 A comparison between the conventional query expansion method for adding synonyms (FIG. 5) and the method of the present invention (FIG. 6) is shown below.
情報検索装置300から検索語『セール』が与えられた場合、従来の手法では、図5に示すように、検索エンジンは同義語テーブルを参照して、検索語を増やして(例えば、「特売」「バーゲン」)単語インデックスを検索し、各検索語に対応する単語出現頻度情報を得る。つまり、「セール」と当該単語の同義語「特売」「バーゲン」の3つの検索語を用いて、当該検索語毎に単語インデックスを参照して、それぞれの単語頻度情報を取得し、各単語毎に一致度を計算し(3回)、ドキュメント毎に一つの値となるように突合せ処理を行い、一致度に基づいてランキングして出力する。
When the search word “sale” is given from the
これに対し、本発明の手法は、図6に示すように、情報検索端末300から検索語『セール』が与えられると、当該検索語『セール』に基づいて、単語インデックス記憶部102の単語インデックスを参照して同義語IDを得る。そして、当該同義語IDに基づいて同義語インデックス記憶部103の同義語インデックスを参照し、当該同義語IDに対応する単語頻度情報を取得し、単語毎に一致度を計算し、突合せ処理をすることなく、その一致度に基づいてランキングする。
On the other hand, according to the method of the present invention, as shown in FIG. 6, when a search word “sale” is given from the
従来の手法では、単語インデックスを3つの単語分として3回参照しているのに対し、本発明では、単語インデックスを1回、同義語インデックスを1回の計2回参照すればよい。さらに、同義語インデックスから導出される単語出現頻度は1つの同義語IDに対応する値のみであるので、一致度の突合せ処理が不要となる。 In the conventional technique, the word index is referred to three times for three words, whereas in the present invention, the word index is referred to once, and the synonym index is referred to twice, that is, a total of two times. Furthermore, since the word appearance frequency derived from the synonym index is only a value corresponding to one synonym ID, the matching process for matching is not required.
上記の第1〜第4の実施の形態における情報検索装置の構成要素の動作をプログラムとして構築し、情報検索装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。 The operation of the constituent elements of the information search device in the first to fourth embodiments is constructed as a program, installed in a computer used as the information search device and executed, or distributed via a network. Is possible.
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。 Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
100 情報検索装置
200 検索対象文書記憶装置
300 情報検索端末
101 同義語テーブル記憶手段、同義語テーブル記憶部
102 単語インデックス記憶手段、単語インデックス記憶部
103 同義語インデックス記憶手段、同義語インデックス記憶部
110 インデックス作成手段、インデックス機能部
120 同義語インデックス作成手段、同義語インデックス機能部
130 検索語一致度計算手段、検索語一致度計算部
140 総合ランキング計算部
100
Claims (7)
予め同義語の関係にある単語同士をグループ化し、グループ毎にID付けした情報(以下、「同義語ID」と記す)を持つ同義語テーブルを格納した同義語テーブル記憶手段と、
検索範囲を解析し、単語毎に各電子文書内での出現頻度等の情報(以下、「単語頻度情報」と記す)と、当該単語の含まれる同義語IDの情報を合わせて当該単語のレコードとして集約した単語インデックスを作成し、単語インデックス記憶手段に格納するインデックス作成手段と、
前記単語インデックス記憶手段の前記単語インデックスの単語毎の単語頻度情報を前記同義語ID毎に集約した同義語インデックスを作成し、同義語インデックス記憶手段に格納する同義語インデックス作成手段と、
前記検索語との一致度を、検索語をキーとして前記単語インデックス記憶手段を参照して得られた同義語IDをキーとして前記同義語インデックス記憶手段を参照して取得した単語頻度情報を用いて算出する検索語一致度計算手段と、
を有することを特徴とする情報検索装置。 When searching for an electronic document group using a search word (word unit) instructed from a user terminal, an index that stores an electronic document that is a search range divided into arbitrary units (hereinafter referred to as “words”) is stored. An information search device that calculates a degree of matching with the search term by referring to
Synonym table storage means storing a synonym table having information (hereinafter referred to as “synonym ID”) in which words in synonym relations are grouped in advance and ID is assigned to each group;
Analyzing the search range, for each word, combining information such as the appearance frequency in each electronic document (hereinafter referred to as “word frequency information”) and the information of the synonym ID included in the word together with the record of the word An index creation means for creating a word index aggregated as
A synonym index creating means for creating a synonym index in which word frequency information for each word of the word index of the word index storage means is aggregated for each synonym ID, and storing the synonym index in the synonym index storage means;
Using the word frequency information obtained by referring to the synonym index storage means using the synonym ID obtained by referring to the word index storage means using the search word as a key and the degree of coincidence with the search word A search term matching degree calculating means to calculate,
An information retrieval apparatus comprising:
前記検索語との一致度を計算する際に、検索語をキーとして前記単語インデックス記憶手段を参照し、当該単語の同義語IDに加えて、単語頻度情報も取得しておき、前記同義語インデックス記憶手段を参照して得られた同義語IDの単語頻度情報と併せて、一致度の算出に用いる
請求項1記載の情報検索装置。 The search word matching degree calculation means includes:
When calculating the degree of coincidence with the search word, the word index storage means is referenced using the search word as a key, and in addition to the synonym ID of the word, word frequency information is also acquired, and the synonym index The information search apparatus according to claim 1, wherein the information search apparatus is used for calculating the degree of coincidence together with the word frequency information of the synonym ID obtained by referring to the storage unit.
前記単語インデックス記憶手段の情報から各単語頻度情報の集約の際に任意に設定した条件を用いて、情報を取捨選択して前記同義語インデックスとして前記同義語インデックス記憶手段に格納する
請求項1記載の情報検索装置。 The synonym index creating means includes:
The information is selected and stored in the synonym index storage unit as the synonym index using a condition arbitrarily set when the word frequency information is aggregated from the information of the word index storage unit. Information retrieval device.
予め同義語の関係にある単語同士をグループ化し、グループ毎にID付けした情報(以下、「同義語ID」と記す)を持つ同義語テーブルを格納した同義語テーブル記憶手段と、
単語インデックスを格納する単語インデックス記憶手段と、
同義語インデックスを格納する同義語インデックス記憶手段と、
を有する装置が、
検索範囲を解析し、単語毎に各電子文書内での出現頻度等の情報(以下、「単語頻度情報」と記す)と、当該単語の含まれる同義語IDの情報を合わせて当該単語のレコードとして集約した単語インデックスを作成し、前記単語インデックス記憶手段に格納するインデックス作成ステップと、
前記単語インデックス記憶手段の前記単語インデックスの単語毎の単語頻度情報を前記同義語ID毎に集約した同義語インデックスを作成し、前記同義語インデックス記憶手段に格納する同義語インデックス作成ステップと、
前記検索語との一致度を、検索語をキーとして前記単語インデックス記憶手段を参照して得られた同義語IDをキーとして前記同義語インデックス記憶手段を参照して取得した単語頻度情報を用いて算出する検索語一致度計算ステップと、
を行うことを特徴とする情報検索方法。 An index in which an electronic document that is a search range is divided into arbitrary units (hereinafter referred to as “words”) and stored when an electronic document group is searched using a search word (word unit) specified by a user terminal An information search method for calculating the degree of coincidence with the search term with reference to
Synonym table storage means storing a synonym table having information (hereinafter referred to as “synonym ID”) in which words in synonym relations are grouped in advance and ID is assigned to each group;
Word index storage means for storing a word index;
Synonym index storage means for storing a synonym index;
A device having
Analyzing the search range, for each word, combining information such as the appearance frequency in each electronic document (hereinafter referred to as “word frequency information”) and the information of the synonym ID included in the word together with the record of the word An index creation step of creating a word index aggregated as and storing it in the word index storage means;
Creating a synonym index in which word frequency information for each word of the word index of the word index storage unit is aggregated for each synonym ID, and storing the synonym index in the synonym index storage unit;
Using the word frequency information obtained by referring to the synonym index storage means using the synonym ID obtained by referring to the word index storage means using the search word as a key and the degree of coincidence with the search word A search term matching degree calculating step to calculate,
An information retrieval method characterized by:
前記検索語との一致度を計算する際に、検索語をキーとして前記単語インデックス記憶手段を参照し、当該単語の同義語IDに加えて、単語頻度情報も取得しておき、前記同義語インデックス記憶手段を参照して得られた同義語IDの単語頻度情報と併せて、一致度の算出に用いる
請求項4記載の情報検索方法。 In the search term matching degree calculation step,
When calculating the degree of coincidence with the search word, the word index storage means is referenced using the search word as a key, and in addition to the synonym ID of the word, word frequency information is also acquired, and the synonym index The information search method according to claim 4, wherein the information search method is used for calculating the degree of coincidence together with the word frequency information of the synonym ID obtained by referring to the storage unit.
前記単語インデックス記憶手段の情報から各単語頻度情報の集約の際に任意に設定した条件を用いて、情報を取捨選択して前記同義語インデックスとして前記同義語インデックス記憶手段に格納する
請求項4記載の情報検索方法。 In the synonym index creation step,
5. The information is selected and stored in the synonym index storage unit as the synonym index using a condition arbitrarily set at the time of aggregation of each word frequency information from the information of the word index storage unit. Information retrieval method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010057747A JP2011192029A (en) | 2010-03-15 | 2010-03-15 | Information retrieval device, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010057747A JP2011192029A (en) | 2010-03-15 | 2010-03-15 | Information retrieval device, method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011192029A true JP2011192029A (en) | 2011-09-29 |
Family
ID=44796863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010057747A Pending JP2011192029A (en) | 2010-03-15 | 2010-03-15 | Information retrieval device, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011192029A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015029258A1 (en) * | 2013-09-02 | 2015-03-05 | 富士通株式会社 | Information retrieval processing program, device, and method |
JP2016110587A (en) * | 2014-12-10 | 2016-06-20 | 富士通株式会社 | Compression program and retrieval program |
JP2020536265A (en) * | 2017-10-03 | 2020-12-10 | グーグル エルエルシー | Tailoring an interactive dialog application based on the content provided by the author |
-
2010
- 2010-03-15 JP JP2010057747A patent/JP2011192029A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015029258A1 (en) * | 2013-09-02 | 2015-03-05 | 富士通株式会社 | Information retrieval processing program, device, and method |
JPWO2015029258A1 (en) * | 2013-09-02 | 2017-03-02 | 富士通株式会社 | Information search processing program, apparatus, and method |
JP2016110587A (en) * | 2014-12-10 | 2016-06-20 | 富士通株式会社 | Compression program and retrieval program |
JP2020536265A (en) * | 2017-10-03 | 2020-12-10 | グーグル エルエルシー | Tailoring an interactive dialog application based on the content provided by the author |
JP7204690B2 (en) | 2017-10-03 | 2023-01-16 | グーグル エルエルシー | Tailor interactive dialog applications based on author-provided content |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6522136B2 (en) | Personal content item search system and method | |
US8909654B2 (en) | Information search method, apparatus, program and computer readable recording medium | |
KR100462292B1 (en) | A method for providing search results list based on importance information and a system thereof | |
US8903798B2 (en) | Real-time annotation and enrichment of captured video | |
US9146915B2 (en) | Method, apparatus, and computer storage medium for automatically adding tags to document | |
US7818324B1 (en) | Searching indexed and non-indexed resources for content | |
JP5494454B2 (en) | Search result generation method, search result generation program, and search system | |
US20160026727A1 (en) | Generating additional content | |
US9251249B2 (en) | Entity summarization and comparison | |
US20150278366A1 (en) | Identifying topical entities | |
US20090299978A1 (en) | Systems and methods for keyword and dynamic url search engine optimization | |
US8880389B2 (en) | Computer implemented semantic search methodology, system and computer program product for determining information density in text | |
KR20080086868A (en) | Dynamic search with implicit user intention mining | |
WO2012148293A1 (en) | Using feedback reports to determine performance of an application in a geographic location | |
WO2012178152A1 (en) | Methods and systems for retrieval of experts based on user customizable search and ranking parameters | |
US9009192B1 (en) | Identifying central entities | |
US20160357857A1 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
US8548989B2 (en) | Querying documents using search terms | |
US20200278989A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
US20070112815A1 (en) | Hierarchy-based propagation of contribution of documents | |
US11745093B2 (en) | Developing implicit metadata for data stores | |
JP2011192029A (en) | Information retrieval device, method and program | |
JP2010123036A (en) | Document retrieval device, document retrieval method and document retrieval program | |
JP2006243861A (en) | History creating apparatus, action history creating method, and action history creating program | |
JP2011170583A (en) | Information search apparatus, information search method and information search program |