JP2010257155A - Information retrieval device, method, program, and computer-readable recording medium - Google Patents
Information retrieval device, method, program, and computer-readable recording medium Download PDFInfo
- Publication number
- JP2010257155A JP2010257155A JP2009105642A JP2009105642A JP2010257155A JP 2010257155 A JP2010257155 A JP 2010257155A JP 2009105642 A JP2009105642 A JP 2009105642A JP 2009105642 A JP2009105642 A JP 2009105642A JP 2010257155 A JP2010257155 A JP 2010257155A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- sentence
- information search
- output order
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、情報検索装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、インターネット上の検索エンジンをはじめとする情報検索システムにおいて、複数の文章が含まれる文書について文章の言語特性を反映した検索を行うための情報検索装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。 The present invention relates to an information search apparatus and method, a program, and a computer-readable recording medium. In particular, in an information search system such as a search engine on the Internet, the linguistic characteristic of a sentence is determined for a document including a plurality of sentences. The present invention relates to an information search apparatus and method for performing a reflected search, a program, and a computer-readable recording medium.
近年、インターネットの普及によって、インターネット上の膨大な文書群から利用者が必要とする情報を適確に検索するシステム及びサービスの重要性が高まっている。一般に検索サービスにおいては、ユーザが入力した検索キーワードが検索対象の文書や該文書に対する別の文書からのリンクアンカーテキストに含まれる数に基づいた、検索キーワードと文書の一致度と、該文書が別の文書からどれだけ参照されているかといった文書の重要度から情報検索の出力順を決定している。 In recent years, with the spread of the Internet, the importance of systems and services for accurately retrieving information required by users from a huge document group on the Internet has increased. In general, in a search service, a search keyword input by a user is based on the number of search keywords and the number of link anchor texts from another document corresponding to the document to be searched, The output order of information retrieval is determined based on the importance of the document such as how many times it is referenced from the document.
検索キーワードと文書の一致度としては、tf-idfやBM25といった単語の統計量を用いた手法が一般的に利用されている。この手法は特定の文書群全体の平均と比較して文書に高い頻度で現われる単語が、該文書を特徴付けるものであるという推定に基づいて、ユーザによって指定された検索キーワードが文書の特徴と一致する度合いが高い文書ほど高い出力順位としている(例えば、非特許文献1参照)。 As a matching degree between a search keyword and a document, a technique using a word statistic such as tf-idf or BM25 is generally used. This approach matches the search keywords specified by the user with document features, based on the assumption that words that appear more frequently in a document compared to the average for a particular group of documents are characteristic of the document. A document with a higher degree has a higher output order (for example, see Non-Patent Document 1).
しかし、現在のインターネットを対象とした情報検索システムでは、検索対象とする文書数があまりに膨大であるため、情報検索ユーザが単一の検索キーワードで検索を行った場合には、ユーザの検索意図と異なった検索結果が多く含まれてしまうため、情報検索ユーザは2語以上の検索キーワードを入力して情報検索を行うことが一般的である。 However, in the current information search system for the Internet, the number of documents to be searched is so large that when an information search user performs a search using a single search keyword, Since many different search results are included, it is common for an information search user to perform an information search by inputting two or more search keywords.
こういった場合に、従来の情報検索システムでは、文書全体を一つの単位として扱うため、複数の異なった主題の文章を含む一つの文書が、情報検索ユーザが入力した複数のキーワードをそれぞれ別の文章に含んでいた場合に、該文書が検索結果に含まれてしまうという問題がある。 In such a case, the conventional information retrieval system treats the entire document as one unit, so that one document including a plurality of different subject texts has different keywords input by the information retrieval user. There is a problem that the document is included in the search result when it is included in the sentence.
典型的なものとして、インターネット上の電子掲示板システムにおいては、複数の筆者によって投稿された複数の文章が1つの文書に含まれていることが一般的であるし、オンライン日記やブログのように、一人の筆者によって書かれた文書であっても複数日分の日記や記事等で異なった主題の文章を複数含む文書も珍しくない。 As a typical example, in an electronic bulletin board system on the Internet, it is common that a plurality of sentences posted by a plurality of authors are included in one document, and like an online diary or blog, Even a document written by one writer is not uncommon for documents containing multiple subjects with different themes, such as diaries and articles for multiple days.
従来の情報検索システムでは、文書中の各単語の出現位置を記録しておいて、各検索キーワードの出現位置同士の距離を算出し、該距離の短いものに高いスコアを与えることによって、上記問題を軽減する手法も存在する。 In the conventional information retrieval system, the occurrence position of each word in the document is recorded, the distance between the appearance positions of each search keyword is calculated, and a high score is given to the short distance, thereby obtaining the above problem. There are also techniques to reduce this.
しかし、この場合には、全文書における全単語の出現位置を記録するために文書検索に用いるインデックスデ−タのデータ量が膨大になるという問題がある。 However, in this case, there is a problem that the data amount of index data used for document search for recording the appearance positions of all words in all documents becomes enormous.
また、複数の検索キーワードが極近い位置に出現したとしても、それが2つの異なる主題の文章にまたがって出現していないということを保証しないという問題がある。 In addition, even if a plurality of search keywords appear in close positions, there is a problem that it is not guaranteed that they do not appear across two different subject sentences.
この問題を解決するために、文書を文の単位に分割し、文書における単語の出現位置情報を単語単位ではなく文単位で記憶する方法(文単位転置インデックス)がある(例えば、非特許文献2参照)。 In order to solve this problem, there is a method (sentence transposition index) in which a document is divided into sentence units, and word appearance position information in the document is stored in sentence units instead of word units (for example, Non-Patent Document 2). reference).
この文単位転置インデックスを用いて、各検索キーワードの出現位置同士の距離を算出し、該距離の短いものに高いスコアを与えるようにすれば、全文書における全単語の出現位置を記録するのに必要なデータ量を削減することができる。 By using this sentence unit transposition index to calculate the distance between the appearance positions of each search keyword and to give a high score to those with a short distance, it is possible to record the appearance positions of all words in all documents. The amount of data required can be reduced.
また、文単位転置インデックを用いて、各検索キーワードの出現位置同士の距離を計算するのではなく、複数単語が同一の文内に出現する文書を検索結果とすると、複数の検索キーワードが異なる主題の文章にまたがって出現していないということを保証できる。 Also, instead of calculating the distance between the appearance positions of each search keyword using a sentence unit transposition index, if a search result is a document in which a plurality of words appear in the same sentence, the plurality of search keywords are different subjects. It can be guaranteed that it does not appear across the sentences.
しかしながら、上記非特許文献2に記載の文単位転置インデックスを用いて、各検索キーワードの出現位置同士の距離を計算するのではなく、複数単語が同一の文内に出現する文書を検索結果とした場合には、検索結果が絞り込み条件がきつくなりすぎてしまい、本来であれば、検索要求に合致する文書が検索結果に含まれなくなるという問題がある。
However, instead of calculating the distance between the appearance positions of each search keyword using the sentence unit transposed index described in
本発明は、上記の点に鑑みなされたもので、検索要求として複数のキーワードが指定された場合に、当該キーワード全てを含む特定ブロックを有する文書を情報検索結果として出力することが可能な情報検索装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。 The present invention has been made in view of the above points, and when a plurality of keywords are specified as a search request, an information search capable of outputting a document having a specific block including all the keywords as an information search result. An object is to provide an apparatus, a method, a program, and a computer-readable recording medium.
図1は、本発明の原理構成図である。 FIG. 1 is a principle configuration diagram of the present invention.
本発明(請求項1)は、Webページに代表される文書情報を検索対象とし、入力された各文書を文章ブロックに分割し、ブロック記憶手段11に格納するブロック分割手段2と、検索要求として複数のキーワードが指定された場合に、該キーワード全てを含む特定の文章ブロックを有する文書を情報検索結果として出力する検索手段6と、を有する情報検索装置であって、
文章ブロックの言語的特徴を算出し、言語特徴記憶手段12に格納する言語特徴算出手段4と、
言語特徴記憶手段12に格納されている言語特徴を情報検索結果の出力順を決定するパラメータとして用いて、検索手段6により検索された情報検索結果の出力順を決定する出力順序決定手段5と、を有する。
The present invention (Claim 1) uses document information represented by a Web page as a search target, divides each inputted document into sentence blocks, and stores them in the block storage means 11 as a search request. A
Language feature calculating means 4 for calculating linguistic features of the sentence block and storing them in the language feature storage means 12;
An output order determining means 5 for determining the output order of the information search results searched by the search means 6 using the language features stored in the language feature storage means 12 as a parameter for determining the output order of the information search results; Have
また、本発明(請求項2)の出力順序決定手段5は、ブロック分割手段2で分割された文章ブロックの文書長を言語特徴とする手段を含む。
Further, the output order determination means 5 of the present invention (Claim 2) includes means for characterizing the document length of the sentence block divided by the block dividing
また、本発明(請求項3)は、言語特徴を格納した言語特徴記憶手段と、
文章ブロックに含まれる文において、言語特徴記憶手段に登録された言語特徴と一致する言語特徴を計算する言語特徴計算手段と、を更に有し、
出力順序決定手段5は、言語特徴計算手段で計算された言語特徴を、情報検索結果の出力順を決定するパラメータとして用いる。
The present invention (Claim 3) includes language feature storage means for storing language features;
Language features calculating means for calculating language features that match the language features registered in the language feature storage means in the sentence included in the sentence block;
The output order determination means 5 uses the language features calculated by the language feature calculation means as parameters for determining the output order of the information search results.
また、本発明(請求項4)の言語特徴記憶手段は、言語特徴として文の文末表現を格納する。 The language feature storage means of the present invention (Claim 4) stores a sentence end expression as a language feature.
また、本発明(請求項5)の言語特徴記憶手段は、言語特徴として、文章ブロックの評価表現を格納する。 The language feature storage means of the present invention (Claim 5) stores an evaluation expression of a sentence block as a language feature.
図2は、本発明の原理を説明するための図である。 FIG. 2 is a diagram for explaining the principle of the present invention.
本発明(請求項6)は、Webページに代表される文書情報を検索対象とし、入力された各文書を文章ブロックに分割し(ステップ1)、検索要求として複数のキーワードが指定された場合に(ステップ3)、該キーワード全てを含む特定の文章ブロックを有する文書を検索して(ステップ4)情報検索結果として出力する情報検索方法であって、
文章ブロックの言語的特徴を算出し、言語特徴記憶手段に格納する言語特徴算出ステップ(ステップ2)と、
言語特徴記憶手段に格納されている言語特徴を情報検索結果の出力順を決定するパラメータとして用いて、検索手段により検索された情報検索結果の出力順を決定する出力順序決定ステップ(ステップ5)と、を行う。
The present invention (Claim 6) uses document information represented by a Web page as a search target, divides each input document into sentence blocks (step 1), and a plurality of keywords are specified as a search request. (Step 3) An information retrieval method for retrieving a document having a specific sentence block including all the keywords (Step 4) and outputting it as an information retrieval result,
A linguistic feature calculating step (step 2) for calculating a linguistic feature of the sentence block and storing it in the linguistic feature storage means;
An output order determining step (step 5) for determining the output order of the information search results searched by the search means using the language features stored in the language feature storage means as a parameter for determining the output order of the information search results; ,I do.
本発明(請求項7)は、出力順序決定ステップにおいて、分割された文章ブロックの文書長を言語特徴とし、情報検索結果の出力順を決定するパラメータとして利用する。 According to the present invention (Claim 7), in the output order determination step, the document length of the divided text block is used as a language feature, and is used as a parameter for determining the output order of the information search results.
本発明(請求項8)は、請求項1乃至5の何れか1項に記載の情報検索装置を構成する各手段としてコンピュータを機能させるための情報検索プログラムである。
The present invention (Claim 8) is an information search program for causing a computer to function as each means constituting the information search apparatus according to any one of
本発明(請求項9)は、請求項8記載の情報検索定プログラムを格納したコンピュータ読み取り可能な記録媒体である。 The present invention (Claim 9) is a computer-readable recording medium storing the information retrieval program according to Claim 8.
上記のように、請求項1、6に係る発明によれば、インターネット上の掲示電子版システムのように複数の筆者によって投稿された複数の文章が含まれる文書や、オンライン日記やブログのように、一人の筆者によって書かれた複数日分の日記や記事等で異なった主題の文章を複数含む文書で、別々の文章ブロックに複数の検索キーワードがそれぞれ含まれるものを検索結果から排除することが可能となる。
As described above, according to the inventions according to
また、請求項2、7に係る発明によれば、従来手法のBM25のように検索要求に対する文書の評価スコアを文書全体の長さによって正規化するのではなく、検索キーワードが含まれた文章ブロックの長さによって正規化できるため、よりユーザの直感に合致した検索結果を提供できる。例えば、文書全体の長さを利用するBM25では、長い文書と短い文書に同じ数だけ検索キーワードが出現した場合には短い文書の評価スコアが高くなる。しかし、複数の主題に関する文章が含まれた文章では、長い文書と短い文書の間で検索キーワードが含まれる文章ブロックの長さが逆転している場合もあり得るため、従来手法ではユーザの直感に合致しない検索結果となってしまう。本発明では、文書の評価スコアは検索キーワードが含まれた文章ブロックの長さによって正規化するため、この問題が解決できる。
Further, according to the inventions according to
また、請求項3に係る発明によれば、検索キーワードが含まれた文章ブロックの言語的特長に基づく評価による検索結果ランキングを検索ユーザに提供できる。 According to the third aspect of the invention, it is possible to provide a search user with a search result ranking based on evaluation based on the linguistic features of a sentence block including a search keyword.
また、請求項4に係る発明によれば、検索キーワードが含まれた文章ブロックの文末表現の特徴に基づく評価による検索結果ランキングを検索ユーザに提供できる。文末表現からは「である。」「かな?」といった文章の筆者の確信度の違いや、「いたしました。」「じゃん。」といった文のくだけ具合の違いを反映した検索結果ランキングを実現できる。 According to the invention of claim 4, it is possible to provide the search user with the search result ranking based on the evaluation based on the feature of the sentence end expression of the sentence block including the search keyword. From the end of the sentence expression, it is possible to realize a search result ranking that reflects the difference in the author's confidence in the sentences such as “is” and “kana?” And the difference in the state of the sentences such as “I did” and “Jan.” .
また、請求項5に係る発明によれば、検索キーワードが含まれた文章ブロックの評価表現の特徴に基づく評価による検索結果ランキングを検索ユーザに提供できる。評価表現からは「美味しい」「まずい」「良かった」「悪かった」といった肯定的か否定的かという特徴を反映した検索結果ランキングを実現できる。
According to the invention of
上記のように、本発明によれば、単語や文を単位とした転置リストに基づく方法と比較して全文検索インデックスのサイズを小さく抑えられるだけでなく、複数の検索キーワードによる検索において、複数の主題の文章が組み合わさった文書を誤って検索結果に含まれることを抑制できる。さらに、文書を分割したブロックを単位として、そのブロックの確信度や評価表現といった言語特徴を検索結果出力順位を決定する際のパラメータとして利用することで、より確信度の高い文章の優先度を高くして出力したり、ポジティブな表現を多く含む文章の優先度を高くして出力するといった多様な検索結果出力方法が可能となる。 As described above, according to the present invention, the size of the full-text search index can be reduced as compared with the method based on the transposed list in units of words and sentences. It is possible to prevent a search result from erroneously including a document in which the subject sentence is combined. Furthermore, by using the language features such as confidence level and evaluation expression of the block divided as a unit as a parameter when determining the search result output order, the priority of sentences with higher confidence level is increased. A variety of search result output methods are possible, such as output with high priority and sentences with high positive expressions.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図3は、本発明の一実施の形態における情報検索装置の構成を示す。 FIG. 3 shows the configuration of the information retrieval apparatus in one embodiment of the present invention.
同図に示す情報検索装置10は、Web文書入力部1、ブロック分割部2、インデックス部3、確信度計算部4、総合ランキング計算部5、キーワード一致部6、文書インデックス記憶部11、ブロック確信度記憶部12、確信度表現記憶部13を有する。
The
文書インデックス記憶部11は、インデックス部3で生成されたインデックを格納する記憶媒体である。
The document
ブロック確信度記憶部12は、確信度計算部4で求められた確信度を格納する。
The block certainty
確信度表現記憶部13は、文の書き手がどの程度確信を持って文を記述しているかを数値化した確信度を文末表現毎に割り付けたテーブルを有する記憶媒体である。
The certainty factor
Web文書入力部1は、検索対象のWeb文書21,22を入力し、ブロック分割部2に渡す。ここで、Web文書とは、インターネット上の電子掲示板に投稿された複数の文章が含まれる文書や、ブログ等の異なる主題の文章を含む文書を指す。入力されたWeb文書の例を図4に示す。
The Web
ブロック分割部2は、入力されたWeb文書を複数の文章ブロックに分割し、分割された各文章をインデックス部3と確信度計算部4に渡す。
The
インデックス部3は文章ブロックを全文検索用の単位に分割して文書インデックス記憶部11に格納する。文書インデックス記憶部11の例を図5に示す。
The
確信度計算部4は、ブロック分割部2から取得した文章ブロックの文末表現について、図6に示す確信度表現記憶部13を参照して、当該文章ブロック全体の確信度を計算し、図7に示すように、文章ブロック毎にブロック確信度をブロック確信度記憶部12に格納する。なお、本実施の形態では、各文章ブロックの言語特徴として、確信度を用いる例を示すが、この例に限定されることなく、種々の評価表現を用いることも可能である。
The certainty factor calculation unit 4 calculates the certainty factor of the entire sentence block with reference to the certainty factor
キーワード一致度計算部6は、情報検索端末30と接続され、当該情報検索端末30から入力された検索キーワードを取得して、文書インデックス記憶部11を参照して、当該検索キーワードを含む文章ブロックを取得し、検索キーワードとの一致度を計算し、総合ランキング計算部5に渡す。
The keyword matching
総合ランキング計算部5は、キーワード一致度計算部6で求められた一致度とブロック確信度記憶部12を参照して得た文章ブロックの確信度を統合して、情報検索結果の出力順位を決定して情報検索結果を情報検索端末30に出力する。
The general
上記の構成の一連の動作を以下に説明する。 A series of operations of the above configuration will be described below.
図8は、本発明の一実施の形態における情報検索装置のフローチャートである。 FIG. 8 is a flowchart of the information search device in one embodiment of the present invention.
ステップ101) Web文書入力部1は、Web文書21,22を取得し、ブロック分割部2に渡す。ブロック分割部2は、Web文書21,22を文章ブロック単位に分割する。分割の方法はWeb文書のhtmlフォーマットの構造に基づいてもよいし、文書を表示した際のレイアウトに基づいてもよく、その他いかなる方法でも本発明の本質には関わらない。この例ではWeb文書21は文書の頭から「である。」までのブロック21−1と、残りの21−2に分割され、Web文書22は文書の頭から「と思う。」までのブロック22−1と、残りの22−2に分割されたものとして説明する。
Step 101) The Web
ステップ102) ブロック分割部2から文章ブロックを取得したインデックス部3は、文章ブロックを単語やn-gram、サフィックスアレイといった全文検索用の単位に分割して文書インデックス記憶部11に格納する。作成する文書インデックスの形式は、上記の他にいかなる形式であっても本発明の本質には関わらない。この例では、単語によるインデックスの一例として、単語「猫」が文章ブロック21−1,22−1を含む文書に出現している文書インデックスが作成されている。当該インデックスには通常の全文検索インデックスに含まれるtfやidf、htmlによる単語のマークアップ情報等が含まれていてもよいが、本発明の本質には関係しないため詳細は省略する。
Step 102) The
ステップ103) 確信度計算部5は、ブロック分割部2から文章ブロックを取得して、当該文章ブロックに含まれる各文の文末表現を、確信度表現記憶部14と照らし合わせ、当該文章ブロック全体としての確信度を計算し、ブロック確信度記憶部12に格納する。図6の例では、文章ブロック21−1を構成する2つの文「…シンガプーラ…だ。」、「…猫…である。」それぞれの文末表現「だ。」、「である。」の確信度8.0と7.5を平均して、文章ブロック21−1の確信度を7.75としてブロック確信度記憶部12に記録している。文章ブロック全体の確信度の計算方法は、平均に限らず、中心値や最頻値やその他文毎に異なった加重を掛けた線形結合等、どういった方法によるかは本発明の本質に関わらない。
Step 103) The certainty
ステップ104) 情報検索ユーザは情報検索端末30から1つまたは複数の検索キーワードを入力して情報検索システムに情報検索要求を送信する。
Step 104) The information search user inputs one or a plurality of search keywords from the
ステップ105) キーワード一致度計算部6は、入力された検索キーワードを用いて文書インデックス記憶部11を参照し、検索キーワードを含むブロックをリストアップし、それらの検索キーワードとの一致度をtf・idfやBM25といった方法で算出する。
Step 105) The keyword matching
ステップ106) 総合ランキング計算部5は、ステップ105で求められた一致度とブロック確信度記憶部12を参照して取得した文章ブロックの確信度を統合して情報検索端末30に返却する情報検索結果の出力順を決定する。例えば、『猫』と『シンガプーラ』の2単語を指定した情報検索要求では文章ブロック21−1と文章ブロック22−1とが両方のキーワードを含む検索結果として出力されるが、仮にキーワード一致度計算部6によるキーワード一致度算出結果が文章ブロック21−1と、文章ブロック22−1とで全く同一であった場合は、より高い確信度を持つ文章ブロック21−1が文章ブロック22−1より優先される。
Step 106) The comprehensive
ステップ107) 統合ランキング計算部5は、決定された順序に従って検索結果(上位N件)を情報検索端末30に出力する。
Step 107) The integrated
上記の情報検索装置の図3に示す構成要素の動作をプログラムとして構築し、情報検索装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。 The operations of the components shown in FIG. 3 of the information search device described above can be constructed as a program, installed in a computer used as the information search device, executed, or distributed via a network.
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。 Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
本発明は、インターネット上の電子掲示板システムや、オンライン日記、ブログ等の様に利用者によって投稿された文章を複数含む文書を検索対象として検索を行う技術に適用可能である。 The present invention can be applied to a technique for performing a search using a document including a plurality of sentences posted by a user, such as an electronic bulletin board system on the Internet, an online diary, and a blog.
1 Web文書入力部
2 ブロック分割手段、ブロック分割部
3 インデックス部
4 言語特徴算出手段、確信度計算部
5 出力順序決定手段、統合ランキング計算部
6 検索手段、キーワード一致度計算部
10 情報検索装置
11 ブロック記憶手段、文書インデックス記憶部
12 言語特徴記憶手段、ブロック確信度記憶部
13 確信度表現記憶部
21、22 Web文書
30 情報検索端末
DESCRIPTION OF
Claims (9)
前記文章ブロックの言語的特徴を算出し、言語特徴記憶手段に格納する言語特徴算出手段と、
前記言語特徴記憶手段に格納されている言語特徴を情報検索結果の出力順を決定するパラメータとして用いて、前記検索手段により検索された情報検索結果の出力順を決定する出力順序決定手段と、
を有することを特徴とする情報検索装置。 When document information represented by a Web page is a search target, each input document is divided into sentence blocks, stored in a block storage means, and when a plurality of keywords are specified as a search request, A search means for outputting a document having a specific sentence block including all keywords as an information search result, and an information search device comprising:
Linguistic feature calculating means for calculating a linguistic feature of the sentence block and storing it in a linguistic feature storing means;
An output order determination means for determining the output order of the information search results searched by the search means, using the language features stored in the language feature storage means as parameters for determining the output order of the information search results;
An information retrieval apparatus comprising:
前記ブロック分割手段で分割された前記文章ブロックの文書長を前記言語特徴とする手段を含む
請求項1記載の情報検索装置。 The output order determining means includes
The information search apparatus according to claim 1, further comprising means for defining the document length of the sentence block divided by the block dividing means as the language feature.
前記文章ブロックに含まれる文において、前記言語特徴記憶手段に登録された言語特徴と一致する言語特徴を計算する言語特徴計算手段と、を更に有し、
前記出力順序決定手段は、
前記言語特徴計算手段で計算された言語特徴を、前記情報検索結果の出力順を決定するパラメータとして用いる
請求項1または2記載の情報検索装置。 Linguistic feature storage means for storing linguistic features;
Language features calculating means for calculating linguistic features that match the language features registered in the language feature storage means in the sentence included in the sentence block;
The output order determining means includes
The information search device according to claim 1 or 2, wherein the language feature calculated by the language feature calculation means is used as a parameter for determining an output order of the information search result.
前記言語特徴として文の文末表現を格納する
請求項3記載の情報検索装置。 The language feature storage means includes
The information retrieval apparatus according to claim 3, wherein a sentence end expression is stored as the language feature.
前記言語特徴として、文章ブロックの評価表現を格納する
請求項3記載の情報検索装置。 The language feature storage means includes
The information search device according to claim 3, wherein an evaluation expression of a sentence block is stored as the language feature.
前記文章ブロックの言語的特徴を算出し、言語特徴記憶手段に格納する言語特徴算出ステップと、
前記言語特徴記憶手段に格納されている言語特徴を情報検索結果の出力順を決定するパラメータとして用いて、前記検索手段により検索された情報検索結果の出力順を決定する出力順序決定ステップと、
を行うことを特徴とする情報検索方法。 Document information represented by a Web page is a search target, each input document is divided into text blocks, and when a plurality of keywords are specified as a search request, a document having a specific text block including all of the keywords Is an information search method for outputting as an information search result,
Calculating a linguistic feature of the sentence block and storing it in a linguistic feature storage means;
An output order determination step for determining the output order of the information search results searched by the search means, using the language features stored in the language feature storage means as parameters for determining the output order of the information search results;
An information retrieval method characterized by:
分割された前記文章ブロックの文書長を前記言語特徴とし、情報検索結果の出力順を決定するパラメータとして利用する
請求項6記載の情報検索方法。 The output order determining step includes:
The information search method according to claim 6, wherein a document length of the divided text block is used as the language feature and is used as a parameter for determining an output order of information search results.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009105642A JP2010257155A (en) | 2009-04-23 | 2009-04-23 | Information retrieval device, method, program, and computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009105642A JP2010257155A (en) | 2009-04-23 | 2009-04-23 | Information retrieval device, method, program, and computer-readable recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010257155A true JP2010257155A (en) | 2010-11-11 |
Family
ID=43318000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009105642A Pending JP2010257155A (en) | 2009-04-23 | 2009-04-23 | Information retrieval device, method, program, and computer-readable recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010257155A (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04281565A (en) * | 1991-03-08 | 1992-10-07 | Toshiba Corp | Document retrieving device |
JP2003157271A (en) * | 2001-11-20 | 2003-05-30 | Mitsubishi Electric Corp | Device and method for mining text |
JP2004054882A (en) * | 2002-05-27 | 2004-02-19 | Ricoh Co Ltd | Synonym retrieval device, method, program and storage medium |
JP2008097286A (en) * | 2006-10-11 | 2008-04-24 | Nippon Telegr & Teleph Corp <Ntt> | Apparatus for retrieving opinion sentence, method for retrieving opinion sentence, program for retrieving opinion sentence, and recording medium recording the program |
JP2008305322A (en) * | 2007-06-11 | 2008-12-18 | C2Cube Inc | Reputation corpus generation device, target information corpus generation device, server device, virtual chat device and program |
-
2009
- 2009-04-23 JP JP2009105642A patent/JP2010257155A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04281565A (en) * | 1991-03-08 | 1992-10-07 | Toshiba Corp | Document retrieving device |
JP2003157271A (en) * | 2001-11-20 | 2003-05-30 | Mitsubishi Electric Corp | Device and method for mining text |
JP2004054882A (en) * | 2002-05-27 | 2004-02-19 | Ricoh Co Ltd | Synonym retrieval device, method, program and storage medium |
JP2008097286A (en) * | 2006-10-11 | 2008-04-24 | Nippon Telegr & Teleph Corp <Ntt> | Apparatus for retrieving opinion sentence, method for retrieving opinion sentence, program for retrieving opinion sentence, and recording medium recording the program |
JP2008305322A (en) * | 2007-06-11 | 2008-12-18 | C2Cube Inc | Reputation corpus generation device, target information corpus generation device, server device, virtual chat device and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8972413B2 (en) | System and method for matching comment data to text data | |
Hoffart et al. | Robust disambiguation of named entities in text | |
Xiong et al. | Towards better text understanding and retrieval through kernel entity salience modeling | |
Hsu et al. | Integrating high dimensional bi-directional parsing models for gene mention tagging | |
Li et al. | Kernel‐based learning for biomedical relation extraction | |
JP5273735B2 (en) | Text summarization method, apparatus and program | |
Li et al. | A generalized hidden markov model with discriminative training for query spelling correction | |
Bhaskar et al. | Keyphrase extraction in scientific articles: A supervised approach | |
JP5399450B2 (en) | System, method and software for determining ambiguity of medical terms | |
JP2010128677A (en) | Text summarization apparatus, method therefor, and program | |
Atwan et al. | Semantically enhanced pseudo relevance feedback for Arabic information retrieval | |
Gorrell et al. | Using@ Twitter conventions to improve# LOD-based named entity disambiguation | |
US9507767B2 (en) | Caching of deep structures for efficient parsing | |
US20120124060A1 (en) | Method and system of identifying adjacency data, method and system of generating a dataset for mapping adjacency data, and an adjacency data set | |
Dalton et al. | Local and global query expansion for hierarchical complex topics | |
Musa et al. | Syllabification algorithm based on syllable rules matching for Malay language | |
JP2013222418A (en) | Passage division method, device and program | |
Paris et al. | Linking spatial named entities to the Web of data for geographical analysis of historical texts | |
JP7122773B2 (en) | DICTIONARY CONSTRUCTION DEVICE, DICTIONARY PRODUCTION METHOD, AND PROGRAM | |
CN114385777A (en) | Text data processing method and device, computer equipment and storage medium | |
JP2010257155A (en) | Information retrieval device, method, program, and computer-readable recording medium | |
JP2014191777A (en) | Word meaning analysis device and program | |
Ishigaki et al. | Distant supervision for extractive question summarization | |
Tran et al. | Document chunking and learning objective generation for instruction design | |
JP2015103101A (en) | Text summarization device, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110825 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130521 |