JP2006065387A - Text sentence search device, method, and program - Google Patents
Text sentence search device, method, and program Download PDFInfo
- Publication number
- JP2006065387A JP2006065387A JP2004243739A JP2004243739A JP2006065387A JP 2006065387 A JP2006065387 A JP 2006065387A JP 2004243739 A JP2004243739 A JP 2004243739A JP 2004243739 A JP2004243739 A JP 2004243739A JP 2006065387 A JP2006065387 A JP 2006065387A
- Authority
- JP
- Japan
- Prior art keywords
- text sentence
- word
- semantic
- weight
- chunk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、例えば計算機を利用してテキスト文を検索するテキスト文検索装置、検索方法、及びテキスト文検索プログラムに係り、特に、テキスト文の意味内容を考慮したテキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラムに関する。 The present invention relates to a text sentence search device, a search method, and a text sentence search program for searching for a text sentence using, for example, a computer, and more particularly to a text sentence search device and a text sentence search method in consideration of the semantic content of a text sentence. And a text sentence search program.
情報処理技術とインターネットの発展に伴い、各種の情報資源は予想以上の速度で増加している。このような情報洪水の中から、如何にしてユーザに必要な情報を取り出して提供するのかが大きな課題となっている。 With the development of information processing technology and the Internet, various information resources are increasing faster than expected. In such a flood of information, how to extract and provide necessary information to the user is a big issue.
その他、例文ベース機械翻訳においては、例文データベースから翻訳対象テキスト文と最も類似している例文を高速かつ高精度に検索することが必要である。翻訳対象テキスト文とよく似ている例文を見つければ、その例文の訳文を利用して翻訳対象テキスト文の訳文を容易に生成できる。従って、検索精度は翻訳の精度に左右し、高精度な高速検索技術は、機械翻訳として重要な技術の一つである。 In addition, in example sentence-based machine translation, it is necessary to retrieve an example sentence most similar to the text to be translated from the example sentence database at high speed and with high accuracy. If an example sentence that closely resembles the translation target text sentence is found, the translation sentence of the translation target text sentence can be easily generated using the translation of the example sentence. Therefore, the search accuracy depends on the accuracy of translation, and high-speed high-speed search technology is one of important technologies for machine translation.
計算機を用いた情報検索の主な手法として、(1)検索キーワードを用いた検索手法、(2)統計技術を用いたベクトル空間法(Vector Space Model:VSM)などがあった。ベクトル空間法VSMでは、テキスト文書をベクトル特徴量で表現し、例えば、TF*IDF(Term Frequency* Inverted Document Frequency)値をベクトル特徴量とする方法であり、ベクトル特徴量間の類似度を用いてテキスト間の類似度を求める。 There are (1) a search method using a search keyword and (2) a vector space method (Vector Space Model: VSM) using a statistical technique as main methods of information search using a computer. In the vector space method VSM, a text document is expressed by a vector feature amount, for example, a TF * IDF (Term Frequency * Inverted Document Frequency) value is used as a vector feature amount, and the similarity between the vector feature amounts is used. Find the similarity between texts.
しかしながら、ベクトル空間法は統計理論に基づく技術であり、テキストの意味内容に基づく検索方法ではないので検索の精度に限界があり、例文ベース機械翻訳に対応できない、という問題があった。 However, the vector space method is a technique based on statistical theory, and is not a search method based on the semantic content of text. Therefore, there is a limit to the accuracy of search, and there is a problem that it cannot cope with example sentence-based machine translation.
テキスト文の意味情報はテキスト文の内容を表し、構文構造、文の形式に影響されないため、意味情報を用いた情報比較、或いは検索の研究が成されている。例えば、非特許文献1には、格文法でテキストの意味関係を表し、木のマッチング方法で意味関係を比較する方法が記載されている。しかしながら、この方法の検索精度はベクトル空間法より低い、という問題がった。
Since the semantic information of the text sentence represents the content of the text sentence and is not affected by the syntax structure or the form of the sentence, research on information comparison or retrieval using the semantic information has been conducted. For example, Non-Patent
また、非特許文献2には、部分関係マッチングの方法とベクトル空間法とを融合した方法が記載されている。しかしながら、この方法は、ベクトル空間法と比べて検索カバー率は優れるものの、検索精度が低い、という問題があった。
Non-Patent
また、非特許文献3には、テキスト文の因果関係を利用した検索方法が記載されている。しかしながら、この方法は、基本的にはキーワード検索の改良方法であり、例文ベース機械翻訳に必要な高精度なテキスト文検索に対応できない、という問題があった。
Non-Patent
また、特許文献1には、類義語の関係にある複数の種類の単語を1種類の単語とみなして、その単語の出現頻度を含むベクトルデータ(更新ベクトルデータ)を作成し、このベクトルデータにより検索キー文書と検索対象文書間の類似度を計算する技術が記載されている。この技術によれば、同じ意味を持ちながら表記が異なる単語が1文書中に混在する場合、或いは、比較される各文書に含まれる単語が同じ意味を持ちながら表記が異なる場合でも、信頼性の高い類似文書検索を実現することができる。
Further, in
また、特許文献2には、入力された文字列を分かち書きし、形態素情報を付与するとともに、前記形態素情報を基にして文節間の係り受け関係を解析し、この解析結果から文構造を決定し、この文構造から索引を抽出すると共に索引の重要度を付与し、入力文書と蓄積されている文書との類似度を索引の類似度と係り受け関係の類似度から判定する技術が記載されている。
In
また、特許文献3には、入力された日本語文書を知識ベースを用いて構文解析/意味解析/文脈解析の日本語解析を行い、一定の正規化した命題形式の深層構造で表現し、質問文の深層構造とテーマとの意味照合を行い、当該意味照合に適合したテーマ及び当該テーマと関係するテーマ配下の深層構造との意味照合を行い、当該意味照合に適合した深層構造を持つ文書を出力する技術が記載されている。
しかしながら、特許文献1〜3に記載された技術では、意味内容を考慮して高精度にテキスト文を検索することができない場合がある、という問題があった。
However, the techniques described in
本発明は上記事実を考慮して成されたものであり、テキスト文の意味内容を考慮して高精度にテキスト文を検索することができるテキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラムを得ることを目的とする。 The present invention has been made in consideration of the above facts, a text sentence search device, a text sentence search method, and a text sentence search capable of searching a text sentence with high precision in consideration of the semantic content of the text sentence. The purpose is to obtain a program.
上記目的を達成するために、請求項1に記載の発明のテキスト文検索装置は、質問テキスト文を単語に切り分けると共に、切り分けた単語に品詞を付与し、単語切り分け・品詞付与データを生成する単語切り分け・品詞付与手段と、前記単語切り分け・品詞付与データに基づいて、前記質問テキスト文に含まれる意味チャンク、前記意味チャンクの中心単語、及び前記意味チャンクの格を解析する構文・意味解析手段と、検索対象のテキスト文集合に出現する単語の各々についての前記検索対象のテキスト文集合に出現する頻度を表す出現頻度データが予め記憶された出現頻度データ記憶手段と、前記意味チャンクの格に基づいて、当該意味チャンクに含まれる単語の意味チャンク重み及び中心単語重みの少なくとも一方を設定する設定手段と、前記質問テキスト文に含まれる単語についての前記出現頻度データと、前記意味チャンク重み及び前記中心単語重みの少なくとも一方と、に基づいて、前記質問テキスト文に含まれる単語の重みを各々算出することにより前記質問テキスト文の意味ベクトル特徴量を生成する特徴量生成手段と、前記検索対象のテキスト文集合の各テキスト文の意味ベクトル特徴量を予め記憶した意味ベクトル特徴量記憶手段と、前記質問テキスト文の意味ベクトル特徴量と検索対象のテキスト文の意味ベクトル特徴量とに基づいて、前記質問テキスト文と前記検索対象のテキスト文との類似度を計算する類似度計算手段と、を備えたことを特徴とする。
In order to achieve the above object, a text sentence search device according to
この発明よれば、単語切り分け・品詞付与手段は、質問テキスト文を単語に切り分け、切り分けられた各単語に名詞、動詞、助詞等の品詞を付与する。 According to this invention, the word segmentation / part-of-speech giving means segmentes the question text sentence into words, and gives part-of-speech such as a noun, verb, particle, etc. to each segmented word.
構文・意味解析手段は、単語切り分け・品詞付与手段により生成された単語切り分け・品詞付与データに基づいて、質問テキスト文に含まれる意味チャンク、意味チャンクの中心単語、及び意味チャンクの格を解析する。ここで、意味チャンクとは一つのまとまった意味を構成する単語の集まりである。また、中心単語とは、意味チャンクの中で意味内容として重要な役割を果たす単語である。中心単語は、意味チャンクの中に一つ又は複数存在する。また、格とは例えば動作主、述語の対象等、単語の意味格を表すものである。 The syntax / semantic analysis unit analyzes the semantic chunk, the central word of the semantic chunk, and the case of the semantic chunk included in the question text sentence based on the word segmentation / part of speech assignment data generated by the word segmentation / part of speech assignment unit. . Here, the semantic chunk is a collection of words constituting a single meaning. The central word is a word that plays an important role as semantic content in the semantic chunk. One or more central words exist in the semantic chunk. The case represents a semantic case of a word, such as an operation subject or a predicate target.
出現頻度データ記憶手段は、検索対象のテキスト文集合、すなわち質問テキスト文の比較対象である複数のテキスト文に出現する単語の各々について算出された出現頻度データを予め記憶している。出現頻度データは、検索対象のテキスト文集合に出現する単語がそのテキスト文集合に出現する頻度を表すデータである。 The appearance frequency data storage means stores in advance appearance frequency data calculated for each of the words appearing in a plurality of text sentences that are comparison targets of the text sentence set to be searched, that is, the question text sentence. The appearance frequency data is data representing the frequency with which words appearing in the text sentence set to be searched appear in the text sentence set.
設定手段は、構文・意味解析手段により解析された意味チャンクの格に基づいて、当該意味チャンクに含まれる単語の意味チャンク重み及び中心単語重みの少なくとも一方を設定する。具体的には、例えば重要度に応じて格を複数のクラスに予め分類し、この格の重要度に応じて意味チャンク重み及び中心単語重みが設定される。 The setting means sets at least one of a semantic chunk weight and a central word weight of a word included in the semantic chunk based on the case of the semantic chunk analyzed by the syntax / semantic analysis means. Specifically, for example, cases are classified into a plurality of classes according to importance, and semantic chunk weights and central word weights are set according to the importance of the cases.
特徴量生成手段は、質問テキスト文に含まれる各単語の出現頻度データを出現頻度データ記憶手段から読み出し、読み出した出現頻度データと、設定手段によって設定された意味チャンクに含まれる単語の意味チャンク重み及び中心単語重みの少なくとも一方と、に基づいて、質問テキスト文に含まれる単語の重みを各々算出する。このように算出された各単語の重みによって質問テキスト文の意味ベクトル特徴量が構成される。 The feature quantity generation means reads appearance frequency data of each word included in the question text sentence from the appearance frequency data storage means, and the read appearance frequency data and the semantic chunk weight of the word included in the semantic chunk set by the setting means And the weights of the words included in the question text sentence are calculated based on at least one of the central word weights. The meaning vector feature amount of the question text sentence is constituted by the weight of each word thus calculated.
意味ベクトル特徴量記憶手段は、検索対象のテキスト文集合の各テキスト文の意味ベクトル特徴量を予め記憶している。検索対象のテキスト文集合の各テキスト文の意味ベクトル特徴量は、質問テキスト文の意味ベクトル特徴量を生成するのと同様にして生成されたものを用いることができる。 The semantic vector feature amount storage means stores in advance the semantic vector feature amount of each text sentence in the set of text sentences to be searched. As the semantic vector feature amount of each text sentence in the set of text sentences to be searched, those generated in the same manner as generating the semantic vector feature quantity of the question text sentence can be used.
類似度計算手段は、特徴量生成手段によって生成された質問テキスト文の意味ベクトル特徴量と、意味ベクトル特徴量記憶手段に記憶された検索対象のテキスト文の意味ベクトル特徴量とに基づいて、質問テキスト文と検索対象のテキスト文との類似度を計算する。 The similarity calculation unit is configured to calculate a question based on the meaning vector feature amount of the question text sentence generated by the feature amount generation unit and the meaning vector feature amount of the text sentence to be searched stored in the meaning vector feature amount storage unit. The similarity between the text sentence and the text sentence to be searched is calculated.
このように、本発明によれば、意味チャンクの格の重要度に応じて設定された意味チャンク重みや中心単語重みが考慮されて意味ベクトル特徴量が生成されるため、意味内容を適切に考慮した類似度計算を行うことができ、質問テキスト文に類似するテキスト文を高精度に検索することが可能となる。 As described above, according to the present invention, the semantic chunk feature weight and the central word weight set in accordance with the significance level of the semantic chunk are taken into consideration to generate the semantic vector feature amount, so that the semantic content is appropriately considered. Similarity calculation can be performed, and a text sentence similar to the question text sentence can be searched with high accuracy.
なお、請求項2に記載したように、前記特徴量生成手段は、前記質問テキスト文に含まれる単語の重みを、当該単語が前記質問テキスト文に出現する頻度に基づく第1のパラメータに、前記意味チャンク重み及び前記中心単語重みの少なくとも一方を加算した加算値に、当該単語が前記検索対象のテキスト文集合に出現する頻度に基づく第2のパラメータを乗算することにより算出することができる。
In addition, as described in
また、請求項3に記載したように、前記特徴量生成手段は、前記質問テキスト文に含まれる単語の重みを、当該単語が前記質問テキスト文に出現する頻度に基づく第1のパラメータに、当該単語が前記検索対象のテキスト文集合に出現する頻度に基づく第2のパラメータを乗算した乗算値に、前記意味チャンク重み及び前記中心単語重みの少なくとも一方を含む係数を乗算することにより算出することができる。
In addition, as described in
また、請求項4に記載したように、前記類似度計算手段は、前記質問テキスト文に含まれる単語及び前記検索対象のテキスト文に含まれる単語のうち一致する単語を検索し、当該検索した単語の各々の重みを乗算した値を前記一致した単語全てについて加算することにより前記類似度を計算することができる。
In addition, as described in
また、請求項5に記載したように、前記類似度計算手段は、前記質問テキスト文に含まれる単語及び前記検索対象のテキスト文に含まれる単語のうち一致する単語を検索し、当該検索した単語の各々の重みの距離を算出し、当該算出した距離を前記一致した単語全てについて加算することにより前記類似度を計算することができる。
Further, as described in
請求項6記載の発明のテキスト文検索方法は、質問テキスト文を単語に切り分けると共に、切り分けた単語に品詞を付与し、単語切り分け・品詞付与データを生成し、前記単語切り分け・品詞付与データに基づいて、前記質問テキスト文に含まれる意味チャンク、前記意味チャンクの中心単語、及び前記意味チャンクの格を解析し、前記意味チャンクの格に基づいて、当該意味チャンクに含まれる単語の意味チャンク重み及び中心単語重みの少なくとも一方を設定し、検索対象のテキスト文集合に出現する単語の各々についての前記検索対象のテキスト文集合に出現する頻度を表す出現頻度データのうち、前記質問テキスト文に含まれる単語についての前記出現頻度データと、前記意味チャンク重み及び前記中心単語重みの少なくとも一方と、に基づいて、前記質問テキスト文に含まれる単語の重みを各々算出することにより前記質問テキスト文の意味ベクトル特徴量を生成し、前記質問テキスト文の意味ベクトル特徴量と検索対象のテキスト文の意味ベクトル特徴量とに基づいて、前記質問テキスト文と前記検索対象のテキスト文との類似度を計算する、ことを特徴とする。 According to a sixth aspect of the present invention, there is provided a text sentence search method for segmenting a question text sentence into words, adding part of speech to the segmented word, generating word segmentation / part of speech provision data, and based on the word segmentation / part of speech provision data. Analyzing the semantic chunk included in the question text sentence, the central word of the semantic chunk, and the case of the semantic chunk, and based on the case of the semantic chunk, the semantic chunk weight of the word included in the semantic chunk and At least one of the central word weights is set and included in the question text sentence out of the appearance frequency data representing the frequency of appearance in the search target text sentence set for each word appearing in the search target text sentence set The appearance frequency data for a word, and at least one of the semantic chunk weight and the central word weight; Based on the above, the semantic vector feature amount of the question text sentence is generated by calculating the weight of each word included in the question text sentence, and the meaning vector feature amount of the question text sentence and the meaning of the text sentence to be searched The similarity between the question text sentence and the search target text sentence is calculated based on a vector feature amount.
この発明によれば、意味チャンクの格の重要度に応じて設定された意味チャンク重みや中心単語重みが考慮されて意味ベクトル特徴量が生成されるため、意味内容を適切に考慮した類似度計算を行うことができ、質問テキスト文に類似するテキスト文を高精度に検索することが可能となる。 According to the present invention, since the semantic vector feature amount is generated in consideration of the semantic chunk weight and the central word weight set in accordance with the importance of the meaning of the semantic chunk, the similarity calculation considering the semantic content appropriately It is possible to search for a text sentence similar to the question text sentence with high accuracy.
請求項7記載の発明のテキスト文検索プログラムは、質問テキスト文を単語に切り分けると共に、切り分けた単語に品詞を付与し、単語切り分け・品詞付与データを生成するステップと、前記単語切り分け・品詞付与データに基づいて、前記質問テキスト文に含まれる意味チャンク、前記意味チャンクの中心単語、及び前記意味チャンクの格を解析するステップと、前記意味チャンクの格に基づいて、当該意味チャンクに含まれる単語の意味チャンク重み及び中心単語重みの少なくとも一方を設定するステップと、検索対象のテキスト文集合に出現する単語の各々についての前記検索対象のテキスト文集合に出現する頻度を表す出現頻度データのうち、前記質問テキスト文に含まれる単語についての前記出現頻度データと、前記意味チャンク重み及び前記中心単語重みの少なくとも一方と、に基づいて、前記質問テキスト文に含まれる単語の重みを各々算出することにより前記質問テキスト文の意味ベクトル特徴量を生成するステップと、前記質問テキスト文の意味ベクトル特徴量と検索対象のテキスト文の意味ベクトル特徴量とに基づいて、前記質問テキスト文と前記検索対象のテキスト文との類似度を計算するするステップと、を含む処理をコンピュータに実行させることを特徴とする。 The text sentence search program of the invention according to claim 7 divides a question text sentence into words, assigns parts of speech to the divided words, generates word separation / part of speech provision data, and the word separation / part of speech provision data. Analyzing the semantic chunk included in the question text sentence, the central word of the semantic chunk, and the case of the semantic chunk, and based on the case of the semantic chunk, the word of the word included in the semantic chunk Of the appearance frequency data representing the frequency of appearing in the search target text sentence set for each of the words appearing in the search target text sentence set, the step of setting at least one of the semantic chunk weight and the central word weight, The appearance frequency data for the words included in the question text sentence and the semantic chunk Generating a semantic vector feature amount of the question text sentence by calculating a weight of each word included in the question text sentence based on at least one of the first and the central word weights; and the question text sentence Calculating a similarity between the question text sentence and the text sentence to be searched based on the meaning vector feature quantity of the text and the semantic vector feature quantity of the text sentence to be searched. It is characterized by making it.
この発明によれば、意味チャンクの格の重要度に応じて設定された意味チャンク重みや中心単語重みが考慮されて意味ベクトル特徴量が生成されるため、意味内容を適切に考慮した類似度計算を行うことができ、質問テキスト文に類似するテキスト文を高精度に検索することが可能なコンピュータを実現することができる。 According to the present invention, since the semantic vector feature amount is generated in consideration of the semantic chunk weight and the central word weight set in accordance with the importance of the meaning of the semantic chunk, the similarity calculation considering the semantic content appropriately It is possible to implement a computer that can search a text sentence similar to the question text sentence with high accuracy.
請求項8記載の発明のテキスト文検索装置は、質問テキスト文の言語意味解析を行い、前記質問テキスト文の各単語の意味上の重要度を設定する意味解析部と、前記言語意味解析の解析結果及びベクトル空間法を用いて前記質問テキスト文の特徴量を生成する特徴量生成部と、前記特徴量生成部で生成された質問テキスト文の特徴量と検索目標テキスト文の特徴量との類似度を計算する類似度計算部と、前記類似度の計算結果に基づいて、検索目標テキスト文集合から検索結果であるテキスト文を抽出する検索結果抽出部と、を具備することを特徴とする。 The text sentence search device according to claim 8 performs a linguistic semantic analysis of a question text sentence, sets a semantic importance of each word of the question text sentence, and analyzes the linguistic semantic analysis. A feature amount generation unit that generates a feature amount of the question text sentence using a result and a vector space method; and a similarity between the feature amount of the question text sentence generated by the feature amount generation unit and the feature amount of the search target text sentence A similarity calculation unit that calculates a degree; and a search result extraction unit that extracts a text sentence as a search result from a set of search target text sentences based on the calculation result of the similarity.
この発明によれば、質問テキスト文の言語意味解析を行い、質問テキスト文の各単語の意味上の重要度を設定し、言語意味解析の解析結果及びベクトル空間法を用いて質問テキスト文の特徴量を生成し、生成された質問テキスト文の特徴量と検索目標テキスト文の特徴量との類似度を計算し、類似度の計算結果に基づいて、検索目標テキスト文集合から検索結果であるテキスト文を抽出するので、意味内容を適切に考慮した類似度計算を行うことができ、質問テキスト文に類似するテキスト文を高精度に検索することが可能となる。 According to the present invention, the language semantic analysis of the question text sentence is performed, the semantic importance of each word of the question text sentence is set, the analysis result of the language semantic analysis and the feature of the question text sentence using the vector space method The amount of the generated query text sentence and the feature quantity of the search target text sentence are calculated, and based on the similarity calculation result, the text that is the search result from the search target text sentence set Since the sentence is extracted, it is possible to perform the similarity calculation considering the semantic content appropriately, and it is possible to search the text sentence similar to the question text sentence with high accuracy.
なお、請求項9に記載したように、前記意味解析部は、格文法に基づく言語意味解析を行うことができる。 In addition, as described in claim 9, the semantic analysis unit can perform language semantic analysis based on case grammar.
また、請求項10に記載したように、前記類似度計算部は、内積、コサイン関数、及びユークリッド距離の内少なくとも1つを用いて類似度を計算することができる。 The similarity calculation unit can calculate the similarity using at least one of an inner product, a cosine function, and a Euclidean distance.
また、請求項11に記載したように、前記特徴量生成部は、前記ベクトル空間法を用いて得られる特徴量を次式により算出することができる。 In addition, as described in claim 11, the feature quantity generation unit can calculate a feature quantity obtained by using the vector space method by the following equation.
TFi×log(N/ni+c)
ここで、TFiはテキスト文に単語iが出現した回数、Nは検索目標テキスト文集合のテキスト文の総数、niは検索目標テキスト文集合に単語iを含むテキスト文の総数、cは定数で、c≧0.01に設定される。
TFi x log (N / ni + c)
Here, TFi is the number of times the word i appears in the text sentence, N is the total number of text sentences in the search target text sentence set, ni is the total number of text sentences including the word i in the search target text sentence set, c is a constant, c ≧ 0.01 is set.
また、請求項12に記載したように、前記意味解析部は、テキスト文中の各意味格を抽出し、抽出された意味格の重要度に基づいて、意味格に異なる重みを付与する意味格解析部、及びテキスト文中の中心的な役割を担当する単語を抽出し、抽出された中心単語の重要度に基づいて、中心単語に異なる重みを付与する中心単語解析部の内少なくとも一方を有する構成とすることができる。
In addition, as described in
この場合、請求項13に記載したように、前記特徴量生成部は、前記意味格解析部で求められた意味格の重みと、前記中心単語解析部で求められた中心単語重みとを用いて、次式により前記ベクトル空間法を用いて得られる特徴量を修正することができる。 In this case, as described in claim 13, the feature amount generation unit uses the semantic case weight obtained by the semantic case analysis unit and the central word weight obtained by the central word analysis unit. The feature amount obtained by using the vector space method can be corrected by the following equation.
(TFi+Chunk_Weight+Head_Weight)×log(N/ni+c)
ここで、TFiはテキスト文に単語iが出現した回数、Chunk_Weightは単語iが属している意味格重み、Head_Weightは中心単語重み(単語iが中心単語の場合に使用)、Nは検索目標テキスト文集合のテキスト文の総数、niは検索目標テキスト文集合に単語iを含むテキスト文の総数、cは定数で、c≧0.01に設定される。
(TFi + Chunk_Weight + Head_Weight) × log (N / ni + c)
Where TFi is the number of times the word i appears in the text sentence, Chunk_Weight is the semantic weight to which the word i belongs, Head_Weight is the central word weight (used when the word i is the central word), and N is the search target text sentence The total number of text sentences in the set, ni is the total number of text sentences including the word i in the search target text sentence set, c is a constant, and c ≧ 0.01.
また、請求項14に記載したように、前記特徴量生成部は、前記意味格解析部で求められた意味格の重みを用いて、次式により前記ベクトル空間法を用いて得られる特徴量を修正するようにしてもよい。
In addition, as described in
(TFi+Chunk_Weight)×log(N/ni+c)
また、請求項15に記載したように、前記特徴量生成部は、前記中心単語解析部で求められた中心単語重みを用いて、次式により前記ベクトル空間法を用いて得られる特徴量を修正するようにしてもよい。
(TFi + Chunk_Weight) × log (N / ni + c)
In addition, as described in claim 15, the feature quantity generation unit corrects the feature quantity obtained by using the vector space method according to the following equation, using the central word weight obtained by the central word analysis unit. You may make it do.
(TFi+Head_Weight)×log(N/ni+c)
また、請求項16に記載したように、前記特徴量生成部は、前記意味格解析部で求められた意味格の重みと、前記中心単語解析部で求められた中心単語重みとを用いて、次式により前記ベクトル空間法を用いて得られる特徴量を修正するようにしてもよい。
(TFi× log(N/ni+c))×(Chunk_Weight+Head_Weight)/2
また、請求項17に記載したように、前記特徴量生成部は、前記意味格解析部で求められた意味格の重みを用いて、次式により前記ベクトル空間法を用いて得られる特徴量を修正するようにしてもよい。
(TFi + Head_Weight) × log (N / ni + c)
In addition, as described in
(TFi × log (N / ni + c)) × (Chunk_Weight + Head_Weight) / 2
In addition, as described in claim 17, the feature value generation unit uses a weight of the semantic case obtained by the semantic case analysis unit to calculate a feature value obtained using the vector space method according to the following equation: You may make it correct.
TFi× log(N/ni+c)×Chunk_Weight
また、請求項18に記載したように、前記特徴量生成部は、前記中心単語解析部で求められた中心単語重みを用いて、次式により前記ベクトル空間法を用いて得られる特徴量を修正するようにしてもよい。
TFi x log (N / ni + c) x Chunk_Weight
In addition, as described in
TFi× log(N/ni+c)×Head_Weight TFi × log (N / ni + c) × Head_Weight
本発明によれば、テキスト文の意味内容を考慮して高精度にテキスト文を検索することができる、という効果を有する。 According to the present invention, there is an effect that a text sentence can be searched with high accuracy in consideration of the semantic content of the text sentence.
以下、本発明の実施形態について説明する。 Hereinafter, embodiments of the present invention will be described.
図1は、本発明に係る意味情報を考慮したテキスト文検索装置10の概略構成を示すブロック図である。図1に示すように、テキスト文検索装置10は、外部記憶装置12、単語切り分け・品詞付与部14、構文・意味解析部16、特徴量生成部18、統計データ記憶部20、類似度計算部22、データベース記憶部24、記憶部26、メモリ28、30、32、34を含んで構成されている。
FIG. 1 is a block diagram showing a schematic configuration of a text sentence search apparatus 10 considering semantic information according to the present invention. As shown in FIG. 1, the text sentence search device 10 includes an
外部記憶装置12には、例えばユーザーにより入力された質問テキスト文データが格納されている。メモリ28には、外部記憶装置12に格納されている一つの質問テキスト文データが記憶される。
The
単語切り分け・品詞付与部14は、メモリ28に格納されている質問テキスト文データの単語を切り分けると共に、切り分けた単語に品詞を付与し、その結果を単語切り分け・品詞付与データとしてメモリ30に格納する。
The word segmentation / part-of-
構文・意味解析部16は、メモリ30に格納されている質問テキスト文の単語切り分け・品詞付与データを読み込み、この単語切り分け・品詞付与データに基づいて、質問テキスト文の構文解析及び意味解析を行い、その結果である構文・意味解析データをメモリ32に格納する。
The syntax /
統計データ記憶部20には、予め事前に用意された検索対象のテキスト文集合(検索目標テキスト文集合)から、テキスト文集合に出現したすべての単語について、その単語を含むテキスト文の数(DF:Document Frequency)を算出した値(DF値)が出現頻度データとして記憶されている。すなわち、DF値は、その単語がテキスト文集合に出現する頻度を表している。また、統計データ記憶部20には、収集可能な単語集合の自然数IDデータも予め記憶されている。すなわち、各単語には固有の自然数のID(単語ID)が付与されており、統計データ記憶部20には、単語IDが付与された単語のDF値が記憶されている。なお、同義語の単語に同一のIDを付与して格納するようにすることが好ましい。これにより、表記は異なるが意味が同じ単語が同等に扱われ、テキスト文の検索精度を高めることができる。
The statistical
特徴量生成部18は、メモリ30に格納された質問テキスト文の単語切り分け・品詞付与データを読み込むと共に、統計データ記憶部20に記憶された単語のDF値のうちメモリ30に格納された質問テキスト文の単語のDF値を読み込む。そして、読み込んだ単語切り分け・品詞付与データ、質問テキスト文の単語のDF値、メモリ32に記憶された構文・意味解析データを用いて、質問テキスト文の意味ベクトル特徴量を生成し、そのデータをメモリ34に格納する。
The feature
データベース記憶部24には、検索対象であるテキスト文集合のすべてのテキスト文について予め算出した意味ベクトル特徴量が予め記憶されている。
The
類似度計算部22は、メモリ34に格納されている質問テキスト文の意味ベクトル特徴量とデータベース記憶部24に格納されている検索対象のテキスト文の意味ベクトル特徴量との間の類似度(距離)を各々計算し、計算した類似度を記憶部26に記憶する。これにより、質問テキスト文と最も類似度の高い検索対象のテキスト文を表示したり、類似度の高い順に検索対象のテキスト文の一覧を表示したりすることが可能となる。
The
このように構成されたテキスト文検索装置10は、例えば図2に示すような情報端末装置40に適用することができる。
The text sentence search apparatus 10 configured as described above can be applied to an
情報端末装置40は、ハードディスク42、キーボード44、ディスプレイ46、プロセッサ部48から構成される。
The
ハードディスク42は、キーボード44から入力された質問テキスト文のデータ、プロセッサ部48で計算された質問テキスト文と検索対象のテキスト文との間の類似度等の各種計算結果、各種ソフトウェア等が格納される。また、ハードディスク42は、計算に必要な記憶空間としても利用される。なお、ハードディスク42に限らず他の外部記憶装置を用いてもよい。
The
キーボード44は、ユーザがテキスト文を入力したり各種操作を指示するための入力装置である。なお、マウス等のその他の入力装置が設けられていてもよい。
The
ディスプレイ46は、ユーザーに対するメッセージやテキスト文のデータ、類似度の計算結果などを表示するための出力装置である。なお、プリンタ等の他の出力装置が設けられていてもよい。
The
プロセッサ部48は、ハードディスク42に格納されているソフトウェアなどに従って、実際の処理を行う。プロセッサ部48は、具体的にはマイクロプロセッサや、パーソナルコンピュータ等のコンピュータシステムで構成することができる。
The
上記の単語切り分け・品詞付与部14、構文・意味解析部16、特徴量生成部18、及び類似度計算部22は、このプロセッサ部48上で動作する各種モジュールによって構成することができる。
The word segmentation / part-of-
次に、テキスト文検索装置10の具体的な動作について説明する。 Next, a specific operation of the text sentence search apparatus 10 will be described.
外部記憶装置12には、ユーザーにより入力された質問テキスト文のデータが格納されており、外部記憶装置12から一つのテキスト文データが読み出され、メモリ28に記憶される。
The
単語切り分け・品詞付与部14では、テキスト文を構成している各単語を切り分け、それぞれの単語の品詞を付与し、単語切り分け・品詞付与データとしてメモリ30に格納させる。なお、単語の切り分け及び品詞の付与の手法については一般に公開された公知の手法を用いることができる。例えば、中国の清華大学により開発された単語切り分け・品詞付与ツールを使用してもよいし、他の解析ツールを使用してもよい。
The word segmentation / part-of-
一例として、図3に示す中国語のテキスト文50が単語切り分け・品詞付与部14に入力されると、単語切り分け・品詞付与データ52が出力される。なお、中国語のテキスト文50は、「2000年9月25日、北京時間月曜日午後行った女子400メートル決勝戦で、オーストラリアの名将フェリマンは金メダルを獲得した。」という意味である。
As an example, when the
単語切り分け・品詞付与データ52は、テキスト文50を切り分けた各単語に名詞、動詞、助詞等の品詞を表す品詞記号が“/○”(○は任意の品詞を表すアルファベット)の形式で単語の語尾に付与されたデータである。例えば“/nr”で表される品詞記号は名詞を表す。なお、単語切り分け・品詞付与データ52は、図3に示すフォーマットに限らず、切り分けられた各単語の品詞が判別できるものであれば他のフォーマットでもよい。
The word segmentation / part-of-
構文・意味解析部16は、意味格解析部及び中心単語解析部の少なくとも一方を含み、メモリ30に格納されているテキスト文の単語切り分け・品詞付与データを読み込み、質問テキスト文の構文・意味解析を行い、各単語の意味上の重要度を設定する。具体的には、質問テキスト文を構成する意味チャンク、中心単語、格(意味格)を解析し、解析結果を構文・意味解析データとしてメモリ32に格納する。なお、構文解析及び意味解析の手法については一般に公開された公知の手法を用いることができる。例えば、中国の清華大学により開発された構文・意味解析ツールを使用してもよいし、他の解析ツールを使用してもよい。
The syntax /
テキスト文は一般に複数の単語から構成されており、その複数の単語の中に、一つ或いは複数の重要な役割を果たす単語が含まれている。ここでは、テキスト文の中で重要な役割を果たしている単語を中心単語(Head)と呼ぶ。 A text sentence is generally composed of a plurality of words, and one or a plurality of words that play an important role are included in the plurality of words. Here, a word that plays an important role in a text sentence is called a central word (Head).
一例として、図4に示す中国語のテキスト文54が構文・意味解析部16に入力されると、構文・意味解析データ56が出力される。なお、中国語のテキスト文54は、以下のような意味である。
As an example, when a
構文・意味解析データ56は、テキスト文54から解析された意味チャンク毎に“[ ]”で切り分け、中心単語をゴジックフォントで表現した形式である。なお、括弧内の先頭に付与されたアルファベットは構文情報(チャンク名)を表し,括弧の後に付与されたアルファベットはその意味チャンクの格を表す。
The syntax /
構文情報(チャンク名)を表すアルファベットは次のように定義する。 The alphabet that expresses syntax information (chunk name) is defined as follows.
S(Subject)…主語チャンク
P(Predicate)…述語チャンク
O(Object)…受事チャンク
D…副詞チャンク
C(Complement)…補文チャンク
V…述語或いは述語性チャンク
また、意味チャンクの格について、一文に二つ以上のS(動作主)、O(述語の対象)、V(動作)が含まれているときに、それぞれ、文の左から右への出現順位によって、S1、S2、…、O1、O2、…、V1、V2、…のように表記する.
S (Subject) ... Subject chunk P (Predicate) ... Predicate chunk O (Object) ... Acceptance chunk D ... Adverb chunk C (Complement) ... Complement chunk V ... Predicate or predicate chunk One sentence about the meaning of a semantic chunk , O1 (subject of predicate), and V (motion) are included in S1, S2,..., O1 depending on the order of appearance from the left to the right of the sentence. , O2,..., V1, V2,.
なお、構文・意味解析データ56は、図4に示すフォーマットに限らず、意味チャンク、中心単語、格が判別できるものであれば他のフォーマットでもよい。
The syntax /
特徴量生成部18は、単語切り分け・品詞付与データ、質問テキスト文の単語のDF値、構文・意味解析データを用いて、質問テキスト文の意味ベクトル特徴量を生成し、そのデータをメモリ34に格納する。
The feature
次に、意味ベクトル特徴量について説明するが、その前に、従来におけるベクトル特徴量について説明する。 Next, the semantic vector feature amount will be described. Prior to that, the conventional vector feature amount will be described.
テキスト文はV(f1、f2、f3、…、fs)というベクトルで表現することができる。ここで、sは単語の総数である。また、fiはテキスト文に出現する単語であってテキスト文の中に含まれる単語のうち単語IDがi番目に大きい単語(以下、単語iという)の重み(特徴量)であり、次式で表される。 A text sentence can be expressed by a vector V (f1, f2, f3,..., Fs). Here, s is the total number of words. Further, fi is a weight (feature amount) of a word (hereinafter referred to as a word i) having a word ID that is an i-th largest word among the words that appear in the text sentence and is included in the text sentence. expressed.
fi=TFi×log(N/ni) …(1)
なお、TFi(第1のパラメータ)はテキスト文の単語iの頻度、すなわちテキスト文に含まれる単語iの数である。従って、TFiはテキスト文の長さが長い程大きくなる傾向にある。log(N/ni)は所謂IDF(第2のパラメータ)であり、Nはデータベース記憶部24に記憶された検索対象のテキスト文集合に含まれているテキスト文の総数、niは単語iのDF値を表す。すなわち、IDFは、単語iが含まれるテキスト文の数が多いほど小さな値となり、単語iが含まれるテキスト文の数が少ないほど大きな値となる。従って、IDFは、対象となるテキスト文にとっての単語iの重要度を表している。
fi = TFi × log (N / ni) (1)
TFi (first parameter) is the frequency of the word i in the text sentence, that is, the number of words i included in the text sentence. Therefore, TFi tends to increase as the length of the text sentence increases. log (N / ni) is a so-called IDF (second parameter), N is the total number of text sentences included in the set of text sentences to be searched stored in the
V(f1、f2、f3、…、fs)の次元数sはテキスト文に出現した全単語数である。各テキスト文のベクトル特徴量については、各々次元数が異なる場合もあるし、各次元で対応している単語が異なる場合もある。 The dimension number s of V (f1, f2, f3,..., Fs) is the total number of words that appear in the text sentence. About the vector feature-value of each text sentence, the number of dimensions may differ, respectively, and the word corresponding to each dimension may differ.
また、前述したように、各単語iには自然数のIDが付与されており、ベクトル特徴量に基づいてテキスト文同士の類似度を計算するために、このIDを重みfiに対応させて、ベクトル特徴量をV(ID1、f1、ID2、f2、ID3、f3、 …、Ids、fs)で表現する。なお、ID1、ID2…がID番号の小さい順となるように並べられる。 Further, as described above, each word i is given a natural number ID, and in order to calculate the similarity between text sentences based on the vector feature amount, this ID is associated with the weight fi, The feature amount is expressed by V (ID1, f1, ID2, f2, ID3, f3,..., Ids, fs). Note that ID1, ID2,... Are arranged in ascending order of ID numbers.
特徴量生成部18は、統計データ記憶部20から、メモリ28に記録されているテキスト文の各単語のDF値を読み込み、メモリ32に格納された構文・意味解析データを用いて、テキスト文の意味ベクトル特徴量Sv(ID1、f1、ID2、f2、ID3、f3、 …、Ids、fs)を作成する。
The feature
次に、意味関係を表す格について説明する。 Next, a case representing a semantic relationship will be described.
図5に、意味関係を表す格及びその格を重要性により分類した分類表58を示した。図5の例では、第1クラスから第5クラスに格が分類されており、第1クラスに分類された格が最も重要度が高い。第1クラスには、動作主等の重要性の高い固有名詞の意味格が含まれている。 FIG. 5 shows a case representing the semantic relationship and a classification table 58 in which the cases are classified according to importance. In the example of FIG. 5, the cases are classified from the first class to the fifth class, and the cases classified into the first class have the highest importance. The first class includes semantic cases of proper nouns such as main actors.
例えば図4に示した構文・意味解析データ56の先頭の意味チャンクの格情報は“S”であるので、この意味チャンクの格のクラスは第1クラスとなる。同様に2番目の意味チャンクの格情報は“H”であるので、この意味チャンクの格のクラスも第1クラスとなる。このように、各意味チャンクの格は重要度に応じてクラス分けされる。
For example, since the case information of the first semantic chunk of the syntax /
次に、意味ベクトル特徴量Sv(ID1、f1、ID2、f2、ID3、f3、 …、Ids、fs)の生成方法について説明する。 Next, a method for generating the semantic vector feature amount Sv (ID1, f1, ID2, f2, ID3, f3,..., Ids, fs) will be described.
質問テキスト文のベクトル特徴量に対して、中心単語の重みを高くすれば、ベクトル特徴量は質問テキスト文の意味を反映しやすくなる。従って、特徴量生成部18では、質問テキスト文に出現している単語の頻度、意味チャンク、中心単語を用いて、質問テキスト文の意味ベクトル特徴量を生成する。以下では、3つの意味ベクトル特徴量生成方法について説明する。
If the weight of the central word is increased with respect to the vector feature amount of the question text sentence, the vector feature amount easily reflects the meaning of the question text sentence. Therefore, the feature
まず、第1の意味ベクトル特徴量生成方法について説明する。この方法では、まず意味チャンク重みChunk_Weightを格のクラスに応じて図6のように設定する。ここで、aは定数である(a≧0)。すなわち、格のクラスが高い程、意味チャンク重みChunk_Weightも大きい値となる。なお、他の方法で意味チャンク重みを定義してもよい。 First, the first semantic vector feature value generation method will be described. In this method, first, the semantic chunk weight Chunk_Weight is set as shown in FIG. 6 according to the case class. Here, a is a constant (a ≧ 0). That is, the higher the case class is, the larger the semantic chunk weight Chunk_Weight becomes. The semantic chunk weight may be defined by other methods.
また、中心単語重みHead_Weightを格のクラスに応じて図7のように設定する。ここで、bは定数である(b≧0)。すなわち、格のクラスが高い程、中心単語重みHead_Weightも大きい値となる。なお、他の方法で中心単語重みを定義してもよい。 Further, the central word weight Head_Weight is set as shown in FIG. 7 according to the case class. Here, b is a constant (b ≧ 0). That is, the higher the case class, the larger the central word weight Head_Weight. The central word weight may be defined by other methods.
そして、テキスト文の意味ベクトル特徴量Sv(ID1、f1、ID2、f2、ID3、f3、…、IDs、fs)を構成する単語iの重みfiを次式により各々求める。 Then, the weight fi of the word i constituting the semantic vector feature amount Sv (ID1, f1, ID2, f2, ID3, f3,..., IDs, fs) of the text sentence is obtained by the following equations.
fi=(TFi+Chunk_Weight+Head_Weight)×log(N/ni+c) …(2)
ここで、Nは前述したようにテキスト文集合のテキスト文の総数である。TFiはテキスト文に出現した単語iの頻度、niは検索対象テキスト分集合の中に単語iを含むテキスト文の総数である。cは定数であり、c≧0.01に設定される。また、中心単語重みHead_Weightは、単語iが中心単語のときだけ使用する。単語iが中心単語ではない場合は、Head_Weight=0とする。
fi = (TFi + Chunk_Weight + Head_Weight) × log (N / ni + c) (2)
Here, N is the total number of text sentences in the text sentence set as described above. TFi is the frequency of the word i that appears in the text sentence, and ni is the total number of text sentences that include the word i in the search target text set. c is a constant and is set to c ≧ 0.01. The central word weight Head_Weight is used only when the word i is the central word. If the word i is not the central word, Head_Weight = 0.
第1の意味ベクトル特徴量生成方法における上記(2)式が、従来における上記(1)式と異なる点は、意味チャンク重みと中心単語重みとの和がTFiに加算される点である。このため、格のクラスに応じて重みfiの値が変化し、従来と比較してテキスト文の意味が適切に反映された意味ベクトル特徴量が生成される。なお、第1の意味ベクトル特徴量生成方法は、以下で説明する第2、第3の意味ベクトル特徴量生成方法と比較して、意味チャンク重み及び中心単語重みの影響が小さいため、どちらかというと単文検索向きであり、機械翻訳等に適した方法であるといえる。 The difference between the expression (2) in the first semantic vector feature value generation method and the conventional expression (1) is that the sum of the semantic chunk weight and the central word weight is added to TFi. For this reason, the value of the weight fi changes according to the class of the case, and a semantic vector feature amount that appropriately reflects the meaning of the text sentence as compared with the conventional case is generated. Note that the first semantic vector feature value generation method is less influenced by the semantic chunk weight and the central word weight than the second and third semantic vector feature value generation methods described below. It is suitable for simple sentence search, and can be said to be a method suitable for machine translation and the like.
次に、第2の意味ベクトル特徴量生成方法について説明する。この方法では、第1の意味ベクトル特徴量生成方法と同様に、意味チャンク重みChunk_Weightを格のクラスに応じて図6のように設定するが、定数aは、a≧1に設定される。 Next, a second semantic vector feature value generation method will be described. In this method, as in the first semantic vector feature value generation method, the semantic chunk weight Chunk_Weight is set as shown in FIG. 6 according to the case class, but the constant a is set to a ≧ 1.
また、中心単語重みHead_Weightについても第1の意味ベクトル特徴量生成方法と同様に、格のクラスに応じて図7のように設定するが、定数bは、b≧1に設定される。 The central word weight Head_Weight is also set as shown in FIG. 7 according to the case class, as in the first semantic vector feature generation method, but the constant b is set to b ≧ 1.
そして、テキスト文の意味ベクトル特徴量Sv(ID1、f1、ID2、f2、ID3、f3、…、IDs、fs)を構成する単語iの重みfiを次式により各々求める。 Then, the weight fi of the word i constituting the semantic vector feature amount Sv (ID1, f1, ID2, f2, ID3, f3,..., IDs, fs) of the text sentence is obtained by the following equations.
fi =(TFi× log(N/ni+c))×(Chunk_Weight+Head_Weight)/2 …(3)
ここで、定数cは、第1の意味ベクトル特徴量生成方法と同様に、c≧0.01に設定される。また、単語iが中心単語ではない場合は、Head_Weight=Chunk_Weightとする。
fi = (TFi × log (N / ni + c)) × (Chunk_Weight + Head_Weight) / 2 (3)
Here, the constant c is set to c ≧ 0.01, as in the first semantic vector feature value generation method. When the word i is not the central word, Head_Weight = Chunk_Weight is set.
第2の意味ベクトル特徴量生成方法における上記(3)式が、従来における上記(1)式と異なる点は、上記(1)式で求められるfiに対して、意味チャンク重みと中心単語重みとの和を2で除算した値、すなわち意味チャンク重みと中心単語重みの平均値が乗算される点である。また、第2の意味ベクトル特徴量生成方法では、定数a、bが共に1以上の値に設定されるため、従来の上記(1)式で求められるfiに対して格のクラスに応じて大きな値となる傾向になる。従って、意味内容の重要度がより強く反映され、従来と比較してテキスト文の意味が適切に反映された意味ベクトル特徴量が生成される。 In the second semantic vector feature value generation method, the equation (3) differs from the conventional equation (1) in that the semantic chunk weight and the central word weight are different from the fi obtained by the equation (1). The value obtained by dividing the sum of the two by 2, that is, the average value of the semantic chunk weight and the central word weight is multiplied. Further, in the second semantic vector feature value generation method, the constants a and b are both set to a value of 1 or more. Therefore, the fi obtained by the conventional equation (1) is large depending on the class of the case. It tends to be a value. Therefore, the importance of the semantic content is reflected more strongly, and a semantic vector feature amount that appropriately reflects the meaning of the text sentence as compared with the conventional case is generated.
次に、第3の意味ベクトル特徴量生成方法について説明する。この方法では、第1の意味ベクトル特徴量生成方法と同様に、意味チャンク重みChunk_Weightを格のクラスに応じて図6のように設定するが、定数aは、a≧1に設定される。 Next, a third semantic vector feature value generation method will be described. In this method, as in the first semantic vector feature value generation method, the semantic chunk weight Chunk_Weight is set as shown in FIG. 6 according to the case class, but the constant a is set to a ≧ 1.
また、中心単語重みHead_Weightについても第1の意味ベクトル特徴量生成方法と同様に、格のクラスに応じて図7のように設定するが、定数bは、b≧1に設定される。 The central word weight Head_Weight is also set as shown in FIG. 7 according to the case class, as in the first semantic vector feature generation method, but the constant b is set to b ≧ 1.
そして、テキスト文の意味ベクトル特徴量Sv(ID1、f1、ID2、f2、ID3、f3、…、IDs、fs)を構成する単語iの重みfiを次式により各々求める。 Then, the weight fi of the word i constituting the semantic vector feature amount Sv (ID1, f1, ID2, f2, ID3, f3,..., IDs, fs) of the text sentence is obtained by the following equations.
fi =(TFi×log(N/ni+c))×Chunk_Weight×Head_Weight …(4)
ここで、定数cは、第1の意味ベクトル特徴量生成方法と同様に、c≧0.01に設定される。また、単語iが中心単語ではない場合は、Head_Weight=1とする。
fi = (TFi × log (N / ni + c)) × Chunk_Weight × Head_Weight (4)
Here, the constant c is set to c ≧ 0.01, as in the first semantic vector feature value generation method. When the word i is not the central word, Head_Weight = 1 is set.
第3の意味ベクトル特徴量生成方法における上記(4)式が、従来における上記(1)式と異なる点は、上記(1)式で求められるfiに対して、意味チャンク重みと中心単語重みとを乗算した値が乗算される点である。また、第3の意味ベクトル特徴量生成方法では、定数a、bが共に1以上の値に設定されるため、従来の上記(1)式で求められるfiに対して格のクラスに応じて大きな値となる傾向になる。従って、意味内容の重要度がより強く反映され、従来と比較してテキスト文の意味が適切に反映された意味ベクトル特徴量が生成される。なお、第3の意味ベクトル特徴量生成方法と第2の意味ベクトル特徴量生成方法とを比較すると、上記(4)式で求められるfiの方が、上記(3)式で求められるfiよりも大きな値となる傾向にある。 The point (4) in the third meaning vector feature generation method differs from the above point (1) in that the meaning chunk weight and the central word weight are different from the fi obtained in the above point (1). The value multiplied by is multiplied. In the third semantic vector feature value generation method, both constants a and b are set to a value of 1 or more, so that fi is large in accordance with the class of class obtained from the conventional equation (1). It tends to be a value. Therefore, the importance of the semantic content is reflected more strongly, and a semantic vector feature amount that appropriately reflects the meaning of the text sentence as compared with the conventional case is generated. When comparing the third semantic vector feature value generation method and the second semantic vector feature value generation method, the fi obtained by the above equation (4) is more than the fi obtained by the above equation (3). It tends to be a large value.
前述したように、データベース記憶部24には、検索対象であるテキスト文集合の各テキスト文の意味ベクトル特徴量が予め記憶されているが、これらの意味ベクトル特徴量は、上記の意味ベクトル特徴量生成方法を用いて質問テキスト文の意味ベクトル特徴量と同様に生成することができる。
As described above, the
次に、類似度計算部22における具体的な類似度の計算方法について説明する。
Next, a specific similarity calculation method in the
類似度計算部22では、以下に示す(5)〜(7)式の何れかによりテキスト文の類似度を計算する。
The
ここで、s1とs2はそれぞれテキスト文S1とテキスト文S2の意味ベクトル特徴量の次元数を表し、f1kとf2hはそれぞれテキスト文S1とテキスト文S2の意味ベクトル特徴量の各次元の重みを表す。また、ID1kとID2hはそれぞれテキスト文S1、テキスト文S2の意味ベクトル特徴量の各次元の単語IDを表す。 Here, s1 and s2 represent the number of dimensions of the semantic vector feature quantity of the text sentence S1 and the text sentence S2, respectively, and f1 k and f2 h are weights of the respective dimension of the semantic vector feature quantity of the text sentence S1 and the text sentence S2, respectively. Represents. ID1 k and ID2 h represent word IDs of each dimension of the semantic vector feature amount of the text sentence S1 and the text sentence S2, respectively.
まず、上記(5)式による第1の類似度計算について、図8に示すフローチャートを参照して具体的に説明する。 First, the first similarity calculation by the above equation (5) will be specifically described with reference to the flowchart shown in FIG.
ステップ100では、テキスト文S1用の添え字k、テキスト文S2用の添え字h、類似度Sim(S1、S2)を初期化する。すなわち、k=1、h=1、Sim(S1、S2)=0とする。
In
ステップ102では、テキスト文S1とテキスト文S2の単語IDが同一か否かを判断する。すなわちID1k=ID2hか否かを判断する。そして、単語IDが同一の場合は、ステップ104へ移行し、単語IDが同一でない場合には、ステップ108へ移行する。
In
ステップ104では、k、hをそれぞれインクリメントすると共に、現在の類似度Sim(S1、S2)に重みf1kとf2hとの乗算値を加算し、これを新たな類似度Sim(S1、S2)とする。すなわち、k=k+1、h=h+1、Sim(S1、S2)=Sim(S1、S2)+f1k×f2hとする。
In
ステップ106では、kが次元数s1より大きいか否か、hが次元数s2より大きいか否かを判断し、kが次元数s1より大きいか又はhが次元数s2より大きい場合には、本ルーチンを終了し、それ以外の場合には、ステップS2へ戻って上記と同様の処理を繰り返す。
In
ステップ108では、テキスト文S1の単語ID1kがテキスト文S2の単語ID2hよりも小さいか否かを判断する。すなわちID1k<ID2hの関係を満たすか否かを判断する。そして、ID1k<ID2hの場合は、ステップ110へ移行し、そうでない場合、すなわちID1k>ID2hの場合は、ステップ114へ移行する。
At
ステップ110では、kをインクリメントしてステップ112へ移行する。ステップ112では、kが次元数s1よりも大きいか否かを判断し、kが次元数s1よりも大きい場合には本ルーチンを終了し、kが次元数s1以下の場合には、ステップ102へ戻って上記と同様の処理を繰り返す。
In
一方、ステップ114では、hをインクリメントし、ステップ116へ移行する。ステップ116では、hが次元数s2よりも大きいか否かを判断し、hが次元数s2よりも大きい場合には本ルーチンを終了し、hが次元数s2以下の場合には、ステップ102へ戻って上記と同様の処理を繰り返す。
On the other hand, in
このように、本ルーチンでは、テキスト文S1に含まれる単語の単語IDとテキスト文S2に含まれる単語IDとを比較することにより、両方のテキスト文に含まれる単語を検索し、両方のテキスト文に含まれる単語の重みを乗算し、この乗算した値を逐次加算してく。なお、前述したように、意味ベクトル特徴量Sv(ID1、f1、ID2、f2、ID3、f3、…、IDs、fs)のID1、ID2…は、IDの小さい順に並べられているため、図8に示すような単純なフローにより両方のテキスト文に含まれる単語を速やかに検索することができる。 As described above, in this routine, by comparing the word ID of the word included in the text sentence S1 with the word ID included in the text sentence S2, the words included in both text sentences are searched, and both text sentences are searched. Multiply the weights of the words contained in, and add the multiplied values sequentially. As described above, since ID1, ID2,... Of the semantic vector feature amount Sv (ID1, f1, ID2, f2, ID3, f3,..., IDs, fs) are arranged in ascending order of ID, FIG. By using a simple flow as shown in Fig. 5, it is possible to quickly search for words included in both text sentences.
次に、上記(6)式による第2の類似度計算について、図9に示すフローチャートを参照して具体的に説明する。 Next, the second similarity calculation by the above equation (6) will be specifically described with reference to the flowchart shown in FIG.
ステップ200では、上記(6)式の分母を計算する。すなわち、重みf1kの二乗の総和と重みf2hの二乗の総和との乗算値の平方根を求める。
In
ステップ202では、テキスト文S1用の添え字k、テキスト文S2用の添え字h、類似度Sim(S1、S2)を初期化する。すなわち、k=1、h=1、Sim(S1、S2)=0とする。
In
ステップ204では、テキスト文S1とテキスト文S2の単語IDが同一か否かを判断する。すなわちID1k=ID2hか否かを判断する。そして、単語IDが同一の場合は、ステップ206へ移行し、単語IDが同一でない場合には、ステップ212へ移行する。
In
ステップ206では、k、hをそれぞれインクリメントすると共に、現在の類似度Sim(S1、S2)に重みf1kとf2hとの乗算値を加算し、これを新たな類似度Sim(S1、S2)とする。すなわち、k=k+1、h=h+1、Sim(S1、S2)=Sim(S1、S2)+f1k×f2hとする。
In
ステップ208では、kが次元数s1より大きいか否か、hが次元数s2より大きいか否かを判断し、kが次元数s1より大きいか又はhが次元数s2より大きい場合には、ステップ210へ移行し、それ以外の場合には、ステップ204へ戻って上記と同様の処理を繰り返す。
In
ステップ212では、テキスト文S1の単語ID1kがテキスト文S2の単語ID2hよりも小さいか否かを判断する。すなわちID1k<ID2hの関係を満たすか否かを判断する。そして、ID1k<ID2hの場合は、ステップ214へ移行し、そうでない場合、すなわちID1k>ID2hの場合は、ステップ218へ移行する。
At
ステップ214では、kをインクリメントしてステップ216へ移行する。ステップ216では、kが次元数s1よりも大きいか否かを判断し、kが次元数s1よりも大きい場合にはステップ210へ移行し、kが次元数s1以下の場合には、ステップ204へ戻って上記と同様の処理を繰り返す。
In
一方、ステップ218では、hをインクリメントし、ステップ220へ移行する。ステップ220では、hが次元数s2よりも大きいか否かを判断し、hが次元数s2よりも大きい場合にはステップ210へ移行し、hが次元数s2以下の場合には、ステップ204へ戻って上記と同様の処理を繰り返す。
On the other hand, at
ステップ210では、現在の類似度Sim(S1、S2)をステップ200で求めたWで除算し、これを最終的な類似度Sim(S1、S2)とする。すなわち、Sim(S1、S2)=Sim(S1、S2)/Wとする。
In step 210, the current similarity Sim (S1, S2) is divided by W obtained in
このように、本ルーチンで求める類似度は、図8に示すルーチンで求める類似度をWで除算する点だけが異なる。なお、上記(5)、(6)式で求める類似度Sim(S1、S2)は、その値が高いほど類似度が高いこととなる。 Thus, the similarity obtained in this routine differs only in that the similarity obtained in the routine shown in FIG. 8 is divided by W. The similarity Sim (S1, S2) obtained by the above equations (5) and (6) is higher as the value is higher.
次に、上記(7)式による第3の類似度計算について、図10に示すフローチャートを参照して具体的に説明する。 Next, the third similarity calculation according to the equation (7) will be specifically described with reference to the flowchart shown in FIG.
ステップ300では、テキスト文S1用の添え字k、テキスト文S2用の添え字h、ユークリッド距離計算用の変数Wを初期化する。すなわち、k=1、h=1、W=0とする。
In
ステップ302では、テキスト文S1とテキスト文S2の単語IDが同一か否かを判断する。すなわちID1k=ID2hか否かを判断する。そして、単語IDが同一の場合は、ステップ304へ移行し、単語IDが同一でない場合には、ステップ310へ移行する。
In
ステップ304では、k、hをそれぞれインクリメントすると共に、現在の変数Wに重みf1kとf2hとの差を二乗した値を加算し、これを新たな変数Wとする。すなわち、k=k+1、h=h+1、W=W+(f1k−f2h)2とする。
In
ステップ306では、kが次元数s1より大きいか否か、hが次元数s2より大きいか否かを判断し、kが次元数s1より大きいか又はhが次元数s2より大きい場合には、ステップ308へ移行し、それ以外の場合には、ステップ302へ戻って上記と同様の処理を繰り返す。
In
ステップ310では、テキスト文S1の単語ID1kがテキスト文S2の単語ID2hよりも小さいか否かを判断する。すなわちID1k<ID2hの関係を満たすか否かを判断する。そして、ID1k<ID2hの場合は、ステップ312へ移行し、そうでない場合、すなわちID1k>ID2hの場合は、ステップ316へ移行する。
At
ステップ312では、kをインクリメントすると共に、現在の変数Wに重みf1kを二乗した値を加算し、これを新たな変数Wとする。すなわち、k=k+1、W=W+(f1k)2とする。
In
ステップ314では、kが次元数s1よりも大きいか否かを判断し、kが次元数s1よりも大きい場合にはステップ319へ移行し、kが次元数s1以下の場合には、ステップ302へ戻って上記と同様の処理を繰り返す。
In
ステップ319では、変数Wを次式により計算して、ステップ308へ移行する。
In
一方、ステップ316では、hをインクリメントすると共に、現在の変数Wに重みf2hを二乗した値を加算し、これを新たな変数Wとする。すなわち、h=h+1、W=W+(f2h)2とする。
On the other hand, in
ステップ318では、hが次元数s2よりも大きいか否かを判断し、hが次元数s2よりも大きい場合にはステップ320へ移行し、hが次元数s2以下の場合には、ステップ302へ戻って上記と同様の処理を繰り返す。
In
ステップ320では、変数Wを次式により計算して、ステップ308へ移行する。
In
ステップ308では、現在のWの平方根を計算し、これを最終的な類似尺度Dist(S1、S2)とする。
In
このように、本ルーチンでは、重みf1kとf2hとのユークリッド距離を類似尺度として計算する。すなわち、類似尺度Dist(S1、S2)は、その値が高いほど(距離が遠ほど)類似尺度が低いこととなる。この第3の類似尺度計算方法は、上記(3)、(4)式により意味ベクトル特徴量を生成する場合に効果的であると考えられる。前述したように、上記(3)、(4)式では、(2)式と比較して意味内容の重要度がより強く反映されるため、これがユークリッド距離の計算にも強く反映され、意味内容の違いが類似度の違いに大きく反映されるためである。 Thus, in this routine, the Euclidean distance between the weights f1 k and f2 h is calculated as a similarity measure. That is, the similarity scale Dist (S1, S2) is lower as the value is higher (the distance is longer). This third similarity measure calculation method is considered to be effective in the case where the semantic vector feature value is generated by the above equations (3) and (4). As described above, in the above expressions (3) and (4), the importance of the meaning content is more strongly reflected than in the expression (2), so this is also strongly reflected in the calculation of the Euclidean distance. This is because the difference is greatly reflected in the difference in similarity.
次に、テキスト文検索装置10により以下に示すテキスト文Aとテキスト文Bとの類似度を求めた結果について説明する。 Next, a description will be given of a result of obtaining the similarity between the text sentence A and the text sentence B shown below by the text sentence search device 10.
上記のようなテキスト文A、テキスト文Bは、共に「女子400メートル決勝戦で、オーストラリアの名将フェリマンは金メダルを獲得した。」という内容が重要であり、意味内容として類似した文章であるといえる。 Text Sentence A and Text Sentence B as described above both have the important content of “The Women's 400-meter Final, Australia's famous general Ferriman has won a gold medal.” .
まず、テキスト文Aとテキスト文Bを単語切り分け・品詞付与部14及び構文・意味解析部16で解析した結果は以下のようになった。
First, the results of analyzing the text sentence A and the text sentence B by the word segmentation / part-of-
また、特徴量生成部18により、上記(5)式を用いてテキスト文Aの意味ベクトル特徴量Av(IDa1、fa1、IDa2、fa2、…、IDas、fas)を求めた結果として、各次元の単語aiと、その重みfaiを図11に示した。
Further, as a result of obtaining the semantic vector feature amount Av (IDa1, fa1, IDa2, fa2,..., IDas, fas) of the text sentence A by using the above equation (5) by the feature
同様に、特徴量生成部18により、上記(5)式を用いてテキスト文Bの意味ベクトル特徴量Bv(IDb1、fb1、IDb2、fb2、…、IDbs、fbs)を求めた結果として、各次元の単語biと、その重みfbiを図12に示した。なお、上記(5)式の定数a、b、cは、それぞれa=0、b=0、c=0とした。
Similarly, as a result of obtaining the semantic vector feature quantity Bv (IDb1, fb1, IDb2, fb2,..., IDbs, fbs) of the text sentence B using the above equation (5) by the feature
そして、類似度計算部22により上記(3)式を用いて、テキスト文Aの意味ベクトル特徴量及びテキスト文Bの意味ベクトル特徴量から類似度Sim(Av、Bv)を計算した結果、Sim(Av、Bv)=0.769となった。これに対して、従来のベクトル空間法で類似度を求めたところ、Sim(Av、Bv)=0.631となった。
Then, the
このように、本発明に係る方法によって算出した類似度は、従来のベクトル空間法により算出した類似度と比較して大きな値となった。これは、本発明に係る方法が、意味内容が類似するテキスト文Aとテキスト文Bとの類似度を適切に計算できることを示しており、従来のベクトル空間法と比較して精度が高いといえる。 As described above, the similarity calculated by the method according to the present invention is larger than the similarity calculated by the conventional vector space method. This indicates that the method according to the present invention can appropriately calculate the similarity between the text sentence A and the text sentence B having similar semantic contents, and can be said to have higher accuracy than the conventional vector space method. .
なお、本実施形態では、中国語のテキスト文の類似度を計算する場合に本発明を適用した場合について説明したが、他の言語、例えば日本語や英語等の他の言語にも本発明を適用可能である。 In this embodiment, the case where the present invention is applied when calculating the similarity of a Chinese text sentence has been described. However, the present invention is applied to other languages such as Japanese and English. Applicable.
10 テキスト文検索装置
12 外部記憶装置
14 単語切り分け・品詞付与部
16 構文・意味解析部
18 特徴量生成部
20 統計データ記憶部
22 類似度計算部
24 データベース記憶部
26 記憶部
28、30、32、34 メモリ
DESCRIPTION OF SYMBOLS 10 Text
Claims (18)
前記単語切り分け・品詞付与データに基づいて、前記質問テキスト文に含まれる意味チャンク、前記意味チャンクの中心単語、及び前記意味チャンクの格を解析する構文・意味解析手段と、
検索対象のテキスト文集合に出現する単語の各々についての前記検索対象のテキスト文集合に出現する頻度を表す出現頻度データが予め記憶された出現頻度データ記憶手段と、
前記意味チャンクの格に基づいて、当該意味チャンクに含まれる単語の意味チャンク重み及び中心単語重みの少なくとも一方を設定する設定手段と、
前記質問テキスト文に含まれる単語についての前記出現頻度データと、前記意味チャンク重み及び前記中心単語重みの少なくとも一方と、に基づいて、前記質問テキスト文に含まれる単語の重みを各々算出することにより前記質問テキスト文の意味ベクトル特徴量を生成する特徴量生成手段と、
前記検索対象のテキスト文集合の各テキスト文の意味ベクトル特徴量を予め記憶した意味ベクトル特徴量記憶手段と、
前記質問テキスト文の意味ベクトル特徴量と検索対象のテキスト文の意味ベクトル特徴量とに基づいて、前記質問テキスト文と前記検索対象のテキスト文との類似度を計算する類似度計算手段と、
を備えたことを特徴とするテキスト文検索装置。 The question text sentence is segmented into words, part of speech is given to the segmented words, word segmentation / part of speech provision means for generating word segmentation / part of speech provision data,
A syntax / semantic analysis means for analyzing a semantic chunk included in the question text sentence, a central word of the semantic chunk, and a case of the semantic chunk, based on the word segmentation / part of speech assignment data,
Appearance frequency data storage means in which appearance frequency data representing the frequency of appearance in the search target text sentence set for each word appearing in the search target text sentence set is stored;
Setting means for setting at least one of a semantic chunk weight and a central word weight of a word included in the semantic chunk based on the case of the semantic chunk;
By calculating the weight of each word included in the question text sentence based on the appearance frequency data for the word included in the question text sentence and at least one of the semantic chunk weight and the central word weight, respectively. Feature quantity generating means for generating a semantic vector feature quantity of the question text sentence;
Semantic vector feature value storage means for storing in advance the semantic vector feature value of each text sentence in the set of text sentences to be searched;
Similarity calculating means for calculating the similarity between the question text sentence and the text sentence to be searched based on the meaning vector feature quantity of the question text sentence and the meaning vector feature quantity of the text sentence to be searched;
A text sentence search device characterized by comprising:
前記単語切り分け・品詞付与データに基づいて、前記質問テキスト文に含まれる意味チャンク、前記意味チャンクの中心単語、及び前記意味チャンクの格を解析し、
前記意味チャンクの格に基づいて、当該意味チャンクに含まれる単語の意味チャンク重み及び中心単語重みの少なくとも一方を設定し、
検索対象のテキスト文集合に出現する単語の各々についての前記検索対象のテキスト文集合に出現する頻度を表す出現頻度データのうち、前記質問テキスト文に含まれる単語についての前記出現頻度データと、前記意味チャンク重み及び前記中心単語重みの少なくとも一方と、に基づいて、前記質問テキスト文に含まれる単語の重みを各々算出することにより前記質問テキスト文の意味ベクトル特徴量を生成し、
前記質問テキスト文の意味ベクトル特徴量と検索対象のテキスト文の意味ベクトル特徴量とに基づいて、前記質問テキスト文と前記検索対象のテキスト文との類似度を計算する、
ことを特徴とするテキスト文検索方法。 The question text is segmented into words, part of speech is given to the segmented words, and word segmentation / part of speech data is generated,
Based on the word segmentation / part-of-speech assignment data, the semantic chunk included in the question text sentence, the central word of the semantic chunk, and the case of the semantic chunk are analyzed,
Based on the case of the semantic chunk, at least one of a semantic chunk weight and a central word weight of a word included in the semantic chunk is set,
Of the appearance frequency data representing the frequency of appearance in the search target text sentence set for each word appearing in the search target text sentence set, the appearance frequency data for the words included in the question text sentence, Generating a semantic vector feature amount of the question text sentence by calculating a weight of each word included in the question text sentence based on at least one of the semantic chunk weight and the central word weight;
Calculating a similarity between the question text sentence and the text sentence to be searched based on the semantic vector feature quantity of the question text sentence and the semantic vector feature quantity of the text sentence to be searched;
The text sentence search method characterized by this.
前記単語切り分け・品詞付与データに基づいて、前記質問テキスト文に含まれる意味チャンク、前記意味チャンクの中心単語、及び前記意味チャンクの格を解析するステップと、
前記意味チャンクの格に基づいて、当該意味チャンクに含まれる単語の意味チャンク重み及び中心単語重みの少なくとも一方を設定するステップと、
検索対象のテキスト文集合に出現する単語の各々についての前記検索対象のテキスト文集合に出現する頻度を表す出現頻度データのうち、前記質問テキスト文に含まれる単語についての前記出現頻度データと、前記意味チャンク重み及び前記中心単語重みの少なくとも一方と、に基づいて、前記質問テキスト文に含まれる単語の重みを各々算出することにより前記質問テキスト文の意味ベクトル特徴量を生成するステップと、
前記質問テキスト文の意味ベクトル特徴量と検索対象のテキスト文の意味ベクトル特徴量とに基づいて、前記質問テキスト文と前記検索対象のテキスト文との類似度を計算するするステップと、
を含む処理をコンピュータに実行させることを特徴とするテキスト文検索プログラム。 Cutting the question text sentence into words, adding part of speech to the cut word, and generating word separation / part of speech data;
Analyzing the semantic chunk included in the question text sentence, the central word of the semantic chunk, and the case of the semantic chunk based on the word segmentation / part of speech assignment data;
Setting at least one of a semantic chunk weight and a central word weight of a word included in the semantic chunk based on the case of the semantic chunk;
Of the appearance frequency data representing the frequency of appearance in the search target text sentence set for each word appearing in the search target text sentence set, the appearance frequency data for the words included in the question text sentence, Generating a semantic vector feature quantity of the question text sentence by calculating a weight of each word included in the question text sentence based on at least one of a semantic chunk weight and the central word weight;
Calculating the similarity between the question text sentence and the search target text sentence based on the semantic vector feature quantity of the question text sentence and the semantic vector feature quantity of the text sentence to be searched;
A text sentence search program for causing a computer to execute a process including:
前記言語意味解析の解析結果及びベクトル空間法を用いて前記質問テキスト文の特徴量を生成する特徴量生成部と、
前記特徴量生成部で生成された質問テキスト文の特徴量と検索目標テキスト文の特徴量との類似度を計算する類似度計算部と、
前記類似度の計算結果に基づいて、検索目標テキスト文集合から検索結果であるテキスト文を抽出する検索結果抽出部と、
を具備するテキスト文検索装置。 A semantic analysis unit that performs language semantic analysis of the question text sentence and sets the semantic importance of each word of the question text sentence;
A feature amount generation unit that generates a feature amount of the question text sentence using an analysis result of the language semantic analysis and a vector space method;
A similarity calculation unit that calculates the similarity between the feature amount of the question text sentence generated by the feature amount generation unit and the feature amount of the search target text sentence;
A search result extraction unit that extracts a text sentence as a search result from a set of search target text sentences based on the calculation result of the similarity;
A text sentence search device comprising:
TFi×log(N/ni+c)
ここで、TFiはテキスト文に単語iが出現した回数、Nは検索目標テキスト文集合のテキスト文の総数、niは検索目標テキスト文集合に単語iを含むテキスト文の総数、cは定数で、c≧0.01に設定される。 11. The text sentence search device according to claim 8, wherein the feature quantity generation unit calculates a feature quantity obtained by using the vector space method by the following equation.
TFi x log (N / ni + c)
Here, TFi is the number of times the word i appears in the text sentence, N is the total number of text sentences in the search target text sentence set, ni is the total number of text sentences including the word i in the search target text sentence set, c is a constant, c ≧ 0.01 is set.
(TFi+Chunk_Weight+Head_Weight)×log(N/ni+c)
ここで、TFiはテキスト文に単語iが出現した回数、Chunk_Weightは単語iが属している意味格重み、Head_Weightは中心単語重み(単語iが中心単語の場合に使用)、Nは検索目標テキスト文集合のテキスト文の総数、niは検索目標テキスト文集合に単語iを含むテキスト文の総数、cは定数で、c≧0.01に設定される。 The feature quantity generation unit is obtained using the vector space method according to the following equation, using the semantic case weight obtained by the semantic case analysis unit and the central word weight obtained by the central word analysis unit. 13. The text sentence search apparatus according to claim 12, wherein the feature quantity to be corrected is corrected.
(TFi + Chunk_Weight + Head_Weight) × log (N / ni + c)
Where TFi is the number of times the word i appears in the text sentence, Chunk_Weight is the semantic weight to which the word i belongs, Head_Weight is the central word weight (used when the word i is the central word), and N is the search target text sentence The total number of text sentences in the set, ni is the total number of text sentences including the word i in the search target text sentence set, c is a constant, and c ≧ 0.01.
(TFi+Chunk_Weight)×log(N/ni+c)
ここで、TFiはテキスト文に単語iが出現した回数、Chunk_Weightは単語iが属している意味格重み、Nは検索目標テキスト文集合のテキスト文の総数、niは検索目標テキスト文集合に単語iを含むテキスト文の総数、cは定数で、c≧0.01に設定される。 13. The feature quantity generation unit corrects a feature quantity obtained by using the vector space method according to the following equation, using the semantic case weight obtained by the semantic case analysis unit. Text sentence search device.
(TFi + Chunk_Weight) × log (N / ni + c)
Here, TFi is the number of times the word i appears in the text sentence, Chunk_Weight is the semantic weight to which the word i belongs, N is the total number of text sentences in the search target text sentence set, and ni is the word i in the search target text sentence set. , C is a constant, and c ≧ 0.01 is set.
(TFi+Head_Weight)×log(N/ni+c)
ここで、TFiはテキスト文に単語iが出現した回数、Head_Weightは中心単語重み(単語iが中心単語の場合に使用)、Nは検索目標テキスト文集合のテキスト文の総数、niは検索目標テキスト文集合に単語iを含むテキスト文の総数、cは定数で、c≧0.01に設定される。 The feature quantity generation unit corrects a feature quantity obtained by using the vector space method according to the following equation, using the central word weight obtained by the central word analysis unit. Text sentence search device.
(TFi + Head_Weight) × log (N / ni + c)
Where TFi is the number of times the word i appears in the text sentence, Head_Weight is the central word weight (used when the word i is the central word), N is the total number of text sentences in the search target text sentence set, and ni is the search target text The total number of text sentences including the word i in the sentence set, c is a constant, and c ≧ 0.01.
(TFi× log(N/ni+c))×(Chunk_Weight+Head_Weight)/2
ここで、TFiはテキスト文に単語iが出現した回数、Chunk_Weightは単語iが属している意味格重み、Head_Weightは中心単語重み(単語iが中心単語の場合に使用)、Nは検索目標テキスト文集合のテキスト文の総数、niは検索目標テキスト文集合に単語iを含むテキスト文の総数、cは定数で、c≧0.01に設定される。 The feature quantity generation unit is obtained using the vector space method according to the following equation, using the semantic case weight obtained by the semantic case analysis unit and the central word weight obtained by the central word analysis unit. 13. The text sentence search apparatus according to claim 12, wherein the feature quantity to be corrected is corrected.
(TFi × log (N / ni + c)) × (Chunk_Weight + Head_Weight) / 2
Where TFi is the number of times the word i appears in the text sentence, Chunk_Weight is the semantic weight to which the word i belongs, Head_Weight is the central word weight (used when the word i is the central word), and N is the search target text sentence The total number of text sentences in the set, ni is the total number of text sentences including the word i in the search target text sentence set, c is a constant, and c ≧ 0.01.
TFi× log(N/ni+c)×Chunk_Weight
ここで、TFiはテキスト文に単語iが出現した回数、Chunk_Weightは単語iが属している意味格重み、Nは検索目標テキスト文集合のテキスト文の総数、niは検索目標テキスト文集合に単語iを含むテキスト文の総数、cは定数で、c≧0.01に設定される。 13. The feature quantity generation unit corrects a feature quantity obtained by using the vector space method according to the following equation, using the semantic case weight obtained by the semantic case analysis unit. Text sentence search device.
TFi x log (N / ni + c) x Chunk_Weight
Here, TFi is the number of times the word i appears in the text sentence, Chunk_Weight is the semantic weight to which the word i belongs, N is the total number of text sentences in the search target text sentence set, and ni is the word i in the search target text sentence set. , C is a constant, and c ≧ 0.01 is set.
TFi× log(N/ni+c)×Head_Weight
ここで、TFiはテキスト文に単語iが出現した回数、Head_Weightは中心単語重み(単語iが中心単語の場合に使用)、Nは検索目標テキスト文集合のテキスト文の総数、niは検索目標テキスト文集合に単語iを含むテキスト文の総数、cは定数で、c≧0.01に設定される。 The feature quantity generation unit corrects a feature quantity obtained by using the vector space method according to the following equation, using the central word weight obtained by the central word analysis unit. Text sentence search device.
TFi × log (N / ni + c) × Head_Weight
Where TFi is the number of times the word i appears in the text sentence, Head_Weight is the central word weight (used when the word i is the central word), N is the total number of text sentences in the search target text sentence set, and ni is the search target text The total number of text sentences including the word i in the sentence set, c is a constant, and c ≧ 0.01.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004243739A JP4534666B2 (en) | 2004-08-24 | 2004-08-24 | Text sentence search device and text sentence search program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004243739A JP4534666B2 (en) | 2004-08-24 | 2004-08-24 | Text sentence search device and text sentence search program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006065387A true JP2006065387A (en) | 2006-03-09 |
JP4534666B2 JP4534666B2 (en) | 2010-09-01 |
Family
ID=36111868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004243739A Expired - Fee Related JP4534666B2 (en) | 2004-08-24 | 2004-08-24 | Text sentence search device and text sentence search program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4534666B2 (en) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009225084A (en) * | 2008-03-17 | 2009-10-01 | Mitsubishi Electric Corp | Information leak testing device, computer program, and method of testing information leak |
JP2010040020A (en) * | 2008-08-08 | 2010-02-18 | Yahoo Japan Corp | Keyword extraction device, method, and program |
KR20140052685A (en) * | 2012-10-25 | 2014-05-07 | 에스케이텔레콤 주식회사 | Method for sentence evaluation using similar of sentence, apparatus thereof and computer recordable medium storing the method |
US9898464B2 (en) | 2014-11-19 | 2018-02-20 | Kabushiki Kaisha Toshiba | Information extraction supporting apparatus and method |
JP6419899B1 (en) * | 2017-06-16 | 2018-11-07 | ソフトバンク株式会社 | Information processing apparatus, control method, and control program |
US10444742B2 (en) | 2016-02-09 | 2019-10-15 | Kabushiki Kaisha Toshiba | Material recommendation apparatus |
JP2020500371A (en) * | 2016-11-11 | 2020-01-09 | デンネマイヤー オクティマイン ゲーエムベーハー | Apparatus and method for semantic search |
CN110738059A (en) * | 2019-10-21 | 2020-01-31 | 支付宝(杭州)信息技术有限公司 | text similarity calculation method and system |
JP2020123318A (en) * | 2019-01-30 | 2020-08-13 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Method, apparatus, electronic device, computer-readable storage medium, and computer program for determining text relevance |
CN111666416A (en) * | 2019-03-08 | 2020-09-15 | 百度在线网络技术(北京)有限公司 | Method and apparatus for generating semantic matching model |
CN112149414A (en) * | 2020-09-23 | 2020-12-29 | 腾讯科技(深圳)有限公司 | Text similarity determination method, device, equipment and storage medium |
US10936806B2 (en) | 2015-11-04 | 2021-03-02 | Kabushiki Kaisha Toshiba | Document processing apparatus, method, and program |
US11037062B2 (en) | 2016-03-16 | 2021-06-15 | Kabushiki Kaisha Toshiba | Learning apparatus, learning method, and learning program |
CN113157727A (en) * | 2021-05-24 | 2021-07-23 | 腾讯音乐娱乐科技(深圳)有限公司 | Method, apparatus and storage medium for providing recall result |
CN113312908A (en) * | 2021-01-26 | 2021-08-27 | 北京新方通信技术有限公司 | Sentence similarity calculation method, system and computer readable storage medium |
CN114491215A (en) * | 2021-12-28 | 2022-05-13 | 深圳市游迷天下科技有限公司 | Search-based method, device, equipment and storage medium for updating word stock of similar senses |
US11481663B2 (en) | 2016-11-17 | 2022-10-25 | Kabushiki Kaisha Toshiba | Information extraction support device, information extraction support method and computer program product |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608071A (en) * | 2015-12-21 | 2016-05-25 | 北京奇虎科技有限公司 | Generation method and device for determining machine learning algorithm of head word |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002288187A (en) * | 2001-03-23 | 2002-10-04 | Sharp Corp | Systems and methods for information accumulation, information providing and electronic mail distribution, methods for information accumulation, information providing and electronic mail distriibution, and recording medium with information processing program reorded thereon |
-
2004
- 2004-08-24 JP JP2004243739A patent/JP4534666B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002288187A (en) * | 2001-03-23 | 2002-10-04 | Sharp Corp | Systems and methods for information accumulation, information providing and electronic mail distribution, methods for information accumulation, information providing and electronic mail distriibution, and recording medium with information processing program reorded thereon |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009225084A (en) * | 2008-03-17 | 2009-10-01 | Mitsubishi Electric Corp | Information leak testing device, computer program, and method of testing information leak |
JP2010040020A (en) * | 2008-08-08 | 2010-02-18 | Yahoo Japan Corp | Keyword extraction device, method, and program |
KR20140052685A (en) * | 2012-10-25 | 2014-05-07 | 에스케이텔레콤 주식회사 | Method for sentence evaluation using similar of sentence, apparatus thereof and computer recordable medium storing the method |
KR102004831B1 (en) * | 2012-10-25 | 2019-07-29 | 에스케이텔레콤 주식회사 | Method for sentence evaluation using similar of sentence, apparatus thereof and computer recordable medium storing the method |
US9898464B2 (en) | 2014-11-19 | 2018-02-20 | Kabushiki Kaisha Toshiba | Information extraction supporting apparatus and method |
US10936806B2 (en) | 2015-11-04 | 2021-03-02 | Kabushiki Kaisha Toshiba | Document processing apparatus, method, and program |
US10444742B2 (en) | 2016-02-09 | 2019-10-15 | Kabushiki Kaisha Toshiba | Material recommendation apparatus |
US11037062B2 (en) | 2016-03-16 | 2021-06-15 | Kabushiki Kaisha Toshiba | Learning apparatus, learning method, and learning program |
JP7089513B2 (en) | 2016-11-11 | 2022-06-22 | デンネマイヤー オクティマイン ゲーエムベーハー | Devices and methods for semantic search |
JP2020500371A (en) * | 2016-11-11 | 2020-01-09 | デンネマイヤー オクティマイン ゲーエムベーハー | Apparatus and method for semantic search |
US11481663B2 (en) | 2016-11-17 | 2022-10-25 | Kabushiki Kaisha Toshiba | Information extraction support device, information extraction support method and computer program product |
JP6419899B1 (en) * | 2017-06-16 | 2018-11-07 | ソフトバンク株式会社 | Information processing apparatus, control method, and control program |
JP2019003488A (en) * | 2017-06-16 | 2019-01-10 | ソフトバンク株式会社 | Information processing apparatus, control method, and control program |
JP2020123318A (en) * | 2019-01-30 | 2020-08-13 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Method, apparatus, electronic device, computer-readable storage medium, and computer program for determining text relevance |
US11520812B2 (en) | 2019-01-30 | 2022-12-06 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, apparatus, device and medium for determining text relevance |
CN111666416A (en) * | 2019-03-08 | 2020-09-15 | 百度在线网络技术(北京)有限公司 | Method and apparatus for generating semantic matching model |
CN110738059A (en) * | 2019-10-21 | 2020-01-31 | 支付宝(杭州)信息技术有限公司 | text similarity calculation method and system |
CN110738059B (en) * | 2019-10-21 | 2023-07-14 | 支付宝(杭州)信息技术有限公司 | Text similarity calculation method and system |
CN112149414A (en) * | 2020-09-23 | 2020-12-29 | 腾讯科技(深圳)有限公司 | Text similarity determination method, device, equipment and storage medium |
CN112149414B (en) * | 2020-09-23 | 2023-06-23 | 腾讯科技(深圳)有限公司 | Text similarity determination method, device, equipment and storage medium |
CN113312908A (en) * | 2021-01-26 | 2021-08-27 | 北京新方通信技术有限公司 | Sentence similarity calculation method, system and computer readable storage medium |
CN113312908B (en) * | 2021-01-26 | 2024-02-06 | 北京新方通信技术有限公司 | Sentence similarity calculation method, sentence similarity calculation system and computer-readable storage medium |
CN113157727B (en) * | 2021-05-24 | 2022-12-13 | 腾讯音乐娱乐科技(深圳)有限公司 | Method, apparatus and storage medium for providing recall result |
CN113157727A (en) * | 2021-05-24 | 2021-07-23 | 腾讯音乐娱乐科技(深圳)有限公司 | Method, apparatus and storage medium for providing recall result |
CN114491215A (en) * | 2021-12-28 | 2022-05-13 | 深圳市游迷天下科技有限公司 | Search-based method, device, equipment and storage medium for updating word stock of similar senses |
Also Published As
Publication number | Publication date |
---|---|
JP4534666B2 (en) | 2010-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4534666B2 (en) | Text sentence search device and text sentence search program | |
EP3016002A1 (en) | Non-factoid question-and-answer system and method | |
JP5710581B2 (en) | Question answering apparatus, method, and program | |
JP2020126493A (en) | Paginal translation processing method and paginal translation processing program | |
TWI656450B (en) | Method and system for extracting knowledge from Chinese corpus | |
CN107357777B (en) | Method and device for extracting label information | |
Krizhanovsky et al. | An approach to automated construction of a general-purpose lexical ontology based on Wiktionary | |
WO2009123260A1 (en) | Cooccurrence dictionary creating system and scoring system | |
JP2011118689A (en) | Retrieval method and system | |
CN115794995A (en) | Target answer obtaining method and related device, electronic equipment and storage medium | |
CN111444713B (en) | Method and device for extracting entity relationship in news event | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JP2007164635A (en) | Method, device and program for acquiring synonymous vocabulary | |
Klang et al. | Linking, searching, and visualizing entities in wikipedia | |
Moghadam et al. | Comparative study of various Persian stemmers in the field of information retrieval | |
Elghannam et al. | Keyphrase based evaluation of automatic text summarization | |
Malallah et al. | Multi-document text summarization using fuzzy logic and association rule mining | |
JP4934115B2 (en) | Keyword extraction apparatus, method and program | |
CN111814025A (en) | Viewpoint extraction method and device | |
RU2618375C2 (en) | Expanding of information search possibility | |
Kahlawi | An ontology-driven DBpedia quality enhancement to support Entity Annotation for Arabic Text | |
CN117972025B (en) | Massive text retrieval matching method based on semantic analysis | |
CN109977418B (en) | Short text similarity measurement method based on semantic vector | |
Rajman et al. | Conceptual document indexing using a large scale semantic dictionary providing a concept hierarchy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100316 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100426 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100525 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100607 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130625 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4534666 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140625 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |