JP2008176489A - Text discrimination device and text discrimination method - Google Patents
Text discrimination device and text discrimination method Download PDFInfo
- Publication number
- JP2008176489A JP2008176489A JP2007008270A JP2007008270A JP2008176489A JP 2008176489 A JP2008176489 A JP 2008176489A JP 2007008270 A JP2007008270 A JP 2007008270A JP 2007008270 A JP2007008270 A JP 2007008270A JP 2008176489 A JP2008176489 A JP 2008176489A
- Authority
- JP
- Japan
- Prior art keywords
- text
- word
- vector
- class
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、自然言語で記載されたテキストに対して、構造情報を利用して、特定のテキストクラスに含まれているかどうかを判別する装置およびその方法に関する。 The present invention relates to an apparatus and a method for determining whether text described in a natural language is included in a specific text class using structural information.
コンピュータ環境の進展に伴って、テキストを簡便に収集・蓄積できるようになった。これらテキストには、利用者にとっての有用な知見が埋もれており、テキストを分析する技術が研究されている。その一つとして、テキストが所望のクラスに含まれているかどうかを判別する方法が知られている。 With the development of computer environment, texts can be collected and stored easily. In these texts, useful knowledge for users is buried, and techniques for analyzing texts are being researched. As one of the methods, a method for determining whether text is included in a desired class is known.
非特許文献1に提案されている方法では、テキストを形態素解析し、特定のパターンを含む単語列であるキーフレーズを抽出して、テキストを特徴付けることにより、テキストの分類学習を実施している。この手法においては、形態素解析に基づいた特徴付けが行なわれているため、単語間の係り受け関係を解析することができず、単語の意味的な繋がりを考慮した判別モデルを学習することができなかった。このため、当該判別手法を利用して、テキストの判別を行なった場合、その分類精度を高めるには限界があった。
In the method proposed in
一方、特許文献1に提案されている「テキスト解析装置」では、構文解析を実施することにより、分類対象のテキストを構成する単語に対して、その意味属性を付与する。また、意味属性を含めて指定した構造とクラスとの間の関係をルールとして利用することにより、テキストを特定のクラスに分類する。しかしながら、この手法の場合、意味属性を含めた構造と特定のクラス間との関係をルールとして、利用者が指定する必要がある。そのため、どのような構造が特定のクラスと関連しているかが分からない場合に、この技術を利用することができなかった。また、テキストが特定の構造を含むかどうかを判定するには、木構造の比較を行なう必要があるため、その比較には多大なる時間が必要であった。
On the other hand, in the “text analysis device” proposed in
また一方、特許文献2に提案されている「データ処理方法、これを用いた情報処理システムおよびプログラム」では、ラベル付き順序木を利用した分類学習を実施している。テキストを構文解析した結果は、本ラベル付き順序木の一種と見なすことができるため、この手法を利用することにより、テキストが所望のクラスに含まれているかどうかを判別する判別モデルを学習することができる。しかしながら、この手法においては、ラベル付き順序木に含まれる部分構造を数え上げて、特徴付けを行なう必要があり、部分構造の数え上げには多大なる時間が必要となるため、判別モデルの学習および判別モデルを用いたクラスの判別には多大なる時間が必要であった。
上述のように、従来の手法では、判別モデルを高速に学習し、当該判別モデルを利用して精度が高く、高速にテキストのクラスを判別するということができなかった。 As described above, according to the conventional method, it is impossible to learn a discrimination model at high speed, and to use the discrimination model to determine the text class with high accuracy and high speed.
本発明は、上記事情を鑑みてなされたものであって、判別モデルを高速に学習し、当該判別モデルを利用して高精度で高速にテキストのクラスを判別するテキスト判別装置およびテキスト判別方法を提供することを目的とする。 The present invention has been made in view of the above circumstances, and provides a text discrimination device and a text discrimination method for learning a discrimination model at high speed and discriminating a text class with high accuracy and high speed using the discrimination model. The purpose is to provide.
上記目的を達成するために、本発明に係るテキスト判別装置は、自然言語で記載されたテキストが特定のテキストクラスに含まれているかどうかを判別するテキスト判別装置において、自然言語で書かれたテキストを格納するテキスト格納部と、テキストに対応するテキストクラスを格納するテキストクラス格納部と、テキスト格納部に格納されているテキストの集合を解析することにより、個々のテキストの構造情報と意味情報を取り出すテキスト解析部と、当該テキストの集合に含まれる個々の単語に対して、個々のテキストにおける構造情報および頻度情報に基づいて、特徴語を抽出する特徴語抽出部と、個々のテキストに対する当該特徴語の意味情報および構造情報に基づいて、当該特徴語に対応する特徴語ベクトルを生成する単語ベクトル生成部と、当該テキストに対して、すべての特徴語に対応する特徴語ベクトルに基づいてテキストを特徴付けるテキストベクトルを生成するテキストベクトル生成部と、テキストベクトル生成部によって生成されたテキストベクトルとテキストクラス格納部に格納されているテキストクラスを組として入力することにより、判別モデルを学習する判別モデル学習部と、学習した判別モデルを格納する判別モデル格納部と、テキストに対してテキストベクトル生成部によって生成されたテキストベクトルを判別モデル格納部に格納されている判別モデルに適用することにより、当該テキストに対応するテキストクラスを判定するテキストクラス判定部と、を有することを特徴とする。 In order to achieve the above object, a text discriminating apparatus according to the present invention is a text discriminating apparatus that discriminates whether or not a text described in a natural language is included in a specific text class. By analyzing the text storage unit that stores text, the text class storage unit that stores the text class corresponding to the text, and the set of text stored in the text storage unit, the structure information and semantic information of each text can be obtained. A text analysis unit to be extracted, a feature word extraction unit for extracting a feature word based on structure information and frequency information in each text for each word included in the set of the text, and the feature for each text A word that generates a feature word vector corresponding to the feature word based on the semantic information and structure information of the word A text generator and a text vector generator that generates a text vector that characterizes the text based on feature word vectors corresponding to all feature words, and a text vector and text generated by the text vector generator. A discriminant model learning unit that learns a discriminant model by inputting a text class stored in the class storage unit as a set, a discriminant model storage unit that stores the discriminated model, and a text vector generator for text A text class determination unit that determines a text class corresponding to the text by applying the text vector generated by the above to the discrimination model stored in the discrimination model storage unit.
また、本発明に係るテキスト判別方法は、自然言語で記載されたテキストが特定のテキストクラスに含まれているかどうかを判別するテキスト判別方法において、自然言語で書かれたテキストをテキスト格納部に格納するテキスト格納ステップと、テキストに対応するテキストクラスをテキストクラス格納部に格納するテキストクラス格納ステップと、テキスト格納部に格納されているテキストの集合を解析することにより、個々のテキストの構造情報と意味情報を取り出すテキスト解析ステップと、当該テキストの集合に含まれる個々の単語に対して、個々のテキストにおける構造情報および頻度情報に基づいて、特徴語を抽出する特徴語抽出ステップと、個々のテキストに対する当該特徴語の意味情報および構造情報に基づいて、当該特徴語に対応する特徴語ベクトルを生成する単語ベクトル生成ステップと、当該テキストに対して、すべての特徴語に対応する特徴語ベクトルからテキストを特徴付けるテキストベクトルを生成するテキストベクトル生成ステップと、テキストベクトル生成部によって生成されたテキストベクトルとテキストクラス格納部に格納されているテキストクラスを組として入力することにより、判別モデルを学習する判別モデル学習ステップと、学習した判別モデルを格納する判別モデル格納ステップと、テキストに対してテキストベクトル生成ステップによって生成されたテキストベクトルを判別モデル格納ステップによって格納されている判別モデルに適用することにより、当該テキストに対応するテキストクラスを判定するテキストクラス判定ステップと、を有することを特徴とする。 The text discrimination method according to the present invention is a text discrimination method for discriminating whether or not a text described in a natural language is included in a specific text class, and storing the text written in the natural language in a text storage unit. A text storage step, a text class storage step for storing the text class corresponding to the text in the text class storage unit, and analyzing the set of text stored in the text storage unit, A text analysis step for extracting semantic information, a feature word extraction step for extracting feature words based on structure information and frequency information in individual texts, and individual texts for each word included in the set of texts Based on the semantic information and structure information of the feature word for A word vector generation step for generating a feature word vector corresponding to the word, a text vector generation step for generating a text vector characterizing the text from the feature word vectors corresponding to all the feature words, and a text vector generation for the text A discriminant model learning step for learning a discriminant model by inputting the text vector generated by the unit and a text class stored in the text class storage unit as a set; and a discriminant model storage step for storing the discriminated model Text class determination that determines the text class corresponding to the text by applying the text vector generated by the text vector generation step to the text to the discrimination model stored by the discrimination model storage step And having a step, the.
また、本発明に係るテキスト判別方法は、自然言語で記載されたテキストが特定のテキストクラスに含まれているかどうかを判別するテキスト判別方法において、テキスト格納部に格納された複数のテキストから未処理のテキストを読み込む第1のテキスト読み込みステップと、前記第1のテキスト読み込みステップで読み込まれた各テキストに対して構文解析を行ない、単語間の係り受け構造および単語の意味的属性を解析して構文木を生成する第1のテキスト解析ステップと、前記テキスト格納部に格納されているテキストから抽出される単語に対して、前記第1のテキスト解析ステップで生成された構文木における出現位置に基づいて、各構文木ごとに単語評価値を算出する単語評価値算出ステップと、前記単語評価値算出ステップで算出された各構文木ごとの単語評価値に基づいて、すべてのテキストを対象とした単語の総合評価値を計算し、当該総合評価値に基づいて単語の中から特徴語を選択する特徴語選択ステップと、前記テキスト格納部に格納されているテキストに対応する構文木のうち、未処理のものを一つ取り出すテキスト取り出しステップと、前記テキスト格納部に格納されているテキストから抽出される単語の中から未処理の単語を一つ取り出す第1の単語取り出しステップと、前記第1の単語取り出しステップで取り出された単語が前記第1のテキスト解析ステップで生成された構文木に含まれているかどうかを判定する第1の単語存在判定ステップと、前記第1の単語存在判定ステップで当該単語が当該構文木に含まれていると判定された場合に、当該単語が当該構文木において出現する位置を探索し、探索した単語に付随している意味属性および探索した単語の出現位置に基づいた構造属性に基づいて、特徴語に対応する属性ベクトルを生成する第1の特徴語ベクトル生成ステップと、前記第1の単語存在判定ステップで当該単語が当該構文木に含まれていないと判定された場合に、当該単語が当該テキストに存在しないことを示す属性ベクトルを生成する第1の非特徴語ベクトル生成ステップと、前記第1の特徴語ベクトル生成ステップおよび第1の非特徴語ベクトル生成ステップによって生成された各単語の属性ベクトルに基づいて、当該テキストに対応する属性ベクトルを生成する第1のテキストベクトル生成ステップと、前記第1のテキストベクトル生成ステップで生成された属性ベクトルと、当該テキストに対応するテキストクラスとを組み合わせることにより、すべてのテキストに対応する判別モデルを生成する判別モデル学習ステップと、前記判別モデル学習ステップの後に、テキスト格納部に新たに格納されたテキストから未処理のテキストを読み込む第2のテキスト読み込みステップと、前記第2のテキスト読み込みステップで読み込まれたテキストに対して構文解析を行ない、単語間の係り受け構造および単語の意味的属性を解析して構文木を生成する第2のテキスト解析ステップと、前記テキスト格納部に格納されているテキストから抽出される単語の中から未処理の単語を一つ取り出す第2の単語取り出しステップと、前記第2の単語取り出しステップで取り出された単語が前記第2のテキスト解析ステップで生成された構文木に含まれているかどうかを判定する第2の単語存在判定ステップと、前記第2の単語存在判定ステップで当該単語が当該構文木に含まれていると判定された場合に、その出現する位置を探索し、探索した単語に付随している意味属性および探索した単語の出現位置に基づいた構造属性に基づいて、特徴語に対応する属性ベクトルを生成する第2の特徴語ベクトル生成ステップと、前記第2の単語存在判定ステップで当該単語が当該構文木に含まれていないと判定された場合に、当該単語がテキストに存在しないことを示す属性ベクトルを生成する第2の非特徴語ベクトル生成ステップと、前記第2の特徴語ベクトル生成ステップおよび第2の非特徴語ベクトル生成ステップによって生成された各単語の属性ベクトルに基づいて、当該テキストに対応する属性ベクトルを生成する第2のテキストベクトル生成ステップと、前記第2のテキストベクトル生成ステップで生成された新たなテキストに対応する属性ベクトルを、前記判別モデル学習ステップで生成された判別モデルに適用することにより、当該テキストに対応するテキストクラスを判別する判別ステップと、を有することを特徴とする。 Further, the text discrimination method according to the present invention is a text discrimination method for discriminating whether or not a text described in a natural language is included in a specific text class. In the text discrimination method, unprocessed from a plurality of texts stored in a text storage unit A first text reading step for reading the text of the text, and each text read in the first text reading step is parsed to analyze a dependency structure between words and a semantic attribute of the word to obtain a syntax. A first text analysis step for generating a tree, and a word extracted from the text stored in the text storage unit, based on the appearance position in the syntax tree generated in the first text analysis step , A word evaluation value calculating step for calculating a word evaluation value for each syntax tree, and the word evaluation value calculating step Feature word selection that calculates the overall evaluation value of words for all texts based on the word evaluation value for each syntax tree that is issued, and selects feature words from the words based on the overall evaluation value A text extraction step for extracting one unprocessed one of the syntax trees corresponding to the text stored in the text storage unit, and a word extracted from the text stored in the text storage unit A first word extraction step for extracting one unprocessed word from the inside, and whether or not the word extracted in the first word extraction step is included in the syntax tree generated in the first text analysis step If it is determined in the first word presence determination step that determines whether the word is included in the syntax tree in the first word presence determination step, A search is made for a position where a word appears in the syntax tree, and an attribute vector corresponding to the feature word is generated based on a semantic attribute attached to the searched word and a structural attribute based on the appearance position of the searched word. An attribute vector indicating that the word does not exist in the text when the feature word vector generation step and the first word presence determination step determine that the word is not included in the syntax tree. Corresponding to the text based on the first non-feature word vector generation step to be generated, and the attribute vector of each word generated by the first feature word vector generation step and the first non-feature word vector generation step A first text vector generation step for generating an attribute vector, and an attribute generated in the first text vector generation step A discriminant model learning step for generating a discriminant model corresponding to all texts by combining a vector and a text class corresponding to the text, and a new data stored in the text storage unit after the discriminant model learning step A second text reading step for reading unprocessed text from the text, and the text read in the second text reading step are parsed to analyze the dependency structure between words and the semantic attributes of the words. A second text analysis step of generating a syntax tree, a second word extraction step of extracting one unprocessed word from words extracted from the text stored in the text storage unit, The word extracted in the second word extraction step is the second text analysis step. A second word existence determination step for determining whether or not the word is included in the syntax tree generated in step (b), and the second word presence determination step determines that the word is included in the syntax tree A second feature that searches for the position of the appearance and generates an attribute vector corresponding to the feature word based on a semantic attribute associated with the searched word and a structure attribute based on the appearance position of the searched word. A second step of generating an attribute vector indicating that the word does not exist in the text when it is determined that the word is not included in the syntax tree in the word vector generation step and the second word presence determination step; Non-feature word vector generation step, and the attribute vector of each word generated by the second feature word vector generation step and the second non-feature word vector generation step. Therefore, a second text vector generation step for generating an attribute vector corresponding to the text, and an attribute vector corresponding to the new text generated in the second text vector generation step are determined in the discrimination model learning step. And a discriminating step for discriminating a text class corresponding to the text by applying to the generated discriminant model.
この発明によれば、形態素解析よりも多くの情報を出力する構文解析を利用する一方で、構文解析の結果を簡約化して利用する。これにより、構文解析によって得られる構造情報を直接利用して判別モデルを学習する場合に比べて、高速に判別モデルを学習することができる。また、構造情報をある程度保存した特徴付けを行なうことができるため、判別精度の高い判別モデルを学習することができる。 According to the present invention, syntax analysis that outputs more information than morphological analysis is used, while the result of syntax analysis is simplified and used. As a result, the discriminant model can be learned at a higher speed than when the discriminant model is learned by directly using the structural information obtained by the syntax analysis. In addition, since it is possible to perform characterization that preserves structural information to some extent, it is possible to learn a discrimination model with high discrimination accuracy.
以下に、本発明に係るテキスト判別装置およびテキスト判別方法の実施の形態について、図面を参照して説明する。初めに図1を参照して、本発明に係るテキスト判別装置の実施の形態について説明する。 Embodiments of a text discrimination device and a text discrimination method according to the present invention will be described below with reference to the drawings. First, an embodiment of a text discrimination device according to the present invention will be described with reference to FIG.
図1に示すように、このテキスト判別装置は、自然言語で書かれたテキストを格納するテキスト格納部1と、テキストに対応するテキストクラスを格納するテキストクラス格納部2とを有する。また、テキスト格納部1に格納されているテキストの集合を解析することにより、個々のテキストの構造情報と意味情報を取り出すテキスト解析部3と、当該テキストの集合に含まれる個々の単語に対して、個々のテキストにおける構造情報および頻度情報に基づいて、特徴語を抽出する特徴語抽出部4を有する。
As shown in FIG. 1, this text discrimination device has a
このテキスト判別装置はさらに、個々のテキストに対する当該特徴語の意味情報および構造情報に基づいて、当該特徴語に対応する特徴語ベクトルを生成する単語ベクトル生成部5と、当該テキストに対して、すべての特徴語に対応する特徴語ベクトルに基づいてテキストを特徴付けるテキストベクトルを生成するテキストベクトル生成部6とを有する。
The text discrimination device further includes a word
このテキスト判別装置はさらに、テキストベクトル生成部6によって生成されたテキストベクトルとテキストクラス格納部2に格納されているテキストクラスを組として入力することにより、判別モデルを学習する判別モデル学習部7と、学習した判別モデルを格納する判別モデル格納部8と、テキストに対してテキストベクトル生成部6によって生成されたテキストベクトルを判別モデル格納部8に格納されている判別モデルに適用することにより、当該テキストに対応するテキストクラスを判定するテキストクラス判定部9と、を有する。
The text discrimination device further includes a discrimination
次に、本発明に係るテキスト判別方法の実施の形態の詳細について、図2および図3のフローチャートに沿って説明する。ここに、図2は、この実施の形態における判別モデル学習の流れを示すフローチャートであり、図3はこの実施の形態において判別モデルを用いたテキスト判別手順の流れを示すフローチャートである。 Next, the details of the embodiment of the text discrimination method according to the present invention will be described with reference to the flowcharts of FIGS. FIG. 2 is a flowchart showing the flow of discriminant model learning in this embodiment, and FIG. 3 is a flowchart showing the flow of the text discriminating procedure using the discriminant model in this embodiment.
図2のステップSa1においては、テキスト格納部1に格納されているテキストから、未処理のテキストを一つ読み込む。このとき、読み込むテキストが存在しない場合には、ステップSa4へと進む。一方、読み込むテキストが存在する場合には、ステップSa2へと進む。
In step Sa1 of FIG. 2, one unprocessed text is read from the text stored in the
ステップSa2においては、読み込んだテキストに対して、テキスト解析部3が、例えば、非特許文献2に記載の構文解析を適用することにより、単語間の係り受け構造および単語の意味的属性を解析して、図4および図5に例示される構文木を生成する。すなわち、単語およびその属性を記述してある辞書を参照することにより、与えられたテキストを文節単位にまとめて、単語および当該単語に関連する属性が付随している列に分解する。なお、構文木においては、この属性が単語の右側に付与されるラベル(品詞、否定等)として表現されている。
In step Sa2, the text analysis unit 3 analyzes the dependency structure between words and the semantic attribute of the word by applying the syntax analysis described in
次に、体言および体言に準ずる語の他の語に対する関係を示す助詞である格助詞等の表層的な特徴を利用することにより、名詞とその名詞に最も近い動詞の間に係り受け関係を設定し、単純な構文木を生成する。 Next, a dependency relationship is established between a noun and the verb closest to the noun by using surface features such as case particles, which are particles that show the relationship of body words and words that are similar to body words to other words. And generate a simple syntax tree.
次に、係り受け可能な名詞、動詞の組を、当該単純な構文木の中から取り出して、当該組み合わせに対して、必要ならば複数の係り受け候補を生成する。このとき、当該係り受け候補に対しては、意味係り受け関係を記述してある辞書を参照することにより、設定可能な意味係り受け関係およびその確信度に基づいて計算されるスコアが付与されている。なお、構文木においては、この意味係り受け関係がリンク上に付与されるラベル(に格、を格等)によって表現されている。 Next, combinations of nouns and verbs that can be modified are extracted from the simple syntax tree, and a plurality of dependency candidates are generated for the combination if necessary. At this time, a score calculated based on the settable semantic dependency relationship and its certainty is given to the dependency candidate by referring to a dictionary describing the semantic dependency relationship. Yes. In the syntax tree, this semantic dependency relationship is expressed by a label (eg, case, etc.) given on the link.
最終的には、文節間の意味的な制約を考慮した上で、係り受け候補群の中から最適な係り受け候補を決定し、最もスコアが高くなる構文木を生成する。また、各文節を展開して、各ノードが単語からなる構文木を生成する。 Finally, after considering the semantic constraints between clauses, an optimum dependency candidate is determined from the dependency candidate group, and a syntax tree having the highest score is generated. Further, each clause is expanded to generate a syntax tree in which each node is composed of words.
例えば、
例1:「先日コンピュータを買いましたが、その処理速度に満足しています。」
といった日本語の文章が与えられているとするならば、図4に示す構文木を獲得することができる。本構文木においては、単語の右側の( )内に意味属性が付与されており、単語間の関係が線で結ばれている。その単語間の関係を示す記号がラベル付けされているとする。また、本例においては、単語に対応する一部の意味属性だけが記載されているとする。
For example,
Example 1: “I bought a computer the other day, but I ’m satisfied with its processing speed.”
4 is obtained, the syntax tree shown in FIG. 4 can be obtained. In this syntax tree, semantic attributes are given in parentheses on the right side of words, and the relationship between words is connected by a line. Assume that the symbols indicating the relationship between the words are labeled. In this example, it is assumed that only some semantic attributes corresponding to words are described.
一方、例2:「先日コンピュータを買いましたが、その処理速度に満足していません。」といった日本語の文章が与えられているとするならば、図5に示す構文木を獲得することができる。 On the other hand, if a Japanese sentence such as “Example 2:“ I bought a computer the other day but I am not satisfied with its processing speed ”is given, the syntax tree shown in FIG. 5 is obtained. Can do.
次に、ステップSa3においては、テキスト解析部3がテキスト格納部1に格納されているすべてのテキストから抽出される単語に対して、対象としている構文木における出現位置に基づいて単語評価値を計算し、ステップSa1へと戻る。
Next, in step Sa3, the text analysis unit 3 calculates word evaluation values for words extracted from all the texts stored in the
例えば、各単語の単語評価値が式(1)および式(2)によって計算されるとする。
ここで、wiをテキスト格納部1から抽出されるi番目の単語、Tjをj番目のテキストを構成する単語とする。また、tijを、j番目のテキストにおいて単語wiを含んでいる数とし、dept(i,j,k)を、j番目のテキストに対応する構文木において出現するi番目の単語に一致するk番目の単語の深さを求める関数とする。ただし、構文木のルートノードにおける深さを0とする。したがって、図4の構文木における、単語「満足」および単語「コンピュータ」の単語評価値は、当該構文木において、一度だけ出現しているので、1(=1/(0+1))、0.25(=1/(3+1))と与えられる。
Here, w i is the i-th word extracted from the
ステップSa4においては、特徴語抽出部4が構文木ごとに計算した各単語の単語評価値に基づいて、すべてのテキストを対象とした単語の総合評価値を計算し、当該総合評価値に基づいて単語の中から特徴語を選択する。
In step Sa4, based on the word evaluation value of each word calculated by the feature
例えば、従来から提案されているtf−idf(term frequency - inverse document frequency)値(式(3)の第2項)を、単語の構文木における出現位置を考慮した補正を行なった、式(3)によって、単語の総合評価値を計算する。
ここで、Dをテキストの総数とし、diをi番目の単語をもつテキストの数とし、njをj番目のテキストに含まれる単語の数とする。この総合評価値により、特定のテキストと関連して出現し、構文木の上位に出現する単語に高い総合評価値を与えることができる。 Here, D is the total number of texts, d i is the number of texts with the i-th word, and n j is the number of words contained in the j-th text. By this comprehensive evaluation value, a high comprehensive evaluation value can be given to a word that appears in association with a specific text and appears at the top of the syntax tree.
また、当該ステップでは、特徴語抽出部4が、単語に対して指定したしきい値以上となる単語を特徴語として抽出する。
In this step, the feature
ステップSa5においては、単語ベクトル生成部5が、テキスト格納部1に格納されているテキストに対応する構文木のうち、未処理のものを一つ取り出す。このとき、取り出す構文木が存在しない場合には、ステップSa11へと進む。一方、取り出す構文木が存在する場合には、ステップSa6へと進む。
In step Sa <b> 5, the word
ステップSa6においては、単語ベクトル生成部5が、テキスト格納部1に格納されているテキストから抽出される単語の中から、未処理の単語を一つ取り出す。このとき、取り出す単語が存在しない場合には、ステップSa10へと進む。一方、取り出す単語が存在する場合には、ステップSa7へと進む。
In step Sa6, the word
ステップSa7においては、単語ベクトル生成部5が、取り出した単語が対象としている構文木に含まれているかどうかを判定する。このとき、取り出した単語が含まれているとすれば、ステップSa8へと進む。一方、取り出した単語が含まれていないとすれば、ステップSa9へと進む。
In step Sa7, the word
ステップSa8においては、単語ベクトル生成部5が、当該単語が構文木において出現する位置を探索する。また、探索した単語に付随している意味属性および探索した単語の出現位置に基づいた構造属性により、特徴語に対応する属性ベクトルを生成して、処理をステップSa5へと戻す。
In step Sa8, the word
例えば、単語に付随する品詞(構文木における品詞属性の値)、単語の否定の有無(構文木における否定属性の値)を単語の意味属性とし、単語の構文木における深さおよび付随する下位の枝の数を単語の構造属性として抽出する。このとき、例1において、「満足」といった単語が与えられている場合には、図6に示す属性ベクトルを生成する。ただし、単語の否定の有無を示す意味属性が例1における「満足」には与えられていないので、本意味属性の値を「無し」と設定する。また、例2において、「満足」といった単語が与えられている場合には、図7に示す属性ベクトルを生成する。 For example, the word part of speech (value of the part of speech attribute in the syntax tree) and the word negation (value of the negative attribute in the syntax tree) are the semantic attributes of the word. The number of branches is extracted as a structural attribute of the word. At this time, if the word “satisfied” is given in Example 1, the attribute vector shown in FIG. 6 is generated. However, since the meaning attribute indicating whether the word is negated is not given to “satisfied” in Example 1, the value of this meaning attribute is set to “none”. In Example 2, when a word such as “satisfied” is given, the attribute vector shown in FIG. 7 is generated.
ステップSa9においては、単語ベクトル生成部5が、当該単語がテキストに存在しないことを示す属性ベクトルを生成して、処理をステップSa5へと戻す。
In step Sa9, the word
例えば、離散的な属性に対しては「未抽出」を設定し、数値的な属性に対しては数値属性の値域外の値(深さおよび枝数の場合は−1)を設定する。このとき、例1において、「不満」といった単語が与えられている場合には、図8に示す属性ベクトルを生成する。 For example, “un-extracted” is set for a discrete attribute, and a value outside the range of the numeric attribute (−1 for depth and the number of branches) is set for a numerical attribute. At this time, in the example 1, when a word such as “dissatisfied” is given, the attribute vector shown in FIG. 8 is generated.
ステップSa10においては、対象となっているテキストに対して、単語ベクトル生成部5が生成した各単語の属性ベクトルから、テキストベクトル生成部6が、テキストに対応する属性ベクトルを生成する。
In step Sa10, the text
例えば、単語の属性ベクトルを連結することにより、テキストの属性ベクトルを生成する。このとき、例1および例2に対しては、図9に示す属性ベクトル(テキストベクトル)を生成する。 For example, a text attribute vector is generated by concatenating word attribute vectors. At this time, for example 1 and example 2, an attribute vector (text vector) shown in FIG. 9 is generated.
ステップSa11においては、テキストベクトル生成部6によって生成されたテキストベクトルと、当該テキストベクトルに対して、テキストクラス格納部2に格納されているテキストクラスを組とすることにより、すべてのテキストに対応する学習事例を生成する。
In step Sa11, the text vector generated by the text
例えば、例1および例2に対応するテキストクラスが、それぞれ「不満無し」、「不満有り」であるとすれば、例1および例2に対して、図10に示す学習事例を生成する。 For example, if the text classes corresponding to Example 1 and Example 2 are “no dissatisfaction” and “no dissatisfaction”, respectively, learning examples shown in FIG. 10 are generated for Example 1 and Example 2.
また、当該学習事例を、例えば、非特許文献3に記載のSVM(Support Vector Machine)を利用することにより、テキストクラスを判別する判別モデルを学習し、学習した判別モデルを判別モデル格納部8に格納する。
In addition, for example, the learning example is learned using a support vector machine (SVM) described in Non-Patent Document 3 to learn a discrimination model for discriminating a text class, and the learned discrimination model is stored in the discrimination
以上のようにして、判別モデルが学習されたとすれば、新たなテキストが与えられた場合に、当該テキストを当該判別モデルに適用することにより、当該テキストに対応するテキストクラスを判別することができる。すなわち、図3のステップSb1においては、テキスト解析部3がテキスト格納部1から新たに格納されたテキストのうち未処理のテキストを一つ読み込む。このとき、読み込むテキストが存在する場合には、ステップSb2へと進む。一方、読み込むテキストが存在しない場合には、処理を終了する。
As described above, if the discrimination model is learned, when a new text is given, the text class corresponding to the text can be discriminated by applying the text to the discrimination model. . That is, in step Sb1 of FIG. 3, the text analysis unit 3 reads one unprocessed text among the newly stored text from the
ステップSb2においては、読み込んだテキストに対して、テキスト解析部3が、単語間の係り受け構造および単語の意味的属性を解析して、構文木を生成する。 In step Sb2, the text analysis unit 3 analyzes the dependency structure between words and the semantic attributes of the words for the read text to generate a syntax tree.
ステップSb3においては、単語ベクトル生成部5が、テキスト格納部1に格納されているテキストから抽出される単語の中から、未処理の単語を一つ取り出す。このとき、取り出す単語が存在しない場合には、ステップSb7へと進む。一方、取り出す単語が存在する場合には、ステップSb4へと進む。
In step Sb3, the word
ステップSb4においては、単語ベクトル生成部5が取り出した単語が、対象としている構文木に含まれているかどうかを判定する。このとき、取り出した単語が含まれていないとすれば、ステップSb5へと進む。一方、取り出した単語が含まれているとすれば、ステップSb6へと進む。
In step Sb4, it is determined whether the word extracted by the word
ステップSb5においては、単語ベクトル生成部5が、当該単語が構文木において出現する位置を探索する。また、探索した単語に付随している意味属性および探索した単語の出現位置に基づいた構造属性により、特徴語に対応する属性ベクトルを生成して、処理をステップSb3へと戻す。
In step Sb5, the word
ステップSb6においては、単語ベクトル生成部5が、当該単語がテキストに存在しないことを示す属性ベクトルを生成して、処理をステップSb3へと戻す。
In step Sb6, the word
ステップSb7においては、対象となっているテキストに対して単語ベクトル生成部5が生成した各単語の属性ベクトルから、テキストベクトル生成部6が、テキストに対応する属性ベクトルを生成する。
In step Sb7, the text
ステップSb8においては、テキストクラス判定部9が、テキストベクトル生成部6によって生成された新たなテキストに対応する属性ベクトルを、判別モデル格納部8に格納されている判別モデルに適用することにより、当該テキストに対応するテキストクラスを判別する。
In step Sb8, the text
以上のステップSb1〜ステップSb7を、テキスト格納部1に新たに格納されたすべてのテキストに実施することにより、すべてのテキストのテキストクラスを判別することができる。
By implementing the above steps Sb1 to Sb7 for all the texts newly stored in the
以上、本発明の実施の形態について説明した。この実施の形態は単なる例示であって、本発明は上記の実施の形態に限られるものではない。例えば、特徴語の抽出において、構造情報を反映した総合評価値の算出において、tf−idf値と単語評価値の積に基づいて総合評価値を計算する例を示したが、線形和に基づいて計算してもよいし、tf−idf値以外の評価値と単語評価値に基づいて計算してもよいし、構文木における深さ以外の情報に基づいた単語評価値を計算してもよい。 The embodiment of the present invention has been described above. This embodiment is merely an example, and the present invention is not limited to the above-described embodiment. For example, in the extraction of feature words, an example is shown in which the overall evaluation value is calculated based on the product of the tf-idf value and the word evaluation value in the calculation of the overall evaluation value reflecting the structure information. It may be calculated, may be calculated based on the evaluation value other than the tf-idf value and the word evaluation value, or may be calculated based on information other than the depth in the syntax tree.
また、単語ベクトルの生成において、意味属性として品詞および否定の有無、構造属性として単語の深さおよび枝の数だけを利用する例を示したが、意味属性として疑問表現の有無等の他の意味属性、構造属性として、構文木において単語に付随する単語の数や、単語の上位の枝に付与されている属性の値等の他の構造属性を利用してもよいし、単語ごとに利用する意味属性および構造属性を変えて単語ベクトルを生成してもよい。 In addition, in the generation of word vectors, an example is shown in which only the part of speech and negation are used as semantic attributes, and only the word depth and the number of branches are used as structural attributes. Other structural attributes such as the number of words attached to a word in the syntax tree and the value of the attribute assigned to the upper branch of the word may be used as the attribute and the structural attribute, or used for each word. The word vector may be generated by changing the semantic attribute and the structural attribute.
さらには、テキストベクトルの生成において、単語ベクトルを連結するだけでなく、各単語に総合評価値に基づいた重みが付与された属性ベクトルを生成し、属性の重みを考慮した判別モデルの学習を実施してもよい。 Furthermore, in the generation of text vectors, in addition to concatenating word vectors, an attribute vector is generated in which each word is given a weight based on a comprehensive evaluation value, and a discriminant model is learned in consideration of the attribute weight. May be.
この他、本発明の趣旨を逸脱しない範囲において、種々変形してテキスト判別装置等を構成することができる。 In addition, the text discrimination device and the like can be configured with various modifications without departing from the spirit of the present invention.
1…テキスト格納部
2…テキストクラス格納部
3…テキスト解析部
4…特徴語抽出部
5…単語ベクトル生成部
6…テキストベクトル生成部
7…判別モデル学習部
8…判別モデル格納部
9…テキストクラス判定部
DESCRIPTION OF
Claims (3)
自然言語で書かれたテキストを格納するテキスト格納部と、
テキストに対応するテキストクラスを格納するテキストクラス格納部と、
テキスト格納部に格納されているテキストの集合を解析することにより、個々のテキストの構造情報と意味情報を取り出すテキスト解析部と、
当該テキストの集合に含まれる個々の単語に対して、個々のテキストにおける構造情報および頻度情報に基づいて、特徴語を抽出する特徴語抽出部と、
個々のテキストに対する当該特徴語の意味情報および構造情報に基づいて、当該特徴語に対応する特徴語ベクトルを生成する単語ベクトル生成部と、
当該テキストに対して、すべての特徴語に対応する特徴語ベクトルに基づいてテキストを特徴付けるテキストベクトルを生成するテキストベクトル生成部と、
テキストベクトル生成部によって生成されたテキストベクトルとテキストクラス格納部に格納されているテキストクラスを組として入力することにより、判別モデルを学習する判別モデル学習部と、
学習した判別モデルを格納する判別モデル格納部と、
テキストに対してテキストベクトル生成部によって生成されたテキストベクトルを判別モデル格納部に格納されている判別モデルに適用することにより、当該テキストに対応するテキストクラスを判定するテキストクラス判定部と、
を有することを特徴とするテキスト判別装置。 In a text discriminating apparatus for discriminating whether or not text described in a natural language is included in a specific text class,
A text storage for storing text written in natural language;
A text class storage for storing a text class corresponding to the text;
A text analysis unit that extracts structure information and semantic information of each text by analyzing a set of text stored in the text storage unit;
A feature word extraction unit that extracts a feature word for each word included in the set of texts based on structure information and frequency information in each text;
A word vector generation unit that generates a feature word vector corresponding to the feature word based on the semantic information and structure information of the feature word for each text;
A text vector generation unit that generates a text vector that characterizes the text based on a feature word vector corresponding to all feature words for the text;
A discriminant model learning unit that learns a discriminant model by inputting the text vector generated by the text vector generation unit and the text class stored in the text class storage unit as a set;
A discriminant model storage for storing the discriminated model learned, and
A text class determination unit that determines a text class corresponding to the text by applying the text vector generated by the text vector generation unit to the text to the determination model stored in the determination model storage unit;
A text discrimination device characterized by comprising:
自然言語で書かれたテキストをテキスト格納部に格納するテキスト格納ステップと、
テキストに対応するテキストクラスをテキストクラス格納部に格納するテキストクラス格納ステップと、
テキスト格納部に格納されているテキストの集合を解析することにより、個々のテキストの構造情報と意味情報を取り出すテキスト解析ステップと、
当該テキストの集合に含まれる個々の単語に対して、個々のテキストにおける構造情報および頻度情報に基づいて、特徴語を抽出する特徴語抽出ステップと、
個々のテキストに対する当該特徴語の意味情報および構造情報に基づいて、当該特徴語に対応する特徴語ベクトルを生成する単語ベクトル生成ステップと、
当該テキストに対して、すべての特徴語に対応する特徴語ベクトルからテキストを特徴付けるテキストベクトルを生成するテキストベクトル生成ステップと、
テキストベクトル生成部によって生成されたテキストベクトルとテキストクラス格納部に格納されているテキストクラスを組として入力することにより、判別モデルを学習する判別モデル学習ステップと、
学習した判別モデルを格納する判別モデル格納ステップと、
テキストに対してテキストベクトル生成ステップによって生成されたテキストベクトルを判別モデル格納ステップによって格納されている判別モデルに適用することにより、当該テキストに対応するテキストクラスを判定するテキストクラス判定ステップと、
を有することを特徴とするテキスト判別方法。 In a text determination method for determining whether text described in a natural language is included in a specific text class,
A text storage step for storing text written in a natural language in a text storage unit;
A text class storage step of storing a text class corresponding to the text in the text class storage unit;
A text analysis step for extracting structure information and semantic information of each text by analyzing a set of text stored in the text storage;
A feature word extraction step of extracting a feature word for each word included in the set of texts based on structure information and frequency information in each text;
A word vector generation step of generating a feature word vector corresponding to the feature word based on the semantic information and structure information of the feature word for each text;
A text vector generation step for generating a text vector characterizing the text from feature word vectors corresponding to all feature words for the text;
A discriminant model learning step of learning a discriminant model by inputting the text vector generated by the text vector generator and the text class stored in the text class storage unit as a set;
A discriminant model storing step for storing the learned discriminant model;
A text class determination step for determining a text class corresponding to the text by applying the text vector generated by the text vector generation step to the text to the discrimination model stored by the discrimination model storage step;
A text discrimination method characterized by comprising:
テキスト格納部に格納された複数のテキストから未処理のテキストを読み込む第1のテキスト読み込みステップと、
前記第1のテキスト読み込みステップで読み込まれた各テキストに対して構文解析を行ない、単語間の係り受け構造および単語の意味的属性を解析して構文木を生成する第1のテキスト解析ステップと、
前記テキスト格納部に格納されているテキストから抽出される単語に対して、前記第1のテキスト解析ステップで生成された構文木における出現位置に基づいて、各構文木ごとに単語評価値を算出する単語評価値算出ステップと、
前記単語評価値算出ステップで算出された各構文木ごとの単語評価値に基づいて、すべてのテキストを対象とした単語の総合評価値を計算し、当該総合評価値に基づいて単語の中から特徴語を選択する特徴語選択ステップと、
前記テキスト格納部に格納されているテキストに対応する構文木のうち、未処理のものを一つ取り出すテキスト取り出しステップと、
前記テキスト格納部に格納されているテキストから抽出される単語の中から未処理の単語を一つ取り出す第1の単語取り出しステップと、
前記第1の単語取り出しステップで取り出された単語が前記第1のテキスト解析ステップで生成された構文木に含まれているかどうかを判定する第1の単語存在判定ステップと、
前記第1の単語存在判定ステップで当該単語が当該構文木に含まれていると判定された場合に、当該単語が当該構文木において出現する位置を探索し、探索した単語に付随している意味属性および探索した単語の出現位置に基づいた構造属性に基づいて、特徴語に対応する属性ベクトルを生成する第1の特徴語ベクトル生成ステップと、
前記第1の単語存在判定ステップで当該単語が当該構文木に含まれていないと判定された場合に、当該単語が当該テキストに存在しないことを示す属性ベクトルを生成する第1の非特徴語ベクトル生成ステップと、
前記第1の特徴語ベクトル生成ステップおよび第1の非特徴語ベクトル生成ステップによって生成された各単語の属性ベクトルに基づいて、当該テキストに対応する属性ベクトルを生成する第1のテキストベクトル生成ステップと、
前記第1のテキストベクトル生成ステップで生成された属性ベクトルと、当該テキストに対応するテキストクラスとを組み合わせることにより、すべてのテキストに対応する判別モデルを生成する判別モデル学習ステップと、
前記判別モデル学習ステップの後に、テキスト格納部に新たに格納されたテキストから未処理のテキストを読み込む第2のテキスト読み込みステップと、
前記第2のテキスト読み込みステップで読み込まれたテキストに対して構文解析を行ない、単語間の係り受け構造および単語の意味的属性を解析して構文木を生成する第2のテキスト解析ステップと、
前記テキスト格納部に格納されているテキストから抽出される単語の中から未処理の単語を一つ取り出す第2の単語取り出しステップと、
前記第2の単語取り出しステップで取り出された単語が前記第2のテキスト解析ステップで生成された構文木に含まれているかどうかを判定する第2の単語存在判定ステップと、
前記第2の単語存在判定ステップで当該単語が当該構文木に含まれていると判定された場合に、その出現する位置を探索し、探索した単語に付随している意味属性および探索した単語の出現位置に基づいた構造属性に基づいて、特徴語に対応する属性ベクトルを生成する第2の特徴語ベクトル生成ステップと、
前記第2の単語存在判定ステップで当該単語が当該構文木に含まれていないと判定された場合に、当該単語がテキストに存在しないことを示す属性ベクトルを生成する第2の非特徴語ベクトル生成ステップと、
前記第2の特徴語ベクトル生成ステップおよび第2の非特徴語ベクトル生成ステップによって生成された各単語の属性ベクトルに基づいて、当該テキストに対応する属性ベクトルを生成する第2のテキストベクトル生成ステップと、
前記第2のテキストベクトル生成ステップで生成された新たなテキストに対応する属性ベクトルを、前記判別モデル学習ステップで生成された判別モデルに適用することにより、当該テキストに対応するテキストクラスを判別する判別ステップと、
を有することを特徴とするテキスト判別方法。 In a text determination method for determining whether text described in a natural language is included in a specific text class,
A first text reading step for reading raw text from a plurality of texts stored in a text storage;
A first text analysis step of performing a syntax analysis on each text read in the first text reading step, and analyzing a dependency structure between words and a semantic attribute of the word to generate a syntax tree;
For each word extracted from the text stored in the text storage unit, a word evaluation value is calculated for each syntax tree based on the appearance position in the syntax tree generated in the first text analysis step. A word evaluation value calculation step;
Based on the word evaluation value for each syntax tree calculated in the word evaluation value calculation step, a total evaluation value of words for all texts is calculated, and a feature is selected from the words based on the total evaluation value. A feature word selection step for selecting a word;
A text extraction step of extracting one unprocessed one of the syntax trees corresponding to the text stored in the text storage unit;
A first word extracting step of extracting one unprocessed word from words extracted from the text stored in the text storage unit;
A first word existence determination step for determining whether the word extracted in the first word extraction step is included in the syntax tree generated in the first text analysis step;
Meanings associated with the searched word by searching for a position where the word appears in the syntax tree when it is determined in the first word existence determining step that the word is included in the syntax tree. A first feature word vector generation step for generating an attribute vector corresponding to the feature word based on the attribute and the structural attribute based on the appearance position of the searched word;
A first non-feature word vector that generates an attribute vector indicating that the word does not exist in the text when it is determined in the first word presence determination step that the word is not included in the syntax tree. Generation step;
A first text vector generation step for generating an attribute vector corresponding to the text based on the attribute vector of each word generated by the first feature word vector generation step and the first non-feature word vector generation step; ,
A discriminant model learning step of generating discriminant models corresponding to all texts by combining the attribute vector generated in the first text vector generating step and a text class corresponding to the text;
A second text reading step of reading unprocessed text from text newly stored in the text storage unit after the discriminant model learning step;
A second text analysis step of performing a syntax analysis on the text read in the second text reading step and analyzing a dependency structure between words and a semantic attribute of the word to generate a syntax tree;
A second word extracting step of extracting one unprocessed word from words extracted from the text stored in the text storage unit;
A second word presence determining step for determining whether the word extracted in the second word extracting step is included in the syntax tree generated in the second text analyzing step;
When it is determined in the second word presence determination step that the word is included in the syntax tree, the position where the word appears is searched, the semantic attribute attached to the searched word and the searched word A second feature word vector generation step for generating an attribute vector corresponding to the feature word based on the structure attribute based on the appearance position;
Second non-feature word vector generation for generating an attribute vector indicating that the word does not exist in the text when it is determined in the second word presence determination step that the word is not included in the syntax tree Steps,
A second text vector generation step for generating an attribute vector corresponding to the text based on the attribute vector of each word generated by the second feature word vector generation step and the second non-feature word vector generation step; ,
Discrimination for discriminating a text class corresponding to the text by applying the attribute vector corresponding to the new text generated in the second text vector generation step to the discrimination model generated in the discrimination model learning step Steps,
A text discrimination method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007008270A JP2008176489A (en) | 2007-01-17 | 2007-01-17 | Text discrimination device and text discrimination method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007008270A JP2008176489A (en) | 2007-01-17 | 2007-01-17 | Text discrimination device and text discrimination method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008176489A true JP2008176489A (en) | 2008-07-31 |
Family
ID=39703473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007008270A Withdrawn JP2008176489A (en) | 2007-01-17 | 2007-01-17 | Text discrimination device and text discrimination method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008176489A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010186349A (en) * | 2009-02-12 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | Representative word extraction method and apparatus and program and computer-readable recording medium |
CN103177125A (en) * | 2013-04-17 | 2013-06-26 | 镇江诺尼基智能技术有限公司 | Method for realizing fast-speed short text bi-cluster |
JP2014056331A (en) * | 2012-09-11 | 2014-03-27 | Hitachi Advanced Systems Corp | Document classification method, document classification program and document classification device |
CN106156004A (en) * | 2016-07-04 | 2016-11-23 | 中国传媒大学 | The sentiment analysis system and method for film comment information based on term vector |
JP2021157282A (en) * | 2020-03-25 | 2021-10-07 | 株式会社日立製作所 | Labeling model generation device and labeling model generation method |
US11334609B2 (en) | 2015-01-20 | 2022-05-17 | Fujitsu Limited | Semantic structure search device and semantic structure search method |
-
2007
- 2007-01-17 JP JP2007008270A patent/JP2008176489A/en not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010186349A (en) * | 2009-02-12 | 2010-08-26 | Nippon Telegr & Teleph Corp <Ntt> | Representative word extraction method and apparatus and program and computer-readable recording medium |
JP2014056331A (en) * | 2012-09-11 | 2014-03-27 | Hitachi Advanced Systems Corp | Document classification method, document classification program and document classification device |
CN103177125A (en) * | 2013-04-17 | 2013-06-26 | 镇江诺尼基智能技术有限公司 | Method for realizing fast-speed short text bi-cluster |
CN103177125B (en) * | 2013-04-17 | 2016-04-27 | 镇江诺尼基智能技术有限公司 | One short text double focusing fast class methods |
US11334609B2 (en) | 2015-01-20 | 2022-05-17 | Fujitsu Limited | Semantic structure search device and semantic structure search method |
CN106156004A (en) * | 2016-07-04 | 2016-11-23 | 中国传媒大学 | The sentiment analysis system and method for film comment information based on term vector |
CN106156004B (en) * | 2016-07-04 | 2019-03-26 | 中国传媒大学 | The sentiment analysis system and method for film comment information based on term vector |
JP2021157282A (en) * | 2020-03-25 | 2021-10-07 | 株式会社日立製作所 | Labeling model generation device and labeling model generation method |
JP7364512B2 (en) | 2020-03-25 | 2023-10-18 | 株式会社日立製作所 | Labeling model generation device and labeling model generation method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5403696B2 (en) | Language model generation apparatus, method and program thereof | |
CN109614620B (en) | HowNet-based graph model word sense disambiguation method and system | |
CN103678684A (en) | Chinese word segmentation method based on navigation information retrieval | |
Ojha et al. | Training & evaluation of POS taggers in Indo-Aryan languages: a case of Hindi, Odia and Bhojpuri | |
JP2008176489A (en) | Text discrimination device and text discrimination method | |
JP4333318B2 (en) | Topic structure extraction apparatus, topic structure extraction program, and computer-readable storage medium storing topic structure extraction program | |
JP2007047974A (en) | Information extraction device and information extraction method | |
CN114997288A (en) | Design resource association method | |
CN113361252B (en) | Text depression tendency detection system based on multi-modal features and emotion dictionary | |
JP2017201478A (en) | Keyword evaluation device, similarity evaluation device, search device, evaluate method, search method, and program | |
US20220207240A1 (en) | System and method for analyzing similarity of natural language data | |
CN107562774A (en) | Generation method, system and the answering method and system of rare foreign languages word incorporation model | |
JP6126965B2 (en) | Utterance generation apparatus, method, and program | |
JP6232358B2 (en) | Next utterance candidate ranking apparatus, method, and program | |
JP2008152641A (en) | Similar example sentence retrieving device | |
Aldine et al. | Redefining Hearst Patterns by using Dependency Relations. | |
JP6135866B2 (en) | Synonym identification device, method, and program | |
KR20100085433A (en) | High quality voice synthesizing method using multiple target prosody | |
JP2009003811A (en) | Attribute determination device, interaction device and program | |
JP5298834B2 (en) | Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus | |
JP6574469B2 (en) | Next utterance candidate ranking apparatus, method, and program | |
Bach et al. | Paraphrase identification in Vietnamese documents | |
JP5506482B2 (en) | Named entity extraction apparatus, string-named expression class pair database creation apparatus, numbered entity extraction method, string-named expression class pair database creation method, program | |
CN105930471A (en) | Speech abstract generation method and apparatus | |
JP2008165718A (en) | Intention determination device, intention determination method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20100406 |