JP2008176489A - Text discrimination device and text discrimination method - Google Patents

Text discrimination device and text discrimination method Download PDF

Info

Publication number
JP2008176489A
JP2008176489A JP2007008270A JP2007008270A JP2008176489A JP 2008176489 A JP2008176489 A JP 2008176489A JP 2007008270 A JP2007008270 A JP 2007008270A JP 2007008270 A JP2007008270 A JP 2007008270A JP 2008176489 A JP2008176489 A JP 2008176489A
Authority
JP
Japan
Prior art keywords
text
word
vector
class
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007008270A
Other languages
Japanese (ja)
Inventor
Shigeaki Sakurai
茂明 櫻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007008270A priority Critical patent/JP2008176489A/en
Publication of JP2008176489A publication Critical patent/JP2008176489A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To highly precisely and quickly discriminate the class of a text by quickly learning a discrimination model, and using the discrimination model. <P>SOLUTION: This text discrimination device is provided with a text storage part 1; a text class storage part 2; a text analyzing part 3 for creating the structure information and meaning information of the text; a featured word extraction part 4 for extracting a featured word based on the structure information and frequency information with respect to each word included in the text; a word vector generation part 5 for generating a featured word vector corresponding to the featured word based on the meaning information of the featured word; a text vector generation part 6 for generating a text vector featuring the text based on the featured word vector; a discrimination model learning part 7 for learning a discrimination model by inputting the text vector and a text class as a set; a discrimination model storage part 8 for storing a discrimination model; and a text class discrimination part 9 for deciding the text class corresponding to the text by applying the text vector to the discrimination model. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、自然言語で記載されたテキストに対して、構造情報を利用して、特定のテキストクラスに含まれているかどうかを判別する装置およびその方法に関する。   The present invention relates to an apparatus and a method for determining whether text described in a natural language is included in a specific text class using structural information.

コンピュータ環境の進展に伴って、テキストを簡便に収集・蓄積できるようになった。これらテキストには、利用者にとっての有用な知見が埋もれており、テキストを分析する技術が研究されている。その一つとして、テキストが所望のクラスに含まれているかどうかを判別する方法が知られている。   With the development of computer environment, texts can be collected and stored easily. In these texts, useful knowledge for users is buried, and techniques for analyzing texts are being researched. As one of the methods, a method for determining whether text is included in a desired class is known.

非特許文献1に提案されている方法では、テキストを形態素解析し、特定のパターンを含む単語列であるキーフレーズを抽出して、テキストを特徴付けることにより、テキストの分類学習を実施している。この手法においては、形態素解析に基づいた特徴付けが行なわれているため、単語間の係り受け関係を解析することができず、単語の意味的な繋がりを考慮した判別モデルを学習することができなかった。このため、当該判別手法を利用して、テキストの判別を行なった場合、その分類精度を高めるには限界があった。   In the method proposed in Non-Patent Document 1, morphological analysis of text is performed, key phrases that are word strings including a specific pattern are extracted, and the text is characterized to perform text classification learning. In this method, characterization based on morphological analysis is performed, so it is not possible to analyze the dependency relationship between words, and it is possible to learn a discrimination model that takes into account the semantic connection of words. There wasn't. For this reason, when text is discriminated using the discriminating method, there is a limit to increasing the classification accuracy.

一方、特許文献1に提案されている「テキスト解析装置」では、構文解析を実施することにより、分類対象のテキストを構成する単語に対して、その意味属性を付与する。また、意味属性を含めて指定した構造とクラスとの間の関係をルールとして利用することにより、テキストを特定のクラスに分類する。しかしながら、この手法の場合、意味属性を含めた構造と特定のクラス間との関係をルールとして、利用者が指定する必要がある。そのため、どのような構造が特定のクラスと関連しているかが分からない場合に、この技術を利用することができなかった。また、テキストが特定の構造を含むかどうかを判定するには、木構造の比較を行なう必要があるため、その比較には多大なる時間が必要であった。   On the other hand, in the “text analysis device” proposed in Patent Document 1, the semantic attribute is given to the words constituting the text to be classified by performing syntax analysis. In addition, the text is classified into a specific class by using the relationship between the specified structure including the semantic attribute and the class as a rule. However, in this method, the user needs to specify the relationship between a structure including a semantic attribute and a specific class as a rule. Therefore, this technique could not be used when it is not clear what structure is associated with a particular class. Further, since it is necessary to compare tree structures in order to determine whether a text includes a specific structure, it takes a lot of time for the comparison.

また一方、特許文献2に提案されている「データ処理方法、これを用いた情報処理システムおよびプログラム」では、ラベル付き順序木を利用した分類学習を実施している。テキストを構文解析した結果は、本ラベル付き順序木の一種と見なすことができるため、この手法を利用することにより、テキストが所望のクラスに含まれているかどうかを判別する判別モデルを学習することができる。しかしながら、この手法においては、ラベル付き順序木に含まれる部分構造を数え上げて、特徴付けを行なう必要があり、部分構造の数え上げには多大なる時間が必要となるため、判別モデルの学習および判別モデルを用いたクラスの判別には多大なる時間が必要であった。
特開2003−16079号公報 特開2003−271599号公報 Shigeaki Sakurai and Akihiro Suyama: “Rule Discovery from Textual Data based on Key Phrase Patterns”,Proceedings of the 19th Annual ACM Symposium on Applied Computing, 606-612 (2004-03) 平川、天野:日本語解析における最適解探索、情報処理学会自然言語処理研究会、NL74−2、pp.9−16,(1989.9) V. N. Vapnik: “The Nature of Statistical Learning Theory”, Springer,(1995).
On the other hand, in the “data processing method, information processing system and program using the same” proposed in Patent Document 2, classification learning using a labeled ordered tree is performed. Since the result of parsing the text can be regarded as a kind of this ordered tree with labels, by using this method, a discriminant model for discriminating whether the text is included in the desired class is learned. Can do. However, in this method, it is necessary to count and characterize the partial structures included in the labeled ordered tree, and enormous time is required to count the partial structures. It took a lot of time to discriminate classes using.
JP 2003-16079 A JP 2003-271599 A Shigeaki Sakurai and Akihiro Suyama: “Rule Discovery from Textual Data based on Key Phrase Patterns”, Proceedings of the 19th Annual ACM Symposium on Applied Computing, 606-612 (2004-03) Hirakawa, Amano: Optimal solution search in Japanese analysis, Natural Language Processing Study Group, NL74-2, pp. 9-16, (1989.9) VN Vapnik: “The Nature of Statistical Learning Theory”, Springer, (1995).

上述のように、従来の手法では、判別モデルを高速に学習し、当該判別モデルを利用して精度が高く、高速にテキストのクラスを判別するということができなかった。   As described above, according to the conventional method, it is impossible to learn a discrimination model at high speed, and to use the discrimination model to determine the text class with high accuracy and high speed.

本発明は、上記事情を鑑みてなされたものであって、判別モデルを高速に学習し、当該判別モデルを利用して高精度で高速にテキストのクラスを判別するテキスト判別装置およびテキスト判別方法を提供することを目的とする。   The present invention has been made in view of the above circumstances, and provides a text discrimination device and a text discrimination method for learning a discrimination model at high speed and discriminating a text class with high accuracy and high speed using the discrimination model. The purpose is to provide.

上記目的を達成するために、本発明に係るテキスト判別装置は、自然言語で記載されたテキストが特定のテキストクラスに含まれているかどうかを判別するテキスト判別装置において、自然言語で書かれたテキストを格納するテキスト格納部と、テキストに対応するテキストクラスを格納するテキストクラス格納部と、テキスト格納部に格納されているテキストの集合を解析することにより、個々のテキストの構造情報と意味情報を取り出すテキスト解析部と、当該テキストの集合に含まれる個々の単語に対して、個々のテキストにおける構造情報および頻度情報に基づいて、特徴語を抽出する特徴語抽出部と、個々のテキストに対する当該特徴語の意味情報および構造情報に基づいて、当該特徴語に対応する特徴語ベクトルを生成する単語ベクトル生成部と、当該テキストに対して、すべての特徴語に対応する特徴語ベクトルに基づいてテキストを特徴付けるテキストベクトルを生成するテキストベクトル生成部と、テキストベクトル生成部によって生成されたテキストベクトルとテキストクラス格納部に格納されているテキストクラスを組として入力することにより、判別モデルを学習する判別モデル学習部と、学習した判別モデルを格納する判別モデル格納部と、テキストに対してテキストベクトル生成部によって生成されたテキストベクトルを判別モデル格納部に格納されている判別モデルに適用することにより、当該テキストに対応するテキストクラスを判定するテキストクラス判定部と、を有することを特徴とする。   In order to achieve the above object, a text discriminating apparatus according to the present invention is a text discriminating apparatus that discriminates whether or not a text described in a natural language is included in a specific text class. By analyzing the text storage unit that stores text, the text class storage unit that stores the text class corresponding to the text, and the set of text stored in the text storage unit, the structure information and semantic information of each text can be obtained. A text analysis unit to be extracted, a feature word extraction unit for extracting a feature word based on structure information and frequency information in each text for each word included in the set of the text, and the feature for each text A word that generates a feature word vector corresponding to the feature word based on the semantic information and structure information of the word A text generator and a text vector generator that generates a text vector that characterizes the text based on feature word vectors corresponding to all feature words, and a text vector and text generated by the text vector generator. A discriminant model learning unit that learns a discriminant model by inputting a text class stored in the class storage unit as a set, a discriminant model storage unit that stores the discriminated model, and a text vector generator for text A text class determination unit that determines a text class corresponding to the text by applying the text vector generated by the above to the discrimination model stored in the discrimination model storage unit.

また、本発明に係るテキスト判別方法は、自然言語で記載されたテキストが特定のテキストクラスに含まれているかどうかを判別するテキスト判別方法において、自然言語で書かれたテキストをテキスト格納部に格納するテキスト格納ステップと、テキストに対応するテキストクラスをテキストクラス格納部に格納するテキストクラス格納ステップと、テキスト格納部に格納されているテキストの集合を解析することにより、個々のテキストの構造情報と意味情報を取り出すテキスト解析ステップと、当該テキストの集合に含まれる個々の単語に対して、個々のテキストにおける構造情報および頻度情報に基づいて、特徴語を抽出する特徴語抽出ステップと、個々のテキストに対する当該特徴語の意味情報および構造情報に基づいて、当該特徴語に対応する特徴語ベクトルを生成する単語ベクトル生成ステップと、当該テキストに対して、すべての特徴語に対応する特徴語ベクトルからテキストを特徴付けるテキストベクトルを生成するテキストベクトル生成ステップと、テキストベクトル生成部によって生成されたテキストベクトルとテキストクラス格納部に格納されているテキストクラスを組として入力することにより、判別モデルを学習する判別モデル学習ステップと、学習した判別モデルを格納する判別モデル格納ステップと、テキストに対してテキストベクトル生成ステップによって生成されたテキストベクトルを判別モデル格納ステップによって格納されている判別モデルに適用することにより、当該テキストに対応するテキストクラスを判定するテキストクラス判定ステップと、を有することを特徴とする。   The text discrimination method according to the present invention is a text discrimination method for discriminating whether or not a text described in a natural language is included in a specific text class, and storing the text written in the natural language in a text storage unit. A text storage step, a text class storage step for storing the text class corresponding to the text in the text class storage unit, and analyzing the set of text stored in the text storage unit, A text analysis step for extracting semantic information, a feature word extraction step for extracting feature words based on structure information and frequency information in individual texts, and individual texts for each word included in the set of texts Based on the semantic information and structure information of the feature word for A word vector generation step for generating a feature word vector corresponding to the word, a text vector generation step for generating a text vector characterizing the text from the feature word vectors corresponding to all the feature words, and a text vector generation for the text A discriminant model learning step for learning a discriminant model by inputting the text vector generated by the unit and a text class stored in the text class storage unit as a set; and a discriminant model storage step for storing the discriminated model Text class determination that determines the text class corresponding to the text by applying the text vector generated by the text vector generation step to the text to the discrimination model stored by the discrimination model storage step And having a step, the.

また、本発明に係るテキスト判別方法は、自然言語で記載されたテキストが特定のテキストクラスに含まれているかどうかを判別するテキスト判別方法において、テキスト格納部に格納された複数のテキストから未処理のテキストを読み込む第1のテキスト読み込みステップと、前記第1のテキスト読み込みステップで読み込まれた各テキストに対して構文解析を行ない、単語間の係り受け構造および単語の意味的属性を解析して構文木を生成する第1のテキスト解析ステップと、前記テキスト格納部に格納されているテキストから抽出される単語に対して、前記第1のテキスト解析ステップで生成された構文木における出現位置に基づいて、各構文木ごとに単語評価値を算出する単語評価値算出ステップと、前記単語評価値算出ステップで算出された各構文木ごとの単語評価値に基づいて、すべてのテキストを対象とした単語の総合評価値を計算し、当該総合評価値に基づいて単語の中から特徴語を選択する特徴語選択ステップと、前記テキスト格納部に格納されているテキストに対応する構文木のうち、未処理のものを一つ取り出すテキスト取り出しステップと、前記テキスト格納部に格納されているテキストから抽出される単語の中から未処理の単語を一つ取り出す第1の単語取り出しステップと、前記第1の単語取り出しステップで取り出された単語が前記第1のテキスト解析ステップで生成された構文木に含まれているかどうかを判定する第1の単語存在判定ステップと、前記第1の単語存在判定ステップで当該単語が当該構文木に含まれていると判定された場合に、当該単語が当該構文木において出現する位置を探索し、探索した単語に付随している意味属性および探索した単語の出現位置に基づいた構造属性に基づいて、特徴語に対応する属性ベクトルを生成する第1の特徴語ベクトル生成ステップと、前記第1の単語存在判定ステップで当該単語が当該構文木に含まれていないと判定された場合に、当該単語が当該テキストに存在しないことを示す属性ベクトルを生成する第1の非特徴語ベクトル生成ステップと、前記第1の特徴語ベクトル生成ステップおよび第1の非特徴語ベクトル生成ステップによって生成された各単語の属性ベクトルに基づいて、当該テキストに対応する属性ベクトルを生成する第1のテキストベクトル生成ステップと、前記第1のテキストベクトル生成ステップで生成された属性ベクトルと、当該テキストに対応するテキストクラスとを組み合わせることにより、すべてのテキストに対応する判別モデルを生成する判別モデル学習ステップと、前記判別モデル学習ステップの後に、テキスト格納部に新たに格納されたテキストから未処理のテキストを読み込む第2のテキスト読み込みステップと、前記第2のテキスト読み込みステップで読み込まれたテキストに対して構文解析を行ない、単語間の係り受け構造および単語の意味的属性を解析して構文木を生成する第2のテキスト解析ステップと、前記テキスト格納部に格納されているテキストから抽出される単語の中から未処理の単語を一つ取り出す第2の単語取り出しステップと、前記第2の単語取り出しステップで取り出された単語が前記第2のテキスト解析ステップで生成された構文木に含まれているかどうかを判定する第2の単語存在判定ステップと、前記第2の単語存在判定ステップで当該単語が当該構文木に含まれていると判定された場合に、その出現する位置を探索し、探索した単語に付随している意味属性および探索した単語の出現位置に基づいた構造属性に基づいて、特徴語に対応する属性ベクトルを生成する第2の特徴語ベクトル生成ステップと、前記第2の単語存在判定ステップで当該単語が当該構文木に含まれていないと判定された場合に、当該単語がテキストに存在しないことを示す属性ベクトルを生成する第2の非特徴語ベクトル生成ステップと、前記第2の特徴語ベクトル生成ステップおよび第2の非特徴語ベクトル生成ステップによって生成された各単語の属性ベクトルに基づいて、当該テキストに対応する属性ベクトルを生成する第2のテキストベクトル生成ステップと、前記第2のテキストベクトル生成ステップで生成された新たなテキストに対応する属性ベクトルを、前記判別モデル学習ステップで生成された判別モデルに適用することにより、当該テキストに対応するテキストクラスを判別する判別ステップと、を有することを特徴とする。   Further, the text discrimination method according to the present invention is a text discrimination method for discriminating whether or not a text described in a natural language is included in a specific text class. In the text discrimination method, unprocessed from a plurality of texts stored in a text storage unit A first text reading step for reading the text of the text, and each text read in the first text reading step is parsed to analyze a dependency structure between words and a semantic attribute of the word to obtain a syntax. A first text analysis step for generating a tree, and a word extracted from the text stored in the text storage unit, based on the appearance position in the syntax tree generated in the first text analysis step , A word evaluation value calculating step for calculating a word evaluation value for each syntax tree, and the word evaluation value calculating step Feature word selection that calculates the overall evaluation value of words for all texts based on the word evaluation value for each syntax tree that is issued, and selects feature words from the words based on the overall evaluation value A text extraction step for extracting one unprocessed one of the syntax trees corresponding to the text stored in the text storage unit, and a word extracted from the text stored in the text storage unit A first word extraction step for extracting one unprocessed word from the inside, and whether or not the word extracted in the first word extraction step is included in the syntax tree generated in the first text analysis step If it is determined in the first word presence determination step that determines whether the word is included in the syntax tree in the first word presence determination step, A search is made for a position where a word appears in the syntax tree, and an attribute vector corresponding to the feature word is generated based on a semantic attribute attached to the searched word and a structural attribute based on the appearance position of the searched word. An attribute vector indicating that the word does not exist in the text when the feature word vector generation step and the first word presence determination step determine that the word is not included in the syntax tree. Corresponding to the text based on the first non-feature word vector generation step to be generated, and the attribute vector of each word generated by the first feature word vector generation step and the first non-feature word vector generation step A first text vector generation step for generating an attribute vector, and an attribute generated in the first text vector generation step A discriminant model learning step for generating a discriminant model corresponding to all texts by combining a vector and a text class corresponding to the text, and a new data stored in the text storage unit after the discriminant model learning step A second text reading step for reading unprocessed text from the text, and the text read in the second text reading step are parsed to analyze the dependency structure between words and the semantic attributes of the words. A second text analysis step of generating a syntax tree, a second word extraction step of extracting one unprocessed word from words extracted from the text stored in the text storage unit, The word extracted in the second word extraction step is the second text analysis step. A second word existence determination step for determining whether or not the word is included in the syntax tree generated in step (b), and the second word presence determination step determines that the word is included in the syntax tree A second feature that searches for the position of the appearance and generates an attribute vector corresponding to the feature word based on a semantic attribute associated with the searched word and a structure attribute based on the appearance position of the searched word. A second step of generating an attribute vector indicating that the word does not exist in the text when it is determined that the word is not included in the syntax tree in the word vector generation step and the second word presence determination step; Non-feature word vector generation step, and the attribute vector of each word generated by the second feature word vector generation step and the second non-feature word vector generation step. Therefore, a second text vector generation step for generating an attribute vector corresponding to the text, and an attribute vector corresponding to the new text generated in the second text vector generation step are determined in the discrimination model learning step. And a discriminating step for discriminating a text class corresponding to the text by applying to the generated discriminant model.

この発明によれば、形態素解析よりも多くの情報を出力する構文解析を利用する一方で、構文解析の結果を簡約化して利用する。これにより、構文解析によって得られる構造情報を直接利用して判別モデルを学習する場合に比べて、高速に判別モデルを学習することができる。また、構造情報をある程度保存した特徴付けを行なうことができるため、判別精度の高い判別モデルを学習することができる。   According to the present invention, syntax analysis that outputs more information than morphological analysis is used, while the result of syntax analysis is simplified and used. As a result, the discriminant model can be learned at a higher speed than when the discriminant model is learned by directly using the structural information obtained by the syntax analysis. In addition, since it is possible to perform characterization that preserves structural information to some extent, it is possible to learn a discrimination model with high discrimination accuracy.

以下に、本発明に係るテキスト判別装置およびテキスト判別方法の実施の形態について、図面を参照して説明する。初めに図1を参照して、本発明に係るテキスト判別装置の実施の形態について説明する。   Embodiments of a text discrimination device and a text discrimination method according to the present invention will be described below with reference to the drawings. First, an embodiment of a text discrimination device according to the present invention will be described with reference to FIG.

図1に示すように、このテキスト判別装置は、自然言語で書かれたテキストを格納するテキスト格納部1と、テキストに対応するテキストクラスを格納するテキストクラス格納部2とを有する。また、テキスト格納部1に格納されているテキストの集合を解析することにより、個々のテキストの構造情報と意味情報を取り出すテキスト解析部3と、当該テキストの集合に含まれる個々の単語に対して、個々のテキストにおける構造情報および頻度情報に基づいて、特徴語を抽出する特徴語抽出部4を有する。   As shown in FIG. 1, this text discrimination device has a text storage unit 1 for storing text written in a natural language, and a text class storage unit 2 for storing a text class corresponding to the text. Further, by analyzing a set of text stored in the text storage unit 1, a text analysis unit 3 that extracts structure information and semantic information of each text, and for each word included in the set of text The feature word extraction unit 4 extracts feature words based on structure information and frequency information in individual texts.

このテキスト判別装置はさらに、個々のテキストに対する当該特徴語の意味情報および構造情報に基づいて、当該特徴語に対応する特徴語ベクトルを生成する単語ベクトル生成部5と、当該テキストに対して、すべての特徴語に対応する特徴語ベクトルに基づいてテキストを特徴付けるテキストベクトルを生成するテキストベクトル生成部6とを有する。   The text discrimination device further includes a word vector generation unit 5 that generates a feature word vector corresponding to the feature word based on the semantic information and structure information of the feature word for each text, A text vector generation unit 6 that generates a text vector that characterizes the text based on the feature word vector corresponding to the feature word.

このテキスト判別装置はさらに、テキストベクトル生成部6によって生成されたテキストベクトルとテキストクラス格納部2に格納されているテキストクラスを組として入力することにより、判別モデルを学習する判別モデル学習部7と、学習した判別モデルを格納する判別モデル格納部8と、テキストに対してテキストベクトル生成部6によって生成されたテキストベクトルを判別モデル格納部8に格納されている判別モデルに適用することにより、当該テキストに対応するテキストクラスを判定するテキストクラス判定部9と、を有する。   The text discrimination device further includes a discrimination model learning unit 7 for learning a discrimination model by inputting the text vector generated by the text vector generation unit 6 and the text class stored in the text class storage unit 2 as a set. By applying the discriminant model storage unit 8 for storing the discriminated model learned and the text vector generated by the text vector generator 6 for the text to the discriminant model stored in the discriminant model storage unit 8, A text class determination unit 9 that determines a text class corresponding to the text.

次に、本発明に係るテキスト判別方法の実施の形態の詳細について、図2および図3のフローチャートに沿って説明する。ここに、図2は、この実施の形態における判別モデル学習の流れを示すフローチャートであり、図3はこの実施の形態において判別モデルを用いたテキスト判別手順の流れを示すフローチャートである。   Next, the details of the embodiment of the text discrimination method according to the present invention will be described with reference to the flowcharts of FIGS. FIG. 2 is a flowchart showing the flow of discriminant model learning in this embodiment, and FIG. 3 is a flowchart showing the flow of the text discriminating procedure using the discriminant model in this embodiment.

図2のステップSa1においては、テキスト格納部1に格納されているテキストから、未処理のテキストを一つ読み込む。このとき、読み込むテキストが存在しない場合には、ステップSa4へと進む。一方、読み込むテキストが存在する場合には、ステップSa2へと進む。   In step Sa1 of FIG. 2, one unprocessed text is read from the text stored in the text storage unit 1. At this time, if there is no text to be read, the process proceeds to step Sa4. On the other hand, if there is a text to be read, the process proceeds to step Sa2.

ステップSa2においては、読み込んだテキストに対して、テキスト解析部3が、例えば、非特許文献2に記載の構文解析を適用することにより、単語間の係り受け構造および単語の意味的属性を解析して、図4および図5に例示される構文木を生成する。すなわち、単語およびその属性を記述してある辞書を参照することにより、与えられたテキストを文節単位にまとめて、単語および当該単語に関連する属性が付随している列に分解する。なお、構文木においては、この属性が単語の右側に付与されるラベル(品詞、否定等)として表現されている。   In step Sa2, the text analysis unit 3 analyzes the dependency structure between words and the semantic attribute of the word by applying the syntax analysis described in Non-Patent Document 2, for example, to the read text. Thus, the syntax tree illustrated in FIGS. 4 and 5 is generated. That is, by referring to a dictionary in which a word and its attributes are described, the given text is grouped into phrases and decomposed into a column accompanied by the word and attributes related to the word. In the syntax tree, this attribute is expressed as a label (part of speech, negation, etc.) attached to the right side of the word.

次に、体言および体言に準ずる語の他の語に対する関係を示す助詞である格助詞等の表層的な特徴を利用することにより、名詞とその名詞に最も近い動詞の間に係り受け関係を設定し、単純な構文木を生成する。   Next, a dependency relationship is established between a noun and the verb closest to the noun by using surface features such as case particles, which are particles that show the relationship of body words and words that are similar to body words to other words. And generate a simple syntax tree.

次に、係り受け可能な名詞、動詞の組を、当該単純な構文木の中から取り出して、当該組み合わせに対して、必要ならば複数の係り受け候補を生成する。このとき、当該係り受け候補に対しては、意味係り受け関係を記述してある辞書を参照することにより、設定可能な意味係り受け関係およびその確信度に基づいて計算されるスコアが付与されている。なお、構文木においては、この意味係り受け関係がリンク上に付与されるラベル(に格、を格等)によって表現されている。   Next, combinations of nouns and verbs that can be modified are extracted from the simple syntax tree, and a plurality of dependency candidates are generated for the combination if necessary. At this time, a score calculated based on the settable semantic dependency relationship and its certainty is given to the dependency candidate by referring to a dictionary describing the semantic dependency relationship. Yes. In the syntax tree, this semantic dependency relationship is expressed by a label (eg, case, etc.) given on the link.

最終的には、文節間の意味的な制約を考慮した上で、係り受け候補群の中から最適な係り受け候補を決定し、最もスコアが高くなる構文木を生成する。また、各文節を展開して、各ノードが単語からなる構文木を生成する。   Finally, after considering the semantic constraints between clauses, an optimum dependency candidate is determined from the dependency candidate group, and a syntax tree having the highest score is generated. Further, each clause is expanded to generate a syntax tree in which each node is composed of words.

例えば、
例1:「先日コンピュータを買いましたが、その処理速度に満足しています。」
といった日本語の文章が与えられているとするならば、図4に示す構文木を獲得することができる。本構文木においては、単語の右側の( )内に意味属性が付与されており、単語間の関係が線で結ばれている。その単語間の関係を示す記号がラベル付けされているとする。また、本例においては、単語に対応する一部の意味属性だけが記載されているとする。
For example,
Example 1: “I bought a computer the other day, but I ’m satisfied with its processing speed.”
4 is obtained, the syntax tree shown in FIG. 4 can be obtained. In this syntax tree, semantic attributes are given in parentheses on the right side of words, and the relationship between words is connected by a line. Assume that the symbols indicating the relationship between the words are labeled. In this example, it is assumed that only some semantic attributes corresponding to words are described.

一方、例2:「先日コンピュータを買いましたが、その処理速度に満足していません。」といった日本語の文章が与えられているとするならば、図5に示す構文木を獲得することができる。   On the other hand, if a Japanese sentence such as “Example 2:“ I bought a computer the other day but I am not satisfied with its processing speed ”is given, the syntax tree shown in FIG. 5 is obtained. Can do.

次に、ステップSa3においては、テキスト解析部3がテキスト格納部1に格納されているすべてのテキストから抽出される単語に対して、対象としている構文木における出現位置に基づいて単語評価値を計算し、ステップSa1へと戻る。   Next, in step Sa3, the text analysis unit 3 calculates word evaluation values for words extracted from all the texts stored in the text storage unit 1 based on the appearance positions in the target syntax tree. Then, the process returns to step Sa1.

例えば、各単語の単語評価値が式(1)および式(2)によって計算されるとする。

Figure 2008176489
For example, it is assumed that the word evaluation value of each word is calculated by Expression (1) and Expression (2).
Figure 2008176489

ここで、wをテキスト格納部1から抽出されるi番目の単語、Tをj番目のテキストを構成する単語とする。また、tijを、j番目のテキストにおいて単語wを含んでいる数とし、dept(i,j,k)を、j番目のテキストに対応する構文木において出現するi番目の単語に一致するk番目の単語の深さを求める関数とする。ただし、構文木のルートノードにおける深さを0とする。したがって、図4の構文木における、単語「満足」および単語「コンピュータ」の単語評価値は、当該構文木において、一度だけ出現しているので、1(=1/(0+1))、0.25(=1/(3+1))と与えられる。 Here, w i is the i-th word extracted from the text storage unit 1, and T j is the word constituting the j-th text. Also, let t ij be the number that contains the word w i in the j th text, and match dept (i, j, k) to the i th word that appears in the syntax tree corresponding to the j th text. A function for obtaining the depth of the kth word. However, the depth at the root node of the syntax tree is 0. Therefore, since the word evaluation values of the word “satisfaction” and the word “computer” in the syntax tree of FIG. 4 appear only once in the syntax tree, 1 (= 1 / (0 + 1)), 0.25 (= 1 / (3 + 1)).

ステップSa4においては、特徴語抽出部4が構文木ごとに計算した各単語の単語評価値に基づいて、すべてのテキストを対象とした単語の総合評価値を計算し、当該総合評価値に基づいて単語の中から特徴語を選択する。   In step Sa4, based on the word evaluation value of each word calculated by the feature word extraction unit 4 for each syntax tree, a total evaluation value of words for all texts is calculated, and based on the total evaluation value. Select a feature word from the words.

例えば、従来から提案されているtf−idf(term frequency - inverse document frequency)値(式(3)の第2項)を、単語の構文木における出現位置を考慮した補正を行なった、式(3)によって、単語の総合評価値を計算する。

Figure 2008176489
For example, a conventionally proposed tf-idf (term frequency-inverse document frequency) value (the second term of the expression (3)) is corrected in consideration of the appearance position of the word in the syntax tree. ) To calculate the overall evaluation value of the word.
Figure 2008176489

ここで、Dをテキストの総数とし、dをi番目の単語をもつテキストの数とし、nをj番目のテキストに含まれる単語の数とする。この総合評価値により、特定のテキストと関連して出現し、構文木の上位に出現する単語に高い総合評価値を与えることができる。 Here, D is the total number of texts, d i is the number of texts with the i-th word, and n j is the number of words contained in the j-th text. By this comprehensive evaluation value, a high comprehensive evaluation value can be given to a word that appears in association with a specific text and appears at the top of the syntax tree.

また、当該ステップでは、特徴語抽出部4が、単語に対して指定したしきい値以上となる単語を特徴語として抽出する。   In this step, the feature word extraction unit 4 extracts, as a feature word, a word that is equal to or higher than a threshold value specified for the word.

ステップSa5においては、単語ベクトル生成部5が、テキスト格納部1に格納されているテキストに対応する構文木のうち、未処理のものを一つ取り出す。このとき、取り出す構文木が存在しない場合には、ステップSa11へと進む。一方、取り出す構文木が存在する場合には、ステップSa6へと進む。   In step Sa <b> 5, the word vector generation unit 5 extracts one unprocessed syntax tree corresponding to the text stored in the text storage unit 1. At this time, if there is no syntax tree to be extracted, the process proceeds to step Sa11. On the other hand, if there is a syntax tree to be extracted, the process proceeds to step Sa6.

ステップSa6においては、単語ベクトル生成部5が、テキスト格納部1に格納されているテキストから抽出される単語の中から、未処理の単語を一つ取り出す。このとき、取り出す単語が存在しない場合には、ステップSa10へと進む。一方、取り出す単語が存在する場合には、ステップSa7へと進む。   In step Sa6, the word vector generation unit 5 extracts one unprocessed word from the words extracted from the text stored in the text storage unit 1. At this time, if there is no extracted word, the process proceeds to step Sa10. On the other hand, if there is a word to be extracted, the process proceeds to step Sa7.

ステップSa7においては、単語ベクトル生成部5が、取り出した単語が対象としている構文木に含まれているかどうかを判定する。このとき、取り出した単語が含まれているとすれば、ステップSa8へと進む。一方、取り出した単語が含まれていないとすれば、ステップSa9へと進む。   In step Sa7, the word vector generation unit 5 determines whether or not the extracted word is included in the target syntax tree. At this time, if the extracted word is included, the process proceeds to step Sa8. On the other hand, if the extracted word is not included, the process proceeds to step Sa9.

ステップSa8においては、単語ベクトル生成部5が、当該単語が構文木において出現する位置を探索する。また、探索した単語に付随している意味属性および探索した単語の出現位置に基づいた構造属性により、特徴語に対応する属性ベクトルを生成して、処理をステップSa5へと戻す。   In step Sa8, the word vector generation unit 5 searches for a position where the word appears in the syntax tree. Further, an attribute vector corresponding to the feature word is generated based on the semantic attribute attached to the searched word and the structure attribute based on the appearance position of the searched word, and the process returns to step Sa5.

例えば、単語に付随する品詞(構文木における品詞属性の値)、単語の否定の有無(構文木における否定属性の値)を単語の意味属性とし、単語の構文木における深さおよび付随する下位の枝の数を単語の構造属性として抽出する。このとき、例1において、「満足」といった単語が与えられている場合には、図6に示す属性ベクトルを生成する。ただし、単語の否定の有無を示す意味属性が例1における「満足」には与えられていないので、本意味属性の値を「無し」と設定する。また、例2において、「満足」といった単語が与えられている場合には、図7に示す属性ベクトルを生成する。   For example, the word part of speech (value of the part of speech attribute in the syntax tree) and the word negation (value of the negative attribute in the syntax tree) are the semantic attributes of the word. The number of branches is extracted as a structural attribute of the word. At this time, if the word “satisfied” is given in Example 1, the attribute vector shown in FIG. 6 is generated. However, since the meaning attribute indicating whether the word is negated is not given to “satisfied” in Example 1, the value of this meaning attribute is set to “none”. In Example 2, when a word such as “satisfied” is given, the attribute vector shown in FIG. 7 is generated.

ステップSa9においては、単語ベクトル生成部5が、当該単語がテキストに存在しないことを示す属性ベクトルを生成して、処理をステップSa5へと戻す。   In step Sa9, the word vector generation unit 5 generates an attribute vector indicating that the word does not exist in the text, and returns the process to step Sa5.

例えば、離散的な属性に対しては「未抽出」を設定し、数値的な属性に対しては数値属性の値域外の値(深さおよび枝数の場合は−1)を設定する。このとき、例1において、「不満」といった単語が与えられている場合には、図8に示す属性ベクトルを生成する。   For example, “un-extracted” is set for a discrete attribute, and a value outside the range of the numeric attribute (−1 for depth and the number of branches) is set for a numerical attribute. At this time, in the example 1, when a word such as “dissatisfied” is given, the attribute vector shown in FIG. 8 is generated.

ステップSa10においては、対象となっているテキストに対して、単語ベクトル生成部5が生成した各単語の属性ベクトルから、テキストベクトル生成部6が、テキストに対応する属性ベクトルを生成する。   In step Sa10, the text vector generation unit 6 generates an attribute vector corresponding to the text from the attribute vector of each word generated by the word vector generation unit 5 for the target text.

例えば、単語の属性ベクトルを連結することにより、テキストの属性ベクトルを生成する。このとき、例1および例2に対しては、図9に示す属性ベクトル(テキストベクトル)を生成する。   For example, a text attribute vector is generated by concatenating word attribute vectors. At this time, for example 1 and example 2, an attribute vector (text vector) shown in FIG. 9 is generated.

ステップSa11においては、テキストベクトル生成部6によって生成されたテキストベクトルと、当該テキストベクトルに対して、テキストクラス格納部2に格納されているテキストクラスを組とすることにより、すべてのテキストに対応する学習事例を生成する。   In step Sa11, the text vector generated by the text vector generation unit 6 and the text class stored in the text class storage unit 2 are paired with the text vector, thereby corresponding to all texts. Generate learning cases.

例えば、例1および例2に対応するテキストクラスが、それぞれ「不満無し」、「不満有り」であるとすれば、例1および例2に対して、図10に示す学習事例を生成する。   For example, if the text classes corresponding to Example 1 and Example 2 are “no dissatisfaction” and “no dissatisfaction”, respectively, learning examples shown in FIG. 10 are generated for Example 1 and Example 2.

また、当該学習事例を、例えば、非特許文献3に記載のSVM(Support Vector Machine)を利用することにより、テキストクラスを判別する判別モデルを学習し、学習した判別モデルを判別モデル格納部8に格納する。   In addition, for example, the learning example is learned using a support vector machine (SVM) described in Non-Patent Document 3 to learn a discrimination model for discriminating a text class, and the learned discrimination model is stored in the discrimination model storage unit 8. Store.

以上のようにして、判別モデルが学習されたとすれば、新たなテキストが与えられた場合に、当該テキストを当該判別モデルに適用することにより、当該テキストに対応するテキストクラスを判別することができる。すなわち、図3のステップSb1においては、テキスト解析部3がテキスト格納部1から新たに格納されたテキストのうち未処理のテキストを一つ読み込む。このとき、読み込むテキストが存在する場合には、ステップSb2へと進む。一方、読み込むテキストが存在しない場合には、処理を終了する。   As described above, if the discrimination model is learned, when a new text is given, the text class corresponding to the text can be discriminated by applying the text to the discrimination model. . That is, in step Sb1 of FIG. 3, the text analysis unit 3 reads one unprocessed text among the newly stored text from the text storage unit 1. At this time, if there is a text to be read, the process proceeds to step Sb2. On the other hand, if there is no text to be read, the process ends.

ステップSb2においては、読み込んだテキストに対して、テキスト解析部3が、単語間の係り受け構造および単語の意味的属性を解析して、構文木を生成する。   In step Sb2, the text analysis unit 3 analyzes the dependency structure between words and the semantic attributes of the words for the read text to generate a syntax tree.

ステップSb3においては、単語ベクトル生成部5が、テキスト格納部1に格納されているテキストから抽出される単語の中から、未処理の単語を一つ取り出す。このとき、取り出す単語が存在しない場合には、ステップSb7へと進む。一方、取り出す単語が存在する場合には、ステップSb4へと進む。   In step Sb3, the word vector generation unit 5 extracts one unprocessed word from the words extracted from the text stored in the text storage unit 1. At this time, if there is no word to be extracted, the process proceeds to step Sb7. On the other hand, if there is a word to be extracted, the process proceeds to step Sb4.

ステップSb4においては、単語ベクトル生成部5が取り出した単語が、対象としている構文木に含まれているかどうかを判定する。このとき、取り出した単語が含まれていないとすれば、ステップSb5へと進む。一方、取り出した単語が含まれているとすれば、ステップSb6へと進む。   In step Sb4, it is determined whether the word extracted by the word vector generation unit 5 is included in the target syntax tree. At this time, if the extracted word is not included, the process proceeds to step Sb5. On the other hand, if the extracted word is included, the process proceeds to step Sb6.

ステップSb5においては、単語ベクトル生成部5が、当該単語が構文木において出現する位置を探索する。また、探索した単語に付随している意味属性および探索した単語の出現位置に基づいた構造属性により、特徴語に対応する属性ベクトルを生成して、処理をステップSb3へと戻す。   In step Sb5, the word vector generation unit 5 searches for a position where the word appears in the syntax tree. Further, an attribute vector corresponding to the feature word is generated based on the semantic attribute attached to the searched word and the structural attribute based on the appearance position of the searched word, and the process returns to step Sb3.

ステップSb6においては、単語ベクトル生成部5が、当該単語がテキストに存在しないことを示す属性ベクトルを生成して、処理をステップSb3へと戻す。   In step Sb6, the word vector generation unit 5 generates an attribute vector indicating that the word does not exist in the text, and returns the process to step Sb3.

ステップSb7においては、対象となっているテキストに対して単語ベクトル生成部5が生成した各単語の属性ベクトルから、テキストベクトル生成部6が、テキストに対応する属性ベクトルを生成する。   In step Sb7, the text vector generation unit 6 generates an attribute vector corresponding to the text from the attribute vector of each word generated by the word vector generation unit 5 for the target text.

ステップSb8においては、テキストクラス判定部9が、テキストベクトル生成部6によって生成された新たなテキストに対応する属性ベクトルを、判別モデル格納部8に格納されている判別モデルに適用することにより、当該テキストに対応するテキストクラスを判別する。   In step Sb8, the text class determination unit 9 applies the attribute vector corresponding to the new text generated by the text vector generation unit 6 to the discrimination model stored in the discrimination model storage unit 8, thereby Determine the text class corresponding to the text.

以上のステップSb1〜ステップSb7を、テキスト格納部1に新たに格納されたすべてのテキストに実施することにより、すべてのテキストのテキストクラスを判別することができる。   By implementing the above steps Sb1 to Sb7 for all the texts newly stored in the text storage unit 1, the text classes of all the texts can be determined.

以上、本発明の実施の形態について説明した。この実施の形態は単なる例示であって、本発明は上記の実施の形態に限られるものではない。例えば、特徴語の抽出において、構造情報を反映した総合評価値の算出において、tf−idf値と単語評価値の積に基づいて総合評価値を計算する例を示したが、線形和に基づいて計算してもよいし、tf−idf値以外の評価値と単語評価値に基づいて計算してもよいし、構文木における深さ以外の情報に基づいた単語評価値を計算してもよい。   The embodiment of the present invention has been described above. This embodiment is merely an example, and the present invention is not limited to the above-described embodiment. For example, in the extraction of feature words, an example is shown in which the overall evaluation value is calculated based on the product of the tf-idf value and the word evaluation value in the calculation of the overall evaluation value reflecting the structure information. It may be calculated, may be calculated based on the evaluation value other than the tf-idf value and the word evaluation value, or may be calculated based on information other than the depth in the syntax tree.

また、単語ベクトルの生成において、意味属性として品詞および否定の有無、構造属性として単語の深さおよび枝の数だけを利用する例を示したが、意味属性として疑問表現の有無等の他の意味属性、構造属性として、構文木において単語に付随する単語の数や、単語の上位の枝に付与されている属性の値等の他の構造属性を利用してもよいし、単語ごとに利用する意味属性および構造属性を変えて単語ベクトルを生成してもよい。   In addition, in the generation of word vectors, an example is shown in which only the part of speech and negation are used as semantic attributes, and only the word depth and the number of branches are used as structural attributes. Other structural attributes such as the number of words attached to a word in the syntax tree and the value of the attribute assigned to the upper branch of the word may be used as the attribute and the structural attribute, or used for each word. The word vector may be generated by changing the semantic attribute and the structural attribute.

さらには、テキストベクトルの生成において、単語ベクトルを連結するだけでなく、各単語に総合評価値に基づいた重みが付与された属性ベクトルを生成し、属性の重みを考慮した判別モデルの学習を実施してもよい。   Furthermore, in the generation of text vectors, in addition to concatenating word vectors, an attribute vector is generated in which each word is given a weight based on a comprehensive evaluation value, and a discriminant model is learned in consideration of the attribute weight. May be.

この他、本発明の趣旨を逸脱しない範囲において、種々変形してテキスト判別装置等を構成することができる。   In addition, the text discrimination device and the like can be configured with various modifications without departing from the spirit of the present invention.

本発明に係るテキスト判別装置の一実施の形態の構成を示すブロック図。The block diagram which shows the structure of one Embodiment of the text discrimination | determination apparatus based on this invention. 本発明に係るテキスト判別方法の一実施の形態における判別モデル学習の流れを示すフローチャート。The flowchart which shows the flow of discrimination | determination model learning in one Embodiment of the text discrimination | determination method concerning this invention. 本発明に係るテキスト判別方法の一実施の形態において判別モデルを用いたテキスト判別手順の流れを示すフローチャート。The flowchart which shows the flow of the text discrimination | determination procedure using a discrimination | determination model in one Embodiment of the text discrimination | determination method concerning this invention. 本発明に係るテキスト判別装置の一実施の形態において、テキスト解析部によって解析された、テキスト例1の構文解析結果の例を示す図。The figure which shows the example of the syntax analysis result of the text example 1 analyzed by the text analysis part in one Embodiment of the text discrimination | determination apparatus based on this invention. 本発明に係るテキスト判別装置の一実施の形態において、テキスト解析部によって解析された、テキスト例2の構文解析結果の例を示す図。The figure which shows the example of the syntax analysis result of the text example 2 analyzed by the text analysis part in one Embodiment of the text discrimination | determination apparatus based on this invention. 本発明に係るテキスト判別装置の一実施の形態において、単語ベクトル生成部によって生成された、テキスト例1における単語「満足」に対応する属性ベクトルの例を示す図。The figure which shows the example of the attribute vector corresponding to the word "satisfaction" in the text example 1 produced | generated by the word vector production | generation part in one Embodiment of the text discrimination | determination apparatus based on this invention. 本発明に係るテキスト判別装置の一実施の形態において、単語ベクトル生成部によって生成された、テキスト例2における単語「満足」に対応する属性ベクトルの例を示す図。The figure which shows the example of the attribute vector corresponding to the word "satisfaction" in the text example 2 produced | generated by the word vector production | generation part in one Embodiment of the text discrimination | determination apparatus based on this invention. 本発明に係るテキスト判別装置の一実施の形態において、単語ベクトル生成部によって生成された、テキスト例1における単語「不満」に対応する属性ベクトルの例を示す図。The figure which shows the example of the attribute vector corresponding to the word "dissatisfaction" in the text example 1 produced | generated by the word vector production | generation part in one Embodiment of the text discrimination | determination apparatus based on this invention. 本発明に係るテキスト判別装置の一実施の形態において、単語ベクトル生成部によって生成された、テキスト例1および例2のテキストに対応する、テキストの属性ベクトルの例を示す図。The figure which shows the example of the attribute vector of a text corresponding to the text of the text example 1 and the example 2 produced | generated by the word vector production | generation part in one Embodiment of the text discrimination | determination apparatus based on this invention. 本発明に係るテキスト判別装置の一実施の形態において、判別学習部によって生成された、テキスト例1および例2のテキストに対応する、学習事例の例を示す図。The figure which shows the example of the learning example corresponding to the text of the text example 1 and the example 2 produced | generated by the discrimination | determination learning part in one Embodiment of the text discrimination | determination apparatus based on this invention.

符号の説明Explanation of symbols

1…テキスト格納部
2…テキストクラス格納部
3…テキスト解析部
4…特徴語抽出部
5…単語ベクトル生成部
6…テキストベクトル生成部
7…判別モデル学習部
8…判別モデル格納部
9…テキストクラス判定部
DESCRIPTION OF SYMBOLS 1 ... Text storage part 2 ... Text class storage part 3 ... Text analysis part 4 ... Feature word extraction part 5 ... Word vector generation part 6 ... Text vector generation part 7 ... Discrimination model learning part 8 ... Discrimination model storage part 9 ... Text class Judgment part

Claims (3)

自然言語で記載されたテキストが特定のテキストクラスに含まれているかどうかを判別するテキスト判別装置において、
自然言語で書かれたテキストを格納するテキスト格納部と、
テキストに対応するテキストクラスを格納するテキストクラス格納部と、
テキスト格納部に格納されているテキストの集合を解析することにより、個々のテキストの構造情報と意味情報を取り出すテキスト解析部と、
当該テキストの集合に含まれる個々の単語に対して、個々のテキストにおける構造情報および頻度情報に基づいて、特徴語を抽出する特徴語抽出部と、
個々のテキストに対する当該特徴語の意味情報および構造情報に基づいて、当該特徴語に対応する特徴語ベクトルを生成する単語ベクトル生成部と、
当該テキストに対して、すべての特徴語に対応する特徴語ベクトルに基づいてテキストを特徴付けるテキストベクトルを生成するテキストベクトル生成部と、
テキストベクトル生成部によって生成されたテキストベクトルとテキストクラス格納部に格納されているテキストクラスを組として入力することにより、判別モデルを学習する判別モデル学習部と、
学習した判別モデルを格納する判別モデル格納部と、
テキストに対してテキストベクトル生成部によって生成されたテキストベクトルを判別モデル格納部に格納されている判別モデルに適用することにより、当該テキストに対応するテキストクラスを判定するテキストクラス判定部と、
を有することを特徴とするテキスト判別装置。
In a text discriminating apparatus for discriminating whether or not text described in a natural language is included in a specific text class,
A text storage for storing text written in natural language;
A text class storage for storing a text class corresponding to the text;
A text analysis unit that extracts structure information and semantic information of each text by analyzing a set of text stored in the text storage unit;
A feature word extraction unit that extracts a feature word for each word included in the set of texts based on structure information and frequency information in each text;
A word vector generation unit that generates a feature word vector corresponding to the feature word based on the semantic information and structure information of the feature word for each text;
A text vector generation unit that generates a text vector that characterizes the text based on a feature word vector corresponding to all feature words for the text;
A discriminant model learning unit that learns a discriminant model by inputting the text vector generated by the text vector generation unit and the text class stored in the text class storage unit as a set;
A discriminant model storage for storing the discriminated model learned, and
A text class determination unit that determines a text class corresponding to the text by applying the text vector generated by the text vector generation unit to the text to the determination model stored in the determination model storage unit;
A text discrimination device characterized by comprising:
自然言語で記載されたテキストが特定のテキストクラスに含まれているかどうかを判別するテキスト判別方法において、
自然言語で書かれたテキストをテキスト格納部に格納するテキスト格納ステップと、
テキストに対応するテキストクラスをテキストクラス格納部に格納するテキストクラス格納ステップと、
テキスト格納部に格納されているテキストの集合を解析することにより、個々のテキストの構造情報と意味情報を取り出すテキスト解析ステップと、
当該テキストの集合に含まれる個々の単語に対して、個々のテキストにおける構造情報および頻度情報に基づいて、特徴語を抽出する特徴語抽出ステップと、
個々のテキストに対する当該特徴語の意味情報および構造情報に基づいて、当該特徴語に対応する特徴語ベクトルを生成する単語ベクトル生成ステップと、
当該テキストに対して、すべての特徴語に対応する特徴語ベクトルからテキストを特徴付けるテキストベクトルを生成するテキストベクトル生成ステップと、
テキストベクトル生成部によって生成されたテキストベクトルとテキストクラス格納部に格納されているテキストクラスを組として入力することにより、判別モデルを学習する判別モデル学習ステップと、
学習した判別モデルを格納する判別モデル格納ステップと、
テキストに対してテキストベクトル生成ステップによって生成されたテキストベクトルを判別モデル格納ステップによって格納されている判別モデルに適用することにより、当該テキストに対応するテキストクラスを判定するテキストクラス判定ステップと、
を有することを特徴とするテキスト判別方法。
In a text determination method for determining whether text described in a natural language is included in a specific text class,
A text storage step for storing text written in a natural language in a text storage unit;
A text class storage step of storing a text class corresponding to the text in the text class storage unit;
A text analysis step for extracting structure information and semantic information of each text by analyzing a set of text stored in the text storage;
A feature word extraction step of extracting a feature word for each word included in the set of texts based on structure information and frequency information in each text;
A word vector generation step of generating a feature word vector corresponding to the feature word based on the semantic information and structure information of the feature word for each text;
A text vector generation step for generating a text vector characterizing the text from feature word vectors corresponding to all feature words for the text;
A discriminant model learning step of learning a discriminant model by inputting the text vector generated by the text vector generator and the text class stored in the text class storage unit as a set;
A discriminant model storing step for storing the learned discriminant model;
A text class determination step for determining a text class corresponding to the text by applying the text vector generated by the text vector generation step to the text to the discrimination model stored by the discrimination model storage step;
A text discrimination method characterized by comprising:
自然言語で記載されたテキストが特定のテキストクラスに含まれているかどうかを判別するテキスト判別方法において、
テキスト格納部に格納された複数のテキストから未処理のテキストを読み込む第1のテキスト読み込みステップと、
前記第1のテキスト読み込みステップで読み込まれた各テキストに対して構文解析を行ない、単語間の係り受け構造および単語の意味的属性を解析して構文木を生成する第1のテキスト解析ステップと、
前記テキスト格納部に格納されているテキストから抽出される単語に対して、前記第1のテキスト解析ステップで生成された構文木における出現位置に基づいて、各構文木ごとに単語評価値を算出する単語評価値算出ステップと、
前記単語評価値算出ステップで算出された各構文木ごとの単語評価値に基づいて、すべてのテキストを対象とした単語の総合評価値を計算し、当該総合評価値に基づいて単語の中から特徴語を選択する特徴語選択ステップと、
前記テキスト格納部に格納されているテキストに対応する構文木のうち、未処理のものを一つ取り出すテキスト取り出しステップと、
前記テキスト格納部に格納されているテキストから抽出される単語の中から未処理の単語を一つ取り出す第1の単語取り出しステップと、
前記第1の単語取り出しステップで取り出された単語が前記第1のテキスト解析ステップで生成された構文木に含まれているかどうかを判定する第1の単語存在判定ステップと、
前記第1の単語存在判定ステップで当該単語が当該構文木に含まれていると判定された場合に、当該単語が当該構文木において出現する位置を探索し、探索した単語に付随している意味属性および探索した単語の出現位置に基づいた構造属性に基づいて、特徴語に対応する属性ベクトルを生成する第1の特徴語ベクトル生成ステップと、
前記第1の単語存在判定ステップで当該単語が当該構文木に含まれていないと判定された場合に、当該単語が当該テキストに存在しないことを示す属性ベクトルを生成する第1の非特徴語ベクトル生成ステップと、
前記第1の特徴語ベクトル生成ステップおよび第1の非特徴語ベクトル生成ステップによって生成された各単語の属性ベクトルに基づいて、当該テキストに対応する属性ベクトルを生成する第1のテキストベクトル生成ステップと、
前記第1のテキストベクトル生成ステップで生成された属性ベクトルと、当該テキストに対応するテキストクラスとを組み合わせることにより、すべてのテキストに対応する判別モデルを生成する判別モデル学習ステップと、
前記判別モデル学習ステップの後に、テキスト格納部に新たに格納されたテキストから未処理のテキストを読み込む第2のテキスト読み込みステップと、
前記第2のテキスト読み込みステップで読み込まれたテキストに対して構文解析を行ない、単語間の係り受け構造および単語の意味的属性を解析して構文木を生成する第2のテキスト解析ステップと、
前記テキスト格納部に格納されているテキストから抽出される単語の中から未処理の単語を一つ取り出す第2の単語取り出しステップと、
前記第2の単語取り出しステップで取り出された単語が前記第2のテキスト解析ステップで生成された構文木に含まれているかどうかを判定する第2の単語存在判定ステップと、
前記第2の単語存在判定ステップで当該単語が当該構文木に含まれていると判定された場合に、その出現する位置を探索し、探索した単語に付随している意味属性および探索した単語の出現位置に基づいた構造属性に基づいて、特徴語に対応する属性ベクトルを生成する第2の特徴語ベクトル生成ステップと、
前記第2の単語存在判定ステップで当該単語が当該構文木に含まれていないと判定された場合に、当該単語がテキストに存在しないことを示す属性ベクトルを生成する第2の非特徴語ベクトル生成ステップと、
前記第2の特徴語ベクトル生成ステップおよび第2の非特徴語ベクトル生成ステップによって生成された各単語の属性ベクトルに基づいて、当該テキストに対応する属性ベクトルを生成する第2のテキストベクトル生成ステップと、
前記第2のテキストベクトル生成ステップで生成された新たなテキストに対応する属性ベクトルを、前記判別モデル学習ステップで生成された判別モデルに適用することにより、当該テキストに対応するテキストクラスを判別する判別ステップと、
を有することを特徴とするテキスト判別方法。
In a text determination method for determining whether text described in a natural language is included in a specific text class,
A first text reading step for reading raw text from a plurality of texts stored in a text storage;
A first text analysis step of performing a syntax analysis on each text read in the first text reading step, and analyzing a dependency structure between words and a semantic attribute of the word to generate a syntax tree;
For each word extracted from the text stored in the text storage unit, a word evaluation value is calculated for each syntax tree based on the appearance position in the syntax tree generated in the first text analysis step. A word evaluation value calculation step;
Based on the word evaluation value for each syntax tree calculated in the word evaluation value calculation step, a total evaluation value of words for all texts is calculated, and a feature is selected from the words based on the total evaluation value. A feature word selection step for selecting a word;
A text extraction step of extracting one unprocessed one of the syntax trees corresponding to the text stored in the text storage unit;
A first word extracting step of extracting one unprocessed word from words extracted from the text stored in the text storage unit;
A first word existence determination step for determining whether the word extracted in the first word extraction step is included in the syntax tree generated in the first text analysis step;
Meanings associated with the searched word by searching for a position where the word appears in the syntax tree when it is determined in the first word existence determining step that the word is included in the syntax tree. A first feature word vector generation step for generating an attribute vector corresponding to the feature word based on the attribute and the structural attribute based on the appearance position of the searched word;
A first non-feature word vector that generates an attribute vector indicating that the word does not exist in the text when it is determined in the first word presence determination step that the word is not included in the syntax tree. Generation step;
A first text vector generation step for generating an attribute vector corresponding to the text based on the attribute vector of each word generated by the first feature word vector generation step and the first non-feature word vector generation step; ,
A discriminant model learning step of generating discriminant models corresponding to all texts by combining the attribute vector generated in the first text vector generating step and a text class corresponding to the text;
A second text reading step of reading unprocessed text from text newly stored in the text storage unit after the discriminant model learning step;
A second text analysis step of performing a syntax analysis on the text read in the second text reading step and analyzing a dependency structure between words and a semantic attribute of the word to generate a syntax tree;
A second word extracting step of extracting one unprocessed word from words extracted from the text stored in the text storage unit;
A second word presence determining step for determining whether the word extracted in the second word extracting step is included in the syntax tree generated in the second text analyzing step;
When it is determined in the second word presence determination step that the word is included in the syntax tree, the position where the word appears is searched, the semantic attribute attached to the searched word and the searched word A second feature word vector generation step for generating an attribute vector corresponding to the feature word based on the structure attribute based on the appearance position;
Second non-feature word vector generation for generating an attribute vector indicating that the word does not exist in the text when it is determined in the second word presence determination step that the word is not included in the syntax tree Steps,
A second text vector generation step for generating an attribute vector corresponding to the text based on the attribute vector of each word generated by the second feature word vector generation step and the second non-feature word vector generation step; ,
Discrimination for discriminating a text class corresponding to the text by applying the attribute vector corresponding to the new text generated in the second text vector generation step to the discrimination model generated in the discrimination model learning step Steps,
A text discrimination method characterized by comprising:
JP2007008270A 2007-01-17 2007-01-17 Text discrimination device and text discrimination method Withdrawn JP2008176489A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007008270A JP2008176489A (en) 2007-01-17 2007-01-17 Text discrimination device and text discrimination method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007008270A JP2008176489A (en) 2007-01-17 2007-01-17 Text discrimination device and text discrimination method

Publications (1)

Publication Number Publication Date
JP2008176489A true JP2008176489A (en) 2008-07-31

Family

ID=39703473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007008270A Withdrawn JP2008176489A (en) 2007-01-17 2007-01-17 Text discrimination device and text discrimination method

Country Status (1)

Country Link
JP (1) JP2008176489A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010186349A (en) * 2009-02-12 2010-08-26 Nippon Telegr & Teleph Corp <Ntt> Representative word extraction method and apparatus and program and computer-readable recording medium
CN103177125A (en) * 2013-04-17 2013-06-26 镇江诺尼基智能技术有限公司 Method for realizing fast-speed short text bi-cluster
JP2014056331A (en) * 2012-09-11 2014-03-27 Hitachi Advanced Systems Corp Document classification method, document classification program and document classification device
CN106156004A (en) * 2016-07-04 2016-11-23 中国传媒大学 The sentiment analysis system and method for film comment information based on term vector
JP2021157282A (en) * 2020-03-25 2021-10-07 株式会社日立製作所 Labeling model generation device and labeling model generation method
US11334609B2 (en) 2015-01-20 2022-05-17 Fujitsu Limited Semantic structure search device and semantic structure search method

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010186349A (en) * 2009-02-12 2010-08-26 Nippon Telegr & Teleph Corp <Ntt> Representative word extraction method and apparatus and program and computer-readable recording medium
JP2014056331A (en) * 2012-09-11 2014-03-27 Hitachi Advanced Systems Corp Document classification method, document classification program and document classification device
CN103177125A (en) * 2013-04-17 2013-06-26 镇江诺尼基智能技术有限公司 Method for realizing fast-speed short text bi-cluster
CN103177125B (en) * 2013-04-17 2016-04-27 镇江诺尼基智能技术有限公司 One short text double focusing fast class methods
US11334609B2 (en) 2015-01-20 2022-05-17 Fujitsu Limited Semantic structure search device and semantic structure search method
CN106156004A (en) * 2016-07-04 2016-11-23 中国传媒大学 The sentiment analysis system and method for film comment information based on term vector
CN106156004B (en) * 2016-07-04 2019-03-26 中国传媒大学 The sentiment analysis system and method for film comment information based on term vector
JP2021157282A (en) * 2020-03-25 2021-10-07 株式会社日立製作所 Labeling model generation device and labeling model generation method
JP7364512B2 (en) 2020-03-25 2023-10-18 株式会社日立製作所 Labeling model generation device and labeling model generation method

Similar Documents

Publication Publication Date Title
JP5403696B2 (en) Language model generation apparatus, method and program thereof
CN109614620B (en) HowNet-based graph model word sense disambiguation method and system
CN103678684A (en) Chinese word segmentation method based on navigation information retrieval
Ojha et al. Training & evaluation of POS taggers in Indo-Aryan languages: a case of Hindi, Odia and Bhojpuri
JP2008176489A (en) Text discrimination device and text discrimination method
JP4333318B2 (en) Topic structure extraction apparatus, topic structure extraction program, and computer-readable storage medium storing topic structure extraction program
JP2007047974A (en) Information extraction device and information extraction method
CN114997288A (en) Design resource association method
CN113361252B (en) Text depression tendency detection system based on multi-modal features and emotion dictionary
JP2017201478A (en) Keyword evaluation device, similarity evaluation device, search device, evaluate method, search method, and program
US20220207240A1 (en) System and method for analyzing similarity of natural language data
CN107562774A (en) Generation method, system and the answering method and system of rare foreign languages word incorporation model
JP6126965B2 (en) Utterance generation apparatus, method, and program
JP6232358B2 (en) Next utterance candidate ranking apparatus, method, and program
JP2008152641A (en) Similar example sentence retrieving device
Aldine et al. Redefining Hearst Patterns by using Dependency Relations.
JP6135866B2 (en) Synonym identification device, method, and program
KR20100085433A (en) High quality voice synthesizing method using multiple target prosody
JP2009003811A (en) Attribute determination device, interaction device and program
JP5298834B2 (en) Example sentence matching translation apparatus, program, and phrase translation apparatus including the translation apparatus
JP6574469B2 (en) Next utterance candidate ranking apparatus, method, and program
Bach et al. Paraphrase identification in Vietnamese documents
JP5506482B2 (en) Named entity extraction apparatus, string-named expression class pair database creation apparatus, numbered entity extraction method, string-named expression class pair database creation method, program
CN105930471A (en) Speech abstract generation method and apparatus
JP2008165718A (en) Intention determination device, intention determination method, and program

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100406