JP2016103156A - Text feature amount extraction device, text feature amount extraction method, and program - Google Patents

Text feature amount extraction device, text feature amount extraction method, and program Download PDF

Info

Publication number
JP2016103156A
JP2016103156A JP2014241139A JP2014241139A JP2016103156A JP 2016103156 A JP2016103156 A JP 2016103156A JP 2014241139 A JP2014241139 A JP 2014241139A JP 2014241139 A JP2014241139 A JP 2014241139A JP 2016103156 A JP2016103156 A JP 2016103156A
Authority
JP
Japan
Prior art keywords
text
intention
intention category
category
ratio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014241139A
Other languages
Japanese (ja)
Inventor
充裕 後藤
Mitsuhiro Goto
充裕 後藤
木全 英明
Hideaki Kimata
英明 木全
浩司 中村
Koji Nakamura
浩司 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Comware Corp
Original Assignee
NTT Comware Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Comware Corp filed Critical NTT Comware Corp
Priority to JP2014241139A priority Critical patent/JP2016103156A/en
Publication of JP2016103156A publication Critical patent/JP2016103156A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a text feature amount extraction device, a text feature amount extraction method, and a program for corresponding to Japanese and estimating an utterance intention of an inputted text in a text feature amount extraction device for determining a feature amount of a sentence described in a text.SOLUTION: The text feature amount extraction device includes a text analysis part for executing a morphological analysis of an inputted text to extract particles and auxiliary verbs as a functional expression, a score calculation part for determining an intention category to which functional expressions extracted from the text belong on the basis of an intention category dictionary representing a correspondence relation between an intention category obtained by integrating intentions expressed by a sentence and a functional expression belonging to the intention category, and outputting scores obtained by counting the number of functional expressions included in the text in each intention category, and an intention category estimation part for calculating a ratio of respective intention categories represented by the text to estimate an intention represented by the sentence on the basis of the scores, and outputting an estimation result obtained by associating the ratio of intention categories with the text.SELECTED DRAWING: Figure 1

Description

本発明は、テキスト特徴量抽出装置、テキスト特徴量抽出方法、およびプログラムに関する。   The present invention relates to a text feature quantity extraction device, a text feature quantity extraction method, and a program.

従来から、TF−IDF(Term Frequency−Inverse Document Frequency)(非特許文献1参照)やLDA(Latent Dirichlet Allocation)(非特許文献2参照)など、テキストで表記された文章中の特定の単語(テキスト)をキーワードとして文書の特徴(以下、「特徴量抽出」という)を決定する技術がある。TF−IDFやLDAによるテキストの特徴量抽出では、名詞、形容詞、動詞など、文章の内容や話題を表す単語(以下、「内容表現」という)に着目して対象となる文章の特徴量を決定し、特徴量が近い(類似している)文章を同じキーワードのグループにまとめる(分類する)ことができる。そして、分類した結果は、文章の内容の要約や、類似している文章の検索に活用することができる。   Conventionally, specific words (texts) in texts such as TF-IDF (Term Frequency-Inverse Document Frequency) (see Non-Patent Document 1) and LDA (Lent Dirichlet Allocation) (see Non-Patent Document 2). ) As a keyword, there is a technique for determining document features (hereinafter referred to as “feature amount extraction”). In text feature extraction using TF-IDF or LDA, the feature of a target sentence is determined by focusing on the words representing the contents of the sentence and the topic (hereinafter referred to as “content expression”), such as nouns, adjectives, and verbs. Thus, sentences having similar (similar) feature quantities can be grouped (classified) into the same keyword group. The classified results can be used for summarizing the contents of sentences and searching for similar sentences.

なお、TF−IDFによる特徴量抽出では、文章中に出現する名詞や形容詞の表記がそのまま利用される。一方、LDAによる特徴量抽出では、文章中に出現する表記から意味的に似ている表記をまとめることによって、TF−IDFによる特徴量抽出では別のものとして扱っていた表記の揺れを吸収することができる。   In the feature quantity extraction by TF-IDF, nouns and adjectives appearing in sentences are used as they are. On the other hand, in feature amount extraction by LDA, notation that is semantically similar to notation appearing in a sentence is put together to absorb fluctuations in notation treated as another in feature amount extraction by TF-IDF. Can do.

そして、例えば、特許文献1のように、TF−IDFやLDAによる特徴量抽出を利用した装置の技術が提案されている。特許文献1に開示された技術は、検索対象の文書の概念を説明する適切な単語(テキスト)を抽出する文書トピック抽出装置の技術である。   For example, as in Patent Document 1, a technique of an apparatus using feature amount extraction by TF-IDF or LDA has been proposed. The technique disclosed in Patent Document 1 is a technique of a document topic extraction apparatus that extracts an appropriate word (text) that explains the concept of a document to be searched.

また、近年では、Facebook(登録商標)やTwitter(登録商標)など、ソーシャルネットワーキングサービス(Social Networking Service:SNS)を利用したマイクロブログなどが流行している。そして、このソーシャルネットワーキングサービスに投稿された文章を、商品の開発/販売や提供するサービスなどを促進するための情報として利用するマーケティングリサーチも行われている。   In recent years, microblogging using social networking services (SNS) such as Facebook (registered trademark) and Twitter (registered trademark) has become popular. Marketing research is also being conducted in which text posted on this social networking service is used as information for promoting product development / sales and services provided.

非特許文献1、非特許文献2、および特許文献1で開示されたような、TF−IDFやLDAを利用した従来のテキスト分類では、名詞、形容詞、動詞といった、文章内の内容表現に着目して対象となる文章(テキスト)を分類する特徴量を抽出している。つまり、従来のテキスト分類では、文章(テキスト)が表す内容や話題(トピック)の観点で分類している。一方、投稿された文章(テキスト)をマーケティングリサーチに利用する場合には、文章(テキスト)にどういう意図が含まれているか、つまり、文章に含まれる投稿者の投稿の意図(以下、「発話意図」という)の観点で分類することが求められる。このため、発話意図の観点でのテキスト分類では、内容表現以外の情報を用いて分類を行うことが必要となり、従来のテキスト分類の技術をそのまま適用することができない。このことから、従来では、文章(テキスト)を内容や話題(トピック)の観点で分類した後、マーケティングリサーチを行う担当者が、分類された文章(テキスト)の意図を判定していた。   In conventional text classification using TF-IDF or LDA as disclosed in Non-Patent Document 1, Non-Patent Document 2, and Patent Document 1, attention is paid to content expressions in sentences such as nouns, adjectives, and verbs. The feature quantity for classifying the target sentence (text) is extracted. That is, in the conventional text classification, classification is performed from the viewpoint of the content represented by the text (text) and the topic (topic). On the other hand, when using posted text (text) for marketing research, what kind of intention is included in the text (text), that is, the intention of the poster included in the text (hereinafter referred to as “speech intention”). ")"). For this reason, in text classification from the viewpoint of utterance intention, it is necessary to perform classification using information other than content expression, and conventional text classification techniques cannot be applied as they are. For this reason, conventionally, after classifying sentences (text) in terms of contents and topics (topics), a person in charge of marketing research has determined the intention of the classified sentences (text).

このため、例えば、非特許文献3には、Twitter(登録商標)を対象として、短い文章(ショートテキスト)から、投稿者の発話意図を推定する技術が開示されている。非特許文献3に開示された技術では、ユニグラム(uni−gram)、バイグラム(bi−gram)、トライグラム(tri−gram)などのnグラム(n−gram)法による全文検索の技術を用いて対象となる文章の特徴量を決定し、nグラムの特徴量と発話意図との対応関係を主観評価により決定することによって、投稿された短い文章の発話意図推定を行っている。   For this reason, for example, Non-Patent Document 3 discloses a technique for estimating the utterance intention of a poster from a short sentence (short text) for Twitter (registered trademark). In the technique disclosed in Non-Patent Document 3, a full-text search technique using an n-gram method such as a unigram (uni-gram), a bigram (bi-gram), or a trigram (tri-gram) is used. The feature amount of the target sentence is determined, and the correspondence between the feature amount of the n-gram and the utterance intention is determined by subjective evaluation, thereby estimating the utterance intention of the posted short sentence.

特開2012−221316号公報JP 2012-221316 A

“tf−idf”,[平成26年7月31日検索],インターネット,<http://www.sophia−it.com/content/tf−idf>“Tf-idf”, [searched July 31, 2014], Internet, <http: // www. sophia-it. com / content / tf-idf> Blei, David M., Ng, Andrew Y. and Jordan, Michael I.,“Latent Dirichlet Allocation.”,Journal of Machine Learning Research 3,pp.993−1022.,3/1/2003Blei, David M.M. , Ng, Andrew Y. and Jordan, Michael I .; , “Lent Dirichlet Allocation.”, Journal of Machine Learning Research 3, pp. 993-1022. , 3/1/2003 Renxian Zhang, Wenjie Li, Dehong Gao, You Ouyang,“Automatic Twitter Topic Summarization With Speech Acts”, IEEE Transactions on Audio,Speech,and Language Processing, Vol.21, No.3,pp.649−658, 2013.3Renxian Zhang, Wenji Li, Deong Gao, You Ouyang, “Automatic Twitter Topical Summation Proceed Act Act.”, IEEE Transactions. 21, no. 3, pp. 649-658, 2013.3

ところで、非特許文献3に開示されているような、英語版Twitter(登録商標)を対象として発話意図を推定する技術では、nグラムによって特徴量を決定した単語(テキスト)の組み合わせから、文章の持つ発話意図を推定するための辞書を作成している。しかしながら、英語に対応した辞書を日本語にそのまま適用することは難しい。これは、日本語の場合には、単語の組み合わせのパターン数が英語に比べて膨大であり、日本語における様々な単語(テキスト)をカバーする辞書を生成することが難しいからである。   By the way, in the technique for estimating the utterance intention for the English version of Twitter (registered trademark) as disclosed in Non-Patent Document 3, from the combination of words (text) whose characteristic amount is determined by n-grams, A dictionary is created to estimate the utterance intention. However, it is difficult to apply a dictionary corresponding to English to Japanese as it is. This is because in Japanese, the number of patterns of word combinations is enormous compared to English, and it is difficult to generate a dictionary that covers various words (text) in Japanese.

本発明は、上記の課題認識に基づいてなされたものであり、テキストで表記された文章の特徴量を決定するテキスト特徴量抽出装置において、日本語に対応し、入力されたテキストの発話意図を推定するテキスト特徴量抽出装置、テキスト特徴量抽出方法、およびプログラムを提供することを目的としている。   The present invention has been made on the basis of the above problem recognition, and in a text feature amount extraction apparatus for determining a feature amount of a sentence written in text, the utterance intention of input text corresponding to Japanese is set. An object of the present invention is to provide a text feature quantity extraction device, a text feature quantity extraction method, and a program for estimation.

上記の課題を解決するため、本発明のテキスト特徴量抽出装置は、入力されたテキストに対して形態素解析を実行し、前記テキスト内に含まれる助詞および助動詞を機能表現として抽出するテキスト解析部と、予め生成した、文章で表される意図をまとめた意図カテゴリと該意図カテゴリに属する機能表現との対応関係を表した意図カテゴリ辞書に基づいて、前記テキストから抽出された前記機能表現が属する前記意図カテゴリを判定し、前記テキストに含まれる前記機能表現の数を前記意図カテゴリ毎に計数したスコアを出力するスコア計算部と、前記スコアに基づいて、前記テキストが表すそれぞれの意図カテゴリの割合を算出し、該算出した前記意図カテゴリの割合に基づいて前記文章が表す意図を推定し、前記意図カテゴリの割合と前記テキストとを対応づけた推定結果を出力する意図カテゴリ推定部と、を備えることを特徴とする。   In order to solve the above problems, a text feature amount extraction device according to the present invention performs a morphological analysis on an input text, and extracts a particle and an auxiliary verb included in the text as a functional expression; The function expression extracted from the text belongs based on an intention category dictionary that represents a correspondence relationship between an intention category in which intentions represented by sentences are collected in advance and a function expression belonging to the intention category. A score calculation unit that determines an intention category and outputs a score obtained by counting the number of functional expressions included in the text for each intention category, and a ratio of each intention category represented by the text based on the score And calculating the intention represented by the sentence based on the calculated proportion of the intention category, And intention category estimation unit for outputting the estimation result associates the serial text, characterized in that it comprises a.

また、本発明のテキスト特徴量抽出装置における前記意図カテゴリ推定部は、前記スコアの値が同じ値である前記意図カテゴリが複数ある場合には、前記文章がそれぞれの前記意図カテゴリの意図を同じ割合で持っていることを推定する、ことを特徴とする。   In addition, the intention category estimation unit in the text feature quantity extraction device of the present invention, when there are a plurality of intention categories having the same score value, the sentence has the same proportion of intentions of the intention categories. It is characterized by estimating that it has.

また、本発明のテキスト特徴量抽出装置における前記意図カテゴリ辞書は、重み係数が予め設定された前記機能表現と前記意図カテゴリとの対応関係を含み、前記スコア計算部は、前記機能表現に設定された重み係数を掛けて、前記意図カテゴリ毎に前記機能表現の数を計数する、ことを特徴とする。   Further, the intention category dictionary in the text feature quantity extraction device of the present invention includes a correspondence relationship between the functional expression in which a weighting factor is set in advance and the intention category, and the score calculation unit is set in the functional expression. The number of functional expressions is counted for each intention category by multiplying the weighting factor.

また、本発明のテキスト特徴量抽出装置における前記意図カテゴリ推定部は、算出した前記意図カテゴリの割合を高い順に順位づけし、上位から予め定めた順位までに属する前記テキストを前記意図カテゴリの割合に対応づけた前記推定結果を出力する、ことを特徴とする。   Further, the intention category estimation unit in the text feature quantity extraction device of the present invention ranks the calculated ratios of the intention categories in descending order, and sets the text belonging to a predetermined rank from the top to the ratio of the intention categories. The associated estimation result is output.

また、本発明のテキスト特徴量抽出装置における前記機能表現は、前記テキスト内に含まれる接続詞または形式名詞のいずれか一方または両方の品詞をさらに含む、ことを特徴とする。   In the text feature quantity extraction device of the present invention, the functional expression further includes a part of speech of either or both of a conjunction and a formal noun included in the text.

また、本発明のテキスト特徴量抽出方法は、入力されたテキストに対して形態素解析を実行し、前記テキスト内に含まれる助詞および助動詞を機能表現として抽出するテキスト解析ステップと、予め生成した、文章で表される意図をまとめた意図カテゴリと該意図カテゴリに属する機能表現との対応関係を表した意図カテゴリ辞書に基づいて、前記テキストから抽出された前記機能表現が属する前記意図カテゴリを判定し、前記テキストに含まれる前記機能表現の数を前記意図カテゴリ毎に計数したスコアを出力するスコア計算ステップと、前記スコアに基づいて、前記テキストが表すそれぞれの意図カテゴリの割合を算出し、該算出した前記意図カテゴリの割合に基づいて前記文章が表す意図を推定し、前記意図カテゴリの割合と前記テキストとを対応づけた推定結果を出力する意図カテゴリ推定ステップと、を含むことを特徴とする。   The text feature amount extraction method of the present invention includes a text analysis step of performing morphological analysis on input text and extracting particles and auxiliary verbs included in the text as functional expressions, and a sentence generated in advance. Determining the intention category to which the functional expression extracted from the text belongs, based on an intention category dictionary representing a correspondence relationship between an intention category in which the intentions are represented and functional expressions belonging to the intention category. A score calculating step for outputting a score obtained by counting the number of the functional expressions included in the text for each intention category, and calculating a ratio of each intention category represented by the text based on the score. The intention represented by the sentence is estimated based on the ratio of the intention category, and the ratio of the intention category and the text are estimated. Characterized in that it comprises a contemplated category estimation step of outputting the estimation result and bets associates, the.

また、本発明のプログラムは、入力されたテキストに対して形態素解析を実行し、前記テキスト内に含まれる助詞および助動詞を機能表現として抽出するテキスト解析ステップと、予め生成した、文章で表される意図をまとめた意図カテゴリと該意図カテゴリに属する機能表現との対応関係を表した意図カテゴリ辞書に基づいて、前記テキストから抽出された前記機能表現が属する前記意図カテゴリを判定し、前記テキストに含まれる前記機能表現の数を前記意図カテゴリ毎に計数したスコアを出力するスコア計算ステップと、前記スコアに基づいて、前記テキストが表すそれぞれの意図カテゴリの割合を算出し、該算出した前記意図カテゴリの割合に基づいて前記文章が表す意図を推定し、前記意図カテゴリの割合と前記テキストとを対応づけた推定結果を出力する意図カテゴリ推定ステップと、をコンピュータに実行させることを特徴とする。   The program of the present invention is represented by a text analysis step that performs morphological analysis on the input text and extracts particles and auxiliary verbs included in the text as functional expressions, and sentences generated in advance. The intention category to which the functional expression extracted from the text belongs is determined based on an intention category dictionary representing a correspondence relationship between the intention category in which the intention is summarized and the functional expression belonging to the intention category, and is included in the text A score calculation step of outputting a score obtained by counting the number of functional expressions for each intention category, and calculating a ratio of each intention category represented by the text based on the score; Estimate the intention represented by the sentence based on the ratio, and correspond the ratio of the intention category to the text And intent category estimation step of outputting the digit estimation result, and characterized by causing a computer to execute the.

本発明によれば、テキストで表記された文章の特徴量を決定するテキスト特徴量抽出装置において、日本語に対応し、入力されたテキストの発話意図を推定することができるという効果が得られる。   Advantageous Effects of Invention According to the present invention, the text feature amount extraction device that determines the feature amount of a sentence written in text can obtain an effect of being able to estimate the utterance intention of the input text corresponding to Japanese.

本発明の実施形態におけるテキスト特徴量抽出装置を構成する機能ブロックの概略構成を示したブロック図である。It is the block diagram which showed schematic structure of the functional block which comprises the text feature-value extraction apparatus in embodiment of this invention. 本実施形態のテキスト特徴量抽出装置における意図カテゴリ推定の処理手順を示したフローチャートである。It is the flowchart which showed the processing procedure of the intention category estimation in the text feature-value extraction apparatus of this embodiment. 本実施形態のテキスト特徴量抽出装置におけるテキスト特徴量抽出の処理の一例を模式的に示した図である。It is the figure which showed typically an example of the process of the text feature-value extraction in the text feature-value extraction apparatus of this embodiment. 本実施形態のテキスト特徴量抽出装置に備えた意図カテゴリ記憶部に記憶されている意図カテゴリ辞書の一例を示した図である。It is the figure which showed an example of the intention category dictionary memorize | stored in the intention category memory | storage part with which the text feature-value extraction apparatus of this embodiment was equipped. 本実施形態のテキスト特徴量抽出装置に備えたスコア記憶部に記憶されるスコアの一例を示した図である。It is the figure which showed an example of the score memorize | stored in the score memory | storage part with which the text feature-value extraction apparatus of this embodiment was equipped. 本実施形態のテキスト特徴量抽出装置を利用したテキスト分類の処理の一例を模式的に示した図である。It is the figure which showed typically an example of the process of the text classification | category using the text feature-value extraction apparatus of this embodiment.

以下、本発明の実施形態について、図面を参照して説明する。図1は、本実施形態におけるテキスト特徴量抽出装置を構成する機能ブロックの概略構成を示したブロック図である。テキスト特徴量抽出装置10は、例えば、パーソナルコンピュータ(Personal Computer,以下、「PC」という)内に構成され、このPC上で動作するシステムである。テキスト特徴量抽出装置10は、テキストで表記された短い文章(テキスト)を自然言語処理することによってテキストが表す発話意図(以下、単に「意図」ともいう)を推定し、推定結果(入力されたテキストのそれぞれの意図カテゴリの割合)を出力する。ここで、テキスト特徴量抽出装置10に入力されるテキストは、例えば、通常の文章(テキスト)や、従来のテキスト分類の技術によってキーワードで分類された、つまり、文章を話題(トピック)の観点で分類した、同じ話題が含まれる文章(テキスト)などであり、文章ならば、形態を問わない。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a schematic configuration of functional blocks constituting the text feature quantity extraction device according to the present embodiment. The text feature quantity extraction device 10 is a system configured in, for example, a personal computer (hereinafter referred to as “PC”) and operating on the PC. The text feature quantity extraction device 10 estimates a speech intention (hereinafter, also simply referred to as “intention”) represented by a text by performing natural language processing on a short sentence (text) described in the text, and an estimation result (inputted) Output the ratio of each intention category of the text). Here, the text input to the text feature quantity extraction device 10 is classified by a keyword using, for example, a normal sentence (text) or a conventional text classification technique, that is, the sentence is viewed from the viewpoint of a topic (topic). It is a sentence (text) that is classified and includes the same topic, and any form can be used as long as it is a sentence.

テキスト特徴量抽出装置10は、テキスト解析部101と、意図カテゴリ記憶部102と、スコア計算部103と、スコア記憶部104と、意図カテゴリ推定部105とを備えている。なお、テキスト特徴量抽出装置10は、例えば、PC上で動作するアプリケーションソフトウェアに追加されるアドインソフトウェアとしての動作や、マクロプログラムとして機能する構成であってもよい。   The text feature quantity extraction device 10 includes a text analysis unit 101, an intention category storage unit 102, a score calculation unit 103, a score storage unit 104, and an intention category estimation unit 105. Note that the text feature quantity extraction device 10 may be configured to function as an add-in software added to application software running on a PC or as a macro program, for example.

テキスト解析部101は、入力されたテキストに対して形態素解析を実行し、テキスト内に含まれる日本語の機能表現のみを抽出する。ここで、機能表現とは、テキスト内に含まれる単語の内、助詞や助動詞の文言(単語)である。また、機能表現は、テキスト内に含まれる単語の内、さらに接続詞や形式名詞の文言(単語)を含めてもよい。そして、テキスト解析部101は、抽出した機能表現を順次、スコア計算部103に出力する。このとき、テキスト解析部101は、入力されたテキスト毎に、すなわち、入力されたテキストに対応付けて、抽出した機能表現を出力する。   The text analysis unit 101 performs morphological analysis on the input text, and extracts only Japanese functional expressions included in the text. Here, the functional expression is a word or word of a particle or auxiliary verb among words included in the text. In addition, the functional expression may include words (words) of conjunctions and formal nouns among the words included in the text. Then, the text analysis unit 101 sequentially outputs the extracted function expressions to the score calculation unit 103. At this time, the text analysis unit 101 outputs the extracted functional expression for each input text, that is, in association with the input text.

なお、テキスト解析部101が抽出して出力する機能表現は、テキストから抽出した機能表現の文言そのものであってもよいが、機能表現の文言を表す情報であってもよい。また、入力されたテキストに含まれる機能表現の文言の種類を表す情報であってもよい。   The functional expression extracted and output by the text analysis unit 101 may be the functional expression word itself extracted from the text, or may be information representing the functional expression wording. Moreover, the information which represents the kind of wording of the functional expression contained in the input text may be sufficient.

意図カテゴリ記憶部102は、予め生成された、文章(テキスト)中に記載された機能表現が表す意図をまとめたカテゴリ(以下、「意図カテゴリ」という)と、その意図カテゴリに属する機能表現との対応関係を表した意図カテゴリ辞書を記憶する。ここで、意図カテゴリ辞書に含まれる意図カテゴリとは、「陳述」、「提案」、「疑問」、「コメント」、および「その他」など、テキストで表現された投稿者の意図を判定するための項目である。より具体的には、「陳述」には、投稿者自身の状況や世の中の事象を伝えているテキストが相当する。また、「提案」には、投稿者が何かを具体的に提案しているテキストが相当する。また、「疑問」には、投稿者が何か疑問を問いかけているテキストが相当する。また、「コメント」には、投稿者の喜怒哀楽などの主観的な主張をしているテキストが相当する。また、「その他」には、上記の4つの意図カテゴリ以外に属するテキストが相当する。   The intention category storage unit 102 includes a category (hereinafter referred to as an “intention category”) in which intentions represented by function expressions described in sentences (text) generated in advance are grouped and function expressions belonging to the intention category. An intention category dictionary representing the correspondence is stored. Here, the intention category included in the intention category dictionary is used to determine the intention of the poster expressed in text such as “description”, “suggestion”, “question”, “comment”, and “other”. It is an item. More specifically, the “description” corresponds to a text that conveys the contributor's own situation and the events in the world. In addition, “suggestion” corresponds to text in which the poster specifically proposes something. The “question” corresponds to a text in which the poster asks a question. The “comment” corresponds to a text that makes a subjective claim such as the emotion of the poster. In addition, “others” corresponds to text belonging to other than the above four intention categories.

テキスト特徴量抽出装置10では、入力されたテキスト内の機能表現を、意図カテゴリ辞書に基づいてそれぞれの意図カテゴリに振り分ける。なお、意図カテゴリ辞書の内容に関する詳細な説明は、後述する。   In the text feature quantity extraction device 10, the function expression in the input text is distributed to each intention category based on the intention category dictionary. A detailed description of the contents of the intention category dictionary will be described later.

スコア計算部103は、テキスト解析部101から順次入力された機能表現の数を計数する。すなわち、スコア計算部103は、それぞれのテキストにおける機能表現の出現回数を計数する。このとき、スコア計算部103は、意図カテゴリ記憶部102に記憶されている意図カテゴリ辞書に基づいて、入力された機能表現がいずれの意図カテゴリに属するものであるかを判定し、機能表現の出現回数を、それぞれの意図カテゴリ毎に計数する。そして、スコア計算部103は、計数したそれぞれの意図カテゴリ毎の機能表現の出現回数をスコアとして、スコア記憶部104に記憶させる。   The score calculation unit 103 counts the number of function expressions sequentially input from the text analysis unit 101. That is, the score calculation unit 103 counts the number of appearances of functional expressions in each text. At this time, the score calculation unit 103 determines which intention category the input functional expression belongs to based on the intention category dictionary stored in the intention category storage unit 102, and the appearance of the function expression The number of times is counted for each intention category. And the score calculation part 103 memorize | stores in the score memory | storage part 104 by making into a score the appearance frequency of the function expression for every each intention category counted.

スコア記憶部104は、スコア計算部103がそれぞれのテキストに対して計数した意図カテゴリ毎のスコアを記憶する。スコア記憶部104では、それぞれのテキストと、そのテキストに含まれる機能表現の意図カテゴリ毎のスコアを対応付けて記憶する。   The score storage unit 104 stores a score for each intention category counted by the score calculation unit 103 for each text. The score storage unit 104 stores each text in association with a score for each intention category of the functional expression included in the text.

意図カテゴリ推定部105は、スコア記憶部104に記憶されているスコアに基づいて、テキストが表すそれぞれの意図カテゴリの割合を出力する。なお、意図カテゴリ推定部105における意図カテゴリの割合の出力方法に関する詳細な説明は、後述する。   The intention category estimation unit 105 outputs the ratio of each intention category represented by the text based on the score stored in the score storage unit 104. Note that a detailed description of the intention category ratio output method in the intention category estimation unit 105 will be described later.

そして、意図カテゴリ推定部105は、それぞれのテキストの意図カテゴリの割合(推定結果)を、テキスト特徴量抽出装置10の外部に出力する。意図カテゴリ推定部105が出力する推定結果は、テキストと、このテキストのそれぞれの意図カテゴリの割合とが対応付けられた情報である。このとき、意図カテゴリ推定部105は、意図を推定した全てのテキストの結果を推定結果として出力してもよいが、例えば、テキスト特徴量抽出装置10の利用者によって指定された意図カテゴリの割合を高い順に順位づけ(ランキング)し、上位から予め定めたN番目まで、すなわち、予め定めた順位までに属するテキストを、それぞれの意図カテゴリの割合と共に出力してもよい。   Then, the intention category estimation unit 105 outputs the ratio (estimation result) of the intention category of each text to the outside of the text feature quantity extraction device 10. The estimation result output by the intention category estimation unit 105 is information in which a text is associated with a ratio of each intention category of the text. At this time, the intention category estimation unit 105 may output the results of all the texts whose intent is estimated as estimation results. For example, the intention category estimation unit 105 may calculate the ratio of the intention category specified by the user of the text feature quantity extraction device 10. The texts may be ranked in descending order (ranking), and the texts belonging to the N-th order from the top, that is, the texts belonging to the predetermined order, may be output together with the ratio of each intention category.

次に、テキスト特徴量抽出装置10における処理について説明する。図2は、本実施形態のテキスト特徴量抽出装置10における意図カテゴリ推定の処理手順を示したフローチャートである。   Next, processing in the text feature quantity extraction device 10 will be described. FIG. 2 is a flowchart showing a processing procedure for intention category estimation in the text feature quantity extraction apparatus 10 of the present embodiment.

テキスト特徴量抽出装置10における処理では、まず、ステップS10において、テキスト解析部101が、入力されたテキストに対して形態素解析を実行し、テキストを品詞別に分解する。ここでは、発話の意図を推定するための機能表現のみではなく、名詞や動詞など、文章の内容や話題を表す単語や文言も、それぞれの品詞として分解される。   In the processing in the text feature quantity extraction device 10, first, in step S10, the text analysis unit 101 performs morphological analysis on the input text, and decomposes the text into parts of speech. Here, not only the function expression for estimating the intention of the utterance, but also the words and phrases representing the content of the sentence and the topic, such as nouns and verbs, are decomposed as respective parts of speech.

続いて、ステップS20において、テキスト解析部101は、それぞれの品詞に分解されたテキスト内に含まれる機能表現の品詞(助詞、助動詞、接続詞、および形式名詞)の文言(単語)のみを抽出する。つまり、テキスト解析部101は、名詞や動詞など、文章の内容や話題を表す内容表現の品詞の文言(単語)は抽出しない。そして、テキスト解析部101は、抽出した機能表現の文言(単語)をテキスト毎に順次、スコア計算部103に出力する。   Subsequently, in step S20, the text analysis unit 101 extracts only the words (words) of the part of speech (particle, auxiliary verb, conjunction, and formal noun) of the functional expression included in the text decomposed into each part of speech. That is, the text analysis unit 101 does not extract words (words) of a part of speech of content expression representing the content of a sentence or a topic such as a noun or a verb. Then, the text analysis unit 101 sequentially outputs the extracted words (words) of the functional expression to the score calculation unit 103 for each text.

続いて、ステップS30において、スコア計算部103は、意図カテゴリ記憶部102に記憶されている意図カテゴリ辞書に基づいて、テキスト解析部101から順次入力された機能表現の文言(単語)の出現回数を、テキスト毎に計数する。そして、スコア計算部103は、計数した機能表現の文言(単語)の出現回数を、スコア記憶部104に出力して記憶させる。   Subsequently, in step S <b> 30, the score calculation unit 103 calculates the number of appearances of functional expression words (words) sequentially input from the text analysis unit 101 based on the intention category dictionary stored in the intention category storage unit 102. Count for each text. Then, the score calculation unit 103 outputs and stores the counted number of appearances of the functional expression word (word) in the score storage unit 104.

続いて、ステップS40において、意図カテゴリ推定部105は、スコア記憶部104に記憶されているスコアに基づいてそれぞれのテキストのそれぞれの意図カテゴリの割合を計算し、ここで計算した結果(推定結果)を、テキスト毎に外部に出力する。   Subsequently, in step S40, the intention category estimation unit 105 calculates the ratio of each intention category of each text based on the score stored in the score storage unit 104, and the result calculated here (estimation result). Are output to the outside for each text.

このような構成および処理手順によって、テキスト特徴量抽出装置10は、入力されたテキストの持つそれぞれの意図カテゴリの割合を出力する。   With such a configuration and processing procedure, the text feature quantity extraction device 10 outputs the ratio of each intention category of the input text.

ここで、テキスト特徴量抽出装置10におけるそれぞれの処理の一例について説明する。図3は、本実施形態のテキスト特徴量抽出装置10におけるテキスト特徴量抽出の処理の一例を模式的に示した図である。図3に示した一例には、テキストaとテキストbとの2つのテキストがテキスト特徴量抽出装置10に入力された場合において、入力されたテキストの意図カテゴリをそれぞれ推定し、意図カテゴリの割合が高いカテゴリで、それぞれのテキストを分類する場合を模式的に示している。   Here, an example of each process in the text feature amount extraction apparatus 10 will be described. FIG. 3 is a diagram schematically illustrating an example of text feature amount extraction processing in the text feature amount extraction apparatus 10 of the present embodiment. In the example shown in FIG. 3, when two texts of text a and text b are input to the text feature quantity extraction device 10, the intention categories of the input text are estimated, and the ratio of the intention categories is The case where each text is classified in a high category is schematically shown.

テキスト特徴量抽出装置10は、それぞれのテキストの意図カテゴリの割合を推定する。この意図カテゴリを用いたテキストの特徴量抽出処理では、テキスト解析部101が、入力されたテキストを品詞別に分解(ステップS10)し、さらに、機能表現の文言(単語)を抽出してスコア計算部103に出力する(ステップS20)。そして、スコア計算部103が、意図カテゴリ記憶部102に記憶されている意図カテゴリ辞書に基づいて、機能表現の文言(単語)の出現回数をテキスト毎に計数する(ステップS30)。   The text feature quantity extraction device 10 estimates the ratio of the intention category of each text. In the text feature amount extraction processing using the intention category, the text analysis unit 101 decomposes the input text into parts of speech (step S10), and further extracts a functional expression word (word) to obtain a score calculation unit. It outputs to 103 (step S20). Then, the score calculation unit 103 counts the number of appearances of the functional expression word (word) for each text based on the intention category dictionary stored in the intention category storage unit 102 (step S30).

ここで、意図カテゴリ記憶部102に記憶している意図カテゴリ辞書の一例について説明する。図4は、本実施形態のテキスト特徴量抽出装置10に備えた意図カテゴリ記憶部102に記憶されている意図カテゴリ辞書の一例を示した図である。意図カテゴリ辞書は、上述したように、機能表現と意図カテゴリとの対応関係を表した、予め生成された辞書である。機能表現には、「は」、「が」、「か」、「たい」などの助詞、助動詞、接続詞、および形式名詞の文言(単語)がある。そして、それぞれ機能表現は、「陳述」、「提案」、「疑問」、「コメント」、「その他」の意図カテゴリに分類される。図4には、「は」が「陳述」に、「が」が「陳述」に、「か」が「疑問」に、「たい」が「提案」に、それぞれ分類された意図カテゴリ辞書の一例を示している。   Here, an example of the intention category dictionary stored in the intention category storage unit 102 will be described. FIG. 4 is a diagram illustrating an example of an intention category dictionary stored in the intention category storage unit 102 provided in the text feature amount extraction apparatus 10 of the present embodiment. As described above, the intention category dictionary is a dictionary generated in advance that represents the correspondence between the functional expression and the intention category. Functional expressions include particles such as “ha”, “ga”, “ka”, “tai”, auxiliary verbs, conjunctions, and formal noun words (words). Each functional expression is classified into an intention category of “description”, “suggestion”, “question”, “comment”, and “other”. FIG. 4 shows an example of an intention category dictionary in which “ha” is classified as “declaration”, “ga” is classified as “declaration”, “ka” is classified as “question”, and “tai” is classified as “suggestion”. Is shown.

なお、機能表現には、複数の意図カテゴリに属するものもある。この場合には、同じ機能表現が複数の意図カテゴリに対応付けられた意図カテゴリ辞書を生成してもよい。また、一般的に考えられる文章における機能表現の出現頻度に基づいて、機能表現をそれぞれの意図カテゴリに対応付ける際の重み係数を予め設定し、この重み係数を含んだ意図カテゴリ辞書を生成してもよい。この場合、スコア計算部103は、それぞれの意図カテゴリ毎に機能表現の出現回数を計数する際に、機能表現に設定された重み係数を掛けて計数する。   Some functional expressions belong to a plurality of intention categories. In this case, an intention category dictionary in which the same function expression is associated with a plurality of intention categories may be generated. Also, based on the frequency of appearance of functional expressions in generally considered sentences, a weighting factor for associating the functional expression with each intention category may be set in advance, and an intention category dictionary including the weighting coefficient may be generated. Good. In this case, when calculating the number of appearances of the functional expression for each intention category, the score calculation unit 103 multiplies the weighting coefficient set for the functional expression.

なお、意図カテゴリ辞書は、予め生成して意図カテゴリ記憶部102に記憶しておくのみではなく、例えば、テキスト解析部101が、入力されたテキストに基づいて学習し、学習した内容に応じて意図カテゴリ辞書を更新する構成にしてもよい。   Note that the intention category dictionary is not only generated in advance and stored in the intention category storage unit 102. For example, the text analysis unit 101 learns based on the input text, and the intention category according to the learned content. The category dictionary may be updated.

スコア計算部103は、テキスト解析部101から順次入力された機能表現がいずれの意図カテゴリに属するものであるかを、図4に示したような意図カテゴリ辞書を参照して判定し、機能表現の出現回数を、それぞれの意図カテゴリ毎に計数する。そして、スコア計算部103は、計数したそれぞれの意図カテゴリ毎の出現回数を、スコアとしてスコア記憶部104に記憶させる(ステップS30)。   The score calculation unit 103 determines to which intention category the functional expressions sequentially input from the text analysis unit 101 belong, by referring to the intention category dictionary as shown in FIG. The number of appearances is counted for each intention category. Then, the score calculation unit 103 stores the counted number of appearances for each intention category in the score storage unit 104 as a score (step S30).

ここで、スコア記憶部104に記憶させるスコアの一例について説明する。図5は、本実施形態のテキスト特徴量抽出装置10に備えたスコア記憶部104に記憶されるスコアの一例を示した図である。スコア記憶部104は、入力されたそれぞれのテキストと、そのテキストに含まれる機能表現の意図カテゴリ毎のスコアを対応付けて記憶する。図5には、テキストxに含まれる機能表現のスコア、テキストyに含まれる機能表現のスコア、およびテキストzに含まれる機能表現のスコアが記憶されている場合を示している。より具体的には、図5には、テキストxに含まれる機能表現において、「陳述」の出現回数=3、「提案」の出現回数=4、「疑問」の出現回数=2、「コメント」の出現回数=1、「その他」の出現回数=0のスコアが記憶されている場合を示している。また、図5には、テキストyに含まれる機能表現において、「陳述」の出現回数=2、「提案」の出現回数=2、「疑問」の出現回数=4、「コメント」の出現回数=2、「その他」の出現回数=1のスコアが記憶されている場合を示している。また、図5には、テキストzに含まれる機能表現において、「陳述」の出現回数=1、「提案」の出現回数=1、「疑問」の出現回数=1、「コメント」の出現回数=0、「その他」の出現回数=0のスコアが記憶されている場合を示している。   Here, an example of the score stored in the score storage unit 104 will be described. FIG. 5 is a diagram illustrating an example of a score stored in the score storage unit 104 provided in the text feature amount extraction apparatus 10 of the present embodiment. The score storage unit 104 stores each input text and the score for each intention category of the functional expression included in the text in association with each other. FIG. 5 shows a case where the score of the functional expression included in the text x, the score of the functional expression included in the text y, and the score of the functional expression included in the text z are stored. More specifically, in FIG. 5, in the functional expression included in the text x, the number of appearances of “description” = 3, the number of appearances of “suggestion” = 4, the number of appearances of “question” = 2, and the “comment”. The number of times of appearance = 1 and the score of the number of appearances of “others” = 0 are stored. In addition, in the functional expression included in the text y, FIG. 5 shows that the number of appearances of “description” = 2, the number of appearances of “suggestion” = 2, the number of appearances of “question” = 4, and the number of appearances of “comment” = 2 shows a case where a score of “others” appearance count = 1 is stored. In addition, in the functional expression included in the text z, FIG. 5 shows that the number of appearances of “description” = 1, the number of appearances of “suggestion” = 1, the number of appearances of “question” = 1, and the number of appearances of “comment” = In this example, a score of 0, “others” appearance count = 0 is stored.

意図カテゴリ推定部105は、図5に示したようなスコアに基づいて、それぞれのテキストがどういう意図をどのような割合で持っているかという、テキストの投稿者の発話意図の観点でそれぞれの意図カテゴリの割合を出力する(ステップS40)。このとき、テキストに含まれる機能表現の出現回数の多い順に意図カテゴリの割合は大きくなる。また、テキストに含まれる機能表現の出現回数が同じ場合には、意図カテゴリの割合は同じとする。例えば、図5に示したスコアの場合、意図カテゴリ推定部105は、テキストxの意図カテゴリの割合が「提案」>「陳述」>「疑問」>「コメント」>「その他」の順に大きいことを推定し、テキストyの意図カテゴリの割合が「疑問」>「陳述、提案、コメント(3カテゴリは同じ割合)」>「その他」の順に大きいことを推定する。また、図5に示したスコアの場合、テキストzの意図カテゴリの割合が「陳述、提案、疑問(3カテゴリは同順)」>「コメント、その他」の順に大きいことを推定する。   The intention category estimation unit 105 determines each intention category from the viewpoint of the utterance intention of the person who posted the text, such as what ratio each text has, based on the score as shown in FIG. Is output (step S40). At this time, the ratio of the intention category increases in descending order of the number of appearances of the functional expressions included in the text. When the number of appearances of functional expressions included in the text is the same, the ratio of the intention category is the same. For example, in the case of the score shown in FIG. 5, the intention category estimation unit 105 determines that the ratio of the intention category of the text x is larger in the order of “suggestion”> “description”> “question”> “comment”> “others”. It is estimated that the proportion of the intention category of the text y is larger in the order of “question”> “description, proposal, comment (the same proportion is for the three categories)”> “other”. Further, in the case of the score shown in FIG. 5, it is estimated that the ratio of the intention category of the text z is larger in the order of “description, proposal, question (3 categories are in the same order)”> “comment, other”.

なお、スコア計算部103が、重み係数を含んだ意図カテゴリ辞書を参照して機能表現の出現回数を計数した場合には、図5に示したテキストyやテキストzのスコアのように、複数の意図カテゴリで機能表現の出現回数が同じ回数になっていたとしても、意図カテゴリ推定部105は、より発話意図にあった意図カテゴリを推定することができる。つまり、例えば、テキストzにおいて機能表現の出現回数が同じ回数である「陳述」、「提案」、または「疑問」のいずれか1つの意図カテゴリに含まれる機能表現の重み付け係数が高い場合(例えば、陳述の重み係数が2、提案の重み係数が0.5の場合)には、テキストzの意図カテゴリの割合は、重み係数が高い機能表現が計数された「陳述」>「疑問」>「提案」>「コメント、その他」の順に大きいことが推定される。   In addition, when the score calculation unit 103 refers to the intention category dictionary including the weighting coefficient and counts the number of appearances of the functional expression, a plurality of scores such as the scores of the text y and the text z illustrated in FIG. Even if the number of appearances of functional expressions in the intention category is the same, the intention category estimation unit 105 can estimate the intention category more suited to the utterance intention. That is, for example, when the weighting coefficient of the functional expression included in any one intention category of “description”, “suggestion”, or “question” that has the same number of appearances of the functional expression in the text z is high (for example, When the statement weight coefficient is 2 and the proposal weight coefficient is 0.5), the ratio of the intention category of the text z is “statement”> “question”> “proposal” in which the functional expression with a high weight coefficient is counted ">" Comment, other "is estimated in order.

また、図5に示したスコアの一例では、全ての機能表現の出現回数を合計したスコアを記憶している。この全機能表現の出現回数は、例えば、スコア計算部103が、出現回数を計数したテキスト毎に、出現回数の合計値を計算して、スコア記憶部104に記憶させる。図5には、テキストxに含まれる全機能表現の出現回数=10、テキストyに含まれる全機能表現の出現回数=11、テキストzに含まれる全機能表現の出現回数=3が記憶されている場合を示している。   In the example of the score shown in FIG. 5, a score obtained by summing up the number of appearances of all functional expressions is stored. For example, the score calculation unit 103 calculates the total number of appearances for each text in which the number of appearances is counted, and stores the total number of appearances of all functional expressions in the score storage unit 104. FIG. 5 stores the number of appearances of all function expressions included in text x = 10, the number of appearances of all function expressions included in text y = 11, and the number of appearances of all function expressions included in text z = 3. Shows the case.

このように、全機能表現の出現回数のスコアがスコア記憶部104に記憶されている場合、意図カテゴリ推定部105は、それぞれのテキストを発話意図の観点で分類する際に、それぞれの意図カテゴリの出現回数を、全機能表現の出現回数で正規化した値に基づいて意図カテゴリの割合を推定することができる。この方法によれば、例えば、特定の意図カテゴリの割合が大きいテキストの中から、機能表現の出現回数に基づいたテキストのみを選択する場合などにおいて、入力されたテキストの長さによる影響を吸収することができる。   In this way, when the score of the number of appearances of all functional expressions is stored in the score storage unit 104, the intention category estimation unit 105 determines whether each intention category is classified when classifying each text from the viewpoint of utterance intention. The ratio of the intention category can be estimated based on a value obtained by normalizing the number of appearances with the number of appearances of all functional expressions. According to this method, for example, in the case where only text based on the number of appearances of functional expressions is selected from text having a large ratio of a specific intention category, the influence of the length of the input text is absorbed. be able to.

そして、意図カテゴリ推定部105は、それぞれのテキストのそれぞれの意図カテゴリの割合を、推定結果としてテキスト毎に出力する。このとき、意図カテゴリ推定部105は、上述したように、全てのテキストの意図カテゴリの割合を推定結果として出力してもよいが、テキスト特徴量抽出装置10の利用者によって指定された意図カテゴリの割合が高い上位のN番目までに属するテキストを、推定結果として出力してもよい。また、意図カテゴリ推定部105は、テキスト特徴量抽出装置10の利用者によって指定された閾値以上のスコアの値であるテキストを、意図カテゴリの情報と共に推定結果として出力してもよい。閾値は、出現回数で指定してもよいし、正規化した割合で指定してもよい。例えば、使用者によって指定された閾値が「出現回数が3」の場合、意図カテゴリ推定部105は、「陳述」の出現回数=3であり、「提案」の出現回数=4であるテキストxと、「疑問」の出現回数=4であるテキストyとを、それぞれの意図カテゴリの割合と共に出力する。   And the intention category estimation part 105 outputs the ratio of each intention category of each text as an estimation result for every text. At this time, as described above, the intention category estimation unit 105 may output the ratio of the intention categories of all the texts as an estimation result. However, the intention category specified by the user of the text feature quantity extraction device 10 may be output. You may output the text which belongs to the top Nth with a high ratio as an estimation result. In addition, the intention category estimation unit 105 may output, as an estimation result, text having a score value equal to or higher than a threshold specified by the user of the text feature quantity extraction device 10 together with information on the intention category. The threshold value may be specified by the number of appearances, or may be specified by a normalized ratio. For example, when the threshold value designated by the user is “number of appearances is 3,” the intention category estimation unit 105 sets the number of occurrences of “description” = 3 and the number of occurrences of “suggestion” = 4. , The text y with the number of occurrences of “question” = 4 is output together with the ratio of each intention category.

なお、テキスト特徴量抽出装置10に入力するテキストは、従来のテキスト分類手法で分類したテキスト、つまり、テキストに含まれるキーワードに基づいて、文章を話題(トピック)の観点で分類したテキストであってもよい。   The text input to the text feature extraction device 10 is text classified by a conventional text classification method, that is, text obtained by classifying sentences from the viewpoint of a topic (topic) based on keywords included in the text. Also good.

テキスト特徴量抽出装置10に話題(トピック)の観点で分類したテキストを入力した場合、テキスト特徴量抽出装置10は、入力された全てのテキストの話題(トピック)、つまり、キーワードで分類された全てのテキストの意図カテゴリの割合を出力してもよい。しかし、例えば、テキスト特徴量抽出装置10の利用者が指定した話題(トピック)のテキスト、つまり、利用者によって指定されたキーワードを含むテキストのみ意図カテゴリの割合の推定結果を出力してもよい。このとき、テキスト解析部101は、ステップS20において、利用者によって指定された話題(トピック)のテキストのみから機能表現を抽出し、抽出した機能表現をテキスト毎に順次、スコア計算部103に出力する処理にする方が、テキスト特徴量抽出装置10の処理負荷を軽減することができる。   When texts classified in terms of topics (topics) are input to the text feature quantity extraction device 10, the text feature quantity extraction device 10 selects all text topics (topics), that is, all classified by keywords. The ratio of the intention category of the text may be output. However, for example, the estimation result of the ratio of the intended category may be output only for the text of the topic (topic) designated by the user of the text feature quantity extraction device 10, that is, the text including the keyword designated by the user. At this time, in step S20, the text analysis unit 101 extracts functional expressions only from the text of the topic (topic) specified by the user, and outputs the extracted functional expressions to the score calculation unit 103 sequentially for each text. The processing can reduce the processing load of the text feature quantity extraction apparatus 10.

ここで、テキスト特徴量抽出装置10におけるそれぞれの処理の一例について説明する。図6は、本実施形態のテキスト特徴量抽出装置10を利用したテキスト分類の処理の一例を模式的に示した図である。図6(a)には、話題(トピック)の観点でテキストを分類する処理の一例を示し、図6(b)には、意図カテゴリの割合が高いテキストの推定結果を利用して分類した場合の一例を示している。   Here, an example of each process in the text feature amount extraction apparatus 10 will be described. FIG. 6 is a diagram schematically illustrating an example of text classification processing using the text feature amount extraction apparatus 10 of the present embodiment. FIG. 6A shows an example of processing for classifying text from the viewpoint of a topic, and FIG. 6B shows a case in which classification is performed by using text estimation results with a high proportion of intended categories. An example is shown.

図6(a)に示したテキスト分類の処理の一例では、キーワードに基づいて文章を話題(トピック)の観点で分類したテキストをテキスト解析部101の入力とした場合において、意図カテゴリの推定結果を用いて分類した場合を模式的に示している。より具体的には、図6(a)に示した一例においては、話題A〜話題Cのいずれか1つの話題が含まれるテキストa〜テキストhまでの8つのテキストがテキスト特徴量抽出装置10に入力され、入力されたテキストを話題A〜話題Cの観点で分類した後に、話題Aのテキストの意図カテゴリを推定し、意図カテゴリの割合が高いカテゴリで、それぞれのテキストを分類する場合を模式的に示している。   In the example of the text classification process shown in FIG. 6A, when the text obtained by classifying sentences from the viewpoint of a topic based on a keyword is used as the input of the text analysis unit 101, the estimation result of the intended category is obtained. The case where it classify | categorizes using is shown typically. More specifically, in the example illustrated in FIG. 6A, eight texts from text a to text h including any one of topics A to C are included in the text feature quantity extraction device 10. After the input text is classified from the viewpoint of topic A to topic C, the intention category of the text of topic A is estimated, and each text is classified in a category with a high ratio of the intention category. It shows.

テキスト特徴量抽出装置10は、まず、話題(トピック)の観点でテキストを分類する。図6(a)に示した一例では、テキストa、テキストb、テキストd、およびテキストgが話題Aのテキストとして分類され、テキストcおよびテキストhが話題Bのテキストとして分類され、テキストeおよびテキストfが話題Cのテキストとして分類された場合を示している。このように、話題(トピック)の観点でのテキスト分類では、同じ話題を含むテキスト同士がまとめられるように分類される。   The text feature quantity extraction device 10 first classifies texts in terms of topics. In the example shown in FIG. 6A, text a, text b, text d, and text g are classified as topic A text, text c and text h are classified as topic B text, text e and text The case where f is classified as the text of topic C is shown. As described above, in the text classification from the viewpoint of a topic (topic), the text including the same topic is classified so as to be collected.

続いて、テキスト特徴量抽出装置10は、話題Aのそれぞれのテキストの意図カテゴリの割合を推定し、それぞれのテキストの意図カテゴリの割合をカテゴリで分類する。この意図カテゴリを用いたテキストの分類処理では、テキスト解析部101が、入力されたテキストを品詞別に分解(ステップS10)し、さらに、機能表現を抽出してスコア計算部103に出力する(ステップS20)。そして、スコア計算部103が、意図カテゴリ記憶部102に記憶されている意図カテゴリ辞書に基づいて機能表現の出現回数をテキスト毎に計数する(ステップS30)。   Subsequently, the text feature quantity extraction device 10 estimates the ratio of the intention category of each text of the topic A, and classifies the ratio of the intention category of each text by category. In the text classification process using the intention category, the text analysis unit 101 decomposes the input text into parts of speech (step S10), further extracts a functional expression and outputs it to the score calculation unit 103 (step S20). ). Then, the score calculation unit 103 counts the number of appearances of functional expressions for each text based on the intention category dictionary stored in the intention category storage unit 102 (step S30).

また、図6(b)には、話題Aが「メロンパン」の話題であり、「提案」の意図カテゴリの割合が高い、「あのメロンパンをいっぱい買いたい」というテキストと、「メロンパンがもっと甘くなればいいのに」というテキストとの推定結果を利用して分類した場合の一例を示している。また、図6(b)には、「コメント」の意図カテゴリの割合が高い、「このメロンパンはとてもおいしいと思う」というテキストと、「メロンパンとコーヒーを一緒に食べると幸せになる」というテキストとの推定結果を利用して分類した場合の一例を示している。   Also, in FIG. 6B, the topic A is the topic of “melon bread”, the ratio of the “proposal” intent category is high, “I want to buy a lot of that melon bread”, and “the melon bread becomes sweeter” An example is shown in the case of classification using the estimation result with the text “I'm fine”. Also, in FIG. 6B, the ratio of the intention category of “comment” is high, the text “I think this melon bread is very delicious”, and the text “Happy to eat melon bread and coffee together” An example in the case of classification using the estimation result is shown.

ここで、それぞれの意図カテゴリに分類されるテキストの一例を示す。「陳述」の意図カテゴリに分類されるテキストには、例えば、「あのメロンパンを売っているお店は家から近いことが分かった」というテキストがある。また、「提案」の意図カテゴリに分類されるテキストには、例えば、「もっとメロンパンの風味を改善してほしい」というテキストがある。また、「疑問」の意図カテゴリに分類されるテキストには、例えば、「話題のメロンパンがどの店でも売り切れているのはなぜだろうか」というテキストがある。また、「コメント」の意図カテゴリに分類されるテキストには、例えば、「メロンパンが美味しすぎるので、幸せな気持ちになっている」というテキストがある。また、「その他」の意図カテゴリに分類されるテキストには、例えば、「メロンパンとあんパンはどちらも丸い」というテキストがある。   Here, an example of the text classified into each intention category is shown. The text classified into the intention category of “statement” includes, for example, the text “I found that the store selling the melon bread is close to the house”. The text classified into the “suggestion” intention category includes, for example, a text “I want you to improve the flavor of melon bread”. The text classified into the “question” intention category includes, for example, the text “Why is the topic melon bread sold out at any store?”. The text classified into the intention category of “comment” includes, for example, the text “I feel happy because melon bread is too delicious”. The text classified into the “other” intention category includes, for example, the text “Both melon bread and bread are round”.

上記に述べたとおり、本発明を実施するための形態によれば、テキスト特徴量抽出装置は、入力されたテキストに対して形態素解析を実行し、テキスト内に含まれる日本語の機能表現(助詞、助動詞、接続詞、および形式名詞)を抽出する。そして、本発明を実施するための形態によれば、テキスト特徴量抽出装置は、予め記憶している機能表現と意図カテゴリとを対応付けた意図カテゴリ辞書に基づいて、入力されたテキストに含まれる機能表現の出現回数を計数する。そして、本発明を実施するための形態によれば、入力されたテキストにおけるそれぞれの意図カテゴリの割合を推定する。これにより、本発明を実施するための形態のテキスト特徴量抽出装置では、テキストにどういう意図がどのような割合で含まれているかを推定することができる。つまり、本発明を実施するための形態のテキスト特徴量抽出装置では、テキストが持つ投稿時の意図を自動的に判定することができる。   As described above, according to the mode for carrying out the present invention, the text feature quantity extraction device performs a morphological analysis on the input text, and expresses a Japanese functional expression (particle) included in the text. , Auxiliary verbs, conjunctions, and formal nouns). And according to the form for implementing this invention, a text feature-value extraction apparatus is contained in the input text based on the intention category dictionary which matched the function expression and intention category which were memorize | stored beforehand. Count the number of appearances of functional expressions. And according to the form for implementing this invention, the ratio of each intention category in the input text is estimated. Thereby, in the text feature-value extraction apparatus of the form for implementing this invention, what kind of intention is contained in the text and what ratio can be estimated. In other words, the text feature quantity extraction device in the form for carrying out the present invention can automatically determine the intention of the text at the time of posting.

このことにより、本発明を実施するための形態のテキスト特徴量抽出装置を利用する利用者は、大量のテキストを分析する際に、それぞれのテキストの内容や話題(トピック)の単位で分類するだけではなく、特定の内容や話題(トピック)に分類された複数のテキスト内の情報(意図)を細分化して分析することができるようになる。つまり、利用者は、テキスト特徴量抽出装置によって分離されたそれぞれのテキストの中から、所望の意図カテゴリのテキストを選択することによって、例えば、マーケティングリサーチなどにおいて、商品の開発/販売や提供するサービスを促進するための情報として活用し、作業効率を向上することができる。   As a result, a user who uses the text feature amount extraction apparatus of the embodiment for carrying out the present invention only classifies each text content or topic (topic) unit when analyzing a large amount of text. Instead, information (intentions) in a plurality of texts classified into specific contents or topics (topics) can be subdivided and analyzed. That is, the user selects a text of a desired intention category from among the texts separated by the text feature quantity extraction device, for example, a service for developing / selling or providing a product in marketing research or the like. Can be used as information to promote work, and work efficiency can be improved.

また、本発明を実施するための形態のテキスト特徴量抽出装置では、予め生成した意図カテゴリ辞書に基づいて入力されたテキストの機能表現から発話意図を推定する。これにより、本発明を実施するための形態のテキスト特徴量抽出装置では、従来のようなnグラムによって特徴量を決定した単語(テキスト)の組み合わせから発話意図を推定する場合のように、単語の組み合わせのパターン数が膨大になることなく、発話意図の推定を日本語に対応させることができる。   Moreover, in the text feature quantity extraction device of the form for carrying out the present invention, the utterance intention is estimated from the functional expression of the text input based on the intention category dictionary generated in advance. Thereby, in the text feature quantity extraction device of the form for carrying out the present invention, the utterance intention is estimated from a combination of words (text) whose feature quantity is determined by n-gram as in the conventional case. It is possible to make the estimation of utterance intention correspond to Japanese without increasing the number of combination patterns.

なお、本発明を実施するための形態では、テキスト特徴量抽出装置に備える意図カテゴリ記憶部とスコア記憶部とを、その他の構成要素(テキスト解析部、スコア計算部、および意図カテゴリ推定部105)と並列に備える場合について説明した。しかし、意図カテゴリ記憶部とスコア記憶部とを備える構成は、本発明を実施するための形態に示した構成に限定されるものではなく、テキスト特徴量抽出装置に備える他の構成要素内に備える構成要素であってもよい。例えば、意図カテゴリ記憶部およびスコア記憶部を、スコア計算部内に備える構成であってもよい。また、例えば、意図カテゴリ記憶部をスコア計算部内に、スコア記憶部を意図カテゴリ推定部内に備える構成であってもよい。   In the form for carrying out the present invention, the intention category storage unit and the score storage unit provided in the text feature quantity extraction device are replaced with other components (text analysis unit, score calculation unit, and intention category estimation unit 105). The case where it prepares in parallel with was demonstrated. However, the configuration including the intention category storage unit and the score storage unit is not limited to the configuration shown in the embodiment for carrying out the present invention, and is included in other components included in the text feature quantity extraction device. It may be a component. For example, the intention category storage unit and the score storage unit may be provided in the score calculation unit. In addition, for example, the intention category storage unit may be provided in the score calculation unit, and the score storage unit may be provided in the intention category estimation unit.

また、本発明を実施するための形態では、テキスト特徴量抽出装置への入力が、テキストで表記された短い文章である場合について説明した。しかし、テキスト特徴量抽出装置への入力は、本発明を実施するための形態に示した構成に限定されるものではない。例えば、テキスト特徴量抽出装置に音声データを入力する構成であってもよい。この場合、テキスト解析部101は、入力された音声データに含まれる発話をテキストに変換してから、上述したテキストに対する処理を実行することになる。   In the embodiment for carrying out the present invention, the case has been described in which the input to the text feature quantity extraction device is a short sentence written in text. However, the input to the text feature quantity extraction device is not limited to the configuration shown in the embodiment for carrying out the present invention. For example, the structure may be such that voice data is input to the text feature quantity extraction device. In this case, the text analysis unit 101 converts the utterance included in the input voice data into text, and then executes the process for the text described above.

また、本発明を実施するための形態では、テキスト特徴量抽出装置を、日本語のテキストの発話意図の推定に利用する場合について説明した。しかし、本発明のテキスト特徴量抽出装置を利用することができる範囲、すなわち、本発明のテキスト特徴量抽出装置を利用してテキストの発話意図を推定することができる言語は、日本語のみに限定されるものではない。例えば、テキスト解析部101が実行する形態素解析によってテキストを品詞別に分解することができる言語(例えば、中国語、タイ語など)であれば、その言語に対応した意図カテゴリ辞書を予め生成しておくことによって、その言語のテキストで表記された短い文章(テキスト)の発話意図推定にも、容易に適用することができる。   In the embodiment for carrying out the present invention, the case has been described in which the text feature quantity extraction device is used for estimating the utterance intention of Japanese text. However, the range in which the text feature quantity extraction device of the present invention can be used, that is, the language that can estimate the utterance intention of the text using the text feature quantity extraction device of the present invention is limited to only Japanese. Is not to be done. For example, in the case of a language (for example, Chinese, Thai, etc.) in which the text can be decomposed into parts of speech by the morphological analysis executed by the text analysis unit 101, an intention category dictionary corresponding to the language is generated in advance. Thus, the present invention can be easily applied to estimation of the utterance intention of a short sentence (text) written in the text of the language.

また、本発明を実施するための形態では、形態素解析によって入力されたテキストを品詞別に分解する場合について説明した。しかし、テキストを品詞別に分解する方法は、本発明を実施するための形態に示した形態素解析に限定されるものではなく、テキストを品詞別に分解することができる自然言語処理であれば、他の方法でテキストを品詞別に分解する場合でも同様に、入力されたテキストの発話意図を推定することができる。   In the embodiment for carrying out the present invention, the case has been described in which text input by morphological analysis is decomposed by part of speech. However, the method of disassembling the text by part of speech is not limited to the morphological analysis shown in the embodiment for carrying out the present invention, and any other natural language processing that can decompose the text by part of speech. Similarly, when the text is decomposed by part of speech by the method, it is possible to estimate the utterance intention of the input text.

また、本発明を実施するための形態では、テキスト特徴量抽出装置10がPC内に構成され、PC上で動作するアプリケーションソフトウェアに追加されたアドインソフトウェアや、マクロプログラムの機能として動作する場合について説明した。しかし、テキスト特徴量抽出装置10の構成は、本発明を実施するための形態に限定されるものではない。例えば、テキスト特徴量抽出装置10を、複数の利用者が共有するサーバコンピュータ上で動作するシステムとして構成することもできる。また、例えば、テキスト特徴量抽出装置10の全ての構成要素が組み込まれたソフトウェアとして提供され、このソフトウェアにテキストを入力して実行することによって、上述したテキスト特徴量抽出装置10の機能や動作を実現する構成にすることもできる。   Further, in the embodiment for carrying out the present invention, the case where the text feature amount extraction apparatus 10 is configured in a PC and operates as a function of add-in software added to application software operating on the PC or a macro program will be described. did. However, the configuration of the text feature quantity extraction device 10 is not limited to the mode for carrying out the present invention. For example, the text feature quantity extraction device 10 can be configured as a system that operates on a server computer shared by a plurality of users. Further, for example, the software is provided as software in which all the components of the text feature quantity extraction device 10 are incorporated, and the functions and operations of the text feature quantity extraction device 10 described above are performed by inputting and executing text in this software. It can also be configured to be realized.

なお、図1に示したテキスト特徴量抽出装置10内の各構成要素による処理を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、テキスト特徴量抽出装置10に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。   A program for realizing processing by each component in the text feature quantity extraction apparatus 10 shown in FIG. 1 is recorded on a computer-readable recording medium, and the program recorded on the recording medium is stored in a computer system. The above-described various processes related to the text feature quantity extraction apparatus 10 may be performed by causing the text feature quantity extraction apparatus 10 to read and execute the process. Here, the “computer system” may include an OS and hardware such as peripheral devices. Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. The “computer-readable recording medium” means a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a CD-ROM, a hard disk built in a computer system, etc. This is a storage device.

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であっても良い。   Further, the “computer-readable recording medium” refers to a volatile memory (for example, DRAM (Dynamic) in a computer system serving as a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. Random Access Memory)) that holds a program for a certain period of time is also included. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what implement | achieves the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.

以上、本発明の実施形態について、図面を参照して説明してきたが、具体的な構成はこの実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲においての種々の変更も含まれる。   The embodiment of the present invention has been described above with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes various modifications within the scope of the present invention. It is.

10・・・テキスト特徴量抽出装置
101・・・テキスト解析部
102・・・意図カテゴリ記憶部
103・・・スコア計算部
104・・・スコア記憶部
105・・・意図カテゴリ推定部
DESCRIPTION OF SYMBOLS 10 ... Text feature-value extraction apparatus 101 ... Text analysis part 102 ... Intention category storage part 103 ... Score calculation part 104 ... Score storage part 105 ... Intention category estimation part

上記の課題を解決するため、本発明のテキスト特徴量抽出装置は、入力されたテキストに対して形態素解析を実行し、前記テキスト内に含まれる助詞および助動詞を機能表現として抽出するテキスト解析部と、予め生成した、文章で表される意図をまとめた意図カテゴリと該意図カテゴリに属する機能表現との対応関係を表した意図カテゴリ辞書に基づいて、前記テキストから抽出された前記機能表現が属する前記意図カテゴリを判定し、前記テキストに含まれる前記機能表現の数を前記意図カテゴリ毎に計数したスコアを出力するスコア計算部と、前記スコアに基づいて、前記テキストが表す少なくとも1つの意図カテゴリの各々の割合を算出し、該算出した前記意図カテゴリの割合に基づいて前記文章が表す意図を推定し、前記意図カテゴリの割合と前記テキストとを対応づけた推定結果を出力する意図カテゴリ推定部と、を備えることを特徴とする。 In order to solve the above problems, a text feature amount extraction device according to the present invention performs a morphological analysis on an input text, and extracts a particle and an auxiliary verb included in the text as a functional expression; The function expression extracted from the text belongs based on an intention category dictionary that represents a correspondence relationship between an intention category in which intentions represented by sentences are collected in advance and a function expression belonging to the intention category. A score calculation unit that determines an intention category and outputs a score obtained by counting the number of the functional expressions included in the text for each intention category; and at least one intention category represented by the text based on the score calculating a percentage of each intent represented by the sentence estimated based on the ratio of the intended category the calculated, the intended catheter It characterized in that it comprises the intended category estimation unit for outputting the estimation result that associates ratio of Li and said text, a.

また、本発明のテキスト特徴量抽出方法は、入力されたテキストに対して形態素解析を実行し、前記テキスト内に含まれる助詞および助動詞を機能表現として抽出するテキスト解析ステップと、予め生成した、文章で表される意図をまとめた意図カテゴリと該意図カテゴリに属する機能表現との対応関係を表した意図カテゴリ辞書に基づいて、前記テキストから抽出された前記機能表現が属する前記意図カテゴリを判定し、前記テキストに含まれる前記機能表現の数を前記意図カテゴリ毎に計数したスコアを出力するスコア計算ステップと、前記スコアに基づいて、前記テキストが表す少なくとも1つの意図カテゴリの各々の割合を算出し、該算出した前記意図カテゴリの割合に基づいて前記文章が表す意図を推定し、前記意図カテゴリの割合と前記テキストとを対応づけた推定結果を出力する意図カテゴリ推定ステップと、を含むことを特徴とする。 The text feature amount extraction method of the present invention includes a text analysis step of performing morphological analysis on input text and extracting particles and auxiliary verbs included in the text as functional expressions, and a sentence generated in advance. Determining the intention category to which the functional expression extracted from the text belongs, based on an intention category dictionary representing a correspondence relationship between an intention category in which the intentions are represented and functional expressions belonging to the intention category. A score calculation step of outputting a score obtained by counting the number of functional expressions included in the text for each intention category, and calculating a ratio of each of at least one intention category represented by the text based on the score. Estimating the intention represented by the sentence based on the calculated proportion of the intention category, and assigning the intention category Characterized in that it comprises a and intent category estimation step of outputting the estimation result that associates with the text and.

また、本発明のプログラムは、入力されたテキストに対して形態素解析を実行し、前記テキスト内に含まれる助詞および助動詞を機能表現として抽出するテキスト解析ステップと、予め生成した、文章で表される意図をまとめた意図カテゴリと該意図カテゴリに属する機能表現との対応関係を表した意図カテゴリ辞書に基づいて、前記テキストから抽出された前記機能表現が属する前記意図カテゴリを判定し、前記テキストに含まれる前記機能表現の数を前記意図カテゴリ毎に計数したスコアを出力するスコア計算ステップと、前記スコアに基づいて、前記テキストが表す少なくとも1つの意図カテゴリの各々の割合を算出し、該算出した前記意図カテゴリの割合に基づいて前記文章が表す意図を推定し、前記意図カテゴリの割合と前記テキストとを対応づけた推定結果を出力する意図カテゴリ推定ステップと、をコンピュータに実行させることを特徴とする。 The program of the present invention is represented by a text analysis step that performs morphological analysis on the input text and extracts particles and auxiliary verbs included in the text as functional expressions, and sentences generated in advance. The intention category to which the functional expression extracted from the text belongs is determined based on an intention category dictionary representing a correspondence relationship between the intention category in which the intention is summarized and the functional expression belonging to the intention category, and is included in the text A score calculation step for outputting a score obtained by counting the number of functional expressions for each intention category, and calculating a ratio of each of at least one intention category represented by the text based on the score; The intention represented by the sentence is estimated based on the ratio of the intention category, and the ratio of the intention category and the text are estimated. And intent category estimation step of outputting the estimation result and bets associates, that causes a computer to execute the features.

上記の課題を解決するため、本発明のテキスト特徴量抽出装置は、入力されたテキストに対して形態素解析を実行し、前記テキスト内に含まれる助詞および助動詞を機能表現として抽出するテキスト解析部と、予め生成した、文章で表される意図をまとめた意図カテゴリと該意図カテゴリに属する機能表現との対応関係を表した意図カテゴリ辞書に基づいて、前記テキストから抽出された前記機能表現が属する前記意図カテゴリを判定し、前記テキストに含まれる前記機能表現の数を前記意図カテゴリ毎に計数したスコアを出力するスコア計算部と、前記スコアを前記テキストに含まれる全ての前記機能表現の数により正規化した値に基づいて、前記テキストが表す少なくとも1つの意図カテゴリの各々の割合を算出し、該算出した前記意図カテゴリの割合に基づいて前記文章が表す意図を推定し、前記意図カテゴリの割合と前記テキストとを対応づけた推定結果を出力する意図カテゴリ推定部と、を備えることを特徴とする。 In order to solve the above problems, a text feature amount extraction device according to the present invention performs a morphological analysis on an input text, and extracts a particle and an auxiliary verb included in the text as a functional expression; The function expression extracted from the text belongs based on an intention category dictionary that represents a correspondence relationship between an intention category in which intentions represented by sentences are collected in advance and a function expression belonging to the intention category. A score calculation unit that determines an intention category and outputs a score obtained by counting the number of functional expressions included in the text for each intention category; and the score is normalized by the number of all the functional expressions included in the text based on the phased value, to calculate the percentage of each of the at least one intended categories the text represented, the intention that the calculated The intent represented by the sentence estimated based on the percentage of the categories, characterized in that it comprises a and intent category estimation unit for outputting the estimation result that associates said the ratio of the intended category text.

また、本発明のテキスト特徴量抽出装置における前記意図カテゴリ推定部は、算出した前記意図カテゴリの割合高い順に複数の前記テキストを順位づけし、上位から予め定めた順位までに属する前記テキストを前記意図カテゴリの割合に対応づけた前記推定結果を出力する、ことを特徴とする。 Furthermore, the intention category estimation unit in the text feature quantity extraction unit of the present invention, the calculated ratio of said intended category is ranks the plurality of the text in descending order, the said text belonging to up to a predetermined order from the upper The estimation result associated with the ratio of the intention category is output.

また、本発明のテキスト特徴量抽出方法は、入力されたテキストに対して形態素解析を実行し、前記テキスト内に含まれる助詞および助動詞を機能表現として抽出するテキスト解析ステップと、予め生成した、文章で表される意図をまとめた意図カテゴリと該意図カテゴリに属する機能表現との対応関係を表した意図カテゴリ辞書に基づいて、前記テキストから抽出された前記機能表現が属する前記意図カテゴリを判定し、前記テキストに含まれる前記機能表現の数を前記意図カテゴリ毎に計数したスコアを出力するスコア計算ステップと、前記スコアを前記テキストに含まれる全ての前記機能表現の数により正規化した値に基づいて、前記テキストが表す少なくとも1つの意図カテゴリの各々の割合を算出し、該算出した前記意図カテゴリの割合に基づいて前記文章が表す意図を推定し、前記意図カテゴリの割合と前記テキストとを対応づけた推定結果を出力する意図カテゴリ推定ステップと、を含むことを特徴とする。 The text feature amount extraction method of the present invention includes a text analysis step of performing morphological analysis on input text and extracting particles and auxiliary verbs included in the text as functional expressions, and a sentence generated in advance. Determining the intention category to which the functional expression extracted from the text belongs, based on an intention category dictionary representing a correspondence relationship between an intention category in which the intentions are represented and functional expressions belonging to the intention category. A score calculation step of outputting a score obtained by counting the number of functional expressions included in the text for each intention category , and a value obtained by normalizing the scores by the number of all the functional expressions included in the text , Calculating a ratio of each of at least one intention category represented by the text, and calculating the intention category The intent represented by the sentence estimated based on the ratio, characterized in that it comprises a and intent category estimation step of outputting the estimation result that associates said the ratio of the intended category text.

また、本発明のプログラムは、入力されたテキストに対して形態素解析を実行し、前記テキスト内に含まれる助詞および助動詞を機能表現として抽出するテキスト解析ステップと、予め生成した、文章で表される意図をまとめた意図カテゴリと該意図カテゴリに属する機能表現との対応関係を表した意図カテゴリ辞書に基づいて、前記テキストから抽出された前記機能表現が属する前記意図カテゴリを判定し、前記テキストに含まれる前記機能表現の数を前記意図カテゴリ毎に計数したスコアを出力するスコア計算ステップと、前記スコアを前記テキストに含まれる全ての前記機能表現の数により正規化した値に基づいて、前記テキストが表す少なくとも1つの意図カテゴリの各々の割合を算出し、該算出した前記意図カテゴリの割合に基づいて前記文章が表す意図を推定し、前記意図カテゴリの割合と前記テキストとを対応づけた推定結果を出力する意図カテゴリ推定ステップと、をコンピュータに実行させることを特徴とする。
The program of the present invention is represented by a text analysis step that performs morphological analysis on the input text and extracts particles and auxiliary verbs included in the text as functional expressions, and sentences generated in advance. The intention category to which the functional expression extracted from the text belongs is determined based on an intention category dictionary representing a correspondence relationship between the intention category in which the intention is summarized and the functional expression belonging to the intention category, and is included in the text A score calculation step of outputting a score obtained by counting the number of functional expressions for each intention category, and the text based on a value obtained by normalizing the scores by the number of all the functional expressions included in the text. Calculating a ratio of each of the at least one intention category to be expressed, and based on the calculated ratio of the intention category Wherein estimating the intention sentence represents, characterized in that to execute the said text and the ratio of the intended category and intended category estimation step of outputting the estimation result which associates, to the computer Te.

Claims (7)

入力されたテキストに対して形態素解析を実行し、前記テキスト内に含まれる助詞および助動詞を機能表現として抽出するテキスト解析部と、
予め生成した、文章で表される意図をまとめた意図カテゴリと該意図カテゴリに属する機能表現との対応関係を表した意図カテゴリ辞書に基づいて、前記テキストから抽出された前記機能表現が属する前記意図カテゴリを判定し、前記テキストに含まれる前記機能表現の数を前記意図カテゴリ毎に計数したスコアを出力するスコア計算部と、
前記スコアに基づいて、前記テキストが表すそれぞれの意図カテゴリの割合を算出し、該算出した前記意図カテゴリの割合に基づいて前記文章が表す意図を推定し、前記意図カテゴリの割合と前記テキストとを対応づけた推定結果を出力する意図カテゴリ推定部と、
を備えることを特徴とするテキスト特徴量抽出装置。
A text analysis unit that performs morphological analysis on the input text and extracts particles and auxiliary verbs included in the text as functional expressions;
The intention to which the functional expression extracted from the text belongs based on an intention category dictionary that represents a correspondence relationship between an intention category in which intentions expressed in sentences are summarized and functional expressions belonging to the intention category. A score calculation unit that determines a category and outputs a score obtained by counting the number of functional expressions included in the text for each intention category;
A ratio of each intention category represented by the text is calculated based on the score, an intention represented by the sentence is estimated based on the calculated ratio of the intention category, and the ratio of the intention category and the text are calculated. An intention category estimation unit for outputting the associated estimation results;
A text feature quantity extraction apparatus comprising:
前記意図カテゴリ推定部は、
前記スコアの値が同じ値である前記意図カテゴリが複数ある場合には、前記文章がそれぞれの前記意図カテゴリの意図を同じ割合で持っていることを推定する、
ことを特徴とする請求項1に記載のテキスト特徴量抽出装置。
The intention category estimation unit includes:
When there are a plurality of the intention categories having the same score value, it is estimated that the sentence has the same ratio of the intentions of the intention categories.
The text feature amount extraction apparatus according to claim 1, wherein:
前記意図カテゴリ辞書は、
重み係数が予め設定された前記機能表現と前記意図カテゴリとの対応関係を含み、
前記スコア計算部は、
前記機能表現に設定された重み係数を掛けて、前記意図カテゴリ毎に前記機能表現の数を計数する、
ことを特徴とする請求項2に記載のテキスト特徴量抽出装置。
The intention category dictionary is
Including a correspondence relationship between the functional expression in which a weighting factor is set in advance and the intention category;
The score calculation unit
Multiplying the functional expression by a weighting factor set, and counting the number of functional expressions for each intention category;
The text feature amount extraction apparatus according to claim 2, wherein
前記意図カテゴリ推定部は、
算出した前記意図カテゴリの割合を高い順に順位づけし、上位から予め定めた順位までに属する前記テキストを前記意図カテゴリの割合に対応づけた前記推定結果を出力する、
ことを特徴とする請求項1から請求項3のいずれか1の項に記載のテキスト特徴量抽出装置。
The intention category estimation unit includes:
Rank the calculated proportions of the intention categories in descending order, and output the estimation results in which the text belonging to the predetermined rank from the top is associated with the proportion of the intention categories;
The text feature quantity extraction apparatus according to claim 1, wherein the text feature quantity extraction apparatus is a text feature quantity extraction device.
前記機能表現は、
前記テキスト内に含まれる接続詞または形式名詞のいずれか一方または両方の品詞をさらに含む、
ことを特徴とする請求項1から請求項4のいずれか1の項に記載のテキスト特徴量抽出装置。
The functional expression is
It further includes the part of speech of either or both of a conjunction or a formal noun included in the text,
The text feature quantity extraction device according to claim 1, wherein the text feature quantity extraction device is a text feature quantity extraction device.
入力されたテキストに対して形態素解析を実行し、前記テキスト内に含まれる助詞および助動詞を機能表現として抽出するテキスト解析ステップと、
予め生成した、文章で表される意図をまとめた意図カテゴリと該意図カテゴリに属する機能表現との対応関係を表した意図カテゴリ辞書に基づいて、前記テキストから抽出された前記機能表現が属する前記意図カテゴリを判定し、前記テキストに含まれる前記機能表現の数を前記意図カテゴリ毎に計数したスコアを出力するスコア計算ステップと、
前記スコアに基づいて、前記テキストが表すそれぞれの意図カテゴリの割合を算出し、該算出した前記意図カテゴリの割合に基づいて前記文章が表す意図を推定し、前記意図カテゴリの割合と前記テキストとを対応づけた推定結果を出力する意図カテゴリ推定ステップと、
を含むことを特徴とするテキスト特徴量抽出方法。
A text analysis step of performing morphological analysis on the input text and extracting particles and auxiliary verbs included in the text as functional expressions;
The intention to which the functional expression extracted from the text belongs based on an intention category dictionary that represents a correspondence relationship between an intention category in which intentions expressed in sentences are summarized and functional expressions belonging to the intention category. A score calculation step of determining a category and outputting a score obtained by counting the number of functional expressions included in the text for each intention category;
A ratio of each intention category represented by the text is calculated based on the score, an intention represented by the sentence is estimated based on the calculated ratio of the intention category, and the ratio of the intention category and the text are calculated. An intention category estimation step for outputting a corresponding estimation result;
A text feature quantity extraction method characterized by including:
入力されたテキストに対して形態素解析を実行し、前記テキスト内に含まれる助詞および助動詞を機能表現として抽出するテキスト解析ステップと、
予め生成した、文章で表される意図をまとめた意図カテゴリと該意図カテゴリに属する機能表現との対応関係を表した意図カテゴリ辞書に基づいて、前記テキストから抽出された前記機能表現が属する前記意図カテゴリを判定し、前記テキストに含まれる前記機能表現の数を前記意図カテゴリ毎に計数したスコアを出力するスコア計算ステップと、
前記スコアに基づいて、前記テキストが表すそれぞれの意図カテゴリの割合を算出し、該算出した前記意図カテゴリの割合に基づいて前記文章が表す意図を推定し、前記意図カテゴリの割合と前記テキストとを対応づけた推定結果を出力する意図カテゴリ推定ステップと、
をコンピュータに実行させることを特徴とするプログラム。
A text analysis step of performing morphological analysis on the input text and extracting particles and auxiliary verbs included in the text as functional expressions;
The intention to which the functional expression extracted from the text belongs based on an intention category dictionary that represents a correspondence relationship between an intention category in which intentions expressed in sentences are summarized and functional expressions belonging to the intention category. A score calculation step of determining a category and outputting a score obtained by counting the number of functional expressions included in the text for each intention category;
A ratio of each intention category represented by the text is calculated based on the score, an intention represented by the sentence is estimated based on the calculated ratio of the intention category, and the ratio of the intention category and the text are calculated. An intention category estimation step for outputting a corresponding estimation result;
A program that causes a computer to execute.
JP2014241139A 2014-11-28 2014-11-28 Text feature amount extraction device, text feature amount extraction method, and program Pending JP2016103156A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014241139A JP2016103156A (en) 2014-11-28 2014-11-28 Text feature amount extraction device, text feature amount extraction method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014241139A JP2016103156A (en) 2014-11-28 2014-11-28 Text feature amount extraction device, text feature amount extraction method, and program

Publications (1)

Publication Number Publication Date
JP2016103156A true JP2016103156A (en) 2016-06-02

Family

ID=56087852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014241139A Pending JP2016103156A (en) 2014-11-28 2014-11-28 Text feature amount extraction device, text feature amount extraction method, and program

Country Status (1)

Country Link
JP (1) JP2016103156A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484768A (en) * 2016-09-09 2017-03-08 天津海量信息技术股份有限公司 The local feature abstracting method of content of text salient region and system
CN108052503A (en) * 2017-12-26 2018-05-18 北京奇艺世纪科技有限公司 The computational methods and device of a kind of confidence level
JP2018097562A (en) * 2016-12-13 2018-06-21 株式会社東芝 Information processing device, information processing method and information processing program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02158871A (en) * 1988-12-12 1990-06-19 Ricoh Co Ltd Document sorting device
JP2000339310A (en) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> Method and device for classifying document and recording medium with program recorded thereon
JP2003108568A (en) * 2001-09-26 2003-04-11 Communication Research Laboratory Sentence classifying method and device
JP2004303198A (en) * 2003-03-18 2004-10-28 Ricoh Co Ltd Document processor, document processing method, and document processing program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02158871A (en) * 1988-12-12 1990-06-19 Ricoh Co Ltd Document sorting device
JP2000339310A (en) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> Method and device for classifying document and recording medium with program recorded thereon
JP2003108568A (en) * 2001-09-26 2003-04-11 Communication Research Laboratory Sentence classifying method and device
JP2004303198A (en) * 2003-03-18 2004-10-28 Ricoh Co Ltd Document processor, document processing method, and document processing program

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6015022038; 諸橋,那須川,長野: 'テキストマイニング:膨大な文書データからの知識獲得-意図の認識-' 情報処理学会全国大会講演論文集 第57回(平成10年後期)(3), 19981005, p.75-76, 社団法人情報処理学会 *
JPN6015022039; 那須川 哲哉: 'コールセンターにおけるテキストマイニング' 人工知能学会誌 第16巻第2号, 20010301, p.219-225, (社)人工知能学会 *
JPN6015051019; 西原 陽子 外2名: '発話意図を用いた人同士の関与の強さの推定' 言語処理学会第12回年次大会発表論文集 , 20060313, p.81-84, 言語処理学会 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484768A (en) * 2016-09-09 2017-03-08 天津海量信息技术股份有限公司 The local feature abstracting method of content of text salient region and system
CN106484768B (en) * 2016-09-09 2019-12-31 天津海量信息技术股份有限公司 Local feature extraction method and system for text content saliency region
JP2018097562A (en) * 2016-12-13 2018-06-21 株式会社東芝 Information processing device, information processing method and information processing program
WO2018110029A1 (en) * 2016-12-13 2018-06-21 株式会社東芝 Information processing device, information processing method and information processing program
CN110168527A (en) * 2016-12-13 2019-08-23 株式会社东芝 Information processing unit, information processing method and message handling program
US11334715B2 (en) 2016-12-13 2022-05-17 Kabushiki Kaisha Toshiba Topic-identifying information processing device, topic-identifying information processing method, and topic-identifying computer program product
CN110168527B (en) * 2016-12-13 2023-07-14 株式会社东芝 Information processing device, information processing method, and information processing program
CN108052503A (en) * 2017-12-26 2018-05-18 北京奇艺世纪科技有限公司 The computational methods and device of a kind of confidence level

Similar Documents

Publication Publication Date Title
Bonta et al. A comprehensive study on lexicon based approaches for sentiment analysis
Ghosh et al. Sarcasm analysis using conversation context
Hung Word of mouth quality classification based on contextual sentiment lexicons
Kaur et al. A survey on sentiment analysis and opinion mining techniques
Vu et al. An experiment in integrating sentiment features for tech stock prediction in twitter
Basiri et al. A framework for sentiment analysis in persian
Malandrakis et al. Distributional semantic models for affective text analysis
Hardeniya et al. Dictionary based approach to sentiment analysis-a review
Sarkar et al. Sentiment polarity detection in bengali tweets using multinomial Naïve Bayes and support vector machines
Khan et al. Sentiment classification using sentence-level lexical based
Zahoor et al. Twitter sentiment analysis using lexical or rule based approach: a case study
Korayem et al. Sentiment/subjectivity analysis survey for languages other than English
US9773166B1 (en) Identifying longform articles
Kumar et al. Analysis of users’ sentiments from kannada web documents
Rahate et al. Feature selection for sentiment analysis by using svm
Jusoh et al. Applying fuzzy sets for opinion mining
US20150269162A1 (en) Information processing device, information processing method, and computer program product
Ravishankar et al. Grammar rule-based sentiment categorisation model for classification of Tamil tweets
JP2016103156A (en) Text feature amount extraction device, text feature amount extraction method, and program
Xie et al. Lexicon construction: A topic model approach
Hassan Khan et al. Building normalized SentiMI to enhance semi-supervised sentiment analysis
Moy et al. Hate speech detection in English and non-English languages: A review of techniques and challenges
Elawady et al. Sentiment analyzer for arabic comments
Wang et al. A comparison of two text representations for sentiment analysis
Bucur Opinion Mining platform for Intelligence in business

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160802