JP2016012195A - Factor estimation device, program, and factor estimation method - Google Patents
Factor estimation device, program, and factor estimation method Download PDFInfo
- Publication number
- JP2016012195A JP2016012195A JP2014132758A JP2014132758A JP2016012195A JP 2016012195 A JP2016012195 A JP 2016012195A JP 2014132758 A JP2014132758 A JP 2014132758A JP 2014132758 A JP2014132758 A JP 2014132758A JP 2016012195 A JP2016012195 A JP 2016012195A
- Authority
- JP
- Japan
- Prior art keywords
- word group
- cause
- indicating
- word
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文章内に、肯定的な主観を示す語群または否定的な主観を示す語群の少なくとも一方が発現した原因を推定する技術に関する。 The present invention relates to a technique for estimating a cause in which at least one of a word group showing a positive subjectivity or a word group showing a negative subjectivity appears in a sentence.
従来から、商品の購入者や使用者が、インターネットを用いて、商品に関する意見や感想を発信することが可能となっている。特許文献1では、製品評価が示された文書群からシステム動作に関する言葉を辞書により抽出し、その後、評価極性分類(ポジネガ)により、「ネガ」に判別されたものを不満文として抽出する技術が開示されている。また、非特許文献1では、Web(World Wide Web)上のレビュー記事から、商品の好評意見と不満意見を取り出し、主成分分析によって、それぞれ一つの評価軸にまとめた空間に商品を配置することによって、消費者の購入判断を支援するシステムが開示されている。
2. Description of the Related Art Conventionally, purchasers and users of products can transmit opinions and impressions about products using the Internet. In Japanese Patent Laid-Open No. 2004-228867, there is a technique in which words relating to system operation are extracted from a document group showing product evaluation using a dictionary, and then those that are determined as “negative” are extracted as dissatisfied sentences by evaluation polarity classification (positive negative). It is disclosed. In Non-Patent
しかしながら、特許文献1記載の技術では、要望や不満を抽出する対象が、システムや商品など、物の動作や不具合についての事柄に限定されており、対象範囲が狭い。さらに、要望や不満が発現する原因については言及していない。また、非特許文献1記載の技術は、商品レビュー記事を対象とし、複数の好評や不満をまとめることによって、ユーザが商品購買時の判断をし易くするためのものであるが、好評や不満が発現する原因については言及していない。また、特許文献1および非特許文献1の両方とも、対象が商品や製品などマーケティングに関わる事項に限定されているため、人間関係や人のライフイベントに関する要望や不満は対象とされておらず、人の感情に伴う原因については推定することができない。
However, in the technique described in
本発明は、このような事情に鑑みてなされたものであり、要望・不満に対応する原因の候補を自動で推定することができ、また、人間関係や、人のライフイベントに関する原因を推定することができる原因推定装置、プログラムおよび原因推定方法を提供することを目的とする。 The present invention has been made in view of such circumstances, and can automatically estimate a cause candidate corresponding to a request or dissatisfaction, and estimate a cause related to a human relationship or a human life event. It is an object to provide a cause estimation device, a program, and a cause estimation method.
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明の原因推定装置は、文章内に、肯定的な主観を示す語群または否定的な主観を示す語群の少なくとも一方が発現した原因を推定する原因推定装置であって、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与する主観検出部と、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とする原因検出部と、を備えることを特徴とする。 (1) In order to achieve the above object, the present invention takes the following measures. That is, the cause estimation apparatus of the present invention is a cause estimation apparatus that estimates a cause in which at least one of a word group indicating a positive subjectivity or a word group indicating a negative subjectivity appears in a sentence, and is input. The document classification processing is performed on the text data, and the positive label indicating the positive subjectivity for each classified word group or the word group indicating the negative subjectivity is indicated. A subjective detection unit for assigning a negative label, and extracting a co-occurrence word co-occurring with the word group with the positive label or the word group with the negative label from the sentence, An expression cause including the extracted co-occurrence word from a probability table composed of a word group indicating an expression, a word group indicating an expression cause of the word group indicating the subjectivity, and a numerical value indicating an expression probability of the word group indicating the expression Extract words that indicate The term group indicates expression causes the extracted, causing detector caused word group and elected expression probability descending order, characterized in that it comprises a.
このように、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与し、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とするので、肯定的または否定的な主観を示す語群の発現原因を、自動的に推定することが可能となる。また、文章を対象とするため、商品やシステムに限定されず、人間関係や人のライフイベントに関する肯定的または否定的な主観を示す語群の発現原因を推定することが可能となる。 In this way, a document classification process is performed on the input text data, and a positive label indicating a positive subjectivity or a negative subjectivity word for each classified word group. A negative label indicating that it is a group, and a co-occurrence word that co-occurs with the word group to which the positive label is given or the word group to which the negative label is given is extracted from the sentence, positive or negative Including the extracted co-occurrence words from a probability table composed of a word group indicating the subjectivity, a word group indicating the cause of the expression of the word group indicating the subjectivity, and a numerical value indicating the expression probability of the word group indicating the cause of the expression The word group indicating the cause of expression is extracted, and the word group indicating the extracted expression cause is selected in descending order of the probability of expression as the cause word group, so the expression cause of the word group indicating positive or negative subjectivity Can be estimated automatically It made. In addition, since text is a target, it is not limited to products and systems, and it is possible to estimate the cause of expression of a word group indicating positive or negative subjectivity regarding human relationships or human life events.
(2)また、本発明の原因推定装置は、予め収集され、文書分類処理によって分類され、肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルが付与された語群を学習データベースに格納し、前記学習データベースに格納された語群に基づいて、前記確率テーブルを作成する事前処理部を更に備えることを特徴とする。 (2) Moreover, the cause estimation apparatus of the present invention is a word group indicating a positive label or a negative subjectivity indicating that it is a word group collected in advance and classified by a document classification process and indicating a positive subjectivity. It further includes a preprocessing unit that stores a word group to which a negative label indicating that is stored in a learning database and creates the probability table based on the word group stored in the learning database.
このように、予め収集され、文書分類処理によって分類され、肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルが付与された語群を学習データベースに格納し、前記学習データベースに格納された語群に基づいて、前記確率テーブルを作成するので、肯定的または否定的な主観を示す語群の発現原因を、自動的に推定することが可能となる。 In this way, collected in advance and classified by the document classification process, a positive label indicating that it is a word group indicating positive subjectivity or a negative label indicating that it is a word group indicating negative subjectivity is given. The word group is stored in the learning database, and the probability table is created based on the word group stored in the learning database, so that the cause of the expression of the word group showing positive or negative subjectivity is automatically estimated. It becomes possible to do.
(3)また、本発明の原因推定装置において、前記原因検出部は、前記選出した複数の原因語群の発現確率が同一である場合は、前記各原因語群のうち、肯定ラベルが付与された語群または否定ラベルが付与された語群から文節間隔が最も小さい原因語群を選出することを特徴とする。 (3) Moreover, in the cause estimation apparatus of the present invention, the cause detection unit is given an affirmative label among the respective cause word groups when the plurality of selected cause word groups have the same occurrence probability. The causal word group having the smallest phrase interval is selected from the word group to which the negative label is assigned.
このように、前記選出した複数の原因語群の発現確率が同一である場合は、前記各原因語群のうち、肯定ラベルが付与された語群または否定ラベルが付与された語群から文節間隔が最も小さい原因語群を選出するので、発現確率が同一であったとしても、優先順位を付与することが可能となる。 Thus, when the expression probability of the selected plurality of causal word groups is the same, among the respective causal word groups, the phrase interval from the word group given a positive label or the word group given a negative label Since the causal word group having the smallest is selected, even if the expression probability is the same, the priority order can be given.
(4)また、本発明のプログラムは、文章内に、肯定的な主観を示す語群または否定的な主観を示す語群の少なくとも一方が発現した原因を推定するプログラムであって、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与する処理と、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出する処理と、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出する処理と、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とする処理と、の一連の処理を、コンピュータに実行させることを特徴とする。 (4) The program of the present invention is a program for estimating the cause of the occurrence of at least one of a word group showing positive subjectivity or a word group showing negative subjectivity in a sentence, and is input Document classification processing is performed on the text data, and a negative label indicating that it is a word group indicating a positive subjectivity or a word group indicating a negative subjectivity for each classified word group A process of assigning a label, a process of extracting a co-occurrence word co-occurring with a word group to which the positive label is given or a word group to which the negative label is given from the sentence, and a positive or negative subjectivity. An expression cause including the extracted co-occurrence word from a probability table composed of a word group indicating the expression cause of the word group indicating the subjectivity and a numerical value indicating the expression probability of the word group indicating the expression cause Extract word groups A processing that, the word group showing expression causes the extracted, the processing caused word group and elected expression probability descending order, a series of processing, and characterized by causing a computer to execute.
このように、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与し、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とするので、肯定的または否定的な主観を示す語群の発現原因を、自動的に推定することが可能となる。また、文章を対象とするため、商品やシステムに限定されず、人間関係や人のライフイベントに関する肯定的または否定的な主観を示す語群の発現原因を推定することが可能となる。 In this way, a document classification process is performed on the input text data, and a positive label indicating a positive subjectivity or a negative subjectivity word for each classified word group. A negative label indicating that it is a group, and a co-occurrence word that co-occurs with the word group to which the positive label is given or the word group to which the negative label is given is extracted from the sentence, positive or negative Including the extracted co-occurrence words from a probability table composed of a word group indicating the subjectivity, a word group indicating the cause of the expression of the word group indicating the subjectivity, and a numerical value indicating the expression probability of the word group indicating the cause of the expression The word group indicating the cause of expression is extracted, and the word group indicating the extracted expression cause is selected in descending order of the probability of expression as the cause word group, so the expression cause of the word group indicating positive or negative subjectivity Can be estimated automatically It made. In addition, since text is a target, it is not limited to products and systems, and it is possible to estimate the cause of expression of a word group indicating positive or negative subjectivity regarding human relationships or human life events.
(5)また、本発明の原因推定方法は、文章内に、肯定的な主観を示す語群または否定的な主観を示す語群の少なくとも一方が発現した原因を推定する原因推定方法であって、主観検出部において、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与するステップと、原因検出部において、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とするステップと、を少なくとも含むことを特徴とする。 (5) Moreover, the cause estimation method of the present invention is a cause estimation method for estimating a cause in which at least one of a word group indicating a positive subjectivity or a word group indicating a negative subjectivity appears in a sentence. The subjectivity detection unit performs document classification processing on the input text data, and displays an affirmative label or negative subjectivity indicating that it is a word group indicating a positive subjectivity for each classified word group. A co-occurrence word that co-occurs with the step of assigning a negative label indicating that it is a word group to be indicated, and the word group to which the positive label is assigned from the sentence or the word group to which the negative label is assigned in the cause detection unit From a probability table composed of a word group indicating positive or negative subjectivity, a word group indicating the cause of expression of the word group indicating the subjectivity, and a numerical value indicating the probability of expression of the word group indicating the cause of expression The extraction Extracting a word group indicating the cause of expression including the co-occurrence word and selecting the word group indicating the extracted expression cause in descending order of the probability of expression to be a cause word group, To do.
このように、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与し、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とするので、肯定的または否定的な主観を示す語群の発現原因を、自動的に推定することが可能となる。また、文章を対象とするため、商品やシステムに限定されず、人間関係や人のライフイベントに関する肯定的または否定的な主観を示す語群の発現原因を推定することが可能となる。 In this way, a document classification process is performed on the input text data, and a positive label indicating a positive subjectivity or a negative subjectivity word for each classified word group. A negative label indicating that it is a group, and a co-occurrence word that co-occurs with the word group to which the positive label is given or the word group to which the negative label is given is extracted from the sentence, positive or negative Including the extracted co-occurrence words from a probability table composed of a word group indicating the subjectivity, a word group indicating the cause of the expression of the word group indicating the subjectivity, and a numerical value indicating the expression probability of the word group indicating the cause of the expression The word group indicating the cause of expression is extracted, and the word group indicating the extracted expression cause is selected in descending order of the probability of expression as the cause word group, so the expression cause of the word group indicating positive or negative subjectivity Can be estimated automatically It made. In addition, since text is a target, it is not limited to products and systems, and it is possible to estimate the cause of expression of a word group indicating positive or negative subjectivity regarding human relationships or human life events.
本発明によれば、肯定的または否定的な主観を示す語群の発現原因を、自動的に推定することが可能となる。また、文章を対象とするため、商品やシステムに限定されず、人間関係や人のライフイベントに関する肯定的または否定的な主観を示す語群の発現原因を推定することが可能となる。 According to the present invention, it is possible to automatically estimate the cause of expression of a word group showing a positive or negative subjectivity. In addition, since text is a target, it is not limited to products and systems, and it is possible to estimate the cause of expression of a word group indicating positive or negative subjectivity regarding human relationships or human life events.
本発明者らは、既存の技術では、要望や不満などが発現した原因を推定することができていなかったことに着目し、要望または不満等の主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルを用いることによって、自動的に要望または不満等の主観が発現した原因を推定することができることを見出し、本発明をするに至った。 The inventors of the present invention pay attention to the fact that the cause of the request or dissatisfaction could not be estimated in the existing technology, and the word group indicating the subjectivity such as the request or dissatisfaction, the word group indicating the subjectivity It is possible to automatically estimate the cause of the manifestation of subjectivity such as desire or dissatisfaction by using a probability table composed of a word group indicating the cause of the occurrence of the disease and a numerical value indicating the expression probability of the word group indicating the cause of the expression. The inventors have found that this is possible and have come to the present invention.
すなわち、本発明の原因推定装置は、文章内に、肯定的な主観を示す語群または否定的な主観を示す語群の少なくとも一方が発現した原因を推定する原因推定装置であって、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与する主観検出部と、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とする原因検出部と、を備えることを特徴とする。 That is, the cause estimation apparatus of the present invention is a cause estimation apparatus that estimates a cause in which at least one of a word group indicating a positive subjectivity or a word group indicating a negative subjectivity appears in a sentence, and is input. The document classification processing is performed on the text data, and the positive label indicating the positive subjectivity for each classified word group or the word group indicating the negative subjectivity is indicated. A subjective detection unit for assigning a negative label, and extracting a co-occurrence word co-occurring with the word group with the positive label or the word group with the negative label from the sentence, An expression cause including the extracted co-occurrence word from a probability table composed of a word group indicating an expression, a word group indicating an expression cause of the word group indicating the subjectivity, and a numerical value indicating an expression probability of the word group indicating the expression Extract words that indicate The term group indicates expression causes the extracted, causing detector caused word group and elected expression probability descending order, characterized in that it comprises a.
この構成により、本発明者らは、肯定的または否定的な主観を示す語群の発現原因を、自動的に推定することを可能とした。また、文章を対象とするため、商品やシステムに限定されず、人間関係や人のライフイベントに関する肯定的または否定的な主観を示す語群の発現原因を推定することを可能とした。以下、本発明の実施形態について、図面を参照しながら具体的に説明する。 With this configuration, the present inventors have been able to automatically estimate the cause of expression of a word group showing a positive or negative subjectivity. In addition, since the subject is a sentence, the present invention is not limited to products and systems, and it is possible to estimate the cause of expression of a word group indicating positive or negative subjectivity regarding human relations or human life events. Embodiments of the present invention will be specifically described below with reference to the drawings.
図1は、本実施形態に係る原因推定装置の概略構成を示すブロック図である。この原因推定装置は、事前処理部10、主観検出部20および原因検出部30から構成されている。事前処理部10は、学習データベース1およびテーブル作成部3を備えている。学習データベース1は、事前に収集され、肯定的な主観を示す語群である要望D、否定的な主観を示す語群である不満F、およびそれらの少なくとも一方が発現した原因Cがラベルとして付与された文章を格納する。学習データは、例えば、商品等に対するレビュー文や、SNS(Social Networking Service)の投稿とそのコメントなど、様々なテキストデータを使用することができる。テーブル作成部3は、学習データの要望D・不満F・原因Cラベルが付与されたデータセットから、原因文章の確率テーブルを作成する。データセットは、例えば、以下の表[学習データ例]に示される内容を有する。
FIG. 1 is a block diagram illustrating a schematic configuration of the cause estimation apparatus according to the present embodiment. The cause estimation apparatus includes a preprocessing unit 10, a subjective detection unit 20, and a cause detection unit 30. The pre-processing unit 10 includes a
テーブル作成部3が作成する確率テーブルは、次の表[確率テーブル例1]のように、要望DNと不満FMと原因CLとその起こりうる確率が複数セット記憶されているものを指す。 Probability table table creating unit 3 creates, as the following table [probability table Example 1], refers to something probability that demand D N dissatisfaction F M and cause C L and may occur that is a plurality of sets stored .
データ内の要素(要望・不満・原因)は3つである必要はなく、次の表[確率テーブル例2]または[確率テーブル例3]のような要望と原因のセットデータ、不満と原因のセットデータも含めることができる。 There is no need to have three elements (desired / dissatisfied / cause) in the data, but the set data of the desired and the cause, dissatisfied / caused Set data can also be included.
要望・不満・原因には、単語・文節・文章を入れることができる。例えば、要望と不満は単語ごとに作成し、原因は文章で作成するなど、単語と文節、文章の組み合わせを自由に設定することができる。 Requests, complaints, and causes can include words, phrases, and sentences. For example, requests and dissatisfactions can be created for each word, and the cause can be created by sentences. The combination of words, phrases, and sentences can be freely set.
確率テーブルにおける確率値は、上記の[確率テーブル例1]に示したように、要望Dに「風が欲しい」、不満Fに「暑い」という内容文100件に対して、原因としてC1「窓が閉まっている」が35件、C2「部屋に窓がない」が5件、C3「エアコンがOFFになっている」が50件、C4「エアコンが故障している」が10件だった場合、それぞれの確率はP1=0.35、P2=0.05、P3=0.50、P4=0.10と計算される。 As shown in [Probability Table Example 1] above, the probability values in the probability table are C1 “window” as the cause for 100 content sentences “desiring wind” in request D and “hot” in dissatisfaction F. 35 cases of “closed”, 5 cases of C2 “no window in room”, 50 cases of C3 “air conditioner turned off”, 10 cases of C4 “air conditioner failed” The respective probabilities are calculated as P1 = 0.35, P2 = 0.05, P3 = 0.50, and P4 = 0.10.
図2は、事前処理部の動作を示すフローチャートである。まず、学習データベース1を参照し(ステップS1)、確率値を計算する(ステップS2)。そして、学習データの要望D・不満F・原因Cラベルが付与されたデータセットから、原因文章の確率テーブルを作成する(ステップS3、ステップS4)。
FIG. 2 is a flowchart showing the operation of the preprocessing unit. First, the
次に、図1において、主観検出部20は、要望判定部5および不満判定部7を備えている。主観検出部20は、テキスト群4(テキスト文章)を入力する。なお、文章は、適宜、段落、句読点区切りなどの文節文にしてもよい。なお、入力文章は、SNSやブログなど、インターネット上の投稿文や一連のメール文章といったコミュニケーション文を使うことが可能である。次の表は、[文節文の入力テキスト例]を示す。
Next, in FIG. 1, the subjective detection unit 20 includes a
要望判定部5は、テキスト検索手法やベクトル空間モデルにより文書分類を行ない、要望Dを検出し、ラベル付けする。次の表は、付与されたラベルの例を示す。
The
例えば、以下の関連技術1および2を用いて、学習データに含まれる要望データから要望特徴空間および、教師ベクトルを作成する。前記要望特徴空間に基づいて、入力テキスト文章の特徴ベクトルを作成し、教師ベクトルとの類似度に基づき、要望ラベルを付与することができる。また、関連技術3を利用し、学習データに含まれる要望データから要望識別器を作成・利用することも可能である。
For example, using the following
[関連技術1]Bag-of-words model:http://en.wikipedia.org/wiki/Bag-of-words_model
[関連技術2]Mecab:http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
[関連技術3]SVMLIGHT:http://svmlight.joachims.org/
不満判定部7は、情緒的表現を解析することにより不満Fを検出し、ラベル付けする。情緒的表現の解析には、上記の各関連技術や他の従来技術で示されているように、整備された辞書やポジネガ判定などを用いることで実現する。次の表は、付与されたラベルの例を示す。
[Related Technology 1] Bag-of-words model: http://en.wikipedia.org/wiki/Bag-of-words_model
[Related Technology 2] Mecab: http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
[Related Technology 3] SVMLIGHT: http://svmlight.joachims.org/
The dissatisfaction determination unit 7 detects dissatisfaction F by analyzing the emotional expression and labels it. The analysis of the emotional expression is realized by using a prepared dictionary, positive / negative determination, etc., as shown in the above related technologies and other conventional technologies. The following table shows examples of labels given.
図1において、原因検出部30は、共起語抽出部9、原因語候補抽出部11および原因判定部13を備えている。共起語抽出部9は、要望判定部5によって「要望D」とラベル付けされた文章(要望文章)と、不満判定部7によって「不満F」とラベル付けされた文章(不満文章)とを、対応づけて、共起する単語の組み合わせを抽出する。この対応づけの方法として、例えば、検出された不満文章を起点に、直近の要望文章を組み合わせることが可能である。例えば、上記の表[ラベル付与例2]では、t5のF「熱い」とtnのD「風がほしい」とが対応づけられ、これら2つと共起する「室温・湿度・エアコン・我慢」などの単語が抽出される。
In FIG. 1, the cause detection unit 30 includes a co-occurrence word extraction unit 9, a cause word
図3は、共起語抽出部9の動作を示すフローチャートである。まず、ラベル付けされた文章群を取得し(ステップS101)、要望ラベルまたは不満ラベルの有無を判定する(ステップS102)。ステップS102において、要望ラベルまたは不満ラベルの一方のみが存在した場合は、ステップS104に遷移し、要望ラベルまたは不満ラベルの両方が存在した場合は、要望・不満の対応付けを行なう(ステップS103)。次に、共起語抽出処理を行ない(ステップS104)、共起語を取得する(ステップS105)。 FIG. 3 is a flowchart showing the operation of the co-occurrence word extraction unit 9. First, a labeled sentence group is acquired (step S101), and the presence or absence of a desired label or a dissatisfied label is determined (step S102). In step S102, when only one of the desired label or the dissatisfied label exists, the process proceeds to step S104. When both the desired label or the dissatisfied label exists, association between the desired / unsatisfied is performed (step S103). Next, a co-occurrence word extraction process is performed (step S104), and a co-occurrence word is acquired (step S105).
原因語候補抽出部11は、共起語抽出部9で抽出された共起語に基づいて、テーブル作成部3で作成された確率テーブルを参照し、該当する原因候補をすべて抽出する。例えば、上記のような共起語「室温・湿度・エアコン・我慢」がある場合、上記の表[確率テーブル例1]では、3行目の「エアコンがついていない」と、4行目の「エアコンが壊れている」などが抽出される。確率テーブルの参照先は、入力したテキスト群4に対する主観検出部20の出力結果に応じて、適宜変化させることができる。
The causal word
例えば、主観検出部20にて要望・不満がとれた場合は、上記の表[確率テーブル例1]のような3つの要素を含むテーブルDFCを優先して参照し、他の[確率テーブル例2]と[確率テーブル例3]を第二・第三候補として参照することができる。このとき、第二候補はテーブルDCでもテーブルFCでも構わない。不満だけの場合は、[確率テーブル例3]のような不満と原因の2要素を含むテーブルFCを優先して参照し、要望を無視する形で[確率テーブル例1]のような3つの要素を含むテーブルを第二候補として参照することも可能である。次の表は、参照先の優先順位例を示す。 For example, if the subjective detection unit 20 makes a request or dissatisfaction, the table DFC including three elements such as the above table [probability table example 1] is referred to with priority, and the other [probability table example 2]. ] And [Probability Table Example 3] can be referred to as the second and third candidates. At this time, the second candidate may be the table DC or the table FC. In the case of dissatisfaction only, a table FC including two elements of dissatisfaction and cause such as [Probability table example 3] is referred to preferentially, and three elements such as [Probability table example 1] are ignored in a way that the request is ignored. It is also possible to refer to a table including as a second candidate. The following table shows an example of priorities of reference destinations.
DF:主観検出部により検出されたFの数
図4は、原因語候補抽出部11の動作を示すフローチャートである。まず、ラベル付けされた文章群および共起語を入力する(ステップS201)。次に、要望ラベルおよび不満ラベルの有無を判断する(ステップS202)。ステップS202において、要望ラベルおよび不満ラベルの両方があった場合は、テーブルDFCを参照し(ステップS203)、第二候補の有無を判断する(ステップS204)。ステップS204において、第二候補が無い場合は、ステップS208に遷移する一方、第二候補がある場合は、テーブルDCを参照し(ステップS205)、第三候補の有無を判断する(ステップS206)。ステップS206において、第三候補が無い場合は、ステップS208に遷移する一方、第三候補がある場合は、テーブルFCを参照し(ステップS207)、原因語候補を抽出する(ステップS208)。
FIG. 4 is a flowchart showing the operation of the causal word
次に、ステップS202において、不満ラベルのみがあった場合は、テーブルFCを参照し(ステップS209)、第二候補の有無を判断する(ステップS210)。第二候補が無い場合は、ステップS208に遷移する一方、第二候補がある場合は、テーブルDFCを参照して(ステップS211)、ステップS208に遷移する。 Next, in step S202, when there is only a dissatisfied label, the table FC is referred to (step S209), and the presence / absence of the second candidate is determined (step S210). If there is no second candidate, the process proceeds to step S208. If there is a second candidate, the table DFC is referenced (step S211), and the process proceeds to step S208.
次に、ステップS202において、要望ラベルのみがあった場合は、テーブルDCを参照し(ステップS212)、第二候補の有無を判断する(ステップS213)。第二候補が無い場合は、ステップS208に遷移する一方、第二候補がある場合は、テーブルDFCを参照して(ステップS214)、ステップS208に遷移する。 Next, in step S202, when there is only a desired label, the table DC is referred to (step S212), and the presence / absence of the second candidate is determined (step S213). If there is no second candidate, the process proceeds to step S208. If there is a second candidate, the table DFC is referenced (step S214), and the process proceeds to step S208.
原因判定部13は、原因語候補抽出部11で抽出された原因語候補より、原因15を決定する。原因の決定方法は、原因語候補のテーブルを参照し、確率値を用いて決定する。例えば、上位複数表示することや、事前に設定した閾値より高いものを表示することが可能である。例えば、次の表[原因語候補のテーブル例]のような場合、確率値を用いて、C1、C2、C3が優先して選ばれる。
The
原因語候補のテーブルにおいて、同一確率のものが存在する場合、原因判定における優先順位は、入力した文章のうち、要望判定部5で検出された要望Dおよび不満判定部7で検出された不満Fに対し、最も文節間隔が小さくなるような原因Cを優先する、などの処理を適用することができる。例えば、上記の表[原因語候補のテーブル例]において、C1、C2、C3は同確率であるが、次の表[文節間隔を判定するためのテーブル例]より、C1はt3、C2はt7、C3はt50に位置するが、対象となるt100のDとt5のFに対して、文節間隔が小さいC1とC2が優先して選ばれる。
In the cause word candidate table, when there are those with the same probability, the priority in the cause determination is that the demand D detected by the
図5は、原因検出部30の動作を示すフローチャートである。ここでは、複数の原因を特定する場合について説明する。まず、対象の確率テーブルを取得し(ステップS301)、次に、確率テーブルにおける確率値が閾値以上であるかどうかを判断する(ステップS302)。確率値が閾値以上でない場合は、終了する一方、確率値が閾値以上である場合は、その確率値を有する原因を特定し(ステップS303)、終了する。 FIG. 5 is a flowchart showing the operation of the cause detection unit 30. Here, a case where a plurality of causes are specified will be described. First, a target probability table is acquired (step S301), and then it is determined whether the probability value in the probability table is equal to or greater than a threshold value (step S302). If the probability value is not equal to or greater than the threshold value, the process ends. If the probability value is equal to or greater than the threshold value, the cause having the probability value is specified (step S303), and the process ends.
図6は、原因検出部の動作を示すフローチャートである。ここでは、同一確率が存在する場合、原因を一つに絞る例を示す。まず、対象の確率テーブルを取得し(ステップS401)、次に、確率テーブルにおける確率値が閾値以上であるかどうかを判断する(ステップS402)。確率値が閾値以上でない場合は、終了する一方、確率値が閾値以上である場合は、同一確率が存在するかどうかを判断する(ステップS403)。ステップS403において、同一確率が存在しない場合は、確率値を比較して(ステップS405)、大きい方を抽出することによって、その原因を特定し(ステップS406)、終了する。ステップS403において、同一確率が存在する場合は、文章間隔を比較し(ステップS404)、文章間隔が最小である原因を特定して(ステップS406)、終了する。 FIG. 6 is a flowchart showing the operation of the cause detection unit. Here, an example is shown in which the cause is narrowed down to one when the same probability exists. First, a target probability table is acquired (step S401), and then it is determined whether the probability value in the probability table is equal to or greater than a threshold value (step S402). If the probability value is not greater than or equal to the threshold value, the process ends. If the probability value is greater than or equal to the threshold value, it is determined whether or not the same probability exists (step S403). In step S403, if the same probability does not exist, the probability values are compared (step S405), the larger one is extracted, the cause is identified (step S406), and the process ends. In step S403, if the same probability exists, the sentence intervals are compared (step S404), the cause of the minimum sentence interval is specified (step S406), and the process ends.
なお、同一間隔のものが存在する場合は、DおよびFより前のCを優先することもできる。これは、文章が一般的に原因、結果の順に書かれる構造が多いことに起因する。例えは、上記の[文節間隔を判定するためのテーブル例]において、C1とC2の位置関係を見て、C1が優先して選択される。また、原因語候補として抽出された原因語を含む文章に、原因ラベルを付与することもできる。 In addition, when the thing of the same space | interval exists, priority before C of D and F can also be given priority. This is due to the fact that sentences are generally written in the order of causes and results. For example, in the above [Example of Table for Determining Phrase Interval], C1 is selected with priority given to the positional relationship between C1 and C2. In addition, a cause label can be given to a sentence including a cause word extracted as a cause word candidate.
以上説明したように、本実施形態によれば、要望または不満を示す語群の発現原因を、自動的に推定することが可能となる。また、文章を対象とするため、商品やシステムに限定されず、人間関係や人のライフイベントに関する肯定的または否定的な主観を示す語群の発現原因を推定することが可能となる。 As described above, according to the present embodiment, it is possible to automatically estimate the cause of expression of a word group indicating a request or dissatisfaction. In addition, since text is a target, it is not limited to products and systems, and it is possible to estimate the cause of expression of a word group indicating positive or negative subjectivity regarding human relationships or human life events.
1 学習データベース
3 テーブル作成部
4 テキスト群
5 要望判定部
7 不満判定部
9 共起語抽出部
10 事前処理部
11 原因語候補抽出部
13 原因判定部
15 原因
20 主観検出部
30 原因検出部
DESCRIPTION OF
Claims (5)
入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与する主観検出部と、
前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とする原因検出部と、を備えることを特徴とする原因推定装置。 A cause estimation device for estimating the cause of at least one of a word group indicating a positive subjectivity or a word group indicating a negative subjectivity in a sentence,
A document classification process is performed on the input text data, and a positive label indicating that the classified word group is a positive subjective word group or a negative subjective word group. A subjective detection unit that gives a negative label indicating
Extracting co-occurrence words co-occurring with the group of words given the positive label or the group of negative labels from the sentence, the group of words showing positive or negative subjectivity, the word showing the subjectivity Extracting a word group indicating an expression cause including the extracted co-occurrence word from a probability table composed of a word group indicating the expression cause of the group and a numerical value indicating an expression probability of the word group indicating the expression cause; A cause detection unit comprising: a cause detection unit that selects a word group indicating the cause of occurrence as the cause word group in descending order of expression probability.
入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与する処理と、
前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出する処理と、
肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出する処理と、
前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とする処理と、の一連の処理を、コンピュータに実行させることを特徴とするプログラム。 A program that estimates the cause of at least one of a word group showing positive subjectivity or a word group showing negative subjectivity in a sentence,
A document classification process is performed on the input text data, and a positive label indicating that the classified word group is a positive subjective word group or a negative subjective word group. A process of assigning a negative label indicating
A process of extracting a co-occurrence word that co-occurs with the group of words given the positive label or the group of words given the negative label from the sentence;
Extracted from a probability table composed of a word group indicating a positive or negative subjectivity, a word group indicating the cause of expression of the word group indicating the subjectivity, and a numerical value indicating the expression probability of the word group indicating the expression cause Processing to extract a word group indicating the cause of expression including co-occurrence words;
A program that causes a computer to execute a series of processes of selecting a word group indicating the extracted expression cause in descending order of expression probability and making it a cause word group.
主観検出部において、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与するステップと、
原因検出部において、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とするステップと、を少なくとも含むことを特徴とする原因推定方法。 A cause estimation method for estimating a cause of occurrence of at least one of a word group indicating a positive subjectivity or a word group indicating a negative subjectivity in a sentence,
In the subjectivity detection unit, document classification processing is performed on the input text data, and a positive label indicating a positive subjectivity or a negative subjectivity is indicated for each classified word group. Assigning a negative label indicating that the word group,
In the cause detection unit, extract a co-occurrence word co-occurring with the word group given the positive label or the word group given the negative label from the sentence, a word group showing positive or negative subjectivity, A word group indicating an expression cause including the extracted co-occurrence word from a probability table composed of a word group indicating an expression cause of the word group indicating the subjectivity and a numerical value indicating an expression probability of the word group indicating the expression cause Extracting the word group indicating the extracted cause of occurrence and selecting the word group in descending order of the probability of occurrence as the cause word group.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014132758A JP6253530B2 (en) | 2014-06-27 | 2014-06-27 | Cause estimation device, program, and cause estimation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014132758A JP6253530B2 (en) | 2014-06-27 | 2014-06-27 | Cause estimation device, program, and cause estimation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016012195A true JP2016012195A (en) | 2016-01-21 |
JP6253530B2 JP6253530B2 (en) | 2017-12-27 |
Family
ID=55228887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014132758A Active JP6253530B2 (en) | 2014-06-27 | 2014-06-27 | Cause estimation device, program, and cause estimation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6253530B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003157271A (en) * | 2001-11-20 | 2003-05-30 | Mitsubishi Electric Corp | Device and method for mining text |
JP2011170786A (en) * | 2010-02-22 | 2011-09-01 | Nomura Research Institute Ltd | Document classification system, document classification program, and document classification method |
US8554701B1 (en) * | 2011-03-18 | 2013-10-08 | Amazon Technologies, Inc. | Determining sentiment of sentences from customer reviews |
WO2014017023A1 (en) * | 2012-07-26 | 2014-01-30 | 日本電気株式会社 | Cause expression extraction device, cause expression extraction method, and cause expression extraction program |
-
2014
- 2014-06-27 JP JP2014132758A patent/JP6253530B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003157271A (en) * | 2001-11-20 | 2003-05-30 | Mitsubishi Electric Corp | Device and method for mining text |
JP2011170786A (en) * | 2010-02-22 | 2011-09-01 | Nomura Research Institute Ltd | Document classification system, document classification program, and document classification method |
US8554701B1 (en) * | 2011-03-18 | 2013-10-08 | Amazon Technologies, Inc. | Determining sentiment of sentences from customer reviews |
WO2014017023A1 (en) * | 2012-07-26 | 2014-01-30 | 日本電気株式会社 | Cause expression extraction device, cause expression extraction method, and cause expression extraction program |
Non-Patent Citations (1)
Title |
---|
坂井 俊之、外1名: "ブログに記述された不満表現からの潜在ニーズの発見", 情報処理学会論文誌 論文誌ジャーナル, vol. 第52巻,第12号, JPN6017044429, 26 December 2011 (2011-12-26), JP, pages 3806 - 3816, ISSN: 0003685291 * |
Also Published As
Publication number | Publication date |
---|---|
JP6253530B2 (en) | 2017-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9720901B2 (en) | Automated text-evaluation of user generated text | |
Prieto et al. | Twitter: a good place to detect health conditions | |
Troussas et al. | Sentiment analysis of Facebook statuses using Naive Bayes classifier for language learning | |
De Albornoz et al. | A joint model of feature mining and sentiment analysis for product review rating | |
Vu et al. | An experiment in integrating sentiment features for tech stock prediction in twitter | |
Nair et al. | SentiMa-sentiment extraction for Malayalam | |
US20150356571A1 (en) | Trending Topics Tracking | |
US20180307677A1 (en) | Sentiment Analysis of Product Reviews From Social Media | |
JP6392042B2 (en) | Information providing apparatus, information providing method and program | |
US20160300023A1 (en) | Provider rating system | |
WO2011111038A2 (en) | Method and system of providing completion suggestion to a partial linguistic element | |
JP2014203442A (en) | Recommendation information generation device and recommendation information generation method | |
Lai et al. | itacos at ibereval2017: Detecting stance in catalan and spanish tweets | |
Mehmood et al. | An enhanced lexicon-based approach for sentiment analysis: a case study on illegal immigration | |
Gaikar et al. | Depression detection and prevention system by analysing tweets | |
Bachtiar et al. | Text Mining for Aspect Based Sentiment Analysis on Customer Review: A Case Study in the Hotel Industry. | |
Wijesekara et al. | Source credibility analysis on Twitter users | |
Rajmohan et al. | Cov2ex: a covid-19 website with region-wise sentiment classification using the top trending social media keywords | |
Park et al. | Information fusion of stock prices and sentiment in social media using Granger causality | |
Tarasova | Classification of hate tweets and their reasons using svm | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
Hsieh et al. | SVR-based outlier detection and its application to hotel ranking | |
Simeon et al. | Evaluating the Effectiveness of Hashtags as Predictors of the Sentiment of Tweets | |
Kincl et al. | Getting inside the minds of the customers: automated sentiment analysis | |
JP6253530B2 (en) | Cause estimation device, program, and cause estimation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170127 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6253530 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |