JP2016012195A - Factor estimation device, program, and factor estimation method - Google Patents

Factor estimation device, program, and factor estimation method Download PDF

Info

Publication number
JP2016012195A
JP2016012195A JP2014132758A JP2014132758A JP2016012195A JP 2016012195 A JP2016012195 A JP 2016012195A JP 2014132758 A JP2014132758 A JP 2014132758A JP 2014132758 A JP2014132758 A JP 2014132758A JP 2016012195 A JP2016012195 A JP 2016012195A
Authority
JP
Japan
Prior art keywords
word group
cause
indicating
word
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014132758A
Other languages
Japanese (ja)
Other versions
JP6253530B2 (en
Inventor
恭子 小松
Kyoko Komatsu
恭子 小松
広海 石先
Hiromi Ishisaki
広海 石先
服部 元
Hajime Hattori
元 服部
滝嶋 康弘
Yasuhiro Takishima
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2014132758A priority Critical patent/JP6253530B2/en
Publication of JP2016012195A publication Critical patent/JP2016012195A/en
Application granted granted Critical
Publication of JP6253530B2 publication Critical patent/JP6253530B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To enable automatic estimation of candidates of factors relating to a request or a dissatisfaction, and also estimate a factor relating to a human relationship or a personal life event.SOLUTION: The factor estimation device is provided with: a subjective view detection unit 20 that performs document classification processing on inputted text data and gives, to classified each word group, a positive label indicating that the word group indicates a positive subjective view, or a negative label indicating that the word group indicates a negative subjective view; and a factor detection unit 30 that extracts, from a sentence, co-occurrence words that co-occur with the word group to which the positive label has been given or the word group to which the negative label has been given, and from a probability table constituted of the word groups that indicate the positive or negative subjective view, the word groups that indicate expression factors of the word groups indicating the subjective view, and numerical values that indicate expression probabilities of the word groups indicating the expression factors, extracts the word groups that include the extracted co-occurrence words, the word groups indicating the expression factors, the extracted word group that indicates the expression factors being selected in an order from the word group with higher expression probability and set as factor word groups.

Description

本発明は、文章内に、肯定的な主観を示す語群または否定的な主観を示す語群の少なくとも一方が発現した原因を推定する技術に関する。   The present invention relates to a technique for estimating a cause in which at least one of a word group showing a positive subjectivity or a word group showing a negative subjectivity appears in a sentence.

従来から、商品の購入者や使用者が、インターネットを用いて、商品に関する意見や感想を発信することが可能となっている。特許文献1では、製品評価が示された文書群からシステム動作に関する言葉を辞書により抽出し、その後、評価極性分類(ポジネガ)により、「ネガ」に判別されたものを不満文として抽出する技術が開示されている。また、非特許文献1では、Web(World Wide Web)上のレビュー記事から、商品の好評意見と不満意見を取り出し、主成分分析によって、それぞれ一つの評価軸にまとめた空間に商品を配置することによって、消費者の購入判断を支援するシステムが開示されている。   2. Description of the Related Art Conventionally, purchasers and users of products can transmit opinions and impressions about products using the Internet. In Japanese Patent Laid-Open No. 2004-228867, there is a technique in which words relating to system operation are extracted from a document group showing product evaluation using a dictionary, and then those that are determined as “negative” are extracted as dissatisfied sentences by evaluation polarity classification (positive negative). It is disclosed. In Non-Patent Document 1, a product's popular opinion and dissatisfaction opinion is taken out from a review article on the Web (World Wide Web), and the product is arranged in a space summarized on one evaluation axis by principal component analysis. Discloses a system for supporting a consumer's purchase decision.

特開2013−168043号公報JP 2013-168043 A

DEIM Forum 2012 A9-2 ユーザの重視する不満意見と好評意見を考慮した商品推薦システムDEIM Forum 2012 A9-2 Product Recommendation System Considering Dissatisfaction Opinions and Popular Opinions that Users Focus on

しかしながら、特許文献1記載の技術では、要望や不満を抽出する対象が、システムや商品など、物の動作や不具合についての事柄に限定されており、対象範囲が狭い。さらに、要望や不満が発現する原因については言及していない。また、非特許文献1記載の技術は、商品レビュー記事を対象とし、複数の好評や不満をまとめることによって、ユーザが商品購買時の判断をし易くするためのものであるが、好評や不満が発現する原因については言及していない。また、特許文献1および非特許文献1の両方とも、対象が商品や製品などマーケティングに関わる事項に限定されているため、人間関係や人のライフイベントに関する要望や不満は対象とされておらず、人の感情に伴う原因については推定することができない。   However, in the technique described in Patent Document 1, the target for extracting requests and dissatisfaction is limited to matters related to the operation and malfunction of objects such as systems and products, and the target range is narrow. Furthermore, it does not mention the cause of demands and dissatisfaction. The technique described in Non-Patent Document 1 is intended for product review articles, and is intended to make it easier for a user to make a judgment when purchasing a product by collecting a plurality of popular reviews and dissatisfactions. There is no mention of the cause of its manifestation. Moreover, since both the patent document 1 and the non-patent document 1 are limited to matters relating to marketing such as products and products, requests and dissatisfactions regarding human relations and human life events are not targeted, The cause of human emotion cannot be estimated.

本発明は、このような事情に鑑みてなされたものであり、要望・不満に対応する原因の候補を自動で推定することができ、また、人間関係や、人のライフイベントに関する原因を推定することができる原因推定装置、プログラムおよび原因推定方法を提供することを目的とする。   The present invention has been made in view of such circumstances, and can automatically estimate a cause candidate corresponding to a request or dissatisfaction, and estimate a cause related to a human relationship or a human life event. It is an object to provide a cause estimation device, a program, and a cause estimation method.

(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明の原因推定装置は、文章内に、肯定的な主観を示す語群または否定的な主観を示す語群の少なくとも一方が発現した原因を推定する原因推定装置であって、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与する主観検出部と、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とする原因検出部と、を備えることを特徴とする。   (1) In order to achieve the above object, the present invention takes the following measures. That is, the cause estimation apparatus of the present invention is a cause estimation apparatus that estimates a cause in which at least one of a word group indicating a positive subjectivity or a word group indicating a negative subjectivity appears in a sentence, and is input. The document classification processing is performed on the text data, and the positive label indicating the positive subjectivity for each classified word group or the word group indicating the negative subjectivity is indicated. A subjective detection unit for assigning a negative label, and extracting a co-occurrence word co-occurring with the word group with the positive label or the word group with the negative label from the sentence, An expression cause including the extracted co-occurrence word from a probability table composed of a word group indicating an expression, a word group indicating an expression cause of the word group indicating the subjectivity, and a numerical value indicating an expression probability of the word group indicating the expression Extract words that indicate The term group indicates expression causes the extracted, causing detector caused word group and elected expression probability descending order, characterized in that it comprises a.

このように、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与し、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とするので、肯定的または否定的な主観を示す語群の発現原因を、自動的に推定することが可能となる。また、文章を対象とするため、商品やシステムに限定されず、人間関係や人のライフイベントに関する肯定的または否定的な主観を示す語群の発現原因を推定することが可能となる。   In this way, a document classification process is performed on the input text data, and a positive label indicating a positive subjectivity or a negative subjectivity word for each classified word group. A negative label indicating that it is a group, and a co-occurrence word that co-occurs with the word group to which the positive label is given or the word group to which the negative label is given is extracted from the sentence, positive or negative Including the extracted co-occurrence words from a probability table composed of a word group indicating the subjectivity, a word group indicating the cause of the expression of the word group indicating the subjectivity, and a numerical value indicating the expression probability of the word group indicating the cause of the expression The word group indicating the cause of expression is extracted, and the word group indicating the extracted expression cause is selected in descending order of the probability of expression as the cause word group, so the expression cause of the word group indicating positive or negative subjectivity Can be estimated automatically It made. In addition, since text is a target, it is not limited to products and systems, and it is possible to estimate the cause of expression of a word group indicating positive or negative subjectivity regarding human relationships or human life events.

(2)また、本発明の原因推定装置は、予め収集され、文書分類処理によって分類され、肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルが付与された語群を学習データベースに格納し、前記学習データベースに格納された語群に基づいて、前記確率テーブルを作成する事前処理部を更に備えることを特徴とする。   (2) Moreover, the cause estimation apparatus of the present invention is a word group indicating a positive label or a negative subjectivity indicating that it is a word group collected in advance and classified by a document classification process and indicating a positive subjectivity. It further includes a preprocessing unit that stores a word group to which a negative label indicating that is stored in a learning database and creates the probability table based on the word group stored in the learning database.

このように、予め収集され、文書分類処理によって分類され、肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルが付与された語群を学習データベースに格納し、前記学習データベースに格納された語群に基づいて、前記確率テーブルを作成するので、肯定的または否定的な主観を示す語群の発現原因を、自動的に推定することが可能となる。   In this way, collected in advance and classified by the document classification process, a positive label indicating that it is a word group indicating positive subjectivity or a negative label indicating that it is a word group indicating negative subjectivity is given. The word group is stored in the learning database, and the probability table is created based on the word group stored in the learning database, so that the cause of the expression of the word group showing positive or negative subjectivity is automatically estimated. It becomes possible to do.

(3)また、本発明の原因推定装置において、前記原因検出部は、前記選出した複数の原因語群の発現確率が同一である場合は、前記各原因語群のうち、肯定ラベルが付与された語群または否定ラベルが付与された語群から文節間隔が最も小さい原因語群を選出することを特徴とする。   (3) Moreover, in the cause estimation apparatus of the present invention, the cause detection unit is given an affirmative label among the respective cause word groups when the plurality of selected cause word groups have the same occurrence probability. The causal word group having the smallest phrase interval is selected from the word group to which the negative label is assigned.

このように、前記選出した複数の原因語群の発現確率が同一である場合は、前記各原因語群のうち、肯定ラベルが付与された語群または否定ラベルが付与された語群から文節間隔が最も小さい原因語群を選出するので、発現確率が同一であったとしても、優先順位を付与することが可能となる。   Thus, when the expression probability of the selected plurality of causal word groups is the same, among the respective causal word groups, the phrase interval from the word group given a positive label or the word group given a negative label Since the causal word group having the smallest is selected, even if the expression probability is the same, the priority order can be given.

(4)また、本発明のプログラムは、文章内に、肯定的な主観を示す語群または否定的な主観を示す語群の少なくとも一方が発現した原因を推定するプログラムであって、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与する処理と、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出する処理と、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出する処理と、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とする処理と、の一連の処理を、コンピュータに実行させることを特徴とする。   (4) The program of the present invention is a program for estimating the cause of the occurrence of at least one of a word group showing positive subjectivity or a word group showing negative subjectivity in a sentence, and is input Document classification processing is performed on the text data, and a negative label indicating that it is a word group indicating a positive subjectivity or a word group indicating a negative subjectivity for each classified word group A process of assigning a label, a process of extracting a co-occurrence word co-occurring with a word group to which the positive label is given or a word group to which the negative label is given from the sentence, and a positive or negative subjectivity. An expression cause including the extracted co-occurrence word from a probability table composed of a word group indicating the expression cause of the word group indicating the subjectivity and a numerical value indicating the expression probability of the word group indicating the expression cause Extract word groups A processing that, the word group showing expression causes the extracted, the processing caused word group and elected expression probability descending order, a series of processing, and characterized by causing a computer to execute.

このように、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与し、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とするので、肯定的または否定的な主観を示す語群の発現原因を、自動的に推定することが可能となる。また、文章を対象とするため、商品やシステムに限定されず、人間関係や人のライフイベントに関する肯定的または否定的な主観を示す語群の発現原因を推定することが可能となる。   In this way, a document classification process is performed on the input text data, and a positive label indicating a positive subjectivity or a negative subjectivity word for each classified word group. A negative label indicating that it is a group, and a co-occurrence word that co-occurs with the word group to which the positive label is given or the word group to which the negative label is given is extracted from the sentence, positive or negative Including the extracted co-occurrence words from a probability table composed of a word group indicating the subjectivity, a word group indicating the cause of the expression of the word group indicating the subjectivity, and a numerical value indicating the expression probability of the word group indicating the cause of the expression The word group indicating the cause of expression is extracted, and the word group indicating the extracted expression cause is selected in descending order of the probability of expression as the cause word group, so the expression cause of the word group indicating positive or negative subjectivity Can be estimated automatically It made. In addition, since text is a target, it is not limited to products and systems, and it is possible to estimate the cause of expression of a word group indicating positive or negative subjectivity regarding human relationships or human life events.

(5)また、本発明の原因推定方法は、文章内に、肯定的な主観を示す語群または否定的な主観を示す語群の少なくとも一方が発現した原因を推定する原因推定方法であって、主観検出部において、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与するステップと、原因検出部において、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とするステップと、を少なくとも含むことを特徴とする。   (5) Moreover, the cause estimation method of the present invention is a cause estimation method for estimating a cause in which at least one of a word group indicating a positive subjectivity or a word group indicating a negative subjectivity appears in a sentence. The subjectivity detection unit performs document classification processing on the input text data, and displays an affirmative label or negative subjectivity indicating that it is a word group indicating a positive subjectivity for each classified word group. A co-occurrence word that co-occurs with the step of assigning a negative label indicating that it is a word group to be indicated, and the word group to which the positive label is assigned from the sentence or the word group to which the negative label is assigned in the cause detection unit From a probability table composed of a word group indicating positive or negative subjectivity, a word group indicating the cause of expression of the word group indicating the subjectivity, and a numerical value indicating the probability of expression of the word group indicating the cause of expression The extraction Extracting a word group indicating the cause of expression including the co-occurrence word and selecting the word group indicating the extracted expression cause in descending order of the probability of expression to be a cause word group, To do.

このように、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与し、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とするので、肯定的または否定的な主観を示す語群の発現原因を、自動的に推定することが可能となる。また、文章を対象とするため、商品やシステムに限定されず、人間関係や人のライフイベントに関する肯定的または否定的な主観を示す語群の発現原因を推定することが可能となる。   In this way, a document classification process is performed on the input text data, and a positive label indicating a positive subjectivity or a negative subjectivity word for each classified word group. A negative label indicating that it is a group, and a co-occurrence word that co-occurs with the word group to which the positive label is given or the word group to which the negative label is given is extracted from the sentence, positive or negative Including the extracted co-occurrence words from a probability table composed of a word group indicating the subjectivity, a word group indicating the cause of the expression of the word group indicating the subjectivity, and a numerical value indicating the expression probability of the word group indicating the cause of the expression The word group indicating the cause of expression is extracted, and the word group indicating the extracted expression cause is selected in descending order of the probability of expression as the cause word group, so the expression cause of the word group indicating positive or negative subjectivity Can be estimated automatically It made. In addition, since text is a target, it is not limited to products and systems, and it is possible to estimate the cause of expression of a word group indicating positive or negative subjectivity regarding human relationships or human life events.

本発明によれば、肯定的または否定的な主観を示す語群の発現原因を、自動的に推定することが可能となる。また、文章を対象とするため、商品やシステムに限定されず、人間関係や人のライフイベントに関する肯定的または否定的な主観を示す語群の発現原因を推定することが可能となる。   According to the present invention, it is possible to automatically estimate the cause of expression of a word group showing a positive or negative subjectivity. In addition, since text is a target, it is not limited to products and systems, and it is possible to estimate the cause of expression of a word group indicating positive or negative subjectivity regarding human relationships or human life events.

本実施形態に係る原因推定装置の概略構成を示すブロック図である。It is a block diagram which shows schematic structure of the cause estimation apparatus which concerns on this embodiment. 事前処理部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of a pre-processing part. 共起語抽出部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of a co-occurrence word extraction part. 原因語候補抽出部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of a cause word candidate extraction part. 原因検出部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of a cause detection part. 原因検出部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of a cause detection part.

本発明者らは、既存の技術では、要望や不満などが発現した原因を推定することができていなかったことに着目し、要望または不満等の主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルを用いることによって、自動的に要望または不満等の主観が発現した原因を推定することができることを見出し、本発明をするに至った。   The inventors of the present invention pay attention to the fact that the cause of the request or dissatisfaction could not be estimated in the existing technology, and the word group indicating the subjectivity such as the request or dissatisfaction, the word group indicating the subjectivity It is possible to automatically estimate the cause of the manifestation of subjectivity such as desire or dissatisfaction by using a probability table composed of a word group indicating the cause of the occurrence of the disease and a numerical value indicating the expression probability of the word group indicating the cause of the expression. The inventors have found that this is possible and have come to the present invention.

すなわち、本発明の原因推定装置は、文章内に、肯定的な主観を示す語群または否定的な主観を示す語群の少なくとも一方が発現した原因を推定する原因推定装置であって、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与する主観検出部と、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とする原因検出部と、を備えることを特徴とする。   That is, the cause estimation apparatus of the present invention is a cause estimation apparatus that estimates a cause in which at least one of a word group indicating a positive subjectivity or a word group indicating a negative subjectivity appears in a sentence, and is input. The document classification processing is performed on the text data, and the positive label indicating the positive subjectivity for each classified word group or the word group indicating the negative subjectivity is indicated. A subjective detection unit for assigning a negative label, and extracting a co-occurrence word co-occurring with the word group with the positive label or the word group with the negative label from the sentence, An expression cause including the extracted co-occurrence word from a probability table composed of a word group indicating an expression, a word group indicating an expression cause of the word group indicating the subjectivity, and a numerical value indicating an expression probability of the word group indicating the expression Extract words that indicate The term group indicates expression causes the extracted, causing detector caused word group and elected expression probability descending order, characterized in that it comprises a.

この構成により、本発明者らは、肯定的または否定的な主観を示す語群の発現原因を、自動的に推定することを可能とした。また、文章を対象とするため、商品やシステムに限定されず、人間関係や人のライフイベントに関する肯定的または否定的な主観を示す語群の発現原因を推定することを可能とした。以下、本発明の実施形態について、図面を参照しながら具体的に説明する。   With this configuration, the present inventors have been able to automatically estimate the cause of expression of a word group showing a positive or negative subjectivity. In addition, since the subject is a sentence, the present invention is not limited to products and systems, and it is possible to estimate the cause of expression of a word group indicating positive or negative subjectivity regarding human relations or human life events. Embodiments of the present invention will be specifically described below with reference to the drawings.

図1は、本実施形態に係る原因推定装置の概略構成を示すブロック図である。この原因推定装置は、事前処理部10、主観検出部20および原因検出部30から構成されている。事前処理部10は、学習データベース1およびテーブル作成部3を備えている。学習データベース1は、事前に収集され、肯定的な主観を示す語群である要望D、否定的な主観を示す語群である不満F、およびそれらの少なくとも一方が発現した原因Cがラベルとして付与された文章を格納する。学習データは、例えば、商品等に対するレビュー文や、SNS(Social Networking Service)の投稿とそのコメントなど、様々なテキストデータを使用することができる。テーブル作成部3は、学習データの要望D・不満F・原因Cラベルが付与されたデータセットから、原因文章の確率テーブルを作成する。データセットは、例えば、以下の表[学習データ例]に示される内容を有する。   FIG. 1 is a block diagram illustrating a schematic configuration of the cause estimation apparatus according to the present embodiment. The cause estimation apparatus includes a preprocessing unit 10, a subjective detection unit 20, and a cause detection unit 30. The pre-processing unit 10 includes a learning database 1 and a table creation unit 3. The learning database 1 is given in advance as a label, which is collected in advance and includes a request D that is a group of words indicating positive subjectivity, a dissatisfaction F that is a group of words indicating negative subjectivity, and a cause C in which at least one of them is expressed. Stored text. As the learning data, for example, various text data such as a review sentence for a product or the like, a SNS (Social Networking Service) post and its comment can be used. The table creation unit 3 creates a cause sentence probability table from a data set to which the learning data request D, dissatisfaction F, and cause C labels are assigned. The data set has, for example, the contents shown in the following table [learning data example].

Figure 2016012195
Figure 2016012195

テーブル作成部3が作成する確率テーブルは、次の表[確率テーブル例1]のように、要望Dと不満Fと原因Cとその起こりうる確率が複数セット記憶されているものを指す。 Probability table table creating unit 3 creates, as the following table [probability table Example 1], refers to something probability that demand D N dissatisfaction F M and cause C L and may occur that is a plurality of sets stored .

Figure 2016012195
Figure 2016012195

データ内の要素(要望・不満・原因)は3つである必要はなく、次の表[確率テーブル例2]または[確率テーブル例3]のような要望と原因のセットデータ、不満と原因のセットデータも含めることができる。   There is no need to have three elements (desired / dissatisfied / cause) in the data, but the set data of the desired and the cause, dissatisfied / caused Set data can also be included.

Figure 2016012195
Figure 2016012195

Figure 2016012195
Figure 2016012195

要望・不満・原因には、単語・文節・文章を入れることができる。例えば、要望と不満は単語ごとに作成し、原因は文章で作成するなど、単語と文節、文章の組み合わせを自由に設定することができる。   Requests, complaints, and causes can include words, phrases, and sentences. For example, requests and dissatisfactions can be created for each word, and the cause can be created by sentences. The combination of words, phrases, and sentences can be freely set.

確率テーブルにおける確率値は、上記の[確率テーブル例1]に示したように、要望Dに「風が欲しい」、不満Fに「暑い」という内容文100件に対して、原因としてC1「窓が閉まっている」が35件、C2「部屋に窓がない」が5件、C3「エアコンがOFFになっている」が50件、C4「エアコンが故障している」が10件だった場合、それぞれの確率はP1=0.35、P2=0.05、P3=0.50、P4=0.10と計算される。   As shown in [Probability Table Example 1] above, the probability values in the probability table are C1 “window” as the cause for 100 content sentences “desiring wind” in request D and “hot” in dissatisfaction F. 35 cases of “closed”, 5 cases of C2 “no window in room”, 50 cases of C3 “air conditioner turned off”, 10 cases of C4 “air conditioner failed” The respective probabilities are calculated as P1 = 0.35, P2 = 0.05, P3 = 0.50, and P4 = 0.10.

図2は、事前処理部の動作を示すフローチャートである。まず、学習データベース1を参照し(ステップS1)、確率値を計算する(ステップS2)。そして、学習データの要望D・不満F・原因Cラベルが付与されたデータセットから、原因文章の確率テーブルを作成する(ステップS3、ステップS4)。   FIG. 2 is a flowchart showing the operation of the preprocessing unit. First, the learning database 1 is referred to (step S1), and a probability value is calculated (step S2). And the probability table of a cause sentence is created from the data set to which the desire D of learning data, dissatisfaction F, and the cause C label were provided (step S3, step S4).

次に、図1において、主観検出部20は、要望判定部5および不満判定部7を備えている。主観検出部20は、テキスト群4(テキスト文章)を入力する。なお、文章は、適宜、段落、句読点区切りなどの文節文にしてもよい。なお、入力文章は、SNSやブログなど、インターネット上の投稿文や一連のメール文章といったコミュニケーション文を使うことが可能である。次の表は、[文節文の入力テキスト例]を示す。   Next, in FIG. 1, the subjective detection unit 20 includes a demand determination unit 5 and a dissatisfaction determination unit 7. The subjectivity detection unit 20 inputs the text group 4 (text sentence). Note that the sentence may be a sentence such as a paragraph or a punctuation break as appropriate. The input text can be a communication text such as a posted text on the Internet or a series of mail text such as SNS or blog. The following table shows [Input text example of clause sentence].

Figure 2016012195
Figure 2016012195

要望判定部5は、テキスト検索手法やベクトル空間モデルにより文書分類を行ない、要望Dを検出し、ラベル付けする。次の表は、付与されたラベルの例を示す。   The request determination unit 5 classifies the document by a text search method or a vector space model, detects the request D, and labels it. The following table shows examples of labels given.

Figure 2016012195
Figure 2016012195

例えば、以下の関連技術1および2を用いて、学習データに含まれる要望データから要望特徴空間および、教師ベクトルを作成する。前記要望特徴空間に基づいて、入力テキスト文章の特徴ベクトルを作成し、教師ベクトルとの類似度に基づき、要望ラベルを付与することができる。また、関連技術3を利用し、学習データに含まれる要望データから要望識別器を作成・利用することも可能である。   For example, using the following related techniques 1 and 2, a desired feature space and a teacher vector are created from desired data included in the learning data. A feature vector of an input text sentence can be created based on the desired feature space, and a desired label can be assigned based on the similarity to the teacher vector. It is also possible to create and use a request classifier from the request data included in the learning data using the related technique 3.

[関連技術1]Bag-of-words model:http://en.wikipedia.org/wiki/Bag-of-words_model
[関連技術2]Mecab:http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
[関連技術3]SVMLIGHT:http://svmlight.joachims.org/
不満判定部7は、情緒的表現を解析することにより不満Fを検出し、ラベル付けする。情緒的表現の解析には、上記の各関連技術や他の従来技術で示されているように、整備された辞書やポジネガ判定などを用いることで実現する。次の表は、付与されたラベルの例を示す。
[Related Technology 1] Bag-of-words model: http://en.wikipedia.org/wiki/Bag-of-words_model
[Related Technology 2] Mecab: http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
[Related Technology 3] SVMLIGHT: http://svmlight.joachims.org/
The dissatisfaction determination unit 7 detects dissatisfaction F by analyzing the emotional expression and labels it. The analysis of the emotional expression is realized by using a prepared dictionary, positive / negative determination, etc., as shown in the above related technologies and other conventional technologies. The following table shows examples of labels given.

Figure 2016012195
Figure 2016012195

図1において、原因検出部30は、共起語抽出部9、原因語候補抽出部11および原因判定部13を備えている。共起語抽出部9は、要望判定部5によって「要望D」とラベル付けされた文章(要望文章)と、不満判定部7によって「不満F」とラベル付けされた文章(不満文章)とを、対応づけて、共起する単語の組み合わせを抽出する。この対応づけの方法として、例えば、検出された不満文章を起点に、直近の要望文章を組み合わせることが可能である。例えば、上記の表[ラベル付与例2]では、t5のF「熱い」とtnのD「風がほしい」とが対応づけられ、これら2つと共起する「室温・湿度・エアコン・我慢」などの単語が抽出される。   In FIG. 1, the cause detection unit 30 includes a co-occurrence word extraction unit 9, a cause word candidate extraction unit 11, and a cause determination unit 13. The co-occurrence word extraction unit 9 reads a sentence (request sentence) labeled as “request D” by the request determination unit 5 and a sentence (dissatisfaction sentence) labeled “dissatisfaction F” by the dissatisfaction determination unit 7. , And extract a combination of co-occurring words. As a method of associating, for example, it is possible to combine the most recent requested text starting from the detected dissatisfied text. For example, in the above table [labeling example 2], t5 F “hot” and tn D “want a wind” are associated with each other, “room temperature, humidity, air conditioner, patience” etc. co-occurring with these two Are extracted.

図3は、共起語抽出部9の動作を示すフローチャートである。まず、ラベル付けされた文章群を取得し(ステップS101)、要望ラベルまたは不満ラベルの有無を判定する(ステップS102)。ステップS102において、要望ラベルまたは不満ラベルの一方のみが存在した場合は、ステップS104に遷移し、要望ラベルまたは不満ラベルの両方が存在した場合は、要望・不満の対応付けを行なう(ステップS103)。次に、共起語抽出処理を行ない(ステップS104)、共起語を取得する(ステップS105)。   FIG. 3 is a flowchart showing the operation of the co-occurrence word extraction unit 9. First, a labeled sentence group is acquired (step S101), and the presence or absence of a desired label or a dissatisfied label is determined (step S102). In step S102, when only one of the desired label or the dissatisfied label exists, the process proceeds to step S104. When both the desired label or the dissatisfied label exists, association between the desired / unsatisfied is performed (step S103). Next, a co-occurrence word extraction process is performed (step S104), and a co-occurrence word is acquired (step S105).

原因語候補抽出部11は、共起語抽出部9で抽出された共起語に基づいて、テーブル作成部3で作成された確率テーブルを参照し、該当する原因候補をすべて抽出する。例えば、上記のような共起語「室温・湿度・エアコン・我慢」がある場合、上記の表[確率テーブル例1]では、3行目の「エアコンがついていない」と、4行目の「エアコンが壊れている」などが抽出される。確率テーブルの参照先は、入力したテキスト群4に対する主観検出部20の出力結果に応じて、適宜変化させることができる。   The causal word candidate extraction unit 11 refers to the probability table created by the table creation unit 3 based on the co-occurrence words extracted by the co-occurrence word extraction unit 9, and extracts all corresponding cause candidates. For example, if there is a co-occurrence word such as “room temperature, humidity, air conditioner, patience” as described above, in the above table [probability table example 1], “no air conditioner” on the third line and “ The air conditioner is broken. " The reference destination of the probability table can be appropriately changed according to the output result of the subjective detection unit 20 for the input text group 4.

例えば、主観検出部20にて要望・不満がとれた場合は、上記の表[確率テーブル例1]のような3つの要素を含むテーブルDFCを優先して参照し、他の[確率テーブル例2]と[確率テーブル例3]を第二・第三候補として参照することができる。このとき、第二候補はテーブルDCでもテーブルFCでも構わない。不満だけの場合は、[確率テーブル例3]のような不満と原因の2要素を含むテーブルFCを優先して参照し、要望を無視する形で[確率テーブル例1]のような3つの要素を含むテーブルを第二候補として参照することも可能である。次の表は、参照先の優先順位例を示す。   For example, if the subjective detection unit 20 makes a request or dissatisfaction, the table DFC including three elements such as the above table [probability table example 1] is referred to with priority, and the other [probability table example 2]. ] And [Probability Table Example 3] can be referred to as the second and third candidates. At this time, the second candidate may be the table DC or the table FC. In the case of dissatisfaction only, a table FC including two elements of dissatisfaction and cause such as [Probability table example 3] is referred to preferentially, and three elements such as [Probability table example 1] are ignored in a way that the request is ignored. It is also possible to refer to a table including as a second candidate. The following table shows an example of priorities of reference destinations.

Figure 2016012195
:主観検出部により検出されたDの数
:主観検出部により検出されたFの数
Figure 2016012195
N D : Number of D detected by the subjective detection unit D F : Number of F detected by the subjective detection unit

図4は、原因語候補抽出部11の動作を示すフローチャートである。まず、ラベル付けされた文章群および共起語を入力する(ステップS201)。次に、要望ラベルおよび不満ラベルの有無を判断する(ステップS202)。ステップS202において、要望ラベルおよび不満ラベルの両方があった場合は、テーブルDFCを参照し(ステップS203)、第二候補の有無を判断する(ステップS204)。ステップS204において、第二候補が無い場合は、ステップS208に遷移する一方、第二候補がある場合は、テーブルDCを参照し(ステップS205)、第三候補の有無を判断する(ステップS206)。ステップS206において、第三候補が無い場合は、ステップS208に遷移する一方、第三候補がある場合は、テーブルFCを参照し(ステップS207)、原因語候補を抽出する(ステップS208)。   FIG. 4 is a flowchart showing the operation of the causal word candidate extraction unit 11. First, a labeled sentence group and co-occurrence words are input (step S201). Next, it is determined whether or not there are desired labels and dissatisfied labels (step S202). In step S202, if both the desired label and the dissatisfied label exist, the table DFC is referred to (step S203), and the presence / absence of the second candidate is determined (step S204). In step S204, if there is no second candidate, the process proceeds to step S208. On the other hand, if there is a second candidate, the table DC is referred to (step S205), and the presence / absence of the third candidate is determined (step S206). In step S206, when there is no third candidate, the process proceeds to step S208. On the other hand, when there is a third candidate, the table FC is referred to (step S207), and a cause word candidate is extracted (step S208).

次に、ステップS202において、不満ラベルのみがあった場合は、テーブルFCを参照し(ステップS209)、第二候補の有無を判断する(ステップS210)。第二候補が無い場合は、ステップS208に遷移する一方、第二候補がある場合は、テーブルDFCを参照して(ステップS211)、ステップS208に遷移する。   Next, in step S202, when there is only a dissatisfied label, the table FC is referred to (step S209), and the presence / absence of the second candidate is determined (step S210). If there is no second candidate, the process proceeds to step S208. If there is a second candidate, the table DFC is referenced (step S211), and the process proceeds to step S208.

次に、ステップS202において、要望ラベルのみがあった場合は、テーブルDCを参照し(ステップS212)、第二候補の有無を判断する(ステップS213)。第二候補が無い場合は、ステップS208に遷移する一方、第二候補がある場合は、テーブルDFCを参照して(ステップS214)、ステップS208に遷移する。   Next, in step S202, when there is only a desired label, the table DC is referred to (step S212), and the presence / absence of the second candidate is determined (step S213). If there is no second candidate, the process proceeds to step S208. If there is a second candidate, the table DFC is referenced (step S214), and the process proceeds to step S208.

原因判定部13は、原因語候補抽出部11で抽出された原因語候補より、原因15を決定する。原因の決定方法は、原因語候補のテーブルを参照し、確率値を用いて決定する。例えば、上位複数表示することや、事前に設定した閾値より高いものを表示することが可能である。例えば、次の表[原因語候補のテーブル例]のような場合、確率値を用いて、C1、C2、C3が優先して選ばれる。   The cause determination unit 13 determines the cause 15 from the cause word candidates extracted by the cause word candidate extraction unit 11. The cause determination method refers to a cause word candidate table and determines the cause using a probability value. For example, it is possible to display a plurality of upper ranks or to display a higher one than a preset threshold value. For example, in the case of the following table [table example of cause word candidates], C1, C2, and C3 are preferentially selected using probability values.

Figure 2016012195
Figure 2016012195

原因語候補のテーブルにおいて、同一確率のものが存在する場合、原因判定における優先順位は、入力した文章のうち、要望判定部5で検出された要望Dおよび不満判定部7で検出された不満Fに対し、最も文節間隔が小さくなるような原因Cを優先する、などの処理を適用することができる。例えば、上記の表[原因語候補のテーブル例]において、C1、C2、C3は同確率であるが、次の表[文節間隔を判定するためのテーブル例]より、C1はt3、C2はt7、C3はt50に位置するが、対象となるt100のDとt5のFに対して、文節間隔が小さいC1とC2が優先して選ばれる。   In the cause word candidate table, when there are those with the same probability, the priority in the cause determination is that the demand D detected by the request determination unit 5 and the dissatisfion F detected by the dissatisfaction determination unit 7 among the input sentences. On the other hand, processing such as giving priority to the cause C that minimizes the phrase interval can be applied. For example, in the above table [cause word candidate table example], C1, C2, and C3 have the same probability, but from the next table [table example for determining the phrase interval], C1 is t3 and C2 is t7. , C3 is located at t50, but C1 and C2 having a small phrase interval are preferentially selected with respect to D of target t100 and F of t5.

Figure 2016012195
Figure 2016012195

図5は、原因検出部30の動作を示すフローチャートである。ここでは、複数の原因を特定する場合について説明する。まず、対象の確率テーブルを取得し(ステップS301)、次に、確率テーブルにおける確率値が閾値以上であるかどうかを判断する(ステップS302)。確率値が閾値以上でない場合は、終了する一方、確率値が閾値以上である場合は、その確率値を有する原因を特定し(ステップS303)、終了する。   FIG. 5 is a flowchart showing the operation of the cause detection unit 30. Here, a case where a plurality of causes are specified will be described. First, a target probability table is acquired (step S301), and then it is determined whether the probability value in the probability table is equal to or greater than a threshold value (step S302). If the probability value is not equal to or greater than the threshold value, the process ends. If the probability value is equal to or greater than the threshold value, the cause having the probability value is specified (step S303), and the process ends.

図6は、原因検出部の動作を示すフローチャートである。ここでは、同一確率が存在する場合、原因を一つに絞る例を示す。まず、対象の確率テーブルを取得し(ステップS401)、次に、確率テーブルにおける確率値が閾値以上であるかどうかを判断する(ステップS402)。確率値が閾値以上でない場合は、終了する一方、確率値が閾値以上である場合は、同一確率が存在するかどうかを判断する(ステップS403)。ステップS403において、同一確率が存在しない場合は、確率値を比較して(ステップS405)、大きい方を抽出することによって、その原因を特定し(ステップS406)、終了する。ステップS403において、同一確率が存在する場合は、文章間隔を比較し(ステップS404)、文章間隔が最小である原因を特定して(ステップS406)、終了する。   FIG. 6 is a flowchart showing the operation of the cause detection unit. Here, an example is shown in which the cause is narrowed down to one when the same probability exists. First, a target probability table is acquired (step S401), and then it is determined whether the probability value in the probability table is equal to or greater than a threshold value (step S402). If the probability value is not greater than or equal to the threshold value, the process ends. If the probability value is greater than or equal to the threshold value, it is determined whether or not the same probability exists (step S403). In step S403, if the same probability does not exist, the probability values are compared (step S405), the larger one is extracted, the cause is identified (step S406), and the process ends. In step S403, if the same probability exists, the sentence intervals are compared (step S404), the cause of the minimum sentence interval is specified (step S406), and the process ends.

なお、同一間隔のものが存在する場合は、DおよびFより前のCを優先することもできる。これは、文章が一般的に原因、結果の順に書かれる構造が多いことに起因する。例えは、上記の[文節間隔を判定するためのテーブル例]において、C1とC2の位置関係を見て、C1が優先して選択される。また、原因語候補として抽出された原因語を含む文章に、原因ラベルを付与することもできる。   In addition, when the thing of the same space | interval exists, priority before C of D and F can also be given priority. This is due to the fact that sentences are generally written in the order of causes and results. For example, in the above [Example of Table for Determining Phrase Interval], C1 is selected with priority given to the positional relationship between C1 and C2. In addition, a cause label can be given to a sentence including a cause word extracted as a cause word candidate.

以上説明したように、本実施形態によれば、要望または不満を示す語群の発現原因を、自動的に推定することが可能となる。また、文章を対象とするため、商品やシステムに限定されず、人間関係や人のライフイベントに関する肯定的または否定的な主観を示す語群の発現原因を推定することが可能となる。   As described above, according to the present embodiment, it is possible to automatically estimate the cause of expression of a word group indicating a request or dissatisfaction. In addition, since text is a target, it is not limited to products and systems, and it is possible to estimate the cause of expression of a word group indicating positive or negative subjectivity regarding human relationships or human life events.

1 学習データベース
3 テーブル作成部
4 テキスト群
5 要望判定部
7 不満判定部
9 共起語抽出部
10 事前処理部
11 原因語候補抽出部
13 原因判定部
15 原因
20 主観検出部
30 原因検出部
DESCRIPTION OF SYMBOLS 1 Learning database 3 Table preparation part 4 Text group 5 Desire determination part 7 Dissatisfaction determination part 9 Co-occurrence word extraction part 10 Preprocessing part 11 Cause word candidate extraction part 13 Cause determination part 15 Cause 20 Subjective detection part 30 Cause detection part

Claims (5)

文章内に、肯定的な主観を示す語群または否定的な主観を示す語群の少なくとも一方が発現した原因を推定する原因推定装置であって、
入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与する主観検出部と、
前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とする原因検出部と、を備えることを特徴とする原因推定装置。
A cause estimation device for estimating the cause of at least one of a word group indicating a positive subjectivity or a word group indicating a negative subjectivity in a sentence,
A document classification process is performed on the input text data, and a positive label indicating that the classified word group is a positive subjective word group or a negative subjective word group. A subjective detection unit that gives a negative label indicating
Extracting co-occurrence words co-occurring with the group of words given the positive label or the group of negative labels from the sentence, the group of words showing positive or negative subjectivity, the word showing the subjectivity Extracting a word group indicating an expression cause including the extracted co-occurrence word from a probability table composed of a word group indicating the expression cause of the group and a numerical value indicating an expression probability of the word group indicating the expression cause; A cause detection unit comprising: a cause detection unit that selects a word group indicating the cause of occurrence as the cause word group in descending order of expression probability.
予め収集され、文書分類処理によって分類され、肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルが付与された語群を学習データベースに格納し、前記学習データベースに格納された語群に基づいて、前記確率テーブルを作成する事前処理部を更に備えることを特徴とする請求項1記載の原因推定装置。   Learn words that have been collected in advance and classified by the document classification process and given a positive label indicating that it is a word group indicating positive subjectivity or a negative label indicating that it is a word group indicating negative subjectivity. The cause estimation apparatus according to claim 1, further comprising a pre-processing unit that stores the probability table based on a word group stored in a database and stored in the learning database. 前記原因検出部は、前記選出した複数の原因語群の発現確率が同一である場合は、前記各原因語群のうち、肯定ラベルが付与された語群または否定ラベルが付与された語群から文節間隔が最も小さい原因語群を選出することを特徴とする請求項1または請求項2記載の原因推定装置。   When the cause detection unit has the same probability of expression of the selected plurality of causal word groups, among the causal word groups, from the word group to which a positive label is given or from the word group to which a negative label is given 3. The cause estimation apparatus according to claim 1, wherein a cause word group having the smallest phrase interval is selected. 文章内に、肯定的な主観を示す語群または否定的な主観を示す語群の少なくとも一方が発現した原因を推定するプログラムであって、
入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与する処理と、
前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出する処理と、
肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出する処理と、
前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とする処理と、の一連の処理を、コンピュータに実行させることを特徴とするプログラム。
A program that estimates the cause of at least one of a word group showing positive subjectivity or a word group showing negative subjectivity in a sentence,
A document classification process is performed on the input text data, and a positive label indicating that the classified word group is a positive subjective word group or a negative subjective word group. A process of assigning a negative label indicating
A process of extracting a co-occurrence word that co-occurs with the group of words given the positive label or the group of words given the negative label from the sentence;
Extracted from a probability table composed of a word group indicating a positive or negative subjectivity, a word group indicating the cause of expression of the word group indicating the subjectivity, and a numerical value indicating the expression probability of the word group indicating the expression cause Processing to extract a word group indicating the cause of expression including co-occurrence words;
A program that causes a computer to execute a series of processes of selecting a word group indicating the extracted expression cause in descending order of expression probability and making it a cause word group.
文章内に、肯定的な主観を示す語群または否定的な主観を示す語群の少なくとも一方が発現した原因を推定する原因推定方法であって、
主観検出部において、入力されたテキストデータに対して文書分類処理を行ない、分類された各語群に対して肯定的な主観を示す語群であることを示す肯定ラベルまたは否定的な主観を示す語群であることを示す否定ラベルを付与するステップと、
原因検出部において、前記文章から前記肯定ラベルが付与された語群または前記否定ラベルが付与された語群と共起する共起語を抽出し、肯定的または否定的な主観を示す語群、その主観を示す語群の発現原因を示す語群およびその発現原因を示す語群の発現確率を示す数値から構成される確率テーブルから、前記抽出した共起語を含む発現原因を示す語群を抽出し、前記抽出した発現原因を示す語群を、発現確率が高い順に選出して原因語群とするステップと、を少なくとも含むことを特徴とする原因推定方法。
A cause estimation method for estimating a cause of occurrence of at least one of a word group indicating a positive subjectivity or a word group indicating a negative subjectivity in a sentence,
In the subjectivity detection unit, document classification processing is performed on the input text data, and a positive label indicating a positive subjectivity or a negative subjectivity is indicated for each classified word group. Assigning a negative label indicating that the word group,
In the cause detection unit, extract a co-occurrence word co-occurring with the word group given the positive label or the word group given the negative label from the sentence, a word group showing positive or negative subjectivity, A word group indicating an expression cause including the extracted co-occurrence word from a probability table composed of a word group indicating an expression cause of the word group indicating the subjectivity and a numerical value indicating an expression probability of the word group indicating the expression cause Extracting the word group indicating the extracted cause of occurrence and selecting the word group in descending order of the probability of occurrence as the cause word group.
JP2014132758A 2014-06-27 2014-06-27 Cause estimation device, program, and cause estimation method Active JP6253530B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014132758A JP6253530B2 (en) 2014-06-27 2014-06-27 Cause estimation device, program, and cause estimation method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014132758A JP6253530B2 (en) 2014-06-27 2014-06-27 Cause estimation device, program, and cause estimation method

Publications (2)

Publication Number Publication Date
JP2016012195A true JP2016012195A (en) 2016-01-21
JP6253530B2 JP6253530B2 (en) 2017-12-27

Family

ID=55228887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014132758A Active JP6253530B2 (en) 2014-06-27 2014-06-27 Cause estimation device, program, and cause estimation method

Country Status (1)

Country Link
JP (1) JP6253530B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157271A (en) * 2001-11-20 2003-05-30 Mitsubishi Electric Corp Device and method for mining text
JP2011170786A (en) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd Document classification system, document classification program, and document classification method
US8554701B1 (en) * 2011-03-18 2013-10-08 Amazon Technologies, Inc. Determining sentiment of sentences from customer reviews
WO2014017023A1 (en) * 2012-07-26 2014-01-30 日本電気株式会社 Cause expression extraction device, cause expression extraction method, and cause expression extraction program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003157271A (en) * 2001-11-20 2003-05-30 Mitsubishi Electric Corp Device and method for mining text
JP2011170786A (en) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd Document classification system, document classification program, and document classification method
US8554701B1 (en) * 2011-03-18 2013-10-08 Amazon Technologies, Inc. Determining sentiment of sentences from customer reviews
WO2014017023A1 (en) * 2012-07-26 2014-01-30 日本電気株式会社 Cause expression extraction device, cause expression extraction method, and cause expression extraction program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
坂井 俊之、外1名: "ブログに記述された不満表現からの潜在ニーズの発見", 情報処理学会論文誌 論文誌ジャーナル, vol. 第52巻,第12号, JPN6017044429, 26 December 2011 (2011-12-26), JP, pages 3806 - 3816, ISSN: 0003685291 *

Also Published As

Publication number Publication date
JP6253530B2 (en) 2017-12-27

Similar Documents

Publication Publication Date Title
US9720901B2 (en) Automated text-evaluation of user generated text
Prieto et al. Twitter: a good place to detect health conditions
Troussas et al. Sentiment analysis of Facebook statuses using Naive Bayes classifier for language learning
De Albornoz et al. A joint model of feature mining and sentiment analysis for product review rating
Vu et al. An experiment in integrating sentiment features for tech stock prediction in twitter
Nair et al. SentiMa-sentiment extraction for Malayalam
US20150356571A1 (en) Trending Topics Tracking
US20180307677A1 (en) Sentiment Analysis of Product Reviews From Social Media
JP6392042B2 (en) Information providing apparatus, information providing method and program
US20160300023A1 (en) Provider rating system
WO2011111038A2 (en) Method and system of providing completion suggestion to a partial linguistic element
JP2014203442A (en) Recommendation information generation device and recommendation information generation method
Lai et al. itacos at ibereval2017: Detecting stance in catalan and spanish tweets
Mehmood et al. An enhanced lexicon-based approach for sentiment analysis: a case study on illegal immigration
Gaikar et al. Depression detection and prevention system by analysing tweets
Bachtiar et al. Text Mining for Aspect Based Sentiment Analysis on Customer Review: A Case Study in the Hotel Industry.
Wijesekara et al. Source credibility analysis on Twitter users
Rajmohan et al. Cov2ex: a covid-19 website with region-wise sentiment classification using the top trending social media keywords
Park et al. Information fusion of stock prices and sentiment in social media using Granger causality
Tarasova Classification of hate tweets and their reasons using svm
Hussain et al. A technique for perceiving abusive bangla comments
Hsieh et al. SVR-based outlier detection and its application to hotel ranking
Simeon et al. Evaluating the Effectiveness of Hashtags as Predictors of the Sentiment of Tweets
Kincl et al. Getting inside the minds of the customers: automated sentiment analysis
JP6253530B2 (en) Cause estimation device, program, and cause estimation method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171128

R150 Certificate of patent or registration of utility model

Ref document number: 6253530

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150