JP6192166B2 - Opinion type estimation device and program thereof - Google Patents
Opinion type estimation device and program thereof Download PDFInfo
- Publication number
- JP6192166B2 JP6192166B2 JP2013263994A JP2013263994A JP6192166B2 JP 6192166 B2 JP6192166 B2 JP 6192166B2 JP 2013263994 A JP2013263994 A JP 2013263994A JP 2013263994 A JP2013263994 A JP 2013263994A JP 6192166 B2 JP6192166 B2 JP 6192166B2
- Authority
- JP
- Japan
- Prior art keywords
- opinion
- distribution model
- opinion type
- type
- mixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009826 distribution Methods 0.000 claims description 127
- 238000000034 method Methods 0.000 claims description 29
- 238000005457 optimization Methods 0.000 claims description 29
- 239000000203 mixture Substances 0.000 claims description 16
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002945 steepest descent method Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本願発明は、意見の内容を表した発言データから意見種別に関する統計情報を推定する意見種別推定装置及びそのプログラムに関する。 The present invention relates to an opinion type estimation device for estimating statistical information related to an opinion type from comment data representing the content of the opinion, and a program thereof.
従来から、人間の手による書き込みを解析するために、自然言語処理が必要とされている。自然言語処理の前段では、意見種別を推定する技術が必要となる(特許文献1〜5及び非特許文献1,2)。この意見種別推定技術は、意見種別毎にラベルを付与するアルゴリズムであり、賛否を表す意見種別の場合、「賛成」または「反対」というラベルを意見に付与するものである。 Conventionally, natural language processing has been required to analyze writing by human hands. Prior to the natural language processing, a technique for estimating the opinion type is required (Patent Documents 1 to 5 and Non-Patent Documents 1 and 2). This opinion type estimation technique is an algorithm that assigns a label for each opinion type. In the case of an opinion type that indicates approval or disapproval, a label “agree” or “disagree” is assigned to an opinion.
しかし、従来の意見種別推定技術には、不適切なラベルを意見に付与するといった、ある程度の誤りが含まれてしまう。このため、従来の意見種別推定技術は、この技術を単独で用いた場合、賛否の数や割合といった意見種別に関する統計情報を求めるときに、その推定精度が向上しないという問題がある。 However, the conventional opinion type estimation technique includes a certain amount of error such as giving an inappropriate label to an opinion. For this reason, the conventional opinion type estimation technique has a problem that, when this technique is used alone, the estimation accuracy is not improved when obtaining statistical information related to the opinion type such as the number of pros and cons.
ここで、意見種別推定技術に誤りが含まれる原因を検討する。各個人の意見形成過程では、他人の意見を参考にしながら自分の意見(賛否)を決めることが多い。にもかかわらず、従来の意見種別推定技術では、実際の意見形成過程が反映されておらず、誤りの原因になると考えられる。 Here, the cause of the error included in the opinion type estimation technique is examined. In the process of forming each individual's opinion, it is often the case that one's opinion (pros and cons) is determined with reference to the opinions of others. Nevertheless, the conventional opinion type estimation technology does not reflect the actual opinion formation process, and is considered to cause errors.
そこで、本願発明は、前記した問題を解決し、意見種別に関する統計情報の推定精度を向上させる意見種別推定装置及びそのプログラムを提供することを課題とする。 Therefore, an object of the present invention is to provide an opinion type estimation device and a program for solving the above-described problems and improving the estimation accuracy of statistical information related to the opinion type.
前記した課題に鑑みて、本願発明に係る意見種別推定装置は、意見の内容を表した発言データに意見種別が予め設定され、発言データの意見種別に関する統計情報を推定する意見種別推定装置であって、混合分布モデル記憶手段と、パラメータ最適化手段と、意見種別推定手段と、を備えることを特徴とする。 In view of the above-described problems, the opinion type estimation device according to the present invention is an opinion type estimation device in which an opinion type is set in advance in comment data representing the content of an opinion, and statistical information regarding the opinion type of the comment data is estimated. And a mixed distribution model storage unit, a parameter optimization unit, and an opinion type estimation unit.
かかる構成によれば、意見種別推定装置は、混合分布モデル記憶手段によって、意見種別毎の混合比とピーク時刻と盛り上がりの急速さとをパラメータとした、発言時刻に依存した意見の形成過程を表す混合分布モデルを予め記憶すると共に、発言時刻が付加された前記発言データを前記意見種別毎に記憶する。また、意見種別推定装置は、パラメータ最適化手段によって、混合分布モデル記憶手段の混合分布モデルに発言データを適用し、数値最適化手法によってパラメータを推定する。 According to this configuration, the opinion type estimation device uses the mixture distribution model storage means to represent a process of forming an opinion depending on the utterance time, with the mixture ratio, peak time, and rapidity of each opinion type as parameters. The distribution model is stored in advance, and the speech data to which the speech time is added is stored for each opinion type. Further, the opinion type estimation device applies the utterance data to the mixed distribution model of the mixed distribution model storage unit by the parameter optimization unit, and estimates the parameter by the numerical optimization method.
そして、意見種別推定装置は、意見種別推定手段によって、意見の形成過程を表す混合分布モデルでパラメータが最適化されているので、この混合分布モデルを用いて、意見種別に関する統計情報を推定する。例えば、意見種別に関する統計情報は、全ての発言データに含まれる意見種別の発言の割合、又は、意見種別毎の発言数である。 The opinion type estimation device estimates the statistical information related to the opinion type using the mixed distribution model because the parameter is optimized by the mixed type distribution model representing the opinion formation process by the opinion type estimation unit. For example, the statistical information regarding the opinion type is the ratio of the comments of the opinion type included in all the comment data, or the number of comments for each opinion type.
発言データとは、政治、経済等の分野における特定の事案について、ネットワーク上で不特定多数者が発言した意見の内容を表したテキストデータのことである。
意見種別とは、発言データの意見内容を予め設定した種別に分類したものである。例えば、意見種別として、意見の賛否を表す「賛成」や「反対」といったラベルをあげることができる。
意見種別毎の混合比は、混合分布モデルにおける各意見種別の割合を表すことになる。例えば、意見種別毎の混合比は、「賛成」の割合と、「反対」の割合とを表す。
The speech data is text data representing the content of an opinion made by an unspecified majority person on a network regarding a specific case in a field such as politics and economy.
The opinion type is a classification of the opinion content of the utterance data into a preset type. For example, as the opinion type, labels such as “agree” and “disagree” indicating approval / disapproval of the opinion can be given.
The mixing ratio for each opinion type represents the ratio of each opinion type in the mixture distribution model. For example, the mixing ratio for each opinion type represents a ratio of “agree” and a ratio of “opposite”.
意見種別毎の分布モデルは、発言時刻に依存し、1以上のピークを有する分布モデルのことである(例えば、ガウシアン分布モデル)。つまり、意見種別毎の分布モデルは、発言時刻に依存することから、意見の形成過程が反映されていると言える。
混合分布モデルとは、意見種別毎の分布モデルを混合した確率モデルのことである。例えば、混合分布モデルとして、「賛成」の分布モデルと、「反対」の分布モデルとの2混合分布モデルをあげることができる。
The distribution model for each opinion type is a distribution model having one or more peaks depending on the utterance time (for example, Gaussian distribution model). In other words, since the distribution model for each opinion type depends on the utterance time, it can be said that the opinion formation process is reflected.
The mixed distribution model is a probability model obtained by mixing distribution models for each opinion type. For example, as the mixed distribution model, a two-mixed distribution model including a “promise” distribution model and an “opposite” distribution model can be cited.
盛り上がりとは、ネットワーク上で発言が増加する速さのことである。例えば、ネットワーク上で特定の事案に関する発言が急速に増えている場合、盛り上がっていると言う。また、例えば、ネットワーク上で特定の事案に関する発言が少ない状態が継続する場合、盛り上がっていないと言う。
ネットワーク上での発言の増加の原因は、拡散による発言者の増加や、同一人物による繰り返し発言の増加が考えられる。この2つの原因は混在しているが、同一人物の発言を1回しか参照しないことによって、同一人物による繰り返し発言の影響を除去することが可能である。この場合、発言の増加が拡散を表す。
The excitement is the speed with which the speech increases on the network. For example, if the number of statements about a particular case on the network is increasing rapidly, it is said to be exciting. Also, for example, if the state where there are few statements about a specific case continues on the network, it is said that it is not exciting.
The cause of the increase in the number of utterances on the network may be an increase in the number of speakers due to diffusion or an increase in the number of utterances repeatedly by the same person. Although these two causes are mixed, it is possible to eliminate the influence of repeated speech by the same person by referring to the speech of the same person only once. In this case, an increase in speech represents diffusion.
本願発明に係る意見種別推定装置は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、前記した各手段として協調動作させる意見種別推定プログラムで実現することもできる。このプログラムは、通信回線を介して配布してもよく、CD−ROMやフラッシュメモリ等の記録媒体に書き込んで配布してもよい。 The opinion type estimation apparatus according to the present invention can also be realized by an opinion type estimation program that causes hardware resources such as a CPU, a memory, and a hard disk included in a computer to operate in cooperation with each other as described above. This program may be distributed through a communication line, or may be distributed by writing in a recording medium such as a CD-ROM or a flash memory.
本願発明によれば、以下のような優れた効果を奏する。
本願発明によれば、意見の形成過程を表す混合分布モデルのパラメータを最適化して、意見種別に関する統計情報を推定するので、その推定精度を向上させることができる。これによって、本願発明によれば、ネットワーク上の意見に意見種別を自動的に付加できるので、手動で意見種別を付加する労力を削減することができる。
According to the present invention, the following excellent effects can be obtained.
According to the present invention, since the statistical information about the opinion type is estimated by optimizing the parameters of the mixed distribution model representing the opinion formation process, the estimation accuracy can be improved. Thus, according to the present invention, since the opinion type can be automatically added to the opinion on the network, the labor for manually adding the opinion type can be reduced.
図1を参照し、本願発明の実施形態について、適宜図面を参照しながら詳細に説明する。
図1のように、本願発明の実施形態に係る発言解析装置1は、ネットワーク上に存在する発言を解析するものであり、意見種別推定装置2と、発言解析手段30とを備える。
With reference to FIG. 1, an embodiment of the present invention will be described in detail with reference to the drawings as appropriate.
As shown in FIG. 1, a speech analysis apparatus 1 according to an embodiment of the present invention analyzes a speech that exists on a network, and includes an opinion type estimation device 2 and a speech analysis means 30.
[発言解析装置の構成]
発言解析装置1は、ネットワーク上に存在する発言データが入力される。この発言データは、例えば、ホームページ、ブログ又は掲示板に書き込まれた意見である。ここで、発言データは、発言時刻(意見が書き込まれた時刻)が付加され、発言時刻で集計(ソート)された時系列データであることとする。そして、発言解析装置1は、発言の解析(自然言語処理)の前段として、意見種別の割合を推定するため、発言データを意見種別推定装置2に出力する。
[Configuration of speech analysis device]
The speech analysis apparatus 1 receives speech data existing on the network. This comment data is, for example, an opinion written on a homepage, blog or bulletin board. Here, it is assumed that the utterance data is time-series data added with the utterance time (the time when the opinion is written) and totaled (sorted) by the utterance time. Then, the utterance analysis device 1 outputs the utterance data to the opinion type estimation device 2 in order to estimate the ratio of the opinion type as a previous stage of the speech analysis (natural language processing).
意見種別推定装置2は、意見種別に関する統計情報として、発言解析装置1より入力された発言データから意見種別の割合を推定するものである。このため、意見種別推定装置2は、解析対象選別手段21と、意見種別付加手段22と、混合分布モデル管理手段(混合分布モデル記憶手段)23と、パラメータ最適化手段24と、意見種別推定手段25とを備える。
The opinion type estimation device 2 estimates the ratio of the opinion type from the utterance data input from the utterance analysis device 1 as statistical information regarding the opinion type. Therefore, the opinion type estimation device 2 includes an analysis
解析対象選別手段21は、発言解析装置1から入力された全ての発言データのうち、解析対象とする発言データを選別するものである。例えば、解析対象選別手段21は、消費増税という政策の意見を解析したい場合、全ての発言データから、消費増税に関する発言データに絞り込む。より具体的には、解析対象選別手段21は、解析対象となる事案で特徴的なキーワード(例えば、‘消費増税’)を手動で設定し、このキーワードが含まれる発言データを選別する処理を行う。そして、解析対象選別手段21は、選別された発言データを、意見種別付加手段22に出力する。
なお、解析対象選別手段21は、キーワードが含まれる発言データを選別する処理に、設定されたキーワードの表記ゆれや類義語を同一語とみなす処理を組み合わせてもよい。
The analysis target selection means 21 selects the speech data to be analyzed from all the speech data input from the speech analysis device 1. For example, when the analysis target selection means 21 wants to analyze the opinion of the policy of consumption tax increase, it narrows down from all the comment data to the comment data related to the consumption tax increase. More specifically, the analysis
Note that the analysis
意見種別付加手段22は、解析対象選別手段21から入力された発言データに意見種別を付加するものである。本実施形態では、意見種別付加手段22は、「賛成」又は「反対」という賛否を意見種別として、発言データに付加することとする。このとき、意見種別付加手段22は、従来の意見種別推定技術を用いて、意見種別を発言データに付加する。より具体的には、意見種別付加手段22は、参考文献1の4.2節「意見を含む文の自動抽出」及び4.3「評価分析の要素技術」に記載の手法を用いて、意見種別を発言データに付加できる。
参考文献1:大塚裕子、幹孝司、奥村学、“意見分析エンジン”、コロナ社、2007年
The opinion
Reference 1: Yuko Otsuka, Takashi Miki, Manabu Okumura, “Opinion Analysis Engine”, Corona, 2007
ここで、発言データには、混合分布モデルに最適化手法を適用する際に意見種別が必要となるため、意見種別を発言データに付加する。当然、従来の意見種別推定技術を用いるため、発言データに付加された意見種別には、誤りが含まれている。 Here, since the opinion type is necessary for the comment data when the optimization method is applied to the mixed distribution model, the opinion type is added to the comment data. Naturally, since the conventional opinion type estimation technique is used, an error is included in the opinion type added to the utterance data.
また、発言データは、意見種別推定装置2に入力された時点で、発言時刻が付加されている。従って、図2のように、発言データは、発言時刻と、発言内容と、意見種別とが含まれている。図2には、経済政策に関する発言データを図示した。例えば、最初の意見は、2013年9月19日の10時34分に書き込まれ、「景気対策をやってほしい」という意見であり、経済政策に「賛成」であることを示す。また、2番目の意見は、2013年9月19日の10時35分に書き込まれ、「首相の経済対策をやめてほしい」という意見であり、経済政策に「反対」であることを示す。 In addition, the speech time is added to the speech data when it is input to the opinion type estimation device 2. Therefore, as shown in FIG. 2, the utterance data includes the utterance time, the utterance content, and the opinion type. FIG. 2 illustrates remark data regarding economic policies. For example, the first opinion is written at 10:34 on September 19, 2013, and is an opinion “I want you to take measures against the economy” and indicates that you agree with economic policy. The second opinion, written at 10:35 on September 19, 2013, is an opinion that “I want the Prime Minister to quit economic measures” and that it is “opposite” for economic policy.
その後、意見種別付加手段22は、意見種別が付加された発言データを、発言種別毎に混合分布モデル管理手段23に出力する。このとき、意見種別付加手段22は、混合分布モデル管理手段23を介して、パラメータ最適化手段24にパラメータの最適化を指令する(パラメータ最適化指令)。
Thereafter, the opinion
混合分布モデル管理手段23は、意見種別付加手段22から入力された発言データと、混合分布モデルとを記憶、管理するものである。
The mixed distribution
<混合分布モデル>
図3を参照し、混合分布モデルについて、説明する(適宜図1参照)
混合分布モデルとは、意見種別毎に設定された分布モデルを混合したものである。本実施形態では、混合分布モデルは、図3のように、「賛成」の分布モデル90と、「反対」の分布モデル91とを混合した2混合分布モデルである。
<Mixed distribution model>
The mixed distribution model will be described with reference to FIG. 3 (see FIG. 1 as appropriate).
The mixed distribution model is a mixture of distribution models set for each opinion type. In the present embodiment, the mixed distribution model is a two-mixed distribution model obtained by mixing the “agree”
本実施形態では、分布モデル90,91は、発言時刻に依存し、1以上のピークを有するガウシアン分布モデルである。ガウシアン分布モデルは、下記式(1)で表される。式(1)では、t0が意見種別毎に意見がピークとなる時刻(ピーク時刻)であり、α0が意見の盛り上がりの急速さを表す。
In the present embodiment, the
従って、各分布モデル90,91は、下記式(1)´で表すことができる。式(1)´では、nが意見種別の数を表す(但し、nは自然数)。また、式(1)´では、意見種別nのピーク時刻tnと、意見種別nの盛り上がりの急速さαnとを表す。本実施形態では、n=1,2となり、n=1のとき「賛成」の分布モデル90を表し、n=2のとき「反対」の分布モデル91を表す。
Accordingly, each of the
発言解析装置1が「賛成」と「反対」とが混在している発言データの解析を目的とすることから、「賛成」と「反対」の分布モデル90,91の2混合を行う(分布モデルの混合は混合分布モデルと呼ばれる)。この2混合分布モデルは、下記式(2)で表すことができる。この式(2)には、「賛成」のピーク時刻t1、及び、「反対」のピーク時刻t2が含まれることから、発言時刻に依存し、意見の形成過程が反映されていると言える。
Since the speech analysis apparatus 1 is intended to analyze speech data in which “agree” and “opposite” are mixed, the “agree” and “opposite”
この式(2)では、「賛成」の盛り上がりの急速さα1を表し、「反対」の盛り上がりの急速さα2を表す。また、式(2)では、「賛成」と「反対」との混合比βを表す(但し、0<β<1)。つまり、式(2)では、「賛成」の割合βを表し、「反対」の割合(1−β)を表す。また、式(2)の引数に含まれるセミコロン「;」は、その後に含まれる変数が式(1)´のパラメータ(引数)であることを表す。 In this equation (2), the rapidity α 1 of “promotion” is expressed, and the rapidity α 2 of “opposite” is expressed. Further, in the formula (2), the mixing ratio β between “agree” and “opposite” is expressed (where 0 <β <1). In other words, the expression (2) represents the “β” proportion “β” and the “opposite” proportion (1-β). A semicolon “;” included in the argument of the expression (2) indicates that a variable included thereafter is a parameter (argument) of the expression (1) ′.
ここで、式(2)の第1項における収束条件を検討する。式(2)のパラメータt1,α1を式(1)´に代入してα1を前に出すと、下記の式(1)´´となる。この場合、式(1)´´の積分が1となる収束条件が必要となる(つまり、式(1)´´の累積が1となる)。この収束条件については、パラメータα2も同様である。 Here, the convergence condition in the first term of Equation (2) is examined. Substituting the parameters t 1 and α 1 of equation (2) into equation (1) ′ and moving α 1 forward, the following equation (1) ″ is obtained. In this case, a convergence condition is required in which the integral of the expression (1) ″ is 1 (that is, the accumulation of the expression (1) ″ is 1). This convergence condition is also true parameter alpha 2.
図1に戻り、意見種別推定装置2について、説明を続ける。
パラメータ最適化手段24は、混合分布モデル管理手段23に記憶された混合分布モデルに発言データを適用し、数値最適化手法を用いて、最適なパラメータを推定するものである。ここで、パラメータ最適化手段24は、意見種別付加手段22からパラメータ最適化指令が入力されたら、パラメータの最適化を開始する。また、パラメータ最適化手段24は、数値最適化手法として、最急降下法、BFGS(準ニュートン法)等の最尤推定法、又は、ベイズ推定法を利用することができる。
Returning to FIG. 1, the explanation of the opinion type estimation device 2 will be continued.
The
例えば、最急降下法を用いる場合、混合分布モデル管理手段23には、パラメータt1,t2,α1,α2,βの初期値を予め設定しておく。そして、パラメータ最適化手段24は、最適な混合分布モデルが得られるまで(つまり、パラメータが収束するまで)、混合分布モデル管理手段23のパラメータt1,t2,α1,α2,βを繰り返し更新する。そして、パラメータ最適化手段24は、パラメータt1,t2,α1,α2,βの更新を終了したら、混合分布モデル管理手段23を介して、意見種別推定手段25に意見種別の割合の推定を指令する(意見種別推定指令)。
For example, when the steepest descent method is used, initial values of parameters t 1 , t 2 , α 1 , α 2 , and β are set in advance in the mixed distribution
意見種別推定手段25は、パラメータ最適化手段24でパラメータが推定された混合分布モデルを用いて、意見種別の割合を推定するものである。例えば、意見種別推定手段25は、パラメータ最適化手段24から意見種別推定指令が入力されたら、意見種別の割合を推定する。
The opinion type estimation means 25 estimates the ratio of opinion types using the mixed distribution model in which the parameters are estimated by the parameter optimization means 24. For example, when the opinion type estimation command is input from the
ここで、意見種別推定手段25は、パラメータt1,t2,α1,α2,βが推定された式(2)を用いることで、発言時刻及びその近傍で、意見種別の割合を推定することが可能となる。つまり、意見種別推定手段25は、式(2)から、発言データ全体に含まれる「賛成」の割合βと、「反対」の割合(1−β)とを推定することができる。
Here, the opinion type estimation means 25 estimates the ratio of the opinion type at the utterance time and its vicinity by using the expression (2) in which the parameters t 1 , t 2 , α 1 , α 2 , and β are estimated. It becomes possible to do. That is, the opinion
また、意見種別推定手段25は、下記式(3)のように、ある時刻τにおける「賛成」の割合と、「反対」の割合とを推定することができる。 Moreover, the opinion type estimation means 25 can estimate the ratio of “agree” and the ratio of “opposite” at a certain time τ as shown in the following equation (3).
さらに、意見種別推定手段25は、前記式(3)を一般化した式(4)を用いて、時刻区間(τ1,τ2)における「賛成」の割合と、「反対」の割合とを推定することができる。ここで、時刻区間(τ1,τ2)は、時刻τ1から時刻τ2まで間を表す。 Furthermore, the opinion type estimation means 25 uses the equation (4) generalized from the equation (3) to calculate the proportion of “agree” and the proportion of “opposite” in the time interval (τ 1 , τ 2 ). Can be estimated. Here, the time interval (τ 1 , τ 2 ) represents the interval from time τ 1 to time τ 2 .
その後、意見種別推定手段25は、「賛成」の割合、及び、「反対」の割合を推定結果として、発言解析手段30に出力する。このとき、意見種別推定手段25は、推定結果と共に、混合分布モデル管理手段23から発言データを読み出して、発言解析手段30に出力する。
Thereafter, the opinion type estimation means 25 outputs the ratio of “agree” and the ratio of “opposite” to the speech analysis means 30 as estimation results. At this time, the opinion
なお、意見種別推定手段25は、前記式(2)から式(4)の何れを用いて意見種別の割合を算出するか、予め設定される。例えば、発言解析装置1の利用者が、前記式(2)から式(4)の何れを用いるか設定してもよい。 It should be noted that the opinion type estimation means 25 is set in advance as to which of the formulas (2) to (4) is used to calculate the opinion type ratio. For example, the user of the speech analysis apparatus 1 may set which of the above formulas (2) to (4) is used.
以下、発言解析装置1の発言解析手段30について、説明する。
発言解析手段30は、意見種別推定手段25から入力された推定結果を用いて、発言データを解析するものである。ここで、発言解析手段30は、従来の自然言語処理を用いて、「賛成」及び「反対」が付加された発言データを解析することができる。そして、発言解析手段30は、発言データの解析結果を外部に出力する。
Hereinafter, the speech analysis means 30 of the speech analysis device 1 will be described.
The
[発言解析装置の動作]
図4を参照し、発言解析装置1の動作について、説明する(適宜図1参照)。
解析対象選別手段21は、全ての発言データのうち、解析対象とする発言データを選別する(ステップS1)。
[Operation of speech analysis device]
With reference to FIG. 4, operation | movement of the speech analysis apparatus 1 is demonstrated (refer FIG. 1 suitably).
The analysis object selection means 21 selects the message data to be analyzed from all the message data (step S1).
意見種別付加手段22は、ステップS1で選別された発言データに意見種別を付加する(ステップS2)。
パラメータ最適化手段24は、ステップS2で意見種別が付加された発言データを混合分布モデルに適用し、数値最適化手法を用いて、最適なパラメータを推定する(ステップS3)。
The opinion
The
意見種別推定手段25は、ステップS3で最適なパラメータが推定された混合分布モデルを用いて、意見種別の割合を推定する(ステップS4)。
発言解析手段30は、ステップS4の推定結果を用いて、発言データを解析する(ステップS5)。
The opinion type estimation means 25 estimates the ratio of opinion types using the mixed distribution model in which the optimum parameters are estimated in step S3 (step S4).
The speech analysis means 30 analyzes the speech data using the estimation result of step S4 (step S5).
本願発明の実施形態に係る意見種別推定装置2は、意見の形成過程を表す混合分布モデルのパラメータを最適化して、意見種別の割合を推定するので、推定結果の推定精度を向上させることができる。これによって、意見種別推定装置2は、ネットワーク上の意見に意見種別を自動的に付加できるので、手動で意見種別を付加する労力を削減することができる。さらに、発言解析装置1は、高い精度の推定結果を用いるので、発言データの良好な解析結果を得ることができる。 Since the opinion type estimation device 2 according to the embodiment of the present invention optimizes the parameters of the mixed distribution model representing the opinion formation process and estimates the ratio of opinion types, the estimation result estimation accuracy can be improved. . As a result, the opinion type estimation device 2 can automatically add an opinion type to an opinion on the network, thereby reducing the labor of manually adding an opinion type. Furthermore, since the speech analysis apparatus 1 uses a highly accurate estimation result, a favorable analysis result of speech data can be obtained.
(変形例)
本願発明に係る意見種別推定装置は、前記した実施形態に限定されず、その趣旨を逸脱しない範囲で変形を加えることができる。
前記した実施形態では、図3のように、「賛成」の分布モデル90が1つのピークt1を有することとしたが、これに限定されない。つまり、「賛成」の分布モデル90は、ある事案に関する発言が一度盛りあがったら、収束することを表している。だが実際には、ある事案に関する発言が収束した後、再び盛り上がることも考えられる。
(Modification)
The opinion type estimation device according to the present invention is not limited to the above-described embodiment, and modifications can be made without departing from the gist thereof.
In the above-described embodiment, as shown in FIG. 3, the “agree”
これを表すため、図5に示すように、「賛成」の分布モデル90aは、2つのガウシアン分布モデルを重ね合わせて、2つのピークt11,t12を有するように設定してもよい。また、「反対」の分布モデル91aは、2つのガウシアン分布モデルを重ね合わせて、2つのピークt21,t22を有するように設定してもよい。すなわち、図5の2混合分布モデルは、下記式(5)で表すことができる。この式(5)では、前記した式(1)´´と同様の拘束条件が必要となる。
In order to express this, as shown in FIG. 5, the “agree”
この式(5)では、「賛成」の分布モデル90aにおいて、t11がガウシアン分布モデルp11(t)でのピーク時刻を表し、α11がガウシアン分布モデルp11(t)での盛り上がりの急速さを表し、k1がガウシアン分布モデルp11(t),p12(t)の比率を表す(但し、0<k1<1)。
また、「賛成」の分布モデル90aにおいて、t12がガウシアン分布モデルp12(t)でのピーク時刻を表し、α12がガウシアン分布モデルp12(t)での盛り上がりの急速さを表す。
In the equation (5), the
Further, the
また、「反対」の分布モデル91aにおいて、t21がガウシアン分布モデルp21(t)でのピーク時刻を表し、α21がガウシアン分布モデルp21(t)での盛り上がりの急速さを表し、k2がガウシアン分布モデルp21(t),p22(t)の比率を表す(但し、0<k2<1)。
また、「反対」の分布モデル91aにおいて、t22がガウシアン分布モデルp22(t)でのピーク時刻を表し、α22がガウシアン分布モデルp22(t)での盛り上がりの急速さを表す。ここでい、
Further, the
Further, the
この場合、混合分布モデル管理手段23は、図5の2混合分布モデルを記憶、管理する。そして、パラメータ最適化手段24は、式(5)のパラメータt11,t12,t21,t22,α11,α12,α21,α22,k1,k2,βを推定する。さらに、意見種別推定手段25は、最適なパラメータが推定された式(5)を用いて、意見種別の割合を推定する。
In this case, the mixed distribution model management means 23 stores and manages the two mixed distribution model of FIG. Then, the
なお、図3において、「賛成」の分布モデル90及び「反対」の分布モデル91は、3つ以上のピークを含んでもよい。また、「反対」の分布モデル91のピーク時刻t2が「賛成」の分布モデル90のピーク時刻t1よりも先であってもよい。また、2混合分布モデルは、図3及び図5の例に限定されない。
In FIG. 3, the “agree”
前記した実施形態では、意見種別が「賛成」又は「反対」の2種別としたが、これに限定されない。
例えば、意見種別は、「賛成」、「中立」又は「反対」の3種別としてもよい。この場合、混合分布モデル管理手段は、3混合分布モデルを記憶、管理する。
また、意見種別は、4種別以上であってもよい。この場合、混合分布モデル管理手段は、4種別以上の混合分布モデルを記憶、管理する。
つまり、意見種別がn種別であれば、混合分布モデル管理手段は、n混合分布モデルを記憶、管理する(nは2以上の整数)。
In the above-described embodiment, the opinion type is two types of “agree” or “opposite”, but is not limited to this.
For example, the opinion type may be three types of “agree”, “neutral”, or “opposite”. In this case, the mixed distribution model management means stores and manages the three mixed distribution models.
Also, the opinion types may be four or more types. In this case, the mixed distribution model management means stores and manages four or more types of mixed distribution models.
That is, if the opinion type is n type, the mixed distribution model management means stores and manages the n mixed distribution model (n is an integer of 2 or more).
前記した実施形態では、意見種別毎の分布モデルをガウシアン分布モデルとして説明したが、これに限定されない。例えば、パラメータ最適化手段は、意見種別毎の分布モデルとして、下記式(6)の一般化双曲型分布モデルgh(x)を利用することができる。一般化双曲型分布モデルでは、ピークに達する前とピークに達した後との時間推移に対称性がない場合でも、意見の形成過程を反映した分布モデルとして扱うことができる。 In the above-described embodiment, the distribution model for each opinion type has been described as a Gaussian distribution model, but the present invention is not limited to this. For example, the parameter optimization means can use a generalized hyperbolic distribution model gh (x) of the following equation (6) as a distribution model for each opinion type. The generalized hyperbolic distribution model can be treated as a distribution model that reflects the formation process of opinions even when there is no symmetry in the time transition between before reaching the peak and after reaching the peak.
この式(6)では、μがピーク時刻を表し、δがスケール(縦、横)を表し、λが第3種変形ベッセル関数Kλ(x)の次数を表す。ここで、α,γは分布の形状を決めるパラメータであり、αは尖度に、γは歪度(非対称性)に影響する。 In this equation (6), μ represents the peak time, δ represents the scale (vertical, horizontal), and λ represents the order of the third type modified Bessel function K λ (x). Here, α and γ are parameters that determine the shape of the distribution, α affects the kurtosis, and γ affects the skewness (asymmetry).
前記した実施形態では、意見種別推定装置を独立したハードウェアとして説明したが、本願発明は、これに限定されない。例えば、意見種別推定装置は、コンピュータが備えるCPU、メモリ、ハードディスク等のハードウェア資源を、解析対象選別手段と、意見種別付加手段と、混合分布モデル管理手段と、パラメータ最適化手段と、意見種別推定手段として協調動作させる意見種別推定プログラムで実現することもできる。 In the above-described embodiment, the opinion type estimation device is described as independent hardware, but the present invention is not limited to this. For example, the opinion type estimation apparatus includes hardware resources such as a CPU, a memory, and a hard disk included in a computer, an analysis target selection unit, an opinion type addition unit, a mixed distribution model management unit, a parameter optimization unit, an opinion type, It can also be realized by an opinion type estimation program for cooperative operation as an estimation means.
本願発明に係る意見種別推定装置は、例えば、政策が問われる政治家又は行政機関、作品の評価が問われる芸術家、及び、商品の評判が問われる事業者が、ネットワーク上の発言を解析するのに利用することができる。 The opinion type estimation device according to the present invention analyzes, for example, a politician or administrative institution whose policy is questioned, an artist whose question is an evaluation of a work, and a company whose reputation of a product is questioned on a network. Can be used for
1 発言解析装置
2 意見種別推定装置
21 解析対象選別手段
22 意見種別付加手段
23 混合分布モデル管理手段(混合分布モデル記憶手段)
24 パラメータ最適化手段
25 意見種別推定手段
30 発言解析手段
DESCRIPTION OF SYMBOLS 1 Comment analysis apparatus 2 Opinion
24 Parameter optimization means 25 Opinion type estimation means 30 Speech analysis means
Claims (6)
前記意見種別毎の混合比とピーク時刻と盛り上がりの急速さとをパラメータとした、発言時刻に依存した意見の形成過程を表す混合分布モデルを予め記憶すると共に、前記発言時刻が付加された前記発言データを前記意見種別毎に記憶する混合分布モデル記憶手段と、
前記混合分布モデル記憶手段の混合分布モデルに発言データを適用し、数値最適化手法によって前記パラメータを推定するパラメータ最適化手段と、
前記パラメータ最適化手段でパラメータが推定された混合分布モデルを用いて、前記意見種別に関する統計情報を推定する意見種別推定手段と、
を備えることを特徴とする意見種別推定装置。 Opinion type is preset in the utterance data representing the content of the opinion, and is an opinion type estimation device that estimates statistical information about the opinion type of the utterance data,
The utterance data to which the utterance time is added while pre-stored a mixed distribution model representing the formation process of the opinion depending on the utterance time, with the mixture ratio, peak time, and rapid rise of each opinion type as parameters. Mixed distribution model storage means for storing each opinion type;
Applying parameter data to the mixture distribution model of the mixture distribution model storage means, and parameter optimization means for estimating the parameters by a numerical optimization method;
Opinion type estimation means for estimating statistical information related to the opinion type using a mixed distribution model in which parameters are estimated by the parameter optimization means;
An opinion type estimation device comprising:
前記第1の意見種別及び前記第2の意見種別の混合比βと、
ガウシアン分布モデルp11(t),p12(t)の比率k1(0<k1<1)と、
ガウシアン分布モデルp11(t)でのピーク時刻t11,盛り上がりの急速さα11と、
ガウシアン分布モデルp12(t)でのピーク時刻t12,盛り上がりの急速さα12と、
ガウシアン分布モデルp21(t),p22(t)の比率k2(0<k2<1)と、
ガウシアン分布モデルp21(t)でのピーク時刻t21,盛り上がりの急速さα21と、
ガウシアン分布モデルp22(t)でのピーク時刻t22,盛り上がりの急速さα22と、
を推定することを特徴とする請求項2に記載の意見種別推定装置。 The mixed distribution model storage unit superimposes two Gaussian distributions p 11 (t) and p 12 (t) with the first opinion type, as shown in the following formula (5). A two-mixed distribution model p (t) of the distribution model and a distribution model obtained by superimposing two Gaussian distributions p 21 (t) and p 22 (t) in the second opinion type,
A mixing ratio β of the first opinion type and the second opinion type;
A ratio k 1 (0 <k 1 <1) of the Gaussian distribution models p 11 (t) and p 12 (t);
A peak time t 11 in a Gaussian distribution model p 11 (t), a rapid rise α 11 ,
A peak time t 12 in the Gaussian distribution model p 12 (t), a rapid rise α 12 ,
A ratio k 2 (0 <k 2 <1) of the Gaussian distribution models p 21 (t) and p 22 (t);
The peak time t 21 in the Gaussian distribution model p 21 (t), the rapidity α 21 of the rise,
The peak time t 22 in the Gaussian distribution model p 22 (t), the rapidity α 22 of the rise,
The opinion type estimation device according to claim 2, wherein
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013263994A JP6192166B2 (en) | 2013-12-20 | 2013-12-20 | Opinion type estimation device and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013263994A JP6192166B2 (en) | 2013-12-20 | 2013-12-20 | Opinion type estimation device and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015121846A JP2015121846A (en) | 2015-07-02 |
JP6192166B2 true JP6192166B2 (en) | 2017-09-06 |
Family
ID=53533427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013263994A Active JP6192166B2 (en) | 2013-12-20 | 2013-12-20 | Opinion type estimation device and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6192166B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106162163A (en) * | 2016-08-02 | 2016-11-23 | 浙江科技学院 | A kind of efficiently visual quality method for objectively evaluating |
CN106791822B (en) * | 2017-01-13 | 2018-11-30 | 浙江科技学院 | It is a kind of based on single binocular feature learning without reference stereo image quality evaluation method |
JP7198900B2 (en) * | 2017-08-14 | 2023-01-04 | ヤフー株式会社 | Generation device, generation method, and generation program |
JP6985059B2 (en) * | 2017-08-14 | 2021-12-22 | ヤフー株式会社 | Generator, generation method, and generation program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4269698B2 (en) * | 2003-01-23 | 2009-05-27 | 富士通株式会社 | Opinion analysis method, opinion analysis apparatus, and opinion analysis program |
JP5599073B2 (en) * | 2011-06-10 | 2014-10-01 | 株式会社野村総合研究所 | Kansei analysis system and program |
WO2013179340A1 (en) * | 2012-05-30 | 2013-12-05 | 株式会社日立製作所 | Information analysis system and information analysis method |
-
2013
- 2013-12-20 JP JP2013263994A patent/JP6192166B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015121846A (en) | 2015-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4532863B2 (en) | Method and apparatus for aligning bilingual corpora | |
JP5901001B1 (en) | Method and device for acoustic language model training | |
JP6087899B2 (en) | Conversation dialog learning and conversation dialog correction | |
US11809832B2 (en) | Natural language text generation using semantic objects | |
JP6192166B2 (en) | Opinion type estimation device and program thereof | |
JP7155758B2 (en) | Information processing device, information processing method and program | |
US11082369B1 (en) | Domain-specific chatbot utterance collection | |
JP2018537788A (en) | Extension of neural network using external memory | |
JPWO2007138875A1 (en) | Word dictionary / language model creation system, method, program, and speech recognition system for speech recognition | |
US20090192838A1 (en) | System and method for optimizing response handling time and customer satisfaction scores | |
CN104866472A (en) | Generation method and device of word segmentation training set | |
US20140046949A1 (en) | Incremental dynamic document index generation | |
JP5790646B2 (en) | Perplexity calculation device | |
Shen et al. | Estimation of Gap Between Current Language Models and Human Performance. | |
JP7093292B2 (en) | Systems and methods for segmenting dialogue session text | |
Noronha Pinto de Oliveira e Sousa et al. | Towards digital twins for heritage buildings: A workflow proposal | |
JP2021022007A (en) | Sentence generation learning method, sentence generation learning device and program | |
US8352909B2 (en) | Business process diagram (BPD) component analysis | |
US20130110491A1 (en) | Discriminative learning of feature functions of generative type in speech translation | |
KR102019752B1 (en) | Method of providing user interface/ user experience strategy executable by computer and apparatus providing the same | |
US20220284280A1 (en) | Data labeling for synthetic data generation | |
JP5860439B2 (en) | Language model creation device and method, program and recording medium | |
JP2010170252A (en) | Method, device and program for creating language model | |
JP2018197953A (en) | Analysing apparatus, analysing method, and analysing program | |
JP6425732B2 (en) | Sentence search system, polarity determination rule correction system, sentence search method and polarity determination rule correction method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170804 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6192166 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |