JP6529133B2 - 複数地域でのトピックの評価を分析する装置、プログラム及び方法 - Google Patents
複数地域でのトピックの評価を分析する装置、プログラム及び方法 Download PDFInfo
- Publication number
- JP6529133B2 JP6529133B2 JP2016016582A JP2016016582A JP6529133B2 JP 6529133 B2 JP6529133 B2 JP 6529133B2 JP 2016016582 A JP2016016582 A JP 2016016582A JP 2016016582 A JP2016016582 A JP 2016016582A JP 6529133 B2 JP6529133 B2 JP 6529133B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- keyword
- document
- representative
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims description 63
- 238000000034 method Methods 0.000 title description 28
- 230000008451 emotion Effects 0.000 claims description 193
- 238000004458 analytical method Methods 0.000 claims description 128
- 230000002996 emotional effect Effects 0.000 claims description 40
- 230000001939 inductive effect Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 27
- 238000010801 machine learning Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 14
- 238000000605 extraction Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 4
- 230000004888 barrier function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000763 evoking effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000337007 Oceania Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するキーワードグループ生成手段と、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書における当該トピックキーワードの位置に係る値と、当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、当該投稿文書に現れた名詞の数に係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該トピックに特有の投稿文書であるトピック特有投稿文書を決定するトピック特有文書決定手段と、
当該地域毎に、決定されたトピック特有投稿文書に対し、少なくとも当該トピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、感情に係る語彙のデータベースを用いて、当該トピック特有投稿文書に係る感情情報を決定する感情情報決定手段と、
生成されたキーワードグループに対し、このキーワードグループに属する代表キーワードの出現回数と、この代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するスコア付与手段と
を有する評価分析装置が提供される。
(1)付与対象のキーワードグループに対し、該キーワードグループに属する地域の異なる代表キーワード間における感情情報の度合いの差であって、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合いの差が大きいほど、より高いスコアを付与すること、
(2)付与対象のキーワードグループに対し、該キーワードグループに属する地域の異なる代表キーワード間における出現回数の差であって、トピックについて関連するトピック特有投稿文書での出現回数の差が大きいほど、より高いスコアを付与すること、
(3)付与対象のキーワードグループに対し、該キーワードグループに含まれる代表キーワードの全てにおける、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合いの総和が大きいほど、より高いスコアを付与すること、及び
(4)付与対象のキーワードグループに対し、該キーワードグループに含まれる代表キーワードの総出現回数であって、トピックについて関連するトピック特有投稿文書に現れる総出現回数が多いほど、より高いスコアを付与すること
のうち少なくとも1つを採用することも好ましい。
当該地域毎に、当該トピックキーワード及び抽出された当該代表キーワードの両方を含む投稿文書を収集し、収集された投稿文書に含まれる選別対象の代表キーワードと所定の感情誘発語との平均距離に係る値と、当該選別対象の代表キーワードが名詞か否かに係る値と、当該選別対象の代表キーワードと当該トピックキーワードとの距離に係る値と、当該選別対象の代表キーワードを含む収集された投稿文書について決定された感情情報がポジティブとネガティブとについて一方に偏っているか否かを示す偏り度合いに係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該キーワードグループを生成するための代表キーワードを選別する代表キーワード決定手段
を有することも好ましい。
当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するキーワードグループ生成手段と、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書における当該トピックキーワードの位置に係る値と、当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、当該投稿文書に現れた名詞の数に係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該トピックに特有の投稿文書であるトピック特有投稿文書を決定するトピック特有文書決定手段と、
当該地域毎に、決定されたトピック特有投稿文書に対し、少なくとも当該トピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、感情に係る語彙のデータベースを用いて、当該トピック特有投稿文書に係る感情情報を決定する感情情報決定手段と、
生成されたキーワードグループに対し、このキーワードグループに属する代表キーワードの出現回数と、この代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するスコア付与手段と
してコンピュータを機能させる評価分析プログラムが提供される。
当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するステップと、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書における当該トピックキーワードの位置に係る値と、当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、当該投稿文書に現れた名詞の数に係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該トピックに特有の投稿文書であるトピック特有投稿文書を決定するステップと、
当該地域毎に、決定されたトピック特有投稿文書に対し、少なくとも当該トピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、感情に係る語彙のデータベースを用いて、当該トピック特有投稿文書に係る感情情報を決定するステップと、
生成されたキーワードグループに対し、このキーワードグループに属する代表キーワードの出現回数と、この代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するステップと
を有する評価分析方法が提供される。
(a)Twitter(登録商標)等のミニブログ(Miniblog)や各種のブログ(blog,Weblog)を含むソーシャルメディア(social media)におけるユーザによる投稿文書、及び
(b)ニュース記事、新聞社社説や、各種分析記事等の、上記(a)に比べて通常、情報量(文字数)のより多い文書(大情報量文書)等
を取得することができる。ここで、大情報量文書は、Twitter(登録商標)等の投稿文書よりも一般的に情報量が多いと予め認定された種別の文書とすることができる。
(A)分析対象に含まれる地域毎に、当該地域で使用される言語の文書(大情報量文書)であって、「トピック」に係るトピックキーワードを含むクエリを用いて検索された文書から「代表キーワード」を抽出し、
(B)互いに異なる地域で使用される言語の「代表キーワード」であって翻訳される関係にある「代表キーワード」同士を集めてキーワードグループを生成し、
(C)分析対象に含まれる地域毎に、当該地域で使用される言語の投稿文書であって、「トピック」に係るトピックキーワードを含むクエリを用いて検索された投稿文書に対し、感情に係る語彙のデータベース(感情語彙DB)を用いて機械学習を行うことによって、当該投稿文書に係る「感情情報」を決定し、
(D)生成されたキーワードグループに対し、このキーワードグループに属する「代表キーワード」の出現回数と、このキーワードグループに属する「代表キーワード」にトピックについて関連する投稿文書に係る「感情情報」とのうちの一方又は両方に基づいて「スコア」を付与する
ことができる。
(a)分析対象の国である日本、米国、ブラジル、フランス及び中国の各国について抽出された代表キーワードから、
(b)「price」や「display size」といった代表キーワードを含むキーワードグループが生成され、
(c)日本、米国、ブラジル、フランス及び中国の各国におけるTwitter(登録商標)の(日本語、英語、ポルトガル語、フランス語及び中国語の)投稿文書に対する「感想・所感」(感情情報)が決定され、
(d)生成されたキーワードグループに属する「price」及び「display size」の出現回数と、これらの代表キーワードに「iPhone(登録商標)」について関連する投稿文書に対する「感想・所感」とに基づき、生成されたキーワードグループに対し「スコア」として、例えば百点満点のうちの数十何点が付与される。
(E)装置1内又は装置1外に設けられた表示デバイスに表示された画像(例えば、世界地図)における対象地域に対応する位置に、
(e1)評価対象トピックに係るものとして生成されたキーワードグループのうちで所定の条件を満たす「スコア」を付与されたキーワードグループに含まれるこの地域の「代表キーワード」に係る情報と、
(e2)評価対象トピックに係るものとして決定されたこの地域の「感情情報」に係る情報と
を表示させる
ことも好ましい。
(S2:トピック固有感情分析)次いで、投稿文書全体の感情を評価するのではなく、検索クエリ(トピック)についての投稿文書の感情を分析する。
(S3:代表キーワード抽出)次いで、分析結果としての感情の偏りの原因をユーザに理解させることを目的として、感情についてポジティブな投稿文書及びネガティブな投稿文書の両方を用いて代表キーワードを抽出する。
(S5:感情情報世界地図の生成・表示)分析を行った複数の国について、まとめた比較結果を含め、感情の偏りの度合いといった「感情情報」だけでなく、感情の生じた原因を理解するための「代表キーワード」をも世界地図上に表示する。
トピックKW生成部111は、分析対象に含まれる国(地域)毎に、当該国(地域)で使用される言語の文書であって、投稿文書よりも情報量が多いと予め認定された文書種別の文書(大情報量文書)から、ワードの出現頻度及び/又はワードの出現する文書数に基づいて、トピックキーワードを抽出する。
ここで、例えば、新聞で記事に取り上げられたトピック(話題)が、ソーシャルメディア上でも最新のホットなトピックになっているとは必ずしも限らない。そこで、次にステップS12を実行する。
ここで、フィルタリング処理として、各キーワードについて、複数の投稿文書におけるtf-idfスコアを算出し、所定閾値未満のスコアを有するキーワードを除外することも好ましい。このようなフィルタリング処理によって選別されたキーワードがトピックキーワードに決定され、決定されたトピックキーワードに係るトピックが、評価対象のトピックとなるのである。以後、このトピックキーワードを用いて、トピックに特有の文書であるトピック特有文書を決定する。
以下、このように取得されたトピックに関係する投稿文書から、トピック特有文書が決定され、さらに、決定されたトピック特有文書において感情分析が行われるのである。
図2に戻って、トピック特有文書決定部112は、分析対象に含まれる国(地域)毎に、当該地域で使用される言語の投稿文書であって、トピックキーワードを含むクエリを用いて検索された投稿文書について、
(a)当該投稿文書におけるトピックキーワードの位置に係る値と、
(b)当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、
(c)当該投稿文書に現れた名詞の数に係る値と
のうちの少なくとも1つを要素とする特徴量を用いて機械学習を行い、トピックに特有の投稿文書であるトピック特有投稿文書を決定する。図2に示したトピック特有文書決定部112では、上記特徴量要素(a)、(b)及び(c)はそれぞれ、KW位置解析部112a、クエリ距離解析部112b及び品詞解析部112cによって算出される。
これにより、例えば、トピックキーワードの位置が投稿文書の開始の位置に近ければ、当該投稿文書のキーワードがこのトピックキーワードと合致する可能性が高い、といった判断がされ易くなる。
これにより、例えば、算出された距離が所定未満の小さな値であれば、当該投稿文書に係る感情がこのトピックキーワードに関連している可能性が高い、といった判断がされ易くなる。ここで、感情誘発語とは、ある感情(sentiment)の発現を意味している語であり、感情語彙DB103において当該感情(のポラリティ)と対応付けられて記憶されている語となる。
これにより、投稿文書中の名詞の数によって、当該投稿文書の話題(トピック)がトピックキーワードとは異なっている可能性を測ることができる。
ここで、感情分析結果としては、例えば、ネガティブ及びポジティブの両極の間における感情の偏り度合いである感情レシオ(Sentiment Ratio)rが出力されてもよく、各種感情空間における座標値が出力されてもよい。感情レシオrは、r=−1(ネガティブ),0(ニュートラル),1(ポジティブ)の3値をとってもよく、ネガティブ又はポジティブの2値をとってもよく、又は−1≦r≦1の範囲の値をとるように設定してもよい。
図2に戻って、KWグループ生成部114は、代表KW決定部114aと、グルーピング部114fとを有する。このうち、代表KW決定部114aは、分析対象に含まれる国(地域)毎に、当該地域で使用される言語の文書であって、評価対象のトピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出する。
(a)分析対象に含まれる国(地域)毎に、トピックキーワード及び抽出された代表キーワードの両方を含む投稿文書を収集し、
(b)収集した各投稿文書について、感情語距離解析部114b、品詞解析部114c、トピックKW距離解析部114d、及びKW出現頻度解析部114eで算出された値を要素とする特徴量ベクトルを生成し、
(c)生成した特徴量ベクトルを用いて機械学習を行い、キーワードグループを生成するための代表キーワードを選別する
ことも好ましい。
(b1)感情語距離解析部114bは、収集された投稿文書に含まれる選別対象の代表キーワードと所定の感情誘発語との平均距離に係る値を算出し、
(b2)品詞解析部114cは、選別対象の代表キーワードが名詞か否かに係る値を算出し、
(b3)トピックKW距離解析部114dは、選別対象の代表キーワードとトピックキーワードとの距離に係る値を算出し、
(b4)KW出現頻度解析部114eは、選別対象の代表キーワードを含む収集された投稿文書について決定された感情情報がポジティブとネガティブとについて一方に偏っているか否かを示す偏り度合いに係る値を算出する。
(a)公知であるウェブページの検索エンジンを使用し、トピックキーワードと適切なキーワード(例えば「ニュース」等)とを合わせた検索クエリをもって、ウェブページを検索・収集し、
(b)収集されたウェブページの本文を抽出し、抽出された本文から、tf-idfや、df-idf、LDA(Latent Dirichlet Allocation)、LSA(Latent Semantic Association)、AIC(Akaike Information Criterion)といった公知のアルゴリズムを用いて代表キーワード候補を抽出する
ことによって実施することができる。
ここで、さらに、感情誘発語を全く含んでおらず感情の分析には適さないような、雑音に相当する投稿文書を除外することも好ましい。さらに、宣伝広告といったスパム(spam)と言われるような投稿文書を除外することも好ましい。この場合、例えば、画像以外のウェブコンテンツのURL(Uniform Resource Locator)を含んでいたり、(例えば、英語の投稿文書の場合に)「win」、「deal」、「review」、「$」及び「offer」といった疑わしい単語・文字を含んでいたりする投稿文書を全て除外するとしてもよい。
これにより、代表キーワード候補が感情誘発語をより近くに伴っていればいるほど、代表キーワードとして選別される、といった判断がされ易くなる。
これにより、代表キーワード候補が名詞であるならば、動詞や形容詞である場合に比べて代表キーワードとして選別され易くなる。
これにより、この意味的距離が大きいならば、この代表キーワード候補は一般的な単語に過ぎない可能性が高い、といった判断がされ易くなる。例えば、トピックキーワードが「Prius(登録商標)」である場合、代表キーワード候補である「engine」及び「people」のうちで代表キーワードに選別されるのは、意味的距離の小さい「engine」である、といった判断がされ易くなる。
これにより、ポジティブ及びネガティブな投稿文書のいずれか一方に出現する頻度が高いが両方に出現する頻度は低い代表キーワード候補は、代表キーワードに選別される可能性が高い、といった判断がされ易くなる。例えば、トピックキーワードが「iPhone(登録商標)」である場合に、代表キーワード候補である「app」がポジティブな投稿文書にもネガティブな投稿文書にも高い頻度で出現していれば、「app」は感情のポラリティを理解するのに適していないと判断され、代表キーワードに選別されない可能性が高くなる。
ことが挙げられる。この方針は、図6における
score=0
score=score+absolute no. of occurrences score
の処理に相当するが、これによれば、例えば、総出現回数が多いほど、対象のキーワードグループの情報を提示することがより相応しくなる。
ことが挙げられる。この方針は、図6における
score=score+overall ratio of sentiment score
の処理に相当するが、これによれば、例えば、感情レシオの総和の大きいキーワードグループは、感情レシオについてバランスのとれたキーワードグループに比較して、その情報をより提示すべきことになる。
ことが挙げられる。この方針は、図6における
score=score+difference in no. of occurrences score
の処理に相当するが、これによれば、例えば、1つの言語について高い出現回数を有しつつ他の1つ又は複数の言語について低い出現回数を示すような代表キーワードは、提示されることがより相応しいことになる。
ことが挙げられる。この方針は、図6における
score=score+difference in ratio of sentiment score
の処理に相当するが、これによれば、例えば、1つの言語についての感情レシオが、他の1つ又は複数の言語についての感情レシオと大きく相違するような代表キーワードは、どの言語についての感情レシオも同程度であるような代表キーワードと比較して、提示されることがより相応しいことになる。
rank according to score
output top ranked keyword groups
の処理に相当するが、実際には、以下に説明する入出力制御部117(図2)における処理となる。
図2に戻って、入出力制御部117の表示制御部117aは、装置1内又は装置1外に設けられた表示デバイス(図2ではディスプレイ105)に表示される世界地図画像における、評価対象に含まれる国(地域)に対応する位置に、
(a)評価対象のトピックに係るものとして生成されたキーワードグループのうちで所定の条件を満たすスコアを付与されたキーワードグループに含まれる当該国(地域)の代表キーワードに係る情報(例えば、代表キーワードそのもの)と、
(b)評価対象のトピックに係るものとして決定された当該国(地域)の感情情報に係る情報(例えば、感情レシオ)と
を表示させる。ここで、上記(b)における「所定の条件を満たすスコア」は、例えば、複数のキーワードグループに付与されたスコアのうちで、最も大きな値のスコアとすることができる。また、所定閾値以上のスコアとしてもよい。この場合は、複数のキーワードグループに係る代表キーワード及び感情レシオが表示されることもあり得る。
101 通信インタフェース部
102 文書データベース(DB)
103 感情語彙DB
104 スコア付与キーワード(KW)グループ記録部
105 ディスプレイ
106 操作部
111 トピックKW生成部
112 トピック特有文書決定部
112a KW位置
112b クエリ距離解析部
112c 品詞解析部
113 感情情報決定部
114 KWグループ生成部
114a 代表KW決定部
114b 感情語距離解析部
114c 品詞解析部
114d トピックKW距離解析部
114e KW出現頻度解析部
114f グルーピング部
116 スコア付与部
117 入出力制御部
117a 表示制御部117a
Claims (7)
- 複数の地域におけるトピックに対する評価を分析する評価分析装置であって、
当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するキーワードグループ生成手段と、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書における当該トピックキーワードの位置に係る値と、当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、当該投稿文書に現れた名詞の数に係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該トピックに特有の投稿文書であるトピック特有投稿文書を決定するトピック特有文書決定手段と、
当該地域毎に、決定されたトピック特有投稿文書に対し、少なくとも当該トピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、感情に係る語彙のデータベースを用いて、当該トピック特有投稿文書に係る感情情報を決定する感情情報決定手段と、
生成されたキーワードグループに対し、当該キーワードグループに属する代表キーワードの出現回数と、当該代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するスコア付与手段と
を有することを特徴とする評価分析装置。 - 当該装置内又は当該装置外に設けられた表示デバイスに表示された画像における当該地域に対応する位置に、当該トピックに係るものとして生成されたキーワードグループのうちで所定の条件を満たすスコアを付与されたキーワードグループに含まれる当該地域の代表キーワードに係る情報と、当該トピックに係るものとして決定された当該地域の感情情報に係る情報とを表示させる表示制御手段を更に有することを特徴とする請求項1に記載の評価分析装置。
- 前記スコア付与手段は、
(1)付与対象のキーワードグループに対し、該キーワードグループに属する地域の異なる代表キーワード間における感情情報の度合いの差であって、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合いの差が大きいほど、より高いスコアを付与すること、
(2)付与対象のキーワードグループに対し、該キーワードグループに属する地域の異なる代表キーワード間における出現回数の差であって、トピックについて関連するトピック特有投稿文書での出現回数の差が大きいほど、より高いスコアを付与すること、
(3)付与対象のキーワードグループに対し、該キーワードグループに含まれる代表キーワードの全てにおける、トピックについて関連するトピック特有投稿文書の感情情報におけるポジティブ又はネガティブの度合いの総和が大きいほど、より高いスコアを付与すること、及び
(4)付与対象のキーワードグループに対し、該キーワードグループに含まれる代表キーワードの総出現回数であって、トピックについて関連するトピック特有投稿文書に現れる総出現回数が多いほど、より高いスコアを付与すること
のうち少なくとも1つを採用することを特徴とする請求項1又は2に記載の評価分析装置。 - 当該地域毎に、当該地域で使用される言語の文書であって、当該投稿文書よりも情報量が多いと予め認定された文書種別の文書から、ワードの出現頻度及び/又はワードの出現する文書数に基づいて、当該トピックキーワードを抽出するトピックキーワード生成手段を更に有することを特徴とする請求項1から3のいずれか1項に記載の評価分析装置。
- 前記キーワードグループ生成手段は、
当該地域毎に、当該トピックキーワード及び抽出された当該代表キーワードの両方を含む投稿文書を収集し、収集された投稿文書に含まれる選別対象の代表キーワードと所定の感情誘発語との平均距離に係る値と、当該選別対象の代表キーワードが名詞か否かに係る値と、当該選別対象の代表キーワードと当該トピックキーワードとの距離に係る値と、当該選別対象の代表キーワードを含む収集された投稿文書について決定された感情情報がポジティブとネガティブとについて一方に偏っているか否かを示す偏り度合いに係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該キーワードグループを生成するための代表キーワードを選別する代表キーワード決定手段
を有することを特徴とする請求項1から4のいずれか1項に記載の評価分析装置。 - 複数の地域におけるトピックに対する評価を分析する装置に搭載されたコンピュータを機能させるプログラムであって、
当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するキーワードグループ生成手段と、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書における当該トピックキーワードの位置に係る値と、当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、当該投稿文書に現れた名詞の数に係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該トピックに特有の投稿文書であるトピック特有投稿文書を決定するトピック特有文書決定手段と、
当該地域毎に、決定されたトピック特有投稿文書に対し、少なくとも当該トピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、感情に係る語彙のデータベースを用いて、当該トピック特有投稿文書に係る感情情報を決定する感情情報決定手段と、
生成されたキーワードグループに対し、当該キーワードグループに属する代表キーワードの出現回数と、当該代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するスコア付与手段と
してコンピュータを機能させることを特徴とする評価分析プログラム。 - 複数の地域におけるトピックに対する評価を分析する装置に搭載されたコンピュータソフトウエアによる評価分析方法であって、
当該地域毎に、当該地域で使用される言語の文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された文書から代表キーワードを抽出し、互いに異なる地域で使用される言語の代表キーワードであって翻訳される関係にある代表キーワード同士を集めてキーワードグループを生成するステップと、
当該地域毎に、当該地域で使用される言語の投稿文書であって、当該トピックに係るトピックキーワードを含むクエリを用いて検索された投稿文書における当該トピックキーワードの位置に係る値と、当該投稿文書を検索するのに用いたクエリと所定の感情誘発語との距離に係る値と、当該投稿文書に現れた名詞の数に係る値とのうちの少なくとも1つを要素とする特徴量を用いて、当該トピックに特有の投稿文書であるトピック特有投稿文書を決定するステップと、
当該地域毎に、決定されたトピック特有投稿文書に対し、少なくとも当該トピック特有投稿文書に現れた語に係る情報を特徴量の要素とし、感情に係る語彙のデータベースを用いて、当該トピック特有投稿文書に係る感情情報を決定するステップと、
生成されたキーワードグループに対し、当該キーワードグループに属する代表キーワードの出現回数と、当該代表キーワードにトピックについて関連する投稿文書に係る感情情報とのうちの一方又は両方に基づいてスコアを付与するステップと
を有することを特徴とする評価分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016016582A JP6529133B2 (ja) | 2016-01-29 | 2016-01-29 | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016016582A JP6529133B2 (ja) | 2016-01-29 | 2016-01-29 | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017134787A JP2017134787A (ja) | 2017-08-03 |
JP6529133B2 true JP6529133B2 (ja) | 2019-06-12 |
Family
ID=59504441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016016582A Active JP6529133B2 (ja) | 2016-01-29 | 2016-01-29 | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6529133B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101871739B1 (ko) * | 2018-04-27 | 2018-06-27 | 주식회사 텐디 | 어플리케이션의 대표 키워드 결정 방법 및 어플리케이션의 대표 키워드 결정 시스템 |
JP6982546B2 (ja) * | 2018-06-06 | 2021-12-17 | ヤフー株式会社 | 情報提供装置、情報提供方法、およびプログラム |
JP7324577B2 (ja) * | 2018-10-24 | 2023-08-10 | Solize株式会社 | テキスト処理方法及び、テキスト処理装置 |
CN111160037B (zh) * | 2019-12-02 | 2021-10-26 | 广州大学 | 一种支持跨语言迁移的细粒度情感分析方法 |
JP7293457B1 (ja) | 2022-05-19 | 2023-06-19 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
WO2024166376A1 (ja) * | 2023-02-10 | 2024-08-15 | 日本電信電話株式会社 | 情報収集装置、情報収集システム、情報収集方法、及びプログラム |
CN117275752B (zh) * | 2023-11-20 | 2024-03-22 | 中国人民解放军总医院 | 基于机器学习的病例聚类分析方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4342575B2 (ja) * | 2007-06-25 | 2009-10-14 | 株式会社東芝 | キーワード提示のための装置、方法、及びプログラム |
JP4764864B2 (ja) * | 2007-11-02 | 2011-09-07 | ヤフー株式会社 | 情報伝播抽出装置および情報伝播抽出方法 |
JP5439100B2 (ja) * | 2009-09-24 | 2014-03-12 | 株式会社日立ソリューションズ | 文書解析システム |
JP2012073877A (ja) * | 2010-09-29 | 2012-04-12 | Mitsubishi Space Software Kk | 文書検索装置及び文書検索システム及びコンピュータプログラム及び文書検索方法 |
US9652473B2 (en) * | 2013-01-25 | 2017-05-16 | Adobe Systems Incorporated | Correlating social media data with location information |
JP6279354B2 (ja) * | 2014-03-04 | 2018-02-14 | Nttコムオンライン・マーケティング・ソリューション株式会社 | 話題特定装置、および話題特定方法 |
JP6289989B2 (ja) * | 2014-04-28 | 2018-03-07 | Kddi株式会社 | 商品に対するユーザの感情分析装置及びプログラム |
-
2016
- 2016-01-29 JP JP2016016582A patent/JP6529133B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017134787A (ja) | 2017-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6529133B2 (ja) | 複数地域でのトピックの評価を分析する装置、プログラム及び方法 | |
Kang et al. | based measurement of customer satisfaction in mobile service: Sentiment analysis and VIKOR approach | |
Bondarenko et al. | Overview of touché 2022: argument retrieval | |
Moussa et al. | A survey on opinion summarization techniques for social media | |
US9323827B2 (en) | Identifying key terms related to similar passages | |
JP5168961B2 (ja) | 最新評判情報通知プログラム、記録媒体、装置及び方法 | |
JP5541049B2 (ja) | データ生成装置、データの生成方法及びデータ生成プログラム | |
Ahlgren | Research on sentiment analysis: the first decade | |
JP5494126B2 (ja) | 文書推薦システム、文書推薦装置、文書推薦方法、及びプログラム | |
Strzelecki et al. | Direct answers in Google search results | |
JP6289989B2 (ja) | 商品に対するユーザの感情分析装置及びプログラム | |
Rathan et al. | Every post matters: a survey on applications of sentiment analysis in social media | |
JP2017107391A (ja) | テキストマイニング方法、及びテキストマイニングプログラム | |
JP2007310663A (ja) | 情報検索支援システム、情報検索支援方法および情報検索支援プログラム | |
KR20190048781A (ko) | 온라인 의견 정보 수집 및 분석 시스템 | |
KR20110052114A (ko) | 인터넷을 활용한 추천 검색 시스템 및 그 방법 | |
JP5138621B2 (ja) | 情報処理装置及び不満解決商品発見方法及びプログラム | |
JP6509590B2 (ja) | 商品に対するユーザの感情分析装置及びプログラム | |
CN114741627B (zh) | 面向互联网的辅助信息搜索方法 | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP5368900B2 (ja) | 情報提示装置、情報提示方法およびプログラム | |
Mangnoesing et al. | An empirical study for determining relevant features for sentiment summarization of online conversational documents | |
JP6153262B2 (ja) | 対象文章を象徴する簡易文を推定するプログラム、装置及びサーバ | |
KR101440385B1 (ko) | 인디케이터를 이용한 정보 관리 장치 | |
Cherichi et al. | Big data analysis for event detection in microblogs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180306 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190304 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190417 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190508 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190510 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6529133 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |