JP2017027102A - 偏向グループ抽出装置、偏向グループ抽出方法及びコンピュータプログラム - Google Patents
偏向グループ抽出装置、偏向グループ抽出方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2017027102A JP2017027102A JP2015141535A JP2015141535A JP2017027102A JP 2017027102 A JP2017027102 A JP 2017027102A JP 2015141535 A JP2015141535 A JP 2015141535A JP 2015141535 A JP2015141535 A JP 2015141535A JP 2017027102 A JP2017027102 A JP 2017027102A
- Authority
- JP
- Japan
- Prior art keywords
- user
- group
- topic
- deflection
- width
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
非特許文献1では、比較的短文のコメント文章に対して、単語の表記揺れの緩和などの前処理を行った後に制約付きクラスタリングを適用する。
非特許文献2では、影響力のある発言を行うユーザのランク付けを、PageRankアルゴリズムを使用して行う。
非特許文献3では、ユーザが情報発信を指向しているかどうかを、ユーザのフォロー関係によって判定する方法や、ユーザのコメント文章の「お気に入り」に登録される頻度によって判定する方法を提案している。
(2)本発明の一態様は、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出部と、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出部と、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類部と、各ユーザグループの話題の幅を評価する話題幅評価部と、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価部と、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力部と、を備える偏向グループ抽出装置である。
(3)本発明の一態様は、上記(2)の偏向グループ抽出装置において、前記偏向グループ情報出力部は、ユーザ全体の話題の中心からずれていると評価されたユーザグループよりも、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの方を大きく重み付けして、偏向グループ情報に含める、偏向グループ抽出装置である。
(4)本発明の一態様は、上記(2)又は(3)のいずれかの偏向グループ抽出装置において、前記話題中心評価部は、全ユーザのコメント文章に関する重心と各ユーザグループのコメント文章に関する重心との類似度に基づいて、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する、偏向グループ抽出装置である。
(5)本発明の一態様は、上記(4)の偏向グループ抽出装置において、前記類似度はコサイン距離である偏向グループ抽出装置である。
(6)本発明の一態様は、上記(1)から(5)のいずれかの偏向グループ抽出装置において、前記話題幅評価部は、各ユーザグループの特徴語の意味ベクトル空間上の類似度の平均値に基づいて、各ユーザグループの話題の幅を評価する、偏向グループ抽出装置である。
(7)本発明の一態様は、上記(6)の偏向グループ抽出装置において、前記意味ベクトル空間上の類似度はコサイン距離である偏向グループ抽出装置である。
(9)本発明の一態様は、偏向グループ抽出装置が、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、前記偏向グループ抽出装置が、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、前記偏向グループ抽出装置が、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、前記偏向グループ抽出装置が、各ユーザグループの話題の幅を評価する話題幅評価ステップと、前記偏向グループ抽出装置が、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価ステップと、前記偏向グループ抽出装置が、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力ステップと、を含む偏向グループ抽出方法である。
図1は、本発明の一実施形態に係る偏向グループ抽出装置1を示す構成図である。図1において、偏向グループ抽出装置1は、ユーザコメント抽出部11とユーザ特徴抽出部12とユーザ分類部13と話題幅評価部14と話題中心評価部15と偏向グループ情報出力部16を備える。
但し、Viは、ユーザIDがuiであるユーザの特徴ベクトルである。wxは、ユーザIDがuiであるコメントグループ102に含まれる単語である。kxは、ユーザIDがuiであるコメントグループ102における単語wxの出現頻度である。xは1以上の整数である。
n12=対象ユーザグループGiに属するユーザIDのSNSコメント101のうち単語tjを含まないSNSコメント101の数
n21=対象ユーザグループGi以外のユーザグループに属するユーザIDのSNSコメント101のうち単語tjを含むSNSコメント101の数
n22=対象ユーザグループGi以外のユーザグループに属するユーザIDのSNSコメント101のうち単語tjを含まないSNSコメント101の数
+(n11+n21)log(n11+n21)
+(n21+n22)log(n21+n22)
+(n12+n22)log(n12+n22)
−2N(log(N))
AIC_DM(Gi,tj)=−2×MLL_DM(Gi,tj)+2×3
Info(Gi,tj)=AIC_IM(Gi,tj)−AIC_DM(Gi,tj)
一般に、話題の幅が狭いユーザグループでは、似通った話題が継続して発言されることが多いため、互いに共起しやすい特徴語が抽出される傾向がある。例えば、図2に例示されるグループID「G2」のユーザグループは、話題の幅が狭いユーザグループの例である。グループID「G2」のユーザグループでは、5個の特徴語「車両」、「特急」、「列車」、「発車」及び「編成」が抽出されたが、当該特徴語「車両」、「特急」、「列車」、「発車」及び「編成」は互いに共起しやすい特徴語と考えられる。このため、意味ベクトル空間上に各特徴語を射影すると、図3(a)に示すように、話題の幅が狭いユーザグループの特徴語は互いに近い位置に射影される。一方、図2に例示されるグループID「G2」のユーザグループは、話題の幅が広いユーザグループの例である。グループID「G1」のユーザグループでは、5個の特徴語「話」、「しれる」、「考える」、「自分」及び「人間」が抽出された。これら特徴語「話」、「しれる」、「考える」、「自分」及び「人間」を意味ベクトル空間上に射影すると、図3(b)に示すように、互いに遠い位置に射影される。
本実施形態では、ユーザグループGjに対して、次の式(3)により重心ベクトルgjを算出する。
xi=k1w1+k2w2+・・・
この言語ベクトルxiにおいて、wyは、i番目のコメント文章に含まれる一つの単語Wyを示す単位ベクトルである。単位ベクトルwyは、i番目のコメント文章に含まれる単語毎に決定される。kyは、単語Wyがi番目のコメント文章内に出現する回数である。言語ベクトルxiは、ユーザグループGjのコメント文章毎に計算される。
偏向グループの判定方法の例1では、話題の幅が狭いと評価されたユーザグループのみを偏向グループとする。偏向グループ情報出力部16には、話題幅評価部14から、話題の幅が狭いと評価されたユーザグループのグループIDが入力される。偏向グループ情報出力部16は、話題幅評価部14から入力されたユーザグループのグループIDのみを、偏向グループのグループIDとする。
偏向グループの判定方法の例2では、話題の幅が狭いと評価された、且つ、話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループのみを偏向グループとする。偏向グループ情報出力部16には、話題幅評価部14から、話題の幅が狭いと評価されたユーザグループのグループIDが入力される。また、偏向グループ情報出力部16には、話題中心評価部15から、話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループのグループIDが入力される。偏向グループ情報出力部16は、話題幅評価部14と話題中心評価部15の両方から重複して入力されたユーザグループのグループIDのみを、偏向グループのグループIDとする。
偏向グループの判定方法の例3では、少なくとも、話題の幅が狭いと評価された、又は、話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループのみを偏向グループとする。偏向グループ情報出力部16には、話題幅評価部14から、話題の幅が狭いと評価されたユーザグループのグループIDが入力される。また、偏向グループ情報出力部16には、話題中心評価部15から、話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループのグループIDが入力される。偏向グループ情報出力部16は、少なくとも話題幅評価部14又は話題中心評価部15から入力されたユーザグループのグループIDのみを、偏向グループのグループIDとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
Claims (11)
- ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出部と、
ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出部と、
各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類部と、
各ユーザグループの話題の幅を評価する話題幅評価部と、
各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力部と、
を備える偏向グループ抽出装置。 - ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出部と、
ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出部と、
各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類部と、
各ユーザグループの話題の幅を評価する話題幅評価部と、
各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価部と、
各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力部と、
を備える偏向グループ抽出装置。 - 前記偏向グループ情報出力部は、ユーザ全体の話題の中心からずれていると評価されたユーザグループよりも、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの方を大きく重み付けして、偏向グループ情報に含める、
請求項2に記載の偏向グループ抽出装置。 - 前記話題中心評価部は、全ユーザのコメント文章に関する重心と各ユーザグループのコメント文章に関する重心との類似度に基づいて、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する、
請求項2又は3のいずれか1項に記載の偏向グループ抽出装置。 - 前記類似度はコサイン距離である請求項4に記載の偏向グループ抽出装置。
- 前記話題幅評価部は、各ユーザグループの特徴語の意味ベクトル空間上の類似度の平均値に基づいて、各ユーザグループの話題の幅を評価する、
請求項1から5のいずれか1項に記載の偏向グループ抽出装置。 - 前記意味ベクトル空間上の類似度はコサイン距離である請求項6に記載の偏向グループ抽出装置。
- 偏向グループ抽出装置が、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、
前記偏向グループ抽出装置が、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、
前記偏向グループ抽出装置が、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、
前記偏向グループ抽出装置が、各ユーザグループの話題の幅を評価する話題幅評価ステップと、
前記偏向グループ抽出装置が、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力ステップと、
を含む偏向グループ抽出方法。 - 偏向グループ抽出装置が、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、
前記偏向グループ抽出装置が、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、
前記偏向グループ抽出装置が、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、
前記偏向グループ抽出装置が、各ユーザグループの話題の幅を評価する話題幅評価ステップと、
前記偏向グループ抽出装置が、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価ステップと、
前記偏向グループ抽出装置が、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力ステップと、
を含む偏向グループ抽出方法。 - コンピュータに、
ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、
ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、
各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、
各ユーザグループの話題の幅を評価する話題幅評価ステップと、
各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力ステップと、
を実行させるためのコンピュータプログラム。 - コンピュータに、
ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、
ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、
各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、
各ユーザグループの話題の幅を評価する話題幅評価ステップと、
各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価ステップと、
各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力ステップと、
を実行させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015141535A JP6566755B2 (ja) | 2015-07-15 | 2015-07-15 | 解析対象発言抽出装置、解析対象発言抽出方法及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015141535A JP6566755B2 (ja) | 2015-07-15 | 2015-07-15 | 解析対象発言抽出装置、解析対象発言抽出方法及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017027102A true JP2017027102A (ja) | 2017-02-02 |
JP6566755B2 JP6566755B2 (ja) | 2019-08-28 |
Family
ID=57949755
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015141535A Active JP6566755B2 (ja) | 2015-07-15 | 2015-07-15 | 解析対象発言抽出装置、解析対象発言抽出方法及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6566755B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011118723A1 (ja) * | 2010-03-26 | 2011-09-29 | 日本電気株式会社 | 意味抽出装置、意味抽出方法、および、記録媒体 |
JP2013089086A (ja) * | 2011-10-19 | 2013-05-13 | Nippon Telegr & Teleph Corp <Ntt> | 話題推薦装置及び方法及びプログラム |
JP2013214133A (ja) * | 2012-03-30 | 2013-10-17 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
US20150113651A1 (en) * | 2013-10-21 | 2015-04-23 | Electronics And Telecommunications Research Institute | Spammer group extraction apparatus and method |
JP2015088078A (ja) * | 2013-11-01 | 2015-05-07 | 株式会社日立パワーソリューションズ | 異常予兆検知システム及び異常予兆検知方法 |
-
2015
- 2015-07-15 JP JP2015141535A patent/JP6566755B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011118723A1 (ja) * | 2010-03-26 | 2011-09-29 | 日本電気株式会社 | 意味抽出装置、意味抽出方法、および、記録媒体 |
JP2013089086A (ja) * | 2011-10-19 | 2013-05-13 | Nippon Telegr & Teleph Corp <Ntt> | 話題推薦装置及び方法及びプログラム |
JP2013214133A (ja) * | 2012-03-30 | 2013-10-17 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
US20150113651A1 (en) * | 2013-10-21 | 2015-04-23 | Electronics And Telecommunications Research Institute | Spammer group extraction apparatus and method |
JP2015088078A (ja) * | 2013-11-01 | 2015-05-07 | 株式会社日立パワーソリューションズ | 異常予兆検知システム及び異常予兆検知方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6566755B2 (ja) | 2019-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Farnadi et al. | Computational personality recognition in social media | |
El Alaoui et al. | A novel adaptable approach for sentiment analysis on big social data | |
Zimbra et al. | Brand-related Twitter sentiment analysis using feature engineering and the dynamic architecture for artificial neural networks | |
Yang et al. | Twitter financial community sentiment and its predictive relationship to stock market movement | |
Bamman et al. | Gender identity and lexical variation in social media | |
US9747895B1 (en) | Building language models for a user in a social network from linguistic information | |
Wang et al. | Winning on the merits: The joint effects of content and style on debate outcomes | |
Piao et al. | A feasibility study on extracting twitter users' interests using nlp tools for serendipitous connections | |
Tsakalidis et al. | An ensemble model for cross-domain polarity classification on twitter | |
Simm et al. | Classification of short text comments by sentiment and actionability for voiceyourview | |
Baowaly et al. | Predicting the helpfulness of game reviews: A case study on the steam store | |
Er et al. | User-level twitter sentiment analysis with a hybrid approach | |
Shin et al. | What’s vs. how’s in online hotel reviews: Comparing information value of content and writing style with machine learning | |
Previti et al. | Fake news detection using time series and user features classification | |
Prüfer et al. | Data science for institutional and organizational economics | |
Argueta et al. | Multilingual emotion classifier using unsupervised pattern extraction from microblog data | |
Belkaroui et al. | Towards events tweet contextualization using social influence model and users conversations | |
Cury | Oscillation of tweet sentiments in the election of João Doria Jr. for Mayor | |
Sixto et al. | An approach to subjectivity detection on Twitter using the structured information | |
Mahalakshmi et al. | Influential detection in twitter using tweet quality analysis | |
Kanavos et al. | Fuzzy information diffusion in twitter by considering user’s influence | |
JP6566755B2 (ja) | 解析対象発言抽出装置、解析対象発言抽出方法及びコンピュータプログラム | |
Rubtsova | Automatic term extraction for sentiment classification of dynamically updated text collections into three classes | |
Mahfuzh et al. | Improving joint layer RNN based keyphrase extraction by using syntactical features | |
Hajare et al. | A machine learning pipeline to examine political bias with congressional speeches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20150716 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190401 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190730 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6566755 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |