JP2017027102A - 偏向グループ抽出装置、偏向グループ抽出方法及びコンピュータプログラム - Google Patents

偏向グループ抽出装置、偏向グループ抽出方法及びコンピュータプログラム Download PDF

Info

Publication number
JP2017027102A
JP2017027102A JP2015141535A JP2015141535A JP2017027102A JP 2017027102 A JP2017027102 A JP 2017027102A JP 2015141535 A JP2015141535 A JP 2015141535A JP 2015141535 A JP2015141535 A JP 2015141535A JP 2017027102 A JP2017027102 A JP 2017027102A
Authority
JP
Japan
Prior art keywords
user
group
topic
deflection
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015141535A
Other languages
English (en)
Other versions
JP6566755B2 (ja
Inventor
亮博 小林
Akihiro Kobayashi
亮博 小林
一則 松本
Kazunori Matsumoto
一則 松本
啓一郎 帆足
Keiichiro Hoashi
啓一郎 帆足
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2015141535A priority Critical patent/JP6566755B2/ja
Publication of JP2017027102A publication Critical patent/JP2017027102A/ja
Application granted granted Critical
Publication of JP6566755B2 publication Critical patent/JP6566755B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】電子会議室やSNS等の発言の場に参加したユーザの中から考え方が偏っているユーザのグループを抽出すること。【解決手段】ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出部11と、ユーザ毎にコメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出部12と、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類部13と、各ユーザグループの話題の幅を評価する話題幅評価部14と、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力部16と、を備える。【選択図】図1

Description

本発明は、偏向グループ抽出装置、偏向グループ抽出方法及びコンピュータプログラムに関する。
近年、SNS(Social Networking Service、ソーシャル・ネットワーキング・サービス)のユーザがSNSを利用して投稿したコメント文章を解析する技術が知られている。例えばTwitter(登録商標)に関する非特許文献1,2,3などが知られている。
非特許文献1では、比較的短文のコメント文章に対して、単語の表記揺れの緩和などの前処理を行った後に制約付きクラスタリングを適用する。
非特許文献2では、影響力のある発言を行うユーザのランク付けを、PageRankアルゴリズムを使用して行う。
非特許文献3では、ユーザが情報発信を指向しているかどうかを、ユーザのフォロー関係によって判定する方法や、ユーザのコメント文章の「お気に入り」に登録される頻度によって判定する方法を提案している。
また、特許文献1では、ソーシャル・メディアにおいて、ユーザの発言がどの程度伝搬したかを計測し、広く伝搬されている発言をしたユーザをインフルエンサーとして抽出する。
特開2012−078933号公報
青島傳隼、福田直樹、横山昌平、石川博、"マイクロブログを対象とした制約付きクラスタリングの実現"、DEIM2010、2010年 J. J., Jianshu Weng, Ee-peng Lim, Q. He, "Twitter-rank: Finding topic-sensitive influential twitterers", Web Information and Data Management, 2010. 田中淳史、田島敬史、"twitter のツイートに関する分類手法の提案"、DEIM2010、2010年 J. Eisenstein, et.al. , "A Latent Variable Model for Geographic Lexical Variation", EMNLP2010、[online]、[平成27年6月25日検索]、インターネット<URL:http://www.cs.cmu.edu/~nasmith/papers/eisenstein+oconnor+smith+xing.emnlp10.pdf> Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, "Efficient Estimation of Word Representations in Vector Space", In Proceedings of Workshop at ICLR, 2013.
しかし、上述した従来の技術では、考え方が偏っているユーザを抽出することができない。
本発明は、このような事情を考慮してなされたものであり、電子会議室やSNS等の発言の場に参加したユーザの中から考え方が偏っているユーザのグループを抽出することができる偏向グループ抽出装置、偏向グループ抽出方法及びコンピュータプログラムを提供することを課題とする。
(1)本発明の一態様は、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出部と、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出部と、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類部と、各ユーザグループの話題の幅を評価する話題幅評価部と、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力部と、を備える偏向グループ抽出装置である。
(2)本発明の一態様は、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出部と、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出部と、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類部と、各ユーザグループの話題の幅を評価する話題幅評価部と、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価部と、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力部と、を備える偏向グループ抽出装置である。
(3)本発明の一態様は、上記(2)の偏向グループ抽出装置において、前記偏向グループ情報出力部は、ユーザ全体の話題の中心からずれていると評価されたユーザグループよりも、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの方を大きく重み付けして、偏向グループ情報に含める、偏向グループ抽出装置である。
(4)本発明の一態様は、上記(2)又は(3)のいずれかの偏向グループ抽出装置において、前記話題中心評価部は、全ユーザのコメント文章に関する重心と各ユーザグループのコメント文章に関する重心との類似度に基づいて、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する、偏向グループ抽出装置である。
(5)本発明の一態様は、上記(4)の偏向グループ抽出装置において、前記類似度はコサイン距離である偏向グループ抽出装置である。
(6)本発明の一態様は、上記(1)から(5)のいずれかの偏向グループ抽出装置において、前記話題幅評価部は、各ユーザグループの特徴語の意味ベクトル空間上の類似度の平均値に基づいて、各ユーザグループの話題の幅を評価する、偏向グループ抽出装置である。
(7)本発明の一態様は、上記(6)の偏向グループ抽出装置において、前記意味ベクトル空間上の類似度はコサイン距離である偏向グループ抽出装置である。
(8)本発明の一態様は、偏向グループ抽出装置が、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、前記偏向グループ抽出装置が、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、前記偏向グループ抽出装置が、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、前記偏向グループ抽出装置が、各ユーザグループの話題の幅を評価する話題幅評価ステップと、前記偏向グループ抽出装置が、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力ステップと、を含む偏向グループ抽出方法である。
(9)本発明の一態様は、偏向グループ抽出装置が、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、前記偏向グループ抽出装置が、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、前記偏向グループ抽出装置が、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、前記偏向グループ抽出装置が、各ユーザグループの話題の幅を評価する話題幅評価ステップと、前記偏向グループ抽出装置が、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価ステップと、前記偏向グループ抽出装置が、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力ステップと、を含む偏向グループ抽出方法である。
(10)本発明の一態様は、コンピュータに、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、各ユーザグループの話題の幅を評価する話題幅評価ステップと、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力ステップと、を実行させるためのコンピュータプログラムである。
(11)本発明の一態様は、コンピュータに、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、各ユーザグループの話題の幅を評価する話題幅評価ステップと、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価ステップと、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力ステップと、を実行させるためのコンピュータプログラムである。
本発明によれば、電子会議室やSNS等の発言の場に参加したユーザの中から考え方が偏っているユーザのグループを抽出することができる。
本発明の一実施形態に係る偏向グループ抽出装置1を示す構成図である。 ユーザグループに対して設定された特徴語の構成例を示す図である。 本発明の一実施形態に係る話題の幅の評価方法を説明するための図である。 本発明の一実施形態に係る偏向グループの判定方法を説明するための図である。 本発明の一実施形態の偏向グループ抽出方法のフローチャートである。
以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の一実施形態に係る偏向グループ抽出装置1を示す構成図である。図1において、偏向グループ抽出装置1は、ユーザコメント抽出部11とユーザ特徴抽出部12とユーザ分類部13と話題幅評価部14と話題中心評価部15と偏向グループ情報出力部16を備える。
偏向グループ抽出装置1には、複数のSNSコメント101が入力される。SNSコメント101は、SNSのユーザがSNSを利用して投稿した一つのコメント文章のテキストデータである。SNSコメント101は、投稿者のユーザ識別情報(ユーザID)を有する。偏向グループ抽出装置1には、一つのSNSから取得されたSNSコメント101のみが入力されてもよく、又は、複数のSNSから取得されたSNSコメント101が入力されてもよい。
ユーザコメント抽出部11は、偏向グループ抽出装置1に入力された複数のSNSコメント101を、各SNSコメント101のユーザIDに基づいてユーザ毎にグループ分けする。これにより、ユーザID毎に、同一ユーザIDのSNSコメント101のみを集めたコメントグループ102が生成される。ユーザコメント抽出部11は、各ユーザIDのコメントグループ102をユーザ特徴抽出部12へ出力する。
なお、SNSコメント101のうち、他者のコメント文章が引用されたのみで投稿されたコメント文章のSNSコメント101については、グループ分けの対象外として削除してもよい。他者のコメント文章が引用されたのみで投稿されたコメント文章には、投稿者自身の考え方の特徴が反映されているとは限らない。このため、考え方が偏っているユーザを調べる上でノイズとなり得ることから、他者のコメント文章が引用されたのみで投稿されたコメント文章のSNSコメント101を、グループ分けの対象外として削除することは好ましい。他者のコメント文章が引用されたのみで投稿されたコメント文章として、例えば、他者のコメント文章の再投稿や、他者のコメント文章へのリンク情報(例えば、URL(Uniform Resource Locator))のみが記載されたコメント文章などが挙げられる。
ユーザ特徴抽出部12は、ユーザID毎に、コメントグループ102を使用してユーザの特徴を表すユーザ特徴情報を生成する。ユーザ特徴情報は、ユーザの考え方の特徴を表す情報であることが好ましい。本実施形態では、ユーザ特徴情報は、次式で表される特徴ベクトルViである。
Vi=k+k+・・・
但し、Viは、ユーザIDがuiであるユーザの特徴ベクトルである。wは、ユーザIDがuiであるコメントグループ102に含まれる単語である。kは、ユーザIDがuiであるコメントグループ102における単語wの出現頻度である。xは1以上の整数である。
特徴ベクトルViは、ユーザIDがuiであるユーザが投稿したコメント文章に使用された単語の出現頻度に基づく。ユーザが投稿したコメント文章には当該ユーザの考え方が反映されていると考えることができる。よって、特徴ベクトルViは、ユーザIDがuiであるユーザの考え方の特徴を表す情報として好ましい。
なお、特徴ベクトルViを構成する単語wは、同意語及び類義語を代表する一つの単語であることが好ましい。また、特徴ベクトルViを構成する単語wの総数(xの最大値)は、例えば、全ユーザIDに対して一定であってもよく、又は、各ユーザIDで異なっていてもよい。例えば、各ユーザIDにおいて、出現頻度が一定の値以上である単語wのみから特徴ベクトルViを構成してもよい。
ユーザ特徴抽出部12は、各ユーザID(ui)の特徴ベクトルViをユーザ分類部13へ出力する。
ユーザ分類部13は、各ユーザID(ui)の特徴ベクトルViに基づいてユーザをグループ分けする。本実施形態では、ユーザ分類部13は、各ユーザID(ui)の特徴ベクトルViをクラスタリングする。ユーザ分類部13は、クラスタリングにより生成されたクラスタに基づいて、同一グループに含めることが好ましいと判断したユーザID(ui)のユーザから構成されるユーザグループを生成する。ユーザグループのトピックには、当該ユーザグループに属する全ユーザID(ui)の特徴ベクトルViの単位ベクトル(単語w)のうち、他のユーザグループには現れずに当該ユーザグループに顕著に現れる単位ベクトル(単語w)が選ばれる。ユーザのグループ分けには、例えば非特許文献4に記載されるLDA(Latent Dirichlet Allocation)を使用してもよい。
ここで、ユーザグループのトピックの選択方法の例を説明する。トピックが選択される対象のユーザグループを、説明の便宜上、対象ユーザグループと称する。本例では、赤池情報量基準(AIC:Akaike's Information Criterion)に基づいて、対象ユーザグループに顕著に現れる単位ベクトル(単語)を選択する。
まず指標Info(Gi,tj)を算出する。指標Info(Gi,tj)は、単語tjがユーザグループGiの判別にどの程度役立つかを表す指標である。単語tjは、ユーザグループGiに属するユーザID(ui)の特徴ベクトルViに含まれる単語wである。指標Info(Gi,tj)は、以下に示す指標算出方法(ステップS101〜S103)により算出される。
(ステップS101)対象ユーザグループGiの単語集合Uを使用して、単語集合Uに含まれる単語tj毎に、以下の4種類の頻度n11,n12,n21,n22を算出する。単語集合Uは、対象ユーザグループGiに属する全ユーザID(ui)の特徴ベクトルViに含まれる全単語wから構成される。
n11=対象ユーザグループGiに属するユーザIDのSNSコメント101のうち単語tjを含むSNSコメント101の数
n12=対象ユーザグループGiに属するユーザIDのSNSコメント101のうち単語tjを含まないSNSコメント101の数
n21=対象ユーザグループGi以外のユーザグループに属するユーザIDのSNSコメント101のうち単語tjを含むSNSコメント101の数
n22=対象ユーザグループGi以外のユーザグループに属するユーザIDのSNSコメント101のうち単語tjを含まないSNSコメント101の数
(ステップS102)ステップS101で算出された頻度n11,n12,n21,n22に対して、赤池情報量規準に基づき、独立モデルに対する値MLL_IM(Gi,tj)と、従属モデルに対する値MLL_DM(Gi,tj)とを次式により算出する。
MLL_IM(Gi,tj)=(n11+n12)log(n11+n12)
+(n11+n21)log(n11+n21)
+(n21+n22)log(n21+n22)
+(n12+n22)log(n12+n22)
−2N(log(N))
MLL_DM(Gi,tj)=n11(log(n11))+n12(log(n12))+n21(log(n21))+n22(log(n22))−N(log(N))
但し、「N=n11+n12+n21+n22」である。
(ステップS103)ステップS102で算出された値MLL_IM(Gi,tj)と値MLL_DM(Gi,tj)を使用して、指標Info(Gi,tj)を次式により算出する。この指標Info(Gi,tj)は、単語tjが対象ユーザグループGiに偏って出現する不当割合を表す。
AIC_IM(Gi,tj)=−2×MLL_IM(Gi,tj)+2×2
AIC_DM(Gi,tj)=−2×MLL_DM(Gi,tj)+2×3
Info(Gi,tj)=AIC_IM(Gi,tj)−AIC_DM(Gi,tj)
次に、指標Info(Gi,tj)に基づいて、対象ユーザグループGiに顕著に現れる単位ベクトル(単語)を選択する。指標Info(Gi,tj)は、赤池情報量基準に基づいて、単語tjが対象ユーザグループGiの判別に役立つ程度が大きいほどに、大きい値になる。このことから、対象ユーザグループGiの単語集合Uに含まれる単語tjの中から、指標Info(Gi,tj)の値が大きい順に、対象ユーザグループGiのトピックにする単語を選択する。
以上が、ユーザグループのトピックの選択方法の例の説明である。
ユーザ分類部13は、各ユーザグループに対して特徴語を設定する。ユーザグループの特徴語には、当該ユーザグループのトピックに選択された単語が設定される。一つのユーザグループに対して設定される特徴語の総数は、全ユーザグループに対して一定であってもよく、又は、各ユーザグループで異なっていてもよい。例えば、各ユーザグループにおいて、指標Info(Gi,tj)が一定の値以上である単語tjのみを特徴語に設定してもよい。
図2は、ユーザグループに対して設定された特徴語の構成例を示す図である。図2の例では、グループ識別情報(グループID)が「G1」のユーザグループに対して、5個の特徴語「話」、「しれる」、「考える」、「自分」及び「人間」が設定された。また、グループIDが「G2」のユーザグループに対して、5個の特徴語「車両」、「特急」、「列車」、「発車」及び「編成」が設定された。
ユーザ分類部13は、各ユーザグループのユーザグループ情報103を、話題幅評価部14と話題中心評価部15へ出力する。ユーザグループ情報103は、当該ユーザグループに属する全ユーザIDと当該ユーザグループの全特徴語を有する。
話題幅評価部14は、各ユーザグループの話題の幅を評価する。以下に、ユーザグループの話題の幅の評価方法の例を説明する。
[話題の幅の評価方法の例]
一般に、話題の幅が狭いユーザグループでは、似通った話題が継続して発言されることが多いため、互いに共起しやすい特徴語が抽出される傾向がある。例えば、図2に例示されるグループID「G2」のユーザグループは、話題の幅が狭いユーザグループの例である。グループID「G2」のユーザグループでは、5個の特徴語「車両」、「特急」、「列車」、「発車」及び「編成」が抽出されたが、当該特徴語「車両」、「特急」、「列車」、「発車」及び「編成」は互いに共起しやすい特徴語と考えられる。このため、意味ベクトル空間上に各特徴語を射影すると、図3(a)に示すように、話題の幅が狭いユーザグループの特徴語は互いに近い位置に射影される。一方、図2に例示されるグループID「G2」のユーザグループは、話題の幅が広いユーザグループの例である。グループID「G1」のユーザグループでは、5個の特徴語「話」、「しれる」、「考える」、「自分」及び「人間」が抽出された。これら特徴語「話」、「しれる」、「考える」、「自分」及び「人間」を意味ベクトル空間上に射影すると、図3(b)に示すように、互いに遠い位置に射影される。
なお、特徴語を意味ベクトルに変換する方法として、例えば非特許文献5に記載される「word2vec」を利用してもよい。また、意味ベクトル空間の基底の学習には、全ユーザのSNSコメント101を使用してもよく、又は、新聞等の一般的な大規模コーパスを使用してもよい。例えば、図1に示される単語出現頻度辞書データベース200を使用して、意味ベクトル空間の基底の学習を行ってもよい。単語出現頻度辞書データベース200は、新聞やウェブ(Web)サイトやSNS等のメディアに投稿された多量のコメントから生成されたものである。単語出現頻度辞書データベース200は、各単語の出現頻度を検索可能な辞書データを格納する。
本実施形態では、2つの特徴語a,bの類似度を次の式(1)により算出する。
Figure 2017027102
但し、上記の式(1)において、mabは特徴語aと特徴語bの類似度であり、Xは特徴語aの意味ベクトルであり、Xは特徴語bの意味ベクトルである。式(1)において、分子は意味ベクトルXと意味ベクトルXの内積であり、分母は意味ベクトルXの長さと意味ベクトルXの長さの積である。式(1)の類似度mabは、特徴語aの意味ベクトルXと特徴語bの意味ベクトルXの間のコサイン距離である。
本実施形態では、ユーザグループGjに対して、次の式(2)により話題の幅Vを算出する。
Figure 2017027102
但し、上記の式(2)において、VはユーザグループGjの話題の幅であり、mabはユーザグループGjのユーザグループ情報103に含まれる特徴語aと特徴語bの上記の式(1)による類似度であり、NはユーザグループGjのユーザグループ情報103に含まれる特徴語の総数である。式(2)の話題の幅Vは、ユーザグループGjのユーザグループ情報103に含まれる特徴語の全ペアを対象にした類似度の平均値である。
話題幅評価部14は、上記の式(2)により各ユーザグループの話題の幅を算出する。話題幅評価部14は、算出した各ユーザグループの話題の幅について、狭いか否かを判定する。例えば、話題幅評価部14は、全ユーザグループのユーザグループ情報103を使用して、上記の式(2)により、全ユーザグループを総合した話題の幅を算出する。話題幅評価部14は、各ユーザグループの話題の幅を、全ユーザグループを総合した話題の幅と比較し、各ユーザグループの話題の幅について狭いか否かを判定する。話題幅評価部14は、全ユーザグループを総合した話題の幅に比して狭いと言える判定条件を満たす話題の幅であるユーザグループを、話題の幅が狭いユーザグループであると判定する。
なお、ユーザグループは、ユーザ分類部13のグループ分けによって話題が似通ったユーザの集合になる可能性がある。このため、各ユーザグループの話題の幅は、全ユーザグループを総合した話題の幅に比して狭くなると考えられる。但し、通常は話題の幅が相対的に広いユーザグループと狭いユーザグループが存在するので、話題の幅が相対的に狭いユーザグループを、話題の幅が狭いユーザグループであると判定してもよい。
以上がユーザグループの話題の幅の評価方法の例の説明である。
話題幅評価部14は、話題の幅の評価の結果、話題の幅が狭いと評価したユーザグループのグループIDと当該ユーザグループに属する全ユーザIDを偏向グループ情報出力部16へ出力する。
話題中心評価部15は、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する。以下に、話題の中心のずれの評価方法の例を説明する。
[話題の中心のずれの評価方法の例]
本実施形態では、ユーザグループGjに対して、次の式(3)により重心ベクトルgを算出する。
Figure 2017027102
但し、上記の式(3)において、gはユーザグループGjの重心ベクトルであり、nはユーザグループGjのコメント文章の総数である。xは、ユーザグループGjのn個のコメント文章のうちi番目のコメント文章の言語ベクトルである。言語ベクトルxは次式で表される。
=k+k+・・・
この言語ベクトルxにおいて、wは、i番目のコメント文章に含まれる一つの単語Wを示す単位ベクトルである。単位ベクトルwは、i番目のコメント文章に含まれる単語毎に決定される。kは、単語Wがi番目のコメント文章内に出現する回数である。言語ベクトルxは、ユーザグループGjのコメント文章毎に計算される。
本実施形態では、全ユーザの重心ベクトルgallとユーザグループGjの重心ベクトルgの類似度Sを、次の式(4)により算出する。
Figure 2017027102
但し、上記の式(4)において、Sは全ユーザの重心ベクトルgallとユーザグループGjの重心ベクトルgの類似度であり、gは上記の式(3)によるユーザグループGjの重心ベクトルであり、gallは全ユーザの重心ベクトルである。全ユーザの重心ベクトルgallは、全ユーザグループのコメント文章の言語ベクトルをxとし、全ユーザグループのコメント文章の総数をnとして、上記の式(3)により算出される。式(4)において、分子は全ユーザの重心ベクトルgallとユーザグループGjの重心ベクトルgの内積であり、分母は全ユーザの重心ベクトルgallの長さとユーザグループGjの重心ベクトルgの長さの積である。式(4)の類似度Sは、全ユーザの重心ベクトルgallとユーザグループGjの重心ベクトルgの間のコサイン距離である。
なお、全ユーザの重心ベクトルの算出には、全ユーザのSNSコメント101を使用してもよく、又は、新聞等の一般的な大規模コーパスを使用してもよい。例えば、図1に示される単語出現頻度辞書データベース200を使用して、全ユーザの重心ベクトルの算出を行ってもよい。
話題中心評価部15は、各ユーザグループについて、上記の式(4)により、全ユーザの重心ベクトルとユーザグループの重心ベクトルの類似度を算出する。話題中心評価部15は、上記の式(4)により算出した各ユーザグループの類似度のうち所定の閾値以下である類似度のユーザグループを、話題の中心がユーザ全体の話題の中心からずれているユーザグループであると判定する。
以上が話題の中心のずれの評価方法の例の説明である。
話題中心評価部15は、話題の中心のずれの評価の結果、話題の中心がユーザ全体の話題の中心からずれていると評価したユーザグループのグループIDと当該ユーザグループに属する全ユーザIDを偏向グループ情報出力部16へ出力する。
偏向グループ情報出力部16は偏向グループ情報104を出力する。偏向グループ情報104は、考え方が偏っているユーザのグループであると判定されたユーザグループの情報である。考え方が偏っているユーザのグループであると判定されたユーザグループのことを、偏向グループと称する。偏向グループ情報104は、偏向グループのグループIDと、偏向グループに属する全ユーザIDの情報105とを有する。以下、偏向グループの判定方法の例を説明する。
図4に示されるように、全ユーザの発言により張られる言語空間30と、あるユーザグループの発言により張られる言語空間32とは、通常、話題の幅や中心が異なると考えられる。このため、本実施形態では、話題の幅や中心の比較によって、ユーザグループが偏向グループであるかを判定する。
[偏向グループの判定方法の例1]
偏向グループの判定方法の例1では、話題の幅が狭いと評価されたユーザグループのみを偏向グループとする。偏向グループ情報出力部16には、話題幅評価部14から、話題の幅が狭いと評価されたユーザグループのグループIDが入力される。偏向グループ情報出力部16は、話題幅評価部14から入力されたユーザグループのグループIDのみを、偏向グループのグループIDとする。
なお、偏向グループの判定方法の例1を適用する場合には、話題の中心の評価結果は使用されないので、偏向グループ抽出装置1に話題中心評価部15を備えなくてもよい。
[偏向グループの判定方法の例2]
偏向グループの判定方法の例2では、話題の幅が狭いと評価された、且つ、話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループのみを偏向グループとする。偏向グループ情報出力部16には、話題幅評価部14から、話題の幅が狭いと評価されたユーザグループのグループIDが入力される。また、偏向グループ情報出力部16には、話題中心評価部15から、話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループのグループIDが入力される。偏向グループ情報出力部16は、話題幅評価部14と話題中心評価部15の両方から重複して入力されたユーザグループのグループIDのみを、偏向グループのグループIDとする。
[偏向グループの判定方法の例3]
偏向グループの判定方法の例3では、少なくとも、話題の幅が狭いと評価された、又は、話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループのみを偏向グループとする。偏向グループ情報出力部16には、話題幅評価部14から、話題の幅が狭いと評価されたユーザグループのグループIDが入力される。また、偏向グループ情報出力部16には、話題中心評価部15から、話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループのグループIDが入力される。偏向グループ情報出力部16は、少なくとも話題幅評価部14又は話題中心評価部15から入力されたユーザグループのグループIDのみを、偏向グループのグループIDとする。
なお、偏向グループの判定方法の例3を適用する場合、話題中心評価部15のみから入力されたユーザグループのグループIDよりも、少なくとも話題幅評価部14から入力されたユーザグループのグループIDの方を大きく重み付けして、偏向グループ情報104に含めてもよい。
次に、図5を参照して本実施形態の偏向グループ抽出方法を説明する。図5は、本実施形態の偏向グループ抽出方法のフローチャートである。
(ステップS1)ユーザコメント抽出部11が、偏向グループ抽出装置1に入力された複数のSNSコメント101をユーザ毎にグループ分けする。
(ステップS2)ユーザ特徴抽出部12が、ステップS1のグループ分けの結果を使用して、各ユーザの特徴ベクトルを算出する。
(ステップS3)ユーザ分類部13が、各ユーザの特徴ベクトルに基づいてユーザをグループ分けする。
(ステップS4)話題幅評価部14が、ステップS3のグループ分けの結果の各ユーザグループについて話題の幅を評価する。
(ステップS5)話題中心評価部15が、ステップS3のグループ分けの結果の各ユーザグループについて、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する。
(ステップS6)偏向グループ情報出力部16が、偏向グループ情報104を出力する。
上述した実施形態によれば、SNSの発言の場に参加したユーザの中から考え方が偏っているユーザのグループを抽出することができる。これにより、例えば以下に示す効果が得られる。
近年、SNSにより発言された内容を解析することによって、マーケットの動向を調査することが行われている。ここで、SNSの発言の場では一部のユーザが特定の商品や企業に対して、否定的な意見を大量に発言するといった行為が行われる場合がある。このような場合、SNSによる発言内容の統計解析を行った際に、大多数のユーザの動向とは異なる傾向が現れる可能性があった。このような課題に対して、本実施形態によれば、偏向グループ情報に基づいて、考え方が偏っているユーザによる発言を解析の対象から除外することができる。これにより、SNSにより発言された内容に基づいたマーケットの動向の調査の精度が向上する効果が得られる。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
上述の実施形態では、ユーザの発言の場としてSNSに適用したが、ユーザの発言の場として、例えばSNS、電子会議室、ブログのコメント欄などの様々な発言の場に適用可能である。また、通信ネットワークを介したオンラインでのユーザの発言の場のみに限定されず、オフラインでのユーザの発言の場にも適用可能である。オフラインでのユーザの発言の場として、例えば、実際にユーザが口頭で発言する会議や、新聞等の紙媒体の投稿欄、街頭アンケート等のアンケート回答などが挙げられる。オフラインでのユーザの発言の場で発言されたコメントや文書によるコメントについては、テキストデータに変換したコメント文章にユーザIDを付加して偏向グループ抽出装置1に入力する。
上述の実施形態では、ユーザ特徴情報としてユーザの特徴ベクトルを使用したが、ユーザ特徴情報は、ユーザの特徴を表す情報であればよく、さらにはユーザの考え方の特徴を表す情報であればより好ましく、ユーザの特徴ベクトルに限定されない。
また、上述した偏向グループ抽出装置1の機能を実現するためのコンピュータプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するようにしてもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
1…偏向グループ抽出装置、11…ユーザコメント抽出部、12…ユーザ特徴抽出部、13…ユーザ分類部、14…話題幅評価部、15…話題中心評価部、16…偏向グループ情報出力部、200…単語出現頻度辞書データベース

Claims (11)

  1. ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出部と、
    ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出部と、
    各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類部と、
    各ユーザグループの話題の幅を評価する話題幅評価部と、
    各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力部と、
    を備える偏向グループ抽出装置。
  2. ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出部と、
    ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出部と、
    各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類部と、
    各ユーザグループの話題の幅を評価する話題幅評価部と、
    各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価部と、
    各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力部と、
    を備える偏向グループ抽出装置。
  3. 前記偏向グループ情報出力部は、ユーザ全体の話題の中心からずれていると評価されたユーザグループよりも、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの方を大きく重み付けして、偏向グループ情報に含める、
    請求項2に記載の偏向グループ抽出装置。
  4. 前記話題中心評価部は、全ユーザのコメント文章に関する重心と各ユーザグループのコメント文章に関する重心との類似度に基づいて、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する、
    請求項2又は3のいずれか1項に記載の偏向グループ抽出装置。
  5. 前記類似度はコサイン距離である請求項4に記載の偏向グループ抽出装置。
  6. 前記話題幅評価部は、各ユーザグループの特徴語の意味ベクトル空間上の類似度の平均値に基づいて、各ユーザグループの話題の幅を評価する、
    請求項1から5のいずれか1項に記載の偏向グループ抽出装置。
  7. 前記意味ベクトル空間上の類似度はコサイン距離である請求項6に記載の偏向グループ抽出装置。
  8. 偏向グループ抽出装置が、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、
    前記偏向グループ抽出装置が、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、
    前記偏向グループ抽出装置が、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、
    前記偏向グループ抽出装置が、各ユーザグループの話題の幅を評価する話題幅評価ステップと、
    前記偏向グループ抽出装置が、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力ステップと、
    を含む偏向グループ抽出方法。
  9. 偏向グループ抽出装置が、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、
    前記偏向グループ抽出装置が、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、
    前記偏向グループ抽出装置が、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、
    前記偏向グループ抽出装置が、各ユーザグループの話題の幅を評価する話題幅評価ステップと、
    前記偏向グループ抽出装置が、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価ステップと、
    前記偏向グループ抽出装置が、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力ステップと、
    を含む偏向グループ抽出方法。
  10. コンピュータに、
    ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、
    ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、
    各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、
    各ユーザグループの話題の幅を評価する話題幅評価ステップと、
    各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力ステップと、
    を実行させるためのコンピュータプログラム。
  11. コンピュータに、
    ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、
    ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、
    各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、
    各ユーザグループの話題の幅を評価する話題幅評価ステップと、
    各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価ステップと、
    各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力ステップと、
    を実行させるためのコンピュータプログラム。
JP2015141535A 2015-07-15 2015-07-15 解析対象発言抽出装置、解析対象発言抽出方法及びコンピュータプログラム Active JP6566755B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015141535A JP6566755B2 (ja) 2015-07-15 2015-07-15 解析対象発言抽出装置、解析対象発言抽出方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015141535A JP6566755B2 (ja) 2015-07-15 2015-07-15 解析対象発言抽出装置、解析対象発言抽出方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2017027102A true JP2017027102A (ja) 2017-02-02
JP6566755B2 JP6566755B2 (ja) 2019-08-28

Family

ID=57949755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015141535A Active JP6566755B2 (ja) 2015-07-15 2015-07-15 解析対象発言抽出装置、解析対象発言抽出方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6566755B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011118723A1 (ja) * 2010-03-26 2011-09-29 日本電気株式会社 意味抽出装置、意味抽出方法、および、記録媒体
JP2013089086A (ja) * 2011-10-19 2013-05-13 Nippon Telegr & Teleph Corp <Ntt> 話題推薦装置及び方法及びプログラム
JP2013214133A (ja) * 2012-03-30 2013-10-17 Sony Corp 情報処理装置、情報処理方法及びプログラム
US20150113651A1 (en) * 2013-10-21 2015-04-23 Electronics And Telecommunications Research Institute Spammer group extraction apparatus and method
JP2015088078A (ja) * 2013-11-01 2015-05-07 株式会社日立パワーソリューションズ 異常予兆検知システム及び異常予兆検知方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011118723A1 (ja) * 2010-03-26 2011-09-29 日本電気株式会社 意味抽出装置、意味抽出方法、および、記録媒体
JP2013089086A (ja) * 2011-10-19 2013-05-13 Nippon Telegr & Teleph Corp <Ntt> 話題推薦装置及び方法及びプログラム
JP2013214133A (ja) * 2012-03-30 2013-10-17 Sony Corp 情報処理装置、情報処理方法及びプログラム
US20150113651A1 (en) * 2013-10-21 2015-04-23 Electronics And Telecommunications Research Institute Spammer group extraction apparatus and method
JP2015088078A (ja) * 2013-11-01 2015-05-07 株式会社日立パワーソリューションズ 異常予兆検知システム及び異常予兆検知方法

Also Published As

Publication number Publication date
JP6566755B2 (ja) 2019-08-28

Similar Documents

Publication Publication Date Title
Farnadi et al. Computational personality recognition in social media
El Alaoui et al. A novel adaptable approach for sentiment analysis on big social data
Zimbra et al. Brand-related Twitter sentiment analysis using feature engineering and the dynamic architecture for artificial neural networks
Yang et al. Twitter financial community sentiment and its predictive relationship to stock market movement
Bamman et al. Gender identity and lexical variation in social media
US9747895B1 (en) Building language models for a user in a social network from linguistic information
Wang et al. Winning on the merits: The joint effects of content and style on debate outcomes
Piao et al. A feasibility study on extracting twitter users' interests using nlp tools for serendipitous connections
Tsakalidis et al. An ensemble model for cross-domain polarity classification on twitter
Simm et al. Classification of short text comments by sentiment and actionability for voiceyourview
Baowaly et al. Predicting the helpfulness of game reviews: A case study on the steam store
Er et al. User-level twitter sentiment analysis with a hybrid approach
Shin et al. What’s vs. how’s in online hotel reviews: Comparing information value of content and writing style with machine learning
Previti et al. Fake news detection using time series and user features classification
Prüfer et al. Data science for institutional and organizational economics
Argueta et al. Multilingual emotion classifier using unsupervised pattern extraction from microblog data
Belkaroui et al. Towards events tweet contextualization using social influence model and users conversations
Cury Oscillation of tweet sentiments in the election of João Doria Jr. for Mayor
Sixto et al. An approach to subjectivity detection on Twitter using the structured information
Mahalakshmi et al. Influential detection in twitter using tweet quality analysis
Kanavos et al. Fuzzy information diffusion in twitter by considering user’s influence
JP6566755B2 (ja) 解析対象発言抽出装置、解析対象発言抽出方法及びコンピュータプログラム
Rubtsova Automatic term extraction for sentiment classification of dynamically updated text collections into three classes
Mahfuzh et al. Improving joint layer RNN based keyphrase extraction by using syntactical features
Hajare et al. A machine learning pipeline to examine political bias with congressional speeches

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150716

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190730

R150 Certificate of patent or registration of utility model

Ref document number: 6566755

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150