JP2017027102A

JP2017027102A - 偏向グループ抽出装置、偏向グループ抽出方法及びコンピュータプログラム

Info

Publication number: JP2017027102A
Application number: JP2015141535A
Authority: JP
Inventors: 亮博小林; Akihiro Kobayashi; 一則松本; Kazunori Matsumoto; 啓一郎帆足; Keiichiro Hoashi
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2015-07-15
Filing date: 2015-07-15
Publication date: 2017-02-02
Anticipated expiration: 2035-07-15
Also published as: JP6566755B2

Abstract

【課題】電子会議室やＳＮＳ等の発言の場に参加したユーザの中から考え方が偏っているユーザのグループを抽出すること。【解決手段】ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出部１１と、ユーザ毎にコメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出部１２と、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類部１３と、各ユーザグループの話題の幅を評価する話題幅評価部１４と、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力部１６と、を備える。【選択図】図１

Description

本発明は、偏向グループ抽出装置、偏向グループ抽出方法及びコンピュータプログラムに関する。

近年、ＳＮＳ（Social Networking Service、ソーシャル・ネットワーキング・サービス）のユーザがＳＮＳを利用して投稿したコメント文章を解析する技術が知られている。例えばTwitter（登録商標）に関する非特許文献１，２，３などが知られている。
非特許文献１では、比較的短文のコメント文章に対して、単語の表記揺れの緩和などの前処理を行った後に制約付きクラスタリングを適用する。
非特許文献２では、影響力のある発言を行うユーザのランク付けを、PageRankアルゴリズムを使用して行う。
非特許文献３では、ユーザが情報発信を指向しているかどうかを、ユーザのフォロー関係によって判定する方法や、ユーザのコメント文章の「お気に入り」に登録される頻度によって判定する方法を提案している。

また、特許文献１では、ソーシャル・メディアにおいて、ユーザの発言がどの程度伝搬したかを計測し、広く伝搬されている発言をしたユーザをインフルエンサーとして抽出する。

特開２０１２−０７８９３３号公報

青島傳隼、福田直樹、横山昌平、石川博、"マイクロブログを対象とした制約付きクラスタリングの実現"、DEIM2010、2010年 J. J., Jianshu Weng, Ee-peng Lim, Q. He, "Twitter-rank: Finding topic-sensitive influential twitterers", Web Information and Data Management, 2010. 田中淳史、田島敬史、"twitter のツイートに関する分類手法の提案"、DEIM2010、2010年 J. Eisenstein, et.al. , "A Latent Variable Model for Geographic Lexical Variation", EMNLP2010、[online]、［平成２７年６月２５日検索］、インターネット＜ＵＲＬ：http://www.cs.cmu.edu/~nasmith/papers/eisenstein+oconnor+smith+xing.emnlp10.pdf＞ Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean, "Efficient Estimation of Word Representations in Vector Space", In Proceedings of Workshop at ICLR, 2013.

しかし、上述した従来の技術では、考え方が偏っているユーザを抽出することができない。

本発明は、このような事情を考慮してなされたものであり、電子会議室やＳＮＳ等の発言の場に参加したユーザの中から考え方が偏っているユーザのグループを抽出することができる偏向グループ抽出装置、偏向グループ抽出方法及びコンピュータプログラムを提供することを課題とする。

（１）本発明の一態様は、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出部と、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出部と、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類部と、各ユーザグループの話題の幅を評価する話題幅評価部と、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力部と、を備える偏向グループ抽出装置である。
（２）本発明の一態様は、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出部と、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出部と、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類部と、各ユーザグループの話題の幅を評価する話題幅評価部と、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価部と、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力部と、を備える偏向グループ抽出装置である。
（３）本発明の一態様は、上記（２）の偏向グループ抽出装置において、前記偏向グループ情報出力部は、ユーザ全体の話題の中心からずれていると評価されたユーザグループよりも、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの方を大きく重み付けして、偏向グループ情報に含める、偏向グループ抽出装置である。
（４）本発明の一態様は、上記（２）又は（３）のいずれかの偏向グループ抽出装置において、前記話題中心評価部は、全ユーザのコメント文章に関する重心と各ユーザグループのコメント文章に関する重心との類似度に基づいて、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する、偏向グループ抽出装置である。
（５）本発明の一態様は、上記（４）の偏向グループ抽出装置において、前記類似度はコサイン距離である偏向グループ抽出装置である。
（６）本発明の一態様は、上記（１）から（５）のいずれかの偏向グループ抽出装置において、前記話題幅評価部は、各ユーザグループの特徴語の意味ベクトル空間上の類似度の平均値に基づいて、各ユーザグループの話題の幅を評価する、偏向グループ抽出装置である。
（７）本発明の一態様は、上記（６）の偏向グループ抽出装置において、前記意味ベクトル空間上の類似度はコサイン距離である偏向グループ抽出装置である。

（８）本発明の一態様は、偏向グループ抽出装置が、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、前記偏向グループ抽出装置が、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、前記偏向グループ抽出装置が、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、前記偏向グループ抽出装置が、各ユーザグループの話題の幅を評価する話題幅評価ステップと、前記偏向グループ抽出装置が、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力ステップと、を含む偏向グループ抽出方法である。
（９）本発明の一態様は、偏向グループ抽出装置が、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、前記偏向グループ抽出装置が、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、前記偏向グループ抽出装置が、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、前記偏向グループ抽出装置が、各ユーザグループの話題の幅を評価する話題幅評価ステップと、前記偏向グループ抽出装置が、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価ステップと、前記偏向グループ抽出装置が、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力ステップと、を含む偏向グループ抽出方法である。

（１０）本発明の一態様は、コンピュータに、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、各ユーザグループの話題の幅を評価する話題幅評価ステップと、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力ステップと、を実行させるためのコンピュータプログラムである。

（１１）本発明の一態様は、コンピュータに、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、各ユーザグループの話題の幅を評価する話題幅評価ステップと、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価ステップと、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力ステップと、を実行させるためのコンピュータプログラムである。

本発明によれば、電子会議室やＳＮＳ等の発言の場に参加したユーザの中から考え方が偏っているユーザのグループを抽出することができる。

本発明の一実施形態に係る偏向グループ抽出装置１を示す構成図である。ユーザグループに対して設定された特徴語の構成例を示す図である。本発明の一実施形態に係る話題の幅の評価方法を説明するための図である。本発明の一実施形態に係る偏向グループの判定方法を説明するための図である。本発明の一実施形態の偏向グループ抽出方法のフローチャートである。

以下、図面を参照し、本発明の実施形態について説明する。
図１は、本発明の一実施形態に係る偏向グループ抽出装置１を示す構成図である。図１において、偏向グループ抽出装置１は、ユーザコメント抽出部１１とユーザ特徴抽出部１２とユーザ分類部１３と話題幅評価部１４と話題中心評価部１５と偏向グループ情報出力部１６を備える。

偏向グループ抽出装置１には、複数のＳＮＳコメント１０１が入力される。ＳＮＳコメント１０１は、ＳＮＳのユーザがＳＮＳを利用して投稿した一つのコメント文章のテキストデータである。ＳＮＳコメント１０１は、投稿者のユーザ識別情報（ユーザＩＤ）を有する。偏向グループ抽出装置１には、一つのＳＮＳから取得されたＳＮＳコメント１０１のみが入力されてもよく、又は、複数のＳＮＳから取得されたＳＮＳコメント１０１が入力されてもよい。

ユーザコメント抽出部１１は、偏向グループ抽出装置１に入力された複数のＳＮＳコメント１０１を、各ＳＮＳコメント１０１のユーザＩＤに基づいてユーザ毎にグループ分けする。これにより、ユーザＩＤ毎に、同一ユーザＩＤのＳＮＳコメント１０１のみを集めたコメントグループ１０２が生成される。ユーザコメント抽出部１１は、各ユーザＩＤのコメントグループ１０２をユーザ特徴抽出部１２へ出力する。

なお、ＳＮＳコメント１０１のうち、他者のコメント文章が引用されたのみで投稿されたコメント文章のＳＮＳコメント１０１については、グループ分けの対象外として削除してもよい。他者のコメント文章が引用されたのみで投稿されたコメント文章には、投稿者自身の考え方の特徴が反映されているとは限らない。このため、考え方が偏っているユーザを調べる上でノイズとなり得ることから、他者のコメント文章が引用されたのみで投稿されたコメント文章のＳＮＳコメント１０１を、グループ分けの対象外として削除することは好ましい。他者のコメント文章が引用されたのみで投稿されたコメント文章として、例えば、他者のコメント文章の再投稿や、他者のコメント文章へのリンク情報（例えば、ＵＲＬ（Uniform Resource Locator））のみが記載されたコメント文章などが挙げられる。

ユーザ特徴抽出部１２は、ユーザＩＤ毎に、コメントグループ１０２を使用してユーザの特徴を表すユーザ特徴情報を生成する。ユーザ特徴情報は、ユーザの考え方の特徴を表す情報であることが好ましい。本実施形態では、ユーザ特徴情報は、次式で表される特徴ベクトルＶｉである。

Ｖｉ＝ｋ_１ｗ_１＋ｋ_２ｗ_２＋・・・
但し、Ｖｉは、ユーザＩＤがｕｉであるユーザの特徴ベクトルである。ｗ_ｘは、ユーザＩＤがｕｉであるコメントグループ１０２に含まれる単語である。ｋ_ｘは、ユーザＩＤがｕｉであるコメントグループ１０２における単語ｗ_ｘの出現頻度である。ｘは１以上の整数である。

特徴ベクトルＶｉは、ユーザＩＤがｕｉであるユーザが投稿したコメント文章に使用された単語の出現頻度に基づく。ユーザが投稿したコメント文章には当該ユーザの考え方が反映されていると考えることができる。よって、特徴ベクトルＶｉは、ユーザＩＤがｕｉであるユーザの考え方の特徴を表す情報として好ましい。

なお、特徴ベクトルＶｉを構成する単語ｗ_ｘは、同意語及び類義語を代表する一つの単語であることが好ましい。また、特徴ベクトルＶｉを構成する単語ｗ_ｘの総数（ｘの最大値）は、例えば、全ユーザＩＤに対して一定であってもよく、又は、各ユーザＩＤで異なっていてもよい。例えば、各ユーザＩＤにおいて、出現頻度が一定の値以上である単語ｗ_ｘのみから特徴ベクトルＶｉを構成してもよい。

ユーザ特徴抽出部１２は、各ユーザＩＤ（ｕｉ）の特徴ベクトルＶｉをユーザ分類部１３へ出力する。

ユーザ分類部１３は、各ユーザＩＤ（ｕｉ）の特徴ベクトルＶｉに基づいてユーザをグループ分けする。本実施形態では、ユーザ分類部１３は、各ユーザＩＤ（ｕｉ）の特徴ベクトルＶｉをクラスタリングする。ユーザ分類部１３は、クラスタリングにより生成されたクラスタに基づいて、同一グループに含めることが好ましいと判断したユーザＩＤ（ｕｉ）のユーザから構成されるユーザグループを生成する。ユーザグループのトピックには、当該ユーザグループに属する全ユーザＩＤ（ｕｉ）の特徴ベクトルＶｉの単位ベクトル（単語ｗ_ｘ）のうち、他のユーザグループには現れずに当該ユーザグループに顕著に現れる単位ベクトル（単語ｗ_ｘ）が選ばれる。ユーザのグループ分けには、例えば非特許文献４に記載されるＬＤＡ（Latent Dirichlet Allocation）を使用してもよい。

ここで、ユーザグループのトピックの選択方法の例を説明する。トピックが選択される対象のユーザグループを、説明の便宜上、対象ユーザグループと称する。本例では、赤池情報量基準（ＡＩＣ：Akaike's Information Criterion）に基づいて、対象ユーザグループに顕著に現れる単位ベクトル（単語）を選択する。

まず指標Ｉｎｆｏ（Ｇｉ，ｔｊ）を算出する。指標Ｉｎｆｏ（Ｇｉ，ｔｊ）は、単語ｔｊがユーザグループＧｉの判別にどの程度役立つかを表す指標である。単語ｔｊは、ユーザグループＧｉに属するユーザＩＤ（ｕｉ）の特徴ベクトルＶｉに含まれる単語ｗ_ｘである。指標Ｉｎｆｏ（Ｇｉ，ｔｊ）は、以下に示す指標算出方法（ステップＳ１０１〜Ｓ１０３）により算出される。

（ステップＳ１０１）対象ユーザグループＧｉの単語集合Ｕを使用して、単語集合Ｕに含まれる単語ｔｊ毎に、以下の４種類の頻度ｎ１１，ｎ１２，ｎ２１，ｎ２２を算出する。単語集合Ｕは、対象ユーザグループＧｉに属する全ユーザＩＤ（ｕｉ）の特徴ベクトルＶｉに含まれる全単語ｗ_ｘから構成される。

ｎ１１＝対象ユーザグループＧｉに属するユーザＩＤのＳＮＳコメント１０１のうち単語ｔｊを含むＳＮＳコメント１０１の数
ｎ１２＝対象ユーザグループＧｉに属するユーザＩＤのＳＮＳコメント１０１のうち単語ｔｊを含まないＳＮＳコメント１０１の数
ｎ２１＝対象ユーザグループＧｉ以外のユーザグループに属するユーザＩＤのＳＮＳコメント１０１のうち単語ｔｊを含むＳＮＳコメント１０１の数
ｎ２２＝対象ユーザグループＧｉ以外のユーザグループに属するユーザＩＤのＳＮＳコメント１０１のうち単語ｔｊを含まないＳＮＳコメント１０１の数

（ステップＳ１０２）ステップＳ１０１で算出された頻度ｎ１１，ｎ１２，ｎ２１，ｎ２２に対して、赤池情報量規準に基づき、独立モデルに対する値ＭＬＬ＿ＩＭ（Ｇｉ，ｔｊ）と、従属モデルに対する値ＭＬＬ＿ＤＭ（Ｇｉ，ｔｊ）とを次式により算出する。

ＭＬＬ＿ＩＭ（Ｇｉ，ｔｊ）＝（ｎ１１＋ｎ１２）ｌｏｇ（ｎ１１＋ｎ１２）
＋（ｎ１１＋ｎ２１）ｌｏｇ（ｎ１１＋ｎ２１）
＋（ｎ２１＋ｎ２２）ｌｏｇ（ｎ２１＋ｎ２２）
＋（ｎ１２＋ｎ２２）ｌｏｇ（ｎ１２＋ｎ２２）
−２Ｎ（ｌｏｇ（Ｎ））

ＭＬＬ＿ＤＭ（Ｇｉ，ｔｊ）＝ｎ１１（ｌｏｇ（ｎ１１））＋ｎ１２（ｌｏｇ（ｎ１２））＋ｎ２１（ｌｏｇ（ｎ２１））＋ｎ２２（ｌｏｇ（ｎ２２））−Ｎ（ｌｏｇ（Ｎ））

但し、「Ｎ＝ｎ１１＋ｎ１２＋ｎ２１＋ｎ２２」である。

（ステップＳ１０３）ステップＳ１０２で算出された値ＭＬＬ＿ＩＭ（Ｇｉ，ｔｊ）と値ＭＬＬ＿ＤＭ（Ｇｉ，ｔｊ）を使用して、指標Ｉｎｆｏ（Ｇｉ，ｔｊ）を次式により算出する。この指標Ｉｎｆｏ（Ｇｉ，ｔｊ）は、単語ｔｊが対象ユーザグループＧｉに偏って出現する不当割合を表す。

ＡＩＣ＿ＩＭ（Ｇｉ，ｔｊ）＝−２×ＭＬＬ＿ＩＭ（Ｇｉ，ｔｊ）＋２×２
ＡＩＣ＿ＤＭ（Ｇｉ，ｔｊ）＝−２×ＭＬＬ＿ＤＭ（Ｇｉ，ｔｊ）＋２×３
Ｉｎｆｏ（Ｇｉ，ｔｊ）＝ＡＩＣ＿ＩＭ（Ｇｉ，ｔｊ）−ＡＩＣ＿ＤＭ（Ｇｉ，ｔｊ）

次に、指標Ｉｎｆｏ（Ｇｉ，ｔｊ）に基づいて、対象ユーザグループＧｉに顕著に現れる単位ベクトル（単語）を選択する。指標Ｉｎｆｏ（Ｇｉ，ｔｊ）は、赤池情報量基準に基づいて、単語ｔｊが対象ユーザグループＧｉの判別に役立つ程度が大きいほどに、大きい値になる。このことから、対象ユーザグループＧｉの単語集合Ｕに含まれる単語ｔｊの中から、指標Ｉｎｆｏ（Ｇｉ，ｔｊ）の値が大きい順に、対象ユーザグループＧｉのトピックにする単語を選択する。

以上が、ユーザグループのトピックの選択方法の例の説明である。

ユーザ分類部１３は、各ユーザグループに対して特徴語を設定する。ユーザグループの特徴語には、当該ユーザグループのトピックに選択された単語が設定される。一つのユーザグループに対して設定される特徴語の総数は、全ユーザグループに対して一定であってもよく、又は、各ユーザグループで異なっていてもよい。例えば、各ユーザグループにおいて、指標Ｉｎｆｏ（Ｇｉ，ｔｊ）が一定の値以上である単語ｔｊのみを特徴語に設定してもよい。

図２は、ユーザグループに対して設定された特徴語の構成例を示す図である。図２の例では、グループ識別情報（グループＩＤ）が「Ｇ１」のユーザグループに対して、５個の特徴語「話」、「しれる」、「考える」、「自分」及び「人間」が設定された。また、グループＩＤが「Ｇ２」のユーザグループに対して、５個の特徴語「車両」、「特急」、「列車」、「発車」及び「編成」が設定された。

ユーザ分類部１３は、各ユーザグループのユーザグループ情報１０３を、話題幅評価部１４と話題中心評価部１５へ出力する。ユーザグループ情報１０３は、当該ユーザグループに属する全ユーザＩＤと当該ユーザグループの全特徴語を有する。

話題幅評価部１４は、各ユーザグループの話題の幅を評価する。以下に、ユーザグループの話題の幅の評価方法の例を説明する。

［話題の幅の評価方法の例］
一般に、話題の幅が狭いユーザグループでは、似通った話題が継続して発言されることが多いため、互いに共起しやすい特徴語が抽出される傾向がある。例えば、図２に例示されるグループＩＤ「Ｇ２」のユーザグループは、話題の幅が狭いユーザグループの例である。グループＩＤ「Ｇ２」のユーザグループでは、５個の特徴語「車両」、「特急」、「列車」、「発車」及び「編成」が抽出されたが、当該特徴語「車両」、「特急」、「列車」、「発車」及び「編成」は互いに共起しやすい特徴語と考えられる。このため、意味ベクトル空間上に各特徴語を射影すると、図３（ａ）に示すように、話題の幅が狭いユーザグループの特徴語は互いに近い位置に射影される。一方、図２に例示されるグループＩＤ「Ｇ２」のユーザグループは、話題の幅が広いユーザグループの例である。グループＩＤ「Ｇ１」のユーザグループでは、５個の特徴語「話」、「しれる」、「考える」、「自分」及び「人間」が抽出された。これら特徴語「話」、「しれる」、「考える」、「自分」及び「人間」を意味ベクトル空間上に射影すると、図３（ｂ）に示すように、互いに遠い位置に射影される。

なお、特徴語を意味ベクトルに変換する方法として、例えば非特許文献５に記載される「word2vec」を利用してもよい。また、意味ベクトル空間の基底の学習には、全ユーザのＳＮＳコメント１０１を使用してもよく、又は、新聞等の一般的な大規模コーパスを使用してもよい。例えば、図１に示される単語出現頻度辞書データベース２００を使用して、意味ベクトル空間の基底の学習を行ってもよい。単語出現頻度辞書データベース２００は、新聞やウェブ（Web）サイトやＳＮＳ等のメディアに投稿された多量のコメントから生成されたものである。単語出現頻度辞書データベース２００は、各単語の出現頻度を検索可能な辞書データを格納する。

本実施形態では、２つの特徴語ａ，ｂの類似度を次の式（１）により算出する。

但し、上記の式（１）において、ｍ_ａｂは特徴語ａと特徴語ｂの類似度であり、Ｘ_ａは特徴語ａの意味ベクトルであり、Ｘ_ｂは特徴語ｂの意味ベクトルである。式（１）において、分子は意味ベクトルＸ_ａと意味ベクトルＸ_ｂの内積であり、分母は意味ベクトルＸ_ａの長さと意味ベクトルＸ_ｂの長さの積である。式（１）の類似度ｍ_ａｂは、特徴語ａの意味ベクトルＸ_ａと特徴語ｂの意味ベクトルＸ_ｂの間のコサイン距離である。

本実施形態では、ユーザグループＧｊに対して、次の式（２）により話題の幅Ｖ_ｊを算出する。

但し、上記の式（２）において、Ｖ_ｊはユーザグループＧｊの話題の幅であり、ｍ_ａｂはユーザグループＧｊのユーザグループ情報１０３に含まれる特徴語ａと特徴語ｂの上記の式（１）による類似度であり、ＮはユーザグループＧｊのユーザグループ情報１０３に含まれる特徴語の総数である。式（２）の話題の幅Ｖ_ｊは、ユーザグループＧｊのユーザグループ情報１０３に含まれる特徴語の全ペアを対象にした類似度の平均値である。

話題幅評価部１４は、上記の式（２）により各ユーザグループの話題の幅を算出する。話題幅評価部１４は、算出した各ユーザグループの話題の幅について、狭いか否かを判定する。例えば、話題幅評価部１４は、全ユーザグループのユーザグループ情報１０３を使用して、上記の式（２）により、全ユーザグループを総合した話題の幅を算出する。話題幅評価部１４は、各ユーザグループの話題の幅を、全ユーザグループを総合した話題の幅と比較し、各ユーザグループの話題の幅について狭いか否かを判定する。話題幅評価部１４は、全ユーザグループを総合した話題の幅に比して狭いと言える判定条件を満たす話題の幅であるユーザグループを、話題の幅が狭いユーザグループであると判定する。

なお、ユーザグループは、ユーザ分類部１３のグループ分けによって話題が似通ったユーザの集合になる可能性がある。このため、各ユーザグループの話題の幅は、全ユーザグループを総合した話題の幅に比して狭くなると考えられる。但し、通常は話題の幅が相対的に広いユーザグループと狭いユーザグループが存在するので、話題の幅が相対的に狭いユーザグループを、話題の幅が狭いユーザグループであると判定してもよい。

以上がユーザグループの話題の幅の評価方法の例の説明である。

話題幅評価部１４は、話題の幅の評価の結果、話題の幅が狭いと評価したユーザグループのグループＩＤと当該ユーザグループに属する全ユーザＩＤを偏向グループ情報出力部１６へ出力する。

話題中心評価部１５は、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する。以下に、話題の中心のずれの評価方法の例を説明する。

［話題の中心のずれの評価方法の例］
本実施形態では、ユーザグループＧｊに対して、次の式（３）により重心ベクトルｇ_ｊを算出する。

但し、上記の式（３）において、ｇ_ｊはユーザグループＧｊの重心ベクトルであり、ｎはユーザグループＧｊのコメント文章の総数である。ｘ_ｉは、ユーザグループＧｊのｎ個のコメント文章のうちｉ番目のコメント文章の言語ベクトルである。言語ベクトルｘ_ｉは次式で表される。
ｘ_ｉ＝ｋ_１ｗ_１＋ｋ_２ｗ_２＋・・・
この言語ベクトルｘ_ｉにおいて、ｗ_ｙは、ｉ番目のコメント文章に含まれる一つの単語Ｗ_ｙを示す単位ベクトルである。単位ベクトルｗ_ｙは、ｉ番目のコメント文章に含まれる単語毎に決定される。ｋ_ｙは、単語Ｗ_ｙがｉ番目のコメント文章内に出現する回数である。言語ベクトルｘ_ｉは、ユーザグループＧｊのコメント文章毎に計算される。

本実施形態では、全ユーザの重心ベクトルｇ_ａｌｌとユーザグループＧｊの重心ベクトルｇ_ｊの類似度Ｓ_ｊを、次の式（４）により算出する。

但し、上記の式（４）において、Ｓ_ｊは全ユーザの重心ベクトルｇ_ａｌｌとユーザグループＧｊの重心ベクトルｇ_ｊの類似度であり、ｇ_ｊは上記の式（３）によるユーザグループＧｊの重心ベクトルであり、ｇ_ａｌｌは全ユーザの重心ベクトルである。全ユーザの重心ベクトルｇ_ａｌｌは、全ユーザグループのコメント文章の言語ベクトルをｘ_ｉとし、全ユーザグループのコメント文章の総数をｎとして、上記の式（３）により算出される。式（４）において、分子は全ユーザの重心ベクトルｇ_ａｌｌとユーザグループＧｊの重心ベクトルｇ_ｊの内積であり、分母は全ユーザの重心ベクトルｇ_ａｌｌの長さとユーザグループＧｊの重心ベクトルｇ_ｊの長さの積である。式（４）の類似度Ｓ_ｊは、全ユーザの重心ベクトルｇ_ａｌｌとユーザグループＧｊの重心ベクトルｇ_ｊの間のコサイン距離である。

なお、全ユーザの重心ベクトルの算出には、全ユーザのＳＮＳコメント１０１を使用してもよく、又は、新聞等の一般的な大規模コーパスを使用してもよい。例えば、図１に示される単語出現頻度辞書データベース２００を使用して、全ユーザの重心ベクトルの算出を行ってもよい。

話題中心評価部１５は、各ユーザグループについて、上記の式（４）により、全ユーザの重心ベクトルとユーザグループの重心ベクトルの類似度を算出する。話題中心評価部１５は、上記の式（４）により算出した各ユーザグループの類似度のうち所定の閾値以下である類似度のユーザグループを、話題の中心がユーザ全体の話題の中心からずれているユーザグループであると判定する。

以上が話題の中心のずれの評価方法の例の説明である。

話題中心評価部１５は、話題の中心のずれの評価の結果、話題の中心がユーザ全体の話題の中心からずれていると評価したユーザグループのグループＩＤと当該ユーザグループに属する全ユーザＩＤを偏向グループ情報出力部１６へ出力する。

偏向グループ情報出力部１６は偏向グループ情報１０４を出力する。偏向グループ情報１０４は、考え方が偏っているユーザのグループであると判定されたユーザグループの情報である。考え方が偏っているユーザのグループであると判定されたユーザグループのことを、偏向グループと称する。偏向グループ情報１０４は、偏向グループのグループＩＤと、偏向グループに属する全ユーザＩＤの情報１０５とを有する。以下、偏向グループの判定方法の例を説明する。

図４に示されるように、全ユーザの発言により張られる言語空間３０と、あるユーザグループの発言により張られる言語空間３２とは、通常、話題の幅や中心が異なると考えられる。このため、本実施形態では、話題の幅や中心の比較によって、ユーザグループが偏向グループであるかを判定する。

［偏向グループの判定方法の例１］
偏向グループの判定方法の例１では、話題の幅が狭いと評価されたユーザグループのみを偏向グループとする。偏向グループ情報出力部１６には、話題幅評価部１４から、話題の幅が狭いと評価されたユーザグループのグループＩＤが入力される。偏向グループ情報出力部１６は、話題幅評価部１４から入力されたユーザグループのグループＩＤのみを、偏向グループのグループＩＤとする。

なお、偏向グループの判定方法の例１を適用する場合には、話題の中心の評価結果は使用されないので、偏向グループ抽出装置１に話題中心評価部１５を備えなくてもよい。

［偏向グループの判定方法の例２］
偏向グループの判定方法の例２では、話題の幅が狭いと評価された、且つ、話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループのみを偏向グループとする。偏向グループ情報出力部１６には、話題幅評価部１４から、話題の幅が狭いと評価されたユーザグループのグループＩＤが入力される。また、偏向グループ情報出力部１６には、話題中心評価部１５から、話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループのグループＩＤが入力される。偏向グループ情報出力部１６は、話題幅評価部１４と話題中心評価部１５の両方から重複して入力されたユーザグループのグループＩＤのみを、偏向グループのグループＩＤとする。

［偏向グループの判定方法の例３］
偏向グループの判定方法の例３では、少なくとも、話題の幅が狭いと評価された、又は、話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループのみを偏向グループとする。偏向グループ情報出力部１６には、話題幅評価部１４から、話題の幅が狭いと評価されたユーザグループのグループＩＤが入力される。また、偏向グループ情報出力部１６には、話題中心評価部１５から、話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループのグループＩＤが入力される。偏向グループ情報出力部１６は、少なくとも話題幅評価部１４又は話題中心評価部１５から入力されたユーザグループのグループＩＤのみを、偏向グループのグループＩＤとする。

なお、偏向グループの判定方法の例３を適用する場合、話題中心評価部１５のみから入力されたユーザグループのグループＩＤよりも、少なくとも話題幅評価部１４から入力されたユーザグループのグループＩＤの方を大きく重み付けして、偏向グループ情報１０４に含めてもよい。

次に、図５を参照して本実施形態の偏向グループ抽出方法を説明する。図５は、本実施形態の偏向グループ抽出方法のフローチャートである。

（ステップＳ１）ユーザコメント抽出部１１が、偏向グループ抽出装置１に入力された複数のＳＮＳコメント１０１をユーザ毎にグループ分けする。

（ステップＳ２）ユーザ特徴抽出部１２が、ステップＳ１のグループ分けの結果を使用して、各ユーザの特徴ベクトルを算出する。

（ステップＳ３）ユーザ分類部１３が、各ユーザの特徴ベクトルに基づいてユーザをグループ分けする。

（ステップＳ４）話題幅評価部１４が、ステップＳ３のグループ分けの結果の各ユーザグループについて話題の幅を評価する。

（ステップＳ５）話題中心評価部１５が、ステップＳ３のグループ分けの結果の各ユーザグループについて、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する。

（ステップＳ６）偏向グループ情報出力部１６が、偏向グループ情報１０４を出力する。

上述した実施形態によれば、ＳＮＳの発言の場に参加したユーザの中から考え方が偏っているユーザのグループを抽出することができる。これにより、例えば以下に示す効果が得られる。

近年、ＳＮＳにより発言された内容を解析することによって、マーケットの動向を調査することが行われている。ここで、ＳＮＳの発言の場では一部のユーザが特定の商品や企業に対して、否定的な意見を大量に発言するといった行為が行われる場合がある。このような場合、ＳＮＳによる発言内容の統計解析を行った際に、大多数のユーザの動向とは異なる傾向が現れる可能性があった。このような課題に対して、本実施形態によれば、偏向グループ情報に基づいて、考え方が偏っているユーザによる発言を解析の対象から除外することができる。これにより、ＳＮＳにより発言された内容に基づいたマーケットの動向の調査の精度が向上する効果が得られる。

以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。

上述の実施形態では、ユーザの発言の場としてＳＮＳに適用したが、ユーザの発言の場として、例えばＳＮＳ、電子会議室、ブログのコメント欄などの様々な発言の場に適用可能である。また、通信ネットワークを介したオンラインでのユーザの発言の場のみに限定されず、オフラインでのユーザの発言の場にも適用可能である。オフラインでのユーザの発言の場として、例えば、実際にユーザが口頭で発言する会議や、新聞等の紙媒体の投稿欄、街頭アンケート等のアンケート回答などが挙げられる。オフラインでのユーザの発言の場で発言されたコメントや文書によるコメントについては、テキストデータに変換したコメント文章にユーザＩＤを付加して偏向グループ抽出装置１に入力する。

上述の実施形態では、ユーザ特徴情報としてユーザの特徴ベクトルを使用したが、ユーザ特徴情報は、ユーザの特徴を表す情報であればよく、さらにはユーザの考え方の特徴を表す情報であればより好ましく、ユーザの特徴ベクトルに限定されない。

また、上述した偏向グループ抽出装置１の機能を実現するためのコンピュータプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するようにしてもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＤＶＤ（Digital Versatile Disk）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

１…偏向グループ抽出装置、１１…ユーザコメント抽出部、１２…ユーザ特徴抽出部、１３…ユーザ分類部、１４…話題幅評価部、１５…話題中心評価部、１６…偏向グループ情報出力部、２００…単語出現頻度辞書データベース

Claims

ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出部と、
ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出部と、
各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類部と、
各ユーザグループの話題の幅を評価する話題幅評価部と、
各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力部と、
を備える偏向グループ抽出装置。
ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出部と、
ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出部と、
各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類部と、
各ユーザグループの話題の幅を評価する話題幅評価部と、
各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価部と、
各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力部と、
を備える偏向グループ抽出装置。
前記偏向グループ情報出力部は、ユーザ全体の話題の中心からずれていると評価されたユーザグループよりも、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの方を大きく重み付けして、偏向グループ情報に含める、
請求項２に記載の偏向グループ抽出装置。
前記話題中心評価部は、全ユーザのコメント文章に関する重心と各ユーザグループのコメント文章に関する重心との類似度に基づいて、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する、
請求項２又は３のいずれか１項に記載の偏向グループ抽出装置。
前記類似度はコサイン距離である請求項４に記載の偏向グループ抽出装置。
前記話題幅評価部は、各ユーザグループの特徴語の意味ベクトル空間上の類似度の平均値に基づいて、各ユーザグループの話題の幅を評価する、
請求項１から５のいずれか１項に記載の偏向グループ抽出装置。
前記意味ベクトル空間上の類似度はコサイン距離である請求項６に記載の偏向グループ抽出装置。
偏向グループ抽出装置が、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、
前記偏向グループ抽出装置が、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、
前記偏向グループ抽出装置が、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、
前記偏向グループ抽出装置が、各ユーザグループの話題の幅を評価する話題幅評価ステップと、
前記偏向グループ抽出装置が、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力ステップと、
を含む偏向グループ抽出方法。
偏向グループ抽出装置が、ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、
前記偏向グループ抽出装置が、ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、
前記偏向グループ抽出装置が、各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、
前記偏向グループ抽出装置が、各ユーザグループの話題の幅を評価する話題幅評価ステップと、
前記偏向グループ抽出装置が、各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価ステップと、
前記偏向グループ抽出装置が、各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力ステップと、
を含む偏向グループ抽出方法。
コンピュータに、
ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、
ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、
各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、
各ユーザグループの話題の幅を評価する話題幅評価ステップと、
各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループの情報である偏向グループ情報を出力する偏向グループ情報出力ステップと、
を実行させるためのコンピュータプログラム。
コンピュータに、
ユーザによって投稿されたコメント文章をユーザ毎にグループ分けするユーザコメント抽出ステップと、
ユーザ毎に、コメント文章のグループを使用してユーザの特徴を表すユーザ特徴情報を生成するユーザ特徴抽出ステップと、
各ユーザのユーザ特徴情報に基づいてユーザをグループ分けするユーザ分類ステップと、
各ユーザグループの話題の幅を評価する話題幅評価ステップと、
各ユーザグループの話題の中心とユーザ全体の話題の中心とのずれを評価する話題中心評価ステップと、
各ユーザグループの話題の幅の中で狭いと評価された幅のユーザグループと話題の中心がユーザ全体の話題の中心からずれていると評価されたユーザグループに基づいて偏向グループ情報を出力する偏向グループ情報出力ステップと、
を実行させるためのコンピュータプログラム。