JP2013196070A - 投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法 - Google Patents

投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法 Download PDF

Info

Publication number
JP2013196070A
JP2013196070A JP2012059574A JP2012059574A JP2013196070A JP 2013196070 A JP2013196070 A JP 2013196070A JP 2012059574 A JP2012059574 A JP 2012059574A JP 2012059574 A JP2012059574 A JP 2012059574A JP 2013196070 A JP2013196070 A JP 2013196070A
Authority
JP
Japan
Prior art keywords
attribute
contributor
group
community
poster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012059574A
Other languages
English (en)
Other versions
JP5754854B2 (ja
Inventor
Kazufumi Ikeda
和史 池田
Hajime Hattori
元 服部
Toshihiro Ono
智弘 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2012059574A priority Critical patent/JP5754854B2/ja
Publication of JP2013196070A publication Critical patent/JP2013196070A/ja
Application granted granted Critical
Publication of JP5754854B2 publication Critical patent/JP5754854B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】SNSサイトサーバから得られる投稿者間の交流関係を用いて、できる限り正確なユーザのプロフィール情報を推定する投稿者分析装置等を提供する。
【解決手段】グループ情報を用いて、分析対象者に対するグループに属する複数のメンバ投稿者の投稿文を、ユーザテキストとして取得するユーザテキスト取得手段と、メンバ投稿者毎に、ユーザテキストに含まれるキーワードから、各属性種別の属性要素を抽出するメンバ属性要素抽出手段と、複数のメンバ投稿者を1つ以上のコミュニティグループに分類するコミュニティグループ抽出手段と、コミュニティ毎に、各属性種別における各属性要素の割合値を算出するコミュニティ属性要素抽出手段と、属性種別毎に、全てのコミュニティの中で最高の割合値となる属性要素を抽出するグループ属性要素抽出手段とを有し、抽出された属性要素を投稿者のプロフィール情報とする。
【選択図】図3

Description

本発明は、例えばSNS(Social Networking Service)のようなコミュニケーションサイトサーバの技術に関する。
近年、不特定多数の第三者が、SNSサイトサーバを介して、自らのコメント文章(テキスト情報)を活発に発信することができる。「SNSサイトサーバ」は、複数のユーザからなるグループへ、1人のユーザによって投稿された投稿文を公開する。例えばfacebook(登録商標)やtwitter(登録商標)、google+(登録商標)、mixi(登録商標)があり、一般にミニブログサイトとも称される。また、各ユーザは、SNSサイトサーバに対してアカウントを登録し、アカウントと共に投稿文が公開される。また、ユーザ毎のプロフィール情報も公開される。プロフィール情報は、ユーザ自らの自己紹介の文章であって、不特定多数の第三者から自由に閲覧される。
一方で、SNSサイトサーバによって発信される投稿文は、商品及び役務に関する口コミ情報である場合も多い。この場合、マーケティングによれば、どのようなユーザがどのような評価をしているかを分析することが所望される。具体的には、ユーザのプロフィール情報と、そのユーザの投稿文とを収集し、プロフィール項目に応じた多数の投稿文の傾向を分析しようとする。同じ商品等であっても、ユーザのプロフィール情報(年代、性別、趣味等)によっては、その投稿文の内容が異なるものとなるからである。そうすると、ユーザのプロフィール情報は、できる限り正確なものであってほしいと考える。
従来、情報投稿者のプロフィール情報を、当該投稿者の投稿したテキスト情報に基づいて推定する技術がある(例えば非特許文献1参照)。また、Web文書中のリンク(co-citation)と、Web文書の内容(テキスト情報)とに基づく分類結果を、識別器を用いて組み合わせて、Web文書群を分類する技術もある(例えば非特許文献2参照)。更に、twitterの投稿者を対象として、その交流関係に基づいて、コミュニティを抽出する技術もある(例えば非特許文献3参照)。
池田和史,服部元,松本一則,小野智弘,東野輝夫、「マーケット分析のためのTwitter投稿者プロフィール推定手法」、DICOMO 2011, 7E-1. P. Calado, M. Cristo, E. Moura, N. Ziviani, B. Ribeiro, N. Marcos,A. Goncalves, "Combining LinkBased and ContentBasedMethods for Web Document Classification", CIKM 2003. M. Smith, N. M. Frayling, B. Shneiderman, E. M. Rodrigues, J.Leskovec, and C. Dunne, "NodeXL: A Free and Open Network Overview,Discovery and Exploration Add-in for Excel 2007/2010"、[online]、[平成24年3月13日検索]、インターネット<URL:http://nodexl.codeplex.com/> Komiya Atsushi、「Newmanアルゴリズムによるソーシャルグラフのクラスタリング」、第9回データマイニング+WEB勉強会@東京2nd week、2011年1月23日、第40頁〜第77頁、[online]、[平成24年3月13日検索]、インターネット<URL:http://www.slideshare.net/komiyaatsushi/newman-6670300>
しかしながら、ユーザのプロフィール情報は、ユーザ自ら記述するものであるために、身分や興味をあえて明確に記述しない場合も多い。そのために、マーケティングの動向を調査する場合、どのようなユーザがどのような評価をしているのかを明確に分析することが難しい。例えば、男性のユーザが、あえて女性のふりして、投稿文を投稿しているような場合もある。
非特許文献1に記載の技術によれば、投稿者の過去の投稿文から、特徴的な単語を抽出して投稿者のプロフィールを推定している。しかしながら、分析対象者の投稿文のみからではプロフィール情報を推定しにくい場合もある。例えば、分析対象者が、男性に特徴的な言葉と、女性に特徴的な言葉との両方を同程度用いていた場合、当該分析対象者のプロフィールを推定することはできない。
また、非特許文献2に記載の技術によれば、分析対象者と、交流関係リスト中の投稿者との特徴に応じて分類することができる。しかしながら、分析対象者のプロフィールを推定することまではできない。
そこで、本発明は、ユーザ自ら記述したプロフィール情報だけでなく、SNSサイトサーバから得られる投稿者間の交流関係を用いて、できる限り正確なプロフィール情報を推定する投稿者分析装置、プログラム及び方法を提供することを目的とする。
本発明によれば、複数の投稿者間でテキスト情報を発信し且つ購読し合うグループを表すグループ情報と、投稿者毎の投稿文とを用いて、投稿者毎のプロフィール情報を分析する投稿者分析装置であって、
プロフィールに関する属性種別と、該属性種別毎の属性要素と、該属性要素の判別に適したキーワードとを登録した属性情報登録手段と、
分析対象者に対するグループに属する複数のメンバ投稿者の投稿文を、ユーザテキストとして取得するユーザテキスト取得手段と、
メンバ投稿者毎のユーザテキストに含まれるキーワードと、属性情報登録手段に登録されたキーワードとを比較し、メンバ投稿者毎に、各属性種別の属性要素を抽出するメンバ属性要素抽出手段と、
複数のメンバ投稿者の間のグループ情報に基づいて、1つ以上のコミュニティグループに分類するコミュニティグループ抽出手段と、
コミュニティグループ毎に、各属性種別における各属性要素の割合値を算出するコミュニティ属性要素抽出手段と、
属性種別毎に、全てのコミュニティグループの中で最高の割合値となる属性要素を抽出するグループ属性要素抽出手段と
を有し、抽出された属性要素を投稿者のプロフィール情報とすることを特徴とする。
本発明の投稿者分析装置における他の実施形態によれば、ユーザテキスト取得手段は、コミュニケーションサーバから、グループ情報及び投稿文を取得することも好ましい。
本発明の投稿者分析装置における他の実施形態によれば、
グループ情報は、分析対象者について、当該分析対象者から発信された投稿文を購読する複数の第1のメンバ投稿者からなるフォロワーグループと、当該分析対象者が投稿文の購読を所望する複数の第2のメンバ投稿者からなるフォローグループとを構成し、フォロワーグループ及びフォローグループを併合した交流関係を表すものであり、
コミュニティグループ抽出手段は、メンバ投稿者間のネットワークに基づく階層型クラスタリングによって、1つ以上のコミュニティグループに分類することも好ましい。
本発明の投稿者分析装置における他の実施形態によれば、
ユーザテキスト取得手段は、
メンバ投稿者が、フォロワーグループに属する投稿者数が所定閾値以下であるか、又は、フォローグループに属する投稿者数に対するフォロワーグループに属する投稿者数の割合が所定閾値以下である場合、「一般投稿者」と判定し、逆に、一般投稿者でない場合、「公的投稿者」と判定する投稿者判定処理を有し、
メンバ投稿者が「一般投稿者」であると判定された場合、更に当該メンバ投稿者のフォロワーグループ及び/又はフォローグループに属する1ホップ先のメンバ投稿者の投稿文を取得すると共に、次に1ホップ先のメンバ投稿者について更に投稿者判定処理へ再帰し、
メンバ投稿者が「公的投稿者」であると判定された場合、更に当該メンバ投稿者のフォロワーグループ及び/又はフォローグループに属する1ホップ先のメンバ投稿者の投稿文を取得すると共に、処理を終了することも好ましい。
本発明の投稿者分析装置における他の実施形態によれば、ユーザテキスト取得手段は、メンバ投稿者が「一般投稿者」である限り、分析対象者からみてnホップ(n≧2)以内のメンバ投稿者における投稿文までを取得することも好ましい。
本発明の投稿者分析装置における他の実施形態によれば、コミュニティグループ内で、一般投稿者の投稿文に基づく各属性種別における属性要素毎の割合値と、公的投稿者の投稿文に基づく各属性種別における属性要素毎の割合値との比較に基づいて、分析対象者の各属性種別における属性要素毎の割合値を更新することも好ましい。
本発明の投稿者分析装置における他の実施形態によれば、分析対象者のプロフィール文及び/又は投稿文から算出した、各属性種別における属性要素毎の割合値と、グループのメンバ投稿者のプロフィール文及び/又は投稿文から算出した、各属性種別における属性要素毎の割合値との比較に基づいて、分析対象者の各属性種別における属性要素毎の割合値を更新することも好ましい。
本発明によれば、複数の投稿者間でテキスト情報を発信し且つ購読し合うグループ情報と、投稿者毎に投稿文とを用いて、投稿者毎のプロフィール情報を分析するようにコンピュータを機能させる投稿者分析用プログラムであって、
プロフィールに関する属性種別と、該属性種別毎の属性要素と、該属性要素の判別に適したキーワードとを登録した属性情報登録手段と、
分析対象者に対するグループに属する複数のメンバ投稿者の投稿文を、ユーザテキストとして取得するユーザテキスト取得手段と、
メンバ投稿者毎のユーザテキストに含まれるキーワードと、属性情報登録手段に登録されたキーワードとを比較し、メンバ投稿者毎に、各属性種別の属性要素を抽出するメンバ属性要素抽出手段と、
複数のメンバ投稿者の間のグループ情報に基づいて、1つ以上のコミュニティグループに分類するコミュニティグループ抽出手段と、
コミュニティグループ毎に、各属性種別における各属性要素の割合値を算出するコミュニティ属性要素抽出手段と、
属性種別毎に、全てのコミュニティグループの中で最高の割合値となる属性要素を抽出するグループ属性要素抽出手段と
を有し、抽出された属性要素を投稿者のプロフィール情報とするようにコンピュータを機能させることを特徴とする。
本発明によれば、複数の投稿者間でテキスト情報を発信し且つ購読し合うグループ情報と、投稿者毎の投稿文とを用いて、投稿者毎のプロフィール情報を分析する装置における投稿者分析方法であって、
プロフィールに関する属性種別と、該属性種別毎の属性要素と、該属性要素の判別に適したキーワードとを登録した属性情報登録部を有し、
分析対象者に対するグループに属する複数のメンバ投稿者の投稿文を、ユーザテキストとして取得する第1のステップと、
メンバ投稿者毎のユーザテキストに含まれるキーワードと、属性情報登録手段に登録されたキーワードとを比較し、メンバ投稿者毎に、各属性種別の属性要素を抽出する第2のステップと、
複数のメンバ投稿者の間のグループ情報に基づいて、複数のメンバ投稿者を1つ以上のコミュニティグループに分類する第3のステップと、
コミュニティグループ毎に、各属性種別における各属性要素の割合値を算出する第4のステップと、
属性種別毎に、全てのコミュニティグループの中で最高の割合値となる属性要素を抽出する第5のステップと
を有し、抽出された属性要素を投稿者のプロフィール情報とすることを特徴とする。
本発明の投稿者分析装置、プログラム及び方法によれば、ユーザ自ら記述したプロフィール情報だけでなく、SNSサイトサーバから得られる投稿者間の交流関係を用いて、できる限り正確なプロフィール情報を推定することができる。
本発明におけるシステム構成図である。 分析対象者と他のユーザとの関係を表す説明図である。 本発明における投稿者分析装置の機能構成図である。 分析対象者のグループにおける他のユーザの範囲を表す説明図である。 属性情報登録部のデータ構成を表す説明図である。 分析対象者を中心としたコミュニティグループを表す説明図である。 コミュニティグループ毎における各属性要素の割合値を表すテーブルである。 分析対象者に対して最終的に抽出されたプロフィール情報を表すテーブルである。
以下では、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明におけるシステム構成図である。
図1によれば、不特定多数の第三者は、各自の端末3を用いて、インターネットを介してコミュニケーションサイトサーバ2へ、投稿文を送信することができる。以下では、コミュニケーションサーバ2は、例えばSNSサイトサーバであるとして説明する。勿論、SNSサイトサーバに限られないが、複数の投稿者間でコメント文章を発信し且つ購読し合うグループを構成し、投稿者毎に投稿文とを公開することを要する。
図1によれば、本発明の投稿者分析装置1は、インターネットを介してSNSサイトサーバ2と通信する。投稿者分析装置1は、SNSサイトサーバ2に対して、API(Application Programming Interface)を介して、投稿者の交流関係リスト(グループ情報)と、投稿者毎の投稿文とを取得することができる。また、投稿者毎のプロフィール文も取得することができる。APIは、アプリケーションサービスの機能を利用するための規則インタフェースであって、種々のサーバ毎に異なるものとして用意されている。
尚、投稿者分析装置1が、グループ情報及び投稿文を予めデータベースに蓄積したものであってもよい。即ち、投稿者分析装置1が、SNSサイトサーバ2と通信することを必須とするものではない。
SNSサイトサーバ2は、分析対象者に対して、フォロワーグループと、フォローグループとを構成する。
「フォロワーグループ」とは、当該分析対象者から発信された投稿文を購読する複数の第1のメンバ投稿者からなるグループをいう。
「フォローグループ」とは、当該分析対象者が投稿文の購読を所望する複数の第2のメンバ投稿者からなるグループをいう。
勿論、同じメンバ投稿者が、フォロワーグループにもフォローグループにも両方に属する場合もある。
SNSサイトサーバ2が例えばtwitterである場合、フォロー及びフォロワー関係は一般的である。SNSサイトサーバ2が例えばfacebookである場合、「友達」の関係をいう。更に、SNSサイトサーバ2た例えばgoogle+である場合、サークルに入れられたユーザをいう。
図2は、分析対象者と他のユーザとの交流関係を表す説明図である。
図2によれば、分析対象者と他のユーザとは以下のような交流関係にあるとする。
(1ホップ)分析対象者は、ユーザ11からフォローされている。
(2ホップ)ユーザ11は、ユーザ21からフォローされている。
(1ホップ)分析対象者は、ユーザ12をフォローし且つフォローされている。
(2ホップ)ユーザ12は、ユーザ22をフォローし且つフォローされている。
(1ホップ)分析対象者は、ユーザ13をフォローしている。
(2ホップ)ユーザ13は、ユーザ23を含め多数の他のユーザから
フォローされている。
(3ホップ)ユーザ31は、ユーザ23をフォローしている。
(1ホップ)分析対象者は、ユーザ14をフォローしている。
(2ホップ)ユーザ14は、ユーザ24をフォローしている。
(3ホップ)ユーザ24は、ユーザ31を含め多数の他のユーザから
フォローされている。
SNSサイトサーバ2では、分析対象者を中心に、他のユーザのフォロー/フォロワー関係が構築される。
図3は、本発明における投稿者分析装置の機能構成図である。
本発明の投稿者分析装置1は、投稿者毎のプロフィール情報を分析することができる。投稿者分析装置1は、通信インタフェース部10と、ユーザテキスト取得部11と、属性情報登録部12と、メンバ属性要素抽出部13と、コミュニティグループ抽出部14と、コミュニティ属性要素抽出部15と、グループ属性要素抽出部16と、投稿者プロフィール蓄積部17とを有する。通信インタフェース部10を除くこれら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
[ユーザテキスト取得部11]
ユーザテキスト取得部11は、SNSサイトサーバ2から、分析対象者に対するグループに属する複数のメンバ投稿者の投稿文(プロフィール文を含む)を、ユーザテキストとして取得する。勿論、投稿者分析装置1が、グループ情報及び投稿文を予めデータベースに蓄積したものであってもよい。
分析対象者に対するグループは、SNSサイトサーバ2から取得した、分析対象者を中心とした交流関係リストによって抽出される。
ここで、ユーザテキスト取得部11は、図2のようなメンバ投稿者の交流関係リストの中で、各メンバ投稿者を、「一般投稿者」/「公的投稿者」に分類する。
「一般投稿者」:メンバ投稿者が、フォロワーグループに属する投稿者数が所定閾値以下であるか、又は、フォローグループに属する投稿者数に対するフォロワーグループに属する投稿者数の割合が所定閾値以下である場合
「公的投稿者」:一般投稿者でない場合
「一般投稿者」は、交流関係リストが小さく、例えば会社の同僚や友人などでコミュニティグループを構築する傾向がある。「公的投稿者」は、交流関係リストが大きく、例えば有名人や公式アカウントのように、膨大な数のユーザが当該メンバ投稿者をフォローする一方で、当該メンバ投稿者自身は、比較的少数のメンバ投稿者しかフォローしていない場合である。
図4は、分析対象者のグループにおける他のユーザの範囲を表す説明図である。。
「一般投稿者」は、1ホップのコミュニティグループに属するメンバ投稿者の数が少ない。この場合、プロフィール情報を分析するためユーザテキスト数も少ないために、特定のメンバ投稿者のユーザテキストの内容に対して大きく影響を受ける。そこで、分析対象者から見てnホップ(n:所定閾値)先のメンバ投稿者のユーザテキストまでを収集する。一般投稿者がコミュニティグループを構築する場合、当該コミュニティグループに属する一般投稿者の次のホップの一般投稿者も、非常に類似したプロフィール情報を持つという傾向を利用したものである。
メンバ投稿者が「一般投稿者」であると判定された場合、更に当該メンバ投稿者のフォロワーグループ及び/又はフォローグループに属する1ホップ先のメンバ投稿者の投稿文を取得すると共に、次に1ホップ先のメンバ投稿者について更に投稿者判定処理へ再帰する。
「公的投稿者」は、1ホップのメンバ投稿者のみから十分な数のメンバ投稿者のユーザテキストを取得することができる。また、公的投稿者をフォローしているメンバ投稿者には、そのプロフィール情報に特定の共通点があると考えられる。例えば、公的投稿者がアーティストである場合、その公的投稿者をフォローしているメンバ投稿者は、その趣味が「音楽」で共通している場合が多い。また、公的投稿者がファッション誌の公式アカウントである場合、その公的投稿者をフォローしているメンバ投稿者は、その性別が「女性」で共通している場合が多い。
メンバ投稿者が「公的投稿者」であると判定された場合、更に当該メンバ投稿者のフォロワーグループ及び/又はフォローグループに属する1ホップ先のメンバ投稿者の投稿文を取得すると共に、処理を終了する。
図4によれば、以下のように判定される。
1ホップ先のユーザ11は「一般投稿者」であるので、次に1ホップ先のユーザ21もグループに含める。
1ホップ先のユーザ12は「一般投稿者」であるので、次に1ホップ先のユーザ22もグループに含める。
1ホップ先のユーザ13は「公的投稿者」であるので、次に1ホップ先のユーザ23はグループに含めない。
1ホップ先のユーザ14は「一般投稿者」であるので、次に1ホップ先のユーザ24もグループに含める。
2ホップ先のユーザ24は「公的投稿者」であるので、次に1ホップ先のユーザ31はグループに含めない。
ユーザテキスト取得部11は、メンバ投稿者が「一般投稿者」である限り、分析対象者からみてnホップ(n≧2)以内のメンバ投稿者における投稿文までを取得する。このような交流関係リストを用いてメンバ投稿者群をコミュニティグループに分類するために、汎用的なアルゴリズムを用いることも好ましい(例えば非特許文献3参照)。
[属性情報登録部12]
属性情報登録部12は、プロフィールに関する属性種別と、該属性種別毎の属性要素と、該属性要素の判別に適したキーワードとを登録する。
図5は、属性情報登録部のデータ構成を表す説明図である。。
図5によれば、以下のような構成を有する。
属性種別:年代、性別、趣味、・・・
属性要素:(属性種別:年代)->20代、30代、40代、50代、60代・・・
(属性種別:性別)->男性、女性
(属性種別:趣味)->スポーツ、IT、ファッション、健康、・・・
また、各属性要素毎に、キーワードが割り当てられている。
「20代」 :<大学><就職><勉強>・・・
「30代」 :<結婚><出産><転職>・・・
「40代」 :<課長><部下><ローン>・・・
「50代」 :<部長><リタイア><第2の人生>・・・
「60代」 :<健康><体操>・・・
・・・・・
「男性」 :<メタボ><酒><車>・・・
「女性」 :<美容><エステ><化粧>・・・
・・・・・
「スポーツ」 :<テニス><サッカー><卓球>・・・
「IT」 :<PC><スマホ><ネット>・・・
「ファッション」:<指輪><ブランド><洋服>・・・
「健康」 :<青汁><サプリ><体操>・・・
・・・・・
[メンバ属性要素抽出部13]
メンバ属性要素抽出部13は、メンバ投稿者毎のユーザテキストに含まれるキーワードと、属性情報登録部12に登録されたキーワードとを比較し、メンバ投稿者毎に、各属性種別の属性要素を抽出する。
メンバ属性要素抽出部13は、最初に、形態素解析によって、収集されたユーザテキスト毎に形態素に分割する。「形態素」とは、文章の構成要素のうち、意味を持つ最小の単位をいう。本発明によって抽出される単語(形態素)は、「名詞」のみであって、且つ、前述した属性情報登録部12に登録されたキーワードのみである。メンバ属性要素抽出部13は、属性情報登録部12を形態素解析に用いる検出対象の辞書として用いる。1人のメンバ投稿者のアカウントに対して、そのメンバ投稿者が過去に投稿した投稿文に含まれる、属性情報登録部12に登録された1つ以上のキーワードが割り当てられる。
[コミュニティグループ抽出部14]
コミュニティグループ抽出部14は、複数のメンバ投稿者の間のグループ情報に基づいて、複数のメンバ投稿者を1つ以上のコミュニティグループに分類する。これによって、連結度が強いメンバ投稿者群(コミュニティグループ)に分類することができる。
図6は、分析対象者を中心としたコミュニティグループを表す説明図である。
コミュニティグループへの分類には、例えば既存の階層型クラスタリング(clustering)を用いるものであってもよい(例えば非特許文献4参照)。複数のメンバ投稿者の間は、フォロー/フォロワー関係によってネットワークによって結びつけられている。ここで、クラスタリングとは,分類対象の集合となるメンバ投稿者を、内的結合(internal cohesion)及び外的分離(external isolation)が達成されるべく部分集合に分割することをいう。クラスタリングの1つに、最短距離法(nearest neighbor method)を用いた階層的(hierarchical)クラスタリングがある。また、階層的クラスタリングの1つに、凝集型(agglomerative)がある。この技術は、N個の対象からなるデータが与えられたとき、1個の対象だけを含むN個のクラスタがある初期状態から始める。そして、対象x1とx2の間の距離d(x1,x2)(非類似度)からクラスタ間の距離d(C1,C2)を計算し、最もこの距離の近い2つのクラスタを逐次的に併合していく。この併合は、全ての対象が1つのクラスタに併合されるまで繰り返すことによって階層的構造となり、デンドログラムとして表示される。デンドログラムとは,各終端ノードが各対象を表し、併合されてできたクラスタを非終端ノードで表した二分木である。最終的に、所定値以上の距離で横断することによって、複数のクラスタに分類することができる。
[コミュニティ属性要素抽出部15]
コミュニティ属性要素抽出部15は、コミュニティグループ毎に、各属性種別における各属性要素の割合値(比率)を算出する。
図7は、コミュニティグループ毎における各属性要素の割合値を表すテーブルである。
コミュニティグループ1によれば、属性種別「年代」ついて、30代が90%、20代が6%となっている。また、属性種別「性別」について、男性が80%、女性が20%となっている。更に、属性種別「趣味」について、ITが50%、スポーツが30%、ファッションが20%となっている。
また、コミュニティグループ2によれば、属性種別「年代」ついて、20代が80%、10代が12%となっている。また、属性種別「性別」について、女性が95%、男性が5%となっている。更に、属性種別「趣味」について、ファッションが70%、スポーツが20%、ITが10%となっている。
更に、コミュニティグループ3によれば、属性種別「年代」ついて、60代が30%、50代が25%となっている。また、属性種別「性別」について、男性が55%、女性が45%となっている。更に、属性種別「趣味」について、健康が80%、スポーツが20%となっている。
コミュニティ属性要素抽出部15における他の実施形態として、コミュニティグループ内で、一般投稿者の投稿文に基づく各属性種別における属性要素毎の割合値と、公的投稿者の投稿文に基づく各属性種別における属性要素毎の割合値との比較に基づいて、分析対象者の各属性種別における属性要素毎の割合値を更新することも好ましい。
例えば、コミュニティグループ内で、一般投稿者の属性要素1に対して、公的投稿者の属性要素0.5の割合で全体的な割合値を算出する。分析対象者から見て、一般投稿者の属性要素の方が、有名人のような公的投稿者の属性要素よりも類似する可能性が高いためである。
[グループ属性要素抽出部16]
グループ属性要素抽出部16は、属性種別毎に、全てのコミュニティグループの中で最高の割合値となる属性要素を抽出する。これは、コミュニティグループを構成するメンバ投稿者全体のプロフィール情報を推定することとなる。
図8は、分析対象者に対して最終的に抽出されたプロフィール情報を表すテーブルである。
図8によれば、分析対象者に対して、以下のプロフィール情報が付与されることとなる。
属性種別「年代」について、コミュニティグループ1の「30代」:90%が、最も高い割合値である。そこで、分析対象者の年代は、推定尤度90%で「30代」であると推定する。
属性種別「性別」について、コミュニティグループ2の「女性」:95%が、最も高い割合値である。そこで、分析対象者の性別は、推定尤度95%で「女性」であると推定する。
属性種別「趣味」について、コミュニティグループ3の「健康」:80%が、最も高い割合値である。そこで、分析対象者の趣味は、推定尤度80%で「健康」であると推定する。
[投稿者プロフィール蓄積部17]
投稿者プロフィール蓄積部17は、グループ属性要素抽出部16によって抽出された属性要素を投稿者のプロフィール情報とする。
他の実施形態として、分析対象者自身が記述したプロフール文及び/又は投稿文も、同様に分析することも好ましい。メンバ属性要素抽出部13は、分析対象者のプロフィール文及び/又は投稿文に含まれる属性要素を抽出する。分析対象者のそれら属性要素は、コミュニティ属性要素抽出部15へ出力される。コミュニティ属性要素抽出部15は、分析対象者の属性要素も1つのコミュニティグループとして、各属性要素の割合値を抽出する。そして、グループ属性要素抽出部16は、分析対象者のコミュニティグループも含めて、最も高い割合値となる属性要素を抽出する。このとき、分析対象者用のコミュニティグループにおける割合値に、所定の正の重み(w>1)を乗算することも好ましい。これにより、分析対象者自らが記述した文から抽出された属性要素の割合値を高くすることができる。即ち、分析対象者のプロフィール文及び/又は投稿文から算出した、各属性種別における属性要素毎の割合値と、グループのメンバ投稿者のプロフィール文及び/又は投稿文から算出した、各属性種別における属性要素毎の割合値との比較に基づいて、分析対象者の各属性種別における属性要素毎の割合値を更新する。
以上、詳細に説明したように、本発明の投稿者分析装置、プログラム及び方法によれば、ユーザ自ら記述したプロフィール情報だけでなく、SNSサイトサーバから得られる投稿者間の交流関係を用いて、できる限り正確なプロフィール情報を推定することができる。これによって、分析対象者によって記述されたプロフィール情報のみでは得られないプロフィール情報を推定することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 投稿者分析装置
10 通信インタフェース部
11 ユーザテキスト取得部
12 属性情報登録部
13 メンバ属性要素抽出部
14 コミュニティグループ抽出部
15 コミュニティ属性要素抽出部
16 グループ属性要素抽出部
17 投稿者プロフィール蓄積部
2 SNSサイトサーバ
3 端末

Claims (9)

  1. 複数の投稿者間でテキスト情報を発信し且つ購読し合うグループを表すグループ情報と、投稿者毎の投稿文とを用いて、投稿者毎のプロフィール情報を分析する投稿者分析装置であって、
    プロフィールに関する属性種別と、該属性種別毎の属性要素と、該属性要素の判別に適したキーワードとを登録した属性情報登録手段と、
    分析対象者に対するグループに属する複数のメンバ投稿者の投稿文を、ユーザテキストとして取得するユーザテキスト取得手段と、
    メンバ投稿者毎のユーザテキストに含まれるキーワードと、前記属性情報登録手段に登録されたキーワードとを比較し、メンバ投稿者毎に、各属性種別の属性要素を抽出するメンバ属性要素抽出手段と、
    複数のメンバ投稿者の間のグループ情報に基づいて、1つ以上のコミュニティグループに分類するコミュニティグループ抽出手段と、
    コミュニティグループ毎に、各属性種別における各属性要素の割合値を算出するコミュニティ属性要素抽出手段と、
    属性種別毎に、全てのコミュニティグループの中で最高の割合値となる属性要素を抽出するグループ属性要素抽出手段と
    を有し、抽出された属性要素を前記投稿者のプロフィール情報とすることを特徴とする投稿者分析装置。
  2. 前記ユーザテキスト取得手段は、コミュニケーションサーバから、前記グループ情報及び前記投稿文を取得することを特徴とする請求項1に記載の投稿者分析装置。
  3. 前記グループ情報は、分析対象者について、当該分析対象者から発信された投稿文を購読する複数の第1のメンバ投稿者からなるフォロワーグループと、当該分析対象者が投稿文の購読を所望する複数の第2のメンバ投稿者からなるフォローグループとを構成し、前記フォロワーグループ及び前記フォローグループを併合した交流関係を表すものであり、
    前記コミュニティグループ抽出手段は、メンバ投稿者間のネットワークに基づく階層型クラスタリングによって、1つ以上のコミュニティグループに分類する
    ことを特徴とする請求項1又は2に記載の投稿者分析装置。
  4. 前記ユーザテキスト取得手段は、
    前記メンバ投稿者が、フォロワーグループに属する投稿者数が所定閾値以下であるか、又は、フォローグループに属する投稿者数に対するフォロワーグループに属する投稿者数の割合が所定閾値以下である場合、「一般投稿者」と判定し、逆に、前記一般投稿者でない場合、「公的投稿者」と判定する投稿者判定処理を有し、
    前記メンバ投稿者が「一般投稿者」であると判定された場合、更に当該メンバ投稿者のフォロワーグループ及び/又はフォローグループに属する1ホップ先のメンバ投稿者の投稿文を取得すると共に、次に1ホップ先のメンバ投稿者について更に前記投稿者判定処理へ再帰し、
    前記メンバ投稿者が「公的投稿者」であると判定された場合、更に当該メンバ投稿者のフォロワーグループ及び/又はフォローグループに属する1ホップ先のメンバ投稿者の投稿文を取得すると共に、処理を終了する
    ことを特徴とする請求項3に記載の投稿者分析装置。
  5. 前記ユーザテキスト取得手段は、前記メンバ投稿者が「一般投稿者」である限り、前記分析対象者からみてnホップ(n≧2)以内のメンバ投稿者における投稿文までを取得することを特徴とする請求項4に記載の投稿文分析装置。
  6. 前記コミュニティグループ内で、前記一般投稿者の投稿文に基づく各属性種別における属性要素毎の割合値と、前記公的投稿者の投稿文に基づく各属性種別における属性要素毎の割合値との比較に基づいて、分析対象者の各属性種別における属性要素毎の割合値を更新することを特徴とする請求項1から5のいずれか1項に記載の投稿者分析装置
  7. 分析対象者のプロフィール文及び/又は投稿文から算出した、各属性種別における属性要素毎の割合値と、前記グループのメンバ投稿者のプロフィール文及び/又は投稿文から算出した、各属性種別における属性要素毎の割合値との比較に基づいて、分析対象者の各属性種別における属性要素毎の割合値を更新することを特徴とする請求項1から5のいずれか1項に記載の投稿者分析装置
  8. 複数の投稿者間でテキスト情報を発信し且つ購読し合うグループ情報と、投稿者毎に投稿文とを用いて、投稿者毎のプロフィール情報を分析するようにコンピュータを機能させる投稿者分析用プログラムであって、
    プロフィールに関する属性種別と、該属性種別毎の属性要素と、該属性要素の判別に適したキーワードとを登録した属性情報登録手段と、
    分析対象者に対するグループに属する複数のメンバ投稿者の投稿文を、ユーザテキストとして取得するユーザテキスト取得手段と、
    メンバ投稿者毎のユーザテキストに含まれるキーワードと、前記属性情報登録手段に登録されたキーワードとを比較し、メンバ投稿者毎に、各属性種別の属性要素を抽出するメンバ属性要素抽出手段と、
    複数のメンバ投稿者の間のグループ情報に基づいて、1つ以上のコミュニティグループに分類するコミュニティグループ抽出手段と、
    コミュニティグループ毎に、各属性種別における各属性要素の割合値を算出するコミュニティ属性要素抽出手段と、
    属性種別毎に、全てのコミュニティグループの中で最高の割合値となる属性要素を抽出するグループ属性要素抽出手段と
    を有し、抽出された属性要素を前記投稿者のプロフィール情報とするようにコンピュータを機能させることを特徴とする投稿者分析用プログラム。
  9. 複数の投稿者間でテキスト情報を発信し且つ購読し合うグループ情報と、投稿者毎の投稿文とを用いて、投稿者毎のプロフィール情報を分析する装置における投稿者分析方法であって、
    プロフィールに関する属性種別と、該属性種別毎の属性要素と、該属性要素の判別に適したキーワードとを登録した属性情報登録部を有し、
    分析対象者に対するグループに属する複数のメンバ投稿者の投稿文を、ユーザテキストとして取得する第1のステップと、
    メンバ投稿者毎のユーザテキストに含まれるキーワードと、前記属性情報登録手段に登録されたキーワードとを比較し、メンバ投稿者毎に、各属性種別の属性要素を抽出する第2のステップと、
    複数のメンバ投稿者の間のグループ情報に基づいて、複数のメンバ投稿者を1つ以上のコミュニティグループに分類する第3のステップと、
    コミュニティグループ毎に、各属性種別における各属性要素の割合値を算出する第4のステップと、
    属性種別毎に、全てのコミュニティグループの中で最高の割合値となる属性要素を抽出する第5のステップと
    を有し、抽出された属性要素を前記投稿者のプロフィール情報とすることを特徴とする投稿者分析方法。
JP2012059574A 2012-03-16 2012-03-16 投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法 Active JP5754854B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012059574A JP5754854B2 (ja) 2012-03-16 2012-03-16 投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012059574A JP5754854B2 (ja) 2012-03-16 2012-03-16 投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2013196070A true JP2013196070A (ja) 2013-09-30
JP5754854B2 JP5754854B2 (ja) 2015-07-29

Family

ID=49395003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012059574A Active JP5754854B2 (ja) 2012-03-16 2012-03-16 投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP5754854B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015164008A (ja) * 2014-02-28 2015-09-10 株式会社日立製作所 解析装置及び解析方法
JP5856726B1 (ja) * 2015-01-22 2016-02-10 三菱電機インフォメーションシステムズ株式会社 属性推定装置及び属性推定プログラム
WO2016099210A1 (en) * 2014-12-19 2016-06-23 Samsung Electronics Co., Ltd. Electronic apparatus and user profile estimating method thereof
EP3094065A1 (en) 2015-05-14 2016-11-16 Fuji Xerox Co., Ltd. Information processing apparatus and program
JP2017084225A (ja) * 2015-10-30 2017-05-18 株式会社Nttドコモ ユーザ種別判定装置
CN109427016A (zh) * 2017-08-23 2019-03-05 知识产权出版社有限责任公司 社群构建方法和装置以及存储介质、处理器
US10303709B2 (en) 2015-07-01 2019-05-28 Fujitsu Limited Population formation method, population formation apparatus, and computer-readable recording medium
JP2020113156A (ja) * 2019-01-16 2020-07-27 Kddi株式会社 キャラクタ性に応じた形容発話を含む対話シナリオを生成する装置、プログラム及び方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009099088A (ja) * 2007-10-19 2009-05-07 Kddi R & D Laboratories Inc Snsユーザプロファイル摘出装置、摘出方法並びに摘出プログラム、及び該ユーザプロファイルを利用する装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009099088A (ja) * 2007-10-19 2009-05-07 Kddi R & D Laboratories Inc Snsユーザプロファイル摘出装置、摘出方法並びに摘出プログラム、及び該ユーザプロファイルを利用する装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNG201100237068; 畑本 典宣: 'マイクロブログにおけるユーザのクラスタリングとそのクラスタの特徴語抽出' 言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD-ROM] , 20110307, 280-283ページ, 言語処理学会 *
JPN6015004937; 畑本 典宣: 'マイクロブログにおけるユーザのクラスタリングとそのクラスタの特徴語抽出' 言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD-ROM] , 20110307, 280-283ページ, 言語処理学会 *
JPN7015000353; Alan Mislove: 'You are who you know: inferring user profiles in online social networks' Proceedings of the third ACM international conference on Web search and data mining , 20100204, 251-260ページ, ACM *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015164008A (ja) * 2014-02-28 2015-09-10 株式会社日立製作所 解析装置及び解析方法
WO2016099210A1 (en) * 2014-12-19 2016-06-23 Samsung Electronics Co., Ltd. Electronic apparatus and user profile estimating method thereof
KR20160075227A (ko) * 2014-12-19 2016-06-29 삼성전자주식회사 전자 장치 및 전자 장치의 사용자 프로파일 추측 방법
KR102307786B1 (ko) * 2014-12-19 2021-10-05 삼성전자주식회사 전자 장치 및 전자 장치의 사용자 프로파일 추측 방법
US9917919B2 (en) 2014-12-19 2018-03-13 Samsung Electronics Co., Ltd. Electronic apparatus and user profile estimating method thereof
JP5856726B1 (ja) * 2015-01-22 2016-02-10 三菱電機インフォメーションシステムズ株式会社 属性推定装置及び属性推定プログラム
EP3094065A1 (en) 2015-05-14 2016-11-16 Fuji Xerox Co., Ltd. Information processing apparatus and program
JP2016218531A (ja) * 2015-05-14 2016-12-22 富士ゼロックス株式会社 情報処理装置及びプログラム
US10558918B2 (en) 2015-05-14 2020-02-11 Fuji Xerox Co., Ltd. Information processing apparatus and non-transitory computer readable medium
US10303709B2 (en) 2015-07-01 2019-05-28 Fujitsu Limited Population formation method, population formation apparatus, and computer-readable recording medium
JP2017084225A (ja) * 2015-10-30 2017-05-18 株式会社Nttドコモ ユーザ種別判定装置
CN109427016A (zh) * 2017-08-23 2019-03-05 知识产权出版社有限责任公司 社群构建方法和装置以及存储介质、处理器
JP2020113156A (ja) * 2019-01-16 2020-07-27 Kddi株式会社 キャラクタ性に応じた形容発話を含む対話シナリオを生成する装置、プログラム及び方法
JP7096172B2 (ja) 2019-01-16 2022-07-05 Kddi株式会社 キャラクタ性に応じた形容発話を含む対話シナリオを生成する装置、プログラム及び方法

Also Published As

Publication number Publication date
JP5754854B2 (ja) 2015-07-29

Similar Documents

Publication Publication Date Title
JP5754854B2 (ja) 投稿者のプロフィール情報を分析する投稿者分析装置、プログラム及び方法
Dhelim et al. Personality-aware product recommendation system based on user interests mining and metapath discovery
US9367603B2 (en) Systems and methods for behavioral segmentation of users in a social data network
US10409823B2 (en) Identifying content for users on online social networks
Zhang et al. Product information diffusion in a social network
Hoang Long et al. Privacy-aware framework for matching online social identities in multiple social networking services
CN103218400B (zh) 基于链接与文本内容的网络社区用户群划分方法
Saini et al. Sentiment analysis on twitter data using R
Okazaki et al. How to mine brand Tweets: Procedural guidelines and pretest
Hachaj et al. Clustering of trending topics in microblogging posts: A graph-based approach
CN108039198A (zh) 一种面向移动医疗的医生推荐方法及系统
Dhillon et al. Modeling dynamic user interests: A neural matrix factorization approach
Yigit et al. Extended topology based recommendation system for unidirectional social networks
Kuo et al. Integrated microblog sentiment analysis from users’ social interaction patterns and textual opinions
Taura et al. Virtual impression networks for capturing deep impressions
Huang et al. Information fusion oriented heterogeneous social network for friend recommendation via community detection
Zou et al. Collaborative community-specific microblog sentiment analysis via multi-task learning
JP6042790B2 (ja) トレンド分析装置、トレンド分析方法およびトレンド分析プログラム
JP6368264B2 (ja) 投稿文から投稿者のプロフィール項目を分析する投稿者分析装置、プログラム及び方法
Cui et al. Personalized microblog recommendation using sentimental features
Mao et al. Classifying user connections through social media avatars and users social activities: a case study in identifying sellers on social media
Ashraf et al. Personalized news recommendation based on multi-agent framework using social media preferences
Kharrat et al. Recommendation system based contextual analysis of Facebook comment
Gloor et al. Identifying tribes on twitter through shared context
Alamsyah et al. Top Brand Alternative Measurement Based on Consumer Network Activity

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150520

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150525

R150 Certificate of patent or registration of utility model

Ref document number: 5754854

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150