JP6261479B2

JP6261479B2 - ユーザ分析装置、ユーザ分析方法、およびプログラム

Info

Publication number: JP6261479B2
Application number: JP2014190479A
Authority: JP
Inventors: 亮博小林; 啓一郎帆足
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2014-09-18
Filing date: 2014-09-18
Publication date: 2018-01-17
Anticipated expiration: 2034-09-18
Also published as: JP2016062364A

Description

本発明は、ユーザの潜在的なプロフィール情報を分析するユーザ分析装置、ユーザ分析方法、およびプログラムに関する。

近年、Ｔｗｉｔｔｅｒ（登録商標）やＦａｃｅｂｏｏｋ（登録商標）等のソーシャル・ネットワーキング・サービス（以下、ＳＮＳ）が普及している。ＳＮＳでは、インターネットを介してユーザは様々な情報を投稿するとともに、投稿された情報を閲覧することで、他ユーザと交流を行い繋がることができる。また、ＳＮＳでは、ユーザは自身のプロフィール情報を公開することもできる。

ユーザのプロフィール情報は、ユーザが新たな友人を探す際に参照されたり、投稿された情報と合わせて、共通点がある等の友人候補ユーザをＳＮＳ側で自動的に紹介したり、ＳＮＳをマーケティングに利用したりする際に用いられる。そのため、ユーザのプロフィール情報は、できる限り正確なものであるのが望ましいが、ユーザ自ら記述するものであるために、プロフィール情報を明確に記述していない場合も多い。

そこで、Ｔｗｉｔｔｅｒのフォロー／フォロワー関係やＦａｃｅｂｏｏｋの友人関係といった、ＳＮＳのユーザ間の交流関係を用いて、交流関係にある他ユーザのプロフィール情報から対象ユーザのプロフィール情報を推定する技術が提案されている（特許文献１参照）。また、Ｔｗｉｔｔｅｒといったマイクロブログシステムから小集団を抽出し、抽出した小集団の投稿情報およびプロフィール情報から、小集団に共通の興味を示すキーワードを自動的に抽出する技術が提案されている（特許文献２参照）。

特開２０１３−１９６０７０号公報特開２０１３−１４０５３５号公報

しかしながら、特許文献１に記載の技術では、予め設定された属性のうちどの属性に当てはまるかによって潜在的なプロフィール情報を推定しているため、予め設定されていない属性については推定することができず、また、予め設定する属性の数や各属性の細分化度合に応じて推定精度が変わってしまうという問題点があった。

また、特許文献２に記載の技術では、プロフィール情報を推定したいユーザの属する小集団のキーワードを抽出することができるが、各ユーザは複数の小集団に属していることが多いために、プロフィール情報を推定したいユーザの属する小集団のメンバーが、自身が属する他の小集団に向けて投稿した投稿情報もキーワード抽出に用いられてしまっていた。そのため、プロフィール情報を推定したいユーザの属する小集団に特有の単語以外もキーワードとして抽出されてしまい、それを潜在的なプロフィール情報とするには推定精度が低いという問題点があった。

そこで、本発明は、上記課題に鑑み、ＳＮＳといったＷｅｂ上のコミュニケーションネットワークにおけるユーザ間の交流関係を用いて、交流関係にある他ユーザの情報からユーザの潜在的なプロフィール情報を、高精度に分析するユーザ分析装置、ユーザ分析方法、およびプログラムを提供することを目的とする。

本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。

（１）本発明は、Ｗｅｂ上のコミュニケーションネットワークに投稿された投稿情報、前記コミュニケーションネットワークのユーザのプロフィール情報、および前記投稿情報を介した前記コミュニケーションネットワークにおけるユーザの交流関係を示す交流情報を用いて、ユーザの潜在的プロフィール情報を分析するユーザ分析装置であって、前記交流情報に基づいて、前記コミュニケーションネットワークを小集団に分割する小集団分割手段（例えば、図１の小集団分割部１３０に相当）と、前記小集団分割手段で分割された小集団から、一の小集団の構成ユーザそれぞれが属する他の小集団を当該一の小集団の隣接小集団として特定する隣接小集団特定手段（例えば、図１の隣接小集団特定部１４０に相当）と、分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語と、当該小集団について前記隣接小集団特定手段で特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語との比較に基づいて、当該小集団に特有のキーワードを抽出するキーワード抽出手段（例えば、図１のキーワード抽出部１６０に相当）と、を備え、抽出されたキーワードを前記分析対象ユーザの潜在的プロフィール情報とすることを特徴とするユーザ分析装置を提案している。

この発明によれば、分析対象ユーザが属する小集団とその小集団の隣接小集団との単語を比較して、分析対象ユーザが属する小集団に特有の単語をキーワードとして抽出することにより、分析対象ユーザの潜在的なプロフィール情報を、高精度に分析することができる。

（２）本発明は、（１）のユーザ分析装置において、前記交流情報に基づいて算出された、前記小集団の各構成ユーザの当該小集団内での他構成ユーザとの接続状態に基づいて、分割された小集団の中から、当該小集団の構成ユーザ同士の交流が密接である小集団を抽出する小集団抽出手段（例えば、図６の小集団抽出部１７０に相当）を備え、前記隣接小集団特定手段が、前記小集団抽出手段で抽出された小集団から、一の小集団の構成ユーザが属する他の小集団を当該一の小集団の隣接小集団として特定することを特徴とするユーザ分析装置を提案している。

この発明によれば、構成ユーザの同質性が高い小集団および隣接小集団について抽出され単語を用いてキーワードを抽出することにより、分析対象ユーザの潜在的なプロフィール情報を、より高精度に分析することができる。

（３）本発明は、（２）のユーザ分析装置において、前記小集団抽出手段が、Ｓｍｉｒｎｏｖ−Ｇｒｕｂｂｓ検定またはＴｉｅｔｊｅｎ−Ｍｏｏｒｅ検定を用いて、各構成ユーザの接続数について１つも外れ値を持たない小集団を、前記分割された小集団の中から、当該小集団の構成ユーザ同士の交流が密接である小集団として抽出することを特徴とするユーザ分析装置を提案している。

この発明によれば、各構成ユーザの接続数の外れ値に基づいて、一部の構成ユーザを中心としていて各構成ユーザの交流が密でない小集団以外を抽出することにより、構成メンバーの同質性が高い小集団を判断することができる。

（４）本発明は、（２）のユーザ分析装置において、前記小集団抽出手段が、他の構成ユーザとの接続数が１である構成ユーザの割合が閾値以下の小集団を、前記分割された小集団の中から、当該小集団の構成ユーザ同士の交流が密接である小集団として抽出することを特徴とするユーザ分析装置を提案している。

この発明によれば、接続数が１である構成ユーザの割合に基づいて、一部の構成ユーザを中心としていて各構成ユーザの交流が密でない小集団以外を抽出することにより、構成メンバーの同質性が高い小集団を判断することができる。

（５）本発明は、（１）から（４）のユーザ分析装置において、分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語の出現頻度と、当該小集団について前記隣接小集団特定手段で特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語の出現頻度との比較に基づいて、当該小集団に特有のキーワードを抽出することを特徴とするユーザ分析装置を提案している。

この発明によれば、出現頻度に基づいて、分析対象ユーザが属する小集団に特有の単語をキーワードとして抽出することにより、分析対象ユーザの潜在的なプロフィール情報を、より高精度に分析することができる。

（６）本発明は、（１）から（５）のユーザ分析装置において、前記小集団分割手段が、階層的リンククラスタリング法またはファジーＣ平均法を用いて、前記コミュニケーションネットワークを小集団に分割することを特徴とするユーザ分析装置を提案している。

この発明によれば、コミュニケーションネットワークを、階層的リンククラスタリング法またはファジーＣ平均法を用いて、小集団に分割することができる。

（７）本発明は、（１）から（６）のユーザ分析装置において、前記コミュニケーションネットワークを提供するコミュニケーションサーバから前記交流情報を取得する交流情報取得手段（例えば、図１の交流情報取得部１２０に相当）と、前記コミュニケーションサーバから前記投稿情報および前記プロフィール情報を取得するユーザ情報取得手段（例えば、図１のユーザ情報取得部１５０に相当）と、を備えることを特徴とするユーザ分析装置を提案している。

この発明によれば、分析に用いる交流情報、投稿情報、およびプロフィール情報を、コミュニケーションネットワークを提供するコミュニケーションサーバから取得することができる。

（８）本発明は、Ｗｅｂ上のコミュニケーションネットワークに投稿された投稿情報、前記コミュニケーションネットワークのユーザのプロフィール情報、および前記投稿情報を介した前記コミュニケーションネットワークにおけるユーザの交流関係を示す交流情報を用いて、ユーザの潜在的プロフィール情報を分析するユーザ分析装置におけるユーザ分析方法であって、前記ユーザ分析装置が、小集団分割手段、隣接小集団特定手段、およびキーワード抽出手段を備え、前記小集団分割手段が、前記交流情報に基づいて、前記コミュニケーションネットワークを小集団に分割する第１のステップ（例えば、図５のステップＳ２に相当）と、前記隣接小集団特定手段が、前記第１のステップで分割された小集団から、一の小集団の構成ユーザそれぞれが属する他の小集団を当該一の小集団の隣接小集団として特定する第２のステップ（例えば、図５のステップＳ３に相当）と、前記キーワード抽出手段が、分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語と、当該小集団について前記第２のステップで特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語との比較に基づいて、当該小集団に特有のキーワードを抽出する第３のステップ（例えば、図５のステップＳ５に相当）と、を含み、抽出されたキーワードを前記分析対象ユーザの潜在的プロフィール情報とすることを特徴とするユーザ分析方法を提案している。

（９）本発明は、Ｗｅｂ上のコミュニケーションネットワークに投稿された投稿情報、前記コミュニケーションネットワークのユーザのプロフィール情報、および前記投稿情報を介した前記コミュニケーションネットワークにおけるユーザの交流関係を示す交流情報を用いて、ユーザの潜在的プロフィール情報を分析するユーザ分析装置におけるユーザ分析方法をコンピュータに実行させるためのプログラムであって、前記ユーザ分析装置が、小集団分割手段、隣接小集団特定手段、およびキーワード抽出手段を備え、前記小集団分割手段が、前記交流情報に基づいて、前記コミュニケーションネットワークを小集団に分割する第１のステップ（例えば、図５のステップＳ２に相当）と、前記隣接小集団特定手段が、前記第１のステップで分割された小集団から、一の小集団の構成ユーザそれぞれが属する他の小集団を当該一の小集団の隣接小集団として特定する第２のステップ（例えば、図５のステップＳ３に相当）と、前記キーワード抽出手段が、分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語と、当該小集団について前記第２のステップで特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語との比較に基づいて、当該小集団に特有のキーワードを抽出する第３のステップ（例えば、図５のステップＳ５に相当）と、を含み、抽出されたキーワードを前記分析対象ユーザの潜在的プロフィール情報とすることを特徴とするユーザ分析方法をコンピュータに実行させることを特徴とするプログラムを提案している。

本発明によれば、Ｗｅｂ上のコミュニケーションネットワークにおけるユーザ間の交流関係を用いて、交流関係にある他ユーザの投稿情報およびプロフィール情報から、分析対象ユーザの潜在的なプロフィール情報を、高精度に分析することができる。

本発明の第１の実施形態に係るユーザ分析装置の機能構成を示す図である。本発明の第１の実施形態に係る小集団分割部で、ＳＮＳの複数のユーザを小集団に分割した結果の一例を示す図である。本発明の第１の実施形態に係る対象小集団および隣接小集団を示す図である。本発明の第１の実施形態に係る対象小集団に特有のキーワードの抽出イメージを示す図である。本発明の第１の実施形態に係るユーザ分析装置のユーザ分析処理フローを示す図である。本発明の第２の実施形態に係ユーザ分析装置の機能構成を示す図である。ＳＮＳにおける小集団の形状を示す図である。

以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。

＜第１の実施形態＞
＜ユーザ分析装置の機能構成＞
図１は、本発明の第１の実施形態に係るユーザ分析装置１００の機能構成を示す図である。ユーザ分析装置１００は、ソーシャル・ネットワーキング・サービス（以下、ＳＮＳ）のＳＮＳサーバ１０と接続され、ＳＮＳサーバ１０から取得したユーザ間の交流関係および交流関係にある他ユーザの情報からユーザの潜在的なプロフィール情報を、高精度に分析する装置であって、図１に示すように、通信部１１０、交流情報取得部１２０、小集団分割部１３０、隣接小集団特定部１４０、ユーザ情報取得部１５０、およびキーワード抽出部１６０を備える。

なお、ユーザ分析装置１００は、ＳＮＳサーバ１０から取得する情報を予め蓄積していてもよい。この場合には、ユーザ分析装置１００は、ＳＮＳサーバ１０と通信を行わなくてもよい。

ＳＮＳサーバ１０は、Ｗｅｂ上で、ユーザが投稿した情報（以下、投稿情報）を介してユーザ同士がコミュニケーションを行うＳＮＳといったコミュニケーションネットワークを提供するサーバであって、例えば、Ｔｗｉｔｔｅｒ（登録商標）やＦａｃｅｂｏｏｋ（登録商標）、ｇｏｏｇｌｅ＋（登録商標）のサーバである。具体的には、ＳＮＳサーバ１０は、投稿情報、ＳＮＳのユーザのプロフィール情報、およびＳＮＳにおけるユーザ間の交流関係を示す交流情報を蓄積および管理する。なお、図１には、ＳＮＳサーバ１０は１台しか図示していないが、複数台であってもよい。

通信部１１０は、ＳＮＳサーバ１０と通信を行う。具体的には、通信部１１０は、ＳＮＳサーバ１０のＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）と通信を行う。

交流情報取得部１２０は、通信部１１０およびＳＮＳサーバ１０のＡＰＩを介して、ＳＮＳサーバ１０から交流情報を取得する。

ここで、交流情報とは、ＳＮＳにおけるユーザ間の交流関係を示す情報であって、Ｔｗｉｔｔｅｒでは「フォロウィー／フォロワー」関係の情報、Ｆａｃｅｂｏｏｋでは「友達」関係の情報、ｇｏｏｇｌｅ＋では、「サークル」関係の情報である。例えば、交流情報は、ＳＮＳにおいて交流関係にあるユーザ同士のユーザＩＤを対応付けたものである。

小集団分割部１３０は、交流情報取得部１２０で取得した交流情報に基づいて、ＳＮＳの複数のユーザを１以上の小集団に分割する。具体的には、小集団分割部１３０は、階層的リンククラスタリング法（非特許文献１：Ｙ．−Ｙ．Ａｈｎ，Ｊ．Ｐ．Ｂａｇｒｏｗ，ａｎｄＳ．ＬＥＨＭＡＮＮ，“ＬＩＮＫＣＯＭＭＵＮＩＴＩＥＳＲＥＶＥＡＬｍｕｌｔｉｓｃａｌｅＣＯＭＰＬＥＸＩＴＹｉｎＮＥＴＷＯＲＫＳ”，ＮＡＴＵＲＥ４６６，７６１（２０１０）．）やファジーＣ平均法（非特許文献２：Ｊ．Ｃ．Ｂｅｚｄｅｋ，“ＰＡＴＴＥＲＮＲＥＣＯＧＮＩＴＩＯＮＷＩＴＨＦＵＺＺＹＯＢＪＥＣＴＩＶＥＦＵＮＣＴＩＯＮＡＬＧＯＲＩＴＨＭＳ”，ＰＬＥＮＵＭＰＲＥＳＳ，ＮｅｗＹｏｒｋ，（１９８１）．）といったソフトクラスタリング手法を用いて、ＳＮＳの複数のユーザを１以上の小集団に分割する。

小集団分割部１３０で、ＳＮＳの複数のユーザを小集団に分割した結果の一例を図２に示す。各ノードはユーザを表し、リンクはユーザ間の交流関係を表し、矢印の方向は投稿情報の閲覧先、Ｔｗｉｔｔｅｒでいうフォロー先を示している。図２では、ＳＮＳの複数のユーザが、グループＡ２００、グループＢ３００、およびグループＣ４００の小集団に分割されたことを示す。また、小集団に分割されたユーザは、ユーザα２０１がグループＡ２００とグループＢ３００との２つの属するように、複数の小集団に属してもよい。なお、グループＢ３００、およびグループＣ４００のリンクについては、矢印を省略している。

隣接小集団特定部１４０は、小集団分割部１３０で分割された小集団毎に、隣接小集団を特定する。ここで、隣接小集団とは、一の小集団を構成する構成ユーザが属する他の小集団をいい、図２において、グループＡ２００の隣接小集団は、グループＡ２００の構成ユーザであるユーザα２０１が属するグループＢ３００、およびグループＡ２００の構成ユーザであるユーザβ２０２が属するグループＣ４００である。

ユーザ情報取得部１５０は、通信部１１０およびＳＮＳサーバ１０のＡＰＩを介して、ＳＮＳサーバ１０から投稿情報およびプロフィール情報を取得する。投稿情報は、投稿内容および投稿したユーザのユーザＩＤを少なくとも含み、プロフィール情報は、ユーザＩＤと、そのユーザの性別、年齢、居住地といったプロフィールとを少なくとも含む。ユーザ情報取得部１５０は、ＳＮＳサーバ１０から投稿情報を取得する期間や投稿情報に含まれるキーワードといった取得条件に応じて、投稿情報を取得してもよい。

キーワード抽出部１６０は、ユーザ情報取得部１５０で取得した投稿情報およびプロフィール情報に基づいて、分析対象ユーザの小集団（以下、対象小集団）、および対象小集団の隣接小集団に関する単語を抽出する。そして、キーワード抽出部１６０は、対象小集団および隣接小集団それぞれに関する単語を比較し、対象小集団にしか出現しない単語を、対象小集団に特有のキーワードとして抽出する。このように、隣接小集団に関する単語と比較することにより、対象小集団に関する単語の中から適切な単語を、対象小集団に特有のキーワードとして抽出することができる。

ここで、分析対象ユーザは、外部から指定されたユーザであってもよいし、ＳＮＳのユーザの中から所定条件に合致するとして自動的に選択されたユーザであってもよいし、ＳＮＳの全ユーザであってもよい。

具体的には、キーワード抽出部１６０は、まず、ユーザ情報取得部１５０で取得した投稿情報およびプロフィール情報に基づき、特許文献２に記載の技術を用いて、対象小集団に関する単語を抽出する。抽出した対象小集団に関する単語を、特許文献２では、対象小集団に特有のキーワードとしている。しかしながら、抽出した対象小集団に関する単語には、対象小集団に特有でない単語も含まれている。図３を用いて、その理由について説明する。

図３では、グループＤ５００およびグループＥ６００の２つの小集団があり、グループＤ５００のユーザγ５０１が、グループＥ６００にも属している。この場合、グループＥ６００は、グループＤ５００の隣接集団として隣接小集団特定部１４０で特定される。

図３の状態において、特許文献２に記載の技術を用いて、グループＤ５００に関する単語を抽出する場合に、ユーザγ５０１のフォロウィー数に対するフォロワー数の比がグループ内で最も大きいと、ユーザγ５０１の投稿情報およびプロフィール情報から抽出された単語に重み付けがされ、ユーザγ５０１に関する単語がグループＤ５００に関する単語として抽出される。

ところで、ユーザγ５０１の投稿情報には、グループＤ５００に向かってされているものと、グループＥ６００に向かってされているものとがある。そのため、特許文献２の技術を用いて抽出されたグループＤ５００に関する単語には、グループＥ６００に関する単語が含まれている可能性があり、グループＤ５００に特有のキーワードとは限らなかった。

そこで、キーワード抽出部１６０は、対象小集団に関する単語を抽出した後、対象小集団の隣接小集団に関する単語を特許文献２の技術を用いて抽出し、対象小集団および隣接小集団それぞれに関する単語を比較して、対象小集団にしか出現しない単語を、対象小集団に特有のキーワードとして抽出する。

図４に、対象小集団に特有のキーワードの抽出イメージ図を示す。対象小集団をグループＤ５００とし、その隣接小集団をグループＥ６００、グループＦ７００、グループＧ８００、およびグループＨ９００とし、それぞれに関する単語（いずれも特許文献２の技術を用いて求めたもの）を四角枠でグループの横に示す。グループＤ５００に特有のキーワードは、グループＤ５００に関する単語と、隣接小集団グループＥ６００、グループＦ７００、グループＧ８００、およびグループＨ９００それぞれに関する単語と、を比較し、隣接小集団に関する単語を除いた残りの「Ｗｏｒｄ３」および「Ｗｏｒｄ４」となる。

また、キーワード抽出部１６０は、小集団および隣接小集団それぞれに関する単語の出現頻度の比較し、小集団にしか出現しない単語を、小集団に特有のキーワードとして抽出してもよい。この場合、隣接小集団に関する単語の抽出個数（ここではＭ個とする）が予め設定される。

まず、キーワード抽出部１６０は、ユーザ情報取得部１５０で取得した投稿情報およびプロフィール情報に基づいて、対象小集団および隣接小集団それぞれに関する単語を、ＤＦ／ＩＤＦ値を用いて、新聞等で一般的使われる出現頻度と比較してＭ個抽出する。次に、キーワード抽出部１６０は、抽出されたＭ個の単語それぞれについて、隣接小集団の構成ユーザの投稿情報およびプロフィール情報における出現頻度をＩＤＦ値、対象小集団の構成ユーザの投稿情報およびプロフィール情報における出現頻度をＤＦ値として、ＤＦ／ＩＤＦ値を算出する。そして、キーワード抽出部１６０は、ＤＦ／ＩＤＦ値の高い順に、予め設定されたキーワードの抽出個数（ここではＮ個とする）を、キーワードとして抽出する。

小集団と隣接小集団とを比較する際、全隣接小集団をまとめて比較してもよいし、隣接小集団それぞれと個々に比較してもよい。全隣接小集団をまとめて比較する場合には、隣接小集団全てにおける出現頻度を合算した値をＩＤＦ値とする。隣接小集団それぞれと個々に比較する場合には、隣接小集団毎にＤＦ／ＩＤＦ値を算出し、それぞれにおいて、ＤＦ／ＩＤＦ値の高い順にＮ個のキーワードリストを作成する。そして、全リスト中、一定割合のリストに含まれるキーワードを対象小集団に特有のキーワードとして抽出する。

＜投稿者分析処理フロー＞
図５は、本発明の第１の実施形態に係るユーザ分析装置１００のユーザ分析方法の処理フローを示す図である。

まず、ステップＳ１において、交流情報取得部１２０は、通信部１１０およびＳＮＳサーバ１０のＡＰＩを介して、ＳＮＳサーバ１０から交流情報を取得する。

次に、ステップＳ２において、小集団分割部１３０は、ステップＳ１で取得した交流情報に基づいて、ソフトクラスタリング手法を用いて、ＳＮＳの複数のユーザを小集団に分割する。

次に、ステップＳ３において、隣接小集団特定部１４０は、ステップＳ２で分割された小集団毎に、小集団の構成ユーザが属する他の小集団を隣接小集団として特定する。

次に、ステップＳ４において、ユーザ情報取得部１５０は、通信部１１０およびＳＮＳサーバ１０のＡＰＩを介して、ＳＮＳサーバ１０から投稿情報およびプロフィール情報を取得する。

次に、ステップＳ５において、キーワード抽出部１６０は、ステップＳ４で取得した投稿情報およびプロフィール情報に基づいて、分析対象者が属する対象小集団、および対象小集団の隣接小集団に関する単語を抽出し、対象小集団および隣接集団それぞれに関する単語を比較し、対象小集団にしか出現しない単語を、対象小集団に特有のキーワードとして抽出する。抽出された対象小集団に特有のキーワードは、分析対象者の潜在的プロフィール情報として、蓄積されたり、ＳＮＳサーバ１０に提供されたりする。

以上、説明したように、本実施形態によれば、分析対象ユーザが属する小集団とその小集団の隣接小集団との単語を比較して、分析対象ユーザが属する小集団に特有の単語をキーワードとして抽出することにより、分析対象ユーザの潜在的なプロフィール情報を、高精度に分析することができる。

＜第２の実施形態＞
図６を用いて、本発明の第２の実施形態について説明する。本実施形態は、小集団の形状を考慮して、プロフィール情報の推定精度をより高くすることができる。なお、第１の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。

＜ユーザ分析装置の機能構成＞
図６は、本発明の第２の実施形態に係るユーザ分析装置１０１を示す図である。ユーザ分析装置１０１は、ソーシャル・ネットワーキング・サービス（以下、ＳＮＳ）のＳＮＳサーバ１０と接続され、ＳＮＳサーバ１０から取得したユーザ間の交流関係および交流関係にある他ユーザの情報から投稿者の潜在的なプロフィール情報を、高精度に分析する装置であって、図６に示すように、通信部１１０、交流情報取得部１２０、小集団分割部１３０、小集団抽出部１７０、隣接小集団特定部１４１、ユーザ情報取得部１５０、およびキーワード抽出部１６０を備える。

なお、ユーザ分析装置１０１は、ＳＮＳサーバ１０から取得する情報を予め蓄積していてもよい。この場合には、ユーザ分析装置１００は、ＳＮＳサーバ１０と通信を行わなくてもよい。

小集団抽出部１７０は、交流情報取得部１２０で取得された交流情報に基づいて算出された、小集団の各構成ユーザの小集団内での他構成ユーザとの接続状態に基づいて、小集団分割部１３０で分割された小集団の中から、小集団の構成ユーザ同士の交流が密接である小集団を抽出する。

小集団の構成ユーザ同士の交流が密接である小集団は、図７（ａ）のようないわゆる団子型形状をしている。団子型形状の小集団の構成ユーザは同質性が高く、この小集団に特有のキーワードは構成ユーザの潜在的なプロフィール情報として適切であると言える。一方、小集団の構成ユーザ同士の交流が密接でない小集団は、図７（ｂ）のようないわゆるスター型形状をしている。スター型形状の小集団の構成ユーザは同質性が低く、この小集団に特有のキーワードは構成ユーザの潜在的なプロフィール情報として適切でないと言える。

そのため、本実施形態においては、小集団分割部１３０で分割された小集団の中から、スター型形状でない、すなわち団子型形状の小集団を抽出して、抽出した小集団を用いて、分析対象ユーザが属する対象小集団に特有のキーワードを抽出し、分析対象ユーザの潜在的なプロフィール情報とする。

具体的には、小集団抽出部１７０は、与えられたグラフから密な構造を見つけ出す技術（非特許文献５：宇野毅明，「擬似クリークを列挙する多項式時間遅延アルゴリズム」，情報処理学会研究報告.ＡＬ，アルゴリズム研究会報告２００７（２３），９７−１０４，２００７−０３−０９）を用いて、小集団分割部１３０で分割された小集団の中から、小集団の構成ユーザ同士の交流が密接である団子型形状の小集団を抽出する。

また、小集団抽出部１７０は、Ｓｍｉｒｎｏｖ−Ｇｒｕｂｂｓ検定（非特許文献３：Ｇｒｕｂｂｓ，Ｆ．Ｅ．“Ｐｒｏｃｅｄｕｒｅｓｆｏｒｄｅｔｅｃｔｉｎｇｏｕｔｌｙｉｎｇｏｂｓｅｒｖａｔｉｏｎｓｉｎｓａｍｐｌｅｓ“，Ｔｅｃｈｎｉｍｅｔｒｉｃｓ１１，１−２１．（１９６９）．）またはＴｉｅｔｊｅｎ−Ｍｏｏｒｅ検定（非特許文献４：ＴｉｅｔｊｅｎａｎｄＭｏｏｒｅ，”ＳｏｍｅＧｒｕｂｂｓ−ＴｙｐｅＳｔａｔｉｓｔｉｃｓｆｏｒｔｈｅＤｅｔｅｃｔｉｏｎｏｆＯｕｔｌｉｅｒｓ，Ｔｅｃｈｎｏｍｅｔｒｉｃｓ“，１４（３），ｐｐ．５８３−５９７．（Ａｕｇｕｓｔ１９７２））といった外れ値検定を用いて、各構成ユーザの接続数について１つも外れ値を持たない小集団を、小集団分割部１３０で分割された小集団の中から、小集団の構成ユーザ同士の交流が密接である団子型形状の小集団として抽出してもよい。

更に、小集団抽出部１７０は、小集団分割部１３０で分割された小集団の中から、小集団内で１人の他の構成ユーザとしか接続していない構成ユーザの割合が閾値以下である小集団を、小集団の構成ユーザ同士の交流が密接である団子型形状の小集団として抽出してもよい。小集団内で１人の他の構成ユーザとしか接続していない構成ユーザの割合は、一人の構成ユーザとしか接続していないユーザ数／小集団の構成ユーザ数として算出される。

隣接小集団特定部１４１は、小集団抽出部１７０で抽出された小集団毎に、小集団抽出部１７０で抽出された小集団の中から隣接小集団を特定する。

以上、説明したように、本実施形態によれば、構成ユーザ同士の交流が密接である団子型形状の小集団であって、構成ユーザの同質性が高い、対象小集団および隣接小集団について抽出され単語を用いて、対象小集団に特有のキーワードを抽出することにより、分析対象ユーザの潜在的なプロフィール情報を、より高精度に分析することができる。

なお、ユーザ分析装置の処理をコンピュータシステムが読み取り可能な記録媒体に記録し、この記録媒体に記録されたユーザ分析装置に読み込ませ、実行することによって本発明のユーザ分析装置を実現することができる。ここでいうコンピュータシステムとは、ＯＳや周辺装置等のハードウェアを含む。

また、「コンピュータシステム」は、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）システムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。

また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合せで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１０ＳＮＳサーバ
１００，１０１ユーザ分析装置
１１０通信部
１２０交流情報取得部
１３０小集団分割部
１４０，１４１隣接小集団特定部
１５０ユーザ情報取得部
１６０キーワード抽出部
１７０小集団抽出部

Claims

Ｗｅｂ上のコミュニケーションネットワークに投稿された投稿情報、前記コミュニケーションネットワークのユーザのプロフィール情報、および前記投稿情報を介した前記コミュニケーションネットワークにおけるユーザの交流関係を示す交流情報を用いて、ユーザの潜在的プロフィール情報を分析するユーザ分析装置であって、
前記交流情報に基づいて、前記コミュニケーションネットワークを小集団に分割する小集団分割手段と、
前記小集団分割手段で分割された小集団から、一の小集団の構成ユーザそれぞれが属する他の小集団を当該一の小集団の隣接小集団として特定する隣接小集団特定手段と、
分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語と、当該小集団について前記隣接小集団特定手段で特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語との比較に基づいて、当該小集団に特有のキーワードを抽出するキーワード抽出手段と、
を備え、
抽出されたキーワードを前記分析対象ユーザの潜在的プロフィール情報とすることを特徴とするユーザ分析装置。
前記交流情報に基づいて算出された、前記小集団の各構成ユーザの当該小集団内での他構成ユーザとの接続状態に基づいて、分割された小集団の中から、当該小集団の構成ユーザ同士の交流が密接である小集団を抽出する小集団抽出手段を備え、
前記隣接小集団特定手段が、前記小集団抽出手段で抽出された小集団から、一の小集団の構成ユーザが属する他の小集団を当該一の小集団の隣接小集団として特定することを特徴とする請求項１に記載のユーザ分析装置。
前記小集団抽出手段が、Ｓｍｉｒｎｏｖ−Ｇｒｕｂｂｓ検定またはＴｉｅｔｊｅｎ−Ｍｏｏｒｅ検定を用いて、各構成ユーザの接続数について１つも外れ値を持たない小集団を、前記分割された小集団の中から、当該小集団の構成ユーザ同士の交流が密接である小集団として抽出することを特徴とする請求項２に記載のユーザ分析装置。
前記小集団抽出手段が、他の構成ユーザとの接続数が１である構成ユーザの割合が閾値以下の小集団を、前記分割された小集団の中から、当該小集団の構成ユーザ同士の交流が密接である小集団として抽出することを特徴とする請求項２に記載のユーザ分析装置。
分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語の出現頻度と、当該小集団について前記隣接小集団特定手段で特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語の出現頻度との比較に基づいて、当該小集団に特有のキーワードを抽出することを特徴とする請求項１から請求項４のいずれかに記載のユーザ分析装置。
前記小集団分割手段が、階層的リンククラスタリング法またはファジーＣ平均法を用いて、前記コミュニケーションネットワークを小集団に分割することを特徴とする請求項１から請求項５のいずれかに記載のユーザ分析装置。
前記コミュニケーションネットワークを提供するコミュニケーションサーバから前記交流情報を取得する交流情報取得手段と、
前記コミュニケーションサーバから前記投稿情報および前記プロフィール情報を取得するユーザ情報取得手段と、
を備えることを特徴とする請求項１から請求項６のいずれかに記載のユーザ分析装置。
Ｗｅｂ上のコミュニケーションネットワークに投稿された投稿情報、前記コミュニケーションネットワークのユーザのプロフィール情報、および前記投稿情報を介した前記コミュニケーションネットワークにおけるユーザの交流関係を示す交流情報を用いて、ユーザの潜在的プロフィール情報を分析するユーザ分析装置におけるユーザ分析方法であって、
前記ユーザ分析装置が、小集団分割手段、隣接小集団特定手段、およびキーワード抽出手段を備え、
前記小集団分割手段が、前記交流情報に基づいて、前記コミュニケーションネットワークを小集団に分割する第１のステップと、
前記隣接小集団特定手段が、前記第１のステップで分割された小集団から、一の小集団の構成ユーザそれぞれが属する他の小集団を当該一の小集団の隣接小集団として特定する第２のステップと、
前記キーワード抽出手段が、分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語と、当該小集団について前記第２のステップで特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語との比較に基づいて、当該小集団に特有のキーワードを抽出する第３のステップと、
を含み、
抽出されたキーワードを前記分析対象ユーザの潜在的プロフィール情報とすることを特徴とするユーザ分析方法。
Ｗｅｂ上のコミュニケーションネットワークに投稿された投稿情報、前記コミュニケーションネットワークのユーザのプロフィール情報、および前記投稿情報を介した前記コミュニケーションネットワークにおけるユーザの交流関係を示す交流情報を用いて、ユーザの潜在的プロフィール情報を分析するユーザ分析装置におけるユーザ分析方法をコンピュータに実行させるためのプログラムであって、
前記ユーザ分析装置が、小集団分割手段、隣接小集団特定手段、およびキーワード抽出手段を備え、
前記小集団分割手段が、前記交流情報に基づいて、前記コミュニケーションネットワークを小集団に分割する第１のステップと、
前記隣接小集団特定手段が、前記第１のステップで分割された小集団から、一の小集団の構成ユーザそれぞれが属する他の小集団を当該一の小集団の隣接小集団として特定する第２のステップと、
前記キーワード抽出手段が、分析対象ユーザが属する小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語と、当該小集団について前記第２のステップで特定された隣接小集団の構成ユーザの投稿情報およびプロフィール情報から抽出した単語との比較に基づいて、当該小集団に特有のキーワードを抽出する第３のステップと、
を含み、
抽出されたキーワードを前記分析対象ユーザの潜在的プロフィール情報とすることを特徴とするユーザ分析方法をコンピュータに実行させることを特徴とするプログラム。