JP5961320B2 - ソーシャル・メデイアにおけるユーザの分類方法、コンピュータ・プログラム及びコンピュータ - Google Patents

ソーシャル・メデイアにおけるユーザの分類方法、コンピュータ・プログラム及びコンピュータ Download PDF

Info

Publication number
JP5961320B2
JP5961320B2 JP2015505422A JP2015505422A JP5961320B2 JP 5961320 B2 JP5961320 B2 JP 5961320B2 JP 2015505422 A JP2015505422 A JP 2015505422A JP 2015505422 A JP2015505422 A JP 2015505422A JP 5961320 B2 JP5961320 B2 JP 5961320B2
Authority
JP
Japan
Prior art keywords
users
profile
clusters
feature vector
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015505422A
Other languages
English (en)
Other versions
JPWO2014141976A1 (ja
Inventor
莉沙 西山
莉沙 西山
吉田 一星
一星 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of JP5961320B2 publication Critical patent/JP5961320B2/ja
Publication of JPWO2014141976A1 publication Critical patent/JPWO2014141976A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、情報処理技術に関係し、より詳しくは、ソーシャル・メディアにおけるユーザ集合をより効率的に特定する技術に係る。
ソーシャル・メディアが広範に利用されるに従い、ソーシャル・メディアにおけるユーザの「趣味や嗜好に関する分類」がマーケティングにおいて有用であることが、広く知られるようになった。例えば、このような分類が、ユーザが購入しそうな製品やサービスを特定することや、大規模ユーザ集合のセグメンテーション(嗜好の類似性による分類)に活用されている。従来、年齢や政治的志向が共通するユーザは、そのユーザがソーシャル・メディア上にポストするコンテンツも類似する、という仮説を前提として利用して、ユーザ集合の特定が試みられてきた。例えば、コンテンツの類似性を利用してユーザの年齢や政治的志向を推定する取り組みがなされており(非特許文献1及び非特許文献2参照)、一定の成果を上げている。同様の手法により、趣味や嗜好が共通するユーザ集合を特定することも理論的には可能に思われる。
特許第4898938号公報 特開2000−148864号公報
Pennacchiotti, M. and Popescu, A.-M. (2011). Democrats,republicans and starbucks afficionados:user classification in twitter. In Proceedings of the 17th ACM SIGKDDinternational conference on Knowledge discovery and data mining (KDD2011), pp.430-438. 2011. Rao, D., Yarowsky, D., Shreevats,A., and Gupta, M. (2010). Classifying latent user attributes in twitter.In Proceedings of the 2nd internationalworkshop on Search and mining user-generated contents (SMUC2010), pp. 37-44.2010 Twitter, "GET statuses/user_timeline",[online], 2013-02-12, Twitter, [2013-02-25検索], インターネット<URL: https://dev.twitter.com/docs/api/1.1/get/statuses/user_timeline> Kriti Puniyani, Jacob Eisenstein, Shay Cohen,and Eric P. Xing. 2010. Social links from latent topics in Microblogs.In Proceedings of the NAACL HLT 2010 Workshop on Computational Linguistics in aWorld of Social Media (WSA '10). Association for Computational Linguistics, Stroudsburg, PA, USA, 19-20.
しかし、上記従来技術は大量のコンテンツを必要とするが、現実の広く利用されているソーシャル・メディアの多くはそのコンテンツを取得するためのAPIクエリー送信回数に制限を設けており、大量(例えば数百万)のユーザについて類似性の判断に十分な件数のコンテンツを取得するには、膨大な時間を要する(非特許文献3参照)。
本発明はこのような課題に鑑みてなされたものであり、その目的の一つは、ソーシャル・メディアにおけるユーザを、大量のコンテンツを取得することなくそのコンテンツの類似性を推定して分類することにある。
なお、このような課題を本発明者らが検討する過程で、以下のようなソーシャル・メディアの特性に関する洞察に基づいて、本発明に至った。すなわち、ソーシャル・メディアにおけるユーザは、自分自身がポストする複数のコンテンツのほかに、プロフィールと関連付けられている。ここで、プロフィールはユーザの自己紹介などを含む短いテキストで、コンテンツに関連した情報(趣味や嗜好、年代や職業など)を含む傾向が観察される。一方、1ユーザあたりの件数がコンテンツと比較して非常に少ないため(通常1件)、クエリー送受信の制限範囲内であっても、多くのユーザのプロフィールを取得することが可能である。他方、一般にプロフィール欄のテキストは非常に短く、またコンテンツとしてポストする話題と直接関係しない表現も一緒に列挙されるため、プロフィールのみの情報からコンテンツの類似性を反映してユーザを分類することは難しい。
本発明は、上記洞察により、全ユーザのコンテンツを取得することなく、コンテンツの類似性に基づく分類を可能にする手段を提供するものである。つまり、ごく少量のユーザに関してのみコンテンツを取得することで先ずそれらのユーザを分類し、それ以外の大量のユーザに関してはプロフィールのみを利用し、先に分類された集合に割り当てる。それにより、大量のユーザ全員分のコンテンツを取得することなく、コンテンツの類似性を反映した分類を実現する。
すなわち本発明は、各ユーザに対してテキストのプロフィールとテキストのコンテンツとが関連付けられるソーシャル・メディアにおいて、コンピュータにより、複数のユーザを複数のクラスタに分類する方法であり、前記複数のユーザのうち、一部のユーザに関連付けられるコンテンツに基づいて、前記一部のユーザのそれぞれに対してコンテンツ特徴ベクトルを生成するステップと、 前記コンテンツ特徴ベクトルに基づいて、前記複数のクラスタと、前記複数のクラスタと前記一部のユーザとのマッピングとを生成するステップと、 各クラスタにマッピングされた前記一部のユーザに関連付けられるプロフィールに基づいて、前記複数のクラスタのそれぞれに対して第1プロフィール特徴ベクトルを生成するステップと、 前記複数のユーザのうち、前記一部のユーザを除く、他のユーザに関連付けられるプロフィールと、前記第1プロフィール特徴ベクトルとに基づいて、前記他のユーザのそれぞれを前記複数のクラスタに分類するステップとを備える方法である。
ここで、前記ソーシャル・メディアはマイクロブログであり、前記コンテンツは、各ユーザが前記マイクロブログにポストした複数の投稿とすることができる。また、前記コンテンツ特徴ベクトルは、前記複数の投稿に含まれる語を要素とすることができる。語としては、前記投稿に含まれる名詞、動詞、係り受け表現などを用いることができる。さらに、前記コンテンツ特徴ベクトルは、前記複数の投稿に含まれる語のそれぞれに対して出現頻度などの重要度(スコア)を割り当てることができる。スコアは、前記クラスタリングの実施時に、複数の特徴ベクトルを比較する際に用いられる。
また、前記複数のクラスタを生成するステップは、前記一部のユーザに関連付けられるコンテンツに潜在的ディリクレ配分法を適用し、同一話題に用いられやすい語をクラスタリングすることで前記複数のクラスタを生成することができる。また、前記複数のクラスタと前記一部のユーザとのマッピングを生成するステップは、前記一部のユーザに関連付けられるコンテンツ中の前記クラスタリング結果を用いて、前記一部のユーザを各クラスタにマッピングすることができる。
また、前記第1プロフィール特徴ベクトルを生成するステップは、各クラスタにマッピングされた前記一部のユーザに関連付けられるプロフィール中の語に基づいて、前記第1プロフィール特徴ベクトルを生成することができる。語としては、前記プロフィールに含まれる名詞、動詞、係り受け表現などを用いることができる。ここで、前記語が、他のクラスタにマッピングされた前記一部のユーザに関連付けられるプロフィール中の語に比べて、出現しやすいか否かに基づいて、前記第1プロフィール特徴ベクトルを生成することができる。さらに、前記語が、他のクラスタにマッピングされた前記一部のユーザに関連付けられるプロフィール中の語に比べて、より出現しやすい上位T個(Tは自然数)の語とすることもできる。さらにまた、前記他のユーザのそれぞれを前記複数のクラスタに分類するステップは、前記他のユーザに関連付けられるプロフィール中に、前記上位T個の語のいずれかが存在するか否かに基づいて、前記他のユーザのそれぞれを前記複数のクラスタに分類することもできる。
また、前記複数のユーザのうち、前記一部のユーザを除く、他のユーザに関連付けられるプロフィールに基づいて、前記他のユーザのそれぞれに対して第2プロフィール特徴ベクトルを生成するステップを備え、前記他のユーザのそれぞれを前記複数のクラスタに分類するステップは、前記第1プロフィール特徴ベクトルと前記第2プロフィール特徴ベクトルとに基づいて、前記他のユーザのそれぞれを前記複数のクラスタに分類することができる。
また、前記第1プロフィール特徴ベクトルと前記第2プロフィール特徴ベクトルとの類似度に基づいて、一人のユーザを最も類似度の高い第1プロフィール特徴ベクトルに対応するクラスタに分類することができる。また、前記他のユーザのそれぞれを前記複数のクラスタに分類するステップにおいて、一人のユーザが複数のクラスタに分類されることを許すこともできる。
また、前記他のユーザのそれぞれを前記複数のクラスタに分類するステップにおいて、前記他のユーザに関連付けられるコンテンツを利用しないことができる。また、前記一部のユーザの数は、前記他のユーザの数に比べて少なく、前記プロフィールの情報量は、前記コンテンツの情報量に比べて少ないものすることができる。
また、前記ソーシャル・メディアをホストするサーバと、前記複数のユーザを複数のクラスタに分類するコンピュータとがネットワークを介して接続され、前記コンピュータからの要求に応答して、前記サーバから送信される情報を前記コンピュータが受信するステップを更に備えることができる。ここで、単位時間当たりに取得可能な、前記情報の情報量が制限されることがある。
また、前記ホストするコンピュータから送信される情報を前記コンピュータが受信するステップを繰り返すことにより、前記コンピュータの記憶手段に、前記一部のユーザに関連付けられるコンテンツ及びプロフィールと、前記他のユーザに関連付けられるプロフィールとを記憶するステップを更に備えることができる。
本発明をこれらコンピュータ・プログラム、コンピュータ・システムとして把握した場合にも、上述した本発明を方法として把握した場合と実質的に同一の技術的特徴を備える事ができるのは当然である。
本発明によれば、ソーシャル・メディアにおけるユーザを、大量のコンテンツを取得することなく、そのコンテンツの類似性を反映して分類することができる。
マイクロブログのシステムを説明する概念図 マイクロブログのフォロー・被フォロー関係を説明する概念図 ユーザ端末としてのスマートフォンとその画面表示の説明図 マイクロブログ・サーバ内のハードディスク装置内に記憶されているデータのデータ構造の説明図 発信されるコンテンツの種類の説明図 コンピュータのハードウェア構成を説明するブロック図 コンピュータの機能モジュール構成を説明するブロック図 コンピュータが実行する処理を説明するフローチャート クラスタリング過程の説明図
実施形態
以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。また、本発明は多くの異なる態様で実施することが可能であり、実施の形態の記載内容に限定して解釈されるべきものではない。また、実施の形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須とは限らないことに留意されたい。実施の形態の説明の全体を通じて(特段の断りのない限り)同じ要素には同じ番号を付している。
図1は、ソーシャル・メディアの一例として、マイクロブログのシステムを説明する概念図である。本システムは、マイクロブログ・サーバ(ソーシャル・メディアをホストするサーバ)2と、ユーザ端末とを含み、これらはインターネット4を介して互いに通信可能に接続されている。また、ユーザ端末としては、通信機能を備えたあらゆる形態のコンピュータを採用することができる。例えば、図示するスマートフォン31、タブレット32、(ノート型)パーソナル・コンピュータ33の他にも、図示しないパーソナル・データ・アシスタント(PDA、携帯情報端末)、車載コンピュータ、ネットブック等を採用することができる。
図2は、マイクロブログのフォロー・被フォロー関係を説明する概念図である。マイクロブログのユーザは、友人、知人、興味や関心の共通する他のユーザを予め登録しておくことができ、彼らの発信(投稿)するコンテンツ(テキストのコンテンツ)を自動的に受信することができる。このような登録を“フォロー”と呼び、フォローの関係は、ユーザ同士が相互にフォローし合う関係、一のユーザが他のユーザを一方的にフォローする関係が存在する。例えば、図2における矢印は、ユーザAAAとユーザBBBとは相互にフォローし合っており、ユーザBBBはユーザCCCを一方的にフォローしており、ユーザCCCはユーザAAAを一方的にフォローしていることを示す。
図3は、一例として、ユーザ端末としてのスマートフォン31とその画面表示を説明するものである。このスマートフォン31のタッチスクリーンには、マイクロブログ・アプリケーションの画面が表示されており、当該アプリケーション画面は、上から順に、ホーム部分311、タイムライン部分312、操作部分313に分かれている。ホーム部分には、メニューボタンと、タイムライン部分312がユーザAAAのタイムラインである旨が表示されている。タイムライン部分312には、上から順に、ユーザAAAのコンテンツ部分312a、312b、ユーザBBBのコンテンツ部分312cが表示されている。これらのコンテンツ部分312a〜cは、時系列沿って表示されている。つまり、最上部の発言部分312aが最新のコンテンツに対応している。
図4は、マイクロブログ・サーバ2内のハードディスク装置20、21、22内に記憶されているデータのデータ構造を説明するものである。ハードディスク装置20に記憶されているコンテンツテーブル(図4(a))には、各コンテンツが発信された日時を示す発信日時 (created_at)、各コンテンツを特定するコンテンツID(id)と、そのコンテンツを発信したユーザを特定するユーザID(user_id)と、コンテンツの内容であるテキスト(text)を備えている。なお、テキストには文字数制限(例えば、140文字以内等)を設けることができる。一方、ハードディスク装置21に記憶されているユーザ関係テーブル(図4(b))には、フォロー関係を登録した日時を示す登録日時(registered_at)、フォロー元のユーザを特定するフォロー元ユーザID(following_user_id)、フォロー先のユーザを特定するフォロー先ユーザID(followed_user_id)を備えている。他方、ハードディスク装置22に記憶されているプロフィールテーブル(図4(c))には、各ユーザを特定するユーザID(user_id)、各ユーザの名前(図示せず)、場所を示すロケーション情報(図示せず)、各ユーザのプロフィール(テキストのプロフィール:profile)を備えている。
図5は、発信されるコンテンツの種類を説明するものである。図5(a)は、通常のコンテンツを説明するものである。ここでは、ユーザAAAが自らのタイムラインにコンテンツを発信しており、ユーザAAAとユーザAAAをフォローしているユーザ(図2の例ではユーザBBB及びユーザCCC)のタイムラインにこれらのコンテンツが表示される。図5(b)は、リプライコンテンツを説明するものである。リプライコンテンツは、特定のコンテンツに対する返事であり、自分と、自分と返信先のユーザ両方をフォローしているユーザのタイムラインに表示される。ここでは、ユーザBBBが、ユーザAAAのコンテンツに対する返事として、「やあ、こんにちは。」というリプライコンテンツを発信し、そのリプライコンテンツはユーザBBB本人の他、ユーザBBBをフォローしているユーザ(図2の例ではユーザAAA)のタイムラインに表示される。
図5(c)及び図5(d)は、いずれも転載コンテンツを説明するものであり、ユーザCCCが自分のタイムラインに表示されているユーザAAAの元コンテンツ「マイクロブログ始めました。」を転載コンテンツとして、再発信する様子を示している。いずれの場合も、ユーザCCCをフォローしているユーザ(図2の例ではユーザBBB)のタイムラインに転載コンテンツが表示されるが、図5(c)に示す第一態様の場合は、元のユーザAAAの名前でユーザCCCをフォローしているユーザのタイムラインへ表示されるが、図5(d)に示す第二態様の場合は、転送するユーザCCCの名前で表示される。図5(e)は、引用コンテンツを説明するものである。ユーザCCCが自分のタイムライン表示されているユーザAAAの元コンテンツ「マイクロブログ始めました。」をそのまま引用し、更に自分のコメント「ようこそ!」を入力して引用コンテンツとして、再発信する様子を示している。この引用コンテンツは、ユーザCCCをフォローしているユーザのタイムラインに表示される。
図6は、パーソナル・コンピュータ(複数のクラスタに分類するコンピュータ)1のハードウェア構成を説明するブロック図である。コンピュータ1のハードウェア構成は、(低速及び高速の)バス10、バス10に接続されるCPU(演算制御装置)11、RAM(ランダム・アクセス・メモリ:記憶装置)12、ROM(リード・オンリ・メモリ:記憶装置)13、HDD(ハード・ディスク・ドライブ:記憶装置)14、通信インタフェース15、入出力インタフェース16を備えている。さらに、入出力インタフェース16に接続されるマウス17、フラット・パネル・ディスプレイ(表示装置)18、キーボード19等を備えている。なお、コンピュータ1は一般的なパーソナル・コンピュータ・アーキテクチャを採用するものとして説明したが、例えば、より高いデータ処理能力や可用性を求めて、CPU11やHDD14等を多重化することができる。また、デスクトップ型の他、様々なタイプのコンピュータ・システムを採用することができる。なお、このコンピュータ1は、インターネット(ネットワーク)4を介してマイクロブログ・サーバ2と通信可能に接続されている。
このコンピュータ1のソフトウェア構成は、基本的な機能を提供するオペレーティング・システム(OS)と、OSの機能を利用するアプリケーション・ソフトウェアと、入出力装置のドライバ・ソフトウェアとを備えている。これらの各ソフトウェアは、各種データと共にRAM12上にロードされ、CPU11等により実行され、コンピュータ1は全体として、図7に示す機能を発揮し、図8に示す処理を実行する。
図7は、このコンピュータ1の機能モジュールを示すブロック図である。このコンピュータ1は、記憶モジュール100と、訓練クラスタ・マッピング生成モジュール101と、第1プロフィール特徴ベクトル生成モジュール102と、第2プロフィール特徴ベクトル生成モジュール103と、本番クラスタ・マッピング生成モジュール104とを備える。
各モジュールの入出力データは以下の通りである。記憶モジュール100へは、通信インタフェース15から訓練ユーザのプロフィール及びコンテンツと、本番ユーザのプロフィールが入力される。記憶モジュール100からは、訓練ユーザのコンテンツが訓練クラスタ・マッピング生成モジュール101へ、訓練ユーザのプロフィールが第1プロフィール特徴ベクトル生成モジュール102へ、本番ユーザのプロフィールが第2プロフィール特徴ベクトル生成モジュール103へ、それぞれ出力される。訓練クラスタ・マッピング生成モジュール101へは、記憶モジュール100から訓練ユーザのコンテンツが入力される。訓練クラスタ・マッピング生成モジュール101からは、訓練ユーザのクラスタ・マッピングが第1プロフィール特徴ベクトル生成モジュール102へ出力される。第1プロフィール特徴ベクトル生成モジュール102へは、訓練クラスタ・マッピング生成モジュール101から訓練ユーザのクラスタ・マッピングと、記憶モジュール100から訓練ユーザのプロフィールがそれぞれ入力される。第1プロフィール特徴ベクトル生成モジュール102からは、第1プロフィール特徴ベクトルが本番クラスタ・マッピング生成モジュール104へ出力される。第2プロフィール特徴ベクトル生成モジュール103へは、記憶モジュール100から本番ユーザのプロフィールが入力される。第2プロフィール特徴ベクトル生成モジュール103からは、第2プロフィール特徴ベクトルが本番クラスタ・マッピング生成モジュール104へ出力される。本番クラスタ・マッピング生成モジュール104へは、第1プロフィール特徴ベクトル生成モジュール102から第1プロフィール特徴ベクトルが、第2プロフィール特徴ベクトル生成モジュール103から第2プロフィール特徴ベクトルが、それぞれ入力される。本番クラスタ・マッピング生成モジュール104からは、本番ユーザのクラスタ・マッピングがディスプレイ18へ出力される。
実施例
図8は、このコンピュータ1が実行する処理を説明するフローチャートである。また、図9は、このコンピュータ1が実行するクラスタリング過程の説明図である。以下、適宜、図9を参照しつつ、図8のフローチャートに沿って、説明する。
まず、コンピュータ1からマイクロブログ・サーバ2へ、データ入手の為のリクエストを送信する(S10)。次いで、サーバ2から、このリクエストに対応するデータを受信する(S20)。ここで、リクエストの具体的内容としては、訓練ユーザ(一部のユーザ)に関連付けられるコンテンツ(図4(a)参照)、訓練ユーザ及び本番ユーザ(他のユーザ)に関連付けられるプロフィール(図4(c)参照)をサーバ2からコンピュータ1へ送信することである。ここで、一般的にマイクロブログ・サーバ2からデータを取得するためのAPIクエリー送信回数や、一回のクエリーにより取得可能なデータ量に制限がある。したがって、必要なデータを取得するために、上記S10とS20のステップを繰り返す。取得したデータは、記憶モジュール100に記憶される。
なお、訓練ユーザ(矢印A)の数は、本番ユーザ(矢印D)の数に比べて大幅に少ない。例えば、訓練ユーザとして一万人のマイクロブログユーザを、本番ユーザとして百万人のマイクロブログユーザを対象とすることができる。また、プロフィールの情報量は、コンテンツの情報量に比べて大幅に少ない。一般に、一人のユーザに対して一件のプロフィールが関連付けられるが、一人のユーザに対して関連付けられるコンテンツ(メッセージ、ポスト、投稿)の数は、場合によっては数千を超える。例えば、一人のユーザに関連付けられるコンテンツのうち、最近投稿された千件のコンテンツを対象とすることができる。
次に、訓練ユーザに関連付けられるコンテンツに基づいて、コンテンツ特徴ベクトルを生成する(S30)。具体的には、訓練クラスタ・マッピング生成モジュール101が、ある一人の訓練ユーザに関連付けられる(複数の)コンテンツ中の名詞を抽出し、その出現数(出現したコンテンツ数)を要素とする特徴ベクトルを生成する。なお、名詞の抽出には任意の自然言語処理技術を用いることができる。この出現数は、その名詞の重要度を表す指標と考えることもできる。また、予め重要度の高い名詞の候補を用意しておくこともできる。さらに、自然言語処理技術が抽出可能な名詞以外の表現、例えば動詞や係り受け表現なども、前記名詞の代わりとして、または前記名詞とともに、用いることができる。
次に、コンテンツ特徴ベクトルに基づいて、複数のクラスタ及び複数のクラスタと訓練ユーザとのマッピングとを生成する(S40、S50)。具体的には、訓練クラスタ・マッピング生成モジュール101が、(訓練ユーザ, その訓練ユーザに対応するコンテンツ特徴ベクトル)の組の集合をクラスタリングアルゴリズムに入力し、複数個のクラスタと、各訓練ユーザのクラスタへのマッピングを得る。ここで、クラスタリングアルゴリズムは、コンテンツ特徴ベクトルの類似度を用いて訓練ユーザの類似度を測る任意のものを採用することができる。例えば、語として名詞を用いた場合、以下のものを採用することができる。まず、訓練ユーザすべてに関連付けられるコンテンツすべてに対して、潜在的ディリクレ配分法(LDA)を適用し、同じ話題で用いられやすい名詞をクラスタリングする。この結果、例えばIT関係の話題で用いられる名詞群(サイト、アンドロイド等)や、育児関係の話題で用いられる名詞群(子供、息子等)や、韓国のポップ音楽関係の話題で用いられる名詞群(韓国、ゼミ等)がそれぞれ同じクラスタに入る。次いで、コンテンツ中の名詞のクラスタリング結果を用いて、式(1)により、訓練ユーザを各クラスタ(例えば、クラスタA〜C)に分類する(矢印B)。
Figure 0005961320

次に、訓練ユーザに関連付けられるプロフィールに基づいて、複数のクラスタのそれぞれに対して第1プロフィール特徴ベクトルを生成する(S60)。すなわち、クラスタに対する特徴ラベルをコンテンツからプロフィールに切り替える。第1プロフィール特徴ベクトルを生成することは、各クラスタ内の複数の訓練ユーザのプロフィール表現を統合することに相当する。具体的には、第1プロフィール特徴ベクトル生成モジュール102が、各クラスタにクラスタリングされた訓練ユーザのプロフィールに出現する名詞(プロフィール表現)を用いて、各クラスタに対してそのクラスタを特徴付ける第1プロフィール特徴ベクトルを生成する。例えば、各クラスタの訓練ユーザのプロフィール欄に出現する名詞(プロフィール表現)について、tficfスコアを得る。ここで、tficfスコアとは、他のクラスタと比較して、当該クラスタの訓練ユーザのプロフィールに出現しやすい表現を得るための指標であり、式(2)により、算出することができる。tTficfスコアの上位T件のプロフィール表現を当該クラスタの代表プロフィール表現とし、各代表プロフィール表現を要素とする、第1プロフィール特徴ベクトルを生成する。例えば、この実施例では、クラスタAに対応する代表プロフィール表現としては、「エンジニア」、「IT」、「開発」が挙げられている。
Figure 0005961320

次に、本番ユーザに関連付けられるプロフィールに基づいて、第2プロフィール特徴ベクトルを生成する(S70)。具体的には、第2プロフィール特徴ベクトル生成モジュール103が、ある一人の本番ユーザに関連付けられる(一件の)プロフィール中の名詞を抽出し、その出現数を要素とする特徴ベクトルを生成する。なお、名詞の抽出には任意の自然言語処理技術を用いることができる。さらに、自然言語処理技術が抽出可能な名詞以外の表現、例えば動詞や係り受け表現なども、前記名詞の代わりとして、または前記名詞とともに、用いることができる。
次に、第1プロフィール特徴ベクトルと第2プロフィール特徴ベクトルとに基づいて、本番ユーザのそれぞれを複数のクラスタに分類する(S80)。すなわち、本番クラスタ・マッピング生成モジュール104が、ある一人の本番ユーザに対応する第2プロフィール特徴ベクトルと、各第1プロフィール特徴ベクトルとを比較し、最も類似する特徴ベクトルに対応するクラスタに、当該本番ユーザを分類する。このように、本番ユーザについては、関連付けられるコンテンツを取得・分析する必要がなく、高々1件のプロフィール欄の記述のみに基づいて適切なクラスタへ分類することができる。例えば、この実施例では、クラスタAに対応する代表プロフィール表現としては、「エンジニア」、「IT」、「開発」が挙げられている為、これらに近い表現をプロフィール欄(例えば、「開発に役立つTipsをつぶやきます」、「Web系エンジニア」)に記述している本番ユーザは、クラスタAへ分類される。ある表現が他の表現と近いか否かは、以下の変形例のように、既存の言語処理技術を利用して判断することができる。
変形例1 本番ユーザについて、tficfスコア上位T件の代表プロフィール表現のいずれかをプロフィールに含む本番ユーザを該当クラスタに分類することもできる。この場合、ある一人の本番ユーザが複数のクラスタに分類されることもあり得る。
変形例2 第1プロフィール特徴ベクトルを入力とし、クラスタを出力とする分類器を任意に1つ用意し、その分類器をステップS60において、学習することもできる。この場合、当該分類器に第2プロフィール特徴ベクトルを入力し、出力されるクラスタを分類結果とすることができる。
いずれの場合(実施例、変形例1、変形例2)も、得られた本番ユーザのクラスタをディスプレイ18へ出力することができる(S80)。
本発明は、全体がハードウェアの実施形態、全体がソフトウェアの実施形態、またはハードウェアおよびソフトウェア両方のエレメントを包含する実施形態の形を取ることができる。ある好適な実施形態において、本発明は、以下に限らないが、ファームウェア、常駐ソフトウェア、マイクロコード、構文解析ピココードなどを含めた、ソフトウェアに実装される。
さらに、本発明は、コンピュータまたは任意の命令実行システムによってまたはこれに関連させて使用するプログラム・コードを備えるコンピュータ・プログラム、コンピュータ可読媒体の形態を採ることもできる。本説明目的の上で、コンピュータ可読媒体は、任意の命令実行システム、装置、またはデバイスによってまたはこれに関連させて使用するためのプログラムを、収容、格納、通信、伝搬、または伝送できる任意の装置であり得る。具体的には、前述の構文解析制御モジュールは、この意味で命令実行システム、または「コンピュータ」を構成する。
媒体は、電子的、磁気的、光学的、電磁気的、赤外的、または半導体のシステム(もしくは装置もしくはデバイス)または伝搬媒体とすることができる。コンピュータ可読媒体の例には、半導体または固体メモリ、磁気テープ、着脱可能コンピュータ・ディスケット、ランダム・アクセス・メモリ(RAM:random access memory)、読み取り専用メモリ(ROM:read−only memory)、剛体磁気ディスク、および光ディスクが含まれる。光ディスクの現時点での例には、コンパクト・ディスク読み取り専用メモリ(CD−ROM:compact disk read only memory)、コンパクト・ディスク読み取り/書き込み(CD−R/W:compact disk read/write)メモリ、およびDVDが含まれる。
プログラム・コードを格納もしくは実行またはその両方を行うのに適したデータ処理システムは、システム・バスを介して直接的または間接的にメモリ・エレメントに連結された少なくとも一つのプロセッサを含み得る。このメモリ・エレメントには、プログラム・コードの実際の実行の過程で使われるローカル・メモリ、バルク記憶装置、および、実行中にバルク記憶装置から読み出さねばならない回数を低減するために、少なくとも一部のプログラム・コードに一時的保管を提供するキャッシュ・メモリを含めることができる。
直接に、あるいは仲介I/Oコントローラを介して、入力/出力またはI/Oデバイス(以下に限らないが、キーボード、ディスプレイ、ポインティング・デバイスなどを含む)をシステムに連結することができる。
また、ネットワーク・アダプタをシステムに連結し、データ処理システムが、仲介の私有または公衆ネットワークを介して、他のデータ処理システムあるいは遠隔のプリンタまたは記憶デバイスに繋がるようにすることができる。モデム、ケーブル・モデム、およびイーサネット(R)カードは、現在入手可能なネットワーク・アダプタのごく一部である。
1…パーソナル・コンピュータ、
11…CPU(演算制御装置)
12…RAM(ランダム・アクセス・メモリ:記憶装置)
13…ROM(リード・オンリ・メモリ:記憶装置)
14…HDD(ハード・ディスク・ドライブ:記憶装置)
15…通信インタフェース
16…入出力インタフェース
17…マウス
18…フラット・パネル・ディスプレイ(表示装置)
2…マイクロブログ・サーバ
20、21…ハード・ディスク・ドライブ
31…スマートフォン
32…タブレット
33…(ノート型)パーソナル・コンピュータ
100…記憶モジュール、
101…訓練クラスタ・マッピング生成モジュール
102…第1プロフィール特徴ベクトル生成モジュール
103…第2プロフィール特徴ベクトル生成モジュール
104…本番クラスタ・マッピング生成モジュール

Claims (20)

  1. 各ユーザに対してテキストのプロフィールとテキストのコンテンツとが関連付けられる
    ソーシャル・メディアにおいて、複数のユーザを複数のクラスタに分類する、コンピュータが実行する方法であり、
    前記複数のユーザのうち、一部のユーザに関連付けられるコンテンツに基づいて、前記
    一部のユーザのそれぞれに対してコンテンツ特徴ベクトルを生成するステップと、
    前記コンテンツ特徴ベクトルに基づいて、記複数のクラスタと前記一部のユーザとのマッピングとを生成するステップと、
    各クラスタにマッピングされた前記一部のユーザに関連付けられるプロフィールに基づ
    いて、前記複数のクラスタのそれぞれに対して第1プロフィール特徴ベクトルを生成する
    ステップと、
    前記複数のユーザのうち、前記一部のユーザを除く、他のユーザに関連付けられるプロ
    フィールと、前記第1プロフィール特徴ベクトルとに基づいて、前記他のユーザのそれぞ
    れを前記複数のクラスタに分類するステップと
    を備える方法。
  2. 前記ソーシャル・メディアはマイクロブログであり、
    前記コンテンツは、各ユーザが前記マイクロブログにポストした複数の投稿である請求
    項1に記載の方法。
  3. 前記コンテンツ特徴ベクトルは、前記複数の投稿中の語を要素とする請求項2に記載の
    方法。
  4. 前記コンテンツ特徴ベクトルは、さらに前記複数の投稿中の語の出現頻度又は重要度を
    要素とする請求項3に記載の方法。
  5. 前記複数のクラスタを生成するステップは、前記一部のユーザに関連付けられるコンテ
    ンツに潜在的ディリクレ配分法を適用し、同一話題に用いられやすい語をクラスタリング
    することで前記複数のクラスタを生成する請求項1に記載の方法。
  6. 前記複数のクラスタと前記一部のユーザとのマッピングを生成するステップは、前記一
    部のユーザに関連付けられるコンテンツ中の前記クラスタリング結果を用いて、前記一部
    のユーザを各クラスタにマッピングする請求項5に記載の方法。
  7. 前記第1プロフィール特徴ベクトルを生成するステップは、各クラスタにマッピングさ
    れた前記一部のユーザに関連付けられるプロフィール中の語に基づいて、前記第1プロフ
    ィール特徴ベクトルを生成する請求項1に記載の方法。
  8. 前記語が、他のクラスタにマッピングされた前記一部のユーザに関連付けられるプロフ
    ィール中の語に比べて、出現しやすいか否かに基づいて、前記第1プロフィール特徴ベク
    トルを生成する請求項7に記載の方法。
  9. 前記語が、他のクラスタにマッピングされた前記一部のユーザに関連付けられるプロフ
    ィール中の語に比べて、より出現しやすい上位T個(Tは自然数)の語である請求項7に
    記載の方法。
  10. 前記他のユーザのそれぞれを前記複数のクラスタに分類するステップは、前記他のユー
    ザに関連付けられるプロフィール中に、前記上位T個の語のいずれかが存在するか否かに
    基づいて、前記他のユーザのそれぞれを前記複数のクラスタに分類する請求項9に記載の
    方法。
  11. 更に、前記複数のユーザのうち、前記一部のユーザを除く、他のユーザに関連付けられ
    るプロフィールに基づいて、前記他のユーザのそれぞれに対して第2プロフィール特徴ベ
    クトルを生成するステップを備え、
    前記他のユーザのそれぞれを前記複数のクラスタに分類するステップは、前記第1プロ
    フィール特徴ベクトルと前記第2プロフィール特徴ベクトルとに基づいて、前記他のユー
    ザのそれぞれを前記複数のクラスタに分類する請求項1に記載の方法。
  12. 前記第1プロフィール特徴ベクトルと前記第2プロフィール特徴ベクトルとの類似度に
    基づいて、一人のユーザを最も類似度の高い第1プロフィール特徴ベクトルに対応するク
    ラスタに分類する請求項11に記載の方法。
  13. 前記他のユーザのそれぞれを前記複数のクラスタに分類するステップにおいて、一人の
    ユーザが複数のクラスタに分類されることを許す請求項1に記載の方法。
  14. 前記他のユーザのそれぞれを前記複数のクラスタに分類するステップにおいて、前記他
    のユーザに関連付けられるコンテンツを利用しない請求項1に記載の方法。
  15. 前記一部のユーザの数は、前記他のユーザの数に比べて少なく、
    前記プロフィールの情報量は、前記コンテンツの情報量に比べて少ない請求項1に記載の
    方法。
  16. 前記ソーシャル・メディアをホストするサーバと、前記複数のユーザを複数のクラスタ
    に分類するコンピュータとがネットワークを介して接続され、
    前記コンピュータからの要求に応答して、前記サーバから送信される情報を前記コンピュ
    ータが受信するステップを更に備える請求項1に記載の方法。
  17. 単位時間当たり、前記情報の情報量が制限される請求項16に記載の方法。
  18. 前記ホストするコンピュータから送信される情報を前記コンピュータが受信するステッ
    プを繰り返すことにより、前記コンピュータの記憶手段に、前記一部のユーザに関連付け
    られるコンテンツ及びプロフィールと、前記他のユーザに関連付けられるプロフィールと
    を記憶するステップを更に備える請求項17に記載の方法。
  19. コンピュータにより実行されることで、前記コンピュータに請求項1から請求項18の
    いずれかに記載の方法を実行させるコンピュータ・プログラム。
  20. 各ユーザに対してテキストのプロフィールとテキストのコンテンツとが関連付けられる
    ソーシャル・メディアにおいて、複数のユーザを複数のクラスタに分類するコンピュータ
    であり、
    前記複数のユーザのうち、一部のユーザに関連付けられるコンテンツに基づいて、前記
    一部のユーザのそれぞれに対してコンテンツ特徴ベクトルを生成する手段と、
    前記コンテンツ特徴ベクトルに基づいて、記複数のクラスタと前記一部のユーザとのマッピングとを生成する手段と、
    各クラスタにマッピングされた前記一部のユーザに関連付けられるプロフィールに基づ
    いて、前記複数のクラスタのそれぞれに対して第1プロフィール特徴ベクトルを生成する
    手段と、
    前記複数のユーザのうち、前記一部のユーザを除く、他のユーザに関連付けられるプロ
    フィールと、前記第1プロフィール特徴ベクトルとに基づいて、前記他のユーザのそれぞ
    れを前記複数のクラスタに分類する手段と
    を備えるコンピュータ。
JP2015505422A 2013-03-12 2014-03-05 ソーシャル・メデイアにおけるユーザの分類方法、コンピュータ・プログラム及びコンピュータ Active JP5961320B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013049346 2013-03-12
JP2013049346 2013-03-12
PCT/JP2014/055681 WO2014141976A1 (ja) 2013-03-12 2014-03-05 ソーシャル・メデイアにおけるユーザの分類方法、コンピュータ・プログラム及びコンピュータ

Publications (2)

Publication Number Publication Date
JP5961320B2 true JP5961320B2 (ja) 2016-08-02
JPWO2014141976A1 JPWO2014141976A1 (ja) 2017-02-16

Family

ID=51536640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015505422A Active JP5961320B2 (ja) 2013-03-12 2014-03-05 ソーシャル・メデイアにおけるユーザの分類方法、コンピュータ・プログラム及びコンピュータ

Country Status (5)

Country Link
US (1) US9996611B2 (ja)
JP (1) JP5961320B2 (ja)
CN (1) CN105378717B (ja)
GB (1) GB2528595A (ja)
WO (1) WO2014141976A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6373767B2 (ja) * 2015-01-26 2018-08-15 Kddi株式会社 話題語ランキング装置、話題語ランキング方法、およびプログラム
JP6544084B2 (ja) * 2015-07-01 2019-07-17 富士通株式会社 群形成方法、群形成装置、及び群形成プログラム
CN106095915A (zh) * 2016-06-08 2016-11-09 百度在线网络技术(北京)有限公司 用户身份的处理方法及装置
CN106469192B (zh) * 2016-08-30 2021-07-30 北京奇艺世纪科技有限公司 一种文本相关性的确定方法及装置
US20180315414A1 (en) * 2017-04-26 2018-11-01 International Business Machines Corporation Adaptive digital assistant and spoken genome
CN107463703A (zh) * 2017-08-16 2017-12-12 电子科技大学 基于信息增益的英文社交媒体账号分类方法
US20200073953A1 (en) * 2018-08-30 2020-03-05 Salesforce.Com, Inc. Ranking Entity Based Search Results Using User Clusters
US11789952B2 (en) 2018-09-26 2023-10-17 Salesforce, Inc. Ranking enterprise search results based on relationships between users
CN112685614B (zh) * 2021-03-17 2021-06-18 中国电子科技集团公司第三十研究所 一种社交媒体机器人群体快速检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245212A (ja) * 2000-11-22 2002-08-30 Matsushita Electric Ind Co Ltd グループ形成システム、グループ形成装置、グループ形成方法、プログラム、及び媒体
JP2012168653A (ja) * 2011-02-10 2012-09-06 M-Warp Inc 情報提供システム
JP2012221286A (ja) * 2011-04-11 2012-11-12 Kddi Corp ユーザ分類装置、ユーザ分類方法、およびユーザ分類プログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6356879B2 (en) 1998-10-09 2002-03-12 International Business Machines Corporation Content based method for product-peer filtering
JP2001265808A (ja) 2000-03-22 2001-09-28 Skysoft Inc 情報検索システム及び情報検索方法
US20020078054A1 (en) 2000-11-22 2002-06-20 Takahiro Kudo Group forming system, group forming apparatus, group forming method, program, and medium
JP2005115791A (ja) 2003-10-09 2005-04-28 Sony Corp 情報検索方法、情報取得装置及びプログラム
JP4179341B2 (ja) 2006-06-01 2008-11-12 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
CN101819572A (zh) * 2009-09-15 2010-09-01 电子科技大学 一种用户兴趣模型的建立方法
JP4898938B2 (ja) 2010-06-08 2012-03-21 株式会社ソニー・コンピュータエンタテインメント 情報提供システム及び情報提供方法
US8868651B2 (en) * 2010-08-16 2014-10-21 Avon Products, Inc. Web community pre-population method and system
CN102354307A (zh) * 2011-06-20 2012-02-15 深圳市多易得信息技术有限公司 一种帮助微博博主互相收听的方法及系统
CN102609460B (zh) * 2012-01-13 2015-02-04 中国科学院计算技术研究所 微博客数据采集方法及系统
US10685065B2 (en) * 2012-03-17 2020-06-16 Haizhi Wangju Network Technology (Beijing) Co., Ltd. Method and system for recommending content to a user
US9348886B2 (en) * 2012-12-19 2016-05-24 Facebook, Inc. Formation and description of user subgroups

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002245212A (ja) * 2000-11-22 2002-08-30 Matsushita Electric Ind Co Ltd グループ形成システム、グループ形成装置、グループ形成方法、プログラム、及び媒体
JP2012168653A (ja) * 2011-02-10 2012-09-06 M-Warp Inc 情報提供システム
JP2012221286A (ja) * 2011-04-11 2012-11-12 Kddi Corp ユーザ分類装置、ユーザ分類方法、およびユーザ分類プログラム

Also Published As

Publication number Publication date
CN105378717B (zh) 2019-11-15
JPWO2014141976A1 (ja) 2017-02-16
WO2014141976A1 (ja) 2014-09-18
CN105378717A (zh) 2016-03-02
US20160063098A1 (en) 2016-03-03
GB2528595A (en) 2016-01-27
US9996611B2 (en) 2018-06-12
GB201516917D0 (en) 2015-11-11

Similar Documents

Publication Publication Date Title
JP5961320B2 (ja) ソーシャル・メデイアにおけるユーザの分類方法、コンピュータ・プログラム及びコンピュータ
US11704899B2 (en) Resolving entities from multiple data sources for assistant systems
US11106877B2 (en) Dynamic text generation for social media posts
CN111557006B (zh) 用于抽取关于内联注释的知识的混合智能方法
CN108604315B (zh) 使用深度学习模型识别实体
US10891322B2 (en) Automatic conversation creator for news
US10373273B2 (en) Evaluating an impact of a user&#39;s content utilized in a social network
US20200145353A1 (en) Managing and displaying online messages along timelines
US9721008B1 (en) Recipe generation utilizing natural language processing
US11449682B2 (en) Adjusting chatbot conversation to user personality and mood
CN104794145B (zh) 基于内容和关系距离来连接人们
US20190095530A1 (en) Tag relationship modeling and prediction
MX2015006040A (es) Modelo de gramatica para consultas de busqueda estructuradas.
TW201205307A (en) Method, apparatus and computer program product for efficiently sharing information
US10990620B2 (en) Aiding composition of themed articles about popular and novel topics and offering users a navigable experience of associated content
US11574123B2 (en) Content analysis utilizing general knowledge base
WO2012151743A1 (en) Methods, apparatuses and computer program products for providing topic model with wording preferences
US11010687B2 (en) Detecting abusive language using character N-gram features
JP5893050B2 (ja) ソーシャル・メデイアにおけるコミュニティを検出する方法、コンピュータ・プログラム、コンピュータ
Kumari et al. Sentiment analysis of tweets
US10762154B2 (en) Relative weighting for social collaboration comments
JP5602958B2 (ja) ソーシャル・メデイアにおけるトレンドを検出する方法、コンピュータ・プログラム、コンピュータ。
US20190080354A1 (en) Location prediction based on tag data
CN107403352B (zh) 对根据产品评估确定的感兴趣主题进行优先级排序
EP3306555A1 (en) Diversifying media search results on online social networks

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160624

R150 Certificate of patent or registration of utility model

Ref document number: 5961320

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150