JP5882243B2 - ユーザ属性推定器構築方法、ユーザ属性推定方法、装置、及びプログラム - Google Patents

ユーザ属性推定器構築方法、ユーザ属性推定方法、装置、及びプログラム Download PDF

Info

Publication number
JP5882243B2
JP5882243B2 JP2013023488A JP2013023488A JP5882243B2 JP 5882243 B2 JP5882243 B2 JP 5882243B2 JP 2013023488 A JP2013023488 A JP 2013023488A JP 2013023488 A JP2013023488 A JP 2013023488A JP 5882243 B2 JP5882243 B2 JP 5882243B2
Authority
JP
Japan
Prior art keywords
user
document
microblog
attribute
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013023488A
Other languages
English (en)
Other versions
JP2014153934A (ja
Inventor
伊藤 淳
淳 伊藤
京介 西田
京介 西田
高秀 星出
高秀 星出
浩之 戸田
浩之 戸田
内山 匡
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013023488A priority Critical patent/JP5882243B2/ja
Publication of JP2014153934A publication Critical patent/JP2014153934A/ja
Application granted granted Critical
Publication of JP5882243B2 publication Critical patent/JP5882243B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ユーザ属性推定器構築方法、ユーザ属性推定方法、装置、及びプログラムに関し、特に、ユーザのユーザ属性情報を推定するためのユーザ属性推定器構築方法、ユーザ属性推定方法、装置、及びプログラムに関する。
Twitterに代表されるマイクロブログは、ブログの一種であり、短い文書の投稿によって情報を発信したり、コミュニケーションをとったりすることに特徴がある。マイクロブログを利用しているユーザの属性(性別、年齢、居住地、興味など)を、投稿文書などの記述内容から推定する装置が、マイクロブログユーザ属性推定装置である。従来のマイクロブログユーザ属性推定装置は、基本的に以下の(1)〜(3)のような情報源と方法でユーザ属性の推定を行っていた。
(1)推定対象ユーザの投稿文書を情報源とし、投稿文書中に特徴的に表れる単語情報をもとにユーザ属性を推定する(例えば、非特許文献1)。
(2)ソーシャルグラフとソーシャルグラフ上における個々のユーザが明示した属性を情報源とし、コミュニケーション回数が多いほどユーザ同士が似ている(類は友を呼ぶ)という仮定に基づいて属性を伝播させることでユーザ属性を推定する(例えば、非特許文献2)。
(3)推定対象ユーザの投稿文書と、推定対象ユーザと友人関係にあるユーザの投稿文書を情報源とし、両投稿文書中に特徴的に表れる単語情報をもとにユーザ属性を推定する(例えば、非特許文献3)。
池田和史、服部元、松本一則、小野智弘、東野輝夫、「マーケット分析のためのTwitter投稿者プロフィール推定手法」、情報処理学会論文誌コンシューマ・デバイス&システム(CDS)vol.2、no.1、2012、p82−93 Zhen Wen、Ching-Yung Lin、「On the Quality of Inferring Interests From Social Neighbors」、In KDD、2010、p373-382 Faiyaz Al Zamal、Wendy Liu、Derek Ruths、「Homophily and Latent Attribute Inference:Inferring Latent Attributes of Twitter Users from Neighbors」、2012、In ICWSM
しかし、上記の方法は次のような問題点がある。
(1)の方法では、推定対象のユーザの投稿文書数が少ない場合に、推定に必要な情報が十分に得られず、推定精度が下がる。また、推定精度が推定対象ユーザの投稿文書量に依存するため、ユーザ属性推定装置全体として安定した推定精度が得られない。
(2)の方法では、大規模なソーシャルグラフが必要となるため、サービスとして実運用するには計算時間、データ量、計算機資源の面などでコストが高い。
(3)の方法では、友人関係にあるユーザの投稿文書すべてを用いるため、推定対象ユーザとは属性の異なる情報を含みやすく、推定精度が下がる場合がある。
上述した従来の方法は、情報量の多寡に起因する問題を抱えている。推定対象ユーザのみから得られる情報量では、情報量が足りずに推定精度が低下する可能性がある。一方、推定対象ユーザとソーシャルグラフ上で関係性がある(友人関係、コミュニケーションがある、など)ユーザから得られる情報を用いすぎると、ノイズが混入し推定精度が低下する可能性がある。つまり、情報量は少なすぎても多すぎても良くない。なお、あるユーザとソーシャルグラフ上で直接または間接的に関係性があるユーザのことを、近隣ユーザと呼ぶこととする。
近隣ユーザを利用する場合は、近隣ユーザが推定対象ユーザと似ている(類は友を呼ぶ)ことを前提としている。同年代とは会話しやすい、同性ばかりと会話するわけではないなど、一般的に属性によってその関係性の強弱は異なる。
本発明は、上記問題を解決するためになされたもので、マイクロブログのユーザのユーザ属性情報を精度よく推定するためのユーザ属性推定器を構築することができるユーザ属性推定器構築方法、装置、及びプログラムを提供することを目的とする。
また、マイクロブログのユーザのユーザ属性情報を精度よく推定することができるユーザ属性推定方法、装置、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係るユーザ属性推定器構築方法は、マイクロブログサイトの複数のユーザの各々について、前記マイクロブログサイトから得られる前記ユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書を含むユーザマイクロブログ文書集合と、前記ユーザと直接または間接的に関係がある近隣ユーザによって作成された前記ユーザマイクロブログ文書集合とを、前記ユーザの属性を示す教師ラベルと対応付けて記憶した記憶手段、構築用情報量調整手段、及びユーザ属性推定器構築手段を含むユーザ属性推定器構築装置におけるユーザ属性推定器構築方法であって、前記構築用情報量調整手段によって、前記複数のユーザの各々について、推定対象の属性の種類に応じて予め定められた、前記ユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書、前記近隣ユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書の各々の利用有無に応じて、前記記憶手段によって記憶された前記ユーザの前記ユーザマイクロブログ文書集合及び前記ユーザの前記近隣ユーザの前記ユーザマイクロブログ文書集合から、前記ユーザプロフィール文書又は前記マイクロブログ投稿文書を選択するステップと、前記ユーザ属性推定器構築手段によって、前記複数のユーザの各々について、前記構築用情報量調整手段によって選択された前記ユーザプロフィール文書又は前記マイクロブログ投稿文書から抽出される特徴量と、前記ユーザの属性を示す前記教師ラベルとに基づいて、前記ユーザマイクロブログ文書集合を作成したユーザの前記推定対象の属性を推定するためのユーザ属性推定器を構築するステップと、を含む。
本発明に係るユーザ属性推定器構築装置は、マイクロブログサイトの複数のユーザの各々について、前記マイクロブログサイトから得られる前記ユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書を含むユーザマイクロブログ文書集合と、前記ユーザと直接または間接的に関係がある近隣ユーザによって作成された前記ユーザマイクロブログ文書集合とを、前記ユーザの属性を示す教師ラベルと対応付けて記憶した記憶手段と、前記複数のユーザの各々について、推定対象の属性の種類に応じて予め定められた、前記ユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書、前記近隣ユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書の各々の利用有無に応じて、前記記憶手段によって記憶された前記ユーザの前記ユーザマイクロブログ文書集合及び前記ユーザの前記近隣ユーザの前記ユーザマイクロブログ文書集合から、前記ユーザプロフィール文書又は前記マイクロブログ投稿文書を選択する構築用情報量調整手段と、前記複数のユーザの各々について、前記構築用情報量調整手段によって選択された前記ユーザプロフィール文書又は前記マイクロブログ投稿文書から抽出される特徴量と、前記ユーザの属性を示す前記教師ラベルとに基づいて、前記ユーザマイクロブログ文書集合を作成したユーザの前記推定対象の属性を推定するためのユーザ属性推定器を構築するユーザ属性推定器構築手段と、を含んで構成されている。
本発明に係るユーザ属性推定器構築方法及びユーザ属性推定器構築装置によれば、構築用情報量調整手段によって、複数のユーザの各々について、推定対象の属性の種類に応じて予め定められた、ユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書、近隣ユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書の各々の利用有無に応じて、記憶手段によって記憶されたユーザのユーザマイクロブログ文書集合及びユーザの近隣ユーザのユーザマイクロブログ文書集合から、ユーザプロフィール文書又はマイクロブログ投稿文書を選択する。
そして、ユーザ属性推定器構築手段によって、複数のユーザの各々について、構築用情報量調整手段によって選択されたユーザプロフィール文書又はマイクロブログ投稿文書から抽出される特徴量と、ユーザの属性を示す教師ラベルとに基づいて、ユーザマイクロブログ文書集合を作成したユーザの推定対象の属性を推定するためのユーザ属性推定器を構築する。
このように、推定対象の属性の種類に応じて予め定められた、ユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書、近隣ユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書の各々の利用有無に応じて、ユーザのユーザマイクロブログ文書集合及びユーザの近隣ユーザのユーザマイクロブログ文書集合から、ユーザプロフィール文書又はマイクロブログ投稿文書を選択し、選択されたユーザプロフィール文書又はマイクロブログ投稿文書から抽出される特徴量と、ユーザの属性を示す教師ラベルとに基づいて、ユーザ属性推定器を構築することにより、マイクロブログのユーザのユーザ属性情報を精度よく推定するためのユーザ属性推定器を構築することができる。
また、本発明に係るユーザ属性推定器構築装置は、前記構築用情報量調整手段によって選択された前記ユーザプロフィール文書の集合に基づいて、前記ユーザプロフィール文書に対する特徴量を選択し、前記構築用情報量調整手段によって選択された前記マイクロブログ投稿文書の集合に基づいて、前記マイクロブログ投稿文書に対する特徴量を選択する特徴量選択手段を更に含み、前記ユーザ属性推定器構築手段は、前記複数のユーザの各々について、前記構築用情報量調整手段によって選択された前記ユーザプロフィール文書から抽出される、前記選択された前記ユーザプロフィール文書に対する特徴量、又は前記構築用情報量調整手段によって選択された前記マイクロブログ投稿文書から抽出される、前記選択された前記マイクロブログ投稿文書に対する特徴量と、前記ユーザの属性を示す前記教師ラベルとに基づいて、前記ユーザ属性推定器を構築するようにすることができる。
本発明に係るユーザ属性推定方法は、マイクロブログ文書収集手段、情報量調整手段及びユーザ属性推定手段を含むユーザ属性推定装置におけるユーザ属性推定方法であって、前記マイクロブログ文書収集手段によって、マイクロブログサイトから得られる、推定対象のユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書を含むユーザマイクロブログ文書集合を収集すると共に、前記推定対象のユーザと直接または間接的に関係がある近隣ユーザによって作成された前記ユーザマイクロブログ文書集合を収集するステップと、前記情報量調整手段によって、推定対象の属性の種類に応じて予め定められた、前記推定対象のユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書、前記近隣ユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書の各々の利用有無に応じて、前記マイクロブログ文書収集手段によって収集された前記ユーザマイクロブログ文書集合から、前記ユーザプロフィール文書又は前記マイクロブログ投稿文書を選択するステップと、前記ユーザ属性推定手段によって、前記推定対象の属性を推定するための予め構築されたユーザ属性推定器と、前記情報量調整手段によって選択された前記ユーザプロフィール文書又は前記マイクロブログ投稿文書から抽出される特徴量とに基づいて、前記推定対象のユーザの属性を推定するステップと、を含む。
また、本発明に係るユーザ属性推定装置は、マイクロブログサイトから得られる、推定対象のユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書を含むユーザマイクロブログ文書集合を収集すると共に、前記推定対象のユーザと直接または間接的に関係がある近隣ユーザによって作成された前記ユーザマイクロブログ文書集合を収集するマイクロブログ文書収集手段と、推定対象の属性の種類に応じて予め定められた、前記推定対象のユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書、前記近隣ユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書の各々の利用有無に応じて、前記マイクロブログ文書収集手段によって収集された前記ユーザマイクロブログ文書集合から、前記ユーザプロフィール文書又は前記マイクロブログ投稿文書を選択する情報量調整手段と、前記推定対象の属性を推定するための予め構築されたユーザ属性推定器と、前記情報量調整手段によって選択された前記ユーザプロフィール文書又は前記マイクロブログ投稿文書から抽出される特徴量とに基づいて、前記推定対象のユーザの属性を推定するユーザ属性推定手段とを含んで構成されている。
本発明に係るユーザ属性推定方法及びユーザ属性推定装置によれば、マイクロブログ文書収集手段によって、マイクロブログサイトから得られる、推定対象のユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書を含むユーザマイクロブログ文書集合を収集すると共に、推定対象のユーザと直接または間接的に関係がある近隣ユーザによって作成されたユーザマイクロブログ文書集合を収集する。
そして、情報量調整手段によって、推定対象の属性の種類に応じて予め定められた、推定対象のユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書、近隣ユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書の各々の利用有無に応じて、マイクロブログ文書収集手段によって収集されたユーザマイクロブログ文書集合から、ユーザプロフィール文書又はマイクロブログ投稿文書を選択する。
そして、ユーザ属性推定手段によって、推定対象の属性を推定するための予め構築されたユーザ属性推定器と、情報量調整手段によって選択されたユーザプロフィール文書又はマイクロブログ投稿文書から抽出される特徴量とに基づいて、推定対象のユーザの属性を推定する。
このように、推定対象の属性の種類に応じて予め定められた、推定対象のユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書、近隣ユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書の各々の利用有無に応じて、ユーザプロフィール文書又はマイクロブログ投稿文書を選択し、予め構築されたユーザ属性推定器と、選択されたユーザプロフィール文書又はマイクロブログ投稿文書から抽出される特徴量とに基づいて、推定対象のユーザの属性を推定することにより、マイクロブログのユーザのユーザ属性を精度よく推定することができる。
本発明に係るプログラムは、上述のユーザ属性推定器構築方法、あるいは上述のユーザ属性推定方法を構成する各ステップをコンピュータに実行させるためのプログラムである。
以上説明したように、本発明のユーザ属性推定器構築装置、ユーザ属性推定器構築方法、及びプログラムによれば、推定対象の属性の種類に応じて予め定められた、ユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書、近隣ユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書の各々の利用有無に応じて、ユーザのユーザマイクロブログ文書集合及びユーザの近隣ユーザのユーザマイクロブログ文書集合から、ユーザプロフィール文書又はマイクロブログ投稿文書を選択し、選択されたユーザプロフィール文書又はマイクロブログ投稿文書から抽出される特徴量と、ユーザの属性を示す教師ラベルとに基づいて、ユーザ属性推定器を構築することにより、マイクロブログのユーザのユーザ属性情報を精度よく推定するためのユーザ属性推定器を構築することができる、という効果が得られる。
また、本発明のユーザ属性推定装置、ユーザ属性推定方法及びプログラムによれば、推定対象の属性の種類に応じて予め定められた、推定対象のユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書、近隣ユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書の各々の利用有無に応じて、ユーザプロフィール文書又はマイクロブログ投稿文書を選択し、予め構築されたユーザ属性推定器と、選択されたユーザプロフィール文書又はマイクロブログ投稿文書から抽出される特徴量とに基づいて、推定対象のユーザの属性を推定することにより、マイクロブログのユーザのユーザ属性を精度よく推定することができる、という効果が得られる。
本発明の実施の形態に係るマイクロブログユーザ属性推定器構築装置の一構成例を示すブロック図である。 本発明の実施の形態に係るマイクロブログユーザ属性推定器構築装置におけるパラメータ設定の一例を示す図である。 本発明の実施の形態に係るマイクロブログユーザ属性推定装置の一構成例を示すブロック図である。 本発明の実施の形態に係るマイクロブログユーザ属性推定器構築装置おけるユーザ属性推定器構築処理ルーチンの前半部分の内容を示すフローチャートである。 本発明の実施の形態に係るマイクロブログユーザ属性推定器構築装置おけるユーザ属性推定器構築処理ルーチンの後半部分の内容を示すフローチャートである。 本発明の実施の形態に係るマイクロブログユーザ属性推定装置におけるユーザ属性推定処理ルーチンの前半部分の内容を示すフローチャートである。 本発明の実施の形態に係るマイクロブログユーザ属性推定装置におけるユーザ属性推定処理ルーチンの後半部分の内容を示すフローチャートである。
<概要>
まず、本発明の実施の形態の概要について説明する。
本発明の実施の形態は、どのような属性、マイクロブログユーザ(以下、ユーザと称する。)に対しても安定して高精度なユーザ属性推定を行うために、推定・学習対象ユーザ及びその近隣ユーザから得る情報量を調節する機能を有する。近隣ユーザとは、あるユーザと直接または間接的に関係があるユーザをいう。例えば、近隣ユーザは、あるユーザとソーシャルグラフ上で関係性があるようなユーザであり、ソーシャルグラフとは、Web上でのユーザ間の相関関係や、そのつながり、結びつきを意味する概念である。
情報量の調節は、推定・学習対象ユーザ及びその近隣ユーザの各々のユーザプロフィール文書(以下、単にプロフィール文書と称する。)とマイクロブログ投稿文書(以下、単に投稿文書と称する。)との利用有無という4つのパラメータによって行う。なお、大規模ソーシャルグラフの利用はコストが高いため、近隣ユーザとしては、推定・学習対象ユーザと直接的な関係(以下、1hopの関係と称する。また、友人の友人は2hopsの関係となる。)にあるユーザのみしか利用しない。また、属性によって近隣ユーザの利用の効果が異なるため、情報量の調整のためのパラメータの設定は推定対象となる属性の種類ごとに行う。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<マイクロブログユーザ属性推定器構築装置のシステム構成>
図1は、本発明の実施の形態に係るマイクロブログユーザ属性推定器構築装置10を示すブロック図である。このマイクロブログユーザ属性推定器構築装置10は、CPUと、RAMと、後述するユーザ属性推定器構築処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
本実施の形態に係るマイクロブログユーザ属性推定器構築装置10は、図1に示すように、構築用入力部1と、構築用演算部2と、マイクロブログユーザ属性推定器記憶部3とを備えている。
構築用入力部1は、学習データとして入力された複数の文書からなるユーザマイクロブログ文書集合(以下、単にマイクロブログ文書集合と称する。)を受け付ける。また、構築用入力部1は、後述する構築用情報量調整部21において用いられるパラメータ設定情報を受け付ける。
マイクロブログ文書集合とは、ユーザによって作成された複数のマイクロブログ文書で構成されている。マイクロブログ文書とは、ユーザが作成したマイクロブログサイトに記載されたプロフィール文書と投稿文書とを総称したものである。プロフィール文書とは、ユーザによってマイクロブログサイトで作成された、例えば自由記述形式で表現されているユーザの自己紹介文書を示す。また、投稿文書とは、ユーザによってマイクロブログサイトに投稿された文書を示す。
マイクロブログ文書集合は、ユーザ毎に入力され、当該ユーザのマイクロブログ文書集合は、マイクロブログサイトから得られる、当該ユーザによって作成されたプロフィール文書及び投稿文書を含むマイクロブログ文書集合と、当該ユーザの近隣ユーザによって作成されたマイクロブログ文書集合とを含む。当該ユーザのマイクロブログ文書集合には、当該ユーザの属性を示す教師ラベルが予め付与されている。教師ラベルとは、例えば性別における男性、女性など、その属性の、当該ユーザが属するクラスを示す情報である。なお、本実施の形態では、近隣ユーザとして、ユーザと1hopの関係にあるユーザのみ利用する。当該近隣ユーザの特定については、ユーザの投稿文書から近隣ユーザのユーザID(例えば、会話の相手ユーザのユーザID)を抽出して特定する。
構築用演算部2は、教師ラベル付与済マイクロブログ文書データベース20と、構築用情報量調整部21と、マイクロブログユーザ属性推定器構築部22とから構成されている。
教師ラベル付与済マイクロブログ文書データベース20には、構築用入力部1により入力された複数のユーザの各々のマイクロブログ文書集合が記憶される。なお、教師ラベル付与済マイクロブログ文書データベース20は記憶手段の一例である。
構築用情報量調整部21は、複数のユーザの各々について、推定対象の属性の種類に応じて予め定められた、当該ユーザによって作成されたプロフィール文書及び投稿文書、近隣ユーザによって作成されたプロフィール文書及び投稿文書の各々の利用有無が記述されたパラメータ設定情報に応じて、教師ラベル付与済マイクロブログ文書データベース20に記憶された当該ユーザのマイクロブログ文書集合及び当該ユーザの近隣ユーザのマイクロブログ文書集合から、当該ユーザ又は近隣ユーザのプロフィール文書又は投稿文書を選択する。
図2に、構築用情報量調整部21において用いられるパラメータ設定情報の一例を示す。パラメータ設定情報では、学習・推定対象ユーザ及び近隣ユーザの各々における、プロフィール文書及び投稿文書の各々の利用有無が属性の種類ごとに記述される。これらの情報が記述されれば、表現の方法は問わない。例えば、TRUE、FALSEの代わりに1、0などを用いても良い。また、テキストファイルやデータベース上のテーブルなど任意の記憶形式で記憶して良い。
構築用情報量調整部21において用いられるパラメータ設定情報は、構築用入力部1により入力される。パラメータ設定情報は、人手によって事前に設定される。
構築用情報量調整部21は、推定対象の属性の種類に対し、事前に設定されたパラメータ設定情報に基づいて、学習に用いられるマイクロブログ文書集合の情報量を調節する。具体的には、まず、パラメータ設定情報が構築用情報量調整部21に読み込まれる。そして、学習データに含まれる学習対象ユーザごとにマイクロブログ文書集合の情報量の調節を行い、実際に学習に利用する実学習データを作成する。情報量の調節では、まず、学習対象ユーザのプロフィール文書を利用するかが判断される。パラメータ設定情報に利用有と記載されていれば、学習対象ユーザのプロフィール文書が選択されて実学習データに加えられ、利用無と記載されていれば選択されず実学習データに加えられない。この判断を、学習対象ユーザの投稿文書、近隣ユーザのプロフィール文書と投稿文書についても同様に行う。以上の処理を学習データに含まれる学習対象ユーザすべてに対して行い、実学習データを作成する。
マイクロブログユーザ属性推定器構築部22は、推定対象の属性の種類に対し、構築用情報量調整部21によって選択された実学習データに含まれるプロフィール文書の集合に基づいて、プロフィール文書に対する特徴量を選択し、構築用情報量調整部21によって選択された投稿文書の集合に基づいて、投稿文書に対する特徴量を選択する。マイクロブログユーザ属性推定器構築部22は、特徴量選択手段、及びユーザ属性推定器構築手段の一例である。
具体的には、実学習データに含まれるプロフィール文書又は投稿文書から抽出される特徴量の種類について、推定対象の属性の種類に対し、クラス毎に特徴量を選択する。より具体的には、実学習データに対してTF−IDF(TF:Term Frequency, IDF:Inverse Document Frequency)、カイ二乗値、赤池情報量基準などの統計指標を適用し、クラス(男性など)に特徴的な単語(俺、嫁など)を抽出する。この特徴量選択を、実学習データに含まれるプロフィール文書の集合、及び実学習データに含まれる投稿文書の集合のそれぞれに対して行い、それぞれで一定数の特徴量を選択する。ここで、特徴量選択は、プロフィール文書については同じ特徴量の選択、投稿文書については同じ特徴量の選択が行われる。なお、利用無になっているプロフィール文書及び投稿文書については、実学習データに含まれないため、特徴量選択を行わない。
そして、マイクロブログユーザ属性推定器構築部22は、推定対象の属性の種類に対し、複数のユーザの各々について、構築用情報量調整部21によって選択された当該ユーザのプロフィール文書の集合から、選択されたプロフィール文書に対する特徴量の各々を抽出し、構築用情報量調整部21によって選択された当該ユーザの近隣ユーザのプロフィール文書の集合から、選択されたプロフィール文書に対する特徴量の各々を抽出し、構築用情報量調整部21によって選択された当該ユーザの投稿文書の集合から、選択された投稿文書に対する特徴量の各々を抽出し、又は構築用情報量調整部21によって選択された当該ユーザの近隣ユーザの投稿文書の集合から、選択された投稿文書に対する特徴量の各々を抽出する。
具体的には、選択された特徴量の各々が実学習データ中に何回出現したかカウントし、特徴量として各々抽出する。特徴量のカウントは学習対象ユーザと近隣ユーザのプロフィール文書及び投稿文書の各々に対して行う。
マイクロブログユーザ属性推定器構築部22は、推定対象の属性の種類に対し、複数のユーザの各々における、上記のように実学習データから抽出された特徴量(ユーザのプロフィール文書における、プロフィール文書に対する特徴量の各々のカウント、近隣ユーザのプロフィール文書における、プロフィール文書に対する特徴量の各々のカウント、ユーザの投稿文書における、投稿文書に対する特徴量の各々のカウント、又は近隣ユーザの投稿文書における、投稿文書に対する特徴量の各々のカウント)と、当該ユーザの属性を示す教師ラベルとに基づいて、既存の学習手法によって、マイクロブログ文書を作成したユーザの推定対象の属性を推定するためのユーザ属性推定器を構築する。
マイクロブログユーザ属性推定器は、推定対象の属性の種類毎に構築され、例えば、性別推定のための性別推定器、年齢推定のための年齢推定器、職業推定のための職業推定器、及び興味推定のための興味推定器が構築される。これらの推定器の各々は、プロフィール文書及び投稿文書から抽出される特徴量を入力としユーザ属性の種類について、推定対象ユーザが各クラスに該当する確率値を出力するものである。なお、マイクロブログユーザ属性推定器はどのような特徴量(選択された特徴量)を用いて構成されたかについての情報も保持している。
なお、マイクロブログユーザ属性推定器の構築は、単純ベイズ分類器(参考文献(Andrew McCallum and Kamal Nigam、「A comparison of event models for Naive Bayes text classification」、In proceedings of AAAI WORKSHOP ON LEARNING FOR TEXT CATEGORIZATION、1998、p41-48)を参照)やSupport Vector Machine(参考文献(Corinna Cortes and Vladimir Vapnik、「Support-Vector Networks」、Machine Learning、1995、p237-297)を参照)などの既存手法を用いる。本実施の形態では、単純ベイズ分類器をマイクロブログユーザ属性推定器として構築する。
マイクロブログユーザ属性推定器記憶部3には、マイクロブログユーザ属性推定器構築部22によって構築されたマイクロブログユーザ属性推定器が記憶される。
<マイクロブログユーザ属性推定装置のシステム構成>
図3は、本発明の実施の形態に係るマイクロブログユーザ属性推定装置100を示すブロック図である。このマイクロブログユーザ属性推定装置100は、CPUと、RAMと、後述するマイクロブログユーザ属性推定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
本実施の形態に係るマイクロブログユーザ属性推定装置100は、図3に示すように、入力部4と、マイクロブログユーザ属性推定器記憶部5と、演算部6と、出力部7とを備えている。
入力部4は、ユーザ属性推定対象であるマイクロブログのユーザのマイクロブログユーザIDの入力を受け付ける。また、入力部4は、後述する情報量調整部61において用いられるパラメータ設定情報を受け付ける。なお、入力されるパラメータ設定情報は、上記マイクロブログユーザ属性推定器構築装置10で入力されるパラメータ設定情報と同一である。
マイクロブログユーザ属性推定器記憶部5には、上記マイクロブログユーザ属性推定器構築装置10によって構築されたマイクロブログユーザ属性推定器が記憶される。
演算部6は、マイクロブログ文書収集部60と、情報量調整部61と、マイクロブログユーザ属性推定部62とから構成されている。
マイクロブログ文書収集部60は、入力部4により入力されたマイクロブログユーザIDに基づいて、当該マイクロブログユーザIDに対応するマイクロブログサイト300にインターネット200を介してアクセスする。そして、入力されたマイクロブログユーザIDに基づいて、マイクロブログサイト300に含まれる、推定対象のユーザによって作成されたマイクロブログサイトのユーザプロフィール文書及びマイクロブログ投稿文書を含むマイクロブログ文書集合を収集すると共に、推定対象のユーザの近隣ユーザのユーザIDに基づいて、近隣ユーザによって作成されたマイクロブログサイトのユーザプロフィール文書及びマイクロブログ投稿文書を含むマイクロブログ文書集合を収集する。ここで、近隣ユーザのユーザIDは、ユーザの投稿文書から近隣ユーザのID等を抽出して特定する。
情報量調整部61は、入力されたパラメータ設定情報が示す、推定対象の属性の種類に応じて予め定められた、推定対象のユーザによって作成されたプロフィール文書及び投稿文書、近隣ユーザによって作成されたプロフィール文書及び投稿文書の各々の利用有無に応じて、マイクロブログ文書収集部60によって収集されたマイクロブログ文書集合から、プロフィール文書又は投稿文書を選択する。具体的には、推定対象の属性の種類に対し、パラメータ設定情報に基づいて、推定対象ユーザのプロフィール文書を利用するか否かが判断し、パラメータ設定情報に利用有と記載されていれば、推定対象ユーザのプロフィール文書を選択し、利用無と記載されていれば選択されない。この判断及び選択を、推定対象ユーザの投稿文書、近隣ユーザのプロフィール文書と投稿文書についても同様に行う。
また、マイクロブログユーザ属性推定部62は、マイクロブログユーザ属性推定器がどのような特徴量が選択されて構成されたかについての情報を読み込む。当該情報は、上記マイクロブログユーザ属性推定器構築装置10において、マイクロブログユーザ属性推定器を構築する際に保持された情報である。マイクロブログユーザ属性推定部62は、情報量調整部61により推定対象ユーザのプロフィール文書が選択されていれば、推定対象ユーザのプロフィール文書の集合から、プロフィール文書に対して選択されている特徴量の各々をカウントして抽出し、推定対象ユーザのプロフィール文書が選択されていなければ特徴量をカウントしない。この特徴量の抽出を、推定対象ユーザの投稿文書、近隣ユーザのプロフィール文書と投稿文書についても同様に行う。なお、マイクロブログユーザ属性推定部62は、ユーザ属性推定手段の一例である。
マイクロブログユーザ属性推定部62は、推定対象の属性の種類に対し、推定対象の属性を推定するための予め構築されたユーザ属性推定器と、情報量調整部61によって選択されたプロフィール文書又は投稿文書から抽出した特徴量とに基づいて、推定対象のユーザの属性を推定する。
具体的には、マイクロブログユーザ属性推定部62は、推定対象の属性の種類に対し、情報量調整部61によって選択された推定対象ユーザのプロフィール文書から得られた、プロフィール文書に対する特徴量の各々のカウント、情報量調整部61によって選択された推定対象ユーザの投稿文書から得られた、投稿文書に対する特徴量の各々のカウント、情報量調整部61によって選択された近隣ユーザのプロフィール文書から得られた、プロフィール文書に対する特徴量の各々のカウント、又は情報量調整部61によって選択された近隣ユーザの投稿文書から得られた、投稿文書に対する特徴量の各々のカウントと、上記マイクロブログユーザ属性推定器構築装置10によって構築され、マイクロブログユーザ属性推定器記憶部5に記憶されているマイクロブログユーザ属性推定器とを用いて、ユーザ属性の推定を行う。マイクロブログユーザ属性推定器による推定結果は推定するユーザ属性の種類のクラスごとに確率値として出力される。例えば、ユーザ属性の種類が性別である場合には、クラスごとに男性0.60、女性0.40と出力される。
出力部7は、マイクロブログユーザ属性推定部62で推定されたユーザ属性を結果として出力する。
<マイクロブログユーザ属性推定器構築装置の作用>
次に、本実施の形態に係るマイクロブログユーザ属性推定器構築装置10の作用について説明する。まず、複数のマイクロブログユーザ毎のマイクロブログ文書の集合であるマイクロブログ文書集合及び当該ユーザの近隣ユーザのマイクロブログ文書集合が、当該ユーザの属性を示す教師ラベルと共にマイクロブログユーザ属性推定器構築装置10に入力されると、マイクロブログユーザ属性推定器構築装置10によって、入力されたマイクロブログ文書集合が、教師ラベルと共に、教師ラベル付与済マイクロブログ文書データベース20へ格納される。そして、パラメータ設定情報がマイクロブログユーザ属性推定器構築装置10に入力されると、マイクロブログユーザ属性推定器構築装置10によって、図4及び図5に示すユーザ属性推定器構築処理ルーチンが、推定対象の属性の種類毎に繰り返し実行される。
まず、ステップS100において、構築用入力部1により入力されたパラメータ設定情報が読み込まれる。
次に、ステップS102において、教師ラベル付与済マイクロブログ文書データベース20に記憶されているマイクロブログ文書集合に対応するユーザの中から、学習対象となるユーザを設定する。次に、ステップS104において、教師ラベル付与済マイクロブログ文書データベース20から、上記ステップS102で設定された学習対象ユーザによって作成されたマイクロブログ文書集合と、対象ユーザの近隣ユーザのマイクロブログ文書集合を取り出す。
そして、ステップS106において、構築用情報量調整部21によって、上記ステップS100で読み込まれたパラメータ設定情報に基づいて、推定対象の属性の種類に対し、学習対象ユーザのプロフィール文書を利用するか否かを判定する。プロフィール文書を利用する場合には、ステップS108へ移行する。プロフィール文書を利用しない場合には、ステップS110へ移行する。
ステップS108において、学習対象ユーザのプロフィール文書の各々を選択し、実学習データとして追加するようにメモリ(図示省略)に記録する。
次に、ステップS110において、構築用情報量調整部21によって、上記ステップS100で読み込まれたパラメータ設定情報に基づいて、推定対象の属性の種類に対し、学習対象ユーザの投稿文書を利用するか否かを判定する。学習対象ユーザの投稿文書を利用する場合には、ステップS112へ移行する。学習対象ユーザの投稿文書を利用しない場合には、ステップS114へ移行する。
そして、ステップS112において、学習対象ユーザの投稿文書の各々を選択し、実学習データとして追加するようにメモリ(図示省略)に記録する。
ステップS114において、構築用情報量調整部21によって、上記ステップS100で読み込まれたパラメータ設定情報に基づいて、推定対象の属性の種類に対し、学習対象ユーザの近隣ユーザのプロフィール文書を利用するか否かを判定する。近隣ユーザのプロフィール文書を利用する場合には、ステップS116へ移行する。近隣ユーザのプロフィール文書を利用しない場合には、ステップS118へ移行する。
次に、ステップS116において、学習対象ユーザの近隣ユーザのプロフィール文書の各々を選択し、実学習データとして追加するようにメモリ(図示省略)に記録する。
次に、ステップS118において、構築用情報量調整部21によって、上記ステップS100で読み込まれたパラメータ設定情報に基づいて、推定対象の属性の種類に対し、上記ステップS102で設定された学習対象ユーザの近隣ユーザの投稿文書を利用するか否かを判定する。近隣ユーザの投稿文書を利用する場合には、ステップS120へ移行する。近隣ユーザの投稿文書を利用しない場合には、ステップS122へ移行する。
次に、ステップS120において、学習対象ユーザの近隣ユーザの投稿文書の各々を選択し、実学習データとして追加するようにメモリ(図示省略)に記録する。
次に、ステップS122において、教師ラベル付与済マイクロブログ文書データベース20に記憶されているマイクロブログ文書集合に対応する全てのユーザについて、上記ステップS102〜S120の処理を実行したか否かを判定する。そして、上記ステップS102〜S120の処理を実行していないユーザが存在する場合には、上記ステップS102へ戻り、当該ユーザを学習対象ユーザに設定する。一方、全てのユーザについて、上記ステップS102〜S120処理を実行した場合には、ステップS124へ進む。
ステップS124において、マイクロブログユーザ属性推定器構築部22によって、上記ステップS108、S112、S116、S120によってメモリ(図示省略)に記録された実学習データに基づいて、プロフィール文書に対する特徴量の選択を行うと共に、投稿文書に対する特徴量の選択を行う。なお、実学習データとしてプロフィール文書が選択されていない場合には、プロフィール文書に対する特徴量の選択は行わない。また、実学習データとして投稿文書が選択されていない場合には、投稿文書に対する特徴量の選択は行わない。
次に、ステップS126において、学習対象ユーザの各々について、上記ステップS108、S112、S116、S120によってメモリ(図示省略)に記録された実学習データのうちの、当該学習対象ユーザのプロフィール文書から、上記ステップS124で選択された特徴量を抽出し、実学習データのうちの、当該学習対象ユーザの投稿文書から、上記ステップS124で選択された特徴量を抽出し、実学習データのうちの、当該学習対象ユーザの近隣ユーザのプロフィール文書から、上記ステップS124で選択された特徴量を抽出し、実学習データのうちの、当該学習対象ユーザの近隣ユーザの投稿文書から、上記ステップS124で選択された特徴量を抽出する。なお、実学習データとして学習対象ユーザのプロフィール文書が選択されていない場合には、学習対象ユーザのプロフィール文書から特徴量の抽出は行わない。実学習データとして近隣ユーザのプロフィール文書が選択されていない場合には、近隣ユーザのプロフィール文書から特徴量の抽出は行わない。また、実学習データとして学習対象ユーザの投稿文書が選択されていない場合には、学習対象ユーザの投稿文書に対する特徴量の抽出は行わない。また、実学習データとして学習対象ユーザの近隣ユーザの投稿文書が選択されていない場合には、学習対象ユーザの近隣ユーザの投稿文書に対する特徴量の抽出は行わない。
次に、ステップS128において、上記ステップS126で学習対象ユーザの各々について抽出された特徴量と、学習対象ユーザの各々について予め付与されている教師ラベルとに基づいて、推定対象の属性の種類に対するマイクロブログユーザ属性推定器を構築する。
ステップS130において、上記ステップS128で構築されたマイクロブログユーザ属性推定器をマイクロブログユーザ属性推定器記憶部3へ格納して、ユーザ属性推定器構築処理ルーチンを終了する。
<マイクロブログユーザ属性推定装置の作用>
次に、本実施の形態に係るマイクロブログユーザ属性推定装置100の作用について説明する。まず、マイクロブログユーザ属性推定器構築装置10のマイクロブログユーザ属性推定器記憶部3に記憶されているマイクロブログユーザ属性推定器が、マイクロブログユーザ属性推定装置100に入力されると、マイクロブログユーザ属性推定器がマイクロブログユーザ属性推定器記憶部5に格納される。そして、推定したいユーザのマイクロブログユーザIDと、パラメータ設定情報とがマイクロブログユーザ属性推定装置100に入力されると、マイクロブログユーザ属性推定装置100によって、図6及び図7に示すユーザ属性推定処理ルーチンが実行される。なお、ユーザ属性推定処理ルーチンは、推定対象の属性の種類毎に繰り返し実行される。
まず、ステップS200において、入力部4により入力されたユーザ属性推定対象であるユーザのマイクロブログユーザIDを受け付ける。
次に、ステップS202において、マイクロブログ文書収集部60によって、インターネット200を介してマイクロブログサイト300にアクセスすると共に、上記ステップS200で入力されたマイクロブログユーザIDに基づいて、マイクロブログサイト300から、当該マイクロブログユーザIDが示す推定対象ユーザのマイクロブログ文書集合と、当該推定対象ユーザの近隣ユーザのマイクロブログ文書集合を収集する。
次に、ステップS204において、入力部4により入力されたパラメータ設定情報が読み込まれる。
次に、ステップS206において、情報量調整部61によって、推定対象の属性の種類に対し、マイクロブログユーザ属性推定器がどのような特徴量(選択された特徴量)によって構成されたかについての情報を読み込む。
そして、ステップS208において、情報量調整部61によって、上記ステップS204で読み込まれたパラメータ設定情報に基づいて、推定対象の属性の種類に対し、推定対象ユーザのマイクロブログ文書集合のプロフィール文書を利用するか否かを判定する。推定対象ユーザのプロフィール文書を利用する場合には、ステップS210へ移行する。推定対象ユーザのプロフィール文書を利用しない場合には、ステップS212へ移行する。
ステップS210において、推定対象ユーザのプロフィール文書について、上記ステップS206で得られたプロフィール文書に対する特徴量の各々をカウントする。
そして、ステップS212において、情報量調整部61によって、上記ステップS202で読み込まれたパラメータ設定情報に基づいて、推定対象の属性の種類に対し、推定対象ユーザのマイクロブログ文書集合の投稿文書を利用するか否かを判定する。推定対象ユーザの投稿文書を利用する場合には、ステップS214へ移行する。推定対象ユーザの投稿文書を利用しない場合には、ステップS216へ移行する。
ステップS214において、推定対象ユーザの投稿文書について、上記ステップS206で得られた投稿文書に対する特徴量の各々をカウントする。
そして、ステップS216において、情報量調整部61によって、上記ステップS202で読み込まれたパラメータ設定情報に基づいて、推定対象の属性の種類に対し、推定対象ユーザの近隣ユーザのマイクロブログ文書集合のプロフィール文書を利用するか否かを判定する。近隣ユーザのプロフィール文書を利用する場合には、ステップS218へ移行する。近隣ユーザのプロフィール文書を利用しない場合には、ステップS220へ移行する。
ステップS218において、推定対象ユーザの近隣ユーザのプロフィール文書について、上記ステップS206で得られたプロフィール文書に対する特徴量の各々をカウントする。
そして、ステップS220において、情報量調整部61によって、上記ステップS202で読み込まれたパラメータ設定情報に基づいて、推定対象の属性の種類に対し、推定対象ユーザの近隣ユーザのマイクロブログ文書集合の投稿文書を利用するか否かを判定する。近隣ユーザの投稿文書を利用する場合には、ステップS222へ移行する。近隣ユーザの投稿文書を利用しない場合には、ステップS224へ移行する。
ステップS222において、推定対象ユーザの近隣ユーザの投稿文書について、上記ステップS206で得られた投稿文書に対する特徴量の各々をカウントする。
そして、ステップS224において、推定対象の属性の種類に対し、上記ステップS210、ステップS214、ステップS218、ステップS222でカウントされた各特徴量と、マイクロブログユーザ属性推定器記憶部5に格納されたマイクロブログユーザ属性推定器とに基づいて、推定対象ユーザのユーザ属性を推定する。
ステップS226において、出力部7によって、上記ステップS224で推定されたユーザ属性を、結果として出力する。
以上説明したように、本実施の形態に係るマイクロブログユーザ属性推定器構築装置によれば、推定対象の属性の種類に応じて予め定められた、ユーザによって作成されたプロフィール文書及び投稿文書、近隣ユーザによって作成されたプロフィール文書及び投稿文書の各々の利用有無に応じて、ユーザのマイクロブログ文書集合及びユーザの近隣ユーザのマイクロブログ文書集合から、プロフィール文書又は投稿文書を選択し、選択されたプロフィール文書又は投稿文書から抽出される特徴量と、ユーザの属性を示す教師ラベルとに基づいて、ユーザ属性推定器を構築することにより、マイクロブログのユーザのユーザ属性情報を精度よく推定するためのユーザ属性推定器を構築することができる。
また、本実施の形態に係るマイクロブログユーザ属性推定装置によれば、推定対象の属性の種類に応じて予め定められた、推定対象のユーザによって作成されたプロフィール文書及び投稿文書、近隣ユーザによって作成されたプロフィール文書及び投稿文書の各々の利用有無に応じて、プロフィール文書又は投稿文書を選択し、予め構築されたユーザ属性推定器と、選択されたプロフィール文書又は投稿文書から抽出される特徴量とに基づいて、推定対象のユーザの属性を推定することにより、マイクロブログのユーザのユーザ属性を精度よく推定することができる。
また、本実施の形態に係るマイクロブログユーザ属性推定器構築装置及びマイクロブログユーザ属性推定装置によれば、推定・学習対象ユーザ及びその近隣ユーザから得る情報量を調節する機能を有することによって、情報量の多寡による推定精度の変化を調節することができる。
また、本実施の形態では、近隣ユーザとして、推定・学習対象ユーザと1hopの関係にあるユーザのみしか使用せず、大規模なソーシャルグラフは必要ないため、大規模なソーシャルグラフを必要とする手法よりも、計算時間、データ量、計算機資源などの面で低コストである。
また、推定対象となる属性に応じてパラメータを設定することができるため、属性によって近隣ユーザの利用の効果が異なる問題に対応することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、マイクロブログユーザ属性推定器構築装置及びマイクロブログユーザ属性推定装置における近隣ユーザは、学習・推定対象ユーザの投稿文書から近隣ユーザのID等を抽出して特定する場合を例に説明したが、これに限定されるものではなく、学習・推定対象ユーザのプロフィール文書等から近隣ユーザのIDを抽出して特定してもよい。あるいは、ソーシャルグラフを用いて、対象ユーザの近隣ユーザを特定してもよい。
また、マイクロブログユーザ属性推定器構築装置及びマイクロブログユーザ属性推定装置における近隣ユーザとして、学習・推定対象ユーザと1hopの直接関係あるユーザのみ利用する場合を例に説明したが、これに限定されるものではなく、2hop以上の間接的に関係があるユーザを含めて利用してもよい。
また、マイクロブログユーザ属性推定器構築装置及びマイクロブログユーザ属性推定装置では、TF−IDF、赤池情報量基準、及びカイ二乗値の値などの統計指標を適用し、特徴量選択を行う場合を例に説明したが、これに限定されるものではなく、他の手法により特徴量選択を行っても良い。
また、上述のマイクロブログユーザ属性推定器構築装置は、教師ラベル付与済マイクロブログ文書データベース20及びマイクロブログユーザ属性推定器記憶部3を備えている場合について説明したが、例えば教師ラベル付与済マイクロブログ文書データベース20及びマイクロブログユーザ属性推定器記憶部3がマイクロブログユーザ属性推定器構築装置の外部装置に設けられ、マイクロブログユーザ属性推定器構築装置は、外部装置と通信手段を用いて通信することにより、教師ラベル付与済マイクロブログ文書データベース20及びマイクロブログユーザ属性推定器記憶部3を参照するようにしてもよい。
また、上述のマイクロブログユーザ属性推定装置についても、外部装置に設けられた、マイクロブログユーザ属性推定器記憶部5と通信手段を用いて通信することにより、マイクロブログユーザ属性推定器記憶部5を参照するようにしてもよい。
また、上記実施の形態では、マイクロブログユーザ属性推定器構築装置とマイクロブログユーザ属性推定装置とを別々の装置として構成する場合を例に説明したが、マイクロブログユーザ属性推定器構築装置とマイクロブログユーザ属性推定装置とを1つの装置として構成してもよい。
上述のマイクロブログユーザ属性推定器構築装置及びマイクロブログユーザ属性推定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
1 構築用入力部
2 構築用演算部
3、5 マイクロブログユーザ属性推定器記憶部
4 入力部
6 演算部
10 マイクロブログユーザ属性推定器構築装置
20 教師ラベル付与済マイクロブログ文書データベース
21 構築用情報量調整部
22 マイクロブログユーザ属性推定器構築部
60 マイクロブログ文書収集部
61 情報量調整部
62 マイクロブログユーザ属性推定部
100 マイクロブログユーザ属性推定装置

Claims (7)

  1. マイクロブログサイトの複数のユーザの各々について、前記マイクロブログサイトから得られる前記ユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書を含むユーザマイクロブログ文書集合と、前記ユーザと直接または間接的に関係がある近隣ユーザによって作成された前記ユーザマイクロブログ文書集合とを、前記ユーザの属性を示す教師ラベルと対応付けて記憶した記憶手段、構築用情報量調整手段、及びユーザ属性推定器構築手段を含むユーザ属性推定器構築装置におけるユーザ属性推定器構築方法であって、
    前記構築用情報量調整手段によって、前記複数のユーザの各々について、推定対象の属性の種類に応じて予め定められた、前記ユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書、前記近隣ユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書の各々の利用有無に応じて、前記記憶手段によって記憶された前記ユーザの前記ユーザマイクロブログ文書集合及び前記ユーザの前記近隣ユーザの前記ユーザマイクロブログ文書集合から、前記ユーザプロフィール文書又は前記マイクロブログ投稿文書を選択するステップと、
    前記ユーザ属性推定器構築手段によって、前記複数のユーザの各々について、前記構築用情報量調整手段によって選択された前記ユーザプロフィール文書又は前記マイクロブログ投稿文書から抽出される特徴量と、前記ユーザの属性を示す前記教師ラベルとに基づいて、前記ユーザマイクロブログ文書集合を作成したユーザの前記推定対象の属性を推定するためのユーザ属性推定器を構築するステップと、
    を含むユーザ属性推定器構築方法。
  2. 特徴量選択手段によって、前記構築用情報量調整手段によって選択された前記ユーザプロフィール文書の集合に基づいて、前記ユーザプロフィール文書に対する特徴量を選択し、前記構築用情報量調整手段によって選択された前記マイクロブログ投稿文書の集合に基づいて、前記マイクロブログ投稿文書に対する特徴量を選択するステップを更に含み、
    前記ユーザ属性推定器構築手段によって構築するステップは、前記複数のユーザの各々について、前記構築用情報量調整手段によって選択された前記ユーザプロフィール文書から抽出される、前記選択された前記ユーザプロフィール文書に対する特徴量、又は前記構築用情報量調整手段によって選択された前記マイクロブログ投稿文書から抽出される、前記選択された前記マイクロブログ投稿文書に対する特徴量と、前記ユーザの属性を示す前記教師ラベルとに基づいて、前記ユーザ属性推定器を構築する請求項1記載のユーザ属性推定器構築方法。
  3. マイクロブログ文書収集手段、情報量調整手段及びユーザ属性推定手段を含むユーザ属性推定装置におけるユーザ属性推定方法であって、
    前記マイクロブログ文書収集手段によって、マイクロブログサイトから得られる、推定対象のユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書を含むユーザマイクロブログ文書集合を収集すると共に、前記推定対象のユーザと直接または間接的に関係がある近隣ユーザによって作成された前記ユーザマイクロブログ文書集合を収集するステップと、
    前記情報量調整手段によって、推定対象の属性の種類に応じて予め定められた、前記推定対象のユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書、前記近隣ユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書の各々の利用有無に応じて、前記マイクロブログ文書収集手段によって収集された前記ユーザマイクロブログ文書集合から、前記ユーザプロフィール文書又は前記マイクロブログ投稿文書を選択するステップと、
    前記ユーザ属性推定手段によって、前記推定対象の属性を推定するための予め構築されたユーザ属性推定器と、前記情報量調整手段によって選択された前記ユーザプロフィール文書又は前記マイクロブログ投稿文書から抽出される特徴量とに基づいて、前記推定対象のユーザの属性を推定するステップと、
    を含むユーザ属性推定方法。
  4. マイクロブログサイトの複数のユーザの各々について、前記マイクロブログサイトから得られる前記ユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書を含むユーザマイクロブログ文書集合と、前記ユーザと直接または間接的に関係がある近隣ユーザによって作成された前記ユーザマイクロブログ文書集合とを、前記ユーザの属性を示す教師ラベルと対応付けて記憶した記憶手段と、
    前記複数のユーザの各々について、推定対象の属性の種類に応じて予め定められた、前記ユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書、前記近隣ユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書の各々の利用有無に応じて、前記記憶手段によって記憶された前記ユーザの前記ユーザマイクロブログ文書集合及び前記ユーザの前記近隣ユーザの前記ユーザマイクロブログ文書集合から、前記ユーザプロフィール文書又は前記マイクロブログ投稿文書を選択する構築用情報量調整手段と、
    前記複数のユーザの各々について、前記構築用情報量調整手段によって選択された前記ユーザプロフィール文書又は前記マイクロブログ投稿文書から抽出される特徴量と、前記ユーザの属性を示す前記教師ラベルとに基づいて、前記ユーザマイクロブログ文書集合を作成したユーザの前記推定対象の属性を推定するためのユーザ属性推定器を構築するユーザ属性推定器構築手段と、
    を含むユーザ属性推定器構築装置。
  5. 前記構築用情報量調整手段によって選択された前記ユーザプロフィール文書の集合に基づいて、前記ユーザプロフィール文書に対する特徴量を選択し、前記構築用情報量調整手段によって選択された前記マイクロブログ投稿文書の集合に基づいて、前記マイクロブログ投稿文書に対する特徴量を選択する特徴量選択手段を更に含み、
    前記ユーザ属性推定器構築手段は、前記複数のユーザの各々について、前記構築用情報量調整手段によって選択された前記ユーザプロフィール文書から抽出される、前記選択された前記ユーザプロフィール文書に対する特徴量、又は前記構築用情報量調整手段によって選択された前記マイクロブログ投稿文書から抽出される、前記選択された前記マイクロブログ投稿文書に対する特徴量と、前記ユーザの属性を示す前記教師ラベルとに基づいて、前記ユーザ属性推定器を構築する請求項4記載のユーザ属性推定器構築装置。
  6. マイクロブログサイトから得られる、推定対象のユーザによって作成されたユーザプロフィール文書及びマイクロブログ投稿文書を含むユーザマイクロブログ文書集合を収集すると共に、前記推定対象のユーザと直接または間接的に関係がある近隣ユーザによって作成された前記ユーザマイクロブログ文書集合を収集するマイクロブログ文書収集手段と、
    推定対象の属性の種類に応じて予め定められた、前記推定対象のユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書、前記近隣ユーザによって作成された前記ユーザプロフィール文書及び前記マイクロブログ投稿文書の各々の利用有無に応じて、前記マイクロブログ文書収集手段によって収集された前記ユーザマイクロブログ文書集合から、前記ユーザプロフィール文書又は前記マイクロブログ投稿文書を選択する情報量調整手段と、
    前記推定対象の属性を推定するための予め構築されたユーザ属性推定器と、前記情報量調整手段によって選択された前記ユーザプロフィール文書又は前記マイクロブログ投稿文書から抽出される特徴量とに基づいて、前記推定対象のユーザの属性を推定するユーザ属性推定手段と、
    を含むユーザ属性推定装置。
  7. 請求項1又は2記載のユーザ属性推定器構築方法、あるいは請求項3記載のユーザ属性推定方法を構成する各ステップをコンピュータに実行させるためのプログラム。
JP2013023488A 2013-02-08 2013-02-08 ユーザ属性推定器構築方法、ユーザ属性推定方法、装置、及びプログラム Expired - Fee Related JP5882243B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013023488A JP5882243B2 (ja) 2013-02-08 2013-02-08 ユーザ属性推定器構築方法、ユーザ属性推定方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013023488A JP5882243B2 (ja) 2013-02-08 2013-02-08 ユーザ属性推定器構築方法、ユーザ属性推定方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014153934A JP2014153934A (ja) 2014-08-25
JP5882243B2 true JP5882243B2 (ja) 2016-03-09

Family

ID=51575744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013023488A Expired - Fee Related JP5882243B2 (ja) 2013-02-08 2013-02-08 ユーザ属性推定器構築方法、ユーザ属性推定方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP5882243B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6368264B2 (ja) * 2015-03-23 2018-08-01 Kddi株式会社 投稿文から投稿者のプロフィール項目を分析する投稿者分析装置、プログラム及び方法
KR102117528B1 (ko) * 2018-12-21 2020-06-01 아주대학교산학협력단 온라인 데이터에 기반한 사용자 특성 예측 장치 및 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8364708B1 (en) * 2009-12-08 2013-01-29 Amdocs Software Systems Limited System, method, and computer program for augmenting user profiles
JP5892839B2 (ja) * 2011-04-06 2016-03-23 日本放送協会 プロファイル生成装置及びプログラム
US8838688B2 (en) * 2011-05-31 2014-09-16 International Business Machines Corporation Inferring user interests using social network correlation and attribute correlation

Also Published As

Publication number Publication date
JP2014153934A (ja) 2014-08-25

Similar Documents

Publication Publication Date Title
JP6828204B2 (ja) サーバ、プログラム及び情報処理方法
US9934286B2 (en) Generating contact suggestions
US10949771B2 (en) Systems and methods for churn prediction
US20180165582A1 (en) Systems and methods for determining sentiments in conversations in a chat application
EP3070661A1 (en) System and method for providing context driven hyper-personalized recommendation
US20190065606A1 (en) Systems and methods for automated page category recommendation
US10630632B2 (en) Systems and methods for ranking comments
CN102223393A (zh) 用于来自用户社交网络的关系表征和利用的方法和系统
CA2832722A1 (en) Data mining method for social network of terminal user and related methods, apparatuses and systems
JP2016045504A (ja) 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム
US10528985B2 (en) Determining a personalized advertisement channel
US11050884B2 (en) Intent-driven contact center
US20110218931A1 (en) Notifications in a Social Network Service
KR101450453B1 (ko) 컨텐츠 추천 방법 및 장치
US20170169029A1 (en) Systems and methods for ranking comments based on information associated with comments
US11138265B2 (en) Computerized system and method for display of modified machine-generated messages
JP5882243B2 (ja) ユーザ属性推定器構築方法、ユーザ属性推定方法、装置、及びプログラム
WO2012079147A1 (en) Method, system and apparatus for managing contact data
JP2018515843A (ja) 電話番号検索に対する乱用検出
US10120838B2 (en) Systems and methods for weighted sampling
KR20150145383A (ko) 소셜 네트워크 서비스 및 컨텐츠 제공 방법
US10853820B2 (en) Method and apparatus for recommending topic-cohesive and interactive implicit communities in social customer relationship management
JP5324824B2 (ja) ネットワーク・ノードを分類する情報処理装置、情報処理システム、情報処理方法およびプログラム
US20200112618A1 (en) Systems and methods for providing information regarding future content
US9571605B1 (en) System, method, and computer program for identifying a social network user identifier based on a user message

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160203

R150 Certificate of patent or registration of utility model

Ref document number: 5882243

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees