JP5756052B2 - ユーザ属性推定装置及び方法及びプログラム - Google Patents

ユーザ属性推定装置及び方法及びプログラム Download PDF

Info

Publication number
JP5756052B2
JP5756052B2 JP2012089671A JP2012089671A JP5756052B2 JP 5756052 B2 JP5756052 B2 JP 5756052B2 JP 2012089671 A JP2012089671 A JP 2012089671A JP 2012089671 A JP2012089671 A JP 2012089671A JP 5756052 B2 JP5756052 B2 JP 5756052B2
Authority
JP
Japan
Prior art keywords
user
attribute
attribute word
word
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012089671A
Other languages
English (en)
Other versions
JP2013218579A (ja
Inventor
翔 川中
翔 川中
京介 西田
京介 西田
倉島 健
健 倉島
高秀 星出
高秀 星出
藤村 考
考 藤村
恭太 堤田
恭太 堤田
佐藤 大祐
大祐 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012089671A priority Critical patent/JP5756052B2/ja
Publication of JP2013218579A publication Critical patent/JP2013218579A/ja
Application granted granted Critical
Publication of JP5756052B2 publication Critical patent/JP5756052B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ユーザ属性推定装置及び方法及びプログラムに係り、特に、ユーザが自己紹介を含む情報発信を行い、各ソーシャルネットワークサービス(SNS)上で個別に定義されているユーザ同士の人間関係が定義・構築されているSNS上の各ユーザに対して、該ユーザのデモグラフィック及びサイコグラフィックを表すユーザ属性絵を表す属性語を推定するためのユーザ属性推定装置及び方法及びプログラムに関する。
第1の従来技術として、ユーザの書いた日記記事集合の出現単語分布を特徴として、各ユーザ属性毎に、該ユーザが当てはまるか否かを識別する識別器を作成し、識別させる技術がある(例えば、非特許文献1参照)。
また、第2の従来技術として、ユーザ毎に、ユーザの書いた自己紹介記事をテキスト分析し、該ユーザを表すのに適切なユーザ属性語を獲得する技術がある。
池田和史、柳原正、服部元、松本一則、小野智弘、『投稿者プロフィールを考慮したTwitter意見分類システムの提案』電子情報通信学会総合大会講演論文集 2011年 情報・システム(1), 24, 2011-02-28.
しかしながら、上記第1の従来技術においては、ユーザ属性を推定(識別)するために、ユーザが自らを紹介する目的に書いていないテキスト(日記記事集合)を特徴として用いるため、また、ユーザ属性の適合か否かの識別性能は、該ユーザの日記集合の量に依存し、故に、ユーザの日記集合の量が少ない場合は識別の適合性能が低下する恐れがある。
第2の従来技術においては、自己紹介記事は通常短く、書いていないユーザも多いため、自己紹介記事を獲得できないユーザが発生したり、少量の属性語しか獲得できないユーザが発生したりする場合がある。すなわち、第2の従来技術においては、ユーザの自己紹介記事の量が少ない場合に数多くの属性語を獲得できないという課題がある。
本発明は、上記の点に鑑みなされたもので、SNS上の各ユーザについて、ユーザの書いた日記記事の量や、自己紹介記事の量が少ない場合においても、該ユーザについて、精度高く数多くの属性語を推定することが可能なユーザ属性推定装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するため、本発明(請求項1)は、ユーザが自己紹介を含む情報発信を行い、ユーザ同士の人間関係が定義・構築されているソーシャルネットワークサービス(SNS)上の各ユーザに対して、該ユーザのデモグラフィックおよびサイコグラフィックを表すユーザ属性を表す属性語を1つ以上推定するユーザ属性推定装置であって、
自己紹介記事及び日記記事を格納した記事集合記憶手段と、
ユーザと関係のあるユーザを関係距離として表現したユーザ関係グラフを格納したユーザ関係グラフ記憶手段と、
前記記事集合記憶手段の己紹介記事の集合と日記記事集合から、該日記記事集合に比べて自己紹介記事の集合に出現する度合いの高さを用いて、一般的にユーザ属性を表す語(ユーザ属性語)集合を取得し、属性語辞書記憶手段に格納する属性語辞書獲得手段と、
各ユーザについて、前記記事集合記憶手段の該ユーザが書いた自己紹介記事から、前記属性語辞書記憶手段を参照して、該ユーザのユーザ属性を表す属性語を獲得し、ユーザ属性語集合記憶手段に格納するユーザ属性語集合付与手段と、
各ユーザについて、前記ユーザ属性語集合記憶手段に格納されている該ユーザの自己紹介記事から獲得したユーザ属性語の数が所定の数に満たないときに、前記ユーザ関係グラフ記憶手段を参照して、各属性語を、該ユーザからユーザ関係グラフ上の距離の近い他ユーザのユーザ属性語である場合ほど重くなる重みをつけて算出し、重み付き出現頻度の高いものから順に該ユーザのユーザ属性を表すユーザ属性語として獲得し、該ユーザ属性語集合記憶手段に格納する属性語追加付与手段と、を有する。
また、本発明(請求項2)は、前記ユーザ属性語集合記憶手段の各属性語ペアについて、SNSにおける各属性語間の同一ユーザにおける共起頻度が、該各ユーザ属性語の出現頻度から算出した期待値より低いほど、排他関係として適切であると評価し、両方の属性語を同一ユーザに属性語として付与して属性語排他関係記憶手段に格納し、該ユーザに既に付与されている属性語の集合に、該属性語との排他関係にある属性語が存在する際には付与しない属性語排他関係獲得手段、を更に有する。
また、本発明(請求項3)は、前記属性語排他関係獲得手段において、各属性語ペアについて、SNSにおける各属性語間の同一ユーザにおける共起頻度が、該各ユーザ属性語の出現頻度から算出した期待値より低いほど、または、前記ユーザ関係グラフ記憶手段を参照して、属性語を有するユーザの集合である属性語のコミュニティが近いほど、排他関係として適切であると評価する手段を含む。
上記のように本発明によれば、ユーザが自己紹介記事を含む情報発信を行い、ユーザ同士のSNS上の関係が構築されているSNS上において、自己紹介記事集合から獲得される多種多用なユーザ属性語候補の中から、各ユーザに当てはまる1つ以上のユーザ属性語をユーザの書いた日記記事の量や、自己紹介記事の量が少ない場合においても、ユーザ属性語の同一ユーザにおける排他性を考慮して精度高く推定することが可能になる。
本発明の第1の実施の形態におけるユーザ属性推定装置の構成図である。 本発明の第1の実施の形態における記事集合テーブルの例である。 本発明の第1の実施の形態における属性語辞書テーブルの例である。 本発明の第1の実施の形態におけるユーザ関係グラフテーブルの例である。 本発明の第1の実施の形態における属性語排他関係テーブルの例である。 本発明の第1の実施の形態におけるユーザ属性語テーブルの例である。 本発明の第1の実施の形態におけるユーザ属性推定装置の処理の流れを示す図である。 本発明の第1の実施の形態におけるパラメータ一覧である。 本発明の第1の実施の形態における属性語辞書獲得処理のフローチャートである。 本発明の第1の実施の形態における属性語排他関係獲得処理のフローチャートである。 本発明の第1の実施の形態におけるp(w),p(w,w')算出の具体例である。 本発明の第1の実施の形態におけるadj(w,w')の算出の具体例である。 本発明の第1の実施の形態におけるユーザ属性集合追加付与処理のフローチャートである。
以下、図面と共に本発明の実施の形態を説明する。
最初に本明細書で用いられる用語について定義する。
・ユーザ同士の人間関係:
各SNS上で個別に定義されている、ユーザ同士の承認によって張られる、任意の2ユーザの間の結びつき、もしくは、SNS上におけるユーザ間のメッセージの送信などのコミュニケーションを行ったユーザ同士に張られる結びつきを指す。ユーザ同士の人間関係は、2人のユーザをノードとした時の、両ノードに張られた無向なエッジとして表示することができる。
・ユーザ関係グラフ:
全ユーザをノード、全ユーザペア間のエッジにより構成されるグラフ。
・排他関係:
排他関係は、両方の属性語を、同一ユーザに属性語として付与すると、意味的に矛盾する、もしくは、何らかの理由により実際の世界において一人のユーザが両方の属性語が表すユーザ属性を有することが極めて難しい、属性語のペア、の関係とする。例えば、『アイドル好き』と『アイドル嫌い』が排他関係となる。
・属性語のコミュニティ:
属性語のコミュニティとは、当該属性語を有するユーザの集合であり、「属性語のコミュニティの近さ」とは、一方の属性語を有するユーザ集合と人間関係のあるユーザ集合の中に、もう一方の属性語を有するユーザが含まれている度合いの高さとする。
[第1の実施の形態]
図1は、本発明の第1の実施の形態におけるユーザ属性推定装置の構成図である。
同図に示すユーザ属性推定装置は、大きく分けて、属性語辞書獲得部10、ユーザ属性語集合付与部20、属性語排他関係獲得部30、ユーザ属性語集合追加付与部40、記事集合テーブルT1、属性語辞書テーブルT2、ユーザ関係グラフテーブルT3、属性語排他関係テーブルT4、ユーザ属性集合語テーブルT5、入力用外部装置50から構成される。
記事集合テーブルT1,属性語辞書テーブルT2,ユーザ関係グラフテーブルT3,属性語排他関係テーブルT4、ユーザ属性語集合テーブルT5は、ハードディスクまたは、メモリ等の記憶媒体に格納されているものとする。また、入力用外部装置50は、システム利用者が起動命令及びパラメータを入力する外部装置である。
以下に、上記の各テーブルの概要を示す。なお、T1、T3は本ユーザ属性推定装置を起動する前より値が格納されているテーブルであり、本ユーザ属性推定装置の処理においてはその値は不変である。T2、T4,T5は本ユーザ属性推定装置により各値が新規挿入されるテーブルである。
<記事集合テーブルT1>
記事集合テーブルT1の例を図2に示す。
記事集合テーブルT1は、形態素解析済み(各形態素を{原形,品詞,活用形}の3つ組みで表現)の日記記事、形態素解析済み(各形態素を{原形,品詞,活用形}の3つ組みで表現)の自己紹介記事(日記文を書いた著者の自己紹介文)、記事ID(投稿時刻の古いものから昇順にふられているものとする。)、記事を書いたユーザのユーザIDの4つ組の集合を格納するためのテーブルである。
<属性語辞書テーブルT2>
属性語辞書テーブルT2の例を図3に示す。
属性語辞書テーブルT2は、属性語の集合が格納されるテーブルである。
<ユーザ関係グラフテーブルT3>
ユーザ関係グラフテーブルT3の例を図4に示す。ユーザ関係グラフとは、ユーザ同士の承認によって張られる、任意の2ユーザ間の結びつきを指す。ユーザ同士の人間関係は、2人のユーザをノードとしたときの、両ノードに張られた無向なエッジとして表現することができる。全ユーザをノード、全ユーザペア間のエッジにより構成されたグラフを「ユーザ関係グラフ」と呼ぶこととする。ユーザ関係グラフT3は、各ユーザのユーザIDと、該ユーザと関係のあるユーザのユーザIDが関係距離毎に格納されるテーブルである。なお、関係距離は、ユーザ関係グラフにおけるノード間の最短距離を意味する値である。関係距離が短いユーザ同士ほどユーザ同士のユーザ属性の関連度が高いと本発明では考え、後の属性語の追加付与においてその情報を用いる。
<属性語排他関係テーブルT4>
属性語排他関係テーブルT4の例を図5に示す。
属性語排他関係テーブルT4は、各属性語と排他関係にある属性語のリストが格納される。
<ユーザ属性語集合テーブルT5>
ユーザ属性語集合テーブルT5の例を図6に示す。
ユーザ属性語集合テーブルT5は、各ユーザのユーザIDと、該ユーザのユーザ属性語のリストが格納される。
以下に本ユーザ属性推定装置の処理について説明する。
図7は、本発明の第1の実施の形態におけるユーザ属性推定装置の処理の流れを示す。
本ユーザ属性推定装置では大きく分けて属性語辞書獲得処理S10、ユーザ属性語集合付与処理S20、属性語排他関係獲得処理S30、ユーザ属性語集合追加付与処理S40から構成される。
本ユーザ属性推定装置では入力用外部装置50から開始命令が入力されるとS10に処理を進める。
なお、その際以降の処理で必要となるパラメータも同時に入力されるものとし、入力されたパラメータはメモリに記憶され、以降の処理で用いられるものとする。なお、パラメータの一覧を図8に示す。入力されるパラメータとしては、属性語辞書に登録する造成後の数(α)、対数尤度費計算のためのスムージングパラメータ(α)、ユーザ間共起度算出のためのスムージングパラメータ(β)、ユーザ内共起度算出のためのスムージングパラメータ(β)、排他関係ペアを抽出するための閾値(β)、関係あるユーザから属性語を推定する際にいくつの関係距離のユーザまで考慮するかを定めるパラメータ(γ)、関係があるユーザから属性語を推定する際の各関係距離の重みを決めるためのパラメータ(γ)、各ユーザに属性語を追加付与する際の上限数(γ)等である。
[属性語辞書獲得処理:S10]
ステップ10) 属性語辞書獲得部10は、日記記事集合と自己紹介記事集合から、各名詞の両者における出現頻度分布を用いて、属性語として適切な名詞か否かを判定し、適切な名詞をT2に格納する。
ステップ10の属性語辞書獲得処理のフローを図9に示す。
ステップ11)属性語辞書獲得部10は、記事集合テーブルT1を参照し、全ての情報を取得し、さらに、日記記事集合、自己紹介記事集合それぞれにおける各名詞の出現回数をカウントする。
ステップ12)次に各名詞について、ステップ11で算出した各名詞の出現回数を用いて、日記記事集合における出現頻度に比べた時の自己紹介記事集合における出現頻度の高さを表すスコアが上位α1件の名詞を取得する。上記スコアによる取得は、自己紹介に用いられる傾向が高い名詞はユーザ属性を表現する名詞として適切であるという仮説に基づく。
上記スコアは入力名詞をmとする時の、
a=(自己紹介記事集合におけるmの出現回数);
b=(自己紹介記事集合におけるm以外の名詞の出現回数の総和);
c=(日記記事集合におけるmの出現回数);
d=(日記記事集合におけるm以外の名詞の出現回数の総和) を入力とする;
と場合分けした対数尤度比S(a,b,c,d)により以下の式により算出する。
Figure 0005756052
Figure 0005756052
[ユーザ属性語集合付与処理:S20]
ユーザ属性語集合付与部20は、予め属性語辞書テーブルT2の全ての情報を予め取得する。
さらに、ユーザ毎に、ユーザの自己紹介記事(最も新しい記事)を1件取得し、当該自己紹介記事に含まれる属性語の集合を取得し、さらに、ユーザIDと前記属性語集合とのペアをユーザ属性語集合テーブルT5に格納する。
[属性語排他関係獲得処理:S30]
当該処理は、属性語間の排他関係を獲得するための処理である。
図10は、本発明の第1の実施の形態における属性語排他関係獲得処理のフローチャートである。
属性語排他関係獲得部30は、排他関係を獲得するために、ユーザ内共起度(S3211で算出)、隣接ユーザ間共起度(S3222で算出)、という2つの指標を用いる。
ユーザ内共起度は、一人のユーザが両方の属性語を有することが各属性語の出現確率から計算される期待値より少ない属性語同士は排他関係であることが多いという仮説に基づく指標であり、隣接ユーザ間共起度は属性語間のコミュニティの近さを獲得するための指標であり、コミュニティが遠い属性語同士は、ユーザ内共起度が低くても、排他関係ではないことが多いという仮説に基づく指標である。
ステップ30では、まず、ステップ32以降の排他関係獲得のための前処理として次の処理(ステップ31)を行う。
ステップ31) 属性語排他関係獲得部30は、まず、属性語辞書テーブルT2の全ての情報を取得し、各属性語をキー、値を空の配列とするハッシュHexを作成する。また、ユーザ関係グラフテーブルT3から、各ユーザIDについての関係距離1のユーザID集合を取得する。また各ユーザの関係距離1のユーザの数(隣接するユーザの数)の、全ユーザにおける平均値μ(式4で利用)を算出する。例えば、Aさん,Bさん,Cさん,Dさん,Eさん、の5人が全てのユーザであり、Aさんの隣接ユーザが2人、Bさんの隣接ユーザが2人、Cさんの隣接ユーザが3人、Dさんの隣接ユーザが4人、Eさんの隣接ユーザが1人のとき、μ=(2+2+3+4+1)/5=2.4)となる。
また、ユーザ属性語集合テーブルT5から、各ユーザIDについての格納済の属性語集合を取得する。
ステップ32) 属性語排他関係獲得部30は、ステップ31で取得した1ユーザID以上に格納されている、全ての属性語についての各属性語w毎に、次の処理を行う (S32のループ) 。なお、以下の処理は、ステップ31において、ユーザ属性語集合テーブルT5から読み出された、いずれかのユーザと紐づいている全ての属性が処理対象である。
ステップ321) 属性語wの他の全ての属性語w' 毎に、次の処理を行う。
ステップ3211) ユーザ内共起度I(w, w')を以下の式3により算出する。
Figure 0005756052
なお、p(w)は全ユーザにおける属性語wを有するユーザの割合を表す。p(w, w')は全ユーザにおける属性語w, w'の両方を有するユーザの割合を表す。I(w, w')は、排他関係にある属性語ペアほど、1人のユーザでの共起が発生しずらいという仮説に基づき、I(w,w')のスコアが低いペアほど、排他関係である度合いが強いということを意図して算出する。分子は実際の共起率であり、分母は共起率の期待値である。p(w),p(w,w')算出の具体例を図11に示す。
ステップ3212)隣接ユーザ間共起度N(w, w')を算出する。
Figure 0005756052
なおadj(w,w')は、ユーザ関係グラフテーブルT3において、互いに異なるwとw'を有する隣接するユーザペア(wとw'の隣接ペア数と以降ではよぶ)の(ユーザ関係グラフ全体における)数である。(adjの計算の具体例を図12に示す。)|Uw|はwを属性語に含むユーザの数である。N(w,w')の分母の項はwとw'の隣接ペア数の両者の出現確率からの期待値であり、分子の項は実際の隣接ペア数である。(βはスムージングのためのパラメータである)。μはグラフにおけるノードの平均エッジ数である。
ステップ3213)排他関係度E(w, w')を算出する。
Figure 0005756052
上記のE(w,w')は排他関係である度合いを示し、N(w,w')はコミュニティの近さ(隣接ユーザ間共起度)、I(w,w')はユーザ内共起度の高さである。I(w,w')が低く、かつ、N(w,w')が高いものだけを排他関係とする。
ステップ3214) 排他関係度E(w,w')が閾値β3より高い場合のみHexにwをキーとして取得される値である配列にw'を追加する。
(以上S321のループ終了)
(以上S32のループ終了)
ステップ33) Hexの各キーとなる属性語毎に値の配列に含まれる属性語集合とのペアを全て属性語波板関係テーブルT4に格納する。
[ユーザ属性語集合追加付与処理:S40]
ユーザ属性語集合追加付与部40の処理の目的は、各ユーザに対して関係がある他ユーザの属性語を利用し、各ユーザに属性語集合を追加付与することである。但し、その際属性語の排他関係を考慮する。
図13は、本発明の第1の実施の形態におけるユーザ属性語集合追加付与処理のフローチャートである。
ステップ41) ユーザ属性語集合追加付与部40は、以降の分析のための前処理として、ユーザ属性語集合テーブルT5から全てのユーザのユーザID(Uidとする)と各ユーザの格納済の属性語(ユーザuの属性語の集合をZuとする)を取得する。また、属性語排他関係テーブルT4から全ての属性語の排他関係(Wex)を取得する。
ステップ42)次に、ユーザ毎に、属性語を追加付与することを目的として、S421,S422,S423,S424の処理を行う。(分岐により必ずしも全ての処理を行わない場合がある。)
ステップ421) 該ユーザにとっての各属性語の適切さを定めるために次の処理を行う。
まず、ユーザ関係グラフテーブルT3を参照し、該ユーザuiと関係のあるユーザのユーザID集合を関係距離ごとに獲得する。さらに(式6)により、関係のあるユーザから推測する、各属性語wjの該ユーザuiの属性語としての適切らしさを表すスコアs(ui,wj)を抽出する。(ただしZuiに含まれるwjについてはスコアを算出しないものとする。)
Figure 0005756052
ただしdf(uk.wj)はユーザukが属性語wjを有する場合に1,そうでないときに0を返す関数とする。γ1はs(si, wj)の算出に利用する関係距離の上限である。γ2は関係距離の遠さの重みを調整するためのパラメータである。Wは全ユーザ属性語の集合とする。nは各関係距離とする。
さらに上記算出処理により獲得したwjとscore(ui, wj)のペアの集合について、score(ui, wj)の値の降順にソートし、降順にwjとscore(ui, wj)のペアを順次格納することにより作成される配列Azを新規作成する。
ステップ422)配列Azの要素が1つ以上ある時、S423へ処理を渡す。1つ未満の場合は、該ユーザのループを終了し、次のユーザの処理へ進む。
ステップ423)ユーザuの属性語の数|Zu|が、閾値γ3未満の場合S424に処理を渡す。γ3以上の場合は、該ユーザのループを終了し、次のユーザの処理へ進む。
ステップ424)配列Azの0番目の属性語wについて、ユーザuの全ての格納済の属性語集合Zuの要素である各属性語と排他関係にないかをでないかを調査する (Wexを利用)。1つも排他関係にある属性語がない場合は、次の2つ処理を行う。
・Zu=Zu + {w};
・ユーザ属性語集合テーブルT5の該ユーザuiの行にwを追加 ;
ステップ425)配列Azの0番目の要素を配列Azから削除して処理S422に進む。
[第2の実施の形態]
本実施の形態では、第1の実施の形態における属性語排他関係獲得部30における図10に示すステップ3212の処理を含まず、ステップ3213の計算式の代わりに以下の式7を用いる。
Figure 0005756052
上記のE(w,w')は排他関係である度合いを示し、I(w,w')はユーザ内共起度の高さである。
当該(式7)は、請求項1及び請求項2のみに対応した例である。
[第3の実施の形態]
本実施の形態では、第1の実施の形態における属性語排他関係獲得部30における図30のステップ30に含まれる全ての処理を含まず、図13のステップ41、ステップ424の処理を下記処理に変えることが可能である。当該処理は、請求項1のみに対応した例に相当する。
・本実施の形態におけるステップ41の処理
ユーザ属性語集合テーブルT5から全てのユーザのユーザID(Uidとする)と各ユーザの格納済の属性語(ユーザuの属性語の集合をZuとする)を取得する。また、属性語排他関係テーブルT4から全ての属性語の排他関係(Wex)を取得する。
・本実施の形態におけるステップ424の処理
次の2処理を行う。
・Zu=Zu + {w}
・ユーザ属性語集合テーブルT5の該ユーザuiの行にwを追加
上記のように、記事集合テーブルT1の日記記事と自己紹介記事について、全体を通してなるべく自己紹介記事固有の名詞を属性語とし、属性語の中でユーザ個別の属性語を記事に利用されているという条件で絞り込み、親密なユーザ同士の属性語の出現状況(共起関係)から排他的な関係の属性語を決定する。このとき、ユーザの属性語が少ない場合には、ユーザとの関係で適切な属性語を式6により求め、補充する。
このように、本発明では、ユーザが自己紹介記事を含む情報発信を行い、ユーザ同士のSNS上の関係が構築されているSNS上において、自己紹介記事集合から獲得される多種多用なユーザ属性語候補の中から、各ユーザに当てはまる1つ以上のユーザ属性語を、ユーザ自身が書いていない場合、または、書いた数が少ない場合についても、ユーザ属性語の同一ユーザにおける排他性を考慮し、精度高く推定することが可能になる。
上記の図1に示すユーザ属性推定装置の構成要素の動作をプログラムとして構築し、ユーザ属性推定装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
10 属性語辞書獲得部
20 ユーザ属性語集合付与部
30 属性語排他関係獲得部
40 ユーザ属性語集合追加付与部
50 入力用外部装置
T1 記事集合テーブル
T2 属性語辞書テーブル
T3 ユーザ関係グラフテーブル
T4 属性語排他関係テーブル
T5 ユーザ属性語集合テーブル

Claims (7)

  1. ユーザが自己紹介を含む情報発信を行い、ユーザ同士の人間関係が定義・構築されているソーシャルネットワークサービス(SNS)上の各ユーザに対して、該ユーザのデモグラフィックおよびサイコグラフィックを表すユーザ属性を表す属性語を1つ以上推定するユーザ属性推定装置であって、
    自己紹介記事及び日記記事を格納した記事集合記憶手段と、
    ユーザと関係のあるユーザを関係距離として表現したユーザ関係グラフを格納したユーザ関係グラフ記憶手段と、
    前記記事集合記憶手段の己紹介記事の集合と日記記事集合から、該日記記事集合に比べて自己紹介記事の集合に出現する度合いの高さを用いて、一般的にユーザ属性を表す語(ユーザ属性語)集合を取得し、属性語辞書記憶手段に格納する属性語辞書獲得手段と、
    各ユーザについて、前記記事集合記憶手段の該ユーザが書いた自己紹介記事から、前記属性語辞書記憶手段を参照して、該ユーザのユーザ属性を表す属性語を獲得し、ユーザ属性語集合記憶手段に格納するユーザ属性語集合付与手段と、
    各ユーザについて、前記ユーザ属性語集合記憶手段に格納されている該ユーザの自己紹介記事から獲得したユーザ属性語の数が所定の数に満たないときに、前記ユーザ関係グラフ記憶手段を参照して、各属性語を、該ユーザからユーザ関係グラフ上の距離の近い他ユーザのユーザ属性語である場合ほど重くなる重みをつけて算出し、重み付き出現頻度の高いものから順に該ユーザのユーザ属性を表すユーザ属性語として獲得し、該ユーザ属性語集合記憶手段に格納する属性語追加付与手段と、
    を有することを特徴とするユーザ属性推定装置。
  2. 前記ユーザ属性語集合記憶手段の各属性語ペアについて、SNSにおける各属性語間の同一ユーザにおける共起頻度が、該各ユーザ属性語の出現頻度から算出した期待値より低いほど、排他関係として適切であると評価し、両方の属性語を同一ユーザに属性語として付与して属性語排他関係記憶手段に格納し、該ユーザに既に付与されている属性語の集合に、該属性語との排他関係にある属性語が存在する際には付与しない属性語排他関係獲得手段を更に有する請求項1記載のユーザ属性推定装置。
  3. 前記属性語排他関係獲得手段は、
    各属性語ペアについて、SNSにおける各属性語間の同一ユーザにおける共起頻度が、該各ユーザ属性語の出現頻度から算出した期待値より低いほど、または、前記ユーザ関係グラフ記憶手段を参照して、属性語を有するユーザの集合である属性語のコミュニティが近いほど、排他関係として適切であると評価する手段を含む
    請求項2記載のユーザ属性推定装置。
  4. ユーザが自己紹介を含む情報発信を行い、ユーザ同士の人間関係が定義・構築されているソーシャルネットワークサービス(SNS)上の各ユーザに対して、該ユーザのデモグラフィックおよびサイコグラフィックを表すユーザ属性を表す属性語を1つ以上推定するユーザ属性推定方法であって、
    属性語辞書獲得手段が、事集合記憶手段に格納されたSNS上の自己紹介記事の集合と日記記事集合から、該日記記事集合に比べて自己紹介記事の集合に出現する度合いの高さを用いて、一般的にユーザ属性を表す語(ユーザ属性語)集合を取得し、属性語辞書記憶手段に格納する属性語辞書獲得ステップと、
    ユーザ属性集合付与手段が、各ユーザについて、前記記事集合記憶手段の該ユーザが書いた自己紹介記事から、前記属性語辞書記憶手段を参照して、該ユーザのユーザ属性を表す属性語を獲得し、ユーザ属性語集合記憶手段に格納するユーザ属性語集合付与ステップと、
    属性語追加付与手段が、各ユーザについて、前記ユーザ属性語集合記憶手段に格納されている該ユーザの自己紹介記事から獲得したユーザ属性語の数が所定の数に満たないときに、ユーザと関係のあるユーザを関係距離として表現したユーザ関係グラフを格納したユーザ関係グラフ記憶手段を参照して、各属性語を、該ユーザからユーザ関係グラフ上の距離の近い他ユーザのユーザ属性語である場合ほど重くなる重みをつけて算出し、重み付き出現頻度の高いものから順に該ユーザのユーザ属性を表すユーザ属性語として獲得し、ユーザ属性語集合記憶手段に格納する属性語追加付与ステップと、
    を行うことを特徴とするユーザ属性推定方法。
  5. 属性語排他関係取得手段が、前記ユーザ属性語集合記憶手段の各属性語ペアについて、SNSにおける各属性語間の同一ユーザにおける共起頻度が、該各ユーザ属性語の出現頻度から算出した期待値より低いほど、排他関係として適切であると評価し、両方の属性語を同一ユーザに属性語として付与して属性語排他関係記憶手段に格納し、該ユーザに既に付与されている属性語の集合に、該属性語との排他関係にある属性語が存在する際には付与しない属性語排他関係獲得ステップを、
    更に行う請求項4記載のユーザ属性推定方法。
  6. 前記属性語排他関係獲得ステップにおいて、
    各属性語ペアについて、SNSにおける各属性語間の同一ユーザにおける共起頻度が、該各ユーザ属性語の出現頻度から算出した期待値より低いほど、または、前記ユーザ関係グラフ記憶手段を参照して、属性語を有するユーザの集合である属性語のコミュニティが近いほど、排他関係として適切であると評価する
    請求項5記載のユーザ属性推定方法。
  7. コンピュータを、
    請求項1乃至3のいずれか1項に記載のユーザ属性推定装置の各手段として機能させるためのユーザ属性推定プログラム。
JP2012089671A 2012-04-10 2012-04-10 ユーザ属性推定装置及び方法及びプログラム Expired - Fee Related JP5756052B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012089671A JP5756052B2 (ja) 2012-04-10 2012-04-10 ユーザ属性推定装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012089671A JP5756052B2 (ja) 2012-04-10 2012-04-10 ユーザ属性推定装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013218579A JP2013218579A (ja) 2013-10-24
JP5756052B2 true JP5756052B2 (ja) 2015-07-29

Family

ID=49590584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012089671A Expired - Fee Related JP5756052B2 (ja) 2012-04-10 2012-04-10 ユーザ属性推定装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5756052B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6375706B2 (ja) 2014-06-11 2018-08-22 富士ゼロックス株式会社 属性推定プログラム及び情報処理装置
KR101768610B1 (ko) * 2014-11-18 2017-08-17 폭스트론(주) 소셜 네트워크 서비스 기반의 자전적 콘텐츠 전문 플랫폼 서비스 제공 시스템
JP6436440B2 (ja) 2014-12-19 2018-12-12 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 生成装置、生成方法、及び、プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4625365B2 (ja) * 2005-05-02 2011-02-02 日本放送協会 推薦順位選定装置及び推薦順位選定プログラム
JP5466119B2 (ja) * 2010-09-21 2014-04-09 Kddi株式会社 同一の共有コンテンツに興味を持つ視聴者の属性の観点を推定する最適観点推定プログラム、装置及び方法

Also Published As

Publication number Publication date
JP2013218579A (ja) 2013-10-24

Similar Documents

Publication Publication Date Title
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN106874435B (zh) 用户画像构建方法和装置
CN106156083B (zh) 一种领域知识处理方法及装置
KR20190038751A (ko) 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체
CN111126060A (zh) 一种主题词的提取方法、装置、设备及存储介质
US10250550B2 (en) Social message monitoring method and apparatus
US11036818B2 (en) Method and system for detecting graph based event in social networks
US20190311219A1 (en) Quasi-clique prototype-based hybrid clustering
US9740695B2 (en) Method for enriching a multimedia content, and corresponding device
JP5756052B2 (ja) ユーザ属性推定装置及び方法及びプログラム
CN107784087B (zh) 一种热词确定方法、装置及设备
Liang Dynamic user profiling for streams of short texts
CN109582967B (zh) 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
Aliandu Twitter Used by Indonesian President: An Sentiment Analysis of Timeline
Geiß et al. Beyond friendships and followers: The Wikipedia social network
US10990883B2 (en) Systems and methods for estimating and/or improving user engagement in social media content
CN107590163B (zh) 文本特征选择的方法、装置和系统
Park et al. Understanding the network fundamentals of news sources associated with a specific topic
CN110442863B (zh) 一种短文本语义相似度计算方法及其系统、介质
Wang et al. Sparse multi-task learning for detecting influential nodes in an implicit diffusion network
KR102078541B1 (ko) 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체
JP7168334B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN111310066A (zh) 一种基于主题模型和关联规则算法的好友推荐方法及系统
CN110781309A (zh) 一种基于模式匹配的实体并列关系相似度计算方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150528

R150 Certificate of patent or registration of utility model

Ref document number: 5756052

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees