JP5756052B2 - ユーザ属性推定装置及び方法及びプログラム - Google Patents
ユーザ属性推定装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5756052B2 JP5756052B2 JP2012089671A JP2012089671A JP5756052B2 JP 5756052 B2 JP5756052 B2 JP 5756052B2 JP 2012089671 A JP2012089671 A JP 2012089671A JP 2012089671 A JP2012089671 A JP 2012089671A JP 5756052 B2 JP5756052 B2 JP 5756052B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- attribute
- attribute word
- word
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
自己紹介記事及び日記記事を格納した記事集合記憶手段と、
ユーザと関係のあるユーザを関係距離として表現したユーザ関係グラフを格納したユーザ関係グラフ記憶手段と、
前記記事集合記憶手段の自己紹介記事の集合と日記記事の集合とから、該日記記事の集合に比べて自己紹介記事の集合に出現する度合いの高さを用いて、一般的にユーザ属性を表す語(ユーザ属性語)集合を取得し、属性語辞書記憶手段に格納する属性語辞書獲得手段と、
各ユーザについて、前記記事集合記憶手段の該ユーザが書いた自己紹介記事から、前記属性語辞書記憶手段を参照して、該ユーザのユーザ属性を表す属性語を獲得し、ユーザ属性語集合記憶手段に格納するユーザ属性語集合付与手段と、
各ユーザについて、前記ユーザ属性語集合記憶手段に格納されている該ユーザの自己紹介記事から獲得したユーザ属性語の数が所定の数に満たないときに、前記ユーザ関係グラフ記憶手段を参照して、各属性語を、該ユーザからユーザ関係グラフ上の距離の近い他ユーザのユーザ属性語である場合ほど重くなる重みをつけて算出し、重み付き出現頻度の高いものから順に該ユーザのユーザ属性を表すユーザ属性語として獲得し、該ユーザ属性語集合記憶手段に格納する属性語追加付与手段と、を有する。
各SNS上で個別に定義されている、ユーザ同士の承認によって張られる、任意の2ユーザの間の結びつき、もしくは、SNS上におけるユーザ間のメッセージの送信などのコミュニケーションを行ったユーザ同士に張られる結びつきを指す。ユーザ同士の人間関係は、2人のユーザをノードとした時の、両ノードに張られた無向なエッジとして表示することができる。
全ユーザをノード、全ユーザペア間のエッジにより構成されるグラフ。
排他関係は、両方の属性語を、同一ユーザに属性語として付与すると、意味的に矛盾する、もしくは、何らかの理由により実際の世界において一人のユーザが両方の属性語が表すユーザ属性を有することが極めて難しい、属性語のペア、の関係とする。例えば、『アイドル好き』と『アイドル嫌い』が排他関係となる。
属性語のコミュニティとは、当該属性語を有するユーザの集合であり、「属性語のコミュニティの近さ」とは、一方の属性語を有するユーザ集合と人間関係のあるユーザ集合の中に、もう一方の属性語を有するユーザが含まれている度合いの高さとする。
図1は、本発明の第1の実施の形態におけるユーザ属性推定装置の構成図である。
記事集合テーブルT1の例を図2に示す。
属性語辞書テーブルT2の例を図3に示す。
ユーザ関係グラフテーブルT3の例を図4に示す。ユーザ関係グラフとは、ユーザ同士の承認によって張られる、任意の2ユーザ間の結びつきを指す。ユーザ同士の人間関係は、2人のユーザをノードとしたときの、両ノードに張られた無向なエッジとして表現することができる。全ユーザをノード、全ユーザペア間のエッジにより構成されたグラフを「ユーザ関係グラフ」と呼ぶこととする。ユーザ関係グラフT3は、各ユーザのユーザIDと、該ユーザと関係のあるユーザのユーザIDが関係距離毎に格納されるテーブルである。なお、関係距離は、ユーザ関係グラフにおけるノード間の最短距離を意味する値である。関係距離が短いユーザ同士ほどユーザ同士のユーザ属性の関連度が高いと本発明では考え、後の属性語の追加付与においてその情報を用いる。
属性語排他関係テーブルT4の例を図5に示す。
ユーザ属性語集合テーブルT5の例を図6に示す。
なお、その際以降の処理で必要となるパラメータも同時に入力されるものとし、入力されたパラメータはメモリに記憶され、以降の処理で用いられるものとする。なお、パラメータの一覧を図8に示す。入力されるパラメータとしては、属性語辞書に登録する造成後の数(α1)、対数尤度費計算のためのスムージングパラメータ(α2)、ユーザ間共起度算出のためのスムージングパラメータ(β1)、ユーザ内共起度算出のためのスムージングパラメータ(β2)、排他関係ペアを抽出するための閾値(β3)、関係あるユーザから属性語を推定する際にいくつの関係距離のユーザまで考慮するかを定めるパラメータ(γ1)、関係があるユーザから属性語を推定する際の各関係距離の重みを決めるためのパラメータ(γ2)、各ユーザに属性語を追加付与する際の上限数(γ3)等である。
ステップ10) 属性語辞書獲得部10は、日記記事集合と自己紹介記事集合から、各名詞の両者における出現頻度分布を用いて、属性語として適切な名詞か否かを判定し、適切な名詞をT2に格納する。
a=(自己紹介記事集合におけるmの出現回数);
b=(自己紹介記事集合におけるm以外の名詞の出現回数の総和);
c=(日記記事集合におけるmの出現回数);
d=(日記記事集合におけるm以外の名詞の出現回数の総和) を入力とする;
と場合分けした対数尤度比S(a,b,c,d)により以下の式により算出する。
当該処理は、属性語間の排他関係を獲得するための処理である。
(以上S321のループ終了)
(以上S32のループ終了)
ステップ33) Hexの各キーとなる属性語毎に値の配列に含まれる属性語集合とのペアを全て属性語波板関係テーブルT4に格納する。
ユーザ属性語集合追加付与部40の処理の目的は、各ユーザに対して関係がある他ユーザの属性語を利用し、各ユーザに属性語集合を追加付与することである。但し、その際属性語の排他関係を考慮する。
ステップ421) 該ユーザにとっての各属性語の適切さを定めるために次の処理を行う。
・Zu=Zu + {w};
・ユーザ属性語集合テーブルT5の該ユーザuiの行にwを追加 ;
ステップ425)配列Azの0番目の要素を配列Azから削除して処理S422に進む。
本実施の形態では、第1の実施の形態における属性語排他関係獲得部30における図10に示すステップ3212の処理を含まず、ステップ3213の計算式の代わりに以下の式7を用いる。
本実施の形態では、第1の実施の形態における属性語排他関係獲得部30における図30のステップ30に含まれる全ての処理を含まず、図13のステップ41、ステップ424の処理を下記処理に変えることが可能である。当該処理は、請求項1のみに対応した例に相当する。
ユーザ属性語集合テーブルT5から全てのユーザのユーザID(Uidとする)と各ユーザの格納済の属性語(ユーザuの属性語の集合をZuとする)を取得する。また、属性語排他関係テーブルT4から全ての属性語の排他関係(Wex)を取得する。
次の2処理を行う。
・Zu=Zu + {w}
・ユーザ属性語集合テーブルT5の該ユーザuiの行にwを追加
上記のように、記事集合テーブルT1の日記記事と自己紹介記事について、全体を通してなるべく自己紹介記事固有の名詞を属性語とし、属性語の中でユーザ個別の属性語を記事に利用されているという条件で絞り込み、親密なユーザ同士の属性語の出現状況(共起関係)から排他的な関係の属性語を決定する。このとき、ユーザの属性語が少ない場合には、ユーザとの関係で適切な属性語を式6により求め、補充する。
20 ユーザ属性語集合付与部
30 属性語排他関係獲得部
40 ユーザ属性語集合追加付与部
50 入力用外部装置
T1 記事集合テーブル
T2 属性語辞書テーブル
T3 ユーザ関係グラフテーブル
T4 属性語排他関係テーブル
T5 ユーザ属性語集合テーブル
Claims (7)
- ユーザが自己紹介を含む情報発信を行い、ユーザ同士の人間関係が定義・構築されているソーシャルネットワークサービス(SNS)上の各ユーザに対して、該ユーザのデモグラフィックおよびサイコグラフィックを表すユーザ属性を表す属性語を1つ以上推定するユーザ属性推定装置であって、
自己紹介記事及び日記記事を格納した記事集合記憶手段と、
ユーザと関係のあるユーザを関係距離として表現したユーザ関係グラフを格納したユーザ関係グラフ記憶手段と、
前記記事集合記憶手段の自己紹介記事の集合と日記記事の集合とから、該日記記事の集合に比べて自己紹介記事の集合に出現する度合いの高さを用いて、一般的にユーザ属性を表す語(ユーザ属性語)集合を取得し、属性語辞書記憶手段に格納する属性語辞書獲得手段と、
各ユーザについて、前記記事集合記憶手段の該ユーザが書いた自己紹介記事から、前記属性語辞書記憶手段を参照して、該ユーザのユーザ属性を表す属性語を獲得し、ユーザ属性語集合記憶手段に格納するユーザ属性語集合付与手段と、
各ユーザについて、前記ユーザ属性語集合記憶手段に格納されている該ユーザの自己紹介記事から獲得したユーザ属性語の数が所定の数に満たないときに、前記ユーザ関係グラフ記憶手段を参照して、各属性語を、該ユーザからユーザ関係グラフ上の距離の近い他ユーザのユーザ属性語である場合ほど重くなる重みをつけて算出し、重み付き出現頻度の高いものから順に該ユーザのユーザ属性を表すユーザ属性語として獲得し、該ユーザ属性語集合記憶手段に格納する属性語追加付与手段と、
を有することを特徴とするユーザ属性推定装置。 - 前記ユーザ属性語集合記憶手段の各属性語ペアについて、SNSにおける各属性語間の同一ユーザにおける共起頻度が、該各ユーザ属性語の出現頻度から算出した期待値より低いほど、排他関係として適切であると評価し、両方の属性語を同一ユーザに属性語として付与して属性語排他関係記憶手段に格納し、該ユーザに既に付与されている属性語の集合に、該属性語との排他関係にある属性語が存在する際には付与しない属性語排他関係獲得手段を更に有する請求項1記載のユーザ属性推定装置。
- 前記属性語排他関係獲得手段は、
各属性語ペアについて、SNSにおける各属性語間の同一ユーザにおける共起頻度が、該各ユーザ属性語の出現頻度から算出した期待値より低いほど、または、前記ユーザ関係グラフ記憶手段を参照して、属性語を有するユーザの集合である属性語のコミュニティが近いほど、排他関係として適切であると評価する手段を含む
請求項2記載のユーザ属性推定装置。 - ユーザが自己紹介を含む情報発信を行い、ユーザ同士の人間関係が定義・構築されているソーシャルネットワークサービス(SNS)上の各ユーザに対して、該ユーザのデモグラフィックおよびサイコグラフィックを表すユーザ属性を表す属性語を1つ以上推定するユーザ属性推定方法であって、
属性語辞書獲得手段が、記事集合記憶手段に格納されたSNS上の自己紹介記事の集合と日記記事の集合とから、該日記記事の集合に比べて自己紹介記事の集合に出現する度合いの高さを用いて、一般的にユーザ属性を表す語(ユーザ属性語)集合を取得し、属性語辞書記憶手段に格納する属性語辞書獲得ステップと、
ユーザ属性集合付与手段が、各ユーザについて、前記記事集合記憶手段の該ユーザが書いた自己紹介記事から、前記属性語辞書記憶手段を参照して、該ユーザのユーザ属性を表す属性語を獲得し、ユーザ属性語集合記憶手段に格納するユーザ属性語集合付与ステップと、
属性語追加付与手段が、各ユーザについて、前記ユーザ属性語集合記憶手段に格納されている該ユーザの自己紹介記事から獲得したユーザ属性語の数が所定の数に満たないときに、ユーザと関係のあるユーザを関係距離として表現したユーザ関係グラフを格納したユーザ関係グラフ記憶手段を参照して、各属性語を、該ユーザからユーザ関係グラフ上の距離の近い他ユーザのユーザ属性語である場合ほど重くなる重みをつけて算出し、重み付き出現頻度の高いものから順に該ユーザのユーザ属性を表すユーザ属性語として獲得し、ユーザ属性語集合記憶手段に格納する属性語追加付与ステップと、
を行うことを特徴とするユーザ属性推定方法。 - 属性語排他関係取得手段が、前記ユーザ属性語集合記憶手段の各属性語ペアについて、SNSにおける各属性語間の同一ユーザにおける共起頻度が、該各ユーザ属性語の出現頻度から算出した期待値より低いほど、排他関係として適切であると評価し、両方の属性語を同一ユーザに属性語として付与して属性語排他関係記憶手段に格納し、該ユーザに既に付与されている属性語の集合に、該属性語との排他関係にある属性語が存在する際には付与しない属性語排他関係獲得ステップを、
更に行う請求項4記載のユーザ属性推定方法。 - 前記属性語排他関係獲得ステップにおいて、
各属性語ペアについて、SNSにおける各属性語間の同一ユーザにおける共起頻度が、該各ユーザ属性語の出現頻度から算出した期待値より低いほど、または、前記ユーザ関係グラフ記憶手段を参照して、属性語を有するユーザの集合である属性語のコミュニティが近いほど、排他関係として適切であると評価する
請求項5記載のユーザ属性推定方法。 - コンピュータを、
請求項1乃至3のいずれか1項に記載のユーザ属性推定装置の各手段として機能させるためのユーザ属性推定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012089671A JP5756052B2 (ja) | 2012-04-10 | 2012-04-10 | ユーザ属性推定装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012089671A JP5756052B2 (ja) | 2012-04-10 | 2012-04-10 | ユーザ属性推定装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013218579A JP2013218579A (ja) | 2013-10-24 |
JP5756052B2 true JP5756052B2 (ja) | 2015-07-29 |
Family
ID=49590584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012089671A Expired - Fee Related JP5756052B2 (ja) | 2012-04-10 | 2012-04-10 | ユーザ属性推定装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5756052B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6375706B2 (ja) | 2014-06-11 | 2018-08-22 | 富士ゼロックス株式会社 | 属性推定プログラム及び情報処理装置 |
KR101768610B1 (ko) * | 2014-11-18 | 2017-08-17 | 폭스트론(주) | 소셜 네트워크 서비스 기반의 자전적 콘텐츠 전문 플랫폼 서비스 제공 시스템 |
JP6436440B2 (ja) | 2014-12-19 | 2018-12-12 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 生成装置、生成方法、及び、プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4625365B2 (ja) * | 2005-05-02 | 2011-02-02 | 日本放送協会 | 推薦順位選定装置及び推薦順位選定プログラム |
JP5466119B2 (ja) * | 2010-09-21 | 2014-04-09 | Kddi株式会社 | 同一の共有コンテンツに興味を持つ視聴者の属性の観点を推定する最適観点推定プログラム、装置及び方法 |
-
2012
- 2012-04-10 JP JP2012089671A patent/JP5756052B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013218579A (ja) | 2013-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11227118B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN106874435B (zh) | 用户画像构建方法和装置 | |
CN106156083B (zh) | 一种领域知识处理方法及装置 | |
KR20190038751A (ko) | 사용자 키워드 추출장치, 방법 및 컴퓨터 판독 가능한 저장매체 | |
CN111126060A (zh) | 一种主题词的提取方法、装置、设备及存储介质 | |
US10250550B2 (en) | Social message monitoring method and apparatus | |
US11036818B2 (en) | Method and system for detecting graph based event in social networks | |
US20190311219A1 (en) | Quasi-clique prototype-based hybrid clustering | |
US9740695B2 (en) | Method for enriching a multimedia content, and corresponding device | |
JP5756052B2 (ja) | ユーザ属性推定装置及び方法及びプログラム | |
CN107784087B (zh) | 一种热词确定方法、装置及设备 | |
Liang | Dynamic user profiling for streams of short texts | |
CN109582967B (zh) | 舆情摘要提取方法、装置、设备及计算机可读存储介质 | |
CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
Aliandu | Twitter Used by Indonesian President: An Sentiment Analysis of Timeline | |
Geiß et al. | Beyond friendships and followers: The Wikipedia social network | |
US10990883B2 (en) | Systems and methods for estimating and/or improving user engagement in social media content | |
CN107590163B (zh) | 文本特征选择的方法、装置和系统 | |
Park et al. | Understanding the network fundamentals of news sources associated with a specific topic | |
CN110442863B (zh) | 一种短文本语义相似度计算方法及其系统、介质 | |
Wang et al. | Sparse multi-task learning for detecting influential nodes in an implicit diffusion network | |
KR102078541B1 (ko) | 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체 | |
JP7168334B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN111310066A (zh) | 一种基于主题模型和关联规则算法的好友推荐方法及系统 | |
CN110781309A (zh) | 一种基于模式匹配的实体并列关系相似度计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140701 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150526 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150528 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5756052 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |