JP5882187B2 - User attribute estimator construction device, method, user attribute estimation device, and program - Google Patents

User attribute estimator construction device, method, user attribute estimation device, and program Download PDF

Info

Publication number
JP5882187B2
JP5882187B2 JP2012271450A JP2012271450A JP5882187B2 JP 5882187 B2 JP5882187 B2 JP 5882187B2 JP 2012271450 A JP2012271450 A JP 2012271450A JP 2012271450 A JP2012271450 A JP 2012271450A JP 5882187 B2 JP5882187 B2 JP 5882187B2
Authority
JP
Japan
Prior art keywords
user
user attribute
microblog
document
estimator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012271450A
Other languages
Japanese (ja)
Other versions
JP2014115948A (en
Inventor
伊藤 淳
淳 伊藤
京介 西田
京介 西田
高秀 星出
高秀 星出
浩之 戸田
浩之 戸田
内山 匡
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012271450A priority Critical patent/JP5882187B2/en
Publication of JP2014115948A publication Critical patent/JP2014115948A/en
Application granted granted Critical
Publication of JP5882187B2 publication Critical patent/JP5882187B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ユーザ属性推定器構築装置、方法、ユーザ属性推定装置、及びプログラムに関し、特に、ユーザのユーザ属性情報を推定するためのユーザ属性推定器構築装置、方法、ユーザ属性推定装置、及びプログラムに関する。   The present invention relates to a user attribute estimator construction device, method, user attribute estimation device, and program, and in particular, a user attribute estimator construction device, method, user attribute estimation device, and program for estimating user attribute information of a user. About.

マイクロブログ(ミニブログとも呼ばれる)は短い文書によってユーザ自身の近況を投稿したり、他者とコミュニケーションを行ったりするメディアである。長い文書を書く必要がなく、すぐに投稿が行えるため、リアルタイム性に優れている。また、スマートフォンの普及にともない、いつでもどこでも投稿されるようになってきたため、今まさに身の回りで起こっている生の情報が現れやすいという特徴も持っている。   A microblog (also called a miniblog) is a medium for posting the user's own status and communicating with others using short documents. There is no need to write a long document and it is possible to post immediately. In addition, as smartphones have become popular, they are posted anytime and anywhere, so it is easy to see the live information that is happening around you.

リアルタイムに生の情報が得られるため、マイクロブログ上で交わされる自社や自社製品についての投稿を分析してマーケティングに利用したいという企業ニーズが現れるようになった。マーケティングに利用するためには、投稿内容はもちろんのこと、マイクロブログユーザがどのような人物であるのかを正しく分析する必要がある。   Because live information can be obtained in real time, there is a need for companies to analyze their posts about their company and their products on microblogs and use them for marketing. In order to use it for marketing, it is necessary to correctly analyze what kind of person the microblogging user is, not to mention the contents of posting.

従来の技術では、非特許文献1のように、まず推定器の構築に必要となる学習データを人間の観察によって用意する必要がある。例えば、性別というユーザ属性の推定器を構築したければ、人間の観察によって男性だと思われるマイクロブログユーザと女性だと思われるマイクロブログユーザをそれぞれ一定数集める必要がある。この作業のことをアノテーションと呼ぶ。アノテーションは非常に手間のかかる作業であるため自動化が求められている。   In the conventional technique, as in Non-Patent Document 1, it is necessary to prepare learning data necessary for constructing an estimator by human observation. For example, if a user attribute estimator called gender is to be constructed, it is necessary to collect a certain number of microblog users who are considered to be male and microblog users who are considered to be female by human observation. This operation is called annotation. Annotation is a very time-consuming task, so automation is required.

池田和史,服部元,松本一則,小野智弘,東野輝夫,「マーケット分析のためのtwitter 投稿者プロフィール推定手法」,マルチメディア、分散、協調とモバイル(DICOM2011)シンポジウム,平成23年7月,p.1308-1315Kazufumi Ikeda, Hajime Hattori, Kazunori Matsumoto, Tomohiro Ono, Teruo Higashino, “Twitter profile estimation method for market analysis”, Multimedia, Distributed, Collaboration and Mobile (DICOM2011) Symposium, July 2011, p .1308-1315

しかし、プロフィールが自由記述形式の文書である場合、特定のユーザ属性が記述されるか否かはマイクロブログユーザ本人次第である。さらに、たとえユーザ属性についての記述がされていたとしても、それを正しく抽出することは難しい。例えば、男性のマイクロブログユーザを発見するために「男性」を文字列として含むようなプロフィール文書を探すと、「男性声優」などをプロフィール文書に含むようなマイクロブログユーザも抽出することになる。このような除外すべき事例はいくつもあり、ルールベースで除外するにも手間がかかる。   However, if the profile is a free-form document, it is up to the microblog user whether or not specific user attributes are described. Furthermore, even if the user attribute is described, it is difficult to extract it correctly. For example, when searching for a profile document that includes “male” as a character string in order to find a male microblogging user, a microblogging user that includes “male voice actor” or the like in the profile document is also extracted. There are many cases that should be excluded, and it takes time to exclude them on a rule basis.

従って、上述のように、アノテーションを人間の観察や複雑なルールの設定によらず自動的に行う有効な方法は存在しない。また、マイクロブログは短い文書で投稿が行われるため、投稿内容だけからユーザ属性を推定すると、ユーザの投稿状況によっては推定に必要となる情報が足りずに推定精度が落ちるという問題もある。   Therefore, as described above, there is no effective method for automatically performing annotation regardless of human observation or complicated rule setting. In addition, since microblogs are posted with short documents, if the user attributes are estimated from only the posted content, there is a problem that the estimation accuracy is lowered due to insufficient information necessary for estimation depending on the user's posting situation.

本発明は、上記問題を解決するためになされたもので、マイクロブログのユーザのユーザ属性情報を精度よく推定するためのユーザ属性推定器を構築することができるユーザ属性推定器構築装置、方法、及びプログラムを提供することを目的とする。
また、マイクロブログのユーザのユーザ属性情報を精度よく推定することができるユーザ属性推定装置及びプログラムを提供することを目的とする。
The present invention has been made to solve the above-described problem, and a user attribute estimator construction device, method, and the like that can construct a user attribute estimator for accurately estimating user attribute information of a microblog user. And to provide a program.
Moreover, it aims at providing the user attribute estimation apparatus and program which can estimate the user attribute information of the user of a microblog accurately.

上記の目的を達成するために本発明に係るユーザ属性推定器構築装置は、マイクロブログサイトの複数のユーザの各々について、前記マイクロブログサイトから得られる前記ユーザによって作成された複数のマイクロブログ文書からなるマイクロブログ文書集合から、前記ユーザが利用している前記マイクロブログサイトとは異なる外部サイトのURLを抽出する外部サイト抽出手段と、前記外部サイト抽出手段によって前記URLが抽出されたユーザの各々について、前記ユーザについて抽出された前記URLの外部サイトから、前記ユーザのプロフィール情報を収集するプロフィール収集手段と、前記プロフィール収集手段によって前記プロフィール情報が収集されたユーザの各々について、前記ユーザのプロフィール情報から、前記ユーザのプロフィールに関する属性を示すユーザ属性情報を抽出するユーザ属性抽出手段と、前記ユーザ属性抽出手段によって前記ユーザ属性情報が抽出されたユーザの各々に対する、前記ユーザのマイクロブログ文書集合から抽出される特徴量と、前記ユーザ属性抽出手段によって抽出された前記ユーザのユーザ属性情報とに基づいて、前記マイクロブログ文書集合を作成したユーザのユーザ属性情報を推定するためのユーザ属性推定器を構築するユーザ属性推定器構築手段と、を含んで構成されている。   In order to achieve the above object, a user attribute estimator construction device according to the present invention provides, for each of a plurality of users of a microblog site, a plurality of microblog documents created by the user obtained from the microblog site. An external site extraction unit that extracts a URL of an external site different from the microblog site used by the user from a set of microblog documents, and a user from which the URL is extracted by the external site extraction unit The profile collection means for collecting the user's profile information from the external site of the URL extracted for the user, and for each of the users whose profile information has been collected by the profile collection means, from the user's profile information , Said Yu User attribute extraction means for extracting user attribute information indicating attributes relating to the profile, and features extracted from the user's microblog document set for each of the users from which the user attribute information has been extracted by the user attribute extraction means User attributes for constructing a user attribute estimator for estimating the user attribute information of the user who created the microblog document set based on the amount and the user attribute information of the user extracted by the user attribute extraction means Estimator construction means.

本発明に係るユーザ属性推定器構築方法は、外部サイト抽出手段、プロフィール収集手段、ユーザ属性抽出手段、及びユーザ属性推定器構築手段を含むユーザ属性推定器構築装置におけるユーザ属性推定器構築方法であって、前記外部サイト抽出手段によって、マイクロブログサイトの複数のユーザの各々について、前記マイクロブログサイトから得られる前記ユーザによって作成された複数のマイクロブログ文書からなるマイクロブログ文書集合から、前記ユーザが利用している前記マイクロブログサイトとは異なる外部サイトのURLを抽出するステップと、前記プロフィール収集手段によって、前記外部サイト抽出手段によって前記URLが抽出されたユーザの各々について、前記ユーザについて抽出された前記URLの外部サイトから、前記ユーザのプロフィール情報を収集するステップと、前記ユーザ属性抽出手段によって、前記プロフィール収集手段によって前記プロフィール情報が収集されたユーザの各々について、前記ユーザのプロフィール情報から、前記ユーザのプロフィールに関する属性を示すユーザ属性情報を抽出するステップと、前記ユーザ属性推定器構築手段によって、前記ユーザ属性抽出手段によって前記ユーザ属性情報が抽出されたユーザの各々に対する、前記ユーザのマイクロブログ文書集合から抽出される特徴量と、前記ユーザ属性抽出手段によって抽出された前記ユーザのユーザ属性情報とに基づいて、前記マイクロブログ文書集合を作成したユーザのユーザ属性情報を推定するためのユーザ属性推定器を構築するステップとを含む。   A user attribute estimator construction method according to the present invention is a user attribute estimator construction method in a user attribute estimator construction device including external site extraction means, profile collection means, user attribute extraction means, and user attribute estimator construction means. The external site extraction means uses the user from a microblog document set composed of a plurality of microblog documents created by the user obtained from the microblog site for each of a plurality of users of the microblog site. Extracting a URL of an external site different from the microblogging site, and for each of the users from which the URL has been extracted by the external site extraction means by the profile collection means, URL external site Collecting the profile information of the user, and, for each of the users whose profile information has been collected by the profile collection means by the user attribute extraction means, from the user profile information, attributes related to the user profile. Extracting the user attribute information shown, and the user attribute estimator construction unit extracting the user attribute information from the user's microblog document set for each of the users whose user attribute information has been extracted by the user attribute extraction unit Constructing a user attribute estimator for estimating the user attribute information of the user who created the microblog document set based on the amount and the user attribute information of the user extracted by the user attribute extraction means; including.

本発明に係るユーザ属性推定器構築装置及びユーザ属性推定器構築方法によれば、外部サイト抽出手段によって、マイクロブログサイトの複数のユーザの各々について、マイクロブログサイトから得られるユーザによって作成された複数のマイクロブログ文書からなるマイクロブログ文書集合から、ユーザが利用しているマイクロブログサイトとは異なる外部サイトのURLを抽出する。   According to the user attribute estimator construction device and the user attribute estimator construction method according to the present invention, a plurality of users created from the microblog site by the external site extraction unit for each of the plurality of users of the microblog site. The URL of the external site different from the microblog site used by the user is extracted from the microblog document set including the microblog documents.

そして、プロフィール収集手段によって、外部サイト抽出手段によってURLが抽出されたユーザの各々について、ユーザについて抽出されたURLの外部サイトから、ユーザのプロフィール情報を収集する。   Then, for each of the users whose URLs are extracted by the external site extracting means, the profile information of the users is collected from the external site of the URL extracted for the user by the profile collecting means.

ユーザ属性抽出手段によって、プロフィール収集手段によってプロフィール情報が収集されたユーザの各々について、ユーザのプロフィール情報から、ユーザのプロフィールに関する属性を示すユーザ属性情報を抽出する。   For each user whose profile information has been collected by the profile collection means, user attribute information indicating attributes relating to the user's profile is extracted by the user attribute extraction means.

そして、ユーザ属性推定器構築手段によって、ユーザ属性抽出手段によってユーザ属性情報が抽出されたユーザの各々に対する、ユーザのマイクロブログ文書集合から抽出される特徴量と、ユーザ属性抽出手段によって抽出されたユーザのユーザ属性情報とに基づいて、マイクロブログ文書集合を作成したユーザのユーザ属性情報を推定するためのユーザ属性推定器を構築する。   Then, for each user whose user attribute information has been extracted by the user attribute extraction unit by the user attribute estimator construction unit, the feature amount extracted from the user's microblog document set, and the user extracted by the user attribute extraction unit The user attribute estimator for estimating the user attribute information of the user who created the microblog document set is constructed based on the user attribute information.

このように、ユーザによって作成されたマイクロブログ文書集合から、当該ユーザが利用している外部サイトのURLを抽出し、当該URLの外部サイトから、ユーザのプロフィール文書を収集してユーザ属性情報を抽出し、マイクロブログ文書集合から抽出される特徴量と、ユーザ属性情報とに基づいて、ユーザ属性推定器を構築することにより、マイクロブログのユーザのユーザ属性情報を精度よく推定するためのユーザ属性推定器を構築することができる。   In this way, the URL of the external site used by the user is extracted from the set of microblog documents created by the user, and the user attribute information is extracted by collecting the user's profile document from the external site of the URL. User attribute estimation for accurately estimating user attribute information of microblog users by constructing a user attribute estimator based on the feature amount extracted from the microblog document set and user attribute information A vessel can be constructed.

また、前記外部サイトは、ソーシャルネットワーキングサービスサイト、ブログサイト、ファイル共有サイト、及び電子掲示板サイトの少なくとも1つであるようにすることができる。   The external site may be at least one of a social networking service site, a blog site, a file sharing site, and an electronic bulletin board site.

また、前記外部サイト抽出手段は、前記複数のユーザの各々について、前記ユーザによって作成された前記マイクロブログ文書集合から、前記ユーザが利用している前記外部サイトのURLを抽出すると共に、前記抽出されたURLに含まれる、前記外部サイトにおける前記ユーザのIDを抽出し、前記プロフィール収集手段は、前記外部サイト抽出手段によって前記URL及び前記IDが抽出されたユーザの各々について、前記ユーザについて抽出された前記URLの外部サイトから、前記抽出された前記ユーザのIDを用いて、前記ユーザのプロフィール情報を収集するようにすることができる。   In addition, the external site extraction unit extracts, for each of the plurality of users, the URL of the external site used by the user from the microblog document set created by the user and extracts the URL. The user ID in the external site included in the URL is extracted, and the profile collection unit extracts the user for each of the users from which the URL and the ID are extracted by the external site extraction unit. The user's profile information may be collected from the external site of the URL using the extracted user ID.

また、前記ユーザ属性推定器構築手段は、前記ユーザ属性抽出手段によって前記ユーザ属性情報が抽出されたユーザの各々に対する、前記ユーザのマイクロブログ文書集合のうちのプロフィール文書から抽出される特徴量と、前記ユーザ属性抽出手段によって抽出された前記ユーザのユーザ属性情報とに基づいて構築される前記ユーザ属性推定器、及び
前記ユーザ属性抽出手段によって前記ユーザ属性情報が抽出されたユーザの各々に対する、前記ユーザのマイクロブログ文書集合のうちのマイクロブログ投稿文書から抽出される特徴量と、前記ユーザ属性抽出手段によって抽出された前記ユーザのユーザ属性情報とに基づいて構築される前記ユーザ属性推定器の少なくとも一方を構築するようにすることができる。
Further, the user attribute estimator construction means, for each of the users for which the user attribute information has been extracted by the user attribute extraction means, a feature amount extracted from a profile document in the user's microblog document set, The user attribute estimator constructed based on the user attribute information of the user extracted by the user attribute extraction means, and the user for each of the users from which the user attribute information has been extracted by the user attribute extraction means At least one of the user attribute estimators constructed based on the feature amount extracted from the microblog post document in the set of microblog documents and the user attribute information of the user extracted by the user attribute extraction means Can be built.

本発明に係るユーザ属性推定装置は、前記マイクロブログサイトから得られる、推定対象のユーザによって作成された前記マイクロブログ文書集合を収集するマイクロブログ文書収集手段と、請求項1〜請求項3の何れか1項記載のユーザ属性推定器構築装置によって構築された複数のユーザ属性推定器の各々に対して、前記マイクロブログ文書収集手段によって収集された前記マイクロブログ文書集合から抽出される特徴量と、前記ユーザ属性推定器とに基づいて、前記推定対象ユーザの前記ユーザ属性情報を推定すると共に、前記複数のユーザ属性推定器の各々に対して、前記ユーザ属性推定器を構築するために用いられた特徴量のうちの前記マイクロブログ文書集合から抽出された特徴量の種類数に応じて求められた重みに基づいて、前記複数のユーザ属性推定器の各々に対して推定された前記ユーザ属性情報を統合して、前記推定対象のユーザの前記ユーザ属性情報を推定する推定手段とを含んで構成されている。   The user attribute estimation device according to the present invention includes a microblog document collection unit that collects the set of microblog documents created by the estimation target user obtained from the microblog site, and any one of claims 1 to 3. For each of a plurality of user attribute estimators constructed by the user attribute estimator construction device according to claim 1, a feature amount extracted from the set of microblog documents collected by the microblog document collection unit; Based on the user attribute estimator, the user attribute information of the estimation target user is estimated, and used to construct the user attribute estimator for each of the plurality of user attribute estimators. Based on the weights determined according to the number of types of feature quantities extracted from the microblog document set of feature quantities, Integrating the user attribute information estimated for each of the serial plurality of user attributes estimator is configured to include a estimating means for estimating the user attribute information of the estimation target user.

また、本発明に係るユーザ属性推定装置は、前記マイクロブログサイトから得られる、推定対象のユーザによって作成された前記マイクロブログ文書集合を収集するマイクロブログ文書収集手段と、前記マイクロブログ文書収集手段によって収集された前記マイクロブログ文書集合のうちのプロフィール文書から抽出される特徴量と、請求項4記載のユーザ属性推定器構築装置によってプロフィール文書を用いて構築された前記ユーザ属性推定器とに基づいて、前記推定対象ユーザの前記ユーザ属性情報を推定すると共に、前記マイクロブログ文書収集手段によって収集された前記マイクロブログ文書集合のうちのマイクロブログ投稿文書から抽出される特徴量と、前記ユーザ属性推定器構築装置によってマイクロブログ投稿文書を用いて構築された前記ユーザ属性推定器とに基づいて、前記推定対象ユーザの前記ユーザ属性情報を推定し、前記ユーザ属性推定器の各々に対して、前記ユーザ属性推定器を構築するために用いられた特徴量のうちの前記プロフィール文書又はマイクロブログ投稿文書から抽出された特徴量の種類数に応じて求められた重みに基づいて、前記ユーザ属性推定器の各々に対して推定された前記ユーザ属性情報を統合して、前記推定対象のユーザの前記ユーザ属性情報を推定する推定手段とを含んで構成されている。   Further, the user attribute estimation device according to the present invention includes a microblog document collection unit that collects the microblog document set created by the estimation target user obtained from the microblog site, and the microblog document collection unit. The feature amount extracted from the profile document of the collected microblog document set, and the user attribute estimator constructed by using the profile document by the user attribute estimator construction device according to claim 4. , Estimating the user attribute information of the estimation target user, the feature amount extracted from the microblog post document in the set of microblog documents collected by the microblog document collection means, and the user attribute estimator Using the microblog post document by the construction device The user attribute estimator is used to estimate the user attribute information of the estimation target user and to construct the user attribute estimator for each of the user attribute estimators. The user attribute information estimated for each of the user attribute estimators based on the weights determined according to the number of types of feature quantities extracted from the profile document or microblog post document of the quantity And estimation means for estimating the user attribute information of the estimation target user.

本発明に係るユーザ属性推定装置によれば、マイクロブログ文書収集手段によって、マイクロブログサイトから得られる、推定対象のユーザによって作成されたマイクロブログ文書集合を収集する。   According to the user attribute estimation apparatus according to the present invention, the microblog document collection unit collects the microblog document set created by the estimation target user and obtained from the microblog site.

そして、上述のユーザ属性推定器構築装置によって構築された複数のユーザ属性推定器の各々に対して、マイクロブログ文書収集手段によって収集されたマイクロブログ文書集合から抽出される特徴量と、ユーザ属性推定器とに基づいて、推定対象ユーザのユーザ属性情報を推定すると共に、複数のユーザ属性推定器の各々に対して、ユーザ属性推定器を構築するために用いられた特徴量のうちのマイクロブログ文書集合から抽出された特徴量の種類数に応じて求められた重みに基づいて、複数のユーザ属性推定器の各々に対して推定されたユーザ属性情報を統合して、推定対象のユーザのユーザ属性情報を推定する。   Then, for each of the plurality of user attribute estimators constructed by the above-described user attribute estimator construction device, the feature amount extracted from the microblog document collection collected by the microblog document collection means, and the user attribute estimation And the user attribute information of the estimation target user based on the device, and for each of the plurality of user attribute estimators, the microblog document among the feature values used to construct the user attribute estimator User attribute information estimated for each of a plurality of user attribute estimators is integrated based on weights determined according to the number of types of feature values extracted from the set, and the user attributes of the user to be estimated Estimate information.

このように、推定対象のユーザによって作成されたマイクロブログ文書集合を収集し、当該マイクロブログ文書集合から抽出される特徴量と、予め構築された複数のユーザ属性推定器とに基づいて、ユーザ属性推定器毎に、ユーザ属性情報を推定すると共に、ユーザ属性推定器を構築するために用いられた特徴量の種類数に応じて予め求められた重みに基づいて、推定された前記ユーザ属性情報を統合して、推定対象のユーザのユーザ属性情報を推定することにより、マイクロブログのユーザのユーザ属性を精度よく推定することができる。   In this way, the user attribute is collected based on the feature amount extracted from the microblog document set collected by the user to be estimated and extracted from the microblog document set and a plurality of user attribute estimators built in advance. For each estimator, the user attribute information is estimated, and the estimated user attribute information is calculated based on weights obtained in advance according to the number of types of feature values used for constructing the user attribute estimator. By integrating and estimating the user attribute information of the estimation target user, it is possible to accurately estimate the user attribute of the user of the microblog.

本発明に係るプログラムは、コンピュータを、本発明に係るユーザ属性推定器構築装置、あるいは本発明に係るユーザ属性推定装置の各手段として機能させるためのプログラムである。   The program according to the present invention is a program for causing a computer to function as each unit of the user attribute estimator construction device according to the present invention or the user attribute estimation device according to the present invention.

以上説明したように、本発明のユーザ属性推定器構築装置、ユーザ属性推定器構築方法、及びプログラムによれば、ユーザによって作成されたマイクロブログ文書集合から、当該ユーザが利用している外部サイトのURLを抽出し、当該URLの外部サイトから、ユーザのプロフィール文書を収集してユーザ属性情報を抽出し、マイクロブログ文書集合から抽出される特徴量と、ユーザ属性情報とに基づいて、ユーザ属性推定器を構築することにより、マイクロブログのユーザのユーザ属性情報を精度よく推定するためのユーザ属性推定器を構築することができる、という効果が得られる。   As described above, according to the user attribute estimator construction device, the user attribute estimator construction method, and the program of the present invention, from the set of microblog documents created by the user, the external site that the user uses Extract URL, collect user profile document from external site of the URL, extract user attribute information, and estimate user attribute based on feature quantity extracted from microblog document set and user attribute information By constructing a device, it is possible to construct a user attribute estimator for accurately estimating user attribute information of a microblog user.

また、本発明のユーザ属性推定装置及びプログラムによれば、推定対象のユーザによって作成されたマイクロブログ文書集合を収集し、当該マイクロブログ文書集合から抽出される特徴量と、予め構築された複数のユーザ属性推定器とに基づいて、ユーザ属性推定器毎に、ユーザ属性情報を推定すると共に、ユーザ属性推定器を構築するために用いられた特徴量の種類数に応じて予め求められた重みに基づいて、推定された前記ユーザ属性情報を統合して、推定対象のユーザのユーザ属性情報を推定することにより、マイクロブログのユーザのユーザ属性を精度よく推定することができる、という効果が得られる。   Further, according to the user attribute estimation device and the program of the present invention, a microblog document set created by a user to be estimated is collected, a feature amount extracted from the microblog document set, and a plurality of prebuilt Based on the user attribute estimator, the user attribute information is estimated for each user attribute estimator, and the weight determined in advance according to the number of types of feature values used to construct the user attribute estimator is used. Based on this, the estimated user attribute information is integrated, and the user attribute information of the estimation target user is estimated, whereby the user attribute of the microblog user can be accurately estimated. .

外部サイトを用いた場合のユーザアカウントの紐付け例を示す説明図である。It is explanatory drawing which shows the example of a user account tied | linking at the time of using an external site. 本発明の実施の形態に係るマイクロブログユーザ属性推定器構築装置の一構成例を示すブロック図である。It is a block diagram which shows the example of 1 structure of the microblog user attribute estimator construction apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係るマイクロブログユーザ属性推定装置の一構成例を示すブロック図である。It is a block diagram which shows the example of 1 structure of the microblog user attribute estimation apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係るマイクロブログユーザ属性推定器構築装置おける構築処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the construction process routine in the microblog user attribute estimator construction apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係るマイクロブログユーザ属性推定装置におけるマイクロブログユーザ属性推定処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the microblog user attribute estimation process routine in the microblog user attribute estimation apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係るユーザ属性推定例を示した図である。It is the figure which showed the user attribute estimation example which concerns on embodiment of this invention.

<概要>
まず、本発明の実施の形態の概要について説明する。
<Overview>
First, an outline of an embodiment of the present invention will be described.

図1に、外部サイトを用いたユーザアカウントの紐付け例を示す。マイクロブログのプロフィールには、年齢や性別といったプロフィール項目はなく、自由記述形式のプロフィール文書があるだけである。プロフィール文書から正規表現などを用いて、年齢や性別を示すような単語を抽出すると、3歳や♂といった単語が抽出されるが、これらは子供やペットの属性を示すものであり、ユーザの属性を示すものではない。従来、こうした確認は人間の観察によって行われており、推定器構築のための学習データを集めるのは手間がかかる作業である。   FIG. 1 shows an example of user account linking using an external site. Microblog profiles do not have profile items such as age or gender, only a free-form profile document. When words that indicate age or gender are extracted from the profile document using regular expressions, words such as 3 years old and niece are extracted, but these indicate attributes of children and pets, and attributes of users It does not indicate. Conventionally, such confirmation is performed by human observation, and collecting learning data for constructing an estimator is a laborious operation.

本実施の形態では、マイクロブログのプロフィールに含まれるURL情報から外部サイトのユーザIDを抽出することで、外部サイトのプロフィールを取得することができる。これにより、たとえマイクロブログのプロフィールにユーザ属性の情報がなかったり、抽出が困難だったりしても、外部サイトとのユーザアカウント紐づけによって、ユーザ属性を自動的に付与することができる。図1の例では、ユーザは25歳で女性であるといったユーザ属性を紐付けることができている。   In the present embodiment, the profile of the external site can be acquired by extracting the user ID of the external site from the URL information included in the profile of the microblog. Thereby, even if there is no user attribute information in the profile of the microblog or it is difficult to extract, the user attribute can be automatically given by associating the user account with the external site. In the example of FIG. 1, the user attribute that the user is 25 years old and a woman can be associated.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<マイクロブログユーザ属性推定器構築装置のシステム構成>
図2は、本発明の実施の形態に係るマイクロブログユーザ属性推定器構築装置10を示すブロック図である。このマイクロブログユーザ属性推定器構築装置10は、CPUと、RAMと、後述する構築処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
<System configuration of microblog user attribute estimator construction device>
FIG. 2 is a block diagram showing the microblog user attribute estimator construction device 10 according to the embodiment of the present invention. The microblog user attribute estimator construction device 10 is composed of a computer including a CPU, a RAM, and a ROM storing a program for executing a construction processing routine described later. It is configured.

本実施の形態に係るマイクロブログユーザ属性推定器構築装置10は、図2に示すように、構築用入力部1と、構築用演算部2と、記憶部3とを備えている。   As shown in FIG. 2, the microblog user attribute estimator construction device 10 according to the present embodiment includes a construction input unit 1, a construction calculation unit 2, and a storage unit 3.

構築用入力部1は、入力された複数の文書からなるマイクロブログ文書集合を複数受け付ける。   The construction input unit 1 accepts a plurality of sets of microblog documents composed of a plurality of input documents.

マイクロブログ文書とは、マイクロブログユーザが作成したマイクロブログサイトに記載されたマイクロブログ投稿文書とプロフィール情報とがまとまっているものを示す。また、マイクロブログ文書集合とは、マイクロブログユーザが生成したマイクロブログ文書がまとまとまっているものを示し、マイクロブログ文書集合は、マイクロブログユーザ毎に入力される。   A microblog document indicates a collection of microblog posting documents and profile information described in a microblog site created by a microblog user. The microblog document set indicates a set of microblog documents generated by the microblog user, and the microblog document set is input for each microblog user.

プロフィール情報とは、プロフィール文書、URL、性別、年齢、アイコン画像、などマイクロブログや外部サイトにおいて、ユーザが自身を表現するために設定することができるすべての項目を示す。また、プロフィール文書とは、ユーザによってマイクロブログサイトに記載された、自由記述形式で表現されているユーザの自己紹介文書を示す。また、マイクロブログ投稿文書とは、ユーザによってマイクロブログサイトに投稿された文書を示す。   Profile information indicates all items that a user can set to express himself / herself in a microblog or an external site, such as a profile document, URL, gender, age, icon image, and the like. The profile document refers to a user's self-introduction document expressed in a free description format written on the microblog site by the user. The microblog post document indicates a document posted to the microblog site by the user.

外部サイトとは、マイクロブログサイト以外のものであって、プロフィール情報が取得可能であり、推定対象となるユーザ属性をプロフィール情報に含んでいれば何でもよい。例えば、外部サイトは、ソーシャルメディアとしてのサイトを含み、ソーシャルネットワーキングサービスサイト、ブログサイト、ファイル共有サイト、及び電子掲示板サイトの少なくとも1つを含む。   An external site is anything other than a microblog site, and profile information can be acquired and any user attribute that is an estimation target is included in profile information. For example, the external site includes a site as social media, and includes at least one of a social networking service site, a blog site, a file sharing site, and an electronic bulletin board site.

構築用演算部2は、マイクロブログ文書データベース20と、構築用プロフィール文書抽出部21と、構築用投稿文書抽出部22と、外部サイトユーザ属性収集部23と、マイクロブログユーザ属性推定器構築部24とから構成されている。   The construction calculation unit 2 includes a microblog document database 20, a construction profile document extraction unit 21, a construction posted document extraction unit 22, an external site user attribute collection unit 23, and a microblog user attribute estimator construction unit 24. It consists of and.

マイクロブログ文書データベース20には、構築用入力部1により入力された複数のマイクロブログ文書集合が記憶される。   The microblog document database 20 stores a plurality of microblog document sets input by the construction input unit 1.

構築用プロフィール文書抽出部21は、マイクロブログ文書データベース20に記憶されているマイクロブログ文書集合の各々について、当該マイクロブログ文書集合から、プロフィール文書を抽出する。   For each microblog document set stored in the microblog document database 20, the construction profile document extraction unit 21 extracts a profile document from the microblog document set.

構築用投稿文書抽出部22は、マイクロブログ文書データベース20に記憶されているマイクロブログ文書集合の各々について、当該マイクロブログ文書集合から、マイクロブログ投稿文書を抽出する。   For each of the microblog document sets stored in the microblog document database 20, the construction posted document extraction unit 22 extracts a microblog post document from the microblog document set.

外部サイトユーザ属性収集部23は、外部サイトID抽出部230と、外部サイトユーザプロフィール収集部232と、外部サイトユーザ属性抽出部234とから構成されている。   The external site user attribute collection unit 23 includes an external site ID extraction unit 230, an external site user profile collection unit 232, and an external site user attribute extraction unit 234.

外部サイトID抽出部230は、複数のユーザの各々について、当該ユーザのマイクロブログ文書集合のうちのプロフィール情報から、ユーザが利用している外部サイトのURLを抽出すると共に、当該URLに含まれるユーザIDを抽出する。外部サイトのURLはプロフィール情報中にURL記述欄が存在すればそこから抽出するが、存在しない場合は自由記述形式のプロフィール文書から正規表現などを用いて抽出してもよい。外部サイトのユーザIDについては、正規表現などを用いてURLから抽出する。なお、外部サイトID抽出部230は、外部サイト抽出手段の一例である。   The external site ID extraction unit 230 extracts, for each of a plurality of users, the URL of the external site used by the user from the profile information in the user's microblog document set, and the user included in the URL Extract the ID. The URL of the external site is extracted from the URL description field if it exists in the profile information, but if it does not exist, it may be extracted from the profile document in the free description format using a regular expression or the like. The user ID of the external site is extracted from the URL using a regular expression or the like. The external site ID extraction unit 230 is an example of an external site extraction unit.

外部サイトユーザプロフィール収集部232は、外部サイトID抽出部230によってURL及びユーザIDが抽出されたユーザの各々について、当該ユーザについて抽出されたURLに基づいて、インターネット15を介して外部サイト231にアクセスする。そして当該外部サイト231から、抽出されたユーザIDを用いて、ユーザのプロフィール情報を収集する。また、外部サイト231にAPI(Application Programming Interface)が存在する場合には、APIを利用して外部サイトユーザのプロフィール情報を取得してもよい。APIが存在しない場合は、ウェブサイト上のデータを必要な部分だけ抽出するスクレイピングなどの技術を用いて、HTML文書から外部サイトユーザのプロフィール情報を取得する。なお、外部サイトユーザプロフィール収集部232は、プロフィール収集手段の一例である。   The external site user profile collection unit 232 accesses the external site 231 via the Internet 15 for each user whose URL and user ID are extracted by the external site ID extraction unit 230 based on the URL extracted for the user. To do. Then, the user's profile information is collected from the external site 231 using the extracted user ID. If an API (Application Programming Interface) exists in the external site 231, the profile information of the external site user may be acquired using the API. If the API does not exist, the profile information of the external site user is acquired from the HTML document by using a technique such as scraping that extracts only a necessary part of the data on the website. The external site user profile collection unit 232 is an example of profile collection means.

外部サイトユーザ属性抽出部234は、外部サイトID抽出部230によってURLが抽出されたユーザの各々について、外部サイトユーザプロフィール収集部232によって収集された当該ユーザのプロフィール情報から、ユーザのプロフィールに関する属性を示すユーザ属性情報を抽出する。
外部サイトユーザ属性抽出部234は、例えば、後述するマイクロブログユーザ属性推定器構築部24において性別推定器を構築する場合には、男性、女性というユーザ属性を抽出する。どのようなユーザ属性についての推定器を構築するかは予め決定されており、抽出ルールは外部サイトユーザ属性抽出部234が保持している。抽出ルールはユーザ属性と文字列、正規表現などの組によって記載される。例えば、男性というユーザ属性と(男[性子]|♂)という正規表現になる。また、例えば年齢を推定する年齢推定器を構築する場合には、誕生日の情報を抽出して現在時間から年齢を計算するなど、間接的にユーザ属性を抽出してもよい。なお、外部サイトユーザ属性抽出部234は、ユーザ属性抽出手段の一例である。
The external site user attribute extraction unit 234 determines, for each user whose URL is extracted by the external site ID extraction unit 230, an attribute related to the user profile from the profile information of the user collected by the external site user profile collection unit 232. The user attribute information shown is extracted.
For example, when the gender estimator is constructed in the microblog user attribute estimator construction unit 24 described later, the external site user attribute extraction unit 234 extracts the user attributes of male and female. It is determined in advance what kind of user attribute to construct the estimator, and the external site user attribute extraction unit 234 holds the extraction rule. The extraction rule is described by a set of user attributes, character strings, regular expressions, and the like. For example, a user attribute of male and a regular expression of (male [sex] | ♂) are used. For example, when an age estimator for estimating the age is constructed, user attributes may be extracted indirectly, such as extracting birthday information and calculating the age from the current time. The external site user attribute extraction unit 234 is an example of a user attribute extraction unit.

マイクロブログユーザ属性推定器構築部24は、外部サイトユーザ属性抽出部234によってユーザ属性情報が抽出されたユーザの各々について、当該ユーザのマイクロブログ文書集合から抽出される特徴量と、外部サイトユーザ属性抽出部234によって抽出された当該ユーザのユーザ属性情報とに基づいて、ユーザ属性情報を推定するための複数のユーザ属性推定器を構築する。   The microblog user attribute estimator construction unit 24, for each user whose user attribute information is extracted by the external site user attribute extraction unit 234, features extracted from the user's microblog document set, and external site user attributes Based on the user attribute information of the user extracted by the extraction unit 234, a plurality of user attribute estimators for estimating the user attribute information are constructed.

マイクロブログユーザ属性推定器構築部24は、プロフィール文書推定器構築部240と、投稿文書推定器構築部241とから構成されている。なお、マイクロブログユーザ属性推定器構築部24は、ユーザ属性推定器構築手段の一例である。   The microblog user attribute estimator construction unit 24 includes a profile document estimator construction unit 240 and a posted document estimator construction unit 241. Note that the microblog user attribute estimator construction unit 24 is an example of a user attribute estimator construction unit.

プロフィール文書推定器構築部240は、外部サイトユーザ属性抽出部234によってユーザ属性情報が抽出されたユーザの各々について、構築用プロフィール文書抽出部21で当該ユーザのマイクロブログ文書集合から抽出されたプロフィール文書に対して抽出される特徴量と、外部サイトユーザ属性抽出部234によって抽出された当該ユーザのユーザ属性情報とに基づいて、推定したいユーザ属性の項目毎の推定器からなるプロフィール文書推定器を構築する。プロフィール文書推定器の各推定器は、プロフィール文書から抽出される特徴量を入力としユーザ属性の項目が各クラスである確率値を出力するものである。   The profile document estimator construction unit 240 extracts, for each user whose user attribute information has been extracted by the external site user attribute extraction unit 234, the profile document extracted from the user's microblog document set by the construction profile document extraction unit 21. A profile document estimator comprising estimators for each user attribute item to be estimated based on the feature amount extracted for the user and the user attribute information of the user extracted by the external site user attribute extraction unit 234 To do. Each estimator of the profile document estimator inputs a feature amount extracted from the profile document and outputs a probability value in which the user attribute item is each class.

具体的には、まず、プロフィール文書を形態素解析によって、適切な文字列単位に分割する。これらの文字列から、推定したいユーザ属性の項目の各クラスについて予め定められた特徴的な文字列(以下、特徴量と称する。)を抽出する。例えば、性別属性では、男性に特徴的な文字列(俺、嫁など)や女性に特徴的な文字列(わたし、旦那など)が特徴量として抽出される。抽出された各特徴量について、当該特徴量の出現頻度が数え上げられ、TF−IDF(TF:Term Frequency,IDF:Inverse Document Frequency)、赤池情報量基準、及びカイ二乗値の値が、特徴量が持つ値として算出される。次に、特徴量が持つ値が高いものから順番に一定数の特徴量を抽出する。上記の特徴量の抽出を、ユーザ毎に行う。そして、ユーザ毎に抽出された特徴量に基づいて、ユーザ毎に抽出された、推定したい項目のユーザ属性情報を教師信号として、単純ベイズ分類器(参考文献(Andrew McCallum,Kamal Nigam,「A comparison of event models for Naive Bayes text classification」,In proceedings of AAAI WORKSHOP ON LEARNING FOR TEXT CATEGORIZATION,1998,p.41-48)を参照)、又はサポートベクターマシン(参考文献(Corinna Cortes,Vladimir Vapnik,「Support-Vector Networks」,Machine Learning,1995,p.237-297)を参照)などの方法で推定器を構築する。本実施の形態では、単純ベイズ分類器を推定器として構築する。上記の推定器の構築を、推定したユーザ属性情報の項目毎に行う。   Specifically, first, the profile document is divided into appropriate character string units by morphological analysis. From these character strings, characteristic character strings (hereinafter referred to as feature values) predetermined for each class of user attribute items to be estimated are extracted. For example, in the gender attribute, character strings that are characteristic for men (I, bride, etc.) and character strings that are characteristic for women (I, husband, etc.) are extracted as feature amounts. For each extracted feature quantity, the appearance frequency of the feature quantity is counted, and the values of TF-IDF (TF: Term Frequency, IDF: Inverse Document Frequency), Akaike information quantity standard, and chi-square value are the feature quantity. It is calculated as a value to have. Next, a certain number of feature values are extracted in order from the highest value of the feature value. The above feature amount extraction is performed for each user. Then, based on the feature quantity extracted for each user, the user attribute information of the item to be estimated, extracted for each user, as a teacher signal, a naive Bayes classifier (Reference (Andrew McCallum, Kamal Nigam, “A comparison of event models for Naive Bayes text classification ”, In proceedings of AAAI WORKSHOP ON LEARNING FOR TEXT CATEGORIZATION, 1998, p.41-48), or support vector machine (references (Corinna Cortes, Vladimir Vapnik,“ Support- (See Vector Networks, Machine Learning, 1995, p.237-297)). In the present embodiment, a naive Bayes classifier is constructed as an estimator. The estimator is constructed for each item of the estimated user attribute information.

投稿文書推定器構築部241は、外部サイトユーザ属性抽出部234によってユーザ属性情報が抽出されたユーザの各々について、構築用投稿文書抽出部22で当該ユーザのマイクロブログ文書集合から抽出されたマイクロブログ投稿文書に対して抽出される特徴量と、外部サイトユーザ属性抽出部234によって抽出された当該ユーザのユーザ属性情報とに基づいて、推定したいユーザ属性の項目毎の推定器からなる投稿文書推定器を構築する。投稿文書推定器の各推定器は、マイクロブログ投稿文書から抽出される特徴量を入力とし、ユーザ属性の項目が各クラスである確率値を出力するものである。   The posted document estimator construction unit 241 extracts, for each user whose user attribute information has been extracted by the external site user attribute extraction unit 234, a microblog extracted from the user's microblog document set by the construction posted document extraction unit 22. A posted document estimator comprising an estimator for each item of user attribute to be estimated based on the feature amount extracted for the posted document and the user attribute information of the user extracted by the external site user attribute extraction unit 234 Build up. Each estimator of the posted document estimator receives the feature amount extracted from the microblog posted document and outputs a probability value that the user attribute item is each class.

具体的には、プロフィール文書推定器構築部240と同様に、形態素解析を行った後、特徴量を抽出し、各特徴量について特徴量が持つ値を算出して、一定数の特徴量を抽出する。ユーザ毎に抽出された一定数の特徴量に基づいて、ユーザ毎に抽出された、推定したい項目のユーザ属性情報を教師信号として、推定器を構築する。上記の推定器の構築を、推定したいユーザ属性情報の項目毎に行う。なお、以下では、プロフィール文書推定器と投稿文書推定器の各々は、性別推定器からなる場合を例に説明する。   Specifically, similar to the profile document estimator construction unit 240, after performing morphological analysis, the feature amount is extracted, the value of the feature amount is calculated for each feature amount, and a certain number of feature amounts are extracted. To do. Based on a certain number of feature quantities extracted for each user, an estimator is constructed using the user attribute information of the item to be estimated extracted for each user as a teacher signal. The estimator is constructed for each item of user attribute information to be estimated. In the following description, an example in which each of the profile document estimator and the posted document estimator is a gender estimator will be described.

記憶部3は、プロフィール文書推定器記憶部30と、投稿文書推定器記憶部31とから構成されている。   The storage unit 3 includes a profile document estimator storage unit 30 and a posted document estimator storage unit 31.

プロフィール文書推定器記憶部30には、プロフィール文書推定器構築部240によって構築されたプロフィール文書推定器が記憶される。   The profile document estimator storage unit 30 stores the profile document estimator constructed by the profile document estimator construction unit 240.

投稿文書推定器記憶部31には、投稿文書推定器構築部241によって構築された投稿文書推定器が記憶される。   The posted document estimator storage unit 31 stores the posted document estimator constructed by the posted document estimator construction unit 241.

<マイクロブログユーザ属性推定装置のシステム構成>
図3は、本発明の実施の形態に係るマイクロブログユーザ属性推定装置100を示すブロック図である。このマイクロブログユーザ属性推定装置100は、CPUと、RAMと、後述するマイクロブログユーザ属性推定処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。
<System configuration of microblog user attribute estimation device>
FIG. 3 is a block diagram showing a microblog user attribute estimation apparatus 100 according to the embodiment of the present invention. This microblog user attribute estimation device 100 is composed of a computer including a CPU, a RAM, and a ROM storing a program for executing a microblog user attribute estimation processing routine described later. It is configured as shown.

本実施の形態に係るマイクロブログユーザ属性推定装置100は、図3に示すように、入力部4と、記憶部5と、演算部6と、出力部7とを備えている。   As shown in FIG. 3, the microblog user attribute estimation apparatus 100 according to the present embodiment includes an input unit 4, a storage unit 5, a calculation unit 6, and an output unit 7.

入力部4は、ユーザ属性推定対象であるマイクロブログのユーザのマイクロブログユーザIDの入力を受け付ける。   The input unit 4 receives an input of a microblog user ID of a user of a microblog that is a user attribute estimation target.

記憶部5は、プロフィール文書推定器記憶部50と、投稿文書推定器記憶部51とから構成されている。   The storage unit 5 includes a profile document estimator storage unit 50 and a posted document estimator storage unit 51.

プロフィール文書推定器記憶部50には、上記マイクロブログユーザ属性推定器構築装置10によって構築されたプロフィール文書推定器が記憶される。   The profile document estimator storage unit 50 stores the profile document estimator constructed by the microblog user attribute estimator construction apparatus 10.

投稿文書推定器記憶部51には、上記マイクロブログユーザ属性推定器構築装置10によって構築された投稿文書推定器が記憶される。   The posted document estimator storage unit 51 stores a posted document estimator constructed by the microblog user attribute estimator construction device 10.

演算部6は、マイクロブログ文書収集部60と、プロフィール文書抽出部62と、プロフィール文書推定部63と、投稿文書抽出部64と、投稿文書推定部65と、推定結果統合部66とから構成されている。   The calculation unit 6 includes a microblog document collection unit 60, a profile document extraction unit 62, a profile document estimation unit 63, a posted document extraction unit 64, a posted document estimation unit 65, and an estimation result integration unit 66. ing.

マイクロブログ文書収集部60は、入力部4により入力されたマイクロブログユーザIDに基づいて、当該マイクロブログユーザIDに対応するマイクロブログサイト61にインターネット15を介してアクセスする。そして、マイクロブログサイト61に含まれるマイクロブログ文書を収集する。   Based on the microblog user ID input by the input unit 4, the microblog document collection unit 60 accesses the microblog site 61 corresponding to the microblog user ID via the Internet 15. Then, the microblog document included in the microblog site 61 is collected.

プロフィール文書抽出部62は、マイクロブログ文書収集部60によって収集されたマイクロブログ文書からプロフィール文書を抽出する。   The profile document extraction unit 62 extracts a profile document from the microblog document collected by the microblog document collection unit 60.

プロフィール文書推定部63は、プロフィール文書抽出部62によって抽出されたプロフィール文書と、プロフィール文書推定器記憶部50に記憶されているプロフィール文書推定器とに基づいて、ユーザ属性情報を推定する。
具体的には、マイクロブログ文書中のプロフィール文書uに対してプロフィール文書推定器によってユーザ属性を推定する。プロフィール文書推定器による推定結果p(u)は推定するユーザ属性の項目のクラスごとに確率値として出力される。例えば、ユーザ属性の項目が性別である場合には、クラスごとに男性0.60、女性0.40と出力される。
The profile document estimation unit 63 estimates user attribute information based on the profile document extracted by the profile document extraction unit 62 and the profile document estimator stored in the profile document estimator storage unit 50.
Specifically, it estimates the user attribute by profile document estimator relative profile document u p in micro blog document. Estimation results of profile document estimator p p (u p) is outputted as a probability value for each class of items in the user attribute estimating. For example, when the user attribute item is gender, male 0.60 and female 0.40 are output for each class.

より詳細には、プロフィール文書推定部63は、プロフィール文書抽出部62によって抽出されたプロフィール文書uについて、まず、形態素解析を行う。そして、形態素解析によって得られた解析結果に基づいて、プロフィール文書uについて、各特徴量の出現数を数え上げ、出現した特徴量を抽出する。ここで、抽出される特徴量は、上記マイクロブログユーザ属性推定器構築装置10によってプロフィール文書推定器を構築する際に用いた特徴量のうち全部又は一部の特徴量である。 More specifically, profile document estimation unit 63, the profile document u p extracted by the profile document extraction section 62 first performs morphological analysis. Then, based on the analysis result obtained by the morphological analysis, the profile document u p, counting the number of occurrences of each feature quantity, and extracts the appearance feature amount. Here, the extracted feature quantities are all or a part of the feature quantities used when the profile document estimator is constructed by the microblog user attribute estimator construction apparatus 10.

次に、プロフィール文書推定部63は、抽出された特徴量と、プロフィール文書推定器記憶部50に記憶されているプロフィール文書推定器とに基づいて、ユーザ属性の項目のクラスごとに、確率値を推定結果p(u)として出力する。 Next, the profile document estimation unit 63 calculates a probability value for each class of user attribute items based on the extracted feature amount and the profile document estimator stored in the profile document estimator storage unit 50. and outputs as the estimated result p p (u p).

また、プロフィール文書推定部63は、ユーザ属性を推定すると共に、特徴量の出現を数え上げる際の特徴量に関する情報を記録する。当該記録する情報は、後述する推定結果統合部66で使用される情報に準ずる。例えば、特徴量の出現数、出現した特徴量の種類数、特徴量が持つ値(TF−IDF、赤池情報量基準、カイ二乗値などの値)、又は特徴量を値の降順に整列したときの順位を記録する。なお、プロフィール文書推定部63は、推定手段の一例である。   In addition, the profile document estimation unit 63 estimates user attributes and records information related to the feature amount when counting up the appearance of the feature amount. The information to be recorded conforms to the information used in the estimation result integration unit 66 described later. For example, when the number of feature quantities appears, the number of types of feature quantities that appear, the values of the feature quantities (TF-IDF, Akaike information criterion, chi-square value, etc.), or feature quantities are arranged in descending order Record the ranking. The profile document estimation unit 63 is an example of an estimation unit.

投稿文書抽出部64は、マイクロブログ文書収集部60によって収集されたマイクロブログ文書からマイクロブログ投稿文書集合を抽出する。   The posted document extraction unit 64 extracts a set of microblog posted documents from the microblog document collected by the microblog document collection unit 60.

投稿文書推定部65は、投稿文書抽出部64によって抽出されたマイクロブログ投稿文書集合と、投稿文書推定器記憶部51に記憶されている投稿文書推定器とに基づいて、ユーザ属性情報を推定する。具体的には、マイクロブログ文書中のマイクロブログ投稿文書uに対して投稿文書推定器を用いてユーザ属性を推定する。投稿文書推定器による推定結果p(u)は推定するユーザ属性の項目のクラスごとに確率値として出力される。
より詳細には、投稿文書推定部65は、プロフィール文書推定部63と同様に、形態素解析を行った後、マイクロブログ投稿文書uについて、各特徴量の出現数を数え上げ、出現した特徴量を抽出する。ここで、抽出される特徴量は、上記マイクロブログユーザ属性推定器構築装置10によって投稿文書推定器を構築する際に用いた特徴量のうち全部又は一部の特徴量である。
The posted document estimation unit 65 estimates user attribute information based on the microblog posted document set extracted by the posted document extraction unit 64 and the posted document estimator stored in the posted document estimator storage unit 51. . Specifically, the user attribute is estimated using a posted document estimator for the microblog posted document u t in the microblog document. The estimation result p t (u t ) by the posted document estimator is output as a probability value for each class of user attribute items to be estimated.
More specifically, post document estimation unit 65, like the profile document estimation unit 63, after the morphological analysis, the micro blog post document u t, counting the number of occurrences of each feature quantity, the appearance feature amount Extract. Here, the extracted feature quantities are all or a part of the feature quantities used when the posted document estimator is constructed by the microblog user attribute estimator construction apparatus 10.

次に、投稿文書推定部65は、抽出された特徴量と、投稿文書推定器とに基づいて、ユーザ属性の項目のクラスごとに、確率値を推定結果p(u)として出力する。 Next, the posted document estimation unit 65 outputs a probability value as an estimation result p t (u t ) for each class of the user attribute item based on the extracted feature amount and the posted document estimator.

また、投稿文書推定部65は、プロフィール文書推定部63と同様に、ユーザ属性を推定すると共に、特徴量の出現を数え上げる際の特徴量に関する情報を記録する。なお、投稿文書推定部65は、推定手段の一例である。   Similarly to the profile document estimation unit 63, the posted document estimation unit 65 estimates user attributes and records information about the feature amount when counting up the appearance of the feature amount. The posted document estimation unit 65 is an example of an estimation unit.

推定結果統合部66は、プロフィール文書推定器を構築するために用いられた特徴量のうち、プロフィール文書中に出現した特徴量の種類数、及び投稿文書推定器を構築するために用いられた特徴量のうち、マイクロブログ投稿文書中に出現した特徴量の種類数に応じて、プロフィール文書推定器及び投稿文書推定器の各々に対する重みとしての信頼度を算出する。そして、算出された信頼度に基づいて、プロフィール文書推定器及び投稿文書推定器の各々によって推定されたユーザ属性情報を統合して、推定対象のユーザのユーザ属性情報を推定する。
具体的には、推定結果統合部66は、プロフィール文書推定部63による推定及び投稿文書推定部65による推定と共に記録された特徴量に関する情報に基づいて、各推定結果に対する重みとしての信頼度を算出する。
そして、プロフィール文書推定部63によって推定された推定結果と、投稿文書推定部65によって推定された推定結果と、算出された信頼度とに基づいて、ユーザ属性の項目のクラス毎に、最終的な推定結果p(u)を出力する。推定結果p(u)の算出式を、以下の(1)式に示す。
The estimation result integration unit 66 out of the feature quantities used for constructing the profile document estimator, the number of types of feature quantities appearing in the profile document, and the features used for constructing the posted document estimator. The reliability as a weight for each of the profile document estimator and the posted document estimator is calculated according to the number of types of feature quantities that appear in the microblog posted document. Then, based on the calculated reliability, the user attribute information estimated by each of the profile document estimator and the posted document estimator is integrated to estimate the user attribute information of the estimation target user.
Specifically, the estimation result integration unit 66 calculates the reliability as a weight for each estimation result based on the information about the feature amount recorded together with the estimation by the profile document estimation unit 63 and the estimation by the posted document estimation unit 65. To do.
Then, based on the estimation result estimated by the profile document estimation unit 63, the estimation result estimated by the posted document estimation unit 65, and the calculated reliability, for each class of user attribute items, the final The estimation result p (u) is output. The calculation formula of the estimation result p (u) is shown in the following formula (1).

ここで、r(u)はプロフィール文書推定器が出力した推定結果p(u)の信頼度、r(u)は投稿文書推定器が出力した推定結果p(u)の信頼度である。r(u)とr(u)は、r(u)+r(u)=1を満たす。信頼度の算出方法として、使用された特徴量の種類数を用いる場合、r(u)とr(u)は以下の(2)〜(5)式のように計算される。 Here, r p of (u) reliability, r t estimation results p p of the profile document estimator is output (u p) (u) is estimated result of post document estimator outputs p t (u t) It is reliability. r p (u) and r t (u) satisfy r p (u) + r t (u) = 1. In the case of using the number of types of used feature quantities as a reliability calculation method, r p (u) and r t (u) are calculated as in the following equations (2) to (5).

ここで、i(u)はプロフィール文書推定器が持つ全特徴量種数|V|のうち、プロフィール文書uに含まれていた特徴量の種類数v(u)が出現したときの選択情報量を示す。i(u)はマイクロブログ投稿文書に関して同様である。αは0を対数にとらないように加えるための定数で、α=1などを用いる。出現した特徴量の種類数が多いほど、推定に必要になる手がかりは増えていくので、推定精度は上がる。特徴量の種類数が多いほど、選択情報量は小さくなっていく。選択情報量が小さいと、信頼度の分母が小さくなるので信頼度は大きくなる。
選択情報量の計算において、全体の特徴量に対する該ユーザの特徴量の割合が計算できれば、出現する特徴量の種類数の代わりに、特徴量の出現数、特徴量が持つ値(TF−IDF、赤池情報量基準、及びカイ二乗値の値)、特徴量を値の降順に整列したときの順位などを用いても良い。
Here, i p (u p) is the total feature quantity genus has a profile document estimator | V p | among the profile document u number of types of feature quantities included in the p v p (u p) appearance Indicates the amount of information selected. i t (u t ) is the same for the microblog post document. α is a constant for adding 0 so as not to take a logarithm, and α = 1 or the like is used. As the number of types of feature quantities that appear increases, the number of clues necessary for estimation increases, and the estimation accuracy increases. The greater the number of feature types, the smaller the selected information amount. When the amount of selected information is small, the reliability becomes large because the denominator of reliability becomes small.
In the calculation of the selection information amount, if the ratio of the feature amount of the user to the entire feature amount can be calculated, the number of appearance of the feature amount, the value of the feature amount (TF-IDF, Akaike information amount standard and chi-square value), rankings when the feature amounts are arranged in descending order of the values, and the like may be used.

推定結果統合部66は、上記(1)式〜(5)式に従って算出した各クラスの推定結果に基づいて、最も値が大きかったクラスを、ユーザ属性の推定結果として出力する。なお、推定結果統合部66は、推定手段の一例である。   The estimation result integration unit 66 outputs the class having the largest value as the estimation result of the user attribute based on the estimation result of each class calculated according to the above equations (1) to (5). The estimation result integration unit 66 is an example of an estimation unit.

出力部7は、推定結果統合部66によって算出された推定結果を出力する。   The output unit 7 outputs the estimation result calculated by the estimation result integration unit 66.

<マイクロブログユーザ属性推定器構築装置の作用>
次に、本実施の形態に係るマイクロブログユーザ属性推定器構築装置10の作用について説明する。まず、マイクロブログサイト61から得られる複数のマイクロブログユーザ毎のマイクロブログ文書の集合であるマイクロブログ文書集合がマイクロブログユーザ属性推定器構築装置10に入力されると、マイクロブログユーザ属性推定器構築装置10によって、入力された複数のマイクロブログ文書集合が、マイクロブログ文書データベース20へ格納される。そして、マイクロブログユーザ属性推定器構築装置10によって、図4に示す構築処理ルーチンが実行される。
<Operation of Microblog User Attribute Estimator Construction Device>
Next, the operation of the microblog user attribute estimator construction device 10 according to the present embodiment will be described. First, when a microblog document set, which is a set of microblog documents for each of a plurality of microblog users obtained from the microblog site 61, is input to the microblog user attribute estimator construction device 10, a microblog user attribute estimator is constructed. The apparatus 10 stores a plurality of input microblog document sets in the microblog document database 20. Then, the construction processing routine shown in FIG. 4 is executed by the microblog user attribute estimator construction device 10.

まず、ステップS100において、対象となるユーザを設定する。次に、ステップS102において、上記ステップS100で設定された対象ユーザによって作成されたマイクロブログ文書集合を取り出す。   First, in step S100, a target user is set. Next, in step S102, a set of microblog documents created by the target user set in step S100 is extracted.

そして、ステップS104において、外部サイトID抽出部230によって、上記ステップS102で取り出した対象ユーザのマイクロブログ文書集合のうちのプロフィール情報から、ユーザが利用している外部サイトのURLを抽出すると共に、当該URLに含まれる当該外部サイトのユーザIDを抽出する。   In step S104, the external site ID extraction unit 230 extracts the URL of the external site used by the user from the profile information in the target user's microblog document set extracted in step S102. The user ID of the external site included in the URL is extracted.

そして、ステップS106において、上記ステップS104でユーザIDが抽出できたか否かを判定する。ユーザIDが抽出できた場合には、ステップS108へ移行する。ユーザIDが抽出できなかった場合には、ステップS100へ戻り、次の対象ユーザを設定する。   In step S106, it is determined whether or not the user ID has been extracted in step S104. If the user ID can be extracted, the process proceeds to step S108. If the user ID cannot be extracted, the process returns to step S100 to set the next target user.

ステップS108において、外部サイトユーザプロフィール収集部232によって、上記ステップS104で抽出されたURLに基づいて、インターネット15を介して外部サイト231にアクセスする。そして当該外部サイト231から、上記ステップS104で抽出されたユーザIDを用いて、対象ユーザのプロフィール情報を収集する。   In step S108, the external site user profile collection unit 232 accesses the external site 231 via the Internet 15 based on the URL extracted in step S104. Then, the profile information of the target user is collected from the external site 231 using the user ID extracted in step S104.

次に、ステップS110において、外部サイトユーザ属性抽出部234によって、上記ステップS108で収集された対象ユーザのプロフィール情報から、対象ユーザのプロフィールに関する属性を示すユーザ属性情報を抽出する。   Next, in step S110, the external site user attribute extraction unit 234 extracts user attribute information indicating attributes related to the profile of the target user from the profile information of the target user collected in step S108.

そして、ステップS112において、上記ステップS110でユーザ属性情報を抽出できたか否かを判定する。ユーザ属性情報が抽出できた場合には、ステップS114へ移行する。ユーザ属性情報が抽出できなかった場合には、ステップS100へ戻り、次の対象ユーザを設定する。   In step S112, it is determined whether user attribute information has been extracted in step S110. If the user attribute information can be extracted, the process proceeds to step S114. If the user attribute information cannot be extracted, the process returns to step S100 to set the next target user.

ステップS114において、構築用プロフィール文書抽出部21によって、上記ステップS102で取り出された対象ユーザのマイクロブログ文書集合から、プロフィール文書を抽出する。   In step S114, the construction profile document extraction unit 21 extracts a profile document from the set of microblog documents of the target user extracted in step S102.

次に、ステップS116において、上記ステップS114で抽出されたプロフィール文書から特徴量を抽出し、抽出された特徴量と、上記ステップS110で抽出されたユーザ属性情報との組をメモリ(図示省略)に記録する。   Next, in step S116, feature amounts are extracted from the profile document extracted in step S114, and a set of the extracted feature amounts and user attribute information extracted in step S110 is stored in a memory (not shown). Record.

次に、ステップS118において、構築用投稿文書抽出部22によって、対象ユーザのマイクロブログ文書集合から、マイクロブログ投稿文書集合を抽出する。   Next, in step S118, the construction posted document extraction unit 22 extracts a microblog posted document set from the target user's microblog document set.

次に、ステップS120において、上記ステップS118で抽出されたマイクロブログ投稿文書集合から特徴量を抽出し、上記ステップS114で抽出されたユーザ属性情報と、抽出された特徴量との組をメモリ(図示省略)に記録する。   Next, in step S120, feature amounts are extracted from the microblog post document set extracted in step S118, and a set of the user attribute information extracted in step S114 and the extracted feature amounts is stored in a memory (illustrated). (Omitted).

次に、ステップS122において、マイクロブログ文書データベース20に記憶されている全てのユーザのマイクロブログ文書集合について、上記ステップS100〜S120の処理を実行したか否かを判定する。そして、上記ステップS100〜S120の処理を実行していないユーザのマイクロブログ文書集合が存在する場合には、上記ステップS100へ戻り、当該ユーザを対象ユーザに設定する。一方、全てのユーザのマイクロブログ文書集合について、上記ステップS100〜S120処理を実行した場合には、ステップS124へ進む。   Next, in step S122, it is determined whether or not the processing in steps S100 to S120 has been executed for all user microblog document sets stored in the microblog document database 20. If there is a set of microblog documents of users who have not executed the processes in steps S100 to S120, the process returns to step S100, and the user is set as a target user. On the other hand, when the above steps S100 to S120 are executed for the microblog document set of all users, the process proceeds to step S124.

ステップS124において、プロフィール文書推定器構築部240によって、上記ステップS116で記録された全てのユーザの各々についての、プロフィール文書から抽出された特徴量と、当該ユーザ属性情報との組に基づいて、プロフィール文書推定器を構築する。   In step S124, the profile document estimator construction unit 240 creates a profile based on the combination of the feature amount extracted from the profile document and the user attribute information for each of all users recorded in step S116. Build a document estimator.

次に、ステップS126において、上記ステップS124で構築されたプロフィール文書推定器をプロフィール文書推定器記憶部30へ格納する。   In step S126, the profile document estimator constructed in step S124 is stored in the profile document estimator storage unit 30.

ステップS128において、投稿文書推定器構築部241によって、上記ステップS120で記録された全てのユーザの各々についての、マイクロブログ投稿文書から抽出された特徴量と、当該ユーザ属性情報との組に基づいて、投稿文書推定器を構築する。   In step S128, the posted document estimator construction unit 241 uses the feature amount extracted from the microblog posted document and the user attribute information for each of all users recorded in step S120. Build a posted document estimator.

次にステップS130において、上記ステップS128で構築された投稿文書推定器を投稿文書推定器記憶部31へ格納して、構築処理ルーチンを終了する。   Next, in step S130, the posted document estimator constructed in step S128 is stored in the posted document estimator storage unit 31, and the construction processing routine is terminated.

<マイクロブログユーザ属性推定装置の作用>
次に、本実施の形態に係るマイクロブログユーザ属性推定装置100の作用について説明する。まず、マイクロブログユーザ属性推定器構築装置10のプロフィール文書推定器記憶部30に記憶されているプロフィール文書推定器と、投稿文書推定器記憶部31に記憶されている投稿文書推定器とが、マイクロブログユーザ属性推定装置100に入力されると、プロフィール文書推定器がプロフィール文書推定器記憶部50に、投稿文書推定器が投稿文書推定器記憶部51に格納される。そして、推定したいユーザのマイクロブログユーザIDがマイクロブログユーザ属性推定装置100に入力されると、マイクロブログユーザ属性推定装置100によって、図5に示すマイクロブログユーザ属性推定処理ルーチンが実行される。
<Operation of Microblog User Attribute Estimation Device>
Next, the operation of the microblog user attribute estimation apparatus 100 according to the present embodiment will be described. First, the profile document estimator stored in the profile document estimator storage unit 30 of the microblog user attribute estimator construction device 10 and the posted document estimator stored in the posted document estimator storage unit 31 are micro-blogs. When input to the blog user attribute estimation device 100, the profile document estimator is stored in the profile document estimator storage unit 50, and the posted document estimator is stored in the posted document estimator storage unit 51. When the microblog user ID of the user to be estimated is input to the microblog user attribute estimation device 100, the microblog user attribute estimation device 100 executes the microblog user attribute estimation processing routine shown in FIG.

まず、ステップS200において、入力部4により入力されたユーザ属性推定対象であるユーザのマイクロブログユーザIDを受け付ける。   First, in step S200, the microblog user ID of the user who is the user attribute estimation target input by the input unit 4 is received.

次に、ステップS202において、マイクロブログ文書収集部60によって、インターネット15を介してマイクロブログサイト61にアクセスすると共に、上記ステップS200で入力されたマイクロブログユーザIDを用いて、マイクロブログサイト61から、当該マイクロブログユーザIDに対応するマイクロブログ文書集合を収集する。   Next, in step S202, the microblog document collection unit 60 accesses the microblog site 61 via the Internet 15, and from the microblog site 61 using the microblog user ID input in step S200. A set of microblog documents corresponding to the microblog user ID is collected.

次に、ステップS204において、プロフィール文書抽出部62によって、上記ステップS202で収集されたマイクロブログ文書集合からプロフィール文書を抽出する。   Next, in step S204, the profile document extraction unit 62 extracts profile documents from the microblog document set collected in step S202.

そして、ステップS206において、プロフィール文書推定部63によって、上記ステップS204で抽出されたプロフィール文書から特徴量を抽出し、抽出された特徴量と、プロフィール文書推定器記憶部50に記憶されているプロフィール文書推定器とに基づいて、ユーザ属性を推定する。   In step S206, the profile document estimation unit 63 extracts the feature amount from the profile document extracted in step S204, and the extracted feature amount and the profile document stored in the profile document estimator storage unit 50. A user attribute is estimated based on the estimator.

ステップS208において、投稿文書抽出部64によって、上記ステップS202で収集されたマイクロブログ文書集合からマイクロブログ投稿文書集合を抽出する。   In step S208, the posted document extracting unit 64 extracts a microblog posted document set from the microblog document set collected in step S202.

次にステップS210において、投稿文書推定部65によって、上記ステップS208で抽出されたマイクロブログ投稿文書集合から特徴量を抽出し、抽出された特徴量と、投稿文書推定器記憶部51に記憶されている投稿文書推定器とに基づいて、ユーザ属性を推定する。   In step S210, the posted document estimation unit 65 extracts feature amounts from the set of microblog posted documents extracted in step S208, and the extracted feature amounts are stored in the posted document estimator storage unit 51. The user attribute is estimated based on the posted document estimator.

そして、ステップS212において、プロフィール文書推定部63及び投稿文書推定部65によって、上記ステップS206と、上記ステップS210との各推定に使用した特徴量に関する情報をメモリ(図示省略)に記録する。   In step S212, the profile document estimation unit 63 and the posted document estimation unit 65 record information on the feature values used for the estimations in step S206 and step S210 in a memory (not shown).

そして、ステップS214において、推定結果統合部66によって、上記ステップS212で記録された特徴量に関する情報(特徴量の種類数)に応じて、各推定器に対する重みとしての信頼度を算出する。そして、算出された信頼度に基づいて、プロフィール文書推定器及び投稿文書推定器の各々によって推定されたユーザ属性を統合して、推定対象のユーザのユーザ属性を推定する。   In step S214, the estimation result integration unit 66 calculates the reliability as the weight for each estimator according to the information (number of types of feature amounts) related to the feature amount recorded in step S212. Based on the calculated reliability, the user attributes estimated by each of the profile document estimator and the posted document estimator are integrated to estimate the user attribute of the estimation target user.

そして、ステップS216において、出力部7によって、上記ステップS214で推定された推定結果を出力して、マイクロブログユーザ属性推定処理ルーチンを終了する。   In step S216, the output unit 7 outputs the estimation result estimated in step S214, and the microblog user attribute estimation processing routine ends.

<マイクロブログユーザの属性推定例>
次に本実施の形態に係るマイクロブログユーザ属性推定装置によるユーザ属性推定例を示す。
<Example of attribute estimation for microblogging users>
Next, an example of user attribute estimation by the microblog user attribute estimation apparatus according to the present embodiment is shown.

図6に、マイクロブログユーザ属性推定装置によるユーザ属性推定例を示す。プロフィール文書には「子持ち」といったある程度の年齢に特有な単語や、顔文字などある程度若い人が使用する単語が含まれているため、10代は0.25、20代は0.45、30代は0.20、40代以上は0.10の確率であるとプロフィール文書推定器は推定している。一方、マイクロブログ投稿文書には顔文字が含まれていないため、プロフィール文書よりも少し年齢が上であると推定しており、10代は0.05、20代は0.40、30代は0.45、40代以上は0.10の確率である。マイクロブログ投稿文書の推定結果だけでは、ユーザを30代であると推定することになり、実際の年齢である20代とは異なる誤った推定結果を提示することになる。また、プロフィール文書推定器と投稿文書推定器の推定結果は異なっているうえ、どちらの推定結果も共に0.45の確率であり、最大確率となる年代を採用することもできない。   FIG. 6 shows an example of user attribute estimation by the microblog user attribute estimation apparatus. Profile documents contain words that are specific to a certain age, such as “children”, and words used by young people to some extent, such as emoticons, so 0.25 for teens, 0.45 for 20s, and 30s The profile document estimator estimates that the probability is 0.20 and the probability of ages 40 and above is 0.10. On the other hand, since the microblog post document does not contain emoticons, it is estimated that the age is a little older than the profile document, 0.05 for teens, 0.40 for 20s, 0.45, 40s and above is a probability of 0.10. Only with the estimation result of the microblog post document, the user is estimated to be in their thirties, and an erroneous estimation result different from that in the twenties that is the actual age is presented. Further, the estimation results of the profile document estimator and the posted document estimator are different, and both of the estimation results have a probability of 0.45, and it is not possible to adopt the age with the maximum probability.

本実施の形態では、用意していた特徴量の数に対してどれくらいの特徴量を使用して推定結果を出力したかを考慮し、それを信頼度として算出することでプロフィール文書推定器と投稿文書推定器の推定結果を重みづけて統合している。結果として、10代は0.1000、20代は0.4125、30代は0.3875、40代以上は0.1000の確率であると推定しており、推定結果の20代は実際の年齢と一致している。プロフィール文書推定器の推定結果と投稿文書推定結果を、使用された特徴量に応じて重みづけて統合することで、自信を持って推定した推定器の結果を重視した、より信頼度の高い推定結果を得ることができている。   In the present embodiment, the profile document estimator and the posting are calculated by considering how many feature quantities are used to output the estimation result with respect to the number of prepared feature quantities, and calculating the reliability as a result. The estimation results of the document estimator are weighted and integrated. As a result, it is estimated that the probability is 0.1000 for the teens, 0.4125 for the 20s, 0.3875 for the 30s, 0.1000 for the 40s and above, and the estimated 20s is the actual age. Is consistent with Estimating more reliable by emphasizing the results of the estimator estimated with confidence by integrating the estimated results of the profile document estimator and the estimated results of the posted document according to the feature quantities used. The result has been obtained.

以上説明したように、本実施の形態に係るマイクロブログユーザ属性推定器構築装置によれば、マイクロブログサイトの各ユーザによって作成されたマイクロブログ文書集合から、当該ユーザが利用している外部サイトのURL及びユーザIDを抽出し、当該URLの外部サイトから、ユーザのプロフィール情報を収集してユーザ属性情報を抽出し、マイクロブログ文書集合のうちのプロフィール文書又はマイクロブログ投稿文書から抽出される特徴量と、抽出されたユーザ属性情報とに基づいて、ユーザ属性情報を推定するためのユーザ属性推定器を構築することにより、マイクロブログのプロフィール欄が自由記述形式の文書であるためにユーザ属性情報が不明確である場合であっても、ユーザのユーザ属性情報を得るためのユーザ属性推定器を構築することができる。   As described above, according to the microblog user attribute estimator construction device according to the present embodiment, from the set of microblog documents created by each user of the microblog site, the external site that the user uses Extracting URL and user ID, collecting user profile information from an external site of the URL, extracting user attribute information, and extracting feature value from profile document or microblog post document in microblog document set And a user attribute estimator for estimating the user attribute information based on the extracted user attribute information, so that the profile field of the microblog is a document in a free description format. User attributes for obtaining user attribute information of users even if they are unclear It is possible to build a Joki.

また、プロフィール文書推定器には、「どんなユーザ」が「どんなプロフィール文書を持っているか」ということが学習され、投稿文書推定器には、「どんなユーザ」が「どんな投稿文書を持っているか」ということが学習されることにより、「どんなユーザ」ということが外部サイトを利用することによってうまく学習されるため、精度よくユーザ属性を推定することができる。   The profile document estimator learns “what user” has “what profile document”, and the posted document estimator has “what user” has “what posted document”. As a result of learning, “what kind of user” is learned well by using an external site, the user attributes can be estimated with high accuracy.

また、本実施の形態に係るマイクロブログユーザ属性推定装置によれば、推定対象のユーザによって作成されたマイクロブログ文書集合を収集し、当該マイクロブログ文書集合のプロフィール文書及びマイクロブログ投稿文書から抽出される特徴量と、予め構築された複数のユーザ属性推定器とに基づいて、ユーザ属性推定器毎に、ユーザ属性情報を推定すると共に、プロフィール文書及びマイクロブログ投稿文書から抽出された特徴量の種類数に応じて求められた重みに基づいて、推定されたユーザ属性情報を統合して、推定対象のユーザのユーザ属性情報を推定することにより、マイクロブログのプロフィール欄が自由記述形式の文書であってもユーザ属性を推定することができる。   Further, according to the microblog user attribute estimation device according to the present embodiment, a microblog document set created by the estimation target user is collected and extracted from the profile document and the microblog post document of the microblog document set. And user attribute information for each user attribute estimator based on a plurality of user attribute estimators constructed in advance and types of feature values extracted from profile documents and microblog posting documents Based on the weights determined according to the number, the estimated user attribute information is integrated to estimate the user attribute information of the user to be estimated, so that the microblog profile field is a free-form document. Even user attributes can be estimated.

また、マイクロブログと外部サイトの双方を利用しているユーザを発見してユーザアカウントを紐付け、外部サイトのプロフィール情報を流用することにより、人間の観察を必要としない自動的なアノテーションが可能となる。   Also, by discovering users who use both microblogging and external sites, linking user accounts, and diverting profile information from external sites, automatic annotation that does not require human observation is possible. Become.

また、人間の観察を必要としない自動的なアノテーションが可能となるため、ユーザ属性推定器を自動的に構築することができる。   In addition, since automatic annotation that does not require human observation is possible, a user attribute estimator can be automatically constructed.

また、プロフィール文書とマイクロブログ投稿文書の双方を推定対象とし、両推定結果を信頼度に応じた重みづけによって統合することで、精度の高い推定結果を出力することができる。   In addition, it is possible to output a highly accurate estimation result by setting both the profile document and the microblog posting document as estimation targets and integrating both estimation results by weighting according to the reliability.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、マイクロブログユーザ属性推定器構築装置におけるプロフィール文書推定器構築部240及び投稿文書推定器構築部241、並びにマイクロブログユーザ属性推定装置におけるプロフィール文書推定部63及び投稿文書推定部65では、形態素解析によって、文書を文字列単位に分割する場合を例に説明したが、これに限定されるものではなく、例えば、n-gram分割など他の手法によって、文書を文字列単位に分割しても良い。   For example, the profile document estimator construction unit 240 and the posted document estimator construction unit 241 in the microblog user attribute estimator construction device, and the profile document estimation unit 63 and the posted document estimation unit 65 in the microblog user attribute estimation device perform morphological analysis. However, the present invention is not limited to this. For example, the document may be divided into character strings by other methods such as n-gram division. .

また、マイクロブログユーザ属性推定器構築装置におけるプロフィール文書推定器構築部240及び投稿文書推定器構築部241、並びにマイクロブログユーザ属性推定装置におけるプロフィール文書推定部63及び投稿文書推定部65における、プロフィール文書推定器と投稿文書推定器の各々は、性別推定のための性別推定器から構成される場合を例に説明したが、これに限定されるものではない。プロフィール文書推定器と投稿文書推定器の各々を、ユーザ属性の複数の項目に対する複数の推定器から構成しても良い。   Profile documents in the profile document estimator construction unit 240 and the posted document estimator construction unit 241 in the microblog user attribute estimator construction device, and the profile document estimation unit 63 and the posted document estimation unit 65 in the microblog user attribute estimation device. Each of the estimator and the posted document estimator has been described by way of example of a gender estimator for gender estimation, but is not limited thereto. Each of the profile document estimator and the posted document estimator may be composed of a plurality of estimators for a plurality of items of user attributes.

また、マイクロブログユーザ属性推定器構築装置におけるマイクロブログユーザ属性推定器構築部24では、プロフィール文書推定器及び投稿文書推定器を構築する場合を例に説明したが、これに限定されるものではなく、プロフィール文書推定器と投稿文書推定器の何れか一方のみを構築するようにしても良い。その場合には、マイクロブログユーザ属性推定装置においては、プロフィール文書推定器と投稿文書推定器の何れか一方を用いてユーザ属性の推定を行う。   Further, the microblog user attribute estimator construction unit 24 in the microblog user attribute estimator construction device has been described as an example of constructing the profile document estimator and the posted document estimator, but is not limited thereto. Only one of the profile document estimator and the posted document estimator may be constructed. In that case, in the microblog user attribute estimation device, the user attribute is estimated using either the profile document estimator or the posted document estimator.

また、マイクロブログユーザ属性推定器構築装置におけるプロフィール文書推定器構築部240及び投稿文書推定器構築部241、並びにマイクロブログユーザ属性推定装置におけるプロフィール文書推定部63及び投稿文書推定部65では、TF−IDF、赤池情報量基準、及びカイ二乗値の値を特徴量が持つ値として算出する場合を例に説明したが、これに限定されるものではなく、他の手法により特徴量が持つ値を算出しても良い。   Further, the profile document estimator construction unit 240 and the posted document estimator construction unit 241 in the microblog user attribute estimator construction device, and the profile document estimation unit 63 and the posted document estimation unit 65 in the microblog user attribute estimation device include TF−. The case where the IDF, the Akaike information criterion, and the value of the chi-square value are calculated as values possessed by the feature amount has been described as an example. However, the present invention is not limited to this, and the value possessed by the feature amount is calculated by another method. You may do it.

また、マイクロブログユーザ属性推定装置における推定結果統合部66は、各推定器によって算出した推定結果に基づいて、最も値が大きかったクラスの推定結果を出力する場合を例に説明したが、これに限定されるものではなく、推定結果が、ある閾値以上の値をもつクラスすべてを推定結果として出力してもよい。または、クラスの代わりに確率値を推定結果として出力しても良い。   Further, the estimation result integration unit 66 in the microblog user attribute estimation apparatus has been described as an example in which the estimation result of the class having the largest value is output based on the estimation result calculated by each estimator. The class is not limited, and all classes whose estimation results have a value equal to or greater than a certain threshold may be output as estimation results. Alternatively, probability values may be output as estimation results instead of classes.

また、上述のマイクロブログユーザ属性推定器構築装置は、プロフィール文書推定器記憶部30及び投稿文書推定器記憶部31を備えている場合について説明したが、例えばプロフィール文書推定器記憶部30及び投稿文書推定器記憶部31がマイクロブログユーザ属性推定器構築装置の外部装置に設けられ、マイクロブログユーザ属性推定器構築装置は、外部装置と通信手段を用いて通信することにより、プロフィール文書推定器記憶部30及び投稿文書推定器記憶部31を参照するようにしてもよい。   Moreover, although the above-mentioned microblog user attribute estimator construction apparatus demonstrated the case where the profile document estimator memory | storage part 30 and the contribution document estimator memory | storage part 31 were provided, for example, the profile document estimator memory | storage part 30 and a contribution document An estimator storage unit 31 is provided in an external device of the microblog user attribute estimator construction device, and the microblog user attribute estimator construction device communicates with the external device using a communication means, thereby obtaining a profile document estimator storage unit. 30 and the posted document estimator storage unit 31 may be referred to.

また、上述のマイクロブログユーザ属性推定装置についても、外部装置に設けられた、プロフィール文書推定器記憶部50及び投稿文書推定器記憶部51と通信手段を用いて通信することにより、プロフィール文書推定器記憶部50及び投稿文書推定器記憶部51を参照するようにしてもよい。   In addition, the above-described microblog user attribute estimation device also communicates with the profile document estimator storage unit 50 and the posted document estimator storage unit 51 provided in an external device by using a communication unit, thereby providing a profile document estimator. The storage unit 50 and the posted document estimator storage unit 51 may be referred to.

また、上記実施の形態では、マイクロブログユーザ属性推定器構築装置とマイクロブログユーザ属性推定装置とを別々の装置として構成する場合を例に説明したが、マイクロブログユーザ属性推定器構築装置とマイクロブログユーザ属性推定装置とを1つの装置として構成してもよい。   In the above embodiment, the microblog user attribute estimator construction device and the microblog user attribute estimation device are described as separate devices. However, the microblog user attribute estimator construction device and the microblog are described. The user attribute estimation device may be configured as one device.

また、本実施の形態は、マイクロブログに特に有効であるが、プロフィールにURLが記述でき、プロフィール文書が自由記述形式であって、かつ、文書が投稿できるあらゆるサイトに対して適用することが可能である。   Although this embodiment is particularly effective for microblogging, it can be applied to any site where a URL can be described in a profile, a profile document is in a free description format, and a document can be posted. It is.

また、上記の実施の形態で説明した、マイクロブログユーザ属性を推定すると共に、マイクロブログユーザの投稿を分析するようなマーケティングツール、マイクロブログユーザ属性に応じた商品、サービス、情報のレコメンデーションサービスなどに利用することも可能である。 In addition, as described in the above embodiment, the marketing tool that estimates the microblog user attribute and analyzes the posting of the microblog user, the product, service, information recommendation service according to the microblog user attribute, etc. It is also possible to use it.

上述のマイクロブログユーザ属性推定器構築装置及びマイクロブログユーザ属性推定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   The microblog user attribute estimator construction device and the microblog user attribute estimation device described above have a computer system inside, but if the “computer system” uses a WWW system, a homepage is provided. It also includes the environment (or display environment).

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

2 構築用演算部
6 演算部
10 マイクロブログユーザ属性推定器構築装置
20 マイクロブログ文書データベース
21 構築用プロフィール文書抽出部
22 構築用投稿文書抽出部
23 外部サイトユーザ属性収集部
24 マイクロブログユーザ属性推定器構築部
30 プロフィール文書推定器記憶部
31 投稿文書推定器記憶部
50 プロフィール文書推定器記憶部
51 投稿文書推定器記憶部
60 マイクロブログ文書収集部
62 プロフィール文書抽出部
63 プロフィール文書推定部
64 投稿文書抽出部
65 投稿文書推定部
66 推定結果統合部
100 マイクロブログユーザ属性推定装置
230 外部サイトID抽出部
232 外部サイトユーザプロフィール収集部
234 外部サイトユーザ属性抽出部
240 プロフィール文書推定器構築部
241 投稿文書推定器構築部
2 construction computing unit 6 computing unit 10 microblog user attribute estimator construction device 20 microblog document database 21 construction profile document extraction unit 22 construction posted document extraction unit 23 external site user attribute collection unit 24 microblog user attribute estimator Construction unit 30 Profile document estimator storage unit 31 Posted document estimator storage unit 50 Profile document estimator storage unit 51 Posted document estimator storage unit 60 Microblog document collection unit 62 Profile document extraction unit 63 Profile document estimation unit 64 Post document extraction Unit 65 posted document estimation unit 66 estimation result integration unit 100 microblog user attribute estimation device 230 external site ID extraction unit 232 external site user profile collection unit 234 external site user attribute extraction unit 240 profile document estimator construction unit 241 Written estimator constructing unit

Claims (8)

マイクロブログサイトの複数のユーザの各々について、前記マイクロブログサイトから得られる前記ユーザによって作成された複数のマイクロブログ文書からなるマイクロブログ文書集合から、前記ユーザが利用している前記マイクロブログサイトとは異なる外部サイトのURLを抽出する外部サイト抽出手段と、
前記外部サイト抽出手段によって前記URLが抽出されたユーザの各々について、前記ユーザについて抽出された前記URLの外部サイトから、前記ユーザのプロフィール情報を収集するプロフィール収集手段と、
前記プロフィール収集手段によって前記プロフィール情報が収集されたユーザの各々について、前記ユーザのプロフィール情報から、前記ユーザのプロフィールに関する属性を示すユーザ属性情報を抽出するユーザ属性抽出手段と、
前記ユーザ属性抽出手段によって前記ユーザ属性情報が抽出されたユーザの各々に対する、前記ユーザのマイクロブログ文書集合から抽出される特徴量と、前記ユーザ属性抽出手段によって抽出された前記ユーザのユーザ属性情報とに基づいて、前記マイクロブログ文書集合を作成したユーザのユーザ属性情報を推定するためのユーザ属性推定器を構築するユーザ属性推定器構築手段と、
を含むユーザ属性推定器構築装置。
For each of a plurality of users of a microblog site, the microblog site used by the user from a microblog document set made up of a plurality of microblog documents created by the user obtained from the microblog site An external site extraction means for extracting URLs of different external sites;
Profile collection means for collecting profile information of the user from each external site of the URL extracted for the user for each of the users whose URLs have been extracted by the external site extraction means;
User attribute extraction means for extracting user attribute information indicating attributes relating to the user profile from the user profile information for each of the users whose profile information has been collected by the profile collection means;
For each user from which the user attribute information has been extracted by the user attribute extraction unit, a feature amount extracted from the user's microblog document set, and the user attribute information of the user extracted by the user attribute extraction unit, A user attribute estimator construction means for constructing a user attribute estimator for estimating the user attribute information of the user who created the microblog document set,
A user attribute estimator construction device including:
前記外部サイトは、ソーシャルネットワーキングサービスサイト、ブログサイト、ファイル共有サイト、及び電子掲示板サイトの少なくとも1つである請求項1記載のユーザ属性推定器構築装置。   2. The user attribute estimator construction device according to claim 1, wherein the external site is at least one of a social networking service site, a blog site, a file sharing site, and an electronic bulletin board site. 前記外部サイト抽出手段は、前記複数のユーザの各々について、前記ユーザによって作成された前記マイクロブログ文書集合から、前記ユーザが利用している前記外部サイトのURLを抽出すると共に、前記抽出されたURLに含まれる、前記外部サイトにおける前記ユーザのIDを抽出し、
前記プロフィール収集手段は、前記外部サイト抽出手段によって前記URL及び前記IDが抽出されたユーザの各々について、前記ユーザについて抽出された前記URLの外部サイトから、前記抽出された前記ユーザのIDを用いて、前記ユーザのプロフィール情報を収集する請求項1又は2記載のユーザ属性推定器構築装置。
The external site extracting means extracts, for each of the plurality of users, the URL of the external site used by the user from the set of microblog documents created by the user, and the extracted URL The ID of the user at the external site included in
The profile collection unit uses the extracted user ID from the external site of the URL extracted for the user for each of the users from which the URL and the ID are extracted by the external site extraction unit. The user attribute estimator construction device according to claim 1, wherein the user profile information is collected.
前記ユーザ属性推定器構築手段は、前記ユーザ属性抽出手段によって前記ユーザ属性情報が抽出されたユーザの各々に対する、前記ユーザのマイクロブログ文書集合のうちのプロフィール文書から抽出される特徴量と、前記ユーザ属性抽出手段によって抽出された前記ユーザのユーザ属性情報とに基づいて構築される前記ユーザ属性推定器、及び
前記ユーザ属性抽出手段によって前記ユーザ属性情報が抽出されたユーザの各々に対する、前記ユーザのマイクロブログ文書集合のうちのマイクロブログ投稿文書から抽出される特徴量と、前記ユーザ属性抽出手段によって抽出された前記ユーザのユーザ属性情報とに基づいて構築される前記ユーザ属性推定器の少なくとも一方を構築する請求項1〜請求項3の何れか1項記載のユーザ属性推定器構築装置。
The user attribute estimator construction means includes a feature amount extracted from a profile document in the user's microblog document set for each of the users whose user attribute information has been extracted by the user attribute extraction means, and the user The user attribute estimator constructed based on the user attribute information of the user extracted by the attribute extraction means, and the user's micro for each of the users from which the user attribute information has been extracted by the user attribute extraction means Construct at least one of the user attribute estimators constructed based on the feature amount extracted from the microblog post document in the blog document set and the user attribute information of the user extracted by the user attribute extraction means The user attribute estimator according to any one of claims 1 to 3. Construction device.
前記マイクロブログサイトから得られる、推定対象のユーザによって作成された前記マイクロブログ文書集合を収集するマイクロブログ文書収集手段と、
請求項1〜請求項3の何れか1項記載のユーザ属性推定器構築装置によって構築された複数のユーザ属性推定器の各々に対して、前記マイクロブログ文書収集手段によって収集された前記マイクロブログ文書集合から抽出される特徴量と、前記ユーザ属性推定器とに基づいて、前記推定対象ユーザの前記ユーザ属性情報を推定すると共に、前記複数のユーザ属性推定器の各々に対して、前記ユーザ属性推定器を構築するために用いられた特徴量のうちの前記マイクロブログ文書集合から抽出された特徴量の種類数に応じて求められた重みに基づいて、前記複数のユーザ属性推定器の各々に対して推定された前記ユーザ属性情報を統合して、前記推定対象のユーザの前記ユーザ属性情報を推定する推定手段と、
を含むユーザ属性推定装置。
Microblog document collection means for collecting the microblog document set created by the estimation target user obtained from the microblog site;
The microblog document collected by the microblog document collection means for each of a plurality of user attribute estimators constructed by the user attribute estimator construction device according to any one of claims 1 to 3. The user attribute information of the estimation target user is estimated based on the feature amount extracted from the set and the user attribute estimator, and the user attribute estimation is performed for each of the plurality of user attribute estimators. For each of the plurality of user attribute estimators, based on the weights determined according to the number of types of feature values extracted from the microblog document set among the feature values used to construct a device. And estimating means for estimating the user attribute information of the estimation target user by integrating the user attribute information estimated in
A user attribute estimation device including:
前記マイクロブログサイトから得られる、推定対象のユーザによって作成された前記マイクロブログ文書集合を収集するマイクロブログ文書収集手段と、
前記マイクロブログ文書収集手段によって収集された前記マイクロブログ文書集合のうちのプロフィール文書から抽出される特徴量と、請求項4記載のユーザ属性推定器構築装置によってプロフィール文書を用いて構築された前記ユーザ属性推定器とに基づいて、前記推定対象ユーザの前記ユーザ属性情報を推定すると共に、前記マイクロブログ文書収集手段によって収集された前記マイクロブログ文書集合のうちのマイクロブログ投稿文書から抽出される特徴量と、前記ユーザ属性推定器構築装置によってマイクロブログ投稿文書を用いて構築された前記ユーザ属性推定器とに基づいて、前記推定対象ユーザの前記ユーザ属性情報を推定し、前記ユーザ属性推定器の各々に対して、前記ユーザ属性推定器を構築するために用いられた特徴量のうちの前記プロフィール文書又はマイクロブログ投稿文書から抽出された特徴量の種類数に応じて求められた重みに基づいて、前記ユーザ属性推定器の各々に対して推定された前記ユーザ属性情報を統合して、前記推定対象のユーザの前記ユーザ属性情報を推定する推定手段と、
を含むユーザ属性推定装置。
Microblog document collection means for collecting the microblog document set created by the estimation target user obtained from the microblog site;
The feature amount extracted from the profile document in the microblog document collection collected by the microblog document collection unit, and the user constructed using the profile document by the user attribute estimator construction device according to claim 4. Based on the attribute estimator, the user attribute information of the estimation target user is estimated, and the feature amount extracted from the microblog post document in the microblog document collection collected by the microblog document collection unit And based on the user attribute estimator constructed using the microblog post document by the user attribute estimator construction device, the user attribute information of the estimation target user is estimated, and each of the user attribute estimators For the feature used to construct the user attribute estimator The user attribute information estimated for each of the user attribute estimators is integrated based on weights determined according to the number of types of feature values extracted from the profile document or microblog post document. Estimating means for estimating the user attribute information of the estimation target user;
A user attribute estimation device including:
外部サイト抽出手段、プロフィール収集手段、ユーザ属性抽出手段、及びユーザ属性推定器構築手段を含むユーザ属性推定器構築装置におけるユーザ属性推定器構築方法であって、
前記外部サイト抽出手段によって、マイクロブログサイトの複数のユーザの各々について、前記マイクロブログサイトから得られる前記ユーザによって作成された複数のマイクロブログ文書からなるマイクロブログ文書集合から、前記ユーザが利用している前記マイクロブログサイトとは異なる外部サイトのURLを抽出するステップと、
前記プロフィール収集手段によって、前記外部サイト抽出手段によって前記URLが抽出されたユーザの各々について、前記ユーザについて抽出された前記URLの外部サイトから、前記ユーザのプロフィール情報を収集するステップと、
前記ユーザ属性抽出手段によって、前記プロフィール収集手段によって前記プロフィール情報が収集されたユーザの各々について、前記ユーザのプロフィール情報から、前記ユーザのプロフィールに関する属性を示すユーザ属性情報を抽出するステップと、
前記ユーザ属性推定器構築手段によって、前記ユーザ属性抽出手段によって前記ユーザ属性情報が抽出されたユーザの各々に対する、前記ユーザのマイクロブログ文書集合から抽出される特徴量と、前記ユーザ属性抽出手段によって抽出された前記ユーザのユーザ属性情報とに基づいて、前記マイクロブログ文書集合を作成したユーザのユーザ属性情報を推定するためのユーザ属性推定器を構築するステップと、
を含むユーザ属性推定器構築方法。
A user attribute estimator construction method in a user attribute estimator construction device including external site extraction means, profile collection means, user attribute extraction means, and user attribute estimator construction means,
For each of a plurality of users of the microblog site by the external site extraction means, the user uses from a microblog document set consisting of a plurality of microblog documents created by the user obtained from the microblog site. Extracting a URL of an external site different from the microblogging site,
Collecting the user's profile information from the external site of the URL extracted for the user for each of the users whose URL has been extracted by the external site extraction means by the profile collection means;
Extracting user attribute information indicating an attribute related to the user's profile from the user's profile information for each of the users whose profile information has been collected by the profile collecting means by the user attribute extracting means;
Features extracted from the user's microblog document set for each user whose user attribute information has been extracted by the user attribute extraction unit by the user attribute estimator construction unit, and extracted by the user attribute extraction unit Building a user attribute estimator for estimating the user attribute information of the user who created the microblog document set based on the user attribute information of the user,
A user attribute estimator construction method including:
コンピュータを、請求項1〜請求項4の何れか1項記載のユーザ属性推定器構築装置、あるいは請求項5又は6項記載のユーザ属性推定装置の各手段として機能させるためのプログラム。   The program for functioning a computer as each means of the user attribute estimation device construction apparatus of any one of Claims 1-4, or the user attribute estimation apparatus of Claim 5 or 6.
JP2012271450A 2012-12-12 2012-12-12 User attribute estimator construction device, method, user attribute estimation device, and program Expired - Fee Related JP5882187B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012271450A JP5882187B2 (en) 2012-12-12 2012-12-12 User attribute estimator construction device, method, user attribute estimation device, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012271450A JP5882187B2 (en) 2012-12-12 2012-12-12 User attribute estimator construction device, method, user attribute estimation device, and program

Publications (2)

Publication Number Publication Date
JP2014115948A JP2014115948A (en) 2014-06-26
JP5882187B2 true JP5882187B2 (en) 2016-03-09

Family

ID=51171847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012271450A Expired - Fee Related JP5882187B2 (en) 2012-12-12 2012-12-12 User attribute estimator construction device, method, user attribute estimation device, and program

Country Status (1)

Country Link
JP (1) JP5882187B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074329B2 (en) * 2017-03-23 2021-07-27 Nec Corporation Authentication device and authentication method
JP2022190893A (en) * 2021-06-15 2022-12-27 株式会社日立製作所 Computer system and tenant registration support method

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4808207B2 (en) * 2007-12-11 2011-11-02 ヤフー株式会社 Advertisement distribution apparatus, advertisement distribution method, advertisement distribution program, and advertisement bidding method
US8612435B2 (en) * 2009-07-16 2013-12-17 Yahoo! Inc. Activity based users' interests modeling for determining content relevance
US20110126122A1 (en) * 2009-11-20 2011-05-26 George Forman Systems and methods for generating profiles for use in customizing a website
JP2014099045A (en) * 2012-11-14 2014-05-29 Nippon Telegr & Teleph Corp <Ntt> Profile estimation device, method, and program

Also Published As

Publication number Publication date
JP2014115948A (en) 2014-06-26

Similar Documents

Publication Publication Date Title
CN109299994B (en) Recommendation method, device, equipment and readable storage medium
KR101708508B1 (en) Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
US9785888B2 (en) Information processing apparatus, information processing method, and program for prediction model generated based on evaluation information
US20210034819A1 (en) Method and device for identifying a user interest, and computer-readable storage medium
US20170091805A1 (en) Advertisement Recommendation Method and Advertisement Recommendation Server
US20150006512A1 (en) Automatic Generation of Headlines
US8990208B2 (en) Information management and networking
US20160078358A1 (en) Determining trustworthiness and compatibility of a person
US11238233B2 (en) Artificial intelligence engine for generating semantic directions for websites for automated entity targeting to mapped identities
JP2017107569A (en) Method, program, and server device for transmitting product related information
EP2407897A1 (en) Device for determining internet activity
CN105956197A (en) Social media graph representation model-based social risk event extraction method
JP2017142796A (en) Identification and extraction of information
KR101491628B1 (en) Method, apparatus and system for extracting keyword affecting for mood change of the public using blog
WO2014107874A1 (en) Method and apparatus for enriching social media to improve personalized user experience
KR101735312B1 (en) Apparatus and system for detecting complex issues based on social media analysis and method thereof
CN110458296B (en) Method and device for marking target event, storage medium and electronic device
JP5754854B2 (en) Contributor analysis apparatus, program and method for analyzing poster profile information
US10417578B2 (en) Method and system for predicting requirements of a user for resources over a computer network
US20180129703A1 (en) Method and system for retrieval of data
CN105378717A (en) Method for user categorization in social media, computer program, and computer
JP2014203442A (en) Recommendation information generation device and recommendation information generation method
Yigit et al. Extended topology based recommendation system for unidirectional social networks
Zhao et al. Teenagers’ stress detection based on time-sensitive micro-blog comment/response actions
Kuo et al. Integrated microblog sentiment analysis from users’ social interaction patterns and textual opinions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160203

R150 Certificate of patent or registration of utility model

Ref document number: 5882187

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees