JP5973927B2 - Feature estimation device and feature estimation method - Google Patents
Feature estimation device and feature estimation method Download PDFInfo
- Publication number
- JP5973927B2 JP5973927B2 JP2013018537A JP2013018537A JP5973927B2 JP 5973927 B2 JP5973927 B2 JP 5973927B2 JP 2013018537 A JP2013018537 A JP 2013018537A JP 2013018537 A JP2013018537 A JP 2013018537A JP 5973927 B2 JP5973927 B2 JP 5973927B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- estimation
- feature
- feature estimation
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、ユーザの特徴推定を行う特徴推定装置及び特徴推定方法に関する。 The present invention relates to a feature estimation apparatus and a feature estimation method for estimating a feature of a user.
従来、インターネット上の情報を用いたユーザ特徴推定においては、推定対象の本人、及び当該本人の友人等の本人と繋がりのあるユーザのデータ(テキスト情報等)に基づく手法が用いられている(下記特許文献1参照)。 Conventionally, in user feature estimation using information on the Internet, a method based on data (text information or the like) of a person who is connected to the person to be estimated and a person such as a friend of the person concerned (text information below) is used. Patent Document 1).
しかしながら、上記の方法では以下に示すような問題点があった。ユーザの特徴を示す情報として、例えばテキスト情報中に出現する人物名や地名等の固有名詞及びその出現頻度データを用いることができる。このようなユーザの特徴は、ニュースや商品を推薦(レコメンド)する手法に用いられる。このようなユーザ特徴の抽出元として、例えばTwitter(登録商標)と呼ばれるマイクロブログにおいてユーザが投稿したテキストやユーザ間の繋がりを示す情報を利用することが考えられる。 However, the above method has the following problems. As information indicating user characteristics, for example, proper nouns such as person names and place names appearing in text information and their appearance frequency data can be used. Such user characteristics are used in a method of recommending (recommending) news and products. As such a user feature extraction source, for example, it is conceivable to use text posted by a user or information indicating a connection between users in a microblog called Twitter (registered trademark).
しかしながら、このようなマイクロブログに投稿されるテキストは、雨が降ってきた、電車が遅延している等、通常のテキスト文書と比較してユーザの特徴推定に用いることができる固有名詞の出現頻度が低いテキストであることが多い。即ち、上記のようにマイクロブログの情報には、本人及び本人と直接繋がりのある友人等のデータ内にユーザ特徴推定に活用可能なデータが少ない、又は存在しない場合がある。その場合は、十分な精度のユーザ特徴推定を行うことができないという問題があった。 However, the text posted to such microblogs is the frequency of appearance of proper nouns that can be used for user feature estimation compared to normal text documents, such as raining, train delays, etc. Is often low text. That is, as described above, the microblog information may have little or no data that can be used for user feature estimation in the data of the person and friends directly connected to the person. In that case, there is a problem that the user feature estimation with sufficient accuracy cannot be performed.
本発明は、上記の問題点に鑑みてなされたものであり、特徴の推定対象となるユーザ及び当該ユーザと直接繋がりのあるユーザに係るデータからユーザ特徴推定に活用可能なデータを十分に得られない場合であっても、十分な精度のユーザ特徴推定を行うことができる特徴推定装置及び特徴推定方法を提供することを目的とする。 The present invention has been made in view of the above-described problems, and sufficiently usable data for user feature estimation can be obtained from data relating to a user to be a feature estimation target and a user directly connected to the user. It is an object of the present invention to provide a feature estimation device and a feature estimation method that can perform user feature estimation with sufficient accuracy even when there is no such feature.
上記の目的を達成するために、本発明に係る特徴推定装置は、ユーザの特徴推定を行う特徴推定装置であって、複数のユーザ間のリンク関係を示すリンク情報を取得するリンク情報取得手段と、リンク情報取得手段によって取得されたリンク情報に基づいて、予め設定された1以上の第1のユーザと予め設定された1以上の第2のユーザとの間の類似度を算出する類似度算出手段と、類似度算出手段によって算出された、第2のユーザと、推定対象のユーザとリンク関係を有する第1のユーザとの間の類似度に基づいて、当該推定対象のユーザの特徴推定に利用する第2のユーザを特定する特定手段と、特定手段によって特定された第2のユーザに関するデータを用いて推定対象のユーザの特徴推定を行う特徴推定手段と、特徴推定手段によって行われたユーザの特徴推定を示す情報を出力する出力手段と、を備える。 In order to achieve the above object, a feature estimation apparatus according to the present invention is a feature estimation apparatus that performs user feature estimation, and includes link information acquisition means for acquiring link information indicating a link relationship between a plurality of users. Similarity calculation for calculating the similarity between one or more preset first users and one or more preset second users based on the link information acquired by the link information acquisition means Based on the similarity between the second user calculated by the means and the similarity calculating means, and the first user having a link relationship with the estimation target user, the feature estimation of the estimation target user is performed. A specifying unit that specifies a second user to be used, a feature estimating unit that performs feature estimation of a user to be estimated using data related to the second user specified by the specifying unit, and a feature estimating unit And an output means for outputting information indicating characteristics estimation of the user made Te.
本発明に係る本文抽出装置では、第2のユーザと、推定対象のユーザとリンク関係を有する第1のユーザとの間の類似度に基づいて、当該推定対象のユーザの特徴推定に利用する第2のユーザが特定され、第2のユーザに関するデータからユーザの特徴推定が行われる。ここで、第2のユーザは、推定対象のユーザと直接リンク関係を有していなくてもよい。従って、本発明に係る本文抽出装置によれば、第2のユーザをユーザ特徴推定に活用可能なデータを有するユーザとすれば、特徴の推定対象となるユーザ及び当該ユーザと直接繋がりのあるユーザに係るデータからユーザ特徴推定に活用可能なデータを十分に得られない場合であっても、十分な精度のユーザ特徴推定を行うことができる。 In the text extracting device according to the present invention, based on the degree of similarity between the second user and the first user having a link relationship with the estimation target user, the second text extraction device is used for feature estimation of the estimation target user. Two users are identified, and user feature estimation is performed from data relating to the second user. Here, the second user may not have a direct link relationship with the estimation target user. Therefore, according to the text extracting device of the present invention, if the second user is a user who has data that can be used for user feature estimation, the user who is the target of feature estimation and the user who is directly connected to the user are identified. Even if sufficient data that can be used for user feature estimation cannot be obtained from such data, it is possible to perform user feature estimation with sufficient accuracy.
類似度算出手段は、第1のユーザとリンク関係があるユーザ、及び第2のユーザとリンク関係があるユーザの一致度に基づいて、類似度を算出する、こととしてもよい。この構成によれば、計算量の少ない演算により、ユーザ間の類似度を算出することができる。 The similarity calculation means may calculate the similarity based on the degree of coincidence of the user having a link relationship with the first user and the user having a link relationship with the second user. According to this configuration, the similarity between users can be calculated by a calculation with a small amount of calculation.
類似度算出手段は、第1のユーザとリンク関係があるユーザの数、及び第2のユーザとリンク関係があるユーザの数のうち少ないものを分母、第1のユーザ及び第2のユーザの双方とリンク関係があるユーザの数を分子とした数を一致度とする、こととしてもよい。この構成によれば、第1のユーザと第2のユーザとの何れかとリンク関係を有するユーザが極端に少ない場合等であっても、正確にユーザ間の類似度を算出することができる。 The similarity calculation means uses a smaller denominator of both the number of users linked to the first user and the number of users linked to the second user, both the first user and the second user. The number of users who have a link relationship with the numerator may be used as the degree of coincidence. According to this configuration, even when the number of users having a link relationship with either the first user or the second user is extremely small, the similarity between users can be accurately calculated.
特徴推定手段は、第2のユーザに関するデータとして当該第2のユーザに係るテキストに含まれる単語を用いて推定対象のユーザの特徴推定を行う、こととしてもよい。この構成によれば、適切かつ確実にユーザの特徴推定を行うことができる。 The feature estimation means may perform feature estimation of the estimation target user using a word included in the text relating to the second user as data relating to the second user. According to this configuration, it is possible to appropriately and reliably perform user feature estimation.
特徴推定手段は、推定対象のユーザに係るテキストに含まれる単語も用いて推定対象のユーザの特徴推定を行う、こととしてもよい。この構成によれば、ユーザ自身の情報に基づいてより適切にユーザの特徴推定を行うことができる。 The feature estimation means may perform feature estimation of the estimation target user using a word included in the text related to the estimation target user. According to this structure, a user's characteristic estimation can be performed more appropriately based on a user's own information.
リンク情報取得手段は、複数のユーザ間のリンク関係の方向も示すリンク情報を取得する、こととしてもよい。この構成によれば、リンクの方向にも基づいて適切にユーザの特徴推定を行うことができる。 The link information acquisition means may acquire link information that also indicates directions of link relationships between a plurality of users. According to this configuration, it is possible to appropriately perform user feature estimation based on the link direction.
ところで、本発明は、上記のように特徴推定装置の発明として記述できる他に、以下のように特徴推定方法の発明としても記述することができる。これはカテゴリが異なるだけで、実質的に同一の発明であり、同様の作用及び効果を奏する。 By the way, the present invention can be described as an invention of a feature estimation method as described above, and can also be described as an invention of a feature estimation method as follows. This is substantially the same invention only in different categories, and has the same operations and effects.
即ち、本発明に係る特徴推定方法は、ユーザの特徴推定を行う特徴推定方法であって、複数のユーザ間のリンク関係を示すリンク情報を取得するリンク情報取得ステップと、リンク情報取得ステップにおいて取得されたリンク情報に基づいて、予め設定された1以上の第1のユーザと予め設定された1以上の第2のユーザとの間の類似度を算出する類似度算出ステップと、類似度算出ステップにおいて算出された、第2のユーザと、推定対象のユーザとリンク関係を有する第1のユーザとの間の類似度に基づいて、当該推定対象のユーザの特徴推定に利用する第2のユーザを特定する特定ステップと、特定ステップにおいて特定された第2のユーザに関するデータを用いて推定対象のユーザの特徴推定を行う特徴推定ステップと、特徴推定ステップにおいて行われたユーザの特徴推定を示す情報を出力する出力ステップと、を含む。 That is, the feature estimation method according to the present invention is a feature estimation method for estimating a feature of a user, and is acquired in a link information acquisition step for acquiring link information indicating a link relationship between a plurality of users, and a link information acquisition step. A similarity calculation step for calculating a similarity between one or more preset first users and one or more preset second users based on the link information, and a similarity calculation step Based on the similarity between the second user calculated in step 1 and the first user having a link relationship with the estimation target user, the second user to be used for feature estimation of the estimation target user is A specifying step for specifying, a feature estimating step for performing feature estimation of the user to be estimated using data relating to the second user specified in the specifying step, and a feature estimating step Tsu comprising an output step of outputting information indicating characteristics estimation of a user performed in up, the.
本発明によれば、特徴の推定対象となるユーザ及び当該ユーザと直接繋がりのあるユーザに係るデータからユーザ特徴推定に活用可能なデータを十分に得られない場合であっても、十分な精度のユーザ特徴推定を行うことができる。 According to the present invention, even when data that can be used for user feature estimation cannot be sufficiently obtained from data related to a user whose feature is to be estimated and a user who is directly connected to the user, sufficient accuracy can be obtained. User feature estimation can be performed.
以下、図面と共に本発明に係る特徴推定装置及び特徴推定方法について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。 Hereinafter, a feature estimation apparatus and a feature estimation method according to the present invention will be described in detail with reference to the drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted.
図1に本実施形態に係る特徴推定装置10を示す。特徴推定装置10は、ユーザの特徴推定を行う装置である。推定されたユーザの特徴は、例えば、コンテンツ配信を行う際に利用される。特徴推定装置10は、具体的には例えば、インターネットN等のネットワークに接続されるサーバ装置である。本実施形態では、ユーザの特徴推定は、例えば、Twitter等のマイクロブログのデータを利用して行われる。本実施形態では、Twitterを例として説明する。
FIG. 1 shows a
Twitterは、各ユーザがテキスト(ツイート)を投稿するシステムである。投稿されたテキストは、Twitterのシステムにおいて他のユーザから参照される。本実施形態では、当該テキストをユーザデータとしてユーザの特徴推定に利用する。なお、テキストであるユーザデータには、ツイートだけではなく、ユーザにおいて登録され他のユーザから参照可能なユーザの自己紹介文が含まれていてもよい。Twitterにおける各ユーザ(アカウント)には、ユーザを特定する情報であるユーザIDが付与されている。 Twitter is a system in which each user posts a text (tweet). The posted text is referred to by other users in the Twitter system. In the present embodiment, the text is used as user data for user feature estimation. Note that the user data, which is text, may include not only tweets but also user self-introduction sentences registered by the user and referable by other users. Each user (account) in Twitter is given a user ID, which is information for identifying the user.
Twitterにおいては、別のユーザを登録して当該別のユーザからの投稿を表示できる機能がある。このようにあるユーザが別のユーザを登録することをフォローと呼ぶ。図2に示すように、例えば、あるユーザ30は、一般ユーザ31である友人A、友人B、友人n及び有名人32をフォローしている。このようにTwitterでは、ユーザ間にリンクが設けられる。また、フォローは、フォローしている側からフォローされている側への方向のリンク関係である。本実施形態では、当該リンク関係をユーザの特徴推定に利用する。なお、上記において、有名人とは、芸能人、政治家、タレント等のフォローされている数が多いユーザである。
Twitter has the function of registering another user and displaying posts from the other user. This registration of one user by another user is called follow. As shown in FIG. 2, for example, a
上述したように、Twitterにおける通常のユーザの投稿は、ユーザの特徴推定を行うための情報が含まれていないことが多い。一方で、ユーザの特徴推定に活用可能なテキストを頻繁に投稿するユーザがいる。例えば、スポーツ新聞やタレントグループの広報担当者である。これらのユーザの投稿は、ニュースや芸能人に関する情報であるため、固有名詞が多く含まれており、ユーザの特徴推定に活用可能である。本実施形態では、これらのユーザを推定補助者と呼ぶ。 As described above, an ordinary user's post in Twitter often does not include information for performing user feature estimation. On the other hand, there are users who frequently post texts that can be used for user feature estimation. For example, a spokesperson for a sports newspaper or a talent group. Since these user posts are information about news and entertainers, they contain many proper nouns and can be used to estimate user characteristics. In this embodiment, these users are called estimation assistants.
推定対象のユーザと推定補助者との間に直接リンク関係がある場合(例えば、推定対象のユーザが推定補助者をフォローしている場合)、推定補助者の投稿をユーザの特徴推定に利用することができる。しかし、直接リンク関係がない場合には、通常、推定補助者の投稿をユーザの特徴推定に利用することはできない。本実施形態では、推定対象のユーザと推定補助者との間に直接リンク関係がない場合であっても、推定補助者の投稿をユーザの特徴推定に利用できるようにするものである。図3に示すように、有名人32及び推定補助者33は、多くの一般ユーザ31(例えば、有名人32及び推定補助者33以外のユーザ)からフォローされている。図3において、ハッチングされた丸で示す一般ユーザ31は、有名人32及び推定補助者33の両方をフォローしている。
When there is a direct link relationship between the estimation target user and the estimation assistant (for example, when the estimation target user follows the estimation assistant), the posting of the estimation assistant is used for user feature estimation. be able to. However, when there is no direct link relationship, it is usually impossible to use the post of the estimation assistant for user feature estimation. In the present embodiment, even if there is no direct link relationship between the estimation target user and the estimation assistant, the posting of the estimation assistant can be used for user feature estimation. As shown in FIG. 3, the
なお、本実施形態では、Twitterを例として説明するが、上記のユーザデータ及びリンク関係を利用できるものであれば任意のシステムや情報を利用して本発明を実施することができる。例えば、SNS(ソーシャル・ネットワーキング・サービス)におけるユーザデータとユーザ間のリンク関係とを用いることができる。 In the present embodiment, Twitter is described as an example, but the present invention can be implemented using any system and information as long as the user data and the link relationship described above can be used. For example, user data in SNS (Social Networking Service) and a link relationship between users can be used.
引き続いて、本実施形態に係る特徴推定装置10の機能について詳細に説明する。特徴推定装置10は、ユーザの特徴推定に用いるデータを取得(受信)できるように、Twitterのサービスを提供するサーバとインターネットN等のネットワークを介して接続されている。図1に示すように、特徴推定装置10は、有名人ユーザID記憶部11と、推定補助者ユーザID記憶部12と、データ取得部13と、リンク情報記憶部14と、ユーザデータ記憶部15と、類似度算出部16と、特定部17と、ユーザ特徴生成部18と、ユーザ特徴記憶部19とを備えて構成される。
Subsequently, the function of the
有名人ユーザID記憶部11は、本発明における第1のユーザとして有名人のアカウントのユーザIDを記憶する手段である。上述したように有名人は、多数の一般ユーザから多くフォローされているユーザである。どのユーザが有名人であるかは特徴推定装置10の管理者等によって予め設定され、有名人のユーザIDは当該管理者等により特徴推定装置10に入力されている。有名人ユーザID記憶部11は、1以上の有名人のユーザIDを、例えばリスト(一覧)で記憶している。なお、本実施形態では、有名人を第1のユーザとしているが、第1のユーザは必ずしも有名である必要はなく、本発明における第1のユーザとしての適格を満たすユーザであれば任意のユーザを第1のユーザとしてもよい。
The celebrity user
推定補助者ユーザID記憶部12は、本発明における第2のユーザとして推定補助者のアカウントのユーザIDを記憶する手段である。上述したように推定補助者は、ユーザの特徴推定に活用可能な投稿等をするユーザであり、また、多数の一般ユーザから多くフォローされているユーザである。どのユーザが推定補助者であるかは特徴推定装置10の管理者等によって予め設定され、推定補助者のユーザIDは当該管理者等により特徴推定装置10に入力されている。推定補助者ユーザID記憶部12は、1以上の推定補助者のユーザIDを、例えばリスト(一覧)で記憶している。
The estimated assistant user
データ取得部13は、ユーザの特徴推定に必要なデータを取得する手段である。データ取得部13は、例えば、インターネットN経由でTwitterのサーバに対してデータを要求することで、当該データを取得(受信)する。具体的には、データ取得部13は、複数のユーザ間のリンク関係を示すリンク情報を取得するリンク情報取得手段である。リンク情報は、上述したユーザ間のフォロー関係を示す情報である。
The
データ取得部13は、推定対象のユーザのユーザIDを入力する。この入力は、例えば、特徴推定装置10に接続される端末から、特徴推定装置10の管理者等による当該端末の操作により送信されるユーザIDを受信することにより行われる。データ取得部13は、このユーザIDをキーとして、Twitterのサーバから当該ユーザがフォローしているユーザのユーザIDのリスト(一覧)をリンク情報として取得する。なお、このリンク情報は、推定対象のユーザから別のユーザへの方向のリンクを示すものである。なお、データ取得部13は、推定対象のユーザに係るリンク情報を取得する際に、有名人ユーザID記憶部11に記憶されている有名人のユーザIDを参照して、推定対象のユーザと有名人との間のリンク関係(当該ユーザから有名人へのフォロー関係)に係るリンク情報のみを取得することとしてもよい。
The
また、データ取得部13は、有名人ユーザID記憶部11から有名人のユーザIDを読み出して、各有名人のユーザIDをキーとして、Twitterのサーバから当該有名人をフォローしているユーザ(当該ユーザが有名人をフォローしている)のユーザIDのリスト(一覧)をリンク情報として取得する。なお、このリンク情報は、当該有名人以外のユーザから当該有名人への方向のリンクを示すものである。
In addition, the
また、データ取得部13は、推定補助者ユーザID記憶部12から推定補助者のユーザIDを読み出して、各推定補助者のユーザIDをキーとして、Twitterのサーバから当該推定補助者をフォローしているユーザ(当該ユーザが推定補助者をフォローしている)のユーザIDのリスト(一覧)をリンク情報として取得する。なお、このリンク情報は、当該推定補助者以外のユーザから当該推定補助者への方向のリンクを示すものである。データ取得部13は、上記のように取得したユーザ間のフォロー関係を示すリンク情報をリンク情報記憶部14に入力する。
In addition, the
データ取得部13は、ユーザの特徴推定に用いる推定補助者に関するデータを取得する。具体的には、データ取得部13は、推定補助者のユーザIDをキーとして、Twitterのサーバから当該推定補助者の投稿(ツイート)であるテキスト、及び当該推定補助者の自己紹介文であるテキストを取得する。また、データ取得部13は、推定対象のユーザのユーザIDをキーとして、Twitterのサーバから当該推定対象のユーザの投稿(ツイート)であるテキスト、及び当該推定補助者の自己紹介文であるテキストを取得する。また、上記と同様に有名人の投稿及び自己紹介文を取得することとしてもよい。
The
なお、データ取得部13は、各ユーザの投稿全てを取得することとしてもよいし、例えば、過去一か月分等の一定期間の投稿のみを取得することとしてもよい。データ取得部13は、上記のように取得した各ユーザに係るテキストをユーザデータ記憶部15に入力する。
Note that the
また、上記の例では、各データをインターネットN等のネットワークを介して(外部インターネット環境より)取得しているが、例えば、特徴推定装置10自体がマイクロブログのサービスを提供している等、自身のサーバ内から取得可能であればそこから取得してもよい。このような構成にすることで、各データの取得にかかる時間が短縮され、装置の動作パフォーマンスが向上する。
In the above example, each data is acquired via a network such as the Internet N (from an external Internet environment). For example, the
リンク情報記憶部14は、データ取得部13から入力されたリンク情報を記憶する。例えば、フォロー元のユーザのユーザIDとフォロー先のユーザのユーザIDとを対応付けて記憶しておく。
The link
ユーザデータ記憶部15は、データ取得部13から入力された各ユーザに係るテキストを記憶する。例えば、ユーザのユーザIDとテキストとを対応付けて記憶しておく。
The user
類似度算出部16は、リンク情報記憶部14に記憶されたリンク情報に基づいて、有名人と推定補助者との間の類似度を算出する類似度算出手段である。類似度算出部16は、各有名人と各推定補助者との組み合わせのそれぞれに対して類似度を算出する。類似度算出部16は、リンク情報によって示される、有名人をフォローしているユーザ(有名人とリンク関係があるユーザ)、及び推定補助者をフォローしているユーザ(推定補助者とリンク関係があるユーザ)の一致度に基づいて上記の類似度を算出する。
The
具体的には、類似度算出部16は、有名人をフォローしているユーザの数(ユーザIDの数)、及び推定補助者をフォローしているユーザの数(ユーザIDの数)をカウントする。また、有名人と推定補助者との両方をフォローしているユーザ(有名人及び推定補助者の双方とリンク関係があるユーザ)の数(ユーザIDの数)をカウントする。類似度算出部16は、カウントした、有名人をフォローしているユーザの数、及び推定補助者をフォローしているユーザの数のうち小さいものを分母、有名人と推定補助者との両方をフォローしているユーザの数を分子とした値(シンプソン(Simpson)係数)を類似度として算出する。
Specifically, the
上記の類似度は、有名人と推定補助者とにフォローしているユーザが類似しているか示すものである。これは、有名人と推定補助者との特徴の類似を示しているものともいえる。なお、類似度算出部16は、推定対象のユーザがフォローしている各有名人と、全ての推定補助者との間のみ類似度を算出することとしてもよい。また、上記の類似度の算出は、一例であり、有名人のリンク関係と推定補助者のリンク関係とに基づいて有名人と推定補助者との間の類似度を算出する方法であれば任意の方法を用いることができる。
The degree of similarity indicates whether the user following the celebrity and the estimated assistant is similar. It can be said that this shows the similarities between the celebrity and the estimated assistant. The
類似度算出部16は、算出した類似度と閾値とを比較して閾値を超えているか否かを判断する。閾値は、特徴推定装置10の管理者等によって予め設定され、特徴推定装置10に入力されて類似度算出部16に記憶されている。閾値は、例えば、有名人と推定補助者とが類似していると判断しえる値とされる。類似度算出部16は、類似度が閾値を超えると判断した場合、当該類似度に係る有名人のユーザID、当該類似度に係る推定補助者のユーザID及び類似度を対応付けて特定部17に出力する。この情報は、例えば、図4のテーブルに示すような情報である。
The
特定部17は、類似度算出部16によって算出された類似度に基づいて、推定対象のユーザの特徴推定に利用する推定補助者を特定する特定手段である。特定部17は、まず、リンク情報記憶部14に記憶されているリンク情報と有名人ユーザID記憶部11に記憶されている有名人のユーザIDとを参照して、推定対象のユーザがフォローしている有名人(推定対象のユーザとリンク関係を有する有名人)を特定する。
The specifying
続いて、特定部17は、類似度算出部16から入力された情報によって、当該有名人と対応付いている推定補助者を推定対象のユーザの特徴推定に利用する推定補助者として特定する。この推定補助者は、推定対象のユーザがフォローしている有名人との間で閾値を超える類似度を有する推定補助者である。
Subsequently, the specifying
このように特定された推定補助者は、ユーザがフォローしている有名人と特徴が類似していると考えられる。従って、ユーザとこの推定補助者との間に直接的なリンク関係が無かったとしても、推定補助者に関するデータを用いてユーザの特徴推定が可能になる。例えば、有名人がタレントグループに属するタレントであり、当該有名人と類似する推定補助者が当該タレントグループの広報担当者であった場合、ユーザと広報担当者との間にフォロー関係が無かったとしても推定補助者の投稿をユーザの特徴推定に用いることができる。 The presumed assistant identified in this way is considered to have similar characteristics to the celebrity that the user is following. Therefore, even if there is no direct link relationship between the user and the estimation assistant, it is possible to estimate the user's characteristics using data on the estimation assistant. For example, if a celebrity is a talent belonging to a talent group and the estimated assistant similar to the celebrity is a spokesperson for the talent group, even if there is no follow-up relationship between the user and the spokesperson The assistant's post can be used for user feature estimation.
上述したように例えば、Twitterにおいては、各ユーザは特徴推定に用いることができる投稿をすることは少ない。それは、例えば有名人であっても同様である。従って、ユーザが有名人に興味がありフォローをしていたとしても、当該有名人の投稿からユーザの特徴推定を行うことは難しい。しかし、上述した推定補助者のような特殊なユーザは、特徴推定を行いえる投稿をすることが多い。例えば、タレントグループの広報担当者は、タレントグループに係る情報(例えば、出演するテレビ番組やリリースした楽曲名)を投稿する。 As described above, for example, in Twitter, each user rarely makes a post that can be used for feature estimation. The same applies to celebrities, for example. Therefore, even if the user is interested in a celebrity and is following, it is difficult to estimate the user's feature from the celebrity's post. However, special users such as the above-mentioned estimation assistants often post that can perform feature estimation. For example, a spokesperson for the talent group posts information related to the talent group (for example, a TV program to appear or the name of a released song).
特定部17は、特定した、特徴推定に利用する推定補助者を示す情報(例えば、推定補助者)をユーザ特徴生成部18に出力する。なお、特定部17は、1人の推定対象のユーザに対して、上記の判断基準を満たす複数の推定補助者を特定することとしてもよい。あるいは、類似度の順に特定の数に推定補助者(例えば、1人の推定補助者)を特定することとしてもよい。
The specifying
ユーザ特徴生成部18は、特定部17から入力された情報によって示される推定補助者に関するデータを用いて推定対象のユーザの特徴推定を行う特徴推定手段である。ユーザ特徴生成部18は、当該推定補助者に関するデータとして、ユーザデータ記憶部15に記憶されている、当該推定補助者に係るテキストを読み出す。ユーザ特徴生成部18は、当該推定補助者に係るテキストに含まれる単語を用いて推定対象のユーザの特徴推定を行う。ユーザ特徴生成部18は、ユーザの特徴を示す情報として、予め設定された単語である特徴語に対応付けられた数値の情報を生成する。この情報は、特徴語の数の次元のベクトルとなる。当該特徴量は、特徴語に対応付けられた数値が大きいほどその特徴語によって示される特徴をユーザが有することを示す。なお、特徴語は、特徴推定装置10の管理者等によって用意された辞書に登録されて、ユーザ特徴生成部18に記憶されている。
The user
ユーザ特徴生成部18は、特徴語毎に推定補助者に係るテキストにおける特徴語の出現回数をカウントする。ユーザ特徴生成部18は、特徴語毎の出現回数に基づく値を特徴量とする。例えば、特徴語毎の出現回数自体をユーザの特徴を示す情報する。
The user
また、ユーザ特徴生成部18は、推定補助者に係るテキストだけでなく、推定対象のユーザに係るテキストに含まれる単語も用いて推定対象のユーザの特徴推定を行うこととしてもよい。その場合、ユーザ特徴生成部18は、ユーザデータ記憶部15に記憶されている、当該推定対象のユーザに係るテキストを読み出す。ユーザ特徴生成部18は、特徴語毎に推定対象のユーザに係るテキストにおける特徴語の出現回数をカウントする。ユーザ特徴生成部18は、推定補助者に係るテキストにおける出現回数と、推定対象のユーザに係るテキストにおける出現回数とを特徴語毎に合算し、合算した値をユーザの特徴を示す情報する。なお、この合算の際、推定補助者に係るテキストにおける出現回数と、推定対象のユーザに係るテキストにおける出現回数とに重み付けして(一定の比率で)合算してもよい。また、推定対象のユーザとリンク関係を有する有名人に係るテキストを当該ユーザの特徴を示す情報の生成に用いてもよい。
Further, the user
なお、ユーザの特徴を示す情報は、必ずしも上記の情報には限られず、推定補助者に関するデータを用いて推定対象のユーザの特徴推定を行うものであれば、どのようなものであってもよい。ユーザ特徴生成部18は、上記のように生成したユーザの特徴を示す情報をユーザ特徴記憶部19に出力する。即ち、ユーザ特徴生成部18は、ユーザの特徴推定を示す情報を出力する出力手段でもある。
Note that the information indicating the user's characteristics is not necessarily limited to the information described above, and any information may be used as long as the characteristics of the estimation target user are estimated using data on the estimation assistant. . The user
ユーザ特徴記憶部19は、ユーザ特徴生成部18から入力されたユーザの特徴を示す情報を記憶する手段である。例えば、ユーザIDに対応付けてユーザの特徴を示す情報を記憶する。特徴推定装置10によって生成された、ユーザの特徴を示す情報は、例えばユーザに配信あるいは推薦するコンテンツの決定に用いられる。例えば、ユーザを表す特徴語(例えば、一定値以上の値を有する特徴語)をコンテンツのテキスト(説明文)中に含むコンテンツを当該ユーザと関連付ける(当該ユーザに配信あるいは推薦するコンテンツと決定する)。このようにコンテンツを決定することにより、ユーザと関連が高いコンテンツを配信あるいは推薦することができる。以上が、特徴推定装置10の機能構成である。
The user
図5に本実施形態に係る特徴推定装置10のハードウェア構成を示す。図5に示すように特徴推定装置10は、CPU(Central Processing Unit)101、主記憶装置であるRAM(RandomAccess Memory)102及びROM(Read Only Memory)103、通信を行うための通信モジュール104、並びにハードディスク等の補助記憶装置105等のハードウェアを備えるコンピュータを含むものとして構成される。これらの構成要素がプログラム等により動作することにより、上述した特徴推定装置10の機能が発揮される。以上が、本実施形態に係る特徴推定装置10の構成である。
FIG. 5 shows a hardware configuration of the
引き続いて、図6のフローチャートを用いて、本実施形態に係る特徴推定装置10で実行される処理である特徴推定方法を説明する。本処理では、データ取得部13によって、推定対象のユーザのユーザIDが入力される(S01)。当該ユーザIDの入力は、例えば、特徴推定装置10の管理者等が操作する端末から行われる。続いて、データ取得部13によって、リンク情報及びユーザデータが取得される(S02、リンク情報取得ステップ)。リンク情報としては、少なくとも推定対象のユーザがフォローしているユーザのユーザID、有名人ユーザID記憶部11にユーザIDが格納されている有名人をフォローしているユーザのユーザID、及び推定補助者ユーザID記憶部12にユーザIDが格納されている推定補助者をフォローしているユーザのユーザIDが取得される。また、ユーザデータとしては、少なくとも推定補助者に係るテキストが取得される。取得されたリンク情報はリンク情報記憶部14に格納される。取得されたユーザデータはユーザデータ記憶部15に格納される。
Subsequently, a feature estimation method, which is a process executed by the
続いて、類似度算出部16によって、リンク情報記憶部14に記憶されたリンク情報に基づいて、各有名人と各推定補助者との間の類似度がそれぞれのリンク関係の一致度から算出される(S03、類似度算出ステップ)。続いて、類似度算出部16によって、算出された類似度が閾値を超えているか否かが判断される。閾値を超えている類似度に係る、有名人と推定補助者との組み合わせを示す情報が類似度算出部16から特定部17に出力される。
Subsequently, based on the link information stored in the link
続いて、特定部17によって、類似度算出部16によって算出された類似度に基づいて、推定対象のユーザの特徴推定に利用する推定補助者が特定される(S04、特定ステップ)。具体的には、特定部17によって、リンク情報記憶部14に記憶されているリンク情報と有名人ユーザID記憶部11に記憶されている有名人のユーザIDとが参照されて、推定対象のユーザがフォローしている有名人が特定される。続いて、特定部17によって、類似度算出部16から入力された情報が参照されて、当該有名人と対応付いている推定補助者が推定対象のユーザの特徴推定に利用する推定補助者として特定される。特定された推定補助者を示す情報は、特定部17からユーザ特徴生成部18に出力される。
Subsequently, based on the similarity calculated by the
続いて、ユーザ特徴生成部18によって、特定部17から入力された情報によって示される推定補助者に係るテキストがユーザデータ記憶部15から取得されて、当該テキストから推定対象のユーザの特徴推定が行われる(S05、特徴推定ステップ)。ユーザの特徴推定を示す情報は、ユーザ特徴生成部18からユーザ特徴記憶部19に出力されて、ユーザ特徴記憶部19に記憶される(S06、出力ステップ)。以上が、本実施形態に係る特徴推定装置10で実行される処理である特徴推定方法である。
Subsequently, the user
上述したように本実施形態では、推定補助者と、推定対象のユーザとリンク関係を有する有名人との間の類似度に基づいて、当該推定対象のユーザの特徴推定に利用する推定補助者が特定され、推定補助者に関するデータからユーザの特徴推定が行われる。上述したように、ユーザの特徴推定に活用可能なデータを有する、即ち、ユーザの特徴推定に活用可能なテキストを投稿している推定補助者は、推定対象のユーザと直接リンク関係を有していなくてもよい。即ち、本実施形態によれば、特徴の推定対象となるユーザ及び当該ユーザと直接繋がりのあるユーザに係るデータからユーザ特徴推定に活用可能なデータを十分に得られない場合であっても、十分な精度のユーザ特徴推定を行うことができる。 As described above, in the present embodiment, the estimation assistant used for estimating the feature of the estimation target user is identified based on the similarity between the estimation assistant and the celebrity having a link relationship with the estimation target user. Then, the feature of the user is estimated from the data related to the estimation assistant. As described above, an estimation assistant who has data that can be used for user feature estimation, that is, a text that can be used for user feature estimation has a direct link relationship with the estimation target user. It does not have to be. That is, according to the present embodiment, even if sufficient data that can be used for user feature estimation cannot be obtained from data related to a user whose feature is to be estimated and a user who is directly connected to the user. User feature estimation with high accuracy can be performed.
また、本実施形態のように有名人と推定補助者との間の類似度は、それらのユーザとリンク関係にあるユーザの一致度に基づいて算出することができる。この構成によれば、計算量の少ない演算により上記の類似度を算出することができる。また、より具体的には、シンプソン係数を用いることができる。シンプソン係数を用いることにより、有名人と推定補助者との何れかとリンク関係を有するユーザが極端に少ない場合等であっても、ジャッカード(Jaccard)係数と比較して正確にユーザ間の類似度を算出することができる。但し、類似度は必ずしも上記の方法により算出される必要はなく、リンク関係に基づいて算出されるものであれば任意の方法で算出されてもよい。 In addition, as in the present embodiment, the degree of similarity between a celebrity and an estimated assistant can be calculated based on the degree of coincidence of users who are linked to those users. According to this configuration, the above-described similarity can be calculated by a calculation with a small calculation amount. More specifically, a Simpson coefficient can be used. By using the Simpson coefficient, even when there are extremely few users who have a link relationship with either a celebrity or an estimated assistant, the similarity between users can be accurately compared with the Jackard coefficient. Can be calculated. However, the similarity is not necessarily calculated by the above method, and may be calculated by any method as long as it is calculated based on the link relationship.
また、ユーザの特徴推定には、推定補助者に係るテキストに含まれる特徴語を用いて行うこととすることができる。これにより、適切かつ確実にユーザの特徴推定を行うことができる。また、ユーザの特徴を簡潔に表すことができる。また、上述したように推定対象のユーザに係るテキストを用いてもよい。上述したように、例えば、Twitter等の推定対象のユーザ自身の投稿には特徴推定に活用可能な情報が十分に含まれていない場合が多い。しかし、多少なりとも推定対象のユーザ自身の投稿に特徴推定に活用可能な情報が含まれていれば、上記の構成によりユーザ自身の情報に基づいてより適切にユーザの特徴推定を行うことができる。 The user's feature estimation can be performed using a feature word included in the text related to the estimation assistant. Thereby, a user's feature estimation can be performed appropriately and reliably. In addition, user characteristics can be expressed in a concise manner. Further, as described above, text related to the estimation target user may be used. As described above, for example, there are many cases where information that can be used for feature estimation is not sufficiently included in the post of the estimation target user himself such as Twitter. However, if the user's own post to be estimated includes information that can be used for feature estimation, the above-described configuration enables the user's feature estimation to be performed more appropriately based on the user's own information. .
また、本実施形態で示したリンク関係がフォロー関係であるように、ユーザ間のリンク関係の方向も考慮してもよい。例えば、上述した実施形態では、有名人や推定補助者へのフォローのリンク関係を利用しているが、有名人や推定補助者からのフォローのリンク関係は必ずしも利用していない。この構成によれば、リンクの方向にも基づいて適切にユーザの特徴推定を行うことができる。但し、リンク関係の方向については必ずしも考慮する必要はなく、方向付けがなされていないリンク関係に基づいて本発明を実施することも可能である。 Further, the direction of the link relationship between users may be considered so that the link relationship shown in the present embodiment is a follow relationship. For example, in the above-described embodiment, the follow link relation to the celebrity or the estimation assistant is used, but the follow link relation from the celebrity or the estimation assistant is not necessarily used. According to this configuration, it is possible to appropriately perform user feature estimation based on the link direction. However, it is not always necessary to consider the direction of the link relationship, and it is possible to implement the present invention based on the link relationship that is not oriented.
10…特徴推定装置、11…有名人ユーザID記憶部、12…推定補助者ユーザID記憶部、13…データ取得部、14…リンク情報記憶部、15…ユーザデータ記憶部、16…類似度算出部、17…特定部、18…ユーザ特徴生成部、19…ユーザ特徴記憶部、101…CPU、102…RAM、103…ROM、104…通信モジュール、105…補助記憶装置。
DESCRIPTION OF
Claims (7)
複数のユーザ間のリンク関係を示すリンク情報を取得するリンク情報取得手段と、
前記リンク情報取得手段によって取得されたリンク情報に基づいて、予め設定された1以上の第1のユーザと予め設定された1以上の第2のユーザとの間の類似度を算出する類似度算出手段と、
前記類似度算出手段によって算出された、第2のユーザと、推定対象のユーザとリンク関係を有する第1のユーザとの間の類似度に基づいて、当該推定対象のユーザの特徴推定に利用する第2のユーザを特定する特定手段と、
前記特定手段によって特定された第2のユーザに関するデータを用いて前記推定対象のユーザの特徴推定を行う特徴推定手段と、
前記特徴推定手段によって行われたユーザの特徴推定を示す情報を出力する出力手段と、
を備える特徴推定装置。 A feature estimation device that performs feature estimation of a user,
Link information acquisition means for acquiring link information indicating a link relationship between a plurality of users;
Similarity calculation for calculating the similarity between one or more preset first users and one or more preset second users based on the link information acquired by the link information acquisition means Means,
Based on the similarity between the second user calculated by the similarity calculation means and the first user who has a link relationship with the estimation target user, it is used for feature estimation of the estimation target user. Identifying means for identifying a second user;
Feature estimation means for performing feature estimation of the estimation target user using data related to the second user specified by the specification means;
Output means for outputting information indicating the feature estimation of the user performed by the feature estimation means;
A feature estimation apparatus comprising:
複数のユーザ間のリンク関係を示すリンク情報を取得するリンク情報取得ステップと、
前記リンク情報取得ステップにおいて取得されたリンク情報に基づいて、予め設定された1以上の第1のユーザと予め設定された1以上の第2のユーザとの間の類似度を算出する類似度算出ステップと、
前記類似度算出ステップにおいて算出された、第2のユーザと、推定対象のユーザとリンク関係を有する第1のユーザとの間の類似度に基づいて、当該推定対象のユーザの特徴推定に利用する第2のユーザを特定する特定ステップと、
前記特定ステップにおいて特定された第2のユーザに関するデータを用いて前記推定対象のユーザの特徴推定を行う特徴推定ステップと、
前記特徴推定ステップにおいて行われたユーザの特徴推定を示す情報を出力する出力ステップと、
を含む特徴推定方法。 A feature estimation method for performing user feature estimation,
A link information acquisition step of acquiring link information indicating a link relationship between a plurality of users;
Similarity calculation for calculating the similarity between one or more preset first users and one or more preset second users based on the link information acquired in the link information acquisition step Steps,
Based on the similarity between the second user calculated in the similarity calculation step and the first user who has a link relationship with the estimation target user, it is used for feature estimation of the estimation target user. A specific step of identifying a second user;
A feature estimation step of performing feature estimation of the estimation target user using data related to the second user identified in the identification step;
An output step of outputting information indicating the user's feature estimation performed in the feature estimation step;
A feature estimation method including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013018537A JP5973927B2 (en) | 2013-02-01 | 2013-02-01 | Feature estimation device and feature estimation method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013018537A JP5973927B2 (en) | 2013-02-01 | 2013-02-01 | Feature estimation device and feature estimation method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014149723A JP2014149723A (en) | 2014-08-21 |
JP5973927B2 true JP5973927B2 (en) | 2016-08-23 |
Family
ID=51572636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013018537A Active JP5973927B2 (en) | 2013-02-01 | 2013-02-01 | Feature estimation device and feature estimation method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5973927B2 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4698618B2 (en) * | 2007-01-24 | 2011-06-08 | 日本電信電話株式会社 | Relationship extraction method and relationship extraction system |
JP5264246B2 (en) * | 2008-03-31 | 2013-08-14 | Kddi株式会社 | Information recommendation device and computer program |
JP2011065591A (en) * | 2009-09-18 | 2011-03-31 | Nippon Telegr & Teleph Corp <Ntt> | Featured value estimation device, method, and program |
JP5560103B2 (en) * | 2010-06-04 | 2014-07-23 | 日本放送協会 | Program recommendation device and program recommendation program |
-
2013
- 2013-02-01 JP JP2013018537A patent/JP5973927B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014149723A (en) | 2014-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8527269B1 (en) | Conversational lexicon analyzer | |
CN105900117B (en) | Method and system for collecting, normalizing, matching and enriching data | |
US9442885B2 (en) | Estimating the time until a reply email will be received using a recipient behavior model | |
US20150149539A1 (en) | Trending Data Demographics | |
US8965867B2 (en) | Measuring and altering topic influence on edited and unedited media | |
US20160307097A1 (en) | Method and Apparatus for Automatically Replying to Information | |
US20120330955A1 (en) | Document similarity calculation device | |
CN106878275B (en) | Identity verification method and device and server | |
US10693820B2 (en) | Adding images to a text based electronic message | |
CN105378717A (en) | Method for user categorization in social media, computer program, and computer | |
CN106462564A (en) | Providing factual suggestions within a document | |
CN110019948B (en) | Method and apparatus for outputting information | |
US20160248724A1 (en) | Social Message Monitoring Method and Apparatus | |
CN110209780B (en) | Question template generation method and device, server and storage medium | |
JP2014206791A (en) | Social network information processor, processing method, and processing program | |
JP6368264B2 (en) | Contributor Analyzing Device, Program, and Method for Analyzing Contributor's Profile Item from Posted Sentence | |
US20080228676A1 (en) | Computing device, method of controlling the computing device, and computer readable medium recording a program | |
US20200327283A1 (en) | Information processing apparatus, computer program product, and computer readable medium | |
JP2013077045A (en) | Text position determination device and text position determination method | |
JP5973927B2 (en) | Feature estimation device and feature estimation method | |
JP5881396B2 (en) | Identification information management support system, identification information management support method, and program | |
JP6321529B2 (en) | Information credibility judgment system, information credibility judgment method, information credibility judgment program | |
Naz et al. | Dynamic Euler‐Bernoulli Beam Equation: Classification and Reductions | |
US20170048185A1 (en) | Method for posing requests in a social networking site | |
JP2013218579A (en) | User attribute estimation device and method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150814 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160627 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160715 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5973927 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |