JP2013257747A - Free time estimation device, method and program - Google Patents
Free time estimation device, method and program Download PDFInfo
- Publication number
- JP2013257747A JP2013257747A JP2012133562A JP2012133562A JP2013257747A JP 2013257747 A JP2013257747 A JP 2013257747A JP 2012133562 A JP2012133562 A JP 2012133562A JP 2012133562 A JP2012133562 A JP 2012133562A JP 2013257747 A JP2013257747 A JP 2013257747A
- Authority
- JP
- Japan
- Prior art keywords
- free time
- feature
- document
- estimation
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は自由時間推定装置、方法、及びプログラムに係り、特に、インターネット上に投稿されたブログ等の文書に基づいて、ユーザの自由時間を推定する自由時間推定装置、方法、及びプログラムに関する。 The present invention relates to a free time estimation apparatus, method, and program, and more particularly, to a free time estimation apparatus, method, and program for estimating a user's free time based on a document such as a blog posted on the Internet.
現在、Twitter(登録商標)のようなマイクロブログなど、ユーザがインターネット上に投稿した文書(テキストデータ)から、そのユーザの属性(性別、居住地など)を判定することが行われている(例えば、非特許文献1参照)。例えば、属性毎に関連のある単語のn−gramを素性として学習したモデルを作成しておき、このモデルを用いて、属性が未知のユーザにより投稿された文書に含まれる単語から、そのユーザの属性を推定している。このような手法では、文書に書かれた内容と属性との相関が強い場合には、性能良く属性を判定することができる。 Currently, a user's attributes (gender, residence, etc.) are determined from a document (text data) posted by the user on the Internet, such as a microblog such as Twitter (registered trademark) (for example, Non-Patent Document 1). For example, a model in which n-grams of related words for each attribute are learned as a feature is created, and from this word, the user's word is included in a document posted by a user whose attribute is unknown. Estimating attributes. With such a method, when the correlation between the content written in the document and the attribute is strong, the attribute can be determined with high performance.
しかしながら、性別や居住地のような属性とは異なり、ユーザの自由時間については、ユーザが投稿した文書の内容との間に強い相関が存在しない場合が多い。ここで、自由時間とは、一定期間(例えば、1日、1週間、1ヶ月等)当たりの仕事、家事、睡眠、食事等以外の余暇の時間を示すユーザの属性である。例えば、政治の話題を頻繁にマイクロブログで投稿するユーザが複数存在する場合に、これら複数のユーザの各々の自由時間が同じであるとは考え難い。このように、投稿された文書の内容のみに基づいて、ユーザの自由時間を推定することは困難である。 However, unlike attributes such as gender and place of residence, there is often no strong correlation between the user's free time and the content of the document posted by the user. Here, the free time is an attribute of the user indicating leisure time other than work, housework, sleep, meal, etc. per certain period (for example, one day, one week, one month, etc.). For example, when there are a plurality of users who frequently post political topics on microblogs, it is difficult to think that the free times of these users are the same. Thus, it is difficult to estimate the user's free time based only on the content of the posted document.
本発明は上記事実を考慮して成されたもので、インターネット上に投稿された文書からユーザの自由時間を適切に推定することができる自由時間推定装置、方法、及びプログラムを提供することを目的とする。 The present invention has been made in consideration of the above facts, and an object thereof is to provide a free time estimation device, method, and program capable of appropriately estimating a user's free time from a document posted on the Internet. And
上記目的を達成するために、本発明の自由時間推定装置は、各々に投稿日時を示すデータが付加された同一のユーザにより投稿され複数の文書データを含む文書集合に基づいて、該文書集合に含まれる単語の出現頻度に基づく第1素性、及び一定期間を複数の期間に分割した分割期間毎の文書データの投稿数の分布を示す第2素性を抽出する素性抽出手段と、各ユーザの前記一定期間における自由時間の正解ラベルが付与された複数の学習用文書集合の各々から抽出された前記第1素性及び前記第2素性と、前記学習用文書集合の各々に付与された正解ラベルとの対応付けを学習した推定モデルと、前記一定期間における自由時間が未知の推定対象ユーザの文書集合から前記素性抽出手段により抽出された前記第1素性及び前記第2素性とに基づいて、前記推定対象ユーザの前記一定期間における自由時間を推定する推定手段と、を含んで構成されている。 In order to achieve the above object, the free time estimation device of the present invention is based on a document set including a plurality of document data posted by the same user to which data indicating posting date is added. A feature extraction means for extracting a first feature based on the appearance frequency of the included word and a second feature indicating a distribution of the number of posted document data for each divided period obtained by dividing a certain period into a plurality of periods; The first feature and the second feature extracted from each of a plurality of learning document sets to which a correct answer label of free time in a certain period is given, and a correct label given to each of the learning document set The estimation model that learned the association, and the first feature and the second feature extracted by the feature extraction means from the document set of the estimation target user whose free time in the predetermined period is unknown Zui and is configured to include a an estimation means for estimating the free time in the predetermined period of the estimated target user.
本発明の自由時間推定装置によれば、素性抽出手段が、各々に投稿日時を示すデータが付加された同一のユーザにより投稿され複数の文書データを含む文書集合に基づいて、文書集合に含まれる単語の出現頻度に基づく第1素性、及び一定期間を複数の期間に分割した分割期間毎の文書データの投稿数の分布を示す第2素性を抽出する。そして、推定手段が、各ユーザの一定期間における自由時間の正解ラベルが付与された複数の学習用文書集合の各々から抽出された第1素性及び第2素性と、学習用文書集合の各々に付与された正解ラベルとの対応付けを学習した推定モデルと、一定期間における自由時間が未知の推定対象ユーザの文書集合から素性抽出手段により抽出された第1素性及び第2素性とに基づいて、推定対象ユーザの一定期間における自由時間を推定する。 According to the free time estimation device of the present invention, the feature extraction means is included in the document set based on a document set including a plurality of document data posted by the same user to which data indicating the posting date and time is added. A first feature based on the appearance frequency of words and a second feature indicating the distribution of the number of posts of document data for each divided period obtained by dividing a certain period into a plurality of periods are extracted. Then, the estimation means assigns each of the first feature and the second feature extracted from each of the plurality of learning document sets to which each user's free time correct answer label is given, to each of the learning document sets. Based on the estimation model that learned the association with the correct label and the first feature and the second feature extracted by the feature extraction means from the document set of the estimation target user whose free time is unknown for a certain period Estimate the free time of the target user in a certain period.
このように、単語の出現頻度に基づく第1素性に加え、一定期間における分割期間毎の文書データの投稿数の分布を示す第2素性を用いることにより、インターネット上に投稿された文書からユーザの自由時間を適切に推定することができる。 In this way, in addition to the first feature based on the appearance frequency of words, by using the second feature indicating the distribution of the number of posted document data for each divided period in a certain period, the document posted on the Internet can be Free time can be estimated appropriately.
また、前記素性抽出手段は、前記第2素性として、前記分割期間毎の投稿数の平均、及び前記一定期間における前記分割期間毎の投稿数のばらつきを抽出することができる。このような第2素性を抽出することにより、ユーザの自由時間の特徴を捉えることが可能になる。 Further, the feature extraction means can extract the average of the number of posts for each of the divided periods and the variation in the number of posts for each of the divided periods in the certain period as the second feature. By extracting such second features, it is possible to capture the features of the user's free time.
また、本発明の自由時間推定装置は、前記複数の学習用文書集合を用いて、前記推定モデルを学習する学習手段を含んで構成することができる。これにより学習機能を併せ持つことができる。 In addition, the free time estimation apparatus of the present invention can be configured to include learning means for learning the estimation model using the plurality of learning document sets. Thereby, it can have a learning function.
また、本発明の自由時間推定方法は、素性抽出手段が、各々に投稿日時を示すデータが付加された同一のユーザにより投稿され複数の文書データを含む文書集合に基づいて、該文書集合に含まれる単語の出現頻度に基づく第1素性、及び一定期間を複数の期間に分割した分割期間毎の文書データの投稿数の分布を示す第2素性を抽出し、推定手段が、各ユーザの前記一定期間における自由時間の正解ラベルが付与された複数の学習用文書集合の各々から抽出された前記第1素性及び前記第2素性と、前記学習用文書集合の各々に付与された正解ラベルとの対応付けを学習した推定モデルと、前記一定期間における自由時間が未知の推定対象ユーザの文書集合から前記素性抽出手段により抽出された前記第1素性及び前記第2素性とに基づいて、前記推定対象ユーザの前記一定期間における自由時間を推定する方法である。 In the free time estimation method of the present invention, the feature extraction means is included in the document set based on a document set including a plurality of document data posted by the same user to which data indicating the posting date is added. A first feature based on the appearance frequency of the word to be extracted, and a second feature indicating a distribution of the number of postings of document data for each divided period obtained by dividing a certain period into a plurality of periods, and an estimation unit is configured to determine the predetermined feature of each user Correspondence between the first feature and the second feature extracted from each of the plurality of learning document sets to which the correct answer label of the free time in the period is given, and the correct label given to each of the learning document set On the basis of the first feature and the second feature extracted by the feature extraction means from the document set of the estimation target user whose unknown free time in the fixed period is unknown A method of estimating the free time in the predetermined period of the estimated target user.
また、本発明の自由時間推定プログラムは、コンピュータを、上記の自由時間推定装置を構成する各手段として機能させるためのプログラムである。 The free time estimation program of the present invention is a program for causing a computer to function as each means constituting the above free time estimation device.
本発明の自由時間推定装置、方法、及びプログラムによれば、単語の出現頻度に基づく第1素性に加え、一定期間における分割期間毎の文書データの投稿数の分布を示す第2素性を用いることにより、インターネット上に投稿された文書からユーザの自由時間を適切に推定することができる、という効果を有する。 According to the free time estimation device, method, and program of the present invention, in addition to the first feature based on the appearance frequency of words, the second feature indicating the distribution of the number of posted document data for each divided period in a certain period is used. Thus, it is possible to appropriately estimate the user's free time from a document posted on the Internet.
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態では、ユーザの1日当たりの自由時間を推定する場合を例に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the present embodiment, a case where the user's free time per day is estimated will be described as an example.
本実施の形態に係る自由時間推定装置10は、CPUと、RAMと、後述する学習処理及び推定処理を含む自由時間推定処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。また、記憶手段としてHDDを設けてもよい。
A free
このコンピュータは、機能的には、図1に示すように、学習部11と推定部12とを含んだ構成で表すことができ、学習部11はさらに、前処理部13と、素性抽出部14と、推定モデル学習部15とを含んだ構成で表すことができ、推定部12はさらに、前処理部13と、素性抽出部14と、自由時間推定部16とを含んだ構成で表すことができる。なお、前処理部13及び素性抽出部14は学習部11と推定部12とで共通の機能部である。
As shown in FIG. 1, this computer can be functionally represented by a configuration including a learning unit 11 and an
自由時間推定装置10は、入力文書(テキストデータ)として、マイクロブログで投稿されたブログ文書を受け付ける。以下では、マイクロブログでのブログ文書の投稿、または投稿された文書自体を「つぶやき」ともいう。「つぶやき」は、最大140文字程度の少量のテキストデータの書き込みからなり、その内容はユーザの現在の状況や所在地、考えなどを表すことが一般的である。また、本実施の形態で扱う各ブログ文書には、ユーザがそのブログ文書を投稿した投稿日時(ユーザがつぶやいた日付及び時刻)のデータが付加されている。
The free
また、自由時間推定装置10への入力文書の入力は、あるユーザが所定期間(例えば、1年間)に投稿した複数のブログ文書からなるブログ文書集合単位で行われる。学習部11に入力されるブログ文書集合は、複数のユーザ毎のブログ文書集合であり、各ブログ文書集合には、ユーザの自由時間を示す正解ラベルが予め人手で付与されている。推定部12に入力されるブログ文書集合は、自由時間を推定したい推定対象ユーザにより所定期間に投稿されたブログ文書集合である。
The input document input to the free
以下、自由時間推定装置10の各部につて詳述する。
Hereinafter, each part of the free
前処理部13は、入力されたブログ文書集合に含まれる各ブログ文書を、既存の技術である形態素解析によって単語に区切り、さらに各単語に品詞情報を付与した形態素解析結果を出力する。例えば、『横浜に着いた。』というブログ文書(テキストデータ)が入力された場合、『横浜(名詞)/に(格助詞:連用)/つ(動詞語幹:K)/い(動詞活用語尾)/た(動詞接尾辞:終止)/。(句点)』という形態素解析結果が出力される。 The preprocessing unit 13 divides each blog document included in the input blog document set into words by morphological analysis, which is an existing technique, and outputs a morpheme analysis result in which part-of-speech information is added to each word. For example, “I arrived in Yokohama. When a blog document (text data) is entered, “Yokohama (noun) / ni (case particle: continuous use) / tsu (verb stem: K) / i (verb inflection ending) / ta (verb suffix: end ) /. The morphological analysis result “(punctuation)” is output.
また、前処理部13は、各ブログ文書に付加された投稿日時のデータを抽出して出力する。 In addition, the preprocessing unit 13 extracts and outputs the posting date data added to each blog document.
素性抽出部14は、図2に示すように、単語n−gram抽出部141と、平均値算出部142と、時間帯毎回数抽出部143と、標準偏差算出部144とを含んだ構成で表すことができる。
As shown in FIG. 2, the feature extraction unit 14 is represented by a configuration including a word n-
単語n−gram抽出部141は、前処理部13から出力された形態素解析結果を利用して、入力されたブログ文書集合から、素性として単語n−gramを抽出する。単語n−gramは形態素の表記とその表記のブログ文書集合内における出現頻度とで表される素性である。この素性は、ユーザが投稿したブログ文書の内容に由来するものであり、ユーザの自由時間と関連する生活スタイルや職業等が反映された情報となる。
The word n-
例えば、ブログ文書集合に含まれるブログ文書が、
横浜に着いた、横浜はいい天気。
の場合、その形態素解析結果から、以下のような単語n−gram(ここでは、n=1)が抽出される。
横浜:2 に:1 着く:1 は:1 いい:1 天気:1
For example, if a blog document included in the blog document set is
When we arrived in Yokohama, the weather is nice.
In this case, the following word n-gram (here, n = 1) is extracted from the morphological analysis result.
Yokohama: 2 to 1: Arrive: 1 is: 1 Good: 1 Weather: 1
なお、ブログ文書に含まれる単語のうち、語彙的意味を表す内容語のみを対象として単語n−gramを抽出してもよい。 Note that the word n-gram may be extracted from only the content words representing the lexical meaning among the words included in the blog document.
平均値算出部142は、前処理部13から出力された投稿日時のデータを利用して、一定期間(ここでは1日)における時間帯毎のつぶやき回数の平均値を求める。例えば、あるユーザの午前0時〜1時のつぶやき回数が、3月21日は3回、3月22日は5回、3月23日は4回だとすると、このユーザの午前0時〜1時のつぶやき回数の平均値は4となる。
The average
時間帯毎回数抽出部143は、平均値算出部142で算出された時間帯毎のつぶやき回数の平均値を素性として抽出する。例えば、あるユーザの午前0時〜1時のつぶやき回数の平均値が4回だとすると、このユーザの午前0時〜1時のつぶやき回数を表す素性は4となる。
The number-of-
標準偏差算出部144は、平均値算出部142で算出された時間帯毎のつぶやき回数の平均値に基づいて、ユーザの一日のつぶやき回数のばらつきを示す標準偏差を算出し、素性として出力する。
Based on the average value of the number of tweets for each time period calculated by the average
ここで、図3に示すように、つぶやき回数の時間帯毎の分布はユーザ毎に異なる。また、つぶやき回数の分布とユーザの自由時間との間には相関があると考えられる。例えば、どの時間帯も一定の頻度でつぶやいているユーザは自由時間が多いと考えられ、特定の時間帯のみつぶやいているユーザは、それ以外の時間は仕事や家事などの時間であり、自由時間が少ないと考えられる。このように、時間帯毎のつぶやき回数及びつぶやき回数の標準偏差のような、つぶやき回数の分布を素性として利用することで、上記のようなユーザの自由時間の特徴を捉えることができる。 Here, as shown in FIG. 3, the distribution of the number of tweets for each time zone is different for each user. Further, it is considered that there is a correlation between the distribution of the number of tweets and the user's free time. For example, a user who tweetes at a certain frequency in any time zone is considered to have a lot of free time, and a user who tweetes only in a specific time zone is a time for work or housework, and the free time It is thought that there are few. Thus, by using the tweet count distribution such as the tweet count for each time zone and the standard deviation of the tweet count as a feature, it is possible to capture the characteristics of the user's free time as described above.
素性抽出部14は、上記の単語n−gram、時間帯毎のつぶやき回数、及びつぶやき回数の標準偏差をまとめて、1つのブログ文書集合から抽出された素性として出力する。上記のように、単語n−gramはユーザの自由時間に関連する生活スタイルや職業等が反映された情報であり、つぶやき回数の分布はユーザの自由時間の特徴を捉えた情報であるため、これらをまとめて素性として用いることで、自由時間推定モデル20の学習及び自由時間の推定を精度良く行うことができる。
The feature extraction unit 14 collects the above word n-gram, the number of tweets for each time zone, and the standard deviation of the number of tweets, and outputs them as features extracted from one blog document set. As mentioned above, the word n-gram is information reflecting the lifestyle and occupation related to the user's free time, and the distribution of the number of tweets is information that captures the characteristics of the user's free time. Are used as features, so that the learning of the free
なお、学習部11における素性抽出部14として機能する場合には、ブログ文書集合毎に抽出した素性と、そのブログ文書集合に付与された正解ラベルとをペアにして、後段の推定モデル学習部15へ受け渡す。推定部12における素性抽出部14として機能する場合には、抽出した素性を後段の自由時間推定部16へ受け渡す。
When the learning unit 11 functions as the feature extraction unit 14, the feature extracted for each blog document set and the correct answer label assigned to the blog document set are paired, and the estimated
推定モデル学習部15は、素性抽出部14から出力された素性と正解ラベルとのペアの対応付けを既存の技術を用いて学習して、ユーザの自由時間を推定するための自由時間推定モデル20を生成する。例えば、回帰分析により自由時間推定モデル20を生成することができる。
The estimation
自由時間推定部16は、推定モデル学習部15により生成された自由時間推定モデル20と、推定対象ユーザのブログ文書集合から抽出された素性とを用いて、ユーザの自由時間を推定して出力する。
The free
次に、本実施の形態に係る自由時間推定装置10の作用について説明する。学習段階において、複数のユーザ毎のブログ文書集合が自由時間推定装置10に入力されると、学習部11において、図4に示す学習処理ルーチンが実行される。また、推定段階において、自由時間を推定したい推定対象ユーザのブログ文書集合が自由時間推定装置10に入力されると、推定部12において、図5に示す推定処理ルーチンが実行される。以下、各処理について詳述する。
Next, the operation of the free
まず、学習処理ルーチンでは、ステップ100で、前処理部13が、入力された複数のユーザ毎のブログ文書集合を取得する。次に、ステップ102で、前処理部13が、複数のブログ文書集合の中から、1人のユーザのブログ文書集合を選択する。次に、ステップ104で、前処理部13が、選択したブログ文書集合に含まれる各ブログ文書を、既存の技術である形態素解析によって単語に区切り、さらに各単語に品詞情報を付与した形態素解析結果を出力する。また、前処理部13が、各ブログ文書に付加された投稿日時のデータを抽出して出力する。
First, in the learning processing routine, in
次に、ステップ106で、単語n−gram抽出部141が、上記ステップ104で出力された形態素解析結果を利用して、上記ステップ102で選択されたブログ文書集合から単語n−gramを抽出する。
Next, in
次に、ステップ108で、平均値算出部142が、上記ステップ104で出力された投稿日時のデータを利用して、一定期間における時間帯毎のつぶやき回数の平均値を求める。次に、ステップ110で、時間帯毎回数抽出部143が、上記ステップ108で算出された時間帯毎のつぶやき回数の平均値を素性として抽出する。次に、ステップ112で、標準偏差算出部144は、上記ステップ108で算出された時間帯毎のつぶやき回数の平均値に基づいて、ユーザの一日のつぶやき回数のばらつきを示す標準偏差を算出し、素性として出力する。
Next, in
次に、ステップ114で、素性抽出部14が、上記ステップ106で抽出された単語n−gram、上記ステップ110で抽出された時間帯毎のつぶやき回数、及び上記ステップ112で算出されたつぶやき回数の標準偏差をまとめて、上記ステップ102で選択されたブログ文書集合の素性とし、そのブログ文書集合に付与された自由時間の正解ラベルとのペアを作成する。
Next, in
次に、ステップ116で、学習部11が、ブログ文書集合が入力された全てのユーザについて正解ラベルと素性とのペアを作成する処理が終了したか否かを判定し、未処理のユーザが存在する場合には、ステップ102へ戻って、次のユーザのブログ文書集合を選択して、ステップ104〜114の処理を繰り返す。全てのユーザについて処理が終了した場合には、ステップ118へ移行し、推定モデル学習部15が、上記ステップ114で作成された複数の素性と正解ラベルとのペアを学習して、自由時間推定モデル20を生成する。生成した自由時間推定モデル20は所定の記憶領域に記憶して、学習処理ルーチンを終了する。
Next, in
次に、推定処理ルーチンでは、ステップ120で、前処理部13が、入力された推定対象ユーザのブログ文書集合を取得する。次に、ステップ122〜130で、前処理部13及び素性抽出部14が、学習処理のステップ104〜112と同様の処理により、入力されたブログ文書集合の素性を抽出する。
Next, in the estimation processing routine, in
次に、ステップ132で、自由時間推定部16が、学習処理で生成された自由時間推定モデル20と、推定対象ユーザのブログ文書集合から抽出された素性とを用いて、ユーザの自由時間を推定し、推定結果を出力して、推定処理ルーチンを終了する。
Next, in
以上説明したように、本実施の形態に係る自由時間推定装置10によれば、文書の投稿回数の分布を利用した素性を用いることにより、インターネット上に投稿された文書からユーザの自由時間を適切に推定することができる。
As described above, according to the free
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.
例えば、上記実施の形態では、学習部と推定部とを1つのコンピュータで構成する場合について説明したが、別々のコンピュータで構成するようにしてもよい。 For example, although the case where the learning unit and the estimation unit are configured by one computer has been described in the above embodiment, the learning unit and the estimation unit may be configured by separate computers.
また、上記実施の形態では、1日当たりの自由時間を推定する場合を例に説明したが、より長い一定期間、例えば1週間や1ヶ月当たりの自由時間を推定するようにしてもよいし、より短い一定期間、例えば8時から22時までの自由時間を推定するようにしてもよい。 In the above embodiment, the case where the free time per day is estimated has been described as an example. However, the free time per longer period, for example, one week or one month may be estimated. You may make it estimate the free time from a short fixed period, for example, from 8:00 to 22:00.
また、上記の実施の形態では、つぶやき回数の分布を示す素性として、時間帯毎のつぶやき回数の平均値、及び1日における時間帯毎のつぶやき回数の標準偏差を用いる場合について説明したが、これに限定されない。例えば、時間帯毎のつぶやきの頻度、累積頻度、1日におけるつぶやき回数の分散、偏差等を用いてもよい。 In the above embodiment, as the feature indicating the distribution of the number of tweets, the average value of the number of tweets for each time period and the standard deviation of the number of tweets for each time period in one day have been described. It is not limited to. For example, the frequency of tweets for each time zone, the cumulative frequency, the variance of the number of tweets per day, the deviation, etc. may be used.
また、上述の自由時間推定装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。 Moreover, although the above-mentioned free time estimation apparatus has a computer system inside, if a "computer system" is using the WWW system, it shall also include a homepage provision environment (or display environment). .
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。 In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium. The present invention can also be realized by installing a program on a known computer via a medium or a communication line.
10 自由時間推定装置
11 学習部
12 推定部
13 前処理部
14 素性抽出部
15 推定モデル学習部
16 自由時間推定部
20 自由時間推定モデル
141 単語n−gram抽出部
142 平均値算出部
143 時間帯毎回数抽出部
144 標準偏差算出部
DESCRIPTION OF
Claims (5)
各ユーザの前記一定期間における自由時間の正解ラベルが付与された複数の学習用文書集合の各々から抽出された前記第1素性及び前記第2素性と、前記学習用文書集合の各々に付与された正解ラベルとの対応付けを学習した推定モデルと、前記一定期間における自由時間が未知の推定対象ユーザの文書集合から前記素性抽出手段により抽出された前記第1素性及び前記第2素性とに基づいて、前記推定対象ユーザの前記一定期間における自由時間を推定する推定手段と、
を含む自由時間推定装置。 Based on a document set including a plurality of document data posted by the same user to which data indicating the posting date and time is added, a first feature based on the appearance frequency of words included in the document set and a plurality of fixed periods Feature extraction means for extracting a second feature indicating the distribution of the number of postings of document data for each divided period divided into the periods;
The first feature and the second feature extracted from each of the plurality of learning document sets to which the correct answer label for the free time in the predetermined period of each user is assigned, and each of the learning document sets is assigned to each of the learning document sets Based on the estimation model that learned the correspondence with the correct answer label, and the first feature and the second feature extracted by the feature extraction unit from the document set of the estimation target user whose free time in the fixed period is unknown Estimating means for estimating a free time in the fixed period of the estimation target user;
A free time estimation device including:
推定手段が、各ユーザの前記一定期間における自由時間の正解ラベルが付与された複数の学習用文書集合の各々から抽出された前記第1素性及び前記第2素性と、前記学習用文書集合の各々に付与された正解ラベルとの対応付けを学習した推定モデルと、前記一定期間における自由時間が未知の推定対象ユーザの文書集合から前記素性抽出手段により抽出された前記第1素性及び前記第2素性とに基づいて、前記推定対象ユーザの前記一定期間における自由時間を推定する
自由時間推定方法。 A first feature based on an appearance frequency of words included in the document set based on a document set including a plurality of document data posted by the same user to which data indicating the posting date and time is added to each And extracting a second feature indicating the distribution of the number of submissions of document data for each divided period obtained by dividing a certain period into a plurality of periods
The estimation means includes the first feature and the second feature extracted from each of the plurality of learning document sets to which the correct answer label of the free time in the certain period of each user is assigned, and each of the learning document sets The first feature and the second feature extracted by the feature extraction means from the document set of the estimation target user whose unknown free time in the fixed period is unknown, and learning the association with the correct label given to Based on the above, a free time estimation method for estimating a free time in the certain period of the estimation target user.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012133562A JP2013257747A (en) | 2012-06-13 | 2012-06-13 | Free time estimation device, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012133562A JP2013257747A (en) | 2012-06-13 | 2012-06-13 | Free time estimation device, method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013257747A true JP2013257747A (en) | 2013-12-26 |
Family
ID=49954129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012133562A Pending JP2013257747A (en) | 2012-06-13 | 2012-06-13 | Free time estimation device, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013257747A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018124673A (en) * | 2017-01-30 | 2018-08-09 | クックパッド株式会社 | Information processing system, information processing apparatus, information processing method, and program |
US10157348B2 (en) * | 2014-03-07 | 2018-12-18 | Clarion Co., Ltd. | Related data generating apparatus, related data generating method, and program |
-
2012
- 2012-06-13 JP JP2012133562A patent/JP2013257747A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10157348B2 (en) * | 2014-03-07 | 2018-12-18 | Clarion Co., Ltd. | Related data generating apparatus, related data generating method, and program |
JP2018124673A (en) * | 2017-01-30 | 2018-08-09 | クックパッド株式会社 | Information processing system, information processing apparatus, information processing method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102170929B1 (en) | User keyword extraction device, method, and computer-readable storage medium | |
Modrek et al. | The# MeToo movement in the United States: Text analysis of early twitter conversations | |
Pournarakis et al. | A computational model for mining consumer perceptions in social media | |
Al-Garadi et al. | Using online social networks to track a pandemic: A systematic review | |
Liang et al. | Dynamic clustering of streaming short documents | |
Kranjc et al. | Active learning for sentiment analysis on data streams: Methodology and workflow implementation in the ClowdFlows platform | |
Prieto et al. | Twitter: a good place to detect health conditions | |
CN109145216A (en) | Network public-opinion monitoring method, device and storage medium | |
US10002187B2 (en) | Method and system for performing topic creation for social data | |
JP2017142796A (en) | Identification and extraction of information | |
US11640420B2 (en) | System and method for automatic summarization of content with event based analysis | |
US20110219299A1 (en) | Method and system of providing completion suggestion to a partial linguistic element | |
Zainuddin et al. | Improving twitter aspect-based sentiment analysis using hybrid approach | |
CN105378717A (en) | Method for user categorization in social media, computer program, and computer | |
CN104915359A (en) | Theme label recommending method and device | |
Er et al. | User-level twitter sentiment analysis with a hybrid approach | |
JP6699031B2 (en) | Model learning method, description evaluation method, and device | |
US10339559B2 (en) | Associating social comments with individual assets used in a campaign | |
JP2020129232A (en) | Machine learning device, program, and machine learning method | |
US9886498B2 (en) | Title standardization | |
Yoon et al. | DiTeX: Disease-related topic extraction system through internet-based sources | |
JP2013257747A (en) | Free time estimation device, method and program | |
JP6732472B2 (en) | User information processing server and user information processing method | |
Preotiuc-Pietro | Temporal models of streaming social media data | |
CN111414455A (en) | Public opinion analysis method, device, electronic equipment and readable storage medium |