JP2014099045A - プロフィール推定装置、方法、及びプログラム - Google Patents
プロフィール推定装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2014099045A JP2014099045A JP2012250484A JP2012250484A JP2014099045A JP 2014099045 A JP2014099045 A JP 2014099045A JP 2012250484 A JP2012250484 A JP 2012250484A JP 2012250484 A JP2012250484 A JP 2012250484A JP 2014099045 A JP2014099045 A JP 2014099045A
- Authority
- JP
- Japan
- Prior art keywords
- word
- topic
- feature
- profile
- notation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】候補数が多いプロフィールに対しても高精度にプロフィールの推定をすることができるようにする。
【解決手段】形態素解析部20により、ユーザによって作成された文書から単語の各々を抽出する。単語表記素性作成部22により、抽出された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を作成する。単語話題特定部26により、抽出された単語の各々について、単語に関連する話題を特定する。話題素性作成部28により、単語話題特定部26によって特定された各単語に関連する話題に基づいて、話題の特徴を示す素性である話題素性を作成する。分類部32により、単語表記素性と、話題素性と、単語表記素性及び話題素性に基づいてプロフィールが複数の候補の何れであるかを推定するための予め学習された分類モデルとに基づいて、ユーザのプロフィールが複数の候補の何れであるかを推定する。
【選択図】図1
【解決手段】形態素解析部20により、ユーザによって作成された文書から単語の各々を抽出する。単語表記素性作成部22により、抽出された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を作成する。単語話題特定部26により、抽出された単語の各々について、単語に関連する話題を特定する。話題素性作成部28により、単語話題特定部26によって特定された各単語に関連する話題に基づいて、話題の特徴を示す素性である話題素性を作成する。分類部32により、単語表記素性と、話題素性と、単語表記素性及び話題素性に基づいてプロフィールが複数の候補の何れであるかを推定するための予め学習された分類モデルとに基づいて、ユーザのプロフィールが複数の候補の何れであるかを推定する。
【選択図】図1
Description
本発明は、ユーザのプロフィールを推定するプロフィール推定装置、方法、及びプログラムに関する。
従来、ユーザが書いたテキスト(文書)からそのユーザのプロフィールを推定する技術が知られている。この技術は、図3に示すように、テキスト中の単語表記を手がかりに機械学習で構築した分類モデルを用いて各ユーザのプロフィールを推定するというシステムである(非特許文献1、2参照)。
池田和史、他4名,「マーケット分析のためのTwitter投稿者プロフィール推定」,情報処理学会論文誌,2012年3月,p.82−93
大倉務、他2名,「スケーラブルで汎用的なブログ著者推定手法」,社団法人情報処理学会研究報告,2007年9月
しかし、従来の単語表記のみを手がかりとした手法では男・女や既婚・未婚などの候補数が少ないプロフィールに対しては高精度に推定できるが、居住地や年齢、職業などの候補数が多いプロフィールに対しては推定精度が低い。
本発明は、上記問題を解決するためになされたもので、候補数が多いプロフィールに対しても高精度にプロフィールの推定をすることができるプロフィール推定装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明のプロフィール推定装置は、ユーザによって作成された文書から単語の各々を抽出する単語抽出手段と、前記単語抽出手段によって抽出された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を作成する単語表記素性作成手段と、前記単語抽出手段によって抽出された単語の各々について、前記単語に関連する話題を特定する話題特定手段と、前記話題特定手段によって特定された各単語に関連する話題に基づいて、話題の特徴を示す素性である話題素性を作成する話題素性作成手段と、前記単語表記素性作成手段によって作成された前記単語表記素性と、前記話題素性作成手段によって抽出された前記話題素性と、前記単語表記素性及び前記話題素性に基づいてプロフィールが複数の候補の何れであるかを推定するための予め学習された分類モデルとに基づいて、前記ユーザの前記プロフィールが前記複数の候補の何れであるかを推定するプロフィール推定手段と、を備えている。
本発明のプロフィール推定方法は、単語抽出手段、単語表記素性作成手段、話題特定手段、話題素性作成手段及びプロフィール推定手段を含むプロフィール推定装置におけるプロフィール推定方法であって、前記単語抽出手段によって、ユーザによって作成された文書から単語の各々を抽出するステップと、前記単語表記素性作成手段によって、前記単語抽出手段によって抽出された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を作成するステップと、前記話題特定手段によって、前記単語抽出手段によって抽出された単語の各々について、前記単語に関連する話題を特定するステップと、前記話題素性作成手段によって、前記話題特定手段によって特定された各単語に関連する話題に基づいて、話題の特徴を示す素性である話題素性を作成するステップと、前記プロフィール推定手段によって、前記単語表記素性作成手段によって作成された前記単語表記素性と、前記話題素性作成手段によって抽出された前記話題素性と、前記単語表記素性及び前記話題素性に基づいてプロフィールが複数の候補の何れであるかを推定するための予め学習された分類モデルとに基づいて、前記ユーザの前記プロフィールが前記複数の候補の何れであるかを推定するステップと、を含む。
本発明に係るプロフィール推定装置及びプロフィール推定方法によれば、単語抽出手段によって、ユーザによって作成された文書から単語の各々を抽出する。そして、単語表記素性作成手段によって、単語抽出手段によって抽出された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を作成する。
そして、話題特定手段によって、単語抽出手段によって抽出された単語の各々について、単語に関連する話題を特定する。そして、話題素性作成手段によって、話題特定手段によって特定された各単語に関連する話題に基づいて、話題の特徴を示す素性である話題素性を作成する。
そして、プロフィール推定手段によって、単語表記素性作成手段によって作成された単語表記素性と、話題素性作成手段によって抽出された話題素性と、単語表記素性及び話題素性に基づいてプロフィールが複数の候補の何れであるかを推定するための予め学習された分類モデルとに基づいて、ユーザのプロフィールが複数の候補の何れであるかを推定する。
このように、ユーザによって作成された文書から抽出された単語に基づいて、単語表記素性を抽出すると共に、抽出された各単語について単語に関連する話題を特定し、各単語に関連する話題に基づいて、話題素性を抽出し、単語表記素性と、話題素性とに基づいて、ユーザのプロフィールを推定することにより、候補数が多いプロフィールに対しても高精度にプロフィールの推定をすることができる。
また、前記話題特定手段は、前記単語抽出手段によって抽出された単語の各々について、トピックモデルに従って各単語について予め求められた前記単語と複数の話題の各々との関連度合いを示す確率分布に基づいて、前記単語に関連する話題として、前記複数の話題の各々との関連度合いを示す確率分布を特定するようにすることができる。
また、前記話題特定手段は、前記単語抽出手段によって抽出された単語の各々について、各単語について前記単語が所属する語彙クラスが登録されている辞書データベースを用いて、前記単語に関連する話題として、前記単語が所属する語彙クラスを特定するようにすることができる。
以上説明したように、本発明のプロフィール推定装置、方法、及びプログラムによれば、ユーザによって作成された文書から抽出された単語に基づいて、単語表記素性を抽出すると共に、抽出された各単語について単語に関連する話題を特定し、各単語に関連する話題に基づいて、話題素性を抽出し、単語表記素性と、話題素性とに基づいて、ユーザのプロフィールを推定することにより、候補数が多いプロフィールに対しても高精度にプロフィールの推定をすることができる、という効果が得られる。
<概要>
まず、本発明の実施の形態の概要について説明する。
まず、本発明の実施の形態の概要について説明する。
本発明の実施の形態は、ユーザが書いた1つ以上のテキストから、そのユーザの性別、年齢、居住地、職業、既婚・未婚などのプロフィールを推定する技術に関するものである。例えば、Aさんが投稿したブログやツイートデータ中に「旦那」「娘」などの単語があれば、Aさんは「女性」「既婚」であることが推定される。
本発明の実施の形態では、同一のプロフィールを持つユーザ達は、同様の話題について興味を示す傾向にあることを利用する。例えば、「学生」のプロフィールをもつユーザの投稿には、「ファッション」について興味がある傾向がある。
従来の手法では、単語表記だけを手がかりとして用いていたため、ファッションに関連する単語を別々に扱ってしまい、ユーザの興味のある話題を捕らえることはできなかった。
そこで、ユーザの書いた文書中の各単語が関連する話題を特定し、特定された話題の中で頻出する話題を選択する。この選択された話題を、当該ユーザが興味のある話題として素性として利用する。
[第1の実施の形態]
<システム構成>
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、第1の実施の形態に係るプロフィール推定装置の構成の一例を示す図である。
<システム構成>
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、第1の実施の形態に係るプロフィール推定装置の構成の一例を示す図である。
第1の実施の形態に係るプロフィール推定装置10は、CPUと、RAMと、後述するプロフィール推定処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。また、記憶手段としてHDDを設けてもよい。
このコンピュータは、機能的には、図1に示すように、入力部1、演算部2、及び出力部3を含んだ構成で表わすことができる。
入力部1は、プロフィール推定対象となるユーザによって作成された文書集合の入力を受け付ける。
なお、入力される文書集合の各文書は形態素解析済みであってもよく、この場合には、後述する形態素解析部20を省略することができる。
また、演算部2は、形態素解析部20、単語表記素性作成部22、単語話題対応DB(データベース)24、単語話題特定部26、話題素性作成部28、分類モデル記憶部30、及び分類部32を備えている。なお、形態素解析部20は、単語抽出手段の一例である。
形態素解析部20は、周知の形態素解析技術によって、入力部1により入力された文書集合の各文書を単語に区切り、各単語を出力する。例えば、入力部1により入力された文書が「旦那と娘と買い物中」の場合、単語「旦那」、「と」、「娘」、「と」、「買い物」、「中」が出力される。
単語表記素性作成部22は、形態素解析部20により出力された単語に基づいて、入力された文書集合についての単語表記の特徴を示す素性である単語表記素性を抽出する。具体的には、出力された各単語に基づいて、単語表記の出現数をカウントし、単語表記素性として出力する。例えば、「旦那」「と」「娘」「と」「買い物」「中」が形態素解析部20で出力された場合、単語表記の出現数「旦那:1」「と:2」「娘:1」「買い物:1」「中:1」が出力される。
単語話題対応DB24には、周知のトピックモデル(LDA:Latent Dirichlet Allocation(参考文献 Blei,2003「Latent dirichlet allocation」を参照)など)を用いて予め作成された、各単語の各話題(トピック)への関連度を示す確率分布が記憶されている。ここで、トピックモデルとは、文書が話題(トピック)に基づいて生成される過程を確率的に表現したモデルである。従って、単語話題対応DB24には、単語表記とその単語の各話題に対する確率分布が記載されていることになる。例えば、単語「買い物」に対して、各話題に対する確率分布を配列で示した(0.0,0.1,0.7,0.0,0.2)が記憶されている。
単語話題特定部26は、形態素解析部20により出力された単語の各々について、単語話題対応DB24に記憶されている当該単語の各話題への関連度を示す確率分布を特定する。
話題素性作成部28は、単語話題特定部26により各単語について特定された各話題に対する確率分布に基づいて、入力された文書集合についての話題の特徴を示す素性である話題素性を抽出する。具体的には、単語話題特定部26により各単語について特定された確率分布に基づいて、話題毎に、各単語の当該話題に対する確率値を積み重ねていき、確率値の高い上位n個の話題を、興味のある話題を示す話題素性として出力する。
分類モデル記憶部30には、予め学習された分類モデルが記憶されている。具体的には、学習用文書集合から得られた単語表記素性及び話題素性と、教師データである当該学習用文書集合を作成したユーザのプロフィール(性別、年齢、居住地、既婚・未婚、職業)とを用いて、機械学習によって、文書集合を作成したユーザのプロフィールを推定するための分類モデルが予め作成され、分類モデル記憶部30に記憶される。
より具体的には、ユーザが書いた学習用文書集合に人手でユーザのプロフィールを判断したもの、又はアンケートによって当該ユーザのプロフィールを取得したものを教師データとして用いると共に、学習用文書集合に対して、形態素解析部20、単語表記素性作成部22、単語話題特定部26、話題素性作成部28での各処理を行い、その結果得られる単語表記素性及び話題素性と教師データとを組み合わせ、既知の技術である機械学習によって分類モデルをあらかじめ作成する。
ここで、教師データは、ユーザのプロフィールの各項目(性別、年齢、居住地、既婚・未婚、職業)を要素として構成されるベクトルである。教師データとして入力されるプロフィールの項目と候補の一例を、以下に示す。
性別:男、女
年齢:10代、20代、30代、40代以上
居住地:北海道・東北、関東、北信越、東海、近畿、中国・四国、九州・沖縄
既婚・未婚:既婚、未婚
職業:会社員、自営業、主婦、学生・その他
年齢:10代、20代、30代、40代以上
居住地:北海道・東北、関東、北信越、東海、近畿、中国・四国、九州・沖縄
既婚・未婚:既婚、未婚
職業:会社員、自営業、主婦、学生・その他
分類部32は、単語表記素性作成部22により作成された単語表記素性と、話題素性作成部28により作成された話題素性と、分類モデル記憶部30に記憶されている予め学習された分類モデルとに基づいて、入力部1により入力された文書集合を作成したユーザのプロフィールの各候補について、複数の候補の何れかであるかを推定する。
そして、出力部3は、分類部32により推定されたユーザのプロフィールの各項目を、推定結果として出力する。
<プロフィール推定装置10の動作>
次に、本実施の形態に係るプロフィール推定装置10の作用について説明する。プロフィール推定対象のユーザによって作成された文書集合がプロフィール推定装置10に入力されると、プロフィール推定装置10によって、図2に示すプロフィール推定処理ルーチンが実行される。
次に、本実施の形態に係るプロフィール推定装置10の作用について説明する。プロフィール推定対象のユーザによって作成された文書集合がプロフィール推定装置10に入力されると、プロフィール推定装置10によって、図2に示すプロフィール推定処理ルーチンが実行される。
まず、ステップS100において、入力部1により入力された文書集合を受け付ける。そして、ステップS102において、形態素解析部20によって、入力部1により入力された文書集合の各文書を単語に区切り、得られた単語を出力する。
次に、ステップS104において、単語表記素性作成部22によって、上記ステップS102で出力された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を抽出する。具体的には、各単語表記の出現数をカウントし、各単語表記の出現数を、単語表記素性として出力する。
次に、ステップS106において、単語話題特定部26によって、上記ステップS102で出力された単語の各々について、単語話題対応DB24に登録されている単語の各話題に対する確率分布から、当該単語の各話題に対する確率分布を取得する。
次に、ステップS108において、話題素性作成部28によって、上記ステップS106で得られた各単語の確率分布に基づいて、話題の特徴を示す素性である話題素性を抽出する。
そして、ステップS110において、分類部32によって、上記ステップS104で抽出された単語表記素性と、上記ステップS108で抽出された話題素性と、分類モデル記憶部30に記憶されている予め学習された分類モデルとに基づいて、上記ステップS100により入力された文書集合を作成したユーザのプロフィールの各項目について、複数の候補の何れかであるかを推定する。
次に、ステップS112において、上記ステップS110のプロフィール推定結果を出力部3により出力して、プロフィール推定処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係るプロフィール推定装置によれば、ユーザによって作成された文書集合から抽出された単語に基づいて、単語表記素性を抽出し、抽出された各単語について、トピックモデルに従って各話題に対する確率分布を取得して、話題素性を抽出し、単語表記素性と、話題素性とに基づいて、ユーザのプロフィールの各項目について複数の候補の何れかであるかを推定することにより、候補数が多いプロフィールに対しても高精度にプロフィールの推定をすることができる。
また、居住地や年齢、職業などの候補数が多いプロフィールに対しても高精度に推定することが可能となる。
また、Web上の評判分析サービスなどにおいて、クチコミ投稿者のセグメント(属性)を区別した分析サービスが可能となる。例えば、これまでは「ある商品に対する評判は・・・」という分析しかできなかったが、「ある商品に対する20代女性の評判は・・・」という分析が可能となる。
また、クチコミ投稿者のセグメント(属性)を区別した分析をするためには、従来、セグメント(属性)を限定して少数のモニタを募ってアンケートを実施し、その結果を分析する方法がとられていたが、上記の実施の形態によれば、Web上の多数のユーザの声を分析することが可能となる。
[第2の実施の形態]
<システム構成>
次に、本発明の第2の実施の形態について説明する。なお、第2の実施の形態に係るプロフィール推定装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
<システム構成>
次に、本発明の第2の実施の形態について説明する。なお、第2の実施の形態に係るプロフィール推定装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
第2の実施の形態では、単語話題対応DB24に、単語表記とその単語が所属する語彙クラスを対応させて登録した辞書データベースが記憶されている点が、第1の実施の形態と異なっている。
単語話題対応DB24には、単語表記とその単語が所属する語彙クラスが登録された辞書データベースが記憶されている。ここで、語彙クラスとは、単語をその性質によって分類したものである。辞書データベースは、例えば、日本語語彙体系を登録したものである。辞書データベースには、例えば、単語「買い物」に対して、語彙クラス「購買行動」が登録されている。辞書データベースに登録された語彙クラスが、単語に関連する話題として特定される。
単語話題特定部26は、形態素解析部20により出力された単語の各々について、単語話題対応DB24に記憶されている辞書データベースに基づいて、各単語に関連する話題を特定する。例えば、「旦那」「と」「娘」「と」「買い物」「中」が形態素解析部20により出力された場合、「旦那」に対して「人」、「娘」に対して「人」、「買い物」に対して「購買行動」が関連する話題として特定される。なお、辞書データベースの種類によって、単語の語彙クラスが一意に特定されるが、この場合、上記の第1の実施の形態と同様、各話題への関連度を示す確率分布(1つの語彙クラスだけに1が立つ確率分布)として、単語に関連する話題を特定してもよい。
話題素性作成部28は、単語話題特定部26により特定された各単語に関連する話題に基づいて、当該話題の特徴を示す素性である話題素性を、話題の頻度を基に抽出する。具体的には、話題素性として、上位n個の頻出する話題を出力する。例えば、「人」、「人」、「購買行動」が単語話題特定部26により各単語に関連する話題として特定された場合、話題「人」が2回、「購買行動」が1回となるため、上位の2個の話題を出力する場合、「人:1」「購買行動:1」となる。
なお、第2の実施の形態に係るプロフィール推定装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、第2の実施の形態に係るプロフィール推定装置によれば、ユーザによって作成された文書集合から抽出された単語に基づいて、単語表記素性を抽出し、抽出された各単語が所属する語彙クラスが登録されている辞書データベースを用いて話題素性を抽出し、単語表記素性と、話題素性とに基づいて、ユーザのプロフィールの各項目について複数の候補の何れかであるかを推定することにより、候補数が多いプロフィールに対しても高精度にプロフィールの推定をすることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、第1の実施の形態における話題素性作成部28は、単語話題特定部26により各単語について特定された確率分布に基づいて、話題毎に、各単語の当該話題に対する確率値を積み重ねていき、確率値の高い上位n個の話題を、興味のある話題を示す話題素性として出力する場合を例に説明したが、最も確率値の高い話題を興味のある話題として出力してもよい。
また、単語表記素性作成部22において単語から抽出する素性については、単語表記の出現数をカウントし、単語表記素性として出力する場合を例に説明したが、単語の品詞についての出現数をカウントしても良い。この場合には、形態素解析部20は、周知の形態素解析技術によって、入力部1により入力された文書を単語に区切るとともに当該単語に品詞を付与する。
また、単語表記素性作成部22において単語から抽出する素性については、単語表記の出現数をカウントし、単語表記素性として出力する場合を例に説明したが、事前に準備した単語表記のリストと一致するものに限定し、リストに記載されている単語表記の出現数をカウントしても良い。
また、単語表記素性作成部22において単語から抽出する素性については、出現数をカウントするのではなく、存在するか否かだけを値としても良い。この場合は、全ての単語に対して「1回」という値が付くのと同じとなる。例えば、「旦那」「と」「娘」「と」「買い物」「中」が入力の場合、「旦那:1」「と:1」「娘:1」「買い物:1」「中:1」となる。
また、話題素性作成部28においては、単語話題特定部26により特定された話題について、確率値の高い上位n個の話題又は上位n個の頻出する話題を興味のある話題として出力する場合を例に説明したが、各話題と共に各話題の頻度をつけて出力しても良い。例えば、「人」「人」「購買行動」が入力部1により入力された場合、頻度付きで出力する場合には、「人:2」「購買行動:1」となる。
また、話題素性作成部28における話題素性については、頻度順に並べた際の順位をつけて出力しても良い。例えば、「人」「人」「購買行動」が入力部1により入力された場合、順位つきで出力する場合には、「人:1」「購買行動:2」となる。
また、分類部32においては、プロフィール推定をする際に、ユーザの属性を示す各項目から構成されるプロフィールとして出力したが、当該プロフィールと共に、その度合いを示す値も出力してもよい。
また、ユーザによって作成された文書集合が入力される場合を例に説明したが、これに限定されるものではなく、ユーザによって作成された1つの文書が入力されてもよい。
また、上述のプロフィール推定装置は、単語話題対応DB24及び分類モデル記憶部30を備えている場合について説明したが、例えば単語話題対応DB24及び分類モデル記憶部30がプロフィール推定装置の外部装置に設けられ、プロフィール推定装置は、外部装置と通信手段を用いて通信することにより、単語話題対応DB24及び分類モデル記憶部30を参照するようにしてもよい。
また、上述のプロフィール推定装置は、内部にコンピュータシステムを有しているが、コンピュータシステムは、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読取り可能な記録媒体に格納して提供することも可能である。
1 入力部
2 演算部
10 プロフィール推定装置
20 形態素解析部
22 単語表記素性作成部
26 単語話題特定部
28 話題素性作成部
30 分類モデル記憶部
32 分類部
2 演算部
10 プロフィール推定装置
20 形態素解析部
22 単語表記素性作成部
26 単語話題特定部
28 話題素性作成部
30 分類モデル記憶部
32 分類部
Claims (7)
- ユーザによって作成された文書から単語の各々を抽出する単語抽出手段と、
前記単語抽出手段によって抽出された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を作成する単語表記素性作成手段と、
前記単語抽出手段によって抽出された単語の各々について、前記単語に関連する話題を特定する話題特定手段と、
前記話題特定手段によって特定された各単語に関連する話題に基づいて、話題の特徴を示す素性である話題素性を作成する話題素性作成手段と、
前記単語表記素性作成手段によって作成された前記単語表記素性と、前記話題素性作成手段によって抽出された前記話題素性と、前記単語表記素性及び前記話題素性に基づいてプロフィールが複数の候補の何れであるかを推定するための予め学習された分類モデルとに基づいて、前記ユーザの前記プロフィールが前記複数の候補の何れであるかを推定するプロフィール推定手段と、
を含むプロフィール推定装置。 - 前記話題特定手段は、前記単語抽出手段によって抽出された単語の各々について、トピックモデルに従って各単語について予め求められた前記単語と複数の話題の各々との関連度合いを示す確率分布に基づいて、前記単語に関連する話題として、前記複数の話題の各々との関連度合いを示す確率分布を特定する請求項1記載のプロフィール推定装置。
- 前記話題特定手段は、前記単語抽出手段によって抽出された単語の各々について、各単語について前記単語が所属する語彙クラスが登録されている辞書データベースを用いて、前記単語に関連する話題として、前記単語が所属する語彙クラスを特定する請求項1記載のプロフィール推定装置。
- 単語抽出手段、単語表記素性作成手段、話題特定手段、話題素性作成手段及びプロフィール推定手段を含むプロフィール推定装置におけるプロフィール推定方法であって、
前記単語抽出手段によって、ユーザによって作成された文書から単語の各々を抽出するステップと、
前記単語表記素性作成手段によって、前記単語抽出手段によって抽出された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を作成するステップと、
前記話題特定手段によって、前記単語抽出手段によって抽出された単語の各々について、前記単語に関連する話題を特定するステップと、
前記話題素性作成手段によって、前記話題特定手段によって特定された各単語に関連する話題に基づいて、話題の特徴を示す素性である話題素性を作成するステップと、
前記プロフィール推定手段によって、前記単語表記素性作成手段によって作成された前記単語表記素性と、前記話題素性作成手段によって抽出された前記話題素性と、前記単語表記素性及び前記話題素性に基づいてプロフィールが複数の候補の何れであるかを推定するための予め学習された分類モデルとに基づいて、前記ユーザの前記プロフィールが前記複数の候補の何れであるかを推定するステップと、
を含むプロフィール推定方法。 - 前記話題特定手段によって特定するステップは、前記単語抽出手段によって抽出された単語の各々について、トピックモデルに従って各単語について予め求められた前記単語と複数の話題の各々との関連度合いを示す確率分布に基づいて、前記単語に関連する話題として、前記複数の話題の各々との関連度合いを示す確率分布を特定する請求項4記載のプロフィール推定方法。
- 前記話題特定手段によって特定するステップは、前記単語抽出手段によって抽出された単語の各々について、各単語について前記単語が所属する語彙クラスが登録されている辞書データベースを用いて、前記単語に関連する話題として、前記単語が所属する語彙クラスを特定する請求項4記載のプロフィール推定方法。
- コンピュータを、請求項1〜請求項3の何れか1項記載のプロフィール推定装置の各手段として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012250484A JP2014099045A (ja) | 2012-11-14 | 2012-11-14 | プロフィール推定装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012250484A JP2014099045A (ja) | 2012-11-14 | 2012-11-14 | プロフィール推定装置、方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014099045A true JP2014099045A (ja) | 2014-05-29 |
Family
ID=50941011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012250484A Pending JP2014099045A (ja) | 2012-11-14 | 2012-11-14 | プロフィール推定装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014099045A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014115948A (ja) * | 2012-12-12 | 2014-06-26 | Nippon Telegr & Teleph Corp <Ntt> | ユーザ属性推定器構築装置、方法、ユーザ属性推定装置、及びプログラム |
CN104462066A (zh) * | 2014-12-24 | 2015-03-25 | 北京百度网讯科技有限公司 | 语义角色标注方法及装置 |
JP2016035688A (ja) * | 2014-08-04 | 2016-03-17 | 日本電気株式会社 | テキスト分析装置、テキスト分析方法、テキスト分析プログラムおよび記録媒体 |
JP2016162163A (ja) * | 2015-03-02 | 2016-09-05 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP2023121078A (ja) * | 2022-02-18 | 2023-08-30 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
-
2012
- 2012-11-14 JP JP2012250484A patent/JP2014099045A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014115948A (ja) * | 2012-12-12 | 2014-06-26 | Nippon Telegr & Teleph Corp <Ntt> | ユーザ属性推定器構築装置、方法、ユーザ属性推定装置、及びプログラム |
JP2016035688A (ja) * | 2014-08-04 | 2016-03-17 | 日本電気株式会社 | テキスト分析装置、テキスト分析方法、テキスト分析プログラムおよび記録媒体 |
CN104462066A (zh) * | 2014-12-24 | 2015-03-25 | 北京百度网讯科技有限公司 | 语义角色标注方法及装置 |
CN104462066B (zh) * | 2014-12-24 | 2017-10-03 | 北京百度网讯科技有限公司 | 语义角色标注方法及装置 |
JP2016162163A (ja) * | 2015-03-02 | 2016-09-05 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP2023121078A (ja) * | 2022-02-18 | 2023-08-30 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
JP7485706B2 (ja) | 2022-02-18 | 2024-05-16 | Lineヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210224483A1 (en) | Ontology expansion using entity-association rules and abstract relations | |
Singla et al. | Statistical and sentiment analysis of consumer product reviews | |
Bahrainian et al. | Sentiment analysis and summarization of twitter data | |
US9753916B2 (en) | Automatic generation of a speech by processing raw claims to a set of arguments | |
AU2015252513B2 (en) | Method and system for filtering goods evaluation information | |
Bhonde et al. | Sentiment analysis based on dictionary approach | |
Arora et al. | Consumers' sentiment analysis of popular phone brands and operating system preference using Twitter data: A feasibility study | |
Shirsat et al. | Document level sentiment analysis from news articles | |
Nair et al. | SentiMa-sentiment extraction for Malayalam | |
Rehman et al. | Lexicon-based sentiment analysis for Urdu language | |
Nguyen et al. | Real-time event detection using recurrent neural network in social sensors | |
CN108269122B (zh) | 广告的相似度处理方法和装置 | |
Syed | Applying sentiment and emotion analysis on brand tweets for digital marketing | |
Jeon et al. | Hashtag recommendation based on user tweet and hashtag classification on twitter | |
US11640420B2 (en) | System and method for automatic summarization of content with event based analysis | |
CN104850617A (zh) | 短文本处理方法及装置 | |
US20230214679A1 (en) | Extracting and classifying entities from digital content items | |
Yao et al. | Predicting movie sales revenue using online reviews | |
JP2014099045A (ja) | プロフィール推定装置、方法、及びプログラム | |
CN104881447A (zh) | 搜索方法及装置 | |
Sabariah et al. | Sentiment analysis on Twitter using the combination of lexicon-based and support vector machine for assessing the performance of a television program | |
US10614100B2 (en) | Semantic merge of arguments | |
Cui et al. | Personalized microblog recommendation using sentimental features | |
Pereira et al. | Sentiment retrieval on web reviews using spontaneous natural speech | |
Simeon et al. | Evaluating the Effectiveness of Hashtags as Predictors of the Sentiment of Tweets |