JP2014099045A

JP2014099045A - プロフィール推定装置、方法、及びプログラム

Info

Publication number: JP2014099045A
Application number: JP2012250484A
Authority: JP
Inventors: Toru Hirano; 徹平野; Toshiaki Makino; 俊朗牧野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-11-14
Filing date: 2012-11-14
Publication date: 2014-05-29

Abstract

【課題】候補数が多いプロフィールに対しても高精度にプロフィールの推定をすることができるようにする。
【解決手段】形態素解析部２０により、ユーザによって作成された文書から単語の各々を抽出する。単語表記素性作成部２２により、抽出された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を作成する。単語話題特定部２６により、抽出された単語の各々について、単語に関連する話題を特定する。話題素性作成部２８により、単語話題特定部２６によって特定された各単語に関連する話題に基づいて、話題の特徴を示す素性である話題素性を作成する。分類部３２により、単語表記素性と、話題素性と、単語表記素性及び話題素性に基づいてプロフィールが複数の候補の何れであるかを推定するための予め学習された分類モデルとに基づいて、ユーザのプロフィールが複数の候補の何れであるかを推定する。
【選択図】図１

Description

本発明は、ユーザのプロフィールを推定するプロフィール推定装置、方法、及びプログラムに関する。

従来、ユーザが書いたテキスト（文書）からそのユーザのプロフィールを推定する技術が知られている。この技術は、図３に示すように、テキスト中の単語表記を手がかりに機械学習で構築した分類モデルを用いて各ユーザのプロフィールを推定するというシステムである（非特許文献１、２参照）。

池田和史、他４名，「マーケット分析のためのＴｗｉｔｔｅｒ投稿者プロフィール推定」，情報処理学会論文誌，２０１２年３月，ｐ．８２−９３大倉務、他２名，「スケーラブルで汎用的なブログ著者推定手法」，社団法人情報処理学会研究報告，２００７年９月

しかし、従来の単語表記のみを手がかりとした手法では男・女や既婚・未婚などの候補数が少ないプロフィールに対しては高精度に推定できるが、居住地や年齢、職業などの候補数が多いプロフィールに対しては推定精度が低い。

本発明は、上記問題を解決するためになされたもので、候補数が多いプロフィールに対しても高精度にプロフィールの推定をすることができるプロフィール推定装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明のプロフィール推定装置は、ユーザによって作成された文書から単語の各々を抽出する単語抽出手段と、前記単語抽出手段によって抽出された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を作成する単語表記素性作成手段と、前記単語抽出手段によって抽出された単語の各々について、前記単語に関連する話題を特定する話題特定手段と、前記話題特定手段によって特定された各単語に関連する話題に基づいて、話題の特徴を示す素性である話題素性を作成する話題素性作成手段と、前記単語表記素性作成手段によって作成された前記単語表記素性と、前記話題素性作成手段によって抽出された前記話題素性と、前記単語表記素性及び前記話題素性に基づいてプロフィールが複数の候補の何れであるかを推定するための予め学習された分類モデルとに基づいて、前記ユーザの前記プロフィールが前記複数の候補の何れであるかを推定するプロフィール推定手段と、を備えている。

本発明のプロフィール推定方法は、単語抽出手段、単語表記素性作成手段、話題特定手段、話題素性作成手段及びプロフィール推定手段を含むプロフィール推定装置におけるプロフィール推定方法であって、前記単語抽出手段によって、ユーザによって作成された文書から単語の各々を抽出するステップと、前記単語表記素性作成手段によって、前記単語抽出手段によって抽出された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を作成するステップと、前記話題特定手段によって、前記単語抽出手段によって抽出された単語の各々について、前記単語に関連する話題を特定するステップと、前記話題素性作成手段によって、前記話題特定手段によって特定された各単語に関連する話題に基づいて、話題の特徴を示す素性である話題素性を作成するステップと、前記プロフィール推定手段によって、前記単語表記素性作成手段によって作成された前記単語表記素性と、前記話題素性作成手段によって抽出された前記話題素性と、前記単語表記素性及び前記話題素性に基づいてプロフィールが複数の候補の何れであるかを推定するための予め学習された分類モデルとに基づいて、前記ユーザの前記プロフィールが前記複数の候補の何れであるかを推定するステップと、を含む。

本発明に係るプロフィール推定装置及びプロフィール推定方法によれば、単語抽出手段によって、ユーザによって作成された文書から単語の各々を抽出する。そして、単語表記素性作成手段によって、単語抽出手段によって抽出された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を作成する。

そして、話題特定手段によって、単語抽出手段によって抽出された単語の各々について、単語に関連する話題を特定する。そして、話題素性作成手段によって、話題特定手段によって特定された各単語に関連する話題に基づいて、話題の特徴を示す素性である話題素性を作成する。

そして、プロフィール推定手段によって、単語表記素性作成手段によって作成された単語表記素性と、話題素性作成手段によって抽出された話題素性と、単語表記素性及び話題素性に基づいてプロフィールが複数の候補の何れであるかを推定するための予め学習された分類モデルとに基づいて、ユーザのプロフィールが複数の候補の何れであるかを推定する。

このように、ユーザによって作成された文書から抽出された単語に基づいて、単語表記素性を抽出すると共に、抽出された各単語について単語に関連する話題を特定し、各単語に関連する話題に基づいて、話題素性を抽出し、単語表記素性と、話題素性とに基づいて、ユーザのプロフィールを推定することにより、候補数が多いプロフィールに対しても高精度にプロフィールの推定をすることができる。

また、前記話題特定手段は、前記単語抽出手段によって抽出された単語の各々について、トピックモデルに従って各単語について予め求められた前記単語と複数の話題の各々との関連度合いを示す確率分布に基づいて、前記単語に関連する話題として、前記複数の話題の各々との関連度合いを示す確率分布を特定するようにすることができる。

また、前記話題特定手段は、前記単語抽出手段によって抽出された単語の各々について、各単語について前記単語が所属する語彙クラスが登録されている辞書データベースを用いて、前記単語に関連する話題として、前記単語が所属する語彙クラスを特定するようにすることができる。

以上説明したように、本発明のプロフィール推定装置、方法、及びプログラムによれば、ユーザによって作成された文書から抽出された単語に基づいて、単語表記素性を抽出すると共に、抽出された各単語について単語に関連する話題を特定し、各単語に関連する話題に基づいて、話題素性を抽出し、単語表記素性と、話題素性とに基づいて、ユーザのプロフィールを推定することにより、候補数が多いプロフィールに対しても高精度にプロフィールの推定をすることができる、という効果が得られる。

本発明の実施の形態に係るプロフィール推定装置の構成の一例を示す図である。本発明の実施の形態に係るプロフィール推定処理ルーチンのフローチャートの一例である。従来技術を説明するための図である。

＜概要＞
まず、本発明の実施の形態の概要について説明する。

本発明の実施の形態は、ユーザが書いた１つ以上のテキストから、そのユーザの性別、年齢、居住地、職業、既婚・未婚などのプロフィールを推定する技術に関するものである。例えば、Ａさんが投稿したブログやツイートデータ中に「旦那」「娘」などの単語があれば、Ａさんは「女性」「既婚」であることが推定される。

本発明の実施の形態では、同一のプロフィールを持つユーザ達は、同様の話題について興味を示す傾向にあることを利用する。例えば、「学生」のプロフィールをもつユーザの投稿には、「ファッション」について興味がある傾向がある。

従来の手法では、単語表記だけを手がかりとして用いていたため、ファッションに関連する単語を別々に扱ってしまい、ユーザの興味のある話題を捕らえることはできなかった。

そこで、ユーザの書いた文書中の各単語が関連する話題を特定し、特定された話題の中で頻出する話題を選択する。この選択された話題を、当該ユーザが興味のある話題として素性として利用する。

[第１の実施の形態]
＜システム構成＞
以下、図面を参照して本発明の実施の形態を詳細に説明する。図１は、第１の実施の形態に係るプロフィール推定装置の構成の一例を示す図である。

第１の実施の形態に係るプロフィール推定装置１０は、ＣＰＵと、ＲＡＭと、後述するプロフィール推定処理ルーチンを実行するためのプログラム及び各種データを記憶したＲＯＭとを備えたコンピュータで構成されている。また、記憶手段としてＨＤＤを設けてもよい。

このコンピュータは、機能的には、図１に示すように、入力部１、演算部２、及び出力部３を含んだ構成で表わすことができる。

入力部１は、プロフィール推定対象となるユーザによって作成された文書集合の入力を受け付ける。

なお、入力される文書集合の各文書は形態素解析済みであってもよく、この場合には、後述する形態素解析部２０を省略することができる。

また、演算部２は、形態素解析部２０、単語表記素性作成部２２、単語話題対応ＤＢ（データベース）２４、単語話題特定部２６、話題素性作成部２８、分類モデル記憶部３０、及び分類部３２を備えている。なお、形態素解析部２０は、単語抽出手段の一例である。

形態素解析部２０は、周知の形態素解析技術によって、入力部１により入力された文書集合の各文書を単語に区切り、各単語を出力する。例えば、入力部１により入力された文書が「旦那と娘と買い物中」の場合、単語「旦那」、「と」、「娘」、「と」、「買い物」、「中」が出力される。

単語表記素性作成部２２は、形態素解析部２０により出力された単語に基づいて、入力された文書集合についての単語表記の特徴を示す素性である単語表記素性を抽出する。具体的には、出力された各単語に基づいて、単語表記の出現数をカウントし、単語表記素性として出力する。例えば、「旦那」「と」「娘」「と」「買い物」「中」が形態素解析部２０で出力された場合、単語表記の出現数「旦那：１」「と:２」「娘:１」「買い物:１」「中:１」が出力される。

単語話題対応ＤＢ２４には、周知のトピックモデル（ＬＤＡ：Latent Dirichlet Allocation（参考文献 Blei,2003「Latent dirichlet allocation」を参照）など）を用いて予め作成された、各単語の各話題（トピック）への関連度を示す確率分布が記憶されている。ここで、トピックモデルとは、文書が話題（トピック）に基づいて生成される過程を確率的に表現したモデルである。従って、単語話題対応ＤＢ２４には、単語表記とその単語の各話題に対する確率分布が記載されていることになる。例えば、単語「買い物」に対して、各話題に対する確率分布を配列で示した（０．０，０．１，０．７，０．０，０．２）が記憶されている。

単語話題特定部２６は、形態素解析部２０により出力された単語の各々について、単語話題対応ＤＢ２４に記憶されている当該単語の各話題への関連度を示す確率分布を特定する。

話題素性作成部２８は、単語話題特定部２６により各単語について特定された各話題に対する確率分布に基づいて、入力された文書集合についての話題の特徴を示す素性である話題素性を抽出する。具体的には、単語話題特定部２６により各単語について特定された確率分布に基づいて、話題毎に、各単語の当該話題に対する確率値を積み重ねていき、確率値の高い上位ｎ個の話題を、興味のある話題を示す話題素性として出力する。

分類モデル記憶部３０には、予め学習された分類モデルが記憶されている。具体的には、学習用文書集合から得られた単語表記素性及び話題素性と、教師データである当該学習用文書集合を作成したユーザのプロフィール（性別、年齢、居住地、既婚・未婚、職業）とを用いて、機械学習によって、文書集合を作成したユーザのプロフィールを推定するための分類モデルが予め作成され、分類モデル記憶部３０に記憶される。

より具体的には、ユーザが書いた学習用文書集合に人手でユーザのプロフィールを判断したもの、又はアンケートによって当該ユーザのプロフィールを取得したものを教師データとして用いると共に、学習用文書集合に対して、形態素解析部２０、単語表記素性作成部２２、単語話題特定部２６、話題素性作成部２８での各処理を行い、その結果得られる単語表記素性及び話題素性と教師データとを組み合わせ、既知の技術である機械学習によって分類モデルをあらかじめ作成する。

ここで、教師データは、ユーザのプロフィールの各項目（性別、年齢、居住地、既婚・未婚、職業）を要素として構成されるベクトルである。教師データとして入力されるプロフィールの項目と候補の一例を、以下に示す。

性別：男、女
年齢：１０代、２０代、３０代、４０代以上
居住地：北海道・東北、関東、北信越、東海、近畿、中国・四国、九州・沖縄
既婚・未婚：既婚、未婚
職業：会社員、自営業、主婦、学生・その他

分類部３２は、単語表記素性作成部２２により作成された単語表記素性と、話題素性作成部２８により作成された話題素性と、分類モデル記憶部３０に記憶されている予め学習された分類モデルとに基づいて、入力部１により入力された文書集合を作成したユーザのプロフィールの各候補について、複数の候補の何れかであるかを推定する。

そして、出力部３は、分類部３２により推定されたユーザのプロフィールの各項目を、推定結果として出力する。

＜プロフィール推定装置１０の動作＞
次に、本実施の形態に係るプロフィール推定装置１０の作用について説明する。プロフィール推定対象のユーザによって作成された文書集合がプロフィール推定装置１０に入力されると、プロフィール推定装置１０によって、図２に示すプロフィール推定処理ルーチンが実行される。

まず、ステップＳ１００において、入力部１により入力された文書集合を受け付ける。そして、ステップＳ１０２において、形態素解析部２０によって、入力部１により入力された文書集合の各文書を単語に区切り、得られた単語を出力する。

次に、ステップＳ１０４において、単語表記素性作成部２２によって、上記ステップＳ１０２で出力された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を抽出する。具体的には、各単語表記の出現数をカウントし、各単語表記の出現数を、単語表記素性として出力する。

次に、ステップＳ１０６において、単語話題特定部２６によって、上記ステップＳ１０２で出力された単語の各々について、単語話題対応ＤＢ２４に登録されている単語の各話題に対する確率分布から、当該単語の各話題に対する確率分布を取得する。

次に、ステップＳ１０８において、話題素性作成部２８によって、上記ステップＳ１０６で得られた各単語の確率分布に基づいて、話題の特徴を示す素性である話題素性を抽出する。

そして、ステップＳ１１０において、分類部３２によって、上記ステップＳ１０４で抽出された単語表記素性と、上記ステップＳ１０８で抽出された話題素性と、分類モデル記憶部３０に記憶されている予め学習された分類モデルとに基づいて、上記ステップＳ１００により入力された文書集合を作成したユーザのプロフィールの各項目について、複数の候補の何れかであるかを推定する。

次に、ステップＳ１１２において、上記ステップＳ１１０のプロフィール推定結果を出力部３により出力して、プロフィール推定処理ルーチンを終了する。

以上説明したように、第１の実施の形態に係るプロフィール推定装置によれば、ユーザによって作成された文書集合から抽出された単語に基づいて、単語表記素性を抽出し、抽出された各単語について、トピックモデルに従って各話題に対する確率分布を取得して、話題素性を抽出し、単語表記素性と、話題素性とに基づいて、ユーザのプロフィールの各項目について複数の候補の何れかであるかを推定することにより、候補数が多いプロフィールに対しても高精度にプロフィールの推定をすることができる。

また、居住地や年齢、職業などの候補数が多いプロフィールに対しても高精度に推定することが可能となる。

また、Ｗｅｂ上の評判分析サービスなどにおいて、クチコミ投稿者のセグメント（属性）を区別した分析サービスが可能となる。例えば、これまでは「ある商品に対する評判は・・・」という分析しかできなかったが、「ある商品に対する２０代女性の評判は・・・」という分析が可能となる。

また、クチコミ投稿者のセグメント（属性）を区別した分析をするためには、従来、セグメント（属性）を限定して少数のモニタを募ってアンケートを実施し、その結果を分析する方法がとられていたが、上記の実施の形態によれば、Ｗｅｂ上の多数のユーザの声を分析することが可能となる。

[第２の実施の形態]
＜システム構成＞
次に、本発明の第２の実施の形態について説明する。なお、第２の実施の形態に係るプロフィール推定装置の構成は、第１の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。

第２の実施の形態では、単語話題対応ＤＢ２４に、単語表記とその単語が所属する語彙クラスを対応させて登録した辞書データベースが記憶されている点が、第１の実施の形態と異なっている。

単語話題対応ＤＢ２４には、単語表記とその単語が所属する語彙クラスが登録された辞書データベースが記憶されている。ここで、語彙クラスとは、単語をその性質によって分類したものである。辞書データベースは、例えば、日本語語彙体系を登録したものである。辞書データベースには、例えば、単語「買い物」に対して、語彙クラス「購買行動」が登録されている。辞書データベースに登録された語彙クラスが、単語に関連する話題として特定される。

単語話題特定部２６は、形態素解析部２０により出力された単語の各々について、単語話題対応ＤＢ２４に記憶されている辞書データベースに基づいて、各単語に関連する話題を特定する。例えば、「旦那」「と」「娘」「と」「買い物」「中」が形態素解析部２０により出力された場合、「旦那」に対して「人」、「娘」に対して「人」、「買い物」に対して「購買行動」が関連する話題として特定される。なお、辞書データベースの種類によって、単語の語彙クラスが一意に特定されるが、この場合、上記の第１の実施の形態と同様、各話題への関連度を示す確率分布（１つの語彙クラスだけに１が立つ確率分布）として、単語に関連する話題を特定してもよい。

話題素性作成部２８は、単語話題特定部２６により特定された各単語に関連する話題に基づいて、当該話題の特徴を示す素性である話題素性を、話題の頻度を基に抽出する。具体的には、話題素性として、上位ｎ個の頻出する話題を出力する。例えば、「人」、「人」、「購買行動」が単語話題特定部２６により各単語に関連する話題として特定された場合、話題「人」が２回、「購買行動」が１回となるため、上位の２個の話題を出力する場合、「人:１」「購買行動:１」となる。

なお、第２の実施の形態に係るプロフィール推定装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、第２の実施の形態に係るプロフィール推定装置によれば、ユーザによって作成された文書集合から抽出された単語に基づいて、単語表記素性を抽出し、抽出された各単語が所属する語彙クラスが登録されている辞書データベースを用いて話題素性を抽出し、単語表記素性と、話題素性とに基づいて、ユーザのプロフィールの各項目について複数の候補の何れかであるかを推定することにより、候補数が多いプロフィールに対しても高精度にプロフィールの推定をすることができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、第１の実施の形態における話題素性作成部２８は、単語話題特定部２６により各単語について特定された確率分布に基づいて、話題毎に、各単語の当該話題に対する確率値を積み重ねていき、確率値の高い上位ｎ個の話題を、興味のある話題を示す話題素性として出力する場合を例に説明したが、最も確率値の高い話題を興味のある話題として出力してもよい。

また、単語表記素性作成部２２において単語から抽出する素性については、単語表記の出現数をカウントし、単語表記素性として出力する場合を例に説明したが、単語の品詞についての出現数をカウントしても良い。この場合には、形態素解析部２０は、周知の形態素解析技術によって、入力部１により入力された文書を単語に区切るとともに当該単語に品詞を付与する。

また、単語表記素性作成部２２において単語から抽出する素性については、単語表記の出現数をカウントし、単語表記素性として出力する場合を例に説明したが、事前に準備した単語表記のリストと一致するものに限定し、リストに記載されている単語表記の出現数をカウントしても良い。

また、単語表記素性作成部２２において単語から抽出する素性については、出現数をカウントするのではなく、存在するか否かだけを値としても良い。この場合は、全ての単語に対して「１回」という値が付くのと同じとなる。例えば、「旦那」「と」「娘」「と」「買い物」「中」が入力の場合、「旦那：１」「と：１」「娘：１」「買い物：１」「中：１」となる。

また、話題素性作成部２８においては、単語話題特定部２６により特定された話題について、確率値の高い上位ｎ個の話題又は上位ｎ個の頻出する話題を興味のある話題として出力する場合を例に説明したが、各話題と共に各話題の頻度をつけて出力しても良い。例えば、「人」「人」「購買行動」が入力部１により入力された場合、頻度付きで出力する場合には、「人：２」「購買行動：１」となる。

また、話題素性作成部２８における話題素性については、頻度順に並べた際の順位をつけて出力しても良い。例えば、「人」「人」「購買行動」が入力部１により入力された場合、順位つきで出力する場合には、「人：１」「購買行動：２」となる。

また、分類部３２においては、プロフィール推定をする際に、ユーザの属性を示す各項目から構成されるプロフィールとして出力したが、当該プロフィールと共に、その度合いを示す値も出力してもよい。

また、ユーザによって作成された文書集合が入力される場合を例に説明したが、これに限定されるものではなく、ユーザによって作成された１つの文書が入力されてもよい。

また、上述のプロフィール推定装置は、単語話題対応ＤＢ２４及び分類モデル記憶部３０を備えている場合について説明したが、例えば単語話題対応ＤＢ２４及び分類モデル記憶部３０がプロフィール推定装置の外部装置に設けられ、プロフィール推定装置は、外部装置と通信手段を用いて通信することにより、単語話題対応ＤＢ２４及び分類モデル記憶部３０を参照するようにしてもよい。

また、上述のプロフィール推定装置は、内部にコンピュータシステムを有しているが、コンピュータシステムは、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読取り可能な記録媒体に格納して提供することも可能である。

１入力部
２演算部
１０プロフィール推定装置
２０形態素解析部
２２単語表記素性作成部
２６単語話題特定部
２８話題素性作成部
３０分類モデル記憶部
３２分類部

Claims

ユーザによって作成された文書から単語の各々を抽出する単語抽出手段と、
前記単語抽出手段によって抽出された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を作成する単語表記素性作成手段と、
前記単語抽出手段によって抽出された単語の各々について、前記単語に関連する話題を特定する話題特定手段と、
前記話題特定手段によって特定された各単語に関連する話題に基づいて、話題の特徴を示す素性である話題素性を作成する話題素性作成手段と、
前記単語表記素性作成手段によって作成された前記単語表記素性と、前記話題素性作成手段によって抽出された前記話題素性と、前記単語表記素性及び前記話題素性に基づいてプロフィールが複数の候補の何れであるかを推定するための予め学習された分類モデルとに基づいて、前記ユーザの前記プロフィールが前記複数の候補の何れであるかを推定するプロフィール推定手段と、
を含むプロフィール推定装置。
前記話題特定手段は、前記単語抽出手段によって抽出された単語の各々について、トピックモデルに従って各単語について予め求められた前記単語と複数の話題の各々との関連度合いを示す確率分布に基づいて、前記単語に関連する話題として、前記複数の話題の各々との関連度合いを示す確率分布を特定する請求項１記載のプロフィール推定装置。
前記話題特定手段は、前記単語抽出手段によって抽出された単語の各々について、各単語について前記単語が所属する語彙クラスが登録されている辞書データベースを用いて、前記単語に関連する話題として、前記単語が所属する語彙クラスを特定する請求項１記載のプロフィール推定装置。
単語抽出手段、単語表記素性作成手段、話題特定手段、話題素性作成手段及びプロフィール推定手段を含むプロフィール推定装置におけるプロフィール推定方法であって、
前記単語抽出手段によって、ユーザによって作成された文書から単語の各々を抽出するステップと、
前記単語表記素性作成手段によって、前記単語抽出手段によって抽出された単語に基づいて、単語表記の特徴を示す素性である単語表記素性を作成するステップと、
前記話題特定手段によって、前記単語抽出手段によって抽出された単語の各々について、前記単語に関連する話題を特定するステップと、
前記話題素性作成手段によって、前記話題特定手段によって特定された各単語に関連する話題に基づいて、話題の特徴を示す素性である話題素性を作成するステップと、
前記プロフィール推定手段によって、前記単語表記素性作成手段によって作成された前記単語表記素性と、前記話題素性作成手段によって抽出された前記話題素性と、前記単語表記素性及び前記話題素性に基づいてプロフィールが複数の候補の何れであるかを推定するための予め学習された分類モデルとに基づいて、前記ユーザの前記プロフィールが前記複数の候補の何れであるかを推定するステップと、
を含むプロフィール推定方法。
前記話題特定手段によって特定するステップは、前記単語抽出手段によって抽出された単語の各々について、トピックモデルに従って各単語について予め求められた前記単語と複数の話題の各々との関連度合いを示す確率分布に基づいて、前記単語に関連する話題として、前記複数の話題の各々との関連度合いを示す確率分布を特定する請求項４記載のプロフィール推定方法。
前記話題特定手段によって特定するステップは、前記単語抽出手段によって抽出された単語の各々について、各単語について前記単語が所属する語彙クラスが登録されている辞書データベースを用いて、前記単語に関連する話題として、前記単語が所属する語彙クラスを特定する請求項４記載のプロフィール推定方法。
コンピュータを、請求項１〜請求項３の何れか１項記載のプロフィール推定装置の各手段として機能させるためのプログラム。