以下、図面を参照して本発明の実施の形態を詳細に説明する。
[第1の実施の形態]
<著者行動推定装置の構成>
図1に示すように、第1の実施の形態に係る著者行動推定装置100は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述するリスト作成処理ルーチン及び著者行動推定処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成され、機能的には次に示すように構成されている。著者行動推定装置100は、入力部10と、演算部20と、出力部30とを備えている。
入力部10は、既知のキーボード、マウス、記憶装置などの入力器により入力された、推定対象となるテキスト(入力文書)及び商品名、商品名リスト、並びにWEBテキストを受け付ける。
演算部20は、WEBテキストデータベース40、「使われ方」リスト作成部42、「使われ方」含意リスト作成部44、「使われ方」リスト記憶部46、「使われ方」含意リスト記憶部48、形態素解析部50、単語表記素性作成部52、「使われ方」リスト素性作成部54、「使われ方」含意リスト素性作成部56、分類器58、及び著者行動推定モデル記憶部60を備えている。なお、「使われ方」リスト素性作成部54及び「使われ方」含意リスト素性作成部56が、素性抽出手段の一例である。また、「使われ方」リスト作成部42が、第1動詞抽出手段の一例であり、「使われ方」含意リスト作成部44が、第2動詞抽出手段の一例である。分類器58および著者行動推定モデル記憶部60が、行動推定手段の一例である。
WEBテキストデータベース40は、入力部10により受け付けた大量のWEBテキストを記憶している。
「使われ方」リスト作成部42は、WEBテキストデータベース40に記憶されている大量のWEBテキストと、入力部10により受け付けた商品名のリストとを用いて、以下のように、商品名毎に、「使われ方」を表す動詞のリストを作成する。
まず、対象となる商品名について、大量のWEBテキストからその商品名を含むWEBテキストを抽出する。次に、抽出した各WEBテキストに対して周知技術である係り受け解析を行い、その結果から当該商品名の係り先となる動詞を獲得し集計する。その際、日本語の助詞の意味に着目し、「<商品>で〜する」のように商品が道具として利用されることを示す動詞と、「<商品>を〜する」、「<商品>に〜する」のように商品を動作の目的とすることを示す動詞のみを、「使われ方」を表わす動詞として抽出する。最後に、抽出された動詞のうち、出現頻度が上位n個の動詞を、当該商品名に対する「使われ方」リストとして「使われ方」リスト記憶部46に格納する。
例えば、入力の商品名が「フリード(車の名称)」の場合、「乗る」「試乗」「洗車」「洗う」「運転する」などの動詞リストが作成される。
行動の中には、「お酒を飲み」⇒「酔っ払う」などのように、典型的な行動パタン(行動A⇒行動B)がある。このとき、行動Bは、行動Aの「使われ方」を含意する行動と捉えることができる。そこで、「使われ方」含意リスト作成部44は、「使われ方」リスト作成部42で作成した「使われ方」リストに含まれる動詞を含意する動詞のリストである「使われ方」含意リストを、以下のように、大量のWEBテキストに基づいて作成する。
まず、WEBテキストデータベース40に記憶されている大量のWEBテキストに対して係り受け解析を行った係り受け解析結果に基づいて、動詞が動詞に係っている動詞ペアを抽出し、集計する。その際、「○○して、□□した」のように、係り元の動詞が連用形となる動詞ペアのみ抽出する。
次に、商品名毎に、「使われ方」リスト作成部42で作成した「使われ方」リストを入力として、「使われ方」リスト中のn個の動詞を係り元の動詞とする動詞ペアを抽出し、抽出された動詞ペアの係り先の動詞を集計して、抽出された動詞ペアの係り先の動詞のうち、出現頻度が上位m個の動詞を、当該商品名に対する「使われ方」含意リストとして「使われ方」含意リスト記憶部48に記憶する。
例えば、ある商品名に対する「使われ方」リストとして、「乗る」、「試乗」、「洗車」、「洗う」、「運転する」が入力された場合、「くつろぐ」、「歌う」、「食べる」、「飲む」、「話す」などのリストが、当該商品名に対する「使われ方」含意リストとして作成される。
行動の推定対象となるテキスト(入力テキスト)及び行動を推定したい商品名(例えば、行動を推定したい商品名をマークアップした入力テキスト)を、入力部10により受け付けると、形態素解析部50は、商品名がマークアップ(以下の例では、<商品></商品>で囲まれた箇所が商品名を示す)された入力テキストに対して、周知技術である形態素解析を行って、入力テキストを、単語に区切る。例えば,入力テキストが「昨日買った<商品>掃除機</商品>が今朝届きました。早速掃除してみたところ、静かだしコンパクトにしまうことができました。」であった場合、形態素解析結果として、「昨日/買/っ/た/<商品>掃除機</商品>/が/今朝/届き/ま/した/。/早速/掃除/し/て/み/た/ところ/、/静か/だ/し/コンパクト/に/しま/う/こと/が/でき/ました/。」が得られる。
単語表記素性作成部52は、形態素解析部50による形態素解析結果を入力として、マークアップされた商品名を含む文と前後の文との単語表記を素性として作成する。この際、商品名の表記は伏せ、代わりに”<商品>”という文字列で素性を作成する。例えば、入力が、「昨日/買/っ/た/<商品>掃除機</商品>/が/今朝/届き/ま/した/。/早速/掃除/し/て/み/た/ところ/、/静か/だ/し/コンパクト/に/しま/う/こと/が/でき/ました/。」である場合、商品名を含む文である1文目と、後続する2文目との単語表記を用いて、以下の素性を作成する。以下の素性は、周知のブースティングに基づく機械学習(「BACT」、URL「http://chasen.org/~taku/software/bact/index.html」のWebページ参照)で、1単語だけでなく、隣接する単語の組み合わせについても自動展開するため記述方式で書かれたものである。
素性=(昨日 (買 (っ (た (<商品> (が (今朝 (届き (ま (した (。(早速 (掃除 (し (て (み (た (ところ (、 (静か (だ (し (コンパクト (に (しま (う (こと (が (でき (ました (。)))))))))))))))))))))))))))))))
「使われ方」リスト素性作成部54は、単語表記素性作成部52によって作成された素性を入力とし、「使われ方」リスト記憶部46に記憶された「使われ方」リストのうち、入力部10で入力された商品名に対応する「使われ方」リストと照合して、一致した単語表記を、”<使用>”という文字列の素性に置き換える。例えば入力が、「 (昨日 (買 (っ (た (<商品> (が (今朝 (届き (ま (した (。(早速 (掃除 (し (て (み (た (ところ (、 (静か (だ (し (コンパクト (に (しま (う (こと (が (でき (ました (。)))))))))))))))))))))))))))))))」であって、「使われ方」リストに「掃除」がある場合、素性として、「 (昨日 (買 (っ (た (<商品> (が (今朝 (届き (ま (した (。(早速 (<使用> (し (て (み (た (ところ (、 (静か (だ (し (コンパクト (に (しま (う (こと (が (でき (ました (。)))))))))))))))))))))))))))))))」が作成される。
「使われ方」含意リスト素性作成部56は、「使われ方」リスト素性作成部54によって作成された素性を入力とし、「使われ方」含意リスト記憶部48に記憶された「使われ方」含意リストのうち、入力部10で入力された商品名に対応する「使われ方」含意リストと照合して、一致した単語表記を、”<使用含意>”という文字列の素性に置き換える。例えば入力が、「 (昨日 (買 (っ (た (<商品> (が (今朝 (届き (ま (した (。(早速 (<使用> (し (て (み (た (ところ (、 (静か (だ (し (コンパクト (に (しま (う (こと (が (でき (ました (。)))))))))))))))))))))))))))))))」であって、「使われ方」含意リストに「しまう」がある場合、素性として、「 (昨日 (買 (っ (た (<商品> (が (今朝 (届き (ま (した (。(早速 (<使用> (し (て (み (た (ところ (、 (静か (だ (し (コンパクト (に (<使用含意> (う (こと (が (でき (ました (。)))))))))))))))))))))))))))))))」が作成される。
分類器58は、「使われ方」含意リスト素性作成部56によって作成された素性から、「使われ方」リストの動詞の有無と、「使われ方」リストの動詞と一致する単語表記の前後の単語表記とを取得すると共に、「使われ方」含意リストの動詞の有無と、当該「使われ方」含意リストの動詞と一致する単語表記の前後の単語表記とを取得し、著者行動推定モデル記憶部60に記憶された著者行動推定モデルを利用して、入力テキストの著者による対象商品に対する行動(「使用済」or「未使用」)を判定する。なお、分類器58は、行動に対する度合いを示す値も出力してもよい。
分類器58による判定結果が、出力部30によりユーザに出力される。
著者行動推定モデル記憶部60に記憶されている著者行動推定モデルは、入力された素性(ここでは、入力テキストの単語表記のうち、対象とする商品名、その使われ方を表す動詞、及び、使われ方を含意する動詞を<商品><使用><使用含意>という文字列に置き換えたもの)から得られる、「使われ方」リストの動詞の有無と、「使われ方」リストの動詞の前後の単語表記と、「使われ方」含意リストの動詞の有無と、当該「使われ方」含意リストの動詞の前後の単語表記とに対して、「使用済」か「未使用」かを決定する関数のようなものである。この著者行動推定モデルは、図2に示す著者行動推定モデル学習装置150により予め学習しておくものとする。
<著者行動推定モデル学習装置の構成>
図2に示すように、第1の実施の形態に係る著者行動推定モデル学習装置150は、CPUと、RAMと、後述するリスト作成処理ルーチン及び学習処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。著者行動推定モデル学習装置150は、入力部70と、演算部72とを備えている。
入力部70は、既知のキーボード、マウス、記憶装置などの入力器により入力された、学習用データ(テキスト、商品名、及び著者による行動の判断結果)、商品名リスト、並びにWEBテキストを受け付ける。
演算部72は、WEBテキストデータベース74、「使われ方」リスト作成部76、「使われ方」含意リスト作成部78、「使われ方」リスト記憶部80、「使われ方」含意リスト記憶部82、学習用データ記憶部84、形態素解析部86、単語表記素性作成部88、「使われ方」リスト素性作成部90、「使われ方」含意リスト素性作成部92、学習部94、及び著者行動推定モデル記憶部96を備えている。
WEBテキストデータベース74は、WEBテキストデータベース40と同様に、入力部70により受け付けた大量のWEBテキストを記憶している。
「使われ方」リスト作成部76は、WEBテキストデータベース74に記憶されている大量のWEBテキストと、入力部70により受け付けた商品名のリストとを用いて、「使われ方」リスト作成部42と同様に、商品名毎に、「使われ方」を表す動詞のリストを作成し、「使われ方」リスト記憶部80に格納する。
「使われ方」含意リスト作成部78は、「使われ方」リスト作成部76で作成した「使われ方」リストに含まれる動詞を含意する動詞のリストである「使われ方」含意リストを、「使われ方」含意リスト作成部44と同様に、大量のWEBテキストに基づいて作成し、「使われ方」含意リスト記憶部82に格納する。
学習用データ記憶部84は、入力部70により受け付けた、商品名がマークアップされたテキストに、人手で著者行動(「使用済」か「未使用」か)を判断した結果が付与されたテキスト集合を、学習用データとして記憶している。
形態素解析部86は、学習用データ記憶部84に記憶されている学習用データの各テキストに対して、形態素解析部50と同様に形態素解析を行って、テキストを、単語に区切る。
単語表記素性作成部88は、形態素解析部86による形態素解析結果を入力として、単語表記素性作成部52と同様に、マークアップされた商品名を含む文と前後の文の単語表記を素性として作成する。
「使われ方」リスト素性作成部90は、単語表記素性作成部88によって作成された素性を入力とし、「使われ方」リスト記憶部80に記憶された「使われ方」リストのうち、学習用データのテキストに含まれる商品名に対応する「使われ方」リストと照合して、「使われ方」リスト素性作成部54と同様に、一致した単語表記を、”<使用>”という文字列の素性に置き換える。
「使われ方」含意リスト素性作成部92は、「使われ方」リスト素性作成部90によって作成された素性を入力とし、「使われ方」含意リスト記憶部82に記憶された「使われ方」含意リストのうち、学習用データのテキストに含まれる商品名に対応する「使われ方」含意リストと照合して、「使われ方」含意リスト素性作成部56と同様に、一致した単語表記を、”<使用含意>”という文字列の素性に置き換える。
学習部94は、周知の機械学習技術を用いて、「使われ方」含意リスト素性作成部92により学習用データの各テキストについて作成された各素性について、当該素性を入力としたときに、学習用データに含まれる人手で判断した結果と同じ結果が出力されるように、モデル関数のパラメタを学習(更新)していくことにより、著者行動推定モデルを作成する。
学習部94によって作成された著者行動推定モデルが、著者行動推定モデル記憶部96に記憶される。
<著者行動推定モデル学習装置及び著者行動推定装置の作用>
次に、第1の実施の形態に係る著者行動推定モデル学習装置150の作用について説明する。まず、著者行動推定モデル学習装置150に、大量のWEBテキストが入力されると、WEBテキストデータベース74に記憶される。また、著者行動推定モデル学習装置150に、商品名のリストが入力されると、著者行動推定モデル学習装置150において、図3に示すリスト作成処理ルーチンが実行される。
まず、ステップ100において、入力された商品名リストを受け付け、ステップ102において、商品名リストの少なくとも1つの商品名を含むWEBテキストを、WEBテキストデータベース74から抽出する。
そして、ステップ104において、WEBテキストデータベース74に記憶されている各WEBテキストに対して係り受け解析処理を行う。次のステップ106では、商品名リストのうち、処理対象の商品名を1つ設定し、ステップ108において、処理対象の商品名を含むWEBテキストの係り受け解析結果に基づいて、処理対象の商品名が示す商品の「使われ方」を表わす動詞を抽出する。
そして、ステップ110において、上記ステップ108で抽出した動詞のうち、頻度が上位n個の動詞を、処理対象の商品名に対する「使われ方」リストとして、「使われ方」リスト記憶部80に格納する。
次のステップ112では、上記ステップ106〜110の処理が、商品名リストの全ての商品名について終了したか否かを判定し、上記ステップ106〜110の処理が行われていない商品名がある場合には、上記ステップ106へ戻り、当該商品名を、処理対象として設定する。一方、商品名リストの全ての商品名について上記ステップ106〜110の処理が終了した場合には、ステップ114へ進む。
ステップ114では、上記ステップ104で得られた各WEBテキストの係り受け解析結果に基づいて、動詞が動詞に係っている動詞ペアであって、係り元の動詞が連用形となっている動詞ペアを抽出する。次のステップ116では、商品名リストのうち、処理対象の商品名を1つ設定し、ステップ118において、処理対象の商品名に対して、上記ステップ110で得られた「使われ方」リストの各動詞が係り元となっている動詞ペアから、係り先の動詞を、処理対象の商品名が示す商品の「使われ方」を表わす動詞を含意する動詞として抽出する。
そして、ステップ120において、上記ステップ118で抽出した動詞のうち、頻度が上位m個の動詞を、処理対象の商品名に対する「使われ方」含意リストとして、「使われ方」含意リスト記憶部82に格納する。
次のステップ122では、上記ステップ116〜120の処理が、商品名リストの全ての商品名について終了したか否かを判定し、上記ステップ116〜120の処理が行われていない商品名がある場合には、上記ステップ116へ戻り、当該商品名を、処理対象として設定する。一方、商品名リストの全ての商品名について上記ステップ116〜120の処理が終了した場合には、リスト作成処理ルーチンを終了する。
また、著者行動推定モデル学習装置150に、学習用データが入力されると、著者行動推定モデル学習装置150において、図4に示す学習処理ルーチンが実行される。
まず、ステップS130において、入力された学習用データを受け付け、学習用データ記憶部84に記憶する。次のステップ132では、学習用データ記憶部84に記憶されている学習用データの各テキストに対して形態素解析処理を行う。
そして、ステップ134において、学習用データの各テキストのうち、処理対象のテキストを1つ設定する。次のステップ136では、上記ステップ132における形態素解析結果に基づいて、処理対象のテキストの単語表記を、素性として作成する。
そして、ステップ138では、処理対象のテキストに含まれる商品名に対する「使われ方」リストを、「使われ方」リスト記憶部80から読み込む。ステップ140では、上記ステップ138で読み込んだ「使われ方」リストの各動詞と、上記ステップ136で作成された素性の各単語表記とを照合して、一致する単語表記を、<使用>という文字列に置き換える。
次のステップ142では、処理対象のテキストに含まれる商品名に対する「使われ方」含意リストを、「使われ方」含意リスト記憶部82から読み込む。ステップ144では、上記ステップ142で読み込んだ「使われ方」含意リストの各動詞と、上記ステップ140で得られた素性の各単語表記とを照合して、一致する単語表記を、<使用含意>という文字列に置き換える。
次のステップ146では、上記ステップ134〜144の処理が、学習用データの全てのテキストについて終了したか否かを判定し、上記ステップ134〜144の処理が行われていないテキストがある場合には、上記ステップ134へ戻り、当該テキストを、処理対象として設定する。一方、学習用データの全てのテキストについて上記ステップ134〜144の処理が終了した場合には、ステップ148へ進む。
ステップ148では、学習用データの全てのテキストについて上記ステップ144で得られた素性と、学習用データの全てのテキストについて予め与えられた行動の判断結果(「使用済」か「未使用」か)とに基づいて、機械学習を行い、著者行動推定モデルを作成する。そして、ステップ150では、上記ステップ148で作成された著者行動推定モデルを、著者行動推定モデル記憶部96に格納して、学習処理ルーチンを終了する。
また、著者行動推定装置100に、大量のWEBテキストが入力されると、WEBテキストデータベース40に記憶される。また、著者行動推定装置100に、商品名のリストが入力されると、著者行動推定装置100において、上記図3で説明したリスト作成処理ルーチンと同様に、リスト作成処理ルーチンが実行される。これによって、「使われ方」リスト及び「使われ方」含意リストが、「使われ方」リスト記憶部46及び「使われ方」含意リスト記憶部48に格納される。
なお、著者行動推定装置100でリスト作成処理ルーチンが実行せずに、著者行動推定モデル学習装置150で得られた「使われ方」リスト及び「使われ方」含意リストを、入力部10により受け付けて、「使われ方」リスト記憶部46及び「使われ方」含意リスト記憶部48に格納するようにしてもよい。
また、著者行動推定装置100に、著者行動推定モデル学習装置150の著者行動推定モデル記憶部96に記憶されている著者行動推定モデルが入力されると、著者行動推定モデル記憶部60に記憶される。また、著者行動推定装置100に、推定対象のテキスト及び行動を推定したい商品名(当該テキストに含まれる商品名)が入力されると、図5に示す著者行動推定処理ルーチンが実行される。
まず、ステップ160において、入力された推定対象のテキスト及び商品名を受け付け、次のステップ162で、受け付けたテキストに対して形態素解析処理を行う。
そして、ステップ164において、上記ステップ162における形態素解析結果に基づいて、推定対象のテキストの単語表記を、素性として作成する。ステップ166では、推定対象の商品名に対する「使われ方」リストを、「使われ方」リスト記憶部46から読み込む。次のステップ168では、上記ステップ166で読み込んだ「使われ方」リストの各動詞と、上記ステップ164で作成された素性の各単語表記とを照合して、一致する単語表記を、<使用>という文字列に置き換える。
次のステップ170では、推定対象の商品名に対する「使われ方」含意リストを、「使われ方」含意リスト記憶部48から読み込む。ステップ172では、上記ステップ170で読み込んだ「使われ方」含意リストの各動詞と、上記ステップ168で得られた素性の各単語表記とを照合して、一致する単語表記を、<使用含意>という文字列に置き換える。
そして、ステップ174において、上記ステップ172で得られた素性と、著者行動推定モデルとに基づいて、推定対象のテキストの著者が、推定対象の商品名を示す商品を「使用済み」であるか「未使用」であるかを判定する。次のステップ176において、上記ステップ174での判定結果を出力して、著者行動推定処理ルーチンを終了する。
以上説明したように、第1の実施の形態に係る著者行動推定装置によれば、商品名毎に作成した「使われ方」リストの動詞、及び「使われ方」含意リストの動詞の各々について、入力テキストにおける動詞の有無及び単語表記を素性として抽出することにより、任意の商品について記述された入力テキストの著者が、当該商品を使用済みであるか未使用であるかを精度良く推定することができる。
また、第1の実施の形態に係る著者行動推定モデル学習装置によれば、商品名毎に作成した「使われ方」リストの動詞、及び「使われ方」含意リストの動詞の各々について、入力テキストにおける動詞の有無及び単語表記を素性として抽出することにより、任意の商品について記述された入力テキストの著者が、当該商品を使用済みであるか未使用であるかを推定するための推定モデルを学習することができる。
例えば、「昨日買った掃除機が今朝届きました。早速掃除してみたところ、静かだしコンパクトにしまうことができました。」という、商品について記述されたテキストが入力されると、掃除機(=商品)に対して、著者は「使用済」であると推定することができる。
また、本実施の形態の技術により、商品に対する評判分析などの従来サービスにおいて、著者の状態(使用済or未使用)を新たな軸として提供可能となり、使用者の評判と、未使用者の評判を比較するなどより細かい分析サービスが実現可能となる。
[第2の実施の形態]
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第2の実施の形態では、テキストの著者が、商品を購入済みであるか未購入であるかを推定している点が、第1の実施の形態と異なっている。
<著者行動推定装置の構成>
図6に示すように、第2の実施の形態に係る著者行動推定装置200は、入力部10と、演算部220と、出力部30とを備えている。
演算部220は、WEBテキストデータベース40、「買われ方」含意リスト作成部244、「買われ方」リスト記憶部246、「買われ方」含意リスト記憶部248、形態素解析部50、単語表記素性作成部52、「買われ方」リスト素性作成部254、「買われ方」含意リスト素性作成部256、分類器258、及び著者行動推定モデル記憶部260を備えている。なお、「買われ方」リスト素性作成部254及び「買われ方」含意リスト素性作成部256が、素性抽出手段の一例である。また、「買われ方」含意リスト作成部44が、第2動詞抽出手段の一例である。分類器258および著者行動推定モデル記憶部260が、行動推定手段の一例である。
入力部10により、「買われ方」を表す動詞のリスト(例えば、「買う」、「ゲットする」、「購入する」など)を受け付けると、「買われ方」リスト記憶部246に格納される。
「買われ方」含意リスト作成部44は、入力された「買われ方」リストに含まれる動詞を含意する動詞のリストである「買われ方」含意リストを、以下のように、大量のWEBテキストに基づいて作成する。
まず、WEBテキストデータベース40に記憶されている大量のWEBテキストに対して係り受け解析を行った係り受け解析結果に基づいて、動詞が動詞に係っている動詞ペアを抽出し、集計する。その際、「○○して、□□した」のように、係り元の動詞が連用形となる動詞ペアのみ抽出する。
次に、入力部10により受け付けた「買われ方」リストを入力として、「買われ方」リスト中のn個の動詞を係り元の動詞とする動詞ペアを抽出し、抽出された動詞ペアの係り先の動詞を集計して、抽出された動詞ペアの係り先の動詞のうち、出現頻度が上位m個の動詞を、「買われ方」含意リストとして「買われ方」含意リスト記憶部248に記憶する。
なお、本実施の形態では、「買われ方」リスト及び「買われ方」含意リストが、全ての商品名に対して汎用的に用いられる。
行動の推定対象となるテキスト(入力テキスト)及び行動を推定したい商品名(例えば、行動を推定したい商品名をマークアップした入力テキスト)を、入力部10により受け付けると、形態素解析部50は、商品名がマークアップされた入力テキストに対して、周知技術である形態素解析を行って、入力テキストを、単語に区切る。
単語表記素性作成部52は、形態素解析部50による形態素解析結果を入力として、マークアップされた商品名を含む文と前後の文の単語表記を素性として作成する。この際、商品名の表記は伏せ、代わりに”<商品>”という文字列で素性を作成する。
「買われ方」リスト素性作成部254は、単語表記素性作成部52によって作成された素性を入力とし、「買われ方」リスト記憶部46に記憶された「買われ方」リストと照合して、一致した単語表記を、”<購入>”という文字列の素性に置き換える。
「買われ方」含意リスト素性作成部256は、「買われ方」リスト素性作成部254によって作成された素性を入力とし、「買われ方」含意リスト記憶部248に記憶された「買われ方」含意リストと照合して、一致した単語表記を、”<購入含意>”という文字列の素性に置き換える。
分類器258は、「買われ方」含意リスト素性作成部256によって作成された素性から、「買われ方」リストの動詞の有無と、「買われ方」リストの動詞と一致する単語表記の前後の単語表記とを取得すると共に、「買われ方」含意リストの動詞の有無と、当該「買われ方」含意リストの動詞と一致する単語表記の前後の単語表記とを取得し、著者行動推定モデル記憶部260に記憶された著者行動推定モデルを利用して、入力テキストの著者による対象商品に対する行動(「購入済」or「未購入」)を判定する。
分類器258による判定結果が、出力部30によりユーザに出力される。
著者行動推定モデル記憶部260に記憶されている著者行動推定モデルは、入力された素性(ここでは、入力テキストの単語表記のうち、対象とする商品名、その買われ方を表す動詞、及び、買われ方を含意する動詞を<商品><購入><購入含意>という文字列に置き換えたもの)から得られる、「買われ方」リストの動詞の有無と、「買われ方」リストの動詞と一致する単語表記の前後の単語表記と、「買われ方」含意リストの動詞の有無と、当該「買われ方」含意リストの動詞と一致する単語表記の前後の単語表記とに対して、「購入済」か「未購入」かを決定する関数のようなものである。この著者行動推定モデルは、図7に示す著者行動推定モデル学習装置250により予め学習しておくものとする。
<著者行動推定モデル学習装置の構成>
図7に示すように、第2の実施の形態に係る著者行動推定モデル学習装置250は、入力部70と、演算部272とを備えている。
演算部272は、WEBテキストデータベース74、「買われ方」含意リスト作成部278、「買われ方」リスト記憶部280、「買われ方」含意リスト記憶部282、学習用データ記憶部84、形態素解析部86、単語表記素性作成部88、「買われ方」リスト素性作成部290、「買われ方」含意リスト素性作成部292、学習部294、及び著者行動推定モデル記憶部296を備えている。
WEBテキストデータベース74は、WEBテキストデータベース40と同様に、入力部70により受け付けた大量のWEBテキストを記憶している。
入力部70により「買われ方」を表す動詞のリストを受け付けると、「買われ方」リスト記憶部280に格納される。
「買われ方」含意リスト作成部278は、「買われ方」リストに含まれる動詞を含意する動詞のリストである「買われ方」含意リストを、「買われ方」含意リスト作成部244と同様に、大量のWEBテキストに基づいて作成し、「買われ方」含意リスト記憶部282に格納する。
学習用データ記憶部84は、入力部70により受け付けた、商品名がマークアップされたテキストに、人手で著者行動(「購入済」か「未購入」か)を判断した結果が付与されたテキスト集合を、学習用データとして記憶している。
「買われ方」リスト素性作成部290は、単語表記素性作成部88によって作成された素性を入力とし、「買われ方」リスト記憶部280に記憶された「買われ方」リストと照合して、「買われ方」リスト素性作成部254と同様に、一致した単語表記を、”<購入>”という文字列の素性に置き換える。
「買われ方」含意リスト素性作成部292は、「買われ方」リスト素性作成部290によって作成された素性を入力とし、「買われ方」含意リスト記憶部282に記憶された「買われ方」含意リストと照合して、「買われ方」含意リスト素性作成部256と同様に、一致した単語表記を、”<購入含意>”という文字列の素性に置き換える。
学習部294は、周知の機械学習技術を用いて、「買われ方」含意リスト素性作成部292により学習用データの各テキストについて作成された各素性について、当該素性を入力としたときに、学習用データに含まれる人手で判断した結果と同じ結果が出力されるように、モデル関数のパラメタを学習(更新)していくことにより、著者行動推定モデルを作成する。
学習部94によって作成された著者行動推定モデルが、著者行動推定モデル記憶部296に記憶される。
<著者行動推定モデル学習装置及び著者行動推定装置の作用>
次に、第2の実施の形態に係る著者行動推定モデル学習装置250の作用について説明する。まず、著者行動推定モデル学習装置250に、大量のWEBテキストが入力されると、WEBテキストデータベース74に記憶される。また、著者行動推定モデル学習装置250に、商品名のリストと、「買われ方」を表わす動詞を列挙した「買われ方」リストが入力されると、著者行動推定モデル学習装置250において、図8に示すリスト作成処理ルーチンが実行される。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
まず、ステップ200において、入力された商品名リスト及び「買われ方」リストを受け付け、受け付けた「買われ方」リストを、「買われ方」リスト記憶部280に格納する。そして、ステップ102において、商品名リストの少なくとも1つの商品名を含むWEBテキストを、WEBテキストデータベース74から抽出する。
そして、ステップ104において、WEBテキストデータベース74に記憶されている各WEBテキストに対して係り受け解析処理を行う。
そして、ステップ114では、上記ステップ104で得られた各WEBテキストの係り受け解析結果に基づいて、動詞が動詞に係っている動詞ペアであって、係り元の動詞が連用形となっている動詞ペアを抽出する。次のステップ202では、「買われ方」リストの各動詞が係り元となっている動詞ペアから、係り先の動詞を、「買われ方」を表わす動詞を含意する動詞として抽出する。
そして、ステップ204において、上記ステップ202で抽出した動詞のうち、頻度が上位m個の動詞を、「買われ方」含意リストとして、「買われ方」含意リスト記憶部282に格納し、リスト作成処理ルーチンを終了する。
また、著者行動推定モデル学習装置250に、学習用データが入力されると、著者行動推定モデル学習装置250において、図9に示す学習処理ルーチンが実行される。
まず、ステップS130において、入力された学習用データを受け付け、学習用データ記憶部84に記憶する。次のステップ132では、学習用データ記憶部84に記憶されている学習用データの各テキストに対して形態素解析処理を行う。
そして、ステップ134において、学習用データの各テキストのうち、処理対象のテキストを1つ設定する。次のステップ136では、上記ステップ132における形態素解析結果に基づいて、処理対象のテキストに対して、単語表記を素性として作成する。
そして、ステップ220では、「買われ方」リストを、「買われ方」リスト記憶部280から読み込む。ステップ222では、上記ステップ220で読み込んだ「買われ方」リストの各動詞と、上記ステップ136で作成された素性の各単語表記とを照合して、一致する単語表記を、<購入>という文字列に置き換える。
次のステップ224では、「買われ方」含意リストを、「買われ方」含意リスト記憶部282から読み込む。ステップ226では、上記ステップ224で読み込んだ「買われ方」含意リストの各動詞と、上記ステップ222で得られた素性の各単語表記とを照合して、一致する単語表記を、<購入含意>という文字列に置き換える。
次のステップ146では、上記ステップ134、136、220〜226の処理が、学習用データの全てのテキストについて終了したか否かを判定し、上記ステップ134、136、220〜226の処理が行われていないテキストがある場合には、上記ステップ134へ戻り、当該テキストを、処理対象として設定する。一方、学習用データの全てのテキストについて上記ステップ134、136、220〜226の処理が終了した場合には、ステップ228へ進む。
ステップ228では、学習用データの全てのテキストについて上記ステップ226で得られた素性と、学習用データの全てのテキストについて予め与えられた行動の判断結果(「購入済」か「未購入」か)とに基づいて、機械学習を行い、著者行動推定モデルを作成する。そして、ステップ150では、上記ステップ228で作成された著者行動推定モデルを、著者行動推定モデル記憶部296に格納して、学習処理ルーチンを終了する。
また、著者行動推定装置200に、大量のWEBテキストが入力されると、WEBテキストデータベース40に記憶される。また、著者行動推定装置200に、商品名のリストが入力されると、著者行動推定装置200において、上記図8で説明したリスト作成処理ルーチンと同様に、リスト作成処理ルーチンが実行される。これによって、「買われ方」リスト及び「買われ方」含意リストが、「買われ方」リスト記憶部246及び「買われ方」含意リスト記憶部248に格納される。
また、著者行動推定装置200に、著者行動推定モデル学習装置250の著者行動推定モデル記憶部296に記憶されている著者行動推定モデルが入力されると、著者行動推定モデル記憶部260に記憶される。また、著者行動推定装置200に、推定対象のテキスト及び行動を推定したい商品名(当該テキストに含まれる商品名)が入力されると、図10に示す著者行動推定処理ルーチンが実行される。
まず、ステップ160において、入力された推定対象のテキスト及び商品名を受け付け、次のステップ162で、入力を受け付けたテキストに対して形態素解析処理を行う。
そして、ステップ164において、上記ステップ162における形態素解析結果に基づいて、推定対象のテキストに対して、単語表記を素性として作成する。ステップ250では、「買われ方」リストを、「買われ方」リスト記憶部246から読み込む。次のステップ252では、上記ステップ250で読み込んだ「買われ方」リストの各動詞と、上記ステップ164で作成された素性の各単語表記とを照合して、一致する単語表記を、<購入>という文字列に置き換える。
次のステップ254では、「買われ方」含意リストを、「買われ方」含意リスト記憶部248から読み込む。ステップ256では、上記ステップ254で読み込んだ「買われ方」含意リストの各動詞と、上記ステップ252で得られた素性の各単語表記とを照合して、一致する単語表記を、<購入含意>という文字列に置き換える。
そして、ステップ258において、上記ステップ256で得られた素性と、著者行動推定モデルとに基づいて、推定対象のテキストの著者が、推定対象の商品名を示す商品を「購入済み」であるか「未購入」であるかを判定する。次のステップ176において、上記ステップ258での判定結果を出力して、著者行動推定処理ルーチンを終了する。
以上説明したように、第2の実施の形態に係る著者行動推定装置によれば、入力された「買われ方」リストの動詞、及び作成した「買われ方」含意リストの動詞の各々について、入力テキストにおける動詞の有無及び単語表記を素性として抽出することにより、任意の商品について記述された入力テキストの著者が、当該商品を購入済みであるか未購入であるかを精度良く推定することができる。
また、第2の実施の形態に係る著者行動推定モデル学習装置によれば、入力された「買われ方」リストの動詞、及び作成した「買われ方」含意リストの動詞の各々について、入力テキストにおける動詞の有無及び単語表記を素性として抽出することにより、任意の商品について記述された入力テキストの著者が、当該商品を購入済みであるか未購入であるかを推定するための推定モデルを学習することができる。
また、本実施の形態の技術により、商品に対する評判分析などの従来サービスにおいて、著者の状態(購入済or未購入)を新たな軸として提供可能となり、購入者の評判と、未購入者の評判を比較するなどより細かい分析サービスが実現可能となる。
[第3の実施の形態]
次に、第3の実施の形態について説明する。なお、第3の実施の形態に係る著者行動推定装置及び著者行動推定モデル学習装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
上記の第1の実施の形態では、商品名ごとにリストを作成する例について説明した。しかし、動詞リストに存在しない新たな商品を対象とするためには、新たな商品ごとにリストを作成しなければならない、という問題がある。
そこで、第3の実施の形態では、商品名の代わりに商品の属する商品カテゴリを用いて、上記の第1の実施の形態と同様の処理を行う。商品名の代わりに商品の属するカテゴリを利用している点のみが第1の実施の形態と異なる。
<著者行動推定装置の構成>
第3の実施の形態に係る著者行動推定装置の「使われ方」リスト作成部42は、WEBテキストデータベース40に記憶されている大量のWEBテキストと、入力部10により受け付けた商品カテゴリ名のリストとを用いて、以下のように、商品カテゴリ名毎に、「使われ方」を表す動詞のリストを作成する。
まず、対象となる商品カテゴリ名(例えば、スマートフォン)について、大量のWEBテキストからその商品カテゴリ名を含むWEBテキストを抽出する。次に、抽出した各WEBテキストに対して周知技術である係り受け解析を行い、その結果から当該商品カテゴリ名の係り先となる動詞を獲得し集計する。その際、日本語の助詞の意味に着目し、「<カテゴリ>で〜する」のように商品カテゴリが道具として利用されることを示す動詞と、「<カテゴリ>を〜する」、「<カテゴリ>に〜する」のように商品カテゴリを動作の目的とすることを示す動詞のみを、「使われ方」を表わす動詞として抽出する。最後に、抽出された動詞のうち、出現頻度が上位n個の動詞を、当該商品カテゴリ名に対する「使われ方」リストとして「使われ方」リスト記憶部46に格納する。
例えば、入力の商品名が「フリード」で、そのカテゴリ名が「車」の場合、「乗る」、「試乗」、「洗車」、「洗う」、「運転する」などの動詞リストが作成される。
「使われ方」含意リスト作成部44は、「使われ方」リスト作成部42で作成した「使われ方」リストに含まれる動詞を含意する動詞のリストである「使われ方」含意リストを、以下のように、大量のWEBテキストに基づいて作成する。
まず、WEBテキストデータベース40に記憶されている大量のWEBテキストに対して係り受け解析を行った係り受け解析結果に基づいて、動詞が動詞に係っている動詞ペアを抽出し、集計する。その際、「○○して、□□した」のように、係り元の動詞が連用形となる動詞ペアのみ抽出する。
次に、商品カテゴリ名毎に、「使われ方」リスト作成部42で作成した「使われ方」リストを入力として、「使われ方」リスト中のn個の動詞を係り元の動詞とする動詞ペアを抽出し、抽出された動詞ペアの係り先の動詞を集計して、抽出された動詞ペアの係り先の動詞のうち、出現頻度が上位m個の動詞を、当該商品カテゴリ名に対する「使われ方」含意リストとして「使われ方」含意リスト記憶部48に記憶する。
また、行動の推定対象となるテキスト(入力テキスト)及び行動を推定したい商品名(例えば、行動を推定したい商品名をマークアップした入力テキスト)と当該商品の属する商品カテゴリ名とを、入力部10により受け付ける。
「使われ方」リスト素性作成部54は、単語表記素性作成部52によって作成された素性を入力とし、「使われ方」リスト記憶部46に記憶された「使われ方」リストのうち、入力部10で入力された商品カテゴリ名に対応する「使われ方」リストと照合して、一致した単語表記を、”<使用>”という文字列の素性に置き換える。例えば入力が、「 (昨日 (買 (っ (た (<商品> (が (今朝 (届き (ま (した (。(早速 (掃除 (し (て (み (た (ところ (、 (静か (だ (し (コンパクト (に (しま (う (こと (が (でき (ました (。)))))))))))))))))))))))))))))))」であって、「使われ方」リストに「掃除」がある場合、素性として、「 (昨日 (買 (っ (た (<商品> (が (今朝 (届き (ま (した (。(早速 (<使用> (し (て (み (た (ところ (、 (静か (だ (し (コンパクト (に (しま (う (こと (が (でき (ました (。)))))))))))))))))))))))))))))))」が作成される。
「使われ方」含意リスト素性作成部56は、「使われ方」リスト素性作成部54によって作成された素性を入力とし、「使われ方」含意リスト記憶部48に記憶された「使われ方」含意リストのうち、入力部10で入力された商品カテゴリ名に対応する「使われ方」含意リストと照合して、一致した単語表記を、”<使用含意>”という文字列の素性に置き換える。例えば入力が、「 (昨日 (買 (っ (た (<商品> (が (今朝 (届き (ま (した (。(早速 (<使用> (し (て (み (た (ところ (、 (静か (だ (し (コンパクト (に (しま (う (こと (が (でき (ました (。)))))))))))))))))))))))))))))))」であって、「使われ方」含意リストに「しまう」がある場合、素性として、「 (昨日 (買 (っ (た (<商品> (が (今朝 (届き (ま (した (。(早速 (<使用> (し (て (み (た (ところ (、 (静か (だ (し (コンパクト (に (<使用含意> (う (こと (が (でき (ました (。)))))))))))))))))))))))))))))))」が作成される。
分類器58は、あらかじめ作成した著者行動推定モデルを利用して、入力される「使われ方」含意リスト作成部56の結果に基づき、入力テキストの著者の対象商品カテゴリに対する行動(「使用済」or「未使用」or「不明」)かを判定し出力する(またその度合いを示す値も出力してもよい)。
上記のように3値に分類する分類器を構成する方法としては、周知の技術であるone-vs-rest法を用いても良いしpair-wise法などを用いても良い。
例えば、one-vs-rest法で構成する場合、「使用済」を正例、「未使用」と「不明」を負例として学習した「使用済モデル」、「未使用」を正例、「使用済」と「不明」を負例として学習した「未使用モデル」、「不明」を正例、「使用済」と「未使用」を負例として学習した「不明モデル」の3つのモデルを作成する。入力される「使われ方」含意リスト作成部56の結果と著者行動推定モデルとの照合を行い、最高スコアを出力したモデルの正例である「使用済」or「未使用」or「不明」のいずれかを出力する。
なお各モデルは、商品名がマークアップされたテキストに人手で著者行動を判断した判断結果を付与した文書集合に対し、形態素解析部86〜「使われ方」含意リスト素性作成部92での処理を行い、その結果得られる情報と人手で判断したものを組み合わせ、機械学習によってあらかじめ作成する。
また、第3の実施の形態に係る著者行動推定モデル学習装置の入力部70は、既知のキーボード、マウス、記憶装置などの入力器により入力された、学習用データ(テキスト、商品カテゴリ名、及び著者による行動の判断結果)、商品カテゴリ名リスト、並びにWEBテキストを受け付ける。
「使われ方」リスト作成部76は、WEBテキストデータベース74に記憶されている大量のWEBテキストと、入力部70により受け付けた商品カテゴリ名のリストとを用いて、「使われ方」リスト作成部42と同様に、商品カテゴリ名毎に、「使われ方」を表す動詞のリストを作成し、「使われ方」リスト記憶部80に格納する。
「使われ方」含意リスト作成部78は、「使われ方」リスト作成部76で作成した「使われ方」リストに含まれる動詞を含意する動詞のリストである「使われ方」含意リストを、「使われ方」含意リスト作成部44と同様に、商品カテゴリ名毎に、大量のWEBテキストに基づいて作成し、「使われ方」含意リスト記憶部82に格納する。
「使われ方」リスト素性作成部90は、単語表記素性作成部88によって作成された素性を入力とし、「使われ方」リスト記憶部80に記憶された「使われ方」リストのうち、学習用データのテキストに含まれる商品カテゴリ名に対応する「使われ方」リストと照合して、「使われ方」リスト素性作成部54と同様に、一致した単語表記を、”<使用>”という文字列の素性に置き換える。
「使われ方」含意リスト素性作成部92は、「使われ方」リスト素性作成部90によって作成された素性を入力とし、「使われ方」含意リスト記憶部82に記憶された「使われ方」含意リストのうち、学習用データのテキストに含まれる商品カテゴリ名に対応する「使われ方」含意リストと照合して、「使われ方」含意リスト素性作成部56と同様に、一致した単語表記を、”<使用含意>”という文字列の素性に置き換える。
<著者行動推定モデル学習装置及び著者行動推定装置の作用>
次に、第3の実施の形態に係る著者行動推定モデル学習装置150の作用について説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
著者行動推定モデル学習装置150に、商品カテゴリ名のリストが入力されると、著者行動推定モデル学習装置150において、図11に示すリスト作成処理ルーチンが実行される。
まず、ステップ300において、入力された商品カテゴリ名リストを受け付け、ステップ302において、商品カテゴリ名リストの少なくとも1つの商品カテゴリ名を含むWEBテキストを、WEBテキストデータベース74から抽出する。
そして、ステップ104において、WEBテキストデータベース74に記憶されている各WEBテキストに対して係り受け解析処理を行う。次のステップ306では、商品カテゴリ名リストのうち、処理対象の商品カテゴリ名を1つ設定し、ステップ308において、処理対象の商品カテゴリ名を含むWEBテキストの係り受け解析結果に基づいて、処理対象の商品カテゴリ名が示す商品の「使われ方」を表わす動詞を抽出する。
そして、ステップ110において、上記ステップ108で抽出した動詞のうち、頻度が上位n個の動詞を、処理対象の商品カテゴリ名に対する「使われ方」リストとして、「使われ方」リスト記憶部80に格納する。
次のステップ312では、上記ステップ306、308、110の処理が、商品カテゴリ名リストの全ての商品カテゴリ名について終了したか否かを判定し、上記ステップ306、308、110の処理が行われていない商品カテゴリ名がある場合には、上記ステップ306へ戻り、当該商品カテゴリ名を、処理対象として設定する。一方、商品カテゴリ名リストの全ての商品カテゴリ名について上記ステップ306、308、110の処理が終了した場合には、ステップ114へ進む。
ステップ114では、動詞が動詞に係っている動詞ペアであって、係り元の動詞が連用形となっている動詞ペアを抽出する。次のステップ316では、商品カテゴリ名リストのうち、処理対象の商品カテゴリ名を1つ設定し、ステップ318において、処理対象の商品カテゴリ名に対して、上記ステップ110で得られた「使われ方」リストの各動詞が係り元となっている動詞ペアから、係り先の動詞を、処理対象の商品カテゴリ名が示す商品の「使われ方」を表わす動詞を含意する動詞として抽出する。
そして、ステップ120において、上記ステップ118で抽出した動詞のうち、頻度が上位m個の動詞を、処理対象の商品カテゴリ名に対する「使われ方」含意リストとして、「使われ方」含意リスト記憶部82に格納する。
次のステップ322では、上記ステップ316、318、120の処理が、商品カテゴリ名リストの全ての商品カテゴリ名について終了したか否かを判定し、上記ステップ316、318、120の処理が行われていない商品カテゴリ名がある場合には、上記ステップ316へ戻り、当該商品カテゴリ名を、処理対象として設定する。一方、商品カテゴリ名リストの全ての商品カテゴリ名について上記ステップ316、318、120の処理が終了した場合には、リスト作成処理ルーチンを終了する。
また、著者行動推定モデル学習装置150に、学習用データが入力されると、著者行動推定モデル学習装置150において、図12に示す学習処理ルーチンが実行される。
まず、ステップS130において、入力された学習用データを受け付け、学習用データ記憶部84に記憶する。次のステップ132では、学習用データ記憶部84に記憶されている学習用データの各テキストに対して形態素解析処理を行う。
そして、ステップ134において、学習用データの各テキストのうち、処理対象のテキストを1つ設定する。次のステップ136では、上記ステップ132における形態素解析結果に基づいて、処理対象のテキストの単語表記を、素性として作成する。
そして、ステップ338では、処理対象のテキストに含まれる商品カテゴリ名に対する「使われ方」リストを、「使われ方」リスト記憶部80から読み込む。ステップ140では、上記ステップ338で読み込んだ「使われ方」リストの各動詞と、上記ステップ136で作成された素性の各単語表記とを照合して、一致する単語表記を、<使用>という文字列に置き換える。
次のステップ342では、処理対象のテキストに含まれる商品カテゴリ名に対する「使われ方」含意リストを、「使われ方」含意リスト記憶部82から読み込む。ステップ144では、上記ステップ142で読み込んだ「使われ方」含意リストの各動詞と、上記ステップ140で得られた素性の各単語表記とを照合して、一致する単語表記を、<使用含意>という文字列に置き換える。
次のステップ146では、上記ステップ134、136、338、140、342、144の処理が、学習用データの全てのテキストについて終了したか否かを判定し、上記ステップ134、136、338、140、342、144の処理が行われていないテキストがある場合には、上記ステップ134へ戻り、当該テキストを、処理対象として設定する。一方、学習用データの全てのテキストについて上記ステップ134、136、338、140、342、144の処理が終了した場合には、ステップ148へ進む。
ステップ148では、学習用データの全てのテキストについて上記ステップ144で得られた素性と、学習用データの全てのテキストについて予め与えられた行動の判断結果(「使用済」か「未使用」か)とに基づいて、機械学習を行い、著者行動推定モデルを作成する。そして、ステップ150では、上記ステップ148で作成された著者行動推定モデルを、著者行動推定モデル記憶部96に格納して、学習処理ルーチンを終了する。
また、著者行動推定装置100に、著者行動推定モデル学習装置150の著者行動推定モデル記憶部96に記憶されている著者行動推定モデルが入力されると、著者行動推定モデル記憶部60に記憶される。また、著者行動推定装置100に、推定対象のテキスト、行動を推定したい商品名(当該テキストに含まれる商品名)、及び当該商品名が属する商品カテゴリ名が入力されると、図13に示す著者行動推定処理ルーチンが実行される。
まず、ステップ360において、入力された推定対象のテキスト、商品名、及び商品カテゴリ名を受け付け、次のステップ162で、受け付けたテキストに対して形態素解析処理を行う。
そして、ステップ164において、推定対象のテキストの単語表記を、素性として作成する。ステップ366では、推定対象の商品カテゴリ名に対する「使われ方」リストを、「使われ方」リスト記憶部46から読み込む。次のステップ168では、上記ステップ366で読み込んだ「使われ方」リストの各動詞と、上記ステップ164で作成された素性の各単語表記とを照合して、一致する単語表記を、<使用>という文字列に置き換える。
次のステップ370では、推定対象の商品カテゴリ名に対する「使われ方」含意リストを、「使われ方」含意リスト記憶部48から読み込む。ステップ172では、上記ステップ370で読み込んだ「使われ方」含意リストの各動詞と、上記ステップ168で得られた素性の各単語表記とを照合して、一致する単語表記を、<使用含意>という文字列に置き換える。
そして、ステップ174において、上記ステップ172で得られた素性と、著者行動推定モデルとに基づいて、推定対象のテキストの著者が、推定対象の商品カテゴリ名を示す商品を「使用済み」であるか「未使用」であるかを判定する。次のステップ176において、上記ステップ174での判定結果を出力して、著者行動推定処理ルーチンを終了する。
以上説明したように、第3の実施の形態に係る著者行動推定装置によれば、商品カテゴリ名毎に作成した「使われ方」リストの動詞、及び「使われ方」含意リストの動詞の各々について、入力テキストにおける動詞の有無及び単語表記を素性として抽出することにより、任意の商品カテゴリについて記述された入力テキストの著者が、当該商品カテゴリに属する商品を使用済みであるか未使用であるかを精度良く推定することができる。
また、第3の実施の形態に係る著者行動推定モデル学習装置によれば、商品カテゴリ名毎に作成した「使われ方」リストの動詞、及び「使われ方」含意リストの動詞の各々について、入力テキストにおける動詞の有無及び単語表記を素性として抽出することにより、任意の商品カテゴリについて記述された入力テキストの著者が、当該商品カテゴリに属する商品を使用済みであるか未使用であるかを推定するための推定モデルを学習することができる。
また、動詞リストに存在しない新たな商品を対象に著者の行動を推定する度に、動詞リストの自動獲得処理を行う必要がないため、ユーザが即座に推定処理を実施することが可能となる。
なお、上記の実施の形態では、対象となるカテゴリ名を入力として、動詞リストを作成する場合を例に説明したが、これに限定されるものではない。対象となるカテゴリ名と、そのカテゴリに属する複数の商品名とを入力として、複数の商品名を含むテキストから、周知技術である係り受け解析の結果を用いて、複数の商品名の係り先となる動詞を獲得し集計するようにしてもよい。その際、日本語の助詞の意味に着目し、「<商品>で〜する」のように商品が道具として利用される動詞と、「<商品>を〜する」、「<商品>に〜する」のように商品を動作の目的とする動詞のみを獲得する。集計された動詞のうち、上位n個の動詞を、入力されたカテゴリ名に対する「使われ方」リストとして出力する。例えば、対象のカテゴリ名が「車」の場合、「プリウス」や「フィット」などの商品名を入力として、「乗る」、「試乗」、「洗車」、「洗う」、「運転する」などの動詞リストが、「使われ方」リストとして、カテゴリ名「車」に対して作成される。また、この際、単純に上位n個の動詞をリストとして出力するのではなく、入力された複数の商品名に共通して出現する動詞をリストとして出力ようにしてもよい。
[第4の実施の形態]
次に、第4の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
上記の第1の実施の形態、第3の実施の形態に加え、「使われ方」リストに記載された動詞よりも文章の前方向に存在する動詞を用いることで、さらに著者の行動を推定する精度を高めることができる。
そこで、第4の実施の形態では、「使われ方」リスト中の動詞の係り元の動詞をリストして、素性を作成している点が、第1の実施の形態と異なっている。
<著者行動推定装置の構成>
図14に示すように、第4の実施の形態に係る著者行動推定装置400の演算部420は、WEBテキストデータベース40、「使われ方」リスト作成部42、「使われ方」含意リスト作成部44、「使われ方」被含意リスト作成部444、「使われ方」リスト記憶部46、「使われ方」含意リスト記憶部48、「使われ方」被含意リスト記憶部448、形態素解析部50、単語表記素性作成部52、「使われ方」リスト素性作成部54、「使われ方」含意リスト素性作成部56、「使われ方」被含意リスト素性作成部456、分類器58、及び著者行動推定モデル記憶部60を備えている。なお、「使われ方」被含意リスト作成部444は、第3動詞抽出手段の一例である。
「使われ方」被含意リスト作成部444は、「使われ方」リスト作成部42で作成した「使われ方」リストに含まれる動詞に含意される動詞のリストである「使われ方」被含意リストを、以下のように、大量のWEBテキストに基づいて作成する。
まず、WEBテキストデータベース40に記憶されている大量のWEBテキストに対して係り受け解析を行った係り受け解析結果に基づいて、動詞が動詞に係っている動詞ペアを抽出し、集計する。その際、「○○して、□□した」のように、係り元の動詞が連用形となる動詞ペアのみ抽出する。
次に、商品名毎に、「使われ方」リスト作成部42で作成した「使われ方」リストを入力として、「使われ方」リスト中のn個の動詞を係り先の動詞とする動詞ペアを抽出し、抽出された動詞ペアの係り元の動詞を集計して、抽出された動詞ペアの係り元の動詞のうち、出現頻度が上位m個の動詞を、当該商品名に対する「使われ方」被含意リストとして「使われ方」被含意リスト記憶部448に記憶する。
例えば、ある商品名に対する「使われ方」リストとして、「乗る」、「試乗」、「洗車」、「洗う」、「運転する」が入力された場合、「見る」、「気になる」、「借りる」、「汚れる」などのリストが、当該商品名に対する「使われ方」被含意リストとして作成される。
「使われ方」被含意リスト素性作成部456は、「使われ方」含意リスト素性作成部56によって作成された素性を入力とし、「使われ方」被含意リスト記憶部448に記憶された「使われ方」被含意リストのうち、入力部10で入力された商品名に対応する「使われ方」被含意リストと照合して、一致した単語表記を、”<使用被含意>”という文字列の素性に置き換える。例えば入力が、「 (昨日 (買 (っ (た (<商品> (が (今朝 (届き (ま (した (。(早速 (<使用> (し (て (み (た (ところ (、 (静か (だ (し (コンパクト (に (しま (う (こと (が (でき (ました (。)))))))))))))))))))))))))))))))」であって、「使われ方」被含意リストに「届く」がある場合、素性として、「 (昨日 (買 (っ (た (<商品> (が (今朝 (<使用被含意> (ま (した (。(早速 (<使用> (し (て (み (た (ところ (、 (静か (だ (し (コンパクト (に (<使用含意> (う (こと (が (でき (ました (。)))))))))))))))))))))))))))))))」が作成される。
分類器58は、「使われ方」被含意リスト素性作成部456によって作成された素性から、「使われ方」リストの動詞の有無と、「使われ方」リストの動詞と一致する単語表記の前後の単語表記と、「使われ方」含意リストの動詞の有無と、当該「使われ方」含意リストの動詞と一致する単語表記の前後の単語表記と、「使われ方」被含意リストの動詞の有無と、当該「使われ方」被含意リストの動詞と一致する単語表記の前後の単語表記と、を取得し、著者行動推定モデル記憶部60に記憶された著者行動推定モデルを利用して、入力テキストの著者による対象商品に対する行動(「使用済」or「未使用」)を判定する。
<著者行動推定モデル学習装置の構成>
図15に示すように、第4の実施の形態に係る著者行動推定モデル学習装置450の演算部472は、WEBテキストデータベース74、「使われ方」リスト作成部76、「使われ方」含意リスト作成部78、「使われ方」被含意リスト作成部478、「使われ方」リスト記憶部80、「使われ方」含意リスト記憶部82、「使われ方」被含意リスト記憶部482、学習用データ記憶部84、形態素解析部86、単語表記素性作成部88、「使われ方」リスト素性作成部90、「使われ方」含意リスト素性作成部92、「使われ方」被含意リスト素性作成部492、学習部94、及び著者行動推定モデル記憶部96を備えている。
「使われ方」被含意リスト作成部478は、「使われ方」リスト作成部76で作成した「使われ方」リストに含まれる動詞に含意される動詞のリストである「使われ方」被含意リストを、「使われ方」被含意リスト作成部444と同様に、大量のWEBテキストに基づいて作成し、「使われ方」被含意リスト記憶部482に格納する。
「使われ方」被含意リスト素性作成部492は、「使われ方」含意リスト素性作成部92によって作成された素性を入力とし、「使われ方」被含意リスト記憶部482に記憶された「使われ方」被含意リストのうち、学習用データのテキストに含まれる商品名に対応する「使われ方」被含意リストと照合して、「使われ方」被含意リスト素性作成部456と同様に、一致した単語表記を、”<使用被含意>”という文字列の素性に置き換える。
学習部94は、周知の機械学習技術を用いて、「使われ方」被含意リスト素性作成部492により学習用データの各テキストについて作成された各素性について、当該素性を入力としたときに、学習用データに含まれる人手で判断した結果と同じ結果が出力されるように、モデル関数のパラメタを学習(更新)していくことにより、著者行動推定モデルを作成する。
<著者行動推定モデル学習装置及び著者行動推定装置の作用>
次に、第4の実施の形態に係る著者行動推定モデル学習装置450の作用について説明する。なお、第1の実施の形態と同様の処理については、同一符号を付して詳細な説明を省略する。
著者行動推定モデル学習装置450に、商品名のリストが入力されると、著者行動推定モデル学習装置450において、図16に示すリスト作成処理ルーチンが実行される。
まず、ステップ100において、入力された商品名リストを受け付け、ステップ102において、商品名リストの少なくとも1つの商品名を含むWEBテキストを、WEBテキストデータベース74から抽出する。
そして、ステップ104において、WEBテキストデータベース74に記憶されている各WEBテキストに対して係り受け解析処理を行う。次のステップ106では、商品名リストのうち、処理対象の商品名を1つ設定し、ステップ108において、処理対象の商品名が示す商品の「使われ方」を表わす動詞を抽出する。
そして、ステップ110において、上記ステップ108で抽出した動詞のうち、頻度が上位n個の動詞を、処理対象の商品名に対する「使われ方」リストとして、「使われ方」リスト記憶部80に格納する。
次のステップ112では、上記ステップ106〜110の処理が、商品名リストの全ての商品名について終了したか否かを判定し、商品名リストの全ての商品名について上記ステップ106〜110の処理が終了した場合には、ステップ114へ進む。
ステップ114では、動詞が動詞に係っている動詞ペアであって、係り元の動詞が連用形となっている動詞ペアを抽出する。次のステップ116では、商品名リストのうち、処理対象の商品名を1つ設定し、ステップ118において、処理対象の商品名に対して、上記ステップ110で得られた動詞ペアから、係り先の動詞を、処理対象の商品名が示す商品の「使われ方」を表わす動詞を含意する動詞として抽出する。
そして、ステップ120において、上記ステップ118で抽出した動詞のうち、頻度が上位m個の動詞を、処理対象の商品名に対する「使われ方」含意リストとして、「使われ方」含意リスト記憶部82に格納する。
次のステップ122では、上記ステップ116〜120の処理が、商品名リストの全ての商品名について終了したか否かを判定し、商品名リストの全ての商品名について上記ステップ116〜120の処理が終了した場合には、ステップ424へ進む。
ステップ424では、商品名リストのうち、処理対象の商品名を1つ設定し、ステップ426において、処理対象の商品名に対して、上記ステップ110で得られた「使われ方」リストの各動詞が係り先となっている動詞ペアから、係り元の動詞を、処理対象の商品名が示す商品の「使われ方」を表わす動詞に含意される動詞として抽出する。
そして、ステップ428において、上記ステップ426で抽出した動詞のうち、頻度が上位m個の動詞を、処理対象の商品名に対する「使われ方」被含意リストとして、「使われ方」被含意リスト記憶部482に格納する。
次のステップ430では、上記ステップ424〜428の処理が、商品名リストの全ての商品名について終了したか否かを判定し、商品名リストの全ての商品名について上記ステップ424〜428の処理が終了した場合には、リスト作成処理ルーチンを終了する。
また、著者行動推定モデル学習装置450に、学習用データが入力されると、著者行動推定モデル学習装置450において、図17に示す学習処理ルーチンが実行される。
まず、ステップS130において、入力された学習用データを受け付け、学習用データ記憶部84に記憶する。次のステップ132では、学習用データ記憶部84に記憶されている学習用データの各テキストに対して形態素解析処理を行う。
そして、ステップ134において、学習用データの各テキストのうち、処理対象のテキストを1つ設定する。次のステップ136では、処理対象のテキストの単語表記を、素性として作成する。
そして、ステップ138では、処理対象のテキストに含まれる商品名に対する「使われ方」リストを、「使われ方」リスト記憶部80から読み込む。ステップ140では、上記ステップ138で読み込んだ「使われ方」リストの各動詞と、上記ステップ136で作成された素性の各単語表記とを照合して、一致する単語表記を、<使用>という文字列に置き換える。
次のステップ142では、処理対象のテキストに含まれる商品名に対する「使われ方」含意リストを、「使われ方」含意リスト記憶部82から読み込む。ステップ144では、上記ステップ142で読み込んだ「使われ方」含意リストの各動詞と、上記ステップ140で得られた素性の各単語表記とを照合して、一致する単語表記を、<使用含意>という文字列に置き換える。
次のステップ442では、処理対象のテキストに含まれる商品名に対する「使われ方」被含意リストを、「使われ方」被含意リスト記憶部482から読み込む。ステップ444では、上記ステップ442で読み込んだ「使われ方」被含意リストの各動詞と、上記ステップ144で得られた素性の各単語表記とを照合して、一致する単語表記を、<使用被含意>という文字列に置き換える。
次のステップ146では、上記ステップ134〜144、442、444の処理が、学習用データの全てのテキストについて終了したか否かを判定し、上記ステップ134〜144、442、444の処理が行われていないテキストがある場合には、上記ステップ134へ戻り、当該テキストを、処理対象として設定する。一方、学習用データの全てのテキストについて上記ステップ134〜144、442、444の処理が終了した場合には、ステップ148へ進む。
ステップ148では、学習用データの全てのテキストについて上記ステップ444で得られた素性と、学習用データの全てのテキストについて予め与えられた行動の判断結果(「使用済」か「未使用」か)とに基づいて、機械学習を行い、著者行動推定モデルを作成する。そして、ステップ150では、上記ステップ148で作成された著者行動推定モデルを、著者行動推定モデル記憶部96に格納して、学習処理ルーチンを終了する。
また、著者行動推定装置400に、大量のWEBテキストが入力されると、WEBテキストデータベース40に記憶される。また、著者行動推定装置400に、商品名のリストが入力されると、著者行動推定装置400において、上記図16で説明したリスト作成処理ルーチンと同様に、リスト作成処理ルーチンが実行される。これによって、「使われ方」リスト、「使われ方」含意リスト、及び「使われ方」被含意リストが、「使われ方」リスト記憶部46、「使われ方」含意リスト記憶部48、及び「使われ方」被含意リスト記憶部448に格納される。
また、著者行動推定装置400に、著者行動推定モデル学習装置450の著者行動推定モデル記憶部96に記憶されている著者行動推定モデルが入力されると、著者行動推定モデル記憶部60に記憶される。また、著者行動推定装置400に、推定対象のテキスト及び行動を推定したい商品名(当該テキストに含まれる商品名)が入力されると、図18に示す著者行動推定処理ルーチンが実行される。
まず、ステップ160において、入力された推定対象のテキスト及び商品名を受け付け、次のステップ162で、受け付けたテキストに対して形態素解析処理を行う。
そして、ステップ164において、推定対象のテキストの単語表記を、素性として作成する。ステップ166では、推定対象の商品名に対する「使われ方」リストを、「使われ方」リスト記憶部46から読み込む。次のステップ168では、上記ステップ166で読み込んだ「使われ方」リストの各動詞と、上記ステップ164で作成された素性の各単語表記とを照合して、一致する単語表記を、<使用>という文字列に置き換える。
次のステップ170では、推定対象の商品名に対する「使われ方」含意リストを、「使われ方」含意リスト記憶部48から読み込む。ステップ172では、上記ステップ170で読み込んだ「使われ方」含意リストの各動詞と、上記ステップ168で得られた素性の各単語表記とを照合して、一致する単語表記を、<使用含意>という文字列に置き換える。
次のステップ470では、推定対象の商品名に対する「使われ方」被含意リストを、「使われ方」被含意リスト記憶部448から読み込む。ステップ472では、上記ステップ470で読み込んだ「使われ方」被含意リストの各動詞と、上記ステップ172で得られた素性の各単語表記とを照合して、一致する単語表記を、<使用被含意>という文字列に置き換える。
そして、ステップ174において、上記ステップ472で得られた素性と、著者行動推定モデルとに基づいて、推定対象のテキストの著者が、推定対象の商品名を示す商品を「使用済み」であるか「未使用」であるかを判定する。次のステップ176において、上記ステップ174での判定結果を出力して、著者行動推定処理ルーチンを終了する。
以上説明したように、第4の実施の形態に係る著者行動推定装置によれば、商品名毎に作成した「使われ方」リストの動詞、「使われ方」含意リストの動詞、及び「使われ方」被含意リストの動詞の各々について、入力テキストにおける動詞の有無及び単語表記を素性として抽出することにより、任意の商品について記述された入力テキストの著者が、当該商品を使用済みであるか未使用であるかを精度良く推定することができる。
また、第4の実施の形態に係る著者行動推定モデル学習装置によれば、商品名毎に作成した「使われ方」リストの動詞、「使われ方」含意リストの動詞、及び「使われ方」被含意リストの動詞の各々について、入力テキストにおける動詞の有無及び単語表記を素性として抽出することにより、任意の商品について記述された入力テキストの著者が、当該商品を使用済みであるか未使用であるかを推定するための推定モデルを学習することができる。
また、使用済の手がかりとして、「使われ方」を表わす動詞、およびそれを含意する動詞だけでなく、「使われ方」を表わす動詞に含意される動詞も利用しているため、商品に対する著者の行動として、使用済みであるか未使用であるかをより高精度に推定することが可能となる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、対象となる商品名を、予め人手で商品名のリストとして与えておき、商品名毎に「使われ方」リスト及び「使われ方」含意リストを作成する場合を説明したが、これに限定されるものではない。例えば、入力部において行動推定対象となる入力テキストが入力されたときに、当該入力テキストに含まれる商品名に対して、「使われ方」リスト作成部による処理と、「使われ方」含意リスト作成部による処理とを、逐次実行するようにしても良い。
また、分類器において、入力テキストにおける「使われ方」リスト(または「買われ方」リスト)の動詞や「使われ方」含意リスト(または「買われ方」含意リスト)の動詞と一致する単語表記の前後の単語表記だけでなく、その他の単語表記も考慮して、入力テキストの著者による対象商品に対する行動(「使用済」or「未使用」、「購入済」or「未購入」)を判定するようにしてもよい。例えば、分類器58は、「使われ方」含意リスト素性作成部56によって作成された素性(入力テキストの単語表記のうち、対象とする商品名、その使われ方を表す動詞、及び、使われ方を含意する動詞を<商品><使用><使用含意>という文字列に置き換えたもの)と、著者行動推定モデル記憶部60に記憶された著者行動推定モデルとに基づいて、入力テキストの著者による対象商品に対する行動(「使用済」or「未使用」)を判定するようにすればよい。
また、商品名や商品カテゴリ名の代わりに、商品や商品カテゴリを識別できる他の商品情報を用いてもよい。
また、上記の第3の実施の形態における、商品カテゴリ名を入力として、商品カテゴリ名に属する商品に対する行動を推定する技術を、上記の第2の実施の形態に適用してもよい。この場合には、推定対象の商品カテゴリ名に属する商品を「購入済み」であるか「未購入」であるかを推定するようにすればよい。
また、上記の第4の実施の形態における、「使われ方」被含意リストを利用して著者行動を推定する技術を、上記の第2の実施の形態に適用してもよい。この場合には、「買われ方」被含意リストを利用して、テキストの著者が、商品を「購入済み」であるか「未購入」であるかを推定する。
また、上記の第4の実施の形態における、「使われ方」被含意リストを利用して著者行動を推定する技術を、上記の第3の実施の形態に適用してもよい。この場合には、商品カテゴリ名毎に、「使われ方」リスト、「使われ方」含意リスト、及び「使われ方」被含意リストを作成するようにすればよい。
また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、プログラムをインストールすることによっても実現可能である。
また、上述の著者行動推定装置及び著者行動推定モデル学習装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。