JP2016075854A - モデル学習装置、人物属性分類装置、方法、及びプログラム - Google Patents

モデル学習装置、人物属性分類装置、方法、及びプログラム Download PDF

Info

Publication number
JP2016075854A
JP2016075854A JP2014207510A JP2014207510A JP2016075854A JP 2016075854 A JP2016075854 A JP 2016075854A JP 2014207510 A JP2014207510 A JP 2014207510A JP 2014207510 A JP2014207510 A JP 2014207510A JP 2016075854 A JP2016075854 A JP 2016075854A
Authority
JP
Japan
Prior art keywords
learning
utterance
feature
classification
user utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014207510A
Other languages
English (en)
Other versions
JP5964916B2 (ja
Inventor
徹 平野
Toru Hirano
徹 平野
のぞみ 小林
Nozomi Kobayashi
のぞみ 小林
竜一郎 東中
Ryuichiro Higashinaka
竜一郎 東中
俊朗 牧野
Toshiaki Makino
俊朗 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014207510A priority Critical patent/JP5964916B2/ja
Publication of JP2016075854A publication Critical patent/JP2016075854A/ja
Application granted granted Critical
Publication of JP5964916B2 publication Critical patent/JP5964916B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】人物属性を精度よく分類することができるようにする。
【解決手段】学習用素性抽出部203が、ユーザ発話が表す人物属性の分類が予め付与された学習用ユーザ発話、及び当該学習用ユーザ発話より前に出現した発話であって、かつ当該学習用ユーザ発話を誘発した発話の形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出する。そして、学習部212が、学習用素性抽出部203によって抽出された各素性と、学習用ユーザ発話に予め付与された人物属性の分類とに基づいて、発話から抽出された各素性からユーザ発話が表す人物属性を分類するための分類モデルを学習する。
【選択図】図1

Description

本発明は、モデル学習装置、人物属性分類装置、方法、及びプログラムに関する。
従来、数ヶ月分のブログやマイクロブログのテキストの集合を入力として、性別や年代等人物属性に対応する属性値を、テキストにどんな単語が出現しているかから推定するシステムがあった(例えば、非特許文献1)。
具体的には、所望の人物属性ごとに、属性値集合を用意し、単語の表記と日本語語彙大系のカテゴリ等の名詞や動詞等の内容語に基づく素性を用いた機械学習手法を用いて分類していた。人物属性の分類の一例を以下に示す。
(例)性別:男性or女性、年代:10代or20代or30代or40代以上
平野徹、牧野俊郎、松尾義博、「Markov Logicを用いたテキストからのユーザ属性推定」、2013年度人工知能学会年次大会(27回)、3E3−3(2013)
上記非特許文献1に記載の技術は、想定している入力が異なる点、既定の人物属性値の分類問題である点から、厳密には本発明の人物属性を分類する分野と異なる技術であるが、利用している素性や機械学習手法などは、本発明の人物属性を分類する分野にも適用可能なものである。
上記非特許文献1に記載の技術を本発明の人物属性を分類する分野に適用させた場合の概念図を図5に示す。図5に示すように、上記非特許文献1に記載の技術を本発明の人物属性を分類する分野に適用させた場合、ユーザが自身のことについて述べた1発話(+直前発話)、もしくは、自身のことに述べたテキストである1文(+他ユーザへの返信の場合は返信元文)を入力とし、図6で指定する34種類のどの人物属性に関する発話であるかを分類する。なお、分類には、日本語語彙大系のカテゴリ等の主に名詞や動詞等の内容語に基づく素性を用いた機械学習手法を用いて分類する。
上記非特許文献1に記載の技術を本発明の人物属性を分類する分野に適用させた場合の手法では、人間関係や性別、年代等の内容語によって区別できる人物属性は正しく分類することはできるが、習慣又は行動特性や、経験又は記憶以降の人物属性は内容語だけでは区別できないものであり、例えば下記の「テニスをしている」を誤って経験又は記憶と分類するなど、正しく分類することができなかった。
テニスをしている→習慣又は行動特性
テニスをしたことがある→ 経験又は記憶
本発明は、上記の事情に鑑みてなされたもので、人物属性を精度よく分類するための分類モデルを得ることができるモデル学習装置、方法、及びプログラムを提供することを目的とする。
また、人物属性を精度よく分類することができる人物属性分類装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明のモデル学習装置は、ユーザ発話が表す人物属性の分類が予め付与された学習用ユーザ発話、及び前記学習用ユーザ発話より前に出現した発話であって、かつ前記学習用ユーザ発話を誘発した発話の形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出する学習用素性抽出手段と、前記学習用素性抽出手段によって抽出された各素性と、前記学習用ユーザ発話に予め付与された前記人物属性の分類とに基づいて、発話から抽出された前記各素性からユーザ発話が表す人物属性を分類するための分類モデルを学習する学習手段と、を含んで構成されている。
本発明のモデル学習方法は、学習用素性抽出手段、及び学習手段を含むモデル学習装置におけるモデル学習方法であって、前記学習用素性抽出手段が、ユーザ発話が表す人物属性の分類が予め付与された学習用ユーザ発話、及び前記学習用ユーザ発話より前に出現した発話であって、かつ前記学習用ユーザ発話を誘発した発話の形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出するステップと、前記学習手段が、前記学習用素性抽出手段によって抽出された各素性と、前記学習用ユーザ発話に予め付与された前記人物属性の分類とに基づいて、発話から抽出された前記各素性からユーザ発話が表す人物属性を分類するための分類モデルを学習するステップと、
を含んで構成されている。
本発明の人物属性分類装置は、入力されたユーザ発話、及び前記ユーザ発話より前に出現した発話であって、かつ前記ユーザ発話を誘発した発話の形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出する素性抽出手段と、前記素性抽出手段によって抽出された各素性と、発話から抽出された前記各素性からユーザ発話が表す人物属性を分類するための予め学習された分類モデルとに基づいて、前記ユーザ発話が表す人物属性を分類する分類手段と、
を含んで構成されている。
本発明の人物属性分類方法は、素性抽出手段、及び分類手段を含む人物属性分類装置における人物属性分類方法であって、前記素性抽出手段が、入力されたユーザ発話、及び前記ユーザ発話より前に出現した発話であって、かつ前記ユーザ発話を誘発した発話の形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出するステップと、前記分類手段が、前記素性抽出手段によって抽出された各素性と、発話から抽出された前記各素性からユーザ発話が表す人物属性を分類するための予め学習された分類モデルとに基づいて、前記ユーザ発話が表す人物属性を分類するステップと、
を含んで構成されている。
本発明の前記人物属性の分類は、「習慣又は行動特性」と、「経験又は記憶」とを含むようにすることができる。
本発明に係る第1のプログラムは、コンピュータに、本発明のモデル学習装置の各手段として機能させるためのプログラムである。
本発明に係る第2のプログラムは、コンピュータに、本発明の人物属性分類装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明のモデル学習装置、方法、及びプログラムによれば、学習用ユーザ発話及び当該学習用ユーザ発話より前に出現した発話であって、かつ当該学習用ユーザ発話を誘発した発話の形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出し、抽出された各素性と、学習用ユーザ発話に予め付与された人物属性の分類とに基づいて、発話から抽出された各素性からユーザ発話が表す人物属性を分類するための分類モデルを学習することにより、人物属性を精度よく分類するための分類モデルを得ることができる、という効果が得られる。
また、本発明の人物属性分類装置、方法、及びプログラムによれば、ユーザ発話及びユーザ発話より前に出現した発話であって、かつ当該ユーザ発話を誘発した発話の形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出し、抽出された各素性と、発話から抽出された各素性からユーザ発話が表す人物属性を分類するための分類モデルとに基づいて、ユーザ発話が表す人物属性を分類することにより、人物属性を精度よく分類することができる、という効果が得られる。
本発明の実施の形態に係るモデル学習装置の構成の一例を示す図である。 本発明の実施の形態に係る人物属性分類装置の構成の一例を示す図である。 本発明の実施の形態に係る学習処理ルーチンのフローチャートの一例である。 本発明の実施の形態に係る人物属性分類処理ルーチンのフローチャートの一例である。 従来技術を本発明の分野に適用させた場合の処理を説明するための図である。 人物属性の一例を示す図である。
<概要>
まず、本発明の実施の形態の概要について説明する。
本発明の実施の形態は、ユーザが自身のことについて述べた1発話、または、自身のことに述べた1テキストを、ユーザのどの人物属性に関することかに分類する技術に関するものである。本発明の実施の形態では、例えば以下に示すようなユーザ発話に基づいて、人物属性を分類することを目的とする。
例:「歌手Aが好きだよ」→人物属性=趣味又は嗜好
例:「イギリスに行ったことがある」→人物属性=経験又は記憶
本発明の実施の形態では、内容語だけでは区別できない習慣や経験などの人物属性を分類するために、機能語を示す素性と副詞を示す素性とを利用する。
機能語を示す素性とは、参考文献1(今村賢治、泉朋子、菊井玄一郎、佐藤理史、「述部機能表現の意味ラベルタガー」、言語処理学会 第17回年次大会、(2011)、P2−5、p.308−311)において利用している機能語の辞書(例えば参考文献2(松吉俊、佐藤理史、宇津呂武仁、「日本語機能表現辞書の編纂」、自然言語処理、第14巻、第5号、(2007)、p.123−146)を参照。)を利用して、完了や継続などの意味ラベル(機能表現意味ラベル)を素性として抽出する。
なお、期待する動作としては、継続の意味ラベルがあれば習慣に、完了の意味ラベルがあれば経験に、可能の意味ラベルがあれば能力に、といった分類が可能になることである。
副詞を示す素性とは、以下のように人物属性ごとに頻出する副詞をグループ化して素性として抽出する。
いつも、よく、しばしば、等→習慣又は行動特性
さっき、まだ、昨日、等→経験又は記憶
本発明の実施の形態では、ユーザ発話が表す人物属性を分類するための分類モデルを学習するモデル学習装置と、ユーザ発話が表す人物属性を分類する人物属性分類装置とに本発明を適用させた場合を例に説明する。
<モデル学習装置のシステム構成>
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、本発明の実施の形態に係るモデル学習装置の構成の一例を示す図である。本実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述する学習処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。また、記憶手段としてHDDを設けてもよい。
このコンピュータは、機能的には、図1に示すように、学習用入力部10、学習用演算部20、及びモデル記憶部30を含んだ構成で表わすことができる。
学習用入力部10は、学習用ユーザ発話、及び当該学習用ユーザ発話より前に出現した発話であって、かつ当該学習用ユーザ発話を誘発した発話の組み合わせを複数受け付ける。学習用ユーザ発話には、ユーザ発話が表す人物属性の分類が予め付与されている。本発明の実施の形態では、学習用ユーザ発話より前に出現した発話であって、かつ当該学習用ユーザ発話を誘発した発話として、学習用ユーザ発話の直前発話(以下、学習用直前発話と称する。)を用いる。
学習用演算部20は、学習用発話データベース200と、学習用形態素解析部202と、学習用素性抽出部203と、学習部212とを備えている。
学習用発話データベース200には、学習用入力部10によって受け付けた、学習用ユーザ発話及び学習用直前発話の組み合わせが複数格納される。
学習用形態素解析部202は、学習用発話データベース200に格納された学習用ユーザ発話及び学習用直前発話の組み合わせの各々に対し、形態素解析を行う。具体的には、学習用形態素解析部202は、周知の形態素解析技術により、入力された学習用発話と直前発話とを単語に区切る。例えば、発話として「いつもテニスをしている」が入力された場合、「いつも」「テニス」「を」「し」「て」「い」「る」に区切られる。
学習用素性抽出部203は、学習用形態素解析部202によって得られた形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出する。学習用素性抽出部203は、学習用単語表記素性抽出部204と、学習用内容語素性抽出部206と、学習用機能語素性抽出部208と、学習用副詞素性抽出部210とを備えている。
学習用単語表記素性抽出部204は、学習用発話データベース200に格納された学習用ユーザ発話及び学習用直前発話の組み合わせの各々に対し、学習用形態素解析部202によって得られた形態素解析結果から、単語の表記を示す素性を抽出する。具体的には、学習用単語表記素性抽出部204は、学習用発話と直前発話との形態素解析結果を入力とし、各単語の表記を素性として抽出する。上述の例の場合は、 「いつも」「テニス」「を」「し」「て」「い」「る」が素性として抽出される。
学習用内容語素性抽出部206は、学習用発話データベース200に格納された学習用ユーザ発話及び学習用直前発話の組み合わせの各々に対し、学習用形態素解析部202によって得られた形態素解析結果から、単語のカテゴリを示す素性を抽出する。具体的には、学習用内容語素性抽出部206は、学習用発話と直前発話との形態素解析結果を入力とし、各単語と対応づけた日本語語彙大系のカテゴリ等を素性として抽出する。これらは主に名詞や動詞等の内容語のカテゴリである。上述の例の場合は、「テニス」に対して「スポーツ」カテゴリが、「し(する)」に対して「実行」カテゴリが素性として抽出される。
学習用機能語素性抽出部208は、学習用発話データベース200に格納された学習用ユーザ発話及び学習用直前発話の組み合わせの各々に対し、学習用形態素解析部202によって得られた形態素解析結果から、機能語を示す素性を抽出する。具体的には、学習用機能語素性抽出部208は、学習用発話と直前発話との形態素解析結果を入力とし、機能語の意味辞書を用いて、機能語の意味ラベルを素性として抽出する。上述の例の場合は、「ている」に対して「継続」が素性として抽出される。意味ラベルの例は、上記参考文献1に記載がある。
学習用副詞素性抽出部210は、学習用発話データベース200に格納された学習用ユーザ発話及び学習用直前発話の組み合わせの各々に対し、学習用形態素解析部202によって得られた形態素解析結果から、副詞を示す素性を抽出する。具体的には、学習用副詞素性抽出部210は、ユーザ発話と直前発話の形態素解析結果を入力し、事前に準備した副詞のグループ辞書を用いて、副詞のグループ情報を素性として抽出する。なお副詞グループ辞書には、以下に示すグループ情報等が登録されている。
グループ1(習慣又は行動特性):いつも、よく、しばしば
グループ2(経験又は記憶):さっき、まだ、昨日
上述の例の場合は、「いつも」に対して、「グループ1」が素性として抽出される。
学習部212は、学習用発話データベース200に格納された学習用ユーザ発話及び学習用直前発話の組み合わせの各々に対し、学習用素性抽出部203によって抽出された各素性と、学習用発話に予め付与された人物属性の分類とに基づいて、発話から抽出された各素性から当該ユーザ発話が表す人物属性を分類するための分類モデルを学習する。なお、人物属性の分類としては、「習慣又は行動特性」と、「経験又は記憶」とを含んでいる。
学習部212は、周知の機械学習手法を用いて、教師データとなる学習用発話に予め付与された人物属性の分類と、従来技術の素性に加えて、上記の機能語を示す素性及び副詞を示す素性を抽出した結果とを対応付けた素性とに基づいて、分類モデルを学習する。
なお、上記の素性は、(1)学習用直前発話と学習用ユーザ発話とを区別した素性にした場合、(2)学習用直前発話と学習用ユーザ発話を区別しない素性にした場合のどちらでもよいし、また両方利用してもよい。
例;(1)区別あり:「学習用直前発話_○○」「学習用直前発話_××」・・・「学習用ユーザ発話_◆◆」
(2)区別なし:「学習用発話_○○」「学習用発話_××」・・・「学習用発話_◆◆」
モデル記憶部30には、学習部212によって学習された分類モデルが記憶される。
<人物属性分類装置のシステム構成>
図2は、本発明の実施の形態に係る人物属性分類装置の構成の一例を示す図である。本実施の形態に係る人物属性分類装置150は、CPUと、RAMと、後述する人物属性分類処理ルーチンを実行するためのプログラム及び各種データを記憶したROMとを備えたコンピュータで構成されている。また、記憶手段としてHDDを設けてもよい。
このコンピュータは、機能的には、図2に示すように、入力部40、モデル記憶部50、演算部60、及び出力部70を含んだ構成で表わすことができる。
入力部40は、人物属性分類対象のユーザ発話、及び当該ユーザ発話より前に出現した発話であって、かつ当該ユーザ発話を誘発した発話を受け付ける。上記モデル学習装置100と同様に、本発明の実施の形態では、ユーザ発話より前に出現した発話であって、かつ当該ユーザ発話を誘発した発話として、ユーザ発話の直前発話を用いる。
モデル記憶部50には、モデル学習装置100によって学習された、発話から抽出された各素性から当該ユーザ発話が表す人物属性を分類するための分類モデルが記憶されている。
演算部60は、形態素解析部600と、素性抽出部601と、分類部610とを備えている。
形態素解析部600は、入力部40によって受け付けたユーザ発話及び直前発話に対し、学習用形態素解析部202と同様に、形態素解析を行う。
素性抽出部601は、学習用素性抽出部203と同様に、形態素解析部600によって得られた形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出する。素性抽出部601は、単語表記素性抽出部602と、内容語素性抽出部604と、機能語素性抽出部606と、副詞素性抽出部608とを備えている。
単語表記素性抽出部602は、学習用単語表記素性抽出部204と同様に、形態素解析部600によって得られた形態素解析結果から、単語の表記を示す素性を抽出する。
内容語素性抽出部604は、学習用内容語素性抽出部206と同様に、形態素解析部600によって得られた形態素解析結果から、単語のカテゴリを示す素性を抽出する。
機能語素性抽出部606は、学習用機能語素性抽出部208と同様に、形態素解析部600によって得られた形態素解析結果から、機能語を示す素性を抽出する。
副詞素性抽出部608は、学習用副詞素性抽出部210と同様に、形態素解析部600によって得られた形態素解析結果から、副詞を示す素性を抽出する。
分類部610は、素性抽出部601によって抽出された各素性と、モデル記憶部50に記憶された分類モデルとに基づいて、ユーザ発話が表す人物属性を分類する。
具体的には、分類部610は、従来の素性に加えて、上記の機能語を示す素性と副詞を示す素性とを抽出した結果と、モデル学習装置100によって予め学習された分類モデルとを用いて、上記図6に示す既定の人物属性へ分類する。
なお、上記の素性は、(1)直前発話とユーザ発話とを区別した素性にした場合、(2)直前発話とユーザ発話を区別しない素性にした場合のどちらでもよいし、また両方利用してもよい。
例;(1)区別あり:「直前発話_○○」「直前発話_××」・・・「ユーザ発話_◆◆」
(2)区別なし:「発話_○○」「発話_××」・・・「発話_◆◆」
従来技術では、例えば「テニスをしている」を、人物属性として、誤って「経験又は記憶」に分類してしまう。しかし、本発明の実施の形態では、機能語を示す素性及び副詞を示す素性を素性として用いるため、「習慣又は行動特性」と、「経験又は記憶」とを、精度よく分類することができる。
出力部70は、分類部610によって分類された人物属性を、結果として出力する。
<モデル学習装置100の動作>
次に、本実施の形態に係るモデル学習装置100の作用について説明する。まず、学習用ユーザ発話及び学習用直前発話の複数の組み合わせである学習用発話集合がモデル学習装置100に入力されると、モデル学習装置100によって、入力された学習用発話集合が、学習用発話データベース200へ格納される。そして、モデル学習装置100によって、図3に示す学習処理ルーチンが実行される。
まず、ステップS100において、学習用発話データベース200から1組の学習用発話及び学習用直前発話の組み合わせを取り出す。
次に、ステップS102において、学習用形態素解析部202によって、上記ステップS100で取り出された学習用ユーザ発話及び学習用直前発話の組み合わせに対し、形態素解析を行う。
ステップS104において、学習用単語表記素性抽出部204によって、上記ステップS100で取り出された学習用ユーザ発話及び学習用直前発話の組み合わせに対し、上記ステップS102で得られた形態素解析結果から、単語の表記を示す素性を抽出する。
ステップS106において、学習用内容語素性抽出部206によって、上記ステップS100で取り出された学習用ユーザ発話及び学習用直前発話の組み合わせに対し、上記ステップS102で得られた形態素解析結果から、単語のカテゴリを示す素性を抽出する。
ステップS108において、学習用機能語素性抽出部208によって、上記ステップS100で取り出された学習用ユーザ発話及び学習用直前発話の組み合わせに対し、上記ステップS102で得られた形態素解析結果から、機能語を示す素性を抽出する。
ステップS110において、学習用副詞素性抽出部210によって、上記ステップS100で取り出された学習用ユーザ発話及び学習用直前発話の組み合わせに対し、上記ステップS102で得られた形態素解析結果から、副詞を示す素性を抽出する。そして、抽出された各素性を、学習データとしてメモリ(図示省略)に記憶する。
そして、ステップS112において、学習用発話データベース200に記憶されている全ての学習用ユーザ発話及び学習用直前発話の組み合わせについて、上記ステップS100〜S110の処理を実行したか否かを判定する。そして、上記ステップS100〜S110の処理を実行していない学習用ユーザ発話及び学習用直前発話の組み合わせが存在する場合には、上記ステップS100へ戻り、当該組み合わせを取り出す。一方、全ての学習用ユーザ発話及び学習用直前発話の組み合わせについて、上記ステップS100〜S110の処理を実行した場合には、ステップS114へ進む。
そして、ステップS114において、学習部212によって、上記ステップS110でメモリに記憶された複数の学習データを用いて、機械学習手法によって、発話から抽出された各素性からユーザ発話が表す人物属性を分類するための分類モデルを学習する。
そして、ステップS116において、上記ステップS114で学習された分類モデルをモデル記憶部30に記憶して、学習処理ルーチンを終了する。
<人物属性分類装置の作用>
次に、本実施の形態に係る人物属性分類装置150の作用について説明する。まず、モデル学習装置100のモデル記憶部30に記憶されている分類モデルが、人物属性分類装置150に入力されると、モデル記憶部50に格納される。そして、人物属性分類対象のユーザ発話及び直前発話が人物属性分類装置150に入力されると、人物属性分類装置150によって、図4に示す人物属性分類処理ルーチンが実行される。
まず、ステップS200において、入力部40によって、人物属性分類対象のユーザ発話及び直前発話を受け付ける。
ステップS202において、形態素解析部600によって、上記ステップS200で受け付けたユーザ発話及び直前発話に対し、形態素解析を行う。
ステップS204において、単語表記素性抽出部602によって、上記ステップS202で得られた形態素解析結果から、単語の表記を示す素性を抽出する。
ステップS206において、内容語素性抽出部604によって、上記ステップS202で得られた形態素解析結果から、単語のカテゴリを示す素性を抽出する。
ステップS208において、機能語素性抽出部606によって、上記ステップS202で得られた形態素解析結果から、機能語を示す素性を抽出する。
ステップS210において、副詞素性抽出部608によって、上記ステップS202で得られた形態素解析結果から、副詞を示す素性を抽出する。
ステップS212において、分類部610によって、上記ステップS204〜S210で抽出された各素性と、モデル記憶部50に記憶された分類モデルとに基づいて、ユーザ発話が表す人物属性を分類する。
そして、ステップS214において、出力部70によって、上記ステップS212で分類された人物属性を、結果として出力して、人物属性分類処理ルーチンを終了する。
以上説明したように、本実施の形態に係るモデル学習装置100によれば、学習用ユーザ発話及び学習用直前発話の形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出し、抽出された各素性と、学習用ユーザ発話に予め付与された人物属性の分類とに基づいて、発話から抽出された各素性からユーザ発話が表す人物属性を分類するための分類モデルを学習することにより、人物属性を精度よく分類するための分類モデルを得ることができる。
また、本実施の形態に係る人物属性分類装置150によれば、ユーザ発話及び直前発話の形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出し、抽出された各素性と、予め学習された分類モデルとに基づいて、ユーザ発話が表す人物属性を分類することにより、ユーザ発話が表す人物属性を精度よく分類することができる。
また、人間関係や性別、年代等の内容語によって区別できる人物属性だけでなく、単語のカテゴリを示す素性(例えば、内容語)だけでは区別できない人物属性も正しく分類することができるようになる。
また、上記図6に示した、「習慣又は行動特性」以降の分類、すなわち、「習慣又は行動特性」、「経験又は記憶」、「特技又は得意」、「能力」、「意見又は感想」、「願望」、「知識」、「その他」について、精度よく分類することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記実施の形態のモデル学習装置では、モデル記憶部30を備えている場合について説明したが、例えばモデル記憶部30がモデル学習装置の外部装置に設けられ、モデル学習装置は、外部装置と通信手段を用いて通信することにより、モデル記憶部30を参照するようにしてもよい。
同様に、人物属性分類装置についても、モデル記憶部50を備えている場合について説明したが、例えばモデル記憶部50が人物属性分類装置の外部装置に設けられ、人物属性分類装置は、外部装置と通信手段を用いて通信することにより、モデル記憶部50を参照するようにしてもよい。
また、上記実施の形態では、モデル学習装置100と人物属性分類装置150とを別々の装置として構成する場合を例に説明したが、モデル学習装置100と人物属性分類装置150とを1つの装置として構成してもよい。
また、上記実施の形態では、発話より前に出現した発話であって、かつ当該ユーザ発話を誘発した発話として直前発話を用いる場合を例に説明したが、これに限定されるものではなく、他の発話を用いてもよい。また、ユーザ発話より前に出現した発話であって、かつ当該ユーザ発話を誘発した発話を用いずに、ユーザ発話のみを用いて、ユーザ発話が表す人物属性を分類してもよい。
また、上述のモデル学習装置100及び人物属性分類装置150は、内部にコンピュータシステムを有しているが、コンピュータシステムは、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読取り可能な記録媒体に格納して提供することも可能である。
10 学習用入力部
20 学習用演算部
30,50 モデル記憶部
40 入力部
60 演算部
70 出力部
100 モデル学習装置
150 人物属性分類装置
200 学習用発話データベース
202 学習用形態素解析部
203 学習用素性抽出部
204 学習用単語表記素性抽出部
206 学習用内容語素性抽出部
208 学習用機能語素性抽出部
210 学習用副詞素性抽出部
212 学習部
600 形態素解析部
601 素性抽出部
602 単語表記素性抽出部
604 内容語素性抽出部
606 機能語素性抽出部
608 副詞素性抽出部
610 分類部

Claims (8)

  1. ユーザ発話が表す人物属性の分類が予め付与された学習用ユーザ発話、及び前記学習用ユーザ発話より前に出現した発話であって、かつ前記学習用ユーザ発話を誘発した発話の形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出する学習用素性抽出手段と、
    前記学習用素性抽出手段によって抽出された各素性と、前記学習用ユーザ発話に予め付与された前記人物属性の分類とに基づいて、発話から抽出された前記各素性からユーザ発話が表す人物属性を分類するための分類モデルを学習する学習手段と、
    を含むモデル学習装置。
  2. 前記人物属性の分類は、「習慣又は行動特性」と、「経験又は記憶」とを含む
    請求項1記載のモデル学習装置。
  3. 入力されたユーザ発話、及び前記ユーザ発話より前に出現した発話であって、かつ前記ユーザ発話を誘発した発話の形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出する素性抽出手段と、
    前記素性抽出手段によって抽出された各素性と、発話から抽出された前記各素性からユーザ発話が表す人物属性を分類するための予め学習された分類モデルとに基づいて、前記ユーザ発話が表す人物属性を分類する分類手段と、
    を含む人物属性分類装置。
  4. 前記人物属性の分類は、「習慣又は行動特性」と、「経験又は記憶」とを含む
    請求項3記載の人物属性分類装置。
  5. 学習用素性抽出手段、及び学習手段を含むモデル学習装置におけるモデル学習方法であって、
    前記学習用素性抽出手段が、ユーザ発話が表す人物属性の分類が予め付与された学習用ユーザ発話、及び前記学習用ユーザ発話より前に出現した発話であって、かつ前記学習用ユーザ発話を誘発した発話の形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出するステップと、
    前記学習手段が、前記学習用素性抽出手段によって抽出された各素性と、前記学習用ユーザ発話に予め付与された前記人物属性の分類とに基づいて、発話から抽出された前記各素性からユーザ発話が表す人物属性を分類するための分類モデルを学習するステップと、
    を含むモデル学習方法。
  6. 素性抽出手段、及び分類手段を含む人物属性分類装置における人物属性分類方法であって、
    前記素性抽出手段が、入力されたユーザ発話、及び前記ユーザ発話より前に出現した発話であって、かつ前記ユーザ発話を誘発した発話の形態素解析結果から、単語の表記を示す素性、単語のカテゴリを示す素性、機能語を示す素性、及び副詞を示す素性を抽出するステップと、
    前記分類手段が、前記素性抽出手段によって抽出された各素性と、発話から抽出された前記各素性からユーザ発話が表す人物属性を分類するための予め学習された分類モデルとに基づいて、前記ユーザ発話が表す人物属性を分類するステップと、
    を含む人物属性分類方法。
  7. コンピュータに、請求項1又は請求項2記載のモデル学習装置の各手段として機能させるためのプログラム。
  8. コンピュータに、請求項3又は請求項4記載の人物属性分類装置の各手段として機能させるためのプログラム。
JP2014207510A 2014-10-08 2014-10-08 モデル学習装置、人物属性分類装置、方法、及びプログラム Active JP5964916B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014207510A JP5964916B2 (ja) 2014-10-08 2014-10-08 モデル学習装置、人物属性分類装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014207510A JP5964916B2 (ja) 2014-10-08 2014-10-08 モデル学習装置、人物属性分類装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016075854A true JP2016075854A (ja) 2016-05-12
JP5964916B2 JP5964916B2 (ja) 2016-08-03

Family

ID=55949913

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014207510A Active JP5964916B2 (ja) 2014-10-08 2014-10-08 モデル学習装置、人物属性分類装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5964916B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112153461A (zh) * 2020-09-25 2020-12-29 北京百度网讯科技有限公司 用于定位发声物的方法、装置、电子设备及可读存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JPN6015052312; 池田 大介、南野 朋之、奥村 学: 'blogの著者の性別推定' 言語処理学会第12回年次大会発表論文集 , 20060316, p.356-359, 言語処理学会 *
JPN6015052313; 伊藤 直貴、Hugo Hernault、石塚 満: '教師なし学習を用いた談話解析手法に関する一検討' 第72回(平成22年)全国大会講演論文集(2) 人工知能と認知科学 , 20100308, p.543-544, 社団法人 情報処理学会 *
JPN6015052316; 青木 優、山本 和英: 'Blogを対象とした商品価値の分析実験' 言語処理学会第13回年次大会発表論文集 , 20070319, p.680-683, 言語処理学会 *
JPN6015052317; 奥村 学: 'プログにおける偏り補正のための書き手のプロファイリング' 人工知能学会誌 第23巻、第6号, 20081101, p.798-802, (社)人工知能学会 *
JPN7015003628; Dong Nguyen, Noah A. Smith and Carolyn P. Rose: 'Author age prediction from text using linear regression' LaTeCH '11 Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Soc , 20110624, p.115-123, Association for Computational Linguist&#xF *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112153461A (zh) * 2020-09-25 2020-12-29 北京百度网讯科技有限公司 用于定位发声物的方法、装置、电子设备及可读存储介质
CN112153461B (zh) * 2020-09-25 2022-11-18 北京百度网讯科技有限公司 用于定位发声物的方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
JP5964916B2 (ja) 2016-08-03

Similar Documents

Publication Publication Date Title
CN106503192B (zh) 基于人工智能的命名实体识别方法及装置
Saha et al. Proposed approach for sarcasm detection in twitter
CN107480122B (zh) 人工智能交互方法及人工智能交互装置
US10521510B2 (en) Computer-readable recording medium, retrieval device, and retrieval method
JP6832501B2 (ja) 意味生成方法、意味生成装置及びプログラム
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
JP2011227758A (ja) 情報処理装置、情報処理方法及びプログラム
US20150212976A1 (en) System and method for rule based classification of a text fragment
CN114528919A (zh) 自然语言处理方法、装置及计算机设备
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
Gómez-Adorno et al. A graph based authorship identification approach
Patil et al. Use of Porter stemming algorithm and SVM for emotion extraction from news headlines
Ali et al. Sentiment summerization and analysis of Sindhi text
Er et al. User-level twitter sentiment analysis with a hybrid approach
CN109753646B (zh) 一种文章属性识别方法以及电子设备
Patil et al. Automatic generation of emotions for social networking websites using text mining
Kiperwasser et al. Semi-supervised dependency parsing using bilexical contextual features from auto-parsed data
JP5964916B2 (ja) モデル学習装置、人物属性分類装置、方法、及びプログラム
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
JP5954836B2 (ja) 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム
Ljajić et al. Sentiment analysis of textual comments in field of sport
JP5604475B2 (ja) 固有表現タイプ推定装置、方法、及びプログラム
CN109298796B (zh) 一种词联想方法及装置
JP2018010481A (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
Umare et al. A survey on machine learning techniques to extract chemical names from text documents

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160630

R150 Certificate of patent or registration of utility model

Ref document number: 5964916

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150