JP2015225414A - 対話装置、辞書生成装置、方法、及びプログラム - Google Patents
対話装置、辞書生成装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2015225414A JP2015225414A JP2014108544A JP2014108544A JP2015225414A JP 2015225414 A JP2015225414 A JP 2015225414A JP 2014108544 A JP2014108544 A JP 2014108544A JP 2014108544 A JP2014108544 A JP 2014108544A JP 2015225414 A JP2015225414 A JP 2015225414A
- Authority
- JP
- Japan
- Prior art keywords
- preference
- user
- character string
- extracted
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】ユーザの嗜好に合わせた適切な発話を生成することができる。【解決手段】嗜好情報抽出部32がユーザの嗜好対象の文字列と、ユーザの嗜好対象への嗜好の極性とを抽出し、嗜好情報拡張部34に含まれる、主辞抽出部40が嗜好対象の上位概念の嗜好を表す主辞を抽出し、嗜好ペア抽出部42がユーザの嗜好対象の文字列と同時に嗜好される可能性が高い嗜好対象の文字列を抽出し、同属プロトタイプ抽出部44が意味属性についての最も典型的な単語を抽出し、抽出した各々を嗜好拡張情報として、発話生成部36が抽出した嗜好拡張情報についての発話の各々を生成する。【選択図】図1
Description
本発明は、対話装置、辞書生成装置、方法、及びプログラムに係り、特に、ユーザに対する発話を生成する対話装置、方法、及びプログラム、並びに、嗜好対象として共起する事物のペアを格納した辞書を生成する辞書生成装置に関する。
従来より、ユーザの嗜好を抽出し、ユーザの好みに合った情報をユーザに適した方法で提示する技術(パーソナライズ技術)が知られている(非特許文献1参照)。例えば、ウェブ上での商品購買履歴や商品閲覧行動を用いてユーザの嗜好をモデル化し、嗜好の類似したユーザが購買・閲覧した商品を推薦するシステムは、オンラインショッピングの業界ではすでに普及している。
土方嘉徳,「嗜好抽出と情報推薦技術」, 情報処理, 48.9: 957-965, 2007.
しかし、対話システムにおいて、ユーザの嗜好に合わせてシステム発話をパーソナライズする技術はこれまでに見受けられない。
本発明は、ユーザの嗜好に合わせた適切な発話を生成することが可能な対話装置、方法、及びプログラムを提供することを目的とする。
また、嗜好対象として共起する事物のペアを格納した辞書を生成することができる辞書生成装置を提供することを目的とする。
上記目的を達成するために、第1の発明に係る対話装置は、入力された、対話履歴に含まれるユーザの嗜好を表す発話に基づいて、前記ユーザの嗜好対象の文字列と前記ユーザの嗜好対象への嗜好の極性とを抽出する嗜好情報抽出部と、前記嗜好情報抽出部により抽出した前記ユーザの嗜好対象の文字列に基づいて、前記ユーザの嗜好対象と同時に嗜好される可能性の高い嗜好対象を表す嗜好拡張情報を抽出する嗜好情報拡張部と、前記嗜好情報拡張部により抽出した嗜好拡張情報と、前記嗜好情報抽出部により抽出した前記ユーザの嗜好対象への嗜好の極性に基づいて、前記ユーザに対する発話を生成する発話生成部と、を含んで構成されている。
また、第1の発明に係る対話装置において、前記嗜好情報拡張部は、前記ユーザの嗜好を表す発話に対する形態素解析結果と、前記嗜好情報抽出部により抽出したユーザの嗜好対象の文字列とに基づいて、前記ユーザの嗜好対象の文字列に含まれる主辞を、前記嗜好拡張情報として抽出する主辞抽出部を含んでもよい。
また、第1の発明に係る対話装置において、前記嗜好情報拡張部は、テキストコーパスに含まれる嗜好対象として共起する事物のペアの各々を予め記憶した嗜好ペア辞書から、前記嗜好情報抽出部により抽出したユーザの嗜好対象の文字列を含むペアを検索し、検索されたペアに含まれる事物を、前記嗜好拡張情報として抽出する嗜好ペア抽出部を含んでもよい。
また、第1の発明に係る対話装置において、前記嗜好情報拡張部は、各単語についての意味属性を予め記憶した日本語辞書から、前記嗜好情報抽出部により抽出したユーザの嗜好対象の文字列に含まれる単語の意味属性を取得し、テキストコーパスに対する形態素解析結果に基づいて得られた、各意味属性についての典型的な単語を予め記憶した同属プロトタイプ辞書から、前記取得した意味属性についての前記典型的な単語を取得し、前記取得した前記典型的な単語を、前記嗜好拡張情報として抽出する同属プロトタイプ抽出部を含んでもよい。
また、第1の発明に係る対話装置において、前記テキストコーパス中で嗜好対象として共起する事物のペアの各々を抽出し、前記嗜好ペア辞書に格納する辞書生成部を更に含んでもよい。
また、第1の発明に係る対話方法は、嗜好情報抽出部、嗜好情報拡張部、発話生成部を含む対話装置における対話方法であって、嗜好情報抽出部が、入力された、対話履歴に含まれるユーザの嗜好を表す発話に基づいて、前記ユーザの嗜好対象の文字列と前記ユーザの嗜好対象への嗜好の極性とを抽出するステップと、嗜好情報拡張部が、前記嗜好情報抽出部により抽出した前記ユーザの嗜好対象の文字列に基づいて、前記ユーザの嗜好対象と同時に嗜好される可能性の高い嗜好対象を表す嗜好拡張情報を抽出するステップと、発話生成部が、前記嗜好情報拡張部により抽出した嗜好拡張情報と、前記嗜好情報抽出部により抽出した前記ユーザの嗜好対象への嗜好の極性に基づいて、前記ユーザに対する発話を生成するステップと、を含んで実行することを特徴とする。
また、第1の本発明に係るプログラムは、コンピュータに、上記の第1の発明に係る対話装置を構成する各部として機能させるためのプログラムである。
第2の発明に係る辞書生成装置は、テキストコーパス中で嗜好対象として共起する事物のペアの各々を抽出し、嗜好ペア辞書に格納する辞書生成部を含んで構成されている。
本発明の対話装置、方法、及びプログラムによれば、対話履歴に含まれるユーザの嗜好を表す発話に基づいて、ユーザの嗜好対象の文字列とユーザの嗜好対象への嗜好の極性とを抽出し、抽出したユーザの嗜好対象の文字列に基づいて、ユーザの嗜好対象と同時に嗜好される可能性の高い嗜好対象を表す嗜好拡張情報を抽出し、抽出した嗜好拡張情報と、ユーザの嗜好対象への嗜好の極性とに基づいて、ユーザに対する発話を生成することで、ユーザの嗜好に合わせた適切な発話を生成することができる、という効果が得られる。
また、本発明の辞書生成装置によれば、嗜好対象として共起する事物のペアの各々を抽出することで、嗜好対象として共起する事物のペアを格納した辞書を生成することができる、という効果が得られる。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の概要>
まず、本発明の実施の形態の概要について説明する。
本実施の形態では、対話システムとユーザの対話履歴に含まれるユーザの嗜好を表す発話から、ユーザの嗜好の対象(好きな事物、及び嫌いな事物)を表す文字列とユーザの嗜好対象への極性(例えば、好き=嗜好がプラス(+)の極性、嫌い=嗜好がマイナス(−)の極性)を抽出する。そして、嗜好情報拡張処理によって、ユーザが他に好きそうな事物、及び嫌いそうな事物を推測する。嗜好情報拡張処理は、主辞抽出と、嗜好ペア抽出と、同属プロトタイプ抽出とを含んでおり、それぞれに対応する嗜好拡張情報を生成することができる。主辞抽出では、嗜好対象を表す文字列(形態素列)の主辞(嗜好対象の上位概念に相当)を嗜好拡張情報として抽出する。嗜好ペア抽出では、嗜好の対象として同時に言及されやすい事物を嗜好拡張情報として抽出する。同属プロトタイプ抽出では、嗜好の対象と意味的に同じ属性を持つ典型的な単語を嗜好拡張情報として抽出する。そして、推測されたこれらの嗜好拡張情報に基づいて、「Xなんかも好きそうですね」「Xなんかは好きですか?」といった、システムがユーザの嗜好を認識し、さらに理解を示してくれているような感覚を与える発話を生成する。
<本発明の第1の実施の形態に係る対話装置の構成>
次に、本発明の第1の実施の形態に係る対話装置の構成について説明する。図1に示すように、本発明の第1の実施の形態に係る対話装置100は、CPUと、RAMと、後述する対話処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この対話装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部60とを備えている。
入力部10は、入力として、図2(A)に示すような対話装置100の応答とユーザの発話とを含む対話履歴を受け付ける。
演算部20は、嗜好発話抽出部30と、嗜好情報抽出部32と、嗜好情報拡張部34と、発話生成部36と、日本語辞書46と、同属プロトタイプ辞書48とを含んで構成されている。
嗜好発話抽出部30は、入力部10で受け付けた対話履歴に基づいて、「好」「すき」「嫌」「きらい」などの嗜好を表す文字列を含む発話を、ユーザの嗜好を表す発話として抽出する。図2(A)に示す対話履歴であれば「クラシック音楽が好きです。」が抽出結果の例となる。
なお、発話中に出現する形態素の表記や品詞、部分文字列を特徴量とし、Support Vector Machine(SVM)等の機械学習の手法を利用することで、ユーザの嗜好を表す発話を判別して、対話履歴から、ユーザの嗜好を表す発話を抽出しても良い。また、統計検定を利用して、嗜好を表す発話に基づく文に有意に多く出現する文字列や形態素列を抽出し、「好」「すき」「嫌」「きらい」以外に存在しうる「嗜好を表しやすい文字列」を獲得し、ユーザの嗜好を表す発話抽出に利用しても良い。
嗜好情報抽出部32は、嗜好発話抽出部30で抽出した、ユーザの嗜好を表す発話から、ユーザの嗜好対象の文字列と、ユーザの嗜好対象への嗜好の極性とを、文字列マッチを行うことによって抽出する。具体的には、嗜好の極性がプラス(+)となる嗜好対象の文字列を抽出する場合には「(嗜好の対象)が(好|すき)」との文字列マッチを行い、嗜好の極性がマイナス(−)となる嗜好対象の文字列を抽出する場合には「(嗜好の対象)が(嫌|きらい)」との文字列マッチを行う。また、一発話中に否定表現(ない、ません等)が奇数回含まれる場合には、極性を反転させる。
抽出例として、ユーザの嗜好を表す発話が「クラシック音楽が好きです。」だった場合には、嗜好対象の文字列として「クラシック音楽」を抽出し、嗜好対象への嗜好の極性としてプラス(+)を抽出する。
なお、発話中に出現する形態素の表記や品詞、部分文字列を特徴量とし、Support Vector Machine(SVM)やConditional Random Field(CRF)等の機械学習の手法を利用することで、嗜好対象の文字列や嗜好の極性を推定しても良い。
嗜好情報拡張部34は、嗜好情報抽出部32により抽出したユーザの嗜好対象の文字列及び嗜好の極性と、嗜好発話抽出部30で抽出したユーザの嗜好を表す発話とに基づいて、ユーザの嗜好対象と同時に嗜好される可能性の高い嗜好対象を表す嗜好拡張情報を抽出する。また、嗜好情報拡張部34は、主辞抽出部40と、嗜好ペア抽出部42と、同属プロトタイプ抽出部44とを含んで構成されている。
主辞抽出部40は、嗜好発話抽出部30で抽出した、ユーザの嗜好を表す発話に対する形態素解析結果と、嗜好情報抽出部32により抽出したユーザの嗜好対象の文字列とに基づいて、当該ユーザの嗜好対象の上位概念の嗜好を表す主辞を、嗜好拡張情報として抽出する。具体的には、ユーザの嗜好を表す発話の形態素解析結果について、発話を形態素ごとに区切るとともに各形態素の品詞を取得する。そして、各形態素の品詞に基づいて、ユーザの嗜好対象の文字列に対応する形態素列から、主辞となる形態素を抽出する。ここで、主辞の抽出は、ユーザの嗜好対象の文字列が複数の形態素で構成されている場合にのみ実行される。
例えば、ユーザの嗜好対象の文字列が「クラシック/音楽」であれば、品詞として「名詞/名詞」を取得し、複数の形態素のうち末尾の形態素である「音楽」を主辞として抽出する。このように、日本語では主辞(中心的な要素)が名詞句や複合名詞の末尾に位置するため、主辞として末尾の形態素を抽出することができる。
嗜好ペア抽出部42は、外部のテキストコーパスに対する形態素解析結果に基づいて、ユーザの嗜好対象の文字列と同時に嗜好される可能性が高い嗜好対象の文字列を、嗜好拡張情報として抽出する。なお、ユーザの嗜好対象の文字列と同時に嗜好される可能性が高い嗜好対象の文字列は、ユーザの嗜好対象の文字列と同時に嗜好対象として言及される回数が一定数(N)を上回っている文字列を抽出したものである。
例えば、嗜好ペア抽出部42は、嗜好情報抽出部32により抽出した嗜好対象への嗜好の極性に応じて、「好」「すき」「嫌」「きらい」という嗜好の極性を表す文字列を利用した文字列マッチを行う。具体的には、嗜好対象への嗜好の極性が、プラス(+)の場合、抽出パタン「(嗜好の対象)(と|とか|も|や)(任意の文字列)(が|も)(好|すき)」とマッチングを行い、外部のテキストコーパスから、ユーザの嗜好対象の文字列と同時に言及されやすい文字列を抽出する。また、嗜好対象への嗜好の極性がマイナス(−)の場合、抽出パタン「(嗜好の対象)(と|とか|も|や)(任意の文字列)(が|も)(嫌|きらい)」とマッチングを行い、外部のテキストコーパスから、ユーザの嗜好対象の文字列と同時に言及されやすい文字列を抽出する。例えば、外部のテキストコーパスに「クラシック音楽と演劇が好き」が含まれている場合には、ユーザの嗜好対象の文字列が「クラシック音楽」であれば、任意の文字列「演劇」を、ユーザの嗜好対象の文字列と同時に言及されやすい文字列として抽出する。
なお、上記のユーザの嗜好対象の文字列と同時に言及されやすい文字列の抽出パタンは、嗜好の極性(プラス(+)/マイナス(−))が同じ要素を抽出することを前提として作成されているが、「(嗜好の対象)が好きで(任意の文字列)は嫌い」のように、Aが好きな人は大抵Bが嫌いである、という情報を抽出するパタンを作成しても良い。また、ユーザの嗜好対象の文字列と同時に言及されやすい文字列の抽出パタンは、品詞を考慮したパタンにしても良い。例えば、(と|とか|も|や)は助詞でなければならない、(任意の文字列)は1つ以上の名詞または未知語で構成されていなければならない等のルールを追加しても良い。
また、本実施の形態では、抽出パタンとの文字列マッチによってユーザの嗜好対象の文字列と同時に言及されやすい文字列を抽出しているが、より単純な方法として、ユーザの嗜好対象の文字列と同一文中に共起する要素(1つ以上の名詞または未知語で構成される文字列)を抽出しても良い。
また、本実施の形態では、ユーザの嗜好対象の文字列と同時に言及されやすい文字列の採用基準はN回以上出現するか否かとしているが、ユーザの嗜好対象の文字列と同時に言及されやすい文字列の候補が、特定の嗜好の対象(本実施の形態に挙げた例では「クラシック音楽」)と同時に言及される回数とその他の嗜好の対象と同時に言及される回数とを比較し、特定の嗜好の対象と同時に言及される回数が統計的有意に多ければ採用する、という基準にしても良い。
同属プロトタイプ抽出部44は、各単語についての意味属性を予め記憶した日本語辞書46に基づいて、嗜好情報抽出部32により抽出したユーザの嗜好対象の文字列に含まれる各単語の意味属性を取得する。そして、外部のテキストコーパスに対する形態素解析結果に基づいて得られた、各意味属性についての典型的な単語を予め記憶した同属プロトタイプ辞書48から、取得した意味属性についての典型的な単語を取得し、取得した典型的な単語を、嗜好拡張情報として抽出する。
具体的には、まず、日本語辞書46を参照して、ユーザの嗜好対象の文字列に含まれる形態素又は形態素列の意味属性を取得する。本実施の形態では、日本語辞書46として、日本語語彙体系(岩波書店)の意味カテゴリを利用した辞書を用いる。例えば、ユーザの嗜好対象の文字列が「クラシック音楽」であった場合、図2(B)に示すような意味属性を取得する。ここで、本実施の形態では、ユーザの嗜好対象の文字列が複数形態素から成り、日本語辞書46に登録されていない場合は、主辞(本実施例の場合「音楽」)のみを取得の対象とする。また、本実施の形態では、一つの形態素につき複数の意味属性が取得された場合は、より具体化された最も下位の属性を採用する。図2(B)では、意味属性のIDの数値が最も大きいものである「(1674(演奏))」を採用する。
そして、各意味属性についての典型的な単語を格納した同属プロトタイプ辞書48から、採用した意味属性についての典型的な単語を取得し、取得した最も典型的な単語を嗜好拡張情報として抽出する。例えば、意味属性が「(1674(演奏))」であれば、同属プロトタイプ辞書48から典型的な単語として「ソロ」を取得する。
なお、同属プロトタイプ辞書48は、各意味属性に該当する単語(形態素列)のうち、テキストコーパスにおける出現頻度が最も高い単語をその意味属性に属する要素のうち最も典型的な要素(プロトタイプ)として採用することで作成すればよい。
また、本実施の形態では、テキストコーパスとしては、ウェブから取得したブログ等のテキストデータを利用するが、音声認識結果やテキストチャットなど、テキストデータであれば、どのようなものを利用しても良い。
また、本実施の形態では、各意味属性についての典型的な単語の採用基準を、コーパス中における出現頻度としているが、出現したブログの記事数(文書頻度)や、対話データにおける出現発話数などの別の指標を、採用基準として利用しても良い。また、最も高頻度の単語だけでなく、上位数件までの単語を採用しても良い。
発話生成部36は、嗜好情報抽出部32で抽出された嗜好対象への嗜好の極性と、主辞抽出部40、嗜好ペア抽出部42、及び同属プロトタイプ抽出部44の各々で抽出された嗜好拡張情報とに基づいて、嗜好拡張情報に含まれる事物を話題とした発話を生成し、出力部60に出力する。
「主辞」はユーザの嗜好対象の上位概念に該当するため、拡張された嗜好の中で最も正しそうな要素と言える。よって、「主辞」に基づいて発話を生成する場合には、嗜好情報抽出部32で抽出された嗜好対象への嗜好の極性と、主辞抽出部40で抽出された主辞とに基づいて、「(主辞)が(好き|嫌い)なんですね」という確信度の高さを窺わせる言語表現を用いた発話テンプレートを基に発話を生成し、出力部60へ出力する。発話生成の例としては、嗜好対象への嗜好の極性が「プラス(+)」、主辞が「音楽」であれば、「音楽が好きなんですね」という発話を生成し、出力部60に出力する。
「ユーザの嗜好対象の文字列と同時に嗜好される可能性が高い嗜好対象」はユーザの嗜好対象から連想されうる嗜好対象を指す。よって、「ユーザの嗜好対象の文字列と同時に嗜好される可能性が高い嗜好対象」に基づいて発話を生成する場合には、嗜好情報抽出部32で抽出された嗜好対象への極性と、嗜好ペア抽出部42で抽出された嗜好拡張情報とに基づいて、「(ユーザの嗜好対象の文字列と同時に嗜好される可能性が高い嗜好対象)なんかも(好き|好きではなさ)そうですね」という、確信度がやや低い連想であることを窺わせる言語表現を用いた発話テンプレートを基に発話を生成し、出力部60へ出力する。発話生成の例としては、嗜好対象への極性が「プラス(+)」、ユーザの嗜好対象の文字列と同時に嗜好される可能性が高い嗜好対象が「演劇」であれば、「演劇なんかも好きそうですね」という発話を生成し、出力部60に出力する。
「典型的な単語」は「主辞」や「ユーザの嗜好対象の文字列と同時に嗜好される可能性が高い嗜好対象」よりもさらに嗜好拡張の確からしさが低い要素である。よって、「典型的な単語」に基づいて発話を生成する場合には、嗜好情報抽出部32で抽出された嗜好対象への極性と、同属プロトタイプ抽出部44で抽出された典型的な単語とに基づいて、「(典型的な単語)なんかは(好き|嫌い)ですか?」という疑問文を用いた発話テンプレートを基に発話を生成し、出力部60へ出力する。発話生成の例としては、嗜好対象への極性が「プラス(+)」、典型的な単語が「ソロ」であれば、「ソロなんかは好きですか?」という発話を生成し、出力部60に出力する。
なお、本実施の形態では、上記の指針で作成した発話テンプレートを基に発話を生成する場合を例に説明するが、以下のような発話テンプレートを用いても良い。
例えば、テキストコーパスにおける事物Aの出現頻度や、時系列上の変化状況を獲得することによって「(ユーザ名)さんと同じようにAが嫌いな人は多いみたいです」、「最近Aは人気が出てきているんですよ」のように世間の状況と絡めた発話を生成しても良い。
また、「Aが嫌いならBは好きですか」「Aが好きならBは嫌いですか」のように嗜好の極性が逆の要素をつなぐ発話を生成しても良い。
<第1の実施の形態に係る対話装置の作用>
次に、第1の実施の形態に係る対話装置100の作用について説明する。入力部10において対話装置100の応答とユーザの発話とを含む対話履歴を受け付けると、対話装置100は、図3に示す対話処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた対話履歴を取得する。
次に、ステップS102では、ステップS100で取得した対話履歴に基づいて、嗜好を表す文字列を含む発話を、ユーザの嗜好を表す発話として抽出する。
ステップS104では、ステップS102で抽出したユーザの嗜好を表す発話から、ユーザの嗜好対象の文字列と、ユーザの嗜好対象への嗜好の極性とを、文字列マッチを行うことによって抽出する。
ステップS106では、ステップS102で抽出したユーザの嗜好を表す発話と、ステップS104で抽出したユーザの嗜好対象の文字列とに基づいて、当該ユーザの嗜好対象の上位概念の嗜好を表す主辞を、嗜好拡張情報として抽出する。
ステップS108では、ステップS104で抽出したユーザの嗜好対象の文字列と、外部のテキストコーパスとに基づいて、ユーザの嗜好対象の文字列と同時に嗜好対象として言及される文字列について、ユーザの嗜好対象の文字列と同時に嗜好対象として言及される回数をカウントし、ユーザの嗜好対象の文字列と同時に嗜好される可能性が高い嗜好対象の文字列を、嗜好拡張情報として抽出する。
ステップS110では、各単語についての意味属性を予め記憶した日本語辞書46に基づいて、ステップS104で抽出したユーザの嗜好対象の文字列に含まれる各単語の意味属性を取得する。そして、ステップS112では、各意味属性についての典型的な単語を格納した同属プロトタイプ辞書48から、ステップS110で取得した意味属性についての典型的な単語を取得し、取得した最も典型的な単語を、嗜好拡張情報として抽出する。
ステップS114では、ステップS104で抽出された嗜好対象への嗜好の極性と、ステップS106、ステップS108、及びステップS112のそれぞれで抽出された嗜好拡張情報とに基づいて、ステップS106、ステップS108、及びステップS112のそれぞれで抽出された嗜好拡張情報に対し、当該嗜好拡張情報に含まれる事物を話題とした発話の各々を生成する。
ステップS116では、ステップS114で生成した発話の各々を出力部60に出力し、処理を終了する。
以上説明したように、第1の実施の形態に係る対話装置によれば、ユーザの嗜好対象の文字列と、ユーザの嗜好対象への嗜好の極性とを抽出し、嗜好対象の上位概念の嗜好を表す主辞、ユーザの嗜好対象の文字列と同時に嗜好される可能性が高い嗜好対象の文字列、及び意味属性についての最も典型的な単語のそれぞれを嗜好拡張情報として抽出し、抽出したそれぞれの嗜好拡張情報についての発話の各々を生成することで、ユーザの嗜好に合わせた適切な発話を生成することができる。
<本発明の第2の実施の形態に係る対話装置の構成>
次に、本発明の第2の実施の形態に係る対話装置の構成について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第2の実施の形態では、嗜好ペア辞書を生成し、生成した嗜好ペア辞書を用いて、ユーザの嗜好対象の文字列と同時に嗜好される可能性が高い嗜好対象の文字列の抽出を行っている点が、第1の実施の形態と異なっている。
第2の実施の形態に係る対話装置200は、入力部10と、演算部220と、出力部60とを備えている。
入力部10は、入力として、対話履歴を受け付ける。
演算部220は、嗜好発話抽出部30と、嗜好情報抽出部32と、嗜好情報拡張部34と、発話生成部36と、日本語辞書46と、同属プロトタイプ辞書48と、嗜好ペア辞書250と、嗜好文字列獲得部230と、辞書生成部232とを含んで構成されている。
嗜好文字列獲得部230は、テキストコーパスに含まれる嗜好を表す文に含まれる部分文字列の各々について、出現頻度をカウントし、特定の文字列の、嗜好を表す文における出現回数(F1)とそれ以外の文における出現回数(F2)を比較し、F1が統計的有意に大きな出現頻度であれば、当該特定の文字列を、嗜好を表しやすい文字列として獲得する。この処理により、「良い」「OK」「私向き」「欲しい」「美味しい」「綺麗」「ステキ」「可愛い」等の嗜好を表現するのに用いられやすい表現を拡張することができる。
辞書生成部232は、嗜好の極性毎に、獲得された嗜好を表しやすい文字列を用いた抽出パタンに基づいて、嗜好対象として共起する事物のペアの各々を抽出し、抽出された回数が一定数(N)を上回っている事物のペアを、嗜好対象として共起する事物の嗜好ペアの各々として抽出し、当該嗜好の極性と対応させて、嗜好ペア辞書250に格納する。なお、嗜好文字列獲得部230により獲得された嗜好を表しやすい文字列を用いずに、「好」「すき」「嫌」「きらい」等の予め人手で用意した特定の文字列を用いた抽出パタンを利用してもよいし、テキストコーパスに対する形態素解析結果に基づいて、同一文中に共起する要素(1つ以上の名詞または未知語で構成される文字列)を、嗜好対象として共起する事物のペアとして抽出してもよい。
第2の実施の形態に係る嗜好情報拡張部34に含まれる嗜好ペア抽出部42は、嗜好ペア辞書250から、嗜好情報抽出部32により抽出した嗜好対象への嗜好の極性に対応する嗜好ペアであって、嗜好情報抽出部32により抽出したユーザの嗜好対象の文字列を含む嗜好ペアを検索し、検索された嗜好ペアに含まれる事物のうち、ユーザの嗜好対象の文字列ではない方の事物を、ユーザの嗜好対象の文字列と同時に嗜好される可能性が高い嗜好対象の文字列とし、嗜好拡張情報として抽出する。
<第2の実施の形態に係る対話装置の作用>
次に、第2の実施の形態に係る対話装置200の作用について説明する。まず、対話装置200は、図5に示す辞書生成処理ルーチンを実行する。そして、辞書生成処理ルーチンを少なくとも1回実行することにより、嗜好ペア辞書が生成された後に、入力部10において対話装置200の応答とユーザの発話とを含む対話履歴を受け付けると、対話装置200は、上記図3に示す対話処理ルーチンと同様の処理ルーチンを実行する。
ステップS200では、テキストコーパスに含まれる嗜好を表す文に含まれる部分文字列の各々について、出現頻度をカウントし、特定の文字列の、嗜好を表す文における出現回数(F1)とそれ以外の文における出現回数(F2)を比較し、F1が統計的有意に大きな出現頻度であれば、当該特定の文字列を、嗜好を表しやすい文字列として獲得する。
次に、ステップS202では、嗜好の極性毎に、ステップS200で獲得された嗜好を表しやすい文字列を用いた抽出パタンに基づいて、事物のペアの各々を抽出し、抽出された回数が一定数(N)を上回っている事物のペアを、嗜好対象として共起する事物の嗜好ペアの各々として抽出し、当該嗜好の極性と対応させて、嗜好ペア辞書250に格納する。
なお、第2の実施の形態に係る対話装置200の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、第2の実施の形態に係る対話装置によれば、嗜好を表す文に含まれる部分文字列の各々について、出現頻度をカウントし、統計的に有意に大きな出現頻度である嗜好を表しやすい文字列を獲得し、獲得した嗜好を表しやすい文字列に基づく抽出パタンを用いて嗜好対象として共起する事物のペアの各々を抽出し、抽出された回数が一定数を上回っている事物のペアを、嗜好の極性と対応させて嗜好ペア辞書に格納することで、嗜好対象として共起する事物のペアを格納した辞書を生成し、生成した辞書を用いて嗜好拡張情報を抽出することができる。
<本発明の第3の実施の形態に係る辞書生成装置の構成>
次に、本発明の第3の実施の形態について説明する。なお、第1の実施の形態及び第2の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第3の実施の形態では、対話装置で用いられる嗜好ペア辞書が、対話装置とは異なる辞書生成装置で生成される点が、第2の実施の形態と異なっている。
図6に示すように、本発明の第3の実施の形態に係る辞書生成装置300は、CPUと、RAMと、後述する辞書生成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この辞書生成装置300は、機能的には図6に示すように入力部310と、演算部320と、出力部360とを備えている。
入力部310は、辞書生成処理の実行指示を受け付ける。なお、辞書生成処理は定期的に実行するようにしても良い。
演算部320は、嗜好文字列獲得部330と、辞書生成部332と、嗜好ペア辞書350とを含んで構成されている。
嗜好文字列獲得部330は、外部のテキストコーパスに含まれる、嗜好を表す文に含まれる部分文字列の各々について、出現頻度をカウントし、特定の文字列の、嗜好を表す文における出現回数(F1)とそれ以外の文における出現回数(F2)を比較し、F1が統計的有意に大きな出現頻度であれば、当該特定の文字列を、嗜好を表しやすい文字列として獲得する。
辞書生成部332は、嗜好の極性毎に、獲得された嗜好を表しやすい文字列を用いた抽出パタンに基づいて、嗜好対象として共起する事物のペアの各々を抽出し、抽出された回数が一定数(N)を上回っている事物のペアを、嗜好対象として共起する事物の嗜好ペアの各々として抽出し、当該嗜好の極性と対応させて、嗜好ペア辞書350に格納する。なお、本実施の形態に係る嗜好ペア辞書350の内容は、出力部360を介して、対話装置200に入力され、嗜好ペア辞書250に格納される。また、嗜好文字列獲得部330により獲得された嗜好を表しやすい文字列を用いずに、「好」「すき」「嫌」「きらい」等の予め人手で用意した特定の文字列を用いた抽出パタンを利用してもよいし、テキストコーパスに対する形態素解析結果に基づいて、同一文中に共起する要素(1つ以上の名詞または未知語で構成される文字列)を、嗜好対象として共起する事物のペアの各々として抽出してもよい。
<本発明の第3の実施の形態に係る辞書生成装置の作用>
次に、第3の実施の形態に係る辞書生成装置300の作用について説明する。入力部310において辞書生成処理の実行指示を受け付けると、辞書生成装置300は、図7に示す辞書生成処理ルーチンを実行する。
ステップS300では、テキストコーパスに含まれる嗜好を表す文に含まれる部分文字列の各々について、出現頻度をカウントし、特定の文字列の、嗜好を表す文における出現回数(F1)とそれ以外の文における出現回数(F2)を比較し、F1が統計的有意に大きな出現頻度であれば、当該特定の文字列を、嗜好を表しやすい文字列として獲得する。
次に、ステップS302では、嗜好の極性毎に、ステップS200で獲得された嗜好を表しやすい文字列を用いた抽出パタンに基づいて、嗜好対象として共起する事物のペアの各々を抽出し、抽出された回数が一定数(N)を上回っている事物のペアを、嗜好対象として共起する事物の嗜好ペアの各々として抽出し、当該嗜好の極性と対応させて、嗜好ペア辞書250に格納する。
そして、ステップS304では、ステップ302の抽出結果を出力部360に出力し、処理を終了する。
以上説明したように、第3の実施の形態に係る辞書生成装置によれば、嗜好を表す文に含まれる部分文字列の各々について、出現頻度をカウントし、統計的に有意に大きな出現頻度である嗜好を表しやすい文字列を獲得し、獲得した嗜好を表しやすい文字列に基づく抽出パタンを用いて、嗜好対象として共起する事物のペアの各々を抽出し、抽出された回数が一定数を上回っている事物のペアを、嗜好の極性と対応させて嗜好ペア辞書に格納することで、嗜好対象として共起する事物のペアを格納した辞書を生成することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、嗜好情報拡張部34が、主辞抽出部40、嗜好ペア抽出部42、及び同属プロトタイプ抽出部44を含んで構成されている場合を例に説明したが、これに限定されるものではなく、嗜好情報拡張部34が、主辞抽出部40、嗜好ペア抽出部42、及び同属プロトタイプ抽出部44の少なくとも1つを含んで構成されていてもよい。この場合には、発話生成部36において、主辞抽出部40、嗜好ペア抽出部42、及び同属プロトタイプ抽出部44の少なくとも1つで抽出された嗜好拡張情報について発話を生成するようにすればよい。
また、本発明の第1の実施の形態、及び第2の実施の形態においては、入力部10で受け付ける対話履歴は対話装置とユーザとの発話に基づくことを説明したが、これに限定されるものではなく、例えば、ユーザとユーザとの対話状況について、ユーザ個々のテキスト入力や音声認識結果として得たテキストを、各ユーザ同士の対話履歴として用いても良い。
10、310 入力部
20、220、320 演算部
30 嗜好発話抽出部
32 嗜好情報抽出部
34 嗜好情報拡張部
36 発話生成部
40 主辞抽出部
42 嗜好ペア抽出部
44 同属プロトタイプ抽出部
46 日本語辞書
48 同属プロトタイプ辞書
60、360 出力部
100、200 対話装置
230、330 嗜好文字列獲得部
232、332 辞書生成部
250、350 嗜好ペア辞書
300 辞書生成装置
20、220、320 演算部
30 嗜好発話抽出部
32 嗜好情報抽出部
34 嗜好情報拡張部
36 発話生成部
40 主辞抽出部
42 嗜好ペア抽出部
44 同属プロトタイプ抽出部
46 日本語辞書
48 同属プロトタイプ辞書
60、360 出力部
100、200 対話装置
230、330 嗜好文字列獲得部
232、332 辞書生成部
250、350 嗜好ペア辞書
300 辞書生成装置
Claims (8)
- 入力された、対話履歴に含まれるユーザの嗜好を表す発話に基づいて、前記ユーザの嗜好対象の文字列と前記ユーザの嗜好対象への嗜好の極性とを抽出する嗜好情報抽出部と、
前記嗜好情報抽出部により抽出した前記ユーザの嗜好対象の文字列に基づいて、前記ユーザの嗜好対象と同時に嗜好される可能性の高い嗜好対象を表す嗜好拡張情報を抽出する嗜好情報拡張部と、
前記嗜好情報拡張部により抽出した嗜好拡張情報と、前記嗜好情報抽出部により抽出した前記ユーザの嗜好対象への嗜好の極性に基づいて、前記ユーザに対する発話を生成する発話生成部と、
を含む対話装置。 - 前記嗜好情報拡張部は、前記ユーザの嗜好を表す発話に対する形態素解析結果と、前記嗜好情報抽出部により抽出したユーザの嗜好対象の文字列とに基づいて、前記ユーザの嗜好対象の文字列に含まれる主辞を、前記嗜好拡張情報として抽出する主辞抽出部を含む請求項1記載の対話装置。
- 前記嗜好情報拡張部は、テキストコーパスに含まれる嗜好対象として共起する事物のペアの各々を予め記憶した嗜好ペア辞書から、前記嗜好情報抽出部により抽出したユーザの嗜好対象の文字列を含むペアを検索し、検索されたペアに含まれる事物を、前記嗜好拡張情報として抽出する嗜好ペア抽出部を含む請求項1又は2記載の対話装置。
- 前記嗜好情報拡張部は、各単語についての意味属性を予め記憶した日本語辞書から、前記嗜好情報抽出部により抽出したユーザの嗜好対象の文字列に含まれる単語の意味属性を取得し、
テキストコーパスに対する形態素解析結果に基づいて得られた、各意味属性についての典型的な単語を予め記憶した同属プロトタイプ辞書から、前記取得した意味属性についての前記典型的な単語を取得し、前記取得した前記典型的な単語を、前記嗜好拡張情報として抽出する同属プロトタイプ抽出部を含む請求項1〜請求項3の何れか1項記載の対話装置。 - 前記テキストコーパスにおいて、嗜好対象として共起する事物のペアの各々を抽出し、前記嗜好ペア辞書に格納する辞書生成部を更に含む請求項3記載の対話装置。
- テキストコーパスにおいて、嗜好対象として共起する事物のペアの各々を抽出し、嗜好ペア辞書に格納する辞書生成部を含む辞書生成装置。
- 嗜好情報抽出部、嗜好情報拡張部、発話生成部を含む対話装置における対話方法であって、
前記嗜好情報抽出部が、入力された、対話履歴に含まれるユーザの嗜好を表す発話に基づいて、前記ユーザの嗜好対象の文字列と前記ユーザの嗜好対象への嗜好の極性とを抽出するステップと、
前記嗜好情報拡張部が、前記嗜好情報抽出部により抽出した前記ユーザの嗜好対象の文字列に基づいて、前記ユーザの嗜好対象と同時に嗜好される可能性の高い嗜好対象を表す嗜好拡張情報を抽出するステップと、
前記発話生成部が、前記嗜好情報拡張部により抽出した嗜好拡張情報と、前記嗜好情報抽出部により抽出した前記ユーザの嗜好対象への嗜好の極性に基づいて、前記ユーザに対する発話を生成するステップと、
を含む対話方法。 - コンピュータを、請求項1〜請求項5の何れか1項記載の対話装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014108544A JP2015225414A (ja) | 2014-05-26 | 2014-05-26 | 対話装置、辞書生成装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014108544A JP2015225414A (ja) | 2014-05-26 | 2014-05-26 | 対話装置、辞書生成装置、方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015225414A true JP2015225414A (ja) | 2015-12-14 |
Family
ID=54842125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014108544A Pending JP2015225414A (ja) | 2014-05-26 | 2014-05-26 | 対話装置、辞書生成装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015225414A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020086703A (ja) * | 2018-11-20 | 2020-06-04 | 京セラドキュメントソリューションズ株式会社 | 会話支援システムおよび会話支援プログラム |
-
2014
- 2014-05-26 JP JP2014108544A patent/JP2015225414A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020086703A (ja) * | 2018-11-20 | 2020-06-04 | 京セラドキュメントソリューションズ株式会社 | 会話支援システムおよび会話支援プログラム |
JP7265110B2 (ja) | 2018-11-20 | 2023-04-26 | 京セラドキュメントソリューションズ株式会社 | 会話支援システムおよび会話支援プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106503192B (zh) | 基于人工智能的命名实体识别方法及装置 | |
CN107146610B (zh) | 一种用户意图的确定方法及装置 | |
CN104166462B (zh) | 一种文字的输入方法和系统 | |
JP6466952B2 (ja) | 文章生成システム | |
KR101353521B1 (ko) | 키워드 추출 방법 및 시스템, 그리고 대화 보조 장치 | |
JP5620349B2 (ja) | 対話装置、対話方法および対話プログラム | |
KR20120135449A (ko) | 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법 | |
JP2015219583A (ja) | 話題決定装置、発話装置、方法、及びプログラム | |
Ismail et al. | Bangla word clustering based on n-gram language model | |
KR101410601B1 (ko) | 유머 발화를 이용하는 음성 대화 시스템 및 그 방법 | |
JP2016001242A (ja) | 質問文生成方法、装置、及びプログラム | |
JP5073024B2 (ja) | 音声対話装置 | |
JP2014219872A (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
CN109298796B (zh) | 一种词联想方法及装置 | |
CN109190116B (zh) | 语义解析方法、系统、电子设备及存储介质 | |
JP2015219582A (ja) | 対話方法、対話装置、対話プログラム及び記録媒体 | |
JP2017091368A (ja) | 言い換え装置、方法、及びプログラム | |
JP6232358B2 (ja) | 次発話候補ランキング装置、方法、及びプログラム | |
JP6126965B2 (ja) | 発話生成装置、方法、及びプログラム | |
JP2015225414A (ja) | 対話装置、辞書生成装置、方法、及びプログラム | |
JP5744150B2 (ja) | 発話生成装置、方法、及びプログラム | |
JP2015046183A (ja) | 対話装置、方法、及びプログラム | |
JP6574469B2 (ja) | 次発話候補ランキング装置、方法、及びプログラム | |
Nio et al. | Improving the robustness of example-based dialog retrieval using recursive neural network paraphrase identification | |
JP5718406B2 (ja) | 発話文生成装置、対話装置、発話文生成方法、対話方法、発話文生成プログラム、及び対話プログラム |