JP6747318B2 - 対話装置 - Google Patents

対話装置 Download PDF

Info

Publication number
JP6747318B2
JP6747318B2 JP2017016678A JP2017016678A JP6747318B2 JP 6747318 B2 JP6747318 B2 JP 6747318B2 JP 2017016678 A JP2017016678 A JP 2017016678A JP 2017016678 A JP2017016678 A JP 2017016678A JP 6747318 B2 JP6747318 B2 JP 6747318B2
Authority
JP
Japan
Prior art keywords
dialogue
response
scene
user
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2017016678A
Other languages
English (en)
Other versions
JP2018124432A (ja
Inventor
生聖 渡部
生聖 渡部
侑司 大沼
侑司 大沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2017016678A priority Critical patent/JP6747318B2/ja
Publication of JP2018124432A publication Critical patent/JP2018124432A/ja
Application granted granted Critical
Publication of JP6747318B2 publication Critical patent/JP6747318B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Image Analysis (AREA)

Description

本発明は、対話装置に関する。
一般的な対話装置は、特許文献1に開示されているように、ユーザの発話を辞書データと比較して、一致度の高い複数の単語列候補を得てユーザの発話内容を認識し、当該発話内容に適した応答を行うことで、対話を実現している。
特開2001−34292号公報
対話の途中に、ユーザの発話内容が「挨拶」と認識する単語を含む場合がある。このような場合、特許文献1の対話装置においては、対話の途中でありながら、ユーザが意図しないタイミングで当該ユーザの「挨拶」に対する応答を行う場合があり、自然な対話を行うことが難しい。
本発明は、このような問題点に鑑みてなされたものであり、自然な対話を実現する対話装置を提供する。
本発明の一態様に係る対話装置は、
ユーザとの対話に基づいて対話特徴量を解析する対話特徴量解析部と、
前記対話特徴量に基づいて前記ユーザへの応答シーンを判定する応答シーン判定部と、
前記応答シーンに基づいて応答選択モデルを選択するモデル選択部と、
を備える対話装置であって、
前記対話特徴量は、前記ユーザと対話を開始してからの対話継続時間を含み、
前記応答シーン判定部は、前記対話継続時間に基づいて、予め設定された対話想定時間のうち、前記対話想定時間の初期及び終期では挨拶シーンと判定し、他の期間では対話シーンと判定する。
このような構成により、対話シーン中に、応答シーンを挨拶シーンと判定する単語を含む発話をユーザが行っても、挨拶シーンに切り替わることはない。そのため、ユーザとの自然な対話を実現することができる。
本発明によれば、自然な対話を実現する対話装置を提供することができる。
実施の形態1の対話装置を模式的に示すブロック図である。 対話継続時間と応答シーンと応答選択モデルとの関係を例示した図である。 実施の形態2の対話装置を模式的に示すブロック図である。 対話特徴量と応答シーンと応答選択モデルとの関係を例示する図である。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。但し、本発明が以下の実施の形態に限定される訳ではない。また、説明を明確にするため、以下の記載及び図面は、適宜、簡略化されている。
<実施の形態1>
本実施の形態の対話装置を説明する。図1は、本実施の形態の対話装置を模式的に示すブロック図である。図1に示すように、対話装置1は、発話入力部2、音声認識部3、応答生成部4、対話特徴量解析部5、応答シーン判定部6、モデル選択部7、応答選択モデル記憶部8、応答選択部9及び応答出力部10を備えている。
発話入力部2は、ユーザの発話(音声)を集音するマイクロフォンなどを備えており、集音した音声のアナログデータをデジタルデータに変換して音声波形データを取得する。そして、発話入力部2は、音声波形データを音声認識部3及び対話特徴量解析部5に出力する。
音声認識部3は、発話入力部2から入力される音声波形データが示す音声波形に基づいて認識文字列を取得する。例えば、音声認識部3は、音声波形データが示す音声波形をテキストデータ化し、当該音声波形のテキストデータから各形態素の種類や掛かり受け関係を推定して認識文字列を取得する。そして、音声認識部3は、取得した認識文字列を示す認識文字列データを応答生成部4及び対話特徴量解析部5に出力する。ちなみに、各形態素の種類や掛かり受け関係の推定は、一般的な手法を用いることができる。
応答生成部4は、音声認識部3から入力される認識文字列データが示す認識文字列に基づいて応答を生成する。応答生成部4は、一つの認識文字列に対して複数の応答を生成できるように、複数の応答生成器4aを備えている。
これらの応答生成器4aは、予め応答記憶部(図示を省略)に記憶された認識文字列と応答との関係を参照して、入力された認識文字列データが示す認識文字列に対応する応答を予め設定されている応答生成ルールに基づいて生成する。
例えば、応答生成部4は、QA(Question/Anser)応答生成器、共感応答生成器、相槌生成器、不足格質問生成器及びオウム返し生成器を備えている。そして、入力された認識文字列データが示す認識文字列が「昨日プレゼントをもらったよ」の場合、QA応答生成器は応答を生成せず、共感応答生成器は「それはうれしかったね」を生成し、相槌生成器は「うんうん」を生成し、不足格質問生成器は「誰にもらったのかな?」を生成し、オウム返し生成器は「プレゼントだね」を生成する。応答生成部4は、このように生成した応答を示す応答データを応答選択部9に出力する。
対話特徴量解析部5は、発話入力部2から入力される音声波形データが示す音声波形、及び音声認識部3から入力される認識文字列データが示す認識文字列に基づいて、対話特徴量を解析する。例えば、対話特徴量解析部5は、対話時間計測器5a及び感情推定器5bを備えている。
対話時間計測器5aは、対話特徴量としてユーザとの対話開始からの対話継続時間(期間)を計測する。例えば、対話時間計測器5aは、予め設定された期間、発話入力部2からの音声波形データの入力がないと、ユーザとの対話が遮断されたと認識する。逆に言えば、対話時間計測器5aは、予め設定された期間内に発話入力部2から音声波形データが入力されていると、ユーザとの対話が継続されていると認識する。そして、対話時間計測器5aは、計測した対話継続時間を示す対話継続時間データを応答シーン判定部6に出力する。
感情推定器5bは、発話入力部2から入力される音声波形データが示す音声波形、及び音声認識部3から入力される認識文字列データが示す認識文字列に基づいて、ユーザの感情(ポジティブ/ニュートラル/ネガティブ)を推定する。例えば、感情推定器5bは、音声波形の基本周波数や振幅の変化など、即ち、韻律特徴に基づいて、ユーザの感情を推定する。また、例えば、感情推定器5bは、認識文字列の複数の形態素を一組とする形態素組の特徴ベクトルを算出し、算出した特徴ベクトルをSVM(Support Vector Machines)を用いて判別し、ユーザの感情を推定する。そして、感情推定器5bは、推定したユーザの感情を示す感情データを応答選択部9に出力する。但し、感情推定器5bは、ユーザの感情を推定することができれば、一般的な手法を用いることができる。
応答シーン判定部6は、対話時間計測器5aから入力される対話継続時間データが示すユーザとの対話継続時間に基づいて、応答シーンを判定する。応答シーン判定部6は、予め応答シーン記憶部(図示を省略)に記憶された対話継続時間と応答シーンとの関係を参照して、入力された対話継続時間データが示すユーザとの対話継続時間に対応する応答シーンを判定する。
ここで、応答シーン判定部6は、対話時間計測器5aから入力される対話継続時間データが示すユーザとの対話継続時間に基づいて、予め設定された対話想定時間のうち、対話想定時間の初期及び終期では挨拶シーンと判定し、他の期間では対話シーンと判定する。図2は、対話継続時間と応答シーンと応答選択モデルとの関係を例示した図である。
例えば、図2に示すように、予め設定された対話想定時間が20分であり、対話継続時間が0秒〜30秒では、挨拶シーン(挨拶、自己紹介)と判定し、対話継続時間が30秒〜1分30秒では、対話シーン(話題提供)と判定し、対話継続時間が1分30秒〜10分では、対話シーン(対話継続)と判定し、対話継続時間が10分〜11分では、対話シーン(話題転換)と判定し、対話継続時間が11分〜19分では、対話シーン(対話継続)と判定し、対話継続時間が19分〜20分では、挨拶シーン(お別れ)と判定する。応答シーン判定部6は、このように判定した応答シーンを示す応答シーンデータをモデル選択部7に出力する。
モデル選択部7は、応答シーン判定部6から入力される応答シーンデータが示す応答シーンに基づいて、応答選択モデル記憶部8から応答選択モデルを選択し、選択した応答選択モデルを示す応答選択モデルデータを応答選択部9に出力する。
応答選択モデル記憶部8には、応答シーンと応答選択モデルとの関係が記憶されている。例えば、図2に示すように、応答シーンが挨拶シーン(挨拶、自己紹介)の場合、対応する応答選択モデルは挨拶時モデルであり、応答シーンが対話シーン(話題提供)の場合、対応する応答選択モデルは話題提供時モデルであり、応答シーンが対話シーン(対話継続)の場合、対応する応答選択モデルは傾聴時モデルであり、応答シーンが対話シーン(話題転換)の場合、対応する応答選択モデルは話題提供時モデルであり、応答シーンが対話シーン(対話継続)の場合、対応する応答選択モデルは傾聴時モデルであり、応答シーンが挨拶シーン(お別れ)の場合、対応する応答選択モデルは挨拶時モデルである。
応答選択部9は、モデル選択部7から入力される応答選択モデルデータが示す応答選択モデル、及び感情推定器5bから入力される感情データが示すユーザの感情に基づいて、各々の応答生成器4aから入力される応答データが示す応答から適切な応答を選択し、選択した応答を示す応答データを応答出力部10に出力する。
応答出力部10は、応答選択部9から入力される応答データが示す応答を出力する。例えば、応答出力部10は、スピーカを備えており、デジタルデータである応答データをアナログデータに変換して出力する。
このように本実施の形態の対話装置1においては、応答シーン判定部6が、ユーザとの対話継続時間に基づいて、予め設定された対話想定時間のうち、対話想定時間の初期及び終期では挨拶シーンと判定し、他の期間では対話シーンと判定する。そのため、対話シーン中に、応答シーンを挨拶シーンと判定する単語を含む発話をユーザが行っても、挨拶シーンに切り替わることはない。そのため、ユーザとの自然な対話を実現することができる。
<実施の形態2>
本実施の形態の対話装置を説明する。本実施の形態の対話装置20は、実施の形態1の対話装置1と略等しい構成であるが、対話シーンをユーザとの対話の盛り上がり具合に応じて切り替える構成とされている。つまり、本実施の形態の対話装置20も、対話継続時間に基づいて、予め設定された対話想定時間のうち、対話想定時間の初期及び終期では挨拶シーンと判定し、他の期間では対話シーンと判定するため、以下の説明では、重複する説明は省略し、応答シーンが対話シーンの場合を主として説明する。
図3は、本実施の形態の対話装置を模式的に示すブロック図である。図4は、対話特徴量と応答シーンと応答選択モデルとの関係を例示する図である。本実施の形態の対話装置20は、実施の形態1の対話装置1に対して、対話特徴量解析部21、応答シーン判定部22及びモデル選択部23が異なる。
対話特徴量解析部21は、対話特徴量として、「ユーザ発話時間」、「対話なし時間」及び「感情」を解析する。そのため、本実施の形態の対話特徴量解析部21は、実施の形態1の対話時間計測器5a及び感情推定器5bに加えて、ユーザ発話時間計測器21a及び対話なし時間計測器21bを備えている。ここで、感情推定器5bは、推定したユーザの感情を示す感情データを応答選択部9に加えて、応答シーン判定部22にも出力する。
ユーザ発話時間計測器21aは、予め設定された期間内でのユーザ発話が占める期間(即ち、ユーザ発話時間)の割合を計測する。例えば、ユーザ発話時間計測器21aは、図4に示すように、ユーザ発話が占める期間の割合が第1の割合以上の場合に「高」と判定し、ユーザ発話が占める期間の割合が第1の割合未満の場合に「低」と判定する。そして、ユーザ発話時間計測器21aは、計測したユーザ発話が占める期間の割合を示す第1の割合データを応答シーン判定部22に出力する。
対話なし時間計測器21bは、予め設定された期間内でのユーザ及び対話装置20が発話しない期間(即ち、対話なし時間)の割合を計測する。例えば、対話なし時間計測器21bは、図4に示すように、ユーザ及び対話装置20が発話しない期間の割合が第2の割合未満の場合に「低」と判定し、ユーザ及び対話装置20が発話しない期間の割合が第2の割合以上の場合に「高」と判定する。そして、対話なし時間計測器21bは、計測したユーザ及び対話装置20が発話しない期間の割合を示す第2の割合データを応答シーン判定部22に出力する。
応答シーン判定部22は、実施の形態1の応答シーン判定部6のような対話継続時間で対話シーンを判定するものではなく、感情推定器5bから入力される感情データが示すユーザの感情、ユーザ発話時間計測器21aから入力される第1の割合データが示すユーザ発話が占める期間の割合、及び対話なし時間計測器21bから入力される第2の割合データが示すユーザ並びに対話装置20が発話しない期間の割合に基づいて、応答シーンを判定する。
例えば、応答シーン判定部22は、図4に示すように、ユーザ発話が占める期間の割合が「高」、ユーザ及び対話装置20が発話しない期間の割合が「低」、感情が「ポジティブ」の場合、対話シーンAと判定し、対話特徴量にユーザ及び対話装置20が発話しない期間の割合として「高」を含んでいる場合、対話シーンBと判定し、対話特徴量にユーザの感情として「ネガティブ」を含んでいる場合、対話シーンCと判定する。応答シーン判定部22は、このように判定した応答シーンを示す応答シーンデータをモデル選択部23に出力する。
モデル選択部23は、応答シーン判定部22から入力される応答シーンデータが示す応答シーンに基づいて、応答選択モデルを選択する。例えば、モデル選択部23は、応答シーン判定部22から対話シーンAを示す応答シーンデータが入力された場合、ユーザとの対話が盛り上がっているため、傾聴時モデルを選択し、応答シーン判定部22から対話シーンBを示す応答シーンデータが入力された場合、ユーザとの対話が途切れ気味であるので、話題提供時モデルを選択し、応答シーン判定部22から対話シーンCを示す応答シーンデータが入力された場合、話題を転換した方が好ましいため、話題提供時モデルを選択する。モデル選択部23は、このように選択した応答選択モデルを示す応答選択モデルデータを応答選択部9に出力する。
このように本実施の形態の対話装置20は、ユーザとの対話の盛り上がり具合に基づいて、適切な対話シーンを選択することができる。
本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、CPU(Central Processing Unit)にコンピュータプログラムを実行させることにより実現することも可能である。
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、DVD(Digital Versatile Disc)、BD(Blu-ray(登録商標) Disc)、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
1 対話装置
2 発話入力部
3 音声認識部
4 応答生成部、4a 応答生成器
5 対話特徴量解析部、5a 対話時間計測器、5b 感情推定器
6 応答シーン判定部
7 モデル選択部
8 応答選択モデル記憶部
9 応答選択部
10 応答出力部
20 対話装置
21 対話特徴量解析部、21a ユーザ発話時間計測器、21b 対話なし時間計測器
22 応答シーン判定部
23 モデル選択部

Claims (1)

  1. ユーザとの対話に基づいて対話特徴量を解析する対話特徴量解析部と、
    前記対話特徴量に基づいて前記ユーザへの応答シーンを判定する応答シーン判定部と、
    前記応答シーンに基づいて応答選択モデルを選択するモデル選択部と、
    を備える対話装置であって、
    前記対話特徴量は、前記ユーザと対話を開始してからの対話継続時間を含み、
    前記応答シーン判定部は、前記対話継続時間に基づいて、予め設定された対話想定時間のうち、前記対話想定時間の初期及び終期では挨拶シーンと判定し、他の期間では対話シーンと判定する、対話装置。
JP2017016678A 2017-02-01 2017-02-01 対話装置 Expired - Fee Related JP6747318B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017016678A JP6747318B2 (ja) 2017-02-01 2017-02-01 対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017016678A JP6747318B2 (ja) 2017-02-01 2017-02-01 対話装置

Publications (2)

Publication Number Publication Date
JP2018124432A JP2018124432A (ja) 2018-08-09
JP6747318B2 true JP6747318B2 (ja) 2020-08-26

Family

ID=63110611

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017016678A Expired - Fee Related JP6747318B2 (ja) 2017-02-01 2017-02-01 対話装置

Country Status (1)

Country Link
JP (1) JP6747318B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11482209B2 (en) * 2018-08-15 2022-10-25 Nippon Telegraph And Telephone Corporation Device and method for supporting creation of reception history, non-transitory computer readable recording medium
JP7063779B2 (ja) * 2018-08-31 2022-05-09 国立大学法人京都大学 音声対話システム、音声対話方法、プログラム、学習モデル生成装置及び学習モデル生成方法
JP7368335B2 (ja) * 2020-09-24 2023-10-24 Kddi株式会社 ポジティブなオウム返し的応答文によって対話するプログラム、装置及び方法
CN112700794B (zh) * 2021-03-23 2021-06-22 北京达佳互联信息技术有限公司 一种音频场景分类方法、装置、电子设备和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044088A (ja) * 2001-07-27 2003-02-14 Sony Corp プログラム、記録媒体、並びに音声対話装置および方法
JP2004061843A (ja) * 2002-07-29 2004-02-26 Denso Corp 音声対話におけるしりとりゲーム装置及びプログラム
JP5286062B2 (ja) * 2008-12-11 2013-09-11 日本電信電話株式会社 対話装置、対話方法、対話プログラムおよび記録媒体
JP6248677B2 (ja) * 2014-02-17 2017-12-20 富士通株式会社 会話補助プログラム、会話補助方法、及び会話システム

Also Published As

Publication number Publication date
JP2018124432A (ja) 2018-08-09

Similar Documents

Publication Publication Date Title
JP6747318B2 (ja) 対話装置
US10388279B2 (en) Voice interaction apparatus and voice interaction method
JP6731326B2 (ja) 音声対話装置及び音声対話方法
US20180130462A1 (en) Voice interaction method and voice interaction device
CN105551481A (zh) 语音数据的韵律标注方法及装置
JP6464703B2 (ja) 会話評価装置およびプログラム
JP6638435B2 (ja) 感情推定器の個人適応方法、感情推定装置及びプログラム
KR102217917B1 (ko) 음성대화 시스템, 음성대화 방법 및 프로그램
JP6390264B2 (ja) 応答生成方法、応答生成装置及び応答生成プログラム
JP6790894B2 (ja) 対話装置
JP6270661B2 (ja) 音声対話方法、及び音声対話システム
JP2018132624A (ja) 音声対話装置
JP6295869B2 (ja) 応答生成装置、応答生成方法及びプログラム
JP6569588B2 (ja) 音声対話装置およびプログラム
JP6657887B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP6176137B2 (ja) 音声対話装置、音声対話システム及びプログラム
JP6657888B2 (ja) 音声対話方法、音声対話装置およびプログラム
JP2018132623A (ja) 音声対話装置
JP2011141470A (ja) 素片情報生成装置、音声合成システム、音声合成方法、及び、プログラム
JP2017106990A (ja) 音声対話装置およびプログラム
JPWO2017085815A1 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
JP6251219B2 (ja) 合成辞書作成装置、合成辞書作成方法および合成辞書作成プログラム
Demri et al. Contribution to the creation of an arabic expressive speech corpus
JP6370732B2 (ja) 発話意図モデル学習装置、発話意図抽出装置、発話意図モデル学習方法、発話意図抽出方法、プログラム
JP6287754B2 (ja) 応答生成装置、応答生成方法及び応答生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191011

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200707

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200720

R151 Written notification of patent or utility model registration

Ref document number: 6747318

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees