JP6747318B2

JP6747318B2 - 対話装置

Info

Publication number: JP6747318B2
Application number: JP2017016678A
Authority: JP
Inventors: 生聖渡部; 侑司大沼
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-02-01
Filing date: 2017-02-01
Publication date: 2020-08-26
Anticipated expiration: 2037-02-01
Also published as: JP2018124432A

Description

本発明は、対話装置に関する。

一般的な対話装置は、特許文献１に開示されているように、ユーザの発話を辞書データと比較して、一致度の高い複数の単語列候補を得てユーザの発話内容を認識し、当該発話内容に適した応答を行うことで、対話を実現している。

特開２００１−３４２９２号公報

対話の途中に、ユーザの発話内容が「挨拶」と認識する単語を含む場合がある。このような場合、特許文献１の対話装置においては、対話の途中でありながら、ユーザが意図しないタイミングで当該ユーザの「挨拶」に対する応答を行う場合があり、自然な対話を行うことが難しい。

本発明は、このような問題点に鑑みてなされたものであり、自然な対話を実現する対話装置を提供する。

本発明の一態様に係る対話装置は、
ユーザとの対話に基づいて対話特徴量を解析する対話特徴量解析部と、
前記対話特徴量に基づいて前記ユーザへの応答シーンを判定する応答シーン判定部と、
前記応答シーンに基づいて応答選択モデルを選択するモデル選択部と、
を備える対話装置であって、
前記対話特徴量は、前記ユーザと対話を開始してからの対話継続時間を含み、
前記応答シーン判定部は、前記対話継続時間に基づいて、予め設定された対話想定時間のうち、前記対話想定時間の初期及び終期では挨拶シーンと判定し、他の期間では対話シーンと判定する。
このような構成により、対話シーン中に、応答シーンを挨拶シーンと判定する単語を含む発話をユーザが行っても、挨拶シーンに切り替わることはない。そのため、ユーザとの自然な対話を実現することができる。

本発明によれば、自然な対話を実現する対話装置を提供することができる。

実施の形態１の対話装置を模式的に示すブロック図である。対話継続時間と応答シーンと応答選択モデルとの関係を例示した図である。実施の形態２の対話装置を模式的に示すブロック図である。対話特徴量と応答シーンと応答選択モデルとの関係を例示する図である。

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。但し、本発明が以下の実施の形態に限定される訳ではない。また、説明を明確にするため、以下の記載及び図面は、適宜、簡略化されている。

＜実施の形態１＞
本実施の形態の対話装置を説明する。図１は、本実施の形態の対話装置を模式的に示すブロック図である。図１に示すように、対話装置１は、発話入力部２、音声認識部３、応答生成部４、対話特徴量解析部５、応答シーン判定部６、モデル選択部７、応答選択モデル記憶部８、応答選択部９及び応答出力部１０を備えている。

発話入力部２は、ユーザの発話（音声）を集音するマイクロフォンなどを備えており、集音した音声のアナログデータをデジタルデータに変換して音声波形データを取得する。そして、発話入力部２は、音声波形データを音声認識部３及び対話特徴量解析部５に出力する。

音声認識部３は、発話入力部２から入力される音声波形データが示す音声波形に基づいて認識文字列を取得する。例えば、音声認識部３は、音声波形データが示す音声波形をテキストデータ化し、当該音声波形のテキストデータから各形態素の種類や掛かり受け関係を推定して認識文字列を取得する。そして、音声認識部３は、取得した認識文字列を示す認識文字列データを応答生成部４及び対話特徴量解析部５に出力する。ちなみに、各形態素の種類や掛かり受け関係の推定は、一般的な手法を用いることができる。

応答生成部４は、音声認識部３から入力される認識文字列データが示す認識文字列に基づいて応答を生成する。応答生成部４は、一つの認識文字列に対して複数の応答を生成できるように、複数の応答生成器４ａを備えている。

これらの応答生成器４ａは、予め応答記憶部（図示を省略）に記憶された認識文字列と応答との関係を参照して、入力された認識文字列データが示す認識文字列に対応する応答を予め設定されている応答生成ルールに基づいて生成する。

例えば、応答生成部４は、ＱＡ（Question/Anser）応答生成器、共感応答生成器、相槌生成器、不足格質問生成器及びオウム返し生成器を備えている。そして、入力された認識文字列データが示す認識文字列が「昨日プレゼントをもらったよ」の場合、ＱＡ応答生成器は応答を生成せず、共感応答生成器は「それはうれしかったね」を生成し、相槌生成器は「うんうん」を生成し、不足格質問生成器は「誰にもらったのかな？」を生成し、オウム返し生成器は「プレゼントだね」を生成する。応答生成部４は、このように生成した応答を示す応答データを応答選択部９に出力する。

対話特徴量解析部５は、発話入力部２から入力される音声波形データが示す音声波形、及び音声認識部３から入力される認識文字列データが示す認識文字列に基づいて、対話特徴量を解析する。例えば、対話特徴量解析部５は、対話時間計測器５ａ及び感情推定器５ｂを備えている。

対話時間計測器５ａは、対話特徴量としてユーザとの対話開始からの対話継続時間（期間）を計測する。例えば、対話時間計測器５ａは、予め設定された期間、発話入力部２からの音声波形データの入力がないと、ユーザとの対話が遮断されたと認識する。逆に言えば、対話時間計測器５ａは、予め設定された期間内に発話入力部２から音声波形データが入力されていると、ユーザとの対話が継続されていると認識する。そして、対話時間計測器５ａは、計測した対話継続時間を示す対話継続時間データを応答シーン判定部６に出力する。

感情推定器５ｂは、発話入力部２から入力される音声波形データが示す音声波形、及び音声認識部３から入力される認識文字列データが示す認識文字列に基づいて、ユーザの感情（ポジティブ／ニュートラル／ネガティブ）を推定する。例えば、感情推定器５ｂは、音声波形の基本周波数や振幅の変化など、即ち、韻律特徴に基づいて、ユーザの感情を推定する。また、例えば、感情推定器５ｂは、認識文字列の複数の形態素を一組とする形態素組の特徴ベクトルを算出し、算出した特徴ベクトルをＳＶＭ（Support Vector Machines）を用いて判別し、ユーザの感情を推定する。そして、感情推定器５ｂは、推定したユーザの感情を示す感情データを応答選択部９に出力する。但し、感情推定器５ｂは、ユーザの感情を推定することができれば、一般的な手法を用いることができる。

応答シーン判定部６は、対話時間計測器５ａから入力される対話継続時間データが示すユーザとの対話継続時間に基づいて、応答シーンを判定する。応答シーン判定部６は、予め応答シーン記憶部（図示を省略）に記憶された対話継続時間と応答シーンとの関係を参照して、入力された対話継続時間データが示すユーザとの対話継続時間に対応する応答シーンを判定する。

ここで、応答シーン判定部６は、対話時間計測器５ａから入力される対話継続時間データが示すユーザとの対話継続時間に基づいて、予め設定された対話想定時間のうち、対話想定時間の初期及び終期では挨拶シーンと判定し、他の期間では対話シーンと判定する。図２は、対話継続時間と応答シーンと応答選択モデルとの関係を例示した図である。

例えば、図２に示すように、予め設定された対話想定時間が２０分であり、対話継続時間が０秒〜３０秒では、挨拶シーン（挨拶、自己紹介）と判定し、対話継続時間が３０秒〜１分３０秒では、対話シーン（話題提供）と判定し、対話継続時間が１分３０秒〜１０分では、対話シーン（対話継続）と判定し、対話継続時間が１０分〜１１分では、対話シーン（話題転換）と判定し、対話継続時間が１１分〜１９分では、対話シーン（対話継続）と判定し、対話継続時間が１９分〜２０分では、挨拶シーン（お別れ）と判定する。応答シーン判定部６は、このように判定した応答シーンを示す応答シーンデータをモデル選択部７に出力する。

モデル選択部７は、応答シーン判定部６から入力される応答シーンデータが示す応答シーンに基づいて、応答選択モデル記憶部８から応答選択モデルを選択し、選択した応答選択モデルを示す応答選択モデルデータを応答選択部９に出力する。

応答選択モデル記憶部８には、応答シーンと応答選択モデルとの関係が記憶されている。例えば、図２に示すように、応答シーンが挨拶シーン（挨拶、自己紹介）の場合、対応する応答選択モデルは挨拶時モデルであり、応答シーンが対話シーン（話題提供）の場合、対応する応答選択モデルは話題提供時モデルであり、応答シーンが対話シーン（対話継続）の場合、対応する応答選択モデルは傾聴時モデルであり、応答シーンが対話シーン（話題転換）の場合、対応する応答選択モデルは話題提供時モデルであり、応答シーンが対話シーン（対話継続）の場合、対応する応答選択モデルは傾聴時モデルであり、応答シーンが挨拶シーン（お別れ）の場合、対応する応答選択モデルは挨拶時モデルである。

応答選択部９は、モデル選択部７から入力される応答選択モデルデータが示す応答選択モデル、及び感情推定器５ｂから入力される感情データが示すユーザの感情に基づいて、各々の応答生成器４ａから入力される応答データが示す応答から適切な応答を選択し、選択した応答を示す応答データを応答出力部１０に出力する。

応答出力部１０は、応答選択部９から入力される応答データが示す応答を出力する。例えば、応答出力部１０は、スピーカを備えており、デジタルデータである応答データをアナログデータに変換して出力する。

このように本実施の形態の対話装置１においては、応答シーン判定部６が、ユーザとの対話継続時間に基づいて、予め設定された対話想定時間のうち、対話想定時間の初期及び終期では挨拶シーンと判定し、他の期間では対話シーンと判定する。そのため、対話シーン中に、応答シーンを挨拶シーンと判定する単語を含む発話をユーザが行っても、挨拶シーンに切り替わることはない。そのため、ユーザとの自然な対話を実現することができる。

＜実施の形態２＞
本実施の形態の対話装置を説明する。本実施の形態の対話装置２０は、実施の形態１の対話装置１と略等しい構成であるが、対話シーンをユーザとの対話の盛り上がり具合に応じて切り替える構成とされている。つまり、本実施の形態の対話装置２０も、対話継続時間に基づいて、予め設定された対話想定時間のうち、対話想定時間の初期及び終期では挨拶シーンと判定し、他の期間では対話シーンと判定するため、以下の説明では、重複する説明は省略し、応答シーンが対話シーンの場合を主として説明する。

図３は、本実施の形態の対話装置を模式的に示すブロック図である。図４は、対話特徴量と応答シーンと応答選択モデルとの関係を例示する図である。本実施の形態の対話装置２０は、実施の形態１の対話装置１に対して、対話特徴量解析部２１、応答シーン判定部２２及びモデル選択部２３が異なる。

対話特徴量解析部２１は、対話特徴量として、「ユーザ発話時間」、「対話なし時間」及び「感情」を解析する。そのため、本実施の形態の対話特徴量解析部２１は、実施の形態１の対話時間計測器５ａ及び感情推定器５ｂに加えて、ユーザ発話時間計測器２１ａ及び対話なし時間計測器２１ｂを備えている。ここで、感情推定器５ｂは、推定したユーザの感情を示す感情データを応答選択部９に加えて、応答シーン判定部２２にも出力する。

ユーザ発話時間計測器２１ａは、予め設定された期間内でのユーザ発話が占める期間（即ち、ユーザ発話時間）の割合を計測する。例えば、ユーザ発話時間計測器２１ａは、図４に示すように、ユーザ発話が占める期間の割合が第１の割合以上の場合に「高」と判定し、ユーザ発話が占める期間の割合が第１の割合未満の場合に「低」と判定する。そして、ユーザ発話時間計測器２１ａは、計測したユーザ発話が占める期間の割合を示す第１の割合データを応答シーン判定部２２に出力する。

対話なし時間計測器２１ｂは、予め設定された期間内でのユーザ及び対話装置２０が発話しない期間（即ち、対話なし時間）の割合を計測する。例えば、対話なし時間計測器２１ｂは、図４に示すように、ユーザ及び対話装置２０が発話しない期間の割合が第２の割合未満の場合に「低」と判定し、ユーザ及び対話装置２０が発話しない期間の割合が第２の割合以上の場合に「高」と判定する。そして、対話なし時間計測器２１ｂは、計測したユーザ及び対話装置２０が発話しない期間の割合を示す第２の割合データを応答シーン判定部２２に出力する。

応答シーン判定部２２は、実施の形態１の応答シーン判定部６のような対話継続時間で対話シーンを判定するものではなく、感情推定器５ｂから入力される感情データが示すユーザの感情、ユーザ発話時間計測器２１ａから入力される第１の割合データが示すユーザ発話が占める期間の割合、及び対話なし時間計測器２１ｂから入力される第２の割合データが示すユーザ並びに対話装置２０が発話しない期間の割合に基づいて、応答シーンを判定する。

例えば、応答シーン判定部２２は、図４に示すように、ユーザ発話が占める期間の割合が「高」、ユーザ及び対話装置２０が発話しない期間の割合が「低」、感情が「ポジティブ」の場合、対話シーンＡと判定し、対話特徴量にユーザ及び対話装置２０が発話しない期間の割合として「高」を含んでいる場合、対話シーンＢと判定し、対話特徴量にユーザの感情として「ネガティブ」を含んでいる場合、対話シーンＣと判定する。応答シーン判定部２２は、このように判定した応答シーンを示す応答シーンデータをモデル選択部２３に出力する。

モデル選択部２３は、応答シーン判定部２２から入力される応答シーンデータが示す応答シーンに基づいて、応答選択モデルを選択する。例えば、モデル選択部２３は、応答シーン判定部２２から対話シーンＡを示す応答シーンデータが入力された場合、ユーザとの対話が盛り上がっているため、傾聴時モデルを選択し、応答シーン判定部２２から対話シーンＢを示す応答シーンデータが入力された場合、ユーザとの対話が途切れ気味であるので、話題提供時モデルを選択し、応答シーン判定部２２から対話シーンＣを示す応答シーンデータが入力された場合、話題を転換した方が好ましいため、話題提供時モデルを選択する。モデル選択部２３は、このように選択した応答選択モデルを示す応答選択モデルデータを応答選択部９に出力する。

このように本実施の形態の対話装置２０は、ユーザとの対話の盛り上がり具合に基づいて、適切な対話シーンを選択することができる。

本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、上述の実施の形態では、本発明をハードウェアの構成として説明したが、本発明は、これに限定されるものではない。本発明は、任意の処理を、ＣＰＵ（Central Processing Unit）にコンピュータプログラムを実行させることにより実現することも可能である。

上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ−ＲＯＭ（Read Only Memory）、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、ＤＶＤ（Digital Versatile Disc）、ＢＤ(Blu-ray(登録商標) Disc)、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１対話装置
２発話入力部
３音声認識部
４応答生成部、４ａ応答生成器
５対話特徴量解析部、５ａ対話時間計測器、５ｂ感情推定器
６応答シーン判定部
７モデル選択部
８応答選択モデル記憶部
９応答選択部
１０応答出力部
２０対話装置
２１対話特徴量解析部、２１ａユーザ発話時間計測器、２１ｂ対話なし時間計測器
２２応答シーン判定部
２３モデル選択部

Claims

ユーザとの対話に基づいて対話特徴量を解析する対話特徴量解析部と、
前記対話特徴量に基づいて前記ユーザへの応答シーンを判定する応答シーン判定部と、
前記応答シーンに基づいて応答選択モデルを選択するモデル選択部と、
を備える対話装置であって、
前記対話特徴量は、前記ユーザと対話を開始してからの対話継続時間を含み、
前記応答シーン判定部は、前記対話継続時間に基づいて、予め設定された対話想定時間のうち、前記対話想定時間の初期及び終期では挨拶シーンと判定し、他の期間では対話シーンと判定する、対話装置。