JP2022054671A - 音声対話装置、音声対話システム、および、音声対話方法 - Google Patents

音声対話装置、音声対話システム、および、音声対話方法 Download PDF

Info

Publication number
JP2022054671A
JP2022054671A JP2020161829A JP2020161829A JP2022054671A JP 2022054671 A JP2022054671 A JP 2022054671A JP 2020161829 A JP2020161829 A JP 2020161829A JP 2020161829 A JP2020161829 A JP 2020161829A JP 2022054671 A JP2022054671 A JP 2022054671A
Authority
JP
Japan
Prior art keywords
user
voice dialogue
voice
utterance
determination value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020161829A
Other languages
English (en)
Inventor
修 久木元
Osamu Kukimoto
栄地 ▲瀬▼戸
Eiji Seto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2020161829A priority Critical patent/JP2022054671A/ja
Publication of JP2022054671A publication Critical patent/JP2022054671A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】音声対話装置を利用するユーザの利便性を向上しつつ、ユーザが装置に対して不信感を抱き難くする音声対話装置、音声対話システム及び音声対話方法を提供する。【解決手段】音声対話システム100において、ユーザと対話を行う音声対話装置1の制御部13は、ユーザの発話が自装置に対する発話である可能性を示す判定値を求める判定値算出部と、前記ユーザに応答する場合に、前記判定値に基づいて応答の種類を変化させる応答処理部と、を備える。【選択図】図1

Description

本発明は、音声対話装置、音声対話システム、および、音声対話方法に関する。
従来、ユーザと対話を行う音声対話装置が知られる。従来の音声対話装置においては、ユーザが、ボタンを押したり、ウェイクワードと呼ばれる所定のワードを発声したりすることにより、音声対話装置が対話を開始させる構成となっている(例えば特許文献1参照)。
国際公開第2020/003785号
音声対話装置が、発話を行ったユーザの振舞いの特徴を捉えて、ユーザの発話が自装置に向けられたものであるか否かを判断可能な構成とすると、例えばウェイクワードを言わずとも、音声対話装置との対話を開始させることができる。なお、この場合のユーザの振舞いとしては、例えば話し方や顔の動きが挙げられる。
しかしながら、ユーザの振舞いの特徴を捉えてユーザの発話が自装置に向けられたものであるか否かを判定することは難しく、ユーザの期待に沿った応答ができない可能性がある。この場合、ユーザは、装置との対話に失敗したと感じてしまい、装置を使用する意欲を損なう可能性がある。
本発明は、上記の点に鑑み、音声対話装置を利用するユーザの利便性を向上しつつ、ユーザが装置に対して不信感を抱き難くすることができる技術を提供することを目的とする。
上記目的を達成するために本発明の音声対話装置は、ユーザと対話を行う音声対話装置であって、前記ユーザの発話が自装置に対する発話である可能性を示す判定値を求める判定値算出部と、前記ユーザに応答する場合に、前記判定値に基づいて応答の種類を変化させる応答処理部と、を備える構成(第1の構成)になっている。
上記第1の構成の音声対話装置において、前記応答処理部は、前記判定値が第1閾値以上である場合に前記ユーザに応答する処理を行い、前記判定値が前記第1閾値より小さい場合に前記ユーザに応答する処理を行わない構成(第2の構成)であってよい。
上記第2の構成の音声対話装置において、前記応答処理部は、前記判定値が前記第1閾値以上且つ第2閾値以下である第1の場合と、前記判定値が前記第2閾値より大きい第2の場合とで前記応答の種類を変化させる構成(第3の構成)であってよい。
上記第3の構成の音声対話装置において、前記第1の場合における前記応答は、前記ユーザの要望を確認する応答であり、前記第2の場合における前記応答は、前記ユーザの要望に応える応答である構成(第4の構成)であってよい。
上記第3又は第4の構成の音声対話装置において、前記応答処理部は、前記第1の場合であっても、前記ユーザの発話のドメインが第1のドメインでない場合には、前記ユーザに応答する処理を行わない構成(第5の構成)であってよい。
上記第2から第5のいずれかの構成の音声対話装置において、前記応答処理部は、前記判定値が前記第1閾値より小さい場合でも、前記ユーザの発話のドメインが第2のドメインである場合には、前記ユーザに応答する処理を行う構成(第6の構成)であってよい。
上記第1から第6のいずれかの構成の音声対話装置において、前記判定値は、前記ユーザの発話音声と、前記ユーザの発話時における動きとの少なくともいずれか一方に基づいて求められる構成(第7の構成)であってよい。
上記目的を達成するために本発明の音声対話システムは、上記第1から第7のいずれかの構成の音声対話装置と、前記ユーザの音声を音声信号に変換して前記音声対話装置へと出力するマイクロホンと、前記音声対話装置から出力される音声信号を音声に変換して前記ユーザに向けて放音するスピーカと、を備える構成(第8の構成)になっている。
上記第8の構成の音声対話システムは、前記ユーザを撮影し、撮影した画像の情報を前記音声対話装置に出力するカメラを更に備える構成(第9の構成)であってよい。
上記目的を達成するために本発明の音声対話方法は、ユーザと対話を行う音声対話装置における音声対話方法であって、前記ユーザの発話が前記音声対話装置に対する発話である可能性を示す判定値を求める判定値算出工程と、前記ユーザに応答する場合に、前記判定値に基づいて応答の種類を変化させる応答処理工程と、を備える構成(第10の構成)になっている。
本発明によれば、音声対話装置を利用するユーザの利便性を向上しつつ、ユーザが装置に対して不信感を抱き難くすることができる。
音声対話システムの構成を示すブロック図 音声対話装置が備える制御部の機能を示すブロック図 音声対話装置の動作例を示すフローチャート 音声対話装置の動作の第1変形例を示すフローチャート 音声対話装置の動作の第2変形例を示すフローチャート
以下、本発明の例示的な実施形態について、図面を参照しながら詳細に説明する。
<1.音声対話システム>
図1は、本発明の実施形態に係る音声対話システム100の構成を示すブロック図である。本実施形態の音声対話システム100は、一例として車両に適用される。車両には、例えば自動車や電車等の車輪のついた乗り物が広く含まれてよい。本発明の音声対話システム100は、船舶や航空機等の車両以外の人を載せる移動体や、家屋や施設等の移動体以外のものに適用されてもよい。
図1に示すように、音声対話システム100は、音声対話装置1と、マイクロホン2と、スピーカ3とを備える。また、音声対話システム100は、カメラ4と、サーバ装置5とを更に備える。なお、音声対話システム100は、カメラ4とサーバ装置5との少なくともいずれか一方を備えなくてもよい。
音声対話装置1は、ユーザと対話を行う。本実施形態では、ユーザは、運転者等の車両の乗員である。音声対話装置1は、車両の適所に配置される車両用対話装置である。音声対話装置1は、ユーザの発話に対して、適宜、応答を行う。応答には、ユーザの発話に対する音声による回答が含まれる。また、応答には、ユーザの発話に対する回答を画面表示する等、音声以外の手段を利用した回答が含まれてもよい。ユーザの発話に対する回答を画面表示する構成の場合には、音声対話システム100には、モニタが含まる。
本明細書における「対話」には、ユーザと装置との音声によるやりとりのみならず、ユーザからの音声による指示に対して、装置が音声以外の手段を利用して応答する場合が含まれてよい。
マイクロホン2は、ユーザが発生した音声を集音する。マイクロホン2は、車両の適所に配置される。マイクロホン2は、音声対話装置1と有線又は無線にて接続される。マイクロホン2は、ユーザの音声を音声信号に変換して音声対話装置1へと出力する。なお、マイクロホン2は、音声対話装置1に含まれてもよい。
スピーカ3は、音声対話装置1と有線又は無線にて接続される。スピーカ3は、音声対話装置1から出力される音声信号を音声に変換してユーザに向けて放音する。スピーカ3も、マイクロホン2と同様に、車両の適所に配置される。なお、スピーカ3は、音声対話装置1に含まれてもよい。
カメラ4は、音声対話装置1と有線又は無線にて接続される。カメラ4は、ユーザを撮影し、撮影した画像の情報を音声対話装置1に出力する。カメラ4は、例えば、車両の座席に座るユーザの全体を撮影可能に車両の適所に配置される。また、例えば、カメラ4は、車両の座席に座るユーザの顔を撮影可能に車両の適所に配置される。なお、カメラ4は、音声対話装置1に含まれてもよい。
サーバ装置5は、インターネット等のネットワークに接続されたコンピュータ装置である。本実施形態のサーバ装置5は、人工知能(AI:Artificial Intelligence)を備える。サーバ装置5は、ネットワークに接続された任意の他のコンピュータ装置から様々な情報の提供を受けることができる。音声対話装置1は、ネットワークを介してサーバ装置5と情報のやりとりを行うことができる。
本実施形態の音声対話システム100では、詳細は後述するように、ユーザがウェイクワードを発しなくても、音声対話装置1がユーザとの対話を開始させることができる。また、音声対話装置1は、ユーザの発話が自装置に向けた発話であるか否かの判定が難しい場合には、ユーザに対して意図の確認を行う構成となっているために、ユーザが音声対話装置1との対話に失敗したと感じ難くすることができる。
また、本実施形態の音声対話システム100では、音声対話装置1が、ユーザの音声のみならず、カメラ4から取得されるユーザの画像情報をも考慮してユーザとの対話に関わる判断を行うことができる。このため、本実施形態の音声対話システム100によれば、ユーザの発話が音声対話装置1に向けた発話であるか否かの判定の確度を向上させることができ、ユーザが音声対話装置1との対話に失敗したと感じ難くすることができる。
なお、音声対話装置1は、ユーザによるボタンの押下や、ウェイクワードの発声によってユーザとの対話を開始させる機能を備えてもよい。このように構成することにより、音声対話装置1と対話を行いたいユーザの好みに合わせて装置の利用方法を選択することができ、ユーザの利便性を向上することができる。
<2.音声対話装置>
次に、音声対話装置1について詳細に説明する。図1に示すように、音声対話装置1は、音声認識部11と、画像処理部12と、制御部13と、記憶部14と、通信部15と、を備える。
音声認識部11は、半導体集積回路により構成される。音声認識部11は、例えばAIチップにより構成される。音声認識部11は、入力された音声信号によりユーザの発話を検出する。音声認識部11は、検出したユーザの発話音声をテキストデータ(文字列データ)に変換したり、音声の特徴を抽出したりする。音声の特徴には、例えば、音量、音高(ピッチ)、抑揚(イントネーション)等が含まれてよい。音声認識部11は、制御部13と接続される。音声認識部11は、変換により得られたテキストデータ、および、音声の特徴を示すデータを含む音声に関わる情報を制御部13に出力する。
画像処理部12は、カメラ4で撮影された画像のデータを入力される。画像処理部12は、半導体集積回路により構成される。画像処理部12は、例えばAIチップにより構成される。画像処理部12は、入力された画像データからユーザの振舞い(動作)に関わる特徴を抽出する。ユーザの振舞いに関わる特徴には、例えば、ユーザの姿勢変化、顔の向きの変化(詳細には顔の回転や顔の上下動)等が含まれてよい。画像処理部12は、制御部13と接続される。画像処理部12は、ユーザの振舞いに関わる特徴を示すデータを含む撮影画像情報を制御部13に出力する。
制御部13は、音声対話装置1の全体を統括的に制御するコントローラである。制御部13は、例えば、CPU(Central Processing Unit)を含むコンピュータであってよい。制御部13によって実現される各種の機能は、コンピュータが記憶部14に記憶されるプログラムに従って演算処理を実行することにより実現される。
記憶部14は、例えば、RAM(Random Access Memory)やフラッシュメモリ等の半導体メモリ素子、ハードディスク、或いは、光ディスク等の可搬型の記録媒体を用いる記憶装置等で構成される。記憶部14は、ファームウェアとしてのプログラムや各種のデータを記憶する。
通信部15は、制御部13と接続される。通信部15は、無線通信を利用してネットワーク経由でサーバ装置5と接続され、サーバ装置5と双方向通信を行う。すなわち、制御部13は、通信部15を利用して、サーバ装置5と情報のやりとりを行うことができる。
図2は、本発明の実施形態に係る音声対話装置1が備える制御部13の機能を示すブロック図である。制御部13は、それを構成するコンピュータがプログラムに従って演算処理を行うことによって発揮する機能として、判定値算出部131と、応答処理部132とを備える。換言すると、音声対話装置1は、判定値算出部131と、応答処理部132とを備える。
なお、判定値算出部131および応答処理部132のうちの少なくともいずれか一方は、ASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)等のハードウェアで構成されてもよい。また、判定値算出部131および応答処理部132は、概念的な構成要素である。1つの構成要素が実行する機能を複数の構成要素に分散させたり、複数の構成要素が有する機能を1つの構成要素に統合させたりしてよい。また、上述の音声認識部11の少なくとも一部の機能や、画像処理部12の少なくとも一部の機能が、制御部13の機能に含まれてもよい。
判定値算出部131は、ユーザの発話が自装置1に対する発話である可能性を示す判定値を求める。判定値は、例えば百分率で表される。例えば、判定値算出部131は、ユーザの発話が自装置1に対する発話である可能性が高いほど判定値を大きな値とする。判定値は、ユーザの発話音声と、ユーザの発話時における動きとの少なくともいずれか一方に基づいて求められる。音声対話装置1に対して話しかける際のユーザの口調や動きには、多くの人の間で同様の傾向が見られるために、ユーザの発話音声や発話時の動きを利用することにより、判定値の信頼性を向上することができる。
本実施形態では、判定値は、ユーザの発話音声と、ユーザの発話時における動きとの両方に基づいて求められる。詳細には、判定値算出部131は、音声認識部11から入力されるユーザの発話における音声の特徴と、画像処理部12から入力されるユーザの発話時の動きの特徴とに基づいて判定値を求める。
ユーザの発話における音声の特徴には、例えば、音量、音高(ピッチ)、抑揚(イントネーション)等が含まれる。例えば、ユーザは、音声対話装置1に向けての発話である場合、はっきりと聞き取りやすく話す傾向がある。このため、例えば、ユーザが他の同乗者と話している時の音量の値よりユーザの発話音声の音量の値が大きい場合、判定値が大きくなる。ユーザの発話は、音声対話装置1に向けての発話である場合、抑揚が少なくなる傾向がある。このために、発話音声の抑揚が少なければ少ないほど、判定値が大きくなる。
また、ユーザの発話時の動きの特徴には、例えば、ユーザの姿勢変化や顔の向きの変化等が含まれる。例えば、ユーザは、音声対話装置1に向けて発話する場合、音声対話装置1やマイクロホン2の方をちらっと見る傾向がある。このために、ユーザの姿勢が音声対話装置1やマイクロホン2の方向へ近づくように移動した時や、顔の向きの変化からユーザが音声対話装置1やマイクロホン2の方を向いたと判断される場合には、判定値が大きくなる。
判定値算出部131は、例えばディープラーニング等の手法により機械学習を行った学習済みモデル(ニューラルネットワーク)を用いて判定値を求める。学習済みモデルは、例えばユーザが音声対話装置1に対して話しかけている場合の大量のデータと、音声対話装置1に対して話しかけていない場合の大量のデータとを用いて機械学習を行わせることによって得られる。なお、音声対話装置1に対して話しかけていない場合としては、例えば、ユーザが独り言を言っている場合や、ユーザが車両の他の乗員と会話している場合等が挙げられる。
学習済みモデルを利用する判定値算出部131は、音声認識部11で認識したユーザの発話音声の特徴を示す少なくとも一つの特徴量(抑揚等)と、ユーザの発話前後における動きの特徴を示す少なくとも一つの特徴量(顔の回転速度等)とを入力されることにより、判定値を算出する。
応答処理部132は、判定値算出部131により求められた判定値に基づいて処理を行う。本実施形態では、応答処理部132は、判定値が第1閾値以上である場合にユーザに応答する処理を行い、判定値が第1閾値より小さい場合にユーザに応答する処理を行わない。第1閾値は、ユーザの発話が音声対話装置1に向けられた発話でないとの判定を可能とするために設定される値であり、実験やシミュレーションにより求められる。判定値が第1閾値より小さい場合には、ユーザの発話が音声対話装置1に向けられた発話でないと判定される。本構成のように判定値と第1閾値とを比較してユーザに応答するか否かを決める構成とすることにより、ユーザが望まない場合にユーザの発話に応答するといった事態が生じることを抑制することができる。
ユーザに応答する場合の処理には、例えば、ユーザの発話音声の解読処理、音声の解読により理解されたユーザの要望を解決する解決処理、および、解決処理の成果をユーザに伝達する伝達処理が含まれる。解読処理には、例えばユーザの発話意図の解析処理が含まれる。解決処理には、例えばインターネットを利用した検索処理が含まれる。伝達処理には、例えば音声応答や表示応答が含まれる。上述のように、本明細書では、音声応答のみならず、表示応答も対話を構成する要素である。
応答処理に含まれる各種の処理は、応答処理部132によって全て行われてもよいが、本実施形態では、一部の処理がサーバ装置5によって行われる。サーバ装置5は、ユーザの発話の音声信号を音声対話装置1から受信し、受信した音声信号に対し詳細音声認識処理及び自然言語処理等を行うことでユーザの発話意図を認識する。また、サーバ装置5は、認識したユーザの要望に応えるための成果データを生成し、当該成果データを音声対話装置1に送信する。応答処理部132は、受信した成果データに基づいてユーザに対する応答を行う。
本実施形態では、応答処理部132は、ユーザに応答する場合に、判定値に基づいて応答の種類を変化させる。具体的には、応答処理部132は、判定値に基づきユーザの発話が自装置1に向けた発話である可能性が高いと判定される場合と、判定値に基づきユーザの発話が自装置1に向けた発話か否かの判定が難しい場合との2つの場合に、ユーザに対して応答する。そして、当該2つの場合で、応答の種類を変化させる。
本実施形態の音声対話装置1では、判定値を利用することによって、ユーザがウェイクワードを発しなくてもユーザとの対話を開始させることができるために、ユーザの利便性を向上することができる。また、本実施形態の音声対話装置1においては、ユーザの発話が自装置1に向けた発話である可能性が高い場合と、ユーザの発話が自装置1に向けた発話であるか否かの判定が難しい場合とで、応答の種類を変えて応答を行うことが可能になっている。このために、ユーザが音声対話装置1との対話に失敗したと感じ難くすることができる。
図3は、本発明の実施形態に係る音声対話装置1の動作例を示すフローチャートである。例えば、音声対話装置1は、車両のACCがオンされることによって動作を開始する。
ステップS1では、制御部13(例えば判定値算出部131)により、ユーザの発話が検出されたか否かの確認が行われる。ユーザの発話の検出は、音声認識部11により行われる。ユーザの発話が検出された場合(ステップS1でYes)、次のステップS2に処理が進められる。一方、ユーザの発話が検出されていない場合には(ステップS1でNo)、ステップS1の処理が繰り返される。
ステップS2では、判定値算出部131が判定値を算出する。判定値算出部131は、上述のように機械学習を行った学習済みモデルを用いて判定値を求める。学習済みモデルに所定の特徴量が入力されることにより、判定値が求められる。例えば、学習済みモデルには、音声認識部11で認識したユーザの発話音声の特徴を示す少なくとも一つの特徴量(抑揚等)と、ユーザの発話前後における動きの特徴を示す少なくとも一つの特徴量(顔の回転速度等)とが入力される。なお、ユーザの動きの特徴を示す特徴量は、画像処理部12から得られる。判定値算出部131により判定値が求められると、次のステップS3に処理が進められる。
ステップS3では、応答処理部132により、算出した判定値が第1閾値より小さいか否かが確認される。上述のように、第1閾値は、ユーザの発話が音声対話装置1に向けた発話でないとの判定を可能とするために設定される。応答処理部132は、判定値が第1閾値より小さい場合(ステップS3でYes)、次のステップS4に処理を進める。一方、応答処理部132は、判定値が第1閾値以上である場合(ステップS3でNo)、ステップS5に処理を進める。
ステップS4では、応答処理部132が、ユーザの発話に対する応答処理を行わないことに決定する。これは、判定値によって、ユーザの発話が自装置1に向けた発話でないと判断できるからである。ステップS4の処理の完了により、検出したユーザの発話に対する処理は終了となる。例えば、ユーザの発話が「トイレに行く?」といった雑談口調(他の乗員に向けた発話)である場合、判定値は第1閾値より小さくなり、ステップS4の処理が行われることになる。すなわち、同乗者に問いかける運転者の発話に対して、音声対話装置1を無反応とすることができる。
ステップS5では、応答処理部132により、算出した判定値が第2閾値以下であるか否かが確認される。第2閾値は、第1閾値より大きな値であり、ユーザの発話が音声対話装置1に向けた発話であるとの判定を可能とするために設定される。第2閾値も、第1閾値と同様に、実験やシミュレーションにより求められる。応答処理部132は、判定値が第2閾値以下である場合(ステップS5でYes)、次のステップS6に処理を進める。一方、応答処理部132は、判定値が第2閾値より大きい場合(ステップS5でNo)、ステップS8に処理を進める。
ステップS6では、応答処理部132が、ユーザの発話に対して、ユーザの要望を確認する応答処理を行う。ステップS6の処理は、ユーザの発話が音声対話装置1に向けた発話であるか否かを判定値によって決めるのが難しい場合があることを考慮して設けられた処理である。応答処理部132は、サーバ装置5を利用して、ユーザの発話内容を理解して、ユーザの要望を確認する応答を行う。応答処理部132の処理にしたがって、スピーカ3からユーザに対して確認応答が発せられる。
例えば、ユーザ(ここでは運転者)の「トイレに行きたい」といった発話が、音声対話装置1に向けた発話であるか、同乗者に向けた発話であるかの判断がつきにくい場合がある。この場合、判定値は、第1閾値以上且つ第2閾値以下となる。このような場合に、本実施形態では、ステップS6に処理が進められて、音声対話装置1は、例えば、「周辺の休憩施設を検索しましょうか?」といった応答を行う。ステップS6の処理が完了すると、次のステップS7に処理が進められる。
ステップS7では、応答処理部132が、ステップS6で行った確認に対してユーザから指示(要望)があったか否かを確認する。詳細には、ユーザの指示については、音声認識部11で検出される。応答処理部132は、音声認識部11にて一定時間内にユーザの発話を認識した場合に、ユーザの指示があったと判断する。ユーザからの指示があった場合(ステップS7でYes)、応答処理部132はステップS8に処理を進める。一方、ユーザからの指示がなかった場合(ステップS7でNo)、ステップS4に処理が進められる。すなわち、ユーザからの指示がない場合には、応答処理部132は、ユーザに対して応答をしないことに決定する。
ステップS8では、応答処理部132が、ユーザの発話に対して、ユーザの要望に応える応答処理を行う。ステップS5の処理の結果、判定値が第2閾値より大きい場合には、ユーザの発話が自装置1に向けた発話であると判断される。このために、応答処理部132は、サーバ装置5を利用して、ユーザの発話内容を理解して、ユーザの要望に応える処理を行う。例えば、ユーザの発話が指示口調で「トイレに行きたい」である場合、判定値は第2閾値より大きくなり、応答処理部132の処理によって、スピーカ3から「周辺の休憩施設を検索します」といった音声が発せられ、それに続いて検索結果が通知される。検索結果の通知は、音声又は画面表示を利用する構成であってよい。ステップS8の処理の完了により、検出したユーザの発話に対する処理は終了となる。
なお、ステップS7でユーザから指示があった場合にも、ユーザに応答する必要があるために、応答処理部132は、サーバ装置5を利用して、ユーザの発話内容を理解して、ユーザの要望に応える処理を行う。例えば、ステップS6における要望確認(「周辺の休憩施設を検索しましょうか?」)に対するユーザの発話が「お願い」であった場合、休憩施設の検索結果が通知される。
以上のように、本実施形態では、応答処理部132は、判定値が第1閾値以上且つ第2閾値以下である第1の場合と、判定値が第2閾値より大きい第2の場合とで応答の種類を変化させる。これによれば、ユーザの発話が音声対話装置1に向けた発話である可能性が高い場合と、ユーザの発話が音声対話装置1に向けた発話であるか否かの判定が難しい場合とで、応答の種類を変えて応答が行われることなり、ユーザの発話に対して適切な応答を行うことができる。
そして、本実施形態では、第1の場合における応答は、ユーザの要望を確認する応答であり、第2の場合における応答は、ユーザの要望に応える応答である。このような構成では、ユーザの発話が、音声対話装置1に向けた発話である可能性が高い場合に、ユーザの要望に応じた適切な応答を素早く行うことができる。また、ユーザの発話が、音声対話装置1に向けた発話であるか否かの判断が難しい場合には、ユーザの要望が確認される。すなわち、ユーザが望まないのに音声対話装置1が勝手に応答したり、ユーザが回答を要望しているのに音声対話装置1が応答を行わなかったりすることを生じ難くすることができる。このために、本実施形態の構成によれば、ユーザが音声対話装置1との対話に失敗したと感じる可能性を低減することができる。
<3.変形例>
(3-1.第1変形例)
図4は、音声対話装置1の動作の第1変形例を示すフローチャートである。図4に示す第1変形例のフローチャートは、上述した図3に示すフローチャートと概ね同様である。図3と同じ部分については、特に説明の必要がない場合には説明を省略する。
第1変形例においては、図3におけるステップS5の処理と、ステップS6の処理との間に、ステップS51の処理が行われる。ステップS51では、応答処理部132により、ユーザの発話のドメインが第1のドメインであるか否かが確認される。発話のドメインは、詳細には、発話のトピック(話題)である。ユーザの発話のドメインは、ユーザの発話の意図を理解し、理解した発話の意図に応じて決められる。例えば、ユーザが「ちょっと寒いよね。」と発言した場合、ユーザの発話のドメインは「空調」に分類される。
第1のドメインは、予め決められた特定のドメインである。第1のドメインは、例えば、車室内の環境や、車両によって移動可能な場所等、車両の機能を利用して状況を変更できる事に関する。第1のドメインには、一種類のドメインのみが含まれる構成でもよいが、複数種類のドメインが含まれる構成であってもよい。第1のドメインには、例えば、音楽、空調、および、飲食のうちの少なくともいずれか一つが含まれてよい。第1のドメインは、例えば、デフォルトで設定されていたり、ユーザによって設定されたりする。
なお、ユーザの発話のドメインについては、応答処理部132自身によって特定されてもよいが、サーバ装置5により特定されてもよい。後者の場合には、応答処理部132は、サーバ装置5により特定されたドメインを取得して、ユーザの発話のドメインが第1のドメインであるか否かを判断する。
ユーザの発話のドメインが第1のドメインである場合(ステップS51でYes)、ステップS6に処理が進められる。すなわち、ユーザの発話のドメインが第1のドメインである場合には、ユーザの要望を確認する応答処理が行われる。一方、ユーザの発話のドメインが第1のドメインでない場合には(ステップS51でNo)、ステップS4に処理が進められる。すなわち、ユーザの発話のドメインが第1のドメインでない場合には、ユーザの発話に対する応答処理が行われない。
以上からわかるように、第1変形例では、応答処理部132は、判定値が第1閾値以上且つ第2閾値以下である第1の場合であっても、ユーザの発話のドメインが第1のドメインでない場合には、ユーザに応答する処理を行わない。このような構成とすれば、ユーザの発話が音声対話装置1に向けられた発話であるか否かの判断が難しい全ての場合においてユーザに発話の意図を確認するのではなく、特定のトピックの場合にのみユーザの意図を確認する構成とできる。このようにすれば、音声対話装置1によるユーザへの確認頻度が過度になることを抑制することができ、ユーザが音声対話装置1を快適に利用することができる。
(3-2.第2変形例)
図5は、音声対話装置1の動作の第2変形例を示すフローチャートである。図5に示す第2変形例のフローチャートは、上述した図3に示すフローチャートと概ね同様である。図3と同じ部分については、特に説明の必要がない場合には説明を省略する。
第2変形例においては、図3におけるステップS3の処理と、ステップS4の処理との間に、ステップS31の処理が行われる。ステップS31では、応答処理部132により、ユーザの発話のドメインが第2のドメインであるか否かが確認される。第2のドメインは、予め決められた特定のドメインである。第2のドメインは、例えば緊急性を要する事に関する。第2のドメインには、一種類のドメインのみが含まれる構成でもよいが、複数種類のドメインが含まれる構成であってもよい。第2のドメインには、例えば、お手洗いおよび病気のうちの少なくともいずれか一つが含まれてよい。第2のドメインは、例えば、デフォルトで設定されていたり、ユーザによって設定されたりする。
なお、ユーザの発話のドメインについては、応答処理部132自身によって特定されてもよいが、サーバ装置5により特定されてもよい。後者の場合には、応答処理部132は、サーバ装置5により特定されたドメインを取得して、ユーザの発話のドメインが第2のドメインであるか否かを判断する。
ユーザの発話のドメインが第2のドメインである場合(ステップS31でYes)、ステップS6に処理が進められる。すなわち、ユーザの発話のドメインが第2のドメインである場合には、ユーザの要望を確認する応答処理が行われる。一方、ユーザの発話のドメインが第2のドメインでない場合には(ステップS31でNo)、ステップS4に処理が進められる。すなわち、ユーザの発話のドメインが第2のドメインでない場合には、ユーザの発話に対する応答処理は行われない。
以上からわかるように、第2変形例では、応答処理部132は、判定値が第1閾値より小さい場合でも、ユーザの発話のドメインが第2のドメインである場合には、ユーザに応答する処理を行う。例えば、ユーザ(例えば運転者)が「トイレ行く?」と同乗者に聞いた場合でも、音声対話装置1は、「周辺の休憩施設を検索しましょうか?」といった確認応答を行う。このように、本変形例の構成によれば、特定の場合に音声対話装置1が積極的にユーザに対して提案を行う構成とできる。すなわち、本変形例によれば、提案型の音声対話装置を提供することができ、ユーザが便利に感じることを期待できる。
<4.留意事項>
本明細書中に開示されている種々の技術的特徴は、上記実施形態のほか、その技術的創作の主旨を逸脱しない範囲で種々の変更を加えることが可能である。すなわち、上記実施形態は、全ての点で例示であって、制限的なものではないと考えられるべきであり、本発明の技術的範囲は、上記実施形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲と均等の意味及び範囲内に属する全ての変更が含まれると理解されるべきである。また、本明細書中に示される複数の実施形態及び変形例は可能な範囲で適宜組み合わせて実施されてよい。
1・・・音声対話装置
2・・・マイクロホン
3・・・スピーカ
4・・・カメラ
100・・・音声対話システム
131・・・判定値算出部
132・・・応答処理部

Claims (10)

  1. ユーザと対話を行う音声対話装置であって、
    前記ユーザの発話が自装置に対する発話である可能性を示す判定値を求める判定値算出部と、
    前記ユーザに応答する場合に、前記判定値に基づいて応答の種類を変化させる応答処理部と、
    を備える、音声対話装置。
  2. 前記応答処理部は、前記判定値が第1閾値以上である場合に前記ユーザに応答する処理を行い、前記判定値が前記第1閾値より小さい場合に前記ユーザに応答する処理を行わない、請求項1に記載の音声対話装置。
  3. 前記応答処理部は、前記判定値が前記第1閾値以上且つ第2閾値以下である第1の場合と、前記判定値が前記第2閾値より大きい第2の場合とで前記応答の種類を変化させる、請求項2に記載の音声対話装置。
  4. 前記第1の場合における前記応答は、前記ユーザの要望を確認する応答であり、前記第2の場合における前記応答は、前記ユーザの要望に応える応答である、請求項3に記載の音声対話装置。
  5. 前記応答処理部は、前記第1の場合であっても、前記ユーザの発話のドメインが第1のドメインでない場合には、前記ユーザに応答する処理を行わない、請求項3又は4に記載の音声対話装置。
  6. 前記応答処理部は、前記判定値が前記第1閾値より小さい場合でも、前記ユーザの発話のドメインが第2のドメインである場合には、前記ユーザに応答する処理を行う、請求項2から5のいずれか1項に記載の音声対話装置。
  7. 前記判定値は、前記ユーザの発話音声と、前記ユーザの発話時における動きとの少なくともいずれか一方に基づいて求められる、請求項1から6のいずれか1項に記載の音声対話装置。
  8. 請求項1から7のいずれか1項に記載の音声対話装置と、
    前記ユーザの音声を音声信号に変換して前記音声対話装置へと出力するマイクロホンと、
    前記音声対話装置から出力される音声信号を音声に変換して前記ユーザに向けて放音するスピーカと、
    を備える、音声対話システム。
  9. 前記ユーザを撮影し、撮影した画像の情報を前記音声対話装置に出力するカメラを更に備える、請求項8に記載の音声対話システム。
  10. ユーザと対話を行う音声対話装置における音声対話方法であって、
    前記ユーザの発話が前記音声対話装置に対する発話である可能性を示す判定値を求める判定値算出工程と、
    前記ユーザに応答する場合に、前記判定値に基づいて応答の種類を変化させる応答処理工程と、
    を備える、音声対話方法。
JP2020161829A 2020-09-28 2020-09-28 音声対話装置、音声対話システム、および、音声対話方法 Pending JP2022054671A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020161829A JP2022054671A (ja) 2020-09-28 2020-09-28 音声対話装置、音声対話システム、および、音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020161829A JP2022054671A (ja) 2020-09-28 2020-09-28 音声対話装置、音声対話システム、および、音声対話方法

Publications (1)

Publication Number Publication Date
JP2022054671A true JP2022054671A (ja) 2022-04-07

Family

ID=80997891

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020161829A Pending JP2022054671A (ja) 2020-09-28 2020-09-28 音声対話装置、音声対話システム、および、音声対話方法

Country Status (1)

Country Link
JP (1) JP2022054671A (ja)

Similar Documents

Publication Publication Date Title
JP7243625B2 (ja) 情報処理装置、及び情報処理方法
JP6693111B2 (ja) 対話装置、ロボット、対話方法及びプログラム
JPWO2018163648A1 (ja) 対話システム、対話方法、対話装置、およびプログラム
CN111542814A (zh) 改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质
US11501768B2 (en) Dialogue method, dialogue system, dialogue apparatus and program
US20230046658A1 (en) Synthesized speech audio data generated on behalf of human participant in conversation
WO2017085992A1 (ja) 情報処理装置
WO2018030149A1 (ja) 情報処理装置及び情報処理方法
US11789695B2 (en) Automatic adjustment of muted response setting
JP2005335053A (ja) ロボット、ロボット制御装置およびロボットの制御方法
KR20240007261A (ko) 자동화된 어시스턴트 응답(들) 생성에 대규모 언어 모델 사용
US11942077B2 (en) Electronic device and operating method thereof
WO2019026617A1 (ja) 情報処理装置、及び情報処理方法
JP2016105142A (ja) 会話評価装置およびプログラム
CN111556999B (zh) 通过即时提供实质性回答以提供自然语言对话的方法、计算机装置及计算机可读存储介质
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
KR20230062612A (ko) 자동화된 어시스턴트를 위한 자연스러운 대화 활성화
JP2020042066A (ja) 音声対話装置、音声対話方法および音声対話プログラム
CN111557001A (zh) 通过提供即时应答性语言应答以提供自然语言对话的方法、计算机装置及计算机可读存储介质
JP2022054671A (ja) 音声対話装置、音声対話システム、および、音声対話方法
JP2020042074A (ja) 音声対話装置、音声対話方法および音声対話プログラム
JP2010206365A (ja) 対話装置
JP2021114004A (ja) 情報処理装置及び情報処理方法
JP2024510698A (ja) アシスタントコマンドの文脈的抑制
WO2021064947A1 (ja) 対話方法、対話システム、対話装置、およびプログラム