JP2023162857A

JP2023162857A - 音声対話装置及び音声対話方法

Info

Publication number: JP2023162857A
Application number: JP2022073543A
Authority: JP
Inventors: 雄宇志小田; Yuu Shioda
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2023-11-09

Abstract

【課題】中断したユーザへの情報提供を再開する時に、ユーザが興味のある話題の情報を提供できる音声対話装置及び音声対話方法を提供することである。【解決手段】音声対話を中断した場合に、ユーザの会話内容、車両内で再生されている車内コンテンツ及び車両周辺の車両周辺対象のうち少なくともいずれかひとつを音声対話の話題候補として認識し、ユーザの身体動作、前記ユーザの音声の調子、及び、前記音声対話を中断している間の経過時間のうち少なくともいずれかひとつに基づいて、話題候補ごとに、話題候補に対するユーザの興味度を算出し、音声対話を再開する時点における話題候補ごとの興味度に基づいて、話題候補から、音声対話の話題を選択し、選択した話題に応じた音声データを出力する。【選択図】図１

Description

本発明は、音声対話装置及び音声対話方法に関するものである。

ドライバへの通知情報を表示したときに、ドライバの運転負荷が所定の運転負荷よりも高い場合には、ドライバの所定操作に基づき、通知情報に重要度を付加して、通知情報の表示を一時的に抑制し、再表示の際に、重要度に応じて通知情報を表示する技術が知られている（特許文献１）。

特開２０２０－０３５２６２号公報

しかしながら、特許文献１の技術では、通知情報の表示を抑制した時に付加した重要度に応じて通知情報を再表示したとしても、通知情報を再表示した時には、ユーザが、再表示された通知情報に対して興味を失っていることがあるため、ユーザが興味のある話題の情報を提供できない可能性がある。

本発明が解決しようとする課題は、中断したユーザへの情報提供を再開する時に、ユーザが興味のある話題の情報を提供できる音声対話装置及び音声対話方法を提供することである。

本発明は、音声対話を中断した場合に、ユーザの会話内容、車両内で再生されている車内コンテンツ及び車両周辺の車両周辺対象のうち少なくともいずれかひとつを音声対話の話題候補として認識し、ユーザの身体動作、ユーザの音声の調子、及び、音声対話を中断している間の経過時間のうち少なくともいずれかひとつに基づいて、話題候補ごとに、話題候補に対するユーザの興味度を算出し、音声対話を再開する時点における話題候補ごとの興味度に基づいて、話題候補から、音声対話の話題を選択し、選択した話題に応じた音声データを出力することによって上記課題を解決する。

本発明によれば、中断したユーザへの情報提供を再開する時に、ユーザが興味のある話題の情報を提供できる。

本発明に係る音声対話装置の実施形態を示すブロック図である。（ａ）及び（ｂ）のそれぞれは、エージェントの一例を示す車内の図である。経過時間と話題候補に対するユーザの興味度との関係を示すグラフである。経過時間と話題候補に対するユーザの興味度との関係を示すグラフである。音声対話装置によって実行される音声対話にかかる処理のフローチャートの一例を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。本発明に係る音声対話装置を含む音声対話システムは、音声認識技術及び音声合成技術を用いて、ユーザと音声対話をするシステムである。ユーザとは、音声対話装置を利用する者をいい、主として車両の運転者であるが、ユーザは運転者以外の他の同乗者であってもよい。また、音声対話システム１００は、自動車以外の場所で利用されるシステムであってもいい。以下においては、車両の運転者をユーザとして、本発明をユーザとの音声対話に適用した例で説明する。

図１は、本実施形態に係る音声対話システムの実施形態を示すブロック図である。音声対話システム１００は、音声対話装置１と、車内収音装置２と、車両センサ類３と、ユーザ状態検出装置４と、地図データベース５とを備える。これらの装置及びデータベースは、たとえばＣＡＮその他の車載ＬＡＮにより接続され、相互に情報の送受信を行うことができる。また、音声対話装置１は、ユーザとの音声対話をする装置であって、プロセッサ１０と出力装置６とを備える。

出力装置６は、擬人化されたエージェント（以下、単にエージェントＡともいう）によるエージェント機能、具体的には、音声、画像、キャラクタロボットの動作及びこれらの組み合わせの媒体を介して、ユーザに対して情報を出力する装置である。なお、ここでは出力装置６は、車両に搭載した電子機器を例として説明するが、エージェント機能を備えた電子機器であればよく、例えば、持ち運び可能なスピーカ型電子機器やディスプレイ付電子機器であってもよい。また、以下に説明するエージェントＡの音声出力及び映像出力に関する機能をスマートフォン等の携帯電話に搭載してもよい。また、出力装置６は、音声、画像、文字情報などを出力してユーザに情報を提示できればよく、例えば、ナビゲーション装置のディスプレイを兼用して用いてもよい。

図２は、本実施形態に係る音声対話システムにおけるエージェント表示の一例が図示されている。エージェントＡは、図１、図２（ａ）及び（ｂ）に示すように、人間を模したキャラクタロボットであるエージェントＡ２が、基台Ａ１に対して、図示しないアクチュエータにより出没可能に設けられている。エージェントＡは、出力部１８からの制御指令を受けたエージェント機能により、ユーザにコミュニケーション情報を出力する場合には、図２（ｂ）に示すように基台Ａ１から出現する。

本実施形態では、音声対話装置１は、ユーザとの音声対話を中断する対話中断機能を備える。音声対話装置１は、ユーザとの音声対話中に、音声対話を中断する必要があると判定した場合には、音声対話を中断する。音声対話が中断されている間、図２（ａ）に示すように、ユーザの会話相手であるエージェントＡ２は表示されない。一方、音声対話装置１は、音声対話を中断している間に、音声対話を再開すると判定した場合には、音声対話を再開する。音声対話が再開すると、ユーザの会話相手であるエージェントＡ２が表示され、ユーザはエージェントＡ２の身振り手振りを把握しながら会話を行うことができる。

エージェントＡは、音声や効果音を出力するためのスピーカその他の音声出力部や、文字を含む画像を表示するディスプレイその他の表示部を含み、エージェントＡ２の動作とともに、音声、効果音、文字その他の画像をユーザに提供することでコミュニケーション情報を出力する。なお、本実施形態では、エージェントＡをエージェントＡ２のような三次元物体としたが、本発明のエージェントＡはこれに限定されず、ディスプレイに表示する二次元画像としてもよい。例えば、自動車に車載されているヘッドアップディスプレイ装置又はディスプレイ装置にエージェントＡ２の画像を表示させる。

また、擬人化されたエージェントは一例であり、人間を模さずとも、所定のキャラクタ、アバターやアイコンを表示させたエージェントであってもよい。エージェントＡは、物理的な個体として設けられてもよい。また、会話相手としてアバターの表示を一例として図示するのみならず、会話相手としてアバターが表示されない音声対話生成システムにも適用できる。

車内収音装置２は、車両の車内で乗員が聞く音を収音する。車内収音装置２により収音される音は、主として車両の室内に音源がある音であって、ユーザの音声、車内メディアから出力される音を含む。ユーザの音声は、例えば、乗員間での会話、音声対話システムと乗員との対話を含む。車内メディアは、例えば、オーディオ、ラジオである。車内収音装置２は、例えば、車内に設置されたマイクである。

車両センサ類３は、車両周辺の車両周辺情報を取得する。車両センサ類３は、例えば車両の車外を撮像する車外カメラである。車外カメラは、ＣＣＤ、ＣＭＯＳ等の撮像素子を有するＣＣＤカメラやＣＭＯＳカメラ等である。車外カメラは、車両周辺を撮像した画像を車両周辺情報として取得する。また、車両センサ類３は、ＧＰＳを含む。ＧＰＳは、自車両の現在位置を検出する。車両センサ類３の検出結果は、所定の時間間隔でプロセッサ１０に出力される。

ユーザ状態検出装置４は、ユーザの状態に関する情報を検出する。ユーザの状態は、例えば、ユーザの身体動作に関する情報を含む。ユーザ状態検出装置４は、例えば、車内のユーザを撮像する車内カメラ、ユーザの生体信号を検出する生体信号測定センサなどが挙げられる。車内カメラは、ＣＣＤ、ＣＭＯＳ等の撮像素子を有するＣＣＤカメラやＣＭＯＳカメラ等である。生体信号測定センサは、ステアリングホイールや着座シートの内部に設けられ、ユーザの血圧や、脈拍数の変化、発汗の程度といった生体信号をユーザの身体に関する情報として検出する。ユーザ状態検出装置４の検出結果は、所定の時間間隔でプロセッサ１０に出力される。

地図データベース５は、地図情報を記憶するデータベースである。地図情報は、道路の情報等を含む。また、地図データベース５は、ＰＯＩ（ＰｏｉｎｔＯｆＩｎｔｅｒｅｓｔ）の情報を含む。ＰＯＩは、地図上の特定の場所、例えば、公共施設や飲食店、観光名所等のランドマークとなる建物の場所の情報である。

音声対話装置１は、各種処理を実行するためのプログラミングが格納されたＲＯＭと、このＲＯＭに格納されたプログラムを実行することで、音声対話装置１として機能する動作回路としてのＣＰＵと、アクセス可能な記憶装置として機能するＲＡＭとを備えたプロセッサ１０と、出力装置６としてのエージェントＡとで構成されている。プロセッサ１０は、機能ブロックとして、話題候補認識部１１と、ユーザ状態取得部１２と、話題候補管理部１３と、興味度算出部１４と、判定部１５と、話題選択部１６と、会話生成部１７と、出力部１８と、を備える。また、プロセッサ１０は、興味度時定数データベース２０と、タイマー２１とを備える。

話題候補認識部１１は、ユーザとの音声対話を中断した場合に、ユーザの会話内容、車両内で再生されている車内コンテンツ及び車両周辺の車両周辺対象のうち少なくともいずれかひとつを音声対話の話題候補として認識する。話題候補は、ユーザとの音声対話を再開する時にユーザに提供する話題の候補であって、例えば、ユーザが興味を持つ可能性がある対象である。ユーザとの音声対話を中断している間にも、ユーザは、視覚的又は聴覚的に認識できる対象に対して興味を持つことがある。それによって、ユーザが、中断前の会話内容から他の対象に興味が移ることもあるため、本実施形態では、中断前の会話内容のみならず、中断している間にユーザが興味を持つ可能性がある対象を話題候補として認識する。

例えば、話題候補認識部１１は、ユーザの会話内容を話題候補として認識する。話題候補認識部１１は、車内収音装置２から、音声対話を中断する前及び音声対話を中断している間のユーザの音声を取得する。話題候補認識部１１は、取得したユーザの音声に対して音声認識処理を実行して、ユーザの会話内容を認識する。また、話題候補認識部１１は、ユーザの会話内容を要約することとしてもよい。ユーザの会話内容は、中断前のプロセッサ１０とユーザとの間の中断前会話内容、ユーザとの音声対話を中断している間のユーザと他の乗員との間の中断中会話内容を含む。

話題候補認識部１１は、車内で再生されている車内コンテンツを話題候補として認識する。コンテンツは、例えば、車内のオーディオやラジオなどのメディアから再生されている音楽やラジオパーソナリティーの発言内容などが挙げられる。話題候補認識部１１は、車内収音装置２からメディアの音声を取得する。話題候補認識部１１は、取得したメディアの音声に対して音声認識処理を実行して、車内コンテンツを認識する。また、話題候補認識部１１は、ラジオの番組内容やラジオパーソナリティーの発言内容など、車内コンテンツの内容を要約することとしてもよい。

話題候補認識部１１は、ＧＰＳや車外カメラなどの車両センサ類３によって検出した情報に基づいて、車両周辺対象を話題候補として認識する。車両周辺対象は、例えば、車両周辺のＰＯＩ（ＰｏｉｎｔＯｆＩｎｔｅｒｅｓｔ）である。例えば、話題候補認識部１１は、自車両の現在位置と地図データベース５の地図情報とに基づいて、車両周辺に位置するＰＯＩを車両周辺対象として認識する。また、話題候補認識部１１は、車外カメラによって撮像された自車両周辺の画像に対して画像認識処理を実行し、特定したＰＯＩの特徴点を抽出し、車両周辺対象を認識する。

ユーザ状態取得部１２は、ユーザ状態検出装置４から、ユーザ状態に関する情報を取得する。例えば、ユーザの状態に関する情報は、ユーザの身体に関する情報や、ユーザの動作に関する情報を含む。ユーザの身体に関する情報は、ユーザの血圧や、脈拍数の変化、発汗の程度である。また、ユーザの動作に関する情報は、ユーザの操作内容、表情、視線、仕草などを含む。ユーザ状態取得部１２は、例えば、ユーザ状態検出装置４から取得したユーザの画像に対して画像認識処理を実行して、ユーザの動作に関する情報を取得する。また、ユーザ状態取得部１２は、車内収音装置２から取得したユーザの音声を分析して、ユーザの口調、音程などの音声の調子の情報を取得する。

話題候補管理部１３は、認識した話題候補を話題候補リストデータベース１９に記憶し、話題候補を管理する。話題候補管理部１３は、話題候補認識部１１によって話題候補を認識した場合、話題候補を話題候補リストに追加する。話題候補管理部１３は、まず、ユーザとの音声対話を中断した時に、中断前のユーザとの中断前会話内容を話題候補リストに追加する。次に、話題候補管理部１３は、ユーザとの音声対話を中断している間に話題候補認識部１１によって認識された話題候補を話題候補リストに追加する。

また、話題候補管理部１３は、ユーザとの音声対話を中断している間、話題候補リストを更新する。例えば、話題候補管理部１３は、話題候補リストにある話題候補それぞれに対する興味度を更新する。また、話題候補管理部１３は、話題候補リストにある話題候補それぞれに対して、算出した興味度が興味度閾値未満であるか否かを判定する。話題候補管理部１３は、興味度が興味度閾値未満であると判定した場合には、興味度が興味度閾値未満であると判定した話題候補を話題候補リストから削除する。

また、話題候補管理部１３は、興味度算出部１４によって算出される興味度に基づいて、話題候補リストに追加する話題候補を選択することとしてもよい。話題候補管理部１３は、ユーザの会話内容、車内コンテンツ及び車両周辺対象のうち少なくともひとつをユーザの興味対象として、興味対象ごとの興味度に応じて、興味対象から話題候補を選択する。例えば、話題候補管理部１３は、興味度が興味度閾値以上である興味対象を話題候補として選択する。すなわち、話題候補管理部１３は、興味対象ごとに、興味度が興味度閾値以上であるか否かを判定し、興味度が興味度閾値以上であると判定した場合に、当該興味対象を話題候補として話題候補リストに追加する。

興味度算出部１４は、ユーザの身体動作、ユーザの音声の調子、及び、音声対話を中断している間の経過時間のうち少なくともいずれかひとつに基づいて、話題候補ごとに、話題候補に対するユーザの興味度を算出する。ユーザの身体動作は、例えば、ユーザの操作、ユーザの表情、仕草である。また、音声の様子は、音程、発声速度（テンポ）、音量、口調等を含む。例えば、興味度算出部１４は、ユーザとの音声対話を中断する前にユーザと対話していた対話内容に対して興味度を算出する。また、興味度算出部１４は、ユーザとの音声対話を中断している間、一定の周期で、話題候補リストにある話題候補それぞれに対する興味度を算出する。

興味度算出部１４は、例えば、ユーザの会話内容を話題候補として、会話をしている時のユーザの表情や仕草を分析して、会話内容に対して好意的であるほど、興味度を高く算出する。また、興味度算出部１４は、車内コンテンツを話題候補として、車内コンテンツが再生されている時のユーザの表情や仕草を分析して、車内コンテンツに対して、好意的であるほど、興味度を高く算出する。また、興味度算出部１４は、ユーザの状態に関する情報に基づいて、ユーザが特定の音楽やラジオ番組等に切り替えたり、音量を上げたりしている等、特定の操作をしている場合には、特定の操作をしていない場合よりも、興味度を高く算出する。

また、興味度算出部１４は、例えば、車両周辺対象を話題候補として、ユーザの視線が所定時間以上、車両周辺対象に向いていたか否かを判定する。興味度算出部１４は、ユーザの視線が所定時間以上、車両周辺対象に向いていたと判定した場合には、ユーザの視線が所定時間以上、車両周辺対象に向いていないと判定した場合よりも、興味度を高く算出する。

また、興味度算出部１４は、ユーザの身体動作及び音声の調子のうちの少なくともいずれかひとつに基づいて、会話内容の会話活性度を算出し、会話活性度に基づいて、興味度を算出してもよい。会話活性度は、会話の盛り上がりの程度を示す。例えば、ユーザの会話が途切れなく続いていたり、ユーザが大きな声で会話していたり、早口で会話していたりする場合には、会話が盛り上がっていると考えられる。また、会話中のユーザの動作が大きい場合にも、会話が盛り上がっていると考えられる。興味度算出部１４は、ユーザの身体動作の大きさや音声の調子に基づいて、会話活性度を算出する。そして、興味度算出部１４は、会話活性度が高いほど、興味度を高く算出する。

また、興味度算出部１４は、音声対話を中断している間の経過時間に基づいて、話題候補ごとに、話題候補に対するユーザの興味度を算出する。ユーザの興味は、会話や車内コンテンツが中断もしくは終了してから、又は、ユーザが車両周辺対象を認識できなくなってから、時間経過に合わせて指数関数的に減少していくと考えられる。そこで、興味度算出部１４は、話題候補ごとに、話題候補が認識されなくなった時点から音声対話を再開する時点までの経過時間に応じて、興味度を算出する。話題候補が認識されなくなった時点とは、ユーザの会話又は車内コンテンツの再生が終了した時点、又は、車両周辺対象を認識できなくなった時点である。

本実施形態では、車内収音装置２から取得した音声情報及び／又は車両センサ類３から取得した画像情報に基づいて、プロセッサ１０が、ユーザの会話や車両周辺対象等の興味対象を話題候補として認識する。そして、一度認識されていた話題候補の興味対象が認識されなくなった場合に、プロセッサ１０は、認識されなくなった時点から音声対話を再開する時点までの経過時間を計測する。例えば、ユーザが他の乗員と会話している間、プロセッサ１０は、車内収音装置２から取得した音声情報に基づいて、ユーザと他の乗員との会話を認識しているが、ユーザが他の乗員との会話を終了すると、ユーザと他の乗員との会話が認識されなくなる。なお、経過時間の計測開始時点は、話題候補が認識されなくなった時点に限らず、話題候補を認識した時点であってもよい。例えば、興味度が時間経過に合わせて増加する場合には、プロセッサ１０は、話題候補を認識した時点から経過時間を計測する。

一例として、興味度算出部１４は、興味度時定数データベース２０に記憶されている興味度時定数と、タイマー２１で計測した経過時間とに基づいて、興味度を算出する。ここで、興味度を推定する推定モデル式の一例は下記（１）の通りである。

ただし、興味度：I(t)、I₀：初期興味度、τ：興味度時定数、ｔ：経過時間である。

初期興味度I₀は、例えば、ユーザの身体動作及び音声の調子のうちの少なくともいずれかひとつに基づいて算出される。初期興味度I₀は、会話活性度に基づいて算出されてもよい。初期興味度の算出方法は、前述の興味度の算出方法と同様である。また、興味度時定数τは、時間経過に伴う興味度の変化を表す定数である。興味度時定数τは、想定される話題候補ごとに予め算出され、興味度時定数データベース２０に記憶される。興味度時定数τは、話題候補ごとに実験的に算出されることとしてもよい。また、興味度時定数τは、ユーザごとに、話題候補に関する発話の有無、話題候補が会話に出現する出現確率、回数、話題の終了タイミングなどの情報に基づいて算出されることとしてもよい。

なお、興味度は、興味度時定数τに従って時間経過に伴って減少することに限らず、時間経過に伴って増加することとしてもよい。例えば、このような話題の例として、空腹やトイレなどの生理現象を伴うものや、観光地などの目的地が挙げられる。このような話題候補に対する興味度時定数τは、負の値となるように興味度時定数データベースに記憶されている。また、興味度算出部１４は、興味度が増加する話題候補に対して、一定の周期で、話題候補がユーザにとって完結したか否かを判定する。話題候補がユーザにとって完結したと判定した場合には、興味度算出部１４は、興味度を０として算出する。例えば、空腹状態のユーザが飲食店に立ち寄った場合には、空腹状態が解消していると考えられるため、飲食店に立ち寄った時点で、興味度算出部１４は、空腹に関する話題候補がユーザによって完結したと判定する。

図３は、本実施形態における興味度I(t)と経過時間ｔの関係の一例を示す図である。図３を用いて、話題候補に対する興味度I(t)の時間変化について説明する。興味度I(t)は、興味度時定数τに従って時間経過に伴って減少する。図３では、話題候補Ａは、ユーザとの会話が中断する前の中断前会話内容に対する興味度を示している。話題候補Ａでは、興味度I(t)は、初期興味度がI₀１であり、ユーザとの会話を中断した時点ｔ１から指数関数的に低下している。

また、ユーザは、プロセッサ１０との音声対話を中断している間でも、ユーザが視覚的／聴覚的に認識した様々な事象に興味を持つ。話題候補としては、例えば、他の同乗者との会話や、車内で流れているラジオなどの車内コンテンツ、車両周辺対象などが挙げられる。図３では、話題候補ＢとＣが、プロセッサ１０との音声対話を中断している間にユーザに認識される話題候補に対する興味度を示している。また、興味度は、話題によっては、時間経過に伴って増加することとしてもよい。話題候補Ｂでは、興味度I(t)は、初期興味度がI₀２であり、話題候補が認識された時点ｔ２から増加する。また、話題候補Ｃでは、興味度I(t)は、初期興味度がI₀３であり、話題候補が認識された時点ｔ３から一定の値で推移し、話題候補が認識されなくなった時点ｔ４から指数関数的に低下する。

判定部１５は、ユーザとの音声対話を中断するか否かを判定する。判定部１５は、ユーザ状態検出装置４から、ユーザの状態に関する情報を取得し、ユーザの状態が、音声対話を中断する必要がある状態である場合に、ユーザとの音声対話を中断すると判定する。また、判定部１５は、ユーザの状態が、音声対話を中断する必要がある状態ではない場合に、ユーザとの音声対話を中断しないと判定する。音声対話を中断する必要がある状態とは、例えば、ユーザの運転負荷が高まった場合である。判定部１５は、ユーザがステアリング操作をしている状態である場合に、ユーザとの音声対話を中断すると判定する。また、判定部１５は、ユーザの血圧や心拍が高い場合に、ユーザとの音声対話を中断すると判定する。

なお、これに限らず、音声対話を中断する必要がある状況とは、自動運転において運転主体がシステムから運転者に切り替わった場合、ユーザに他の音声通話又は映像付通話の着信があった場合、及び、ユーザが会話中断操作をした場合などが挙げられる。判定部１５は、ユーザを撮像した画像に基づいて、ユーザが運転操作をしている、すなわち、自動運転において運転主体がシステムからユーザに切り替わっている場合には、ユーザの状態が、音声対話を中断する必要がある状態であると判定する。

また、判定部１５は、中断したユーザとの音声対話を再開するか否かを判定する。例えば、判定部１５は、ユーザとの会話が中断している間、一定の周期で、ユーザの状態に関する情報を取得し、ユーザの状態に関する情報に基づいて、ユーザの状態が、音声対話を再開できる状態であるか否かを判定する。音声対話を再開できる状態とは、例えば、ユーザの運転負荷が低くなった場合、自動運転において運転主体がユーザからシステムに切り替わっている場合などである。

話題選択部１６は、音声対話を再開する時点における話題候補ごとの興味度に基づいて、話題候補から、音声対話を再開する時の話題を選択する。話題選択部１６は、判定部１５によってユーザとの音声対話を再開すると判定した場合、話題候補リストの中から最も興味度が高い話題候補を音声対話の話題として選択する。話題選択部１６は、中断前会話内容に対する興味度が最も高い場合には、中断前会話内容を再開する。また、話題選択部１６は、中断中に追加された話題候補に対する興味度が最も高い場合には、中断中に追加された話題候補に話題を切り替えて再開する。図３の例では、話題選択部１６は、ユーザとの音声対話を再開する時点ｔ５において、３つの話題候補Ａ、Ｂ及びＣのうち、話題候補Ｂに対する興味度が最も高いと判定し、話題候補Ｂを会話再開時の話題として選択する。

会話生成部１７は、話題選択部１６で選択された話題からキーワードを抽出し、抽出したキーワードに基づいて、ユーザとの音声対話の起点となるスクリプトの出力データを生成する。例えば、会話生成部１７は、「カフェに行った」という話題が選択された場合には、「カフェはどうだったか」というテキストデータを生成する。会話生成部１７は、生成したテキストデータを音声合成処理により音声データに変換し、変換した音声データを出力データとして生成する。なお、音声合成処理には、公知の技術を適用することができる。

出力部１８は、話題選択部１６によって選択した話題に応じた音声データを出力する。出力部１８は、会話生成部１７によって出力データが生成されると、エージェントＡのスピーカその他の音声出力部、ディスプレイその他の表示部を介して音声データを出力させる制御信号を出力装置６に出力する。出力装置６は、エージェントＡのエージェント機能により、出力データをコミュニケーション情報として出力する。

次に、図４を用いて、興味度の推移に基づく話題候補の追加と削除の一例を説明する。図４は、経過時間とユーザの興味度との関係を示すグラフである。図４の例では、ユーザとの音声対話を中断する前、ユーザと「カフェに行きたい」という内容の会話をしていたとする。ユーザとの会話を中断した時点ｔ１で、プロセッサ１０は、「カフェに行きたい」という中断前会話内容を話題候補リストに追加する。プロセッサ１０は、時点ｔ１における中断前会話内容に対する興味度を算出するとともに、音声対話を中断した後、一定の周期で、中断前会話内容に対する興味度を算出する。図４では、話題候補Ｄは、中断前会話内容に対する興味度を示している。

例えば、音声対話を中断している間に、ユーザがカフェに立ち寄った場合、プロセッサ１０は、ＰＯＩ情報と自車両の位置情報とに基づいて、カフェの位置と自車両の現在位置とを比較して、ユーザがカフェに立ち寄ったか否かを判定する。ユーザがカフェに立ち寄ったと判定した場合には、プロセッサ１０は、図３に示されているように、ユーザがカフェに立ち寄った時点ｔ２における中断前会話内容に対する興味度を０として算出する。プロセッサ１０は、興味度が０である中断前会話内容を話題候補リストから削除する。

一方で、プロセッサ１０は、カフェの位置と自車両の現在位置とを比較して、ユーザがカフェに立ち寄ったと判定した場合には、「カフェに行った」という話題候補Ｅを話題候補リストに追加する。そして、プロセッサ１０は、時点ｔ２における話題候補Ｅに対する興味度を算出するとともに、時点ｔ２から音声対話を再開する時点ｔ３まで、一定の周期で、話題候補Ｅに対する興味度を算出する。そして、プロセッサ１０は、音声対話を再開した時点ｔ３で、話題候補Ｅを話題として選択する。プロセッサ１０は、話題候補Ｅ、すなわち、「カフェに行った」という話題候補に基づいて、ユーザとの音声対話の起点となるスクリプトデータを生成する。スクリプトデータは、例えば、「カフェはどうだったか？」である。

話題候補リストデータベース１９は、ユーザとの音声対話を再開する時にユーザに提供する話題候補に関する話題候補リストを記憶するデータベースである。話題候補リストデータベース１９では、話題候補管理部１３によって話題候補の追加及び削除、話題候補ごとの興味度の更新が行われる。

興味度時定数データベース２０は、想定される話題候補ごとに、興味度時定数を記憶するデータベースである。

タイマー２１は、経過時間を計測する。タイマー２１は、例えば、ユーザとの音声対話を中断した時点からユーザとの音声対話を再開した時点までの経過時間を計測する。

次に、図５を用いて、本実施形態にかかる音声対話方法を実行するための制御の手順を示す一例を説明する。図５は、音声対話方法に係る制御の手順を示すフローチャートの一例である。ユーザとの音声対話を中断した場合、プロセッサ１０は、ステップＳ１０１からフローを開始する。

ステップＳ１０１では、プロセッサ１０は、ユーザとの音声対話を中断する前の中断前会話内容を話題候補として認識する。例えば、プロセッサ１０は、中断前会話内容を要約して、話題候補として認識する。ステップＳ１０２では、プロセッサ１０は、ステップＳ１０１で認識した中断前会話内容に対する初期興味度を算出する。ステップＳ１０３では、プロセッサ１０は、話題候補リストに話題候補を追加する。プロセッサ１０は、中断前会話内容を話題候補として、話題候補と話題候補に対する興味度とを話題候補リストに追加する。

ステップＳ１０４では、プロセッサ１０は、話題候補リストにある各話題候補に対する興味度を再度算出する。本実施形態では、プロセッサ１０は、音声対話を再開するまで、一定の周期で、話題候補に対する興味度を算出する。例えば、プロセッサ１０は、ユーザの身体動作、ユーザの音声の調子、及び、音声対話を中断している間の経過時間のうち少なくともいずれかひとつに基づいて、話題候補ごとに、話題候補に対するユーザの興味度を算出する。ステップＳ１０５では、プロセッサ１０は、ステップＳ１０４で算出した興味度に基づいて、話題候補リストを更新する。例えば、プロセッサ１０は、各話題候補に対する興味度を、ステップＳ１０４で算出した興味度に更新する。また、プロセッサ１０は、各話題候補について、興味度が興味度閾値未満であるか否かを判定し、興味度が興味度閾値未満であると判定した話題候補を話題候補リストから削除する。

ステップＳ１０６では、プロセッサ１０は、ユーザとの音声対話を再開するか否かを判定する。例えば、プロセッサ１０は、ユーザの運転負荷が低下した場合には、ユーザとの音声対話を再開すると判定する。ユーザとの音声対話を再開すると判定した場合には、プロセッサ１０は、ステップＳ１１０に進む。ユーザとの音声対話を再開しないと判定した場合には、プロセッサ１０は、ステップＳ１０７に進む。

ステップＳ１０７では、プロセッサ１０は、ユーザとの音声対話を中断している間に、ユーザの会話内容、車内コンテンツ、車両周辺対象等、話題候補を新たに認識したか否かを判定する。話題候補を認識したと判定した場合には、プロセッサ１０は、ステップＳ１０８に進む。話題候補を認識していないと判定した場合には、プロセッサ１０は、ステップＳ１０４に戻り、以下フローを繰り返す。ステップＳ１０８では、プロセッサ１０は、ステップＳ１０７で認識した話題候補に対する初期興味度を算出する。ステップＳ１０９では、プロセッサ１０は、話題候補リストに話題候補を追加する。プロセッサ１０は、話題候補と話題候補に対する初期興味度とを話題候補リストに追加する。ステップＳ１０９の処理を実行した後、プロセッサ１０は、ステップＳ１０４に戻り、以下フローを繰り返す。

ステップＳ１１０では、プロセッサ１０は、興味度に応じて音声対話の再開時の話題を選択する。例えば、プロセッサ１０は、話題候補リストの中から、興味度が最も高い話題候補を話題として選択する。ステップＳ１１１では、プロセッサ１０は、ステップＳ１１０で選択した話題に応じて音声データを生成する。ステップＳ１１２では、プロセッサ１０は、生成した音声データを出力する。

以上のように、本実施形態では、ユーザと音声対話をするプロセッサを備える音声対話装置であって、プロセッサは、音声対話を中断した場合に、ユーザの会話内容、車両内で再生されているコンテンツ及び車両周辺の車両周辺対象のうち少なくともいずれかひとつを音声対話の話題候補として認識し、ユーザの身体動作、ユーザの音声の調子、及び、音声対話を中断している間の経過時間のうち少なくともいずれかひとつに基づいて、話題候補ごとに、話題候補に対するユーザの興味度を算出し、音声対話を再開する時点における話題候補ごとの興味度に基づいて、話題候補から、音声対話の話題を選択し、選択した話題に応じた音声データを出力する。これにより、中断したユーザとの音声対話を再開する時に、ユーザが興味のある会話内容を提供できる。

また、本実施形態では、プロセッサは、話題候補が認識されなくなった時点から音声対話を再開する時点までの経過時間を計測し、話題候補ごとに、経過時間に応じて、興味度を算出する。これにより、音声対話を中断している間の任意の時点における話題候補に対するユーザの興味度を推定することができるため、音声対話を再開する時にユーザが最も興味のある話題を提供できる。

また、本実施形態では、プロセッサは、音声対話を中断する前のユーザの会話内容を取得し、音声対話を中断する前のユーザの身体動作及び音声の調子を取得し、音声対話を中断する前のユーザの会話内容に基づいて、音声対話を中断する前のプロセッサとユーザとの間の中断前会話内容を話題候補として認識し、身体動作及び音声の調子に基づいて、中断前会話内容における会話活性度を算出し、会話活性度に基づいて、興味度を算出する。これにより、音声対話を再開する時に、音声対話を中断する前の会話内容を再開するべきか、または別の話題を提供するべきか判断できる。

また、本実施形態では、プロセッサは、音声対話を中断している間に認識した話題候補をデータベースに記憶する。これにより、音声対話を中断している間に、話題候補を蓄積できるため、音声対話を再開する時に、ユーザが最も興味のある話題を提供できる。

なお、以上に説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。

１００…音声対話システム
１…音声対話装置
１０…プロセッサ
１１…話題候補認識部
１２…ユーザ状態取得部
１３…話題候補管理部
１４…興味度算出部
１５…判定部
１６…話題選択部
１７…会話生成部
１８…出力部
２…車内収音装置
３…車両センサ類
４…ユーザ状態検出装置
５…地図データベース
６…出力装置
Ａ…エージェント

Claims

ユーザと音声対話をするプロセッサを備える音声対話装置であって、
前記プロセッサは、
前記音声対話を中断した場合に、前記ユーザの会話内容、車両内で再生されている車内コンテンツ及び前記車両周辺の車両周辺対象のうち少なくともいずれかひとつを前記音声対話の話題候補として認識し、
前記ユーザの身体動作、前記ユーザの音声の調子、及び、前記音声対話を中断している間の経過時間のうち少なくともいずれかひとつに基づいて、前記話題候補ごとに、前記話題候補に対する前記ユーザの興味度を算出し、
前記音声対話を再開する時点における前記話題候補ごとの前記興味度に基づいて、前記話題候補から、前記音声対話の話題を選択し、
選択した前記話題に応じた音声データを出力する音声対話装置。
前記プロセッサは、
前記話題候補が認識されなくなった時点から前記音声対話を再開する時点までの経過時間を計測し、
前記話題候補ごとに、前記経過時間に応じて、前記興味度を算出する請求項１に記載の音声対話装置。
前記プロセッサは、
前記音声対話を中断する前の前記ユーザの音声を取得し、
前記音声対話を中断する前の前記ユーザの身体動作及び音声の調子を取得し、
前記音声対話を中断する前の前記ユーザの音声に基づいて、前記音声対話を中断する前の前記プロセッサと前記ユーザとの間の中断前会話内容を前記話題候補として認識し、
前記身体動作及び前記音声の調子に基づいて、前記中断前会話内容における会話活性度を算出し、
前記会話活性度に基づいて、前記興味度を算出する請求項１又は２に記載の音声対話装置。
前記プロセッサは、前記音声対話を中断している間に認識した前記話題候補をデータベースに記憶する請求項１又は２に記載の音声対話装置。
プロセッサによって実行される、ユーザと音声対話をする音声対話方法であって、
前記プロセッサは、
前記音声対話を中断した場合に、前記ユーザの会話内容、車両内で再生されている車内コンテンツ及び前記車両周辺の車両周辺対象のうち少なくともいずれかひとつを前記音声対話の話題候補として認識し、
前記ユーザの身体動作、前記ユーザの音声の調子、及び、前記音声対話を中断している間の経過時間のうち少なくともいずれかひとつに基づいて、前記話題候補ごとに、前記話題候補に対する前記ユーザの興味度を算出し、
前記音声対話を再開する時点における前記話題候補ごとの前記興味度に基づいて、前記話題候補から、前記音声対話の話題を選択し、
選択した前記話題に応じた音声データを出力する音声対話方法。