JP2023162857A - 音声対話装置及び音声対話方法 - Google Patents

音声対話装置及び音声対話方法 Download PDF

Info

Publication number
JP2023162857A
JP2023162857A JP2022073543A JP2022073543A JP2023162857A JP 2023162857 A JP2023162857 A JP 2023162857A JP 2022073543 A JP2022073543 A JP 2022073543A JP 2022073543 A JP2022073543 A JP 2022073543A JP 2023162857 A JP2023162857 A JP 2023162857A
Authority
JP
Japan
Prior art keywords
user
voice
topic
interest
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022073543A
Other languages
English (en)
Inventor
雄宇 志小田
Yuu Shioda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2022073543A priority Critical patent/JP2023162857A/ja
Publication of JP2023162857A publication Critical patent/JP2023162857A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Abstract

【課題】中断したユーザへの情報提供を再開する時に、ユーザが興味のある話題の情報を提供できる音声対話装置及び音声対話方法を提供することである。【解決手段】音声対話を中断した場合に、ユーザの会話内容、車両内で再生されている車内コンテンツ及び車両周辺の車両周辺対象のうち少なくともいずれかひとつを音声対話の話題候補として認識し、ユーザの身体動作、前記ユーザの音声の調子、及び、前記音声対話を中断している間の経過時間のうち少なくともいずれかひとつに基づいて、話題候補ごとに、話題候補に対するユーザの興味度を算出し、音声対話を再開する時点における話題候補ごとの興味度に基づいて、話題候補から、音声対話の話題を選択し、選択した話題に応じた音声データを出力する。【選択図】図1

Description

本発明は、音声対話装置及び音声対話方法に関するものである。
ドライバへの通知情報を表示したときに、ドライバの運転負荷が所定の運転負荷よりも高い場合には、ドライバの所定操作に基づき、通知情報に重要度を付加して、通知情報の表示を一時的に抑制し、再表示の際に、重要度に応じて通知情報を表示する技術が知られている(特許文献1)。
特開2020-035262号公報
しかしながら、特許文献1の技術では、通知情報の表示を抑制した時に付加した重要度に応じて通知情報を再表示したとしても、通知情報を再表示した時には、ユーザが、再表示された通知情報に対して興味を失っていることがあるため、ユーザが興味のある話題の情報を提供できない可能性がある。
本発明が解決しようとする課題は、中断したユーザへの情報提供を再開する時に、ユーザが興味のある話題の情報を提供できる音声対話装置及び音声対話方法を提供することである。
本発明は、音声対話を中断した場合に、ユーザの会話内容、車両内で再生されている車内コンテンツ及び車両周辺の車両周辺対象のうち少なくともいずれかひとつを音声対話の話題候補として認識し、ユーザの身体動作、ユーザの音声の調子、及び、音声対話を中断している間の経過時間のうち少なくともいずれかひとつに基づいて、話題候補ごとに、話題候補に対するユーザの興味度を算出し、音声対話を再開する時点における話題候補ごとの興味度に基づいて、話題候補から、音声対話の話題を選択し、選択した話題に応じた音声データを出力することによって上記課題を解決する。
本発明によれば、中断したユーザへの情報提供を再開する時に、ユーザが興味のある話題の情報を提供できる。
本発明に係る音声対話装置の実施形態を示すブロック図である。 (a)及び(b)のそれぞれは、エージェントの一例を示す車内の図である。 経過時間と話題候補に対するユーザの興味度との関係を示すグラフである。 経過時間と話題候補に対するユーザの興味度との関係を示すグラフである。 音声対話装置によって実行される音声対話にかかる処理のフローチャートの一例を示す図である。
以下、本発明の実施形態を図面に基づいて説明する。本発明に係る音声対話装置を含む音声対話システムは、音声認識技術及び音声合成技術を用いて、ユーザと音声対話をするシステムである。ユーザとは、音声対話装置を利用する者をいい、主として車両の運転者であるが、ユーザは運転者以外の他の同乗者であってもよい。また、音声対話システム100は、自動車以外の場所で利用されるシステムであってもいい。以下においては、車両の運転者をユーザとして、本発明をユーザとの音声対話に適用した例で説明する。
図1は、本実施形態に係る音声対話システムの実施形態を示すブロック図である。音声対話システム100は、音声対話装置1と、車内収音装置2と、車両センサ類3と、ユーザ状態検出装置4と、地図データベース5とを備える。これらの装置及びデータベースは、たとえばCANその他の車載LANにより接続され、相互に情報の送受信を行うことができる。また、音声対話装置1は、ユーザとの音声対話をする装置であって、プロセッサ10と出力装置6とを備える。
出力装置6は、擬人化されたエージェント(以下、単にエージェントAともいう)によるエージェント機能、具体的には、音声、画像、キャラクタロボットの動作及びこれらの組み合わせの媒体を介して、ユーザに対して情報を出力する装置である。なお、ここでは出力装置6は、車両に搭載した電子機器を例として説明するが、エージェント機能を備えた電子機器であればよく、例えば、持ち運び可能なスピーカ型電子機器やディスプレイ付電子機器であってもよい。また、以下に説明するエージェントAの音声出力及び映像出力に関する機能をスマートフォン等の携帯電話に搭載してもよい。また、出力装置6は、音声、画像、文字情報などを出力してユーザに情報を提示できればよく、例えば、ナビゲーション装置のディスプレイを兼用して用いてもよい。
図2は、本実施形態に係る音声対話システムにおけるエージェント表示の一例が図示されている。エージェントAは、図1、図2(a)及び(b)に示すように、人間を模したキャラクタロボットであるエージェントA2が、基台A1に対して、図示しないアクチュエータにより出没可能に設けられている。エージェントAは、出力部18からの制御指令を受けたエージェント機能により、ユーザにコミュニケーション情報を出力する場合には、図2(b)に示すように基台A1から出現する。
本実施形態では、音声対話装置1は、ユーザとの音声対話を中断する対話中断機能を備える。音声対話装置1は、ユーザとの音声対話中に、音声対話を中断する必要があると判定した場合には、音声対話を中断する。音声対話が中断されている間、図2(a)に示すように、ユーザの会話相手であるエージェントA2は表示されない。一方、音声対話装置1は、音声対話を中断している間に、音声対話を再開すると判定した場合には、音声対話を再開する。音声対話が再開すると、ユーザの会話相手であるエージェントA2が表示され、ユーザはエージェントA2の身振り手振りを把握しながら会話を行うことができる。
エージェントAは、音声や効果音を出力するためのスピーカその他の音声出力部や、文字を含む画像を表示するディスプレイその他の表示部を含み、エージェントA2の動作とともに、音声、効果音、文字その他の画像をユーザに提供することでコミュニケーション情報を出力する。なお、本実施形態では、エージェントAをエージェントA2のような三次元物体としたが、本発明のエージェントAはこれに限定されず、ディスプレイに表示する二次元画像としてもよい。例えば、自動車に車載されているヘッドアップディスプレイ装置又はディスプレイ装置にエージェントA2の画像を表示させる。
また、擬人化されたエージェントは一例であり、人間を模さずとも、所定のキャラクタ、アバターやアイコンを表示させたエージェントであってもよい。エージェントAは、物理的な個体として設けられてもよい。また、会話相手としてアバターの表示を一例として図示するのみならず、会話相手としてアバターが表示されない音声対話生成システムにも適用できる。
車内収音装置2は、車両の車内で乗員が聞く音を収音する。車内収音装置2により収音される音は、主として車両の室内に音源がある音であって、ユーザの音声、車内メディアから出力される音を含む。ユーザの音声は、例えば、乗員間での会話、音声対話システムと乗員との対話を含む。車内メディアは、例えば、オーディオ、ラジオである。車内収音装置2は、例えば、車内に設置されたマイクである。
車両センサ類3は、車両周辺の車両周辺情報を取得する。車両センサ類3は、例えば車両の車外を撮像する車外カメラである。車外カメラは、CCD、CMOS等の撮像素子を有するCCDカメラやCMOSカメラ等である。車外カメラは、車両周辺を撮像した画像を車両周辺情報として取得する。また、車両センサ類3は、GPSを含む。GPSは、自車両の現在位置を検出する。車両センサ類3の検出結果は、所定の時間間隔でプロセッサ10に出力される。
ユーザ状態検出装置4は、ユーザの状態に関する情報を検出する。ユーザの状態は、例えば、ユーザの身体動作に関する情報を含む。ユーザ状態検出装置4は、例えば、車内のユーザを撮像する車内カメラ、ユーザの生体信号を検出する生体信号測定センサなどが挙げられる。車内カメラは、CCD、CMOS等の撮像素子を有するCCDカメラやCMOSカメラ等である。生体信号測定センサは、ステアリングホイールや着座シートの内部に設けられ、ユーザの血圧や、脈拍数の変化、発汗の程度といった生体信号をユーザの身体に関する情報として検出する。ユーザ状態検出装置4の検出結果は、所定の時間間隔でプロセッサ10に出力される。
地図データベース5は、地図情報を記憶するデータベースである。地図情報は、道路の情報等を含む。また、地図データベース5は、POI(Point Of Interest)の情報を含む。POIは、地図上の特定の場所、例えば、公共施設や飲食店、観光名所等のランドマークとなる建物の場所の情報である。
音声対話装置1は、各種処理を実行するためのプログラミングが格納されたROMと、このROMに格納されたプログラムを実行することで、音声対話装置1として機能する動作回路としてのCPUと、アクセス可能な記憶装置として機能するRAMとを備えたプロセッサ10と、出力装置6としてのエージェントAとで構成されている。プロセッサ10は、機能ブロックとして、話題候補認識部11と、ユーザ状態取得部12と、話題候補管理部13と、興味度算出部14と、判定部15と、話題選択部16と、会話生成部17と、出力部18と、を備える。また、プロセッサ10は、興味度時定数データベース20と、タイマー21とを備える。
話題候補認識部11は、ユーザとの音声対話を中断した場合に、ユーザの会話内容、車両内で再生されている車内コンテンツ及び車両周辺の車両周辺対象のうち少なくともいずれかひとつを音声対話の話題候補として認識する。話題候補は、ユーザとの音声対話を再開する時にユーザに提供する話題の候補であって、例えば、ユーザが興味を持つ可能性がある対象である。ユーザとの音声対話を中断している間にも、ユーザは、視覚的又は聴覚的に認識できる対象に対して興味を持つことがある。それによって、ユーザが、中断前の会話内容から他の対象に興味が移ることもあるため、本実施形態では、中断前の会話内容のみならず、中断している間にユーザが興味を持つ可能性がある対象を話題候補として認識する。
例えば、話題候補認識部11は、ユーザの会話内容を話題候補として認識する。話題候補認識部11は、車内収音装置2から、音声対話を中断する前及び音声対話を中断している間のユーザの音声を取得する。話題候補認識部11は、取得したユーザの音声に対して音声認識処理を実行して、ユーザの会話内容を認識する。また、話題候補認識部11は、ユーザの会話内容を要約することとしてもよい。ユーザの会話内容は、中断前のプロセッサ10とユーザとの間の中断前会話内容、ユーザとの音声対話を中断している間のユーザと他の乗員との間の中断中会話内容を含む。
話題候補認識部11は、車内で再生されている車内コンテンツを話題候補として認識する。コンテンツは、例えば、車内のオーディオやラジオなどのメディアから再生されている音楽やラジオパーソナリティーの発言内容などが挙げられる。話題候補認識部11は、車内収音装置2からメディアの音声を取得する。話題候補認識部11は、取得したメディアの音声に対して音声認識処理を実行して、車内コンテンツを認識する。また、話題候補認識部11は、ラジオの番組内容やラジオパーソナリティーの発言内容など、車内コンテンツの内容を要約することとしてもよい。
話題候補認識部11は、GPSや車外カメラなどの車両センサ類3によって検出した情報に基づいて、車両周辺対象を話題候補として認識する。車両周辺対象は、例えば、車両周辺のPOI(Point Of Interest)である。例えば、話題候補認識部11は、自車両の現在位置と地図データベース5の地図情報とに基づいて、車両周辺に位置するPOIを車両周辺対象として認識する。また、話題候補認識部11は、車外カメラによって撮像された自車両周辺の画像に対して画像認識処理を実行し、特定したPOIの特徴点を抽出し、車両周辺対象を認識する。
ユーザ状態取得部12は、ユーザ状態検出装置4から、ユーザ状態に関する情報を取得する。例えば、ユーザの状態に関する情報は、ユーザの身体に関する情報や、ユーザの動作に関する情報を含む。ユーザの身体に関する情報は、ユーザの血圧や、脈拍数の変化、発汗の程度である。また、ユーザの動作に関する情報は、ユーザの操作内容、表情、視線、仕草などを含む。ユーザ状態取得部12は、例えば、ユーザ状態検出装置4から取得したユーザの画像に対して画像認識処理を実行して、ユーザの動作に関する情報を取得する。また、ユーザ状態取得部12は、車内収音装置2から取得したユーザの音声を分析して、ユーザの口調、音程などの音声の調子の情報を取得する。
話題候補管理部13は、認識した話題候補を話題候補リストデータベース19に記憶し、話題候補を管理する。話題候補管理部13は、話題候補認識部11によって話題候補を認識した場合、話題候補を話題候補リストに追加する。話題候補管理部13は、まず、ユーザとの音声対話を中断した時に、中断前のユーザとの中断前会話内容を話題候補リストに追加する。次に、話題候補管理部13は、ユーザとの音声対話を中断している間に話題候補認識部11によって認識された話題候補を話題候補リストに追加する。
また、話題候補管理部13は、ユーザとの音声対話を中断している間、話題候補リストを更新する。例えば、話題候補管理部13は、話題候補リストにある話題候補それぞれに対する興味度を更新する。また、話題候補管理部13は、話題候補リストにある話題候補それぞれに対して、算出した興味度が興味度閾値未満であるか否かを判定する。話題候補管理部13は、興味度が興味度閾値未満であると判定した場合には、興味度が興味度閾値未満であると判定した話題候補を話題候補リストから削除する。
また、話題候補管理部13は、興味度算出部14によって算出される興味度に基づいて、話題候補リストに追加する話題候補を選択することとしてもよい。話題候補管理部13は、ユーザの会話内容、車内コンテンツ及び車両周辺対象のうち少なくともひとつをユーザの興味対象として、興味対象ごとの興味度に応じて、興味対象から話題候補を選択する。例えば、話題候補管理部13は、興味度が興味度閾値以上である興味対象を話題候補として選択する。すなわち、話題候補管理部13は、興味対象ごとに、興味度が興味度閾値以上であるか否かを判定し、興味度が興味度閾値以上であると判定した場合に、当該興味対象を話題候補として話題候補リストに追加する。
興味度算出部14は、ユーザの身体動作、ユーザの音声の調子、及び、音声対話を中断している間の経過時間のうち少なくともいずれかひとつに基づいて、話題候補ごとに、話題候補に対するユーザの興味度を算出する。ユーザの身体動作は、例えば、ユーザの操作、ユーザの表情、仕草である。また、音声の様子は、音程、発声速度(テンポ)、音量、口調等を含む。例えば、興味度算出部14は、ユーザとの音声対話を中断する前にユーザと対話していた対話内容に対して興味度を算出する。また、興味度算出部14は、ユーザとの音声対話を中断している間、一定の周期で、話題候補リストにある話題候補それぞれに対する興味度を算出する。
興味度算出部14は、例えば、ユーザの会話内容を話題候補として、会話をしている時のユーザの表情や仕草を分析して、会話内容に対して好意的であるほど、興味度を高く算出する。また、興味度算出部14は、車内コンテンツを話題候補として、車内コンテンツが再生されている時のユーザの表情や仕草を分析して、車内コンテンツに対して、好意的であるほど、興味度を高く算出する。また、興味度算出部14は、ユーザの状態に関する情報に基づいて、ユーザが特定の音楽やラジオ番組等に切り替えたり、音量を上げたりしている等、特定の操作をしている場合には、特定の操作をしていない場合よりも、興味度を高く算出する。
また、興味度算出部14は、例えば、車両周辺対象を話題候補として、ユーザの視線が所定時間以上、車両周辺対象に向いていたか否かを判定する。興味度算出部14は、ユーザの視線が所定時間以上、車両周辺対象に向いていたと判定した場合には、ユーザの視線が所定時間以上、車両周辺対象に向いていないと判定した場合よりも、興味度を高く算出する。
また、興味度算出部14は、ユーザの身体動作及び音声の調子のうちの少なくともいずれかひとつに基づいて、会話内容の会話活性度を算出し、会話活性度に基づいて、興味度を算出してもよい。会話活性度は、会話の盛り上がりの程度を示す。例えば、ユーザの会話が途切れなく続いていたり、ユーザが大きな声で会話していたり、早口で会話していたりする場合には、会話が盛り上がっていると考えられる。また、会話中のユーザの動作が大きい場合にも、会話が盛り上がっていると考えられる。興味度算出部14は、ユーザの身体動作の大きさや音声の調子に基づいて、会話活性度を算出する。そして、興味度算出部14は、会話活性度が高いほど、興味度を高く算出する。
また、興味度算出部14は、音声対話を中断している間の経過時間に基づいて、話題候補ごとに、話題候補に対するユーザの興味度を算出する。ユーザの興味は、会話や車内コンテンツが中断もしくは終了してから、又は、ユーザが車両周辺対象を認識できなくなってから、時間経過に合わせて指数関数的に減少していくと考えられる。そこで、興味度算出部14は、話題候補ごとに、話題候補が認識されなくなった時点から音声対話を再開する時点までの経過時間に応じて、興味度を算出する。話題候補が認識されなくなった時点とは、ユーザの会話又は車内コンテンツの再生が終了した時点、又は、車両周辺対象を認識できなくなった時点である。
本実施形態では、車内収音装置2から取得した音声情報及び/又は車両センサ類3から取得した画像情報に基づいて、プロセッサ10が、ユーザの会話や車両周辺対象等の興味対象を話題候補として認識する。そして、一度認識されていた話題候補の興味対象が認識されなくなった場合に、プロセッサ10は、認識されなくなった時点から音声対話を再開する時点までの経過時間を計測する。例えば、ユーザが他の乗員と会話している間、プロセッサ10は、車内収音装置2から取得した音声情報に基づいて、ユーザと他の乗員との会話を認識しているが、ユーザが他の乗員との会話を終了すると、ユーザと他の乗員との会話が認識されなくなる。なお、経過時間の計測開始時点は、話題候補が認識されなくなった時点に限らず、話題候補を認識した時点であってもよい。例えば、興味度が時間経過に合わせて増加する場合には、プロセッサ10は、話題候補を認識した時点から経過時間を計測する。
一例として、興味度算出部14は、興味度時定数データベース20に記憶されている興味度時定数と、タイマー21で計測した経過時間とに基づいて、興味度を算出する。ここで、興味度を推定する推定モデル式の一例は下記(1)の通りである。
Figure 2023162857000002
ただし、興味度:I(t)、I0:初期興味度、τ:興味度時定数、t:経過時間である。
初期興味度I0は、例えば、ユーザの身体動作及び音声の調子のうちの少なくともいずれかひとつに基づいて算出される。初期興味度I0は、会話活性度に基づいて算出されてもよい。初期興味度の算出方法は、前述の興味度の算出方法と同様である。また、興味度時定数τは、時間経過に伴う興味度の変化を表す定数である。興味度時定数τは、想定される話題候補ごとに予め算出され、興味度時定数データベース20に記憶される。興味度時定数τは、話題候補ごとに実験的に算出されることとしてもよい。また、興味度時定数τは、ユーザごとに、話題候補に関する発話の有無、話題候補が会話に出現する出現確率、回数、話題の終了タイミングなどの情報に基づいて算出されることとしてもよい。
なお、興味度は、興味度時定数τに従って時間経過に伴って減少することに限らず、時間経過に伴って増加することとしてもよい。例えば、このような話題の例として、空腹やトイレなどの生理現象を伴うものや、観光地などの目的地が挙げられる。このような話題候補に対する興味度時定数τは、負の値となるように興味度時定数データベースに記憶されている。また、興味度算出部14は、興味度が増加する話題候補に対して、一定の周期で、話題候補がユーザにとって完結したか否かを判定する。話題候補がユーザにとって完結したと判定した場合には、興味度算出部14は、興味度を0として算出する。例えば、空腹状態のユーザが飲食店に立ち寄った場合には、空腹状態が解消していると考えられるため、飲食店に立ち寄った時点で、興味度算出部14は、空腹に関する話題候補がユーザによって完結したと判定する。
図3は、本実施形態における興味度I(t)と経過時間tの関係の一例を示す図である。図3を用いて、話題候補に対する興味度I(t)の時間変化について説明する。興味度I(t)は、興味度時定数τに従って時間経過に伴って減少する。図3では、話題候補Aは、ユーザとの会話が中断する前の中断前会話内容に対する興味度を示している。話題候補Aでは、興味度I(t)は、初期興味度がI01であり、ユーザとの会話を中断した時点t1から指数関数的に低下している。
また、ユーザは、プロセッサ10との音声対話を中断している間でも、ユーザが視覚的/聴覚的に認識した様々な事象に興味を持つ。話題候補としては、例えば、他の同乗者との会話や、車内で流れているラジオなどの車内コンテンツ、車両周辺対象などが挙げられる。図3では、話題候補BとCが、プロセッサ10との音声対話を中断している間にユーザに認識される話題候補に対する興味度を示している。また、興味度は、話題によっては、時間経過に伴って増加することとしてもよい。話題候補Bでは、興味度I(t)は、初期興味度がI02であり、話題候補が認識された時点t2から増加する。また、話題候補Cでは、興味度I(t)は、初期興味度がI03であり、話題候補が認識された時点t3から一定の値で推移し、話題候補が認識されなくなった時点t4から指数関数的に低下する。
判定部15は、ユーザとの音声対話を中断するか否かを判定する。判定部15は、ユーザ状態検出装置4から、ユーザの状態に関する情報を取得し、ユーザの状態が、音声対話を中断する必要がある状態である場合に、ユーザとの音声対話を中断すると判定する。また、判定部15は、ユーザの状態が、音声対話を中断する必要がある状態ではない場合に、ユーザとの音声対話を中断しないと判定する。音声対話を中断する必要がある状態とは、例えば、ユーザの運転負荷が高まった場合である。判定部15は、ユーザがステアリング操作をしている状態である場合に、ユーザとの音声対話を中断すると判定する。また、判定部15は、ユーザの血圧や心拍が高い場合に、ユーザとの音声対話を中断すると判定する。
なお、これに限らず、音声対話を中断する必要がある状況とは、自動運転において運転主体がシステムから運転者に切り替わった場合、ユーザに他の音声通話又は映像付通話の着信があった場合、及び、ユーザが会話中断操作をした場合などが挙げられる。判定部15は、ユーザを撮像した画像に基づいて、ユーザが運転操作をしている、すなわち、自動運転において運転主体がシステムからユーザに切り替わっている場合には、ユーザの状態が、音声対話を中断する必要がある状態であると判定する。
また、判定部15は、中断したユーザとの音声対話を再開するか否かを判定する。例えば、判定部15は、ユーザとの会話が中断している間、一定の周期で、ユーザの状態に関する情報を取得し、ユーザの状態に関する情報に基づいて、ユーザの状態が、音声対話を再開できる状態であるか否かを判定する。音声対話を再開できる状態とは、例えば、ユーザの運転負荷が低くなった場合、自動運転において運転主体がユーザからシステムに切り替わっている場合などである。
話題選択部16は、音声対話を再開する時点における話題候補ごとの興味度に基づいて、話題候補から、音声対話を再開する時の話題を選択する。話題選択部16は、判定部15によってユーザとの音声対話を再開すると判定した場合、話題候補リストの中から最も興味度が高い話題候補を音声対話の話題として選択する。話題選択部16は、中断前会話内容に対する興味度が最も高い場合には、中断前会話内容を再開する。また、話題選択部16は、中断中に追加された話題候補に対する興味度が最も高い場合には、中断中に追加された話題候補に話題を切り替えて再開する。図3の例では、話題選択部16は、ユーザとの音声対話を再開する時点t5において、3つの話題候補A、B及びCのうち、話題候補Bに対する興味度が最も高いと判定し、話題候補Bを会話再開時の話題として選択する。
会話生成部17は、話題選択部16で選択された話題からキーワードを抽出し、抽出したキーワードに基づいて、ユーザとの音声対話の起点となるスクリプトの出力データを生成する。例えば、会話生成部17は、「カフェに行った」という話題が選択された場合には、「カフェはどうだったか」というテキストデータを生成する。会話生成部17は、生成したテキストデータを音声合成処理により音声データに変換し、変換した音声データを出力データとして生成する。なお、音声合成処理には、公知の技術を適用することができる。
出力部18は、話題選択部16によって選択した話題に応じた音声データを出力する。出力部18は、会話生成部17によって出力データが生成されると、エージェントAのスピーカその他の音声出力部、ディスプレイその他の表示部を介して音声データを出力させる制御信号を出力装置6に出力する。出力装置6は、エージェントAのエージェント機能により、出力データをコミュニケーション情報として出力する。
次に、図4を用いて、興味度の推移に基づく話題候補の追加と削除の一例を説明する。図4は、経過時間とユーザの興味度との関係を示すグラフである。図4の例では、ユーザとの音声対話を中断する前、ユーザと「カフェに行きたい」という内容の会話をしていたとする。ユーザとの会話を中断した時点t1で、プロセッサ10は、「カフェに行きたい」という中断前会話内容を話題候補リストに追加する。プロセッサ10は、時点t1における中断前会話内容に対する興味度を算出するとともに、音声対話を中断した後、一定の周期で、中断前会話内容に対する興味度を算出する。図4では、話題候補Dは、中断前会話内容に対する興味度を示している。
例えば、音声対話を中断している間に、ユーザがカフェに立ち寄った場合、プロセッサ10は、POI情報と自車両の位置情報とに基づいて、カフェの位置と自車両の現在位置とを比較して、ユーザがカフェに立ち寄ったか否かを判定する。ユーザがカフェに立ち寄ったと判定した場合には、プロセッサ10は、図3に示されているように、ユーザがカフェに立ち寄った時点t2における中断前会話内容に対する興味度を0として算出する。プロセッサ10は、興味度が0である中断前会話内容を話題候補リストから削除する。
一方で、プロセッサ10は、カフェの位置と自車両の現在位置とを比較して、ユーザがカフェに立ち寄ったと判定した場合には、「カフェに行った」という話題候補Eを話題候補リストに追加する。そして、プロセッサ10は、時点t2における話題候補Eに対する興味度を算出するとともに、時点t2から音声対話を再開する時点t3まで、一定の周期で、話題候補Eに対する興味度を算出する。そして、プロセッサ10は、音声対話を再開した時点t3で、話題候補Eを話題として選択する。プロセッサ10は、話題候補E、すなわち、「カフェに行った」という話題候補に基づいて、ユーザとの音声対話の起点となるスクリプトデータを生成する。スクリプトデータは、例えば、「カフェはどうだったか?」である。
話題候補リストデータベース19は、ユーザとの音声対話を再開する時にユーザに提供する話題候補に関する話題候補リストを記憶するデータベースである。話題候補リストデータベース19では、話題候補管理部13によって話題候補の追加及び削除、話題候補ごとの興味度の更新が行われる。
興味度時定数データベース20は、想定される話題候補ごとに、興味度時定数を記憶するデータベースである。
タイマー21は、経過時間を計測する。タイマー21は、例えば、ユーザとの音声対話を中断した時点からユーザとの音声対話を再開した時点までの経過時間を計測する。
次に、図5を用いて、本実施形態にかかる音声対話方法を実行するための制御の手順を示す一例を説明する。図5は、音声対話方法に係る制御の手順を示すフローチャートの一例である。ユーザとの音声対話を中断した場合、プロセッサ10は、ステップS101からフローを開始する。
ステップS101では、プロセッサ10は、ユーザとの音声対話を中断する前の中断前会話内容を話題候補として認識する。例えば、プロセッサ10は、中断前会話内容を要約して、話題候補として認識する。ステップS102では、プロセッサ10は、ステップS101で認識した中断前会話内容に対する初期興味度を算出する。ステップS103では、プロセッサ10は、話題候補リストに話題候補を追加する。プロセッサ10は、中断前会話内容を話題候補として、話題候補と話題候補に対する興味度とを話題候補リストに追加する。
ステップS104では、プロセッサ10は、話題候補リストにある各話題候補に対する興味度を再度算出する。本実施形態では、プロセッサ10は、音声対話を再開するまで、一定の周期で、話題候補に対する興味度を算出する。例えば、プロセッサ10は、ユーザの身体動作、ユーザの音声の調子、及び、音声対話を中断している間の経過時間のうち少なくともいずれかひとつに基づいて、話題候補ごとに、話題候補に対するユーザの興味度を算出する。ステップS105では、プロセッサ10は、ステップS104で算出した興味度に基づいて、話題候補リストを更新する。例えば、プロセッサ10は、各話題候補に対する興味度を、ステップS104で算出した興味度に更新する。また、プロセッサ10は、各話題候補について、興味度が興味度閾値未満であるか否かを判定し、興味度が興味度閾値未満であると判定した話題候補を話題候補リストから削除する。
ステップS106では、プロセッサ10は、ユーザとの音声対話を再開するか否かを判定する。例えば、プロセッサ10は、ユーザの運転負荷が低下した場合には、ユーザとの音声対話を再開すると判定する。ユーザとの音声対話を再開すると判定した場合には、プロセッサ10は、ステップS110に進む。ユーザとの音声対話を再開しないと判定した場合には、プロセッサ10は、ステップS107に進む。
ステップS107では、プロセッサ10は、ユーザとの音声対話を中断している間に、ユーザの会話内容、車内コンテンツ、車両周辺対象等、話題候補を新たに認識したか否かを判定する。話題候補を認識したと判定した場合には、プロセッサ10は、ステップS108に進む。話題候補を認識していないと判定した場合には、プロセッサ10は、ステップS104に戻り、以下フローを繰り返す。ステップS108では、プロセッサ10は、ステップS107で認識した話題候補に対する初期興味度を算出する。ステップS109では、プロセッサ10は、話題候補リストに話題候補を追加する。プロセッサ10は、話題候補と話題候補に対する初期興味度とを話題候補リストに追加する。ステップS109の処理を実行した後、プロセッサ10は、ステップS104に戻り、以下フローを繰り返す。
ステップS110では、プロセッサ10は、興味度に応じて音声対話の再開時の話題を選択する。例えば、プロセッサ10は、話題候補リストの中から、興味度が最も高い話題候補を話題として選択する。ステップS111では、プロセッサ10は、ステップS110で選択した話題に応じて音声データを生成する。ステップS112では、プロセッサ10は、生成した音声データを出力する。
以上のように、本実施形態では、ユーザと音声対話をするプロセッサを備える音声対話装置であって、プロセッサは、音声対話を中断した場合に、ユーザの会話内容、車両内で再生されているコンテンツ及び車両周辺の車両周辺対象のうち少なくともいずれかひとつを音声対話の話題候補として認識し、ユーザの身体動作、ユーザの音声の調子、及び、音声対話を中断している間の経過時間のうち少なくともいずれかひとつに基づいて、話題候補ごとに、話題候補に対するユーザの興味度を算出し、音声対話を再開する時点における話題候補ごとの興味度に基づいて、話題候補から、音声対話の話題を選択し、選択した話題に応じた音声データを出力する。これにより、中断したユーザとの音声対話を再開する時に、ユーザが興味のある会話内容を提供できる。
また、本実施形態では、プロセッサは、話題候補が認識されなくなった時点から音声対話を再開する時点までの経過時間を計測し、話題候補ごとに、経過時間に応じて、興味度を算出する。これにより、音声対話を中断している間の任意の時点における話題候補に対するユーザの興味度を推定することができるため、音声対話を再開する時にユーザが最も興味のある話題を提供できる。
また、本実施形態では、プロセッサは、音声対話を中断する前のユーザの会話内容を取得し、音声対話を中断する前のユーザの身体動作及び音声の調子を取得し、音声対話を中断する前のユーザの会話内容に基づいて、音声対話を中断する前のプロセッサとユーザとの間の中断前会話内容を話題候補として認識し、身体動作及び音声の調子に基づいて、中断前会話内容における会話活性度を算出し、会話活性度に基づいて、興味度を算出する。これにより、音声対話を再開する時に、音声対話を中断する前の会話内容を再開するべきか、または別の話題を提供するべきか判断できる。
また、本実施形態では、プロセッサは、音声対話を中断している間に認識した話題候補をデータベースに記憶する。これにより、音声対話を中断している間に、話題候補を蓄積できるため、音声対話を再開する時に、ユーザが最も興味のある話題を提供できる。
なお、以上に説明した実施形態は、本発明の理解を容易にするために記載されたものであって、本発明を限定するために記載されたものではない。したがって、上記の実施形態に開示された各要素は、本発明の技術的範囲に属する全ての設計変更や均等物をも含む趣旨である。
100…音声対話システム
1…音声対話装置
10…プロセッサ
11…話題候補認識部
12…ユーザ状態取得部
13…話題候補管理部
14…興味度算出部
15…判定部
16…話題選択部
17…会話生成部
18…出力部
2…車内収音装置
3…車両センサ類
4…ユーザ状態検出装置
5…地図データベース
6…出力装置
A…エージェント

Claims (5)

  1. ユーザと音声対話をするプロセッサを備える音声対話装置であって、
    前記プロセッサは、
    前記音声対話を中断した場合に、前記ユーザの会話内容、車両内で再生されている車内コンテンツ及び前記車両周辺の車両周辺対象のうち少なくともいずれかひとつを前記音声対話の話題候補として認識し、
    前記ユーザの身体動作、前記ユーザの音声の調子、及び、前記音声対話を中断している間の経過時間のうち少なくともいずれかひとつに基づいて、前記話題候補ごとに、前記話題候補に対する前記ユーザの興味度を算出し、
    前記音声対話を再開する時点における前記話題候補ごとの前記興味度に基づいて、前記話題候補から、前記音声対話の話題を選択し、
    選択した前記話題に応じた音声データを出力する音声対話装置。
  2. 前記プロセッサは、
    前記話題候補が認識されなくなった時点から前記音声対話を再開する時点までの経過時間を計測し、
    前記話題候補ごとに、前記経過時間に応じて、前記興味度を算出する請求項1に記載の音声対話装置。
  3. 前記プロセッサは、
    前記音声対話を中断する前の前記ユーザの音声を取得し、
    前記音声対話を中断する前の前記ユーザの身体動作及び音声の調子を取得し、
    前記音声対話を中断する前の前記ユーザの音声に基づいて、前記音声対話を中断する前の前記プロセッサと前記ユーザとの間の中断前会話内容を前記話題候補として認識し、
    前記身体動作及び前記音声の調子に基づいて、前記中断前会話内容における会話活性度を算出し、
    前記会話活性度に基づいて、前記興味度を算出する請求項1又は2に記載の音声対話装置。
  4. 前記プロセッサは、前記音声対話を中断している間に認識した前記話題候補をデータベースに記憶する請求項1又は2に記載の音声対話装置。
  5. プロセッサによって実行される、ユーザと音声対話をする音声対話方法であって、
    前記プロセッサは、
    前記音声対話を中断した場合に、前記ユーザの会話内容、車両内で再生されている車内コンテンツ及び前記車両周辺の車両周辺対象のうち少なくともいずれかひとつを前記音声対話の話題候補として認識し、
    前記ユーザの身体動作、前記ユーザの音声の調子、及び、前記音声対話を中断している間の経過時間のうち少なくともいずれかひとつに基づいて、前記話題候補ごとに、前記話題候補に対する前記ユーザの興味度を算出し、
    前記音声対話を再開する時点における前記話題候補ごとの前記興味度に基づいて、前記話題候補から、前記音声対話の話題を選択し、
    選択した前記話題に応じた音声データを出力する音声対話方法。
JP2022073543A 2022-04-27 2022-04-27 音声対話装置及び音声対話方法 Pending JP2023162857A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022073543A JP2023162857A (ja) 2022-04-27 2022-04-27 音声対話装置及び音声対話方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022073543A JP2023162857A (ja) 2022-04-27 2022-04-27 音声対話装置及び音声対話方法

Publications (1)

Publication Number Publication Date
JP2023162857A true JP2023162857A (ja) 2023-11-09

Family

ID=88651200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022073543A Pending JP2023162857A (ja) 2022-04-27 2022-04-27 音声対話装置及び音声対話方法

Country Status (1)

Country Link
JP (1) JP2023162857A (ja)

Similar Documents

Publication Publication Date Title
JP6515764B2 (ja) 対話装置及び対話方法
EP3192072B1 (en) Dynamic thresholds for always listening speech trigger
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
JP6635049B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP6376096B2 (ja) 対話装置及び対話方法
JP6639444B2 (ja) 情報提供装置及び情報提供方法
JP2019164345A (ja) サウンドデータを処理するシステム、ユーザ端末及びシステムの制御方法
JP6466385B2 (ja) サービス提供装置、サービス提供方法およびサービス提供プログラム
JP6589514B2 (ja) 対話装置及び対話制御方法
JP2020144663A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
US20200286479A1 (en) Agent device, method for controlling agent device, and storage medium
JP6552548B2 (ja) 地点提案装置及び地点提案方法
KR20220041831A (ko) 음성 인식의 활성화
CN111752686A (zh) 智能体装置、智能体装置的控制方法及存储介质
US9791925B2 (en) Information acquisition method, information acquisition system, and non-transitory recording medium for user of motor vehicle
JP2008046299A (ja) 音声認識装置
JP6387287B2 (ja) 不明事項解消処理システム
JP2023162857A (ja) 音声対話装置及び音声対話方法
JP6657048B2 (ja) 処理結果異常検出装置、処理結果異常検出プログラム、処理結果異常検出方法及び移動体
WO2023210171A1 (ja) 音声対話装置及び音声対話方法
JP2001134642A (ja) 社会的反応特性を利用したエージェントシステム
JP6555113B2 (ja) 対話装置
JP7310547B2 (ja) 情報処理装置及び情報処理方法
US20230160710A1 (en) Interactive Voice Navigation
JP2024073110A (ja) 制御方法及び情報処理装置