JP2020042074A

JP2020042074A - 音声対話装置、音声対話方法および音声対話プログラム

Info

Publication number: JP2020042074A
Application number: JP2018167279A
Authority: JP
Inventors: 光古賀; Ko Koga
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2020-03-19
Also published as: US20200082820A1; CN110880319A

Abstract

【課題】話者との間でその場の状況に合わせた対話を行うことができる音声対話装置、音声対話方法および音声対話プログラムを提供すること。【解決手段】音声対話装置１は、複数の話者から音声のデータを取得して音声を発した話者を特定し、話者が第一話者である場合、第一話者の音声のデータから発話内容を認識し、第一話者の発話内容に応じて発話文章のデータを生成して音声出力する処理を繰り返すことによって第一話者との対話を実行し、第一話者との対話の実行中に、従たる対話相手として設定された第二話者の音声を取得した場合に、第二話者の音声のデータから発話内容を認識し、第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定し、第二話者の発話内容が文脈を変化させるものであると判定した場合、第二話者の発話内容に基づいて、文脈を変化させる発話文章のデータを生成して音声出力する、制御部１０を備える。【選択図】図１

Description

本発明は、音声対話装置、音声対話方法および音声対話プログラムに関する。

従来、車両等に搭載され、車両の乗員と音声による対話を行う音声対話装置が提案されている。例えば特許文献１では、話者の嗜好を反映したエージェント像をモニタに表示し、このエージェント像を介して話者との対話を行う技術が開示されている。

特開２００６−１８３９４号公報

特許文献１で開示された技術では、画像認識や音声認識によって話者の視線、顔の向き、声等を検出し、これらの検出結果に基づいてエージェント像の対話制御を行っている。しかしながら、このような画像認識や音声認識では、話者がいる場の状況を正確に把握することは困難である。従って、特許文献１で開示された技術では、その場の状況に合わせた対話を行うことができないという問題があった。

本発明は、上記に鑑みてなされたものであって、話者との間でその場の状況に合わせた対話を行うことができる音声対話装置、音声対話方法および音声対話プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る音声対話装置は、複数の話者から音声のデータを取得して前記音声を発した話者を特定し、前記話者が主たる対話相手として設定された第一話者である場合、前記第一話者の音声のデータから発話内容を認識し、前記第一話者の発話内容に応じて発話文章のデータを生成して音声出力する処理を繰り返すことによって前記第一話者との対話を実行し、前記第一話者との対話の実行中に、前記複数の話者のうち、従たる対話相手として設定された第二話者の音声を取得した場合に、前記第二話者の音声のデータから発話内容を認識し、前記第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定し、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の発話内容に基づいて、前記文脈を変化させる発話文章のデータを生成して音声出力する、制御部を備える。

これにより、音声対話装置は、第一話者との間で実行中の対話の文脈を変化させるような働きかけが第二話者からなされた場合、当該第二話者の発話内容に基づいて、実行中の対話の文脈を変化させる。

また、本発明に係る音声対話装置において、前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記第一話者に対して所定の働きかけを行うものである場合、前記働きかけの内容に応じた発話文章のデータを生成して音声出力してもよい。

これにより、音声対話装置は、第一話者に対して所定の働きかけが第二話者からなされた場合、当該働きかけの内容に応じた発話文章のデータを生成し、第一話者に対して音声出力する。

また、本発明に係る音声対話装置において、前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記第一話者との対話の主題の変更指示である場合、前記主題を変更してもよい。

これにより、音声対話装置は、第一話者との間で実行中の対話の主題を変更させるような働きかけが第二話者からなされた場合、実行中の対話の主題を変更する。

また、本発明に係る音声対話装置において、前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記音声出力の音量の変更指示である場合、前記音声出力の音量を変更してもよい。

これにより、音声対話装置は、第一話者との間で実行中の対話における音声出力の音量を変更させるような働きかけが第二話者からなされた場合、実行中の対話における音声出力の音量を変更する。

また、本発明に係る音声対話装置において、前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記音声出力のタイミングの変更指示である場合、前記音声出力のタイミングを変更してもよい。

これにより、音声対話装置は、第一話者との間で実行中の対話における音声出力のタイミングを変更させるような働きかけが第二話者からなされた場合、実行中の対話における音声出力のタイミングを変更する。

また、本発明に係る音声対話装置において、前記制御部は、前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の音声のデータから前記第二話者の口調を認識し、前記口調に合わせて、生成した発話文章のデータを音声出力してもよい。

これにより、音声対話装置は、第二話者の口調に合わせて発話文章のデータを音声出力する際の口調を変更することにより、第二話者が発した発話内容の意図を第一話者に対してより伝えやすくなる。

上述した課題を解決し、目的を達成するために、本発明に係る音声対話方法は、制御部が、複数の話者から音声のデータを取得して前記音声を発した話者を特定し、前記制御部が、前記話者が主たる対話相手として設定された第一話者である場合、前記第一話者の音声のデータから発話内容を認識し、前記第一話者の発話内容に応じて発話文章のデータを生成して音声出力する処理を繰り返すことによって前記第一話者との対話を実行し、前記制御部が、前記第一話者との対話の実行中に、前記複数の話者のうち、従たる対話相手として設定された第二話者の音声を取得した場合に、前記第二話者の音声のデータから発話内容を認識し、前記第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定し、前記制御部が、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の発話内容に基づいて、前記文脈を変化させる発話文章のデータを生成して音声出力する。

これにより、音声対話方法は、第一話者との間で実行中の対話の文脈を変化させるような働きかけが第二話者からなされた場合、当該第二話者の発話内容に基づいて、実行中の対話の文脈を変化させる。

上述した課題を解決し、目的を達成するために、本発明に係る音声対話プログラムは、コンピュータを、複数の話者から音声のデータを取得して前記音声を発した話者を特定する手段、前記話者が主たる対話相手として設定された第一話者である場合、前記第一話者の音声のデータから発話内容を認識し、前記第一話者の発話内容に応じて発話文章のデータを生成して音声出力する処理を繰り返すことによって前記第一話者との対話を実行する手段、前記第一話者との対話の実行中に、前記複数の話者のうち、従たる対話相手として設定された第二話者の音声を取得した場合に、前記第二話者の音声のデータから発話内容を認識し、前記第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定する手段、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の発話内容に基づいて、前記文脈を変化させる発話文章のデータを生成して音声出力する手段、として機能させる。

これにより、音声対話プログラムは、第一話者との間で実行中の対話の文脈を変化させるような働きかけが第二話者からなされた場合、当該第二話者の発話内容に基づいて、実行中の対話の文脈を変化させる。

本発明に係る音声対話装置、音声対話方法および音声対話プログラムによれば、第一話者との対話の実行中に第二話者からの働きかけを受け付けることにより、第二話者の意向に沿って、実行中の対話の文脈を変化させることができるため、話者との間でその場の状況に合わせた対話を行うことができる。

図１は、本発明の実施形態に係る音声対話装置の機能ブロック図である。図２は、本発明の実施形態に係る音声対話装置による音声対話制御方法の流れを示すフローチャートである。図３は、本発明の実施形態に係る音声対話装置による音声対話制御方法において、話者特定の際の話者とエージェントとの対話の一例を示す図である。図４は、本発明の実施形態に係る音声対話装置による音声対話制御方法において、対話コンテンツの一例を示す図である。図５は、本発明の実施形態に係る音声対話装置による音声対話制御方法において、第一話者の嗜好に沿った対話コンテンツの一例を示す図である。図６は、本発明の実施形態に係る音声対話装置による音声対話制御方法において、第二話者の介入内容が対話コンテンツの変更指示である場合の介入制御の手順を示すフローチャートである。図７は、本発明の実施形態に係る音声対話装置による音声対話制御方法において、第二話者の介入内容が対話コンテンツの変更指示である場合の、エージェントと各話者との対話の一例を示す図である。図８は、本発明の実施形態に係る音声対話装置による音声対話制御方法において、第二話者の介入内容が対話コンテンツの音量変更指示である場合の介入制御の手順を示すフローチャートである。図９は、本発明の実施形態に係る音声対話装置による音声対話制御方法において、第二話者の介入内容が対話コンテンツの音量変更指示である場合の、エージェントと第二話者との対話の一例を示す図である。図１０は、本発明の実施形態に係る音声対話装置による音声対話制御方法において、第二話者の介入内容が対話コンテンツにおける発話タイミングの変更指示である場合の介入制御の手順を示すフローチャートである。図１１は、本発明の実施形態に係る音声対話装置による音声対話制御方法において、第二話者の介入内容が対話コンテンツにおける発話タイミングの変更指示である場合の、エージェントと第二話者との対話の一例を示す図である。図１２は、本発明の実施形態に係る音声対話装置による音声対話制御方法において、第二話者の介入内容が喧嘩の調停である場合の介入制御の手順を示すフローチャートである。図１３は、本発明の実施形態に係る音声対話装置による音声対話制御方法において、第二話者の介入内容が喧嘩の調停である場合の、エージェントと各話者との対話の一例を示す図である。図１４は、本発明の実施形態に係る音声対話装置による音声対話制御方法において、第二話者の介入内容が喧嘩の調停である場合の、エージェントと各話者との対話の一例を示す図である。図１５は、本発明の実施形態に係る音声対話装置による音声対話制御方法において、第二話者の介入内容が喧嘩の調停である場合の、エージェントと各話者との対話の一例を示す図である。

本発明の実施形態に係る音声対話装置、音声対話方法および音声対話プログラムについて、図面を参照しながら説明する。なお、本発明は以下の実施形態に限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。

本実施形態に係る音声対話装置は、例えば車両に搭載され、車両に搭乗している複数の話者（ユーザ）と対話を行う装置である。音声対話装置の一態様としては、例えば車両に内蔵される態様が挙げられる。この場合、音声対話装置は、車両内に設けられたマイク、スピーカ、モニタ等を通じて、複数の話者と対話を行う。また、音声対話装置の別の態様としては、車両とは別体の小型のロボット等によって構成される態様が挙げられる。この場合、音声対話装置は、ロボットに設けられたマイク、スピーカ、モニタ等を通じて、複数の話者と対話を行う。

本実施形態では、音声対話装置の機能として複数の話者と対話を行う擬人化された主体のことを「エージェント」と定義する。例えば音声対話装置が車両に内蔵されている場合は、モニタ上等に擬人化されたエージェントの像（画像データ）を表示する。このエージェントの像は、人間、動物、ロボット、アニメのキャラクター等、話者の嗜好に合わせて選択可能とする。また、音声対話装置が小型のロボットによって構成される場合は、このロボット自体がエージェントとして機能する。

また、本実施形態では、車両に家族が搭乗しているシーンを想定しており、音声対話装置と対話を交わす話者として、運転席に座っている「ドライバー（例えば父親）」、助手席に座っている子供以外の「同乗者（例えば母親）」、後部座席に座っている「子供」、の三者を想定している。

また、音声対話装置は、上記三者のうち、主に子供と対話を行うことを想定している。すなわち、音声対話装置は、ドライバーの代わりに子供と対話を行うことにより、運転中のドライバーの負担を減らし、運転に集中できる環境を提供する。そのため、音声対話装置が実行する対話コンテンツ（例えば「しりとり、クイズ、歌、面白い話、怖い話」等）は、主に子供を対象としている。また、本実施形態では、複数の話者のうち、音声対話装置の主たる対話相手（子供）のことを「第一話者（第一ユーザ）」と定義し、音声対話装置の従たる対話相手（ドライバー、同乗者）のことを「第二話者（第二ユーザ）」と定義する。

［音声対話装置］
音声対話装置１は、図１に示すように、制御部１０と、記憶部２０と、マイク３０と、スピーカ４０と、を備えている。また、音声対話装置１は、ＣＡＮ（Controller Area Network）等の車載ネットワークにより、無線通信装置（例えばＤＣＭ：Data Communication Module）２およびナビゲーション装置３と相互に通信可能に接続されている。

無線通信装置２は、外部のサーバ４と通信を行うための通信手段である。無線通信装置２とサーバ４とは、例えば無線ネットワークにより接続されている。ナビゲーション装置３は、モニタ等の表示部と、ＧＰＳ衛星からの信号を受信するＧＰＳ受信部を備えている。ナビゲーション装置３は、ＧＰＳ受信部で取得した現在位置の情報に基づいて、車両の周辺の地図情報や目的地までの経路情報を表示部に表示することにより、ナビゲーションを行う。サーバ４は、無線通信装置２を通じて、必要に応じて車両との間で情報のやり取りを行うことにより、種々の情報処理を行う。

制御部（プロセッサ）１０は、具体的にはＣＰＵ（Central Processing Unit）等の演算処理装置によって構成されており、マイク３０から入力された音声のデータを処理するとともに、生成した発話文章のデータをスピーカ４０に対して出力する。制御部１０は、コンピュータプログラムを実行することにより、話者特定部１１、対話コンテンツ制御部１２および介入制御部１３として機能する。

話者特定部１１は、車両内における複数の話者の音声のデータをマイク３０から取得し、例えば声紋認証を利用して、音声を発した話者を特定する。話者特定部１１は、具体的には、車両内における複数の話者の名前を尋ねる発話文章のデータ（以下、単に「発話文章」という）や、ドライバーおよび同乗者が誰であるのかを尋ねる発話文章を生成し、スピーカ４０によって、生成した発話文章を音声出力する（例えば後記する図３の（１−１）、（１−１２）参照）。

次に、話者特定部１１は、複数の話者からの回答を示す音声のデータをマイク３０から取得し、その発話内容を認識する。そして、話者特定部１１は、話者の音声、名前、属性を対応付けた情報（以下、「話者データ」という）を、後記する話者記憶部２１に格納する。なお、話者特定部１１は、話者特定の際に、例えば各話者の嗜好や年齢等を尋ね、各話者の話者データに追加してもよい。

ここで、前記した「話者の属性」とは、各話者が第一話者（子供）と第二話者（ドライバー、同乗者）のどちらに属するのかを示す情報である。各話者が第一話者と第二話者のどちらに属するのかについては、例えば前記したように、車両内における複数の話者に対して、ドライバーおよび同乗者（すなわち第二話者）が誰であるのかを尋ね、その回答を得ることにより、把握することができる。

話者特定部１１による話者特定は、対話コンテンツ制御部１２によって対話コンテンツが開始される前に行われる（後記する図２参照）。また、話者特定部１１による話者特定の際にエージェントが発する発話文章の少なくとも一部（例えば後記する図３の（１−３）における「○○君ね、○○君は何が好きかな？」）は、後記する発話文章記憶部２３に予め記憶されている。話者特定部１１は、話者特定の際に必要な発話文章の一部を発話文章記憶部２３から読み出し、例えば対話相手の名前（例えば同図の「ハルヤ」）等を組み合わせて発話文章を生成する（例えば同図の（１−３））。そして、話者特定部１１は、スピーカ４０によって、生成した発話文章を音声出力する。

対話コンテンツ制御部１２は、主たる対話相手として設定された第一話者（子供）との間で対話を実行する。対話コンテンツ制御部１２は、具体的には、話者特定部１１によって特定した話者が第一話者である場合、マイク３０によって取得した第一話者の音声のデータから、その発話内容を認識する。そして、対話コンテンツ制御部１２は、第一話者の発話内容に応じて発話文章のデータを生成し、スピーカ４０によって、生成した発話文章を音声出力する処理を繰り返すことによって第一話者との対話を実行する。

ここで、本実施形態では、ある主題（テーマ）に関する発話文章の集合、すなわち第一話者に対して能動的に発する発話文章（例えば後記する図４の（２−１））と、第一話者の応答に対応する発話文章の候補（例えば同図の（２−４））のことを、「対話コンテンツ」と定義する。

対話コンテンツは、例えば「しりとり、クイズ、歌、面白い話、怖い話」等、複数の主題が設定されており、各々の主題を有する複数の対話コンテンツが、後記する対話コンテンツ記憶部２２に予め記憶されている。対話コンテンツ制御部１２は、対話コンテンツを対話コンテンツ記憶部２２から読み出し、必要な発話文章を選択したり、あるいは対話相手の名前を組み合わせて発話文章を生成する。そして、対話コンテンツ制御部１２は、選択または生成した発話文章を音声出力する。

介入制御部１３は、第一話者との対話の文脈を変化させるような働きかけが第二話者からなされた場合、第二話者の発話内容に基づいて、実行中の対話の文脈を変化させる。介入制御部１３は、具体的には、第一話者との対話の実行中に、複数の話者のうち、従たる対話相手として設定された第二話者の音声を、マイク３０によって取得する。次に、介入制御部１３は、第二話者の音声のデータから発話内容を認識し、第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定する。そして、介入制御部１３は、第二話者の発話内容が文脈を変化させるものであると判定した場合、第二話者の発話内容に基づいて、文脈を変化させる発話文章のデータを生成し、スピーカ４０によって、生成した発話文章を音声出力する。

ここで、本実施形態では、前記したように、第二話者による、第一話者との対話の文脈を変化させるような働きかけのことを、「介入」と定義する。また、第二話者による介入とは、言い換えると、その場（車両内）の状況を把握している第二話者からの情報提供のことを意味している。第一話者との対話の実行中に第二話者による介入が行われる場合としては、対話コンテンツを別の対話コンテンツに変更したい場合、（２）対話コンテンツの音量を変更したい場合、（３）対話コンテンツの発話タイミングを変更したい場合、（４）第一話者に対して所定の働きかけを行いたい場合、が挙げられる。以下、各々の場合において介入制御部１３が行う制御（以下、「介入制御」という）の概要について説明する。

（１）対話コンテンツを別の対話コンテンツに変更したい場合
この場合、介入制御部１３は、第一の介入制御を行う。介入制御部１３は、第一話者との対話の実行中に取得した第二話者の発話内容が実行中の対話の文脈を変化させるものである場合において、第二話者の発話内容が、対話コンテンツの変更指示である場合（例えば後記する図７の（４−１））、対話コンテンツを別の対話コンテンツに変更する。なお、「対話コンテンツを変更する」とは、具体的には第一話者との対話の主題を変更することを示している。

第一の介入制御の際にエージェントが発する発話文章の少なくとも一部は、後記する発話文章記憶部２３に予め記憶されている。例えば介入制御部１３は、第一の介入制御の際に必要な発話文章の一部（例えば後記する図７の（４−２）における「じゃあ、○○ちゃんお好きな○○にしましょうか？」）を発話文章記憶部２３から読み出し、例えば対話相手の名前（例えば同図の「リア」）や対話相手の発話内容（例えば同図の「危険生物クイズ」）等を組み合わせて発話文章を生成する（例えば同図の（４−２））。そして、介入制御部１３は、スピーカ４０によって、生成した発話文章を音声出力する。

（２）対話コンテンツの音量を変更したい場合
この場合、介入制御部１３は、第二の介入制御を行う。介入制御部１３は、第一話者との対話の実行中に取得した第二話者の発話内容が実行中の対話の文脈を変化させるものである場合において、第二話者の発話内容が、対話コンテンツの音量の変更指示である場合（例えば後記する図９の（５−１））、対話コンテンツの音量を変更する。なお、「対話コンテンツの音量を変更する」とは、具体的にはスピーカ４０による音声出力の音量を変更すること、すなわちスピーカ４０の音量を変更することを示している。

第二の介入制御の際にエージェントが発する発話文章の少なくとも一部は、後記する発話文章記憶部２３に予め記憶されている。介入制御部１３は、第二の介入制御の際に必要な発話文章の一部（例えば後記する図９の（５−２）における「了解です。○○さん、このぐらいの音量でいいですか？」）を発話文章記憶部２３から読み出し、例えば対話相手の名前（例えば同図の「パパ」）等を組み合わせて発話文章を生成する（例えば同図の（５−２））。そして、介入制御部１３は、スピーカ４０によって、生成した発話文章を音声出力する。

（３）対話コンテンツの発話タイミングを変更したい場合
この場合、介入制御部１３は、第三の介入制御を行う。介入制御部１３は、第一話者との対話の実行中に取得した第二話者の発話内容が実行中の対話の文脈を変化させるものである場合において、第二話者の発話内容が、対話コンテンツの発話タイミングの変更指示である場合（例えば後記する図１１の（６−１））、対話コンテンツの音量を変更する。なお、「対話コンテンツの発話タイミングを変更する」とは、具体的にはスピーカ４０による音声出力のタイミングを変更することを示している。

第三の介入制御の際にエージェントが発する発話文章の少なくとも一部は、後記する発話文章記憶部２３に予め記憶されている。介入制御部１３は、第三の介入制御の際に必要な発話文章の一部（例えば後記する図１１の（６−２）における「了解です。○○さん、○○ではお話しないようにしますね。」）を発話文章記憶部２３から読み出し、例えば対話相手の名前（例えば同図の「パパ」）や対話相手の発話内容（例えば同図の「交差点」）等を組み合わせて発話文章を生成する（例えば同図の（６−２））。そして、介入制御部１３は、スピーカ４０によって、生成した発話文章を音声出力する。

（４）第一話者に対して所定の働きかけを行いたい場合
ここで、「第一話者に対して所定の働きかけをしたい場合」とは、例えば第一話者である子供同士が喧嘩を始めたため喧嘩の調停が必要である場合や、機嫌の悪い子供（ぐずっている子供）をあやしたい場合、等が挙げられる。

この場合、介入制御部１３は、第四の介入制御を行う。介入制御部１３は、第一話者との対話の実行中に取得した第二話者の発話内容が実行中の対話の文脈を変化させるものである場合において、第二話者の発話内容が、第一話者に対して所定の働きかけを行うものである場合（例えば後記する図１３の（７−１））、働きかけの内容に応じた発話文章のデータを生成して音声出力する。

第四の介入制御の際にエージェントが発する発話文章の少なくとも一部は、後記する発話文章記憶部２３に予め記憶されている。例えば介入制御部１３は、第四の介入制御の際に必要な発話文章の一部（例えば後記する図１３の（７−２）における「○○ちゃん、どうして泣いちゃったの？」）を発話文章記憶部２３から読み出し、例えば対話相手の名前（例えば同図の「リア」）等を組み合わせて発話文章を生成する（例えば同図の（７−２））。そして、介入制御部１３は、スピーカ４０によって、生成した発話文章を音声出力する。

記憶部２０は、例えばＨＤＤ（Hard Disk Drive）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random access memory）等によって構成されており、話者記憶部２１と、対話コンテンツ記憶部２２と、発話文章記憶部２３と、を有している。

話者記憶部２１は、話者特定部１１によって生成された話者データを記憶する。また、対話コンテンツ記憶部２２は、対話コンテンツ制御部１２で利用される複数の対話コンテンツを予め記憶する。対話コンテンツ記憶部２２は、例えば第一話者である子供が興味を抱くような複数の主題（例えば「しりとり、クイズ、歌、面白い話、怖い話」等）を有する対話コンテンツを記憶している。また、発話文章記憶部２３は、話者特定部１１、対話コンテンツ制御部１２および介入制御部１３が生成する発話文章の一部を予め記憶する。

マイク３０は、複数の話者（第一話者：子供、第二話者：ドライバー、同乗者）が発した音声を集音し、その音声のデータを生成する。そして、マイク３０は、生成した音声のデータを制御部１０の各部に出力する。スピーカ４０には、制御部１０の各部で生成された発話文章のデータが入力される。そして、スピーカ４０は、入力された発話文章のデータを、複数の話者（第一話者：子供、第二話者：ドライバー、同乗者）に対して音声出力する。

マイク３０およびスピーカ４０は、音声対話装置１が車両に内蔵される場合は車両内に、音声対話装置１が小型のロボットによって構成される場合は当該ロボットに設けられる。

［音声対話制御方法］
以下、音声対話装置１による音声対話制御方法について、図２〜図５を参照しながら説明する。

音声対話装置１のエージェントが起動すると（スタート）、話者特定部１１は、対話により、車両内の複数の話者（第一話者および第二話者）を特定して登録する（ステップＳ１）。

ステップＳ１では、例えば図３の（１−１）〜（１−９）に示すように、第一話者である二人の子供Ａ，Ｂと対話を交わすことにより、それぞれの名前（ハルヤ、リア）を特定し、話者データとして話者記憶部２１に格納する。また、本ステップでは、同図の（１−１２）〜（１−１４）に示すように、第二話者であるドライバー（パパ）と対話を交わすことにより、ドライバーを特定し、話者データとして話者記憶部２１に格納する。

なお、ステップＳ１では、図３の（１−３）〜（１−５）および（１−７）〜（１−９）に示すように、子供Ａ，Ｂの名前に加えて各自の嗜好を聞き出し、話者データに含めて話者記憶部２１に格納してもよい。ここで聞き出した嗜好は、後記するように、対話コンテンツ制御部１２が対話コンテンツを選択する際に参酌される（後記する図５参照）。

続いて、対話コンテンツ制御部１２は、子供Ａ，Ｂに対して、対話コンテンツを開始する（ステップＳ２）。本ステップにおいて、対話コンテンツ制御部１２は、対話コンテンツ記憶部２２から、例えば図４に示す「しりとり」や図５に示す「クイズ」等の対話コンテンツを読み出して対話を実行する。なお、図５は、対話コンテンツ制御部１２が、対話コンテンツ記憶部２２に格納された対話コンテンツの中から、話者特定の際に聞き出した話者（子供Ｂ：リア）の嗜好に合致した対話コンテンツ（危険生物クイズ）を選択した例を示している。

続いて、介入制御部１３は、第一話者との対話の実行中に、当該対話の文脈を変化させるような働きかけが第二話者からなされたか否かを判定する（ステップＳ３）。ステップＳ３において、働きかけがあったと判定した場合（ステップＳ３でＹｅｓ）、介入制御部１３は、第二話者の音声データから働きかけの内容を把握し（ステップＳ４）、働きかけの内容に応じた制御を実施する（ステップＳ５）。なお、ステップＳ３において、働きかけがないと判定した場合（ステップＳ３でＮｏ）、介入制御部１３は、ステップＳ６に進む。

ステップＳ５に続いて、対話コンテンツ制御部１２は、第二話者の音声のデータに基づいて、当該第二話者による対話コンテンツの終了指示があるか否かを判定する（ステップＳ６）。ステップＳ６において、第二話者による対話コンテンツの終了指示があると判定した場合（ステップＳ６でＹｅｓ）、対話コンテンツ制御部１２は、対話コンテンツを終了する（ステップＳ７）。これにより、音声対話制御が終了する。なお、ステップＳ６において、第二話者による対話コンテンツの終了指示がないと判定した場合（ステップＳ６でＮｏ）、対話コンテンツ制御部１２は、ステップＳ３に戻る。

ここで、図２のステップＳ５における介入制御の具体例について、図６〜図１５を参照しながら説明する。以下では、ステップＳ５において介入制御部１３が行う第一〜第四の介入制御の具体例をそれぞれ説明する。

（１）第一の介入制御
例えば音声対話装置１が、後部座席に座っている子供に対して対話コンテンツ（例えば「しりとり」）の対話を実行している際に、同じ主題の対話コンテンツばかりであると子供が飽きてしまうことがある。しかしながら、音声対話装置１は、このような場の状況を把握することができない。そこで、第一の介入制御では、場の状況を把握しているドライバー（または同乗者）からの介入を受け付けて対話コンテンツを変更することにより、対話コンテンツに対する子供の飽きを回避する。

この場合、図６に示すように、介入制御部１３は、前記したステップＳ４における働きかけの内容の把握結果に基づいて、第二話者による対話コンテンツの変更指示があるか否かを判定する（ステップＳ５１）。ステップＳ５１において、第二話者による対話コンテンツの変更指示があると判定した場合（ステップＳ５１でＹｅｓ）、介入制御部１３は、第一話者の発話内容に基づいて、当該第一話者が対話コンテンツの変更を承諾したか否かを判定する（ステップＳ５２）。なお、ステップＳ５１において、第二話者による対話コンテンツの変更指示がないと判定した場合（ステップＳ５１でＮｏ）、介入制御部１３は、ステップＳ５１に戻る。

ステップＳ５２において、第一話者が対話コンテンツの変更を承諾したと判定した場合（ステップＳ５２でＹｅｓ）、介入制御部１３は、変更指示に従って、対話コンテンツを別の対話コンテンツに変更する（ステップＳ５３）。これにより、第一の介入制御が終了する。なお、ステップＳ５２において、第一話者が対話コンテンツの変更を承諾していないと判定した場合（ステップＳ５２でＮｏ）、介入制御部１３は、第一の介入制御を終了する。

第一の介入制御では、例えば図７に示すような対話が行われる。まず、ドライバー（パパ）がエージェントに対して、子供（リア）が好きな対話コンテンツ（危険生物クイズ）への変更を指示する（同図の（４−１））。これを受けて、エージェントは、二人の子供（リア、ハルヤ）に対して、対話コンテンツの変更の承諾を求め（同図の（４−２））、二人の子供（リア、ハルヤ）が承諾した場合（同図の（４−３）、（４−４））、対話コンテンツを変更する。なお、同図では、二人の子供が対話コンテンツの変更を承諾している例を示しているが、変更を承諾しなかった場合、エージェントはさらに別の対話コンテンツへの変更を提案してもよい。

（２）第二の介入制御
例えば音声対話装置１が第一話者との対話を実行している際に、対話コンテンツの音量（スピーカ４０の音量）が大きすぎると、ドライバーが運転に集中できなくなり、運転が不安定となる可能性がある。しかしながら、音声対話装置１は、このような場の状況を把握することができない。そこで、第二の介入制御では、場の状況を把握しているドライバー（または同乗者）からの介入を受け付けて対話コンテンツの音量を変更することにより、ドライバーの運転が不安定となることを抑制する。

この場合、図８に示すように、介入制御部１３は、前記したステップＳ４における働きかけの内容の把握結果に基づいて、第二話者による対話コンテンツの音量の変更指示があるか否かを判定する（ステップＳ５４）。ステップＳ５４において、第二話者による対話コンテンツの音量の変更指示があると判定した場合（ステップＳ５４でＹｅｓ）、介入制御部１３は、変更指示に従って、スピーカ４０の音量を変更する（ステップＳ５５）。なお、ステップＳ５４において、第二話者による対話コンテンツの音量の変更指示がないと判定した場合（ステップＳ５４でＮｏ）、介入制御部１３は、ステップＳ５４に戻る。

続いて、介入制御部１３は、第二話者が対話コンテンツの音量の変更を承諾したか否かを判定する（ステップＳ５６）。ステップＳ５６において、第二話者が対話コンテンツの音量の変更を承諾したと判定した場合（ステップＳ５６でＹｅｓ）、介入制御部１３は、第二の介入制御を終了する。なお、ステップＳ５６において、第二話者が対話コンテンツの音量の変更を承諾していないと判定した場合（ステップＳ５６でＮｏ）、介入制御部１３は、ステップＳ５５に戻る。

第二の介入制御では、例えば図９に示すような対話が行われる。まず、ドライバー（パパ）がエージェントに対して、対話コンテンツの音量を下げることを指示する（同図の（５−１））。これを受けて、エージェントは、対話コンテンツの音量を所定量下げ、ドライバーに対して承諾を求める（同図の（５−２））。

（３）第三の介入制御
例えば、交差点や高速道路の出入口等、慎重な運転が必要となる場面において、音声対話装置１が第一話者との対話を実行している際の音声が聞こえると、ドライバーが運転に集中できなくなり、運転が不安定となる可能性がある。しかしながら、音声対話装置１は、このような場の状況を把握することができない。そこで、第三の介入制御では、場の状況を把握しているドライバー（または同乗者）からの介入を受け付けて対話コンテンツの発話タイミングを変更することにより、ドライバーの運転が不安定となることを抑制する。

この場合、図１０に示すように、介入制御部１３は、前記したステップＳ４における働きかけの内容の把握結果に基づいて、第二話者による発話タイミングの変更指示があるか否かを判定する（ステップＳ５７）。ステップＳ５７において、第二話者による発話タイミングの変更指示があると判定した場合（ステップＳ５７でＹｅｓ）、介入制御部１３は、対話コンテンツの発話タイミングを変更し（ステップＳ５８）、第三の介入制御を終了する。なお、ステップＳ５７において、第二話者による発話タイミングの変更指示がないと判定した場合（ステップＳ５７でＮｏ）、介入制御部１３は、ステップＳ５７に戻る。

第三の介入制御では、例えば図１１に示すような対話が行われる。まず、ドライバー（パパ）がエージェントに対して、交差点周辺では発話をしないように指示する（同図の（６−１））。これを受けて、エージェントは、交差点周辺では発話をしないように発話タイミングを変更する（同図の（６−２））。なお、交差点の位置は、ナビゲーション装置３によって特定可能である。

（４）第四の介入制御
例えば、運転中に子供同士が喧嘩を始めたりすると、ドライバーが運転に集中できなくなり、運転が不安定となる可能性がある。しかしながら、音声対話装置１は、このような場の状況を把握することができない。そこで、第四の介入制御では、場の状況を把握しているドライバー（または同乗者）からの介入を受け付け、子供同士の喧嘩の調停を行うことにより、ドライバーの運転が不安定となることを抑制する。

この場合、図１２に示すように、介入制御部１３は、前記したステップＳ４における働きかけの内容の把握結果に基づいて、第二話者の働きかけの内容に応じた発話文章を生成する（ステップＳ５９）。そして、介入制御部１３は、対象となる第一話者に対して、当該発話文章の発話（音声出力）を行う（ステップＳ６０）。

第四の介入制御では、例えば図１３に示すような対話が行われる。まず、ドライバー（パパ）がエージェントに対して、子供同士の喧嘩の発生を知らせる（同図の（７−１））。これを受けて、エージェントは、対話コンテンツを中断し、二人の子供（リア、ハルヤ）に対して喧嘩の調停を行う（同図の（７−２）〜（７−６））。そして、エージェントは、子供（リア）の嗜好に合致した対話コンテンツ（危険生物クイズ）への変更を提案する（同図の（７−２）〜（７−７））。

また、第四の介入制御では、例えば図１４に示すような対話を行ってもよい。まず、ドライバー（パパ）がエージェントに対して、子供同士の喧嘩の発生を知らせる（同図の（８−１））。これを受けて、エージェントは、対話コンテンツを中断し、二人の子供（リア、ハルヤ）に対して、通常よりも大きな声で発話を行い、喧嘩の調停を行う（同図の（８−２）〜（８−４））。そして、エージェントは、別の対話コンテンツ（しりとり）への変更を提案する（同図の（８−４）、（８−５））。

また、第四の介入制御では、例えば図１５に示すような対話を行ってもよい。まず、ドライバー（パパ）がエージェントに対して、子供同士の喧嘩の発生を知らせる（同図の（９−１））。これを受けて、エージェントは、対話コンテンツを中断し、二人の子供（リア、ハルヤ）に対して、通常よりも大きな声で別の対話コンテンツ（怖い話）への変更を提案する（同図の（９−２））。これにより、二人の子供の興味が喧嘩から怖い話へと移り、喧嘩状態が解消する。

ここで、第四の介入制御において、介入制御部１３は、第二話者（ドライバー、同乗者）の音声のデータから第二話者の口調を認識し、当該口調に合わせて、生成した発話文章のデータを音声出力してもよい。なお、前記した「口調」とは、例えば音声の音量、抑揚、スピード等が挙げられる。この場合、例えば前記した図１３〜図１５において、ドライバー（パパ）がエージェントに対して、叱り口調や大声で子供の喧嘩の発生を知らせると、介入制御部１３は、エージェントが子供に対して叱り口調または大声で、発話文章の音声出力を行う。

このように、第二話者の口調に合わせて、発話文章を音声出力する際の口調を変更することにより、第二話者が発した発話内容の意図を第一話者に対してより伝えやすくなる。そのため、例えばエージェントが子供の喧嘩を仲裁したり機嫌の悪い子供をあやしたりする際に、ドライバーの意思がより反映されやすくなる。従って、子供に対してより効果的な働きかけを行うことができ、例えば子供の喧嘩を早期に解決したり、あるいは子供の機嫌を早期に回復させることが可能となる。

以上のように、本実施形態に係る音声対話装置１およびこれを用いた音声対話方法によれば、第一話者（子供）との対話の実行中に第二話者（ドライバー、同乗者）からの働きかけを受け付けることにより、第二話者の意向に沿って、実行中の対話の文脈を変化させることができるため、話者との間でその場の状況に合わせた対話を行うことができる。

また、音声対話装置１およびこれを用いた音声対話方法によれば、車両に同乗する子供同士の喧嘩や子供の機嫌の悪化等、センシングによる把握が困難な状況が発生した際に、ドライバー（または同乗者）からの介入を受け付けることにより、子供同士の喧嘩を調停したり、子供をあやしたりすることが可能となる。そのため、ドライバーが運転に集中できなくなることを回避することができ、ドライバーの運転が不安定となることを抑制することができる。

［音声対話プログラム］
本実施形態に係る音声対話プログラムは、コンピュータを、前記した制御部１０の各部（各手段）として機能させたものである。音声対話プログラムは、例えばハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ等の、コンピュータで読み取り可能な記録媒体に格納して配布してもよく、あるいは、ネットワークを介して流通させてもよい。

以上、本発明に係る音声対話装置、音声対話方法および音声対話プログラムについて、発明を実施するための形態により具体的に説明したが、本発明の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。また、これらの記載に基づいて種々変更、改変等したものも本発明の趣旨に含まれることはいうまでもない。

例えば、前記した図１では、音声対話装置１の構成要素が全て車両に搭載されている例について示したが、音声対話装置１の一部がサーバ４に置かれていてもよい。例えば、音声対話装置１におけるマイク３０およびスピーカ４０以外の構成が全てサーバ４内に配置されており、無線通信装置２を通じてサーバ４と通信を行うことにより、話者特定、対話コンテンツ制御、介入制御等を行ってもよい。

また、前記した図３では、第二話者としてドライバーのみを特定したが、ドライバーとともに同乗者を第二話者として特定してもよい。

また、前記した図７、図９、図１１、図１３〜図１５では、第一〜第四介入制御の主体がドライバーである例について示したが、ドライバーではなく同乗者が第一〜第四介入制御の主体であってもよい。

また、音声対話装置１の話者特定部１１は、話者特定の際に話者の年齢を尋ねることにより、子供（第一話者）と大人（第二話者）とを区別してもよい。

また、前記した実施形態では、音声対話装置１が車両に搭載されることを前提として説明を行ったが、例えば音声対話装置１が家庭内に設けられ、家庭内において家族と対話を交わすようなものであってもよい。

１音声対話装置
２無線通信装置
３ナビゲーション装置
４サーバ
１０制御部
１１話者特定部
１２対話コンテンツ制御部
１３介入制御部
２０記憶部
２１話者記憶部
２２対話コンテンツ記憶部
２３発話文章記憶部

Claims

複数の話者から音声のデータを取得して前記音声を発した話者を特定し、
前記話者が主たる対話相手として設定された第一話者である場合、前記第一話者の音声のデータから発話内容を認識し、前記第一話者の発話内容に応じて発話文章のデータを生成して音声出力する処理を繰り返すことによって前記第一話者との対話を実行し、
前記第一話者との対話の実行中に、前記複数の話者のうち、従たる対話相手として設定された第二話者の音声を取得した場合に、前記第二話者の音声のデータから発話内容を認識し、前記第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定し、
前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の発話内容に基づいて、前記文脈を変化させる発話文章のデータを生成して音声出力する、
制御部を備える音声対話装置。
前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記第一話者に対して所定の働きかけを行うものである場合、前記働きかけの内容に応じた発話文章のデータを生成して音声出力する、
請求項１に記載の音声対話装置。
前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記第一話者との対話の主題の変更指示である場合、前記主題を変更する、
請求項１または請求項２に記載の音声対話装置。
前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記音声出力の音量の変更指示である場合、前記音声出力の音量を変更する、
請求項１から請求項３のいずれか一項に記載の音声対話装置。
前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合において、前記第二話者の発話内容が、前記音声出力のタイミングの変更指示である場合、前記音声出力のタイミングを変更する、
請求項１から請求項４のいずれか一項に記載の音声対話装置。
前記制御部は、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の音声のデータから前記第二話者の口調を認識し、前記口調に合わせて、生成した発話文章のデータを音声出力する、
請求項１から請求項５のいずれか一項に記載の音声対話装置。
制御部が、複数の話者から音声のデータを取得して前記音声を発した話者を特定し、
前記制御部が、前記話者が主たる対話相手として設定された第一話者である場合、前記第一話者の音声のデータから発話内容を認識し、前記第一話者の発話内容に応じて発話文章のデータを生成して音声出力する処理を繰り返すことによって前記第一話者との対話を実行し、
前記制御部が、前記第一話者との対話の実行中に、前記複数の話者のうち、従たる対話相手として設定された第二話者の音声を取得した場合に、前記第二話者の音声のデータから発話内容を認識し、前記第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定し、
前記制御部が、前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の発話内容に基づいて、前記文脈を変化させる発話文章のデータを生成して音声出力する、
音声対話方法。
コンピュータを、
複数の話者から音声のデータを取得して前記音声を発した話者を特定する手段、
前記話者が主たる対話相手として設定された第一話者である場合、前記第一話者の音声のデータから発話内容を認識し、前記第一話者の発話内容に応じて発話文章のデータを生成して音声出力する処理を繰り返すことによって前記第一話者との対話を実行する手段、
前記第一話者との対話の実行中に、前記複数の話者のうち、従たる対話相手として設定された第二話者の音声を取得した場合に、前記第二話者の音声のデータから発話内容を認識し、前記第二話者の発話内容が実行中の対話の文脈を変化させるものであるか否かを判定する手段、
前記第二話者の発話内容が前記文脈を変化させるものであると判定した場合、前記第二話者の発話内容に基づいて、前記文脈を変化させる発話文章のデータを生成して音声出力する手段、
として機能させるための音声対話プログラム。