JP6984420B2

JP6984420B2 - 対話装置

Info

Publication number: JP6984420B2
Application number: JP2018001495A
Authority: JP
Inventors: 英樹小林; 明泰六車; 侑紀也杉山; 昭太東原; 莉歩松尾; 直樹山室
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-01-09
Filing date: 2018-01-09
Publication date: 2021-12-22
Anticipated expiration: 2038-01-09
Also published as: JP2019121970A; CN110035339A; US20190214003A1; US10971146B2; CN110035339B

Description

本発明は、対話装置に関する。

従来より、音声認識技術を用いて発話者を特定し、例えばドアミラー及びシートポジションといった車両の装備を発話者が予め定めた設定に従って制御する音声処理装置が知られている（例えば特許文献１参照）。

米国特許第９５８００２８明細書

こうした音声処理装置は、音声から発話した個人を特定し、個人に応じた車両の装備を操作することはできるが、発話者が発した音声の内容を理解し、発話者と対話を行うものではない。一方、発話者と対話を行う対話装置として、人工知能（Artificial Intelligence:ＡＩ）を用いて発話者と対話を行う対話装置が普及しつつあるが、従来の対話装置は、発話者がどこにいようとも予め定めた方向に予め定めた音量で音声を出力する。したがって、対話装置の対話相手である発話者は、対話装置から出力された音声が聞き取りにくいことがある。

本発明は、上記事実を考慮し、対話相手が聞き取りやすいように音声を出力することができる対話装置を提供することを目的とする。

請求項１に記載の対話装置は、発話者が発した音声から前記発話者の方向を特定する特定部と、前記発話者に音声を出力する場合、前記特定部で特定した方向への音声の指向性が、他の方向における音声の指向性より高くなるように、スピーカから出力される音声の指向性を制御する制御部と、を備え、前記制御部は、前記発話者の各々について、聞き取りやすい周波数帯域の情報を収集すると共に、複数のスピーカのうち、前記特定部によって特定された前記発話者が存在する方向に音声を出力するスピーカを選択し、選択したスピーカから前記発話者に音声を出力する場合、前記周波数帯域に含まれる音声強度が、基準となる予め定めた音質を有する音声の前記周波数帯域に含まれる音声強度より大きくなるように、前記発話者に応じて前記予め定めた音質を変調する制御を行う。
請求項２に記載の対話装置は、発話者が発した音声から前記発話者の方向を特定する特定部と、前記発話者に音声を出力する場合、前記特定部で特定した方向への音声の指向性が、他の方向における音声の指向性より高くなるように、スピーカから出力される音声の指向性を制御する制御部と、を備え、前記制御部は、スピーカから前記発話者に音声を出力する場合、複数のスピーカのうち、前記特定部によって特定された前記発話者が存在する方向に音声を出力するスピーカの音量が、他の方向に向けて音声を出力するスピーカの音量より大きくなるように、前記複数のスピーカにおける各々の音量を制御すると共に、前記発話者の各々について、聞き取りやすい周波数帯域の情報を収集し、前記周波数帯域に含まれる音声強度が、基準となる予め定めた音質を有する音声の前記周波数帯域に含まれる音声強度より大きくなるように、前記発話者に応じて前記予め定めた音質を変調する制御を行う。

請求項１及び請求項２に記載の対話装置は、発話者が存在する方向に対話装置から出力する音声の指向性を高めることができる。したがって、請求項１及び請求項２に記載の対話装置は、対話相手が聞き取りやすいように音声を出力することができる。

請求項３に記載の対話装置は、請求項１又は請求項２に記載の発明において、前記特定部は、車両を運転する運転手の方向を音声から特定し、前記制御部は、前記車両の運転を支援する運転支援装置から前記車両の運転に関する情報を取得した場合、前記情報を通知する音声の指向性が、他の方向に比べて前記特定部で特定した前記運転手が存在する方向で高くなるように、スピーカから出力される音声の指向性を制御する。

請求項３に記載の対話装置は、車両を運転する運転手の方向を特定し、運転手の方向に車両の運転に関する情報を通知する音声の指向性を高めることができる。したがって、請求項３に記載の対話装置は、車両の運転に関する情報を運転手に聞き取りやすく伝えることができる。

請求項４に記載の対話装置は、請求項３に記載の発明において、前記運転支援装置が、前記車両に予め設置されているカーナビゲーション装置、又はカーナビゲーション機能を有する携帯型の情報機器である。

請求項４に記載の対話装置は、車両に予め設置されているカーナビゲーション装置、又はカーナビゲーション機能を備えた携帯型の情報機器と接続することができる。したがって、請求項４に記載の対話装置は、車両に予め設置されているカーナビゲーション装置だけでなく、携帯型の情報機器から通知される車両の運転に関する情報も、運転手に聞き取りやすく伝えることができる。

請求項５に記載の対話装置は、請求項１又は請求項２に記載の発明において、前記特定部は、スピーカから出力される音声の到達範囲内にいる複数の人の方向を音声から特定し、前記制御部は、前記特定部で方向が特定された前記複数の人のうち少なくとも２人の対話をそれぞれ中継する場合、言葉を発した前記発話者の音声の指向性が、他の方向に比べて対話相手が存在する方向で高くなるように、スピーカから出力される音声の指向性を制御する。

請求項５に記載の対話装置は、音声によってそれぞれの対話相手の方向を特定し、一方の対話相手が発した音声を他方の対話相手に向けて中継する。したがって、請求項５に記載の対話装置は、対話相手と対話装置を介さずに対話する場合と比較して、対話相手の声が聞き取りやすくなる。

請求項６に記載の対話装置は、請求項５に記載の発明において、前記制御部は、対話相手を指定する語句を含む音声を受け付けてから対話が終了するまで、それぞれの対話相手の音声を中継する制御を行う。

請求項６に記載の対話装置は、音声に対話相手を指定する語句が含まれているかを理解することができる。したがって、請求項６に記載の対話装置は、対話の開始を話の内容から把握して音声の中継を自律的に開始することができる。

以上説明したように、本発明によれば、対話相手が聞き取りやすいように音声を出力することができる、という効果を有する。

対話装置の外観例を示す図である。第１実施形態に係る対話装置の構成例を示す図である。第１実施形態及び第３実施形態に係る対話装置の電気系統の要部構成例を示す図である。第１実施形態に係る対話装置における対話処理の流れの一例を示すフローチャートである。音質の変調に対応した対話処理の流れの一例を示すフローチャートである。音質の変調に対応した対話処理の流れの一例を示すフローチャートである。音質の変調に対応した対話処理の流れの一例を示すフローチャートである。第２実施形態に係る対話装置を用いたシステム構成例を示す図である。第２実施形態に係る対話装置の構成例を示す図である。第２実施形態に係る対話装置の電気系統の要部構成例を示す図である。第２実施形態に係る対話装置における対話処理の流れの一例を示すフローチャートである。第３実施形態に係る対話装置の構成例を示す図である。マップ作成処理の流れの一例を示すフローチャートである。中継モードに対応した対話処理の流れの一例を示すフローチャートである。中継モードに対応した対話処理の流れの一例を示すフローチャートである。

以下、図面を参照して、本発明の実施例について詳細に説明する。なお、同じ構成要素及び処理には全図面を通して同じ符合を付与し、重複する説明を省略する。

＜第１実施形態＞
図１に、第１実施形態に係る対話装置１０の外観例を表す図を示す。対話装置１０は、ＡＩ(Artificial Intelligence)スピーカ、又はスマートスピーカとも呼ばれることがあり、図１に示すように、対話装置１０の側面には、例えば対話装置１０を取り囲むように、３６０度に亘って複数のマイク１１及び複数のスピーカ１２が配置されている。

図１の例では、対話装置１０の形状は円錐の高さ方向と交わる面で円錐を切り取った形状をしているが、対話装置１０の形状に制約はない。また、対話装置１０の大きさは、人が持ち運び可能な大きさとする。

図２は、対話装置１０の機能的な構成例を示す構成図である。対話装置１０は、複数のマイク１１、複数のスピーカ１２、特定部１３、生成部１４、通信部１５、出力部１６、及び制御部１７を含む。

マイク１１で収集された音声は各々のマイク１１で音声信号に変換され、特定部１３に通知される。

特定部１３は、各々のマイク１１から通知される音声信号から、音声の大きさを表す音声強度を取得して、音声がどの方向から発せられたのかを特定する。この場合、音声が発せられた方向に向いて設置されたマイク１１で収集された音声の音声強度が最も高くなる傾向があることから、特定部１３は、各々のマイク１１から通知される音声信号の音声強度を解析することで、発せられた音声の方向を特定することができる。

したがって、マイク１１に指向性マイクが用いられ、各々のマイク１１の集音領域ができるだけ重ならないように、マイク１１を対話装置１０の側面に沿って対話装置１０を取り囲むように配置している対話装置１０を用いることが好ましい。

特定部１３は、特定した音声の方向を後ほど説明する制御部１７に通知すると共に、例えば特定した方向の音声を収集したマイク１１からの音声信号を生成部１４に通知する。

生成部１４は、特定部１３から通知された音声信号で表される音声の内容を解析し、音声の内容に応じた応答文を生成する。具体的には、生成部１４は、例えばインターネット等の通信回線３０に接続する通信プロトコルを備えた通信部１５を介して、知能サーバ３１とデータ通信を行い、音声の内容に適した応答文を生成する。

知能サーバ３１には様々な情報が記憶されており、対話装置１０から要求された情報を対話装置１０に送信する。なお、知能サーバ３１は、例えばクラウドコンピューティングとして構成されていてもよい。

例えば生成部１４は、「今日の東京の天気は？」という内容を有する音声信号を特定部１３から受け付けた場合、知能サーバ３１に対して今日の東京の天気を要求する電文を生成して送信する。これに対して知能サーバ３１から「晴れ」との情報を受け付けると、生成部１４は、特定部１３から受け付けた音声の内容と、知能サーバ３１から受け付けた情報から、予め定めた学習モデルを用いて、例えば「今日の東京の天気は晴れです」といった応答文を生成する。

生成部１４は、特定部１３から受け付けた音声の内容を把握する場合にも、予め定めた学習モデルを用いる場合がある。学習モデルとしては、例えば教師信号と入力信号の組み合わせを用いて、ディープラーニングによりニューロン間の重み付け等が予め学習された多層ニューラルネットワークが用いられる。

生成部１４は、特定部１３から受け付けた音声の内容を公知の手法で文に変換した後、文に対して例えば形態素解析を行い、文を形態素に分割する。そして、生成部１４は、形態素に分割された文の各形態素を学習モデルに入力することで、文の内容を把握することができる。

また、生成部１４は、例えば特定部１３から受け付けた音声で表される文の形態素、及び知能サーバ３１から受け付けた情報の各々を学習モデルに入力することで、特定部１３から受け付けた音声で表される文の内容に対する回答を生成することができる。

このように、生成部１４は、人間の知識の学習、並びに、様々な情報に基づいた人間の推論及び判断を人工的に実現した人工知能を用いて、特定部１３から受け付けた音声信号で表される音声の内容に応じた応答文を生成する。

生成部１４は、生成した応答文を出力部１６に通知する。

出力部１６は、生成部１４で生成された応答文を、公知の音声合成処理を用いて音声信号に変換し、変換した音声信号をスピーカ１２に出力する。これにより、マイク１１で収集された、対話装置１０への指示及び問いかけといった音声に対する応答が、音声としてスピーカ１２から出力される。

出力部１６は、応答文を音声信号に変換する場合、基準となる予め定めた音質を有する音声（以降、「基準音声」という）を用いる。すなわち、スピーカ１２から出力される音声の高低及び発話速度といった音質は、基準音声の音質に従う。

なお、出力部１６は、音声の音声強度及び音声を出力するスピーカの少なくとも一方に関して、制御部１７からの指示に従う。

制御部１７は、特定部１３、生成部１４、通信部１５、及び出力部１６の各機能部から制御に必要な情報を取得し、取得した情報に基づいて各機能部の処理を制御する。

具体的には、制御部１７は、発せられた音声の方向、すなわち、声を発した人（以降、「発話者」という）の方向を特定部１３から取得する。また、制御部１７は、予め定めた種類の語句がマイク１１で収集した音声に含まれる場合、音声の内容の解析結果を生成部１４から取得する。また、制御部１７は、データ通信における通信障害の有無等の情報を通信部１５から取得する。また、制御部１７は、出力部１６で生成部１４から応答文を受け付けたことを通知する受付通知を、出力部１６から取得する。

図２で説明した対話装置１０は、例えばコンピュータを用いて実現することができる。図３は、コンピュータ２０を用いて構成された対話装置１０における電気系統の要部構成例を示す図である。

コンピュータ２０は、ＣＰＵ（Central Processing Unit）２１、ＲＯＭ（Read Only Memory）２２、ＲＡＭ（Random Access Memory）２３、不揮発性メモリ２４、及び入出力インターフェース（Ｉ／Ｏ）２５を備える。そして、ＣＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、不揮発性メモリ２４、及びＩ／Ｏ２５がバス２６を介して各々接続されている。なお、コンピュータ２０で用いられるオペレーションシステムに制約はなく、どのようなオペレーションシステムが用いられてもよい。

ＣＰＵ２１は、対話装置１０において特定部及び制御部として機能する。ＲＯＭ２２には、例えばＣＰＵ２１によって実行されるプログラムが記憶され、ＲＡＭ２３は、ＣＰＵ２１の処理過程で生成されるデータを一時的に記憶するワークエリアとして使用される。

不揮発性メモリ２４は、不揮発性メモリ２４に供給される電力を遮断しても記憶した情報が消去されずに維持される記憶装置の一例であり、例えば半導体メモリが用いられるがハードディスクを用いてもよい。

コンピュータ２０のＩ／Ｏ２５には、例えば複数のマイク１１、複数のスピーカ１２、及び通信ユニット２７が接続される。

通信ユニット２７は、通信部１５に対応する機能を実現する装置であり、通信回線３０との接続形態として有線又は無線の何れにも対応できるように、複数の通信プロトコルが実装されている。更に、通信ユニット２７には、例えばブルートゥース（登録商標）のように、約１００ｍ以内の近距離にある情報機器と通信を行うための通信プロトコル、及びＮＦＣ(Near Field Communication)のように、約１０ｃｍ以内の至近距離にある情報機器と通信を行うための通信プロトコルが実装されていてもよい。

なお、Ｉ／Ｏ２５に接続されるユニットは図３に示した各ユニットに限られず、必要に応じて様々な装置が接続される。例えば、対話装置１０に対するユーザの操作を電気信号に変換してＣＰＵ２１に通知するボタン及びタッチパネル、並びに、外部の情報機器の出力端子と接続して、外部の情報機器の出力をＣＰＵ２１に通知する入力ユニットをＩ／Ｏ２５に接続してもよい。また、ＣＰＵ２１によって処理された情報をユーザに通知する液晶ディスプレイ又は有機ＥＬ(Electro Luminescence)ディスプレイ等の表示ユニットをＩ／Ｏ２５に接続してもよい。

次に、図４を参照して、第１実施形態に係る対話装置１０の動作について説明する。図４は、例えば対話装置１０の電源が投入された場合に、ＣＰＵ２１によって実行される対話処理の流れの一例を示すフローチャートである。

対話処理を規定する対話プログラムは、例えば対話装置１０のＲＯＭ２２に予め記憶されている。ＣＰＵ２１は、ＲＯＭ２２に記憶される対話プログラムを読み込んで対話処理を実行する。

まず、ステップＳ１０において、ＣＰＵ２１は、複数あるマイク１１のうち、少なくとも１つのマイク１１から音声を受信したか否かを判定する。何れのマイク１１からも音声を受信していない場合にはステップＳ１０を繰り返し実行して、音声の受信を監視する。

一方、少なくとも１つのマイク１１から音声を受信した場合には、ステップＳ２０に移行する。

ステップＳ２０において、ＣＰＵ２１は、ステップＳ１０で音声を受信したマイク１１毎に音声の音声強度を取得して、音声がどの方向から発せられたのかを特定することで、発話者の方向を特定する。

具体的には、対話装置１０から見て音声強度が最も大きい音声を収集したマイク１１が配置されている方向が、発話者の方向となる。特定した発話者の方向は、例えばＲＡＭ２３に記憶される。

ステップＳ３０において、ＣＰＵ２１は、既に説明したように、ステップＳ１０で受信した音声の内容を、学習モデルを用いて解析し、知能サーバ３１と連携しながら、受信した音声の内容に応じた応答文を生成する。

ステップＳ４０において、ＣＰＵ２１は、ステップＳ２０で特定した発話者の方向に向けて音声を出力するスピーカ１２を選択する。

具体的には、複数のマイク１１及び複数のスピーカ１２には、それぞれマイク１１及びスピーカ１２を一意に識別する識別番号が割り当てられており、不揮発性メモリ２４には、マイク１１の識別番号と当該マイク１１の配置位置の方向に向かって音声を出力するスピーカ１２の識別番号とを対応付けた配置テーブルが予め記憶されている。

したがって、ＣＰＵ２１は配置テーブルを参照して、音声強度が最も大きい音声を収集したマイク１１の識別番号に対応するスピーカ１２の識別番号を取得する。取得した識別番号で表されるスピーカ１２が、発話者の方向に向けて音声を出力するスピーカ１２となる。

なお、ステップＳ２０でＲＡＭ２３に記憶される発話者の方向も、音声強度が最も大きい音声を収集したマイク１１の識別番号として記憶される。

ステップＳ５０において、ＣＰＵ２１は、ステップＳ３０で生成した応答文を公知の音声合成処理を用いて音声信号に変換し、変換した音声信号をステップＳ４０で選択したスピーカ１２に出力する。これにより、発話者の対話装置１０への問いかけに対する応答がステップＳ４０で選択されたスピーカ１２から出力される。この場合、ステップＳ４０で選択されたスピーカ１２以外のスピーカ１２からは音声は出力されない。

ステップＳ４０で選択されたスピーカ１２は、発話者の方向に向けて音声を出力するスピーカ１２であり、ステップＳ４０で選択されなかったスピーカ１２は、発話者の方向とは異なる方向に向けて音声を出力するスピーカ１２である。したがって、仮に対話装置１０が複数あるスピーカ１２のうち、ステップＳ４０で選択されたスピーカ１２以外のスピーカ１２から応答を出力した場合と比較して、発話者は対話装置１０からの応答が聞き取りやすくなる。

すなわち、対話装置１０は、対話相手の方向への音声の指向性が、他の方向における音声の指向性より高くなるように、スピーカ１２から出力される音声の指向性を制御することができる。以上により、図４に示した対話処理を終了する。

なお、図４に示した対話処理では、対話相手の方向に向いたスピーカ１２のみから音声を出力することでスピーカ１２から出力される音声の指向性を制御したが、対話相手の方向への音声の指向性を、他の方向における音声の指向性より高くする制御方法はこれに限られない。

例えば、ＣＰＵ２１は、ステップＳ４０で選択されたスピーカ１２の音量が、ステップＳ４０で選択されなかったスピーカ１２の音量より大きくなるように各々のスピーカ１２の音量を制御したうえで、発話者の対話装置１０への問いかけに対する応答を各々のスピーカ１２から出力させてもよい。他の方向に比べて発話者の方向に出力される音声の音量が大きくなるため、対話装置１０から対話相手の方向に出力される音声は、他の方向に出力される音声より聞き取りやすくなる。

このように第１実施形態に係る対話装置１０は、発話者が発した音声の方向から発話者の方向を特定し、発話者が存在する方向への音声の指向性が、他の方向における音声の指向性より高くなるように、スピーカ１２から出力される音声の指向性を制御する。したがって、音声の指向性を制御せずにスピーカ１２から応答を出力する場合と比較して、対話装置１０に問いかけた発話者は、対話装置１０からの応答が聞き取りやすくなる。

＜第１実施形態の変形例＞
第１実施形態に係る対話装置１０では、スピーカから出力される音声の指向性を制御して、対話装置１０との対話相手にとって、対話装置１０からの応答が聞き取りやすくなるようにした。ここでは、発話者が聞き取りやすい周波数帯域の音声をスピーカ１２から出力することで、対話装置１０からの応答を更に聞き取りやすくする対話装置１０について説明する。

なお、当該変形例では、一例として、同じ発話者が対話装置１０と対話している状況について説明する。

図５は、ＣＰＵ２１によって実行される、音質の変更指示に対応した対話処理の流れの一例を示すフローチャートである。図５に示すフローチャートで表される対話処理を規定する対話プログラムは、例えば対話装置１０のＲＯＭ２２に予め記憶されている。ＣＰＵ２１は、ＲＯＭ２２に記憶される対話プログラムを読み込んで対話処理を実行する。

図５に示すフローチャートが図４と異なる点は、ステップＳ２２、Ｓ２４、及びＳ２６が追加された点であり、その他の処理は図４で説明した対話処理と同じである。

ステップＳ２０において、対話装置１０に対する発話者の方向を特定した後、ステップＳ２２が実行される。

ステップＳ２２において、ＣＰＵ２１は、ステップＳ１０で受信した音声の内容を、学習モデルを用いて解析し、受信した音声に、例えば「音質を変えたい」といった音質の変更指示を表す表現が含まれるか否かを判定する。受信した音声に音質の変更指示が含まれるか否かは、受信した音声で表される表現が、例えば不揮発性メモリ２４に予め記憶されている音質の変更指示を表す表現と一致するか否かで判定してもよい。又は、受信した音声で表される文の形態素を学習モデルに入力し、学習モデルの出力結果に従って、ＣＰＵ２１が受信した音声に音質の変更指示が含まれるか否かを判定してもよい。この場合、例えば「音質変えて」が音質の変更指示を表す表現として不揮発性メモリ２４に記憶されていない場合であっても、ＣＰＵ２１は、「音質変えて」を音質の変更指示であると自律的に判定することができる。

ステップＳ２２の判定処理が否定判定の場合、すなわち、ステップＳ１０で受信した音声に音質の変更指示を表す表現が含まれない場合にはステップＳ３０に移行して、以降は図４で示した対話処理と同じ処理を実行する。

一方、ステップＳ２２の判定処理が肯定判定の場合、すなわち、ステップＳ１０で受信した音声に音質の変更指示を表す表現が含まれている場合には、ステップＳ２４に移行する。

ステップＳ２４において、ＣＰＵ２１は、予め定めた複数の周波数帯域から周波数帯域を１つ選択し、選択した周波数帯域に含まれる周波数から成る音を測定音として生成する。

ステップＳ２６において、ＣＰＵ２１は測定タイマを起動し、測定タイマを起動してからの累計時間を測定する。測定タイマは、例えばＣＰＵ２１に内蔵されているタイマ機能を利用すればよい。

この後、ＣＰＵ２１は既に説明したステップＳ４０、及びＳ５０を実行して、発話者の方向に音声を出力するスピーカ１２からステップＳ２４で生成した測定音を出力する。なお、ＣＰＵ２１は、測定音を例えば最小音量でスピーカ１２から出力し、時間が経過するにつれて測定音の音量が大きくなるようにスピーカ１２の音量を制御する。

以上により、ステップＳ２４で選択した周波数帯域の測定音が発話者に向けて対話装置１０から出力される。

これに対して、測定音が聞こえた発話者は、測定音が聞こえた段階で測定音が聞こえたことを示す測定音可聴応答を対話装置１０に発する。一例として、測定音が聞こえた発話者は、例えば「聞こえた」と対話装置１０に話しかけることにする。「聞こえた」は、測定音可聴応答の一例である。

図６は、発話者から音質の変更指示を受け付けて、対話装置１０から測定音を出力した後にＣＰＵ２１によって実行される、測定音可聴応答に対応した対話処理の流れの一例を示すフローチャートである。図６に示すフローチャートで表される対話処理を規定する対話プログラムは、例えば対話装置１０のＲＯＭ２２に予め記憶されている。ＣＰＵ２１は、ＲＯＭ２２に記憶される対話プログラムを読み込んで対話処理を実行する。

ステップＳ１００において、ＣＰＵ２１は図４のステップＳ１０と同様に、少なくとも１つのマイク１１から音声を受信したか否かを判定する。音声を受信していない場合には、後ほど説明するステップＳ１３０に移行する。一方、何らかの音声を受信した場合、ステップＳ１１０に移行する。

ステップＳ１１０において、ＣＰＵ２１は図４のステップＳ２０と同様の方法で、発話者の方向を特定する。

ステップＳ１２０において、ＣＰＵ２１は、ステップＳ１００で受信した音声の内容を、学習モデルを用いて解析し、受信した音声に、例えば「聞こえた」といった測定音可聴応答が含まれるか否かを判定する。ステップＳ１００で受信した音声に測定音可聴応答が含まれていない場合、ステップＳ１３０に移行する。

ステップＳ１３０において、ＣＰＵ２１は、図５のステップＳ２６で起動した測定タイマのタイマ値が閾値Ｔ０以上であるか否かを判定する。閾値Ｔ０は、測定音が聞こえたか否かの判定に用いられる値であり、例えば対話装置１０の実機による実験や対話装置１０の設計仕様に基づくコンピュータシミュレーション等により予め求められ、不揮発性メモリ２４に予め記憶されている。

測定タイマのタイマ値が閾値Ｔ０未満の場合には、ＣＰＵ２１は、発話者から測定音可聴応答が発せられる可能性が残っていると判定する。したがって、ステップＳ１００に移行し、ＣＰＵ２１は音声の受信を監視する。一方、測定タイマのタイマ値が閾値Ｔ０以上の場合、及び、ステップＳ１２０において、ＣＰＵ２１がステップＳ１００で受信した音声に測定音可聴応答が含まれると判定した場合には、ステップＳ１４０に移行する。

ステップＳ１４０において、ＣＰＵ２１は、スピーカ１２から出力した測定音の周波数帯域と測定タイマのタイマ値を対応付けて、ＲＡＭ２３に記憶される可聴範囲テーブルに記録する。可聴範囲テーブルに記録された測定タイマのタイマ値は、測定音を出力してから、測定音が聞こえたと発話者が応答するまでの期間を表す測定音可聴応答時間を表している。したがって、測定音可聴応答時間が短いほど、発話者は測定音に対応した周波数帯域の音が聞き取りやすいことを表す。

ステップＳ１５０において、ＣＰＵ２１は、予め定めた複数の周波数帯域に対して、全ての周波数帯域に対応した測定音を出力したか否かを判定する。まだ測定音を生成していない周波数帯域が存在する場合には、ステップＳ１６０に移行する。

ステップＳ１６０において、ＣＰＵ２１は、予め定めた複数の周波数帯域のうち、まだ選択していない周波数帯域を１つ選択し、選択した周波数帯域に含まれる周波数から成る音を測定音として生成する。

ステップＳ１７０において、ＣＰＵ２１は、図４のステップＳ４０と同様の処理を行い、ステップＳ１１０で特定した発話者の方向に向けて音声を出力するスピーカ１２を選択する。

ステップＳ１８０において、ＣＰＵ２１は、ステップＳ１６０で生成した測定音をステップＳ１７０で選択したスピーカ１２から出力する。この場合にも、ＣＰＵ２１は、測定音を例えば最小音量でスピーカ１２から出力し、時間が経過するにつれて測定音の音量が大きくなるようにスピーカ１２の音量を制御する。

ステップＳ１９０において、ＣＰＵ２１は、測定タイマのタイマ値を“０”に戻して、再び測定タイマでの時間計測を開始する測定タイマの再起動を実行する。そして、ステップＳ１００に移行して、ＣＰＵ２１は、スピーカ１２から出力した、新たな周波数帯域に対応した測定音に対する発話者からの測定音可聴応答を監視する。

ＣＰＵ２１は以上の処理を、予め定めた複数の周波数帯域のそれぞれの周波数帯域に対応した測定音がスピーカ１２から出力されるまで繰り返し実行する。ステップＳ１５０の判定処理で、全ての周波数帯域に対応した測定音を出力したと判定された場合、ステップＳ２００に移行する。

ステップＳ２００において、ＣＰＵ２１は可聴範囲テーブルにおける周波数帯域毎の測定音可聴応答時間を参照して、音質の変更指示を行った発話者が最も聞き取りやすい周波数帯域（以降、「最良周波数帯域」）を、例えば不揮発性メモリ２４に記憶する。

以上により、図６に示した測定音可聴応答に対応した対話処理を終了する。

図７は、図６に示した測定音可聴応答に対応した対話処理を行った後に、ＣＰＵ２１によって実行される対話処理の流れの一例を示すフローチャートである。

図７に示すフローチャートで表される対話処理を規定する対話プログラムは、例えば対話装置１０のＲＯＭ２２に予め記憶されている。ＣＰＵ２１は、ＲＯＭ２２に記憶される対話プログラムを読み込んで対話処理を実行する。

図７に示すフローチャートが図４と異なる点は、ステップＳ５０がステップＳ５０Ａに置き換えられた点であり、その他の処理は図４で説明した対話処理と同じである。

ステップＳ５０Ａにおいて、ＣＰＵ２１は、ステップＳ３０で生成した応答文を公知の音声合成処理を用いて音声信号に変換し、変換した音声信号をステップＳ４０で選択したスピーカ１２に出力する。この場合、ＣＰＵ２１は、図６のステップＳ２００で記憶した、発話者の最良周波数帯域を不揮発性メモリ２４から取得し、最良周波数帯域における音声の音声強度が基準音声よりも高くなるように基準音声の音質を変調して、選択したスピーカ１２から出力する。

これにより、最良周波数帯域の音声が他の周波数帯域の音声よりも強調されることになるため、基準音声で応答をスピーカ１２から出力する場合と比較して、発話者は対話装置１０からの応答が聞き取りやすくなる。以上により、図７に示した対話処理を終了する。

なお、図６のフローチャートにおいて、ＣＰＵ２１はステップＳ１００で受信した音声の周波数分析を実行し、音声の周波数分析結果と最良周波数帯域とを対応付けて不揮発性メモリ２４に記憶してもよい。

この場合、図７の対話処理において、ＣＰＵ２１はステップＳ１０で受信した音声に対して周波数分析を行い、得られた周波数分析結果と最も近い周波数分析結果が対応付けられた最良周波数帯域を不揮発性メモリ２４から取得する。そして、ＣＰＵ２１は、ステップＳ５０Ａで、周波数分析結果に基づいて不揮発性メモリ２４から取得した最良周波数帯域を用いて、基準音声の音質を変調してもよい。これにより、対話装置１０は、発話者毎に基準音声の音質を変調することができる。

したがって、発話者の声の周波数分析結果と最良周波数帯域を対応付けて不揮発性メモリ２４に記憶することで、対話装置１０に問いかけてきた発話者毎に基準音声よりも聞き取りやすい音声で応答を通知することができる。

＜第２実施形態＞
第１実施形態では、対話装置１０を利用する場所について特に制約を設けていなかったが、第２実施形態では、車両４０で利用される対話装置１０Ａについて説明する。

図８は、第２実施形態に係る対話装置１０Ａを用いたシステム構成例を示す図である。

図８に示すように、対話装置１０Ａは車両４０内に持ち込まれ、例えば車内のダッシュボード等、予め定めた位置に設置されるカーナビゲーション装置８と接続される。また、対話装置１０Ａは、無線通信を行う通信プロトコルによって通信回線３０を介して知能サーバ３１と接続される。

なお、車両４０における対話装置１０Ａの接続先はカーナビゲーション装置８に限られず、車両４０に搭載された電子機器を制御するＥＣＵ(Electronic Control Unit)等、他の装置に接続されてもよい。カーナビゲーション装置８及びＥＣＵは、運転支援装置の一例である。

図９は、対話装置１０Ａの機能的な構成例を示す構成図である。図９に示す対話装置１０Ａの構成が、図２に示した第１実施形態に係る対話装置１０の構成と異なる点は、入力部１８が追加され、生成部１４及び制御部１７がそれぞれ生成部１４Ａ及び制御部１７Ａに置き換えられた点である。

入力部１８は、カーナビゲーション装置８から出力される、車両４０の運転を支援する支援情報を受け付ける。支援情報としては、例えば車両４０の進行方向、車両４０の進行方向の変更位置、車両４０の現在位置、及び車両４０の速度等が含まれる。

入力部１８は、カーナビゲーション装置８から受け付けた支援情報を制御部１７Ａに通知する。

制御部１７Ａは、対話装置１０における制御部１７の処理に加え、入力部１８から支援情報を受け付けると、車両４０の運転手が対話装置１０Ａから見てどの方向にいるのかを特定するため、運転手を呼び出す文を生成するように生成部１４Ａを制御する。また、制御部１７Ａは、入力部１８から受け付けた支援情報を生成部１４Ａに通知する。

生成部１４Ａは、対話装置１０における生成部１４の処理に加え、制御部１７Ａから運転手を呼び出す文の生成を指示されると、運転手を呼び出す文を生成し、出力部１６に通知する。また、生成部１４Ａは、制御部１７Ａから支援情報を受け付けると、支援情報の内容に応じて支援情報に関連した情報を伝える文を生成したり、支援情報の内容を運転手に伝える文を生成したりする。

具体的には、例えば対話装置１０Ａが支援情報として、車両４０の現在位置を受け付けた場合、生成部１４Ａは車両４０の現在位置を含む地図を知能サーバ３１から取得して、車両４０の現在位置から予め定めた範囲内に学校があれば「スピードに注意してください」といった文を作成する。また、対話装置１０Ａが支援情報として、車両４０の現在位置及び車両４０の燃料の残量を受け付けた場合で、かつ、受け付けた燃料の残量が予め定めた残量未満である場合、生成部１４Ａは車両４０の現在位置から最も近い場所にある燃料補給場所を知能サーバ３１から取得し、例えば「１ｋｍ先にある燃料補給場所で燃料を補給してください」といった文を作成する。また、対話装置１０Ａが支援情報として、例えば「１００ｍ先を右折」というような車両４０の進行方向に関する情報を受け付けた場合、生成部１４Ａは進行方向に関する情報を文に組み立て、例えば「１００ｍ先の交差点を右折してください」というような運転手にわかりやすい文を生成する。この際、１００ｍ先の交差点が他の交差点に比べて事故の多い交差点であるという情報が知能サーバ３１から得られた場合、「事故の多い交差点です。注意してください」という文を付け加えてもよい。

このように、支援情報の内容に応じて生成部１４Ａで生成される文を、「運転支援文」という。

図９で説明した対話装置１０Ａは、例えばコンピュータを用いて実現することができる。図１０は、コンピュータ２０を用いて構成された対話装置１０Ａにおける電気系統の要部構成例を示す図である。

図１０に示す要部構成例が図３に示した第１実施形態に係る対話装置１０の要部構成例と異なる点は、カーナビゲーション装置８等からの支援情報を、コネクタを介して有線で受け付ける入力ユニット２８が接続された点であり、他の構成は図３と同じである。なお、カーナビゲーション装置８等から無線で支援情報が送信される場合には、入力ユニット２８の代わりに通信ユニット２７で支援情報を受け付ける。

次に、第２実施形態に係る対話装置１０Ａの動作について説明する。

図１１は、例えば対話装置１０Ａの電源が投入された場合に、ＣＰＵ２１によって実行される対話処理の流れの一例を示すフローチャートである。

図１１に示すフローチャートで表される対話処理を規定する対話プログラムは、例えば対話装置１０ＡのＲＯＭ２２に予め記憶されている。ＣＰＵ２１は、ＲＯＭ２２に記憶される対話プログラムを読み込んで対話処理を実行する。

まず、ステップＳ３００において、ＣＰＵ２１は、カーナビゲーション装置８から支援情報を受信したか否かを判定する。支援情報を受信していない場合にはステップＳ３００の処理を繰り返し実行して、支援情報の受信を監視する。

一方、支援情報を受信した場合にはステップＳ３１０に移行する。

ステップＳ３１０において、ＣＰＵ２１は、学習モデルを用いてステップＳ３００で受信した支援情報の内容を解析し、支援情報の内容に応じて運転支援文を生成する。

ステップＳ３２０において、ＣＰＵ２１は、例えば「運転手さん」のように、車両４０の運転手に問いかける文を対話装置１０Ａの各々のスピーカ１２から出力させる。この場合、ＣＰＵ２１は、不揮発性メモリ２４に予め記憶されている、運転手に問いかける文に対応した音声信号を用いればよい。

運転手への問いかけに対して、運転手は例えば「はい」というように応答することが期待されることから、ステップＳ３３０において、ＣＰＵ２１は図４のステップＳ１０と同様に、少なくとも１つのマイク１１から音声を受信したか否かを判定する。

音声を受信した場合、ステップＳ３４０において、ＣＰＵ２１は図４のステップＳ２０と同様の方法によって、音声が発せられた方向を特定することで、車両４０における運転手の方向を特定する。

ステップＳ３５０において、ＣＰＵ２１は図４のステップＳ４０と同様に、ステップＳ３４０で特定した運転手の方向に向けて音声を出力するスピーカ１２を選択する。

ステップＳ３６０において、ＣＰＵ２１は図４のステップＳ５０と同様に、ステップＳ３１０で生成した運転支援文を公知の音声合成処理を用いて音声信号に変換し、変換した音声信号をステップＳ３５０で選択したスピーカ１２から出力する。

以上により、図１１に示す対話処理を終了する。

このように第２実施形態に係る対話装置１０Ａによれば、対話装置１０Ａから車両４０の運転手に問いかけることによって運転手の位置を自律的に把握し、運転手が聞き取りやすいように、運転手に向かって音声を出力するスピーカ１２から運転支援文を出力する。対話装置１０Ａは、カーナビゲーション装置８から支援情報を受け付ける毎に運転手の位置を更新するため、例えば車両４０の同乗者によって対話装置１０Ａの位置が変更されたとしても、運転手に向かって運転支援文を通知することができる。

なお、車両４０における対話装置１０Ａの位置を変更しない場合には、対話装置１０Ａは、カーナビゲーション装置８から支援情報を受け付ける毎に運転手の位置を更新する必要はない。したがって、対話装置１０Ａは、対話装置１０Ａの電源が投入された後、図１１のステップＳ３２０からステップＳ３４０の処理を１回実行して運転手の位置を把握した後、図１１のフローチャートからステップＳ３２０からステップＳ３４０の処理を削除した対話処理を実行してもよい。この場合、カーナビゲーション装置８から支援情報を受け付ける毎に運転手の位置を更新する場合と比較して、対話装置１０Ａは、対話装置１０Ａから運転手へ問いかけを行う回数を抑制することができる。

また、対話装置１０Ａの位置が頻繁に変更されないのであれば、対話装置１０Ａは、カーナビゲーション装置８から支援情報を受け付ける毎に運転手の位置を更新するのではなく、例えば１０分等の予め定めた間隔で、図１１のステップＳ３２０からステップＳ３４０の処理を実行して、運転手の位置を更新してもよい。この場合、カーナビゲーション装置８から支援情報を受け付ける毎に運転手の位置を更新する場合と比較して、対話装置１０Ａは、運転手の位置を更新しながら、対話装置１０Ａから運転手への問いかけを抑制することができる。

図１１のフローチャートでは、対話装置１０Ａから運転手に音声を出力する場合、運転手の方向に向いたスピーカ１２のみから音声を出力することで、スピーカ１２から出力される音声の指向性を制御した。しかし、他の方向よりも運転手の方向へ音声を届きやすくする制御方法はこれに限られない。

例えば、第１実施形態で説明したように、ＣＰＵ２１は、運転手の方向に向いたスピーカ１２の音量が、他のスピーカ１２の音量よりも大きくなるように、各々のスピーカ１２の音量を制御してもよい。

第２実施形態では、対話装置１０Ａが車両４０に予め設置されているカーナビゲーション装置８及びＥＣＵから支援情報を取得する例を用いて、対話装置１０Ａの動作を説明したが、支援情報の取得先はこれに限られない。対話装置１０Ａは、カーナビゲーション機能を実現するアプリケーションがインストールされたスマートフォンのような携帯型の情報機器から支援情報を取得してもよい。携帯型の情報機器はカーナビゲーション装置８とは異なり、車両４０に予め設置されているのではなく、車両４０に乗車する人が車両４０に持ち込む情報機器である。

＜第３実施形態＞
第１実施形態及び第２実施形態では、発話者と対話装置１０又は対話装置１０Ａが対話を行う例について説明した。しかしながら、例えば車内で運転手と後部座席に乗車している同乗者とが対話を行う場合、周囲の騒音で対話相手の話が聞き取れないことがある。

したがって、第３実施形態では、対話相手の話が聞き取りやすいように対話を中継する中継モードを備えた対話装置１０Ｂについて説明する。

図１２は、対話装置１０Ｂの機能的な構成例を示す構成図である。図１２に示す対話装置１０Ｂの構成が、図２に示した第１実施形態に係る対話装置１０の構成と異なる点は、生成部１４及び制御部１７がそれぞれ生成部１４Ｂ及び制御部１７Ｂに置き換えられた点である。その他の構成は、第１実施形態に係る対話装置１０の構成と同じである。

対話装置１０Ｂは、例えばコンピュータ２０を用いて実現することができる。コンピュータ２０を用いて構成された対話装置１０Ｂにおける電気系統の要部構成例は、図３に示した第１実施形態に係る対話装置１０における電気系統の要部構成例と同じ構成となる。

次に図１３、図１４、及び図１５を参照して、第３実施形態に係る対話装置１０Ｂの動作について説明する。

図１３は、例えば対話装置１０Ｂに対してマップの作成指示が行われた場合に、ＣＰＵ２１によって実行されるマップ作成処理の流れの一例を示すフローチャートである。

マップとは、対話装置１０Ｂのスピーカ１２から出力される音声の到達範囲内にいる発話者で、かつ、対話に参加する発話者を特定する情報と、対話装置１０Ｂから見た発話者の方向とを対応付けたテーブルである。

なお、マップの作成指示は、何れかの発話者が対話装置１０Ｂにマップの作成を依頼する意図を有する発言、例えば「マップを作成して」と問いかけることで行われる。

マップ作成処理を規定するマップ作成プログラムは、例えば対話装置１０ＢのＲＯＭ２２に予め記憶されている。ＣＰＵ２１は、ＲＯＭ２２に記憶されるマップ作成プログラムを読み込んでマップ作成処理を実行する。

ステップＳ４００において、ＣＰＵ２１は図４のステップＳ１０と同様に、少なくとも１つのマイク１１から音声を受信したか否かを判定する。音声を受信していない場合にはステップＳ４００を繰り返し実行して、音声の受信を監視する。

一方、何らかの音声を受信した場合、ステップＳ４１０に移行する。

ステップＳ４１０において、ＣＰＵ２１は図４のステップＳ２０と同様の方法によって、音声が発せられた方向を特定することで、発話者の方向を特定する。

ステップＳ４２０において、ＣＰＵ２１はステップＳ４００で受信した音声に、マップの作成を終了する終了指示が含まれているか否かを判定する。

受信した音声にマップの終了指示が含まれている場合には、図１３に示したマップ作成処理を終了する。一方、受信した音声にマップの終了指示が含まれていない場合には、ステップＳ４３０に移行する。

なお、マップの終了指示は、何れかの発話者が対話装置１０Ｂにマップの作成終了を依頼する意図を有する発言、例えば「マップの作成を終了して」と問いかけることで行われる。

マップを作成する場合、ステップＳ４００で受信した音声の発話者が誰であるかを特定する必要があるため、ステップＳ４３０において、ＣＰＵ２１は、受信した音声に発話者の名前が含まれるか否かを判定する。受信した音声に発話者の名前が含まれるか否かの判定結果は、受信した音声を学習モデルで解析することで得られる。

ステップＳ４３０の判定処理で、受信した音声に発話者の名前が含まれないと判定された場合、ステップＳ４４０に移行する。

ステップＳ４４０において、ＣＰＵ２１は、ステップＳ４００で受信した音声の発話者が誰であるかを取得するため、例えば「あなたは誰ですか？」といった発話者の名前を尋ねる質問文を生成する。

ステップＳ４５０において、ＣＰＵ２１は、図４のステップＳ４０と同様の処理を行い、ステップＳ４１０で特定した発話者の方向に向けて音声を出力するスピーカ１２を選択する。

ステップＳ４６０において、ＣＰＵ２１は、図４のステップＳ５０と同様の処理を行い、ステップＳ４４０で生成した質問文をステップＳ４５０で選択したスピーカ１２から出力する。これにより、名前がわからない発話者に対して、名前の問いかけが行われる。

ＣＰＵ２１は、ステップＳ４６０を実行した後、ステップＳ４００に制御を移行して、何らかの音声の受信を監視する。

対話装置１０Ｂから名前を尋ねられた発話者は、例えば「山田です」と自分の名前を発言するため、ステップＳ４００で、名前を含んだ音声が受信されることになる。したがって、ステップＳ４３０において、ＣＰＵ２１は、受信した音声に発話者の名前が含まれると判定し、ステップＳ４７０に移行する。

ステップＳ４７０において、ＣＰＵ２１は、ステップＳ４００で受信した音声から発話者の名前を取得する。ステップＳ４００で「山田です」という音声を受信した場合には、ＣＰＵ２１は、発話者の名前に相当する「山田」を取得する。なお、受信した音声から発話者の名前を取得するには、ＣＰＵ２１は、音声から言葉の意味を解析する学習モデルを用いればよい。

ステップＳ４８０において、ＣＰＵ２１は、例えば高速フーリエ変換等の公知の周波数分析手法を用いて、ステップＳ４００で受信した音声の周波数分析を実行する。これにより、発話者の声の特徴が得られる。

ステップＳ４９０において、ＣＰＵ２１は、ステップＳ４１０で特定した発話者の方向、ステップＳ４７０で取得した発話者の名前、及びステップＳ４８０で取得した発話者が発した声の周波数分析結果をそれぞれ対応付けたマップを作成し、作成したマップをＲＡＭ２３に記憶する。

ステップＳ５００において、ＣＰＵ２１は、まだ名前を言っていない発話者が残っていないか確認するために、例えば「他に誰かいますか？」と対話装置１０Ｂの周囲にいる発話者に問いかける質問文を生成する。そして、ＣＰＵ２１は、生成した質問文を対話装置１０Ｂの各々のスピーカ１２から出力し、制御をステップＳ４００に移行する。

対話装置１０Ｂからの問いかけに対してまだ名前を言っていない発話者が残っていれば、名前を言っていない発話者が対話装置１０Ｂに話しかけてくることが期待されるため、ＣＰＵ２１は、ステップＳ４２０でマップの終了指示を受け付けるまで、受信した音声に対してステップＳ４００〜Ｓ５００の処理を繰り返し実行する。これによって、ＣＰＵ２１は、対話装置１０Ｂから見て、どこにどのような声質を持った発話者がいるのかを対応付けたマップを作成することができる。

図１４は、図１３に示したマップ作成処理が終了した後、ＣＰＵ２１によって実行される対話処理の流れの一例を示すフローチャートである。

対話処理を規定する対話プログラムは、例えば対話装置１０ＢのＲＯＭ２２に予め記憶されている。ＣＰＵ２１は、ＲＯＭ２２に記憶される対話プログラムを読み込んで対話処理を実行する。

図１４に示すフローチャートが、図４に示した第１実施形態に係る対話装置１０のフローチャートと異なる点は、ステップＳ２１、及びステップＳ６０〜Ｓ７０の処理が追加された点である。

ここでは一例として、対話が開始される契機は、例えば「おい、山田」のように、発話者が対話相手の名前を呼び出すことから始まるものとする。

ステップＳ２１において、ＣＰＵ２１は、ステップＳ１０で受信した音声に、対話相手の名前を含んだうえで、対話相手を呼び出す表現が含まれているか否かを判定する。受信した音声に対話相手の名前及び対話相手を呼び出す表現が含まれているか否かの判定結果は、音声から言葉の意味を解析する学習モデルで、受信した音声を解析することで得られる。

受信した音声に対話相手の名前及び対話相手を呼び出す表現が含まれていない場合には、ＣＰＵ２１は、人同士の対話は開始されず、受信した音声は対話装置１０Ｂへの問いかけであると判定し、実行先をステップＳ３０に移行する。以降、ＣＰＵ２１が既に説明したステップＳ３０、Ｓ４０、及びＳ５０の処理を実行することで、対話装置１０Ｂは、対話装置１０Ｂへの問いかけに対する応答を対話装置１０Ｂに問いかけた発話者の方向に向けてスピーカ１２から出力する第１実施形態に係る対話装置１０と同じ動作を行う。

一方、ステップＳ２１の判定処理で、受信した音声に対話相手の名前及び対話相手を呼び出す表現が含まれていると判定された場合には、ステップＳ６０に移行する。なお、ＣＰＵ２１は、受信した音声に含まれる対話相手の名前をＲＡＭ２３に記憶する。

ステップＳ６０において、ＣＰＵ２１は、例えばＲＡＭ２３に記憶された動作モードを示す変数の値を中継モードを示す値に設定することで、対話装置１０Ｂの動作が中継モードで動作するように設定する。

ステップＳ６２において、ＣＰＵ２１はマップを参照して、ステップＳ２０で特定した方向にいる発話者が誰であるのか、発話者の名前を特定する。すなわち、ＣＰＵ２１は対話を開始した発話者の名前を特定する。

そして、ＣＰＵ２１は、特定した発話者の名前と、ステップＳ２１でＲＡＭ２３に記憶された対話相手の名前をそれぞれ対応付け、対話テーブルとしてＲＡＭ２３に記憶する。これによって、対話を行っているメンバーの情報がＲＡＭ２３に記憶される。なお、発話者が、例えば「なあ、山田と田中」というように複数の人を呼び出した場合には、発話者に呼び出された各々の人が発話者の対話相手として対話テーブルに記憶される。

ステップＳ６４において、ＣＰＵ２１はマップを参照して、ステップＳ２１で名前がＲＡＭ２３に記憶した対話相手が、対話装置１０Ｂから見てどの方向にいるのか特定する。

ステップＳ６６において、ＣＰＵ２１は、ステップＳ６４で特定した対話相手が存在する方向に向けて音声を出力するスピーカ１２を選択する。

ステップＳ６８において、ＣＰＵ２１は、ステップＳ１０で受信した、対話を開始した発話者が発した音声を、ステップＳ６６で選択したスピーカ１２から出力する。これによって、対話を開始した発話者が発した音声を、対話相手が存在する方向とは異なる方向に音声を出力するスピーカ１２から出力した場合と比較して、発話者が発した音声が対話相手に聞き取りやすく通知されることになる。

ステップＳ７０において、ＣＰＵ２１は対話タイマを起動する。対話タイマは、例えばＣＰＵ２１に内蔵されているタイマ機能を利用すればよい。

ここで「対話タイマ」とは、開始された対話が終了したか否かを判定するためのタイマである。対話装置１０Ｂでは、発話者が何らかの発言をした後、予め定めた時間が経過するまでに誰からも応答がなかった場合を対話の終了と規定する。対話の終了を規定する予め定めた時間は閾値Ｔ１（Ｔ１＞０）として、例えば不揮発性メモリ２４に記憶されている。なお、対話タイマが起動されていない場合の対話タイマのタイマ値は“０”を示す。

以上により、対話装置１０Ｂの動作が中継モードに切り換えられる。

なお、図１４のステップＳ６２では、ステップＳ２０で特定した発話者の方向を用いて、対話を開始した発話者の名前を特定した。しかしながら、マップには発話者の声の周波数分析結果が含まれている。したがって、ステップＳ６２において、ＣＰＵ２１は、ステップＳ１０で受信した音声の周波数分析を実行したうえで、マップを参照して、得られた周波数分析結果と最も近い周波数分析結果を有する人を対話を開始した発話者として特定してもよい。この場合、発話者の位置がマップの作成時の位置と変わった場合であっても、発話者が発した声の方向から発話者が誰であるのかを特定する場合と比較して、発話者を精度よく特定することができる。

図１５は、ＣＰＵ２１によって実行される、中継モードに対応した対話処理の流れの一例を示すフローチャートである。

既に説明したステップＳ１０及びＳ２０で、ＣＰＵ２１によって各々のマイク１１で収集された音声の音声強度から発話者の方向が特定された後、ステップＳ２３が実行される。

ステップＳ２３において、ＣＰＵ２１は、対話タイマのタイマ値がＴ１以上か否かを判定する。対話タイマのタイマ値がＴ１以上の場合にはステップＳ２５に移行する。

この場合、前回の発話者の発言から無言状態がＴ１以上継続していることを示しており、対話を行っているメンバーの間で対話が一旦終了したとみなすことができる。したがって、ステップＳ２５において、ＣＰＵ２１は、例えばＲＡＭ２３に記憶された動作モードを示す変数の値を中継モードを示す値から他の値に変更して、中継モードを解除する。

一方、ステップＳ２３で対話タイマのタイマ値がＴ１未満であると判定された場合、又はステップＳ２５が実行された場合、ステップＳ２７に移行する。

ステップＳ２７において、ＣＰＵ２１は、対話装置１０Ｂの動作モードが中継モードか否かを判定する。対話装置１０Ｂの動作モードが中継モードでない場合には、ステップＳ２９に移行する。

ステップＳ２９において、ＣＰＵ２１は対話タイマを停止して、対話タイマのタイマ値を“０”に戻す。

この場合、対話装置１０Ｂの動作モードが中継モードではないため、ＣＰＵ２１は、ステップＳ１０で受信した音声は対話装置１０Ｂに対して発せられた問いかけであると把握する。したがって、ＣＰＵ２１は、既に説明したステップＳ３０、Ｓ４０、及びＳ５０を実行して、対話装置１０Ｂへの問いかけに対する応答を対話装置１０Ｂに問いかけた発話者の方向に向けてスピーカ１２から出力する第１実施形態に係る対話装置１０と同じ動作を行う。

一方、ステップＳ２７の判定処理で、対話装置１０Ｂの動作モードが中継モードと判定された場合、ステップＳ８０に移行する。

ステップＳ８０において、ＣＰＵ２１はマップを参照して、ステップＳ２０で特定した方向にいる発話者が誰であるのか、発話者を特定する。すなわち、ＣＰＵ２１は話をしている発話者の名前を特定する。

ステップＳ８２において、ＣＰＵ２１は、図１４のステップＳ６２で作成された対話テーブルを参照して、ステップＳ８０で特定した発話者の対話相手を特定する。

更に、ＣＰＵ２１はマップを参照して、発話者の対話相手が存在する方向を特定する。

ステップＳ８４において、ＣＰＵ２１は、ステップＳ８２で特定した対話相手が存在する方向に向けて音声を出力するスピーカ１２を選択する。

ステップＳ８６において、ＣＰＵ２１は、ステップＳ１０で受信した発話者が発した音声を、ステップＳ８４で選択したスピーカ１２から出力する。以上により、図１５に示した対話処理を終了する。

なお、図１５のステップＳ８０では、ＣＰＵ２１は、ステップＳ２０で特定した発話者の方向を用いて、発話者を特定した。しかしながら、マップには発話者の声の周波数分析結果が含まれている。したがって、ステップＳ８０において、ＣＰＵ２１は、ステップＳ１０で受信した音声の周波数分析を実行したうえで、マップを参照して、得られた周波数分析結果と最も近い周波数分析結果を有する人を発話者として特定してもよい。この場合、発話者の位置が対話の途中で変わった場合であっても、発話者が発した声の方向から発話者が誰であるのかを特定する場合と比較して、発話者を精度よく特定することができる。

このように第３実施形態に係る対話装置１０Ｂによれば、メンバー間の対話の開始を自律的に判定して、対話装置１０Ｂを中継モードに設定し、発話者が発した声を、対話相手が存在する方向に向けてスピーカ１２から出力することで、声の中継を行う。したがって、対話相手が存在する方向を特定せずに、対話相手が存在する方向とは異なる方向に発話者が発した音声をスピーカ１２から出力する場合と比較して、発話者が発した音声が対話相手に聞き取りやすく通知されることになる。

なお、図１３〜図１５の各フローチャートでは、対話装置１０Ｂから発話者又は対話相手に音声を出力する場合、発話者又は対話相手の方向に向いたスピーカ１２のみから音声を出力することで、スピーカ１２から出力される音声の指向性を制御した。しかし、他の方向よりも発話者及び対話相手の方向へ音声を届きやすくする制御方法はこれに限られない。

例えば、第１実施形態で説明したように、ＣＰＵ２１は、発話者又は対話相手の方向に向いたスピーカ１２の音量が、他のスピーカ１２の音量よりも大きくなるように、各々のスピーカ１２の音量を制御してもよい。

以上、各実施の形態を用いて本発明について説明したが、本発明は各実施の形態に記載の範囲に限定されない。本発明の要旨を逸脱しない範囲で各実施の形態に多様な変更又は改良を加えることができ、当該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。例えば、本発明の要旨を逸脱しない範囲で処理の順序を変更してもよい。

また、各実施の形態では、一例として各処理をソフトウエアで実現する形態について説明したが、図４〜図７、図１１、及び図１３〜図１５に示したフローチャートと同等の処理を、例えばＡＳＩＣ（Application Specific Integrated Circuit）に実装し、ハードウエアで処理させるようにしてもよい。この場合、各処理をソフトウエアで実現する場合と比較して、処理の高速化が期待できる。

また、上述した各実施の形態では、各プログラムがＲＯＭ２２にインストールされている形態を説明したが、これに限定されるものではない。本発明に係る各プログラムは、コンピュータ読み取り可能な記憶媒体に記録された形態で提供することも可能である。例えば、本発明に係る各プログラムを、ＣＤ(Compact Disc)−ＲＯＭ、又はＤＶＤ(Digital Versatile Disc)−ＲＯＭ等の光ディスクに記録した形態で提供してもよい。また、本発明に係る各プログラムを、ＵＳＢ(Universal Serial Bus)メモリ及びフラッシュメモリ等の半導体メモリに記録した形態で提供してもよい。更に、対話装置１０、１０Ａ、１０Ｂは、通信回線３０に接続された記憶装置から、本発明に係る各プログラムをダウンロードしてもよい。

８・・・カーナビゲーション装置
１０（１０Ａ、１０Ｂ）・・・対話装置
１１・・・マイク
１２・・・スピーカ
１３・・・特定部
１４（１４Ａ、１４Ｂ）・・・生成部
１５・・・通信部
１６・・・出力部
１７（１７Ａ、１７Ｂ）・・・制御部
１８・・・入力部
２０・・・コンピュータ
２１・・・ＣＰＵ
２２・・・ＲＯＭ
２３・・・ＲＡＭ
２４・・・不揮発性メモリ
２７・・・通信ユニット
２８・・・入力ユニット
３０・・・通信回線
３１・・・知能サーバ
４０・・・車両
Ｔ０・・・測定タイマの閾値
Ｔ１・・・対話タイマの閾値

Claims

発話者が発した音声から前記発話者の方向を特定する特定部と、
前記発話者に音声を出力する場合、前記特定部で特定した方向への音声の指向性が、他の方向における音声の指向性より高くなるように、スピーカから出力される音声の指向性を制御する制御部と、
を備え、
前記制御部は、前記発話者の各々について、聞き取りやすい周波数帯域の情報を収集すると共に、複数のスピーカのうち、前記特定部によって特定された前記発話者が存在する方向に音声を出力するスピーカを選択し、選択したスピーカから前記発話者に音声を出力する場合、前記周波数帯域に含まれる音声強度が、基準となる予め定めた音質を有する音声の前記周波数帯域に含まれる音声強度より大きくなるように、前記発話者に応じて前記予め定めた音質を変調する制御を行う
対話装置。
発話者が発した音声から前記発話者の方向を特定する特定部と、
前記発話者に音声を出力する場合、前記特定部で特定した方向への音声の指向性が、他の方向における音声の指向性より高くなるように、スピーカから出力される音声の指向性を制御する制御部と、
を備え、
前記制御部は、スピーカから前記発話者に音声を出力する場合、複数のスピーカのうち、前記特定部によって特定された前記発話者が存在する方向に音声を出力するスピーカの音量が、他の方向に向けて音声を出力するスピーカの音量より大きくなるように、前記複数のスピーカにおける各々の音量を制御すると共に、前記発話者の各々について、聞き取りやすい周波数帯域の情報を収集し、前記周波数帯域に含まれる音声強度が、基準となる予め定めた音質を有する音声の前記周波数帯域に含まれる音声強度より大きくなるように、前記発話者に応じて前記予め定めた音質を変調する制御を行う
対話装置。
前記特定部は、車両を運転する運転手の方向を音声から特定し、
前記制御部は、前記車両の運転を支援する運転支援装置から前記車両の運転に関する情報を取得した場合、前記情報を通知する音声の指向性が、他の方向に比べて前記特定部で特定した前記運転手が存在する方向で高くなるように、スピーカから出力される音声の指向性を制御する
請求項１又は請求項２に記載の対話装置。
前記運転支援装置は、前記車両に予め設置されているカーナビゲーション装置、又はカーナビゲーション機能を有する携帯型の情報機器である
請求項３記載の対話装置。
前記特定部は、スピーカから出力される音声の到達範囲内にいる複数の人の方向を音声から特定し、
前記制御部は、前記特定部で方向が特定された前記複数の人のうち少なくとも２人の対話をそれぞれ中継する場合、言葉を発した前記発話者の音声の指向性が、他の方向に比べて対話相手が存在する方向で高くなるように、スピーカから出力される音声の指向性を制御する
請求項１又は請求項２に記載の対話装置。
前記制御部は、対話相手を指定する語句を含む音声を受け付けてから対話が終了するまで、それぞれの対話相手の音声を中継する制御を行う
請求項５記載の対話装置。