JP2010156825A

JP2010156825A - 音声出力装置

Info

Publication number: JP2010156825A
Application number: JP2008334874A
Authority: JP
Inventors: Nahoko Kawamura; 奈浦子川村; Masahiro Kamiya; 昌宏神谷
Original assignee: Denso Ten Ltd
Current assignee: Denso Ten Ltd
Priority date: 2008-12-26
Filing date: 2008-12-26
Publication date: 2010-07-15

Abstract

【課題】音声操作を行った人に対して、正確にトークバックすることを課題とする。
【解決手段】音声出力装置３０は、マイク１１により集音された音声信号から、人が発話した音声信号を示す発話信号を検知し、集音された音声信号を用いて、発話者を特定する。続いて、音声出力装置３０は、検知された発話信号を音声認識された結果に基づいて、発話者にトークバックする音声信号であるトークバック信号を作成する。その後、音声出力装置は、特定された発話者に対して、作成されたトークバック信号を出力する。
【選択図】図２

Description

この発明は、車両に搭載され、車両内で発話された内容に対してトークバックを出力する音声出力装置に関する。

従来より、車両に搭載される車載装置には、カーナビや車載オーディオ装置などと連携し、ドライバーから発話された発話音声を音声認識して、その結果をドライバーにトークバックする音声出力装置が用いられている。

この音声出力装置では、ドライバーから出力された音声を音声認識した結果をドライバーにトークバックし、音声認識結果が正しいか否かをドライバーに問い合わせる。そして、音声出力装置は、トークバックした音声認識結果がドライバーにより訂正されない場合、正しく音声認識できたと判断して、当該トークバックした音声認識結果を連携されるカーナビや車載オーディオ装置に出力する。

一方、音声出力装置は、トークバックした音声認識結果がドライバーにより訂正された場合、正しく音声認識できていないと判断して、新たな発話音声を集音して新たな音声認識を行い、その結果をドライバーにトークバックして、音声認識結果が正しいか否かをドライバーに再度問い合わせる。

このように、音声出力装置は、正しく音声認識ができた場合にのみ、音声認識結果を連携されるカーナビや車載オーディオ装置に出力することとなる。その結果、カーナビや車載オーディオ装置は、正確な音声認識結果を受け付けることができるので、ドライバーの指示（発話）に対して正確な処理を実行することができる。つまり、車載装置全体として、正確な音声操作をドライバーに提供することができる。

特開２００４−３３３７０４号公報特開２００３−１６２２９６号公報

しかしながら、上記した従来の技術は、ドライバーから発話された音声を音声認識してトークバックすることを想定しているために、ドライバー以外の人にとっては、トークバックが聞き取りづらいという課題があった。

具体的には、従来技術では、上記したように、ドライバー（運転席）にトークバックすることを想定しているために、車両に搭載されるスピーカーのうちドライバー近くのスピーカーからトークバックを出力したり、各スピーカーからドライバー（運転席）に向けてトークバックを出力したりする。したがって、ドライバー以外の乗員（例えば、後部座席者など）が車載装置に対して音声操作を行った場合、トークバックがドライバーに向けて出力されるため、音声認識が正しく行われたか否かを確認することができない。

そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、音声操作を行った人に対して、正確にトークバックすることが可能である音声出力装置を提供することを目的とする。

上述した課題を解決し、目的を達成するため、本発明は、車両に搭載され、車両内で発話された内容に基づいてトークバックを出力する音声出力装置であって、マイクにより集音された音声信号から、人が発話した音声信号を示す発話信号を検知する発話検知手段と、前記集音された音声信号を用いて、発話者を特定する発話者特定手段と、前記発話検知手段により検知された発話信号を音声認識する音声認識手段と、前記音声認識手段により音声認識された結果に基づいて、前記発話者にトークバックする音声信号であるトークバック信号を作成するトークバック作成手段と、前記発話者特定手段により特定された発話者に対して、前記トークバック作成手段により作成されたトークバック信号を出力する音声出力手段と、を備えたことを特徴とする。

本発明によれば、音声操作を行った人に対して、正確にトークバックすることが可能である。

以下に添付図面を参照して、この発明に係る音声出力装置の実施例を詳細に説明する。なお、以下では、本実施例に係る音声出力装置の概要、音声出力装置の構成および処理の流れを順に説明し、最後に本実施例に対する種々の変形例を説明する。

［音声出力装置の概要］
最初に、図１を用いて、本願が開示する音声出力装置の概要について説明する。図１は、実施例１に係る音声出力装置の概要を説明するための図である。

図１に示すように、実施例１に係る音声出力装置は、前方にマイクが設置され、運転席横にスピーカーＦＲ、助手席横にスピーカーＦＬ、後部座席左横にスピーカーＲＬ、後部座席右横にスピーカーＲＲが設置される車両の前方に、カーナビなどと連携して設置される。

この音声出力装置は、車両に搭載される装置であり、カーナビ、車載オーディオ、エアコンなど他の車載機と連携して、車載システムを構成している。そして、音声出力装置は、車両に設置されたマイクにより集音した音声信号を音声認識して、音声認識結果を連携される他の車載機に出力する。他の車載機は、音声出力装置から受け付けた音声認識結果に対応する処理を実行する。

例えば、音声出力装置は、マイクから入力された音声信号から「温度を下げてください」と音声認識した場合、エアコンに対して、この結果を出力する。すると、エアコンは、音声出力装置から受信した「温度を下げてください」に従って、冷房の温度を下げる処理を実行する。なお、音声出力装置が音声認識結果をどの車載機に出力するかについては、例えば、「文字列」と「出力先」として「温度、エアコン」や「画面、カーナビ」などをＤＢに記憶しておき、音声認識して得られる各文字列とＤＢとを参照することにより、出力先を特定するようにしてもよい。

このように、音声出力装置は、車両に搭載される車載機を音声操作するために重要な装置であり、高精度な音声認識が要求されている。そして、音声出力装置は、高精度な音声認識を実現する手法として、音声認識結果を車両内にトークバックさせることにより、正しく音声認識できたか否かを発話者に確認し、正しく音声認識ができた場合にのみ、音声認識結果を車載機に出力している。

そこで、実施例１に係る音声出力装置は、上記したように、音声認識結果を車両内にトークバックさせて、精度よく音声認識を実現する装置であり、音声操作を行った人に対して、正確にトークバックすることが可能である。

具体的には、実施例１に係る音声出力装置は、マイクにより集音された音声信号から、人が発話した音声信号を示す発話信号を検知し、集音された音声信号を用いて、発話者を特定する（図１の（１）参照）。

例えば、音声出力装置は、マイクにより集音された音声信号から検知した発話信号の音源方向を推定した結果や図示しないカメラにより撮像された画像などから、発話者を後部座席左などと特定する。

そして、音声出力装置は、検知された発話信号を音声認識して、音声認識された結果に基づいて、発話者にトークバックする音声信号を作成し、作成された音声信号を特定された発話者に対して出力する（図１の（２）参照）。

上記した例で説明すると、音声出力装置は、検知された発話信号を音声認識して「温度を下げてください」を認識した場合、当該認識結果である「温度を下げてください、でよろしいですね」をトークバックする音声信号として新たに作成し、作成された音声信号を特定された発話者「後部座席左」に隣接するスピーカーＲＬから出力する。

このように、実施例１に係る音声出力装置は、マイクにより集音された音声信号から発話者を特定して、特定した発話者に隣接するスピーカーからトークバックを出力することができる結果、音声操作を行った人に対して、正確にトークバックすることが可能である。

［音声出力装置の構成］
次に、図２を用いて、図１に示した音声出力装置の構成を説明する。図２は、実施例１に係る音声出力装置を含む車載システムの構成を示すブロック図である。図２に示すように、この車載システムは、カメラ１０と、マイク１１と、スピーカーＦＲ１２と、スピーカーＦＬ１３と、スピーカーＲＲ１４と、スピーカーＲＬ１５と、連携装置２０と、音声出力装置３０とを有する。

カメラ１０は、車両内に車両全体が撮像される位置に設置され、所定のタイミングで車両内を撮像する。例えば、カメラ１０は、１０秒間隔で車両内を撮像し、撮像した画像を音声出力装置３０に出力する。

マイク１１は、車両内の前方に設置され、車両内に出力されている音声信号を集音する。例えば、マイク１１は、後述するスピーカーＦＲ１２〜スピーカーＲＬ１５から出力されている音声信号や、車両の乗員により発話されている音声信号などを集音して、音声出力装置３０に出力する。

スピーカーＦＲ１２は、運転席近くに設置されるスピーカーであり、後述するカーナビ２１や車載オーディオ２２などにより出力された音声信号（例えば、音楽やカーナビの音声）を車両内に出力する。同様に、スピーカーＦＬ１３は、助手席近くに設置されるスピーカーであり、スピーカーＲＲ１４は、後部座席右近くに設置されるスピーカーであり、スピーカーＲＬ１５は、後部座席左近くに設置されるスピーカーである。

連携装置２０は、音声出力装置３０と連携して、車載システムを構成する装置であり、例えば、カーナビ２１、車載オーディオ２２、エアコン２３などである。もっとも、ここで示した連携装置はあくまで例示であり、これに限定されるものではない。

カーナビ２１は、ディスプレイ、タッチパネル、ＧＰＳ（Global Positioning System）やＶＩＣＳ（Vehicle Information and Communication System）などを有し、高精度地図情報を表示出力する。具体的には、カーナビ２１は、利用者により選択された目的地までの道のり、現在位置、車両が走行している道路情報（例えば、右折レーンや上り坂など）などを、ＧＰＳ、ＶＩＣＳ、高精度地図情報を用いて取得し、ディスプレイやタッチパネル表示出力する。

また、カーナビ２１は、音声出力装置３０から入力された音声認識結果に対応する処理を実行する。例えば、カーナビ２１は、音声出力装置３０から音声認識結果として「画面を拡大する」が入力された場合、ディスプレイに表示している情報を「拡大」する処理を実行する。

車載オーディオ２２は、ラジオ受信機能やＴＶ受信機能を有し、スピーカーＦＲ１２〜スピーカーＲＬ１５から音声信号を出力する。具体的には、車載オーディオ２２は、受け付けたＤＶＤやＣＤなどの記憶媒体に保存されている音声信号や、受信したラジオやＴＶなどの音声信号をスピーカーＦＲ１２〜スピーカーＲＬ１５から出力する。

また、車載オーディオ２２は、音声出力装置３０から入力された音声認識結果に対応する処理を実行する。例えば、車載オーディオ２２は、音声出力装置３０から音声認識結果として「ボリュームを上げる」が入力された場合、現時点で各スピーカーから出力している音声の「ボリュームを上げる」処理を実行する。

エアコン２３は、乗員により設定された条件（例えば、風量、温度など）に応じて冷房、暖房、送風などを実行する。また、エアコン２３は、音声出力装置３０から入力された音声認識結果に対応する処理を実行する。例えば、エアコン２３は、音声出力装置３０から音声認識結果として「温度を上げてください」が入力された場合、現時点で車両に送風しているエアコンの温度を「上げる」処理を実行する。

音声出力装置３０は、音声認識結果を車両内にトークバックさせて、精度よく音声認識を実現する装置であり、本実施例に密接に関連するものとしては、表現文字列ＤＢ３１と、アナログ／デジタル変換部３２と、発話検知部３３と、走行ノイズ検知部３４と、発話者特定部３５と、音声認識部３６と、トークバック生成部３７と、音声出力部３８とを有する。

表現文字列ＤＢ３１は、後述する音声認識部３６により音声認識された結果とトークバックする文字列と対応付けて記憶する。具体的には、表現文字列ＤＢ３１は、図３に示すように、『記憶する情報を区別する「項番」、音声認識された結果を示す「音声認識結果」、トークバックする文字列を示す「トークバック文字列」』を記憶する。例えば、表現文字列ＤＢ３１は、「項番、音声認識結果、トークバック文字列」として「１、エアコンの温度を上げてください、エアコンの温度を上げます」、「２、カーナビの目的地変更、新たな目的地を発話してください」、「３、間違っています、再度音声認識を行いますので音声操作を実行してください」などを記憶する。なお、図３は、表現文字列ＤＢに記憶される情報の例を示す図である。

アナログ／デジタル変換部３２は、マイク１１により集音されたアナログの音声信号をデジタルの音声信号に変換して、後述する発話検知部３３、走行ノイズ検知部３４、発話者特定部３５のそれぞれに出力する。

発話検知部３３は、マイク１１により集音された音声信号から、人が発話した音声信号を示す発話信号を検知する。具体的には、発話検知部３３は、メモリなどに発話信号の特徴を示す「レベル」、「周波数」、「ピーク」、「エッジ」などを記憶しておき、マイク１１により集音されて、アナログ／デジタル変換部３２によりデジタル変換された音声信号に、上記した記憶する特徴が含まれるか否かにより、発話があったか否かを検知する。そして、発話検知部３３は、マイク１１により集音された音声信号に上記した特徴が含まれる場合には、上記した特徴部分の音声信号を抽出して、音声認識部３６や音声出力部３８に出力する。

走行ノイズ検知部３４は、マイク１１により集音された音声信号から走行ノイズがある区間を検知する。具体的には、走行ノイズ検知部３４は、マイク１１により集音されて、アナログ／デジタル変換部３２によりデジタル変換された音声信号から特定の周波数成分が閾値を越える区間などを、車両が走行することにより集音される走行ノイズの区間として検出して、当該区間を音声出力部３８に出力する。

発話者特定部３５は、マイク１１により集音された音声信号を用いて、発話者を特定する。具体的には、発話者特定部３５は、マイク１１により集音されて、アナログ／デジタル変換部３２によりデジタル変換された音声信号に対してタスクベリフィケーションを実行して、人に対する発話かシステムに対する発話であるのかを発声の内容から判断し、特に、ここでは、発声内容（呼びかけ、語尾など）が異なることを利用して、発話者（会話相手）を特定する。

また、別に手法として、発話者特定部３５は、マイク１１により集音されて、アナログ／デジタル変換部３２によりデジタル変換された音声信号において、発話検知部３３により検知された発話信号の音源方向を推定して、発話者を特定する。また、発話者特定部３５は、マイク１１により集音されたタイミングで、カメラ１０により車両内が撮像された画像を用いて、発話者を特定することもできる。そして、発話者特定部３５は、上記した手法により特定した発話者の情報を音声出力部３８に出力する。

音声認識部３６は、発話検知部３３により検知された発話信号を音声認識する。具体的には、音声認識部３６は、発話検知部３３により検知された発話信号から文字データ（単語データ）に変換して、後述するトークバック生成部３７に出力する。例えば、音声認識部３６は、発話検知部３３により発話信号として「エアコンの温度を上げてください」が検知された場合、「エアコン／の／温度／を／上げて／ください」と単語分割した文字データを生成してトークバック生成部３７に出力する。

トークバック生成部３７は、音声認識部３６により音声認識された結果に基づいて、発話者にトークバックする音声信号を作成する。具体的には、トークバック生成部３７は、音声認識部３６により音声認識された結果をそのまま発話者にトークバックする音声信号として作成するようにしてもよい。例えば、トークバック生成部３７は、音声認識部３６により音声認識された「エアコン／の／温度／を／上げて／ください」をそのまま発話者にトークバックする音声信号「エアコンの温度を上げてください」として作成するようにしてもよい。

また、トークバック生成部３７は、音声認識部３６により音声認識された結果に対応する「トークバック文字列」を表現文字列ＤＢ３１から特定し、特定した文字列をトークバックする音声信号として作成することもできる。例えば、トークバック生成部３７は、図３に示すように、音声認識部３６により音声認識された「エアコン／の／温度／を／上げて／ください」に対応する「トークバック文字列＝エアコンの温度を上げます」を表現文字列ＤＢ３１から特定し、特定した文字列をトークバックする音声信号「エアコンの温度を上げます」として作成することもできる。このようにして、トークバック生成部３７は、作成したトークバックする音声信号を音声出力部３８に出力する。

なお、トークバック生成部３７は、音声認識された全ての文字列と一致する表現文字列ＤＢ３１の「音声認識結果」を特定し、特定した「音声認識結果」に対応する「トークバック文字列」を音声信号として作成する必要はない。具体的には、トークバック生成部３７は、音声認識部３６により音声認識された「文字データ」を含む表現文字列ＤＢ３１の「音声認識結果」に対応する「トークバック文字列」を表現文字列ＤＢ３１から特定し、特定した文字列をトークバックする音声信号として作成することもできる。

例えば、トークバック生成部３７は、音声認識部３６により「目的地／の／変更／を／したい／の／ですが」と音声認識された場合、図３の「項番２」の「音声認識結果＝カーナビの目的地変更」に、音声認識された文字データ「目的地」と「変更」とが含まれていることを根拠に、「項番２」の「トークバック文字列＝新たな目的地を発話してください」を表現文字列ＤＢ３１から特定し、特定した文字列をトークバックする音声信号として作成する。

音声出力部３８は、発話者特定部３５により特定された発話者に対して、トークバック生成部３７により作成された音声信号を出力する。具体的に例を挙げると、音声出力部３８は、発話者特定部３５により特定された発話者に隣接するスピーカーから、トークバック生成部３７により作成されたデジタル信号である音声信号をアナログ変換および増幅させて出力する。例えば、発話者特定部３５により「助手席者」が発話者であると特定され、トークバック生成部３７により「エアコンの温度を上げます」が作成された場合、音声出力部３８は、音声信号「エアコンの温度を上げます」を助手席近くのスピーカーＦＬ１３から出力する。

また、音声出力部３８は、走行ノイズ検知部３４により走行ノイズが多い区間であると指示された場合には、トークバックする音声信号を補完して出力する。具体的には、音声出力部３８は、音声認識部３６により音声認識された結果をそのままトークバックする場合に、走行ノイズ検知部３４により走行ノイズが多い区間であると判定されていると、音声認識結果が途中で終わっているなど、正確でない恐れがある。そこで、音声出力部３８は、走行ノイズが多い区間である場合には、音声認識部３６により音声認識された結果を補完して出力する。例えば、音声認識部３６により音声認識された結果が「・・・／の／温度／・・・／上げて／・・・」（「・・・」はノイズのため認識できていない）である場合、文字データから「温度を上げてください」と予測し、予測した文字データに補完して出力する。

なお、音声出力部３８は、各スピーカーにトークバックを出力するだけでなく、音声認識部３６により音声認識された結果を連携装置２０に出力する。こうすることにより、車両内において、音声操作を実現することができる。音声出力部３８が音声認識結果を連携装置２０に出力するタイミング、トークバックするタイミングについては、図４で説明する。

［音声出力装置による処理］
次に、図４を用いて、音声出力装置３０による処理を説明する。図４は、実施例１に係る音声出力装置によりトークバック処理の流れを示すフローチャートである。

図４に示すように、音声出力装置３０は、マイク１１により音声信号が集音された場合（ステップＳ１０１肯定）、集音された音声信号をデジタル変換して、当該音声信号に発話信号が含まれるか否かを判定する（ステップＳ１０２）。

そして、音声出力装置３０は、集音された音声信号に発話信号が含まれると判定された場合、言い換えれば、集音された音声信号から発話信号が検知された場合（ステップＳ１０２肯定）、検知された発話信号を音声認識する（ステップＳ１０３）。

続いて、音声出力装置３０は、音声認識された結果が新たな発話内容であるか否かを判定する（ステップＳ１０４）。ここでは、音声出力装置３０は、音声認識された結果が新たな発話内容であるか否かにより、音声認識された結果をトークバックするか連携装置２０に出力するかを判定している。例えば、時間的に新しい５回分の認識結果を記憶しておき、音声認識された結果がこれらと一致しない場合には、新たな発話であると判定する。新たな発話である場合は、連携装置２０に出力して音声操作を実行する必要はなく、トークバックして正しく音声認識できているかを発話者に問い合わせる必要がある。

そして、音声出力装置３０は、新たな発話であると判定した場合（ステップＳ１０４肯定）、検知された発話信号の音源方向を推定して、発話者を特定し（ステップＳ１０５）、図２で説明した手法を用いて、トークバックを生成する（ステップＳ１０６）。なお、マイク１１により音声が集音されるタイミングでカメラ１０により撮像された画像から発話者を特定することもできる。また、発話者を特定（検出）できない場合、再度特定処理を実行したり、ステップＳ１０１に戻って検出処理を実行したり、処理を終了したりするなど、任意に設定することができる。

上記したステップＳ１０１〜ステップＳ１０５を実行する一方で、音声出力装置３０は、マイク１１により集音された音声信号から走行ノイズ区間を検知する（ステップＳ１０７）。

そして、音声出力装置３０は、走行ノイズが多い区間である場合には生成したトークバックを補完しつつ、特定した発話者に隣接するスピーカーから出力する（ステップＳ１０８）。

一方、ステップＳ１０２に戻り、音声出力装置３０は、集音された音声信号に発話信号が含まれないと判定された場合、言い換えれば、集音された音声信号から発話信号が検知されない場合（ステップＳ１０２否定）、連携装置２０に未出力の音声認識済み結果があるか否かを判定する（ステップＳ１０９）。

そして、音声出力装置３０は、未出力の音声認識済み結果がある場合（ステップＳ１０９肯定）、未出力の音声認識済み結果を対応する連携装置２０のいずれかの装置に出力する（ステップＳ１１０）。一方、未出力の音声認識済み結果がない場合（ステップＳ１０９否定）、音声出力装置３０は、ステップＳ１０１に戻る。

また、ステップＳ１０４に戻り、音声出力装置３０は、新たな発話でないと判定した場合（ステップＳ１０４否定）、当該音声認識結果が音声認識を再度要求する発話（例えば、間違っています。もう一度お願いします。など）であるか否かを判定する（ステップＳ１１１）。

そして、音声出力装置３０は、音声認識結果が音声認識を再度要求する発話であると判定した場合（ステップＳ１１１肯定）、当該音声認識結果を対応する連携装置２０のいずれかの装置に出力する（ステップＳ１１０）。一方、音声認識結果が音声認識を再度要求する発話でない場合（ステップＳ１１１否定）、音声出力装置３０は、ステップＳ１０１に戻る。

［実施例１による効果］
このように、実施例１によれば、音声出力装置３０は、マイク１１により集音された音声信号から、人が発話した音声信号を示す発話信号を検知し、集音された音声信号を用いて、発話者を特定する。そして、音声出力装置３０は、検知された発話信号を音声認識した結果に基づいて、発話者にトークバックするトークバック信号を作成し、特定された発話者に対して、トークバック信号を出力する。したがって、音声出力装置３０は、マイク１１により集音された音声信号から発話者を特定して、特定した発話者に隣接するスピーカーからトークバックを出力することができる結果、音声操作を行った人に対して、正確にトークバックすることが可能である。また、正確にトークバックすることが可能であるので、精度のよい音声操作を実行することができる。

また、実施例１によれば、音声出力装置３０は、車両内を撮像した画像を用いて、発話者を特定する。したがって、音声以外の情報として、発話した事実を撮像した画像から発話者を特定する結果、発話者を確実に特定することができる。

また、実施例１によれば、音声出力装置３０は、特定された発話者に隣接するスピーカーから、作成されたトークバック信号を出力する。したがって、音声操作を行った人に対して、確実にトークバックすることが可能である。

また、実施例１によれば、走行ノイズがあったとしても、乗員は、会話音声を聞き取り易い。

ところで、実施例１では、連携装置２０への音声操作を実行する音声信号を集音して発話者にトークバックさせる例について説明したが、本発明はこれに限定されるものではなく、乗員同士の会話を集音して音声認識し、トークバックのように、認識結果を相手先に出力させることもできる。

そこで、実施例２では、図５と図６を用いて、発話内容が車載機器の音声操作であるのか乗員同士の会話であるかを区別する例について説明する。

［音声出力装置の構成（実施例２）］
まず、図５を用いて、実施例２に係る音声出力装置の構成について説明する。図５は、実施例２に係る音声出力装置を含む車載システムの構成を示すブロック図である。図５に示したカメラ１０と、マイク１１と、連携装置２０と、スピーカーＦＲ１２〜スピーカーＲＬ１５と、音声出力装置３０の表現文字列ＤＢ３１とアナログ／デジタル変換部３２と発話検知部３３と走行ノイズ検知部３４と発話者特定部３５と音声認識部３６とトークバック生成部３７と音声出力部３８とは、実施例１で説明した機能と同様の機能を有するので、詳細な説明は省略し、ここでは、会話判定部４２とについて説明する。

会話判定部４２は、音声認識部３６により音声認識された結果から、マイク１１により集音された音声信号がどの乗員向けて発話された会話であるかを判定する。例えば、会話判定部４２は、音声認識部３６により音声認識された結果にタスクベリフィケーションを実行することにより、発生内容（呼びかけ、語尾など）を解析して、発話先の乗員を特定する。また、別の手法として、会話判定部４２は、音声認識部３６により音声認識された結果から「Ａさん」や「Ａ」などのような乗員を特定する情報に基づいて、発話先の乗員を特定することもできる。そして、会話判定部４２は、特定した乗員の情報を音声出力部３８に出力する。

［処理の流れ（実施例２）］
次に、図６を用いて、音声出力装置３０による処理を説明する。図６は、実施例２に係る音声出力装置によりトークバック処理の流れを示すフローチャートである。

図６に示すように、音声出力装置３０は、マイク１１により音声信号が集音された場合（ステップＳ２０１肯定）、集音された音声信号をデジタル変換して、当該音声信号に発話信号が含まれるか否かを判定する（ステップＳ２０２）。

そして、音声出力装置３０は、集音された音声信号に発話信号が含まれると判定された場合、言い換えれば、集音された音声信号から発話信号が検知された場合（ステップＳ２０２肯定）、検知された発話信号を音声認識する（ステップＳ２０３）。

続いて、音声出力装置３０は、音声認識された結果が乗員同士の会話であるか否かを判定し（ステップＳ２０４）、会話である場合には（ステップＳ２０４肯定）、音声認識結果から会話相手（発話先の乗員）を特定する（ステップＳ２０５）。

［実施例２による効果］
このように、実施例２によれば、音声出力装置３０は、会話音声をトークバックのように、相手先に出力することができる結果、音楽など様々な音が混在している車両内であっても、コミュニケーション環境を提供することが可能である。また、乗員同士の会話を車載機器の音声操作であると誤認識することを防ぐことができる。

ところで、実施例１や実施例２では、車両内に備えた一つのマイクにより車両内の音声信号を集音して、発話者（または、会話先の乗員）を特定していたが、本発明はこれに限定されるものではなく、複数のマイクを用いて、発話者（または、会話先の乗員）を特定するようにしてもよい。

具体的には、図７に示すように、車両内の各座席ごとにマイク１〜４を備え、これらのマイクによりそれぞれ集音された音声信号から発話者（または、会話先の乗員）を特定する。その場合、音声出力装置は、図８に示すような、集音するマイクを特定する「マイク」と当該マイクに隣接する「スピーカー」と対応付けて、「マイク１、ＦＲ」、「マイク２、ＦＬ」、「マイク３、ＲＬ」、「マイク４、ＲＲ」をＤＢとして記憶する。そして、音声出力装置は、発話が検出されたマイクに対応するスピーカーを上記ＤＢから特定し、特定したスピーカーからトークバックを出力する。なお、図７は、複数のマイクを有する車両を示す図であり、図８は、マイクとスピーカーとを対応付けた情報の例を示す図である。

また、上記した実施例１〜実施例２、図７や図８は、乗員５名の普通車を用いた例を図示しているが、本発明はこれに限定されるものではなく、例えば、図９に示すような乗員７〜８の三列シートを有する車両であってもよい。なお、図９は、三列シートの車両を例にした図である。

この場合、図７と同様、車両内の各座席ごとにマイク１〜６を備え、これらのマイクによりそれぞれ集音された音声信号から発話者（または、会話先の乗員）を特定する。この場合、音声出力装置は、図８と同様に、集音するマイクを特定する「マイク」と当該マイクに隣接する「スピーカー」と対応付けてＤＢとして記憶する。そして、音声出力装置は、発話が検出されたマイクに対応するスピーカーを上記ＤＢから特定し、特定したスピーカーからトークバックを出力する。

このように、実施例３によれば、音声出力装置３０は、複数のマイクを用いて発話者を特定することができるので、マイクが一つである場合に比べて、より正確に発話者を特定することができる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に示すように、（１）プロファイル情報、（２）システム構成等、（３）プログラムにそれぞれ区分けして異なる実施例を説明する。

（１）プロファイル情報
例えば、実施例１〜３では、音声認識した結果や音声認識した結果に対応する文字列をトークバックする例について説明したが、本発明はこれに限定されるものではなく、乗員の嗜好に適した音声信号に変換して、トークバックを出力することもできる。

具体的には、音声出力装置は、図１０に示すように、『「乗員」、乗員が希望する「音量」、「スピード」、「周波数」、乗員が好きな「キャラクター」』として、「Ａさん、音量大、ゆっくり、７００Ｈｚ、キャラクターＡ」などをプロファイル情報として記憶する。そして、音声出力装置は、実施例１〜３で示した手法で特定した発話者（または、発話先の乗員）に対応するプロファイル情報に従って、トークバックする音声信号を変換して出力する。

上記した例では、音声出力装置は、特定した発話者（＝Ａさん）に対応するプロファイル情報に従って、キャラクターＡの声で、周波数が７００Ｈｚで音量を大きく、ゆっくりとしたスピードにトークバックする音声信号を変換して、Ａさんの近くにあるスピーカーから出力する。

なお、上記したプロファイル情報は、乗員が車両に乗車したときに、乗員により予め登録される情報であり、乗員は、上記した全ての情報を必ず登録する必要はない。また、図１０は、プロファイル情報の例を示す図である。

このように、音声出力装置は、特定された発話者に対応する乗員が希望する音量、スピード、周波数の少なくとも一つから構成されるプロファイル情報を取得し、取得したプロファイル情報に従って、作成されたトークバック信号を変換して発話者に隣接するスピーカーから出力する。その結果、ユーザ（乗員）が希望する音声信号でトークバックを出力することができるため、ユーザがトークバックを聞き逃すことが少なくなることが期待できる。

また、音声出力装置は、特定された発話者に対応する当該乗員が好きなキャラクターの音声情報を取得し、取得した音声情報に従って、作成されたトークバック信号をキャラクターの音声に変換して発話者に隣接するスピーカーから出力する。その結果、ユーザ好みのキャラクターの声でトークバックを出力することができ、ユーザがトークバックを聞き逃すことが少なくなることが期待できる。

（２）システム構成等
また、本実施例において説明した各処理のうち、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報（例えば、図３、図６、図９、図１０など）については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合（例えば、トークバック生成部と音声出力部とを統合するなど）して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

（３）プログラム
なお、本実施例で説明した音声出力方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。

以上のように、本発明に係る音声出力装置は、車両に搭載され、車両内で発話された内容に基づいてトークバックを出力することに有用であり、特に、音声操作を行った人に対して、正確にトークバックすることに適する。

実施例１に係る音声出力装置の概要を説明するための図である。実施例１に係る音声出力装置を含む車載システムの構成を示すブロック図である。表現文字列ＤＢに記憶される情報の例を示す図である。実施例１に係る音声出力装置によりトークバック処理の流れを示すフローチャートである。実施例２に係る音声出力装置を含む車載システムの構成を示すブロック図である。実施例２に係る音声出力装置によりトークバック処理の流れを示すフローチャートである。複数のマイクを有する車両を示す図である。マイクとスピーカーとを対応付けた情報の例を示す図である。三列シートの車両を例にした図である。プロファイル情報の例を示す図である。

符号の説明

１０カメラ
１１マイク
１２スピーカーＦＲ
１３スピーカーＦＬ
１４スピーカーＲＲ
１５スピーカーＲＬ
２０連携装置
２１カーナビ
２２車載オーディオ
２３エアコン
３０音声出力装置
３１表現文字列ＤＢ
３２アナログ／デジタル変換部
３３発話検知部
３４走行ノイズ検知部
３５発話者特定部
３６音声認識部
３７トークバック生成部
３８音声出力部
４２会話判定部

Claims

車両に搭載され、車両内で発話された内容に対してトークバックを出力する音声出力装置であって、
マイクにより集音された音声信号から、人が発話した発話信号を検知する発話検知手段と、
前記集音された音声信号を用いて、発話者を特定する発話者特定手段と、
前記発話検知手段により検知された発話信号を音声認識する音声認識手段と、
前記音声認識手段により音声認識された結果に基づいて、前記発話者にトークバックするトークバック信号を作成するトークバック作成手段と、
前記発話者特定手段により特定された発話者に対して、前記トークバック作成手段により作成されたトークバック信号を出力する音声出力手段と、
を備えたことを特徴とする音声出力装置。
前記音声出力手段は、前記発話者特定手段により特定された発話者に隣接するスピーカーから、前記トークバック作成手段により作成されたトークバック信号を出力することを特徴とする請求項１に記載の音声出力装置。
前記車両に乗車する各乗員に対応付けて、当該乗員が希望する音量、スピード、周波数の少なくとも一つから構成されるプロファイル情報を記憶するプロファイル情報記憶手段をさらに備え、
前記音声出力手段は、前記発話者特定手段により特定された発話者に対応するプロファイル情報を前記プロファイル情報記憶手段から取得し、取得したプロファイル情報に従って、前記トークバック作成手段により作成されたトークバック信号を変換して、前記発話者特定手段により特定された発話者に隣接するスピーカーから出力することを特徴とする請求項１または２に記載の音声出力装置。
前記マイクにより集音された音声信号が、前記車両が走行する間に発生する走行ノイズが多い状態であるか否かを判定する走行ノイズ判定手段をさらに備え、
前記音声出力手段は、前記走行ノイズ判定手段により走行ノイズが多い状態であると判定された場合には、前記トークバック作成手段により作成されたトークバック信号を補完して出力することを特徴とする請求項１〜３のいずれか一つに記載の音声出力装置。