JP2010156825A - 音声出力装置 - Google Patents

音声出力装置 Download PDF

Info

Publication number
JP2010156825A
JP2010156825A JP2008334874A JP2008334874A JP2010156825A JP 2010156825 A JP2010156825 A JP 2010156825A JP 2008334874 A JP2008334874 A JP 2008334874A JP 2008334874 A JP2008334874 A JP 2008334874A JP 2010156825 A JP2010156825 A JP 2010156825A
Authority
JP
Japan
Prior art keywords
speaker
voice
talkback
signal
output device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008334874A
Other languages
English (en)
Inventor
Nahoko Kawamura
奈浦子 川村
Masahiro Kamiya
昌宏 神谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2008334874A priority Critical patent/JP2010156825A/ja
Publication of JP2010156825A publication Critical patent/JP2010156825A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】音声操作を行った人に対して、正確にトークバックすることを課題とする。
【解決手段】音声出力装置30は、マイク11により集音された音声信号から、人が発話した音声信号を示す発話信号を検知し、集音された音声信号を用いて、発話者を特定する。続いて、音声出力装置30は、検知された発話信号を音声認識された結果に基づいて、発話者にトークバックする音声信号であるトークバック信号を作成する。その後、音声出力装置は、特定された発話者に対して、作成されたトークバック信号を出力する。
【選択図】 図2

Description

この発明は、車両に搭載され、車両内で発話された内容に対してトークバックを出力する音声出力装置に関する。
従来より、車両に搭載される車載装置には、カーナビや車載オーディオ装置などと連携し、ドライバーから発話された発話音声を音声認識して、その結果をドライバーにトークバックする音声出力装置が用いられている。
この音声出力装置では、ドライバーから出力された音声を音声認識した結果をドライバーにトークバックし、音声認識結果が正しいか否かをドライバーに問い合わせる。そして、音声出力装置は、トークバックした音声認識結果がドライバーにより訂正されない場合、正しく音声認識できたと判断して、当該トークバックした音声認識結果を連携されるカーナビや車載オーディオ装置に出力する。
一方、音声出力装置は、トークバックした音声認識結果がドライバーにより訂正された場合、正しく音声認識できていないと判断して、新たな発話音声を集音して新たな音声認識を行い、その結果をドライバーにトークバックして、音声認識結果が正しいか否かをドライバーに再度問い合わせる。
このように、音声出力装置は、正しく音声認識ができた場合にのみ、音声認識結果を連携されるカーナビや車載オーディオ装置に出力することとなる。その結果、カーナビや車載オーディオ装置は、正確な音声認識結果を受け付けることができるので、ドライバーの指示(発話)に対して正確な処理を実行することができる。つまり、車載装置全体として、正確な音声操作をドライバーに提供することができる。
特開2004−333704号公報 特開2003−162296号公報
しかしながら、上記した従来の技術は、ドライバーから発話された音声を音声認識してトークバックすることを想定しているために、ドライバー以外の人にとっては、トークバックが聞き取りづらいという課題があった。
具体的には、従来技術では、上記したように、ドライバー(運転席)にトークバックすることを想定しているために、車両に搭載されるスピーカーのうちドライバー近くのスピーカーからトークバックを出力したり、各スピーカーからドライバー(運転席)に向けてトークバックを出力したりする。したがって、ドライバー以外の乗員(例えば、後部座席者など)が車載装置に対して音声操作を行った場合、トークバックがドライバーに向けて出力されるため、音声認識が正しく行われたか否かを確認することができない。
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、音声操作を行った人に対して、正確にトークバックすることが可能である音声出力装置を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明は、車両に搭載され、車両内で発話された内容に基づいてトークバックを出力する音声出力装置であって、マイクにより集音された音声信号から、人が発話した音声信号を示す発話信号を検知する発話検知手段と、前記集音された音声信号を用いて、発話者を特定する発話者特定手段と、前記発話検知手段により検知された発話信号を音声認識する音声認識手段と、前記音声認識手段により音声認識された結果に基づいて、前記発話者にトークバックする音声信号であるトークバック信号を作成するトークバック作成手段と、前記発話者特定手段により特定された発話者に対して、前記トークバック作成手段により作成されたトークバック信号を出力する音声出力手段と、を備えたことを特徴とする。
本発明によれば、音声操作を行った人に対して、正確にトークバックすることが可能である。
以下に添付図面を参照して、この発明に係る音声出力装置の実施例を詳細に説明する。なお、以下では、本実施例に係る音声出力装置の概要、音声出力装置の構成および処理の流れを順に説明し、最後に本実施例に対する種々の変形例を説明する。
[音声出力装置の概要]
最初に、図1を用いて、本願が開示する音声出力装置の概要について説明する。図1は、実施例1に係る音声出力装置の概要を説明するための図である。
図1に示すように、実施例1に係る音声出力装置は、前方にマイクが設置され、運転席横にスピーカーFR、助手席横にスピーカーFL、後部座席左横にスピーカーRL、後部座席右横にスピーカーRRが設置される車両の前方に、カーナビなどと連携して設置される。
この音声出力装置は、車両に搭載される装置であり、カーナビ、車載オーディオ、エアコンなど他の車載機と連携して、車載システムを構成している。そして、音声出力装置は、車両に設置されたマイクにより集音した音声信号を音声認識して、音声認識結果を連携される他の車載機に出力する。他の車載機は、音声出力装置から受け付けた音声認識結果に対応する処理を実行する。
例えば、音声出力装置は、マイクから入力された音声信号から「温度を下げてください」と音声認識した場合、エアコンに対して、この結果を出力する。すると、エアコンは、音声出力装置から受信した「温度を下げてください」に従って、冷房の温度を下げる処理を実行する。なお、音声出力装置が音声認識結果をどの車載機に出力するかについては、例えば、「文字列」と「出力先」として「温度、エアコン」や「画面、カーナビ」などをDBに記憶しておき、音声認識して得られる各文字列とDBとを参照することにより、出力先を特定するようにしてもよい。
このように、音声出力装置は、車両に搭載される車載機を音声操作するために重要な装置であり、高精度な音声認識が要求されている。そして、音声出力装置は、高精度な音声認識を実現する手法として、音声認識結果を車両内にトークバックさせることにより、正しく音声認識できたか否かを発話者に確認し、正しく音声認識ができた場合にのみ、音声認識結果を車載機に出力している。
そこで、実施例1に係る音声出力装置は、上記したように、音声認識結果を車両内にトークバックさせて、精度よく音声認識を実現する装置であり、音声操作を行った人に対して、正確にトークバックすることが可能である。
具体的には、実施例1に係る音声出力装置は、マイクにより集音された音声信号から、人が発話した音声信号を示す発話信号を検知し、集音された音声信号を用いて、発話者を特定する(図1の(1)参照)。
例えば、音声出力装置は、マイクにより集音された音声信号から検知した発話信号の音源方向を推定した結果や図示しないカメラにより撮像された画像などから、発話者を後部座席左などと特定する。
そして、音声出力装置は、検知された発話信号を音声認識して、音声認識された結果に基づいて、発話者にトークバックする音声信号を作成し、作成された音声信号を特定された発話者に対して出力する(図1の(2)参照)。
上記した例で説明すると、音声出力装置は、検知された発話信号を音声認識して「温度を下げてください」を認識した場合、当該認識結果である「温度を下げてください、でよろしいですね」をトークバックする音声信号として新たに作成し、作成された音声信号を特定された発話者「後部座席左」に隣接するスピーカーRLから出力する。
このように、実施例1に係る音声出力装置は、マイクにより集音された音声信号から発話者を特定して、特定した発話者に隣接するスピーカーからトークバックを出力することができる結果、音声操作を行った人に対して、正確にトークバックすることが可能である。
[音声出力装置の構成]
次に、図2を用いて、図1に示した音声出力装置の構成を説明する。図2は、実施例1に係る音声出力装置を含む車載システムの構成を示すブロック図である。図2に示すように、この車載システムは、カメラ10と、マイク11と、スピーカーFR12と、スピーカーFL13と、スピーカーRR14と、スピーカーRL15と、連携装置20と、音声出力装置30とを有する。
カメラ10は、車両内に車両全体が撮像される位置に設置され、所定のタイミングで車両内を撮像する。例えば、カメラ10は、10秒間隔で車両内を撮像し、撮像した画像を音声出力装置30に出力する。
マイク11は、車両内の前方に設置され、車両内に出力されている音声信号を集音する。例えば、マイク11は、後述するスピーカーFR12〜スピーカーRL15から出力されている音声信号や、車両の乗員により発話されている音声信号などを集音して、音声出力装置30に出力する。
スピーカーFR12は、運転席近くに設置されるスピーカーであり、後述するカーナビ21や車載オーディオ22などにより出力された音声信号(例えば、音楽やカーナビの音声)を車両内に出力する。同様に、スピーカーFL13は、助手席近くに設置されるスピーカーであり、スピーカーRR14は、後部座席右近くに設置されるスピーカーであり、スピーカーRL15は、後部座席左近くに設置されるスピーカーである。
連携装置20は、音声出力装置30と連携して、車載システムを構成する装置であり、例えば、カーナビ21、車載オーディオ22、エアコン23などである。もっとも、ここで示した連携装置はあくまで例示であり、これに限定されるものではない。
カーナビ21は、ディスプレイ、タッチパネル、GPS(Global Positioning System)やVICS(Vehicle Information and Communication System)などを有し、高精度地図情報を表示出力する。具体的には、カーナビ21は、利用者により選択された目的地までの道のり、現在位置、車両が走行している道路情報(例えば、右折レーンや上り坂など)などを、GPS、VICS、高精度地図情報を用いて取得し、ディスプレイやタッチパネル表示出力する。
また、カーナビ21は、音声出力装置30から入力された音声認識結果に対応する処理を実行する。例えば、カーナビ21は、音声出力装置30から音声認識結果として「画面を拡大する」が入力された場合、ディスプレイに表示している情報を「拡大」する処理を実行する。
車載オーディオ22は、ラジオ受信機能やTV受信機能を有し、スピーカーFR12〜スピーカーRL15から音声信号を出力する。具体的には、車載オーディオ22は、受け付けたDVDやCDなどの記憶媒体に保存されている音声信号や、受信したラジオやTVなどの音声信号をスピーカーFR12〜スピーカーRL15から出力する。
また、車載オーディオ22は、音声出力装置30から入力された音声認識結果に対応する処理を実行する。例えば、車載オーディオ22は、音声出力装置30から音声認識結果として「ボリュームを上げる」が入力された場合、現時点で各スピーカーから出力している音声の「ボリュームを上げる」処理を実行する。
エアコン23は、乗員により設定された条件(例えば、風量、温度など)に応じて冷房、暖房、送風などを実行する。また、エアコン23は、音声出力装置30から入力された音声認識結果に対応する処理を実行する。例えば、エアコン23は、音声出力装置30から音声認識結果として「温度を上げてください」が入力された場合、現時点で車両に送風しているエアコンの温度を「上げる」処理を実行する。
音声出力装置30は、音声認識結果を車両内にトークバックさせて、精度よく音声認識を実現する装置であり、本実施例に密接に関連するものとしては、表現文字列DB31と、アナログ/デジタル変換部32と、発話検知部33と、走行ノイズ検知部34と、発話者特定部35と、音声認識部36と、トークバック生成部37と、音声出力部38とを有する。
表現文字列DB31は、後述する音声認識部36により音声認識された結果とトークバックする文字列と対応付けて記憶する。具体的には、表現文字列DB31は、図3に示すように、『記憶する情報を区別する「項番」、音声認識された結果を示す「音声認識結果」、トークバックする文字列を示す「トークバック文字列」』を記憶する。例えば、表現文字列DB31は、「項番、音声認識結果、トークバック文字列」として「1、エアコンの温度を上げてください、エアコンの温度を上げます」、「2、カーナビの目的地変更、新たな目的地を発話してください」、「3、間違っています、再度音声認識を行いますので音声操作を実行してください」などを記憶する。なお、図3は、表現文字列DBに記憶される情報の例を示す図である。
アナログ/デジタル変換部32は、マイク11により集音されたアナログの音声信号をデジタルの音声信号に変換して、後述する発話検知部33、走行ノイズ検知部34、発話者特定部35のそれぞれに出力する。
発話検知部33は、マイク11により集音された音声信号から、人が発話した音声信号を示す発話信号を検知する。具体的には、発話検知部33は、メモリなどに発話信号の特徴を示す「レベル」、「周波数」、「ピーク」、「エッジ」などを記憶しておき、マイク11により集音されて、アナログ/デジタル変換部32によりデジタル変換された音声信号に、上記した記憶する特徴が含まれるか否かにより、発話があったか否かを検知する。そして、発話検知部33は、マイク11により集音された音声信号に上記した特徴が含まれる場合には、上記した特徴部分の音声信号を抽出して、音声認識部36や音声出力部38に出力する。
走行ノイズ検知部34は、マイク11により集音された音声信号から走行ノイズがある区間を検知する。具体的には、走行ノイズ検知部34は、マイク11により集音されて、アナログ/デジタル変換部32によりデジタル変換された音声信号から特定の周波数成分が閾値を越える区間などを、車両が走行することにより集音される走行ノイズの区間として検出して、当該区間を音声出力部38に出力する。
発話者特定部35は、マイク11により集音された音声信号を用いて、発話者を特定する。具体的には、発話者特定部35は、マイク11により集音されて、アナログ/デジタル変換部32によりデジタル変換された音声信号に対してタスクベリフィケーションを実行して、人に対する発話かシステムに対する発話であるのかを発声の内容から判断し、特に、ここでは、発声内容(呼びかけ、語尾など)が異なることを利用して、発話者(会話相手)を特定する。
また、別に手法として、発話者特定部35は、マイク11により集音されて、アナログ/デジタル変換部32によりデジタル変換された音声信号において、発話検知部33により検知された発話信号の音源方向を推定して、発話者を特定する。また、発話者特定部35は、マイク11により集音されたタイミングで、カメラ10により車両内が撮像された画像を用いて、発話者を特定することもできる。そして、発話者特定部35は、上記した手法により特定した発話者の情報を音声出力部38に出力する。
音声認識部36は、発話検知部33により検知された発話信号を音声認識する。具体的には、音声認識部36は、発話検知部33により検知された発話信号から文字データ(単語データ)に変換して、後述するトークバック生成部37に出力する。例えば、音声認識部36は、発話検知部33により発話信号として「エアコンの温度を上げてください」が検知された場合、「エアコン/の/温度/を/上げて/ください」と単語分割した文字データを生成してトークバック生成部37に出力する。
トークバック生成部37は、音声認識部36により音声認識された結果に基づいて、発話者にトークバックする音声信号を作成する。具体的には、トークバック生成部37は、音声認識部36により音声認識された結果をそのまま発話者にトークバックする音声信号として作成するようにしてもよい。例えば、トークバック生成部37は、音声認識部36により音声認識された「エアコン/の/温度/を/上げて/ください」をそのまま発話者にトークバックする音声信号「エアコンの温度を上げてください」として作成するようにしてもよい。
また、トークバック生成部37は、音声認識部36により音声認識された結果に対応する「トークバック文字列」を表現文字列DB31から特定し、特定した文字列をトークバックする音声信号として作成することもできる。例えば、トークバック生成部37は、図3に示すように、音声認識部36により音声認識された「エアコン/の/温度/を/上げて/ください」に対応する「トークバック文字列=エアコンの温度を上げます」を表現文字列DB31から特定し、特定した文字列をトークバックする音声信号「エアコンの温度を上げます」として作成することもできる。このようにして、トークバック生成部37は、作成したトークバックする音声信号を音声出力部38に出力する。
なお、トークバック生成部37は、音声認識された全ての文字列と一致する表現文字列DB31の「音声認識結果」を特定し、特定した「音声認識結果」に対応する「トークバック文字列」を音声信号として作成する必要はない。具体的には、トークバック生成部37は、音声認識部36により音声認識された「文字データ」を含む表現文字列DB31の「音声認識結果」に対応する「トークバック文字列」を表現文字列DB31から特定し、特定した文字列をトークバックする音声信号として作成することもできる。
例えば、トークバック生成部37は、音声認識部36により「目的地/の/変更/を/したい/の/ですが」と音声認識された場合、図3の「項番2」の「音声認識結果=カーナビの目的地変更」に、音声認識された文字データ「目的地」と「変更」とが含まれていることを根拠に、「項番2」の「トークバック文字列=新たな目的地を発話してください」を表現文字列DB31から特定し、特定した文字列をトークバックする音声信号として作成する。
音声出力部38は、発話者特定部35により特定された発話者に対して、トークバック生成部37により作成された音声信号を出力する。具体的に例を挙げると、音声出力部38は、発話者特定部35により特定された発話者に隣接するスピーカーから、トークバック生成部37により作成されたデジタル信号である音声信号をアナログ変換および増幅させて出力する。例えば、発話者特定部35により「助手席者」が発話者であると特定され、トークバック生成部37により「エアコンの温度を上げます」が作成された場合、音声出力部38は、音声信号「エアコンの温度を上げます」を助手席近くのスピーカーFL13から出力する。
また、音声出力部38は、走行ノイズ検知部34により走行ノイズが多い区間であると指示された場合には、トークバックする音声信号を補完して出力する。具体的には、音声出力部38は、音声認識部36により音声認識された結果をそのままトークバックする場合に、走行ノイズ検知部34により走行ノイズが多い区間であると判定されていると、音声認識結果が途中で終わっているなど、正確でない恐れがある。そこで、音声出力部38は、走行ノイズが多い区間である場合には、音声認識部36により音声認識された結果を補完して出力する。例えば、音声認識部36により音声認識された結果が「・・・/の/温度/・・・/上げて/・・・」(「・・・」はノイズのため認識できていない)である場合、文字データから「温度を上げてください」と予測し、予測した文字データに補完して出力する。
なお、音声出力部38は、各スピーカーにトークバックを出力するだけでなく、音声認識部36により音声認識された結果を連携装置20に出力する。こうすることにより、車両内において、音声操作を実現することができる。音声出力部38が音声認識結果を連携装置20に出力するタイミング、トークバックするタイミングについては、図4で説明する。
[音声出力装置による処理]
次に、図4を用いて、音声出力装置30による処理を説明する。図4は、実施例1に係る音声出力装置によりトークバック処理の流れを示すフローチャートである。
図4に示すように、音声出力装置30は、マイク11により音声信号が集音された場合(ステップS101肯定)、集音された音声信号をデジタル変換して、当該音声信号に発話信号が含まれるか否かを判定する(ステップS102)。
そして、音声出力装置30は、集音された音声信号に発話信号が含まれると判定された場合、言い換えれば、集音された音声信号から発話信号が検知された場合(ステップS102肯定)、検知された発話信号を音声認識する(ステップS103)。
続いて、音声出力装置30は、音声認識された結果が新たな発話内容であるか否かを判定する(ステップS104)。ここでは、音声出力装置30は、音声認識された結果が新たな発話内容であるか否かにより、音声認識された結果をトークバックするか連携装置20に出力するかを判定している。例えば、時間的に新しい5回分の認識結果を記憶しておき、音声認識された結果がこれらと一致しない場合には、新たな発話であると判定する。新たな発話である場合は、連携装置20に出力して音声操作を実行する必要はなく、トークバックして正しく音声認識できているかを発話者に問い合わせる必要がある。
そして、音声出力装置30は、新たな発話であると判定した場合(ステップS104肯定)、検知された発話信号の音源方向を推定して、発話者を特定し(ステップS105)、図2で説明した手法を用いて、トークバックを生成する(ステップS106)。なお、マイク11により音声が集音されるタイミングでカメラ10により撮像された画像から発話者を特定することもできる。また、発話者を特定(検出)できない場合、再度特定処理を実行したり、ステップS101に戻って検出処理を実行したり、処理を終了したりするなど、任意に設定することができる。
上記したステップS101〜ステップS105を実行する一方で、音声出力装置30は、マイク11により集音された音声信号から走行ノイズ区間を検知する(ステップS107)。
そして、音声出力装置30は、走行ノイズが多い区間である場合には生成したトークバックを補完しつつ、特定した発話者に隣接するスピーカーから出力する(ステップS108)。
一方、ステップS102に戻り、音声出力装置30は、集音された音声信号に発話信号が含まれないと判定された場合、言い換えれば、集音された音声信号から発話信号が検知されない場合(ステップS102否定)、連携装置20に未出力の音声認識済み結果があるか否かを判定する(ステップS109)。
そして、音声出力装置30は、未出力の音声認識済み結果がある場合(ステップS109肯定)、未出力の音声認識済み結果を対応する連携装置20のいずれかの装置に出力する(ステップS110)。一方、未出力の音声認識済み結果がない場合(ステップS109否定)、音声出力装置30は、ステップS101に戻る。
また、ステップS104に戻り、音声出力装置30は、新たな発話でないと判定した場合(ステップS104否定)、当該音声認識結果が音声認識を再度要求する発話(例えば、間違っています。もう一度お願いします。など)であるか否かを判定する(ステップS111)。
そして、音声出力装置30は、音声認識結果が音声認識を再度要求する発話であると判定した場合(ステップS111肯定)、当該音声認識結果を対応する連携装置20のいずれかの装置に出力する(ステップS110)。一方、音声認識結果が音声認識を再度要求する発話でない場合(ステップS111否定)、音声出力装置30は、ステップS101に戻る。
[実施例1による効果]
このように、実施例1によれば、音声出力装置30は、マイク11により集音された音声信号から、人が発話した音声信号を示す発話信号を検知し、集音された音声信号を用いて、発話者を特定する。そして、音声出力装置30は、検知された発話信号を音声認識した結果に基づいて、発話者にトークバックするトークバック信号を作成し、特定された発話者に対して、トークバック信号を出力する。したがって、音声出力装置30は、マイク11により集音された音声信号から発話者を特定して、特定した発話者に隣接するスピーカーからトークバックを出力することができる結果、音声操作を行った人に対して、正確にトークバックすることが可能である。また、正確にトークバックすることが可能であるので、精度のよい音声操作を実行することができる。
また、実施例1によれば、音声出力装置30は、車両内を撮像した画像を用いて、発話者を特定する。したがって、音声以外の情報として、発話した事実を撮像した画像から発話者を特定する結果、発話者を確実に特定することができる。
また、実施例1によれば、音声出力装置30は、特定された発話者に隣接するスピーカーから、作成されたトークバック信号を出力する。したがって、音声操作を行った人に対して、確実にトークバックすることが可能である。
また、実施例1によれば、走行ノイズがあったとしても、乗員は、会話音声を聞き取り易い。
ところで、実施例1では、連携装置20への音声操作を実行する音声信号を集音して発話者にトークバックさせる例について説明したが、本発明はこれに限定されるものではなく、乗員同士の会話を集音して音声認識し、トークバックのように、認識結果を相手先に出力させることもできる。
そこで、実施例2では、図5と図6を用いて、発話内容が車載機器の音声操作であるのか乗員同士の会話であるかを区別する例について説明する。
[音声出力装置の構成(実施例2)]
まず、図5を用いて、実施例2に係る音声出力装置の構成について説明する。図5は、実施例2に係る音声出力装置を含む車載システムの構成を示すブロック図である。図5に示したカメラ10と、マイク11と、連携装置20と、スピーカーFR12〜スピーカーRL15と、音声出力装置30の表現文字列DB31とアナログ/デジタル変換部32と発話検知部33と走行ノイズ検知部34と発話者特定部35と音声認識部36とトークバック生成部37と音声出力部38とは、実施例1で説明した機能と同様の機能を有するので、詳細な説明は省略し、ここでは、会話判定部42とについて説明する。
会話判定部42は、音声認識部36により音声認識された結果から、マイク11により集音された音声信号がどの乗員向けて発話された会話であるかを判定する。例えば、会話判定部42は、音声認識部36により音声認識された結果にタスクベリフィケーションを実行することにより、発生内容(呼びかけ、語尾など)を解析して、発話先の乗員を特定する。また、別の手法として、会話判定部42は、音声認識部36により音声認識された結果から「Aさん」や「A」などのような乗員を特定する情報に基づいて、発話先の乗員を特定することもできる。そして、会話判定部42は、特定した乗員の情報を音声出力部38に出力する。
[処理の流れ(実施例2)]
次に、図6を用いて、音声出力装置30による処理を説明する。図6は、実施例2に係る音声出力装置によりトークバック処理の流れを示すフローチャートである。
図6に示すように、音声出力装置30は、マイク11により音声信号が集音された場合(ステップS201肯定)、集音された音声信号をデジタル変換して、当該音声信号に発話信号が含まれるか否かを判定する(ステップS202)。
そして、音声出力装置30は、集音された音声信号に発話信号が含まれると判定された場合、言い換えれば、集音された音声信号から発話信号が検知された場合(ステップS202肯定)、検知された発話信号を音声認識する(ステップS203)。
続いて、音声出力装置30は、音声認識された結果が乗員同士の会話であるか否かを判定し(ステップS204)、会話である場合には(ステップS204肯定)、音声認識結果から会話相手(発話先の乗員)を特定する(ステップS205)。
[実施例2による効果]
このように、実施例2によれば、音声出力装置30は、会話音声をトークバックのように、相手先に出力することができる結果、音楽など様々な音が混在している車両内であっても、コミュニケーション環境を提供することが可能である。また、乗員同士の会話を車載機器の音声操作であると誤認識することを防ぐことができる。
ところで、実施例1や実施例2では、車両内に備えた一つのマイクにより車両内の音声信号を集音して、発話者(または、会話先の乗員)を特定していたが、本発明はこれに限定されるものではなく、複数のマイクを用いて、発話者(または、会話先の乗員)を特定するようにしてもよい。
具体的には、図7に示すように、車両内の各座席ごとにマイク1〜4を備え、これらのマイクによりそれぞれ集音された音声信号から発話者(または、会話先の乗員)を特定する。その場合、音声出力装置は、図8に示すような、集音するマイクを特定する「マイク」と当該マイクに隣接する「スピーカー」と対応付けて、「マイク1、FR」、「マイク2、FL」、「マイク3、RL」、「マイク4、RR」をDBとして記憶する。そして、音声出力装置は、発話が検出されたマイクに対応するスピーカーを上記DBから特定し、特定したスピーカーからトークバックを出力する。なお、図7は、複数のマイクを有する車両を示す図であり、図8は、マイクとスピーカーとを対応付けた情報の例を示す図である。
また、上記した実施例1〜実施例2、図7や図8は、乗員5名の普通車を用いた例を図示しているが、本発明はこれに限定されるものではなく、例えば、図9に示すような乗員7〜8の三列シートを有する車両であってもよい。なお、図9は、三列シートの車両を例にした図である。
この場合、図7と同様、車両内の各座席ごとにマイク1〜6を備え、これらのマイクによりそれぞれ集音された音声信号から発話者(または、会話先の乗員)を特定する。この場合、音声出力装置は、図8と同様に、集音するマイクを特定する「マイク」と当該マイクに隣接する「スピーカー」と対応付けてDBとして記憶する。そして、音声出力装置は、発話が検出されたマイクに対応するスピーカーを上記DBから特定し、特定したスピーカーからトークバックを出力する。
このように、実施例3によれば、音声出力装置30は、複数のマイクを用いて発話者を特定することができるので、マイクが一つである場合に比べて、より正確に発話者を特定することができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下に示すように、(1)プロファイル情報、(2)システム構成等、(3)プログラムにそれぞれ区分けして異なる実施例を説明する。
(1)プロファイル情報
例えば、実施例1〜3では、音声認識した結果や音声認識した結果に対応する文字列をトークバックする例について説明したが、本発明はこれに限定されるものではなく、乗員の嗜好に適した音声信号に変換して、トークバックを出力することもできる。
具体的には、音声出力装置は、図10に示すように、『「乗員」、乗員が希望する「音量」、「スピード」、「周波数」、乗員が好きな「キャラクター」』として、「Aさん、音量大、ゆっくり、700Hz、キャラクターA」などをプロファイル情報として記憶する。そして、音声出力装置は、実施例1〜3で示した手法で特定した発話者(または、発話先の乗員)に対応するプロファイル情報に従って、トークバックする音声信号を変換して出力する。
上記した例では、音声出力装置は、特定した発話者(=Aさん)に対応するプロファイル情報に従って、キャラクターAの声で、周波数が700Hzで音量を大きく、ゆっくりとしたスピードにトークバックする音声信号を変換して、Aさんの近くにあるスピーカーから出力する。
なお、上記したプロファイル情報は、乗員が車両に乗車したときに、乗員により予め登録される情報であり、乗員は、上記した全ての情報を必ず登録する必要はない。また、図10は、プロファイル情報の例を示す図である。
このように、音声出力装置は、特定された発話者に対応する乗員が希望する音量、スピード、周波数の少なくとも一つから構成されるプロファイル情報を取得し、取得したプロファイル情報に従って、作成されたトークバック信号を変換して発話者に隣接するスピーカーから出力する。その結果、ユーザ(乗員)が希望する音声信号でトークバックを出力することができるため、ユーザがトークバックを聞き逃すことが少なくなることが期待できる。
また、音声出力装置は、特定された発話者に対応する当該乗員が好きなキャラクターの音声情報を取得し、取得した音声情報に従って、作成されたトークバック信号をキャラクターの音声に変換して発話者に隣接するスピーカーから出力する。その結果、ユーザ好みのキャラクターの声でトークバックを出力することができ、ユーザがトークバックを聞き逃すことが少なくなることが期待できる。
(2)システム構成等
また、本実施例において説明した各処理のうち、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報(例えば、図3、図6、図9、図10など)については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合(例えば、トークバック生成部と音声出力部とを統合するなど)して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
(3)プログラム
なお、本実施例で説明した音声出力方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。このプログラムは、インターネットなどのネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。
以上のように、本発明に係る音声出力装置は、車両に搭載され、車両内で発話された内容に基づいてトークバックを出力することに有用であり、特に、音声操作を行った人に対して、正確にトークバックすることに適する。
実施例1に係る音声出力装置の概要を説明するための図である。 実施例1に係る音声出力装置を含む車載システムの構成を示すブロック図である。 表現文字列DBに記憶される情報の例を示す図である。 実施例1に係る音声出力装置によりトークバック処理の流れを示すフローチャートである。 実施例2に係る音声出力装置を含む車載システムの構成を示すブロック図である。 実施例2に係る音声出力装置によりトークバック処理の流れを示すフローチャートである。 複数のマイクを有する車両を示す図である。 マイクとスピーカーとを対応付けた情報の例を示す図である。 三列シートの車両を例にした図である。 プロファイル情報の例を示す図である。
符号の説明
10 カメラ
11 マイク
12 スピーカーFR
13 スピーカーFL
14 スピーカーRR
15 スピーカーRL
20 連携装置
21 カーナビ
22 車載オーディオ
23 エアコン
30 音声出力装置
31 表現文字列DB
32 アナログ/デジタル変換部
33 発話検知部
34 走行ノイズ検知部
35 発話者特定部
36 音声認識部
37 トークバック生成部
38 音声出力部
42 会話判定部

Claims (4)

  1. 車両に搭載され、車両内で発話された内容に対してトークバックを出力する音声出力装置であって、
    マイクにより集音された音声信号から、人が発話した発話信号を検知する発話検知手段と、
    前記集音された音声信号を用いて、発話者を特定する発話者特定手段と、
    前記発話検知手段により検知された発話信号を音声認識する音声認識手段と、
    前記音声認識手段により音声認識された結果に基づいて、前記発話者にトークバックするトークバック信号を作成するトークバック作成手段と、
    前記発話者特定手段により特定された発話者に対して、前記トークバック作成手段により作成されたトークバック信号を出力する音声出力手段と、
    を備えたことを特徴とする音声出力装置。
  2. 前記音声出力手段は、前記発話者特定手段により特定された発話者に隣接するスピーカーから、前記トークバック作成手段により作成されたトークバック信号を出力することを特徴とする請求項1に記載の音声出力装置。
  3. 前記車両に乗車する各乗員に対応付けて、当該乗員が希望する音量、スピード、周波数の少なくとも一つから構成されるプロファイル情報を記憶するプロファイル情報記憶手段をさらに備え、
    前記音声出力手段は、前記発話者特定手段により特定された発話者に対応するプロファイル情報を前記プロファイル情報記憶手段から取得し、取得したプロファイル情報に従って、前記トークバック作成手段により作成されたトークバック信号を変換して、前記発話者特定手段により特定された発話者に隣接するスピーカーから出力することを特徴とする請求項1または2に記載の音声出力装置。
  4. 前記マイクにより集音された音声信号が、前記車両が走行する間に発生する走行ノイズが多い状態であるか否かを判定する走行ノイズ判定手段をさらに備え、
    前記音声出力手段は、前記走行ノイズ判定手段により走行ノイズが多い状態であると判定された場合には、前記トークバック作成手段により作成されたトークバック信号を補完して出力することを特徴とする請求項1〜3のいずれか一つに記載の音声出力装置。
JP2008334874A 2008-12-26 2008-12-26 音声出力装置 Withdrawn JP2010156825A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008334874A JP2010156825A (ja) 2008-12-26 2008-12-26 音声出力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008334874A JP2010156825A (ja) 2008-12-26 2008-12-26 音声出力装置

Publications (1)

Publication Number Publication Date
JP2010156825A true JP2010156825A (ja) 2010-07-15

Family

ID=42574795

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008334874A Withdrawn JP2010156825A (ja) 2008-12-26 2008-12-26 音声出力装置

Country Status (1)

Country Link
JP (1) JP2010156825A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014002128A1 (ja) * 2012-06-25 2014-01-03 三菱電機株式会社 車載情報装置
JP2014077969A (ja) * 2012-10-12 2014-05-01 Honda Motor Co Ltd 対話システム及び対話システム向け発話の判別方法
JP2015507219A (ja) * 2011-12-26 2015-03-05 インテル・コーポレーション 搭乗者の聴覚視覚入力の乗り物ベースの決定
WO2015187587A1 (en) * 2014-06-03 2015-12-10 Harman International Industries, Incorporated Hands free device with directional interface
WO2018055898A1 (ja) * 2016-09-23 2018-03-29 ソニー株式会社 情報処理装置、及び情報処理方法
WO2018087967A1 (ja) * 2016-11-08 2018-05-17 ソニー株式会社 情報処理装置および情報処理方法
JP2019091005A (ja) * 2017-11-16 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 多機器対話方法、装置、機器及びコンピュータ可読媒体
JP2019108079A (ja) * 2017-12-20 2019-07-04 トヨタ自動車株式会社 車載制御装置、制御装置、制御方法、制御プログラム、及び発話応答方法
US10805730B2 (en) * 2018-09-14 2020-10-13 Toyota Jidosha Kabushiki Kaisha Sound input/output device for vehicle
CN113783988A (zh) * 2021-08-26 2021-12-10 东风汽车集团股份有限公司 一种车内通话音量控制方法及装置
EP3998527A3 (en) * 2020-09-30 2022-06-15 Honeywell International Inc. Method and systems for providing contextual visual and aural feedback and awareness to flight crews using a voice activated flight deck

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015507219A (ja) * 2011-12-26 2015-03-05 インテル・コーポレーション 搭乗者の聴覚視覚入力の乗り物ベースの決定
WO2014002128A1 (ja) * 2012-06-25 2014-01-03 三菱電機株式会社 車載情報装置
JPWO2014002128A1 (ja) * 2012-06-25 2016-05-26 三菱電機株式会社 車載情報装置
US9305555B2 (en) 2012-06-25 2016-04-05 Mitsubishi Electric Corporation Onboard information device
CN104412323B (zh) * 2012-06-25 2017-12-12 三菱电机株式会社 车载信息装置
JP2014077969A (ja) * 2012-10-12 2014-05-01 Honda Motor Co Ltd 対話システム及び対話システム向け発話の判別方法
JP2017526024A (ja) * 2014-06-03 2017-09-07 ハーマン インターナショナル インダストリーズ インコーポレイテッド 指向性インタフェースを備えるハンズフリー機器
EP3152651A4 (en) * 2014-06-03 2018-05-30 Harman International Industries, Incorporated Hands free device with directional interface
US10318016B2 (en) 2014-06-03 2019-06-11 Harman International Industries, Incorporated Hands free device with directional interface
WO2015187587A1 (en) * 2014-06-03 2015-12-10 Harman International Industries, Incorporated Hands free device with directional interface
WO2018055898A1 (ja) * 2016-09-23 2018-03-29 ソニー株式会社 情報処理装置、及び情報処理方法
JPWO2018055898A1 (ja) * 2016-09-23 2019-07-11 ソニー株式会社 情報処理装置、及び情報処理方法
WO2018087967A1 (ja) * 2016-11-08 2018-05-17 ソニー株式会社 情報処理装置および情報処理方法
US11289099B2 (en) 2016-11-08 2022-03-29 Sony Corporation Information processing device and information processing method for determining a user type based on performed speech
CN109906466A (zh) * 2016-11-08 2019-06-18 索尼公司 信息处理设备和信息处理方法
CN109906466B (zh) * 2016-11-08 2023-05-05 索尼公司 信息处理设备和信息处理方法
JPWO2018087967A1 (ja) * 2016-11-08 2019-09-26 ソニー株式会社 情報処理装置および情報処理方法
JP7092035B2 (ja) 2016-11-08 2022-06-28 ソニーグループ株式会社 情報処理装置および情報処理方法
JP2019091005A (ja) * 2017-11-16 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 多機器対話方法、装置、機器及びコンピュータ可読媒体
US10482903B2 (en) 2017-11-16 2019-11-19 Baidu Online Network Technology (Beijing) Co., Ltd. Method, device and apparatus for selectively interacting with multi-devices, and computer-readable medium
JP2019108079A (ja) * 2017-12-20 2019-07-04 トヨタ自動車株式会社 車載制御装置、制御装置、制御方法、制御プログラム、及び発話応答方法
US10805730B2 (en) * 2018-09-14 2020-10-13 Toyota Jidosha Kabushiki Kaisha Sound input/output device for vehicle
EP3998527A3 (en) * 2020-09-30 2022-06-15 Honeywell International Inc. Method and systems for providing contextual visual and aural feedback and awareness to flight crews using a voice activated flight deck
US11740864B2 (en) 2020-09-30 2023-08-29 Honeywell International Inc. Method and systems for providing contextual visual and aural feedback and awareness to flight crews using a voice activated flight deck
CN113783988A (zh) * 2021-08-26 2021-12-10 东风汽车集团股份有限公司 一种车内通话音量控制方法及装置
CN113783988B (zh) * 2021-08-26 2024-04-02 东风汽车集团股份有限公司 一种车内通话音量控制方法及装置

Similar Documents

Publication Publication Date Title
JP2010156825A (ja) 音声出力装置
EP3172729B1 (en) Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection
US8738368B2 (en) Speech processing responsive to a determined active communication zone in a vehicle
WO2017081960A1 (ja) 音声認識制御システム
JP6604151B2 (ja) 音声認識制御システム
US20160039356A1 (en) Establishing microphone zones in a vehicle
JP2017090612A (ja) 音声認識制御システム
EP1879000A1 (en) Transmission of text messages by navigation systems
WO2005036530A1 (en) Speech recognizer using novel multiple microphone configurations
JP2004126413A (ja) 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
CN112397065A (zh) 语音交互方法、装置、计算机可读存储介质及电子设备
US10431221B2 (en) Apparatus for selecting at least one task based on voice command, vehicle including the same, and method thereof
JP7458013B2 (ja) 音声処理装置、音声処理方法および音声処理システム
KR20230118089A (ko) 사용자 스피치 프로파일 관리
JP2009251388A (ja) 母国語発話装置
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2008250236A (ja) 音声認識装置および音声認識方法
JP7065964B2 (ja) 音場制御装置および音場制御方法
CN109243457B (zh) 基于语音的控制方法、装置、设备及存储介质
JP2018087871A (ja) 音声出力装置
JP6987447B2 (ja) 音声認識装置
US20230318727A1 (en) Vehicle and method of controlling the same
JP7407665B2 (ja) 音声出力制御装置および音声出力制御プログラム
JP7192561B2 (ja) 音声出力装置および音声出力方法
JP2009086132A (ja) 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111121

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A073

Effective date: 20130326

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130402