JP2015052749A

JP2015052749A - 音声認識システム

Info

Publication number: JP2015052749A
Application number: JP2013186521A
Authority: JP
Inventors: 健浩阿部田; Takehiro Abeta; 星野　賢一; Kenichi Hoshino; 賢一星野; 譲藤原; Yuzuru Fujiwara
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2013-09-09
Filing date: 2013-09-09
Publication date: 2015-03-19

Abstract

【課題】複数の応答装置が利用可能な構成において、ユーザは、自身の発話に対してどの応答装置が応答しているのかを認識しやすい音声認識システムを提供する。【解決手段】、利用可能な応答装置（車載応答装置１７及びセンター側応答装置３１）毎にスピーカ１６から出力される音声の音響特性が異なるように設定しておく。そして、音響特性調整指示部１８Ｅは、動作中の応答装置に応じた音響特性となるように調整して応答音声データをスピーカ１６から音声出力させる。たとえば、センター側応答装置３１が動作中である場合には、車載応答装置１７が動作中である場合に比べて、高音の周波数成分を抑制し、かつ、エコーをかけて音声出力させる。【選択図】図１

Description

本発明は、ユーザの音声データに対して応答音声データを出力する応答装置を備える音声認識システムに関する。

従来、ユーザから入力された音声データに対して音声認識処理を実施し、その認識処理結果に応じた種々の情報をユーザに提供する応答装置がある（例えば特許文献１）。この特許文献１に開示の応答装置は、車載器、及び車両外部に設けられて当該車載器と無線通信を実施する情報センターを備えている。

特許文献１に記載の応答装置において、車載器は、ユーザの音声データを取得して情報センターに当該音声データを送信する。情報センターは、当該音声データに対して音声認識処理を実施して、その認識処理結果に応じた応答音声データを車載器に返送する。そして、車載器は応答音声データを受信すると、当該応答音声データに従った音声出力を行う。なお、以上では一例として情報センターが音声認識処理を実施する構成を例示したが、情報センターを備えずに、車載器において音声認識処理や応答音声データの生成が実施される構成も知られている。

一方、携帯電話機においても、携帯電話会社の管理する情報センターと携帯電話機が無線通信することによって、ユーザの音声入力に対して種々の情報を提供する応答装置が普及してきている。

特開２００４−３４８６５８号公報

近年では、車載器と携帯電話機とを連携させて動作させる技術も開発されている。車載器と携帯電話機とを連携して動作させる場合には、ユーザは、車載器を介して複数の応答装置が利用可能な構成となる。このような構成においてユーザは、目的に応じた応答装置を選択して音声入力し、その選択されて動作中となっている応答装置が、当該入力音声データに対して応答音声データを出力する。

ところで、応答装置毎に入力音声データに対する応答音声データの内容は異なってくるため、以上のように複数の応答装置が利用可能な構成において、ユーザは、現在どの応答装置が動作中であるのかを、より容易に認識できることが好ましい。言い換えれば、目的に応じた応答装置が動作中であるか否かをより容易に認識できることが好ましい。

一般的に、動作中の応答装置をユーザに認識させるための方法としては、応答装置が起動又は切り替わるときに、その旨のガイダンス音声を音声出力したり、現在動作中の応答装置を表示装置に表示したりすることが考えられる。

しかしながら、ユーザが運転に集中していて応答装置が起動又は切り替わる旨のガイダンス音声を聴き逃してしまう事や、応答装置を選択または切り替えてから時間が経過し、どの応答装置が動作中であったかを忘れてしまう事が考えられる。また、表示装置に動作中の応答装置を表示している場合には、ユーザは表示装置を見れば動作中の応答装置を確認することができるが、運転中のユーザにとって表示装置を見ることが難しい状況も想定される。

本発明は、この事情に基づいて成されたものであり、その目的とするところは、複数の応答装置が利用可能な構成において、ユーザは、自身の発話に対してどの応答装置が応答しているのかを認識しやすい音声認識システムを提供することにある。

その目的を達成するための本発明は、車両に搭載され、ユーザの入力音声を入力音声データとして取得する入力音声取得部（１８Ａ）を備える車載器（１）と、入力音声取得部が取得した入力音声データに対して音声認識処理を実施し、当該音声認識処理の結果に基づいて、入力音声データに対する応答となる応答音声データを生成する第１の応答装置（１７）と、入力音声取得部が取得した入力音声データに対して音声認識処理を実施し、当該音声認識処理の結果に基づいて、入力音声データに対する応答となる応答音声データを生成する第２の応答装置（３１）と、車載器は、さらに、第１の応答装置及び第２の応答装置のうち、入力音声データに対して応答させる応答装置を切り替える応答装置切替部（１８Ｃ）と、入力音声データに対して応答するように設定され、現在動作中となっている応答装置を判定する動作中装置判定部（１８Ｂ）と、応答音声データを音声に変換されて、スピーカ（１６）から出力される出力音声の音響特性を調整する音響特性調整部（１８Ｅ、１５１）と、を備え、音響特性調整部は、第１の応答装置が動作中であると動作中装置判定部が判定している場合には音響特性を第１の音響特性となるように調整する一方、第２の応答装置が動作中であると動作中装置判定部が判定している場合には音響特性を第１の音響特性とは異なる第２の音響特性となるように調整することを特徴とする。

以上の構成では、動作中装置判定部が動作中の応答装置を判定し、音響特性調整部は、動作中の応答装置に応じた音響特性となるように、スピーカからの出力される出力音声の音響特性を調整する。より具体的には、入力音声データに対して第１の応答装置が応答している場合には、第１の応答音声データは第１の音響特性で音声出力され、第２の応答装置が応答している場合には、第１の音響特性とは異なる第２の音響特性で、第２の応答音声データは音声出力される。

このような構成によると、ユーザは、自身の発話（すなわち入力音声データ）に対して応答している応答装置がどちらなのかを、音響特性の違いから認識することができる。

本実施形態に係る音声認識システム１００の概略的な構成の一例を示すブロック図である。本実施形態に係る制御部１８の概略的な構成の一例を示す機能ブロック図である。制御部１８が実施する音響特性調整処理の流れを説明するためのフローチャートである。変形例に係る音声認識システム１００の概略的な構成の一例を示すブロック図である。

以下、本発明の実施形態について図を用いて説明する。図１は、本実施形態に係る音声認識システム１００の概略的な構成の一例を示す図である。図１に示すように音声認識システム１００は、車載器１と、携帯電話機２と、センター３と、を備えている。車載器１と携帯電話機２、携帯電話機２とセンター３とは、それぞれ公知の無線通信技術を用いてデータの送受信を実施し、車載器１とセンター３とは携帯電話機２を介して通信を実施する。なお、本実施形態では、一例として、車載器１とセンター３とは、携帯電話機２を介して通信する構成を示すが、もちろんその他の構成として、携帯電話機２を介さずに車載器１とセンター３が通信を実施する構成でもよい。

それぞれの要素について詳細に説明する前に、まずは音声認識システム１００の概要について述べる。音声認識システム１００においてユーザは、車載器１が備える車載応答装置１７と、センター３が備えるセンター側応答装置３１のいずれか一方を選択して利用することができ、車載器１またはセンター３は、ユーザの音声入力に対して音声認識処理を実施する。例えば車載応答装置１７が動作中であれば、車載応答装置１７は音声認識処理の結果に基づいてユーザの音声への応答となる応答音声データを生成する。そして、車載器１は、当該応答音声データをスピーカ１６から音声出力させる。また、センター側応答装置３１が動作中であれば、センター３はセンター側応答装置３１での音声認識処理の結果に基づいて応答音声データを生成して車載器１に送信する。そして車載器１は、センター３から受信した応答音声データをスピーカ１６から音声出力させる。

ここで、車載器１は、動作中の応答装置が、車載応答装置１７であるのか、または、センター側応答装置３１であるのかによって、スピーカ１６の出力音声の音響特性を変更する処理を実施する。このような構成によるとスピーカ１６から出力される音声の音響特性が動作中の応答装置によって変化するため、ユーザは、その音響特性の違いから直感的に動作中の応答装置を把握することができるようになる。以降において、この音声認識システム１００の構成及び作動について、より詳細に説明する。

車載器１は、車両に搭載され、図１に示すように、マイクロフォン（以降、マイク）１１、トークスイッチ（以降、トークＳＷ）１２、メモリ１３、ＢＴ通信部１４、オーディオアンプ１５、スピーカ１６、車載応答装置１７、及び制御部１８を備えている。制御部１８と、マイク１１、トークＳＷ１２、メモリ１３、ＢＴ通信部１４、オーディオアンプ１５、車載応答装置１７とは、公知の通信プロトコルに準拠した車内ＬＡＮで相互通信可能にそれぞれ接続されている。なお、オーディオアンプ１５とスピーカ１６とは公知のオーディオコードなどで接続されているものとする。

マイク１１は、例えば無指向性の小型マイクであり、ユーザが発話した音声や雑音などの周囲の音を集音し、電気的な音声信号に変換して、制御部１８に出力する。マイク１１は、例えばステアリングコラムカバーの上面部や運転席側のサンバイザー等のユーザの音声を拾いやすい位置に設けられる。

トークＳＷ１２は、ユーザ（運転者）が音声入力を開始する旨を指示するためのもので、例えばステアリングコラムカバーの側面部やシフトレバーの近傍などユーザが操作しやすい位置に設けられている。なお、トークＳＷ１２は一例として、いわゆるクリック方式のスイッチとし、トークＳＷ１２がユーザの操作によってオンに設定されると（すなわち、クリックされると）、オン信号を制御部１８に出力する。制御部１８は、トークＳＷ１２からオン信号が入力されると、ユーザが発話した音声のデータを取得するための処理を実施する。ユーザは、トークＳＷ１２をオン操作した後、一定時間内（例えば１．５秒以内に）に発話し始めることで、その発話した音声を車載器１に入力することができる。なお、マイク１１を介してユーザから入力され、制御部１８で生成された音声データを、応答音声データと区別するため、入力音声データとする。

メモリ１３は、不揮発性の記憶媒体であって、車載応答装置１７及びセンター側応答装置３１のそれぞれに対する音響特性の設定（詳細は後述）を記憶している。メモリ１３は公知の記憶媒体を用いて構成すればよく、本実施形態ではＨＤＤを用いる構成とするが、その他、比較的記憶容量の小さいメモリ（例えばＳＤカードなど）であってもよい。このメモリ１３が請求項に記載の音響特性設定記憶部に相当する。

ＢＴ通信部１４は、送受信アンテナ（図示略）を備え、携帯電話機２との間でＢｌｕｅｔｏｏｔｈ（登録商標）の規格に従った通信（以下、ＢＴ通信）を行うことで、情報のやり取りを行う。なお、本実施形態では、車載器１と携帯電話機２との間での通信を、ＢＴ通信で行う構成を示したが、必ずしもこれに限らない。例えばＺｉｇＢｅｅ（登録商標）等の近距離無線通信規格やＩＥＥＥ８０２．１１等の無線ＬＡＮ規格などに従った無線通信によって行う構成としてもよいし、ＵＳＢ通信等の有線通信によって行う構成としてもよい。ＢＴ通信部１４は、車載器１と携帯電話機２との通信方式に応じた変調／復調などの機能を備えていればよい。

オーディオアンプ１５は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）１５１及びアンプ１５２を備え、制御部１８から入力される応答音声データに対して種々の処理を実施して、音声信号としてスピーカ１６に出力する。なお、制御部１８からオーディオアンプ１５に入力される信号はデジタル信号とするが、アナログ信号に変換されていても良い。後者の場合には、ＤＳＰ１５１において再びデジタル信号に変換して処理するものとする。また、オーディオアンプ１５からスピーカ１６に出力する信号はアナログ信号とするが、スピーカ１６の仕様に依ってはデジタル信号であっても良い。これらは設計事項とする。

ＤＳＰ１５１は、公知のＤＳＰチップによって構成され、応答音声データに対して、音響特性を変更する処理（いわゆるエフェクト処理）を施す。例えばＤＳＰ１５１は、入力された応答音声データ（これを原音とする）に含まれる特定の周波数帯域を強調したり、減衰したり、さらにはカットする処理を行う。また、ＤＳＰ１５１は、原音を様々な時間で遅延させた複数の音を、時間に応じて減衰する特性を持たせて混ぜることにより、残響音（すなわちエコー）を付与する処理を行う。エコーの付与は、公知のＩＩＲフィルタやＦＩＲフィルタを用いて行えばよい。また、ＤＳＰ１５１は、その他、原音のオクターブ上やオクターブ下の周波数の音を発生させたり、周波数空間で引き伸ばし処理を行なっても良い。ＤＳＰ１５１は、エフェクト処理した応答音声データをアナログ信号に変換してアンプ１５２に出力する。このＤＳＰ１５１が請求項に記載の信号処理部に相当する。

アンプ１５２はＤＳＰ１５１から入力された信号の信号レベルを増幅し、スピーカ１６に出力する。スピーカ１６は、オーディオアンプ１５から入力される電気的な音声信号を音声（単なる音を含む）に変換して出力する。

車載応答装置１７は、制御部１８から入力される入力音声データに対して公知の音声認識処理を実施し、その音声認識処理の結果に対応付けられる応答音声データを制御部１８に出力する。車載応答装置１７は、前述の音声認識処理を実施するための機能として、音声認識部１７１及び音声認識データベース（以降、音声認識ＤＢ）１７２を備えている。この車載応答装置１７が請求項に記載の第１の応答装置に相当する。

音声認識ＤＢ１７２は、音声認識処理に必要なデータとして、例えば、人間の発声の小さな単位（音素）の音響特徴が記述されている音響モデル、音素の音響特徴と単語とを対応付ける認識辞書、及び、単語間の連接関係を表現する言語モデルが格納されている。なお、本実施形態の車載応答装置１７が備える音声認識ＤＢ１７２は、予め車載器１に接続するナビゲーション装置（図示略）などを、音声によって操作するための命令コマンドに対応するデータベースであるものとする。命令コマンドは、例えば、地図画像の表示縮尺の変更や、現在地地図の表示、施設名称による検索、音楽再生などに対応するものとする。

メモリ１７３には、不揮発性の記憶媒体であって、車載器１に接続するナビゲーション装置（図示略）などの機能を音声によって操作するための命令コマンドと、各命令コマンドに対応付けられる機能を実施させるためのプログラムと、その機能を実施する旨をユーザに報知するための応答音声データと、が格納されているものとする。なお、図１では、メモリ１７３とメモリ１３とを分離した機能ブロックで表しているが、これらはもちろん１つの記憶媒体で実現してもよい。

音声認識部１７１は、制御部１８から入力される入力音声データに対して、音声認識ＤＢ１７２に格納されている種々のデータを用いて、音声認識処理を実施する。音声認識処理は、公知の技術を用いればよいため、ここでの説明は省略する。なお、車載応答装置１７における音声認識処理は、予め登録されている命令コマンドのうち、ユーザはどの命令コマンドを発話したかを特定するものとする。したがってユーザが発話したと推定される命令コマンドが、音声認識部１７１での音声認識処理の結果として得られる。

そして、音声認識部１７１は、音声認識処理の結果に対応付けられる機能を実施する旨を、ユーザに報知する応答音声データをメモリ１３から取得し、制御部１８に出力する。また音声認識部１７１は、音声認識処理の結果に対応付けられる機能を実施するように要求する要求信号を、制御部１８や他の機器（例えばナビゲーション装置）に出力する。

制御部１８は、通常のコンピュータとして構成されており、周知のＣＰＵ、ＲＯＭやＥＥＰＲＯＭなどの不揮発性メモリ、ＲＡＭなどの揮発性メモリ、Ｉ／Ｏ、及びこれらの構成を接続するバスライン（いずれも図示略）などを備えている。不揮発性メモリには、種々の処理を実行するためのプログラムが格納されている。制御部１８は、種々の処理を実行するための機能ブロックとして、図２に示すように、入力音声データ生成部１８Ａ、動作中装置判定部１８Ｂ、応答装置切替部１８Ｃ、応答音声データ取得部１８Ｄ、音響特性調整指示部１８Ｅ、及び通信処理部１８Ｆを備える。

入力音声データ生成部１８Ａは、トークＳＷ１２からのオン信号に基づいて、マイク１１から入力される音声信号からノイズ成分を除去した入力音声データを生成する。例えば入力音声データ生成部１８Ａは、オン信号が入力されると、マイク１１から入力される音声信号を音声データに変換可能な状態である待機状態となる。そして、待機状態となってから音声が入力されない状態が一定時間（例えば、１．５秒）以上継続すると、自動的に変換不可状態となる。一定時間内に音声が入力されているとの判定が為された場合には、音声の入力が終わったと判定されるまでのマイク１１から入力される音声信号を入力音声データに変換する。

音声が入力されているか否か、及び音声入力が終了したか否かは、公知技術を用いればよく、例えば音声信号の信号レベルが所定の閾値以上となったか否かによって判定すればよい。もちろん、このような構成においては閾値以上の信号レベルとなっている音声信号が入力された場合に、音声が入力されたと判定する。入力音声データの生成方法は、公知の技術を用いればよく、上述した構成に限らない。入力音声データ生成部１８Ａで生成した入力音声データは、車載応答装置１７及びＢＴ通信部１４に出力される。この入力音声データ生成部が請求項に記載の入力音声取得部に相当する。

動作中装置判定部１８Ｂは、ユーザが選択可能な応答装置のうち、入力音声データに対して応答するように設定され、現在動作中となっている応答装置を判定する。本実施形態においてユーザが選択可能な応答装置とは、車載応答装置１７と後述するセンター３が備えるセンター側応答装置３１とがある。また、動作中の応答装置とは、入力音声データ生成部１８Ａで生成された入力音声データに対して応答するように設定されている応答装置を指す。なお、制御部１８は、ＢＴ通信部１４と携帯電話機２とが接続している場合に、センター側応答装置３１を、ユーザが選択可能な応答装置の候補として認識する。なお、その他の形態として、ユーザが選択可能な応答装置のリストを予め車載器１に登録しておいてもよい。

応答装置切替部１８Ｃは、ユーザの操作入力に基づいて、又は所定の規則に従って自動的に、現在動作中の応答装置から他の応答装置へと切り替えるための処理を実施する。ユーザの操作入力に基づいて動作中の装置を切り替える場合としては、例えば、図３のステップＳ１０７で後述するように、動作中の応答装置を切り替える操作入力がユーザによって為された場合とする。

また、自動的に動作中の応答装置を切り替える場合としては、センター側応答装置３１が動作中の場合において、電波状況（例えば電波の受信圏外への移動）などによって、車載器１とセンター３との通信が一定時間以上切断された場合などがある。また、入力音声データに対して音声認識部１７１が実施した音声認識処理の結果に基づいて、センター３が管理している質問内容であると判定した場合に、自動的に当該入力音声データに対して応答する応答装置をセンター側応答装置３１に切り替えてもよい。

車載応答装置１７からセンター側応答装置３１へと、動作させる応答装置を切り替える場合には、携帯電話機２を介して、センター３との接続を確立させ、接続確立後は入力音声データをセンター３に送信するように制御する。また、センター側応答装置３１から車載応答装置１７へと、動作させる応答装置を切り替える場合には、センター３との接続を終了させ、入力音声データの出力先を車載応答装置１７に設定する。

応答音声データ取得部１８Ｄは、車載応答装置１７またはセンター側応答装置３１のうち、動作中の応答装置から取得した応答音声データを、オーディオアンプ１５に出力する。

音響特性調整指示部１８Ｅは、動作中装置判定部１８Ｂの判定結果に基づいて、スピーカ１６から出力される音声の音響特性が、動作中の応答装置に応じた音響特性となるようにＤＳＰ１５１に指示信号を出力する。例えば、車載応答装置１７が動作中の場合には、ＤＳＰ１５１に、応答音声データに対して音響特性を変化させるエフェクト処理を実施しないように指示する。一方、センター側応答装置３１が動作中である場合には、高音域の周波数成分を抑圧し、エコーをかけるエフェクト処理を実施するように指示する。この音響特性調整指示部１８Ｅ及び前述のＤＳＰ１５１が請求項に記載の音響特性調整部として動作する。

音響特性の変更は、例えばＤＳＰ１５１のフィルタの係数を変更することで実施すれば良い。すなわち、音響特性調整指示部１８Ｅは、動作中の応答装置に応じてフィルタの係数を変更するようにＤＳＰ１５１に指示することで音響特性を変更させればよい。なお、便宜上、スピーカ１６から出力される音声の音響特性を、車載応答装置１７が動作中の場合の音響特性（請求項に記載の第１の音響特性）とするＤＳＰ１５１の設定値をデフォルト値とする。また、センター側応答装置３１が動作中の場合の音響特性（請求項に記載の第２の音響特性）とするＤＳＰ１５１の設定値をセンター用設定値とする。これら応答装置毎の音響特性の設定値は、メモリ１３に格納しておけば良い。このデフォルト値が請求項に記載の第１音響特性設定値に相当し、センター用設定値が請求項に記載の第２音響特性設定値に相当する。

なお、一般に、高音が抑制され、かつ、エコーがかけられた音声を聞くと、聞き手は、その音源が相対的に遠くにあるように感じることが知られている。また、車載応答装置１７に対して、センター３は車両外に配置されているため、当然、相対的に遠くで動作している。そこで、本実施形態では、センター３から取得する応答音声データを、車載器１内で生成される応答音声データよりも高音が抑圧され、かつ、エコーをかけて出力させる。これによって、ユーザは音源の距離が遠くなったと感じるため、車両外にあるセンター３が動作していることを直感的に認識することができるようになる。

通信処理部１８Ｆは、携帯電話機２を介してセンター３と種々のデータ通信を実施するための処理を行う。

携帯電話機２は、周知の携帯電話機２であって、センター３とネットワークを介して通信を実施するとともに、車載器１が備えるＢＴ通信部１４とも通信を実施する。例えば携帯電話機２は、ＢＴ通信部１４から受信する信号を、携帯電話機２とセンター３間の通信の規格に応じた信号に変換して、センター３に送信する。また、センター３から受信する信号を、携帯電話機２とＢＴ通信部１４間の通信の規格に応じた信号に変換して、ＢＴ通信部１４に送信する。

センター３は、車両の外部に備えられている情報センターであって、例えば携帯電話会社の情報センターとする。センター３は、当該携帯電話会社の管理する携帯電話網を利用する携帯電話機２のユーザに対して種々のサービスを提供する。センター３は、センター側応答装置３１を備え、車載器１から送信されてくる音声データをもとに、音声認識処理を実施することでユーザの質問内容を解析する。そして、ユーザの質問への応答となる応答音声データを生成して車載器１に返送する。

なお、センター側応答装置３１は、公知の音声認識エンジン及び音声認識処理用のデータベースを備えている。ただし、センター側応答装置３１が備えるデータベースは、単純な命令コマンドだけでなく、相対的に自由度の高い入力音声データに対応できるものとして、例えば千語から数万語に対応する大規模なデータベースであるものとする。センター側応答装置３１が請求項に記載の第２の応答装置に相当する。

携帯電話会社が提供するサービスとしてスケジュール管理機能を想定した場合を例にとると、例えばセンター３は、ユーザの「今日の予定は？」という質問に対し、予め登録されてあるユーザのその日の予定を教えてくれるものである。なお、応答音声データを生成するための元となるデータ（その日のスケジュールの情報など）は、センター３が備えていてもよいし、携帯電話機２とセンター３とが種々のデータ通信を実施することで、センター３が携帯電話機２から取得する構成としてもよい。

もちろん、センター３は、携帯電話会社の情報センターに限らず、自動車会社やその他の会社によって運営される情報センターであってもよい。また、センター３が実施するサービスの内容も、スケジュール管理に限らず、周辺施設の検索や、ニュースの提供などであってもよい。

次に、図３に示すフローチャートを用いて、制御部１８が実施する音響特性調整処理の流れを説明する。図３に示すフローチャートは、車載応答装置１７を起動させるユーザ操作（例えばトークＳＷ１２の押下）を受け付けたときに開始されればよい。また、例えば自車両のイグニッションスイッチがオンされて車載器１に電源供給されたときに開始される構成としてもよい。

まずステップＳ１０１では、車載応答装置１７を起動させて待機状態にし、ステップＳ１０３に移る。ここでの待機状態とは、制御部１８から入力音声データが入力された場合に、音声認識処理が実行可能な状態とする。なお、動作中装置判定部１８Ｂは、車載応答装置１７が動作中であると判定する。

ステップＳ１０３では、音響特性調整指示部１８Ｅが、ＤＳＰ１５１に対してスピーカ１６から出力される音声の音響特性をデフォルト値にするように指示信号を出力する。言い換えれば、音響特性調整指示部１８Ｅは、入力される応答音声データに対して音響特性を変更する処理を実施しないようにＤＳＰ１５１に指示する。ステップＳ１０３で、音響特性をデフォルト値に設定するとステップＳ１０５に移る。

ステップＳ１０５では、応答音声データ取得部１８Ｄが、車載応答装置１７が起動した旨を報知するガイダンス音声のデータを車載応答装置１７から取得し、スピーカ１６から音声出力させる。このとき、ステップＳ１０３で音響特性をデフォルト値に設定しているため、ステップＳ１０５で出力されるガイダンス音声の音響特性は変更されずにそのまま出力される。

ステップＳ１０７では、応答装置切替部１８Ｃが、センター側応答装置３１へ切り替える操作入力がユーザによって為されたか否かを判定する。センター側応答装置３１へ切り替える操作入力がユーザによって為されたと判定した場合には、ステップＳ１０７がＹＥＳとなってステップＳ１０９に移る。

また、センター側応答装置３１へ切り替える操作入力がユーザによって為されていないと判定した場合は、ステップＳ１０７がＮＯとなってステップＳ１０７を繰り返す。すなわち、センター側応答装置３１へ切り替える操作入力がユーザによって為されるまで、ステップＳ１０７の判定処理を繰り返し実施する。その間、車載応答装置１７が、制御部１８と協働してユーザからの音声入力に対して音声認識処理を実施し、さらに応答音声データを出力する。ステップＳ１０７がＮＯと判定されている状態において動作中装置判定部１８Ｂは、車載応答装置１７が動作中であると判定している。

なお、本実施形態においてセンター側応答装置３１へ切り替える操作入力は、ユーザは音声入力によって実施する構成とする。例えばユーザは「センターへ切り替え」などの命令コマンドを音声入力すればよい。制御部１８は、ユーザの音声入力から得られる入力音声データを車載応答装置１７に出力し、車載応答装置１７から返ってくる音声認識処理の結果から、センター側応答装置３１へ切り替える操作入力が為されたか否かを判定すればよい。

その他、センター側応答装置３１へ切り替えは、音声入力に限らず、ユーザは図示しないスイッチ（メカニカルなスイッチや、タッチパネルなど）を操作する事によって指示する構成であっても良い。制御部１８が、それらの図示しないスイッチが操作されたことを検出すると、センター側応答装置３１へ切り替える操作入力がユーザによって為されたと判定すればよい。

ステップＳ１０９では、応答装置切替部１８Ｃがセンター３との接続を開始し、ステップＳ１１１に移る。ステップＳ１１１では、車載応答装置１７からセンター側応答装置３１へと切り替える処理を実施している旨のガイダンス音声（例えば「センターへ接続中です」など）を出力する。また、ガイダンス音声の出力と同時に、音響特性調整指示部１８Ｅは、音響特性をデフォルト値からセンター用設定値へと徐々に（連続的に又は段階的に）移行させる。これによって、「センターへ接続中です」といったガイダンス音声において徐々に高音が抑制され、エコーがかかっていく。

前述したように、高音が抑制され、かつ、エコーがかけられた音声を聞くと、ユーザは、その音源が相対的に遠くにあるように感じる。すなわち、徐々に高音が抑制され、かつ、エコーがかけられていく音声を聞くと、ユーザは、その音源が離れていくように感じる。

したがって、ステップＳ１１１でユーザは、デフォルト値からセンター用設定値へと音響特性が変化しながら出力されるガイダンス音声を聞くことによって、車載応答装置１７から相対的に離れた位置にあるセンター側応答装置３１へ切り替える処理を実施していることを認識することができる。

なお、本実施形態では、デフォルト値からセンター用設定値へと徐々に変化するように、周波数特性の変更（すなわち高音抑制）とエコー処理の両方を実施させる構成としたがこれに限らない。エコー処理は実施させずに、周波数特性だけをセンター用設定値へと近づけるように音響特性を変更させても良い。また、ガイダンス音声は、状況を表すメッセージに限らず、効果音などであってもよい。

ステップＳ１１３では、センター３との接続が成功したか否かを判定する。ここで、電波状況や、回線状況等の影響によってセンター３と一定時間（予め設定されるタイムアウト時間）内に接続できなかった場合には、ステップＳ１１３がＮＯとなってステップＳ１２１に進む。一方、センター３との接続が成功し、センター３から接続が確立したことを表す信号を一定時間以内に受信した場合には、ステップＳ１１３がＹＥＳとなってステップＳ１１５に移る。

ステップＳ１２１では、音響特性をデフォルト値に徐々に戻しながら、センター３への接続が出来なかった旨のガイダンス音声（例えば「センターへ接続出来ませんでした」など）を出力する。すなわち、ユーザは、デフォルト値からセンター用設定値へと移行しかけた（または移行が完了した）音響特性から、デフォルト値へと移行しながら出力されるガイダンス音声を聞くため、ガイダンス音声の音源が近づいてくるように感じる。これによって、ユーザは、以降においても車載応答装置１７が動作することを、ガイダンス音声の内容だけでなく、音響特性の変化から直感的に認識することができる。

ステップＳ１１５では、センター側応答装置３１を起動して待機状態にし、ステップＳ１１７に移る。ここでの待機状態とは、車載応答装置１７の待機状態と同様に、車載器１から入力音声データが入力された場合に音声認識処理が実行可能な状態とする。また、動作中装置判定部１８Ｂは、センター側応答装置３１が動作中であると判定する。

ステップＳ１１７では、音響特性調整指示部１８Ｅが、ＤＳＰ１５１に対してスピーカ１６から出力される音声の音響特性をセンター用設定値にするように指示信号を出力する。言い換えれば、音響特性調整指示部１８Ｅは、ＤＳＰ１５１に入力される応答音声データに対して、高音の領域を抑圧し、エコーをかけるようにＤＳＰ１５１に指示する。もちろん、ステップＳ１１１において既にデフォルト値からセンター用設定値への移行が完了となっている場合には、そのセンター用設定値を維持する。

ステップＳ１１９では、センター側応答装置３１が起動した旨を報知するガイダンス音声を、携帯電話機２を介してセンター３から取得し、スピーカ１６から音声出力させて本フローを終了する。このとき、出力されるガイダンス音声の音響特性は、ステップＳ１１７において設定されたセンター用設定値に応じた音響特性となって出力される。すなわち、センター側応答装置３１が起動した旨を報知するガイダンス音声は、高音の領域が抑制され、かつ、エコーがかけられて出力される。

この後は、センター側応答装置３１から車載応答装置１７へと切り替える操作入力がユーザによって為されるまで、または、電波状況などによってセンター３との接続が切断されるまで、センター３が、ユーザから入力された入力音声データに応答する。すなわち、入力音声データ生成部１８Ａが生成した入力音声データは、携帯電話機２を介してセンター３に送信される。そして、センター側応答装置３１が当該入力音声データに対して音声認識処理を実施する。センター３は、その音声認識処理の結果に基づいて応答音声データを生成し、携帯電話機２を介して車載器１に返送する。

車載器１では、携帯電話機２を介してセンター３から受信する応答音声データに対して、前述したように、センター用設定値に応じた音響特性（高音抑制かつ、エコー処理）となるにように処理して音声出力させる。

なお、電波状況（例えば電波の受信圏外への移動）などによってセンター３との接続が一定時間以上切断された場合には、応答装置切替部１８Ｃは、車載応答装置１７へと動作中の応答装置を切り替えるものとする。それに伴って動作中装置判定部１８Ｂは、動作中の応答装置を車載応答装置１７と判定する。もちろん、センター側応答装置３１から車載応答装置１７へと切り替える操作入力がユーザによって為され、車載応答装置１７への切り替えが完了した場合にも、車載応答装置１７を動作中の応答装置と判定する。

なお、以上では車載応答装置１７からセンター側応答装置３１へと切り替える場合を例にとって説明したが、センター側応答装置３１から車載応答装置１７へと切り替える場合も同様であるとする。すなわち、音響特性の変更を伴ったガイダンス音声の音声出力を行った後、動作中の応答装置に応じた音響特性で応答音声データを音声出力させる。

以上の構成によると、音響特性調整指示部１８Ｅは、動作中の応答装置に応じた音響特性で応答音声データを出力させる。より具体的には、車載応答装置１７が動作中である場合には、その音声認識処理の結果から生成される応答音声データは、音響特性を変化させずに音声出力させる。一方、センター側応答装置３１が動作中である場合には、車載応答装置１７が動作中の場合の音響特性とは異なる音響特性に変更して音声出力させる。これによって、ユーザは、自身の発話に対して応答している応答装置がどちらなのかを、音響特性の違いから直感的に認識しやすくなり、ユーザの利便性を向上させることができる。

さらに本実施形態では、センター３から取得する応答音声データを、車載応答装置１７から取得する応答音声データよりも、高音の領域を抑制し、エコーがかかるように調整して音声出力する。これによって、センター３から取得する応答音声データがスピーカ１６から音声出力されている場合には、ユーザは、音源の距離が相対的に遠くなったように感じるため、車両外にあるセンター３が動作していることを直感的に認識することができるようになる。また、車載応答装置１７から取得する応答音声データがスピーカ１６から音声出力されている場合には、ユーザは、音源の距離が相対的に近くにあるように感じるため、車両に搭載されている車載応答装置１７が動作していることを直感的に認識することができる。

また、音響特性の調整は、車載器１において実施されるため、音響特性調整処理を実施する上で、センター３と連携する必要がない。したがって、センター３と連携した音響特性の制御を実施する構成に比べてより容易に実現することができる。

さらに、音響特性調整処理を実施する上でセンター３と連携する必要がない為、車載器１と通信するセンター３の管理会社によらずに音響特性調整処理を実施することができる。すなわち、センター３が携帯電話会社の情報センターであろうと、自動車会社のセンターであろうと、その他の会社が管理する情報センターであろうと、音響特性調整処理を実施することができる。

なお、本実施形態で用いたデフォルト値及びセンター用設定値は、適宜ユーザによって設定されても良い。また、デフォルト値とセンター用設定値とは、スピーカ１６から出力される音響特性において周波数特性もエコーの有無も異なるように設定したが、これに限らない。

デフォルト値とセンター用設定値を、周波数特性を等しくし、エコーの有無によって区別がつくように設定しても良い。また、デフォルト値とセンター用設定値のいずれにもエコーを付与せず、周波数特性がそれぞれ異なるように設定してもよい。なお、エコーの有無だけでなく、エコーのレベル（反響回数や残響音の減衰速度）などによって、動作中の応答装置が区別できるようにしてもよい。なお、エコーが無い場合も含めたエコーのレベルが請求項に記載の残響レベルに相当する。

なお、ここでの周波数特性とは、高音域や中音域、低音域などに相当する周波数成分をそれぞれ強調または抑制する場合の度合いを指す。

また、スピーカ１６が複数のスピーカ１６からなり、それぞれが異なる位置に配置されている場合には、音像の方向（左右や上下など）の知覚を利用して、動作中の応答装置の区別がつくように、ユーザが利用可能な応答装置毎に音響特性を設定しても良い。それぞれのスピーカ１６から出力する音声の位相や音圧を変化させることで、その音像が、動作中の応答装置に応じて異なる位置に存在するように調整してもよい。

また、本実施形態では、ステップＳ１１１及びステップＳ１２１を実施する際には、音響特性が徐々に変化するように、ＤＳＰ１５１にリアルタイム処理させる構成としたがこれに限らない。例えば音響特性が徐々に変化していくガイダンス音声の音声データをメモリ１７３に格納しておいてもよい。そしてステップＳ１１１やステップＳ１２１を実施する際には、ＤＳＰ１５１は音響特性を変化させずに、予めメモリ１７３に格納されているガイダンス音声を音声出力する。このような構成によれば、より簡単な処理で、本実施形態のステップＳ１１１及びステップＳ１２１の説明で述べたような効果を奏することができる。

以上、本発明の実施形態を説明したが、本発明は上述の実施形態に限定されるものではなく、次の変形例も本発明の技術的範囲に含まれ、さらに、下記以外にも要旨を逸脱しない範囲内で種々変更して実施することができる。

（変形例）
上述した実施形態では、複数の応答装置のうちの１つを車両に搭載されているものとしたが、これに限らない。図４に示すように複数の応答装置のいずれもが、車両外のセンター（第１センター３、第２センター４）にそれぞれ備えられていても良い。なお、前述の実施形態の説明に用いた図に示した部材と同一の機能を有する部材については、同一の符号を付し、その説明を省略する。例えば、図４の第１センター３及び第１センター側応答装置３１は、上述の実施形態で述べたセンター３及びセンター側応答装置３１と同様のものである。

第２センター４は、一例として自動車会社の情報センターであって、車両に搭載されているナビゲーション装置（図示略）の操作や、渋滞情報、自車両の操作に関連する質問に対応したり、ナビゲーション装置の機能を利用するための命令コマンドに対応する。第２センター４は第２センター側応答装置４１を備え、第１センター３と同様に、車載器１から送信されてくる音声データをもとに、音声認識処理を実施し、ユーザの質問への応答となる応答音声データを生成して車載器１に返送する。

車載器１はＤＣＭ通信部１９を備え、車載器１はこのＤＣＭ通信部１９によって第２センター４と種々のデータ通信を実施する。ＤＣＭ通信部１９は、例えばテレマティクス通信に用いられるＤＣＭ（ＤａｔａＣｏｍｍｕｎｉｃａｔｉｏｎＭｏｄｕｌｅ）といった車載通信モジュールなどの様々なものを採用することができる。

また、メモリ１３には、第１センター３から取得した応答音声データを音声出力する際の音響特性の設定値と、第２センター４から取得した応答音声データを音声出力する際の音響特性の設定値を保存しておく。第１センター用設定値と第２センター用設定値は、異なるものであって、その差が大きいことが好ましい。例えば第１センター用設定値と第２センター用設定値は、高音の領域を抑制するか否か、低音を抑制するか否か、及びエコーの有無などで区別がつくように設定すれば良い。

この変形例の構成においても音響特性調整指示部１８Ｅは、動作中の応答装置に応じた音響特性で応答音声データを出力させる。すなわち、第１センター３が動作中である場合には、第１センター３から取得した応答音声データに対して、第１センター用設定値に応じた音響特性となるようにエフェクト処理してスピーカ１６から音声出力させる。また、第２センター４が動作中である場合には、第２センター４から取得した応答音声データに対して、第２センター用設定値に応じた音響特性となるようにエフェクト処理してスピーカ１６から音声出力させる。

したがって、この変形例においてもユーザは、それぞれのセンターによって異なる音響特性の音声を聞くことができるため、自身の発話に対して応答している応答装置がどちらなのかを認識しやすくなり、ユーザの利便性を向上させることができる。

１００音声認識システム、１車載器、１１マイク、１２トークＳＷ、１３メモリ、１４ＢＴ通信部、１５オーディオアンプ、１５１ＤＳＰ（信号処理部）、１５２アンプ、１６スピーカ、１７車載応答装置（第１の応答装置）、１７１音声認識部、１７２音声認識ＤＢ、１８制御部、１８Ａ入力音声データ生成部（音声取得部）、１８Ｂ動作中装置判定部、１８Ｃ応答装置切替部、１８Ｄ応答音声データ取得部、１８Ｅ音響特性調整指示部（音響特性調整部）、１８Ｆ通信処理部、２携帯電話機、３センター、３１センター側応答装置（第２の応答装置）

Claims

車両に搭載され、ユーザの入力音声を入力音声データとして取得する入力音声取得部（１８Ａ）を備える車載器（１）と、
前記入力音声取得部が取得した前記入力音声データに対して音声認識処理を実施し、当該音声認識処理の結果に基づいて、前記入力音声データに対する応答となる応答音声データを生成する第１の応答装置（１７）と、
前記入力音声取得部が取得した前記入力音声データに対して音声認識処理を実施し、当該音声認識処理の結果に基づいて、前記入力音声データに対する応答となる応答音声データを生成する第２の応答装置（３１）と、
前記車載器は、さらに、
前記第１の応答装置及び前記第２の応答装置のうち、前記入力音声データに対して応答させる応答装置を切り替える応答装置切替部（１８Ｃ）と、
前記入力音声データに対して応答するように設定され、現在動作中となっている応答装置を判定する動作中装置判定部（１８Ｂ）と、
前記応答音声データを音声に変換されて、スピーカ（１６）から出力される出力音声の音響特性を調整する音響特性調整部（１８Ｅ、１５１）と、を備え、
前記音響特性調整部は、
前記第１の応答装置が動作中であると前記動作中装置判定部が判定している場合には前記音響特性を第１の音響特性となるように調整する一方、
前記第２の応答装置が動作中であると前記動作中装置判定部が判定している場合には前記音響特性を前記第１の音響特性とは異なる第２の音響特性となるように調整することを特徴とする音声認識システム。
請求項１において、
前記出力音声の前記音響特性を前記第１の音響特性とするための設定値である第１音響特性設定値と、前記出力音声の前記音響特性を前記第２の音響特性とするための設定値である第２音響特性設定値と、を記憶している音響特性設定記憶部（１３）を備え、
前記音響特性調整部は、
前記第１の応答装置が動作中であると前記動作中装置判定部が判定している場合には、前記第１音響特性設定値に基づいて、前記第１の音響特性となるように調整する一方、
前記第２の応答装置が動作中であると前記動作中装置判定部が判定している場合には、前記第２音響特性設定値に基づいて、前記第２の音響特性となるように調整することを特徴とする音声認識システム。
請求項１または２において、
前記第１の音響特性と前記第２の音響特性とは、前記出力音声における周波数特性及び残響レベルの少なくとも何れか一方が異なることを特徴とする音声認識システム。
請求項１から３の何れか１項において、
前記第１の応答装置は、前記車両に搭載され、
前記第２の応答装置は、前記車両の外部に設けられ、前記車載器と無線通信を実施するセンター（３）に備えられてあることを特徴とする音声認識システム。
請求項４において、
前記第１の音響特性と前記第２の音響特性とは、前記出力音声における前記周波数特性及び前記残響レベルが両方とも異なり、
前記第２の音響特性は、前記第１の音響特性よりも高音域の周波数成分を抑制し、かつ、前記残響レベルが大きいことを特徴とする音声認識システム。
請求項５において、
前記応答装置切替部が動作中の応答装置を切り替える場合には、切り替え前に動作中となっている応答装置に対応する前記音響特性から、切り替え後に動作中となる応答装置に対応する前記音響特性へと変化させながら、前記スピーカより音声を出力させることを特徴とする音声認識システム。
請求項１から６のいずれか１項において、
前記音響特性調整部は、前記音響特性を変更する信号処理部（１５１）を備えることを特徴とする音声認識システム。