JP2015052749A - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP2015052749A
JP2015052749A JP2013186521A JP2013186521A JP2015052749A JP 2015052749 A JP2015052749 A JP 2015052749A JP 2013186521 A JP2013186521 A JP 2013186521A JP 2013186521 A JP2013186521 A JP 2013186521A JP 2015052749 A JP2015052749 A JP 2015052749A
Authority
JP
Japan
Prior art keywords
response
acoustic
response device
vehicle
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013186521A
Other languages
English (en)
Inventor
健浩 阿部田
Takehiro Abeta
健浩 阿部田
星野 賢一
Kenichi Hoshino
賢一 星野
譲 藤原
Yuzuru Fujiwara
譲 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2013186521A priority Critical patent/JP2015052749A/ja
Publication of JP2015052749A publication Critical patent/JP2015052749A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

【課題】複数の応答装置が利用可能な構成において、ユーザは、自身の発話に対してどの応答装置が応答しているのかを認識しやすい音声認識システムを提供する。【解決手段】、利用可能な応答装置(車載応答装置17及びセンター側応答装置31)毎にスピーカ16から出力される音声の音響特性が異なるように設定しておく。そして、音響特性調整指示部18Eは、動作中の応答装置に応じた音響特性となるように調整して応答音声データをスピーカ16から音声出力させる。たとえば、センター側応答装置31が動作中である場合には、車載応答装置17が動作中である場合に比べて、高音の周波数成分を抑制し、かつ、エコーをかけて音声出力させる。【選択図】図1

Description

本発明は、ユーザの音声データに対して応答音声データを出力する応答装置を備える音声認識システムに関する。
従来、ユーザから入力された音声データに対して音声認識処理を実施し、その認識処理結果に応じた種々の情報をユーザに提供する応答装置がある(例えば特許文献1)。この特許文献1に開示の応答装置は、車載器、及び車両外部に設けられて当該車載器と無線通信を実施する情報センターを備えている。
特許文献1に記載の応答装置において、車載器は、ユーザの音声データを取得して情報センターに当該音声データを送信する。情報センターは、当該音声データに対して音声認識処理を実施して、その認識処理結果に応じた応答音声データを車載器に返送する。そして、車載器は応答音声データを受信すると、当該応答音声データに従った音声出力を行う。なお、以上では一例として情報センターが音声認識処理を実施する構成を例示したが、情報センターを備えずに、車載器において音声認識処理や応答音声データの生成が実施される構成も知られている。
一方、携帯電話機においても、携帯電話会社の管理する情報センターと携帯電話機が無線通信することによって、ユーザの音声入力に対して種々の情報を提供する応答装置が普及してきている。
特開2004−348658号公報
近年では、車載器と携帯電話機とを連携させて動作させる技術も開発されている。車載器と携帯電話機とを連携して動作させる場合には、ユーザは、車載器を介して複数の応答装置が利用可能な構成となる。このような構成においてユーザは、目的に応じた応答装置を選択して音声入力し、その選択されて動作中となっている応答装置が、当該入力音声データに対して応答音声データを出力する。
ところで、応答装置毎に入力音声データに対する応答音声データの内容は異なってくるため、以上のように複数の応答装置が利用可能な構成において、ユーザは、現在どの応答装置が動作中であるのかを、より容易に認識できることが好ましい。言い換えれば、目的に応じた応答装置が動作中であるか否かをより容易に認識できることが好ましい。
一般的に、動作中の応答装置をユーザに認識させるための方法としては、応答装置が起動又は切り替わるときに、その旨のガイダンス音声を音声出力したり、現在動作中の応答装置を表示装置に表示したりすることが考えられる。
しかしながら、ユーザが運転に集中していて応答装置が起動又は切り替わる旨のガイダンス音声を聴き逃してしまう事や、応答装置を選択または切り替えてから時間が経過し、どの応答装置が動作中であったかを忘れてしまう事が考えられる。また、表示装置に動作中の応答装置を表示している場合には、ユーザは表示装置を見れば動作中の応答装置を確認することができるが、運転中のユーザにとって表示装置を見ることが難しい状況も想定される。
本発明は、この事情に基づいて成されたものであり、その目的とするところは、複数の応答装置が利用可能な構成において、ユーザは、自身の発話に対してどの応答装置が応答しているのかを認識しやすい音声認識システムを提供することにある。
その目的を達成するための本発明は、車両に搭載され、ユーザの入力音声を入力音声データとして取得する入力音声取得部(18A)を備える車載器(1)と、入力音声取得部が取得した入力音声データに対して音声認識処理を実施し、当該音声認識処理の結果に基づいて、入力音声データに対する応答となる応答音声データを生成する第1の応答装置(17)と、入力音声取得部が取得した入力音声データに対して音声認識処理を実施し、当該音声認識処理の結果に基づいて、入力音声データに対する応答となる応答音声データを生成する第2の応答装置(31)と、車載器は、さらに、第1の応答装置及び第2の応答装置のうち、入力音声データに対して応答させる応答装置を切り替える応答装置切替部(18C)と、入力音声データに対して応答するように設定され、現在動作中となっている応答装置を判定する動作中装置判定部(18B)と、応答音声データを音声に変換されて、スピーカ(16)から出力される出力音声の音響特性を調整する音響特性調整部(18E、151)と、を備え、音響特性調整部は、第1の応答装置が動作中であると動作中装置判定部が判定している場合には音響特性を第1の音響特性となるように調整する一方、第2の応答装置が動作中であると動作中装置判定部が判定している場合には音響特性を第1の音響特性とは異なる第2の音響特性となるように調整することを特徴とする。
以上の構成では、動作中装置判定部が動作中の応答装置を判定し、音響特性調整部は、動作中の応答装置に応じた音響特性となるように、スピーカからの出力される出力音声の音響特性を調整する。より具体的には、入力音声データに対して第1の応答装置が応答している場合には、第1の応答音声データは第1の音響特性で音声出力され、第2の応答装置が応答している場合には、第1の音響特性とは異なる第2の音響特性で、第2の応答音声データは音声出力される。
このような構成によると、ユーザは、自身の発話(すなわち入力音声データ)に対して応答している応答装置がどちらなのかを、音響特性の違いから認識することができる。
本実施形態に係る音声認識システム100の概略的な構成の一例を示すブロック図である。 本実施形態に係る制御部18の概略的な構成の一例を示す機能ブロック図である。 制御部18が実施する音響特性調整処理の流れを説明するためのフローチャートである。 変形例に係る音声認識システム100の概略的な構成の一例を示すブロック図である。
以下、本発明の実施形態について図を用いて説明する。図1は、本実施形態に係る音声認識システム100の概略的な構成の一例を示す図である。図1に示すように音声認識システム100は、車載器1と、携帯電話機2と、センター3と、を備えている。車載器1と携帯電話機2、携帯電話機2とセンター3とは、それぞれ公知の無線通信技術を用いてデータの送受信を実施し、車載器1とセンター3とは携帯電話機2を介して通信を実施する。なお、本実施形態では、一例として、車載器1とセンター3とは、携帯電話機2を介して通信する構成を示すが、もちろんその他の構成として、携帯電話機2を介さずに車載器1とセンター3が通信を実施する構成でもよい。
それぞれの要素について詳細に説明する前に、まずは音声認識システム100の概要について述べる。音声認識システム100においてユーザは、車載器1が備える車載応答装置17と、センター3が備えるセンター側応答装置31のいずれか一方を選択して利用することができ、車載器1またはセンター3は、ユーザの音声入力に対して音声認識処理を実施する。例えば車載応答装置17が動作中であれば、車載応答装置17は音声認識処理の結果に基づいてユーザの音声への応答となる応答音声データを生成する。そして、車載器1は、当該応答音声データをスピーカ16から音声出力させる。また、センター側応答装置31が動作中であれば、センター3はセンター側応答装置31での音声認識処理の結果に基づいて応答音声データを生成して車載器1に送信する。そして車載器1は、センター3から受信した応答音声データをスピーカ16から音声出力させる。
ここで、車載器1は、動作中の応答装置が、車載応答装置17であるのか、または、センター側応答装置31であるのかによって、スピーカ16の出力音声の音響特性を変更する処理を実施する。このような構成によるとスピーカ16から出力される音声の音響特性が動作中の応答装置によって変化するため、ユーザは、その音響特性の違いから直感的に動作中の応答装置を把握することができるようになる。以降において、この音声認識システム100の構成及び作動について、より詳細に説明する。
車載器1は、車両に搭載され、図1に示すように、マイクロフォン(以降、マイク)11、トークスイッチ(以降、トークSW)12、メモリ13、BT通信部14、オーディオアンプ15、スピーカ16、車載応答装置17、及び制御部18を備えている。制御部18と、マイク11、トークSW12、メモリ13、BT通信部14、オーディオアンプ15、車載応答装置17とは、公知の通信プロトコルに準拠した車内LANで相互通信可能にそれぞれ接続されている。なお、オーディオアンプ15とスピーカ16とは公知のオーディオコードなどで接続されているものとする。
マイク11は、例えば無指向性の小型マイクであり、ユーザが発話した音声や雑音などの周囲の音を集音し、電気的な音声信号に変換して、制御部18に出力する。マイク11は、例えばステアリングコラムカバーの上面部や運転席側のサンバイザー等のユーザの音声を拾いやすい位置に設けられる。
トークSW12は、ユーザ(運転者)が音声入力を開始する旨を指示するためのもので、例えばステアリングコラムカバーの側面部やシフトレバーの近傍などユーザが操作しやすい位置に設けられている。なお、トークSW12は一例として、いわゆるクリック方式のスイッチとし、トークSW12がユーザの操作によってオンに設定されると(すなわち、クリックされると)、オン信号を制御部18に出力する。制御部18は、トークSW12からオン信号が入力されると、ユーザが発話した音声のデータを取得するための処理を実施する。ユーザは、トークSW12をオン操作した後、一定時間内(例えば1.5秒以内に)に発話し始めることで、その発話した音声を車載器1に入力することができる。なお、マイク11を介してユーザから入力され、制御部18で生成された音声データを、応答音声データと区別するため、入力音声データとする。
メモリ13は、不揮発性の記憶媒体であって、車載応答装置17及びセンター側応答装置31のそれぞれに対する音響特性の設定(詳細は後述)を記憶している。メモリ13は公知の記憶媒体を用いて構成すればよく、本実施形態ではHDDを用いる構成とするが、その他、比較的記憶容量の小さいメモリ(例えばSDカードなど)であってもよい。このメモリ13が請求項に記載の音響特性設定記憶部に相当する。
BT通信部14は、送受信アンテナ(図示略)を備え、携帯電話機2との間でBluetooth(登録商標)の規格に従った通信(以下、BT通信)を行うことで、情報のやり取りを行う。なお、本実施形態では、車載器1と携帯電話機2との間での通信を、BT通信で行う構成を示したが、必ずしもこれに限らない。例えばZigBee(登録商標)等の近距離無線通信規格やIEEE802.11等の無線LAN規格などに従った無線通信によって行う構成としてもよいし、USB通信等の有線通信によって行う構成としてもよい。BT通信部14は、車載器1と携帯電話機2との通信方式に応じた変調/復調などの機能を備えていればよい。
オーディオアンプ15は、DSP(Digital Signal Processor)151及びアンプ152を備え、制御部18から入力される応答音声データに対して種々の処理を実施して、音声信号としてスピーカ16に出力する。なお、制御部18からオーディオアンプ15に入力される信号はデジタル信号とするが、アナログ信号に変換されていても良い。後者の場合には、DSP151において再びデジタル信号に変換して処理するものとする。また、オーディオアンプ15からスピーカ16に出力する信号はアナログ信号とするが、スピーカ16の仕様に依ってはデジタル信号であっても良い。これらは設計事項とする。
DSP151は、公知のDSPチップによって構成され、応答音声データに対して、音響特性を変更する処理(いわゆるエフェクト処理)を施す。例えばDSP151は、入力された応答音声データ(これを原音とする)に含まれる特定の周波数帯域を強調したり、減衰したり、さらにはカットする処理を行う。また、DSP151は、原音を様々な時間で遅延させた複数の音を、時間に応じて減衰する特性を持たせて混ぜることにより、残響音(すなわちエコー)を付与する処理を行う。エコーの付与は、公知のIIRフィルタやFIRフィルタを用いて行えばよい。また、DSP151は、その他、原音のオクターブ上やオクターブ下の周波数の音を発生させたり、周波数空間で引き伸ばし処理を行なっても良い。DSP151は、エフェクト処理した応答音声データをアナログ信号に変換してアンプ152に出力する。このDSP151が請求項に記載の信号処理部に相当する。
アンプ152はDSP151から入力された信号の信号レベルを増幅し、スピーカ16に出力する。スピーカ16は、オーディオアンプ15から入力される電気的な音声信号を音声(単なる音を含む)に変換して出力する。
車載応答装置17は、制御部18から入力される入力音声データに対して公知の音声認識処理を実施し、その音声認識処理の結果に対応付けられる応答音声データを制御部18に出力する。車載応答装置17は、前述の音声認識処理を実施するための機能として、音声認識部171及び音声認識データベース(以降、音声認識DB)172を備えている。この車載応答装置17が請求項に記載の第1の応答装置に相当する。
音声認識DB172は、音声認識処理に必要なデータとして、例えば、人間の発声の小さな単位(音素)の音響特徴が記述されている音響モデル、音素の音響特徴と単語とを対応付ける認識辞書、及び、単語間の連接関係を表現する言語モデルが格納されている。なお、本実施形態の車載応答装置17が備える音声認識DB172は、予め車載器1に接続するナビゲーション装置(図示略)などを、音声によって操作するための命令コマンドに対応するデータベースであるものとする。命令コマンドは、例えば、地図画像の表示縮尺の変更や、現在地地図の表示、施設名称による検索、音楽再生などに対応するものとする。
メモリ173には、不揮発性の記憶媒体であって、車載器1に接続するナビゲーション装置(図示略)などの機能を音声によって操作するための命令コマンドと、各命令コマンドに対応付けられる機能を実施させるためのプログラムと、その機能を実施する旨をユーザに報知するための応答音声データと、が格納されているものとする。なお、図1では、メモリ173とメモリ13とを分離した機能ブロックで表しているが、これらはもちろん1つの記憶媒体で実現してもよい。
音声認識部171は、制御部18から入力される入力音声データに対して、音声認識DB172に格納されている種々のデータを用いて、音声認識処理を実施する。音声認識処理は、公知の技術を用いればよいため、ここでの説明は省略する。なお、車載応答装置17における音声認識処理は、予め登録されている命令コマンドのうち、ユーザはどの命令コマンドを発話したかを特定するものとする。したがってユーザが発話したと推定される命令コマンドが、音声認識部171での音声認識処理の結果として得られる。
そして、音声認識部171は、音声認識処理の結果に対応付けられる機能を実施する旨を、ユーザに報知する応答音声データをメモリ13から取得し、制御部18に出力する。また音声認識部171は、音声認識処理の結果に対応付けられる機能を実施するように要求する要求信号を、制御部18や他の機器(例えばナビゲーション装置)に出力する。
制御部18は、通常のコンピュータとして構成されており、周知のCPU、ROMやEEPROMなどの不揮発性メモリ、RAMなどの揮発性メモリ、I/O、及びこれらの構成を接続するバスライン(いずれも図示略)などを備えている。不揮発性メモリには、種々の処理を実行するためのプログラムが格納されている。制御部18は、種々の処理を実行するための機能ブロックとして、図2に示すように、入力音声データ生成部18A、動作中装置判定部18B、応答装置切替部18C、応答音声データ取得部18D、音響特性調整指示部18E、及び通信処理部18Fを備える。
入力音声データ生成部18Aは、トークSW12からのオン信号に基づいて、マイク11から入力される音声信号からノイズ成分を除去した入力音声データを生成する。例えば入力音声データ生成部18Aは、オン信号が入力されると、マイク11から入力される音声信号を音声データに変換可能な状態である待機状態となる。そして、待機状態となってから音声が入力されない状態が一定時間(例えば、1.5秒)以上継続すると、自動的に変換不可状態となる。一定時間内に音声が入力されているとの判定が為された場合には、音声の入力が終わったと判定されるまでのマイク11から入力される音声信号を入力音声データに変換する。
音声が入力されているか否か、及び音声入力が終了したか否かは、公知技術を用いればよく、例えば音声信号の信号レベルが所定の閾値以上となったか否かによって判定すればよい。もちろん、このような構成においては閾値以上の信号レベルとなっている音声信号が入力された場合に、音声が入力されたと判定する。入力音声データの生成方法は、公知の技術を用いればよく、上述した構成に限らない。入力音声データ生成部18Aで生成した入力音声データは、車載応答装置17及びBT通信部14に出力される。この入力音声データ生成部が請求項に記載の入力音声取得部に相当する。
動作中装置判定部18Bは、ユーザが選択可能な応答装置のうち、入力音声データに対して応答するように設定され、現在動作中となっている応答装置を判定する。本実施形態においてユーザが選択可能な応答装置とは、車載応答装置17と後述するセンター3が備えるセンター側応答装置31とがある。また、動作中の応答装置とは、入力音声データ生成部18Aで生成された入力音声データに対して応答するように設定されている応答装置を指す。なお、制御部18は、BT通信部14と携帯電話機2とが接続している場合に、センター側応答装置31を、ユーザが選択可能な応答装置の候補として認識する。なお、その他の形態として、ユーザが選択可能な応答装置のリストを予め車載器1に登録しておいてもよい。
応答装置切替部18Cは、ユーザの操作入力に基づいて、又は所定の規則に従って自動的に、現在動作中の応答装置から他の応答装置へと切り替えるための処理を実施する。ユーザの操作入力に基づいて動作中の装置を切り替える場合としては、例えば、図3のステップS107で後述するように、動作中の応答装置を切り替える操作入力がユーザによって為された場合とする。
また、自動的に動作中の応答装置を切り替える場合としては、センター側応答装置31が動作中の場合において、電波状況(例えば電波の受信圏外への移動)などによって、車載器1とセンター3との通信が一定時間以上切断された場合などがある。また、入力音声データに対して音声認識部171が実施した音声認識処理の結果に基づいて、センター3が管理している質問内容であると判定した場合に、自動的に当該入力音声データに対して応答する応答装置をセンター側応答装置31に切り替えてもよい。
車載応答装置17からセンター側応答装置31へと、動作させる応答装置を切り替える場合には、携帯電話機2を介して、センター3との接続を確立させ、接続確立後は入力音声データをセンター3に送信するように制御する。また、センター側応答装置31から車載応答装置17へと、動作させる応答装置を切り替える場合には、センター3との接続を終了させ、入力音声データの出力先を車載応答装置17に設定する。
応答音声データ取得部18Dは、車載応答装置17またはセンター側応答装置31のうち、動作中の応答装置から取得した応答音声データを、オーディオアンプ15に出力する。
音響特性調整指示部18Eは、動作中装置判定部18Bの判定結果に基づいて、スピーカ16から出力される音声の音響特性が、動作中の応答装置に応じた音響特性となるようにDSP151に指示信号を出力する。例えば、車載応答装置17が動作中の場合には、DSP151に、応答音声データに対して音響特性を変化させるエフェクト処理を実施しないように指示する。一方、センター側応答装置31が動作中である場合には、高音域の周波数成分を抑圧し、エコーをかけるエフェクト処理を実施するように指示する。この音響特性調整指示部18E及び前述のDSP151が請求項に記載の音響特性調整部として動作する。
音響特性の変更は、例えばDSP151のフィルタの係数を変更することで実施すれば良い。すなわち、音響特性調整指示部18Eは、動作中の応答装置に応じてフィルタの係数を変更するようにDSP151に指示することで音響特性を変更させればよい。なお、便宜上、スピーカ16から出力される音声の音響特性を、車載応答装置17が動作中の場合の音響特性(請求項に記載の第1の音響特性)とするDSP151の設定値をデフォルト値とする。また、センター側応答装置31が動作中の場合の音響特性(請求項に記載の第2の音響特性)とするDSP151の設定値をセンター用設定値とする。これら応答装置毎の音響特性の設定値は、メモリ13に格納しておけば良い。このデフォルト値が請求項に記載の第1音響特性設定値に相当し、センター用設定値が請求項に記載の第2音響特性設定値に相当する。
なお、一般に、高音が抑制され、かつ、エコーがかけられた音声を聞くと、聞き手は、その音源が相対的に遠くにあるように感じることが知られている。また、車載応答装置17に対して、センター3は車両外に配置されているため、当然、相対的に遠くで動作している。そこで、本実施形態では、センター3から取得する応答音声データを、車載器1内で生成される応答音声データよりも高音が抑圧され、かつ、エコーをかけて出力させる。これによって、ユーザは音源の距離が遠くなったと感じるため、車両外にあるセンター3が動作していることを直感的に認識することができるようになる。
通信処理部18Fは、携帯電話機2を介してセンター3と種々のデータ通信を実施するための処理を行う。
携帯電話機2は、周知の携帯電話機2であって、センター3とネットワークを介して通信を実施するとともに、車載器1が備えるBT通信部14とも通信を実施する。例えば携帯電話機2は、BT通信部14から受信する信号を、携帯電話機2とセンター3間の通信の規格に応じた信号に変換して、センター3に送信する。また、センター3から受信する信号を、携帯電話機2とBT通信部14間の通信の規格に応じた信号に変換して、BT通信部14に送信する。
センター3は、車両の外部に備えられている情報センターであって、例えば携帯電話会社の情報センターとする。センター3は、当該携帯電話会社の管理する携帯電話網を利用する携帯電話機2のユーザに対して種々のサービスを提供する。センター3は、センター側応答装置31を備え、車載器1から送信されてくる音声データをもとに、音声認識処理を実施することでユーザの質問内容を解析する。そして、ユーザの質問への応答となる応答音声データを生成して車載器1に返送する。
なお、センター側応答装置31は、公知の音声認識エンジン及び音声認識処理用のデータベースを備えている。ただし、センター側応答装置31が備えるデータベースは、単純な命令コマンドだけでなく、相対的に自由度の高い入力音声データに対応できるものとして、例えば千語から数万語に対応する大規模なデータベースであるものとする。センター側応答装置31が請求項に記載の第2の応答装置に相当する。
携帯電話会社が提供するサービスとしてスケジュール管理機能を想定した場合を例にとると、例えばセンター3は、ユーザの「今日の予定は?」という質問に対し、予め登録されてあるユーザのその日の予定を教えてくれるものである。なお、応答音声データを生成するための元となるデータ(その日のスケジュールの情報など)は、センター3が備えていてもよいし、携帯電話機2とセンター3とが種々のデータ通信を実施することで、センター3が携帯電話機2から取得する構成としてもよい。
もちろん、センター3は、携帯電話会社の情報センターに限らず、自動車会社やその他の会社によって運営される情報センターであってもよい。また、センター3が実施するサービスの内容も、スケジュール管理に限らず、周辺施設の検索や、ニュースの提供などであってもよい。
次に、図3に示すフローチャートを用いて、制御部18が実施する音響特性調整処理の流れを説明する。図3に示すフローチャートは、車載応答装置17を起動させるユーザ操作(例えばトークSW12の押下)を受け付けたときに開始されればよい。また、例えば自車両のイグニッションスイッチがオンされて車載器1に電源供給されたときに開始される構成としてもよい。
まずステップS101では、車載応答装置17を起動させて待機状態にし、ステップS103に移る。ここでの待機状態とは、制御部18から入力音声データが入力された場合に、音声認識処理が実行可能な状態とする。なお、動作中装置判定部18Bは、車載応答装置17が動作中であると判定する。
ステップS103では、音響特性調整指示部18Eが、DSP151に対してスピーカ16から出力される音声の音響特性をデフォルト値にするように指示信号を出力する。言い換えれば、音響特性調整指示部18Eは、入力される応答音声データに対して音響特性を変更する処理を実施しないようにDSP151に指示する。ステップS103で、音響特性をデフォルト値に設定するとステップS105に移る。
ステップS105では、応答音声データ取得部18Dが、車載応答装置17が起動した旨を報知するガイダンス音声のデータを車載応答装置17から取得し、スピーカ16から音声出力させる。このとき、ステップS103で音響特性をデフォルト値に設定しているため、ステップS105で出力されるガイダンス音声の音響特性は変更されずにそのまま出力される。
ステップS107では、応答装置切替部18Cが、センター側応答装置31へ切り替える操作入力がユーザによって為されたか否かを判定する。センター側応答装置31へ切り替える操作入力がユーザによって為されたと判定した場合には、ステップS107がYESとなってステップS109に移る。
また、センター側応答装置31へ切り替える操作入力がユーザによって為されていないと判定した場合は、ステップS107がNOとなってステップS107を繰り返す。すなわち、センター側応答装置31へ切り替える操作入力がユーザによって為されるまで、ステップS107の判定処理を繰り返し実施する。その間、車載応答装置17が、制御部18と協働してユーザからの音声入力に対して音声認識処理を実施し、さらに応答音声データを出力する。ステップS107がNOと判定されている状態において動作中装置判定部18Bは、車載応答装置17が動作中であると判定している。
なお、本実施形態においてセンター側応答装置31へ切り替える操作入力は、ユーザは音声入力によって実施する構成とする。例えばユーザは「センターへ切り替え」などの命令コマンドを音声入力すればよい。制御部18は、ユーザの音声入力から得られる入力音声データを車載応答装置17に出力し、車載応答装置17から返ってくる音声認識処理の結果から、センター側応答装置31へ切り替える操作入力が為されたか否かを判定すればよい。
その他、センター側応答装置31へ切り替えは、音声入力に限らず、ユーザは図示しないスイッチ(メカニカルなスイッチや、タッチパネルなど)を操作する事によって指示する構成であっても良い。制御部18が、それらの図示しないスイッチが操作されたことを検出すると、センター側応答装置31へ切り替える操作入力がユーザによって為されたと判定すればよい。
ステップS109では、応答装置切替部18Cがセンター3との接続を開始し、ステップS111に移る。ステップS111では、車載応答装置17からセンター側応答装置31へと切り替える処理を実施している旨のガイダンス音声(例えば「センターへ接続中です」など)を出力する。また、ガイダンス音声の出力と同時に、音響特性調整指示部18Eは、音響特性をデフォルト値からセンター用設定値へと徐々に(連続的に又は段階的に)移行させる。これによって、「センターへ接続中です」といったガイダンス音声において徐々に高音が抑制され、エコーがかかっていく。
前述したように、高音が抑制され、かつ、エコーがかけられた音声を聞くと、ユーザは、その音源が相対的に遠くにあるように感じる。すなわち、徐々に高音が抑制され、かつ、エコーがかけられていく音声を聞くと、ユーザは、その音源が離れていくように感じる。
したがって、ステップS111でユーザは、デフォルト値からセンター用設定値へと音響特性が変化しながら出力されるガイダンス音声を聞くことによって、車載応答装置17から相対的に離れた位置にあるセンター側応答装置31へ切り替える処理を実施していることを認識することができる。
なお、本実施形態では、デフォルト値からセンター用設定値へと徐々に変化するように、周波数特性の変更(すなわち高音抑制)とエコー処理の両方を実施させる構成としたがこれに限らない。エコー処理は実施させずに、周波数特性だけをセンター用設定値へと近づけるように音響特性を変更させても良い。また、ガイダンス音声は、状況を表すメッセージに限らず、効果音などであってもよい。
ステップS113では、センター3との接続が成功したか否かを判定する。ここで、電波状況や、回線状況等の影響によってセンター3と一定時間(予め設定されるタイムアウト時間)内に接続できなかった場合には、ステップS113がNOとなってステップS121に進む。一方、センター3との接続が成功し、センター3から接続が確立したことを表す信号を一定時間以内に受信した場合には、ステップS113がYESとなってステップS115に移る。
ステップS121では、音響特性をデフォルト値に徐々に戻しながら、センター3への接続が出来なかった旨のガイダンス音声(例えば「センターへ接続出来ませんでした」など)を出力する。すなわち、ユーザは、デフォルト値からセンター用設定値へと移行しかけた(または移行が完了した)音響特性から、デフォルト値へと移行しながら出力されるガイダンス音声を聞くため、ガイダンス音声の音源が近づいてくるように感じる。これによって、ユーザは、以降においても車載応答装置17が動作することを、ガイダンス音声の内容だけでなく、音響特性の変化から直感的に認識することができる。
ステップS115では、センター側応答装置31を起動して待機状態にし、ステップS117に移る。ここでの待機状態とは、車載応答装置17の待機状態と同様に、車載器1から入力音声データが入力された場合に音声認識処理が実行可能な状態とする。また、動作中装置判定部18Bは、センター側応答装置31が動作中であると判定する。
ステップS117では、音響特性調整指示部18Eが、DSP151に対してスピーカ16から出力される音声の音響特性をセンター用設定値にするように指示信号を出力する。言い換えれば、音響特性調整指示部18Eは、DSP151に入力される応答音声データに対して、高音の領域を抑圧し、エコーをかけるようにDSP151に指示する。もちろん、ステップS111において既にデフォルト値からセンター用設定値への移行が完了となっている場合には、そのセンター用設定値を維持する。
ステップS119では、センター側応答装置31が起動した旨を報知するガイダンス音声を、携帯電話機2を介してセンター3から取得し、スピーカ16から音声出力させて本フローを終了する。このとき、出力されるガイダンス音声の音響特性は、ステップS117において設定されたセンター用設定値に応じた音響特性となって出力される。すなわち、センター側応答装置31が起動した旨を報知するガイダンス音声は、高音の領域が抑制され、かつ、エコーがかけられて出力される。
この後は、センター側応答装置31から車載応答装置17へと切り替える操作入力がユーザによって為されるまで、または、電波状況などによってセンター3との接続が切断されるまで、センター3が、ユーザから入力された入力音声データに応答する。すなわち、入力音声データ生成部18Aが生成した入力音声データは、携帯電話機2を介してセンター3に送信される。そして、センター側応答装置31が当該入力音声データに対して音声認識処理を実施する。センター3は、その音声認識処理の結果に基づいて応答音声データを生成し、携帯電話機2を介して車載器1に返送する。
車載器1では、携帯電話機2を介してセンター3から受信する応答音声データに対して、前述したように、センター用設定値に応じた音響特性(高音抑制かつ、エコー処理)となるにように処理して音声出力させる。
なお、電波状況(例えば電波の受信圏外への移動)などによってセンター3との接続が一定時間以上切断された場合には、応答装置切替部18Cは、車載応答装置17へと動作中の応答装置を切り替えるものとする。それに伴って動作中装置判定部18Bは、動作中の応答装置を車載応答装置17と判定する。もちろん、センター側応答装置31から車載応答装置17へと切り替える操作入力がユーザによって為され、車載応答装置17への切り替えが完了した場合にも、車載応答装置17を動作中の応答装置と判定する。
なお、以上では車載応答装置17からセンター側応答装置31へと切り替える場合を例にとって説明したが、センター側応答装置31から車載応答装置17へと切り替える場合も同様であるとする。すなわち、音響特性の変更を伴ったガイダンス音声の音声出力を行った後、動作中の応答装置に応じた音響特性で応答音声データを音声出力させる。
以上の構成によると、音響特性調整指示部18Eは、動作中の応答装置に応じた音響特性で応答音声データを出力させる。より具体的には、車載応答装置17が動作中である場合には、その音声認識処理の結果から生成される応答音声データは、音響特性を変化させずに音声出力させる。一方、センター側応答装置31が動作中である場合には、車載応答装置17が動作中の場合の音響特性とは異なる音響特性に変更して音声出力させる。これによって、ユーザは、自身の発話に対して応答している応答装置がどちらなのかを、音響特性の違いから直感的に認識しやすくなり、ユーザの利便性を向上させることができる。
さらに本実施形態では、センター3から取得する応答音声データを、車載応答装置17から取得する応答音声データよりも、高音の領域を抑制し、エコーがかかるように調整して音声出力する。これによって、センター3から取得する応答音声データがスピーカ16から音声出力されている場合には、ユーザは、音源の距離が相対的に遠くなったように感じるため、車両外にあるセンター3が動作していることを直感的に認識することができるようになる。また、車載応答装置17から取得する応答音声データがスピーカ16から音声出力されている場合には、ユーザは、音源の距離が相対的に近くにあるように感じるため、車両に搭載されている車載応答装置17が動作していることを直感的に認識することができる。
また、音響特性の調整は、車載器1において実施されるため、音響特性調整処理を実施する上で、センター3と連携する必要がない。したがって、センター3と連携した音響特性の制御を実施する構成に比べてより容易に実現することができる。
さらに、音響特性調整処理を実施する上でセンター3と連携する必要がない為、車載器1と通信するセンター3の管理会社によらずに音響特性調整処理を実施することができる。すなわち、センター3が携帯電話会社の情報センターであろうと、自動車会社のセンターであろうと、その他の会社が管理する情報センターであろうと、音響特性調整処理を実施することができる。
なお、本実施形態で用いたデフォルト値及びセンター用設定値は、適宜ユーザによって設定されても良い。また、デフォルト値とセンター用設定値とは、スピーカ16から出力される音響特性において周波数特性もエコーの有無も異なるように設定したが、これに限らない。
デフォルト値とセンター用設定値を、周波数特性を等しくし、エコーの有無によって区別がつくように設定しても良い。また、デフォルト値とセンター用設定値のいずれにもエコーを付与せず、周波数特性がそれぞれ異なるように設定してもよい。なお、エコーの有無だけでなく、エコーのレベル(反響回数や残響音の減衰速度)などによって、動作中の応答装置が区別できるようにしてもよい。なお、エコーが無い場合も含めたエコーのレベルが請求項に記載の残響レベルに相当する。
なお、ここでの周波数特性とは、高音域や中音域、低音域などに相当する周波数成分をそれぞれ強調または抑制する場合の度合いを指す。
また、スピーカ16が複数のスピーカ16からなり、それぞれが異なる位置に配置されている場合には、音像の方向(左右や上下など)の知覚を利用して、動作中の応答装置の区別がつくように、ユーザが利用可能な応答装置毎に音響特性を設定しても良い。それぞれのスピーカ16から出力する音声の位相や音圧を変化させることで、その音像が、動作中の応答装置に応じて異なる位置に存在するように調整してもよい。
また、本実施形態では、ステップS111及びステップS121を実施する際には、音響特性が徐々に変化するように、DSP151にリアルタイム処理させる構成としたがこれに限らない。例えば音響特性が徐々に変化していくガイダンス音声の音声データをメモリ173に格納しておいてもよい。そしてステップS111やステップS121を実施する際には、DSP151は音響特性を変化させずに、予めメモリ173に格納されているガイダンス音声を音声出力する。このような構成によれば、より簡単な処理で、本実施形態のステップS111及びステップS121の説明で述べたような効果を奏することができる。
以上、本発明の実施形態を説明したが、本発明は上述の実施形態に限定されるものではなく、次の変形例も本発明の技術的範囲に含まれ、さらに、下記以外にも要旨を逸脱しない範囲内で種々変更して実施することができる。
(変形例)
上述した実施形態では、複数の応答装置のうちの1つを車両に搭載されているものとしたが、これに限らない。図4に示すように複数の応答装置のいずれもが、車両外のセンター(第1センター3、第2センター4)にそれぞれ備えられていても良い。なお、前述の実施形態の説明に用いた図に示した部材と同一の機能を有する部材については、同一の符号を付し、その説明を省略する。例えば、図4の第1センター3及び第1センター側応答装置31は、上述の実施形態で述べたセンター3及びセンター側応答装置31と同様のものである。
第2センター4は、一例として自動車会社の情報センターであって、車両に搭載されているナビゲーション装置(図示略)の操作や、渋滞情報、自車両の操作に関連する質問に対応したり、ナビゲーション装置の機能を利用するための命令コマンドに対応する。第2センター4は第2センター側応答装置41を備え、第1センター3と同様に、車載器1から送信されてくる音声データをもとに、音声認識処理を実施し、ユーザの質問への応答となる応答音声データを生成して車載器1に返送する。
車載器1はDCM通信部19を備え、車載器1はこのDCM通信部19によって第2センター4と種々のデータ通信を実施する。DCM通信部19は、例えばテレマティクス通信に用いられるDCM(Data Communication Module)といった車載通信モジュールなどの様々なものを採用することができる。
また、メモリ13には、第1センター3から取得した応答音声データを音声出力する際の音響特性の設定値と、第2センター4から取得した応答音声データを音声出力する際の音響特性の設定値を保存しておく。第1センター用設定値と第2センター用設定値は、異なるものであって、その差が大きいことが好ましい。例えば第1センター用設定値と第2センター用設定値は、高音の領域を抑制するか否か、低音を抑制するか否か、及びエコーの有無などで区別がつくように設定すれば良い。
この変形例の構成においても音響特性調整指示部18Eは、動作中の応答装置に応じた音響特性で応答音声データを出力させる。すなわち、第1センター3が動作中である場合には、第1センター3から取得した応答音声データに対して、第1センター用設定値に応じた音響特性となるようにエフェクト処理してスピーカ16から音声出力させる。また、第2センター4が動作中である場合には、第2センター4から取得した応答音声データに対して、第2センター用設定値に応じた音響特性となるようにエフェクト処理してスピーカ16から音声出力させる。
したがって、この変形例においてもユーザは、それぞれのセンターによって異なる音響特性の音声を聞くことができるため、自身の発話に対して応答している応答装置がどちらなのかを認識しやすくなり、ユーザの利便性を向上させることができる。
100 音声認識システム、1 車載器、11 マイク、12 トークSW、13 メモリ、14 BT通信部、15 オーディオアンプ、151 DSP(信号処理部)、152 アンプ、16 スピーカ、17 車載応答装置(第1の応答装置)、171 音声認識部、172 音声認識DB、18 制御部、18A 入力音声データ生成部(音声取得部)、18B 動作中装置判定部、18C 応答装置切替部、18D 応答音声データ取得部、18E 音響特性調整指示部(音響特性調整部)、18F 通信処理部、2 携帯電話機、3 センター、31 センター側応答装置(第2の応答装置)

Claims (7)

  1. 車両に搭載され、ユーザの入力音声を入力音声データとして取得する入力音声取得部(18A)を備える車載器(1)と、
    前記入力音声取得部が取得した前記入力音声データに対して音声認識処理を実施し、当該音声認識処理の結果に基づいて、前記入力音声データに対する応答となる応答音声データを生成する第1の応答装置(17)と、
    前記入力音声取得部が取得した前記入力音声データに対して音声認識処理を実施し、当該音声認識処理の結果に基づいて、前記入力音声データに対する応答となる応答音声データを生成する第2の応答装置(31)と、
    前記車載器は、さらに、
    前記第1の応答装置及び前記第2の応答装置のうち、前記入力音声データに対して応答させる応答装置を切り替える応答装置切替部(18C)と、
    前記入力音声データに対して応答するように設定され、現在動作中となっている応答装置を判定する動作中装置判定部(18B)と、
    前記応答音声データを音声に変換されて、スピーカ(16)から出力される出力音声の音響特性を調整する音響特性調整部(18E、151)と、を備え、
    前記音響特性調整部は、
    前記第1の応答装置が動作中であると前記動作中装置判定部が判定している場合には前記音響特性を第1の音響特性となるように調整する一方、
    前記第2の応答装置が動作中であると前記動作中装置判定部が判定している場合には前記音響特性を前記第1の音響特性とは異なる第2の音響特性となるように調整することを特徴とする音声認識システム。
  2. 請求項1において、
    前記出力音声の前記音響特性を前記第1の音響特性とするための設定値である第1音響特性設定値と、前記出力音声の前記音響特性を前記第2の音響特性とするための設定値である第2音響特性設定値と、を記憶している音響特性設定記憶部(13)を備え、
    前記音響特性調整部は、
    前記第1の応答装置が動作中であると前記動作中装置判定部が判定している場合には、前記第1音響特性設定値に基づいて、前記第1の音響特性となるように調整する一方、
    前記第2の応答装置が動作中であると前記動作中装置判定部が判定している場合には、前記第2音響特性設定値に基づいて、前記第2の音響特性となるように調整することを特徴とする音声認識システム。
  3. 請求項1または2において、
    前記第1の音響特性と前記第2の音響特性とは、前記出力音声における周波数特性及び残響レベルの少なくとも何れか一方が異なることを特徴とする音声認識システム。
  4. 請求項1から3の何れか1項において、
    前記第1の応答装置は、前記車両に搭載され、
    前記第2の応答装置は、前記車両の外部に設けられ、前記車載器と無線通信を実施するセンター(3)に備えられてあることを特徴とする音声認識システム。
  5. 請求項4において、
    前記第1の音響特性と前記第2の音響特性とは、前記出力音声における前記周波数特性及び前記残響レベルが両方とも異なり、
    前記第2の音響特性は、前記第1の音響特性よりも高音域の周波数成分を抑制し、かつ、前記残響レベルが大きいことを特徴とする音声認識システム。
  6. 請求項5において、
    前記応答装置切替部が動作中の応答装置を切り替える場合には、切り替え前に動作中となっている応答装置に対応する前記音響特性から、切り替え後に動作中となる応答装置に対応する前記音響特性へと変化させながら、前記スピーカより音声を出力させることを特徴とする音声認識システム。
  7. 請求項1から6のいずれか1項において、
    前記音響特性調整部は、前記音響特性を変更する信号処理部(151)を備えることを特徴とする音声認識システム。
JP2013186521A 2013-09-09 2013-09-09 音声認識システム Pending JP2015052749A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013186521A JP2015052749A (ja) 2013-09-09 2013-09-09 音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013186521A JP2015052749A (ja) 2013-09-09 2013-09-09 音声認識システム

Publications (1)

Publication Number Publication Date
JP2015052749A true JP2015052749A (ja) 2015-03-19

Family

ID=52701793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013186521A Pending JP2015052749A (ja) 2013-09-09 2013-09-09 音声認識システム

Country Status (1)

Country Link
JP (1) JP2015052749A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020086203A (ja) * 2018-11-28 2020-06-04 トヨタ自動車株式会社 質問応答装置、質問応答方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020086203A (ja) * 2018-11-28 2020-06-04 トヨタ自動車株式会社 質問応答装置、質問応答方法及びプログラム
CN111243581A (zh) * 2018-11-28 2020-06-05 丰田自动车株式会社 问答装置、问答方法以及程序
JP7044040B2 (ja) 2018-11-28 2022-03-30 トヨタ自動車株式会社 質問応答装置、質問応答方法及びプログラム

Similar Documents

Publication Publication Date Title
EP1953735B1 (en) Voice control system and method for voice control
JP4212809B2 (ja) 音声認識に基づく情報信号の供給する方法および装置
WO2015102040A1 (ja) 音声処理装置、音声処理システム、音声処理方法、音声処理用のプログラム製品
US9620146B2 (en) Speech communication system for combined voice recognition, hands-free telephony and in-car communication
US9386381B2 (en) Vehicle communication with a hearing aid device
JP2004029323A (ja) 音声認識システム、端末、音声認識サーバおよびコンピュータプログラム
JP2009300537A (ja) 音声作動システム、音声作動方法および車載装置
JP5413321B2 (ja) 通信システム、車載端末、および携帯端末
US20030061049A1 (en) Synthesized speech intelligibility enhancement through environment awareness
CN110035339B (zh) 对话装置
JP2017138536A (ja) 音声処理装置
WO2014194273A2 (en) Systems and methods for enhancing targeted audibility
JP6281202B2 (ja) 応答制御システム、およびセンター
JP2014219617A (ja) 音声案内システム及び音声案内方法
US20180167725A1 (en) Apparatus and method for providing phone call in a vehicle
JP5979303B2 (ja) 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム
JP2015052749A (ja) 音声認識システム
US11735187B2 (en) Hybrid routing for hands-free voice assistant, and related systems and methods
KR20150053276A (ko) 이동통신단말기와 차량 헤드유닛이 연계된 음성 처리 방법과 그 시스템
JP3822397B2 (ja) 音声入出力方式
US11671752B2 (en) Audio zoom
JP2007194833A (ja) ハンズフリー機能を備えた携帯電話
CN117412216B (zh) 耳机及其控制方法、控制装置
US20230318727A1 (en) Vehicle and method of controlling the same
WO2022124154A1 (ja) 情報処理装置、情報処理システム、および情報処理方法