JP2006119520A - 音声認識装置及びその搭載車両 - Google Patents

音声認識装置及びその搭載車両 Download PDF

Info

Publication number
JP2006119520A
JP2006119520A JP2004309567A JP2004309567A JP2006119520A JP 2006119520 A JP2006119520 A JP 2006119520A JP 2004309567 A JP2004309567 A JP 2004309567A JP 2004309567 A JP2004309567 A JP 2004309567A JP 2006119520 A JP2006119520 A JP 2006119520A
Authority
JP
Japan
Prior art keywords
sound
speaker
output
voice
voice input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004309567A
Other languages
English (en)
Other versions
JP4097219B2 (ja
Inventor
Toshiya Kano
俊哉 鹿野
Tatsuya Kyomitsu
達哉 京光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2004309567A priority Critical patent/JP4097219B2/ja
Priority to US11/249,073 priority patent/US7684983B2/en
Publication of JP2006119520A publication Critical patent/JP2006119520A/ja
Application granted granted Critical
Publication of JP4097219B2 publication Critical patent/JP4097219B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Abstract

【課題】自然で違和感の少ない音響環境下で高精度の音声認識を可能とする。
【解決手段】指向性を有する指向性マイクロフォン50に対して音声入力状態であることを検出したときに、複数のスピーカ41〜45のうち、音声認識の妨げとなるスピーカ41、42、44の音響の出力を抑制し、出力が抑制されたスピーカ41、42、44の音響を、抑制されなかったスピーカ43、45の音響に合成し合成音響を作成して出力する。このようにすれば、音声認識時に、発話者からの音声に混入する可能性のある必要最小限のスピーカ41、42、44の出力を抑制するのみで音声認識率を向上でき、自然で違和感の少ない音響環境下で高精度の音声認識が可能になる。
【選択図】図2

Description

この発明は、マイク等の音声入力手段により入力された発話者の音声を認識する音声認識装置に関し、特に、指向性を強くしたマイクロフォンを使用する音声認識システムにおいて、カーオーディオが流れている場合の音声認識率を低下させることなく、車両搭載電子機器の音声認識による操作制御に適した音声認識装置及びその搭載車両に関する。
近時、車両には多数の電子機器が搭載されるようになり、その機能も一層高度化しつつある。このような中、車両に搭載されたナビゲーションシステム、オーディオシステム、あるいはエアコンディショナシステム等の電子機器の操作の容易化のため音声認識による遠隔操作を可能にする音声認識装置が提案されている。
ところで、例えばオーディオシステムが搭載された車両において、音声認識装置のマイクに対する発話者からの音声の入力時に、同時に、オーディオシステムのスピーカからの音響が入力され、音声認識の認識率が低下するという問題が指摘されている(特許文献1)。
この問題を解決するために、特許文献1に係る従来技術では、車両の前方及び後方にそれぞれ2つのスピーカが設けられている場合、音声認識時には、ステアリングホイールに埋め込まれたマイクロフォンに対する音響の影響が高い前方の2つのスピーカの音声出力を減衰し、後方の2つのスピーカからのみ音響が聞こえるように制御している。
特開2000−132200号公報(図2)
しかしながら、上記従来技術に係る音声認識装置においては、例えば、前方の2つの、換言すれば左右のスピーカからのみメインボーカルの音響が流され、主メロディ(主旋律)音響が後方のスピーカのみから流されている場合には、メインボーカルからの音響がミュートされて突然不自然な音響環境になるという問題がある。その逆の場合には、主メロディ音響がミュートされ同様に不自然な音響環境になるという問題がある。
また、一般的に、ステレオ用の左右のスピーカのみが取り付けられた車両において、マイクの指向性が運転席方向のみをカバーする範囲とされていた場合には、音声認識時に運転席側のスピーカのみをミュートすることが考えられるが、より不自然な音響環境になるという不具合がある。
特に、5.1チャンネルサラウンドシステムにおいては、各スピーカからそれぞれ独立の音響を出力することが可能であり、特定のスピーカをミュートした場合、きわめて不自然で違和感のある音響環境になるという問題があることを見いだした。すなわち、5.1チャンネルサラウンドシステムを併設する従来技術に係る音声認識装置では、音声認識用の音声入力時に、全てのチャンネルの音響を例えば−20[dB]減衰させる必要がある。
この発明はこのような課題を考慮してなされたものであり、複数のスピーカのうち、あるスピーカの音響出力を抑制した場合においても、自然で違和感の少ない音響環境下において高精度な音声認識を可能とする音声認識装置を提供することを目的とする。
また、この発明は、左右のスピーカの音響が異なる、例えば一方がメロディ(旋律)、他方がボーカル等の場合であって、一方のスピーカの音響出力を抑制した場合においても、自然で違和感のない音響環境下において高精度な音声認識を可能とする音声認識装置を提供することを目的とする。
さらに、この発明は、5.1チャンネルサラウンドシステムにおいて、スピーカの音響出力を抑制した場合においても、自然で違和感の少ない音響環境下において高精度な音声認識を可能とする音声認識装置を提供することを目的とする。
また、この発明は、この発明に係る音声認識装置を搭載した車両を提供することを目的とする。
この発明に係る音声認識装置は、指向性を有し、発話者からの音声を入力する音声入力手段と、前記音声入力手段に対する音声入力状態であることを検出する音声入力状態検出手段と、前記音声入力手段から入力された音声を認識し、対応する所定の命令を出力する音声認識手段と、複数チャンネルの音響を対応するスピーカに出力する音響出力手段と、前記音声入力状態検出手段により前記音声入力状態であることを検出したときに、前記スピーカのうち、前記音声認識手段による音声認識の妨げとなるスピーカの音響の出力を抑制する音響出力抑制手段と、前記音響出力抑制手段により出力が抑制されたスピーカの音響を、抑制されなかったスピーカの音響に合成し、合成音響を作成する合成音響作成手段とを備えることを特徴とする。
この発明によれば、音声入力状態検出手段により、音声入力手段に対する音声入力状態であることを検出したときに、音響出力抑制手段により、複数のスピーカのうち、音声認識手段による音声認識の妨げとなるスピーカの音響の出力を抑制し、出力が抑制されたスピーカの音響を、抑制されなかったスピーカの音響に合成音響作成手段により合成し合成音響を作成するようにしている。このようにすれば、音声認識時に必要最小限のスピーカの出力を抑制するのみで音声認識率を向上でき、かつ出力が抑制されたスピーカの音響を抑制されなかったスピーカの音響に合成して出力するようにしているので、自然で違和感の少ない音響環境下で高精度の音声認識が可能となる。
例えば、ステレオスピーカの一方がメロディ用、他方がボーカル用の場合において、一方のスピーカの音響出力(メロディ出力又はボーカル出力)を抑制した場合においても、他方のスピーカから合成音響、この場合、メロディ出力+ボーカル出力の音響が出力されることになるので、自然で違和感のない音響環境下で高精度の音声認識が可能となる。
なお、指向性を有する音声入力手段としては、指向性を有するマイクロフォン、あるいは指向性を変更可能及び指向性を複数方向に持たせることが可能なマイクロフォンアレーを採用することができる。音声入力状態検出手段としては、例えば操作したときに数秒間等の一定時間、あるいは操作している間、音声入力手段の入力が有効になる発話スイッチを採用することができる。発話スイッチは、発話者の手が届く範囲に設ける。例えば、車両のステアリングホイールに設けることができる。もちろん、音声入力状態検出手段は、運転席側及び(又は)同乗者席側、例えば助手席側に設けることができる。
音声入力状態検出手段を複数、例えば発話スイッチを運転席側と同乗者席側の両方に設けた場合、運転席側と同乗者席側にそれぞれ指向性を有するマイクロフォンを設けるか、操作された発話スイッチの側(運転席側又は同乗者席側)にマイクロフォンアレーの指向性を向けるようにし、かつその指向性の範囲に入るスピーカの音響を抑制し、抑制したスピーカの音響を抑制されなかったスピーカの音響に合成するようにすることもこの発明に含まれる。
また、この発明は、発話者からの音声を入力し、発話者を運転席方向とする遅延和出力と発話者を同乗者席方向とする遅延和出力とを出力するマイクロフォンアレーと、運転席方向の前記遅延和出力が所定以上のレベルとなったときには、運転席方向からの音声入力状態であると検出し、同乗者席方向の前記遅延和出力が所定以上のレベルとなったときには、同乗者席方向からの音声入力状態であると検出する音声入力状態検出手段と、前記音声入力手段から入力された音声を認識し、対応する所定の命令を出力する音声認識手段と、複数チャンネルの音響を対応するスピーカに出力する音響出力手段と、前記音声入力状態検出手段により前記音声入力状態であることを検出したときに、前記スピーカのうち、前記音声認識手段による音声認識の妨げとなるスピーカの音響の出力を抑制する音響出力抑制手段と、前記音響出力抑制手段により出力が抑制されたスピーカの音響を、抑制されなかったスピーカの音響に合成し、合成音響を作成する合成音響作成手段とを備えることを特徴とする。
この発明によれば、音声入力状態検出手段により、運転席方向から又は同乗者席方向からの音声入力手段に対する音声入力状態であることを検出したときに、音響出力抑制手段により、複数のスピーカのうち、音声認識手段による音声認識の妨げとなるスピーカの音響の出力を抑制し、出力が抑制されたスピーカの音響を、抑制されなかったスピーカの音響に合成音響作成手段により合成し合成音響を作成するようにしている。このようにすれば、音声認識時に必要最小限のスピーカの出力を抑制するのみで音声認識率を向上でき、かつ出力が抑制されたスピーカの音響を抑制されなかったスピーカの音響に合成して出力するようにしているので、自然で違和感の少ない音響環境下で高精度の音声認識が可能となる。
なお、この発明は、音響出力手段が、少なくとも前後左右独立チャンネルのサラウンドシステムである場合に適用して特に好適である。例えば、5.1チャンネルのサラウンドシステムでは、1つのセンタスピーカ、2つのメインスピーカ、2つのリアスピーカ、及び0.1チャンネル分の1つのスーパーウーハが、それぞれ異なる音響を出力可能なように構成されているため、いずれか1つのスピーカの音響出力を抑制してしまうと、例えば主旋律のみが抑制される等のより不自然な音楽環境になってしまうが、この発明によれば、その1つのスピーカの音響出力を抑制しても、抑制したスピーカの音響出力を他のスピーカに合成して出力するようにしているため、より効果的に自然な音響環境で、かつ高精度な音声認識が可能である。なお、少なくとも前後左右独立チャンネルのサラウンドシステムとしては、上記した5.1チャンネルの他、4チャンネルのサラウンドシステム、6.1チャンネルのサラウンドシステム、7.1チャンネルのサラウンドシステム等を挙げることができる。
また、音響出力抑制手段が、音声認識手段による認識に用いる周波数帯域のみを抑制するように構成することで、例えば音声認識を妨げる中域の帯域のみを他のスピーカで合成して出力し、音声認識の妨げとならない、例えば音声入力手段の帯域外の低域及び高域の音響は本来のスピーカから出力するようにすることが可能なため、一層自然な音響環境下で高精度な音声認識が可能である。
さらに、この発明に係る車両は、前述の音声認識装置のいずれかを備える。
この発明によれば、複数のスピーカのうち、あるスピーカの音響出力を抑制して音声認識を行う場合においても、その抑制したあるスピーカの音響出力を抑制していない他のスピーカの音響出力に合成して出力するようにしているので、自然で違和感の少ない音響環境下で高精度の音声認識が可能になるという効果が達成される。
以下、この発明の実施形態について図面を参照して説明する。
図1は、この発明の一実施形態に係る音声認識装置10の全体構成を示すブロック図である。
図2は、図1例に示す音声認識装置10が搭載された車両12の模式的な平面図である。
図2に示すように、車両12は、運転席22、助手席24、後部座席26、28を有し、5.1チャンネルサラウンドシステム用のスピーカ41〜45が、後述する所定の位置に配置されている。なお、助手席24、後部座席26、28は、それぞれ同乗者席である。
図1から分かるように、この音声認識装置10は、基本的に、発話者からの音声を入力する音声入力手段としての指向性マイクロフォン50と、指向性マイクロフォン50に対する音声入力状態であることを検出する音声入力状態検出手段56と、5.1チャンネルサラウンドシステムである音響出力装置14と、制御対象機器20と、音響出力装置14の音響制御を行う音響処理部16を有するとともに制御対象機器20を音声認識結果により制御する音声認識手段52を有する音声認識・音響制御用のECU(電子ユニット)18とから構成される。
音響処理部16は、音響上限値設定手段66と、合成音響作成手段64と、音響出力抑制手段62とを備え、スピーカ特定手段54からの情報等に基づき、これらの手段66、64、62の処理内容を制御する。
図3は、音響処理部16の基本的な構成を含む音響出力装置14の構成を示している。音響出力装置14は、基本的には、チューナ、プレーヤ、ハードディスク等の音源72と、音源72から出力された5.1チャンネルの音響信号をそれぞれ前置増幅するプリアンプ74と、音量調整ボタン76(図1参照)と、音響出力手段38としての5.1チャンネル用の各電力増幅器(Power Amplifier)31〜35と、この電力増幅器31〜35にそれぞれ接続されるスピーカ41〜45を備える。
図2から分かるように、スピーカ41は、前席である運転席22の右前方に配置されるフロント右(Fr)スピーカであり、音源72、プリアンプ74を通じて供給される前右音響信号Sfr(図3参照)に応じた音響を出力する。スピーカ42は、インストルメンタルパネル中央近傍に配置されるセンタ(C)スピーカであり、同様に、中央音響信号Scに応じた音響を出力する。スピーカ43は、助手席24の左前方に配置されるフロント左(Fl)スピーカであり、同様に、前左音響信号Sflに応じた音響を出力する。スピーカ44は、右後部座席28の右後方に配置されるリア右(Rr)スピーカであり、同様に、後右音響信号Srrに応じた音響を出力する。スピーカ45は、左後部座席26の左後方に配置されるリア左(Rl)スピーカであり、同様に、後左音響信号Srlに応じた音響を出力する。スピーカ41〜45から出力される各音響は、車室側に向かうようになっている。
なお、5.1チャンネルサラウンドシステムは、5つのスピーカ41〜45以外に、重低音を受け持つスピーカであるスーパーウーハをセンタスピーカ41の隣り等に備える。しかし、このスーパーウーハがカバーする周波数領域は120[Hz]以下の周波数であり、この音響は、発話者からの音声を入力するための指向性を有する音声入力手段である指向性マイクロフォン50の帯域(音声帯域:150[Hz]〜6000[Hz])外の周波数である。すなわち、音声認識対象外の周波数であることから、音響抑制対象外のスピーカとなるので図面中には描いていない。実際上、プリアンプ74からスーパーウーハ音響信号が出力され、電力増幅器を介してスーパーウーハに接続され、重低音が出力される。
音響処理部16は、スピーカ特定手段54からの情報及び音量調整ボタン76からの情報に基づき、音響上限値設定手段66と、合成音響作成手段64と、音響出力抑制手段62の処理内容を制御し、プリアンプ74から出力される音響信号Sfr、Sc、Sfl、Srr、Srlに対する上限値設定処理、合成処理、及び音響出力抑制処理を行う。
指向性マイクロフォン50は、図2に示すように、インストルメンタルパネルに設けられ、その指向性の範囲は、点線で囲んだ領域(指向性範囲51という。)とされ、この実施形態において、発話者は、運転席22の運転者に特定される。また、この指向性マイクロフォン50の指向性範囲51には、音声認識の認識率を低下させる可能性のある音響を出力するセンタスピーカ42、フロント右スピーカ41及びリア右スピーカ44が含まれる。換言すれば、発話者の音声認識用に設けられている指向性マイクロフォン50は、センタスピーカ42とフロント右スピーカ41とリア右スピーカ44から出力される音響を拾ってしまう構成となっている。
ECU18は、周知のように入力インタフェース、CPU、メモリ及び出力インタフェースを有し、メモリに記憶されたプログラムを実行することで、音声認識・音響制御処理等の各種処理を行い、制御対象機器20を制御する。制御対象機器20としては、ナビゲーションシステム、エアコンディションシステム、オーディオシステム自体を挙げることができる。ECU18は、インストルメンタルパネル近傍に配置される。
この実施形態において、ECU18は、指向性マイクロフォン50から入力された音声を認識し、認識した音声に対応する所定の命令を制御対象機器20に出力する音声認識手段52と、スピーカ特定手段54と、音響処理部16として機能する。
音声認識手段52は、周知のように、指向性マイクロフォン50から入力した音声信号を符号化した後、周波数分析して音声パターンを認識し、この音声パターンを音声辞書と比較して音声の内容を特定し、特定結果に対応する所定の命令を制御対象機器20に出力する機能を有する。
スピーカ特定手段54は、図2に示すように、ステアリングホイールにのみ発話スイッチ等の音声入力状態検出手段56が設けられている場合には、発話者を運転席22の運転者に限定するので、音声入力状態検出手段56の操作(押しボタンを押す操作等)がなされた場合には、その操作がなされている間、あるいは操作されてから数秒間等の一定時間、複数のスピーカ41〜45のうち、指向性マイクロフォン50の指向性範囲51に入るセンタスピーカ42とフロント右スピーカ41とリア右スピーカ44とを音声認識の妨げとなるスピーカであって音響を抑制するスピーカとして特定し、特定したスピーカ特定情報を音響処理部16に供給する。
なお、音声入力状態検出手段56の数と、指向性マイクロフォン50の数や仕様に応じて、音響を抑制するスピーカの特定の仕方は、種々考えられる。
たとえば、図4に示すように、運転席22の前方に指向性マイクロフォン50aと音声入力状態検出手段56aとが配置され、同乗者席である助手席の前方に指向性マイクロフォン50bと音声入力状態検出手段56bが配置された構成の場合に、運転席22側の音声入力状態検出手段56aが操作されたとき、指向性マイクロフォン50aの指向性範囲51Rに入るスピーカ41、42、44が音響を抑制するスピーカと特定される。なお、このとき、指向性マイクロフォン50bの出力は、切断状態とされ、指向性マイクロフォン50aの出力のみが音声認識手段52に供給されるように接続される。
また、たとえば、図5に示すように、指向性マイクロフォン50が指向性マイクロフォンアレー50Aであって、音声入力状態検出手段56a、56bが運転席22と助手席24の前方に設けられていることを考える。この場合には、図6Aに示すように、指向性マイクロフォンアレー50Aを構成する4本のマイクロフォン50A1〜50A4の列に対して相対角θ1の助手席24の同乗者の音声は、それぞれ、マイクロフォン50A1に対して遅延時間D1、+2D1、+3D1遅れて入力する。また、指向性マイクロフォンアレー50Aを構成する4本のマイクロフォン50A4〜50A1の列に対して相対角θ2の運転席22の運転者の音声は、マイクロフォン50A4に対してそれぞれ、遅延時間D2、+2D2、+3D2遅れて入力する。
したがって、図6Cに示すように、遅延時間D1、+2D1、+3D1、D2、+2D2、+3D2を有する遅延器91〜96をマイクロフォン50A1〜50A4に挿入し、出力を合成することで、助手席側音声出力(発話者を助手席方向とする遅延和出力)と運転席側音声出力(発話者を運転席方向とする遅延和出力)が得ることができる。
図5、図6の構成において、運転席22側の音声入力状態検出手段56aが操作されたときには、スイッチ90の共通端子90aを固定接点90c側に接続するようにすることで、音声認識手段52には、運転席側音声出力を供給することができる。このとき、スピーカ特定手段54により指向性マイクロフォンアレー50Aの運転席方向の指向性範囲51Rに入るスピーカ41、42、44が音響を抑制するスピーカと特定される。
これに対して、助手席24側の音声入力状態検出手段56bが操作されたときには、スイッチ90の共通端子90aを固定接点90b側に接続するようにすることで、音声認識手段52には、助手席側音声出力を供給することができる。このとき、スピーカ特定手段54により指向性マイクロフォンアレー50Aの助手席方向の指向性範囲51Lに入るスピーカ42、43、45が音響を抑制するスピーカと特定される。
なお、図5例において、発話スイッチ等の音声入力状態検出手段56aと56bを設けない構成とすることもできる。この場合には、図7に示すように、助手席側音声出力(発話者を助手席方向とする遅延和出力)のレベルを検出するレベル検出器97と運転席側音声出力(発話者を運転席方向とする遅延和出力)のレベルを検出するレベル検出器98を設けることで、遅延和出力を音声入力状態検出手段56Bとして機能させることができる。この場合、音声入力状態検出手段56Bは、レベル検出器98により検出される運転席側音声出力(運転席方向の遅延和出力)が所定以上のレベルになったときには、運転席方向からの音声入力状態であると検出し、レベル検出器97により検出される助手席側音声出力(同乗者席方向の遅延和出力)が所定以上のレベルとなったときには、同乗者席方向からの音声入力状態であると検出し、スピーカ特定手段54に検出情報を出力する。
このように、音声入力状態検出手段56と指向性マイクロフォン50は、種々の形態を考慮することができる。
以下、この発明の理解の容易化のために、図1及び図2に示したように、指向性マイクロフォン50の指向性範囲51が一方向である運転席22近傍側に固定されているものとして説明する。
この場合、上述した音響処理部16は、スピーカ特定手段54の出力信号に応じて、スピーカ41〜45のうち、音声認識手段52による音声認識の妨げとなるスピーカ41、42、44の音響の出力を抑制する音響出力抑制手段62と、音響出力抑制手段62により出力が抑制されたスピーカ41、42、44の音響を抑制されなかったスピーカ43、45の音響に合成して合成音響を作成する合成音響作成手段64と、音量調整ボタン76による音量の設定が、音圧70[dB]以上となっていた場合には、上限値を70[dB]とする音響上限値設定手段66とを備える。
この実施形態に係る音声認識装置10及びこの音声認識装置10を搭載した車両12は、基本的には以上のように構成されかつ動作するものであり、次に、その詳細な動作について、図8のメインフローチャート、図9に示すフローチャートに基づいて詳しく説明する。なお、特に断らない限り、制御主体はECU18であるが、これをその都度参照するのは繁雑になるので、必要に応じて参照する。
まず、図8のメインフローチャートのステップS1において、指向性マイクロフォン50に対する音声認識のための音声入力があるかどうかが判断される。この判断は、音声入力状態検出手段56が操作されているとき、あるいは操作されたときから数秒等の一定時間の間が、指向性マイクロフォン50に対する音声入力状態であると検出される。実際上、音声入力状態であるかどうかは、スピーカ特定手段54から出力されるスピーカ特定情報により音響処理部16が判断する。
音声入力状態でない場合には、ステップS5において、音響処理部16による通常音響出力処理が行われる。
図10は、通常音響出力処理状態での音響出力装置14の接続状態を示している。この場合、音声認識用の音声入力がない状態であるので、音響信号Sfr、Sc、Sfl、Srr、Srlは、それぞれ、プリアンプ74から、直接、対応する電力増幅器31〜35を通じてスピーカ41〜45に供給され、スピーカ41〜45から5.1チャンネルのサラウンド音響が出力される。すなわち、音響信号Sfr、Sc、Sfl、Srr、Srlが、音響上限値設定手段66、合成音響作成手段64及び音響出力抑制手段62による何らの制限を受けることなく直接、いわゆるスルーでスピーカ41〜45まで供給される。
その一方、ステップS1において、音声入力状態検出手段56が操作されて、指向性マイクロフォン50に対する音声認識のための音声入力状態であると検出され、音響処理部16により音声入力状態であると判断された場合、ステップS2において、図9のフローチャートに従うミュート処理を行う。
この実施形態において、ミュート処理は、図11のブロック図に示すように行われる。
ミュート処理が開始されると、ステップS2aにおいて、音量調整ボタン76による音量設定値が所定値、ここでは70[dB]以上になっているかどうかが判断され、所定値以上になっていた場合には、ステップS2bにおいて、図11に示すように、音響上限値設定手段66に音量制限器(音量制限手段)である最大値を70[dB]とするリミッタ80が挿入される。このようにして、スピーカ41〜45から出力される音響の出力レベルが最大で70[dB]に制限される。
ステップS2aにおいて、音量設定値が所定以下である場合には、リミッタ80は挿入されない。
次いで、ステップS2cにおいて、スピーカ特定処理が行われる。この場合、スピーカ41〜45のうち、図2に示す指向性範囲51にあるセンタスピーカ42、フロント右スピーカ41及びリア右スピーカ44が音声認識手段52による音声認識の妨げとなるスピーカであると特定される。そして、ステップS2dにおいて、これらのスピーカ41、42、44の音響出力を抑制するため、それぞれ−15[dB]減衰させる減衰器78が音響出力抑制手段62に挿入される(図11参照)。
さらに、ステップS2eにおいて、合成音響作成手段64が、図11に示すように、加算器82、84を備えるように結線される。このとき、音響出力抑制手段62により出力が抑制されたフロント右スピーカ41及びセンタスピーカ42の音響信号Sfr、Scが、抑制されなかったフロント左スピーカ43の音響信号Sflに加算器82により合成(加算)され、電力増幅器33を通じてフロント右音響とセンター音響とフロント左音響の合成音響(Sfr+Sc+Sfl)がフロント左スピーカ43から出力される。
また、同時に、音響出力抑制手段62により出力が抑制されたセンタスピーカ42及びリア右スピーカ44の音響信号Sc、Srrが、抑制されなかったリア左スピーカ45の音響信号Srlに加算器84により合成(加算)され、電力増幅器35を通じてセンター音響とリア右音響とリア左音響の合成音響(Sc+Srr+Srl)がリア左スピーカ45から出力される。
このように、この実施形態では、抑制されたセンタスピーカ42の音響をフロント左スピーカ43と、リア左スピーカ45から出力するようにしているので、音声認識時において、きわめて自然で違和感の少ない音響環境とすることができる。
次に、メインフローチャートにもどり、ステップS3において、音声入力状態が終了したかどうかが判定される。この判定は、上述した音声入力状態検出手段56の操作が継続中であるか、あるいは操作してから一定時間経過したかどうかによりなされ、判定が成立しない場合には、ミュート処理が継続され、音声認識手段52に音声認識処理が行われる。
この場合、音声認識手段52による音声認識処理結果により所定の命令が制御対象機器20に出力されることで、制御対象機器20が制御される。このように制御することで、自然で違和感の少ない音響環境下で高精度の音声認識が可能となる。
そして、ステップS3において、音声入力状態が終了したと判断されたとき、ステップS4において、ミュート処理が終了とされる。すなわち、音響処理部16は、図10に示した状態とされ、全てのスピーカ41〜45から5.1チャンネルのサラウンド音響が出力される状態となる。この後、ステップS1以降の処理が繰り返される。
以上説明したように、上述した実施形態によれば、発話者からの音声を入力するための指向性を有する音声入力手段としての指向性マイクロフォン50に対する音声入力状態であることを、音声入力状態検出手段56により検出したときに、音響出力抑制手段62により、複数のスピーカ41〜45のうち、音声認識手段52による音声認識の妨げとなるスピーカ41、42、44の音響の出力(換言すれば、指向性マイクロフォン50に対する発話者の音声に混入するスピーカ41、42、44の音響の出力)を抑制し、出力が抑制されたスピーカ41、42、44の音響を、抑制されなかったスピーカ43、44(換言すれば指向性マイクロフォン50の指向性範囲に音響を出力しないスピーカ43、44)の音響に合成音響作成手段64により合成し合成音響を作成するようにしている。
このように、音声認識時に発話者の音声に混入する可能性のある必要最小限のスピーカの出力を抑制するのみで音声認識率を向上でき、かつ出力が抑制されたスピーカ41、42、44の音響を抑制されなかったスピーカ43、44の音響に合成して出力するようにしているので、左右のスピーカーの出力内容が異なる、ステレオ出力等の場合においても、自然で違和感の少ない音響環境下で高精度の音声認識が可能となる。
なお、この発明は、上述した実施形態に限らず、例えば、音声認識の妨げとなるスピーカ41、42、44の音響出力の全帯域を−15[dB]に抑制するのではなく、図12の高域通過特性92に示すように、音声帯域の下限の150[Hz]近傍では、−40[dB]程度に制限し、音声帯域の上限の6000[Hz]近傍では、−10[dB]程度に制限して、周波数が高域になるにしたがい、減衰量を少なくする。
図13に示すように、このような高域通過特性92を備える高域通過フィルタ94により音響出力抑制手段62aを構成し、スピーカ41、42、44から高域音響をなるべくミュートしないで出力するように構成することで、高精度の音声認識が可能な状態を保持しながら、より自然な音響環境を形成する等、この明細書の記載内容に基づき、種々の構成を採り得ることはもちろんである。
また、上述した実施形態では前後左右独立チャンネルのサラウンドシステムの一例として5.1チャンネルのサラウンドシステムを例として説明したが、この発明は、これに限定されるものではなく、例えば、4チャンネルのサラウンドシステム、あるいは図14に示すように、5.1チャンネルのサラウンドシステムに対してさらにリアセンタスピーカ46をトノカバー上に設けた6.1チャンネルのサラウンドシステム(図14中、スピーカ49は、スーパーウーハ)の他、図示はしないが、リアセンタスピーカ46に代替して左右スピーカを上記トノカバー上に設けた7.1チャンネルのサラウンドシステム等に適用することができる。
この発明の一実施形態に係る音声認識装置の全体構成を示すブロック図である。 図1例に示す音声認識装置が搭載された車両の模式的な平面図である。 音響処理部の基本的な構成を含む音響出力装置の構成を示すブロック図である。 運転席と助手席のそれぞれ前方に指向性マイクロフォンと音声入力状態検出手段とを配置した車両の模式的な平面図である。 指向性マイクロフォンが指向性マイクロフォンアレーである場合の指向性範囲の説明図である。 図6Aは、助手席側音声と遅延の関係を示す説明図、図6Bは、運転席側音声と遅延の関係を示す説明図、図6Cは、助手席側音声出力(発話者を助手席方向とする遅延和出力)と運転席側音声出力(発話者を運転席方向とする遅延和出力)の切替説明図である。 音声入力状態検出手段を兼ねる助手席側音声出力(発話者を助手席方向とする遅延和出力)と運転席側音声出力(発話者を運転席方向とする遅延和出力)の結線の説明図である。 一実施形態の動作を説明するメインフローチャートである。 メインフローチャート中、ミュート処理の詳細フローチャートである。 通常音響出力処理状態での音声出力装置の接続状態を示すブロック図である。 ミュート処理時の説明に供される音響出力装置のブロック図である。 ミュート処理の他の例に供される周波数特性説明図である。 図12例の周波数特性を有するフィルタを音響出力抑制手段に挿入した音響出力装置のブロック図である。 6.1チャンネルのサラウンドシステムのスピーカ配置図である。
符号の説明
10…音声認識装置 12…車両
14…音響出力装置 16…音響処理部
38…音響出力手段 41〜46…スピーカ
50、50a、50b…指向性マイクロフォン(音声入力手段)
52…音声認識手段 62…音響出力抑制手段
64…合成音響作成手段

Claims (5)

  1. 指向性を有し、発話者からの音声を入力する音声入力手段と、
    前記音声入力手段に対する音声入力状態であることを検出する音声入力状態検出手段と、
    前記音声入力手段から入力された音声を認識し、対応する所定の命令を出力する音声認識手段と、
    複数チャンネルの音響を対応するスピーカに出力する音響出力手段と、
    前記音声入力状態検出手段により前記音声入力状態であることを検出したときに、前記スピーカのうち、前記音声認識手段による音声認識の妨げとなるスピーカの音響の出力を抑制する音響出力抑制手段と、
    前記音響出力抑制手段により出力が抑制されたスピーカの音響を、抑制されなかったスピーカの音響に合成し、合成音響を作成する合成音響作成手段と
    を備えることを特徴とする音声認識装置。
  2. 発話者からの音声を入力し、発話者を運転席方向とする遅延和出力と発話者を同乗者席方向とする遅延和出力とを出力するマイクロフォンアレーと、
    運転席方向の前記遅延和出力が所定以上のレベルとなったときには、運転席方向からの音声入力状態であると検出し、同乗者席方向の前記遅延和出力が所定以上のレベルとなったときには、同乗者席方向からの音声入力状態であると検出する音声入力状態検出手段と、
    前記音声入力手段から入力された音声を認識し、対応する所定の命令を出力する音声認識手段と、
    複数チャンネルの音響を対応するスピーカに出力する音響出力手段と、
    前記音声入力状態検出手段により前記音声入力状態であることを検出したときに、前記スピーカのうち、前記音声認識手段による音声認識の妨げとなるスピーカの音響の出力を抑制する音響出力抑制手段と、
    前記音響出力抑制手段により出力が抑制されたスピーカの音響を、抑制されなかったスピーカの音響に合成し、合成音響を作成する合成音響作成手段と
    を備えることを特徴とする音声認識装置。
  3. 請求項1又は2記載の音声認識装置において、
    前記音響出力手段が、少なくとも前後左右独立チャンネルのサラウンドシステムである
    ことを特徴とする音声認識装置。
  4. 請求項1〜3のいずれか1項に記載の音声認識装置において、
    前記音響出力抑制手段は、前記音声認識手段による認識に用いる周波数帯域のみの音響の出力を抑制する
    ことを特徴とする音声認識装置。
  5. 請求項1〜4のいずれかに記載の音声認識装置
    を搭載したことを特徴とする車両。
JP2004309567A 2004-10-25 2004-10-25 音声認識装置及びその搭載車両 Expired - Fee Related JP4097219B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004309567A JP4097219B2 (ja) 2004-10-25 2004-10-25 音声認識装置及びその搭載車両
US11/249,073 US7684983B2 (en) 2004-10-25 2005-10-11 Speech recognition apparatus and vehicle incorporating speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004309567A JP4097219B2 (ja) 2004-10-25 2004-10-25 音声認識装置及びその搭載車両

Publications (2)

Publication Number Publication Date
JP2006119520A true JP2006119520A (ja) 2006-05-11
JP4097219B2 JP4097219B2 (ja) 2008-06-11

Family

ID=36317446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004309567A Expired - Fee Related JP4097219B2 (ja) 2004-10-25 2004-10-25 音声認識装置及びその搭載車両

Country Status (2)

Country Link
US (1) US7684983B2 (ja)
JP (1) JP4097219B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8224398B2 (en) 2006-10-02 2012-07-17 Panasonic Corporation Hands-free telephone conversation apparatus
JP2012181374A (ja) * 2011-03-01 2012-09-20 Toshiba Corp テレビジョン装置及び遠隔操作装置
JP2016126022A (ja) * 2014-12-26 2016-07-11 アイシン精機株式会社 音声処理装置
JP2017171193A (ja) * 2016-03-25 2017-09-28 マツダ株式会社 車両検査方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055178A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method of controlling personalized settings in a vehicle
DE602007004620D1 (de) * 2007-10-01 2010-03-18 Harman Becker Automotive Sys Sprachgesteuerte Einstellung von Fahrzeugteilen
JP5187128B2 (ja) * 2008-10-16 2013-04-24 富士通株式会社 検索装置、検索方法、及び、プログラム
DE102009059792A1 (de) * 2009-12-21 2011-06-22 Continental Automotive GmbH, 30165 Verfahren und Vorrichtung zur Bedienung technischer Einrichtungen, insbesondere eines Kraftfahrzeugs
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
DE102012003772B4 (de) * 2012-02-24 2014-01-23 Audi Ag Lautsprechersystem für ein Kraftfahrzeug
KR101946364B1 (ko) * 2012-05-01 2019-02-11 엘지전자 주식회사 적어도 하나의 마이크 센서를 갖는 모바일 디바이스 및 그 제어방법
EP3185244B1 (en) * 2015-12-22 2019-02-20 Nxp B.V. Voice activation system
FR3067156A1 (fr) * 2017-11-10 2018-12-07 Sagemcom Broadband Sas Procede de gestion d'un systeme comprenant un dispositif de diffusion audio et un dispositif de reconnaissance vocale
CN110446136B (zh) * 2019-07-11 2020-07-14 华研慧声(苏州)电子科技有限公司 一种车内声场分区重建系统采用的控制方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4045748A (en) * 1975-12-19 1977-08-30 The Magnavox Company Audio control system
DE69101527T2 (de) * 1990-08-16 1994-07-14 Fujitsu Ten Ltd Spracherkennungseinrichtung für ein Fahrzeug mit einer Mikrophonanordnung zur Lokalisierung des Sitzes, von welchem ein Befehl kommt.
FI97182C (fi) * 1994-12-05 1996-10-25 Nokia Telecommunications Oy Menetelmä vastaanotettujen huonojen puhekehysten korvaamiseksi digitaalisessa vastaanottimessa sekä digitaalisen tietoliikennejärjestelmän vastaanotin
US5862240A (en) * 1995-02-10 1999-01-19 Sony Corporation Microphone device
JP2000132200A (ja) 1998-10-27 2000-05-12 Matsushita Electric Ind Co Ltd 音声認識機能付きオーディオ/ビデオ装置および音声認識方法
US7483539B2 (en) * 2002-11-08 2009-01-27 Bose Corporation Automobile audio system
US7243065B2 (en) * 2003-04-08 2007-07-10 Freescale Semiconductor, Inc Low-complexity comfort noise generator
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
US6889189B2 (en) * 2003-09-26 2005-05-03 Matsushita Electric Industrial Co., Ltd. Speech recognizer performance in car and home applications utilizing novel multiple microphone configurations

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8224398B2 (en) 2006-10-02 2012-07-17 Panasonic Corporation Hands-free telephone conversation apparatus
US9264527B2 (en) 2006-10-02 2016-02-16 Panasonic Intellectual Property Management Co., Ltd. Hands-free telephone conversation apparatus
JP2012181374A (ja) * 2011-03-01 2012-09-20 Toshiba Corp テレビジョン装置及び遠隔操作装置
US9154848B2 (en) 2011-03-01 2015-10-06 Kabushiki Kaisha Toshiba Television apparatus and a remote operation apparatus
JP2016126022A (ja) * 2014-12-26 2016-07-11 アイシン精機株式会社 音声処理装置
JP2017171193A (ja) * 2016-03-25 2017-09-28 マツダ株式会社 車両検査方法

Also Published As

Publication number Publication date
JP4097219B2 (ja) 2008-06-11
US7684983B2 (en) 2010-03-23
US20060100870A1 (en) 2006-05-11

Similar Documents

Publication Publication Date Title
US7684983B2 (en) Speech recognition apparatus and vehicle incorporating speech recognition apparatus
CN110476208B (zh) 用于扰动信号补偿的音频系统和方法
US7369666B2 (en) Audio reproducing system
CN104136299B (zh) 用于在车内对声音进行导向的系统、方法以及装置
US10070242B2 (en) Devices and methods for conveying audio information in vehicles
JP4946148B2 (ja) 音声信号処理装置、音声信号処理方法及び音声信号処理プログラム
US10629195B2 (en) Isolation and enhancement of short duration speech prompts in an automotive system
US20090262963A1 (en) Audio reproduction apparatus
EP1475781B1 (en) Voice recognition system and method
CN108353229A (zh) 车辆中的音频信号处理
WO2009144781A1 (ja) 音声再生装置
JP2002051392A (ja) 車内会話補助装置
JP4887290B2 (ja) 音像定位制御装置
US7113602B2 (en) Apparatus for adjustable positioning of virtual sound source
CN110789478B (zh) 车载音响参数辅助调节方法、装置以及音频处理器
CN108737930A (zh) 车辆导航系统中的可听提示
EP3731538B1 (en) Vehicular audio system
US20110301954A1 (en) Method for adjusting a voice recognition system comprising a speaker and a microphone, and voice recognition system
CN116074728A (zh) 用于音频处理的方法
JP3822397B2 (ja) 音声入出力方式
JP2002171587A (ja) 車載音響装置の音量調節装置およびそれを用いた音声認識装置
JP2011228956A (ja) 車載用音場制御装置
JP2003114697A (ja) 音声認識方法及び音声認識装置
US20050041820A1 (en) Method of mounting and driving speakers
JP2020150522A (ja) 3次元音響システム及び移動体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080218

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080307

R150 Certificate of patent or registration of utility model

Ref document number: 4097219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110321

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110321

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120321

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120321

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130321

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130321

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140321

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees