JP4209247B2

JP4209247B2 - 音声認識装置および方法

Info

Publication number: JP4209247B2
Application number: JP2003127378A
Authority: JP
Inventors: 修一松本; 徹丸本
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2003-05-02
Filing date: 2003-05-02
Publication date: 2009-01-14
Anticipated expiration: 2023-05-02
Also published as: DE602004014675D1; US20040260549A1; EP1475781A3; EP1475781B1; CN1258753C; EP1475781A2; US7552050B2; JP2004333704A; CN1542734A

Description

【０００１】
【発明の属する技術分野】
本発明は、ユーザが発声した音声コマンドを認識して機器の制御を行うための音声認識装置および方法に関し、特に、認識した発話音声をユーザにフィードバックするトークバック機能を有する音声認識装置に用いて好適なものである。
【０００２】
【従来の技術】
従来、例えば車両に搭載されるナビゲーション装置やハンズフリー装置、あるいはパーソナルコンピュータ（パソコン）等の分野において、リモコンやタッチパネルあるいはキーボードやマウスに加え、音声認識装置を用いることにより、ユーザの音声入力により機器の操作をすることが可能である。
【０００３】
この種の音声認識装置では、備え付けの発話ボタンを押すことで音声認識モードとなり、ユーザの発話音声を認識してコマンドを実行する。発話方法には主に２つの方法がある。第１の方法は、ユーザが発話ボタンを一度押すと音声認識モードになり、必要に応じて機器からユーザに音声入力を促すことで、ユーザと機器とが対話的にやり取りを行う方法である。第２の方法は、ユーザが発話ボタンを押すたびに所定時間だけ音声入力が可能となる方法である。
【０００４】
音声認識装置の殆どは、認識した発話音声をスピーカ等からユーザにフィードバックするトークバック機能を有している。ユーザは、トークバックされた音声を聞いて正しいかどうか確認し、間違っていれば音声入力をやり直し、正しければその旨を音声認識装置に指示する。音声認識装置はこの指示を受けることによって各種制御を実行するようになっている。
【０００５】
通常、音声認識装置に用意されている複数の音声コマンドは、制御対象の機器に対する操作内容に応じて複数の階層に分けて管理されている。例えば、ナビゲーション装置において住所で目的地を設定する場合は、「都道府県→市区町村→住所の残り」のように、住所を複数階層に分けて音声入力する。
【０００６】
この場合、各階層で音声入力をするたびにトークバックが行われるため、一連の音声入力が完了するまでには長い時間がかかることが多い。これに対して、音声の認識時間を短縮する試みが成されている。その一例として、トークバックの演算量を削減して認識時間の短縮を図った装置が提案されている（例えば、特許文献１参照）。
【０００７】
【特許文献１】
特開平６−１４９２８７号公報
【０００８】
【発明が解決しようとする課題】
しかしながら、従来の音声認識装置では、トークバックの最中は次の音声入力を受け付けない状態となる。トークバックの音声が発話音声に混ざると、発話音声の誤認識が発生しやすくなるからである。図４（ａ）は、従来の音声認識装置に関する音声入力受付状態の変化の様子を示したタイミングチャートである。なお、この図４（ａ）は、上述した第１の発話方法に関する音声入力受付状態の変化を示している。
【０００９】
図４（ａ）に示すように、第１の発話方法では、ユーザが最初に発話ボタンを押すと音声認識モードになり、所定時間だけ音声入力受付状態となる。ユーザは、音声入力受付状態となっている間に所望の音声コマンドを発声する。発声が行われると、音声認識装置はその入力音声の認識処理およびトークバック処理を行うが、この間は音声入力を受け付けない状態となる。トークバックが終わると、再び音声入力受付状態となり、次の音声入力が可能となる。
【００１０】
このように、第１の発話方法では、トークバックが終了するまでは次の音声入力を受け付けないため、ユーザの好きなタイミングで発声することができない。すなわち、トークバックを聞き終わるまでは待っていなければならないので、一連の音声入力をするのに長い時間がかかってしまうという問題があった。
【００１１】
一方、第２の発話方法によれば、発話ボタンを押すことによってトークバックを中断し、次の音声入力を行うことも可能である。しかしながら、この場合は、複数階層に亘って音声入力を行う際に、各階層で音声入力を行う都度、発話ボタンを押さなければならず、操作が非常に煩雑になるという問題があった。
【００１２】
本発明は、このような問題を解決するために成されたものであり、発話ボタンを何回も押すなどの煩雑な操作を行うことなく、音声認識の操作時間を短縮できるようにすることを目的とする。
【００１３】
【課題を解決するための手段】
上記した課題を解決するために、本発明の音声認識装置では、スピーカから出力されてマイクに入力されるトークバック音声を適応フィルタ手段により模擬して、そのトークバック模擬音声をマイク入力音声から減算することにより、発話音声とトークバック音声とが混在しているマイク入力音声から発話音声だけを抽出するようにしている。
【００１４】
上記のように構成した本発明によれば、トークバックが行われている最中に音声入力をしても、トークバック音声は除去され、発話音声だけが抽出されて音声認識エンジンに供給されることとなる。これにより、トークバック中に音声入力をしても発話音声の誤認識が生じる不都合を抑制でき、トークバック時においても音声入力を随時受け付けることが可能となる。
【００１５】
【発明の実施の形態】
（第１の実施形態）
以下、本発明の第１の実施形態を図面に基づいて説明する。図１は、第１の実施形態による音声認識装置の要部構成を示すブロック図である。
【００１６】
図１に示すように、本実施形態の音声認識装置１００は、ボリューム又はイコライザ（以下、単にボリューム等と記す）１、ゲイン制御部２、出力アンプ３、適応フィルタ（ＡＤＦ）４、減算器５、音声出力部５１、スピーカ５２、マイク５３および音声認識エンジン５４を備えて構成されている。
【００１７】
音声出力部５１は、トークバック音声を生成して出力する処理を行う。スピーカ５２は、ボリューム等１でゲイン制御され更に出力アンプ３で増幅されたトークバック音声を出力する。マイク５３は、発話音声入力用のものであるが、実際には、発声された音声コマンドだけでなく、スピーカ５２から出力されるトークバック音声、走行ノイズなどの周辺ノイズも全て同じマイク５３に入力される。音声認識エンジン５４は、マイク入力された発話音声を認識して、その発話音声に対応するコマンドを図示しない制御対象の機器（例えば、ナビゲーション装置）に対して実行する。
【００１８】
適応フィルタ４は、図２に示すように、係数同定部２１および音声補正フィルタ２２を含んで構成されている。係数同定部２１は、スピーカ５２からマイク５３の間における音響系の伝達関数（音声補正フィルタ２２のフィルタ係数）を同定するためのフィルタであり、ＬＭＳ（Least Mean Square ）アルゴリズムやＮ−ＬＭＳ（Normalized-LMS）アルゴリズムによる適応フィルタが用いられている。この係数同定部２１は、減算器５から出力される誤差ｅ（ｎ）のパワーが最小となるように動作して音響系のインパルス応答を同定する。
【００１９】
音声補正フィルタ２２は、係数同定部２１により決定されたフィルタ係数ｗ（ｎ）と、制御対象となるトークバック音声ｘ（ｎ）とを用いて畳み込み演算することにより、トークバック音声ｘ（ｎ）に対して上述の音響系と同一の伝達特性を与える。これにより、マイク５３の位置におけるトークバック音声を模擬したトークバック模擬音声ｙ（ｎ）を生成する。このように適応フィルタ４は、本発明の適応フィルタ手段を構成する。
【００２０】
減算器５は、マイク５３より入力された音声（音声コマンドとトークバックと周辺ノイズとが混在した音声）から、適応フィルタ４により生成されたトークバック模擬音声ｙ（ｎ）を減算することにより、音声コマンド（発話音声）と周辺ノイズ（例えば走行ノイズ）とを抽出する。このように減算器５は、本発明の発話音声抽出手段を構成する。
【００２１】
この減算器５により抽出された発話音声と周辺ノイズとの混在音声は、音声認識エンジン５４に供給される。音声認識エンジン５４は、雑音処理を行った後、音声コマンドの認識処理を行う。この際の雑音処理とは、フィルタによる処理やスペクトラムサブストラクションなど、従来の代表される処理である。なお、減算器５により抽出された発話音声および周辺ノイズの混在音声は、誤差ｅ（ｎ）として適応フィルタ４の係数同定部２１およびゲイン制御部２にもフィードバックされる。
【００２２】
ゲイン制御部２は、適応フィルタ４から出力されるトークバック模擬音声ｙ（ｎ）と、減算器５から出力される発話音声および周辺ノイズの混在音声ｅ（ｎ）とに基づいて、音声出力部５１から出力される制御対象のトークバック音声に対して加える最適のゲインを算出し、この算出されたゲイン値をボリューム等１に出力する。ここでは、発話音声および周辺ノイズの混在音声ｅ（ｎ）をトークバック音声に対するノイズとみなして、スピーカ５２から出力されるトークバック音声がユーザに明瞭に聞こえるように、当該トークバック音声のゲイン調整を行う。
【００２３】
ボリューム等１は、音声出力部５１より出力されたトークバック音声に対してゲイン補正を行う。すなわち、音声出力部５１から入力されるトークバック音声に対して、ゲイン制御部２により算出されたゲインを与えることにより、当該トークバック音声を補正する。この補正は、例えば、複数に分割された周波数帯域のそれぞれ毎に行う。
【００２４】
次に、上記のように構成した音声認識装置１００の動作を簡単に説明する。音声出力部５１より出力されたトークバック音声は、ボリューム等１およびゲイン制御部２によってゲイン調整が行われ、当該トークバック音声の明瞭度が改善される。ボリューム等１から出力されたトークバック音声は、出力アンプ３において所定の倍率で増幅された後、スピーカ５２から出力される。
【００２５】
スピーカ５２から出力されたトークバック音声は、マイク５３より入力される。このときユーザが音声コマンドを発声していると、その発話音声もマイク５３より入力される。また、走行中であれば、エンジン音やロードノイズなどの周辺ノイズもマイク５３より入力される。したがって、マイク５３には、トークバック音声と発話音声と周辺ノイズとが混在した状態で入力される。この混在音声は、減算器５のプラス端に入力される。一方、減算器５のマイナス端には、適応フィルタ４により生成されたトークバック模擬音声（トークバック音声の推定値）が入力される。
【００２６】
減算器５は、マイク５３より入力されたトークバック音声と発話音声と周辺ノイズとの混在音声から、適応フィルタ４より入力されたトークバック模擬音声を引くことによって誤差を演算し、発話音声と周辺ノイズとを抽出する。抽出された発話音声と周辺ノイズは、音声認識エンジン５４に供給される。これにより、周辺ノイズの低減処理および音声コマンドに対応した処理が実行される。また、上記抽出された発話音声と周辺ノイズは、ゲイン制御部２および適応フィルタ４にもフィードバックされ、トークバック音声の明瞭度改善処理およびトークバック音声の推定演算処理に利用される。
【００２７】
図３は、第１の実施形態による音声認識処理の動作を示すフローチャートである。なお、図１には図示していないが、音声認識装置１００は音声認識に関する全体の制御を行うコントローラを備えており、図３に示すフローチャートはこのコントローラの制御に従って実行される。
【００２８】
図３において、コントローラが音声認識開始のトリガ（例えば、発話ボタンの押下、所定キーワードの音声入力等）を検知すると（ステップＳ１）、音声認識エンジン５４をアクティブにして、音声入力受付状態とする（ステップＳ２）。この状態でユーザは、複数階層に分けて管理されている音声コマンドの最上層に当たる第１コマンドを発声する（ステップＳ３）。
【００２９】
ここで発声された音声コマンドはマイク５３から入力され、減算器５を介して音声認識エンジン５４に供給される。これを受けて音声認識エンジン５４は、音声認識処理（ノイズ低減処理を含む）を実行する（ステップＳ４）。このとき、コントローラは音声認識エンジン５４を非アクティブに戻して音声入力受付状態を解除する。次に、ボリューム等１およびゲイン制御部２は、トークバック音声の明瞭度改善処理を開始する（ステップＳ５）。この状態で音声出力部５１は、音声認識エンジン５４による認識結果および案内文の音声トークバックを開始する（ステップＳ６）。
【００３０】
このトークバックが行われている間、コントローラは、引き続き音声操作が必要か否かを判定する（ステップＳ７）。ここでは、更に下の階層に遷移して音声コマンドの入力を続ける必要があるか否かを判定する。引き続き音声操作が必要な場合は、音声認識エンジン５４を再びアクティブにして音声入力受付状態とする（ステップＳ８）。その後、減算器５は、上記ステップＳ６で出力されたトークバック音声の推定値を適応フィルタ４から得て、これをマイク５３の入力音声から減算することによって、マイク入力音声からトークバック音声を除去する（ステップＳ９）。
【００３１】
そして、コントローラは、音声コマンドの発声があったか否かを判定する（ステップＳ１０）。発声がない場合はステップＳ９に戻り、発声があるまでこのループ処理を繰り返す。なお、一定時間内に何の発声も行われない場合は、タイムアウト処理が行われる。一方、音声コマンドの発声が行われると、その時点でトークバックを中断し（ステップＳ１１）、ステップＳ４の処理に戻る。なお、ここでは発話が行われたときにトークバックを中断しているが、トークバックがあってもその音声は除去されて発話音声だけが抽出されるので、必ずしもトークバックを中断する必要はない。
【００３２】
図４は、本実施形態による音声入力受付状態の変化の様子を従来技術と比較して示すタイミングチャートであり、（ａ）は従来技術、（ｂ）は本実施形態を示している。なお、図４（ａ）の動作については既に説明した。
【００３３】
図４（ｂ）に示すように、本実施形態では、ユーザが最初に発話ボタンを押すと音声認識モードになり、所定時間だけ音声入力受付状態となる。ユーザは、音声入力受付状態となっている間に所望の音声コマンドを発声する。音声コマンドが入力されると、その入力音声の認識処理およびトークバック処理が行われる。ここまでの動作は、図４（ａ）に示す従来技術と同じである。
【００３４】
図４（ａ）に示す従来技術では、トークバックが行われている間は音声入力を受け付けない状態とされていた。これに対して、図４（ｂ）に示す本実施形態では、認識処理が終わった段階で自動的に音声入力受付状態となり、トークバックが終了するまで待たずに、好きなタイミングで次の音声入力をすることが可能となる。これにより待ち時間を少なくすることができる。
【００３５】
以上詳しく説明したように、本実施形態によれば、トークバック時においても音声入力を随時受け付け、トークバックが終了するのを待たずに好きなタイミングで音声入力をすることができるようになる。しかも、発話をするたびに発話ボタンを押す必要もない。これにより、煩雑なボタン操作を行うことなく、一連の音声認識にかかる操作時間を短縮することができる。
【００３６】
また、本実施形態では、トークバック音声の明瞭度改善のために設けられている適応フィルタ４で推定した模擬音声を利用して、マイク入力音声からトークバック音声を除去している。そのため、トークバック音声除去のために、専用の適応フィルタを別に導入する必要がない。これにより、コストアップを招くことなく、トークバック音声の明瞭度を改善すると同時に、音声認識操作時間の短縮を図ることができる。
【００３７】
（第２の実施形態）
次に、本発明の第２の実施形態について説明する。図５は、第２の実施形態による音声認識装置の要部構成を示すブロック図である。なお、この図５において、図１に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【００３８】
図５に示すように、本実施形態の音声認識装置２００は、図１に示した構成に加え、出力アンプ６−１，６−２、第２の適応フィルタ７−１，７−２、加算器８、減算器９、オーディオ再生部６１および複数チャンネル（右チャンネル、左チャンネル）のスピーカ６２−１，６２−２を備えて構成されている。
【００３９】
オーディオ再生部６１は、ＣＤ（Compact Disc）、ＭＤ（Mini Disc）、ＤＶＤ（Digital Versatile Disk）、ラジオ放送等の各種オーディオソースを再生するものである。出力アンプ６−１，６−２は、オーディオ再生部６１により再生された左右チャンネルのオーディオ音を所定の倍率で増幅し、各チャンネルのスピーカ６２−１，６２−２から出力する。スピーカ６２−１，６２−２から出力されたオーディオ音は、発話音声およびスピーカ５２からのトークバック音声と共にマイク５３に入力される。
【００４０】
第２の適応フィルタ７−１，７−２も図２のように構成されている。一方の適応フィルタ７−１は、右チャンネルのスピーカ６２−１からマイク５３までの伝達系を模擬したフィルタ係数を同定し、右チャンネルのオーディオ音をフィルタ処理することによって右チャンネルのオーディオ模擬音を生成する。
【００４１】
また、他方の適応フィルタ７−２は、左チャンネルのスピーカ６２−２からマイク５３までの伝達系を模擬したフィルタ係数を同定し、左チャンネルのオーディオ音をフィルタ処理することによって左チャンネルのオーディオ模擬音を生成する。
【００４２】
このように、第２の実施形態では、適応フィルタ４が本発明による第１の適応フィルタ手段を構成し、第２の適応フィルタ７−１，７−２が本発明による第２の適応フィルタ手段を構成する。加算器８は、第２の適応フィルタ７−１，７−２から出力される左右チャンネルのオーディオ模擬音を加算して減算器９に出力する。
【００４３】
本実施形態において減算器５は、マイク５３より入力された音声（音声コマンドとトークバックとオーディオ音と周辺ノイズとが混在した音声）から、適応フィルタ４により生成されたトークバック模擬音声を減算することによって、音声コマンドとオーディオ音と周辺ノイズとを抽出する。さらに、減算器９は、減算器５より出力された音声から、適応フィルタ７−１，７−２および加算器８により生成されたオーディオ模擬音を減算することによって音声コマンド（発話音声）と周辺ノイズとを抽出する。このように減算器５，９は、本発明の発話音声抽出手段を構成する。
【００４４】
減算器５により抽出された音声コマンドとオーディオ音と周辺ノイズとの混在音声のうち、周辺ノイズは音声認識エンジン５４によって低減され、音声コマンドのみが認識処理される。また、この減算器５により抽出された発話音声とオーディオ音と周辺ノイズとの混在音声は、ゲイン制御部２および適応フィルタ４にフィードバックされる。また、減算器９により抽出された発話音声と周辺ノイズとの混在音声は、音声認識エンジン５４に供給されるとともに、第２の適応フィルタ７−１，７−２にフィードバックされる。
【００４５】
次に、上記のように構成した第２の実施形態による音声認識装置２００の動作を簡単に説明する。音声出力部５１より出力されたトークバック音声は、ボリューム等１およびゲイン制御部２によってゲイン調整が行われ、当該トークバック音声の明瞭度が改善される。ボリューム等１から出力されたトークバック音声は、出力アンプ３において所定の倍率で増幅された後、スピーカ５２から出力される。
【００４６】
また、オーディオ再生部６１より出力されたオーディオ音は、出力アンプ６−１，６−２において所定の倍率で増幅された後、スピーカ６２−１，６２−２から出力される。
【００４７】
スピーカ５２から出力されたトークバック音声と、スピーカ６２−１，６２−２から出力されたオーディオ音は、マイク５３より入力される。このときユーザが音声コマンドを発声していると、その発話音声もマイク５３より入力される。また、走行中であれば、エンジン音やロードノイズなどの周辺ノイズもマイク５３より入力される。したがって、マイク５３には、トークバック音声とオーディオ音と発話音声と周辺ノイズとが混在した状態で入力される。
【００４８】
この混在音声は、減算器５のプラス端に入力される。一方、減算器５のマイナス端には、適応フィルタ４により生成されたトークバック模擬音声が入力される。減算器５は、マイク５３より入力された混在音声から、適応フィルタ４より出力されるトークバック模擬音声を引くことによって誤差を演算し、オーディオ音と発話音声と周辺ノイズとを抽出する。
【００４９】
抽出されたオーディオ音と発話音声と周辺ノイズとの混在音声は、減算器９のプラス端に入力される。一方、減算器９のマイナス端には、適応フィルタ７−１，７−２および加算器８により生成されたオーディオ模擬音が入力される。減算器９は、減算器５より入力された混在音声から、加算器８より入力されたオーディオ模擬音を引くことによって誤差を演算し、発話音声と周辺ノイズとを抽出する。
【００５０】
抽出された発話音声および周辺ノイズは、音声認識エンジン５４に供給される。これにより、周辺ノイズの低減処理および音声コマンドに対応した処理が実行される。減算器５で抽出されたオーディオ音と発話音声と周辺ノイズは、ゲイン制御部２および適応フィルタ４にもフィードバックされ、トークバック音声の明瞭度改善処理およびトークバック音声の推定演算処理に利用される。また、減算器９で抽出された発話音声と周辺ノイズは、適応フィルタ７−１，７−２にもフィードバックされ、オーディオ音の推定演算処理に利用される。
【００５１】
図６は、第２の実施形態による音声認識処理の動作を示すフローチャートである。なお、この図６において、図３に示したステップ番号と同一の番号を付した処理は同一の処理内容を示すものであるので、ここでは重複する説明を省略する。図６において図３と異なるのは、ステップＳ２とステップＳ３との間、ステップＳ９とステップＳ１０との間にそれぞれオーディオ音の除去処理（ステップＳ２１，Ｓ２２）が入っていることのみである。
【００５２】
ステップＳ２１，Ｓ２２におけるオーディオ音の除去処理では、減算器９によって、加算器８から入力されるオーディオ音の推定値を減算器５の出力音声から減算することにより、オーディオ音と発話音声と周辺ノイズとの混在音声からオーディオ音を除去し、発話音声と周辺ノイズとを抽出する。
【００５３】
以上詳しく説明したように、第２の実施形態によれば、トークバックが行われていて、かつ、オーディオ再生が行われているときに音声入力をしても、マイク入力音声からトークバック音声とオーディオ音とを除去し、発話音声と周辺ノイズとを抽出して音声認識エンジン５４に供給することができる。よって、トークバックとオーディオ再生とが行われている最中においても音声入力を随時受け付け、好きなタイミングで音声入力をすることができるようになり、音声認識の操作時間を短縮することができる。
【００５４】
（第３の実施形態）
次に、本発明の第３の実施形態について説明する。図７は、第３の実施形態による音声認識装置の要部構成を示すブロック図である。なお、この図７において、図５に示した符号と同一の符号を付したものは同一の機能を有するものであるので、ここでは重複する説明を省略する。
【００５５】
上記図５に示す第２の実施形態は、トークバック音声の出力先とオーディオ音の出力先とが異なる場合について説明した。これに対して図７に示す第３の実施形態は、トークバック音声の出力先とオーディオ音の出力先とが同じの場合を示している。
【００５６】
すなわち、図７に示す第３の実施形態による音声認識装置３００では、図５に示した出力アンプ３がなく、２つの出力アンプ６−１，６−２のみを備えている。また、本実施形態の音声認識装置３００は、図５に示した適応フィルタ４の代わりに可変フィルタ１０を備え、加算器１１を更に備えて構成されている。その他の構成は図５と同様である。
【００５７】
図７において、加算器１１は、ボリューム等１より出力されたトークバック音声と、オーディオ再生部６１により再生された右チャンネルのオーディオ音とを加算して出力アンプ６−１および適応フィルタ７−１に出力する。出力アンプ６−１は、加算器１１より出力された音声を所定の倍率で増幅し、右チャンネルのスピーカ６２−１から出力する。
【００５８】
また、適応フィルタ７−１は、右チャンネルのスピーカ６２−１からマイク５３までの伝達系を模擬したフィルタ係数を同定する。そして、この同定したフィルタ係数を用いて、加算器１１から出力されるトークバック音声と右チャンネルのオーディオ音との混在音声をフィルタ処理することによって、当該混在音声を模擬した音声を生成する。
【００５９】
可変フィルタ１０は、フィルタ係数が可変に構成された音声補正フィルタであり、右チャンネルの適応フィルタ７−１により同定されたフィルタ係数をコピーして設定する。そして、ボリューム等１より出力されたトークバック音声をフィルタ処理することにより、マイク５３の位置でのトークバック模擬音声を生成する。この可変フィルタ１０は、本発明の可変フィルタ手段を構成する。
【００６０】
ここで、可変フィルタ１０に対するフィルタ係数のコピー元である右チャンネルの適応フィルタ７−１は、トークバック音声が出力される右チャンネルのスピーカ６２−１からマイク５３までの伝達系を模擬する適応フィルタである。例えば、本実施形態の音声認識装置３００をナビゲーション装置に適用する場合、運転席の近くに設置された右チャンネルのスピーカ６２−１からトークバック音声が出力され、それが入力されるマイク５３も運転席の近くに設置される。したがって、この場合は右チャンネルの適応フィルタ７−１のフィルタ係数を可変フィルタ１０にコピーするのが好ましい。なお、運転席が左側にある場合は、左チャンネルの適応フィルタ７−２のフィルタ係数を可変フィルタ１０にコピーするのが好ましい。
【００６１】
次に、上記のように構成した第３の実施形態による音声認識装置３００の動作を簡単に説明する。音声出力部５１より出力されたトークバック音声は、ボリューム等１およびゲイン制御部２によってゲイン調整が行われ、当該トークバック音声の明瞭度が改善される。
【００６２】
ボリューム等１から出力されたトークバック音声は、オーディオ再生部６１により再生された右チャンネルのオーディオ音と加算器１１で加算され、出力アンプ６−１において所定の倍率で増幅された後、スピーカ６２−１から出力される。また、オーディオ再生部６１により再生された左チャンネルのオーディオ音は、出力アンプ６−２において所定の倍率で増幅された後、スピーカ６２−２から出力される。
【００６３】
スピーカ６２−１から出力された音声（トークバック音声と右チャンネルオーディオ音との混在音声）と、スピーカ６２−２から出力された左チャンネルオーディオ音とは、マイク５３より入力される。このときユーザが音声コマンドを発声していると、その発話音声もマイク５３より入力される。また、走行中であれば、エンジン音やロードノイズなどの周辺ノイズもマイク５３より入力される。したがって、マイク５３からは、トークバック音声と左右チャンネルのオーディオ音と発話音声と周辺ノイズとが混在した音声が入力される。
【００６４】
この混在音声は、減算器５，９のプラス端に入力される。減算器５のマイナス端には、可変フィルタ１０により生成されたトークバック模擬音声が入力される。減算器５は、マイク５３より入力された混在音声から、可変フィルタ１０より出力されるトークバック模擬音声を引くことによって誤差を演算し、オーディオ音と発話音声と周辺ノイズとを抽出する。抽出されたオーディオ音と発話音声と周辺ノイズとの混在音声は、ゲイン制御部２にフィードバックされ、トークバック音声の明瞭度改善処理に利用される。
【００６５】
上記加算器１１より出力されたトークバック音声と右チャンネルオーディオ音との混在音声は、適応フィルタ７−１にも入力される。そして、この適応フィルタ７−１によって、トークバック音声と右チャンネルオーディオ音との混在模擬音声が生成される。一方、適応フィルタ７−２において、左チャンネルのオーディオ模擬音が生成される。
【００６６】
そして、これらの適応フィルタ７−１，７−２により生成された模擬音声が加算器８で加算され、その結果が減算器９のマイナス端に入力される。減算器９は、減算器５より入力された混在音声から、加算器８より入力されたトークバック音声とオーディオ音との混在模擬音声を引くことによって誤差を演算し、発話音声と周辺ノイズとを抽出する。
【００６７】
減算器９で抽出された発話音声および周辺ノイズは、音声認識エンジン５４に供給される。これにより、周辺ノイズの低減処理および音声コマンドに対応した処理が実行される。また、当該減算器９で抽出された発話音声と周辺ノイズは、適応フィルタ７−１，７−２にもフィードバックされ、オーディオ音の推定演算処理に利用される。
【００６８】
なお、第３の実施形態による音声認識処理の動作は、図６に示したフローチャートと同様であるので、ここでは説明を省略する。
【００６９】
以上詳しく説明したように、第３の実施形態においても第２の実施形態と同様に、トークバックとオーディオ再生とが行われているときでも音声入力を随時受け付け、好きなタイミングで音声入力をすることができる。また、第３の実施形態によれば、フィルタ係数の同定を行うためのアルゴリズムを含んだ高度な適応フィルタをトークバック音声推定用に用意する必要がなく、その分コストを削減することができる。さらに、可変フィルタ１０にはフィルタ係数をコピーするだけで良く、フィルタ係数を同定するための演算処理を行う必要がないので、処理負荷を軽減することができるというメリットも有する。
【００７０】
なお、以上第１〜第３の実施形態について説明したが、これらは本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその精神、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【００７１】
【発明の効果】
本発明は上述したように、スピーカから出力されマイクに入力されるトークバック音声を適応フィルタにより推定して、その推定値をマイク入力音声から減算することにより、発話音声とその他の音声とが混在しているマイク入力音声から発話音声だけを抽出するようにしたので、発話のたびに発話ボタンを押してトークバックを中断させるといった面倒な操作をしなくても、トークバック中の任意のタイミングで音声入力を随時行うことができるようになる。これにより、煩雑な操作を行うことなく、音声認識の操作時間を短縮することができる。
【図面の簡単な説明】
【図１】第１の実施形態による音声認識装置の要部構成を示すブロック図である。
【図２】適応フィルタの構成を示す図である。
【図３】第１の実施形態による音声認識処理の動作を示すフローチャートである。
【図４】本実施形態による音声入力受付状態の変化の様子を従来技術と比較して示すタイミングチャートである。
【図５】第２の実施形態による音声認識装置の要部構成を示すブロック図である。
【図６】第２の実施形態による音声認識処理の動作を示すフローチャートである。
【図７】第３の実施形態による音声認識装置の要部構成を示すブロック図である。
【符号の説明】
１ボリューム又はイコライザ
２ゲイン制御部
３出力アンプ
４適応フィルタ
５減算器
６−１，６−２出力アンプ
７−１，７−２適応フィルタ
８加算器
９減算器
１０可変フィルタ
１１加算器

Claims

マイクから入力された発話音声を認識してスピーカからトークバックする機能を備えた音声認識装置であって、
上記スピーカから出力されたトークバック音声が上記マイクに入力される伝達系を模擬したフィルタ係数を設定し、上記スピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成する適応フィルタ手段と、
上記マイクより入力された音声から上記トークバック模擬音声を減算することによって発話音声を抽出する発話音声抽出手段と、
上記適応フィルタ手段により生成された上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記スピーカから出力される前のトークバック音声に対するノイズとみなして、上記スピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記スピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記スピーカから出力される前のトークバック音声の明瞭度改善処理を行う明瞭度改善処理手段とを備え、
上記適応フィルタ手段は、上記誤差音のパワーが最小となるように動作して上記フィルタ係数を設定することを特徴とする音声認識装置。
マイクから入力された発話音声を認識してスピーカからトークバックする機能を備えた音声認識装置であって、
第１のスピーカから出力されたトークバック音声が上記マイクに入力される伝達系を模擬した第１のフィルタ係数を設定し、上記第１のスピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成する第１の適応フィルタ手段と、
第２のスピーカから出力されたオーディオ音が上記マイクに入力される伝達系を模擬した第２のフィルタ係数を設定し、上記第２のスピーカから出力される前のオーディオ音をフィルタ処理することによって上記マイクの位置でのオーディオ模擬音を生成する第２の適応フィルタ手段と、
上記マイクより入力された音声から上記トークバック模擬音声および上記オーディオ模擬音を減算することによって発話音声を抽出する発話音声抽出手段と、
上記第１の適応フィルタ手段により生成された上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記第１のスピーカから出力される前のトークバック音声に対するノイズとみなして、上記第１のスピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記第１のスピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記第１のスピーカから出力される前のトークバック音声の明瞭度改善処理を行う明瞭度改善処理手段とを備え、
上記第１の適応フィルタ手段は、上記誤差音のパワーが最小となるように動作して上記第１のフィルタ係数を設定し、
上記第２の適応フィルタ手段は、上記マイクより入力された音声から上記トークバック模擬音声および上記オーディオ模擬音を減算することによって得られる第２の誤差音のパワーが最小となるように動作して上記第２のフィルタ係数を設定することを特徴とする音声認識装置。
上記第２の適応フィルタ手段は、複数の上記第２のスピーカから出力される複数チャンネルのオーディオ音に対応して複数設けられていることを特徴とする請求項２に記載の音声認識装置。
マイクから入力された発話音声を認識してスピーカからトークバックする機能を備えた音声認識装置であって、
上記スピーカから出力されたトークバック音声とオーディオ音との混在音声が上記マイクに入力される伝達系を模擬したフィルタ係数を設定し、上記スピーカから出力される前の混在音声をフィルタ処理することによって上記マイクの位置での混在模擬音声を生成する適応フィルタ手段と、
上記マイクより入力された音声から上記混在模擬音声を減算することにより発話音声を抽出する発話音声抽出手段と、
上記適応フィルタ手段により設定されたフィルタ係数を複写して設定し、上記スピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成する可変フィルタ手段と、
上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記スピーカから出力される前のトークバック音声に対するノイズとみなして、上記スピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記スピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記スピーカから出力される前のトークバック音声の明瞭度改善処理を行う明瞭度改善処理手段とを備え、
上記適応フィルタ手段は、上記マイクより入力された音声から上記混在模擬音声を減算して得られる第３の誤差音のパワーが最小となるように動作して上記フィルタ係数を設定することを特徴とする音声認識装置。
複数のスピーカから複数チャンネルのオーディオ音が出力されるとともに、その中の少なくとも１つのスピーカから上記トークバック音声も出力されるように成され、
上記適応フィルタ手段は、上記少なくとも１つのスピーカから出力される或るチャンネルのオーディオ音と上記トークバック音声との混在音声に対応して設けられていることを特徴とする請求項４に記載の音声認識装置。
上記複数のスピーカのうち他のスピーカから出力された他チャンネルのオーディオ音が上記マイクに入力される伝達系を模擬した第２のフィルタ係数を設定し、上記他のスピーカから出力される前のオーディオ音をフィルタ処理することによって上記マイクの位置でのオーディオ模擬音を生成する他の適応フィルタ手段を更に備え、
上記他の適応フィルタ手段は、上記マイクより入力された音声から上記混在模擬音声および上記オーディオ模擬音を減算して得られる第４の誤差音のパワーが最小となるように動作して上記第２のフィルタ係数を設定し、
上記発話音声抽出手段は、上記マイクより入力された音声から上記混在模擬音声および上記オーディオ模擬音を減算することによって上記発話音声を抽出することを特徴とする請求項５に記載の音声認識装置。
上記マイクから入力された発話音声を認識処理部が認識処理する際に、音声入力を受け付けない非アクティブ状態に設定するとともに、上記認識処理部によって認識された発話音声を上記スピーカからトークバックする処理を開始する際に、上記音声入力を受け付けるアクティブ状態に設定するコントローラを備えたことを特徴とする請求項１〜６の何れか１項に記載の音声認識装置。
マイクから入力された発話音声を認識処理部が認識処理する際に、音声入力を受け付けない非アクティブ状態に設定するステップと、
上記認識処理部によって認識された発話音声をスピーカからトークバックする処理を開始する際に、音声入力を受け付けるアクティブ状態に設定するステップと、
上記スピーカから出力されたトークバック音声が上記マイクに入力される伝達系を模擬したフィルタ係数を適応フィルタに設定し、上記スピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成するステップと、
上記アクティブ状態の設定時に上記マイクより入力された音声から上記トークバック模擬音声を減算することにより発話音声を抽出して上記認識処理部に供給するステップと、
上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記スピーカから出力される前のトークバック音声に対するノイズとみなして、上記スピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記スピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記スピーカから出力される前のトークバック音声の明瞭度改善処理を行うステップとを有し、
上記トークバック模擬音声を生成するステップでは、上記適応フィルタが、上記誤差音のパワーが最小となるように動作して上記フィルタ係数を設定することを特徴とする音声認識方法。
マイクから入力された発話音声を認識処理部が認識処理する際に、音声入力を受け付けない非アクティブ状態に設定するステップと、
上記認識処理部によって認識された発話音声を第１のスピーカからトークバックする処理を開始する際に、音声入力を受け付けるアクティブ状態に設定するステップと、
上記第１のスピーカから出力されたトークバック音声が上記マイクに入力される伝達系を模擬した第１のフィルタ係数を第１の適応フィルタに設定し、上記第１のスピーカから出力される前のトークバック音声をフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成するステップと、
第２のスピーカから出力されたオーディオ音が上記マイクに入力される伝達系を模擬した第２のフィルタ係数を第２の適応フィルタに設定し、上記第２のスピーカから出力される前のオーディオ音をフィルタ処理することによって上記マイクの位置でのオーディオ模擬音を生成するステップと、
上記アクティブ状態の設定時に上記マイクより入力された音声から上記トークバック模擬音声および上記オーディオ模擬音を減算することにより発話音声を抽出して上記認識処理部に供給するステップと、
上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記第１のスピーカから出力される前のトークバック音声に対するノイズとみなして、上記第１のスピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記第１のスピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記第１のスピーカから出力される前のトークバック音声の明瞭度改善処理を行うステップとを有し、
上記トークバック模擬音声を生成するステップでは、上記第１の適応フィルタが、上記誤差音のパワーが最小となるように動作して上記第１のフィルタ係数を設定し、
上記オーディオ模擬音を生成するステップでは、上記第２の適応フィルタが、上記マイクより入力された音声から上記トークバック模擬音声および上記オーディオ模擬音を減算することによって得られる第２の誤差音のパワーが最小となるように動作して上記第２のフィルタ係数を設定することを特徴とする音声認識方法。
マイクから入力された発話音声を認識処理部が認識処理する際に、音声入力を受け付けない非アクティブ状態に設定するステップと、
上記認識処理部によって認識された発話音声をスピーカからトークバックする処理を開始する際に、音声入力を受け付けるアクティブ状態に設定するステップと、
上記スピーカから出力されたトークバック音声とオーディオ音との混在音声が上記マイクに入力される伝達系を模擬したフィルタ係数を適応フィルタに設定し、上記スピーカから出力される前の混在音声をフィルタ処理することによって上記マイクの位置での混在模擬音声を生成するステップと、
上記アクティブ状態の設定時に上記マイクより入力された音声から上記混在模擬音声を減算することにより発話音声を抽出して上記認識処理部に供給するステップと、
上記適応フィルタに設定されたフィルタ係数を可変フィルタに複写して設定し、上記スピーカから出力される前のトークバック音声を上記可変フィルタによりフィルタ処理することによって上記マイクの位置でのトークバック模擬音声を生成するステップと、
上記トークバック模擬音声と上記マイクより入力された音声から上記トークバック模擬音声を減算して得られる誤差音とを用いて、上記誤差音を上記スピーカから出力される前のトークバック音声に対するノイズとみなして、上記スピーカから出力される前のトークバック音声に対して加えるゲイン値を算出し、算出したゲイン値によって、上記スピーカから出力される前のトークバック音声に対してゲイン補正を行うことにより、上記スピーカから出力される前のトークバック音声の明瞭度改善処理を行うステップとを有し、
上記混在模擬音声を生成するステップでは、上記適応フィルタが、上記マイクより入力された音声から上記混在模擬音声を減算して得られる第３の誤差音のパワーが最小となるように動作して上記フィルタ係数を設定することを特徴とする音声認識方法。
複数のスピーカから複数チャンネルのオーディオ音が出力されるとともに、その中の少なくとも１つのスピーカから上記トークバック音声も出力されるように成され、
上記少なくとも１つのスピーカから出力される前の或るチャンネルのオーディオ音と上記トークバック音声との混在音声に対して上記フィルタ処理を行うことによって上記マイクの位置での混在模擬音声を生成するようにしたことを特徴とする請求項１０に記載の音声認識方法。