JP4554044B2

JP4554044B2 - Ａｖ機器用音声認識装置

Info

Publication number: JP4554044B2
Application number: JP2000227787A
Authority: JP
Inventors: 悟茨木; 丈郎金森; 岳河村; 幹夫小田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1999-07-28
Filing date: 2000-07-27
Publication date: 2010-09-29
Anticipated expiration: 2020-07-27
Also published as: JP2001100785A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置に関し、より特定的には、２チャンネルステレオを含むマルチチャンネルオーディオを再生するＴＶ、ラジオ、オーディオシステムなどのＡＶ機器に用いられ、スピーカからオーディオが拡声された状態であっても、音声によるＡＶ機器の制御や、音声によるＡＶ機器への情報入力等が可能であるＡＶ機器用音声認識装置に関する。
【従来の技術】
従来、スピーカからオーディオが拡声された状態において音声認識を行う技術を記載した文献としては、特開平５−２２７７９号公報（発明の名称「音声認識遠隔制御装置」）が知られている。
【０００２】
図２３は、上記公報に開示されている技術を用いた従来のＡＶ機器用音声認識装置の構成を示すブロック図である。図２３の音声認識装置は、１つのスピーカ２０１を持ったＡＶ機器に用いられる。図２３において、従来のＡＶ機器用音声認識装置は、マイクロホン２０２と、音声認識部２０３と、エコーキャンセラ２０４とを備えている。
【０００３】
以上のように構成された従来のＡＶ機器用音声認識装置について、図２４を用いてその動作を述べる。
図２４は、図２３の音声認識装置において、各構成要素に入力される、または各構成要素から出力される信号の時間波形を示す図である。図２４において、スピーカ２０１からオーディオ信号が拡声された状態で、音声制御用の音声をユーザが発した場合を考える。
【０００４】
スピーカ２０１からオーディオ信号が拡声されない状態で、ユーザが音声を発した場合は、マイクロホン２０２からは、図２４の２１１に示す極めてＳ／Ｎのよい音声信号が出力される。ところが、スピーカ２０１に図２４の２１２に示すＴＶ番組のオーディオ信号が入力されていると、このスピーカ入力２１２と相似の図２４の２１３に示す反響信号がマイクロホン２０２の出力に混入することになる。
【０００５】
従って、マイクロホン２０２からは、ユーザ音声２１１と反響信号２１３とが加算された、図２４の２１４に示す、ユーザ音声を認識するには極めてＳ／Ｎの悪い信号が出力される。このＳ／Ｎの悪いマイクロホン出力２１４が、音声認識部２０３に入力されても、音声認識部２０３で十分な音声認識結果が期待できないのは当然である。
【０００６】
そこで、図２３の音声認識装置では、スピーカ２０１からマイクロホン２０２に回り込む反響信号２１３を、エコーキャンセラ２０４内部の適応ディジタルフィルタで推定している。そして、エコーキャンセラ２０４内部の減算回路により、マイクロホン出力２１４からこの推定反響信号を差し引くことによって反響信号２１３を完全にキャンセルし、ユーザ音声２１１だけを抽出している。
【０００７】
エコーキャンセラ２０４には、スピーカ２０１への入力信号であるスピーカ入力２１２が与えられる。エコーキャンセラ２０４内部の適応ディジタルフィルタは、このスピーカ入力２１２の波形と、内部に記憶されたスピーカ２０１からマイクロホン２０２までの反響路のインパルスレスポンスとから、反響信号２１５を推定する。次に、エコーキャンセラ２０４内部の減算回路が、マイクロホン出力２１４から、この推定反響信号２１５を差し引き、それによって、エコーキャンセラ出力２１６を得ている。
【０００８】
このエコーキャンセラ出力２１６と、ユーザ音声の波形２１１とを比較すればわかるように、スピーカ２０１からオーディオが拡声された状態であっても、上記のようなエコーキャンセラ２０４の反響音打ち消し作用によって、音声認識部２０３が正確な音声認識を行うことが期待できる。
【０００９】
しかしながら、図２３の音声認識装置は、モノラルオーディオ方式のＡＶ機器にしか対応しておらず、複数のスピーカを使用するマルチチャンネルオーディオ方式のＡＶ機器には用いることができないという、大きな欠点を有していた。
【００１０】
図２５は、別の従来のＡＶ機器用音声認識装置の構成を示すブロック図である。図２５の音声認識装置は、２つのスピーカ２２１および２２２を持った２チャンネルオーディオ方式のＡＶ機器に用いられる。
図２５において、別の従来の音声認識装置は、マイクロホン２２３と、音声認識部２２４と、２つのエコーキャンセラ２２５および２２６とを備えている。
【００１１】
この従来例は、スピーカ２２１からマイクロホン２２３に回り込む反響音と、スピーカ２２２からマイクロホン２２３に回り込む反響音とを、エコーキャンセラ２２５内部の適応ディジタルフィルタと、エコーキャンセラ２２６内部の適応ディジタルフィルタとで推定し、マイクロホンの出力信号から、この２つの推定値を差し引くことにより、ユーザ音声だけを抽出するものである。先の図２３の音声認識装置と異なり、図２５の音声認識装置は、ステレオ方式のＡＶ機器に適用できる。
【００１２】
しかしながら、図２５の音声認識装置では、オーディオチャンネルの数だけエコーキャンセラを必要とするので、マルチチャンネルオーディオのＡＶ機器に用いる場合には、極めて価格の高い音声認識装置になるという欠点を有していた。
さらに、このように複数のエコーキャンセラを用いたシステムにおいては、エコーキャンセラ間の相互干渉が起こるので、エコーキャンセラの適応動作が極めて不安定であり、適応失敗による反響音の増加や発振などが生じてしまうという大きな欠点も知られていた。
【００１３】
【発明が解決しようとする課題】
ＡＶ機器用の音声認識装置においては、スピーカでオーディオを再生しながら音声認識が行えること、マルチチャンネルオーディオに対応できること、信頼性が高いこと、安価であることが強く要望されている。
【００１４】
しかしながら、従来のＡＶ機器用音声認識装置は、前述のように、オーディオチャンネルの数だけエコーキャンセラを必要とするので、マルチチャンネルオーディオ方式のＡＶ機器に用いる場合には、極めて価格が高くなるという課題を有していた。
さらに、エコーキャンセラ間の相互干渉のためにエコーキャンセラの適応動作が極めて不安定となって、適応失敗による反響音の増加や発振などを生じ、その結果、音声認識性能が低下するという別の課題も有していた。
【００１５】
それゆえに、本発明の目的は、スピーカからマルチチャンネル音響が出力されている状態で高精度の音声認識が行え、しかも安価であるような、マルチチャンネルＡＶ機器用の音声認識装置を実現することである。
【００１６】
【課題を解決するための手段および発明の効果】
第１の発明は、複数のスピーカを通じてマルチチャンネル音響を出力するＡＶ機器に用いられ、マイクロホンを通じて入力されるユーザ音声を認識して、当該ＡＶ機器に所定の処理動作を行わせるための音声認識装置であって、
複数のスピーカへ向かうマルチチャンネル信号をモノラル化するモノラル化手段、
マイクロホンの出力（以下、マイクロホン出力）と、モノラル化手段の出力（以下、モノラル化信号）とが与えられ、当該モノラル化信号に基づいてマルチチャンネル音響の反響音を推定して、当該マイクロホン出力から当該反響音を除去する１つのエコーキャンセラ、
１つのエコーキャンセラの出力（以下、エコーキャンセラ出力）に基づいてユーザ音声を認識する音声認識手段を備えている。
【００１７】
上記第１の発明では、マルチチャンネル信号をモノラル化して１つのエコーキャンセラに与え、その１つのエコーキャンセラがマイクロホン出力からマルチチャンネル音響の反響音を除去するので、チャンネル数に関わらずただ１つのエコーキャンセラを備えるだけで、スピーカからマルチチャンネル音響が出力されている状態で音声認識が行えるようになる。また、複数のエコーキャンセラを備える場合と異なり、エコーキャンセラ間の相互干渉が生じて音声認識性能が低下することもない。
【００１８】
第２の発明は、第１の発明において、複数のスピーカへは、マルチチャンネル信号が入力されることを特徴としている。
【００１９】
上記第２の発明では、複数のスピーカからマルチチャンネル音響が出力されるので、反響音をモノラル化信号で完全に打ち消すことはできない。しかし、マルチチャンネル信号のモノラル度が”１”に近ければ、反響音を概ね打ち消すことができる。少なくとも、マルチチャンネル信号のモノラル度が”０”でない限りは、反響音の一部を打ち消すことができる。
ここで、マルチチャンネル信号のモノラル度とは、その信号中に占める、全チャンネルに共通して含まれる成分（モノラル成分）の割合をいい、全チャンネルの信号が互いに全く無相関であれば、モノラル度は”０”、同一であれば、モノラル度は”１”となる。
【００２０】
第３の発明は、第１の発明において、マルチチャンネル信号およびモノラル化信号のいずれかを複数のスピーカへと入力するための切り替え手段をさらに備えている。
【００２１】
上記第３の発明では、複数のスピーカから、マルチチャンネル音響およびモノラル化音響のいずれかを選択的に出力させることができる。
【００２２】
第４の発明は、第３の発明において、
モノラル化信号とエコーキャンセラ出力とに基づいてユーザ音声を検出する音声検出手段をさらに備え、
切り替え手段は、
音声検出手段によってユーザ音声が検出されていない時、マルチチャンネル信号を複数のスピーカへと入力し、
音声検出手段によってユーザ音声が検出されている時、モノラル化信号を複数のスピーカへと入力することを特徴としている。
【００２３】
上記第４の発明では、音声認識を行う必要がない（ユーザ音声が検出されない）場合はマルチチャンネル音響を、音声認識を行う必要がある（ユーザ音声が検出されている）場合はモノラル化音響を出力させるので、十分に高い精度で音声認識が行えるようになる。
【００２４】
第５の発明は、第３の発明において、
音声認識動作の起動を命令する起動命令手段、
音声認識動作の終了を命令する終了命令手段、および
起動命令手段および終了命令手段からの命令に応じて、音声認識手段を動作状態および待機状態のいずれかに設定する状態設定手段をさらに備え、
切り替え手段は、
状態設定手段によって音声認識手段が待機状態に設定されている時、マルチチャンネル信号を複数のスピーカへと入力し、
状態設定手段によって音声認識手段が動作状態に設定されている時、モノラル化信号を複数のスピーカへと入力することを特徴としている。
【００２５】
上記第５の発明では、音声認識手段が待機状態（”ＯＦＦ”状態）にある場合はマルチチャンネル音響を、動作状態（”ＯＮ”状態）にある場合はモノラル化音響を出力させるので、十分に高い精度で音声認識が行えるようになる。
【００２６】
第６の発明は、第５の発明において、
マルチチャンネル信号のモノラル度を判定するモノラル度判定手段、および
マルチチャンネル信号を任意のモノラル度にモノラル化する任意度モノラル化手段をさらに備え、
モノラル化手段は、マルチチャンネル信号を完全にモノラル化し、
任意度モノラル化手段は、モノラル度判定手段の判定結果が予め定められたモノラル度よりも低い場合、マルチチャンネル信号を当該予め定められたモノラル度にモノラル化することを特徴としている。
【００２７】
上記第６の発明では、マルチチャンネル信号のモノラル度が常に、予め定められたモノラル度以上になるので、音声認識手段が動作状態（”ＯＮ”状態）にある場合でも、立体感をあまり損なうことなく、高い精度で音声認識性能が行えるようになる（すなわち、立体感と音声認識性能とをバランスさせることができる）。
【００２８】
第７の発明は、第５の発明において、
マルチチャンネル信号は、３チャンネル以上の信号であり、
マルチチャンネル信号を２チャンネル化する２チャンネル化手段をさらに備え、
モノラル化手段は、２チャンネル化手段の出力（以下、２チャンネル化信号）をモノラル化し、
切り替え手段は、マルチチャンネル信号、２チャンネル化信号およびモノラル化信号のいずれかを複数のスピーカへと入力することを特徴としている。
【００２９】
上記第７の発明では、複数のスピーカから、マルチチャンネル音響、２チャンネル化音響およびモノラル化音響のいずれかを選択的に出力させることができる。
【００３０】
第８の発明は、第７の発明において、
モノラル化信号とエコーキャンセラ出力とに基づいてユーザ音声を検出する音声検出手段をさらに備え、
切り替え手段は、
状態設定手段が音声認識手段を待機状態に設定している時には、マルチチャンネル信号を複数のスピーカへと入力し、
状態設定手段が音声認識手段を動作状態に設定しているが、音声検出手段によってユーザ音声が検出されていない時には、２チャンネル化信号を複数のスピーカへと入力し、
音声検出手段によってユーザ音声が検出されている時には、モノラル化信号を複数のスピーカへと入力することを特徴としている。
【００３１】
上記第８の発明では、音声認識手段が待機状態（”ＯＦＦ”状態）にある場合はマルチチャンネル音響を、動作状態（”ＯＮ”状態）にあるが音声認識を行う必要がない（ユーザ音声が検出されない）場合はマルチチャンネル音響を、音声認識を行う必要がある（ユーザ音声が検出されている）場合はモノラル化音響を出力させるので、待機状態における立体感をあまり損なうことなく、十分に高い精度で音声認識が行えるようになる。
【００３２】
第９の発明は、第５の発明において、
モノラル化信号とエコーキャンセラ出力とに基づいて、エコーキャンセラにおいて反響音が十分に打ち消されているかを監視する打ち消し監視手段、
モノラル化信号とエコーキャンセラ出力とに基づいてユーザ音声を検出する音声検出手段、および
マルチチャンネル信号を減衰させる減衰手段をさらに備え、
減衰手段は、打ち消し監視手段の監視結果が打ち消し不十分を示している状態において、音声検出手段がユーザ音声を検出した時、マルチチャンネル信号を減衰させることを特徴としている。
【００３３】
上記第９の発明では、反響音が十分に打ち消されていない状態でユーザ音声が検出された時、複数のスピーカから出力される音響のレベルを下げることによって、反響音の混入を抑制する。その結果、反響音が十分に打ち消されていない状態での音声認識性能が高まる。
【００３４】
第１０の発明は、第５の発明において、
エコーキャンセラは、
複数のスピーカとマイクロホンとの間の反響路のインパルスレスポンスを推定して、当該推定インパルスレスポンスと、モノラル化信号とから反響音を算出する適応ディジタルフィルタ、および
マイクロホン出力から、適応ディジタルフィルタの出力を減算する減算手段を含んでいる。
【００３５】
上記第１０の発明では、マイクロホン出力からマルチチャンネル音響の反響音を除去して、ユーザ音声だけを音声認識手段に与えることができる。
【００３６】
第１１の発明は、第１０の発明において、切り替え手段によって複数のスピーカへの入力がマルチチャンネル信号からモノラル化信号へと切り替えられる際に、適応ディジタルフィルタの適応を促進するためのモノラル適応音を発生する適応音発生手段をさらに備えている。
【００３７】
上記第１１の発明では、スピーカへの入力がマルチチャンネル信号からモノラル化信号に切り替わる際に、複数のスピーカからモノラルの適応音響が出力されるので、もし切り替え直後のモノラル化音響が無音状態であっても、ディジタルフィルタが保持しているインパルスレスポンスを強制的に反響路のインパルスレスポンスに適応させることができる。
【００３８】
第１２の発明は、第１０の発明において、
適応ディジタルフィルタの適応速度を制御する適応制御手段をさらに備え、
適応制御手段は、モノラル用の速い適応速度と、マルチチャンネル用の遅い適応速度とを持ち、状態設定手段が音声認識手段を動作状態に設定している時には速い適応速度を選択し、待機状態に設定している時には遅い適応速度を選択することを特徴としている。
【００３９】
上記第１２の発明では、エコーキャンセラ内の適応ディジタルフィルタの適応速度を、音声認識手段が動作状態に設定されている時には速い速度に、待機状態に設定されている時には遅い速度に制御するので、モノラル，マルチチャンネルそれぞれに好適なエコー打ち消しを行うことができる。
すなわち、スピーカから出力されるのがマルチチャンネル音響の場合は、適応ディジタルフィルタから見ると雑音であるステレオ成分が多いので、遅い適応速度とすることによって耐雑音性を高め、一方、モノラル化音響の場合は、ステレオ成分がないので、速い適応速度とすることによって、反響路のインパルスレスポンスの変動への追従性を高めることができる。
その結果、待機状態において優れたエコー打ち消し効果が実現され、動作状態へ移行した直後における音声認識性能が高まる。
【００４０】
第１３の発明は、第１２の発明において、
適応制御手段へは、複数のスピーカに入力される信号がマルチチャンネル信号かモノラル信号かを示す識別信号が与えられ、
適応制御手段は、識別信号がモノラルを示す場合、状態設定手段が音声認識手段を動作状態に設定しているか待機状態に設定しているかに関わらず、速い適応速度を選択することを特徴としている。
【００４１】
上記第１３の発明では、複数のスピーカに入力される信号がマルチチャンネル信号かモノラル信号かを識別信号によって判別して、モノラル信号の場合は、状態設定手段が音声認識手段を動作状態に設定しているか待機状態に設定しているかに関わらず、速い適応速度を選択するので、反響路のインパルスレスポンスの変動への追従性が低下することがなく、その結果、待機状態において優れたエコー打ち消し効果が実現され、動作状態へ移行した直後における音声認識性能が高まる。
【００４２】
第１４の発明は、第１０の発明において、
マルチチャンネル信号のモノラル度を判定するモノラル度判定手段、および
モノラル度判定手段の判定結果に基づいて、適応ディジタルフィルタの適応速度を制御する適応制御手段をさらに備えている。
【００４３】
上記第１４の発明では、マルチチャンネル信号のモノラル度に基づいて、適応ディジタルフィルタの適応速度を制御するので、様々なモノラル度を持ったマルチチャンネル信号に好適なエコー打ち消しを行うことができる。
すなわち、モノラル度が低い場合、適応速度を遅くして、耐雑音性を高める。
一方、モノラル度が高い場合、適応ディジタルフィルタから見ると雑音であるステレオ成分が少ないので、耐雑音性はあまり必要でない。よって、下記第１５の発明のように、適応速度を速くすることによって、反響路のインパルスレスポンスの変動への追従性を高めることができる。その結果、特にモノラル度が高い場合に、優れたエコー打ち消し効果が実現でき、動作状態へ移行した直後における音声認識性能が高まる。
【００４４】
第１５の発明は、第１４の発明において、適応制御手段は、マルチチャンネル信号のモノラル度が高いほど、適応ディジタルフィルタの適応速度を速くすることを特徴としている。
【００４５】
第１６の発明は、第１０の発明において、
不揮発メモリをさらに備え、
不揮発メモリは、
電源が”ＯＦＦ”される時、適応ディジタルフィルタによって推定されたインパルスレスポンスを取得して記憶し、
電源が”ＯＮ”される時、記憶している電源”ＯＦＦ”時の推定インパルスレスポンスを適応ディジタルフィルタに与え、
適応ディジタルフィルタは、不揮発メモリから与えられた電源”ＯＦＦ”時の推定インパルスレスポンスを初期値として、インパルスレスポンスの推定を開始することを特徴としている。
【００４６】
上記第１６の発明では、電源”ＯＦＦ”時の推定インパルスレスポンスを記憶しておき、電源”ＯＮ”時、それを初期値としてインパルスレスポンスの推定を開始するので、”０”を初期値とする場合と比べ、電源”ＯＮ”直後の推定誤差が小さくなり、その結果、音声認識性能が高まる。
【００４７】
第１７の発明は、第５の発明において、
モノラル化信号とエコーキャンセラ出力とに基づいてユーザ音声を検出する音声検出手段をさらに備え、
起動命令手段は、ボタンが押されると、状態設定手段へ起動命令を発するようなボタンスイッチであり、
終了命令手段は、音声検出手段がユーザ音声を検出しない状態が予め定められた時間以上継続すると、状態設定手段へ終了命令を発する時限スイッチであることを特徴としている。
【００４８】
上記第１７の発明では、音声認識動作を自動的に終了できる。
【００４９】
第１８の発明は、第５の発明において、
モノラル化信号とエコーキャンセラ出力とに基づいてユーザ音声を検出する音声検出手段をさらに備え、
起動命令手段は、音声検出手段がユーザ音声を検出すると、状態設定手段へ起動命令を発する音声スイッチであり、
終了命令手段は、音声検出手段がユーザ音声を検出しない状態が予め定められた時間以上継続すると、状態設定手段へ終了命令を発する時限スイッチであることを特徴としている。
【００５０】
上記第１８の発明では、音声認識動作を自動的に開始・終了できる。
【００５１】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照しながら説明する。
最初に、本発明が用いられるＡＶ機器について説明しておく。
図１は、本発明が用いられるＡＶ機器の構成の一例を示すブロック図である。
図１に示されるＡＶ機器は、テレビション放送を受信するためのテレビジョン受像機である。ここでいうテレビション放送では、マルチチャンネル（２チャンネルも含む；以下同様）の音響方式が採用されているとする。
【００５２】
図１において、ＡＶ機器は、アンテナ１と、受信部２と、ＡＶ処理部３と、コントローラ４と、コントロールパネル５と、マイクロホン６と、音声認識装置７と、ディスプレイユニット８と、スピーカユニット９とを備えている。
【００５３】
アンテナ１は、放送局から送信された電波を捉えて電気信号に変換する。受信部２は、アンテナ１から出力される電気信号から、特定の周波数帯に含まれる信号を抽出する。ＡＶ処理部３は、受信部２から出力される信号を処理して、映像信号と、マルチチャンネルの音響信号（以下、マルチチャンネル信号）とを出力する。
【００５４】
コントローラ４は、コントロールパネル５または音声認識装置７からのコントロール信号を受け、受信部２および／またはＡＶ処理部３に、例えば受信チャンネルの切り換えや音量の増減、主電源の”ＯＮ”／”ＯＦＦ”等の予め決められた処理を実行させる。ディスプレイユニット８は、ディスプレイを含み、ＡＶ処理部３からの映像信号を受けて映像を表示する。スピーカユニット９は、複数のスピーカ（９ａ，９ｂ，…）を含み、ＡＶ処理部３からのマルチチャンネル信号を受けてマルチチャンネル音響を出力する。
【００５５】
コントロールパネル５（受像機本体に設けられても、リモコンに設けられてもよい）は、ボタン等によって構成され、ユーザのボタン操作と対応するコントロール信号を生成する。マイクロホン６は、ユーザが発した音声を電気信号に変換する。音声認識装置７は、マイクロホン６から出力される電気信号を受け、ユーザの音声と対応するコントロール信号を生成する。
【００５６】
ここで、上記受信部２から出力される信号は、アナログ信号であっても、ディジタル信号であってもよい。前者の場合、ＡＶ処理部３は、受信部２から出力される信号をアナログ的に処理する回路によって構成される。後者の場合、ＡＶ処理部３は、受信部２から出力される信号をディジタル的に処理する回路によって構成される。
【００５７】
上記のように構成されたテレビジョン受像機では、アンテナ１が、放送局から送信された電波を捉えて電気信号に変換し、受信部２は、その電気信号から、特定の周波数帯の信号を抽出する。次いで、ＡＶ処理部３は、受信部２から出力される信号を処理して、映像信号とマルチチャンネル信号とを出力する。ＡＶ処理部３から出力された映像信号は、ディスプレイユニット８に与えられ、ディスプレイに映像が表示される。一方、マルチチャンネル信号は、スピーカユニット９に与えられ、複数のスピーカからマルチチャンネル音響が出力される。
【００５８】
ユーザは、コントロールパネル５を操作することにより、テレビジョン受像機に、受信チャンネルの切換等を行わせることができる。すなわち、コントロールパネル５がユーザのボタン操作と対応するコントロール信号を生成し、コントローラ４は、そのコントロール信号を受け、受信部２および／またはＡＶ処理部３に、受信チャンネルの切り換え等を実行させる。
【００５９】
また、ユーザは、マイクロホン６を通じて音声を入力をすることにより、テレビジョン受像機に、受信チャンネルの切り換え等を行わせることができる。すなわち、音声認識装置７がユーザの音声と対応するコントロール信号を生成し、コントローラ４は、そのコントロール信号を受け、受信部２および／またはＡＶ処理部３に、受信チャンネルの切り換え等を実行させる。
【００６０】
なお、以上では、本発明が用いられるＡＶ機器の一例として、マルチチャンネル音響を出力するテレビジョン受像機について説明したが、本発明は、テレビジョン受像機に限らず、例えば、マルチチャンネル音響を出力するラジオ受信機に用いてもよい。あるいは、マルチチャンネル信号が記されたＣＤ，ＤＶＤ等のメディアを再生するための再生機、アンプ、およびスピーカユニット９等からなるマルチチャンネル・オーディオシステムなど、マルチチャンネル音響を出力する機能を持つあらゆる機器，システムに用いることができる。
【００６１】
（第１の実施形態）
図２は、本発明の第１の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。図２の音声認識装置７は、図１のＡＶ機器に設けられた音声認識装置７と対応している。ただし、本実施形態では、ＡＶ機器において、ＡＶ処理部３から２チャンネル信号が出力され、スピーカユニット９に含まれる２つのスピーカ９ａおよび９ｂを通じて２チャンネル音響が出力されるものとする。
【００６２】
図２において、音声認識装置７は、モノラル化部１３と、１個のエコーキャンセラ１４と、音声認識部１５とを備えている。スピーカ９ａおよび９ｂへと入力される信号は、図１のＡＶ処理部３から出力される２チャンネル信号である。
【００６３】
スピーカ９ａおよび９ｂへ向かう２チャンネル信号が分岐されてモノラル化部１３に入力され、モノラル化部１３は、その２チャンネル信号をモノラル化する。
マイクロホン６から出力される信号（以下、マイクロホン出力）と、モノラル化部１３から出力される信号（以下、モノラル化信号）とがエコーキャンセラ１４へと与えられ、エコーキャンセラ１４は、そのマイクロホン出力からユーザの音声と対応する信号（以下、ユーザ音声）だけを抽出する。
【００６４】
ここで、エコーキャンセラ１４の動作原理について、簡単に説明する。エコーキャンセラ１４は、適応ディジタルフィルタ１４ａと、減算回路１４ｂとを含む。マイクロホン出力には、ユーザ音声に加え、スピーカ９ａおよび９ｂから出力された音響が屋内を反響してマイクロホン６へと回り込んだ結果生じる信号（以下、反響信号）が含まれている。
【００６５】
適応ディジタルフィルタ１４ａへは、モノラル化信号が入力されると共に、減算回路１４ｂから出力される信号がフィードバックされ、適応ディジタルフィルタ１４ａは、それら２つの信号に基づいて反響信号を推定する。こうして得られた推定反響信号と、マイクロホン出力とが減算回路１４ｂへと与えられ、減算回路１４ｂは、マイクロホン出力から推定反響信号を減算する。これにより、エコーキャンセラ１４からは、反響信号の除去されたユーザ音声が出力される。
【００６６】
音声認識部１５は、エコーキャンセラ１４からのユーザ音声を認識して、その音声が示すコントロール信号を生成する。こうして生成されたコントロール信号は、図１のコントローラ４に伝達され、コントローラ４が受信部２やＡＶ処理部３を制御することによって、テレビジョン受像機において、受信チャンネルの切り換え等の処理が実行される。
【００６７】
図３は、図１の音声認識装置７のハードウエア的な構成を示すブロック図である。図３において、音声認識装置７は、ＣＰＵ１０と、ＲＡＭ１１と、ＲＯＭ１２とを備えている。ＲＯＭ１２には、所定のプログラムが予め格納されている。
このプログラムには、（ａ）２チャンネル信号をモノラル化するためのアルゴリズムや、（ｂ）マイクロホン出力から反響信号を除去するためのアルゴリズム、（ｃ）ユーザ音声を認識してコントロール信号を生成するためのアルゴリズム等が記述されている。ＣＰＵ１０は、ＲＡＭ１１を作業領域として利用しつつ、上記のプログラムに従って動作する。これによって、図２に示される各ブロックの機能が実現される。なお、各ブロックの機能をソフト的に実現する代わりに、各々専用のハード回路によって実現することもできる。
【００６８】
以上のように構成されたＡＶ機器用音声認識装置７について、以下、図４を利用してその動作を述べる。図４は、図２の音声認識装置７において、各構成要素に入力される、または各構成要素から出力される信号の時間波形を示す図である。
まず、スピーカ９ａとスピーカ９ｂとに図４の２１に示す左スピーカ入力と図４の２２に示す右スピーカ入力とが入力されている状態で、ユーザが図４の２３に示す音声を発した場合を考える。この時、マイクロホン６からは、左スピーカ入力２１の反響音と右スピーカ入力２２の反響音とユーザ音声２３とが加算された図４の２４に示すマイクロホン出力信号が出力される。一方、左スピーカ入力２１と右スピーカ入力２２とは、モノラル化部１３にも入力され、ここで加算されて、図４の２５に示すモノラル化信号が得られる。
【００６９】
このモノラル化信号２５がエコーキャンセラ１４に入力され、エコーキャンセラ１４は、このモノラル化信号２５と内部に記憶した推定インパルスレスポンスとから、図４の２６に示す推定反響信号を推定する。エコーキャンセラ１４の内部では、マイクロホン出力信号２４から、推定した推定反響信号２６を差し引きくことにより、図４の２７に示すエコーキャンセラ出力信号を得る。この信号が音声認識部１５に入力される。エコーキャンセラ出力信号２７とユーザ音声２３とマイクロホン出力信号２４とを比較すれば、反響信号がかなり効果的に打ち消されていることがわかる。
【００７０】
次に、なぜステレオ信号（以下では、２チャンネル信号を適宜、ステレオ信号と呼ぶ）が１個のエコーキャンセラ１４で打ち消せるかを説明する。
右チャンネル用のスピーカ９ａからマイクロホン６までの伝達特性（インパルスレスポンス）をＨｒ、左チャンネル用のスピーカ９ｂからマイクロホン６までの伝達特性をＨｌとし、右チャンネル信号をＳｒ、左チャンネル信号をＳｌとすると、マイクロホン６の出力に混入する反響信号Ｓｅは、Ｓｅ＝（Ｓｒ＊Ｈｒ＋Ｓｌ＊Ｈｌ）となる。
【００７１】
この時、もし、左右の伝達特性がほぼ等しくＨｒ≒Ｈｌ（≒Ｈ）なら、Ｓｅ≒（Ｓｒ＋Ｓｌ）＊Ｈとなり、もし、左右のチャンネルの信号がほぼ等しくＳｒ≒Ｓｌ≒Ｓなら、Ｓｅ≒Ｓ＊（Ｈｒ＋Ｈｌ）となる。従って、どちらかの仮定が成り立つ場合には、１個のエコーキャンセラ１４でも打ち消しが可能であることがわかる。
【００７２】
伝達特性ＨｒおよびＨｌを決める最大の要因は、スピーカ９ａおよび９ｂとマイクロホン６との間の距離および部屋の反射構造であるが、実際の聴取状態では、音声認識用のマイクロホン６と、右チャンネル用のスピーカ９ａ，左チャンネル用のスピーカ９ｂとの間の各距離は、例えばマイクロホン６をユーザの手元に置く場合には、当然、ほぼ等距離となる。また、ＴＶの上に設置する場合でも、ＴＶの中央に設置すれば等距離となる。さらに、部屋の反響構造も当然ほぼ同一である。
【００７３】
高域周波数では、波長が短いため僅かな距離差によって位相逆転が生じるので、たとえほぼ等距離といえども位相を含めた伝達特性の一致は不十分である。しかし、低中域周波数では、かなりよく伝達特性が一致している場合が多いので、、Ｈｒ≒Ｈｌの仮定が成立し、１個のエコーキャンセラ１４でもある程度のキャンセル効果が期待できることになる。
【００７４】
さらに、実際のＴＶ番組などでの音づくりでは、センター定位音（モノラル成分）を比較的高いレベルで左右チャンネル均等にミキシングし、このモノラル成分に、左右に定位させる音（ステレオ成分）を比較的低レベルでミキシングしている場合が多い。すなわち、センター音源主体の音づくりがなされており、先の２１と２２で示した左右のスピーカ入力のかなりの部分がモノラル成分である。
このようなセンター音源主体のオーディオ信号の場合には、Ｓｒ≒Ｓｌの仮定が成り立ち、１個のエコーキャンセラ１４を用いたシステムでも、反響音を効果的にキャンセルできることになる。
以上の理由により、実際のＴＶ視聴状態においては、図２のような構成の音声認識装置７でも、かなりのエコーキャンセル効果が得られることが確かめられている。
【００７５】
以上のように、本実施形態によれば、１個のエコーキャンセラのみでステレオソース（２チャンネル信号）に対応できるため、安価なＡＶ機器用音声認識装置が実現できる。また、１個のエコーキャンセラしか使用しないため、エコーキャンセラ間の相互干渉がなく、安定した動作が保証できるという、実用上極めて重要な効果が得られる。
【００７６】
なお、上記第１の実施形態（および下記第２〜４，６〜１３の実施形態）では、図１のＡＶ機器において、ＡＶ処理部３から２チャンネル信号が出力され、スピーカユニット９を通じて２チャンネル音響が拡声されるとしたが、代わりに、ＡＶ処理部３から４チャンネル信号，６チャンネル信号等のマルチチャンネル信号が出力され、スピーカユニット９を通じて４チャンネル音響，６チャンネル音響等のマルチチャンネル音響が出力されてもよい。この場合、図２のモノラル化部１３がマルチチャンネル信号のモノラル化を行うように、ＲＯＭ１２のプログラムの記述（あるいは専用ハード回路の構成）に一部変更を加えればよい。
その場合、モノラル化部１３は、全チャンネルの信号を加算してもよく、あるいは、前方左右中央といった主チャンネル信号だけを加算してもよい。また、加算する際に、各チャンネルを均等に加算するのでなく、重み付けをして加算してもよい。
【００７７】
（第２の実施形態）
図５は、本発明の第２の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。図５の音声認識装置７は、図１のＡＶ機器に設けられた音声認識装置７と対応している。ただし、本実施形態では、ＡＶ機器において、ＡＶ処理部３から２チャンネル信号が出力され、スピーカユニット９に含まれる２つのスピーカ９ａおよび９ｂを通じて２チャンネル音響が出力されるものとする。
【００７８】
図５において、音声認識装置７は、モノラル化部３３と、１個のエコーキャンセラ３４と、音声認識部３５と、音声検出部３７と、切り替え部３６とを備えている。すなわち、図５の音声認識装置７は、図２の音声認識装置７（第１の実施形態）に、音声検出部３７と、切り替え部３６とを追加したものである。スピーカ９ａおよび９ｂへと入力される信号は、図１のＡＶ処理部３から出力される２チャンネル信号である。
【００７９】
スピーカ９ａおよび９ｂへ向かう２チャンネル信号が分岐されてモノラル化部３３に入力され、モノラル化部３３は、その２チャンネル信号をモノラル化する。
マイクロホン６から出力される信号（マイクロホン出力）と、モノラル化部３３から出力される信号（モノラル化信号）とがエコーキャンセラ３４へと与えられ、エコーキャンセラ３４は、そのマイクロホン出力からユーザの音声と対応する信号（以下、ユーザ音声）だけを抽出する。なお、エコーキャンセラ３４の動作原理については、第１の実施形態で説明した。
【００８０】
音声検出部３７へは、モノラル化部３３の出力（モノラル化信号）と、エコーキャンセラ３４の出力（ユーザ音声）とが与えられ、音声検出部３７は、両出力のレベル比に基づいて、ユーザ音声を検出する。切り替え部３６は、音声検出部３７がユーザ音声を検出すると、スピーカ９ａおよび９ｂへの入力を、（非検出時における）２チャンネル信号から、モノラル化信号に切り替える。また、音声検出部３７がユーザ音声を検出している状態から検出しない状態へ変化すると、スピーカ９ａおよび９ｂへの入力を、（検出時における）モノラル化信号から、２チャンネル信号に切り替える。
【００８１】
音声認識部３５は、音声検出部３７がユーザ音声を検出すると、音声認識動作を開始する。すなわち、エコーキャンセラ３４からのユーザ音声を認識して、その音声が示すコントロール信号を生成する。こうして生成されたコントロール信号は、図１のコントローラ４に伝達され、コントローラ４が受信部２やＡＶ処理部３を制御することによって、テレビジョン受像機において、受信チャンネルの切り換え等の処理が実行される。
【００８２】
図５の音声認識装置７のハードウエア的な構成は、図３と同様である。図３において、ＲＯＭ１２には、所定のプログラムが予め格納されている。このプログラムには、第１の実施形態で述べた（ａ）〜（ｃ）のアルゴリズムに加え、さらに（ｄ）ユーザ音声を検出するためのアルゴリズム、および（ｅ）スピーカ９ａおよび９ｂへの入力信号を切り替えるためのアルゴリズムが記述されている。ＣＰＵ１０は、ＲＡＭ１１を作業領域として利用しつつ、上記のプログラムに従って動作する。これによって、図５に示される各ブロックの機能が実現される。なお、各ブロックの機能をソフト的に実現する代わりに、各々専用のハード回路によって実現することもできる。
【００８３】
以上のように構成されたＡＶ機器用音声認識装置７について、以下、図６を利用してその動作を述べる。図６は、図５の音声認識装置７において、各構成要素に入力される、または各構成要素から出力される信号の時間波形を示す図である。
まず、先の第１実施形態で説明したと同様、スピーカ９ａとスピーカ９ｂとに、図６の４１に示す左スピーカ入力と図６の４２に示す右スピーカ入力とが入力されている状態で、ユーザが図６の４３に示す音声を発した場合を考える。この時、モノラル化部３３からは、図６の４４の信号が出力される。図３の音声認識装置７では、音声検出部３７がユーザが音声を発したか否かを判断し、ユーザが音声を発していない図６の４３に示したＡ〜ＢとＣ〜Ｄの期間では、切り替え部３６は、スピーカ９ａおよび９ｂへの入力をステレオ信号側に切り替え、ユーザが音声を発しているＢ〜Ｃの期間では、モノラル信号側に切り替えている。この時、マイクロホン６から出力される信号を、図６の４５に示す。
【００８４】
エコーキャンセラ３４には、常に図６のモノラル化信号４４が入力され、エコーキャンセラ３４は、このモノラル化信号４４と、内部に記憶した推定インパルスレスポンスとから、図６の４６に示す推定反響信号を推定する。エコーキャンセラ３４の内部では、マイクロホン出力信号４５から推定反響信号４６を差し引くことにより、図６の４７に示すエコーキャンセラ出力信号を得る。
【００８５】
図５の音声認識装置７では、音声検出部３７が、モノラル化信号４４とエコーキャンセラ出力信号４７とのレベル比を監視し、モノラル化信号４４のレベルと反響路の伝達特性とから予想される反響信号のレベル以上に、エコーキャンセラ出力信号４７のレベルが上昇した時に、ユーザが音声を発したと判断し、切り替え部３６は、スピーカ９ａおよび９ｂへの入力をモノラル化信号４４に切り替える。スピーカ９ａおよび９ｂへの入力を（Ｓｒ＋Ｓｌ）なるモノラル化信号に切り替えた場合においては、反響信号Ｓｅは、Ｓｅ＝（Ｓｒ＋Ｓｌ）＊（Ｈｒ＋Ｈｌ）となり、原理的に、１個のエコーキャンセラ３４により反響信号を完全に消去できることとなる。先の図２の構成では、Ｓｒ≒Ｓｌの仮定が成り立たないステレオ成分の強いオーディオ信号の場合には、当然、エコーキャンセラ３４の打ち消し効果が損なわれ、音声認識部３５に入力される音声に反響信号が混入して音声認識の性能を悪化させていたが、図５の構成では、この場合においても完全に反響信号を打ち消すことができ、音声認識部３５で精度の高い音声認識が可能となる。
【００８６】
図６の４８に、図５の音声認識装置７におけるエコーキャンセラ出力信号４７中に含まれる反響信号を抜き出して示し、図６の４９に、図２の構成における図２のエコーキャンセラ出力信号２７中に含まれる反響信号を抜き出して示す。この４８と４９を比較すると、本実施の形態では、Ｂ〜Ｃのユーザ音声が入力されている期間において反響信号がより効果的に打ち消され、音声認識のためのＳ／Ｎが大幅に向上していることがわかる。
【００８７】
以上のように、本実施形態によれば、通常はステレオ再生で、ユーザが音声を発した時のみモノラル再生に切り替えることにより、第１の実施形態よりさらにＳ／Ｎのよいユーザ音声を抽出でき、認識性能の向上が図れる。
【００８８】
（第３の実施形態）
図７は、本発明の第３の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。図７の音声認識装置７は、図１のＡＶ機器に設けられた音声認識装置７と対応している。ただし、本実施形態では、ＡＶ機器において、ＡＶ処理部３から２チャンネル信号が出力され、スピーカユニット９に含まれる２つのスピーカ９ａおよび９ｂを通じて２チャンネル音響が出力されるものとする。
【００８９】
図７において、音声認識装置７は、モノラル化部５３と、１個のエコーキャンセラ５４と、音声認識部５５と、起動命令部５８１と、終了命令部５８２と、状態設定部５７と、切り替え部５６とを備えている。すなわち、図７の音声認識装置７は、図２の音声認識装置７（第１の実施形態）に、起動命令部５８１と、終了命令部５８２と、状態設定部５７と、切り替え部５６とを追加したものである。スピーカ９ａおよび９ｂへと入力される信号は、図１のＡＶ処理部３から出力される２チャンネル信号である。
【００９０】
スピーカ９ａおよび９ｂへ向かう２チャンネル信号が分岐されてモノラル化部５３に入力され、モノラル化部５３は、その２チャンネル信号をモノラル化する。
マイクロホン６から出力される信号（マイクロホン出力）と、モノラル化部５３から出力される信号（モノラル化信号）とがエコーキャンセラ５４へと与えられ、エコーキャンセラ５４は、そのマイクロホン出力からユーザの音声と対応する信号（以下、ユーザ音声）だけを抽出する。なお、エコーキャンセラ５４の動作原理については、第１の実施形態で説明した。
【００９１】
起動命令部５８１は、音声認識動作の起動を命令する。終了命令部５８２は、音声認識動作の終了を命令する。状態設定部５７は、起動命令部５８１，終了命令部５８２からの命令を受け、音声認識部５５の動作状態を設定（つまり音声認識動作を”ＯＮ”／”ＯＦＦ”）する。切り替え部５６は、状態設定部５７が音声認識動作を”ＯＮ”状態に設定すると、スピーカ９ａおよび９ｂへの入力を、（”ＯＦＦ”状態における）２チャンネル信号から、モノラル化信号に切り替える。また、”ＯＦＦ”状態に設定すると、スピーカ９ａおよび９ｂへの入力を、（”ＯＮ”状態における）モノラル化信号から、２チャンネル信号に切り替える。
【００９２】
音声認識部５５は、状態設定部５７の設定に従い、音声認識を実行／終了する。すなわち、エコーキャンセラ５４からのユーザ音声を認識して、その音声が示すコントロール信号を生成する。こうして生成されたコントロール信号は、図１のコントローラ４に伝達され、コントローラ４が受信部２やＡＶ処理部３を制御することによって、テレビジョン受像機において、受信チャンネルの切り換え等の処理が実行される。
【００９３】
図７の音声認識装置７のハードウエア的な構成は、図３と同様である。図３において、ＲＯＭ１２には、所定のプログラムが予め格納されている。このプログラムには、第１の実施形態で述べた（ａ）〜（ｃ）のアルゴリズムと、第２の実施形態で述べた（ｅ）のアルゴリズムに加え、さらに（ｆ）音声認識部５５の動作状態を設定するためのアルゴリズムが記述されている。ＣＰＵ１０は、ＲＡＭ１１を作業領域として利用しつつ、上記のプログラムに従って動作する。これによって、図７に示される各ブロックの機能が実現される。
【００９４】
なお、起動命令部５８１，終了命令部５８２は、図１のコントローパネルを構成するボタンによって実現される。また、起動命令部５８１，終了命令部５８２以外の各ブロックの機能をソフト的に実現する代わりに、各々専用のハード回路によって実現することもできる。
【００９５】
以上のように構成されたＡＶ機器用音声認識装置７について、以下、その動作を述べる。
図７の音声認識装置７は、図５の音声認識装置７において、音声検出部３７が行っていた切り替え部５６の制御を、起動命令部５８１および終了命令部５８２と、状態設定部５７とで行う構成である。音声認識機能を利用しようとする場合は、まず、起動命令部５８１により音声認識機能の起動信号が状態設定部５７に送られ、状態設定部５７は、切り替え部５６を制御してスピーカ９ａおよびスピーカ９ｂへの入力信号をステレオ信号からモノラル化信号へ切り替え、音声認識の状態をスピーカ９ａおよび９ｂにステレオ信号が入力された待機状態から、スピーカ９ａおよび９ｂにモノラル化信号が入力された動作状態に移行させる。
【００９６】
動作状態においては、ステレオ感は損なわれるがオーディオ信号の聞き取りには大きな問題はない。すなわち、動作状態においては、反響信号の打ち消し効果は最良の状態にあり、精度の高い音声認識が期待できる一方、ステレオ感が損なわれるため、音声認識機能の利用が終了すると同時に、終了命令部５８２により音声認識機能の終了信号が状態設定部５７に送られ、状態設定部５７は、切り替え部５６を制御してスピーカ９ａおよびスピーカ９ｂへの入力信号をモノラル化信号からステレオ信号へ切り替え、音声認識の状態をスピーカ９ａおよび９ｂにモノラル化信号が入力された動作状態から、スピーカ９ａおよび９ｂにステレオ信号が入力された待機状態に移行させる。
【００９７】
図８は、図７の音声認識装置７において、各構成要素に入力される、または各構成要素から出力される信号の時間波形を示す図である。図８の６１に、動作状態における音声認識部５５への入力信号を示し、６２に、その信号中に含まれる反響信号を示す。この図８の６１，６２の信号と、先の図６の４７，４８の信号とを比較すれば、図７の音声認識装置７では、図５の音声認識装置７よりも語頭や語尾部分のＳ／Ｎが大幅に改善されることがわかる。先の図５の構成では、音声検出に数１０ｍｓｅｃの検出時間を要するため、数１０ｍｓｅｃの語頭部分でのＳ／Ｎが悪く、語頭にある子音を認識しにくいという欠点があったが、図７の構成では、この欠点が完全に解消される。
【００９８】
以上のように、本実施形態によれば、通常はステレオ再生で、音声認識機能を必要とした時のみモノラル再生に切り替えることにより、第２の実施形態よりさらにＳ／Ｎのよいユーザ音声を抽出でき、認識性能のさらなる向上が図れる。
【００９９】
（第４の実施形態）
図９は、本発明の第４の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。図９の音声認識装置７は、図１のＡＶ機器に設けられた音声認識装置７と対応している。ただし、本実施形態では、ＡＶ機器において、ＡＶ処理部３から２チャンネル信号が出力され、スピーカユニット９に含まれる２つのスピーカ９ａおよび９ｂを通じて２チャンネル音響が出力されるものとする。
【０１００】
図９において、音声認識装置７は、完全モノラル化部７５と、モノラル度判定部７６と、任意度モノラル化部７７と、１個のエコーキャンセラ７３と、音声認識部７４と、起動命令部７９２と、終了命令部７９３と、状態設定部７９１と、切り替え部７８とを備えている。すなわち、図９の音声認識装置７は、図７の音声認識装置７（第３の実施形態）に、モノラル度判定部７６と、任意度モノラル化部７７とを追加したものである（なお、完全モノラル化部７５は、任意度モノラル化部７７と区別するために”完全”と呼んでいるが、図７のモノラル化部５３と同様のものである）。スピーカ９ａおよび９ｂへと入力される信号は、図１のＡＶ処理部３から出力される２チャンネル信号である。
【０１０１】
スピーカ９ａおよび９ｂへ向かう２チャンネル信号が分岐されて完全モノラル化部７５に入力され、完全モノラル化部７５は、その２チャンネル信号を完全にモノラル化する。
さらに、スピーカ９ａおよび９ｂへ向かう２チャンネル信号が分岐されてモノラル度判定部７６および任意度モノラル化部７７に入力され、モノラル度判定部７６は、その２チャンネル信号のモノラル度を判定する。任意度モノラル化部７７は、モノラル度判定部７６の判定結果を受けて、その２チャンネル信号を任意の程度にモノラル化する。
【０１０２】
すなわち、任意度モノラル化部７７は、その２チャンネル信号のモノラル度に応じて、その２チャンネル信号のモノラル度を高める処理を施す。そのために、任意度モノラル化部７７は、モノラル度を高める処理をどの強度で行うべきかをモノラル度をもとに決定するための関数（処理強度決定特性；図１２（Ａ）に参照番号１０１で示される）を記憶している。
【０１０３】
ここで、上記２チャンネル信号のモノラル度とは、その信号中に占める、両チャンネルに共通して含まれる信号成分（モノラル成分）の割合をいい、両チャンネルの信号が互いに全く無相関であれば、モノラル度は”０”、同一であれば、モノラル度は”１”となる。
【０１０４】
マイクロホン６から出力される信号（マイクロホン出力）と、完全モノラル化部７５から出力される信号（完全モノラル化信号）とがエコーキャンセラ７３へと与えられ、エコーキャンセラ７３は、そのマイクロホン出力からユーザの音声と対応する信号（以下、ユーザ音声）だけを抽出する。なお、エコーキャンセラ７３の動作原理については、第１の実施形態で説明した。
【０１０５】
起動命令部７９２は、音声認識動作の起動を命令する。終了命令部７９３は、音声認識動作の終了を命令する。状態設定部７９１は、起動命令部７９２，終了命令部７９３からの命令を受け、音声認識部７４の動作状態を設定（つまり音声認識動作を”ＯＮ”／”ＯＦＦ”）する。
【０１０６】
任意度モノラル化部７７から出力される信号（以下、任意度モノラル化信号）と、図１のＡＶ処理部３からの２チャンネル信号とが切り替え部７８へと与えられ、切り替え部７８は、状態設定部７９１が音声認識動作を”ＯＮ”状態に設定すると、スピーカ９ａおよび９ｂへの入力を、（”ＯＦＦ”状態における）２チャンネル信号から、任意度モノラル化信号に切り替える。また、”ＯＦＦ”状態に設定すると、スピーカ９ａおよび９ｂへの入力を、（”ＯＮ”状態における）任意度モノラル化信号から、２チャンネル信号に切り替える。
【０１０７】
音声認識部７４は、状態設定部７９１の設定に従い、音声認識を実行／終了する。すなわち、エコーキャンセラ７３からのユーザ音声を認識して、その音声が示すコントロール信号を生成する。こうして生成されたコントロール信号は、図１のコントローラ４に伝達され、コントローラ４が受信部２やＡＶ処理部３を制御することによって、テレビジョン受像機において、受信チャンネルの切り換え等の処理が実行される。
【０１０８】
図９の音声認識装置７のハードウエア的な構成は、図３と同様である。図３において、ＲＯＭ１２には、所定のプログラムが予め格納されている。このプログラムには、第１の実施形態で述べた（ａ）〜（ｃ）のアルゴリズムと、第２の実施形態で述べた（ｅ）のアルゴリズムと、第３の実施形態で述べた（ｆ）のアルゴリズムとに加え、さらに（ｇ）２チャンネル信号のモノラル度を判定するためのアルゴリズム、および（ｈ）２チャンネル信号を任意の程度にモノラル化するためのアルゴリズムが記述されている。ＣＰＵ１０は、ＲＡＭ１１を作業領域として利用しつつ、上記のプログラムに従って動作する。これによって、図９に示される各ブロックの機能が実現される。
【０１０９】
なお、起動命令部７９２，終了命令部７９３は、図１のコントローパネルを構成するボタンによって実現される。また、起動命令部７９２，終了命令部７９３以外の各ブロックの機能をソフト的に実現する代わりに、各々専用のハード回路によって実現することもできる。
【０１１０】
以上のように構成されたＡＶ機器用音声認識装置７について、以下、その動作を述べる。
図７の音声認識装置７では、音声認識の動作状態（”ＯＮ”状態）においては、ステレオ信号を完全にモノラル化してからスピーカ９ａおよび９ｂで再生しているため、ステレオ感がまったく無いという欠点があった。一方、音声認識の動作状態でもステレオ再生を行った図２の音声認識装置７では、Ｓｒ≒Ｓｌの仮定が大きく崩れるモノラル度の低いオーディオ信号が入力している時に、エコーキャンセラ１４のエコー打ち消し量が大きく悪化するという欠点を有していた。ただし、前述したように、通常のＴＶなどのステレオ番組にあっては、エコーキャンセラ１４の打ち消し量を大きく悪化させるほど、相関の低いオーディオ信号が左右のチャンネルにミキシングされている場面は少なく、左右均等にミキシングしたセンター音源に比較的弱いレベルで左右の音源をミキシングしている場面がほとんどである。このため、たとえステレオ放送であっても、左右のチャンネル間の相関が極めて強いＳｒ≒Ｓｌの仮定が成り立つ時間が多い。問題は、相関の低い時間をどう乗り切るかである。
【０１１１】
そこで、本実施形態では、エコーキャンセラ７３へは常に、完全モノラル化部７５で完全にモノラル化信号を入力しているが、スピーカ９ａおよび９ｂへは、音声認識の待機状態（”ＯＦＦ”状態）ではステレオ信号を、動作状態では任意度モノラル化部７７の出力を入力する。モノラル度判定部７６が信号のモノラル度を監視し、モノラル度が低いと判定された時にのみ、任意度モノラル化部７７は、モノラル化処理の程度を強める。それによって、左右のチャンネルで常に一定以上の相関が確保できるようになる。
【０１１２】
音声認識機能を利用しようとする場合は、まず、先の図７の音声認識装置７と同様に、図９の起動命令部７９２により音声認識機能の起動信号が状態設定部７９１に送られ、状態設定部７９１は、切り替え部７８を制御してスピーカ９ａおよび９ｂへの入力信号をステレオ信号から任意度モノラル化部７７の出力に切り替え、音声認識の状態をスピーカ９ａおよび９ｂにステレオ信号が入力された待機状態から、スピーカ９ａおよび９ｂに任意度合モノラル化信号が入力された動作状態に移行させる。モノラル度判定部７６が常にオーディオ信号のモノラル度を監視しており、モノラル度が低いと判定された時にのみ、任意度モノラル化部７７が任意度モノラル化処理を行う。モノラル度の低い一瞬の時間だけオーディオ信号のステレオ感が損なわれるが、十分なエコー打ち消し量が得られる。
【０１１３】
図１０に、図９のモノラル度判定部７６の詳細を示す。図１０において、モノラル度判定部７６は、加算器８１と、減算器８２と、レベル比較器８３と、モノラル度計算部８４とを含む。
【０１１４】
完全なモノラル信号の場合は、Ｓｒ＝Ｓｌであるから、加算器８１の出力は２Ｓｒとなり、減算器８２の出力は”０”となり、｛（減算器８２の出力レベル）／（加算器８１の出力レベル）｝を求めるレベル比較器８３の出力も”０”になる。一方、完全なステレオ信号の場合、すなわちＳｒとＳｌとが完全に無相関である場合には、加算器８１の出力はＳｒ＋Ｓｌ、減算器８２の出力はＳｒ−Ｓｌになる。ＳｒとＳｌとが完全に無相関であるから、Ｓｒ＋Ｓｌのレベルと、Ｓｒ−Ｓｌのレベルとは等しく、レベル比較器８３の出力は”１”になる。次に、モノラル度計算部８４が｛１−（レベル比較器出力）｝を計算し、モノラル度判定部７６は、完全なモノラル信号では”１”を、完全なステレオ信号では”０”を出力する。
【０１１５】
このように、モノラル度判定部７６は、入力信号のモノラル度に応じて１〜０の間の値を出力し、この値を監視することにより、入力信号のモノラル度を判定することができる。
【０１１６】
図１１に、図９の任意度モノラル化部７７の詳細を示す。図１１において、任意度モノラル化部７７は、処理強度決定部９１と、減衰器９２１〜９２４と、加算器９３１および９３２とを含む。
図１０のモノラル度計算部８４の出力が、図１１の処理強度決定部９１に入力され、処理強度決定部９１は、この値に応じてモノラル化の処理強度を決定する。この処理強度に応じて、減衰器９２１〜９２４の減衰量が制御される。
【０１１７】
図１２は、図１１の処理強度決定部９１が行うモノラル化処理の強度、および図１１の減衰器９２１〜９２４を通じて実現される利得（減衰量）を示す図である。
図１２（Ａ）において、特性１０１は、図１１の処理強度決定部９１に入力されたモノラル度と、処理強度決定部９１から出力される処理強度との関係を示す。図１２（Ｂ）において、特性１０２および特性１０３は、この処理強度決定部９１から出力される処理強度により、減衰器９２１〜９２４の利得がどのように制御されるかを示している。特性１０２が減衰器９２１および減衰器９２４の利得を示し、特性１０３が減衰器９２２および減衰器９２３の利得を示している。
【０１１８】
本実施形態においては、処理強度決定部９１は、入力信号のモノラル度が１．０〜０．５の範囲では、特性１０１に示すように、減衰器９２１〜９２４に対し、モノラル化処理強度として”０”を出力する。モノラル化処理強度が”０”の時、任意度モノラル化部７７は、特性１０２と特性１０３とからからるように、モノラル化処理を行わない。
【０１１９】
処理強度決定部９１は、入力信号のモノラル度が０．５以下になった場合にのみ”０”以上のモノラル度処理強度を出力する。たとえばモノラル度”０”の完全なステレオ信号が入力された場合は、処理強度決定部９１は、減衰器９２１〜９２４に対し、モノラル化処理強度として”０．５”を出力し、この時、任意度モノラル化部７７からは、”０．５”のモノラル度をもつ信号が出力される。
【０１２０】
図１２に示す制御方式に従えば、モノラル化の処理強度が”０”の時には、右チャンネル信号がＳｒ、左チャンネル信号がＳｌになり、図１のＡＶ処理部３からのステレオ信号がそのままスピーカ９ａおよび９ｂに入力される。処理強度が”１”の時には、両チャンネルとも｛（Ｓｒ＋Ｓｌ）／２｝となり、完全にモノラル化された信号がスピーカ９ａおよび９ｂに入力される。図１２に示す特性では、処理強度の最大値が０．５に制限されている。このような範囲に制限する理由は、聴感上の自然性を確保しつつ、実用上十分なエコー打ち消し量を得られるようにするためである。
【０１２１】
このようにモノラル化の程度を制限しても、音声認識の動作状態においては、短時間ではあるがオーディオ信号のステレオ感が損なわれる。そこで、音声認識機能の利用が終了すると同時に、終了命令部７９３から音声認識機能の終了信号が状態設定部７９１に送られ、状態設定部７９１は、切り替え部７８を制御してスピーカ９ａおよび９ｂへの入力信号を任意度モノラル化部７７の出力からステレオ信号へ切り替え、音声認識の状態を、スピーカ９ａおよび９ｂに任意度モノラル化信号が入力された動作状態から、スピーカ９ａおよび９ｂにステレオ信号が入力された待機状態に切り替える。
これにより、ある程度以上のステレオ感を確保しながら、常に十分なエコー打ち消し量を得ることができる。
【０１２２】
以上のように、本実施形態によれば、音声認識機能の動作状態にあっても、普通のステレオ信号の場合はそのまま再生し、極端にモノラル度の低いステレオ信号だけに対してモノラル化処理を加えることにより、第３の実施形態よりも若干はエコー打ち消し効果は落ちるが、常に一定レベル以上のエコー打ち消し量を確保しつつ、ステレオ感の悪化をはるかに小さく抑えることができる。
【０１２３】
（第５の実施形態）
図１３は、本発明の第５の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。図１３の音声認識装置７は、図１のＡＶ機器に設けられた音声認識装置７と対応している。ただし、本実施形態では、ＡＶ機器において、ＡＶ処理部３から４チャンネル信号が出力され、スピーカユニット９に含まれる４つのスピーカ９ａ〜９ｄを通じて４チャンネル音響が出力されるものとする。
【０１２４】
図１３において、音声認識装置７は、２チャンネル化部１１５と、モノラル化部１１６と、１個のエコーキャンセラ１１３と、音声認識部１１４と、起動命令部１１９２と、終了命令部１１９３と、音声検出部１１７と、状態設定部１１９１と、切り替え部１１８とを備えている。すなわち、図１３の音声認識装置７は、図７の音声認識装置７（第３の実施形態）において、２つの選択肢の間で切り替えを行う切り替え部５６を、３つの選択肢の間で切り替えを行う切り替え部１１８に置き換えた上、２チャンネル化部１１５と、音声検出部１１７とを追加したものである。音声検出部１１７は、図５の音声検出部３７（第２の実施形態を参照）と同じものである。スピーカ９ａ〜９ｄへと入力される信号は、図１のＡＶ処理部３から出力される４チャンネル信号である。
【０１２５】
スピーカ９ａ〜９ｄへ向かう４チャンネル信号が分岐されて２チャンネル化部１１５に入力され、２チャンネル化部１１５は、その４チャンネル信号を２チャンネル化する。２チャンネル化部１１５の出力（以下、２チャンネル化信号）は、モノラル化部１１６に入力され、モノラル化部１１６は、その２チャンネル化信号をモノラル化する。
【０１２６】
マイクロホン６から出力される信号（マイクロホン出力）と、モノラル化部１１６から出力される信号（モノラル化信号）とがエコーキャンセラ１１３へと与えられ、エコーキャンセラ１１３は、そのマイクロホン出力からユーザの音声と対応する信号（以下、ユーザ音声）だけを抽出する。なお、エコーキャンセラ１１３の動作原理については、第１の実施形態で説明した。
【０１２７】
起動命令部１１９２は、音声認識動作の起動を命令する。終了命令部１１９３は、音声認識動作の終了を命令する。状態設定部１１９１は、起動命令部１１９２，終了命令部１１９３からの命令を受け、音声認識部１１４の動作状態を設定（つまり音声認識動作を”ＯＮ”／”ＯＦＦ”）する。
音声検出部１１７へは、モノラル化部１１６の出力（モノラル化信号）と、エコーキャンセラ１１３の出力（ユーザ音声）とが与えられ、音声検出部１１７は、両出力のレベル比に基づいて、ユーザ音声を検出する。
【０１２８】
モノラル化部１１６から出力される信号（モノラル化信号）と、２チャンネル化部１１５から出力される信号（２チャンネル化信号）と、図１のＡＶ処理部３からの４チャンネル信号とが切り替え部１１８へと与えられ、切り替え部１１８は、状態設定部１１９１が音声認識動作を”ＯＮ”状態に設定すると、スピーカ９ａ〜９ｄへの入力を、（”ＯＦＦ”状態における）４チャンネル信号から、２チャンネル化信号に切り替える。さらに、この”ＯＮ”状態において、音声検出部１１７がユーザ音声を検出すると、スピーカ９ａ〜９ｄへの入力を、（”ＯＮ”状態における）２チャンネル化信号から、モノラル化信号に切り替える。また、切り替え部１１８は、状態設定部１１９１が音声認識動作を”ＯＦＦ”状態に設定すると、スピーカ９ａ〜９ｄへの入力を、（”ＯＮ”状態における）２チャンネル化信号またはモノラル化信号から、４チャンネル信号に切り替える。
【０１２９】
音声認識部１１４は、状態設定部１１９１の設定に従い、音声認識を実行／終了する。すなわち、エコーキャンセラ１１３からのユーザ音声を認識して、その音声が示すコントロール信号を生成する。こうして生成されたコントロール信号は、図１のコントローラ４に伝達され、コントローラ４が受信部２やＡＶ処理部３を制御することによって、テレビジョン受像機において、受信チャンネルの切り換え等の処理が実行される。
【０１３０】
図１３の音声認識装置７のハードウエア的な構成は、図３と同様である。図３において、ＲＯＭ１２には、所定のプログラムが予め格納されている。このプログラムには、第１の実施形態で述べた（ａ）〜（ｃ）のアルゴリズムと、第２の実施形態で述べた（ｄ）および（ｅ）のアルゴリズム（ただしスピーカへの入力信号を切り替える際の選択肢の数は異なる）と、第３の実施形態で述べた（ｆ）のアルゴリズムとに加え、さらに（ｉ）４チャンネル信号を２チャンネル化するためのアルゴリズムが記述されている。ＣＰＵ１０は、ＲＡＭ１１を作業領域として利用しつつ、上記のプログラムに従って動作する。これによって、図１３に示される各ブロックの機能が実現される。
【０１３１】
なお、起動命令部１１９２，終了命令部１１９３は、図１のコントローパネルを構成するボタンによって実現される。また、起動命令部１１９２，終了命令部１１９３以外の各ブロックの機能をソフト的に実現する代わりに、各々専用のハード回路によって実現することもできる。
【０１３２】
以上のように構成されたＡＶ機器用音声認識装置７について、以下、その動作を述べる。
４チャンネルステレオでは、３６０°の音像定位を特徴とする音づくりがなされているため、チャンネル間の相関が極めて弱い。そのため、図１のスピーカユニット９に含まれる４つのスピーカ９ａ〜９ｄを通じて４チャンネルステレオ信号を再生する場合、図２の音声認識装置７では、十分なエコー打ち消し量が得られず、その結果、正確な音声認識が行えないことが多い。そこで、図５の音声認識装置７や、図７の音声認識装置７、図９の音声認識装置７のように、音声認識の動作状態においてのみ、あるいはユーザが音声を発した時のみ、スピーカ９ａ〜９ｄからの音響をモノラル化して、必要なエコー打ち消し量を確保しようということになる。
【０１３３】
ところが、４チャンネルステレオ信号を一気にモノラル信号にまで変換してユーザに聴かせたのでは、ステレオ感（立体感）の喪失によるユーザの不満が極めて大きい。そこで、本実施形態では、音声認識の動作状態においては、４チャンネル信号を２チャンネル化して２チャンネルステレオ音響をユーザに聴かせ、さらに、この動作状態においてユーザが音声を発した時のみ、モノラル化音響をユーザに聴かせる。これにより、動作状態においても、そこそこのステレオ感を保持しながら、十分なエコー打ち消し量を確保できる。
【０１３４】
図１３において、入力された４チャンネル信号から、２チャンネル化部１１５で２チャンネル化信号が、モノラル化部１１６でモノラル化信号が生成される。
エコーキャンセラ１１３には、常にモノラル化信号が入力される。音声認識機能を利用しない待機状態では、４チャンネル信号がスピーカ９ａ〜９ｄに入力されている。
【０１３５】
音声認識機能を利用しようとする場合は、まず、図１１の起動命令部１１９２により音声認識機能の起動信号が状態設定部１１９１に送られ、状態設定部１１９１は、切り替え部１１８を制御して、スピーカ９ａ〜９ｄへの入力信号を４チャンネル信号から２チャンネル化信号に切り替え、音声認識の状態をスピーカ９ａ〜９ｄに４チャンネル信号が入力された待機状態から、スピーカ９ａ〜９ｄに２チャンネル化信号が入力された動作状態に移行させる。４チャンネルから２チャンネルへの変換は、右の前後チャンネルの信号を加算して右チャンネル信号とし、左の前後チャンネル信号を加算して左チャンネル信号とすることにより可能である。モノラル化は、上記４つのチャンネル信号を加算するか、あるいは左右２つの２チャンネル化信号を加算することにより行える。
【０１３６】
動作状態においては、音声検出部１１７が、モノラル化信号とエコーキャンセラ出力信号のレベルを監視し、モノラル化信号から予想されるレベル以上にエコーキャンセラ出力信号のレベルが上昇した時に、ユーザが音声を発したと判断し、切り替え部１１８がスピーカ９ａ〜９ｄの入力を２チャンネル化信号からモノラル化信号に切り替える。
【０１３７】
以上のように、本実施形態によれば、音声認識機能を利用しない時は４チャンネル再生、音声認識の機能を働かせた時は２チャンネル再生、音声の入力時はモノラル再生というように、再生モードを段階的に切り替えることによって、待機状態においてもそこそこのステレオ感が確保でき、しかも、十分なエコー打ち消し量を得ることが可能となる。
【０１３８】
（第６の実施形態）
図１４は、本発明の第６の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。図１４の音声認識装置７は、図１のＡＶ機器に設けられた音声認識装置７と対応している。ただし、本実施形態では、ＡＶ機器において、ＡＶ処理部３から２チャンネル信号が出力され、スピーカユニット９に含まれる２つのスピーカ９ａおよび９ｂを通じて２チャンネル音響が出力されるものとする。
【０１３９】
図１４において、音声認識装置７は、モノラル化部１２５と、１個のエコーキャンセラ１２３と、音声認識部１２４と、起動命令部１２８２と、終了命令部１２８３と、状態設定部１２８１と、切り替え部１２７と、適応音発生部１２６とを備えている。すなわち、図１４の音声認識装置７は、図７の音声認識装置７（第３の実施形態）に、適応音発生部１２６を追加したものである。スピーカ９ａおよび９ｂへと入力される信号は、図１のＡＶ処理部３から出力される２チャンネル信号である。
【０１４０】
適応音発生部１２６は、状態設定部１２８１の設定に関連して、モノラルの適応音を発生する。すなわち、状態設定部１２８１の設定によって音声認識動作が”ＯＦＦ”状態から”ＯＮ”状態へと移行するのを受け、適応音発生部１２６は、モノラルの適応音を発生する。
【０１４１】
上記の適応音は、エコーキャンセラ１２３の適応動作を促進する作用を有する。すなわち、音声認識動作が”ＯＦＦ”状態から”ＯＮ”状態へと移行するのに伴い、スピーカ９ａおよび９ｂからの出力が２チャンネル音響からモノラル化音響へと切り替わるが、この切り替わり直後のスピーカ９ａおよび９ｂ出力のレベルが０（つまり無音響）または０に近い値であったとすると、エコーキャンセラ１２３では、２チャンネルに適応していたディジタルフィルタ１２３ａのモノラルへの適応が進行しない。
【０１４２】
この時突然、スピーカ９ａおよび９ｂから高レベルのモノラル化音響が出力されると、エコーキャンセラ１２３は、その音響を打ち消すことができない。その結果、音声認識部１２４に反響音が混入し、ユーザ音声を正確に認識できなくなる恐れがある。そこで、音声認識動作が”ＯＦＦ”状態から”ＯＮ”状態へと移行する際、スピーカ９ａおよび９ｂからモノラルの適応音響が出力されるようにして、ディジタルフィルタ１２３を強制的にモノラルに適応させる。
適応音発生部１２６以外の構成要素の動作は、第３の実施形態と同様なので、説明を省略する。
【０１４３】
図１４の音声認識装置７のハードウエア的な構成は、図３と同様である。図３において、ＲＯＭ１２には、所定のプログラムが予め格納されている。このプログラムには、第１の実施形態で述べた（ａ）〜（ｃ）のアルゴリズムと、第２の実施形態で述べた（ｅ）のアルゴリズムと、第３の実施形態で述べた（ｆ）のアルゴリズムとに加え、さらに（ｊ）適応音を発生するためのアルゴリズム（あるいは適応音のサンプリングデータ）が記述されている。ＣＰＵ１０は、ＲＡＭ１１を作業領域として利用しつつ、上記のプログラムに従って動作する。これによって、図１４に示される各ブロックの機能が実現される。
【０１４４】
なお、起動命令部１２８２，終了命令部１２８３は、図１のコントローパネルを構成するボタンによって実現される。また、起動命令部１２８２，終了命令部１２８３以外の各ブロックの機能をソフト的に実現する代わりに、各々専用のハード回路によって実現することもできる。
【０１４５】
以上のように構成されたＡＶ機器用音声認識装置７について、以下、その動作を述べる。
図１４の音声認識装置７は、図７の音声認識装置７が持つ欠点、すなわち、音声認識の待機状態から動作状態への移行直後において、エコーキャンセラ５４のエコー打ち消し量が十分ではないという欠点を解決するものである。
【０１４６】
図７の音声認識装置７では、音声認識の待機状態において、スピーカ９ａおよび９ｂにはステレオ信号が、エコーキャンセラ５４にはモノラル化信号が入力されているため、エコーキャンセラ５４の適応は十分なものではなく、完全なエコー打ち消しが行えない。そこで、音声認識機能を利用しようとする時に、動作状態に移行してスピーカ９ａおよび９ｂへの入力信号をモノラル化信号に切り替えることによりエコーキャンセラ５４を十分に適応させ、完全なエコー打ち消しを行わせるようにしていた。しかし、そのようにしても、スピーカ９ａおよび９ｂから音が出ない限りは、エコーキャンセラ５４の適応は進まない。従って、切り替え直後から長い無音区間が続き、ユーザが音声を入力中にスピーカ９ａおよび９ｂから音が出始めた時には、スピーカ９ａおよび９ｂからの反響音を十分に打ち消せないことになる。
【０１４７】
そこで、図１４の音声認識装置７では、待機状態から動作状態への移行の直後に、適応音発生部１２６からスピーカ９ａおよび９ｂに、エコーキャンセラ１２３の適応を促進するためのモノラルの適応音を数秒間入力する構成としている。
適応音としては、「音声入力をお願いします」などの合成音声が考えられる。
【０１４８】
以上のように、本実施形態によれば、待機状態から動作状態に移行した直後に、モノラルの適応音をスピーカ９ａおよび９ｂから出力させることにより、移行直後であっても、十分なエコー打ち消し量を保証することが可能となる。
【０１４９】
（第７の実施形態）
図１５は、本発明の第７の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。図１５の音声認識装置７は、図１のＡＶ機器に設けられた音声認識装置７と対応している。ただし、本実施形態では、ＡＶ機器において、ＡＶ処理部３から２チャンネル信号が出力され、スピーカユニット９に含まれる２つのスピーカ９ａおよび９ｂを通じて２チャンネル音響が出力されるものとする。
【０１５０】
図１５において、音声認識装置７は、モノラル化部１３５と、１個のエコーキャンセラ１３３と、音声認識部１３４と、起動命令部１３８２と、終了命令部１３８３と、状態設定部１３８１と、切り替え部１３６と、打ち消し監視部１３７１と、音声検出部１３７２と、減衰部１３７３とを備えている。すなわち、図１５の音声認識装置７は、図７の音声認識装置７（第３の実施形態）に、打ち消し監視部１３７１と、音声検出部１３７２と、減衰部１３７３とを追加したものである。スピーカ９ａおよび９ｂへと入力される信号は、図１のＡＶ処理部３から出力される２チャンネル信号である。
【０１５１】
打ち消し監視部１３７１へは、モノラル化部１３５の出力（モノラル化信号）と、エコーキャンセラ１３３の出力（ユーザ音声）とが与えられ、各出力のレベル変動を監視することにより、エコーキャンセラ１３３において反響音が十分打ち消されているか（つまり、ディジタルフィルタ１３３ａのモノラルへの適応が十分進んでいるか）を判定する。すなわち、モノラル化信号のレベルが急激に立ち上がった時、ユーザ音声のレベルも急に立ち上がれば、反響音は十分には打ち消されていないことになり、逆に、ほとんど立ち上がらなければ、反響音は十分に打ち消されているといえる。
【０１５２】
減衰部１３７３は、打ち消し監視部１３７１の監視結果、および状態設定部１３８１の設定に関連して、図１のＡＶ処理部３から入力される２チャンネル信号を減衰させる。すなわち、エコーキャンセラ１３３において反響音が十分には打ち消されていない時に、状態設定部１３８１の設定によって音声認識動作が”ＯＦＦ”状態から”ＯＮ”状態へと移行するのを受け、減衰部１３７３は２チャンネル信号を一時的に減衰させる。
【０１５３】
上記のようにして２チャンネル信号を減衰させれば、音声認識部１３４への反響音の混入を防止することができる。すなわち、音声認識動作が”ＯＦＦ”状態から”ＯＮ”状態へと移行するのに伴い、スピーカ９ａおよび９ｂからの出力が２チャンネル音響からモノラル化音響へと切り替わるが、この切り替わり直後のスピーカ出力のレベルが０（つまり無音響）または０に近い値であったとすると、エコーキャンセラ１３３では、２チャンネルに適応していたディジタルフィルタ１３３ａのモノラルへの適応が進行しない。
【０１５４】
この時突然、スピーカ９ａおよび９ｂから高レベルのモノラル化音響が出力されると、エコーキャンセラ１３３は、その音響を打ち消すことができない。そこで、反響音が十分には打ち消されていない場合には、音声認識動作が”ＯＦＦ”状態から”ＯＮ”状態へと移行する際に、スピーカ９ａおよび９ｂから出力されるモノラル化信号のレベルを低下させることによって、音声認識部１３４への反響音の混入を防止する。
打ち消し監視部１３７１、音声検出部１３７２および減衰部１３７３以外の構成要素の動作は、第３の実施形態と同様なので、説明を省略する。
【０１５５】
図１５の音声認識装置７のハードウエア的な構成は、図３と同様である。図３において、ＲＯＭ１２には、所定のプログラムが予め格納されている。このプログラムには、第１の実施形態で述べた（ａ）〜（ｃ）のアルゴリズムと、第２の実施形態で述べた（ｅ）のアルゴリズムと、第３の実施形態で述べた（ｆ）のアルゴリズムとに加え、さらに（ｋ）反響音が十分打ち消されているかを監視するためのアルゴリズム、および（ｌ）スピーカへの２チャンネル信号を減衰させるためのアルゴリズムが記述されている。ＣＰＵ１０は、ＲＡＭ１１を作業領域として利用しつつ、上記のプログラムに従って動作する。これによって、図１５に示される各ブロックの機能が実現される。
【０１５６】
なお、起動命令部１３８２，終了命令部１３８３は、図１のコントローパネルを構成するボタンによって実現される。また、起動命令部１３８２，終了命令部１３８３以外の各ブロックの機能をソフト的に実現する代わりに、各々専用のハード回路によって実現することもできる。
【０１５７】
以上のように構成されたＡＶ機器用音声認識装置７について、以下、その動作を述べる。
図１５の音声認識装置７は、先の図１４の音声認識装置７と同様、図７の音声認識装置７が持つ欠点、すなわち、待機状態から動作状態への移行直後において、エコーキャンセラ５４のエコー打ち消し量が十分ではないという欠点を解決するものである。
【０１５８】
図１５の音声認識装置７には、前述のように、モノラル化部１３５の出力信号レベルと、エコーキャンセラ１３３の出力信号レベルとを監視して、反響音が十分打ち消されているかを判定する打ち消し監視部１３７１と、モノラル化部１３５の出力信号レベルと、エコーキャンセラ１３３の出力信号レベルとを監視して、ユーザが音声を発したか否かを判断する音声検出部１３７２と、スピーカ９ａおよび９ｂへの入力信号を減衰させる減衰部１３７３とが設けられている。待機状態から動作状態に移行した直後は、エコーキャンセラ１３３の適応が完全ではなく、当然、エコーキャンセラ１３３におけるエコー打ち消し効果も悪い。もし、動作状態への移行後、スピーカ９ａおよび９ｂへの入力信号において無音区間が続き、エコーキャンセラ１３３が適応できないうちに、ユーザが音声を発し、しかも、ユーザが音声を発している最中にスピーカ９ａおよび９ｂから音が出始めた時、エコーキャンセラ１３３は、スピーカ９ａおよび９ｂからの反響音を十分に打ち消すことができず、音声認識部１３４への音声にスピーカ９ａおよび９ｂからの反響音が混入することになる。
【０１５９】
そこで、本実施形態では、音声検出部１３７２と減衰部１３７３とを設け、モノラル化信号において無音区間が続いており、エコーキャンセラ１３３によって反響音が十分打ち消されてないと打ち消し監視部１３７１が判定し、しかも音声検出部１３７２がユーザ音声を検出した時、減衰部１３７３によりスピーカ９ａおよび９ｂへの入力信号を減衰させ、それによって、ユーザ音声への反響音の混入を少なくしている。ユーザが音声を発しない状態でスピーカ９ａおよび９ｂへのモノラル化信号が無音から有音となった場合には、減衰部１３７３の減衰量を”０”とし、スピーカ９ａおよび９ｂから出力されるモノラル化音響を適応音として、エコーキャンセラ１３３の適応を促進する。また、エコーキャンセラ１３３の適応が進み、残存エコーが小さくなった場合には、音声検出時においても減衰量は”０”に制御される。
【０１６０】
以上のように、本実施形態によれば、待機状態（音声認識動作が”ＯＦＦ”の状態）から動作状態（”ＯＮ”の状態）に移行した直後のエコー打ち消し量が十分でない状態においてユーザが音声を発した時、これを検知してスピーカ９ａおよび９ｂへの入力信号に適切な減衰を挿入して、スピーカ９ａおよび９ｂからの音響のレベルを下げ、それによって反響音の混入を防止するので、エコー打ち消し量が十分でない状態における音声認識性能が高まる。
【０１６１】
（第８の実施形態）
図１６は、本発明の第８の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。図１６の音声認識装置７は、図１のＡＶ機器に設けられた音声認識装置７と対応している。ただし、本実施形態では、ＡＶ機器において、ＡＶ処理部３から２チャンネル信号が出力され、スピーカユニット９に含まれる２つのスピーカ９ａおよび９ｂを通じて２チャンネル音響が出力されるものとする。
【０１６２】
図１６において、音声認識装置７は、モノラル化部１４５と、１個のエコーキャンセラ１４３と、音声認識部１４４と、起動命令部１４８２と、終了命令部１４８３と、状態設定部１４８１と、切り替え部１４６と、適応制御部１４７とを備えている。すなわち、図１６の音声認識装置７は、図７の音声認識装置７（第３の実施形態）に、適応制御部１４７を追加したものである。スピーカ９ａおよび９ｂへと入力される信号は、図１のＡＶ処理部３から出力される２チャンネル信号である。
【０１６３】
適応制御部１４７は、状態設定部１４８１の設定に関連して、エコーキャンセラ１４３内の適応ディジタルフィルタ１４３ａの適応速度を制御する。すなわち、ディジタルフィルタ１４３ａは、入力信号への適応速度が可変であり、適応制御部１４７は、モノラル用の速い適応速度と、２チャンネル用の遅い適応速度とを予め記憶している。そして、状態設定部１４８１の設定によって音声認識動作が”ＯＦＦ”状態から”ＯＮ”状態へと移行する（それに伴い、スピーカ出力が２チャンネル音響からモノラル音響に切り替わる）のを受け、適応制御部１４７は、ディジタルフィルタ１４３ａの適応速度を、遅い適応速度から速い適応速度に変更する。また、音声認識動作が”ＯＮ”状態から”ＯＦＦ”状態へと移行するのを受け、ディジタルフィルタ１４３ａの適応速度を、速い適応速度から遅い適応速度に変更する。
適応制御部１４７以外の構成要素の動作は、第３の実施形態と同様なので、説明を省略する。
【０１６４】
図１６の音声認識装置７のハードウエア的な構成は、図３と同様である。図３において、ＲＯＭ１２には、所定のプログラムが予め格納されている。このプログラムには、第１の実施形態で述べた（ａ）〜（ｃ）のアルゴリズムと、第２の実施形態で述べた（ｅ）のアルゴリズムと、第３の実施形態で述べた（ｆ）のアルゴリズムとに加え、さらに（ｍ）エコーキャンセラの適応速度を制御するためのアルゴリズムが記述されている。ＣＰＵ１０は、ＲＡＭ１１を作業領域として利用しつつ、上記のプログラムに従って動作する。これによって、図１６に示される各ブロックの機能が実現される。
【０１６５】
なお、起動命令部１４８２，終了命令部１４８３は、図１のコントローパネルを構成するボタンによって実現される。また、起動命令部１４８２，終了命令部１４８３以外の各ブロックの機能をソフト的に実現する代わりに、各々専用のハード回路によって実現することもできる。
【０１６６】
以上のように構成されたＡＶ機器用音声認識装置７について、以下、その動作を述べる。
よく知られているように、エコーキャンセラ１４３の適応は、その出力が”０”になる方向に、推定インパルスレスポンスを逐次修正していくものである。スピーカ９ａおよび９ｂとマイクロホン６との間の系（反響路）のインパルスレスポンスは、家具、人、窓、カーテンなどの影響を受けて刻々と変化するため、適応動作なくしては満足な打ち消し量が得られない。ただし、騒音のように、インパルスレスポンスをいかに修正しても消去できない信号がエコーキャンセラ１４３への入力信号に含まれている場合には、推定インパルスレスポンスにおいて誤差が生じ、この誤差がエコー打ち消し量を悪化させる。
【０１６７】
推定インパルスレスポンスの逐次修正において、１回当たりの修正量を変えることにより、適応速度を制御することができる。１回当たりの修正量が大きいと適応速度が速くなり、修正量が小さいと適応速度が遅くなる。適応速度を速めると、系の変動には強い（つまり反響路のインパルスレスポンス変動に素早く追従できる）が、雑音には弱くなる（つまり雑音によって適応動作が不安定となりやすい）。逆に、適応速度を遅くすると、系の変動には弱くなるが、雑音には強くなる。従って、実際の装置では、系の変動への追従性と耐雑音性との両方をそこそこ満足するような適応速度が選ばれていた。
【０１６８】
図７の音声認識装置７では、音声認識の動作状態においては、スピーカ９ａおよび９ｂからモノラル化された音響が出力され、そのモノラル化音響の反響音をモノラル化信号で打ち消すため、比較的速い適応速度でも良好な動作が可能である。ところが、待機状態においては、ステレオ音響の反響音を、モノラル化信号で打ち消すため、動作状態と同じ適応速度では、推定インパルスレスポンスに含まれる誤差が極めて大きくなる。原理的に打ち消し不可能な信号成分を打ち消そうとエコーキャンセラ１４３が適応動作を重ねるため、せっかく推定したインパルスレスポンスを破壊してしまうことになる。このように、図７の音声認識装置７は、待機状態における適応性能が悪いため、待機状態から動作状態への移行直後のエコー打ち消し量が極めて少ないという欠点を持っていた。
【０１６９】
そこで、図１６の音声認識装置７では、エコーキャンセラ１４３の適応速度を制御する適応制御部１４７を設けることにより、待機状態から動作状態に切り替わった直後においても、十分なエコー打ち消し量が得られるようにした。
すなわち、適応制御部１４７は、エコーキャンセラ１４３に対し、スピーカ９ａおよび９ｂにステレオ信号が入力される待機状態と、モノラル化信号が入力される動作状態とで、互いに異なる適応速度を設定する。
具体的には、適応制御部１４７は、待機状態では、適応速度を遅くして、インパルスレスポンスの推定精度を確保する。一方、動作状態では、適応速度を速めることにより、待機状態から動作状態への移行直後においても、十分なエコー打ち消し効果が得られるようにする。
【０１７０】
以上のように、本実施形態によれば、エコーキャンセラ１４３（内の適応ディジタルフィルタ１４３ａ）の適応速度を、音声認識部１４４が動作状態に設定されている時には速い速度に、待機状態に設定されている時には遅い速度に制御するので、モノラル，マルチチャンネルそれぞれに好適なエコー打ち消しを行うことができる。
すなわち、スピーカ９ａ，９ｂから出力されるのがマルチチャンネル音響の場合は、適応ディジタルフィルタ１４３ａから見ると雑音であるステレオ成分が多いので、遅い適応速度とすることによって耐雑音性を高め、一方、モノラル化音響の場合は、ステレオ成分がないので、速い適応速度とすることによって、反響路のインパルスレスポンスの変動への追従性を高めることができる。
【０１７１】
また、エコーキャンセラ１４３の適応速度を、上記のように音声認識動作の状態に応じて変化させることにより、待機状態から動作状態への移行直後においても、優れたエコー打ち消し効果が実現できる。
【０１７２】
（第９の実施形態）
図１７は、本発明の第９の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。図１７の音声認識装置７は、図１のＡＶ機器に設けられた音声認識装置７と対応している。ただし、本実施形態では、ＡＶ機器において、ＡＶ処理部３から２チャンネル信号が出力され、スピーカユニット９に含まれる２つのスピーカ９ａおよび９ｂを通じて２チャンネル音響が出力されるものとする。
【０１７３】
図１７において、音声認識装置７は、モノラル化部１５５と、１個のエコーキャンセラ１５３と、音声認識部１５４と、起動命令部１５８２と、終了命令部１５８３と、状態設定部１５８１と、切り替え部１５６と、適応制御部１５７とを備えている。すなわち、図１７の音声認識装置７は、図１６の音声認識装置７（第８の実施形態）と同様の構成を有する。図１６の音声認識装置７との相違は、次の点である。すなわち、図１のＡＶ処理部３からの音響信号は、２チャンネル（ステレオ）の場合と、モノラルの場合とがあり、図１のＡＶ処理部３から適応制御部１５７へ、モノラル／ステレオ識別信号がさらに与えられる。スピーカ９ａおよび９ｂへと入力される信号は、図１のＡＶ処理部３から出力される２チャンネルまたはモノラル信号である。
【０１７４】
適応制御部１５７は、状態設定部１５８１の設定と、モノラル／ステレオ識別信号とに関連して、エコーキャンセラ１５３内の適応ディジタルフィルタ１５３ａの適応速度を制御する。すなわち、ディジタルフィルタ１５３ａは、入力信号への適応速度が可変であり、適応制御部１５７は、モノラル用の速い適応速度と、２チャンネル用の遅い適応速度とを予め記憶している。状態設定部１５８１の設定によって音声認識動作が”ＯＦＦ”状態から”ＯＮ”状態へと移行する（それに伴い、スピーカ出力が２チャンネル音響からモノラル音響に切り替わる）のを受け、適応制御部１５７は、ディジタルフィルタ１５３ａの適応速度を、遅い適応速度から速い適応速度に変更する。また、音声認識動作が”ＯＮ”状態から”ＯＦＦ”状態へと移行するのを受け、ディジタルフィルタ１５３ａの適応速度を、速い適応速度から遅い適応速度に変更する。
【０１７５】
ただし、適応制御部１５７は、モノラル／ステレオ識別信号がステレオを示している場合のみ、上記のような適応速度の変更を行い、モノラルを示す場合には、状態設定部１５８１の設定に関わらず、ディジタルフィルタ１５３ａの適応速度を速い適応速度とする。
適応制御部１５７以外の構成要素の動作は、第８の実施形態と同様なので、説明を省略する。
【０１７６】
図１７の音声認識装置７のハードウエア的な構成は、図３と同様である。図３において、ＲＯＭ１２に格納されているプログラムは、第８の実施形態と同様である。ただし、上記（ｍ）のアルゴリズム、すなわちエコーキャンセラの適応速度を制御するためのアルゴリズムについては、音声認識動作の”ＯＮ”／”ＯＦＦ”状態だけでなく、モノラル／ステレオ識別信号をも参照して制御を行うように変更が加えられている。ＣＰＵ１０は、ＲＡＭ１１を作業領域として利用しつつ、上記のプログラムに従って動作する。これによって、図１７に示される各ブロックの機能が実現される。
【０１７７】
なお、起動命令部１５８２，終了命令部１５８３は、図１のコントローパネルを構成するボタンによって実現される。また、起動命令部１５８２，終了命令部１５８３以外の各ブロックの機能をソフト的に実現する代わりに、各々専用のハード回路によって実現することもできる。
【０１７８】
以上のように構成されたＡＶ機器用音声認識装置７について、以下、その動作を述べる。
一般のＴＶ放送においては、ステレオ番組とモノラル番組の２つの番組があり、ステレオ番組かモノラル番組かを識別する識別信号が、映像／音響信号とともに放送されている。受信側では、この識別信号により、現在の番組がステレオ番組かモノラル番組かを知ることができる。
先の図１６の音声認識装置７では、現在受信しているのがステレオ番組かモノラル番組かを問わず、モノラル化部１５５で処理した信号がスピーカ９ａおよび９ｂに入力されていない待機状態においては、エコーキャンセラ１５３の適応速度を落としていたが、待機状態であっても、適応速度を落としたくないのは当然である。
【０１７９】
適応速度を落とした状態では、エコーキャンセラ１５３が系の変動に追従できていない可能性があり、そのような時に動作状態に移行すると、十分なエコー打ち消し量が得られない。これに対して、待機状態であっても適応速度を落とさなければ、エコーキャンセラ１５３が常に系の変動に追従できているので、いつ動作状態に移行しても、十分なエコー打ち消し量が確保できるからである。
【０１８０】
放送そのものがモノラル番組であれば、モノラル化部１５５でモノラル化していない待機状態においても、適応速度を速めることが可能である。そこで、図１７の音声認識装置７では、適応制御部１５７は、まず識別信号をチェックし、その結果、現在受信しているのがステレオ番組の場合、待機状態では、エコーキャンセラ１５３の適応速度を遅くするが、モノラル番組の場合、待機状態であっても動作状態と同様、適応速度を速いままに保つ。
【０１８１】
以上のように、本実施形態によれば、ステレオ／モノラル識別信号に基づいて、現在受信している番組の音声がステレオかモノラルかを判定して、モノラルの場合は、音声認識動作が待機状態であっても、エコーキャンセラ１５３の適応速度を遅くしないので、反響路のインパルスレスポンスの変動への追従性が低下することがなく、その結果、待機状態において優れたエコー打ち消し効果が実現でき、動作状態へ移行した直後における音声認識性能が高まる。
【０１８２】
（第１０の実施形態）
図１８は、本発明の第１０の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。図１８の音声認識装置７は、図１のＡＶ機器に設けられた音声認識装置７と対応している。ただし、本実施形態では、ＡＶ機器において、ＡＶ処理部３から２チャンネル信号が出力され、スピーカユニット９に含まれる２つのスピーカ９ａおよび９ｂを通じて２チャンネル音響が出力されるものとする。
【０１８３】
図１８において、音声認識装置７は、モノラル化部１６５と、１個のエコーキャンセラ１６３と、音声認識部１６４と、起動命令部１６８２と、終了命令部１６８３と、状態設定部１６８１と、切り替え部１６６と、モノラル度判定部１６７１と、適応制御部１６７２とを備えている。すなわち、図１８の音声認識装置７は、図１６の音声認識装置７（第８の実施形態）に、モノラル度判定部１６７１を追加したものである。モノラル度判定部１６７１は、図９のモノラル度判定部７６（第４の実施形態を参照）と同じものである。スピーカ９ａおよび９ｂへと入力される信号は、図１のＡＶ処理部３から出力される２チャンネル信号である。
【０１８４】
モノラル度判定部１６７１へは、上記の２チャンネル信号が分岐入力され、モノラル度判定部１６７１は、その２チャンネル信号のモノラル度を判定する。適応制御部１６７２は、モノラル判定部の判定結果に関連して、エコーキャンセラ１６３内の適応ディジタルフィルタ１６３ａの適応速度を制御する。
【０１８５】
すなわち、適応制御部１６７２は、２チャンネル信号のモノラル度に応じて、ディジタルフィルタ１６３ａの適応速度を変化させる。好ましくは、モノラル度が高いほど、適応速度を速くする。そのために、適応制御部１６７２は、適応速度を速める処理をどの強度で行うべきかをモノラル度をもとに決定するための関数（処理強度決定特性；図１９に参照番号１０４で示される）を記憶している。
モノラル度判定部１６７１および適応制御部１６７２以外の構成要素の動作は、第８の実施形態と同様なので、説明を省略する。
【０１８６】
図１８の音声認識装置７のハードウエア的な構成は、図３と同様である。図３において、ＲＯＭ１２には、所定のプログラムが予め格納されている。このプログラムには、第１の実施形態で述べた（ａ）〜（ｃ）のアルゴリズムと、第２の実施形態で述べた（ｅ）のアルゴリズムと、第３の実施形態で述べた（ｆ）のアルゴリズムと、第４の実施形態で述べた（ｇ）のアルゴリズムと、第８の実施形態で述べた（ｍ）のアルゴリズムとが記述されている。
【０１８７】
ただし、上記（ｍ）のアルゴリズム、すなわちエコーキャンセラの適応速度を制御するためのアルゴリズムについては、音声認識動作の”ＯＮ”／”ＯＦＦ”状態に基づいて制御を行う（第８の実施形態）のではなく、スピーカへの２チャンネル信号のモノラル度に基づいて制御を行うように変更が加えられている。ＣＰＵ１０は、ＲＡＭ１１を作業領域として利用しつつ、上記のプログラムに従って動作する。これによって、図１８に示される各ブロックの機能が実現される。
【０１８８】
なお、起動命令部１６８２，終了命令部１６８３は、図１のコントローパネルを構成するボタンによって実現される。また、起動命令部１６８２，終了命令部１６８３以外の各ブロックの機能をソフト的に実現する代わりに、各々専用のハード回路によって実現することもできる。
【０１８９】
以上のように構成されたＡＶ機器用音声認識装置７について、以下、その動作を述べる。
図１８の音声認識装置７は、先の図７の音声認識装置７において、モノラル度の低い信号が入力された時に、エコーキャンセラ１６３の適応精度が劣化するという欠点を解決するものである。前述したように、エコーキャンセラ１６３の適応は、その出力が”０”になる方向に、推定インパルスレスポンスを逐次修正していくものであり、騒音のように、インパルスレスポンスをいかに修正しても消去できない信号がエコーキャンセラ１６３への入力信号に含まれている場合には、推定インパルスレスポンスにおいて誤差が生じ、この誤差がエコー打ち消し量を悪化させる。
【０１９０】
これと同じことが、ステレオ信号の反響音を、モノラル化信号で打ち消す場合に起きる。すなわち、ステレオ信号の反響音をモノラル化信号で打ち消す場合、原理的に、インパルスレスポンスをいかに修正しても打ち消せない成分が残る。
この打ち消せない成分（ステレオ成分）が多い場合、すなわち、モノラル度の低いステレオ信号の場合には、原理的に打ち消せない信号を打ち消そうとエコーキャンセラ１６３が適応動作を重ねるため、せっかく推定したインパルスレスポンスを大きく破壊することになる。
【０１９１】
そこで、図１８の音声認識装置７では、ＡＶ処理部３からのステレオ信号を分析して、原理的にエコー打ち消しが精度よく行え適応動作に適した信号であるかどうかを判断し、適応動作に適すると判断された時に、エコーキャンセラ１６３に適応動作を行わせる。
【０１９２】
図１８の音声認識装置７では、適応に適した信号か否かは、信号のモノラル度で判断している。前述したように、モノラル度の高い信号ほどエコー打ち消し効果が高く、インパルスレスポンスの推定がうまく行える。そこで、まず、モノラル度判定部１６７１がステレオ信号のモノラル度を求める。次に、適応制御部１６７２がこのモノラル度に応じて、エコーキャンセラ１６３の適応速度を制御する。
【０１９３】
図１９は、図１８の適応制御部１６７２が行う適応速度制御処理の特性を示す図である。図１９において、特性１９１は、図１８のスピーカ９ａおよび９ｂへ向かうステレオ信号のモノラル度と、エコーキャンセラ１６３の適応速度との関係を示している。
図１９からわかるように、適応制御部１６７２は、ステレオ信号のモノラル度が高く適応に適すると判断した場合には、適応速度を上げて常に最良の推定インパルスレスポンスを得られるようにする。一方、モノラル度が低く適応に適さないと判断した場合には、適応速度を下げて推定インパルスレスポンスの破壊を防止する。
【０１９４】
以上のように、本実施形態によれば、２チャンネル信号（ステレオ信号）のモノラル度に基づいて、適応ディジタルフィルタ１６３ａの適応速度を制御するので、様々なモノラル度を持った２チャンネル信号に好適なエコー打ち消しを行うことができる。
すなわち、モノラル度が低い場合、適応速度を遅くして、耐雑音性を高める。
一方、モノラル度が高い場合、適応ディジタルフィルタ１６３ａから見ると雑音であるステレオ成分が少ないので、耐雑音性はあまり必要でない。よって、適応速度を速くすることによって、反響路のインパルスレスポンスの変動への追従性を高めることができる。その結果、特にモノラル度が高い場合に、優れたエコー打ち消し効果が実現でき、動作状態へ移行した直後における音声認識性能が高まる。
【０１９５】
（第１１の実施形態）
図２０は、本発明の第１１の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。図２０の音声認識装置７は、図１のＡＶ機器に設けられた音声認識装置７と対応している。ただし、本実施形態では、ＡＶ機器において、ＡＶ処理部３から２チャンネル信号が出力され、スピーカユニット９に含まれる２つのスピーカ９ａおよび９ｂを通じて２チャンネル音響が出力されるものとする。
【０１９６】
図２０において、音声認識装置７は、モノラル化部１７５と、１個のエコーキャンセラ１７３と、音声認識部１７４と、起動命令部１７８２と、終了命令部１７８３と、状態設定部１７８１と、切り替え部１７６と、不揮発メモリ１７７とを備えている。すなわち、図２０の音声認識装置７は、図７の音声認識装置７（第３の実施形態）に、不揮発メモリ１７７を追加したものである。スピーカ９ａおよび９ｂへと入力される信号は、図１のＡＶ処理部３から出力される２チャンネル信号である。
【０１９７】
不揮発メモリ１７７へは、図１のコントロールパネル５からの電源”ＯＮ”／”ＯＦＦ”信号が与えられ、不揮発メモリ１７７は、電源”ＯＦＦ”時、エコーキャンセラ１７３が保持している推定インパルスレスポンスを取得し、それを記憶する。そして、電源”ＯＮ”時、記憶している推定インパルスレスポンスを、エコーキャンセラ１７３（内の適応ディジタルフィルタ１７３ａ）に与える。
エコーキャンセラ１７３は、反響音を打ち消す動作を開始する際に、この不揮発メモリ１７７から与えられた推定インパルスレスポンスを初期値として用いる。すなわち、適応ディジタルフィルタ１７３ａは、不揮発メモリ１７７から与えられた値を初期値としてインパルスレスポンスの推定を開始する。
【０１９８】
エコーキャンセラ１７３は、電源”ＯＮ”時に用いる初期値の違いを除けば、図７のエコーキャンセラ５４（第３の実施形態）と同様の動作を行う。なお、エコーキャンセラ５４の場合、反響音を打ち消す動作を開始する際、”０”を初期値として用いるので、電源”ＯＮ”の直後から、ディジタルフィルタ５４ａの適応が進むまでの期間、反響音が十分に打ち消されない問題があった。
不揮発メモリ１７７およびエコーキャンセラ１７３以外の構成要素の動作は、第３の実施形態と同様なので、説明を省略する。
【０１９９】
図２０の音声認識装置７のハードウエア的な構成は、図３において、さらに不揮発メモリ１７７を追加したものである。ＲＯＭ１２には、所定のプログラムが予め格納されている。このプログラムには、第１の実施形態で述べた（ａ）〜（ｃ）のアルゴリズムと、第２の実施形態で述べた（ｅ）のアルゴリズムと、第３の実施形態で述べた（ｆ）のアルゴリズムとに加え、さらに（ｎ）電源”ＯＦＦ”時にエコーキャンセラ１７３が保持している推定インパルスレスポンスを不揮発メモリ１７７に書き込み、かつ電源”ＯＮ”時、その推定インパルスレスポンスをエコーキャンセラ１７３に与える手順が記述されている。ＣＰＵ１０は、ＲＡＭ１１を作業領域として利用しつつ、上記のプログラムに従って動作する。これによって、図２０に示される各ブロックの機能が実現される。
【０２００】
なお、起動命令部１７８２，終了命令部１７８３は、図１のコントローパネルを構成するボタンによって実現される。また、起動命令部１７８２，終了命令部１７８３以外の各ブロックの機能をソフト的に実現する代わりに、各々専用のハード回路によって実現することもできる。
【０２０１】
以上のように構成されたＡＶ機器用音声認識装置７について、以下、その動作を述べる。
スピーカ９ａおよび９ｂからマイクロホン６までの反響路のインパルスレスポンスは、壁、天井、床、家具、人、窓、カーテンなどでの音響の反射状態によって決まる。同じＡＶ機器であっても、設置環境により千差万別のインパルスレスポンスが得られる。しかも、ＡＶ機器の移動、家具の移動、人の出入り、窓の開閉などにより時々刻々と変化する。固定したインパルスレスポンスでは、十分なエコー打ち消し効果が得られない。このため、図７の音声認識装置７のエコーキャンセラ１７３は、逐次適応を行っており、常に最新のインパルスレスポンスを推定している。しかし、インパルスレスポンスの初期値を”０”とした適応方法では、電源”ＯＮ”の直後に十分なエコー打ち消し量が得られないという欠点があった。
【０２０２】
人とか窓といった細かい変化を除けば、ＡＶ機器の設置位置や部屋形状などで決まる大まかなインパルスレスポンスは、部屋の家具の配置換えなどをしなければ、今日昨日で大きく変わるものではない。昨日の電源”ＯＦＦ”時の推定インパルスレスポンスを、今日の電源”ＯＮ”時に使用しても、そこそこのエコー打ち消し量が得られる場合が多い。
【０２０３】
そこで、図２０の音声認識装置７では、不揮発メモリ１７７を設け、電源”ＯＦＦ”時にエコーキャンセラ１７３が保持していた推定インパルスレスポンスを不揮発メモリ１７７に記憶させ、電源”ＯＮ”時には、この不揮発メモリ１７７が記憶している推定インパルスレスポンスを初期値として、エコーキャンセラ１７３をスタートさせる。
【０２０４】
以上のように、本実施形態によれば、電源”ＯＦＦ”時の推定インパルスレスポンスを記憶しておき、電源”ＯＮ”時、それを初期値としてインパルスレスポンスの推定を開始するので、”０”を初期値とする場合と比べ、電源”ＯＮ”直後の推定誤差が小さくなり、その結果、音声認識性能が高まる。
【０２０５】
（第１２の実施形態）
図２１は、本発明の第１２の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。図２１の音声認識装置７は、図１のＡＶ機器に設けられた音声認識装置７と対応している。ただし、本実施形態では、ＡＶ機器において、ＡＶ処理部３から２チャンネル信号が出力され、スピーカユニット９に含まれる２つのスピーカ９ａおよび９ｂを通じて２チャンネル音響が出力されるものとする。
【０２０６】
図２１において、音声認識装置７は、モノラル化部１８５と、１個のエコーキャンセラ１８３と、音声認識部１８４と、音声検出部１８７と、起動命令部としてのボタンスイッチ１８８２と、終了命令部としての時限スイッチ１８８３と、状態設定部１８８１と、切り替え部１８６とを備えている。すなわち、図２１の音声認識装置７は、図７の音声認識装置７（第３の実施形態）において、音声検出部１８７を追加し、さらに、起動命令部５８１を特にボタンスイッチ１８８２とし、かつ終了命令部５８２を特に時限スイッチ１８８３としたものである。音声検出部１８７は、図５の音声検出部３７と同じものである（第２の実施形態を参照）。スピーカ９ａおよび９ｂへと入力される信号は、図１のＡＶ処理部３から出力される２チャンネル信号である。
【０２０７】
ボタンスイッチ１８８２が押されると、ボタンスイッチ１８８２から状態設定部１８８１へ、音声認識動作の起動を命令する信号が送られる。音声検出部１８７は、ユーザ音声の有無を検出して、検出結果を時限スイッチ１８８３に通知する。時限スイッチ１８８３は、ユーザの音声が有の状態から無の状態へ移行した瞬間を捉えて計時処理を開始する。そして、計時開始から予め決められた時間が経過すると、状態設定部１８８１へ、音声認識動作の終了を命令する信号を送る。
【０２０８】
状態設定部１８８１は、ボタンスイッチ１８８２，時限スイッチ１８８３からの命令信号を受け、音声認識部１８４の動作状態を設定（つまり音声認識動作を”ＯＮ”／”ＯＦＦ”）する。
音声検出部１８７、ボタンスイッチ１８８２、時限スイッチ１８８３および状態設定部１８８１以外の構成要素の動作は、第３の実施形態と同様なので、説明を省略する。
【０２０９】
図２１の音声認識装置７のハードウエア的な構成は、図３と同様である。図３において、ＲＯＭ１２には、所定のプログラムが予め格納されている。このプログラムには、第１の実施形態で述べた（ａ）〜（ｃ）のアルゴリズムと、第２の実施形態で述べた（ｅ）のアルゴリズムと、第３の実施形態で述べた（ｆ）のアルゴリズムとに加え、さらに（ｏ）計時を行い、かつ計時開始から予め決められた時間が経過すると終了命令信号を送信する手順が記述されている。ＣＰＵ１０は、ＲＡＭ１１を作業領域として利用しつつ、上記のプログラムに従って動作する。これによって、図２１に示される各ブロックの機能が実現される。
【０２１０】
なお、ボタンスイッチ１８８２は、図１のコントローパネルを構成するいずれかのボタンによって実現される。また、ボタンスイッチ１８８２以外の各ブロックの機能をソフト的に実現する代わりに、各々専用のハード回路によって実現することもできる。
【０２１１】
以上のように構成されたＡＶ機器用音声認識装置７について、以下、その動作を述べる。
本実施形態では、図７の音声認識装置７において、起動命令部５８１および終了命令部５８２の具体例を示している。ユーザは、音声認識機能を利用しようとする場合、まず、図７の起動命令部５８１に相当するボタンスイッチ１８８２を押す。すると、状態設定部１８８１に対して待機状態（音声認識動作が”ＯＦＦ”の状態）から動作状態（”ＯＮ”状態）への切り替えの指示がなされ、かつ、時限スイッチ１８８３に対して時間計測開始の指示がなされる。
【０２１２】
動作状態においては、音声検出部１８７がユーザ音声が入力されたか否かをチェックし、音声が検出された時に、時限スイッチ１８８３は、計測時間をリセットする（つまり計測時間を０に戻す）。音声が検出されない状態が続き、時限スイッチ１８８３の計測時間が定められた値を超えた時、時限スイッチ１８８３は、状態設定部１８８１に動作状態から待機状態への切り替えを指示する。
【０２１３】
以上のように、本実施形態によれば、音声認識機能の終了を自動的に行えるようになる。
【０２１４】
（第１３の実施形態）
図２２は、本発明の第１３の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。図２２の音声認識装置７は、図１のＡＶ機器に設けられた音声認識装置７と対応している。ただし、本実施形態では、ＡＶ機器において、ＡＶ処理部３から２チャンネル信号が出力され、スピーカユニット９に含まれる２つのスピーカ９ａおよび９ｂを通じて２チャンネル音響が出力されるものとする。
【０２１５】
図２２において、音声認識装置７は、モノラル化部１９５と、１個のエコーキャンセラ１９３と、音声認識部１９４と、音声検出部１９７と、起動命令部としての音声スイッチ１９８２と、終了命令部としての時限スイッチ１９８３と、状態設定部１９８１と、切り替え部１９６とを備えている。すなわち、図２２の音声認識装置７は、図７の音声認識装置７（第３の実施形態）において、音声検出部１９７を追加し、さらに、起動命令部５８１を特に音声スイッチ１９８２とし、かつ終了命令部５８２を特に時限スイッチ１９８３としたものである。音声検出部１９７は、図５の音声検出部３７と同じものである（第２の実施形態を参照）。スピーカ９ａおよび９ｂへと入力される信号は、図１のＡＶ処理部３から出力される２チャンネル信号である。
【０２１６】
音声検出部１９７は、ユーザ音声の有無を検出して、検出結果を音声スイッチ１９８２および時限スイッチ１９８３に通知する。音声スイッチ１９８２は、ユーザ音声が無から有に移行した瞬間を捉えて、状態設定部１９８１へ音声認識動作の起動を命令する信号を送る。時限スイッチ１９８３は、ユーザの音声が有の状態から無の状態へ移行した瞬間を捉えて計時処理を開始する。そして、計時開始から予め決められた時間が経過すると、状態設定部１９８１へ、音声認識動作の終了を命令する信号を送る。
【０２１７】
状態設定部１９８１は、音声スイッチ１９８２，時限スイッチ１９８３からの命令信号を受け、音声認識部１９４の動作状態を設定（つまり音声認識動作を”ＯＮ”／”ＯＦＦ”）する。
音声検出部１９７、音声スイッチ１９８２、時限スイッチ１９８３および状態設定部１９８１以外の構成要素の動作は、第３の実施形態と同様なので、説明を省略する。
【０２１８】
図２２の音声認識装置７のハードウエア的な構成は、図３と同様である。図３において、ＲＯＭ１２には、所定のプログラムが予め格納されている。このプログラムには、第１の実施形態で述べた（ａ）〜（ｃ）のアルゴリズムと、第２の実施形態で述べた（ｅ）のアルゴリズムと、第３の実施形態で述べた（ｆ）のアルゴリズムと、第１２の実施形態で述べた（ｏ）の手順とに加え、さらに（ｐ）音声が検出されると起動命令信号を送信する手順が記述されている。ＣＰＵ１０は、ＲＡＭ１１を作業領域として利用しつつ、上記のプログラムに従って動作する。これによって、図２１に示される各ブロックの機能が実現される。
【０２１９】
なお、各ブロックの機能をソフト的に実現する代わりに、各々専用のハード回路によって実現することもできる。
【０２２０】
以上のように構成されたＡＶ機器用音声認識装置７について、以下、その動作を述べる。
図２２の音声認識装置７では、待機状態にあっても音声検出部１９７がユーザの音声の検出している。ユーザが音声認識機能を利用しようとする場合、まず、比較的大きな声を発する。音声検出部１９７がこの音声を検出し、検出結果を音声スイッチ１９８２に送る。検出結果があらかじめ設定したレベル以上の音声を検出したことを示す時、音声スイッチ１９８２は、音声認識の開始命令を状態設定部１９８１に送り、状態設定部１９８１に待機状態から動作状態への切り替えを指示する。
【０２２１】
音声検出部１９７による検出結果は、時限スイッチ１９８３へも送られ、応じて、時限スイッチ１９８３は、時間計測を開始する。動作状態においては、音声検出部１９７がユーザ音声が入力されたか否かをチェックし、音声が検出された時に、時限スイッチ１９８３は、計測時間をリセットする（つまり計測時間を０に戻す）。音声が検出されない状態が続き、時限スイッチ１９８３の計測時間が定められた値を超えた時、時限スイッチ１９８３は、状態設定部１９８１に動作状態から待機状態への切り替えを指示する。
【０２２２】
上記の音声スイッチ１９８２が”ＯＮ”となる音声レベルは、時限スイッチ１９８３がリセットされる音声レベルよりもかなり高く設定される。エコーキャンセラ１９３の打ち消し効果がよくない待機状態で発生する比較的大きなレベルの消し残しの反響音がユーザ音声として誤検出され、それに伴って動作モードに移行することがないようにするためである。
【０２２３】
以上のように、本実施形態によれば、音声認識機能の開始と終了を自動的に行えるようになる。
【図面の簡単な説明】
【図１】本発明が用いられるＡＶ機器の構成の一例を示すブロック図である。
【図２】本発明の第１の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。
【図３】図１の音声認識装置７のハードウエア的な構成を示すブロック図である。
【図４】図２の音声認識装置７において、各構成要素に入力される、または各構成要素から出力される信号の時間波形を示す図である。
【図５】本発明の第２の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。
【図６】図５の音声認識装置７において、各構成要素に入力される、または各構成要素から出力される信号の時間波形を示す図である。
【図７】本発明の第３の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。
【図８】図７の音声認識装置７において、各構成要素に入力される、または各構成要素から出力される信号の時間波形を示す図である。
【図９】本発明の第４の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。
【図１０】図９のモノラル度判定部７６の詳細を示すブロック図である。
【図１１】図９の任意度モノラル化部７７の詳細を示すブロック図である。
【図１２】図１１の処理強度決定部９１が行うモノラル化処理の強度、および図１１の減衰器９２１〜９２４を通じて実現される利得（減衰量）を示す図である。
【図１３】本発明の第５の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。
【図１４】本発明の第６の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。
【図１５】本発明の第７の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。
【図１６】本発明の第８の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。
【図１７】本発明の第９の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。
【図１８】本発明の第１０の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。
【図１９】図１８の適応制御部１６７２が行う適応速度制御処理の特性を示す図である。
【図２０】本発明の第１１の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。
【図２１】本発明の第１２の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。
【図２２】本発明の第１３の実施形態に係るＡＶ機器用音声認識装置の構成を示すブロック図である。
【図２３】従来のＡＶ機器用音声認識装置の構成を示すブロック図である。
【図２４】図２３の音声認識装置において、各構成要素に入力される、または各構成要素から出力される信号の時間波形を示す図である。
【図２５】別の従来のＡＶ機器用音声認識装置の構成を示すブロック図である。
【符号の説明】
６…マイクロホン
７…ＡＶ機器用音声認識装置
９ａ〜９ｃ…スピーカ
１３，３３他…モノラル化部
１４，３４他…エコーキャンセラ
１４ａ，３４ａ他…適応ディジタルフィルタ
１４ｂ，３４ｂ他…減算回路
１５，３５他…音声認識部
３６，５６他…切り替え部
３７，１１７他…音声検出部
５７，７９１他…状態設定部
５８１，７９２他…起動命令部
５８２，７９３他…終了命令部
７５…完全モノラル化部
７６，１６７１…モノラル度判定部
７７…任意度モノラル化部
１１５…２チャンネル化部
１２６…適応音発生部
１３７３…減衰部
１３７１…打ち消し監視部
１４７，１５７，１６７２…適応制御部
１７７…不揮発メモリ
１８８２…ボタンスイッチ
１８８３，１９８３…時限スイッチ
１９８２…音声スイッチ

Claims

複数のスピーカを通じてマルチチャンネル音響を出力するＡＶ機器に用いられ、マイクロホンを通じて入力されるユーザ音声を認識して、当該ＡＶ機器に所定の処理動作を行わせるための音声認識装置であって、
前記複数のスピーカへ向かうマルチチャンネル信号をモノラル化するモノラル化手段と、
前記マイクロホンの出力（以下、マイクロホン出力）と、前記モノラル化手段の出力（以下、モノラル化信号）とが与えられ、当該モノラル化信号に基づいて前記マルチチャンネル音響の反響音を推定して、当該マイクロホン出力から当該反響音を除去する１つのエコーキャンセラと、
前記１つのエコーキャンセラの出力（以下、エコーキャンセラ出力）に基づいて前記ユーザ音声を認識する音声認識手段と、
前記マルチチャンネル信号および前記モノラル化信号のいずれかを前記複数のスピーカへと入力するための切り替え手段と、
音声認識動作の起動を命令する起動命令手段と、
音声認識動作の終了を命令する終了命令手段と、
前記起動命令手段および前記終了命令手段からの命令に応じて、前記音声認識手段を動作状態および待機状態のいずれかに設定する状態設定手段とを備え、
前記切り替え手段は、
前記状態設定手段によって前記音声認識手段が待機状態に設定されている時、前記マルチチャンネル信号を前記複数のスピーカへと入力し、
前記状態設定手段によって前記音声認識手段が動作状態に設定されている時、前記モノラル化信号を前記複数のスピーカへと入力することを特徴とする、ＡＶ機器用音声認識装置。
前記マルチチャンネル信号のモノラル度を判定するモノラル度判定手段と、
前記マルチチャンネル信号を任意のモノラル度にモノラル化する任意度モノラル化手段とをさらに備え、
前記モノラル化手段は、前記マルチチャンネル信号を完全にモノラル化し、
前記任意度モノラル化手段は、前記モノラル度判定手段の判定結果が予め定められたモノラル度よりも低い場合、前記マルチチャンネル信号を当該予め定められたモノラル度にモノラル化することを特徴とする、請求項１に記載のＡＶ機器用音声認識装置。
前記マルチチャンネル信号は、３チャンネル以上の信号であり、
前記マルチチャンネル信号を２チャンネル化する２チャンネル化手段をさらに備え、
前記モノラル化手段は、前記２チャンネル化手段の出力（以下、２チャンネル化信号）をモノラル化し、
前記切り替え手段は、前記マルチチャンネル信号、前記２チャンネル化信号および前記モノラル化信号のいずれかを前記複数のスピーカへと入力することを特徴とする、請求項１に記載のＡＶ機器用音声認識装置。
前記モノラル化信号と前記エコーキャンセラ出力とに基づいて前記ユーザ音声を検出する音声検出手段をさらに備え、
前記切り替え手段は、
前記状態設定手段が前記音声認識手段を待機状態に設定している時には、前記マルチチャンネル信号を前記複数のスピーカへと入力し、
前記状態設定手段が前記音声認識手段を動作状態に設定しているが、前記音声検出手段によって前記ユーザ音声が検出されていない時には、前記２チャンネル化信号を前記複数のスピーカへと入力し、
前記音声検出手段によって前記ユーザ音声が検出されている時には、前記モノラル化信号を前記複数のスピーカへと入力することを特徴とする、請求項３に記載のＡＶ機器用音声認識装置。
前記モノラル化信号と前記エコーキャンセラ出力とに基づいて、前記エコーキャンセラにおいて前記反響音が十分に打ち消されているかを監視する打ち消し監視手段と、
前記モノラル化信号と前記エコーキャンセラ出力とに基づいて前記ユーザ音声を検出する音声検出手段と、
前記マルチチャンネル信号を減衰させる減衰手段とをさらに備え、
前記減衰手段は、前記打ち消し監視手段の監視結果が打ち消し不十分を示している状態において、前記音声検出手段がユーザ音声を検出した時、前記マルチチャンネル信号を減衰させることを特徴とする、請求項１に記載のＡＶ機器用音声認識装置。
前記エコーキャンセラは、
前記複数のスピーカと前記マイクロホンとの間の反響路のインパルスレスポンスを推定して、当該推定インパルスレスポンスと、前記モノラル化信号とから前記反響音を算出する適応ディジタルフィルタと、
前記マイクロホン出力から、前記適応ディジタルフィルタの出力を減算する減算手段とを含む、請求項１に記載のＡＶ機器用音声認識装置。
前記切り替え手段によって前記複数のスピーカへの入力が前記マルチチャンネル信号から前記モノラル化信号へと切り替えられる際に、前記適応ディジタルフィルタの適応を促進するためのモノラル適応音を発生する適応音発生手段をさらに備える、請求項６に記載のＡＶ機器用音声認識装置。
前記適応ディジタルフィルタの適応速度を制御する適応制御手段をさらに備え、
前記適応制御手段は、モノラル用の速い適応速度と、マルチチャンネル用の遅い適応速度とを持ち、前記状態設定手段が前記音声認識手段を動作状態に設定している時には速い適応速度を選択し、待機状態に設定している時には遅い適応速度を選択することを特徴とする、請求項６に記載のＡＶ機器用音声認識装置。
前記適応制御手段へは、前記複数のスピーカに入力される信号がマルチチャンネル信号かモノラル信号かを示す識別信号が与えられ、
前記適応制御手段は、前記識別信号がモノラルを示す場合、前記状態設定手段が前記音声認識手段を動作状態に設定しているか待機状態に設定しているかに関わらず、前記速い適応速度を選択することを特徴とする、請求項８に記載のＡＶ機器用音声認識装置。
前記マルチチャンネル信号のモノラル度を判定するモノラル度判定手段と、
前記モノラル度判定手段の判定結果に基づいて、前記適応ディジタルフィルタの適応速度を制御する適応制御手段とをさらに備える、請求項６に記載のＡＶ機器用音声認識装置。
前記適応制御手段は、前記マルチチャンネル信号のモノラル度が高いほど、前記適応ディジタルフィルタの適応速度を速くすることを特徴とする、請求項１０に記載のＡＶ機器用音声認識装置。
不揮発メモリをさらに備え、
前記不揮発メモリは、
電源が"ＯＦＦ"される時、前記適応ディジタルフィルタによって推定されたインパルスレスポンスを取得して記憶し、
電源が"ＯＮ"される時、記憶している電源"ＯＦＦ"時の推定インパルスレスポンスを前記適応ディジタルフィルタに与え、
前記適応ディジタルフィルタは、前記不揮発メモリから与えられた電源"ＯＦＦ"時の推定インパルスレスポンスを初期値として、インパルスレスポンスの推定を開始することを特徴とする、請求項６に記載のＡＶ機器用音声認識装置。
前記モノラル化信号と前記エコーキャンセラ出力とに基づいて前記ユーザ音声を検出する音声検出手段をさらに備え、
前記起動命令手段は、ボタンが押されると、前記状態設定手段へ起動命令を発するようなボタンスイッチであり、
前記終了命令手段は、前記音声検出手段がユーザ音声を検出しない状態が予め定められた時間以上継続すると、前記状態設定手段へ終了命令を発する時限スイッチであることを特徴とする、請求項１に記載のＡＶ機器用音声認識装置。
前記モノラル化信号と前記エコーキャンセラ出力とに基づいて前記ユーザ音声を検出する音声検出手段をさらに備え、
前記起動命令手段は、前記音声検出手段がユーザ音声を検出すると、前記状態設定手段へ起動命令を発する音声スイッチであり、
前記終了命令手段は、前記音声検出手段がユーザ音声を検出しない状態が予め定められた時間以上継続すると、前記状態設定手段へ終了命令を発する時限スイッチであることを特徴とする、請求項１に記載のＡＶ機器用音声認識装置。