JP2001100785A

JP2001100785A - Ａｖ機器用音声認識装置

Info

Publication number: JP2001100785A
Application number: JP2000227787A
Authority: JP
Inventors: Satoru Ibaraki; 悟茨木; Takeo Kanamori; 丈郎金森; Takeshi Kawamura; 岳河村; Mikio Oda; 幹夫小田
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-07-28
Filing date: 2000-07-27
Publication date: 2001-04-13
Anticipated expiration: 2020-07-27
Also published as: JP4554044B2

Abstract

(57)【要約】【課題】スピーカから２チャンネル音響が出力されて
いる状態で高精度の音声認識が行え、しかも安価である
ようなＡＶ機器用音声認識装置を実現する。【解決手段】モノラル化部１３は、スピーカ９ａ，９
ｂに入力される２チャンネル信号をモノラル化する。１
つのエコーキャンセラ１４には、マイクロホン６の出力
と、モノラル化部１３の出力（モノラル化信号）とが与
えられ、エコーキャンセラ１４は、モノラル化信号に基
づいてマルチチャンネル音響の反響音を推定し、その反
響音をマイクロホン出力から除去する。これにより、た
だ１つのエコーキャンセラを備えるだけで、スピーカか
ら２チャンネル音響が出力されている状態で音声認識が
行えるようになる。また、２つのエコーキャンセラを備
える場合と異なり、エコーキャンセラ間の相互干渉が生
じて音声認識性能が低下することもない。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置に関
し、より特定的には、２チャンネルステレオを含むマル
チチャンネルオーディオを再生するＴＶ、ラジオ、オー
ディオシステムなどのＡＶ機器に用いられ、スピーカか
らオーディオが拡声された状態であっても、音声による
ＡＶ機器の制御や、音声によるＡＶ機器への情報入力等
が可能であるＡＶ機器用音声認識装置に関する。

【従来の技術】従来、スピーカからオーディオが拡声さ
れた状態において音声認識を行う技術を記載した文献と
しては、特開平５−２２７７９号公報（発明の名称「音
声認識遠隔制御装置」）が知られている。

【０００２】図２３は、上記公報に開示されている技術
を用いた従来のＡＶ機器用音声認識装置の構成を示すブ
ロック図である。図２３の音声認識装置は、１つのスピ
ーカ２０１を持ったＡＶ機器に用いられる。図２３にお
いて、従来のＡＶ機器用音声認識装置は、マイクロホン
２０２と、音声認識部２０３と、エコーキャンセラ２０
４とを備えている。

【０００３】以上のように構成された従来のＡＶ機器用
音声認識装置について、図２４を用いてその動作を述べ
る。図２４は、図２３の音声認識装置において、各構成
要素に入力される、または各構成要素から出力される信
号の時間波形を示す図である。図２４において、スピー
カ２０１からオーディオ信号が拡声された状態で、音声
制御用の音声をユーザが発した場合を考える。

【０００４】スピーカ２０１からオーディオ信号が拡声
されない状態で、ユーザが音声を発した場合は、マイク
ロホン２０２からは、図２４の２１１に示す極めてＳ／
Ｎのよい音声信号が出力される。ところが、スピーカ２
０１に図２４の２１２に示すＴＶ番組のオーディオ信号
が入力されていると、このスピーカ入力２１２と相似の
図２４の２１３に示す反響信号がマイクロホン２０２の
出力に混入することになる。

【０００５】従って、マイクロホン２０２からは、ユー
ザ音声２１１と反響信号２１３とが加算された、図２４
の２１４に示す、ユーザ音声を認識するには極めてＳ／
Ｎの悪い信号が出力される。このＳ／Ｎの悪いマイクロ
ホン出力２１４が、音声認識部２０３に入力されても、
音声認識部２０３で十分な音声認識結果が期待できない
のは当然である。

【０００６】そこで、図２３の音声認識装置では、スピ
ーカ２０１からマイクロホン２０２に回り込む反響信号
２１３を、エコーキャンセラ２０４内部の適応ディジタ
ルフィルタで推定している。そして、エコーキャンセラ
２０４内部の減算回路により、マイクロホン出力２１４
からこの推定反響信号を差し引くことによって反響信号
２１３を完全にキャンセルし、ユーザ音声２１１だけを
抽出している。

【０００７】エコーキャンセラ２０４には、スピーカ２
０１への入力信号であるスピーカ入力２１２が与えられ
る。エコーキャンセラ２０４内部の適応ディジタルフィ
ルタは、このスピーカ入力２１２の波形と、内部に記憶
されたスピーカ２０１からマイクロホン２０２までの反
響路のインパルスレスポンスとから、反響信号２１５を
推定する。次に、エコーキャンセラ２０４内部の減算回
路が、マイクロホン出力２１４から、この推定反響信号
２１５を差し引き、それによって、エコーキャンセラ出
力２１６を得ている。

【０００８】このエコーキャンセラ出力２１６と、ユー
ザ音声の波形２１１とを比較すればわかるように、スピ
ーカ２０１からオーディオが拡声された状態であって
も、上記のようなエコーキャンセラ２０４の反響音打ち
消し作用によって、音声認識部２０３が正確な音声認識
を行うことが期待できる。

【０００９】しかしながら、図２３の音声認識装置は、
モノラルオーディオ方式のＡＶ機器にしか対応しておら
ず、複数のスピーカを使用するマルチチャンネルオーデ
ィオ方式のＡＶ機器には用いることができないという、
大きな欠点を有していた。

【００１０】図２５は、別の従来のＡＶ機器用音声認識
装置の構成を示すブロック図である。図２５の音声認識
装置は、２つのスピーカ２２１および２２２を持った２
チャンネルオーディオ方式のＡＶ機器に用いられる。図
２５において、別の従来の音声認識装置は、マイクロホ
ン２２３と、音声認識部２２４と、２つのエコーキャン
セラ２２５および２２６とを備えている。

【００１１】この従来例は、スピーカ２２１からマイク
ロホン２２３に回り込む反響音と、スピーカ２２２から
マイクロホン２２３に回り込む反響音とを、エコーキャ
ンセラ２２５内部の適応ディジタルフィルタと、エコー
キャンセラ２２６内部の適応ディジタルフィルタとで推
定し、マイクロホンの出力信号から、この２つの推定値
を差し引くことにより、ユーザ音声だけを抽出するもの
である。先の図２３の音声認識装置と異なり、図２５の
音声認識装置は、ステレオ方式のＡＶ機器に適用でき
る。

【００１２】しかしながら、図２５の音声認識装置で
は、オーディオチャンネルの数だけエコーキャンセラを
必要とするので、マルチチャンネルオーディオのＡＶ機
器に用いる場合には、極めて価格の高い音声認識装置に
なるという欠点を有していた。さらに、このように複数
のエコーキャンセラを用いたシステムにおいては、エコ
ーキャンセラ間の相互干渉が起こるので、エコーキャン
セラの適応動作が極めて不安定であり、適応失敗による
反響音の増加や発振などが生じてしまうという大きな欠
点も知られていた。

【００１３】

【発明が解決しようとする課題】ＡＶ機器用の音声認識
装置においては、スピーカでオーディオを再生しながら
音声認識が行えること、マルチチャンネルオーディオに
対応できること、信頼性が高いこと、安価であることが
強く要望されている。

【００１４】しかしながら、従来のＡＶ機器用音声認識
装置は、前述のように、オーディオチャンネルの数だけ
エコーキャンセラを必要とするので、マルチチャンネル
オーディオ方式のＡＶ機器に用いる場合には、極めて価
格が高くなるという課題を有していた。さらに、エコー
キャンセラ間の相互干渉のためにエコーキャンセラの適
応動作が極めて不安定となって、適応失敗による反響音
の増加や発振などを生じ、その結果、音声認識性能が低
下するという別の課題も有していた。

【００１５】それゆえに、本発明の目的は、スピーカか
らマルチチャンネル音響が出力されている状態で高精度
の音声認識が行え、しかも安価であるような、マルチチ
ャンネルＡＶ機器用の音声認識装置を実現することであ
る。

【００１６】

【課題を解決するための手段および発明の効果】第１の
発明は、複数のスピーカを通じてマルチチャンネル音響
を出力するＡＶ機器に用いられ、マイクロホンを通じて
入力されるユーザ音声を認識して、当該ＡＶ機器に所定
の処理動作を行わせるための音声認識装置であって、複
数のスピーカへ向かうマルチチャンネル信号をモノラル
化するモノラル化手段、マイクロホンの出力（以下、マ
イクロホン出力）と、モノラル化手段の出力（以下、モ
ノラル化信号）とが与えられ、当該モノラル化信号に基
づいてマルチチャンネル音響の反響音を推定して、当該
マイクロホン出力から当該反響音を除去する１つのエコ
ーキャンセラ、１つのエコーキャンセラの出力（以下、
エコーキャンセラ出力）に基づいてユーザ音声を認識す
る音声認識手段を備えている。

【００１７】上記第１の発明では、マルチチャンネル信
号をモノラル化して１つのエコーキャンセラに与え、そ
の１つのエコーキャンセラがマイクロホン出力からマル
チチャンネル音響の反響音を除去するので、チャンネル
数に関わらずただ１つのエコーキャンセラを備えるだけ
で、スピーカからマルチチャンネル音響が出力されてい
る状態で音声認識が行えるようになる。また、複数のエ
コーキャンセラを備える場合と異なり、エコーキャンセ
ラ間の相互干渉が生じて音声認識性能が低下することも
ない。

【００１８】第２の発明は、第１の発明において、複数
のスピーカへは、マルチチャンネル信号が入力されるこ
とを特徴としている。

【００１９】上記第２の発明では、複数のスピーカから
マルチチャンネル音響が出力されるので、反響音をモノ
ラル化信号で完全に打ち消すことはできない。しかし、
マルチチャンネル信号のモノラル度が”１”に近けれ
ば、反響音を概ね打ち消すことができる。少なくとも、
マルチチャンネル信号のモノラル度が”０”でない限り
は、反響音の一部を打ち消すことができる。ここで、マ
ルチチャンネル信号のモノラル度とは、その信号中に占
める、全チャンネルに共通して含まれる成分（モノラル
成分）の割合をいい、全チャンネルの信号が互いに全く
無相関であれば、モノラル度は”０”、同一であれば、
モノラル度は”１”となる。

【００２０】第３の発明は、第１の発明において、マル
チチャンネル信号およびモノラル化信号のいずれかを複
数のスピーカへと入力するための切り替え手段をさらに
備えている。

【００２１】上記第３の発明では、複数のスピーカか
ら、マルチチャンネル音響およびモノラル化音響のいず
れかを選択的に出力させることができる。

【００２２】第４の発明は、第３の発明において、モノ
ラル化信号とエコーキャンセラ出力とに基づいてユーザ
音声を検出する音声検出手段をさらに備え、切り替え手
段は、音声検出手段によってユーザ音声が検出されてい
ない時、マルチチャンネル信号を複数のスピーカへと入
力し、音声検出手段によってユーザ音声が検出されてい
る時、モノラル化信号を複数のスピーカへと入力するこ
とを特徴としている。

【００２３】上記第４の発明では、音声認識を行う必要
がない（ユーザ音声が検出されない）場合はマルチチャ
ンネル音響を、音声認識を行う必要がある（ユーザ音声
が検出されている）場合はモノラル化音響を出力させる
ので、十分に高い精度で音声認識が行えるようになる。

【００２４】第５の発明は、第３の発明において、音声
認識動作の起動を命令する起動命令手段、音声認識動作
の終了を命令する終了命令手段、および起動命令手段お
よび終了命令手段からの命令に応じて、音声認識手段を
動作状態および待機状態のいずれかに設定する状態設定
手段をさらに備え、切り替え手段は、状態設定手段によ
って音声認識手段が待機状態に設定されている時、マル
チチャンネル信号を複数のスピーカへと入力し、状態設
定手段によって音声認識手段が動作状態に設定されてい
る時、モノラル化信号を複数のスピーカへと入力するこ
とを特徴としている。

【００２５】上記第５の発明では、音声認識手段が待機
状態（”ＯＦＦ”状態）にある場合はマルチチャンネル
音響を、動作状態（”ＯＮ”状態）にある場合はモノラ
ル化音響を出力させるので、十分に高い精度で音声認識
が行えるようになる。

【００２６】第６の発明は、第５の発明において、マル
チチャンネル信号のモノラル度を判定するモノラル度判
定手段、およびマルチチャンネル信号を任意のモノラル
度にモノラル化する任意度モノラル化手段をさらに備
え、モノラル化手段は、マルチチャンネル信号を完全に
モノラル化し、任意度モノラル化手段は、モノラル度判
定手段の判定結果が予め定められたモノラル度よりも低
い場合、マルチチャンネル信号を当該予め定められたモ
ノラル度にモノラル化することを特徴としている。

【００２７】上記第６の発明では、マルチチャンネル信
号のモノラル度が常に、予め定められたモノラル度以上
になるので、音声認識手段が動作状態（”ＯＮ”状態）
にある場合でも、立体感をあまり損なうことなく、高い
精度で音声認識性能が行えるようになる（すなわち、立
体感と音声認識性能とをバランスさせることができ
る）。

【００２８】第７の発明は、第５の発明において、マル
チチャンネル信号は、３チャンネル以上の信号であり、
マルチチャンネル信号を２チャンネル化する２チャンネ
ル化手段をさらに備え、モノラル化手段は、２チャンネ
ル化手段の出力（以下、２チャンネル化信号）をモノラ
ル化し、切り替え手段は、マルチチャンネル信号、２チ
ャンネル化信号およびモノラル化信号のいずれかを複数
のスピーカへと入力することを特徴としている。

【００２９】上記第７の発明では、複数のスピーカか
ら、マルチチャンネル音響、２チャンネル化音響および
モノラル化音響のいずれかを選択的に出力させることが
できる。

【００３０】第８の発明は、第７の発明において、モノ
ラル化信号とエコーキャンセラ出力とに基づいてユーザ
音声を検出する音声検出手段をさらに備え、切り替え手
段は、状態設定手段が音声認識手段を待機状態に設定し
ている時には、マルチチャンネル信号を複数のスピーカ
へと入力し、状態設定手段が音声認識手段を動作状態に
設定しているが、音声検出手段によってユーザ音声が検
出されていない時には、２チャンネル化信号を複数のス
ピーカへと入力し、音声検出手段によってユーザ音声が
検出されている時には、モノラル化信号を複数のスピー
カへと入力することを特徴としている。

【００３１】上記第８の発明では、音声認識手段が待機
状態（”ＯＦＦ”状態）にある場合はマルチチャンネル
音響を、動作状態（”ＯＮ”状態）にあるが音声認識を
行う必要がない（ユーザ音声が検出されない）場合はマ
ルチチャンネル音響を、音声認識を行う必要がある（ユ
ーザ音声が検出されている）場合はモノラル化音響を出
力させるので、待機状態における立体感をあまり損なう
ことなく、十分に高い精度で音声認識が行えるようにな
る。

【００３２】第９の発明は、第５の発明において、モノ
ラル化信号とエコーキャンセラ出力とに基づいて、エコ
ーキャンセラにおいて反響音が十分に打ち消されている
かを監視する打ち消し監視手段、モノラル化信号とエコ
ーキャンセラ出力とに基づいてユーザ音声を検出する音
声検出手段、およびマルチチャンネル信号を減衰させる
減衰手段をさらに備え、減衰手段は、打ち消し監視手段
の監視結果が打ち消し不十分を示している状態におい
て、音声検出手段がユーザ音声を検出した時、マルチチ
ャンネル信号を減衰させることを特徴としている。

【００３３】上記第９の発明では、反響音が十分に打ち
消されていない状態でユーザ音声が検出された時、複数
のスピーカから出力される音響のレベルを下げることに
よって、反響音の混入を抑制する。その結果、反響音が
十分に打ち消されていない状態での音声認識性能が高ま
る。

【００３４】第１０の発明は、第５の発明において、エ
コーキャンセラは、複数のスピーカとマイクロホンとの
間の反響路のインパルスレスポンスを推定して、当該推
定インパルスレスポンスと、モノラル化信号とから反響
音を算出する適応ディジタルフィルタ、およびマイクロ
ホン出力から、適応ディジタルフィルタの出力を減算す
る減算手段を含んでいる。

【００３５】上記第１０の発明では、マイクロホン出力
からマルチチャンネル音響の反響音を除去して、ユーザ
音声だけを音声認識手段に与えることができる。

【００３６】第１１の発明は、第１０の発明において、
切り替え手段によって複数のスピーカへの入力がマルチ
チャンネル信号からモノラル化信号へと切り替えられる
際に、適応ディジタルフィルタの適応を促進するための
モノラル適応音を発生する適応音発生手段をさらに備え
ている。

【００３７】上記第１１の発明では、スピーカへの入力
がマルチチャンネル信号からモノラル化信号に切り替わ
る際に、複数のスピーカからモノラルの適応音響が出力
されるので、もし切り替え直後のモノラル化音響が無音
状態であっても、ディジタルフィルタが保持しているイ
ンパルスレスポンスを強制的に反響路のインパルスレス
ポンスに適応させることができる。

【００３８】第１２の発明は、第１０の発明において、
適応ディジタルフィルタの適応速度を制御する適応制御
手段をさらに備え、適応制御手段は、モノラル用の速い
適応速度と、マルチチャンネル用の遅い適応速度とを持
ち、状態設定手段が音声認識手段を動作状態に設定して
いる時には速い適応速度を選択し、待機状態に設定して
いる時には遅い適応速度を選択することを特徴としてい
る。

【００３９】上記第１２の発明では、エコーキャンセラ
内の適応ディジタルフィルタの適応速度を、音声認識手
段が動作状態に設定されている時には速い速度に、待機
状態に設定されている時には遅い速度に制御するので、
モノラル，マルチチャンネルそれぞれに好適なエコー打
ち消しを行うことができる。すなわち、スピーカから出
力されるのがマルチチャンネル音響の場合は、適応ディ
ジタルフィルタから見ると雑音であるステレオ成分が多
いので、遅い適応速度とすることによって耐雑音性を高
め、一方、モノラル化音響の場合は、ステレオ成分がな
いので、速い適応速度とすることによって、反響路のイ
ンパルスレスポンスの変動への追従性を高めることがで
きる。その結果、待機状態において優れたエコー打ち消
し効果が実現され、動作状態へ移行した直後における音
声認識性能が高まる。

【００４０】第１３の発明は、第１２の発明において、
適応制御手段へは、複数のスピーカに入力される信号が
マルチチャンネル信号かモノラル信号かを示す識別信号
が与えられ、適応制御手段は、識別信号がモノラルを示
す場合、状態設定手段が音声認識手段を動作状態に設定
しているか待機状態に設定しているかに関わらず、速い
適応速度を選択することを特徴としている。

【００４１】上記第１３の発明では、複数のスピーカに
入力される信号がマルチチャンネル信号かモノラル信号
かを識別信号によって判別して、モノラル信号の場合
は、状態設定手段が音声認識手段を動作状態に設定して
いるか待機状態に設定しているかに関わらず、速い適応
速度を選択するので、反響路のインパルスレスポンスの
変動への追従性が低下することがなく、その結果、待機
状態において優れたエコー打ち消し効果が実現され、動
作状態へ移行した直後における音声認識性能が高まる。

【００４２】第１４の発明は、第１０の発明において、
マルチチャンネル信号のモノラル度を判定するモノラル
度判定手段、およびモノラル度判定手段の判定結果に基
づいて、適応ディジタルフィルタの適応速度を制御する
適応制御手段をさらに備えている。

【００４３】上記第１４の発明では、マルチチャンネル
信号のモノラル度に基づいて、適応ディジタルフィルタ
の適応速度を制御するので、様々なモノラル度を持った
マルチチャンネル信号に好適なエコー打ち消しを行うこ
とができる。すなわち、モノラル度が低い場合、適応速
度を遅くして、耐雑音性を高める。一方、モノラル度が
高い場合、適応ディジタルフィルタから見ると雑音であ
るステレオ成分が少ないので、耐雑音性はあまり必要で
ない。よって、下記第１５の発明のように、適応速度を
速くすることによって、反響路のインパルスレスポンス
の変動への追従性を高めることができる。その結果、特
にモノラル度が高い場合に、優れたエコー打ち消し効果
が実現でき、動作状態へ移行した直後における音声認識
性能が高まる。

【００４４】第１５の発明は、第１４の発明において、
適応制御手段は、マルチチャンネル信号のモノラル度が
高いほど、適応ディジタルフィルタの適応速度を速くす
ることを特徴としている。

【００４５】第１６の発明は、第１０の発明において、
不揮発メモリをさらに備え、不揮発メモリは、電源が”
ＯＦＦ”される時、適応ディジタルフィルタによって推
定されたインパルスレスポンスを取得して記憶し、電源
が”ＯＮ”される時、記憶している電源”ＯＦＦ”時の
推定インパルスレスポンスを適応ディジタルフィルタに
与え、適応ディジタルフィルタは、不揮発メモリから与
えられた電源”ＯＦＦ”時の推定インパルスレスポンス
を初期値として、インパルスレスポンスの推定を開始す
ることを特徴としている。

【００４６】上記第１６の発明では、電源”ＯＦＦ”時
の推定インパルスレスポンスを記憶しておき、電源”Ｏ
Ｎ”時、それを初期値としてインパルスレスポンスの推
定を開始するので、”０”を初期値とする場合と比べ、
電源”ＯＮ”直後の推定誤差が小さくなり、その結果、
音声認識性能が高まる。

【００４７】第１７の発明は、第５の発明において、モ
ノラル化信号とエコーキャンセラ出力とに基づいてユー
ザ音声を検出する音声検出手段をさらに備え、起動命令
手段は、ボタンが押されると、状態設定手段へ起動命令
を発するようなボタンスイッチであり、終了命令手段
は、音声検出手段がユーザ音声を検出しない状態が予め
定められた時間以上継続すると、状態設定手段へ終了命
令を発する時限スイッチであることを特徴としている。

【００４８】上記第１７の発明では、音声認識動作を自
動的に終了できる。

【００４９】第１８の発明は、第５の発明において、モ
ノラル化信号とエコーキャンセラ出力とに基づいてユー
ザ音声を検出する音声検出手段をさらに備え、起動命令
手段は、音声検出手段がユーザ音声を検出すると、状態
設定手段へ起動命令を発する音声スイッチであり、終了
命令手段は、音声検出手段がユーザ音声を検出しない状
態が予め定められた時間以上継続すると、状態設定手段
へ終了命令を発する時限スイッチであることを特徴とし
ている。

【００５０】上記第１８の発明では、音声認識動作を自
動的に開始・終了できる。

【００５１】

【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照しながら説明する。最初に、本発明が用
いられるＡＶ機器について説明しておく。図１は、本発
明が用いられるＡＶ機器の構成の一例を示すブロック図
である。図１に示されるＡＶ機器は、テレビション放送
を受信するためのテレビジョン受像機である。ここでい
うテレビション放送では、マルチチャンネル（２チャン
ネルも含む；以下同様）の音響方式が採用されていると
する。

【００５２】図１において、ＡＶ機器は、アンテナ１
と、受信部２と、ＡＶ処理部３と、コントローラ４と、
コントロールパネル５と、マイクロホン６と、音声認識
装置７と、ディスプレイユニット８と、スピーカユニッ
ト９とを備えている。

【００５３】アンテナ１は、放送局から送信された電波
を捉えて電気信号に変換する。受信部２は、アンテナ１
から出力される電気信号から、特定の周波数帯に含まれ
る信号を抽出する。ＡＶ処理部３は、受信部２から出力
される信号を処理して、映像信号と、マルチチャンネル
の音響信号（以下、マルチチャンネル信号）とを出力す
る。

【００５４】コントローラ４は、コントロールパネル５
または音声認識装置７からのコントロール信号を受け、
受信部２および／またはＡＶ処理部３に、例えば受信チ
ャンネルの切り換えや音量の増減、主電源の”ＯＮ”
／”ＯＦＦ”等の予め決められた処理を実行させる。デ
ィスプレイユニット８は、ディスプレイを含み、ＡＶ処
理部３からの映像信号を受けて映像を表示する。スピー
カユニット９は、複数のスピーカ（９ａ，９ｂ，…）を
含み、ＡＶ処理部３からのマルチチャンネル信号を受け
てマルチチャンネル音響を出力する。

【００５５】コントロールパネル５（受像機本体に設け
られても、リモコンに設けられてもよい）は、ボタン等
によって構成され、ユーザのボタン操作と対応するコン
トロール信号を生成する。マイクロホン６は、ユーザが
発した音声を電気信号に変換する。音声認識装置７は、
マイクロホン６から出力される電気信号を受け、ユーザ
の音声と対応するコントロール信号を生成する。

【００５６】ここで、上記受信部２から出力される信号
は、アナログ信号であっても、ディジタル信号であって
もよい。前者の場合、ＡＶ処理部３は、受信部２から出
力される信号をアナログ的に処理する回路によって構成
される。後者の場合、ＡＶ処理部３は、受信部２から出
力される信号をディジタル的に処理する回路によって構
成される。

【００５７】上記のように構成されたテレビジョン受像
機では、アンテナ１が、放送局から送信された電波を捉
えて電気信号に変換し、受信部２は、その電気信号か
ら、特定の周波数帯の信号を抽出する。次いで、ＡＶ処
理部３は、受信部２から出力される信号を処理して、映
像信号とマルチチャンネル信号とを出力する。ＡＶ処理
部３から出力された映像信号は、ディスプレイユニット
８に与えられ、ディスプレイに映像が表示される。一
方、マルチチャンネル信号は、スピーカユニット９に与
えられ、複数のスピーカからマルチチャンネル音響が出
力される。

【００５８】ユーザは、コントロールパネル５を操作す
ることにより、テレビジョン受像機に、受信チャンネル
の切換等を行わせることができる。すなわち、コントロ
ールパネル５がユーザのボタン操作と対応するコントロ
ール信号を生成し、コントローラ４は、そのコントロー
ル信号を受け、受信部２および／またはＡＶ処理部３
に、受信チャンネルの切り換え等を実行させる。

【００５９】また、ユーザは、マイクロホン６を通じて
音声を入力をすることにより、テレビジョン受像機に、
受信チャンネルの切り換え等を行わせることができる。
すなわち、音声認識装置７がユーザの音声と対応するコ
ントロール信号を生成し、コントローラ４は、そのコン
トロール信号を受け、受信部２および／またはＡＶ処理
部３に、受信チャンネルの切り換え等を実行させる。

【００６０】なお、以上では、本発明が用いられるＡＶ
機器の一例として、マルチチャンネル音響を出力するテ
レビジョン受像機について説明したが、本発明は、テレ
ビジョン受像機に限らず、例えば、マルチチャンネル音
響を出力するラジオ受信機に用いてもよい。あるいは、
マルチチャンネル信号が記されたＣＤ，ＤＶＤ等のメデ
ィアを再生するための再生機、アンプ、およびスピーカ
ユニット９等からなるマルチチャンネル・オーディオシ
ステムなど、マルチチャンネル音響を出力する機能を持
つあらゆる機器，システムに用いることができる。

【００６１】（第１の実施形態）図２は、本発明の第１
の実施形態に係るＡＶ機器用音声認識装置の構成を示す
ブロック図である。図２の音声認識装置７は、図１のＡ
Ｖ機器に設けられた音声認識装置７と対応している。た
だし、本実施形態では、ＡＶ機器において、ＡＶ処理部
３から２チャンネル信号が出力され、スピーカユニット
９に含まれる２つのスピーカ９ａおよび９ｂを通じて２
チャンネル音響が出力されるものとする。

【００６２】図２において、音声認識装置７は、モノラ
ル化部１３と、１個のエコーキャンセラ１４と、音声認
識部１５とを備えている。スピーカ９ａおよび９ｂへと
入力される信号は、図１のＡＶ処理部３から出力される
２チャンネル信号である。

【００６３】スピーカ９ａおよび９ｂへ向かう２チャン
ネル信号が分岐されてモノラル化部１３に入力され、モ
ノラル化部１３は、その２チャンネル信号をモノラル化
する。マイクロホン６から出力される信号（以下、マイ
クロホン出力）と、モノラル化部１３から出力される信
号（以下、モノラル化信号）とがエコーキャンセラ１４
へと与えられ、エコーキャンセラ１４は、そのマイクロ
ホン出力からユーザの音声と対応する信号（以下、ユー
ザ音声）だけを抽出する。

【００６４】ここで、エコーキャンセラ１４の動作原理
について、簡単に説明する。エコーキャンセラ１４は、
適応ディジタルフィルタ１４ａと、減算回路１４ｂとを
含む。マイクロホン出力には、ユーザ音声に加え、スピ
ーカ９ａおよび９ｂから出力された音響が屋内を反響し
てマイクロホン６へと回り込んだ結果生じる信号（以
下、反響信号）が含まれている。

【００６５】適応ディジタルフィルタ１４ａへは、モノ
ラル化信号が入力されると共に、減算回路１４ｂから出
力される信号がフィードバックされ、適応ディジタルフ
ィルタ１４ａは、それら２つの信号に基づいて反響信号
を推定する。こうして得られた推定反響信号と、マイク
ロホン出力とが減算回路１４ｂへと与えられ、減算回路
１４ｂは、マイクロホン出力から推定反響信号を減算す
る。これにより、エコーキャンセラ１４からは、反響信
号の除去されたユーザ音声が出力される。

【００６６】音声認識部１５は、エコーキャンセラ１４
からのユーザ音声を認識して、その音声が示すコントロ
ール信号を生成する。こうして生成されたコントロール
信号は、図１のコントローラ４に伝達され、コントロー
ラ４が受信部２やＡＶ処理部３を制御することによっ
て、テレビジョン受像機において、受信チャンネルの切
り換え等の処理が実行される。

【００６７】図３は、図１の音声認識装置７のハードウ
エア的な構成を示すブロック図である。図３において、
音声認識装置７は、ＣＰＵ１０と、ＲＡＭ１１と、ＲＯ
Ｍ１２とを備えている。ＲＯＭ１２には、所定のプログ
ラムが予め格納されている。このプログラムには、
（ａ）２チャンネル信号をモノラル化するためのアルゴ
リズムや、（ｂ）マイクロホン出力から反響信号を除去
するためのアルゴリズム、（ｃ）ユーザ音声を認識して
コントロール信号を生成するためのアルゴリズム等が記
述されている。ＣＰＵ１０は、ＲＡＭ１１を作業領域と
して利用しつつ、上記のプログラムに従って動作する。
これによって、図２に示される各ブロックの機能が実現
される。なお、各ブロックの機能をソフト的に実現する
代わりに、各々専用のハード回路によって実現すること
もできる。

【００６８】以上のように構成されたＡＶ機器用音声認
識装置７について、以下、図４を利用してその動作を述
べる。図４は、図２の音声認識装置７において、各構成
要素に入力される、または各構成要素から出力される信
号の時間波形を示す図である。まず、スピーカ９ａとス
ピーカ９ｂとに図４の２１に示す左スピーカ入力と図４
の２２に示す右スピーカ入力とが入力されている状態
で、ユーザが図４の２３に示す音声を発した場合を考え
る。この時、マイクロホン６からは、左スピーカ入力２
１の反響音と右スピーカ入力２２の反響音とユーザ音声
２３とが加算された図４の２４に示すマイクロホン出力
信号が出力される。一方、左スピーカ入力２１と右スピ
ーカ入力２２とは、モノラル化部１３にも入力され、こ
こで加算されて、図４の２５に示すモノラル化信号が得
られる。

【００６９】このモノラル化信号２５がエコーキャンセ
ラ１４に入力され、エコーキャンセラ１４は、このモノ
ラル化信号２５と内部に記憶した推定インパルスレスポ
ンスとから、図４の２６に示す推定反響信号を推定す
る。エコーキャンセラ１４の内部では、マイクロホン出
力信号２４から、推定した推定反響信号２６を差し引き
くことにより、図４の２７に示すエコーキャンセラ出力
信号を得る。この信号が音声認識部１５に入力される。
エコーキャンセラ出力信号２７とユーザ音声２３とマイ
クロホン出力信号２４とを比較すれば、反響信号がかな
り効果的に打ち消されていることがわかる。

【００７０】次に、なぜステレオ信号（以下では、２チ
ャンネル信号を適宜、ステレオ信号と呼ぶ）が１個のエ
コーキャンセラ１４で打ち消せるかを説明する。右チャ
ンネル用のスピーカ９ａからマイクロホン６までの伝達
特性（インパルスレスポンス）をＨｒ、左チャンネル用
のスピーカ９ｂからマイクロホン６までの伝達特性をＨ
ｌとし、右チャンネル信号をＳｒ、左チャンネル信号を
Ｓｌとすると、マイクロホン６の出力に混入する反響信
号Ｓｅは、Ｓｅ＝（Ｓｒ＊Ｈｒ＋Ｓｌ＊Ｈｌ）となる。

【００７１】この時、もし、左右の伝達特性がほぼ等し
くＨｒ≒Ｈｌ（≒Ｈ）なら、Ｓｅ≒（Ｓｒ＋Ｓｌ）＊Ｈ
となり、もし、左右のチャンネルの信号がほぼ等しくＳ
ｒ≒Ｓｌ≒Ｓなら、Ｓｅ≒Ｓ＊（Ｈｒ＋Ｈｌ）となる。
従って、どちらかの仮定が成り立つ場合には、１個のエ
コーキャンセラ１４でも打ち消しが可能であることがわ
かる。

【００７２】伝達特性ＨｒおよびＨｌを決める最大の要
因は、スピーカ９ａおよび９ｂとマイクロホン６との間
の距離および部屋の反射構造であるが、実際の聴取状態
では、音声認識用のマイクロホン６と、右チャンネル用
のスピーカ９ａ，左チャンネル用のスピーカ９ｂとの間
の各距離は、例えばマイクロホン６をユーザの手元に置
く場合には、当然、ほぼ等距離となる。また、ＴＶの上
に設置する場合でも、ＴＶの中央に設置すれば等距離と
なる。さらに、部屋の反響構造も当然ほぼ同一である。

【００７３】高域周波数では、波長が短いため僅かな距
離差によって位相逆転が生じるので、たとえほぼ等距離
といえども位相を含めた伝達特性の一致は不十分であ
る。しかし、低中域周波数では、かなりよく伝達特性が
一致している場合が多いので、、Ｈｒ≒Ｈｌの仮定が成
立し、１個のエコーキャンセラ１４でもある程度のキャ
ンセル効果が期待できることになる。

【００７４】さらに、実際のＴＶ番組などでの音づくり
では、センター定位音（モノラル成分）を比較的高いレ
ベルで左右チャンネル均等にミキシングし、このモノラ
ル成分に、左右に定位させる音（ステレオ成分）を比較
的低レベルでミキシングしている場合が多い。すなわ
ち、センター音源主体の音づくりがなされており、先の
２１と２２で示した左右のスピーカ入力のかなりの部分
がモノラル成分である。このようなセンター音源主体の
オーディオ信号の場合には、Ｓｒ≒Ｓｌの仮定が成り立
ち、１個のエコーキャンセラ１４を用いたシステムで
も、反響音を効果的にキャンセルできることになる。以
上の理由により、実際のＴＶ視聴状態においては、図２
のような構成の音声認識装置７でも、かなりのエコーキ
ャンセル効果が得られることが確かめられている。

【００７５】以上のように、本実施形態によれば、１個
のエコーキャンセラのみでステレオソース（２チャンネ
ル信号）に対応できるため、安価なＡＶ機器用音声認識
装置が実現できる。また、１個のエコーキャンセラしか
使用しないため、エコーキャンセラ間の相互干渉がな
く、安定した動作が保証できるという、実用上極めて重
要な効果が得られる。

【００７６】なお、上記第１の実施形態（および下記第
２〜４，６〜１３の実施形態）では、図１のＡＶ機器に
おいて、ＡＶ処理部３から２チャンネル信号が出力さ
れ、スピーカユニット９を通じて２チャンネル音響が拡
声されるとしたが、代わりに、ＡＶ処理部３から４チャ
ンネル信号，６チャンネル信号等のマルチチャンネル信
号が出力され、スピーカユニット９を通じて４チャンネ
ル音響，６チャンネル音響等のマルチチャンネル音響が
出力されてもよい。この場合、図２のモノラル化部１３
がマルチチャンネル信号のモノラル化を行うように、Ｒ
ＯＭ１２のプログラムの記述（あるいは専用ハード回路
の構成）に一部変更を加えればよい。その場合、モノラ
ル化部１３は、全チャンネルの信号を加算してもよく、
あるいは、前方左右中央といった主チャンネル信号だけ
を加算してもよい。また、加算する際に、各チャンネル
を均等に加算するのでなく、重み付けをして加算しても
よい。

【００７７】（第２の実施形態）図５は、本発明の第２
の実施形態に係るＡＶ機器用音声認識装置の構成を示す
ブロック図である。図５の音声認識装置７は、図１のＡ
Ｖ機器に設けられた音声認識装置７と対応している。た
だし、本実施形態では、ＡＶ機器において、ＡＶ処理部
３から２チャンネル信号が出力され、スピーカユニット
９に含まれる２つのスピーカ９ａおよび９ｂを通じて２
チャンネル音響が出力されるものとする。

【００７８】図５において、音声認識装置７は、モノラ
ル化部３３と、１個のエコーキャンセラ３４と、音声認
識部３５と、音声検出部３７と、切り替え部３６とを備
えている。すなわち、図５の音声認識装置７は、図２の
音声認識装置７（第１の実施形態）に、音声検出部３７
と、切り替え部３６とを追加したものである。スピーカ
９ａおよび９ｂへと入力される信号は、図１のＡＶ処理
部３から出力される２チャンネル信号である。

【００７９】スピーカ９ａおよび９ｂへ向かう２チャン
ネル信号が分岐されてモノラル化部３３に入力され、モ
ノラル化部３３は、その２チャンネル信号をモノラル化
する。マイクロホン６から出力される信号（マイクロホ
ン出力）と、モノラル化部３３から出力される信号（モ
ノラル化信号）とがエコーキャンセラ３４へと与えら
れ、エコーキャンセラ３４は、そのマイクロホン出力か
らユーザの音声と対応する信号（以下、ユーザ音声）だ
けを抽出する。なお、エコーキャンセラ３４の動作原理
については、第１の実施形態で説明した。

【００８０】音声検出部３７へは、モノラル化部３３の
出力（モノラル化信号）と、エコーキャンセラ３４の出
力（ユーザ音声）とが与えられ、音声検出部３７は、両
出力のレベル比に基づいて、ユーザ音声を検出する。切
り替え部３６は、音声検出部３７がユーザ音声を検出す
ると、スピーカ９ａおよび９ｂへの入力を、（非検出時
における）２チャンネル信号から、モノラル化信号に切
り替える。また、音声検出部３７がユーザ音声を検出し
ている状態から検出しない状態へ変化すると、スピーカ
９ａおよび９ｂへの入力を、（検出時における）モノラ
ル化信号から、２チャンネル信号に切り替える。

【００８１】音声認識部３５は、音声検出部３７がユー
ザ音声を検出すると、音声認識動作を開始する。すなわ
ち、エコーキャンセラ３４からのユーザ音声を認識し
て、その音声が示すコントロール信号を生成する。こう
して生成されたコントロール信号は、図１のコントロー
ラ４に伝達され、コントローラ４が受信部２やＡＶ処理
部３を制御することによって、テレビジョン受像機にお
いて、受信チャンネルの切り換え等の処理が実行され
る。

【００８２】図５の音声認識装置７のハードウエア的な
構成は、図３と同様である。図３において、ＲＯＭ１２
には、所定のプログラムが予め格納されている。このプ
ログラムには、第１の実施形態で述べた（ａ）〜（ｃ）
のアルゴリズムに加え、さらに（ｄ）ユーザ音声を検出
するためのアルゴリズム、および（ｅ）スピーカ９ａお
よび９ｂへの入力信号を切り替えるためのアルゴリズム
が記述されている。ＣＰＵ１０は、ＲＡＭ１１を作業領
域として利用しつつ、上記のプログラムに従って動作す
る。これによって、図５に示される各ブロックの機能が
実現される。なお、各ブロックの機能をソフト的に実現
する代わりに、各々専用のハード回路によって実現する
こともできる。

【００８３】以上のように構成されたＡＶ機器用音声認
識装置７について、以下、図６を利用してその動作を述
べる。図６は、図５の音声認識装置７において、各構成
要素に入力される、または各構成要素から出力される信
号の時間波形を示す図である。まず、先の第１実施形態
で説明したと同様、スピーカ９ａとスピーカ９ｂとに、
図６の４１に示す左スピーカ入力と図６の４２に示す右
スピーカ入力とが入力されている状態で、ユーザが図６
の４３に示す音声を発した場合を考える。この時、モノ
ラル化部３３からは、図６の４４の信号が出力される。
図３の音声認識装置７では、音声検出部３７がユーザが
音声を発したか否かを判断し、ユーザが音声を発してい
ない図６の４３に示したＡ〜ＢとＣ〜Ｄの期間では、切
り替え部３６は、スピーカ９ａおよび９ｂへの入力をス
テレオ信号側に切り替え、ユーザが音声を発しているＢ
〜Ｃの期間では、モノラル信号側に切り替えている。こ
の時、マイクロホン６から出力される信号を、図６の４
５に示す。

【００８４】エコーキャンセラ３４には、常に図６のモ
ノラル化信号４４が入力され、エコーキャンセラ３４
は、このモノラル化信号４４と、内部に記憶した推定イ
ンパルスレスポンスとから、図６の４６に示す推定反響
信号を推定する。エコーキャンセラ３４の内部では、マ
イクロホン出力信号４５から推定反響信号４６を差し引
くことにより、図６の４７に示すエコーキャンセラ出力
信号を得る。

【００８５】図５の音声認識装置７では、音声検出部３
７が、モノラル化信号４４とエコーキャンセラ出力信号
４７とのレベル比を監視し、モノラル化信号４４のレベ
ルと反響路の伝達特性とから予想される反響信号のレベ
ル以上に、エコーキャンセラ出力信号４７のレベルが上
昇した時に、ユーザが音声を発したと判断し、切り替え
部３６は、スピーカ９ａおよび９ｂへの入力をモノラル
化信号４４に切り替える。スピーカ９ａおよび９ｂへの
入力を（Ｓｒ＋Ｓｌ）なるモノラル化信号に切り替えた
場合においては、反響信号Ｓｅは、Ｓｅ＝（Ｓｒ＋Ｓ
ｌ）＊（Ｈｒ＋Ｈｌ）となり、原理的に、１個のエコー
キャンセラ３４により反響信号を完全に消去できること
となる。先の図２の構成では、Ｓｒ≒Ｓｌの仮定が成り
立たないステレオ成分の強いオーディオ信号の場合に
は、当然、エコーキャンセラ３４の打ち消し効果が損な
われ、音声認識部３５に入力される音声に反響信号が混
入して音声認識の性能を悪化させていたが、図５の構成
では、この場合においても完全に反響信号を打ち消すこ
とができ、音声認識部３５で精度の高い音声認識が可能
となる。

【００８６】図６の４８に、図５の音声認識装置７にお
けるエコーキャンセラ出力信号４７中に含まれる反響信
号を抜き出して示し、図６の４９に、図２の構成におけ
る図２のエコーキャンセラ出力信号２７中に含まれる反
響信号を抜き出して示す。この４８と４９を比較する
と、本実施の形態では、Ｂ〜Ｃのユーザ音声が入力され
ている期間において反響信号がより効果的に打ち消さ
れ、音声認識のためのＳ／Ｎが大幅に向上していること
がわかる。

【００８７】以上のように、本実施形態によれば、通常
はステレオ再生で、ユーザが音声を発した時のみモノラ
ル再生に切り替えることにより、第１の実施形態よりさ
らにＳ／Ｎのよいユーザ音声を抽出でき、認識性能の向
上が図れる。

【００８８】（第３の実施形態）図７は、本発明の第３
の実施形態に係るＡＶ機器用音声認識装置の構成を示す
ブロック図である。図７の音声認識装置７は、図１のＡ
Ｖ機器に設けられた音声認識装置７と対応している。た
だし、本実施形態では、ＡＶ機器において、ＡＶ処理部
３から２チャンネル信号が出力され、スピーカユニット
９に含まれる２つのスピーカ９ａおよび９ｂを通じて２
チャンネル音響が出力されるものとする。

【００８９】図７において、音声認識装置７は、モノラ
ル化部５３と、１個のエコーキャンセラ５４と、音声認
識部５５と、起動命令部５８１と、終了命令部５８２
と、状態設定部５７と、切り替え部５６とを備えてい
る。すなわち、図７の音声認識装置７は、図２の音声認
識装置７（第１の実施形態）に、起動命令部５８１と、
終了命令部５８２と、状態設定部５７と、切り替え部５
６とを追加したものである。スピーカ９ａおよび９ｂへ
と入力される信号は、図１のＡＶ処理部３から出力され
る２チャンネル信号である。

【００９０】スピーカ９ａおよび９ｂへ向かう２チャン
ネル信号が分岐されてモノラル化部５３に入力され、モ
ノラル化部５３は、その２チャンネル信号をモノラル化
する。マイクロホン６から出力される信号（マイクロホ
ン出力）と、モノラル化部５３から出力される信号（モ
ノラル化信号）とがエコーキャンセラ５４へと与えら
れ、エコーキャンセラ５４は、そのマイクロホン出力か
らユーザの音声と対応する信号（以下、ユーザ音声）だ
けを抽出する。なお、エコーキャンセラ５４の動作原理
については、第１の実施形態で説明した。

【００９１】起動命令部５８１は、音声認識動作の起動
を命令する。終了命令部５８２は、音声認識動作の終了
を命令する。状態設定部５７は、起動命令部５８１，終
了命令部５８２からの命令を受け、音声認識部５５の動
作状態を設定（つまり音声認識動作を”ＯＮ”／”ＯＦ
Ｆ”）する。切り替え部５６は、状態設定部５７が音声
認識動作を”ＯＮ”状態に設定すると、スピーカ９ａお
よび９ｂへの入力を、（”ＯＦＦ”状態における）２チ
ャンネル信号から、モノラル化信号に切り替える。ま
た、”ＯＦＦ”状態に設定すると、スピーカ９ａおよび
９ｂへの入力を、（”ＯＮ”状態における）モノラル化
信号から、２チャンネル信号に切り替える。

【００９２】音声認識部５５は、状態設定部５７の設定
に従い、音声認識を実行／終了する。すなわち、エコー
キャンセラ５４からのユーザ音声を認識して、その音声
が示すコントロール信号を生成する。こうして生成され
たコントロール信号は、図１のコントローラ４に伝達さ
れ、コントローラ４が受信部２やＡＶ処理部３を制御す
ることによって、テレビジョン受像機において、受信チ
ャンネルの切り換え等の処理が実行される。

【００９３】図７の音声認識装置７のハードウエア的な
構成は、図３と同様である。図３において、ＲＯＭ１２
には、所定のプログラムが予め格納されている。このプ
ログラムには、第１の実施形態で述べた（ａ）〜（ｃ）
のアルゴリズムと、第２の実施形態で述べた（ｅ）のア
ルゴリズムに加え、さらに（ｆ）音声認識部５５の動作
状態を設定するためのアルゴリズムが記述されている。
ＣＰＵ１０は、ＲＡＭ１１を作業領域として利用しつ
つ、上記のプログラムに従って動作する。これによっ
て、図７に示される各ブロックの機能が実現される。

【００９４】なお、起動命令部５８１，終了命令部５８
２は、図１のコントローパネルを構成するボタンによっ
て実現される。また、起動命令部５８１，終了命令部５
８２以外の各ブロックの機能をソフト的に実現する代わ
りに、各々専用のハード回路によって実現することもで
きる。

【００９５】以上のように構成されたＡＶ機器用音声認
識装置７について、以下、その動作を述べる。図７の音
声認識装置７は、図５の音声認識装置７において、音声
検出部３７が行っていた切り替え部５６の制御を、起動
命令部５８１および終了命令部５８２と、状態設定部５
７とで行う構成である。音声認識機能を利用しようとす
る場合は、まず、起動命令部５８１により音声認識機能
の起動信号が状態設定部５７に送られ、状態設定部５７
は、切り替え部５６を制御してスピーカ９ａおよびスピ
ーカ９ｂへの入力信号をステレオ信号からモノラル化信
号へ切り替え、音声認識の状態をスピーカ９ａおよび９
ｂにステレオ信号が入力された待機状態から、スピーカ
９ａおよび９ｂにモノラル化信号が入力された動作状態
に移行させる。

【００９６】動作状態においては、ステレオ感は損なわ
れるがオーディオ信号の聞き取りには大きな問題はな
い。すなわち、動作状態においては、反響信号の打ち消
し効果は最良の状態にあり、精度の高い音声認識が期待
できる一方、ステレオ感が損なわれるため、音声認識機
能の利用が終了すると同時に、終了命令部５８２により
音声認識機能の終了信号が状態設定部５７に送られ、状
態設定部５７は、切り替え部５６を制御してスピーカ９
ａおよびスピーカ９ｂへの入力信号をモノラル化信号か
らステレオ信号へ切り替え、音声認識の状態をスピーカ
９ａおよび９ｂにモノラル化信号が入力された動作状態
から、スピーカ９ａおよび９ｂにステレオ信号が入力さ
れた待機状態に移行させる。

【００９７】図８は、図７の音声認識装置７において、
各構成要素に入力される、または各構成要素から出力さ
れる信号の時間波形を示す図である。図８の６１に、動
作状態における音声認識部５５への入力信号を示し、６
２に、その信号中に含まれる反響信号を示す。この図８
の６１，６２の信号と、先の図６の４７，４８の信号と
を比較すれば、図７の音声認識装置７では、図５の音声
認識装置７よりも語頭や語尾部分のＳ／Ｎが大幅に改善
されることがわかる。先の図５の構成では、音声検出に
数１０ｍｓｅｃの検出時間を要するため、数１０ｍｓｅ
ｃの語頭部分でのＳ／Ｎが悪く、語頭にある子音を認識
しにくいという欠点があったが、図７の構成では、この
欠点が完全に解消される。

【００９８】以上のように、本実施形態によれば、通常
はステレオ再生で、音声認識機能を必要とした時のみモ
ノラル再生に切り替えることにより、第２の実施形態よ
りさらにＳ／Ｎのよいユーザ音声を抽出でき、認識性能
のさらなる向上が図れる。

【００９９】（第４の実施形態）図９は、本発明の第４
の実施形態に係るＡＶ機器用音声認識装置の構成を示す
ブロック図である。図９の音声認識装置７は、図１のＡ
Ｖ機器に設けられた音声認識装置７と対応している。た
だし、本実施形態では、ＡＶ機器において、ＡＶ処理部
３から２チャンネル信号が出力され、スピーカユニット
９に含まれる２つのスピーカ９ａおよび９ｂを通じて２
チャンネル音響が出力されるものとする。

【０１００】図９において、音声認識装置７は、完全モ
ノラル化部７５と、モノラル度判定部７６と、任意度モ
ノラル化部７７と、１個のエコーキャンセラ７３と、音
声認識部７４と、起動命令部７９２と、終了命令部７９
３と、状態設定部７９１と、切り替え部７８とを備えて
いる。すなわち、図９の音声認識装置７は、図７の音声
認識装置７（第３の実施形態）に、モノラル度判定部７
６と、任意度モノラル化部７７とを追加したものである
（なお、完全モノラル化部７５は、任意度モノラル化部
７７と区別するために”完全”と呼んでいるが、図７の
モノラル化部５３と同様のものである）。スピーカ９ａ
および９ｂへと入力される信号は、図１のＡＶ処理部３
から出力される２チャンネル信号である。

【０１０１】スピーカ９ａおよび９ｂへ向かう２チャン
ネル信号が分岐されて完全モノラル化部７５に入力さ
れ、完全モノラル化部７５は、その２チャンネル信号を
完全にモノラル化する。さらに、スピーカ９ａおよび９
ｂへ向かう２チャンネル信号が分岐されてモノラル度判
定部７６および任意度モノラル化部７７に入力され、モ
ノラル度判定部７６は、その２チャンネル信号のモノラ
ル度を判定する。任意度モノラル化部７７は、モノラル
度判定部７６の判定結果を受けて、その２チャンネル信
号を任意の程度にモノラル化する。

【０１０２】すなわち、任意度モノラル化部７７は、そ
の２チャンネル信号のモノラル度に応じて、その２チャ
ンネル信号のモノラル度を高める処理を施す。そのため
に、任意度モノラル化部７７は、モノラル度を高める処
理をどの強度で行うべきかをモノラル度をもとに決定す
るための関数（処理強度決定特性；図１２（Ａ）に参照
番号１０１で示される）を記憶している。

【０１０３】ここで、上記２チャンネル信号のモノラル
度とは、その信号中に占める、両チャンネルに共通して
含まれる信号成分（モノラル成分）の割合をいい、両チ
ャンネルの信号が互いに全く無相関であれば、モノラル
度は”０”、同一であれば、モノラル度は”１”とな
る。

【０１０４】マイクロホン６から出力される信号（マイ
クロホン出力）と、完全モノラル化部７５から出力され
る信号（完全モノラル化信号）とがエコーキャンセラ７
３へと与えられ、エコーキャンセラ７３は、そのマイク
ロホン出力からユーザの音声と対応する信号（以下、ユ
ーザ音声）だけを抽出する。なお、エコーキャンセラ７
３の動作原理については、第１の実施形態で説明した。

【０１０５】起動命令部７９２は、音声認識動作の起動
を命令する。終了命令部７９３は、音声認識動作の終了
を命令する。状態設定部７９１は、起動命令部７９２，
終了命令部７９３からの命令を受け、音声認識部７４の
動作状態を設定（つまり音声認識動作を”ＯＮ”／”Ｏ
ＦＦ”）する。

【０１０６】任意度モノラル化部７７から出力される信
号（以下、任意度モノラル化信号）と、図１のＡＶ処理
部３からの２チャンネル信号とが切り替え部７８へと与
えられ、切り替え部７８は、状態設定部７９１が音声認
識動作を”ＯＮ”状態に設定すると、スピーカ９ａおよ
び９ｂへの入力を、（”ＯＦＦ”状態における）２チャ
ンネル信号から、任意度モノラル化信号に切り替える。
また、”ＯＦＦ”状態に設定すると、スピーカ９ａおよ
び９ｂへの入力を、（”ＯＮ”状態における）任意度モ
ノラル化信号から、２チャンネル信号に切り替える。

【０１０７】音声認識部７４は、状態設定部７９１の設
定に従い、音声認識を実行／終了する。すなわち、エコ
ーキャンセラ７３からのユーザ音声を認識して、その音
声が示すコントロール信号を生成する。こうして生成さ
れたコントロール信号は、図１のコントローラ４に伝達
され、コントローラ４が受信部２やＡＶ処理部３を制御
することによって、テレビジョン受像機において、受信
チャンネルの切り換え等の処理が実行される。

【０１０８】図９の音声認識装置７のハードウエア的な
構成は、図３と同様である。図３において、ＲＯＭ１２
には、所定のプログラムが予め格納されている。このプ
ログラムには、第１の実施形態で述べた（ａ）〜（ｃ）
のアルゴリズムと、第２の実施形態で述べた（ｅ）のア
ルゴリズムと、第３の実施形態で述べた（ｆ）のアルゴ
リズムとに加え、さらに（ｇ）２チャンネル信号のモノ
ラル度を判定するためのアルゴリズム、および（ｈ）２
チャンネル信号を任意の程度にモノラル化するためのア
ルゴリズムが記述されている。ＣＰＵ１０は、ＲＡＭ１
１を作業領域として利用しつつ、上記のプログラムに従
って動作する。これによって、図９に示される各ブロッ
クの機能が実現される。

【０１０９】なお、起動命令部７９２，終了命令部７９
３は、図１のコントローパネルを構成するボタンによっ
て実現される。また、起動命令部７９２，終了命令部７
９３以外の各ブロックの機能をソフト的に実現する代わ
りに、各々専用のハード回路によって実現することもで
きる。

【０１１０】以上のように構成されたＡＶ機器用音声認
識装置７について、以下、その動作を述べる。図７の音
声認識装置７では、音声認識の動作状態（”ＯＮ”状
態）においては、ステレオ信号を完全にモノラル化して
からスピーカ９ａおよび９ｂで再生しているため、ステ
レオ感がまったく無いという欠点があった。一方、音声
認識の動作状態でもステレオ再生を行った図２の音声認
識装置７では、Ｓｒ≒Ｓｌの仮定が大きく崩れるモノラ
ル度の低いオーディオ信号が入力している時に、エコー
キャンセラ１４のエコー打ち消し量が大きく悪化すると
いう欠点を有していた。ただし、前述したように、通常
のＴＶなどのステレオ番組にあっては、エコーキャンセ
ラ１４の打ち消し量を大きく悪化させるほど、相関の低
いオーディオ信号が左右のチャンネルにミキシングされ
ている場面は少なく、左右均等にミキシングしたセンタ
ー音源に比較的弱いレベルで左右の音源をミキシングし
ている場面がほとんどである。このため、たとえステレ
オ放送であっても、左右のチャンネル間の相関が極めて
強いＳｒ≒Ｓｌの仮定が成り立つ時間が多い。問題は、
相関の低い時間をどう乗り切るかである。

【０１１１】そこで、本実施形態では、エコーキャンセ
ラ７３へは常に、完全モノラル化部７５で完全にモノラ
ル化信号を入力しているが、スピーカ９ａおよび９ｂへ
は、音声認識の待機状態（”ＯＦＦ”状態）ではステレ
オ信号を、動作状態では任意度モノラル化部７７の出力
を入力する。モノラル度判定部７６が信号のモノラル度
を監視し、モノラル度が低いと判定された時にのみ、任
意度モノラル化部７７は、モノラル化処理の程度を強め
る。それによって、左右のチャンネルで常に一定以上の
相関が確保できるようになる。

【０１１２】音声認識機能を利用しようとする場合は、
まず、先の図７の音声認識装置７と同様に、図９の起動
命令部７９２により音声認識機能の起動信号が状態設定
部７９１に送られ、状態設定部７９１は、切り替え部７
８を制御してスピーカ９ａおよび９ｂへの入力信号をス
テレオ信号から任意度モノラル化部７７の出力に切り替
え、音声認識の状態をスピーカ９ａおよび９ｂにステレ
オ信号が入力された待機状態から、スピーカ９ａおよび
９ｂに任意度合モノラル化信号が入力された動作状態に
移行させる。モノラル度判定部７６が常にオーディオ信
号のモノラル度を監視しており、モノラル度が低いと判
定された時にのみ、任意度モノラル化部７７が任意度モ
ノラル化処理を行う。モノラル度の低い一瞬の時間だけ
オーディオ信号のステレオ感が損なわれるが、十分なエ
コー打ち消し量が得られる。

【０１１３】図１０に、図９のモノラル度判定部７６の
詳細を示す。図１０において、モノラル度判定部７６
は、加算器８１と、減算器８２と、レベル比較器８３
と、モノラル度計算部８４とを含む。

【０１１４】完全なモノラル信号の場合は、Ｓｒ＝Ｓｌ
であるから、加算器８１の出力は２Ｓｒとなり、減算器
８２の出力は”０”となり、｛（減算器８２の出力レベ
ル）／（加算器８１の出力レベル）｝を求めるレベル比
較器８３の出力も”０”になる。一方、完全なステレオ
信号の場合、すなわちＳｒとＳｌとが完全に無相関であ
る場合には、加算器８１の出力はＳｒ＋Ｓｌ、減算器８
２の出力はＳｒ−Ｓｌになる。ＳｒとＳｌとが完全に無
相関であるから、Ｓｒ＋Ｓｌのレベルと、Ｓｒ−Ｓｌの
レベルとは等しく、レベル比較器８３の出力は”１”に
なる。次に、モノラル度計算部８４が｛１−（レベル比
較器出力）｝を計算し、モノラル度判定部７６は、完全
なモノラル信号では”１”を、完全なステレオ信号で
は”０”を出力する。

【０１１５】このように、モノラル度判定部７６は、入
力信号のモノラル度に応じて１〜０の間の値を出力し、
この値を監視することにより、入力信号のモノラル度を
判定することができる。

【０１１６】図１１に、図９の任意度モノラル化部７７
の詳細を示す。図１１において、任意度モノラル化部７
７は、処理強度決定部９１と、減衰器９２１〜９２４
と、加算器９３１および９３２とを含む。図１０のモノ
ラル度計算部８４の出力が、図１１の処理強度決定部９
１に入力され、処理強度決定部９１は、この値に応じて
モノラル化の処理強度を決定する。この処理強度に応じ
て、減衰器９２１〜９２４の減衰量が制御される。

【０１１７】図１２は、図１１の処理強度決定部９１が
行うモノラル化処理の強度、および図１１の減衰器９２
１〜９２４を通じて実現される利得（減衰量）を示す図
である。図１２（Ａ）において、特性１０１は、図１１
の処理強度決定部９１に入力されたモノラル度と、処理
強度決定部９１から出力される処理強度との関係を示
す。図１２（Ｂ）において、特性１０２および特性１０
３は、この処理強度決定部９１から出力される処理強度
により、減衰器９２１〜９２４の利得がどのように制御
されるかを示している。特性１０２が減衰器９２１およ
び減衰器９２４の利得を示し、特性１０３が減衰器９２
２および減衰器９２３の利得を示している。

【０１１８】本実施形態においては、処理強度決定部９
１は、入力信号のモノラル度が１．０〜０．５の範囲で
は、特性１０１に示すように、減衰器９２１〜９２４に
対し、モノラル化処理強度として”０”を出力する。モ
ノラル化処理強度が”０”の時、任意度モノラル化部７
７は、特性１０２と特性１０３とからからるように、モ
ノラル化処理を行わない。

【０１１９】処理強度決定部９１は、入力信号のモノラ
ル度が０．５以下になった場合にのみ”０”以上のモノ
ラル度処理強度を出力する。たとえばモノラル度”０”
の完全なステレオ信号が入力された場合は、処理強度決
定部９１は、減衰器９２１〜９２４に対し、モノラル化
処理強度として”０．５”を出力し、この時、任意度モ
ノラル化部７７からは、”０．５”のモノラル度をもつ
信号が出力される。

【０１２０】図１２に示す制御方式に従えば、モノラル
化の処理強度が”０”の時には、右チャンネル信号がＳ
ｒ、左チャンネル信号がＳｌになり、図１のＡＶ処理部
３からのステレオ信号がそのままスピーカ９ａおよび９
ｂに入力される。処理強度が”１”の時には、両チャン
ネルとも｛（Ｓｒ＋Ｓｌ）／２｝となり、完全にモノラ
ル化された信号がスピーカ９ａおよび９ｂに入力され
る。図１２に示す特性では、処理強度の最大値が０．５
に制限されている。このような範囲に制限する理由は、
聴感上の自然性を確保しつつ、実用上十分なエコー打ち
消し量を得られるようにするためである。

【０１２１】このようにモノラル化の程度を制限して
も、音声認識の動作状態においては、短時間ではあるが
オーディオ信号のステレオ感が損なわれる。そこで、音
声認識機能の利用が終了すると同時に、終了命令部７９
３から音声認識機能の終了信号が状態設定部７９１に送
られ、状態設定部７９１は、切り替え部７８を制御して
スピーカ９ａおよび９ｂへの入力信号を任意度モノラル
化部７７の出力からステレオ信号へ切り替え、音声認識
の状態を、スピーカ９ａおよび９ｂに任意度モノラル化
信号が入力された動作状態から、スピーカ９ａおよび９
ｂにステレオ信号が入力された待機状態に切り替える。
これにより、ある程度以上のステレオ感を確保しなが
ら、常に十分なエコー打ち消し量を得ることができる。

【０１２２】以上のように、本実施形態によれば、音声
認識機能の動作状態にあっても、普通のステレオ信号の
場合はそのまま再生し、極端にモノラル度の低いステレ
オ信号だけに対してモノラル化処理を加えることによ
り、第３の実施形態よりも若干はエコー打ち消し効果は
落ちるが、常に一定レベル以上のエコー打ち消し量を確
保しつつ、ステレオ感の悪化をはるかに小さく抑えるこ
とができる。

【０１２３】（第５の実施形態）図１３は、本発明の第
５の実施形態に係るＡＶ機器用音声認識装置の構成を示
すブロック図である。図１３の音声認識装置７は、図１
のＡＶ機器に設けられた音声認識装置７と対応してい
る。ただし、本実施形態では、ＡＶ機器において、ＡＶ
処理部３から４チャンネル信号が出力され、スピーカユ
ニット９に含まれる４つのスピーカ９ａ〜９ｄを通じて
４チャンネル音響が出力されるものとする。

【０１２４】図１３において、音声認識装置７は、２チ
ャンネル化部１１５と、モノラル化部１１６と、１個の
エコーキャンセラ１１３と、音声認識部１１４と、起動
命令部１１９２と、終了命令部１１９３と、音声検出部
１１７と、状態設定部１１９１と、切り替え部１１８と
を備えている。すなわち、図１３の音声認識装置７は、
図７の音声認識装置７（第３の実施形態）において、２
つの選択肢の間で切り替えを行う切り替え部５６を、３
つの選択肢の間で切り替えを行う切り替え部１１８に置
き換えた上、２チャンネル化部１１５と、音声検出部１
１７とを追加したものである。音声検出部１１７は、図
５の音声検出部３７（第２の実施形態を参照）と同じも
のである。スピーカ９ａ〜９ｄへと入力される信号は、
図１のＡＶ処理部３から出力される４チャンネル信号で
ある。

【０１２５】スピーカ９ａ〜９ｄへ向かう４チャンネル
信号が分岐されて２チャンネル化部１１５に入力され、
２チャンネル化部１１５は、その４チャンネル信号を２
チャンネル化する。２チャンネル化部１１５の出力（以
下、２チャンネル化信号）は、モノラル化部１１６に入
力され、モノラル化部１１６は、その２チャンネル化信
号をモノラル化する。

【０１２６】マイクロホン６から出力される信号（マイ
クロホン出力）と、モノラル化部１１６から出力される
信号（モノラル化信号）とがエコーキャンセラ１１３へ
と与えられ、エコーキャンセラ１１３は、そのマイクロ
ホン出力からユーザの音声と対応する信号（以下、ユー
ザ音声）だけを抽出する。なお、エコーキャンセラ１１
３の動作原理については、第１の実施形態で説明した。

【０１２７】起動命令部１１９２は、音声認識動作の起
動を命令する。終了命令部１１９３は、音声認識動作の
終了を命令する。状態設定部１１９１は、起動命令部１
１９２，終了命令部１１９３からの命令を受け、音声認
識部１１４の動作状態を設定（つまり音声認識動作を”
ＯＮ”／”ＯＦＦ”）する。音声検出部１１７へは、モ
ノラル化部１１６の出力（モノラル化信号）と、エコー
キャンセラ１１３の出力（ユーザ音声）とが与えられ、
音声検出部１１７は、両出力のレベル比に基づいて、ユ
ーザ音声を検出する。

【０１２８】モノラル化部１１６から出力される信号
（モノラル化信号）と、２チャンネル化部１１５から出
力される信号（２チャンネル化信号）と、図１のＡＶ処
理部３からの４チャンネル信号とが切り替え部１１８へ
と与えられ、切り替え部１１８は、状態設定部１１９１
が音声認識動作を”ＯＮ”状態に設定すると、スピーカ
９ａ〜９ｄへの入力を、（”ＯＦＦ”状態における）４
チャンネル信号から、２チャンネル化信号に切り替え
る。さらに、この”ＯＮ”状態において、音声検出部１
１７がユーザ音声を検出すると、スピーカ９ａ〜９ｄへ
の入力を、（”ＯＮ”状態における）２チャンネル化信
号から、モノラル化信号に切り替える。また、切り替え
部１１８は、状態設定部１１９１が音声認識動作を”Ｏ
ＦＦ”状態に設定すると、スピーカ９ａ〜９ｄへの入力
を、（”ＯＮ”状態における）２チャンネル化信号また
はモノラル化信号から、４チャンネル信号に切り替え
る。

【０１２９】音声認識部１１４は、状態設定部１１９１
の設定に従い、音声認識を実行／終了する。すなわち、
エコーキャンセラ１１３からのユーザ音声を認識して、
その音声が示すコントロール信号を生成する。こうして
生成されたコントロール信号は、図１のコントローラ４
に伝達され、コントローラ４が受信部２やＡＶ処理部３
を制御することによって、テレビジョン受像機におい
て、受信チャンネルの切り換え等の処理が実行される。

【０１３０】図１３の音声認識装置７のハードウエア的
な構成は、図３と同様である。図３において、ＲＯＭ１
２には、所定のプログラムが予め格納されている。この
プログラムには、第１の実施形態で述べた（ａ）〜
（ｃ）のアルゴリズムと、第２の実施形態で述べた
（ｄ）および（ｅ）のアルゴリズム（ただしスピーカへ
の入力信号を切り替える際の選択肢の数は異なる）と、
第３の実施形態で述べた（ｆ）のアルゴリズムとに加
え、さらに（ｉ）４チャンネル信号を２チャンネル化す
るためのアルゴリズムが記述されている。ＣＰＵ１０
は、ＲＡＭ１１を作業領域として利用しつつ、上記のプ
ログラムに従って動作する。これによって、図１３に示
される各ブロックの機能が実現される。

【０１３１】なお、起動命令部１１９２，終了命令部１
１９３は、図１のコントローパネルを構成するボタンに
よって実現される。また、起動命令部１１９２，終了命
令部１１９３以外の各ブロックの機能をソフト的に実現
する代わりに、各々専用のハード回路によって実現する
こともできる。

【０１３２】以上のように構成されたＡＶ機器用音声認
識装置７について、以下、その動作を述べる。４チャン
ネルステレオでは、３６０°の音像定位を特徴とする音
づくりがなされているため、チャンネル間の相関が極め
て弱い。そのため、図１のスピーカユニット９に含まれ
る４つのスピーカ９ａ〜９ｄを通じて４チャンネルステ
レオ信号を再生する場合、図２の音声認識装置７では、
十分なエコー打ち消し量が得られず、その結果、正確な
音声認識が行えないことが多い。そこで、図５の音声認
識装置７や、図７の音声認識装置７、図９の音声認識装
置７のように、音声認識の動作状態においてのみ、ある
いはユーザが音声を発した時のみ、スピーカ９ａ〜９ｄ
からの音響をモノラル化して、必要なエコー打ち消し量
を確保しようということになる。

【０１３３】ところが、４チャンネルステレオ信号を一
気にモノラル信号にまで変換してユーザに聴かせたので
は、ステレオ感（立体感）の喪失によるユーザの不満が
極めて大きい。そこで、本実施形態では、音声認識の動
作状態においては、４チャンネル信号を２チャンネル化
して２チャンネルステレオ音響をユーザに聴かせ、さら
に、この動作状態においてユーザが音声を発した時の
み、モノラル化音響をユーザに聴かせる。これにより、
動作状態においても、そこそこのステレオ感を保持しな
がら、十分なエコー打ち消し量を確保できる。

【０１３４】図１３において、入力された４チャンネル
信号から、２チャンネル化部１１５で２チャンネル化信
号が、モノラル化部１１６でモノラル化信号が生成され
る。エコーキャンセラ１１３には、常にモノラル化信号
が入力される。音声認識機能を利用しない待機状態で
は、４チャンネル信号がスピーカ９ａ〜９ｄに入力され
ている。

【０１３５】音声認識機能を利用しようとする場合は、
まず、図１１の起動命令部１１９２により音声認識機能
の起動信号が状態設定部１１９１に送られ、状態設定部
１１９１は、切り替え部１１８を制御して、スピーカ９
ａ〜９ｄへの入力信号を４チャンネル信号から２チャン
ネル化信号に切り替え、音声認識の状態をスピーカ９ａ
〜９ｄに４チャンネル信号が入力された待機状態から、
スピーカ９ａ〜９ｄに２チャンネル化信号が入力された
動作状態に移行させる。４チャンネルから２チャンネル
への変換は、右の前後チャンネルの信号を加算して右チ
ャンネル信号とし、左の前後チャンネル信号を加算して
左チャンネル信号とすることにより可能である。モノラ
ル化は、上記４つのチャンネル信号を加算するか、ある
いは左右２つの２チャンネル化信号を加算することによ
り行える。

【０１３６】動作状態においては、音声検出部１１７
が、モノラル化信号とエコーキャンセラ出力信号のレベ
ルを監視し、モノラル化信号から予想されるレベル以上
にエコーキャンセラ出力信号のレベルが上昇した時に、
ユーザが音声を発したと判断し、切り替え部１１８がス
ピーカ９ａ〜９ｄの入力を２チャンネル化信号からモノ
ラル化信号に切り替える。

【０１３７】以上のように、本実施形態によれば、音声
認識機能を利用しない時は４チャンネル再生、音声認識
の機能を働かせた時は２チャンネル再生、音声の入力時
はモノラル再生というように、再生モードを段階的に切
り替えることによって、待機状態においてもそこそこの
ステレオ感が確保でき、しかも、十分なエコー打ち消し
量を得ることが可能となる。

【０１３８】（第６の実施形態）図１４は、本発明の第
６の実施形態に係るＡＶ機器用音声認識装置の構成を示
すブロック図である。図１４の音声認識装置７は、図１
のＡＶ機器に設けられた音声認識装置７と対応してい
る。ただし、本実施形態では、ＡＶ機器において、ＡＶ
処理部３から２チャンネル信号が出力され、スピーカユ
ニット９に含まれる２つのスピーカ９ａおよび９ｂを通
じて２チャンネル音響が出力されるものとする。

【０１３９】図１４において、音声認識装置７は、モノ
ラル化部１２５と、１個のエコーキャンセラ１２３と、
音声認識部１２４と、起動命令部１２８２と、終了命令
部１２８３と、状態設定部１２８１と、切り替え部１２
７と、適応音発生部１２６とを備えている。すなわち、
図１４の音声認識装置７は、図７の音声認識装置７（第
３の実施形態）に、適応音発生部１２６を追加したもの
である。スピーカ９ａおよび９ｂへと入力される信号
は、図１のＡＶ処理部３から出力される２チャンネル信
号である。

【０１４０】適応音発生部１２６は、状態設定部１２８
１の設定に関連して、モノラルの適応音を発生する。す
なわち、状態設定部１２８１の設定によって音声認識動
作が”ＯＦＦ”状態から”ＯＮ”状態へと移行するのを
受け、適応音発生部１２６は、モノラルの適応音を発生
する。

【０１４１】上記の適応音は、エコーキャンセラ１２３
の適応動作を促進する作用を有する。すなわち、音声認
識動作が”ＯＦＦ”状態から”ＯＮ”状態へと移行する
のに伴い、スピーカ９ａおよび９ｂからの出力が２チャ
ンネル音響からモノラル化音響へと切り替わるが、この
切り替わり直後のスピーカ９ａおよび９ｂ出力のレベル
が０（つまり無音響）または０に近い値であったとする
と、エコーキャンセラ１２３では、２チャンネルに適応
していたディジタルフィルタ１２３ａのモノラルへの適
応が進行しない。

【０１４２】この時突然、スピーカ９ａおよび９ｂから
高レベルのモノラル化音響が出力されると、エコーキャ
ンセラ１２３は、その音響を打ち消すことができない。
その結果、音声認識部１２４に反響音が混入し、ユーザ
音声を正確に認識できなくなる恐れがある。そこで、音
声認識動作が”ＯＦＦ”状態から”ＯＮ”状態へと移行
する際、スピーカ９ａおよび９ｂからモノラルの適応音
響が出力されるようにして、ディジタルフィルタ１２３
を強制的にモノラルに適応させる。適応音発生部１２６
以外の構成要素の動作は、第３の実施形態と同様なの
で、説明を省略する。

【０１４３】図１４の音声認識装置７のハードウエア的
な構成は、図３と同様である。図３において、ＲＯＭ１
２には、所定のプログラムが予め格納されている。この
プログラムには、第１の実施形態で述べた（ａ）〜
（ｃ）のアルゴリズムと、第２の実施形態で述べた
（ｅ）のアルゴリズムと、第３の実施形態で述べた
（ｆ）のアルゴリズムとに加え、さらに（ｊ）適応音を
発生するためのアルゴリズム（あるいは適応音のサンプ
リングデータ）が記述されている。ＣＰＵ１０は、ＲＡ
Ｍ１１を作業領域として利用しつつ、上記のプログラム
に従って動作する。これによって、図１４に示される各
ブロックの機能が実現される。

【０１４４】なお、起動命令部１２８２，終了命令部１
２８３は、図１のコントローパネルを構成するボタンに
よって実現される。また、起動命令部１２８２，終了命
令部１２８３以外の各ブロックの機能をソフト的に実現
する代わりに、各々専用のハード回路によって実現する
こともできる。

【０１４５】以上のように構成されたＡＶ機器用音声認
識装置７について、以下、その動作を述べる。図１４の
音声認識装置７は、図７の音声認識装置７が持つ欠点、
すなわち、音声認識の待機状態から動作状態への移行直
後において、エコーキャンセラ５４のエコー打ち消し量
が十分ではないという欠点を解決するものである。

【０１４６】図７の音声認識装置７では、音声認識の待
機状態において、スピーカ９ａおよび９ｂにはステレオ
信号が、エコーキャンセラ５４にはモノラル化信号が入
力されているため、エコーキャンセラ５４の適応は十分
なものではなく、完全なエコー打ち消しが行えない。そ
こで、音声認識機能を利用しようとする時に、動作状態
に移行してスピーカ９ａおよび９ｂへの入力信号をモノ
ラル化信号に切り替えることによりエコーキャンセラ５
４を十分に適応させ、完全なエコー打ち消しを行わせる
ようにしていた。しかし、そのようにしても、スピーカ
９ａおよび９ｂから音が出ない限りは、エコーキャンセ
ラ５４の適応は進まない。従って、切り替え直後から長
い無音区間が続き、ユーザが音声を入力中にスピーカ９
ａおよび９ｂから音が出始めた時には、スピーカ９ａお
よび９ｂからの反響音を十分に打ち消せないことにな
る。

【０１４７】そこで、図１４の音声認識装置７では、待
機状態から動作状態への移行の直後に、適応音発生部１
２６からスピーカ９ａおよび９ｂに、エコーキャンセラ
１２３の適応を促進するためのモノラルの適応音を数秒
間入力する構成としている。適応音としては、「音声入
力をお願いします」などの合成音声が考えられる。

【０１４８】以上のように、本実施形態によれば、待機
状態から動作状態に移行した直後に、モノラルの適応音
をスピーカ９ａおよび９ｂから出力させることにより、
移行直後であっても、十分なエコー打ち消し量を保証す
ることが可能となる。

【０１４９】（第７の実施形態）図１５は、本発明の第
７の実施形態に係るＡＶ機器用音声認識装置の構成を示
すブロック図である。図１５の音声認識装置７は、図１
のＡＶ機器に設けられた音声認識装置７と対応してい
る。ただし、本実施形態では、ＡＶ機器において、ＡＶ
処理部３から２チャンネル信号が出力され、スピーカユ
ニット９に含まれる２つのスピーカ９ａおよび９ｂを通
じて２チャンネル音響が出力されるものとする。

【０１５０】図１５において、音声認識装置７は、モノ
ラル化部１３５と、１個のエコーキャンセラ１３３と、
音声認識部１３４と、起動命令部１３８２と、終了命令
部１３８３と、状態設定部１３８１と、切り替え部１３
６と、打ち消し監視部１３７１と、音声検出部１３７２
と、減衰部１３７３とを備えている。すなわち、図１５
の音声認識装置７は、図７の音声認識装置７（第３の実
施形態）に、打ち消し監視部１３７１と、音声検出部１
３７２と、減衰部１３７３とを追加したものである。ス
ピーカ９ａおよび９ｂへと入力される信号は、図１のＡ
Ｖ処理部３から出力される２チャンネル信号である。

【０１５１】打ち消し監視部１３７１へは、モノラル化
部１３５の出力（モノラル化信号）と、エコーキャンセ
ラ１３３の出力（ユーザ音声）とが与えられ、各出力の
レベル変動を監視することにより、エコーキャンセラ１
３３において反響音が十分打ち消されているか（つま
り、ディジタルフィルタ１３３ａのモノラルへの適応が
十分進んでいるか）を判定する。すなわち、モノラル化
信号のレベルが急激に立ち上がった時、ユーザ音声のレ
ベルも急に立ち上がれば、反響音は十分には打ち消され
ていないことになり、逆に、ほとんど立ち上がらなけれ
ば、反響音は十分に打ち消されているといえる。

【０１５２】減衰部１３７３は、打ち消し監視部１３７
１の監視結果、および状態設定部１３８１の設定に関連
して、図１のＡＶ処理部３から入力される２チャンネル
信号を減衰させる。すなわち、エコーキャンセラ１３３
において反響音が十分には打ち消されていない時に、状
態設定部１３８１の設定によって音声認識動作が”ＯＦ
Ｆ”状態から”ＯＮ”状態へと移行するのを受け、減衰
部１３７３は２チャンネル信号を一時的に減衰させる。

【０１５３】上記のようにして２チャンネル信号を減衰
させれば、音声認識部１３４への反響音の混入を防止す
ることができる。すなわち、音声認識動作が”ＯＦＦ”
状態から”ＯＮ”状態へと移行するのに伴い、スピーカ
９ａおよび９ｂからの出力が２チャンネル音響からモノ
ラル化音響へと切り替わるが、この切り替わり直後のス
ピーカ出力のレベルが０（つまり無音響）または０に近
い値であったとすると、エコーキャンセラ１３３では、
２チャンネルに適応していたディジタルフィルタ１３３
ａのモノラルへの適応が進行しない。

【０１５４】この時突然、スピーカ９ａおよび９ｂから
高レベルのモノラル化音響が出力されると、エコーキャ
ンセラ１３３は、その音響を打ち消すことができない。
そこで、反響音が十分には打ち消されていない場合に
は、音声認識動作が”ＯＦＦ”状態から”ＯＮ”状態へ
と移行する際に、スピーカ９ａおよび９ｂから出力され
るモノラル化信号のレベルを低下させることによって、
音声認識部１３４への反響音の混入を防止する。打ち消
し監視部１３７１、音声検出部１３７２および減衰部１
３７３以外の構成要素の動作は、第３の実施形態と同様
なので、説明を省略する。

【０１５５】図１５の音声認識装置７のハードウエア的
な構成は、図３と同様である。図３において、ＲＯＭ１
２には、所定のプログラムが予め格納されている。この
プログラムには、第１の実施形態で述べた（ａ）〜
（ｃ）のアルゴリズムと、第２の実施形態で述べた
（ｅ）のアルゴリズムと、第３の実施形態で述べた
（ｆ）のアルゴリズムとに加え、さらに（ｋ）反響音が
十分打ち消されているかを監視するためのアルゴリズ
ム、および（ｌ）スピーカへの２チャンネル信号を減衰
させるためのアルゴリズムが記述されている。ＣＰＵ１
０は、ＲＡＭ１１を作業領域として利用しつつ、上記の
プログラムに従って動作する。これによって、図１５に
示される各ブロックの機能が実現される。

【０１５６】なお、起動命令部１３８２，終了命令部１
３８３は、図１のコントローパネルを構成するボタンに
よって実現される。また、起動命令部１３８２，終了命
令部１３８３以外の各ブロックの機能をソフト的に実現
する代わりに、各々専用のハード回路によって実現する
こともできる。

【０１５７】以上のように構成されたＡＶ機器用音声認
識装置７について、以下、その動作を述べる。図１５の
音声認識装置７は、先の図１４の音声認識装置７と同
様、図７の音声認識装置７が持つ欠点、すなわち、待機
状態から動作状態への移行直後において、エコーキャン
セラ５４のエコー打ち消し量が十分ではないという欠点
を解決するものである。

【０１５８】図１５の音声認識装置７には、前述のよう
に、モノラル化部１３５の出力信号レベルと、エコーキ
ャンセラ１３３の出力信号レベルとを監視して、反響音
が十分打ち消されているかを判定する打ち消し監視部１
３７１と、モノラル化部１３５の出力信号レベルと、エ
コーキャンセラ１３３の出力信号レベルとを監視して、
ユーザが音声を発したか否かを判断する音声検出部１３
７２と、スピーカ９ａおよび９ｂへの入力信号を減衰さ
せる減衰部１３７３とが設けられている。待機状態から
動作状態に移行した直後は、エコーキャンセラ１３３の
適応が完全ではなく、当然、エコーキャンセラ１３３に
おけるエコー打ち消し効果も悪い。もし、動作状態への
移行後、スピーカ９ａおよび９ｂへの入力信号において
無音区間が続き、エコーキャンセラ１３３が適応できな
いうちに、ユーザが音声を発し、しかも、ユーザが音声
を発している最中にスピーカ９ａおよび９ｂから音が出
始めた時、エコーキャンセラ１３３は、スピーカ９ａお
よび９ｂからの反響音を十分に打ち消すことができず、
音声認識部１３４への音声にスピーカ９ａおよび９ｂか
らの反響音が混入することになる。

【０１５９】そこで、本実施形態では、音声検出部１３
７２と減衰部１３７３とを設け、モノラル化信号におい
て無音区間が続いており、エコーキャンセラ１３３によ
って反響音が十分打ち消されてないと打ち消し監視部１
３７１が判定し、しかも音声検出部１３７２がユーザ音
声を検出した時、減衰部１３７３によりスピーカ９ａお
よび９ｂへの入力信号を減衰させ、それによって、ユー
ザ音声への反響音の混入を少なくしている。ユーザが音
声を発しない状態でスピーカ９ａおよび９ｂへのモノラ
ル化信号が無音から有音となった場合には、減衰部１３
７３の減衰量を”０”とし、スピーカ９ａおよび９ｂか
ら出力されるモノラル化音響を適応音として、エコーキ
ャンセラ１３３の適応を促進する。また、エコーキャン
セラ１３３の適応が進み、残存エコーが小さくなった場
合には、音声検出時においても減衰量は”０”に制御さ
れる。

【０１６０】以上のように、本実施形態によれば、待機
状態（音声認識動作が”ＯＦＦ”の状態）から動作状態
（”ＯＮ”の状態）に移行した直後のエコー打ち消し量
が十分でない状態においてユーザが音声を発した時、こ
れを検知してスピーカ９ａおよび９ｂへの入力信号に適
切な減衰を挿入して、スピーカ９ａおよび９ｂからの音
響のレベルを下げ、それによって反響音の混入を防止す
るので、エコー打ち消し量が十分でない状態における音
声認識性能が高まる。

【０１６１】（第８の実施形態）図１６は、本発明の第
８の実施形態に係るＡＶ機器用音声認識装置の構成を示
すブロック図である。図１６の音声認識装置７は、図１
のＡＶ機器に設けられた音声認識装置７と対応してい
る。ただし、本実施形態では、ＡＶ機器において、ＡＶ
処理部３から２チャンネル信号が出力され、スピーカユ
ニット９に含まれる２つのスピーカ９ａおよび９ｂを通
じて２チャンネル音響が出力されるものとする。

【０１６２】図１６において、音声認識装置７は、モノ
ラル化部１４５と、１個のエコーキャンセラ１４３と、
音声認識部１４４と、起動命令部１４８２と、終了命令
部１４８３と、状態設定部１４８１と、切り替え部１４
６と、適応制御部１４７とを備えている。すなわち、図
１６の音声認識装置７は、図７の音声認識装置７（第３
の実施形態）に、適応制御部１４７を追加したものであ
る。スピーカ９ａおよび９ｂへと入力される信号は、図
１のＡＶ処理部３から出力される２チャンネル信号であ
る。

【０１６３】適応制御部１４７は、状態設定部１４８１
の設定に関連して、エコーキャンセラ１４３内の適応デ
ィジタルフィルタ１４３ａの適応速度を制御する。すな
わち、ディジタルフィルタ１４３ａは、入力信号への適
応速度が可変であり、適応制御部１４７は、モノラル用
の速い適応速度と、２チャンネル用の遅い適応速度とを
予め記憶している。そして、状態設定部１４８１の設定
によって音声認識動作が”ＯＦＦ”状態から”ＯＮ”状
態へと移行する（それに伴い、スピーカ出力が２チャン
ネル音響からモノラル音響に切り替わる）のを受け、適
応制御部１４７は、ディジタルフィルタ１４３ａの適応
速度を、遅い適応速度から速い適応速度に変更する。ま
た、音声認識動作が”ＯＮ”状態から”ＯＦＦ”状態へ
と移行するのを受け、ディジタルフィルタ１４３ａの適
応速度を、速い適応速度から遅い適応速度に変更する。
適応制御部１４７以外の構成要素の動作は、第３の実施
形態と同様なので、説明を省略する。

【０１６４】図１６の音声認識装置７のハードウエア的
な構成は、図３と同様である。図３において、ＲＯＭ１
２には、所定のプログラムが予め格納されている。この
プログラムには、第１の実施形態で述べた（ａ）〜
（ｃ）のアルゴリズムと、第２の実施形態で述べた
（ｅ）のアルゴリズムと、第３の実施形態で述べた
（ｆ）のアルゴリズムとに加え、さらに（ｍ）エコーキ
ャンセラの適応速度を制御するためのアルゴリズムが記
述されている。ＣＰＵ１０は、ＲＡＭ１１を作業領域と
して利用しつつ、上記のプログラムに従って動作する。
これによって、図１６に示される各ブロックの機能が実
現される。

【０１６５】なお、起動命令部１４８２，終了命令部１
４８３は、図１のコントローパネルを構成するボタンに
よって実現される。また、起動命令部１４８２，終了命
令部１４８３以外の各ブロックの機能をソフト的に実現
する代わりに、各々専用のハード回路によって実現する
こともできる。

【０１６６】以上のように構成されたＡＶ機器用音声認
識装置７について、以下、その動作を述べる。よく知ら
れているように、エコーキャンセラ１４３の適応は、そ
の出力が”０”になる方向に、推定インパルスレスポン
スを逐次修正していくものである。スピーカ９ａおよび
９ｂとマイクロホン６との間の系（反響路）のインパル
スレスポンスは、家具、人、窓、カーテンなどの影響を
受けて刻々と変化するため、適応動作なくしては満足な
打ち消し量が得られない。ただし、騒音のように、イン
パルスレスポンスをいかに修正しても消去できない信号
がエコーキャンセラ１４３への入力信号に含まれている
場合には、推定インパルスレスポンスにおいて誤差が生
じ、この誤差がエコー打ち消し量を悪化させる。

【０１６７】推定インパルスレスポンスの逐次修正にお
いて、１回当たりの修正量を変えることにより、適応速
度を制御することができる。１回当たりの修正量が大き
いと適応速度が速くなり、修正量が小さいと適応速度が
遅くなる。適応速度を速めると、系の変動には強い（つ
まり反響路のインパルスレスポンス変動に素早く追従で
きる）が、雑音には弱くなる（つまり雑音によって適応
動作が不安定となりやすい）。逆に、適応速度を遅くす
ると、系の変動には弱くなるが、雑音には強くなる。従
って、実際の装置では、系の変動への追従性と耐雑音性
との両方をそこそこ満足するような適応速度が選ばれて
いた。

【０１６８】図７の音声認識装置７では、音声認識の動
作状態においては、スピーカ９ａおよび９ｂからモノラ
ル化された音響が出力され、そのモノラル化音響の反響
音をモノラル化信号で打ち消すため、比較的速い適応速
度でも良好な動作が可能である。ところが、待機状態に
おいては、ステレオ音響の反響音を、モノラル化信号で
打ち消すため、動作状態と同じ適応速度では、推定イン
パルスレスポンスに含まれる誤差が極めて大きくなる。
原理的に打ち消し不可能な信号成分を打ち消そうとエコ
ーキャンセラ１４３が適応動作を重ねるため、せっかく
推定したインパルスレスポンスを破壊してしまうことに
なる。このように、図７の音声認識装置７は、待機状態
における適応性能が悪いため、待機状態から動作状態へ
の移行直後のエコー打ち消し量が極めて少ないという欠
点を持っていた。

【０１６９】そこで、図１６の音声認識装置７では、エ
コーキャンセラ１４３の適応速度を制御する適応制御部
１４７を設けることにより、待機状態から動作状態に切
り替わった直後においても、十分なエコー打ち消し量が
得られるようにした。すなわち、適応制御部１４７は、
エコーキャンセラ１４３に対し、スピーカ９ａおよび９
ｂにステレオ信号が入力される待機状態と、モノラル化
信号が入力される動作状態とで、互いに異なる適応速度
を設定する。具体的には、適応制御部１４７は、待機状
態では、適応速度を遅くして、インパルスレスポンスの
推定精度を確保する。一方、動作状態では、適応速度を
速めることにより、待機状態から動作状態への移行直後
においても、十分なエコー打ち消し効果が得られるよう
にする。

【０１７０】以上のように、本実施形態によれば、エコ
ーキャンセラ１４３（内の適応ディジタルフィルタ１４
３ａ）の適応速度を、音声認識部１４４が動作状態に設
定されている時には速い速度に、待機状態に設定されて
いる時には遅い速度に制御するので、モノラル，マルチ
チャンネルそれぞれに好適なエコー打ち消しを行うこと
ができる。すなわち、スピーカ９ａ，９ｂから出力され
るのがマルチチャンネル音響の場合は、適応ディジタル
フィルタ１４３ａから見ると雑音であるステレオ成分が
多いので、遅い適応速度とすることによって耐雑音性を
高め、一方、モノラル化音響の場合は、ステレオ成分が
ないので、速い適応速度とすることによって、反響路の
インパルスレスポンスの変動への追従性を高めることが
できる。

【０１７１】また、エコーキャンセラ１４３の適応速度
を、上記のように音声認識動作の状態に応じて変化させ
ることにより、待機状態から動作状態への移行直後にお
いても、優れたエコー打ち消し効果が実現できる。

【０１７２】（第９の実施形態）図１７は、本発明の第
９の実施形態に係るＡＶ機器用音声認識装置の構成を示
すブロック図である。図１７の音声認識装置７は、図１
のＡＶ機器に設けられた音声認識装置７と対応してい
る。ただし、本実施形態では、ＡＶ機器において、ＡＶ
処理部３から２チャンネル信号が出力され、スピーカユ
ニット９に含まれる２つのスピーカ９ａおよび９ｂを通
じて２チャンネル音響が出力されるものとする。

【０１７３】図１７において、音声認識装置７は、モノ
ラル化部１５５と、１個のエコーキャンセラ１５３と、
音声認識部１５４と、起動命令部１５８２と、終了命令
部１５８３と、状態設定部１５８１と、切り替え部１５
６と、適応制御部１５７とを備えている。すなわち、図
１７の音声認識装置７は、図１６の音声認識装置７（第
８の実施形態）と同様の構成を有する。図１６の音声認
識装置７との相違は、次の点である。すなわち、図１の
ＡＶ処理部３からの音響信号は、２チャンネル（ステレ
オ）の場合と、モノラルの場合とがあり、図１のＡＶ処
理部３から適応制御部１５７へ、モノラル／ステレオ識
別信号がさらに与えられる。スピーカ９ａおよび９ｂへ
と入力される信号は、図１のＡＶ処理部３から出力され
る２チャンネルまたはモノラル信号である。

【０１７４】適応制御部１５７は、状態設定部１５８１
の設定と、モノラル／ステレオ識別信号とに関連して、
エコーキャンセラ１５３内の適応ディジタルフィルタ１
５３ａの適応速度を制御する。すなわち、ディジタルフ
ィルタ１５３ａは、入力信号への適応速度が可変であ
り、適応制御部１５７は、モノラル用の速い適応速度
と、２チャンネル用の遅い適応速度とを予め記憶してい
る。状態設定部１５８１の設定によって音声認識動作
が”ＯＦＦ”状態から”ＯＮ”状態へと移行する（それ
に伴い、スピーカ出力が２チャンネル音響からモノラル
音響に切り替わる）のを受け、適応制御部１５７は、デ
ィジタルフィルタ１５３ａの適応速度を、遅い適応速度
から速い適応速度に変更する。また、音声認識動作が”
ＯＮ”状態から”ＯＦＦ”状態へと移行するのを受け、
ディジタルフィルタ１５３ａの適応速度を、速い適応速
度から遅い適応速度に変更する。

【０１７５】ただし、適応制御部１５７は、モノラル／
ステレオ識別信号がステレオを示している場合のみ、上
記のような適応速度の変更を行い、モノラルを示す場合
には、状態設定部１５８１の設定に関わらず、ディジタ
ルフィルタ１５３ａの適応速度を速い適応速度とする。
適応制御部１５７以外の構成要素の動作は、第８の実施
形態と同様なので、説明を省略する。

【０１７６】図１７の音声認識装置７のハードウエア的
な構成は、図３と同様である。図３において、ＲＯＭ１
２に格納されているプログラムは、第８の実施形態と同
様である。ただし、上記（ｍ）のアルゴリズム、すなわ
ちエコーキャンセラの適応速度を制御するためのアルゴ
リズムについては、音声認識動作の”ＯＮ”／”ＯＦ
Ｆ”状態だけでなく、モノラル／ステレオ識別信号をも
参照して制御を行うように変更が加えられている。ＣＰ
Ｕ１０は、ＲＡＭ１１を作業領域として利用しつつ、上
記のプログラムに従って動作する。これによって、図１
７に示される各ブロックの機能が実現される。

【０１７７】なお、起動命令部１５８２，終了命令部１
５８３は、図１のコントローパネルを構成するボタンに
よって実現される。また、起動命令部１５８２，終了命
令部１５８３以外の各ブロックの機能をソフト的に実現
する代わりに、各々専用のハード回路によって実現する
こともできる。

【０１７８】以上のように構成されたＡＶ機器用音声認
識装置７について、以下、その動作を述べる。一般のＴ
Ｖ放送においては、ステレオ番組とモノラル番組の２つ
の番組があり、ステレオ番組かモノラル番組かを識別す
る識別信号が、映像／音響信号とともに放送されてい
る。受信側では、この識別信号により、現在の番組がス
テレオ番組かモノラル番組かを知ることができる。先の
図１６の音声認識装置７では、現在受信しているのがス
テレオ番組かモノラル番組かを問わず、モノラル化部１
５５で処理した信号がスピーカ９ａおよび９ｂに入力さ
れていない待機状態においては、エコーキャンセラ１５
３の適応速度を落としていたが、待機状態であっても、
適応速度を落としたくないのは当然である。

【０１７９】適応速度を落とした状態では、エコーキャ
ンセラ１５３が系の変動に追従できていない可能性があ
り、そのような時に動作状態に移行すると、十分なエコ
ー打ち消し量が得られない。これに対して、待機状態で
あっても適応速度を落とさなければ、エコーキャンセラ
１５３が常に系の変動に追従できているので、いつ動作
状態に移行しても、十分なエコー打ち消し量が確保でき
るからである。

【０１８０】放送そのものがモノラル番組であれば、モ
ノラル化部１５５でモノラル化していない待機状態にお
いても、適応速度を速めることが可能である。そこで、
図１７の音声認識装置７では、適応部１５７は、まず識
別信号をチェックし、その結果、現在受信しているのが
ステレオ番組の場合、待機状態では、エコーキャンセラ
１５３の適応速度を遅くするが、モノラル番組の場合、
待機状態であっても動作状態と同様、適応速度を速いま
まに保つ。

【０１８１】以上のように、本実施形態によれば、ステ
レオ／モノラル識別信号に基づいて、現在受信している
番組の音声がステレオかモノラルかを判定して、モノラ
ルの場合は、音声認識動作が待機状態であっても、エコ
ーキャンセラ１５３の適応速度を遅くしないので、反響
路のインパルスレスポンスの変動への追従性が低下する
ことがなく、その結果、待機状態において優れたエコー
打ち消し効果が実現でき、動作状態へ移行した直後にお
ける音声認識性能が高まる。

【０１８２】（第１０の実施形態）図１８は、本発明の
第１０の実施形態に係るＡＶ機器用音声認識装置の構成
を示すブロック図である。図１８の音声認識装置７は、
図１のＡＶ機器に設けられた音声認識装置７と対応して
いる。ただし、本実施形態では、ＡＶ機器において、Ａ
Ｖ処理部３から２チャンネル信号が出力され、スピーカ
ユニット９に含まれる２つのスピーカ９ａおよび９ｂを
通じて２チャンネル音響が出力されるものとする。

【０１８３】図１８において、音声認識装置７は、モノ
ラル化部１６５と、１個のエコーキャンセラ１６３と、
音声認識部１６４と、起動命令部１６８２と、終了命令
部１６８３と、状態設定部１６８１と、切り替え部１６
６と、モノラル度判定部１６７１と、適応制御部１６７
２とを備えている。すなわち、図１８の音声認識装置７
は、図１６の音声認識装置７（第８の実施形態）に、モ
ノラル度判定部１６７１を追加したものである。モノラ
ル度判定部１６７１は、図９のモノラル度判定部７６
（第４の実施形態を参照）と同じものである。スピーカ
９ａおよび９ｂへと入力される信号は、図１のＡＶ処理
部３から出力される２チャンネル信号である。

【０１８４】モノラル度判定部１６７１へは、上記の２
チャンネル信号が分岐入力され、モノラル度判定部１６
７１は、その２チャンネル信号のモノラル度を判定す
る。適応制御部１６７２は、モノラル判定部の判定結果
に関連して、エコーキャンセラ１６３内の適応ディジタ
ルフィルタ１６３ａの適応速度を制御する。

【０１８５】すなわち、適応制御部１６７２は、２チャ
ンネル信号のモノラル度に応じて、ディジタルフィルタ
１６３ａの適応速度を変化させる。好ましくは、モノラ
ル度が高いほど、適応速度を速くする。そのために、適
応制御部１６７２は、適応速度を速める処理をどの強度
で行うべきかをモノラル度をもとに決定するための関数
（処理強度決定特性；図１９に参照番号１０４で示され
る）を記憶している。モノラル度判定部１６７１および
適応制御部１６７２以外の構成要素の動作は、第８の実
施形態と同様なので、説明を省略する。

【０１８６】図１８の音声認識装置７のハードウエア的
な構成は、図３と同様である。図３において、ＲＯＭ１
２には、所定のプログラムが予め格納されている。この
プログラムには、第１の実施形態で述べた（ａ）〜
（ｃ）のアルゴリズムと、第２の実施形態で述べた
（ｅ）のアルゴリズムと、第３の実施形態で述べた
（ｆ）のアルゴリズムと、第４の実施形態で述べた
（ｇ）のアルゴリズムと、第８の実施形態で述べた
（ｍ）のアルゴリズムとが記述されている。

【０１８７】ただし、上記（ｍ）のアルゴリズム、すな
わちエコーキャンセラの適応速度を制御するためのアル
ゴリズムについては、音声認識動作の”ＯＮ”／”ＯＦ
Ｆ”状態に基づいて制御を行う（第８の実施形態）ので
はなく、スピーカへの２チャンネル信号のモノラル度に
基づいて制御を行うように変更が加えられている。ＣＰ
Ｕ１０は、ＲＡＭ１１を作業領域として利用しつつ、上
記のプログラムに従って動作する。これによって、図１
８に示される各ブロックの機能が実現される。

【０１８８】なお、起動命令部１６８２，終了命令部１
６８３は、図１のコントローパネルを構成するボタンに
よって実現される。また、起動命令部１６８２，終了命
令部１６８３以外の各ブロックの機能をソフト的に実現
する代わりに、各々専用のハード回路によって実現する
こともできる。

【０１８９】以上のように構成されたＡＶ機器用音声認
識装置７について、以下、その動作を述べる。図１８の
音声認識装置７は、先の図７の音声認識装置７におい
て、モノラル度の低い信号が入力された時に、エコーキ
ャンセラ１６３の適応精度が劣化するという欠点を解決
するものである。前述したように、エコーキャンセラ１
６３の適応は、その出力が”０”になる方向に、推定イ
ンパルスレスポンスを逐次修正していくものであり、騒
音のように、インパルスレスポンスをいかに修正しても
消去できない信号がエコーキャンセラ１６３への入力信
号に含まれている場合には、推定インパルスレスポンス
において誤差が生じ、この誤差がエコー打ち消し量を悪
化させる。

【０１９０】これと同じことが、ステレオ信号の反響音
を、モノラル化信号で打ち消す場合に起きる。すなわ
ち、ステレオ信号の反響音をモノラル化信号で打ち消す
場合、原理的に、インパルスレスポンスをいかに修正し
ても打ち消せない成分が残る。この打ち消せない成分
（ステレオ成分）が多い場合、すなわち、モノラル度の
低いステレオ信号の場合には、原理的に打ち消せない信
号を打ち消そうとエコーキャンセラ１６３が適応動作を
重ねるため、せっかく推定したインパルスレスポンスを
大きく破壊することになる。

【０１９１】そこで、図１８の音声認識装置７では、Ａ
Ｖ処理部３からのステレオ信号を分析して、原理的にエ
コー打ち消しが精度よく行え適応動作に適した信号であ
るかどうかを判断し、適応動作に適すると判断された時
に、エコーキャンセラ１６３に適応動作を行わせる。

【０１９２】図１８の音声認識装置７では、適応に適し
た信号か否かは、信号のモノラル度で判断している。前
述したように、モノラル度の高い信号ほどエコー打ち消
し効果が高く、インパルスレスポンスの推定がうまく行
える。そこで、まず、モノラル度判定部１６７１がステ
レオ信号のモノラル度を求める。次に、適応制御部１６
７２がこのモノラル度に応じて、エコーキャンセラ１６
３の適応速度を制御する。

【０１９３】図１９は、図１８の適応制御部１６７２が
行う適応速度制御処理の特性を示す図である。図１９に
おいて、特性１９１は、図１８のスピーカ９ａおよび９
ｂへ向かうステレオ信号のモノラル度と、エコーキャン
セラ１６３の適応速度との関係を示している。図１９か
らわかるように、適応制御部１６７２は、ステレオ信号
のモノラル度が高く適応に適すると判断した場合には、
適応速度を上げて常に最良の推定インパルスレスポンス
を得られるようにする。一方、モノラル度が低く適応に
適さないと判断した場合には、適応速度を下げて推定イ
ンパルスレスポンスの破壊を防止する。

【０１９４】以上のように、本実施形態によれば、２チ
ャンネル信号（ステレオ信号）のモノラル度に基づい
て、適応ディジタルフィルタ１６３ａの適応速度を制御
するので、様々なモノラル度を持った２チャンネル信号
に好適なエコー打ち消しを行うことができる。すなわ
ち、モノラル度が低い場合、適応速度を遅くして、耐雑
音性を高める。一方、モノラル度が高い場合、適応ディ
ジタルフィルタ１６３ａから見ると雑音であるステレオ
成分が少ないので、耐雑音性はあまり必要でない。よっ
て、適応速度を速くすることによって、反響路のインパ
ルスレスポンスの変動への追従性を高めることができ
る。その結果、特にモノラル度が高い場合に、優れたエ
コー打ち消し効果が実現でき、動作状態へ移行した直後
における音声認識性能が高まる。

【０１９５】（第１１の実施形態）図２０は、本発明の
第１１の実施形態に係るＡＶ機器用音声認識装置の構成
を示すブロック図である。図２０の音声認識装置７は、
図１のＡＶ機器に設けられた音声認識装置７と対応して
いる。ただし、本実施形態では、ＡＶ機器において、Ａ
Ｖ処理部３から２チャンネル信号が出力され、スピーカ
ユニット９に含まれる２つのスピーカ９ａおよび９ｂを
通じて２チャンネル音響が出力されるものとする。

【０１９６】図２０において、音声認識装置７は、モノ
ラル化部１７５と、１個のエコーキャンセラ１７３と、
音声認識部１７４と、起動命令部１７８２と、終了命令
部１７８３と、状態設定部１７８１と、切り替え部１７
６と、不揮発メモリ１７７とを備えている。すなわち、
図２０の音声認識装置７は、図７の音声認識装置７（第
３の実施形態）に、不揮発メモリ１７７を追加したもの
である。スピーカ９ａおよび９ｂへと入力される信号
は、図１のＡＶ処理部３から出力される２チャンネル信
号である。

【０１９７】不揮発メモリ１７７へは、図１のコントロ
ールパネル５からの電源”ＯＮ”／”ＯＦＦ”信号が与
えられ、不揮発メモリ１７７は、電源”ＯＦＦ”時、エ
コーキャンセラ１７３が保持している推定インパルスレ
スポンスを取得し、それを記憶する。そして、電源”Ｏ
Ｎ”時、記憶している推定インパルスレスポンスを、エ
コーキャンセラ１７３（内の適応ディジタルフィルタ１
７３ａ）に与える。エコーキャンセラ１７３は、反響音
を打ち消す動作を開始する際に、この不揮発メモリ１７
７から与えられた推定インパルスレスポンスを初期値と
して用いる。すなわち、適応ディジタルフィルタ１７３
ａは、不揮発メモリ１７７から与えられた値を初期値と
してインパルスレスポンスの推定を開始する。

【０１９８】エコーキャンセラ１７３は、電源”ＯＮ”
時に用いる初期値の違いを除けば、図７のエコーキャン
セラ５４（第３の実施形態）と同様の動作を行う。な
お、エコーキャンセラ５４の場合、反響音を打ち消す動
作を開始する際、”０”を初期値として用いるので、電
源”ＯＮ”の直後から、ディジタルフィルタ５４ａの適
応が進むまでの期間、反響音が十分に打ち消されない問
題があった。不揮発メモリ１７７およびエコーキャンセ
ラ１７３以外の構成要素の動作は、第３の実施形態と同
様なので、説明を省略する。

【０１９９】図２０の音声認識装置７のハードウエア的
な構成は、図３において、さらに不揮発メモリ１７７を
追加したものである。ＲＯＭ１２には、所定のプログラ
ムが予め格納されている。このプログラムには、第１の
実施形態で述べた（ａ）〜（ｃ）のアルゴリズムと、第
２の実施形態で述べた（ｅ）のアルゴリズムと、第３の
実施形態で述べた（ｆ）のアルゴリズムとに加え、さら
に（ｎ）電源”ＯＦＦ”時にエコーキャンセラ１７３が
保持している推定インパルスレスポンスを不揮発メモリ
１７７に書き込み、かつ電源”ＯＮ”時、その推定イン
パルスレスポンスをエコーキャンセラ１７３に与える手
順が記述されている。ＣＰＵ１０は、ＲＡＭ１１を作業
領域として利用しつつ、上記のプログラムに従って動作
する。これによって、図２０に示される各ブロックの機
能が実現される。

【０２００】なお、起動命令部１７８２，終了命令部１
７８３は、図１のコントローパネルを構成するボタンに
よって実現される。また、起動命令部１７８２，終了命
令部１７８３以外の各ブロックの機能をソフト的に実現
する代わりに、各々専用のハード回路によって実現する
こともできる。

【０２０１】以上のように構成されたＡＶ機器用音声認
識装置７について、以下、その動作を述べる。スピーカ
９ａおよび９ｂからマイクロホン６までの反響路のイン
パルスレスポンスは、壁、天井、床、家具、人、窓、カ
ーテンなどでの音響の反射状態によって決まる。同じＡ
Ｖ機器であっても、設置環境により千差万別のインパル
スレスポンスが得られる。しかも、ＡＶ機器の移動、家
具の移動、人の出入り、窓の開閉などにより時々刻々と
変化する。固定したインパルスレスポンスでは、十分な
エコー打ち消し効果が得られない。このため、図７の音
声認識装置７のエコーキャンセラ１７３は、逐次適応を
行っており、常に最新のインパルスレスポンスを推定し
ている。しかし、インパルスレスポンスの初期値を”
０”とした適応方法では、電源”ＯＮ”の直後に十分な
エコー打ち消し量が得られないという欠点があった。

【０２０２】人とか窓といった細かい変化を除けば、Ａ
Ｖ機器の設置位置や部屋形状などで決まる大まかなイン
パルスレスポンスは、部屋の家具の配置換えなどをしな
ければ、今日昨日で大きく変わるものではない。昨日の
電源”ＯＦＦ”時の推定インパルスレスポンスを、今日
の電源”ＯＮ”時に使用しても、そこそこのエコー打ち
消し量が得られる場合が多い。

【０２０３】そこで、図２０の音声認識装置７では、不
揮発メモリ１７７を設け、電源”ＯＦＦ”時にエコーキ
ャンセラ１７３が保持していた推定インパルスレスポン
スを不揮発メモリ１７７に記憶させ、電源”ＯＮ”時に
は、この不揮発メモリ１７７が記憶している推定インパ
ルスレスポンスを初期値として、エコーキャンセラ１７
３をスタートさせる。

【０２０４】以上のように、本実施形態によれば、電
源”ＯＦＦ”時の推定インパルスレスポンスを記憶して
おき、電源”ＯＮ”時、それを初期値としてインパルス
レスポンスの推定を開始するので、”０”を初期値とす
る場合と比べ、電源”ＯＮ”直後の推定誤差が小さくな
り、その結果、音声認識性能が高まる。

【０２０５】（第１２の実施形態）図２１は、本発明の
第１２の実施形態に係るＡＶ機器用音声認識装置の構成
を示すブロック図である。図２１の音声認識装置７は、
図１のＡＶ機器に設けられた音声認識装置７と対応して
いる。ただし、本実施形態では、ＡＶ機器において、Ａ
Ｖ処理部３から２チャンネル信号が出力され、スピーカ
ユニット９に含まれる２つのスピーカ９ａおよび９ｂを
通じて２チャンネル音響が出力されるものとする。

【０２０６】図２１において、音声認識装置７は、モノ
ラル化部１８５と、１個のエコーキャンセラ１８３と、
音声認識部１８４と、音声検出部１８７と、起動命令部
としてのボタンスイッチ１８８２と、終了命令部として
の時限スイッチ１８８３と、状態設定部１８８１と、切
り替え部１８６とを備えている。すなわち、図２１の音
声認識装置７は、図７の音声認識装置７（第３の実施形
態）において、音声検出部１８７を追加し、さらに、起
動命令部５８１を特にボタンスイッチ１８８２とし、か
つ終了命令部５８２を特に時限スイッチ１８８３とした
ものである。音声検出部１８７は、図５の音声検出部３
７と同じものである（第２の実施形態を参照）。スピー
カ９ａおよび９ｂへと入力される信号は、図１のＡＶ処
理部３から出力される２チャンネル信号である。

【０２０７】ボタンスイッチ１８８２が押されると、ボ
タンスイッチ１８８２から状態設定部１８８１へ、音声
認識動作の起動を命令する信号が送られる。音声検出部
１８７は、ユーザ音声の有無を検出して、検出結果を時
限スイッチ１８８３に通知する。時限スイッチ１８８３
は、ユーザの音声が有の状態から無の状態へ移行した瞬
間を捉えて計時処理を開始する。そして、計時開始から
予め決められた時間が経過すると、状態設定部１８８１
へ、音声認識動作の終了を命令する信号を送る。

【０２０８】状態設定部１８８１は、ボタンスイッチ１
８８２，時限スイッチ１８８３からの命令信号を受け、
音声認識部１８４の動作状態を設定（つまり音声認識動
作を”ＯＮ”／”ＯＦＦ”）する。音声検出部１８７、
ボタンスイッチ１８８２、時限スイッチ１８８３および
状態設定部１８８１以外の構成要素の動作は、第３の実
施形態と同様なので、説明を省略する。

【０２０９】図２１の音声認識装置７のハードウエア的
な構成は、図３と同様である。図３において、ＲＯＭ１
２には、所定のプログラムが予め格納されている。この
プログラムには、第１の実施形態で述べた（ａ）〜
（ｃ）のアルゴリズムと、第２の実施形態で述べた
（ｅ）のアルゴリズムと、第３の実施形態で述べた
（ｆ）のアルゴリズムとに加え、さらに（ｏ）計時を行
い、かつ計時開始から予め決められた時間が経過すると
終了命令信号を送信する手順が記述されている。ＣＰＵ
１０は、ＲＡＭ１１を作業領域として利用しつつ、上記
のプログラムに従って動作する。これによって、図２１
に示される各ブロックの機能が実現される。

【０２１０】なお、ボタンスイッチ１８８２は、図１の
コントローパネルを構成するいずれかのボタンによって
実現される。また、ボタンスイッチ１８８２以外の各ブ
ロックの機能をソフト的に実現する代わりに、各々専用
のハード回路によって実現することもできる。

【０２１１】以上のように構成されたＡＶ機器用音声認
識装置７について、以下、その動作を述べる。本実施形
態では、図７の音声認識装置７において、起動命令部５
８１および終了命令部５８２の具体例を示している。ユ
ーザは、音声認識機能を利用しようとする場合、まず、
図７の起動命令部５８１に相当するボタンスイッチ１８
８２を押す。すると、状態設定部１８８１に対して待機
状態（音声認識動作が”ＯＦＦ”の状態）から動作状態
（”ＯＮ”状態）への切り替えの指示がなされ、かつ、
時限スイッチ１８８３に対して時間計測開始の指示がな
される。

【０２１２】動作状態においては、音声検出部１８７が
ユーザ音声が入力されたか否かをチェックし、音声が検
出された時に、時限スイッチ１８８３は、計測時間をリ
セットする（つまり計測時間を０に戻す）。音声が検出
されない状態が続き、時限スイッチ１８８３の計測時間
が定められた値を超えた時、時限スイッチ１８８３は、
状態設定部１８８１に動作状態から待機状態への切り替
えを指示する。

【０２１３】以上のように、本実施形態によれば、音声
認識機能の終了を自動的に行えるようになる。

【０２１４】（第１３の実施形態）図２２は、本発明の
第１３の実施形態に係るＡＶ機器用音声認識装置の構成
を示すブロック図である。図２２の音声認識装置７は、
図１のＡＶ機器に設けられた音声認識装置７と対応して
いる。ただし、本実施形態では、ＡＶ機器において、Ａ
Ｖ処理部３から２チャンネル信号が出力され、スピーカ
ユニット９に含まれる２つのスピーカ９ａおよび９ｂを
通じて２チャンネル音響が出力されるものとする。

【０２１５】図２２において、音声認識装置７は、モノ
ラル化部１９５と、１個のエコーキャンセラ１９３と、
音声認識部１９４と、音声検出部１９７と、起動命令部
としての音声スイッチ１９８２と、終了命令部としての
時限スイッチ１９８３と、状態設定部１９８１と、切り
替え部１９６とを備えている。すなわち、図２２の音声
認識装置７は、図７の音声認識装置７（第３の実施形
態）において、音声検出部１９７を追加し、さらに、起
動命令部５８１を特に音声スイッチ１９８２とし、かつ
終了命令部５８２を特に時限スイッチ１９８３としたも
のである。音声検出部１９７は、図５の音声検出部３７
と同じものである（第２の実施形態を参照）。スピーカ
９ａおよび９ｂへと入力される信号は、図１のＡＶ処理
部３から出力される２チャンネル信号である。

【０２１６】音声検出部１９７は、ユーザ音声の有無を
検出して、検出結果を音声スイッチ１９８２および時限
スイッチ１９８３に通知する。音声スイッチ１９８２
は、ユーザ音声が無から有に移行した瞬間を捉えて、状
態設定部１９８１へ音声認識動作の起動を命令する信号
を送る。時限スイッチ１９８３は、ユーザの音声が有の
状態から無の状態へ移行した瞬間を捉えて計時処理を開
始する。そして、計時開始から予め決められた時間が経
過すると、状態設定部１９８１へ、音声認識動作の終了
を命令する信号を送る。

【０２１７】状態設定部１９８１は、音声スイッチ１９
８２，時限スイッチ１９８３からの命令信号を受け、音
声認識部１９４の動作状態を設定（つまり音声認識動作
を”ＯＮ”／”ＯＦＦ”）する。音声検出部１９７、音
声スイッチ１９８２、時限スイッチ１９８３および状態
設定部１９８１以外の構成要素の動作は、第３の実施形
態と同様なので、説明を省略する。

【０２１８】図２２の音声認識装置７のハードウエア的
な構成は、図３と同様である。図３において、ＲＯＭ１
２には、所定のプログラムが予め格納されている。この
プログラムには、第１の実施形態で述べた（ａ）〜
（ｃ）のアルゴリズムと、第２の実施形態で述べた
（ｅ）のアルゴリズムと、第３の実施形態で述べた
（ｆ）のアルゴリズムと、第１２の実施形態で述べた
（ｏ）の手順とに加え、さらに（ｐ）音声が検出される
と起動命令信号を送信する手順が記述されている。ＣＰ
Ｕ１０は、ＲＡＭ１１を作業領域として利用しつつ、上
記のプログラムに従って動作する。これによって、図２
１に示される各ブロックの機能が実現される。

【０２１９】なお、各ブロックの機能をソフト的に実現
する代わりに、各々専用のハード回路によって実現する
こともできる。

【０２２０】以上のように構成されたＡＶ機器用音声認
識装置７について、以下、その動作を述べる。図２２の
音声認識装置７では、待機状態にあっても音声検出部１
９７がユーザの音声の検出している。ユーザが音声認識
機能を利用しようとする場合、まず、比較的大きな声を
発する。音声検出部１９７がこの音声を検出し、検出結
果を音声スイッチ１９８２に送る。検出結果があらかじ
め設定したレベル以上の音声を検出したことを示す時、
音声スイッチ１９８２は、音声認識の開始命令を状態設
定部１９８１に送り、状態設定部１９８１に待機状態か
ら動作状態への切り替えを指示する。

【０２２１】音声検出部１９７による検出結果は、時限
スイッチ１９８３へも送られ、応じて、時限スイッチ１
９８３は、時間計測を開始する。動作状態においては、
音声検出部１９７がユーザ音声が入力されたか否かをチ
ェックし、音声が検出された時に、時限スイッチ１９８
３は、計測時間をリセットする（つまり計測時間を０に
戻す）。音声が検出されない状態が続き、時限スイッチ
１９８３の計測時間が定められた値を超えた時、時限ス
イッチ１９８３は、状態設定部１９８１に動作状態から
待機状態への切り替えを指示する。

【０２２２】上記の音声スイッチ１９８２が”ＯＮ”と
なる音声レベルは、時限スイッチ１９８３がリセットさ
れる音声レベルよりもかなり高く設定される。エコーキ
ャンセラ１９３の打ち消し効果がよくない待機状態で発
生する比較的大きなレベルの消し残しの反響音がユーザ
音声として誤検出され、それに伴って動作モードに移行
することがないようにするためである。

【０２２３】以上のように、本実施形態によれば、音声
認識機能の開始と終了を自動的に行えるようになる。

【図面の簡単な説明】

【図１】本発明が用いられるＡＶ機器の構成の一例を示
すブロック図である。

【図２】本発明の第１の実施形態に係るＡＶ機器用音声
認識装置の構成を示すブロック図である。

【図３】図１の音声認識装置７のハードウエア的な構成
を示すブロック図である。

【図４】図２の音声認識装置７において、各構成要素に
入力される、または各構成要素から出力される信号の時
間波形を示す図である。

【図５】本発明の第２の実施形態に係るＡＶ機器用音声
認識装置の構成を示すブロック図である。

【図６】図５の音声認識装置７において、各構成要素に
入力される、または各構成要素から出力される信号の時
間波形を示す図である。

【図７】本発明の第３の実施形態に係るＡＶ機器用音声
認識装置の構成を示すブロック図である。

【図８】図７の音声認識装置７において、各構成要素に
入力される、または各構成要素から出力される信号の時
間波形を示す図である。

【図９】本発明の第４の実施形態に係るＡＶ機器用音声
認識装置の構成を示すブロック図である。

【図１０】図９のモノラル度判定部７６の詳細を示すブ
ロック図である。

【図１１】図９の任意度モノラル化部７７の詳細を示す
ブロック図である。

【図１２】図１１の処理強度決定部９１が行うモノラル
化処理の強度、および図１１の減衰器９２１〜９２４を
通じて実現される利得（減衰量）を示す図である。

【図１３】本発明の第５の実施形態に係るＡＶ機器用音
声認識装置の構成を示すブロック図である。

【図１４】本発明の第６の実施形態に係るＡＶ機器用音
声認識装置の構成を示すブロック図である。

【図１５】本発明の第７の実施形態に係るＡＶ機器用音
声認識装置の構成を示すブロック図である。

【図１６】本発明の第８の実施形態に係るＡＶ機器用音
声認識装置の構成を示すブロック図である。

【図１７】本発明の第９の実施形態に係るＡＶ機器用音
声認識装置の構成を示すブロック図である。

【図１８】本発明の第１０の実施形態に係るＡＶ機器用
音声認識装置の構成を示すブロック図である。

【図１９】図１８の適応制御部１６７２が行う適応速度
制御処理の特性を示す図である。

【図２０】本発明の第１１の実施形態に係るＡＶ機器用
音声認識装置の構成を示すブロック図である。

【図２１】本発明の第１２の実施形態に係るＡＶ機器用
音声認識装置の構成を示すブロック図である。

【図２２】本発明の第１３の実施形態に係るＡＶ機器用
音声認識装置の構成を示すブロック図である。

【図２３】従来のＡＶ機器用音声認識装置の構成を示す
ブロック図である。

【図２４】図２３の音声認識装置において、各構成要素
に入力される、または各構成要素から出力される信号の
時間波形を示す図である。

【図２５】別の従来のＡＶ機器用音声認識装置の構成を
示すブロック図である。

【符号の説明】

６…マイクロホン７…ＡＶ機器用音声認識装置９ａ〜９ｃ…スピーカ１３，３３他…モノラル化部１４，３４他…エコーキャンセラ１４ａ，３４ａ他…適応ディジタルフィルタ１４ｂ，３４ｂ他…減算回路１５，３５他…音声認識部３６，５６他…切り替え部３７，１１７他…音声検出部５７，７９１他…状態設定部５８１，７９２他…起動命令部５８２，７９３他…終了命令部７５…完全モノラル化部７６，１６７１…モノラル度判定部７７…任意度モノラル化部１１５…２チャンネル化部１２６…適応音発生部１３７３…減衰部１３７１…打ち消し監視部１４７，１５７，１６７２…適応制御部１７７…不揮発メモリ１８８２…ボタンスイッチ１８８３，１９８３…時限スイッチ１９８２…音声スイッチ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｒ 3/02 Ｇ１０Ｌ 3/00 ５５１Ｇ 3/12 ５５１Ｆ // Ｈ０４Ｓ 1/00 ５７１Ｋ 3/02 ３０１Ｆ (72)発明者河村岳大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者小田幹夫大阪府門真市大字門真1006番地松下電器産業株式会社内

Claims

【特許請求の範囲】

【請求項１】複数のスピーカを通じてマルチチャンネ
ル音響を出力するＡＶ機器に用いられ、マイクロホンを
通じて入力されるユーザ音声を認識して、当該ＡＶ機器
に所定の処理動作を行わせるための音声認識装置であっ
て、前記複数のスピーカへ向かうマルチチャンネル信号をモ
ノラル化するモノラル化手段、前記マイクロホンの出力（以下、マイクロホン出力）
と、前記モノラル化手段の出力（以下、モノラル化信
号）とが与えられ、当該モノラル化信号に基づいて前記
マルチチャンネル音響の反響音を推定して、当該マイク
ロホン出力から当該反響音を除去する１つのエコーキャ
ンセラ、前記１つのエコーキャンセラの出力（以下、エコーキャ
ンセラ出力）に基づいて前記ユーザ音声を認識する音声
認識手段を備える、ＡＶ機器用音声認識装置。
【請求項２】前記複数のスピーカへは、前記マルチチ
ャンネル信号が入力されることを特徴とする、請求項１
に記載のＡＶ機器用音声認識装置。
【請求項３】前記マルチチャンネル信号および前記モ
ノラル化信号のいずれかを前記複数のスピーカへと入力
するための切り替え手段をさらに備える、請求項１に記
載のＡＶ機器用音声認識装置。
【請求項４】前記モノラル化信号と前記エコーキャン
セラ出力とに基づいて前記ユーザ音声を検出する音声検
出手段をさらに備え、前記切り替え手段は、前記音声検出手段によって前記ユーザ音声が検出されて
いない時、前記マルチチャンネル信号を前記複数のスピ
ーカへと入力し、前記音声検出手段によって前記ユーザ音声が検出されて
いる時、前記モノラル化信号を前記複数のスピーカへと
入力することを特徴とする、請求項３に記載のＡＶ機器
用音声認識装置。
【請求項５】音声認識動作の起動を命令する起動命令
手段、音声認識動作の終了を命令する終了命令手段、および前
記起動命令手段および前記終了命令手段からの命令に応
じて、前記音声認識手段を動作状態および待機状態のい
ずれかに設定する状態設定手段をさらに備え、前記切り替え手段は、前記状態設定手段によって前記音声認識手段が待機状態
に設定されている時、前記マルチチャンネル信号を前記
複数のスピーカへと入力し、前記状態設定手段によって前記音声認識手段が動作状態
に設定されている時、前記モノラル化信号を前記複数の
スピーカへと入力することを特徴とする、請求項３に記
載のＡＶ機器用音声認識装置。
【請求項６】前記マルチチャンネル信号のモノラル度
を判定するモノラル度判定手段、および前記マルチチャ
ンネル信号を任意のモノラル度にモノラル化する任意度
モノラル化手段をさらに備え、前記モノラル化手段は、前記マルチチャンネル信号を完
全にモノラル化し、前記任意度モノラル化手段は、前記モノラル度判定手段
の判定結果が予め定められたモノラル度よりも低い場
合、前記マルチチャンネル信号を当該予め定められたモ
ノラル度にモノラル化することを特徴とする、請求項５
に記載のＡＶ機器用音声認識装置。
【請求項７】前記マルチチャンネル信号は、３チャン
ネル以上の信号であり、前記マルチチャンネル信号を２チャンネル化する２チャ
ンネル化手段をさらに備え、前記モノラル化手段は、前記２チャンネル化手段の出力
（以下、２チャンネル化信号）をモノラル化し、前記切り替え手段は、前記マルチチャンネル信号、前記
２チャンネル化信号および前記モノラル化信号のいずれ
かを前記複数のスピーカへと入力することを特徴とす
る、請求項５に記載のＡＶ機器用音声認識装置。
【請求項８】前記モノラル化信号と前記エコーキャン
セラ出力とに基づいて前記ユーザ音声を検出する音声検
出手段をさらに備え、前記切り替え手段は、前記状態設定手段が前記音声認識手段を待機状態に設定
している時には、前記マルチチャンネル信号を前記複数
のスピーカへと入力し、前記状態設定手段が前記音声認識手段を動作状態に設定
しているが、前記音声検出手段によって前記ユーザ音声
が検出されていない時には、前記２チャンネル化信号を
前記複数のスピーカへと入力し、前記音声検出手段によって前記ユーザ音声が検出されて
いる時には、前記モノラル化信号を前記複数のスピーカ
へと入力することを特徴とする、請求項７に記載のＡＶ
機器用音声認識装置。
【請求項９】前記モノラル化信号と前記エコーキャン
セラ出力とに基づいて、前記エコーキャンセラにおいて
前記反響音が十分に打ち消されているかを監視する打ち
消し監視手段、前記モノラル化信号と前記エコーキャンセラ出力とに基
づいて前記ユーザ音声を検出する音声検出手段、および
前記マルチチャンネル信号を減衰させる減衰手段をさら
に備え、前記減衰手段は、前記打ち消し監視手段の監視結果が打
ち消し不十分を示している状態において、前記音声検出
手段がユーザ音声を検出した時、前記マルチチャンネル
信号を減衰させることを特徴とする、請求項５に記載の
ＡＶ機器用音声認識装置。
【請求項１０】前記エコーキャンセラは、前記複数のスピーカと前記マイクロホンとの間の反響路
のインパルスレスポンスを推定して、当該推定インパル
スレスポンスと、前記モノラル化信号とから前記反響音
を算出する適応ディジタルフィルタ、および前記マイク
ロホン出力から、前記適応ディジタルフィルタの出力を
減算する減算手段を含む、請求項５に記載のＡＶ機器用
音声認識装置。
【請求項１１】前記切り替え手段によって前記複数の
スピーカへの入力が前記マルチチャンネル信号から前記
モノラル化信号へと切り替えられる際に、前記適応ディ
ジタルフィルタの適応を促進するためのモノラル適応音
を発生する適応音発生手段をさらに備える、請求項１０
に記載のＡＶ機器用音声認識装置。
【請求項１２】前記適応ディジタルフィルタの適応速
度を制御する適応制御手段をさらに備え、前記適応制御手段は、モノラル用の速い適応速度と、マ
ルチチャンネル用の遅い適応速度とを持ち、前記状態設
定手段が前記音声認識手段を動作状態に設定している時
には速い適応速度を選択し、待機状態に設定している時
には遅い適応速度を選択することを特徴とする、請求項
１０に記載のＡＶ機器用音声認識装置。
【請求項１３】前記適応制御手段へは、前記複数のス
ピーカに入力される信号がマルチチャンネル信号かモノ
ラル信号かを示す識別信号が与えられ、前記適応制御手段は、前記識別信号がモノラルを示す場
合、前記状態設定手段が前記音声認識手段を動作状態に
設定しているか待機状態に設定しているかに関わらず、
前記速い適応速度を選択することを特徴とする、請求項
１２に記載のＡＶ機器用音声認識装置。
【請求項１４】前記マルチチャンネル信号のモノラル
度を判定するモノラル度判定手段、および前記モノラル
度判定手段の判定結果に基づいて、前記適応ディジタル
フィルタの適応速度を制御する適応制御手段をさらに備
える、請求項１０に記載のＡＶ機器用音声認識装置。
【請求項１５】前記適応制御手段は、前記マルチチャ
ンネル信号のモノラル度が高いほど、前記適応ディジタ
ルフィルタの適応速度を速くすることを特徴とする、請
求項１４に記載のＡＶ機器用音声認識装置。
【請求項１６】不揮発メモリをさらに備え、前記不揮発メモリは、電源が”ＯＦＦ”される時、前記適応ディジタルフィル
タによって推定されたインパルスレスポンスを取得して
記憶し、電源が”ＯＮ”される時、記憶している電源”ＯＦＦ”
時の推定インパルスレスポンスを前記適応ディジタルフ
ィルタに与え、前記適応ディジタルフィルタは、前記不揮発メモリから
与えられた電源”ＯＦＦ”時の推定インパルスレスポン
スを初期値として、インパルスレスポンスの推定を開始
することを特徴とする、請求項１０に記載のＡＶ機器用
音声認識装置。
【請求項１７】前記モノラル化信号と前記エコーキャ
ンセラ出力とに基づいて前記ユーザ音声を検出する音声
検出手段をさらに備え、前記起動命令手段は、ボタンが押されると、前記状態設
定手段へ起動命令を発するようなボタンスイッチであ
り、前記終了命令手段は、前記音声検出手段がユーザ音声を
検出しない状態が予め定められた時間以上継続すると、
前記状態設定手段へ終了命令を発する時限スイッチであ
ることを特徴とする、請求項５に記載のＡＶ機器用音声
認識装置。
【請求項１８】前記モノラル化信号と前記エコーキャ
ンセラ出力とに基づいて前記ユーザ音声を検出する音声
検出手段をさらに備え、前記起動命令手段は、前記音声検出手段がユーザ音声を
検出すると、前記状態設定手段へ起動命令を発する音声
スイッチであり、前記終了命令手段は、前記音声検出手段がユーザ音声を
検出しない状態が予め定められた時間以上継続すると、
前記状態設定手段へ終了命令を発する時限スイッチであ
ることを特徴とする、請求項５に記載のＡＶ機器用音声
認識装置。