JP2002041073A

JP2002041073A - 音声認識装置

Info

Publication number: JP2002041073A
Application number: JP2000231660A
Authority: JP
Inventors: Koichi Nakada; 孝一中田
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2000-07-31
Filing date: 2000-07-31
Publication date: 2002-02-08

Abstract

(57)【要約】【課題】オーディオ・サウンド・キャンセル（ＡＳ
Ｃ）機能を備えた音声認識装置において、ユーザが発し
た音声の区間検出を最適に行い、音声認識性能の向上に
寄与することを目的とする。【解決手段】ＡＳＣ処理部１０を通して出力された信
号の加算平均パワーを所定期間に亘って算出（２１）
し、この算出した加算平均パワーから音声の区間検出を
行う閾値となる検出レベルを算出（２２）し、一方、算
出した検出レベルを所定レベルに増大（２４）させ、現
在の車速ｖと基準値ｖ０とを比較して周囲が静寂環境下
にあるのか又は騒音環境下にあるのかを判定（２６）
し、この判定結果に基づき、騒音環境下と判定されたと
きに前記算出（２２）された検出レベルを選択出力（２
５）し、静寂環境下と判定されたときに前記増大（２
４）された検出レベルを選択出力（２５）する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置に関
し、特に、音声認識のためのオーディオ・サウンド・キ
ャンセル（ＡＳＣ）機能を備えた音声認識装置において
ユーザが発した音声の区間検出を最適に行うのに有用な
技術に関する。

【０００２】

【従来の技術】音声認識のためのＡＳＣ機能を備えた音
声認識装置では、マイクロホン等を介して入力される信
号に含まれるオーディオ信号成分をキャンセルして、信
号（音声信号）対ノイズ（オーディオ信号）のレベル比
を上げることで、オーディオ信号再生下での音声認識性
能を高めるようにしている。

【０００３】音声認識処理を行うに際しては、ユーザが
発した音声についてその区間検出を最適に行う必要があ
る。かかる音声区間検出を行う方法としては、ＡＳＣ処
理部を通して出力された信号の所定期間に亘っての平均
パワーを検出し、この平均パワーから音声の区間検出を
行う閾値（検出レベル）を算出し、この閾値に基づいて
音声区間検出を行っているものが一般的である。音声区
間検出は、例えば以下のように行われる。

【０００４】音声認識を行っていないとき（非音声認識
時）の所定期間における入力の加算平均パワーをＰ
（ｎ）とすると、これは以下の式で表される。Ｐ（ｎ）＝Σｐ（ｉ）／（ｊ＋１） ………………………………（１）但し、ｊ＋１は所定期間としてのサンプル時間、ｐ
（ｉ）はサンプル時刻ｉにおける入力パワー、Σはｉに
ついてｎ−（ｊ＋１）からｎ−１まで積分することを表
している。

【０００５】そして、この加算平均パワーＰ（ｎ）に一
定の係数α（α＞１）を乗じて得た値：α・Ｐ（ｎ）を
閾値とし、サンプル時刻ｍにおける入力パワーｐ（ｍ）
がこの閾値を越えたとき、すなわち、ｐ（ｍ）≧α・Ｐ
（ｎ）となったときに、そのｐ（ｍ）を有効な音声パワ
ーとみなして音声区間が始まったものと判定する（音声
区間の始端検出）。

【０００６】音声区間の終端検出についても同様に行
う。但しこの場合には、上記とは逆にｐ（ｍ）＜α・Ｐ
（ｎ）となったときに、有効な音声パワーの継続期間が
終了したものと判定する。このように、従来のＡＳＣ機
能を備えた音声認識装置では、ユーザ（例えば運転者）
が発した音声の区間検出を行う際に、その検出は、一定
の閾値（検出レベル）に基づいて、しかも周囲の騒音状
況に関係なく行われていた。

【０００７】

【発明が解決しようとする課題】上述したＡＳＣ機能を
備えた音声認識装置では、ＡＳＣ処理部において行うオ
ーディオ信号成分のキャンセル量は、通常２０ｄＢ程度
である。しかし、ＡＳＣ処理部はリアルタイムで適応処
理を行っているものの、模擬すべき再生空間（音響系）
の特性は時々刻々変動しており、常に最適なキャンセル
性能を得られるとは限らない。つまり、再生空間（音響
系）の特性の変動に追従しきれなかった場合には、キャ
ンセル性能が十分でなく、オーディオ音の残差成分のレ
ベルが大きくなる場合がある。

【０００８】この場合、オーディオ音は存在するものの
他のノイズは少ない環境（例えば、車両のアイドリング
時にオーディオ再生音がある場合など）において、音声
認識処理開始後に、再生空間（音響系）の特性が大きく
変動した場合は、オーディオ音の残差成分のレベルが相
対的に上昇することになり、あたかも音声の入力が行わ
れたときに音声入力レベルが上昇するのと等価な状況に
なってしまう。このため、実際に音声が発生されていな
いにもかかわらず、音声区間が始まったものと誤って判
断し、音声区間の始端検出が行われてしまうという不都
合があった。

【０００９】また、音声区間の終端検出についても同様
の問題がある。すなわち、ＡＳＣ処理部ではその機能
上、音声がエコーを帯びたような形で出力される場合が
ある。この場合、正しい音声区間後にエコーの成分が続
くため、音声区間の終端検出に悪影響を及ぼし、場合に
よっては音声認識性能に悪影響を与えてしまうことにつ
ながる。つまり、正しい音声区間後にエコーの成分が続
くため、有効な音声が続いているものと誤って判断し、
音声認識処理を継続してしまうという不都合があった。

【００１０】さらに、ノイズが十分に少ない環境下にお
いて閾値を低く設定しすぎると、ちょっとした物音や咳
払い、鼻をすする音などの微小な音に敏感に反応するた
め、音声区間の誤検出を行う可能性が高くなるという不
都合があった。なお、以下の記述において、ノイズが十
分に少ない環境下を「静寂環境下」と称し、これに対
し、車両走行中など相当のノイズが生じている環境下を
「騒音環境下」と称する。

【００１１】本発明は、上述した従来技術における課題
に鑑み創作されたもので、ユーザが発した音声の区間検
出を最適に行い、ひいては音声認識性能の向上に寄与す
ることができる音声認識装置を提供することを目的とす
る。

【００１２】

【課題を解決するための手段】上記の従来技術の課題を
解決するため、本発明によれば、オーディオ信号を出力
するオーディオソースと、前記オーディオ信号をオーデ
ィオ音として放射するスピーカと、ユーザが発した音声
を入力すると共に、前記スピーカから放射されたオーデ
ィオ音を検出するマイクロホンと、前記マイクロホンを
介して入力される信号に含まれるオーディオ信号成分を
キャンセルして出力するオーディオ・サウンド・キャン
セル処理部と、該オーディオ・サウンド・キャンセル処
理部を通して出力された信号の加算平均パワーを所定期
間に亘って算出する手段と、該算出された加算平均パワ
ーから前記音声の区間検出を行う閾値となる検出レベル
を算出する手段と、該算出された検出レベルを所定レベ
ルに増大させる検出レベル増大手段と、現在の車速を指
示する信号と予め設定した車速の基準値とを比較して、
周囲が静寂環境下にあるのか又は騒音環境下にあるのか
を判定する手段と、該判定された結果に基づいて、前記
算出された検出レベル及び前記増大された検出レベルの
いずれか一方を選択出力する検出レベル選択手段とを具
備し、前記音声の区間検出を行う閾値として、騒音環境
下と判定されたときに前記算出された検出レベルを選択
出力し、静寂環境下と判定されたときに前記増大された
検出レベルを選択出力することを特徴とする音声認識装
置が提供される。

【００１３】また、上記の音声認識装置において、前記
検出レベル増大手段に代えて、前記増大された検出レベ
ルに相当する固定の検出レベル値を登録しておくための
検出レベル値登録手段を具備し、前記判定手段は、静寂
環境下と判定したときに前記検出レベル値登録手段から
前記固定の検出レベル値を読み出して前記検出レベル選
択手段に接続するようにしてもよい。

【００１４】また、上記の音声認識装置において、前記
判定手段は、前記現在の車速を指示する信号と予め設定
した車速の基準値との比較に代えて、前記算出された加
算平均パワーと予め設定したパワーの基準値との比較に
基づき、周囲が静寂環境下にあるのか又は騒音環境下に
あるのかを判定するようにしてもよい。本発明に係る音
声認識装置によれば、車速又は入力の加算平均パワーに
基づいて判定手段により、周囲が静寂環境下にあるのか
又は騒音環境下にあるのかを判定し、この判定結果に基
づいて検出レベル選択手段により、静寂環境下と騒音環
境下とで音声の区間検出を行うための閾値（検出レベ
ル）を変えている。すなわち、静寂環境下の場合の検出
レベルを騒音環境下の場合の検出レベルよりも大きく
し、音声検出に係る検出感度を相対的に鈍くしている。

【００１５】これによって、従来技術で見られたよう
な、オーディオ音の残差成分のレベル変動やエコー成
分、咳払いなどの微小な音に敏感に反応し過ぎて音声区
間の誤検出を行うといった不都合を解消することができ
る。その結果、音声認識性能を向上させることが可能と
なる。

【００１６】

【発明の実施の形態】以下、本発明の実施の形態につい
て、添付の図面を参照しながら説明する。図１は本発明
の第１の実施形態に係る音声認識装置の概略構成をブロ
ック図の形態で示したものである。本実施形態では、そ
の音声認識結果を車載用ナビゲーションシステムに適用
する場合を想定している。

【００１７】図１において、１はＣＤプレーヤ、ＦＭチ
ューナ、テープ等のオーディオソース、２はオーディオ
ソース１から出力されたオーディオ信号を増幅する増幅
器、３は増幅されたオーディオ信号をオーディオ音とし
て再生空間（音響系Ｃ）に放射するスピーカ、４は車室
内の所定の箇所に設置されたマイクロホンを示す。この
マイクロホン４は、ナビゲーション処理に関してユーザ
が与える指令などの音声を入力するためのものであり、
入力した音声を電気信号に変換して出力する。この際、
マイクロホン４には、音響系Ｃを介してスピーカ３から
のオーディオ音も入力される。

【００１８】また、１０はオーディオ・サウンド・キャ
ンセル（ＡＳＣ）処理部を示し、遅延部１１、適応フィ
ルタ１２、演算部１３及びフィルタ１４を備えて構成さ
れている。適応フィルタ１２は、ＦＩＲ(Finite Impuls
e Response) フィルタ１２ａと、ＬＭＳ(Least Mean Sq
uare) 適応アルゴリズムによりＦＩＲフィルタ１２ａの
係数を設定するフィルタ係数設定部１２ｂとを有してい
る。

【００１９】遅延部１１は、マイクロホン４を介して入
力された信号（音声信号とオーディオ信号）を所定の時
間だけ遅延させて、演算部１３に出力する。この場合、
遅延部１１には、適応フィルタ１２のタップ数の約半分
に相当する遅延時間が設定されている。適応フィルタ１
２は、オーディオソース１から出力されたオーディオ信
号に対し周波数毎のレベル及び位相を調整して、演算部
１３に出力する。演算部１３は、遅延部１１から出力さ
れた信号（音声信号とオーディオ信号）と適応フィルタ
１２を通してレベル／位相調整された信号（オーディオ
信号）との差を演算し、その演算結果を誤差信号として
出力する。この誤差信号は、適応フィルタ１２のフィル
タ係数設定部１２ｂにフィードバックされる。

【００２０】一方、フィルタ１４は、スピーカ３からマ
イクロホン４までの音響系Ｃの伝達特性（インパルス応
答）を模擬するものであり、オーディオソース１から出
力されたオーディオ信号を音響系Ｃの伝達特性に従って
補償する。この補償されたオーディオ信号（Ｃ＾）は、
適応フィルタ１２のフィルタ係数設定部１２ｂに入力さ
れる。適応フィルタ１２のフィルタ係数設定部１２ｂで
は、この補償されたオーディオ信号（Ｃ＾）と演算部１
３の出力信号（誤差信号）とを受けて、誤差信号のパワ
ーを最小にするという基準（ＬＭＳ適応アルゴリズム）
に基づいてＦＩＲフィルタ１２ａのフィルタ係数（ゲイ
ン）を調整する。

【００２１】このようにＡＳＣ処理部１０では、マイク
ロホン４から遅延部１１を通して出力された信号（音声
信号とオーディオ信号）とオーディオソース１から適応
フィルタ１２を通して出力された信号（オーディオ信
号）との差を演算し、その演算結果である誤差信号のパ
ワーを最小にするように適応処理を行うことで、入力信
号（この場合、マイクロホン４から入力される信号）に
含まれるオーディオ信号成分をキャンセルする。

【００２２】また、２０は音声認識処理部を示し、加算
平均パワー算出部２１、音声区間検出レベル設定部２
２、トークスイッチ２３、増幅器２４、スイッチ２５、
判定部２６、特徴抽出部２７、データベース２８及びマ
ッチング処理部２９を備えて構成されている。加算平均
パワー算出部２１は、トークスイッチ２３からの起動信
号（音声入力の開始を指示するためにユーザの操作に基
づいて発せられるトリガ信号）に応答して、ＡＳＣ処理
部１０を通して供給される信号入力の加算平均パワーＰ
（ｎ）を算出する。この加算平均パワーＰ（ｎ）の算出
は、前述した式（１）に基づいて行い、例えば、トリガ
信号が発せられてから３秒間の期間に亘って行う。

【００２３】音声区間検出レベル設定部２２は、加算平
均パワー算出部２１で算出された信号入力の加算平均パ
ワーＰ（ｎ）から、音声区間検出レベルを設定する。サ
ンプル時刻ｎにおける音声区間検出レベルをＬｖとする
と、この検出レベルＬｖは、加算平均パワーＰ（ｎ）か
ら、以下のようにして求めることができる。Ｌｖ＝｜〔α・Ｐ（ｎ）〕^1/2｜ …………………………………（２）但し、αは１より大きい定数（α＞１）である。

【００２４】音声区間検出レベル設定部２２の出力端
は、スイッチ２５の接点Ａに接続されると共に、増幅器
２４を介してスイッチ２５の接点Ｂに接続されている。
増幅器２４は、音声区間検出レベル設定部２２で設定さ
れた音声区間検出レベルＬｖをｋ倍（ｋ＞１）に増大す
るためのものである。ここに、ｋの値は、オーディオ音
の残差成分のレベル変動分を考慮して決定される。ま
た、スイッチ２５は、判定部２６からの判定結果に基づ
いてその接点をＡ側又はＢ側に切り替え、音声区間検出
レベル設定部２２の出力又は増幅器２４の出力を選択的
に特徴抽出部２７に接続する。

【００２５】判定部２６は、パルス信号の形で与えられ
る現在の車速ｖと、基準値ｖ０として予め設定した車速
（例えば、１０ｋｍ／ｈ）との比較に基づいて、周囲が
静寂環境下にあるのか又は騒音環境下にあるのかを判定
する。本実施形態では、車速ｖが基準値ｖ０より低いと
き（ｖ＜ｖ０）、静寂環境下（典型的には、車両が停車
中の場合）と判定してスイッチ２５の接点をＢ側に切り
替え、車速ｖが基準値ｖ０以上のとき（ｖ≧ｖ０）、騒
音環境下と判定してスイッチ２５の接点をＡ側に切り替
える。

【００２６】特徴抽出部２７は、スイッチ２５を介して
入力された信号（音声区間検出が行われた信号）から音
声に係る特徴部分を抽出する。データベース２８は、例
えばＨＤＤ等の記憶媒体からなり、このデータベース２
８には、特徴抽出部２７を通して出力される音声のデー
タと比較・照合するための音声マッチング用データが予
め登録（記憶）されている。マッチング処理部２９は、
データベース２８に登録されている音声マッチング用デ
ータを参照して、特徴抽出部２７から出力された音声の
データとの比較・照合を行い、その結果（音声認識結
果）を出力する。この音声認識結果は、ナビゲーション
装置本体（図示せず）のＣＰＵに取り込まれ、ナビゲー
ションに係る演算処理に供される。

【００２７】この第１の実施形態では、加算平均パワー
算出部２１が「加算平均パワー算出手段」を、音声区間
検出レベル設定部２２が「検出レベル算出手段」を、増
幅器２４が「検出レベル増大手段」を、スイッチ２５が
「検出レベル選択手段」を、判定部２６が「判定手段」
を構成している。以下、第１の実施形態に係る音声区間
検出レベル算出処理について、その処理フローを示す図
２を参照しながら説明する。

【００２８】先ず、最初のステップＳ１では、加算平均
パワー算出部２１が、ＡＳＣ処理部１０を通して供給さ
れる信号入力の加算平均パワーＰ（ｎ）を算出する。こ
の算出は、前述した式（１）に基づいて行う。次のステ
ップＳ２では、音声区間検出レベル設定部２２が、加算
平均パワー算出部２１で算出された信号入力の加算平均
パワーＰ（ｎ）から、サンプル時刻ｎにおける音声区間
検出レベルＬｖを設定する。この設定は、前述した式
（２）に基づいて行う。

【００２９】次のステップＳ３では、判定部２６におい
て、周囲が静寂環境下にあるのか又は騒音環境下にある
のかを判定する。この判定は、車速ｖと基準値ｖ０との
比較に基づいて行う。すなわち、ｖ＜ｖ０のときは（判
定結果がＹＥＳの場合）、静寂環境下と判定してステッ
プＳ４に進み、ｖ≧ｖ０のときは（判定結果がＮＯの場
合）、騒音環境下と判定してステップＳ６に進む。

【００３０】ステップＳ４では、増幅器２４により、音
声区間検出レベル設定部２２で設定された音声区間検出
レベルＬｖをｋ倍（ｋ＞１）に増大して、静寂環境下の
音声区間検出レベルＬｖ０（＝ｋ・Ｌｖ）を算出する。
次のステップＳ５では、判定部２６からの判定結果に基
づいてスイッチ２５の接点をＢ側に切り替え、増幅器２
４の出力（Ｌｖ０）をスイッチ２５（接点Ｂ）を介して
特徴抽出部２７に接続する。つまり、増幅器２４を通し
てｋ倍に増大された音声区間検出レベルＬｖ０（＝ｋ・
Ｌｖ）を、静寂環境下の音声区間検出レベルＬｖとして
選択出力する。この後、音声区間検出レベル算出に係る
処理フローは「終了」となる。

【００３１】一方、ステップＳ６では、判定部２６から
の判定結果に基づいてスイッチ２５の接点をＡ側に切り
替え、音声区間検出レベル設定部２２の出力（Ｌｖ）を
スイッチ２５（接点Ａ）を介して特徴抽出部２７に接続
する。つまり、音声区間検出レベル設定部２２で設定さ
れた音声区間検出レベルＬｖを、そのまま騒音環境下の
音声区間検出レベルＬｖとして選択出力する。この後、
音声区間検出レベル算出に係る処理フローは「終了」と
なる。

【００３２】以上説明したように、本実施形態に係る音
声認識装置によれば、判定部２６により、現在の車速ｖ
と基準値ｖ０との比較に基づいて周囲が静寂環境下にあ
るのか又は騒音環境下にあるのかを判定し、この判定結
果に基づいてスイッチ２５により、騒音環境下と判定さ
れたときは音声区間検出レベル設定部２２で設定された
音声区間検出レベル（Ｌｖ）を選択出力し、静寂環境下
と判定されたときは増幅器２４で増幅された音声区間検
出レベル（ｋ・Ｌｖ）を選択出力している。つまり、静
寂環境下の場合の検出レベルを相対的に鈍くしている。

【００３３】従って、従来技術で見られたような、オー
ディオ音の残差成分のレベル変動やエコー成分、咳払い
などの微小な音に敏感に反応し過ぎて音声区間の誤検出
を行うといった不都合を解消することができ、ひいては
音声認識性能を向上させることが可能となる。図３は第
２の実施形態に係る音声認識装置の要部（音声認識処理
部）の構成をブロック図の形態で示したものである。こ
の第２の実施形態では、上述した第１の実施形態の場合
と同様に、音声認識結果を車載用ナビゲーションシステ
ムに適用する場合を想定している。

【００３４】また、図４はこの第２の実施形態に係る音
声区間検出レベル算出処理を示したものである。この第
２の実施形態に係る音声認識装置（図３）は、音声認識
処理部２０ａにおいて、第１の実施形態（図１）で用い
たような静寂環境下の音声区間検出レベルを算出するた
めの増幅器２４を設ける代わりに、オーディオ音の残差
成分のレベル変動分を考慮して予め大きめに設定した固
定の検出レベル値を登録しておくためのレジスタ３０を
設けたこと、判定部２６ａが、第１の実施形態の場合と
同様にスイッチ２５の切替制御を行うと共に、車速ｖに
基づいて静寂環境下（典型的には、車両が停車中の場
合）と判定したときにレジスタ３０の内容を読み出して
スイッチ２５の接点Ｂに接続するようにしたことを特徴
とする。

【００３５】ここに、判定部２６ａは「判定手段」を構
成し、レジスタ３０は「検出レベル値登録手段」を構成
している。また、この第２の実施形態に係る音声区間検
出レベル算出処理（図４）については、基本的に第１の
実施形態（図２）の場合と同じである。すなわち、ステ
ップＳ１１〜Ｓ１６はステップＳ１〜Ｓ６に対応してい
る。

【００３６】但し、この第２の実施形態では、ステップ
Ｓ１４において、レジスタ３０に登録されている音声区
間検出レベル値Ｌｖ０（固定値）を静寂環境下の音声区
間検出レベルとして読み出し、さらにステップＳ１５に
おいて、この読み出した検出レベル値Ｌｖ０をスイッチ
２５（接点Ｂ）を介して特徴抽出部２７に接続するよう
にしている。

【００３７】他の構成及びその作用効果については、第
１の実施形態（図１）の場合と同じであるので、その説
明は省略する。図５は第３の実施形態に係る音声認識装
置の要部（音声認識処理部）の構成をブロック図の形態
で示したものである。この第３の実施形態では、第１，
第２の実施形態の場合と同様に、音声認識結果を車載用
ナビゲーションシステムに適用する場合を想定してい
る。

【００３８】また、図６はこの第３の実施形態に係る音
声区間検出レベル算出処理を示したものである。この第
３の実施形態に係る音声認識装置（図５）は、音声認識
処理部２０ｂにおいて、車速ｖと基準値ｖ０との比較に
基づいて静寂環境下又は騒音環境下の判定を行う判定部
２６に代えて、加算平均パワー算出部２１で算出された
過去の入力の加算平均パワーＰ（ｎ）と基準値Ｐ０との
比較に基づいて静寂環境下又は騒音環境下の判定を行う
判定部２６ｂを設けたことを特徴とする。

【００３９】ここに、判定部２６ｂは「判定手段」を構
成している。また、この第３の実施形態に係る音声区間
検出レベル算出処理（図６）については、基本的に第１
の実施形態（図２）の場合と同じである。すなわち、ス
テップＳ２１〜Ｓ２６はステップＳ１〜Ｓ６に対応して
いる。但し、この第３の実施形態では、ステップＳ２３
において、判定部２６ｂにより、加算平均パワー算出部
２１で算出された過去の加算平均パワーＰ（ｎ）と、基
準値Ｐ０として予め設定した入力パワーとの比較に基づ
き、Ｐ（ｎ）≦Ｐ０の場合に静寂環境下と判定し、Ｐ
（ｎ）＞Ｐ０の場合に騒音環境下と判定するようにして
いる。

【００４０】他の構成及びその作用効果については、第
１の実施形態（図１）の場合と同じであるので、その説
明は省略する。

【００４１】

【発明の効果】以上説明したように本発明によれば、静
寂環境下と騒音環境下とで音声の区間検出を行うための
閾値（検出レベル）を変え、前者の方を後者の方よりも
大きくすることにより、従来技術で見られたような不都
合（オーディオ音の残差成分のレベル変動や微小な音な
どに敏感に反応して音声区間の誤検出を行うといった不
都合）を解消することができ、音声認識性能を向上させ
ることが可能となる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る音声認識装置の
構成を概略的に示すブロック図である。

【図２】第１の実施形態に係る音声区間検出レベル算出
処理を示すフロー図である。

【図３】本発明の第２の実施形態に係る音声認識装置の
要部の構成を示すブロック図である。

【図４】第２の実施形態に係る音声区間検出レベル算出
処理を示すフロー図である。

【図５】本発明の第３の実施形態に係る音声認識装置の
要部の構成を示すブロック図である。

【図６】第３の実施形態に係る音声区間検出レベル算出
処理を示すフロー図である。

【符号の説明】

１…オーディオソース３…スピーカ４…マイクロホン１０…ＡＳＣ処理部１２…適応フィルタ２０，２０ａ，２０ｂ…音声認識処理部２１…加算平均パワー算出部（加算平均パワー算出手
段）２２…音声区間検出レベル設定部（検出レベル算出手
段）２３…トークスイッチ２４…増幅器（検出レベル増大手段）２５…スイッチ（検出レベル選択手段）２６，２６ａ，２６ｂ…判定部（判定手段）３０…レジスタ（検出レベル値登録手段）

Claims

【特許請求の範囲】

【請求項１】オーディオ信号を出力するオーディオソ
ースと、前記オーディオ信号をオーディオ音として放射するスピ
ーカと、ユーザが発した音声を入力すると共に、前記スピーカか
ら放射されたオーディオ音を検出するマイクロホンと、前記マイクロホンを介して入力される信号に含まれるオ
ーディオ信号成分をキャンセルして出力するオーディオ
・サウンド・キャンセル処理部と、該オーディオ・サウンド・キャンセル処理部を通して出
力された信号の加算平均パワーを所定期間に亘って算出
する手段と、該算出された加算平均パワーから前記音声の区間検出を
行う閾値となる検出レベルを算出する手段と、該算出された検出レベルを所定レベルに増大させる検出
レベル増大手段と、現在の車速を指示する信号と予め設定した車速の基準値
とを比較して、周囲が静寂環境下にあるのか又は騒音環
境下にあるのかを判定する手段と、該判定された結果に基づいて、前記算出された検出レベ
ル及び前記増大された検出レベルのいずれか一方を選択
出力する検出レベル選択手段とを具備し、前記音声の区間検出を行う閾値として、騒音環境下と判
定されたときに前記算出された検出レベルを選択出力
し、静寂環境下と判定されたときに前記増大された検出
レベルを選択出力することを特徴とする音声認識装置。
【請求項２】前記検出レベル増大手段に代えて、前記
増大された検出レベルに相当する固定の検出レベル値を
登録しておくための検出レベル値登録手段を具備し、前記判定手段は、静寂環境下と判定したときに前記検出
レベル値登録手段から前記固定の検出レベル値を読み出
して前記検出レベル選択手段に接続することを特徴とす
る請求項１に記載の音声認識装置。
【請求項３】前記判定手段は、前記現在の車速を指示
する信号と予め設定した車速の基準値との比較に代え
て、前記算出された加算平均パワーと予め設定したパワ
ーの基準値との比較に基づき、周囲が静寂環境下にある
のか又は騒音環境下にあるのかを判定することを特徴と
する請求項１に記載の音声認識装置。
【請求項４】前記増大された検出レベルは、前記オー
ディオ音の残差成分のレベル変動分を考慮して決定され
ることを特徴とする請求項１に記載の音声認識装置。
【請求項５】前記加算平均パワーを算出する手段は、
当該加算平均パワーＰ（ｎ）を、以下の式（１）に基づ
いて算出し、Ｐ（ｎ）＝Σｐ（ｉ）／（ｊ＋１） ………………………………（１）但し、ｊ＋１は所定期間としてのサンプル時間、ｐ
（ｉ）はサンプル時刻ｉにおける入力パワー、Σはｉに
ついてｎ−（ｊ＋１）からｎ−１まで積分することを表
す、前記検出レベルを算出する手段は、当該検出レベルＬｖ
を、以下の式（２）に基づいて算出する、Ｌｖ＝｜〔α・Ｐ（ｎ）〕^1/2｜ …………………………………（２）但し、αは１より大きい定数を表す、ことを特徴とする
請求項１から４のいずれか一項に記載の音声認識装置。