JP2022026270A

JP2022026270A - 音声処理システム、音声処理装置、及び音声処理方法

Info

Publication number: JP2022026270A
Application number: JP2020129651A
Authority: JP
Inventors: 智史山梨; Tomohito Yamanashi; 南生也持木; Naoya Mochiki
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2022-02-10

Abstract

【課題】音声処理装置において、周囲の状況が変化した場合におけるノイズ成分の抑圧性能の低下を、処理量を増加させることなく低減すること。【解決手段】本開示にかかる音声処理装置は、第１推定部と、第１加算部と、検知部と、第１制御部と、を備える。第１推定部は、第１信号が入力され、第１信号に基づいた第２信号を出力する第１適応フィルタを備え、第２信号に基づいた第１減算信号を生成する。第１加算部は、第１収音装置が取得した第３信号が入力され、第３信号から第１減算信号を減算する。検知部は、第４信号が入力され、第４信号に基づいて周囲の状況変化を検知する。第１制御部は、第１適応フィルタのタップ長を変更可能であり、検知部からの状況変化を検知したことを示す検知信号を受信したとき、タップ長を、第１タップ長から、第１タップ長よりも短い第２タップ長に変更する。【選択図】図４

Description

本開示は、音声処理システム、音声処理装置、及び音声処理方法に関する。

音声信号に混入したノイズ成分を、適応フィルタを用いて推定し、推定したノイズ成分を抑圧する音声処理装置が知られている。

このような音声処理装置に関し、例えば特許文献１には、適応フィルタのフィルタ係数の絶対値に基づいて、適応フィルタの一部のタップを不使用とすることができる構成が開示されている。また、特許文献２には、適応フィルタのフィルタ係数の収束度に応じて、適応フィルタの一部のタップを不使用とすることができる構成が開示されている。

特許第２８８８１２１号公報特許第５３２１３７２号公報

適応フィルタを用いた音声処理装置では、装置周囲の状況が変化した場合、ノイズ成分の抑圧性能が一時的に低下することがある。装置周囲の状況が変化した場合とは、例えば音声処理装置の起動直後や、音楽の再生が開始されたとき、あるいは話者が切り替わったときである。これは、適応フィルタのフィルタ係数の値が、状況の変化によって一度発散した後、変化後の状況に対応した値に収束するまでに時間を要することに起因する。

本開示は、音声処理装置において、周囲の状況が変化した場合におけるノイズ成分の抑圧性能の低下を、処理量を増加させることなく低減することを目的とする。

本開示にかかる音声処理装置は、第１推定部と、第１加算部と、検知部と、第１制御部と、を備える。第１推定部は、第１信号が入力され、第１信号に基づいた第２信号を出力する第１適応フィルタを備え、第２信号に基づいた第１減算信号を生成する。第１加算部は、第１収音装置が取得した第３信号が入力され、第３信号から第１減算信号を減算する。検知部は、第４信号が入力され、第４信号に基づいて周囲の状況変化を検知する。第１制御部は、第１適応フィルタのタップ長を変更可能であり、検知部からの状況変化を検知したことを示す検知信号を受信したとき、タップ長を、第１タップ長から、第１タップ長よりも短い第２タップ長に変更する。

本開示によれば、音声処理装置において、周囲の状況が変化した場合におけるノイズ成分の抑圧性能の低下を、処理量を増加させることなく低減することができる。

図１は、第１実施形態における音声処理システムの概略構成の一例を示す図である。図２は、第１実施形態における音声処理装置のハードウェア構成の一例を示す図である。図３は、第１実施形態における音声処理装置が備える機能構成の概略を示す図である。図４は、第１実施形態におけるＥＣ処理部の詳細な構成の一例を示す図である。図５は、第１実施形態におけるＥＣ処理部のノイズ成分の抑圧性能の時間的推移の一例を示す図である。図６は、第１実施形態におけるＥＣ処理部の動作を示すフローチャートである。図７は、変形例１におけるＥＣ処理部の動作を示すフローチャートである。図８は、第２実施形態における音声処理装置の構成の一例を示す図である。図９は、第２実施形態における状況変化検知部の動作を示すフローチャートである。図１０は、第２実施形態におけるＣＴＣ処理部の動作を示すフローチャートである。図１１は、変形例２におけるＣＴＣ処理部の動作を示すフローチャートである。図１２は、第３実施形態における音声処理装置の動作を示すフローチャートである。

以下、適宜図面を参照しながら、本開示の実施形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

（第１実施形態）
図１は、第１実施形態における音声処理システム５の概略構成の一例を示す図である。音声処理システム５は、例えば車両１０に搭載される。以下、音声処理システム５が車両１０に搭載される例について説明する。

車両１０の車室内には、複数の座席が設けられる。複数の座席は、例えば、運転席、助手席、および左右の後部座席の４席である。なお、座席の数は、これに限られない。以降では、運転席に着座する乗員を乗員ｈｍ１、助手席に着座する乗員を乗員ｈｍ２、後部座席の左側に着座する乗員を乗員ｈｍ３、後部座席の右側に着座する乗員を乗員ｈｍ４と表記する。

音声処理システム５は、複数のマイクＭＣ、音声処理装置２０、音声認識エンジン３０、および電子機器４０を含む。この例では、座席の数と等しい数、つまり４つのマイクＭＣが設けられているが、マイクＭＣの数は座席の数と等しくなくてもよい。音声処理装置２０の出力は、音声認識エンジン３０に入力される。音声認識エンジン３０による音声認識結果は、電子機器４０に入力される。電子機器４０の出力は、車室内に設けられたスピーカ５０に入力される。なお、図１に示す例では、スピーカ５０は車室内に２つ設けられている。車室内に設けられるスピーカ５０の数は２個に限定されない。

４つのマイクＭＣは、各マイクＭＣが異なる１人の乗員ｈｍが発話する音声をメインに収音できるように、車室内に配置されている。１人の乗員ｈｍが発話する音声をメインに収音するとは、当該１人の乗員ｈｍが発話する音声を他のマイクＭＣよりも大きなレベルで収音することである。以降、乗員ｈｍｉが発話する音声をメインに収音するためのマイクＭＣを、マイクＭＣｉと表記する。但し、ｉは１から４までの整数とする。

例えば、マイクＭＣ１は、車両の運転者である乗員ｈｍ１が発話する音声をメインに収音できるように、運転席の右側のアシストグリップに配置される。よって、マイクＭＣ１は、乗員ｈｍ１が発話すれば、乗員ｈｍ１が発話した音声成分を含む音声信号を取得することができる。なお、音声信号とは、音声を表す電気信号をいう。

マイクＭＣ２は、乗員ｈｍ２が発話する音声をメインに収音することができるように、例えば助手席の左側のアシストグリップに配置される。よって、乗員ｈｍ２が発話すれば、マイクＭＣ２は、乗員ｈｍ２が発話した音声成分を含む音声信号を取得することができる。

マイクＭＣ３は、乗員ｈｍ３が発話する音声をメインに収音することができるように、例えば後部座席の左側のアシストグリップに配置される。よって、乗員ｈｍ３が発話すれば、マイクＭＣ３は、乗員ｈｍ３が発話した音声成分を含む音声信号を取得することができる。

マイクＭＣ４は、乗員ｈｍ４が発話する音声をメインに収音することができるように、例えば後部座席の右側のアシストグリップに配置される。よって、乗員ｈｍ４が発話すれば、マイクＭＣ４は、乗員ｈｍ４が発話した音声成分を含む音声信号を取得することができる。

各マイクＭＣの配置位置は、上記に説明した例に限られない。例えば、マイクＭＣ１はダッシュボードの右側前面に配置されてもよい。マイクＭＣ２は、ダッシュボードの左側前面に配置されてもよい。マイクＭＣ３は、助手席の背もたれ部に配置されてもよい。マイクＭＣ４は、運転席の背もたれ部に配置されてもよい。

各マイクＭＣは、指向性マイクであってもよく、無指向性マイクであってもよい。各マイクＭＣは、小型のＭＥＭＳ（ＭｉｃｒｏＥｌｅｃｔｒｏＭｅｃｈａｎｉｃａｌＳｙｓｔｅｍｓ）マイクであってもよく、ＥＣＭ（ＥｌｅｃｔｒｅｔＣｏｎｄｅｎｓｅｒＭｉｃｒｏｐｈｏｎｅ）であってもよい。各マイクＭＣは、ビームフォーミング可能なマイクであってもよい。例えば、各マイクＭＣは、各座席の方向に指向性を有し、指向方法の音声を収音可能なマイクアレイでもよい。

スピーカ５０には、電子機器４０から、例えば、音楽などの音声を表す音声信号や、ハンズフリー通話の通話相手の音声を表す音声信号が入力される。スピーカ５０は、入力された音声信号を音声に変えて出力する。なお、スピーカ５０に音声信号を入力する機器は電子機器４０でなくてもよい。スピーカ５０に入力される音声信号を、スピーカ入力信号と表記する。また、スピーカ５０から出力される音声を、スピーカ音声と表記する。

音声処理装置２０は、車両の所定位置に設けられている。音声処理装置２０は、音声認識エンジン３０または電子機器４０に組み込まれてもよいし、音声認識エンジン３０および電子機器４０とは別体の装置であってもよい。

各マイクＭＣが取得した音声信号は、音声処理装置２０に入力される。音声処理装置２０は、各マイクＭＣから入力された音声信号に対し、ノイズ成分を抑圧する処理を個別に行う。

具体的には、音声処理装置２０は、マイクＭＣｉから入力された音声信号に関しては、対応する乗員ｈｍである乗員ｈｍｉが発話する音声を取得目的成分と見なす。そして、音声処理装置２０は、乗員ｈｍｉが発話する音声以外の音声をノイズ成分と見なして抑圧する。乗員ｈｍｉが発話する音声以外の音声は、例えば、乗員ｈｍ１～乗員ｈｍ４のうちの乗員ｈｍｉ以外の乗員が発話する音声およびスピーカ音声を含む。音声処理装置２０は、マイクＭＣｉから入力された音声信号に対し、乗員ｈｍｉが発話する音声以外の音声を抑圧することで、理想的には乗員ｈｍｉが発話する音声のみを含む音声信号を生成することができる。

音声処理装置２０は、ノイズ成分の抑圧後の各音声信号、つまり、理想的には乗員ｈｍ１が発話する音声のみを含む音声信号と、理想的には乗員ｈｍ２が発話する音声のみを含む音声信号と、理想的には乗員ｈｍ３が発話する音声のみを含む音声信号と、理想的には乗員ｈｍ４が発話する音声のみを含む音声信号と、のそれぞれを出力信号として出力する。音声処理装置２０の各出力信号は、音声認識エンジン３０に入力される。

音声認識エンジン３０は、音声処理装置２０からの少なくとも１つの出力信号に含まれる音声を認識し、音声認識結果を出力する。音声認識エンジン３０は、音声認識結果や音声認識結果に基づく信号を生成する。音声認識結果に基づく信号とは、例えば電子機器４０の操作信号である。音声認識エンジン３０による音声認識結果は、電子機器４０に入力される。音声認識エンジン３０は、音声処理装置２０と別体の装置であってもよい。音声認識エンジン３０は、例えばダッシュボードの内部に配置される。音声認識エンジン３０は、座席の内部に収容されて配置されてもよい。あるいは、音声認識エンジン３０は、音声処理装置２０に組み込まれた一体型の装置であってもよい。

電子機器４０には、音声認識エンジン３０から出力される信号が入力される。電子機器４０は、例えば、操作信号に対応する動作を行う。電子機器４０は、例えば車両１０のダッシュボードに配置される。電子機器４０は、例えばカーナビゲーション装置である。電子機器４０は、パネルメータ、テレビ、あるいは携帯端末であってもよい。電子機器４０は、乗員ｈｍに対する音声を表す音声信号を、スピーカ入力信号としてスピーカ５０に入力する。

なお、図１では、車両に４人が乗車している場合を示したが、乗車する人数はこれに限られない。乗車人数は、車両の最大乗車定員以下であればよい。例えば、車両の最大乗車定員が６人である場合、乗車人数は６人であってもよく、５人以下であってもよい。

図２は、第１実施形態における音声処理装置２０のハードウェア構成の一例を示す図である。図２に示す例では、音声処理装置２０は、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）２１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２２、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２３、およびＩ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）インタフェース２４を備える。

ＤＳＰ２１は、コンピュータプログラムを実行可能なプロセッサである。なお、音声処理装置２０が備えるプロセッサの種類はＤＳＰに限定されない。例えば、音声処理装置２０は、ＤＳＰに代えてＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備え得る。また、音声処理装置２０が備えるプロセッサの数は１に限定されない。

ＲＯＭ２３は、コンピュータプログラムを含む各種情報を記憶する不揮発性メモリである。ＤＳＰ２１は、特定のコンピュータプログラムをＲＯＭ２３から読み出して実行することによって、音声処理装置２０の機能を実現する。音声処理装置２０の機能については後述する。なお、音声処理装置２０が備える不揮発性メモリの種類はＲＯＭに限定されない。例えば、音声処理装置２０は、ＲＯＭに代えてフラッシュメモリを備え得る。また、音声処理装置２０が備える不揮発性メモリの数は１に限定されない。

ＲＡＭ２２は、キャッシュまたはバッファなどとして使用される揮発性メモリである。なお、音声処理装置２０が備える揮発性メモリの種類はＲＡＭに限定されない。音声処理装置２０は、ＲＡＭに代えてレジスタを備え得る。また、音声処理装置２０が備える揮発性メモリの数は１に限定されない。

Ｉ/Ｏインタフェース２４には、外部の装置が接続されるインタフェース装置である。ここでは、外部の装置は、例えば、４つのマイクＭＣおよび音声認識エンジン３０などである。

このように、音声処理装置２０は、コンピュータプログラムが格納されたメモリと当該コンピュータプログラムを実行可能なプロセッサとを備える。つまり、音声処理装置２０は、コンピュータと見なされ得る。なお、音声処理装置２０としての機能を実現するために要するコンピュータの数は１に限定されない。音声処理装置２０としての機能は、２以上のコンピュータの協働によって実現されてもよい。

図３は、第１実施形態における音声処理装置２０が備える機能構成の概略を示す図である。音声処理装置２０では、それぞれが何れかのマイクＭＣに一対一に対応する４つのＥＣ処理部２１０およびそれぞれが何れかのマイクＭＣに一対一に対応する４つのＣＴＣ処理部２２０を備える。これらの機能構成は、例えば、ＤＳＰ２１が特定のコンピュータプログラムを実行することによって実現する。マイクＭＣｉに対応するＥＣ処理部２１０を、ＥＣ処理部２１０－ｉと表記する。また、マイクＭＣｉに対応するＣＴＣ処理部２２０を、ＣＴＣ処理部２２０－ｉと表記する。

各ＥＣ処理部２１０は、エコーキャンセル処理を実行する。エコーキャンセル処理は、音声信号に含まれるスピーカ音声の成分をノイズ成分と見なして抑圧する処理である。エコーキャンセル処理は、ミュージックキャンセル処理とも称され得る。ＥＣ処理部２１０－ｉには、マイクＭＣｉからの音声信号と、スピーカ入力信号とが入力される。ＥＣ処理部２１０－ｉは、スピーカ入力信号を参照信号として用いることによって、マイクＭＣｉからの音声信号に含まれるスピーカ音声の成分を抑圧する。

各ＣＴＣ処理部２２０は、クロストークキャンセル処理を実行する。クロストークキャンセル処理は、対応する乗員ｈｍ以外の乗員ｈｍが発話した音声の成分をノイズ成分と見なして抑圧する処理である。ＣＴＣ処理部２２０－ｉには、全てのマイクＭＣからの音声信号が、ＥＣ処理部２１０によるエコーキャンセル処理を経た後に入力される。ＣＴＣ処理部２２０－ｉは、入力された音声信号のうちのマイクＭＣｉ以外のマイクＭＣからの音声信号を参照信号として用いることによって、乗員ｈｍｉ以外の乗員ｈｍが発話した音声の成分を抑圧する。各ＣＴＣ処理部２２０は、クロストークキャンセル処理後の音声信号を音声認識エンジン３０に出力する。

音声処理装置２０は、ＥＣ処理部２１０およびＣＴＣ処理部２２０以外に、状況変化検知部を備える。状況変化検知部としての機能は、ＥＣ処理部２１０およびＣＴＣ処理部２２０と同様に、ＤＳＰ２１によって実現される。状況変化検知部についてはＥＣ処理部２１０の詳細とともに後述する。

音声処理装置２０は、上記された機能に加えて、適宜、任意の機能を備え得る。例えば、各マイクＭＣがマイクアレイである場合、音声処理装置２０は、対応する乗員ｈｍの方向からの音声成分を増幅するとともに他の方向からの音声成分を減衰させる、いわゆるビームフォーミングと称される処理を行うビームフォーミング処理部を備えていてもよい。ビームフォーミング処理によって、各マイクＭＣに入力される音声信号のＳ／Ｎ比が向上する。そして、後段で実行されるクロストークキャンセル処理の精度を高めることができる。

図４は、第１実施形態におけるＥＣ処理部２１０の詳細な構成の一例を示す図である。なお、４つのＥＣ処理部２１０は、音声信号の入力元のマイクＭＣが異なる点を除き、同一の構成を備えている。ここでは代表として、ＥＣ処理部２１０－１の構成について説明し、ＥＣ処理部２１０－２～ＥＣ処理部２１０－４の構成の説明を省略する。

ＥＣ処理部２１０－１は、適応フィルタ２１１を備えるＥＣ推定部２１２と、適応フィルタ２１１を制御するＥＣ制御部２１３と、ＥＣ加算部２１４と、を備える。

ＥＣ推定部２１２には、スピーカ入力信号が参照信号として入力される。ＥＣ推定部２１２は、ノイズ成分、つまりマイクＭＣ１からの音声信号に含まれるスピーカ音声の成分を、適応フィルタ２１１を用いて推定する。ＥＣ推定部２１２は、スピーカ入力信号に適応フィルタ２１１をかけ、これによって得られた信号を、推定したノイズ成分を表す信号として出力する。

適応フィルタ２１１は、例えばＲＡＭ２２に配置される。適応フィルタ２１１は、信号処理の過程においてフィルタ係数が更新されることで、特性を変化させることができる。下記に適応フィルタ２１１の構成の一例を説明する。例えば、フィルタ係数の更新アルゴリズムとしてＬＭＳ（ＬｅａｓｔＭｅａｎＳｑｕａｒｅ）を用いる場合、適応フィルタ２１１は、誤差信号の自乗平均で定義されるコスト関数を最小にするフィルタである。図４に示す例では、誤差信号とは、取得目的の音声、つまり乗員ｈｍ１が発話した音声、の成分と、出力信号と、の差である。

ここでは、適応フィルタ２１１としてＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタを例示する。他の種類の適応フィルタを用いてもよい。例えば、ＩＩＲ（ＩｎｆｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタを用いてもよい。音声処理装置２０の出力信号と取得目的の音声の成分との差である誤差信号は、音声処理装置２０が適応フィルタとして１つのＦＩＲフィルタを用いる場合、以下の式（１）で示される。

ここで、ｎは時刻であり、ｅ（ｎ）は誤差信号であり、ｄ（ｎ）は取得目的の音声の成分であり、ｗｉはフィルタ係数であり、ｘ（ｎ）は参照信号であり、Ｌはタップ長である。ここでは、参照信号ｘ（ｎ）は、スピーカ入力信号である。なお、タップ長は、タップ数と言い換えることができる。

適応フィルタ２１１が上記のように構成されることで、ＥＣ推定部２１２は、スピーカ入力信号に適応フィルタ２１１をかけることによって、マイクＭＣ１に含まれるスピーカ音声の成分を推定した信号を得ることができる。ＥＣ推定部２１２は、適応フィルタ２１１によって得られた信号を出力する。なお、ＥＣ推定部２１２が出力する信号を、減算に使用される信号という意味で、減算信号と表記する。

ＥＣ加算部２１４は、マイクＭＣ１からの音声信号から、ＥＣ推定部２１２によって推定されたノイズ成分の表す信号、つまり減算信号を減算する。ＥＣ加算部２１４からの出力信号は、各ＣＴＣ処理部２２０に共通に入力される。

ＥＣ制御部２１３は、ＥＣ加算部２１４からの出力信号に基づき、適応フィルタ２１１のフィルタ係数の更新を行う。ＥＣ制御部２１３は、誤差信号が出来るだけ小さくなるようにフィルタ係数を繰り返し更新する。ノイズ成分に変動が無ければ、やがて誤差信号が小さい値に収束し、それとともにフィルタ係数はノイズ成分に応じた値に収束する。適応フィルタ２１１によるノイズ成分の抑圧性能は、誤差信号が小さくなるに従って向上し、誤差信号およびフィルタ係数が収束した時点で一定となる。

第１実施形態においては、ＥＣ制御部２１３は、適応フィルタ２１１のタップ長の制御を行う。つまり、適応フィルタ２１１は、タップ長が可変に構成されており、ＥＣ制御部２１３は、所定の事象をトリガとして適応フィルタ２１１のタップ長の値の変更を行う。

例えば音楽の再生が開始された場合のように状況が変化した場合、ノイズ成分が変化するため、上記の誤差信号が増加してノイズ成分の抑圧性能が低下する。すると、誤差信号が再び小さい値に収束するように、フィルタ係数の変化が開始する。フィルタ係数の変化が開始してからフィルタ係数が再収束するまでの間は、フィルタ係数が収束した状態に比べてノイズ成分の抑制性能が低下した状態となる。

ＥＣ制御部２１３は、状況が変化した場合におけるノイズ成分の抑圧性能の低下をできるだけ抑制するために、適応フィルタ２１１のタップ長を一時的に短くする制御を行う。

図５は、第１実施形態におけるＥＣ処理部２１０－１のノイズ成分の抑圧性能の時間的推移の一例を示す図である。ここでは、適応フィルタ２１１のタップ長が６４ミリ秒分のデータ量に相当する長さに設定されたケース１と、適応フィルタ２１１のタップ長がケース１の半分の３２ミリ秒分のデータ量に相当する長さに設定されたケース２と、の２つのケースにおける抑圧性能の時間的推移について説明する。

また、図５は、スピーカ５０による音楽の再生が開始されてからの各量を示す。一行目は、経過時間、つまり音楽の再生が開始されてからの経過時間を示す。ここでの経過時間の単位は秒である。二行目は、スピーカ入力信号のレベルを合計ＲＭＳ（ＲｏｏｔＭｅａｎＳｑｕａｒｅ）で示す。三行目は、ケース１におけるＥＣ加算部２１４の出力信号のレベルを合計ＲＭＳで示す。四行目は、ケース２におけるＥＣ加算部２１４の出力信号のレベルを合計ＲＭＳで示す。五行目は、ケース１によるノイズ成分の抑圧性能を、抑圧量、つまりスピーカ入力信号からＥＣ加算部２１４の出力信号を減算した量で示す。六行目は、ケース２によるノイズ成分の抑圧性能を、抑圧量、つまりスピーカ入力信号からＥＣ加算部２１４の出力信号を減算した量で示す。七行目は、ケース１における抑圧量からケース２における抑圧量を減算した量を示す。

図５から、音楽の再生が開始されてから５秒が経過するまでの間は、ケース２のほうがケース１よりもノイズ成分の抑圧性能が良いことが読み取れる。これは、タップ長が短いほうが、タップ長が長い場合に比べて誤差信号およびフィルタ係数の収束に要する時間が短いことによる。

また、音楽の再生が開始されてから６秒以降経過した場合には、ケース１のほうがケース２よりもノイズ成分の抑圧性能が良いことが読み取れる。これは、タップ長が長いほうが、タップ長が短い場合に比べてノイズ成分の再現精度が高いことによる。ノイズ成分の再現精度が高いほど、誤差信号をよりゼロに近づけることができ、これによってノイズ成分の抑圧性能が向上する。

第１実施形態では、ＥＣ制御部２１３は、状況が変化した場合、タップ長を一時的に短くする。これによって、誤差信号が収束に向かう速度が一時的に早められることで、タップ長を変更しない場合に比べてノイズ成分の抑圧性能の低下を抑制することができる。

また、ＥＣ制御部２１３は、タップ長を短くしてからの経過時間が所定のしきい値を越えたとき、タップ長を短くする前の長さに戻す。これによって、タップ長を短いまま運用した場合に比べて誤差信号をよりゼロに近づけることができ、ノイズ成分の抑圧性能を向上させることができる。

なお、タップ長を短くする方法は特定の方法に限定されない。一例では、高次側の所定数のタップが不使用とされ、低次側に残ったタップだけがフィルタ係数の更新の対象とされる。ＥＣ制御部２１３は、タップ長を短くしたとき、各タップのフィルタ係数をリセットしてもよいし、各タップのフィルタ係数をリセットしなくてもよい。

タップ長を元に戻す方法、つまりタップ長を長くする方法は、特定の方法に限定されない。一例では、タップ長を短くした際に不使用とされた高次側の所定数のタップが、使用可能とされる。つまり、高次側の所定数のタップが、フィルタ係数の更新の対象のタップとして追加される。ＥＣ制御部２１３は、タップ長を長くしたとき、追加された高次側の所定数のタップのフィルタ係数の初期値をゼロとすることができる。なお、追加された高次側の所定数のタップのフィルタ係数の初期値はこれに限定されない。

図４に説明を戻す。
音声処理装置２０は、状況変化を検知することができる状況変化検知部２３０を備える。状況変化検知部２３０には、外部から状況変化通知信号が入力される。状況変化通知信号は、状況変化を通知する信号である。

一例では、状況変化通知信号は、スピーカ５０が音声の出力を開始したことを通知する信号である。状況変化通知信号は、例えば電子機器４０から入力される。つまり、電子機器４０は、スピーカ入力信号によってスピーカ５０に音声の出力を開始させるとき、状況変化通知信号によって音声処理装置２０に状態の変化を通知する。なお、スピーカ５０に状況変化通知信号を送る装置は電子機器４０に限定されない。

別の例では、状況変化通知信号は、システムのリセットを状況変化として通知する信号である。ここでいうシステムは、音声処理システム５である。つまり、音声処理装置２０にとって、リセットは、音声処理装置２０のリセットである。また、ここでいうリセットは、システムの起動を含む。このような状況変化通知信号は、電子機器４０から音声処理装置２０に入力されてもよいし、電子機器４０以外の装置から音声処理装置２０に入力されてもよい。状況変化通知信号は、車両１０の制御装置から入力されてもよい。

状況変化検知部２３０は、状況変化通知信号に基づき、状況変化を検知する。状況変化検知部２３０は、状況変化を検知したとき、その旨を各ＥＣ処理部２１０のＥＣ制御部２１３に通知する。

ＥＣ処理部２１０－１では、状況変化検知部２３０が状況変化を検知すると、その通知を受けたＥＣ制御部２１３は、適応フィルタ２１１のタップ長を短くする。そして、ＥＣ制御部２１３は、適応フィルタ２１１のタップ長を短くしてからの経過時間がしきい値を越えたとき、適応フィルタ２１１のタップ長を、短くする前の長さに戻す。

なお、経過時間としきい値との比較に基づく判定方法はこれに限定されない。ＥＣ制御部２１３は、適応フィルタ２１１のタップ長を短くしてからの経過時間がしきい値に達したとき、適応フィルタ２１１のタップ長を、短くする前の長さに戻してもよい。

図６は、第１実施形態におけるＥＣ処理部２１０の動作を示すフローチャートである。なお、４つのＥＣ処理部２１０は、音声信号の入力元のマイクＭＣが異なる点を除き、同一の動作を行う。ここでは代表として、ＥＣ処理部２１０－１の動作について説明し、ＥＣ処理部２１０－２～ＥＣ処理部２１０－４の動作の説明を省略する。

また、短くする前の適応フィルタ２１１のタップ長の値をＬ１と表記する。短くした後の適応フィルタ２１１のタップ長の値をＬ２と表記する。但し、Ｌ２はＬ１よりも小さい。また、適応フィルタ２１１のタップ長をＬ２からＬ１に戻すタイミングの判断に使用されるしきい値、つまりタップ長を短くしてからの経過時間と比較されるしきい値を、第１しきい値と表記する。

まず、ＥＣ処理部２１０は、マイクＭＣ１からの音声信号を取得する（Ｓ１０１）。続いて、ＥＣ制御部２１３は、状況変化が検知されたか否かを判定する（Ｓ１０２）。つまり、ＥＣ制御部２１３は、状況変化検知部２３０が、スピーカ５０が音声の出力を開始したこと、またはシステムのリセット、などを検知したか否かを、状況変化検知部２３０からの通知の有無に基づいて判定する。

ＥＣ制御部２１３は、状況変化が検知されていない場合（Ｓ１０２：Ｎｏ）、最後に状況変化が検知されてからの経過時間が第１しきい値を越えているか否かを判定する（Ｓ１０３）。なお、起動してから１度も状況変化が検知されていない場合には、Ｓ１０３の判定処理においてはＹｅｓと判定される。

最後に状況変化が検知されてからの経過時間が第１しきい値を越えている場合（Ｓ１０３：Ｙｅｓ）、または起動してから１度も状況変化が検知されていない場合、ＥＣ制御部２１３は、適応フィルタ２１１のタップ長をＬ１とし、ＥＣ推定部２１２は、タップ長Ｌ１の適応フィルタ２１１を使用して減算信号を生成する（Ｓ１０４）。具体的には、ＥＣ推定部２１２は、参照信号、つまりスピーカ入力信号にタップ長Ｌ１の適応フィルタ２１１をかけて、これによって得られた信号を、減算信号として出力する。

Ｓ１０４に続いて、ＥＣ加算部２１４は、Ｓ１０１において取得した音声信号からＳ１０４においてＥＣ推定部２１２が生成した減算信号を減算することによって出力信号を生成し、出力する（Ｓ１０５）。この出力信号は、各ＣＴＣ処理部２２０に共通に入力される。

そして、ＥＣ制御部２１３は、Ｓ１０５においてＥＣ加算部２１４が出力した出力信号に基づいて、タップ長Ｌ１の適応フィルタ２１１のフィルタ係数の更新を行い（Ｓ１０６）、制御がＳ１０１に遷移する。

状況変化が検知された場合（Ｓ１０２：Ｙｅｓ）、または最後に状況変化が検知されてからの経過時間が第１しきい値を越えていない場合（Ｓ１０３：Ｎｏ）、ＥＣ制御部２１３は、適応フィルタ２１１のタップ長をＬ２とし、ＥＣ推定部２１２は、タップ長Ｌ２の適応フィルタ２１１を使用して減算信号を生成する（Ｓ１０７）。

そして、ＥＣ加算部２１４は、Ｓ１０１において取得した音声信号からＳ１０７においてＥＣ推定部２１２が生成した減算信号を減算することによって出力信号を生成し、出力する（Ｓ１０８）。この出力信号は、各ＣＴＣ処理部２２０に共通に入力される。

そして、ＥＣ制御部２１３は、Ｓ１０８においてＥＣ加算部２１４が出力した出力信号に基づいて、タップ長Ｌ２の適応フィルタ２１１のフィルタ係数の更新を行い（Ｓ１０９）、制御がＳ１０１に遷移する。

このように、スピーカ５０が音声の出力を開始したことまたはシステムがリセットされたことなどの状況変化が検知されたとき（Ｓ１０２：Ｙｅｓ）、ＥＣ制御部２１３によってタップ長がＬ１からＬ２に短くされ、Ｓ１０７～Ｓ１０９において、タップ長Ｌ２の適応フィルタ２１１を用いたノイズ成分の抑圧とフィルタ係数の更新とが実施される。状況変化が検知されてからの経過時間が第１しきい値を越えたとき（Ｓ１０３：Ｙｅｓ）、ＥＣ制御部２１３によってタップ長がＬ２からＬ１に長くされ、Ｓ１０４～Ｓ１０６において、タップ長Ｌ１の適応フィルタ２１１を用いたノイズ成分の抑圧と適応フィルタ２１１のフィルタ係数の更新とが実施される。

なお、第１実施形態では、各ＥＣ処理部２１０からの出力信号は、全てのＣＴＣ処理部２２０に共通に入力されることとした。各ＥＣ処理部２１０からの出力信号の入力先はこれに限定されない。各ＥＣ処理部２１０からの出力信号は、一部のＣＴＣ処理部２２０に入力されてもよい。また、音声処理装置２０から全てのＣＴＣ処理部２２０を廃し、各ＥＣ処理部２１０からの出力信号は音声認識エンジン３０に入力されてもよい。

また、第１実施形態においては、マイクＭＣｉは、第１収音装置に相当する。マイクＭＣｉからの音声信号は、第１収音装置が取得した第３信号に相当する。なお、第３信号は、マイクＭＣｉから出力された後に任意の処理、例えばビームフォーミング処理、を経たあとの信号であってもよい。状況変化通知信号は、第４信号に相当する。スピーカ入力信号は、第１信号に相当する。第１しきい値は、第１経過時間に相当する。

また、第１実施形態においては、マイクＭＣｉに対応するＥＣ処理部２１０－ｉにおいて、ＥＣ推定部２１２は第１推定部に相当し、適応フィルタ２１１は第１適応フィルタに相当し、ＥＣ加算部２１４は第１加算部に相当し、ＥＣ制御部２１３は第１制御部に相当する。状況変化検知部２３０は、検知部に相当する。適応フィルタ２１１に入力される信号も、第１信号に相当する。適応フィルタ２１１から出力される信号は、第２信号に相当する。ＥＣ推定部２１２から出力される信号は、第１減算信号に相当する。短くされる前の適応フィルタ２１１のタップ長、即ち例えばＬ１は、第１タップ長に相当する。短くされた後の適応フィルタ２１１のタップ長、即ち例えばＬ２は、第２タップ長に相当する。短くされ、その後、長くされた適応フィルタ２１１のタップ長は、第３タップ長に相当する。なお、以上の説明では、第１タップ長と第３タップ長とは等しいとされた。つまり、第３タップ長はＬ１とされた。第１タップ長と第３タップ長とは等しくなくてもよい。例えば、適応フィルタ２１１のタップ長は、第２タップ長から段階的に第１タップ長に戻されてもよい。そのような場合において、第２タップ長から第１タップ長に戻る過渡状態におけるタップ長は、第１タップ長と異なる第３タップ長に相当する。

以上述べたように、第１実施形態によれば、音声処理装置２０では、ＥＣ処理部２１０－ｉのＥＣ推定部２１２は、入力されたスピーカ入力信号に基づいた信号を出力する適応フィルタ２１１を備え、適応フィルタ２１１の出力信号に基づいた減算信号を生成する。ＥＣ処理部２１０－ｉのＥＣ加算部２１４は、マイクＭＣｉが取得した音声信号からＥＣ推定部２１２によって生成された減算信号を減算する。状況変化検知部２３０は、外部から入力された状況変化通知信号に基づいて状況変化を検知する。ＥＣ処理部２１０－ｉのＥＣ制御部２１３は、状況変化検知部２３０が状況変化を検知したことをトリガとして適応フィルタ２１１のタップ長を短くする。

これによって、状況が変化したとしても適応フィルタ２１１のタップ長を長い状態で維持した場合に比べ、状況が変化した場合のノイズ成分の抑圧性能の低下を低減することが可能となる。

なお、適応フィルタ２１１のタップ長を短くすると、不使用とされたタップのフィルタ係数の更新が不要になる分だけＤＳＰ２１の処理量が減る。つまり、タップ長を短くすることによる処理量の増加はない。

よって、第１実施形態によれば、状況が変化した場合のノイズ成分の抑圧性能の低下を、処理量を増加させることなく低減することが可能となる。

なお、適応フィルタ２１１のタップ長を短くするか否かの判断は、外部からの信号に基づく。

これに対し、例えば特許文献１の技術によれば、適応フィルタを短くする判断のために、フィルタ係数の絶対値を探す処理が追加で必要となる。また、特許文献２の技術によれば、適応フィルタを短くする判断のために、フィルタ係数の収束度を求める処理が追加で必要となる。これらの技術において追加で必要になる処理は、第１実施形態において適応フィルタ２１１のタップ長を短くするか否かの判断に要する処理に比べて、多くの処理量を要すると考えられる。

つまり、第１実施形態によれば、適応フィルタ２１１のタップ長を短くするか否かの判断に要する処理量が、特許文献１および特許文献２の技術に比べて少なくて済む。

また、第１実施形態によれば、ＥＣ処理部２１０－ｉのＥＣ制御部２１３は、適応フィルタ２１１のタップ長を短くしてからの経過時間が第１しきい値を越えたとき、適応フィルタ２１１のタップ長を長くする。

よって、適応フィルタ２１１のフィルタ係数が再収束に近づいた際のノイズ成分の抑圧性能を、適応フィルタ２１１のタップ長を短くしたまま維持された場合に比べて向上させることができる。

なお、第１実施形態では、ＥＣ処理部２１０－ｉのＥＣ推定部２１２は、スピーカ入力信号に基づいてノイズ成分、つまりスピーカ音声の成分を推定する。

よって、マイクＭＣｉからの音声信号に混入するスピーカ音声の成分を抑圧することが可能になる。

また、第１実施形態では、スピーカ入力信号に基づいた信号を状況変化通知信号とすることができる。より具体的には、状況変化通知信号は、スピーカ５０が音声の出力を開始したことを通知する信号である。つまり、状況変化は、スピーカ５０による音声出力の開始である。

よって、スピーカ５０による音声出力が開始した場合のノイズ成分の抑圧性能の低下を、処理量を増加させることなく低減することが可能となる。

また、第１実施形態では、音声処理装置２０のリセットに関する信号を状況変化通知信号とすることができる。より具体的には、状況変化通知信号は、音声処理装置２０のリセットを通知する信号である。つまり、状況変化は、音声処理装置２０がリセットされることである。

音声処理装置２０がリセットされると、適応フィルタ２１１のフィルタ係数がリセットされる。すると、音楽の再生が開始したときと同様に、フィルタ係数が収束するまでの間、ノイズ成分の抑圧性能が低下する。

適応フィルタ２１１のフィルタ係数がリセットされたときにタップ長が短くされることで、ノイズ成分の抑圧性能の低下を、処理量を増加させることなく低減することが可能となる。

（変形例１）
第１実施形態の別の一例である変形例１について説明する。
一般に、ＤＳＰの処理量は、ワーストケースで所定の上限値を越えないことが要求される。換言すると、設計者は、処理量が上限値を越えない限り、ＤＳＰに任意の処理を実行させることができる。

前述したように、ＥＣ処理部２１０において、ＥＣ制御部２１３が適応フィルタ２１１のタップ長を短くすると、一部のタップにかかるフィルタ係数の更新が不要になる分だけ必要な処理量が減る。換言すると、ＤＳＰ２１の処理能力に上限値までの余裕ができる。

変形例１では、ＥＣ制御部２１３は、適応フィルタ２１１のタップ長を短くすることで生じた、余った処理能力の範囲で、適応フィルタ２１１のフィルタ係数の更新頻度を、適応フィルタ２１１のタップ長を短くする前よりも高くする。つまり、ＥＣ制御部２１３は、状況変化が検知されると、適応フィルタ２１１のタップ長を短くするとともに適応フィルタ２１１のフィルタ係数の更新頻度を高くする。

図７は、変形例１におけるＥＣ処理部２１０の動作を示すフローチャートである。なお、４つのＥＣ処理部２１０は、音声信号の入力元のマイクＭＣが異なる点を除き、同一の動作を行う。ここでは代表として、ＥＣ処理部２１０－１の動作について説明し、ＥＣ処理部２１０－２～ＥＣ処理部２１０－４の動作の説明を省略する。

なお、図７の説明では、図６において説明した処理と同じ処理については、図６に示したステップ番号と同じ番号を付して、簡略的に説明するか、または説明を省略する。

また、図７では、短くする前の適応フィルタ２１１のタップ長の値をＬ１と表記する。短くした後の適応フィルタ２１１のタップ長の値をＬ２と表記する。但し、Ｌ２はＬ１よりも小さい。また、適応フィルタ２１１のタップ長をＬ２からＬ１に戻すタイミングの判断に使用されるしきい値、つまりタップ長を短くしてからの経過時間と比較されるしきい値を、第１しきい値と表記する。

また、高くする前の適応フィルタ２１１のフィルタ係数の更新頻度の値をＦ１と表記する。高くした後の適応フィルタ２１１のフィルタ係数の更新頻度の値をＦ２と表記する。但し、Ｆ２はＦ１よりも大きい。適応フィルタ２１１のフィルタ係数の更新頻度を高くすると、その分だけ必要な処理量が増加する。適応フィルタ２１１のフィルタ係数の更新頻度を高くすることによる必要な処理量の増加分が適応フィルタ２１１のタップ長を短くすることによる必要な処理量の減少分を越えないように、タップ長Ｌ１と更新頻度Ｆ１との対、およびタップ長Ｌ２と更新頻度Ｆ２との対がそれぞれ決定されている。

図７から読み取れるように、変形例１におけるＥＣ処理部２１０－１の動作は、Ｓ１０６に替えてＳ２０１が実行され、Ｓ１０９に替えてＳ２０２が実行される点で、図６に示した一連の処理と異なる。

Ｓ２０１では、つまりタップ長Ｌ１の適応フィルタ２１１に基づいて出力信号が出力された後では、ＥＣ制御部２１３は、タップ長Ｌ１の適応フィルタ２１１を更新頻度Ｆ１で更新する。

Ｓ２０２では、つまりタップ長Ｌ２の適応フィルタ２１１に基づいて出力信号が出力された後では、ＥＣ制御部２１３は、タップ長Ｌ２の適応フィルタ２１１を更新頻度Ｆ２で更新する。

このように、変形例１によれば、各ＥＣ処理部２１０のＥＣ制御部２１３は、適応フィルタ２１１のタップ長を短くするとき、適応フィルタ２１１のフィルタ係数の更新頻度を高くする。

適応フィルタ２１１のフィルタ係数の更新頻度を高くすると、誤差信号およびフィルタ係数の収束速度が向上する。つまり、適応フィルタ２１１のタップ長を短くするとともに適応フィルタ２１１のフィルタ係数の更新頻度を高くすることで、ノイズ成分の抑圧性能をより早く回復させることができる。

したがって、変形例１によれば、状況が変化した場合のノイズ成分の抑圧性能の低下を、さらに低減することができる。

また、変形例１によれば、適応フィルタ２１１のタップ長を短くされることで生じる余った処理能力の範囲で適応フィルタ２１１のフィルタ係数の更新頻度が高くされる。よって、適応フィルタ２１１のフィルタ係数の更新頻度が高くすることで処理量が上限値を越えることを防止することができる。

つまり、変形例１においても、状況が変化した場合のノイズ成分の抑圧性能の低下を、処理量を増加させることなく低減することが可能である。

また、変形例１によれば、各ＥＣ処理部２１０のＥＣ制御部２１３は、適応フィルタ２１１のタップ長を長くするとき、適応フィルタ２１１のフィルタ係数の更新頻度を低くする。

適応フィルタ２１１のフィルタ係数が再収束に近づいた際のノイズ成分の抑圧性能を、適応フィルタ２１１のタップ長を短くかつ適応フィルタ２１１のフィルタ係数の更新頻度を高く維持された場合に比べて向上させることができる。

なお、変形例１においては、高くされる前の適応フィルタ２１１のフィルタ係数の更新頻度、即ち例えばＦ１は、第１頻度に相当する。高くされた後の適応フィルタ２１１のフィルタ係数の更新頻度、即ち例えばＦ２は、第２頻度に相当する。また、高くされ、その後低くされた後の適応フィルタ２１１のフィルタ係数の更新頻度は、第３頻度に相当する。なお、以上の説明では、第１頻度と第３頻度とは等しいとされた。つまり、第３頻度はＦ１であることとされた。第３頻度は、第１頻度と等しくなくてもよい。適応フィルタ２１１のフィルタ係数の更新頻度は、第２頻度から、第１頻度よりも低い値にいったん変更され、その後、第１頻度に変更されてもよい。そのような場合において、第１頻度よりも低い値は、第１頻度と異なる第３頻度に相当する。

（第２実施形態）
第２実施形態では、適応フィルタのタップ長の調整がＣＴＣ処理部において実行される例について説明する。なお、第２実施形態では、第１実施形態と異なる事項について説明し、第１実施形態と同じ事項については簡略的に説明するかまたは説明を省略する。

なお、第２実施形態の音声処理装置を、音声処理装置２０Ａと表記する。第２実施形態のＥＣ処理部を、ＥＣ処理部２１０Ａと表記する。第２実施形態のＣＴＣ処理部を、ＣＴＣ処理部２２０Ａと表記する。音声処理装置２０Ａは、ＥＣ処理部２１０ＡおよびＣＴＣ処理部２２０ＡをマイクＭＣ毎に備える。マイクＭＣｉに対応したＥＣ処理部２１０ＡをＥＣ処理部２１０Ａ－ｉと表記し、マイクＭＣｉに対応したＣＴＣ処理部２２０ＡをＣＴＣ処理部２２０Ａ－ｉと表記する。

図８は、第２実施形態における音声処理装置２０の構成の一例を示す図である。４つのマイクＭＣ、４つのＥＣ処理部２１０Ａ、４つのＣＴＣ処理部２２０Ａ、および音声認識エンジン３０の間の各種信号の送受信の関係は、第１実施形態における、４つのマイクＭＣ、４つのＥＣ処理部２１０、４つのＣＴＣ処理部２２０、および音声認識エンジン３０の間の各種信号の送受信の関係と同じである。図８では、４つのＣＴＣ処理部２２０ＡのうちのＣＴＣ処理部２２０Ａ－１が図示されており、ＣＴＣ処理部２２０Ａ－２、ＣＴＣ処理部２２０Ａ－３、およびＣＴＣ処理部２２０Ａ－４の図示が省略されている。

また、音声処理装置２０Ａは、第１実施形態における状況変化検知部２３０に替えて、または状況変化検知部２３０に加えて、状況変化検知部２４０を備える。

各ＥＣ処理部２１０Ａは、エコーキャンセル処理を実行する。ＥＣ処理部２１０Ａ－ｉには、マイクＭＣｉからの音声信号と、スピーカ入力信号と、が入力される。ＥＣ処理部２１０Ａ－ｉは、スピーカ入力信号を参照信号として用いることによって、マイクＭＣｉからの音声信号に含まれるスピーカ音声の成分を抑圧する。なお、スピーカ入力信号については図示が省略されている。

各ＥＣ処理部２１０Ａは、第１実施形態のＥＣ処理部２１０と同一の構成を備えていてもよいし、第１実施形態のＥＣ処理部２１０と異なる構成を備えていてもよい。

状況変化検知部２４０には、全てのマイクＭＣからの音声信号が入力される。なお、各マイクＭＣがマイクアレイである場合、各マイクＭＣからの音声信号は、ビームフォーミング処理を経た後に状況変化検知部２４０に入力されてもよい。状況変化検知部２４０は、各マイクＭＣからの音声信号に基づき、話者位置の切り替わりを状況変化として検知する。状況変化検知部２４０は、話者位置の切り替わりを検知すると、状況変化を検知した旨を各ＣＴＣ処理部２２０Ａに通知する。話者位置の切り替わりの検知方法の詳細については後述する。

各ＣＴＣ処理部２２０Ａは、クロストークキャンセル処理を実行する。ＣＴＣ処理部２２０Ａ－ｉには、全てのマイクＭＣからの音声信号がエコーキャンセル処理を経た後に入力される。ＣＴＣ処理部２２０Ａ－ｉは、入力された音声信号のうちのマイクＭＣｉ以外のマイクＭＣからの音声信号を参照信号として用いることによって、乗員ｈｍｉ以外の乗員ｈｍが発話した音声の成分を抑圧する。各ＣＴＣ処理部２２０Ａは、クロストークキャンセル処理後の音声信号を音声認識エンジン３０に出力する。

各ＣＴＣ処理部２２０Ａは、タップ長が変更可能に構成された１以上の適応フィルタ２２１を備えており、状況が変化した場合に、１以上の適応フィルタ２２１のタップ長を短くする。第２実施形態では、状況変化とは、話者位置が切り替わることである。つまり、各ＣＴＣ処理部２２０Ａは、話者位置の切り替わりが検知された旨が状況変化検知部２４０によって通知されると、タップ長を短くする。

話者位置が切り替わると、各乗員ｈｍが発話した音声の成分のバランスが大きく変化する。その結果、各ＣＴＣ処理部２２０Ａにおいては、ノイズ成分の推定精度が低下し、誤差信号が増加してノイズ成分の抑圧性能が低下する。第２実施形態では、話者位置の切り替わりが検知されたときに、各ＣＴＣ処理部２２０Ａにおいて、１以上の適応フィルタ２２１のタップ長が短くされる。これによって、ノイズ成分の抑圧性能の低下を低減する。

以下に、ＣＴＣ処理部２２０Ａの具体的な構成を説明する。なお、４つのＣＴＣ処理部２２０Ａは、４つのマイクＭＣからの音声信号のうちの参照信号として使用される音声信号が異なる点を除き、同一の構成を備えている。ここでは、マイクＭＣ２～ＭＣ４からの音声信号を参照信号として使用するＣＴＣ処理部２２０Ａ－１を４つのＣＴＣ処理部２２０Ａの代表として具体的な構成を説明し、ＣＴＣ処理部２２０Ａ－２～ＣＴＣ処理部２２０Ａ－４の具体的な構成の説明を省略する。

ＣＴＣ処理部２２０Ａ－１は、３つの適応フィルタ２２１を備えるＣＴＣ推定部２２２と、当該３つの適応フィルタ２２１を制御するＣＴＣ制御部２２３と、ＣＴＣ加算部２２４と、を備える。

ＣＴＣ推定部２２２には、３つのマイクＭＣ２～ＭＣ４からの音声信号が、それぞれＥＣ処理部２１０Ａによるエコーキャンセル処理を経た後に、参照信号として入力される。ＣＴＣ推定部２２２は、ノイズ成分、つまり乗員ｈｍ１以外の乗員ｈｍが発話した音声の成分を、３つの適応フィルタ２２１を用いて推定する。

３つの適応フィルタ２２１は、適応フィルタ２２１－２、適応フィルタ２２１－３、および適応フィルタ２２１－４である。３つの適応フィルタ２２１は、例えばＲＡＭ２２に配置される。ＣＴＣ推定部２２２は、それぞれ参照信号として入力された３つの音声信号のうちのマイクＭＣ２からの音声信号に適応フィルタ２２１－２をかけ、これによって得られた信号を、乗員ｈｍ２が発話した音声の推定した成分を表す信号とする。また、ＣＴＣ推定部２２２は、それぞれ参照信号として入力された３つの音声信号のうちのマイクＭＣ３からの音声信号に適応フィルタ２２１－３をかけ、これによって得られた信号を、乗員ｈｍ３が発話した音声の推定した成分を表す信号とする。また、ＣＴＣ推定部２２２は、それぞれ参照信号として入力された３つの音声信号のうちのマイクＭＣ４からの音声信号に適応フィルタ２２１－４をかけ、これによって得られた信号を、乗員ｈｍ４が発話した音声の推定した成分を表す信号とする。ＣＴＣ推定部２２２は、３つの適応フィルタ２２１を用いて得られた３つの信号を合算した信号を、推定したノイズ成分を表す信号として出力する。ＣＴＣ推定部２２２が出力する信号を、後に減算に使用される信号という意味で、減算信号と表記する。

なお、３つの適応フィルタ２２１のそれぞれは、第１実施形態のＥＣ処理部２１０が備える適応フィルタ２１１と同様、ＦＩＲフィルタであってもよいし、他の種類の適応フィルタであってもよい。

ＣＴＣ加算部２２４は、マイクＭＣ１からの音声信号から、ＣＴＣ推定部２２２によって推定されたノイズ成分の表す信号、つまり減算信号を減算する。これによって、乗員ｈｍ１以外の乗員ｈｍが発話した音声の成分が抑圧され、その結果、理想的には乗員ｈｍ１が発話した音声の成分のみで構成される音声信号がＣＴＣ加算部２２４によって出力される。ＣＴＣ加算部２２４からの出力信号は、音声認識エンジン３０に入力される。

ＣＴＣ制御部２２３は、ＣＴＣ加算部２２４からの出力信号に基づき、３つの適応フィルタ２２１のフィルタ係数の更新を行う。ＣＴＣ制御部２２３は、誤差信号が出来るだけ小さくなるようにフィルタ係数を繰り返し更新する。誤差信号とは、取得目的の音声、つまり乗員ｈｍ１が発話した音声、の成分と、出力信号と、の差である。

また、ＣＴＣ制御部２２３は、状況が変化した場合、つまり状況変化検知部２４０から状況変化が通知された場合、３つの適応フィルタ２２１のタップ長を一時的に短くする。

また、ＣＴＣ制御部２２３は、３つの適応フィルタ２２１のタップ長を短くしてからの経過時間が所定のしきい値を越えたとき、３つの適応フィルタ２２１のタップ長を短くする前の長さに戻す。

なお、経過時間としきい値との比較に基づく判定方法はこれに限定されない。ＣＴＣ制御部２２３は、３つの適応フィルタ２２１のタップ長を短くしてからの経過時間が所定のしきい値に達したとき、３つの適応フィルタ２２１のタップ長を短くする前の長さに戻してもよい。

タップ長を短くする方法およびタップ長を元に戻す方法は、第１実施形態と同様、特定の方法に限定されない。

図９は、第２実施形態における状況変化検知部２４０の動作を示すフローチャートである。

まず、状況変化検知部２４０は、４つのマイクＭＣから入力された４つの音声信号のそれぞれに対し、レベルが第２しきい値を越えているか否かを判定する（Ｓ３０１）。第２しきい値は、乗員ｈｍが発話しているか否かを判定するためのしきい値である。つまり、マイクＭＣｉからの音声信号のレベルが第２しきい値を越えている場合、乗員ｈｍｉは発話していると推定される。マイクＭＣｉからの音声信号のレベルが第２しきい値を越えてない場合、乗員ｈｍｉは発話していない推定される。第２しきい値としては、マイクＭＣ毎に異なった値が使用されてもよいし、共通の値が使用されてもよい。

なお、音声信号のレベルと第２しきい値との比較に基づく判定方法はこれに限定されない。状況変化検知部２４０は、音声信号のレベルが第２しきい値に達しているか否かを判定してもよい。

レベルが第２しきい値を越えていない音声信号があれば（Ｓ３０１：Ｎｏ）、状況変化検知部２４０は、対応するフラグを０にする（Ｓ３０２）。レベルが第２しきい値を越えている音声信号があれば（Ｓ３０１：Ｙｅｓ）、状況変化検知部２４０は、対応するフラグを１にする（Ｓ３０３）。

つまり、状況変化検知部２４０は、４つのマイクＭＣに対応する４ビットのフラグを集めたフラグ群を管理している。マイクＭＣｉからの音声信号のレベルが第２しきい値を越えていない場合には、状況変化検知部２４０は、フラグ群のうちのマイクＭＣｉに対応したビットを０にする。マイクＭＣｉからの音声信号のレベルが第２しきい値を越えている場合には、状況変化検知部２４０は、フラグ群のうちのマイクＭＣｉに対応したビットを１にする。これによって、フラグ群には、何れの乗員ｈｍが発話中であるかをリアルタイムに示した値がセットされる。なお、フラグ群は、例えばＲＡＭ２２に配置され得る。

なお、第２しきい値と比較される対象は、音声信号のレベルの瞬間値であってもよいし、音声信号のレベルに対して平均化など所定の処理が実行された後の信号であってもよい。音声信号のレベルの所定期間内の最大値が第２しきい値と比較されてもよい。

各マイクＭＣからの音声信号についてＳ３０２またはＳ３０３の処理を実行した後、状況変化検知部２４０は、話者位置が切り替わったか否かをフラグ群に基づいて判定する（Ｓ３０４）。

例えば、状況変化検知部２４０は、１サイクル前のフラグ群の値のパターンを記憶し、１サイクル前のフラグ群の値のパターンと、最新のフラグ群の値のパターンと、を比較する。そして、状況変化検知部２４０は、両者のパターンに相違があれば、話者位置が切り替わったと判定し、両者のパターンに相違がなければ、話者位置が切り替わっていないと判定することができる。

マイクＭＣｉに対応するフラグをｆｇｉと表記し、フラグ群の値のパターンを（ｆｇ１，ｆｇ２，ｆｇ３，ｆｇ４）と表記する。例えば、フラグ群の値のパターンが（１，０，０，０）であることは、乗員ｈｍ１のみが発話していることを意味する。フラグ群の値のパターンが（１，０，０，０）から（１，１，０，０）に変化した場合、乗員ｈｍ２が新たに発話を開始した推定されるため、状況変化検知部２４０は、話者位置が切り替わったと判定する。

なお、以上に述べた話者位置の切り替わりの判定方法は一例である。話者位置の切り替わりの判定方法はこれに限定されない。例えば、上記の具体例では、話者が乗員ｈｍ１に乗員ｈｍ２が追加されたことで、話者位置が切り替わったと判定された。しかしながら、乗員ｈｍ１は発話を継続している。そのような場合は、話者位置が切り替わっていないと判定されてもよい。このように、たとえフラグ群の値のパターンに変化があったとしても、話者位置が切り替わっていないと見なされる場合があってもよい。

状況変化検知部２４０は、話者位置が切り替わったと判定した場合（Ｓ３０４：Ｙｅｓ）、状況変化を検知した旨を各ＣＴＣ処理部２２０ＡのＣＴＣ制御部２２３に通知する（Ｓ３０５）。状況変化検知部２４０は、話者位置が切り替わっていないと判定した場合（Ｓ３０４：Ｎｏ）、Ｓ３０５の処理をスキップする。

状況変化を検知した旨の通知のデータ構造は任意に構成され得る。一例では、状況変化検知部２４０は、状況変化を検知した旨を示す１ビットの信号を各ＣＴＣ処理部２２０ＡのＣＴＣ制御部２２３に送信してもよい。別の例では、状況変化検知部２４０は、最新のフラグ群を示す４ビットの信号を各ＣＴＣ処理部２２０ＡのＣＴＣ制御部２２３に送信することによって、状況変化を検知した旨を通知してもよい。

ここでは一例として、状況変化検知部２４０は、最新のフラグ群を示す４ビットの信号を各ＣＴＣ処理部２２０ＡのＣＴＣ制御部２２３に送信することによって、状況変化を検知した旨を通知することとする。つまり、各ＣＴＣ処理部２２０ＡのＣＴＣ制御部２２３は、４ビットの信号を受信すると、状況変化が検知されたことを認識する。

Ｓ３０４の判定処理においてＮｏと判定された場合、またはＳ３０５の処理の後、制御がＳ３０１に遷移する。

Ｓ３０１からＳ３０４またはＳ３０５までのループ処理は、所定の制御周期で実行される。当該ループ処理ができるだけ短い周期で実行されることで、状況変化検知部２４０は、話者位置の切り替わりをリアルタイムに検知して通知することができる。

図１０は、第２実施形態におけるＣＴＣ処理部２２０Ａの動作を示すフローチャートである。なお、４つのＣＴＣ処理部２２０Ａは、抑圧対象の成分が異なる点を除き、同一の動作を行う。ここでは４つのＣＴＣ処理部２２０Ａの代表としてＣＴＣ処理部２２０Ａ－１の動作について説明し、ＣＴＣ処理部２２０Ａ－２～ＣＴＣ処理部２２０Ａ－４の動作の説明を省略する。

また、短くする前の３つの適応フィルタ２２１のタップ長の値をＬ３と表記する。短くした後の３つの適応フィルタ２２１のタップ長の値をＬ４と表記する。但し、Ｌ４はＬ３よりも小さい。また、３つの適応フィルタ２２１のタップ長をＬ４からＬ３に戻すタイミングの判断に使用されるしきい値、つまりタップ長を短くしてからの経過時間と比較されるしきい値を、第３しきい値と表記する。

まず、ＣＴＣ処理部２２０Ａ－１は、各マイクＭＣからの音声信号を取得する（Ｓ４０１）。続いて、ＣＴＣ制御部２２３は、状況変化が検知されたか否かを判定する（Ｓ４０２）。つまり、ＣＴＣ制御部２２３は、状況変化検知部２４０が話者位置の切り替わりを検知したか否かを、状況変化検知部２４０からの通知の有無に基づいて判定する。

ＣＴＣ制御部２２３は、状況変化が検知されていない場合（Ｓ４０２：Ｎｏ）、最後に状況変化が検知されてからの経過時間が第３しきい値を越えているか否かを判定する（Ｓ４０３）。なお、起動してから１度も状況変化が検知されていない場合には、Ｓ４０３の判定処理においてはＹｅｓと判定される。

最後に状況変化が検知されてからの経過時間が第３しきい値を越えている場合（Ｓ４０３：Ｙｅｓ）、ＣＴＣ制御部２２３は、３つの適応フィルタ２２１のタップ長をＬ３とし、ＣＴＣ推定部２２２は、タップ長Ｌ３の３つの適応フィルタ２２１を使用して減算信号を生成する（Ｓ４０４）。具体的には、ＣＴＣ推定部２２２は、マイクＭＣ２からの音声信号にタップ長Ｌ３の適応フィルタ２２１－２を、マイクＭＣ３からの音声信号にタップ長Ｌ３の適応フィルタ２２１－３を、マイクＭＣ４からの音声信号にタップ長Ｌ３の適応フィルタ２２１－４をそれぞれかけて、得られた３つの信号を合算することで減算信号を生成する。

Ｓ４０４に続いて、ＣＴＣ加算部２２４は、Ｓ４０１において取得した音声信号からＳ４０４においてＣＴＣ推定部２２２が生成した減算信号を減算することによって出力信号を生成し、出力する（Ｓ４０５）。この出力信号は、音声認識エンジン３０に入力される。

Ｓ４０５に続いて、ＣＴＣ制御部２２３は、Ｓ４０５においてＣＴＣ加算部２２４が出力した出力信号に基づいて、タップ長Ｌ３の３つの適応フィルタ２２１のフィルタ係数の更新を行い（Ｓ４０６）、制御がＳ４０１に遷移する。

状況変化が検知された場合（Ｓ４０２：Ｙｅｓ）、または最後に状況変化が検知されてからの経過時間が第３しきい値を越えていない場合（Ｓ４０３：Ｎｏ）、ＣＴＣ制御部２２３は、適応フィルタ２２１のタップ長をＬ４とし、ＣＴＣ推定部２２２は、タップ長Ｌ４の３つの適応フィルタ２２１を使用して減算信号を生成する（Ｓ４０７）。Ｓ４０７において減算信号を生成する手順は、３つの適応フィルタ２２１のタップ長が異なる点を除き、Ｓ４０４と同じである。

Ｓ４０７に続いて、ＣＴＣ加算部２２４は、Ｓ４０１において取得した音声信号からＳ４０７においてＣＴＣ推定部２２２が生成した減算信号を減算することによって出力信号を生成し、出力する（Ｓ４０８）。この出力信号は、音声認識エンジン３０に入力される。

そして、ＣＴＣ制御部２２３は、Ｓ４０８においてＣＴＣ加算部２２４が出力した出力信号に基づいて、タップ長Ｌ４の３つの適応フィルタ２２１のフィルタ係数の更新を行い（Ｓ４０９）、制御がＳ４０１に遷移する。

このように、状況変化が検知されたとき（Ｓ４０２：Ｙｅｓ）、ＣＴＣ制御部２２３によってタップ長がＬ３からＬ４に短くされ、Ｓ４０７～Ｓ４０９において、タップ長Ｌ４の３つの適応フィルタ２２１を用いたノイズ成分の抑圧とフィルタ係数の更新とが実施される。状況変化が検知されてからの経過時間が第３しきい値を越えたとき（Ｓ４０３：Ｙｅｓ）、ＣＴＣ制御部２２３によってタップ長がＬ４からＬ３に長くされ、Ｓ４０４～Ｓ４０６において、タップ長Ｌ３の３つの適応フィルタ２２１を用いたノイズ成分の抑圧とフィルタ係数の更新とが実施される。

なお、第２実施形態では、各ＣＴＣ処理部２２０Ａは、全てのＥＣ処理部２１０Ａの出力信号が入力されることとした。各ＣＴＣ処理部２２０Ａに入力される信号はこれに限定されない。各ＣＴＣ処理部２２０Ａは、一部のＥＣ処理部２１０Ａからの出力信号が入力されてもよい。また、音声処理装置２０Ａから全てのＥＣ処理部２１０Ａを廃し、各ＣＴＣ処理部２２０Ａは、全てのマイクＭＣから音声信号が入力されてもよい。

第２実施形態においては、マイクＭＣｉは、第１収音装置に相当する。マイクＭＣｉ以外のマイクＭＣは、第２収音装置に相当する。マイクＭＣｉからの音声信号は、第１収音装置が取得した第３信号に相当する。なお、第３信号は、マイクＭＣｉから出力された後に任意の処理、例えばビームフォーミング処理、を経たあとの信号であってもよい。マイクＭＣｉからの音声信号およびマイクＭＣｉ以外からの音声信号は、第４信号に相当する。マイクＭＣｉ以外からの音声信号は、第５信号に相当する。なお、第５信号は、マイクＭＣｉ以外のマイクＭＣから出力された後に任意の処理、例えばビームフォーミング処理、を経たあとの信号であってもよい。第３しきい値は、第１経過時間に相当する。

また、第２実施形態においては、マイクＭＣｉに対応するＣＴＣ処理部２２０Ａ－ｉにおいて、ＣＴＣ推定部２２２は第１推定部に相当し、３つの適応フィルタ２２１のそれぞれは第１適応フィルタに相当し、ＣＴＣ加算部２２４は第１加算部に相当し、ＣＴＣ制御部２２３は第１制御部に相当する。状況変化検知部２４０は、検知部に相当する。各適応フィルタ２２１に入力される信号は、第１信号に相当する。なお、第５信号は、第１信号でもある。各適応フィルタ２２１から出力される信号は、第２信号に相当する。ＣＴＣ推定部２２２から出力される信号は、第１減算信号に相当する。短くされる前の各適応フィルタ２２１のタップ長、即ち例えばＬ３は、第１タップ長に相当する。短くされた後の各適応フィルタ２２１のタップ長、即ち例えばＬ４は、第２タップ長に相当する。短くされ、その後、高くされた各適応フィルタ２２１のタップ長は、第３タップ長に相当する。なお、以上の説明では、第１タップ長と第３タップ長とは等しいとされた。つまり、第３タップ長はＬ３とされた。第１タップ長と第３タップ長とは等しくなくてもよい。例えば、各適応フィルタ２２１のタップ長は、第２タップ長から段階的に第１タップ長に戻されてもよい。そのような場合において、第２タップ長から第１タップ長に戻る過渡状態におけるタップ長は、第１タップ長と異なる第３タップ長に相当する。

以上述べたように、第２実施形態によれば、音声処理装置２０Ａでは、ＣＴＣ処理部２２０Ａ－ｉのＣＴＣ推定部２２２は、マイクＭＣｉ以外からの音声信号に基づいた信号を出力する各適応フィルタ２１１を備え、各適応フィルタ２１１の出力信号に基づいた減算信号を生成する。ＣＴＣ処理部２２０Ａ－ｉのＣＴＣ加算部２２４は、マイクＭＣｉが取得した音声信号からＣＴＣ推定部２２２によって生成された減算信号を減算する。状況変化検知部２４０は、外部から入力された状況変化通知信号に基づいて状況変化を検知する。ＣＴＣ処理部２２０Ａ－ｉのＣＴＣ制御部２２３は、状況変化検知部２４０が状況変化を検知したことをトリガとして適応フィルタ２２１のタップ長を短くする。

よって、第２実施形態によれば、第１実施形態と同様に、状況が変化した場合のノイズ成分の抑圧性能の低下を、処理量を増加させることなく低減することが可能となる。

また、第２実施形態によれば、ＣＴＣ処理部２２０Ａ－ｉのＣＴＣ制御部２２３は、適応フィルタ２２１のタップ長を短くしてからの経過時間が第３しきい値を越えたとき、適応フィルタ２２１のタップ長を長くする。

よって、適応フィルタ２２１のフィルタ係数が再収束に近づいた際のノイズ成分の抑圧性能を、適応フィルタ２２１のタップ長を短くしたまま維持された場合に比べて向上させることができる。

なお、第２実施形態では、ＣＴＣ処理部２２０Ａ－ｉのＣＴＣ推定部２２２は、マイクＭＣｉ以外のマイクＭＣからの音声信号に基づいてノイズ成分、つまり乗員ｈｍｉ以外の乗員ｈｍが発話した成分を推定する。

よって、乗員ｈｍｉ以外の乗員ｈｍが発話した成分を抑圧することが可能になる。

また、第２実施形態では、状況変化検知部２４０は、全てのマイクＭＣからの音声信号、つまりマイクＭＣｉからの音声信号と、マイクＭＣｉ以外のマイクＭＣからの音声信号と、を含む音声信号に基づいて話者位置の切り替わりを検知する。つまり、状況変化は、話者位置の切り替わりである。

話者位置が切り替わると、ＣＴＣ推定部２２２に入力される３つの参照信号の一部または全部のレベルが大きく変化するため、誤差信号が増加してノイズ成分の抑圧性能が低下する。第２実施形態では、話者位置の切り替わりが検知されたときに、適応フィルタ２２１のタップ長が短くされる。これによって、ＣＴＣ処理部２２０Ａ－ｉにおけるノイズ成分の抑圧性能の低下を低減することが可能となる。

（変形例２）
第２実施形態の別の一例である変形例２について説明する。
変形例２では、ＣＴＣ処理部２２０ＡのＣＴＣ制御部２２３は、各適応フィルタ２２１のタップ長を短くすることで生じた余った処理能力を用いて、各適応フィルタ２２１のフィルタ係数の更新頻度を、各適応フィルタ２２１のタップ長を短くする前よりも高くする。つまり、ＣＴＣ制御部２２３は、状況変化の検知の通知を受信すると、各適応フィルタ２２１のタップ長を短くするとともに各適応フィルタ２２１のフィルタ係数の更新頻度を高くする。

図１１は、変形例２におけるＣＴＣ処理部２２０Ａの動作を示すフローチャートである。なお、４つのＣＴＣ処理部２２０Ａは、抑圧対象の成分が異なる点を除き、同一の動作を行う。ここでは代表として、ＣＴＣ処理部２２０Ａ－１の動作について説明し、ＣＴＣ処理部２２０Ａ－２～ＣＴＣ処理部２２０Ａ－４の動作の説明を省略する。

また、図１１の説明では、図１０において説明した処理と同じ処理については、図１０に示したステップ番号と同じ番号を付して、簡略的に説明するか、または説明を省略する。

また、図１１では、短くする前の３つの適応フィルタ２２１のタップ長の値をＬ３と表記する。短くした後の３つの適応フィルタ２２１のタップ長の値をＬ４と表記する。但し、Ｌ４はＬ３よりも小さい。また、３つの適応フィルタ２２１のタップ長をＬ４からＬ３に戻すタイミングの判断に使用されるしきい値、つまりタップ長を短くしてからの経過時間と比較されるしきい値を、第３しきい値と表記する。

また、高くする前の３つの適応フィルタ２２１のフィルタ係数の更新頻度の値をＦ３と表記する。高くした後の３つの適応フィルタ２２１のフィルタ係数の更新頻度の値をＦ４と表記する。但し、Ｆ４はＦ３よりも大きい。更新頻度を高くすると、その分だけ処理量が増加する。更新頻度を高くすることによる処理量の増加分がタップ長を短くすることによって生じた余った処理能力を越えないように、タップ長Ｌ３と更新頻度Ｆ３との対、およびタップ長Ｌ４と更新頻度Ｆ４との対がそれぞれ決定されている。

図１１から読み取れるように、変形例２におけるＣＴＣ処理部２２０Ａ－１の動作は、Ｓ４０６に替えてＳ５０１が実行され、Ｓ４０９に替えてＳ５０２が実行される点で、図１０に示した一連の処理と異なる。

Ｓ５０１では、つまりタップ長Ｌ３の３つの適応フィルタ２２１に基づいて出力信号が出力された後では、ＣＴＣ制御部２２３は、タップ長Ｌ３の３つの適応フィルタ２２１を更新頻度Ｆ３で更新する。

Ｓ５０２では、つまり短くされたタップ長Ｌ４の３つの適応フィルタ２２１に基づいて出力信号が出力された後では、ＣＴＣ制御部２２３は、タップ長Ｌ４の３つの適応フィルタ２２１を高くされた更新頻度Ｆ４で更新する。

適応フィルタ２２１のフィルタ係数の更新頻度を高くすると、誤差信号およびフィルタ係数の収束速度が向上する。変形例２によれば、各適応フィルタ２２１のタップ長を短くするとともに各適応フィルタ２２１のフィルタ係数の更新頻度を高くすることで、ノイズ成分の抑圧性能をより早く回復させることができる。

したがって、変形例２によれば、状況が変化した場合のノイズ成分の抑圧性能の低下を、さらに低減することができる。

また、変形例２によれば、各適応フィルタ２２１のタップ長を短くされることで生じる余った処理能力を用いて各適応フィルタ２２１のフィルタ係数の更新頻度が高くされる。よって、各適応フィルタ２２１のフィルタ係数の更新頻度が高くすることで処理量が上限値を越えることを防止することができる。

つまり、変形例２においても、状況が変化した場合のノイズ成分の抑圧性能の低下を、処理量を増加させることなく低減することが可能である。

なお、第２実施形態およびその変形例である変形例２では、各ＣＴＣ処理部２２０Ａが備える３つの適応フィルタ２２１のタップ長は、一律に調整された。タップ長の調整対象は、各ＣＴＣ処理部２２０Ａが備える３つの適応フィルタ２２１の全てでなくてもよい。

例えば、前部座席の乗員ｈｍ１、ｈｍ２が発話した音声をメインに収音するためのマイクＭＣ１、ＭＣ２が取得する各音声信号には、後部座席の乗員ｈｍ３、ｈｍ４が発話した音声よりも、隣の席の乗員ｈｍが発話した音声が、より大きなレベルのノイズ成分として混入すると考えられる。同様に、後部座席の乗員ｈｍ３、ｈｍ４が発話した音声をメインに収音するためのマイクＭＣ３、ＭＣ４が取得する各音声信号には、前部座席の乗員ｈｍ１、ｈｍ２が発話した音声よりも、隣の席の乗員ｈｍが発話した音声が、より大きなレベルのノイズ成分として混入すると考えられる。

つまり、クロストークキャンセル処理において、ノイズ成分のうちの、隣席の乗員ｈｍが発話した音声の成分を抑圧できれば、ノイズ成分の抑圧性能の低下を大きく低減することが可能と考えられる。

よって、各ＣＴＣ処理部２２０ＡのＣＴＣ制御部２２３は、３つの適応フィルタ２２１のうちの、隣席の乗員ｈｍに対応したマイクＭＣからの音声信号にかけられる適応フィルタ２２１を、タップ長の調整対象とし、他の２つの適応フィルタ２２１のタップ長は固定としてもよい。

さらに、前部座席の乗員ｈｍ１、ｈｍ２に対応したＣＴＣ処理部２２０Ａ－１、２２０Ａ－２におけるＣＴＣ制御部２２３は、後部座席の乗員ｈｍ３、ｈｍ４の発話の有無に関係なく、前部座席において話者位置が切り替わった場合にタップ長の調整を行なうように構成されてもよい。同様に、後部座席の乗員ｈｍ３、ｈｍ４に対応したＣＴＣ処理部２２０Ａ－３、２２０Ａ－４におけるＣＴＣ制御部２２３は、前部座席の乗員ｈｍ１、ｈｍ２の発話の有無に関係なく、後部座席において話者位置が切り替わった場合にタップ長の調整を行なうように構成されてもよい。

このように、どのＣＴＣ処理部２２０Ａのどの適応フィルタ２２１をタップ長の調整の対象とするかは、任意に設定可能である。

なお、変形例２においては、高くされる前の各適応フィルタ２２１のフィルタ係数の更新頻度、即ち例えばＦ３は、第１頻度に相当する。高くされた後の各適応フィルタ２２１のフィルタ係数の更新頻度、即ち例えばＦ４は、第２頻度に相当する。また、高くされ、その後低くされた後の各適応フィルタ２２１のフィルタ係数の更新頻度は、第３頻度に相当する。なお、以上の説明では、第１頻度と第３頻度とは等しいとされた。つまり、第３頻度はＦ３であることとされた。第３頻度は、第１頻度と等しくなくてもよい。各適応フィルタ２２１のフィルタ係数の更新頻度は、第２頻度から、第１頻度よりも低い値にいったん変更され、その後、第１頻度に変更されてもよい。そのような場合において、第１頻度よりも低い値は、第１頻度と異なる第３頻度に相当する。

（第３実施形態）
第１実施形態の変形例１および第２実施形態の変形例２では、ＥＣ処理部またはＣＴＣ処理部のうちの一方の処理部において、適応フィルタのタップ長が短くされたときに、適応フィルタのタップ長を短くすることで生じた余った処理能力の範囲で適応フィルタの更新頻度が高くされた。つまり、当該一方の処理部は、適応フィルタの更新頻度が高くするために必要な処理量の増加分が、適応フィルタのタップ長が短くされることによる必要な処理量の減少分を越えないように、タップ長および更新頻度を制御した。

ＥＣ処理部およびＣＴＣ処理部のうちの一方の処理部において適応フィルタのタップ長が短くされるとともに適応フィルタの更新頻度が高くされたときに、たとえ当該一方の処理部において、適応フィルタの更新頻度が高くするために必要な処理量の増加分が適応フィルタのタップ長が短くされることによる必要な処理量の減少分を越えたとしても、ＥＣ処理部およびＣＴＣ処理部のうちの他方の処理部において、必要な処理量を削減すれば、合計の処理量が上限値を越えることを防止することができる。

第３実施形態では、一例として、ＣＴＣ処理部において適応フィルタのタップ長および適応フィルタの更新頻度の調整を行い、ＣＴＣ処理部でのこれらの調整による必要な処理量の増加分を、ＥＣ処理部におけるタップ長の調整によってキャンセルする構成について説明する。

なお、第３実施形態の音声処理装置を、音声処理装置２０Ｂと表記する。第３実施形態のＥＣ処理部を、ＥＣ処理部２１０Ｂと表記する。また、第３実施形態のＣＴＣ処理部を、ＣＴＣ処理部２２０Ｂと表記する。音声処理装置２０Ｂは、ＥＣ処理部２１０ＢおよびＣＴＣ処理部２２０ＢをマイクＭＣ毎に備える。マイクＭＣｉに対応したＥＣ処理部２１０ＢをＥＣ処理部２１０Ｂ－ｉと表記し、マイクＭＣｉに対応したＣＴＣ処理部２２０ＢをＣＴＣ処理部２２０Ｂ－ｉと表記する。

また、音声処理装置２０Ｂに接続されるマイクＭＣの数は、一例として、第１および第２実施形態と同様に、４つであることとする。

４つのマイクＭＣ、４つのＥＣ処理部２１０Ｂ、４つのＣＴＣ処理部２２０Ｂ、および音声認識エンジン３０の間の各種信号の送受信の関係は、第１実施形態における、４つのマイクＭＣ、４つのＥＣ処理部２１０、４つのＣＴＣ処理部２２０、および音声認識エンジン３０の間の各種信号の送受信の関係と同じである。

また、音声処理装置２０Ｂは、状況変化検知部２４０を備える。状況変化検知部２４０は、第２実施形態の状況変化検知部２４０と同様の方法で、つまり図９に示した動作と同様の動作で、話者位置の切り替わりを、状況変化として検知する。但し、状況変化検知部２４０は、状況変化を検知した旨を、各ＣＴＣ処理部２２０Ｂだけでなく各ＥＣ処理部２１０Ｂにも通知する。

また、ＥＣ処理部２１０Ｂは、図４に示したＥＣ処理部２１０と同じ構成を有することとする。但し、ＥＣ処理部２１０Ｂは、状況変化を検知した旨の通知を、状況変化検知部２４０から受信する。

また、ＣＴＣ処理部２２０Ｂは、図８に示したＣＴＣ処理部２２０Ａと同じ構成を有することとする。但し、ＣＴＣ処理部２２０Ｂは、状況変化を検知した旨の通知を、状況変化検知部２４０から受信する。

図１２は、第３実施形態における音声処理装置２０Ｂの動作を示すフローチャートである。

なお、図１２の説明では、各ＥＣ処理部２１０Ｂの適応フィルタ２１１に関し、短くする前のタップ長の値をＬ５、短くした後のタップ長の値をＬ６、とそれぞれ表記する。但し、Ｌ６はＬ５よりも小さい。また、各ＣＴＣ処理部２２０Ｂの３つの適応フィルタ２２１に関し、短くする前のタップ長の値をＬ７、短くした後のタップ長の値をＬ８、とそれぞれ表記する。但し、Ｌ８はＬ７よりも小さい。

また、各ＣＴＣ処理部２２０Ｂの３つの適応フィルタ２２１に関し、高くする前の更新頻度の値をＦ５、高くした後の更新頻度の値をＦ６、とそれぞれ表記する。但し、Ｆ６はＦ５よりも大きい。

各ＣＴＣ処理部２２０Ｂにおいて、３つの適応フィルタ２２１のフィルタ係数の更新頻度を高くすると、その分だけ必要な処理量が増加する。３つの適応フィルタ２２１のフィルタ係数の更新頻度を高くすることによる必要な処理量の増加分は、各ＣＴＣ処理部２２０Ｂにおいて、３つの適応フィルタ２２１のタップ長を短くすることによって生じる必要な処理量の減少分を越える。必要な処理量の減少分を越えた分は、各ＥＣ処理部２１０Ｂにおける適応フィルタ２１１のタップ長が短くされることでキャンセルされる。このような関係が成立するように、タップ長Ｌ５、タップ長Ｌ７、および更新頻度Ｆ５のセットと、タップ長Ｌ６、タップ長Ｌ８、および更新頻度Ｆ６のセットと、がそれぞれ決定されている。

３つの適応フィルタ２２１のタップ長をＬ８からＬ６に戻すタイミングの判断に使用されるしきい値、つまり３つの適応フィルタ２２１のタップ長を短くしてからの経過時間と比較されるしきい値を、第４しきい値と表記する。

まず、音声処理装置２０Ｂは、各マイクＭＣからの音声信号を取得する（Ｓ６０１）。続いて、各ＥＣ処理部２１０ＢのＥＣ制御部２１３および各ＣＴＣ処理部２２０ＢのＣＴＣ制御部２２３は、状況変化が検知されたか否かを判定する（Ｓ６０２）。つまり、各ＥＣ処理部２１０ＢのＥＣ制御部２１３および各ＣＴＣ処理部２２０ＢのＣＴＣ制御部２２３は、状況変化検知部２４０が話者位置の切り替わりを検知したか否かを、状況変化検知部２４０からの通知の有無に基づいて判定する。

各ＥＣ処理部２１０ＢのＥＣ制御部２１３および各ＣＴＣ処理部２２０ＢのＣＴＣ制御部２２３は、状況変化が検知されていない場合（Ｓ６０２：Ｎｏ）、最後に状況変化が検知されてからの経過時間が第４しきい値を越えているか否かを判定する（Ｓ６０３）。なお、起動してから１度も状況変化が検知されていない場合には、Ｓ６０３の判定処理においてはＹｅｓと判定される。

最後に状況変化が検知されてからの経過時間が第４しきい値を越えている場合（Ｓ６０３：Ｙｅｓ）、各ＥＣ処理部２１０Ｂにおいて、ＥＣ制御部２１３は、適応フィルタ２１１のタップ長をＬ５とし、各ＣＴＣ処理部２２０Ｂにおいて、ＣＴＣ制御部２２３は、３つの適応フィルタ２２１のタップ長をＬ７とするとともに３つの適応フィルタ２２１のフィルタ係数の更新頻度の値をＦ５として、各処理が実行される。

より詳細には、ＥＣ推定部２１２は、タップ長Ｌ５の適応フィルタ２１１を使用して減算信号を生成する（Ｓ６０４）。具体的には、ＥＣ推定部２１２は、参照信号、つまりスピーカ入力信号にタップ長Ｌ５の適応フィルタ２１１をかけて、これによって得られた信号を、減算信号として出力する。

Ｓ６０４に続いて、ＥＣ加算部２１４は、Ｓ６０１において取得した音声信号からＳ６０４においてＥＣ推定部２１２が生成した減算信号を減算することによって出力信号を生成し、出力する（Ｓ６０５）。ＥＣ加算部２１４の出力信号は、全てのＣＴＣ処理部２２０Ｂに共通に入力される。

Ｓ６０５に続いて、ＥＣ制御部２１３は、Ｓ６０５においてＥＣ加算部２１４が出力した出力信号に基づいて、タップ長Ｌ５の適応フィルタ２１１のフィルタ係数の更新を行う（Ｓ６０６）。

Ｓ６０６に続いて、ＣＴＣ処理部２２０Ｂにおいて、ＣＴＣ制御部２２３は、タップ長Ｌ７の３つの適応フィルタ２２１を使用して減算信号を生成する（Ｓ６０７）。具体的には、ＣＴＣ処理部２２０Ｂ－ｉにおいて、ＣＴＣ推定部２２２は、ＥＣ処理部２１０－１～ＥＣ処理部２１０－４のうちのＥＣ処理部２１０－ｉ以外のＥＣ処理部２１０からの３つの出力信号を参照信号として用いて、３つの参照信号にタップ長Ｌ７の３つの適応フィルタ２２１のうちの対応する適応フィルタ２２１をかける。そして、ＣＴＣ推定部２２２は、得られた３つの信号を合算することで減算信号を生成する。

Ｓ６０６に続いて、ＣＴＣ加算部２２４は、対応するマイクＭＣから対応するＥＣ処理部２１０Ｂを経て入力された音声信号から、Ｓ６０７においてＣＴＣ推定部２２２が生成した減算信号を減算することによって出力信号を生成し、出力する（Ｓ６０８）。ＣＴＣ処理部２２０Ｂの出力信号は、音声認識エンジン３０に入力される。

そして、ＣＴＣ処理部２２０Ｂにおいて、ＣＴＣ制御部２２３は、Ｓ６０８においてＣＴＣ加算部２２４が出力した出力信号に基づいて、タップ長Ｌ７の３つの適応フィルタ２２１のフィルタ係数の更新を更新頻度Ｆ５で行い（Ｓ６０９）、制御がＳ６０１に遷移する。

状況変化が検知された場合（Ｓ６０２：Ｙｅｓ）、または最後に状況変化が検知されてからの経過時間が第４しきい値を越えていない場合（Ｓ６０３：Ｎｏ）、各ＥＣ処理部２１０Ｂにおいて、ＥＣ制御部２１３は、適応フィルタ２１１のタップ長をＬ６とし、各ＣＴＣ処理部２２０Ｂにおいて、ＣＴＣ制御部２２３は、３つの適応フィルタ２２１のタップ長をＬ８とするとともに３つの適応フィルタ２２１のフィルタ係数の更新頻度の値をＦ６として、各処理が実行される。

より詳細には、ＥＣ推定部２１２は、タップ長Ｌ６の適応フィルタ２１１を使用して減算信号を生成する（Ｓ６１０）。具体的には、ＥＣ推定部２１２は、参照信号、つまりスピーカ入力信号にタップ長Ｌ６の適応フィルタ２１１をかけて、これによって得られた信号を、減算信号として出力する。

Ｓ６１０に続いて、ＥＣ加算部２１４は、Ｓ６０１において取得した音声信号からＳ６１０においてＥＣ推定部２１２が生成した減算信号を減算することによって出力信号を生成し、出力する（Ｓ６１１）。ＥＣ加算部２１４の出力信号は、全てのＣＴＣ処理部２２０Ｂに共通に入力される。

Ｓ６１１に続いて、ＥＣ制御部２１３は、Ｓ６１１においてＥＣ加算部２１４が出力した出力信号に基づいて、タップ長Ｌ６の適応フィルタ２１１のフィルタ係数の更新を行う（Ｓ６１２）。

Ｓ６１２に続いて、ＣＴＣ処理部２２０Ｂにおいて、ＣＴＣ制御部２２３は、タップ長Ｌ８の３つの適応フィルタ２２１を使用して減算信号を生成する（Ｓ６１３）。Ｓ６１３での手順の詳細は、タップ長が異なることを除いてＳ６０７での手順と同じである。

Ｓ６１３に続いて、ＣＴＣ加算部２２４は、対応するマイクＭＣから対応するＥＣ処理部２１０Ｂを経て入力された音声信号から、Ｓ６１３においてＣＴＣ推定部２２２が生成した減算信号を減算することによって出力信号を生成し、出力する（Ｓ６１４）。ＣＴＣ処理部２２０Ｂの出力信号は、音声認識エンジン３０に入力される。

そして、ＣＴＣ処理部２２０Ｂにおいて、ＣＴＣ制御部２２３は、Ｓ６１４においてＣＴＣ加算部２２４が出力した出力信号に基づいて、タップ長Ｌ３の３つの適応フィルタ２２１のフィルタ係数の更新を更新頻度Ｆ６で行い（Ｓ６１５）、制御がＳ６０１に遷移する。

なお、第３実施形態における以上の説明においては、各ＣＴＣ処理部２２０Ｂは、第１処理部に相当する。また、各ＥＣ処理部２１０Ｂは、第１処理部に直列に接続された第２処理部に相当する。

また、マイクＭＣｉは、第１収音装置に相当する。マイクＭＣｉ以外のマイクＭＣは、第２収音装置に相当する。マイクＭＣｉからの音声信号は、第３信号に相当する。なお、第３信号は、マイクＭＣｉから出力された後に任意の処理、例えばビームフォーミング処理、を経たあとの信号であってもよい。マイクＭＣｉからの音声信号およびマイクＭＣｉ以外からの音声信号は、第４信号に相当する。マイクＭＣｉ以外からの音声信号は、第５信号に相当する。なお、第５信号は、第１信号でもある。第４しきい値は、第１経過時間に相当する。

また、マイクＭＣｉに対応するＣＴＣ処理部２２０Ｂ－ｉにおいて、ＣＴＣ推定部２２２は第１推定部に相当し、３つの適応フィルタ２２１のそれぞれは第１適応フィルタに相当し、ＣＴＣ加算部２２４は第１加算部に相当し、ＣＴＣ制御部２２３は第１制御部に相当する。状況変化検知部２４０は、検知部に相当する。各適応フィルタ２２１に入力される信号は、第１信号に相当する。各適応フィルタ２２１から出力される信号は、第２信号に相当する。ＣＴＣ推定部２２２から出力される信号は、第１減算信号に相当する。短くされる前の各適応フィルタ２２１のタップ長、即ち例えばＬ７は、第１タップ長に相当する。短くされた後の各適応フィルタ２２１のタップ長、即ち例えばＬ８は、第２タップ長に相当する。短くされ、その後、高くされた各適応フィルタ２２１のタップ長は、第３タップ長に相当する。なお、以上の説明では、第１タップ長と第３タップ長とは等しいとされた。つまり、第３タップ長はＬ７とされた。第１タップ長と第３タップ長とは等しくなくてもよい。

また、ＣＴＣ処理部２２０Ｂ－ｉにおいて、高くされる前の各適応フィルタ２２１のフィルタ係数の更新頻度、即ち例えばＦ５は、第１頻度に相当する。高くされた後の各適応フィルタ２２１のフィルタ係数の更新頻度、即ち例えばＦ６は、第２頻度に相当する。また、高くされ、その後低くされた後の各適応フィルタ２２１のフィルタ係数の更新頻度は、第３頻度に相当する。なお、以上の説明では、第１頻度と第３頻度とは等しいとされた。つまり、第３頻度はＦ５であることとされた。第３頻度は、第１頻度と等しくなくてもよい。

また、各ＥＣ処理部２１０Ｂにおいて、ＥＣ推定部２１２は第２推定部に相当し、適応フィルタ２１１は第２適応フィルタに相当し、ＥＣ加算部２１４は第２加算部に相当し、ＥＣ制御部２１３は第２制御部に相当する。適応フィルタ２１１に入力される信号は、第６信号に相当する。適応フィルタ２１１から出力される信号は、第７信号に相当する。ＥＣ推定部２１２から出力される信号は、第２減算信号に相当する。短くされる前の適応フィルタ２１１のタップ長、即ち例えばＬ５は、第４タップ長に相当する。短くされた後の適応フィルタ２１１のタップ長、即ち例えばＬ６は、第５タップ長に相当する。短くされ、その後、長くされた適応フィルタ２１１のタップ長は、第６タップ長に相当する。なお、以上の説明では、第４タップ長と第６タップ長とは等しいとされた。つまり、第６タップ長はＬ５とされた。第４タップ長と第６タップ長とは等しくなくてもよい。また、スピーカ５０は音声出力装置に相当する。

以上述べたように、第３実施形態によれば、音声処理装置２０Ｂでは、各ＣＴＣ処理部２２０ＢのＣＴＣ制御部２２３は、適応フィルタ２２１のタップ長を短くするとき、適応フィルタ２１１の高くする。そして、各ＥＣ処理部２１０ＢのＥＣ制御部２１３は、ＣＴＣ制御部２２３が適応フィルタ２２１のタップ長を短くするとき、適応フィルタ２１１のタップ長を短くする。

よって、各ＣＴＣ処理部２２０Ｂにおいて適応フィルタ２２１のフィルタ係数の更新頻度が高くするために必要な処理量の増加分が適応フィルタ２２１のタップ長が短くされることによる必要な処理量の減少分を越えたとしても、各ＥＣ処理部２１０Ｂにおいて適応フィルタ２１１のタップ長が短くされることで、合計の処理量が上限値を越えることを防止することができる。

また、第３実施形態によれば、各ＣＴＣ処理部２２０ＢのＣＴＣ制御部２２３は、適応フィルタ２２１のタップ長を長くするとき、適応フィルタ２２１のフィルタ係数の更新頻度を低くする。そして、各ＥＣ処理部２１０ＢのＥＣ制御部２１３は、ＣＴＣ制御部２２３が適応フィルタ２２１のタップ長を長くするとき、適応フィルタ２１１のタップ長を長くする。

よって、各適応フィルタ２１１、２２１のタップ長が短いまま運用した場合に比べてノイズ成分の抑圧性能を向上させることができる。

なお、第３実施形態では、ＣＴＣ処理部２２０Ｂ－ｉのＣＴＣ推定部２２２は、マイクＭＣｉ以外のマイクＭＣからの音声信号に基づいてノイズ成分、つまり乗員ｈｍｉ以外の乗員ｈｍが発話した成分を推定する。

また、第３実施形態では、状況変化検知部２４０は、全てのマイクＭＣからの音声信号、つまりマイクＭＣｉからの音声信号と、マイクＭＣｉ以外のマイクＭＣからの音声信号と、を含む音声信号に基づいて話者位置の切り替わりを検知する。つまり、状況変化は、話者位置の切り替わりである。

話者位置が切り替わると、ＣＴＣ推定部２２２に入力される３つの参照信号の一部または全部のレベルが大きく変化するため、誤差信号が増加してノイズ成分の抑圧性能が低下する。第３実施形態では、話者位置の切り替わりが検知されたときに、適応フィルタ２２１のタップ長が短くされる。これによって、ＣＴＣ処理部２２０Ｂ－ｉにおけるノイズ成分の抑圧性能の低下を低減することが可能となる。

また、第３実施形態では、ＥＣ処理部２１０Ｂ－ｉのＥＣ推定部２１２は、スピーカ入力信号に基づいてノイズ成分、つまりスピーカ音声の成分を推定する。

なお、第３実施形態における以上の説明では、ＣＴＣ処理部２２０Ｂにおいて適応フィルタ２２１のタップ長および適応フィルタ２２１のフィルタ係数の更新頻度の調整を行い、ＣＴＣ処理部２２０Ｂでのこれらの調整による必要な処理量の増加分を、ＥＣ処理部２１０Ｂにおける適応フィルタ２１１のタップ長の調整によってキャンセルする構成について説明した。

これとは逆に、ＥＣ処理部２１０Ｂにおいて適応フィルタ２１１のタップ長および適応フィルタ２１１のフィルタ係数の更新頻度の調整を行い、ＥＣ処理部２１０Ｂでのこれらの調整による必要な処理量の増加分を、ＣＴＣ処理部２２０Ｂにおける適応フィルタ２２１のタップ長の調整によってキャンセルするように、音声処理装置２０Ｂが構成されてもよい。

第１実施形態～第３実施形態およびそれらの変形例では、音声処理装置２０、２０Ａ、２０Ｂの機能は、ＤＳＰ２１が特定のコンピュータプログラムを実行することによって実現される、として説明した。音声処理装置２０、２０Ａ、２０Ｂの機能をコンピュータに実現させるためのコンピュータプログラムは、ＲＯＭ２１に予め格納されて提供され得る。音声処理装置２０、２０Ａ、２０Ｂの機能をコンピュータに実現させるためのコンピュータプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）－ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フレキシブルディスク（ＦＤ：ＦｌｅｘｉｂｌｅＤｉｓｃ）、ＣＤ－Ｒ（Ｒｅｃｏｒｄａｂｌｅ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリ、ＳＤ（ＳｅｃｕｒｅＤｉｇｉｔａｌ）カードなどのコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに音声処理装置２０、２０Ａ、２０Ｂの機能をコンピュータに実現させるためのコンピュータプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、音声処理装置２０、２０Ａ、２０Ｂの機能をコンピュータに実現させるためのコンピュータプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。

また、音声処理装置２０、２０Ａ、２０Ｂの機能のうちの一部または全部は、論理回路によって実現されてもよい。音声処理装置２０、２０Ａ、２０Ｂの機能のうちの一部または全部は、アナログ回路によって実現されてもよい。音声処理装置２０、２０Ａ、２０Ｂの機能のうちの一部または全部は、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）またはＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などによって実現されてもよい。

本開示のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これらの実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これらの実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

５音声処理システム
１０車両
２０，２０Ａ，２０Ｂ音声処理装置
２１ＤＳＰ
２２ＲＡＭ
２３ＲＯＭ
２４Ｉ／Ｆインタフェース
３０音声認識エンジン
４０電子機器
５０スピーカ
２１０，２１０Ａ，２１０ＢＥＣ処理部
２１１適応フィルタ
２１２ＥＣ推定部
２１３ＥＣ制御部
２１４ＥＣ加算部
２２０，２２０Ａ，２２０ＢＣＴＣ処理部
２２１，２２１－２，２２１－３，２２１－４適応フィルタ
２２２ＣＴＣ推定部
２２３ＣＴＣ制御部
２２４ＣＴＣ加算部
２３０，２４０状況変化検知部

Claims

第１信号が入力され、前記第１信号に基づいた第２信号を出力する第１適応フィルタを備え、前記第２信号に基づいた第１減算信号を生成する第１推定部と、
第１収音装置が取得した第３信号が入力され、前記第３信号から前記第１減算信号を減算する第１加算部と、
第４信号が入力され、前記第４信号に基づいて周囲の状況変化を検知する検知部と、
前記第１適応フィルタのタップ長を変更可能であり、前記検知部からの前記状況変化を検知したことを示す検知信号を受信したとき、前記タップ長を、第１タップ長から、前記第１タップ長よりも短い第２タップ長に変更する第１制御部と、
を備える音声処理装置。
前記第１制御部は、前記タップ長を前記第２タップ長に変更してからの経過時間がしきい値である第１経過時間を越えたとき、前記タップ長を、前記第２タップ長よりも長い第３タップ長に変更する、
請求項１に記載の音声処理装置。
前記第１制御部は、前記第１適応フィルタのフィルタ係数の更新頻度を変更可能であり、前記タップ長を前記第１タップ長よりも短い前記第２タップ長に変更するとき、前記更新頻度を、第１頻度から、前記第１頻度よりも高い第２頻度に変更する、
請求項１または２に記載の音声処理装置。
前記第１制御部は、前記タップ長を前記第２タップ長よりも長い第３タップ長に変更するとき、前記更新頻度を、前記第２頻度よりも低い第３頻度に変更する、
請求項３に記載の音声処理装置。
前記第１信号は、音声出力装置に入力された音声信号である、
請求項１から４の何れか一項に記載の音声処理装置。
前記第４信号は、前記第１信号に基づいた信号であり、
前記状況変化は、前記音声出力装置による、前記第１信号に基づいた音声の出力の開始である、
請求項５に記載の音声処理装置。
前記第４信号は、前記音声処理装置のリセットに関する信号であり、
前記状況変化は、前記音声処理装置がリセットされることである、
請求項１から５のいずれか一項に記載の音声処理装置。
前記第１減算信号は、前記第１収音装置とは異なる第２収音装置が取得した第５信号に基づく、
請求項１から４の何れか一項に記載の音声処理装置。
前記第４信号は、前記第３信号および前記第５信号に基づく信号であり、
前記検知部は、話者位置の切り替わりを前記第３信号および前記第５信号に基づいて検知し、
前記状況変化は、前記話者位置の切り替わりである、
請求項８に記載の音声処理装置。
前記第１推定部、前記第１加算部、および前記第１制御部を備える第１処理部と、
前記第１処理部に直列に接続された第２処理部と、
を備え、
前記第２処理部は、
第６信号が入力され、前記第６信号に基づいた第７信号を出力する第２適応フィルタを備え、前記第７信号に基づいた第２減算信号を生成する第２推定部と、
前記第２減算信号を前記第３信号から減算する第２加算部と、
前記第２適応フィルタのタップ長を変更可能であり、前記第１制御部が前記第１適応フィルタのタップ長を第１タップ長から、前記第１タップ長よりも短い前記第２タップ長に変更するとき、前記第２適応フィルタのタップ長を第４タップ長から、前記第４タップ長よりも短い第５タップ長に変更する第２制御部と、
を備える、
請求項３または４に記載の音声処理装置。
前記第２制御部は、前記第１制御部が前記第１適応フィルタのタップ長を前記第２タップ長から、前記第２タップ長よりも長い前記第３タップ長に変更するとき、前記第２適応フィルタのタップ長を、前記第５タップ長から、前記第５タップ長よりも長い第６タップ長に変更する、
請求項１０に記載の音声処理装置。
前記第２減算信号は、前記第１収音装置とは異なる第２収音装置が取得した第５信号に基づく、
請求項１０または請求項１１に記載の音声処理装置。
前記第４信号は、前記第３信号および前記第５信号に基づく信号であり、
前記検知部は、話者位置の切り替わりを前記第３信号および前記第５信号に基づいて検知し、
前記状況変化は、前記話者位置の切り替わりである、
請求項１２に記載の音声処理装置。
前記第６信号は、音声出力装置に入力された音声信号である、
請求項１０から請求項１３の何れか一項に記載の音声処理装置。
収音装置と、
第１信号が入力され、前記第１信号に基づいた第２信号を出力する第１適応フィルタを備え、前記第２信号に基づいた減算信号を生成する推定部と、前記収音装置が取得した第３信号が入力され、前記第３信号から前記減算信号を減算する加算部と、第４信号が入力され、前記第４信号に基づいて周囲の状況変化を検知する検知部と、前記第１適応フィルタのタップ長を変更可能であり、前記検知部からの前記状況変化を検知したことを示す検知信号を受信したとき、前記タップ長を、第１タップ長から、前記第１タップ長よりも短い第２タップ長に変更する第１制御部と、を備える音声処理装置と、
前記加算部の出力に基づいて音声認識を実行する音声認識エンジンと、
前記音声認識の結果を使用する電子機器と、
を備える音声処理システム。
入力された第１信号に適応フィルタをかけることによって第２信号を取得し、前記第２信号に基づいた減算信号を生成するステップと、
收音装置が取得した第３信号から前記減算信号を減算するステップと、
入力された第４信号に基づいて周囲の状況変化を検知するステップと、
前記状況変化が検知されたとき、前記適応フィルタのタップ長を、第１タップ長から、前記第１タップ長よりも短い第２タップ長に変更するステップと、
を備える音声処理方法。