JP7437650B2

JP7437650B2 - 音響クロストーク抑圧装置および音響クロストーク抑圧方法

Info

Publication number: JP7437650B2
Application number: JP2019210690A
Authority: JP
Inventors: 正成宮本; 直也田中; 宏正大橋
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2024-02-26
Anticipated expiration: 2039-11-21
Also published as: JP2021081655A; US20220415337A1; WO2021100671A1; CN114746936A

Description

本開示は、音響クロストーク抑圧装置および音響クロストーク抑圧方法に関する。

特許文献１には、車室内の状況として乗員の配置パターンを予め想定し、各配置パターンそれぞれに対して音の伝達特性を測定し、その測定により得られメモリ等に記憶された各伝達特性を用いて、スピーカから出力される音声信号に含まれる音響を推定して除去する音響除去装置が開示されている。この音響除去装置によれば、乗員の配置が配置パターンのいずれかを満たす限り、音響の除去または抑圧が可能である。

特開２００９－２１６８３５号公報

特許文献１の構成では、ドライバーの発話音声を収音することを目的としたマイクがドライバーの前に１つ配置されているだけであり、例えば他の乗員の前に各乗員の声を収音することを目的としたマイクが配置されていない。車室内には複数人の乗員が存在することも十分に考えられるので、ドライバーだけでなく他の乗員がドライバーとほぼ同時に発話した場合、ドライバーのマイクにはドライバー以外の他の乗員の発話音声も収音される。したがって、特許文献１の構成では、ドライバーのマイクが収音した音声信号に含まれる他の乗員の発話に基づくクロストーク成分を抑圧することはできない。これは、ドライバーのマイクでは他の乗員の発話するクリアな音声の収音が難しく、その他の乗員の発話音声をクロストーク成分として抑圧するための適応フィルタのフィルタ係数の学習が困難なためである。

本開示は、上述した従来の状況に鑑みて案出され、車室等の閉空間に存在するメイン話者の発話音声に含まれ得る音響的なクロストーク成分を適応的に抑圧し、メイン話者の発話音声の音質を改善する音響クロストーク抑圧装置および音響クロストーク抑圧方法を提供することを目的とする。

本開示は、ｎ（ｎ：３以上の整数）人の人物のそれぞれに対応して閉空間内に配置されるｎ個のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内でのメイン話者を推定する話者推定部と、前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新してその更新結果を保持する、ｎ個のフィルタ更新部と、前記メイン話者に対応するマイク以外の最大（ｎ－１）個のマイクのそれぞれにより収音された各参照信号に対応する、最大（ｎ－１）個の前記フィルタ更新部のそれぞれにより生成された前記抑圧信号に基づく合成抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、を備える、音響クロストーク抑圧装置を提供する。

また、本開示は、音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、ｎ（ｎ：３以上の整数）人の人物のそれぞれに対応して閉空間内に配置されるｎ個のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内でのメイン話者を推定し、ｎ個のフィルタ更新部のそれぞれにより、前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新してその更新結果を保持し、前記メイン話者に対応するマイク以外の最大（ｎ－１）個のマイクのそれぞれにより収音された各参照信号に対応する、最大（ｎ－１）個の前記フィルタ更新部のそれぞれにより生成された前記抑圧信号に基づく合成抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧する、音響クロストーク抑圧方法を提供する。

本開示によれば、車室等の閉空間に存在するメイン話者の発話音声に含まれ得る音響的なクロストーク成分を適応的に抑圧し、メイン話者の発話音声の音質を改善できる。

実施の形態１に係る音響クロストーク抑圧装置が搭載される車両の車室内の乗員およびマイクの配置例を示す図乗員Ｄの口元とマイクｍＤとの間に障害物がある場合の車室内の状況例を示す図実施の形態１に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図実施の形態１に係る音響クロストーク抑圧装置の動作手順例を示すフローチャート実施の形態２に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図実施の形態２に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図実施の形態２に係る音響クロストーク抑圧装置の動作手順例を示すフローチャート実施の形態２に係る音響クロストーク抑圧装置の動作手順例を示すフローチャート

（本開示に至る経緯）
例えば閉空間である車両の車室内にいる乗員Ａと乗員Ｄとが双方とも話している状況を想定する（図１参照）。図１に示すように、車室内には、乗員Ａの前に置かれたマイクｍＡと、乗員Ｄの前に置かれたマイクｍＤとの他に、助手席の前に置かれたマイクｍＢと、他の後部座席の前に置かれたマイクｍＣとが更に配置される。ここで、マイクｍＤにより収音された乗員Ｄの声を音声認識する場合を想定する。マイクｍＤに含まれる、クロストーク成分である乗員Ａの発話による音声を抑圧する必要がある。この場合、マイクｍＤで収音された音声の音声信号を主信号とし、マイクｍＡで収音された音声の音声信号を参照信号として適応フィルタによりクロストーク成分を抑圧することが考えられるが、マイクｍＢおよびマイクｍＣのそれぞれで収音された乗員Ａの音声の音声信号を参照信号として用いることで、乗員Ａの声であるクロストーク成分の抑圧性能を高められる可能性がある。これは、車室内のような閉空間の場合、反射波等によって乗員Ａの声の音声帯域の一部、特に低音域の音が反射等で相殺されてマイクｍＡで収音されないことがあるためである。音声認識では、人の発話する声の周波数帯に近い低音域の音が重要であるので、音声認識の精度が著しく低下する可能性がある。

また、マイクｍＤでは、音声認識させたい乗員Ｄの声が明瞭に収音できない場合がある。この原因として、例えば、乗員Ｄの口元とマイクｍＤとの間に何かしらの障害物がある状況（図２参照）、閉空間特有の伝達特性等が考えられる。このような場合、事前に話者の位置を推定し、マイクｍＤの次に乗員Ｄの声を明瞭に収音できている可能性が高いマイクｍＣを使用し、マイクｍＣで収音された音声からクロストーク成分を抑圧した音声を出力するようにする。このクロストーク抑圧後の音声を音声認識することで、音声認識を高めることが可能になると期待される。

そこで、以下の実施の形態では、クロストーク成分の抑圧量または音声認識結果が想定外である場合、主信号および参照信号を動的に変化させることで、性能の改善を図る音響クロストーク抑圧装置の例を説明する。

以下、適宜図面を参照しながら、本開示に係る音響クロストーク抑圧装置および音響クロストーク抑圧方法を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

（実施の形態１）
図１は、実施の形態１に係る音響クロストーク抑圧装置１０５が搭載される車両１０８の車室１０８ｚ内の乗員およびマイクの配置例を示す図である。車両１０８は、車室１０８ｚ内において、例えば、運転席、助手席、２列目の後部座席および３列目の後部座席を含む、最大７～８人乗りのミニバンである。なお、車両１０８は、最大７～８人乗りのミニバンに限定されず、例えば５人乗りの乗用車あるいはバス等、特に積載人数あるいは車種は限定されない。

図１では、車両１０８のドライバーに相当する乗員Ａが着座する運転席の前方にマイクｍＡが配置される。助手席の前方にマイクｍＢが配置される。例えば３列目の後部座席の右側前方にマイクｍＣが配置される。例えば乗員Ｄが着座する３列目の後部座席の左側前方にマイクｍＤが配置される。なお、乗員の数と配置は、任意に変更可能である。また、マイクは、２列目の後部座席の左右前方等に配置されてもよい。車両１０８の車室１０８ｚ内に配置されるマイクの数は、４個に限らず、例えば３個または５個以上であってもよい。

マイクｍＡは、主に乗員Ａが発話する音声を収音するためのマイクである。マイクｍＤは、主に乗員Ｄが発話する音声を収音するためのマイクである。なお、図１では、説明を分かり易くするために、助手席、２列目の後部座席、および３列目の後部座席の右側には、乗員が着座していない例が示されているが、それぞれの座席に乗員が着座していても構わない。

マイクｍＡ，ｍＢ，ｍＣ，ｍＤは、例えば指向性マイクおよび無指向性マイクのいずれでもよい。また、マイクｍＡ，ｍＢ，ｍＣ，ｍＤは、例えば高音質小型エレクトレットコンデンサーマイクロホン（ＥＣＭ：ＥｌｅｃｔｒｅｔＣｏｎｄｅｎｓｅｒＭｉｃｒｏｐｈｏｎｅ）の単体、複数のＥＣＭで構成されるマイクアレイ等で構成されてもよい。マイクｍＡ，ｍＢ，ｍＣ，ｍＤは、音響クロストーク抑圧装置１０５に接続されるが、図１の複雑化を避けるためにマイクｍＡ，ｍＢ，ｍＣ，ｍＤのそれぞれと音響クロストーク抑圧装置１０５との配線の図示を省略している。

音響クロストーク抑圧装置１０５は、各種の電子部品を収容する筐体を有し、例えば車両１０８の車室１０８ｚ内のダッシュボードの内側に配置される。音響クロストーク抑圧装置１０５は、マイクで収音された音声のうち、音声認識の対象となる乗員以外の乗員が発話する音声（いわゆるクロストーク成分）を抑圧する。音声認識の対象となる乗員が発話している音声に対し、対象外の乗員が発話する音声は、音声認識の対象となる音声に含まれるクロストーク成分となる。例えば、乗員Ｄが発話する音声を収音するためのマイクｍＤで収音された音に含まれるクロストーク成分は、マイクｍＤで収音された乗員Ａが発話する音声である。

図２は、乗員Ｄの口元とマイクｍＤとの間に障害物Ｏｂがある場合の車室１０８ｚ内の状況例を示す図である。乗員Ｄの口元とマイクｍＤとの間に障害物Ｏｂが存在している場合、マイクｍＤは、障害物Ｏｂでの反射等の影響により、乗員Ｄが発話した時の音声を明瞭に収音することができない。言い換えると、音声認識の対象となる乗員Ｄが発話した時の音声信号（主信号）として、マイクｍＤにより収音された音声信号が適さない。この場合、例えばマイクｍＤの近く（例えば隣）に配置されるマイクｍＣが、乗員Ｄの声を明瞭に収音できる可能性がある。言い換えると、音声認識の対象となる乗員Ｄが発話した時の音声信号（主信号）として、マイクｍＣにより収音された音声信号が適する可能性が高くなる。

（音響クロストーク抑圧装置の構成）
図３は、実施の形態１に係る音響クロストーク抑圧装置１０５の機能的構成例を示すブロック図である。音響クロストーク抑圧装置１０５は、マイクｍＤで収音された、音声認識したい乗員Ｄが発話する音声の音声信号に含まれる、マイクｍＡ，ｍＢ，ｍＣで収音された乗員Ａが発話する音声の音声信号をそれぞれ畳み込み処理することで、マイクｍＤで収音された乗員Ａの発話によるクロストークを再現したクロストーク抑圧信号（抑圧信号の一例）をそれぞれ生成する。音響クロストーク抑圧装置１０５は、これらのクロストーク抑圧信号を選択的に組み合わせて合成する。音響クロストーク抑圧装置１０５は、マイクｍＤで収音された音声信号から乗員Ａの合成されたクロストーク抑圧信号を抑圧（具体的には、除去あるいは減算）することで、クロストーク成分の抑圧後の音声信号を生成する。ここで、音響クロストーク抑圧装置１０５が音声認識する対象となるメインの乗員の発話による音声信号を主信号と称し、クロストーク抑圧信号が生成された元の音声信号（つまり、クロストーク成分の発声源となるメインの乗員以外の他の乗員の発話による音声信号）を参照信号と称する。

音響クロストーク抑圧装置１０５は、ハードウェア構成として、例えばＤＳＰ１１０（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）およびメモリ１５０Ａ，１５０Ｂ，１５０Ｃ，１５０Ｄ，１５２により構成される。なお、音響クロストーク抑圧装置１０５は、ＤＳＰ１１０およびメモリ１５０Ａ，１５０Ｂ，１５０Ｃ，１５０Ｄ，１５２の他、マイクｍＡ，ｍＢ，ｍＣ，ｍＤを含んで構成されてもよい。また、ここでは、マイクｍＤに対する音響クロストーク抑圧装置１０５を例示するが、マイクｍＡに対する音響クロストーク抑圧装置１０５についても同様である。つまり、マイクｍＤで収音されたメインの乗員Ｄの音声信号を主信号（１つ）とし、マイクｍＡ，ｍＢ，ｍＣのそれぞれで収音された乗員Ａの音声信号を参照信号（３つ）として例示して説明するが、反対にマイクｍＡで収音されたメインの乗員Ａの音声信号を主信号（１つ）とし、マイクｍＤ，ｍＢ，ｍＣのそれぞれで収音されたサブの乗員Ｄの音声信号を参照信号（３つ）としてもよい。

メモリ１５０Ａは、例えばマイクｍＡで収音されたサブの乗員Ａの発話による音声の音声信号を参照信号として保持する。

メモリ１５０Ｂは、例えばマイクｍＢで収音されたサブの乗員Ａの発話による音声の音声信号を参照信号として保持する。

メモリ１５０Ｃは、例えばマイクｍＣで収音されたサブの乗員Ａの発話による音声の音声信号を参照信号として保持する。

メモリ１５０Ｄは、例えばマイクｍＤで収音されたサブの乗員Ａの発話による音声の音声信号を参照信号として保持することも可能である。

メモリ１５２は、音響クロストーク抑圧装置１０５のワークメモリとしてのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）と、音響クロストーク抑圧装置１０５の処理に関するプログラムを格納するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）とを含む。メモリ１５２は、音声認識部１４６による音声認識結果（例えば音声認識データおよびスコア値を含む）、フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃ，１２５Ｄのそれぞれで更新された更新結果の一例としてのフィルタ係数を記憶する。音声認識データは、例えばメインの乗員Ｄ（メイン話者の一例）の発話による音声の内容をテキスト化したテキストデータである。スコア値は、音声認識部１４６で行われた音声認識の処理結果であるテキストデータの信頼度（精度）を示す評価値である。例えば、スコア値が所定値を超える場合に成功（ＯＫ）とし、スコア値が所定値以下である場合に失敗（ＮＧ）として判定される。

ＤＳＰ１１０は、例えばマイクｍＤで収音されたメインの乗員Ｄの発話による音声の音声信号から、サブの乗員Ｄの発話による音声のクロストーク成分を抑圧する処理を行うプロセッサである。また、ＤＳＰ１１０は、クロストーク成分の抑圧後の音声信号の音声認識処理を行う。ここでは、プロセッサとして、ＤＳＰを用いるが、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等が用いられてもよい。また、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等で設計された専用の電子回路あるいはＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等、再構成可能に設計された電子回路が用いられてもよい。

ＤＳＰ１１０は、話者位置推定部１６１、主信号取得部１６２、参照信号取得部１６６、加算器１２２、フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃ，１２５Ｄ、ディレイ１２９Ａ，１２９Ｂ，１２９Ｃ，１２９Ｄ、畳み込み信号合成部１６５、抑圧量推定部１４３、および音声認識部１４６を有する。

話者推定部の一例としての話者位置推定部１６１は、４個のマイクｍＡ，ｍＢ，ｍＣ，ｍＤのそれぞれで収音された音声の音圧レベルを基に、車室１０８ｚ内の話者位置（つまりメインに発話している乗員の位置）を推定する。この場合、通常、乗員の前に置かれたマイクで収音された音声の音圧レベルが既定の閾値（音圧）を超えて大きい場合、話者位置推定部１６１は、その乗員による発話と判断する。主信号取得部１６２は、この判断結果に基づいて、その乗員による音声信号を主信号として選択して取得する。ただし、乗員の口元とマイクとの間に障害物Ｏｂがある場合（図２参照）、車室１０８ｚ内である閉空間特有の反射等の伝達特性によって、乗員の前に置かれたマイクよりも他のマイク（例えば乗員の前に置かれたマイクの近くに置かれる他のマイク）で収音された、その乗員が発話する音声の音圧レベルが高くなることがある。なお、事前に、そのような状況が把握される場合、話者位置推定部１６１は、乗員の前に置かれたマイクで収音された音声の音圧レベルよりも他のマイクで収音された音声の音圧レベルが高くなると、その乗員の発話であるとして話者位置を推定してもよい。

また、話者位置推定部１６１は、乗員を撮像する車室１０８ｚ内のカメラ（図示略）による撮像画像を入力し、この撮像画像に対し、顔認識を行い、例えば口を開けている乗員を話者と識別し、話者位置を推定してもよい。また、話者位置推定部１６１は、各マイクで収音された音声の音圧レベルとカメラ（図示略）による乗員の撮像画像との両方を基に、話者位置を高精度に推定してもよい。また、話者位置推定部１６１は、音声認識部１４６による音声認識結果を基に、話者位置を推定してもよい。また、話者位置推定部１６１は、予め各乗員の声紋を取得し、各声紋とこれに対応する乗員の座席位置のデータをメモリ１５２に登録しておき、各マイクで収音された音声の声紋とメモリ１５２に登録された声紋とを比較し、一致した場合に話者の座席位置を話者位置と推定してもよい。

メイン信号取得部の一例としての主信号取得部１６２は、４個のマイクｍＡ，ｍＢ，ｍＣ，ｍＤのそれぞれで収音された音声の音声信号を入力する。主信号取得部１６２は、話者位置推定部１６１での推定結果に基づいて、話者位置の乗員が発話する音声の中からいずれか１つのマイクで収音された音声の音声信号を主信号として選択して取得する。主信号取得部１６２は、主信号として選択した音声信号を収音したマイクに関する識別情報をメモリ１５２に記憶する。主信号の音声は、通常、乗員の前に置かれたマイクで収音された音声の音圧レベルが最も大きい音声であるが、障害物Ｏｂ等によって音声が遮られ、音声認識の結果、音質が良くない場合、乗員の前に置かれたマイクでなく、他のマイク（例えば乗員の前に置かれたマイクの近くに置かれる他のマイク）で収音された音圧レベルが大きい音声であってもよい。つまり、主信号取得部１６２は、話者位置推定部１６１の推定結果に基づいて、各マイクで収音された主信号となる音声信号の音声を切り替えることができる。なお、主信号取得部１６２は、最も大きい音声の音声信号を主信号としているが、例えば予め主信号となる乗員の音声信号を固定してもよい。

参照信号取得部１６６は、４個のマイクｍＡ，ｍＢ，ｍＣ，ｍＤのそれぞれで収音された音声の音声信号を入力する。参照信号取得部１６６は、メモリ１５２に記憶される識別情報（つまり主信号として選択された音声信号を収音したマイクに関する識別情報）を参照し、主信号として選択されなかった複数のマイクのそれぞれで収音される音声の音声信号を、参照信号として取得する。更に、参照信号取得部１６６は、参照信号の組み合わせを選択する。例えば図３の構成では、参照信号取得部１６６は、マイクの配置数に相当するパラメータｎ（ｎ：３以上の整数）が「４」である場合に、（ｎ－１）に相当する３個のマイク（具体的には、マイクｍＡ，マイクｍＢ，マイクｍＣ）のそれぞれで収音された参照信号の組み合わせとしてもよいし、（ｎ－２）に相当する２個のマイク（具体的には、マイクｍＡおよびマイクｍＢ、マイクｍＡおよびマイクｍＣ、またはマイクｍＢおよびマイクｍＣ）のそれぞれで収音された参照信号の組み合わせとしてもよい。また、参照信号取得部１６６は、１個のマイクｍＡ，ｍＢ，ｍＣのいずれかで収音された参照信号を選択してもよい。参照信号の音声は、通常、乗員Ａの前に置かれたマイクで収音された音声を含むが、障害物Ｏｂ等によって音声が遮られ、音声認識の結果、音質が良くない場合、乗員の前に置かれたマイクで収音された音声を含むことなく、他のマイクで収音された音声だけであってもよい。

クロストーク抑圧部の一例としての加算器１２２は、例えばマイクｍＤで収音されたメインの乗員Ｄの発話による音声の音声信号から、フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃで生成されたクロストーク抑圧信号が合成されたクロストーク合成抑圧信号を減算することで、マイクｍＤで収音されたメインの乗員Ｄの発話による音声に含まれるクロストーク成分を抑圧する。なお、上述したとおり、加算器１２２が行う処理は厳密には減算であるが、クロストーク合成抑圧信号を減算する処理であっても、クロストーク合成抑圧信号を反転させた上で加算器１２２において加算する処理と実質的に等価と考えることができる。そのため、本明細書では、このクロストーク成分の抑圧処理は、加算器１２２あるいは後述する加算器２２２が行う処理として記載する。

フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃ，１２５Ｄの処理を詳細に説明する。音響クロストーク抑圧装置１０５が抑圧するクロストーク成分は、例えば音声認識の対象外である他の乗員Ａが発話した音声が音声認識の対象である乗員Ｄの前方に配置されたマイクｍＤに到達した音声である。この音声は、車室１０８ｚ内の伝達経路を経由して、マイクｍＤに到達する。したがって、マイクｍＤが収音する音声は、乗員Ａが発話した声が伝達経路を通過するために要した時間（いわゆる遅延時間）分ずれて、乗員Ｄが発話する声と混合される音声である。

フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのそれぞれは、例えばマイクｍＤで収音されたクロストーク成分の抑圧後の音声信号と、マイクｍＡ，ｍＢ，ｍＣのそれぞれで収音され、それぞれの異なる遅延時間分ずれた参照信号とに基づいて、マイクｍＤで収音された音声に含まれるクロストーク成分を抑圧（減算）するためのクロストーク抑圧信号を生成する。フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃ，１２５Ｄは、畳み込み信号生成部１２３Ａ，１２３Ｂ，１２３Ｃ，１２３Ｄ、フィルタ係数監視部１４１Ａ，１４１Ｂ，１４１Ｃ，１４１Ｄ、更新量計算部１２６Ａ，１２６Ｂ，１２６Ｃ，１２６Ｄ、非線形変換部１２７Ａ，１２７Ｂ，１２７Ｃ，１２７Ｄ、およびノルム算出部１２８Ａ，１２８Ｂ，１２８Ｃ，１２８Ｄを有する。

フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃ，１２５Ｄはそれぞれ同様な構成を有するので、ここでは、フィルタ更新部１２５Ａを例示してその構成を説明して他のフィルタ更新部１２５Ｂ，１２５Ｃ，１２５Ｄの説明を簡略化する。例えば、以下のフィルタ更新部１２５Ａの説明において、フィルタ更新部１２５Ａが有する「畳み込み信号生成部１２３Ａ」、「更新量計算部１２６Ａ」、「非線形変換部１２７Ａ」、「ノルム算出部１２８Ａ」のそれぞれの符号中の「Ａ」の文字は適宜、「Ｂ」、「Ｃ」、「Ｄ」に置き換えてよい。つまり、フィルタ更新部１２５Ｂ、フィルタ更新部１２５Ｃおよびフィルタ更新部１２５Ｄのそれぞれも、フィルタ更新部１２５Ａの構成と同様である。

フィルタの一例としての畳み込み信号生成部１２３Ａは、例えば適応フィルタにより構成され、更新量計算部１２６Ａで計算されるフィルタ係数（パラメータの一例）を用いて参照信号に対し畳み込み処理を行い、参照信号からクロストーク抑圧信号を生成する処理を行う。この適応フィルタには、例えば、特許文献１あるいは特開２００７－１９５９５号公報等に記載されているＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタが用いられる。適応フィルタは、マイクｍＤとマイクｍＡとの間の伝達特性を再現し、参照信号を処理することによりクロストーク抑圧信号を生成する。ただし、車室１０８ｚ内の伝達特性は定常的なものではないため、適応フィルタの特性も随時変化させる必要がある。実施の形態１では、適応フィルタの係数またはタップ数を制御することによって、適応フィルタの特性が、マイクｍＤとマイクｍＡの間の最新の伝達特性に近づくよう変化させる。以下、適応フィルタの更新を、学習と表現することもある。

マイクｍＤで収音されるサブの乗員Ａの音声は、マイクｍＡで収音されるサブの乗員Ａの音声に対し、マイクｍＡからマイクｍＤに伝わる時間分遅延する。参照信号は、マイクｍＡで収音されてメモリ１５０Ａに保持されるので、マイクｍＡからマイクｍＤまでの遅延時間が反映されていない。このため、実施の形態１では、遅延器としてのディレイ１２９Ａがこの時間差を吸収する。つまり、ディレイ１２９Ａが前述した時間差（要は、マイクｍＡからマイクｍＤまでの音声の伝達経路に要する時間）の分だけ、参照信号に遅延処理を施してフィルタ更新部１２５Ａに出力する。これにより、フィルタ更新部１２５Ａは、マイクｍＤで収音されたタイミングに合致する参照信号を得ることができる。なお、フィルタ更新部１２５Ｂ，１２５Ｃのそれぞれでは、ディレイ１２９Ｂ，１２９ＣのそれぞれがマイクｍＢからマイクｍＤまでの遅延時間の時間差，マイクｍＣからマイクｍＤまでの遅延時間の時間差を吸収する。フィルタ更新部１２５Ｄでは、マイクｍＤで収音された音声信号が参照信号として用いられる場合、ディレイ１２９Ｄが同様の遅延時間の時間差を吸収する。ディレイ１２９Ａの値は、概ねマイクｍＡとマイクｍＤとの間の距離を実測し、それを音速で除算することによって得ることができる。例えば、車室１０８ｚ内での温度に基づく音速を３４０ｍ／ｓとし、かつマイクｍＡとマイクｍＤとの間の距離が３．４ｍ程度である場合、ディレイ１２９Ａの値は約１０ｍｓｅｃである。

より正確には、ディレイ１２９Ａの値（遅延時間）は、参照信号ごとに異なり、次のように求められる。例えば、マイクｍＡが乗員Ａの正面に配置され、マイクｍＤが乗員Ｄの正面に配置された車室１０８ｚ内を想定する。乗員Ａが発話しており、マイクｍＤに含まれる乗員Ａの音声を抑圧する場合、マイクｍＡで収音される音声を参照信号とすると、ディレイ１２９Ａの値は、乗員Ａの口元からマイクｍＡまでの距離と、乗員Ａの口元からマイクｍＤまでの距離との差分から計算される。一方、乗員Ｄが発話しており、マイクｍＡに含まれる乗員Ｄの音声を抑圧する場合、マイクｍＤで収音される音声を参照信号とすると、ディレイ１２９Ｄの値は、乗員Ｄの口元からマイクｍＤまでの距離と、乗員Ｄの口元からマイクｍＡまでの距離との差分から計算される。

非線形変換部１２７Ａは、クロストーク成分の抑圧後の音声信号に対して非線形変換を行う。この非線形変換は、クロストーク成分の抑圧後の音声信号を適応フィルタの更新すべき方向（正か負）を指し示す情報へと変換する処理である。非線形変換部１２７Ａは、非線形変換した後の信号を更新量計算部１２６Ａに出力する。

ノルム算出部１２８Ａは、マイクｍＡで収音された音声の音声信号のノルムを算出する。音声信号のノルムとは、過去の所定時間内の音声信号の大きさの総和であり、この時間内の信号の大きさの度合いを示す値である。更新量計算部１２６Ａは、過去にマイクｍＡで収音された音声の音量の影響を正規化するためにノルムを用いる。一般に、音量が大きいほど適応フィルタの更新量も大きく算出されてしまうため、正規化を行わなくては、適応フィルタの特性が大きな音声の特性に過剰に影響されてしまう。実施の形態１では、ディレイ１２９Ａから出力された音声信号を、ノルム算出部１２８Ａが算出したノルムを用いて正規化することで適応フィルタの更新量を安定させている。

更新量計算部１２６Ａは、非線形変換部１２７Ａ、ノルム算出部１２８Ａおよびディレイ１２９Ａから受け取る信号を用いて、畳み込み信号生成部１２３Ａのフィルタ特性の更新量（具体的には、適応フィルタの係数またはタップ数の更新量）を計算する。更新量計算部１２６Ａは、ディレイ１２９Ａを経由した、マイクｍＡで収音された音声の音声信号をノルム算出部１２８Ａで算出したノルムに基づき正規化する。更新量計算部１２６Ａは、マイクｍＡで収音された音声の音声信号を正規化した結果に、非線形変換部１２７Ａから得られた情報に基づき正または負の情報を付加することで更新量を決定する。実施の形態１では、更新量計算部１２６Ａは、ＩＣＡ（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ、独立成分解析）によりフィルタ特性の更新量を計算する。なお、ここでは、更新量計算部は、適応フィルタの係数（以下、フィルタ係数という）を更新する場合を示すが、フィルタ係数の代わりに、あるいはフィルタ係数と共にタップ数を更新してもよい。

フィルタ更新部１２５Ａは、更新量計算部１２６Ａ、非線形変換部１２７Ａおよびノルム算出部１２８Ａの処理を随時実行していくことで、畳み込み信号生成部１２３Ａの特性を、マイクｍＡとマイクｍＤの間の伝達特性に近づける。

合成部の一例としての畳み込み信号合成部１６５は、４つのフィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃ，１２５Ｄのうち、主信号に対応するフィルタ更新部（ここでは、フィルタ更新部１２５Ｄ）を除く３つのフィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃからそれぞれ出力されるクロストーク抑圧信号を全てまたは一部を選択して合成し、合成クロストーク抑圧信号（合成抑圧信号の一例）を加算器１２２に出力する。畳み込み信号合成部１６５は、３つのフィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのうち、２つのフィルタ更新部（例えばフィルタ更新部１２５Ａ，１２５Ｂ）から出力されるクロストーク抑圧信号を選択して合成してもよい。例えば、畳み込み信号合成部１６５は、２つのフィルタ更新部１２５Ａ，１２５Ｂのペア、２つのフィルタ更新部１２５Ａ，１２５Ｃのペア、または２つのフィルタ更新部１２５Ｂ，１２５Ｃのペアから出力されるクロストーク抑圧信号を合成してもよい。また、畳み込み信号合成部１６５は、１つのフィルタ更新部１２５Ａ、フィルタ更新部１２５Ｂ、またはフィルタ更新部１２５Ｃからのクロストーク抑圧信号をそのまま出力してもよい。

なお、ここでは、畳み込み信号合成部１６５は、主信号に対応するフィルタ更新部１２５Ｄからのクロストーク抑圧信号を合成しないが、フィルタ更新部１２５Ｄを加え、４つのフィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃ，１２５Ｄで生成されるクロストーク抑圧信号を全てあるいは上記と同様に選択して合成してもよい。また、畳み込み信号合成部１６５は、１つのフィルタ更新部１２５Ｄからのクロストーク抑圧信号をそのまま出力してもよい。この場合、フィルタ更新部１２５Ｄでは、畳み込み信号生成部１２３Ｄに入力される参照信号が、マイクｍＡで収音された乗員Ａの発話による音声であるので、フィルタ更新部１２５Ｄから出力されるクロストーク抑圧信号は、フィルタ係数が同じであると、フィルタ更新部１２５Ａから出力されるクロストーク抑圧信号と同じであると考えられる。

抑圧量推定部１４３は、加算器１２２から出力されるクロストーク成分の抑圧後の音声信号と、マイクｍＤで収音された音声の音声信号とを基に、これらの差分を抑圧量として算出し、主信号取得部１６２および参照信号取得部１６６に出力する。

音声認識部１４６は、加算器１２２から出力されるクロストーク成分の抑圧後の音声信号を基に、音声認識を行い、音声認識結果として音声認識データ（例えばテキストデータ）および評価値（スコア値）を出力し、メモリ１５２に記憶する。例えば、音声認識部１４６がモニタ（図示略、例えば車両１０８に搭載されているカーナビゲーション装置のディスプレイ）に接続される場合、音声認識結果は、テキストとして画面に表示される。また、音声認識部１４６が通信装置に接続される場合、音声認識結果は、通信データとして送信される。また、音声認識部１４６がスピーカに接続される場合、音声認識結果は、音声として出力される。

なお、音響クロストーク抑圧装置１０５は、音声認識部１４６を備える代わりに、ネットワークに接続可能な通信部を備え、ネットワークを介してクラウドサーバ（図示略）に対しクロストーク成分の抑圧後の音声信号に基づく音声データを送信し、クラウドサーバが音声認識を行い、クラウドサーバから音声認識結果を受信してモニタ、スピーカ等に出力してもよい。

（音響クロストーク抑圧装置の動作）
次に、実施の形態１に係る音響クロストーク抑圧装置１０５の動作を説明する。

ここでは、マイクｍＤで収音される乗員Ｄが発話する音声を音声認識の対象とし、マイクｍＤで収音される乗員Ａが発話する音声をクロストーク成分とする場合を示す、なお、マイクｍＡで収音される乗員Ａが発話する音声を音声認識の対象とし、マイクｍＡで収音される乗員Ｄが発話する音声をクロストーク成分としてもよい。

図４は、実施の形態１に係る音響クロストーク抑圧装置１０５の動作手順例を示すフローチャートである。図４の処理は、音響クロストーク抑圧装置１０５を構成するＤＳＰ１１０により実行され、マイクｍＤで収音されて音響クロストーク抑圧装置１０５に入力される音声の音声信号の１サンプルごとに繰り返して実行される。

図４において、主信号取得部１６２は、４個のマイクｍＡ，ｍＢ，ｍＣ，ｍＤのうち、例えばマイクｍＤによって最も大きな音圧レベルで収音された音声の音声信号を、音声認識したい主信号として取得する（Ｓ１０１）。

参照信号取得部１６６は、主信号となるマイクｍＤ以外の最大３個のマイクｍＡ，ｍＢ，ｍＣのそれぞれで収音された音声の音声信号を、参照信号として取得する（Ｓ１０２）。また、マイクｍＡ，ｍＢ，ｍＣのそれぞれで収音された音声の音声データは、ＤＳＰ１１０によってメモリ１５０Ａ，１５０Ｂ，１５０Ｃに記憶される。

話者位置推定部１６１は、４個のマイクｍＡ，ｍＢ，ｍＣ，ｍＤのそれぞれで収音された音声の音声信号を入力し、音声信号の音圧レベルを基に、話者位置を推定する（Ｓ１０３）。ここでは、乗員Ｄが発話し、その音声信号の音圧レベルを基に、話者位置が乗員Ｄと推定されるが、乗員Ａが発話した場合、話者位置が乗員Ａであってもよい。

フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのそれぞれは、メモリ１５２に記憶されている対応するフィルタ係数を読み込み、畳み込み信号生成部１２３Ａ，１２３Ｂ，１２３Ｃのそれぞれに設定する（Ｓ１０４）。なお、フィルタ更新部１２５Ｄは、例えばメモリ１５２に記憶されている対応するフィルタ係数を読み込み、畳み込み信号生成部１２３Ｄに設定してもよい。

フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのそれぞれは、マイクｍＡ，ｍＢ，ｍＣのそれぞれで収音され、ディレイ１２９Ａ，１２９Ｂ，１２９Ｃのそれぞれで遅延処理が施された各参照信号を用いて、クロストーク抑圧信号をそれぞれ生成する。すなわち、畳み込み信号生成部１２３Ａ，１２３Ｂ，１２３Ｃのそれぞれは、メモリ１５２に記憶された対応するフィルタ係数、または更新量計算部１２６Ａ，１２６Ｂ，１２６Ｃで計算されるフィルタ係数を用いて、遅延時間分ずれた参照信号に対し畳み込み処理を行い、遅延時間分ずれた参照信号からクロストーク抑圧信号を生成する。さらに、畳み込み信号合成部１６５は、参照信号の組み合わせに従い、これらのクロストーク抑圧信号を合成する。加算器１２２は、マイクｍＤで収音された音声の音声信号から、畳み込み信号合成部１６５により生成された合成クロストーク抑圧信号を減算し、マイクｍＤで収音された音声に含まれるクロストークを抑圧する（Ｓ１０５）。

ＤＳＰ１１０は、フィルタ学習期間であるか否かを判別する（Ｓ１０６）。フィルタ学習期間は、音声認識の対象である乗員Ｄに対し、クロストーク成分の発声源となる乗員Ａが少なくとも発話している期間である。また、フィルタ学習期間でない期間は、クロストーク成分の発声源となる乗員Ａが発話していない期間である。フィルタ学習期間である場合、フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのそれぞれは、更新量計算部１２６Ａ，１２６Ｂ，１２６Ｃのそれぞれで計算されるフィルタ係数で畳み込み信号生成部１２３Ａ，１２３Ｂ，１２３Ｃのそれぞれのフィルタ係数を更新し、メモリ１５２に記憶する（Ｓ１０７）。一方、フィルタ学習期間でない場合、ＤＳＰ１１０は、ステップＳ１０８の処理に進む。

抑圧量推定部１４３は、加算器１２２から出力されるクロストーク抑圧後の音声信号と、マイクｍＤで収音された音声の音声信号とを基に、これらの差分を抑圧量として算出する（Ｓ１０８）。

音声認識部１４６は、加算器１２２から出力されるクロストーク抑圧後の音声信号を基に、音声認識を行い、音声認識結果として音声認識データおよびスコア値を出力し、メモリ１５２に記憶する（Ｓ１０９）。

フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのそれぞれは、フィルタ係数の学習が完了したか否かを判別する（Ｓ１１０）。ここでは、所定期間におけるフィルタ係数の変動幅が第２閾値以内である場合、フィルタ係数の学習が完了していると判断される。フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのそれぞれのうち、少なくとも１つのフィルタ係数が収束していない場合、ＤＳＰ１１０は、フィルタ係数の学習が完了していないと判断し、図４に示す処理を終了する。一方、フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのフィルタ係数が全て収束している場合、フィルタ係数の学習が完了していると判断する。

抑圧量推定部１４３は、ステップＳ１０８で算出された抑圧量が第１閾値を超えるか否かを判別する（Ｓ１１１）。抑圧量が第１閾値を超える場合、音声認識部１４６は、Ｓ１０９で音声認識が成功したか失敗したかを判別する（Ｓ１１２）。音声認識が成功した場合、ＤＳＰ１１０は、図４に示す処理を終了する。

一方、ステップＳ１１１で抑圧量が第１閾値以下である場合、またはステップＳ１１２で音声認識が失敗した場合、ＤＳＰ１１０は、主信号、または参照信号の組み合わせを変更する（Ｓ１１３）。参照信号取得部１６６が、マイクｍＡ，マイクｍＢおよびマイクｍＣでそれぞれ収音される各音声の各参照信号の組み合わせを変更する。また、主信号取得部１６２は、主信号として、例えば、マイクｍＤで収音される乗員Ｄによる音声の音声信号から、乗員Ｄの近傍に配置されたマイクｍＣで収音される乗員Ｄによる音声の音声信号に切り替えてもよい。なお、主信号は、マイクｍＣで収音される乗員Ｄの音声信号に限らず、マイクｍＡで収音される乗員Ｄの音声信号、またはマイクｍＢで収音される乗員Ｄの音声信号に切り替えられてもよい。また、乗員Ａが発話する音声の音圧レベルが乗員Ｄが発話する音声の音圧レベルより大きい場合、主信号は、乗員Ｄが発話する音声の音声信号から、乗員Ａが発話する音声の音声信号に切り替えられてもよい。

ここでは、主信号または参照信号の組み合わせを変更する場合、つまり、ステップＳ１１１で抑圧量が第１閾値以下である場合、またはステップＳ１１２で音声認識が失敗した場合、参照信号取得部１６６は、主信号取得部１６２に先行して参照信号の組み合わせを変更する。そして、全ての参照信号の組み合わせを変更しても、抑圧量の第１閾値以下または音声認識の失敗の状態が継続する場合、主信号取得部１６２は主信号を変更する。なお、主信号取得部１６２は、参照信号取得部１６６に先行して主信号を変更し、全ての主信号を変更しても、抑圧量の第１閾値以下または音声認識の失敗の状態が継続する場合、参照信号取得部１６６が参照信号の組み合わせを変更するようにしてもよい。

また、参照信号取得部１６６は、合成クロストーク抑圧信号の生成に用いられる各参照信号の組み合わせを、始めに、最大３個のマイクのそれぞれにより収音された最大個の参照信号の組み合わせとし、その後、個数を減らす方向で他の参照信号の組み合わせに入れ替える。これにより、クロストーク成分の抑圧性能が最も高いと考えられる最大個の参照信号の組み合わせでクロストークの抑圧を開始することで、速やかに、クロストーク成分を所望の抑圧量で抑圧でき、またフィルタ更新部のフィルタ係数を収束できる。また、参照信号の組み合わせの個数が同数である場合、例えば音圧レベルが大きいマイク、あるいは他の話者である乗員Ａの前に配置されたマイクで収音される音声の参照信号を優先して含むように、参照信号の組み合わせが組まれてもよい。

また、参照信号取得部１６６は、参照信号の組み合わせを変更する場合、過去の検出結果を基に、つまり、音声認識結果が成功あるいは抑圧量が第１閾値以上となるような参照信号の組み合わせの優先順位を高く設定しデータベースとしてメモリ１５２に保持しておき、各マイクで収音された各参照信号を基に、登録された優先順位にしたがって参照信号の組み合わせを選択してもよい。また、参照信号取得部１６６は、各マイクで収音された各参照信号の相互相関または周波数特性を比較し、これらの比較結果を基に、音声認識結果が成功あるいは抑圧量が第１閾値以上となるような参照信号の組み合わせをリアルタイムで学習してもよい。

なお、音響クロストーク抑圧装置１０５は、抑圧量推定部１４３によって算出された抑圧量、および音声認識部１４６による音声認識結果の少なくとも一方を基に、クロストーク成分の抑圧性能を判定したが、これらに限らず、例えば、音質を評価可能なフィルタ係数の収束度合等で判定してもよい。

ステップＳ１１３で主信号または参照信号の組み合わせが変更されると、フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃは、フィルタ係数を初期化する（Ｓ１１４）。フィルタ係数が初期化されると、ＤＳＰ１１０は、図４に示す処理を終了する。この後、フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのそれぞれは、次の１サンプルでフィルタ係数の学習を再開する。

実施の形態１に係る音響クロストーク抑圧装置１０５は、音声認識の対象となる、乗員Ｄが発話する音声の音声信号を主信号とし、マイクｍＡ，マイクｍＢおよびマイクｍＣのそれぞれで収音された乗員Ａが発話する音声の音声信号を参照信号とする場合、乗員Ｄが発話する音声の主信号に含まれる、乗員Ａが発話する音声によるクロストーク成分を、複数の参照信号を用いて効果的に抑圧できる。また、音響クロストーク抑圧装置１０５は、主信号または参照信号の組み合わせを動的に変更することで、主信号に含まれるクロストーク成分を適応的に抑圧できる。したがって、乗員Ｄの発話音声の音質を改善できる。

このように、音響クロストーク抑圧装置１０５は、４人の乗員が着座可能な座席のそれぞれに対応して車室１０８ｚ内に配置される４個のマイクｍＡ，ｍＢ，ｍＣ，ｍＤのそれぞれにより収音された各音声信号に基づいて、車室１０８ｚ内での乗員Ｄを話者位置推定部１６１において推定する。音響クロストーク抑圧装置１０５は、乗員Ｄが発話する音声の音声信号に含まれる乗員Ａ（他の話者の一例）の発話によるクロストーク成分のクロストーク抑圧信号を生成する畳み込み信号生成部１２３Ａ，１２３Ｂ，１２３Ｃ，１２３Ｄのそれぞれを有し、クロストーク成分を抑圧するための畳み込み信号生成部１２３Ａ，１２３Ｂ，１２３Ｃ，１２３Ｄのフィルタ係数（パラメータ）を更新してその更新結果を、対応する４個のフィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃ，１２５Ｄにおいて保持する。音響クロストーク抑圧装置１０５は、乗員Ｄに対応するマイク以外の最大３個のマイクのそれぞれにより収音された各参照信号に対応する、最大３個のフィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのそれぞれにより生成されたクロストーク抑圧信号に基づく合成クロストーク抑圧信号を用いて、乗員Ｄの音声信号に含まれるクロストーク成分を加算器１２２において抑圧する。

これにより、音響クロストーク抑圧装置１０５は、乗員Ｄが発話する音声の音声信号（主信号の一例）に含まれる、乗員Ａが発話する音声によるクロストーク成分を、複数の参照信号を用いて効果的に抑圧できる。また、音響クロストーク抑圧装置１０５は、主信号または参照信号の組み合わせを動的に変更することで、主信号に含まれるクロストーク成分を適応的に抑圧できる。したがって、音響クロストーク抑圧装置１０５は、車室１０８ｚ等の閉空間に存在するメイン話者の発話音声に含まれ得る音響的なクロストーク成分を適応的に抑圧でき、メイン話者の発話音声の音質を改善できる。

また、音響クロストーク抑圧装置１０５は、最大３個のフィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのそれぞれにより生成されたクロストーク抑圧信号を合成して合成クロストーク抑圧信号を生成する畳み込み信号合成部１６５を更に備える。これにより、音響クロストーク抑圧装置１０５は、最大３個のマイクに対応する最大３個のフィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのそれぞれにより生成された全てのクロストーク抑圧信号を用いてクロストーク成分を抑圧できる。したがって、クロストーク成分の抑圧性能の向上が期待できる。

また、最大３個の前記フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのそれぞれが有する畳み込み信号生成部１２３Ａ，１２３Ｂ，１２３Ｃは、それぞれ保持されている最新のフィルタ係数を用いて、クロストーク抑圧信号を生成する。これにより、音響クロストーク抑圧装置１０５は、現在の車室１０８ｚ内の状況に最も近い状況を反映したクロストーク抑圧信号を生成できる。したがって、クロストーク成分の抑圧性能が向上する。

また、クロストーク成分の発声源となる乗員Ａに対応するマイクｍＡにより収音された参照信号に対応するフィルタ更新部１２５Ａは、その参照信号を用いて、自己が有する畳み込み信号生成部１２３Ａのフィルタ係数を更新し、その更新結果をメモリ１５２に保持する。これにより、フィルタ更新部は、対応するマイクにより収音された音声の参照信号を用いて、フィルタ係数を適応的に更新できる。

また、音響クロストーク抑圧装置１０５は、クロストーク成分の抑圧量を推定する抑圧量推定部１４３と、抑圧量が第１閾値以下であると判定した場合に、４個のマイクｍＡ，ｍＢ，ｍＣ，ｍＤのうち乗員Ｄの近傍に配置された他のマイクｍＡ，マイクｍＢまたはマイクｍＣにより収音された音声信号を、乗員Ｄの音声信号として入れ替える主信号取得部１６２と、を更に備える。これにより、音響クロストーク抑圧装置１０５は、クロストーク成分の抑圧量が少ない場合、乗員Ｄの近傍に配置された他のマイクで収音される乗員Ｄの音声の音声信号を主信号とすることで、クロストーク成分の抑圧量を増加させることができる。したがって、話者である乗員Ｄの前に置かれたマイクと乗員の口元の間に障害物Ｏｂがある、車室１０８ｚ内の閉空間に特有な伝達特性などの車室１０８ｚ内の状況によらず、所望のクロストーク成分の抑圧が期待できる。

また、音響クロストーク抑圧装置１０５は、クロストーク成分の抑圧量を推定する抑圧量推定部１４３と、抑圧量が第１閾値以下であると判定した場合に、合成クロストーク抑圧信号の生成に用いられる各参照信号の組み合わせを他の参照信号の組み合わせに入れ替える参照信号取得部１６６と、を更に備える。入れ替え後の他の参照信号のそれぞれに対応するフィルタ更新部は、入力された他の参照信号に基づいてクロストーク抑圧信号を再生成する。これにより、音響クロストーク抑圧装置１０５は、クロストーク成分の抑圧量が少ない場合であっても、合成クロストーク抑圧信号の生成に用いられる各参照信号の組み合わせを変えることで、クロストーク成分の抑圧量を増加させることができる。したがって、他の話者である乗員Ａの前に置かれたマイクと乗員Ａの口元の間に障害物Ｏｂがある、車室１０８ｚ内の閉空間に特有な伝達特性などの車室内の状況によらず、所望のクロストーク成分の抑圧が期待できる。

また、音響クロストーク抑圧装置１０５は、クロストーク抑圧後の音声信号（クロストーク成分が抑圧されたメイン話者の音声信号の一例）に基づいて、乗員Ｄの発話内容を音声認識する音声認識部１４６と、音声認識が失敗したと判定した場合に、４個のマイクのうち乗員Ｄの近傍に配置された他のマイクにより収音された音声信号を、乗員Ｄの音声信号として切り替える主信号取得部１６２と、を更に備える。これにより、音響クロストーク抑圧装置１０５は、乗員Ｄの近傍に配置された他のマイクで収音される乗員Ｄの音声の音声信号を主信号とすることで、音声認識を成功させることができる。したがって、乗員Ｄの前に置かれたマイクと乗員Ｄの口元の間に障害物がある、車室１０８ｚ内の閉空間に特有な伝達特性などの車室１０８ｚ内の状況によらず、音声認識の成功が期待できる。

また、音響クロストーク抑圧装置１０５は、クロストーク抑圧後の音声信号に基づいて、乗員Ｄの発話内容を音声認識する音声認識部１４６と、音声認識が失敗したと判定した場合に、合成クロストーク抑圧信号の生成に用いられる各参照信号の組み合わせを他の参照信号の組み合わせに入れ替える参照信号取得部１６６と、を更に備える。入れ替え後の他の参照信号のそれぞれに対応するフィルタ更新部は、入力された他の参照信号に基づいてクロストーク抑圧信号を再生成する。これにより、音響クロストーク抑圧装置１０５は、音声認識が失敗した場合であっても、合成クロストーク抑圧信号の生成に用いられる各参照信号の組み合わせを変えることで、音声認識を成功させることができる。したがって、乗員Ｄの前に置かれたマイクと乗員Ｄの口元の間に障害物Ｏｂがある、車室１０８ｚ内の閉空間に特有な伝達特性などの車室１０８ｚ内の状況によらず、音声認識の成功が期待できる。

また、参照信号取得部１６６は、合成ストローク抑圧信号の生成に用いられる各参照信号の組み合わせを、始めに、最大３個のマイクのそれぞれにより収音された最大個の参照信号の組み合わせとし、その後、個数を減らす方向で他の参照信号の組み合わせに入れ替える。これにより、クロストーク成分の抑圧性能が最も高いと考えられる最大個の参照信号の組み合わせでクロストークの抑圧を開始することで、音響クロストーク抑圧装置１０５は、速やかにクロストーク成分を所望の抑圧量で抑圧でき、またフィルタ更新部のフィルタ係数の収束を早めることができる。

（実施の形態２）
実施の形態１では、音響クロストーク抑圧装置１０５クロストーク成分の抑圧性能が高くなかった場合に主信号または参照信号の組み合わせを変更し、フィルタ係数を初期化した。この場合、音響クロストーク抑圧装置１０５が新たなフィルタ係数を学習するまでの間、クロストーク成分の抑圧ができない空白期間があった。実施の形態２では、この空白期間が生じないようにする音響クロストーク抑圧装置１０５Ａの例を説明する。

図５および図６は、実施の形態２に係る音響クロストーク抑圧装置１０５Ａの機能的構成例を示すブロック図である。音響クロストーク抑圧装置１０５Ａの構成の図示が図５および図６の両方に亘るので、丸記号内にアルファベットを記載した記号によって各部の接続関係を図示している。

実施の形態２に係る音響クロストーク抑圧装置１０５Ａの説明において、実施の形態１に係る音響クロストーク抑圧装置１０５と同一の構成要素については同一の符号を用いることで、その説明を簡略化あるいは省略し、異なる内容について説明する。ここで、実施の形態１に係る参照信号取得部１６６、４つのディレイ１２９Ａ，１２９Ｂ，１２９Ｃ，１２９Ｄ、４つのフィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃ，１２５Ｄ、畳み込み信号合成部１６５、加算器１２２、および抑圧量推定部１４３を含む部分の構成を第１信号処理部１８０と称する。つまり、第１信号処理部１８０は、参照信号取得部１６６、４つのディレイ１２９Ａ，１２９Ｂ，１２９Ｃ，１２９Ｄ、４つのフィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃ，１２５Ｄ、畳み込み信号合成部１６５、加算器１２２、および抑圧量推定部１４３を含む。それぞれの構成は実施の形態１と同様であるため、説明を簡略化する。

音響クロストーク抑圧装置１０５Ａは、第１信号処理部１８０と、第１信号処理部１８０の内部構成と同等の内部構成を有する第２信号処理部１８０Ａと、出力選択部１４８とを含む構成である。第２信号処理部１８０Ａの内部構成において、第１信号処理部１８０の同等の内部構成の符号については、符号の末尾に「Ａ」を付す、あるいは対応する２００番台の符号とする。すなわち、第２信号処理部１８０Ａは、参照信号取得部１６６Ａ、４つのディレイ２２９Ａ，２２９Ｂ，２２９Ｃ，２２９Ｄ、４つのフィルタ更新部２２５Ａ，２２５Ｂ，２２５Ｃ，２２５Ｄ、畳み込み信号合成部１６５Ａ、加算器１２２Ａ、および抑圧量推定部１４３Ａを含む。

４つのフィルタ更新部２２５Ａ，２２５Ｂ，２２５Ｃ，２２５Ｄのそれぞれは、実施の形態１と同様、畳み込み信号生成部２２３Ａ，２２３Ｂ，２２３Ｃ，２２３Ｄのそれぞれと、フィルタ係数監視部２４１Ａ，２４１Ｂ，２４１Ｃ，２４１Ｄのそれぞれと、更新量計算部２２６Ａ，２２６Ｂ，２２６Ｃ，２２６Ｄのそれぞれと、非線形変換部２２７Ａ，２２７Ｂ，２２７Ｃ，２２７Ｄのそれぞれと、ノルム算出部２２８Ａ，２２８Ｂ，２２８Ｃ，２２８Ｄのそれぞれとを対応するように有する。

出力選択部１４８は、第１信号処理部１８０の加算器１２２から出力される第１クロストーク成分抑圧後の信号と、第２信号処理部１８０Ａの加算器１２２Ａから出力される第２クロストーク成分の抑圧後の信号とのいずれかを選択し、音声認識部１４６に出力する。出力選択部１４８は、クロストーク成分の抑圧後の音声信号を選択する際、第１信号処理部１８０および第２信号処理部１８０Ａの一方がフィルタ係数を学習中である場合、学習中のクロストーク成分の抑圧後の音声信号では主信号に含まれるクロストーク成分が抑圧されないと判断して、他方の学習済みであるフィルタ係数を用いて生成されたクロストーク成分の抑圧後の音声信号を選択する。

次に、実施の形態２に係る音響クロストーク抑圧装置１０５Ａの動作を示す。

図７および図８は、実施の形態２に係る音響クロストーク抑圧装置１０５Ａの動作手順例を示すフローチャートである。実施の形態１に係る音響クロストーク抑圧装置１０５の処理と同一の処理については、同一のステップ番号を付すことでその説明を簡略化あるいは省略し、異なる内容について説明する。実施の形態２では、音響クロストーク抑圧装置１０５Ａは、第１信号処理部１８０が行う信号処理（以下、「第１信号処理」と称する）と並行して、第２信号処理部１８０Ａが信号処理（以下、「第２信号処理」と称する）を行う。第１信号処理は、実施の形態１に係るステップＳ１０１～Ｓ１０８の一連の処理と同一であるので、図７あるいは図８において同一のステップ番号を付すことでその説明を省略する。一方、第２信号処理は、主信号あるいは参照信号の組み合わせが第１信号処理と異なる点を除けば第１信号処理と実質的に同様の処理である。このため、第１信号処理におけるステップＳ１０１～Ｓ１０８の一連の処理のステップ番号に対応するステップ番号（ここでは、末尾「Ａ」を付加）を付すことでその説明を簡略化あるいは省略する。

図７において、音響クロストーク抑圧装置１０５Ａでは、第１信号処理部１８０の抑圧量推定部１４３が、ステップＳ１０８で主信号に含まれるクロストーク成分の第１抑圧量を算出し、第２信号処理部１８０Ａの抑圧量推定部１４３Ａが、ステップＳ１０８と対応するステップＳ１０８Ａで主信号に含まれるクロストーク成分の第２抑圧量を算出する。この後、出力選択部１４８は、これらの第１抑圧量および第２抑圧量のうち、クロストーク抑圧性能のより良い方（つまり、クロストーク成分の抑圧量が大きい方）のクロストーク成分の抑圧後の音声信号を選択する（Ｓ１５１）。

音声認識部１４６は、出力選択部１４８で選択されたクロストーク成分の抑圧後の音声信号を入力し、この音声信号に音声認識処理を行う（Ｓ１５２）。

第１信号処理部１８０のフィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのそれぞれは、フィルタ係数の学習が完了したか否かを判別する（Ｓ１５３）。ここでは、実施の形態１と同様、所定期間におけるフィルタ係数の変動幅が第２閾値以内である場合、フィルタ係数の学習が完了していると判断される。フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのうち、少なくとも１つのフィルタ係数が収束していない場合、フィルタ係数の学習は完了していないと判断される。一方、フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃのフィルタ係数が全て収束している場合、フィルタ係数の学習は完了していると判断される。フィルタ係数の学習が完了していないと判断された場合（Ｓ１５３、ＮＯ）、ＤＳＰ１１０Ａは、図８の処理を終了する。

フィルタ係数の学習が完了している場合（Ｓ１５３、ＹＥＳ）、第２信号処理部１８０Ａのフィルタ更新部２２５Ａ，２２５Ｂ，２２５Ｃのそれぞれは、フィルタ係数の学習が完了したか否かを判別する（Ｓ１５４）。フィルタ係数の学習の完了の有無は、ステップＳ１５３の処理と同様に判断される。フィルタ係数の学習が完了していないと判断された場合（Ｓ１５４、ＮＯ）、ＤＳＰ１１０Ａは、図８の処理を終了する。

フィルタ係数の学習が完了している場合（Ｓ１５４、ＹＥＳ）、ＤＳＰ１１０Ａは、第１信号処理部１８０によるクロストーク成分の抑圧性能（以下、「第１信号処理部１８０の抑圧性能」と称する）と、第２信号処理部１８０Ａによるクロストーク成分の抑圧性能（以下、「第２信号処理部１８０Ａの抑圧性能」と称する）とを比較する。つまり、ＤＳＰ１１０Ａは、第１信号処理部１８０の抑圧性能より第２信号処理部１８０Ａの抑圧性能が良いか否かを判別する（Ｓ１５５）。クロストーク成分の抑圧性能は、例えばステップＳ１０８，Ｓ１０８Ａのそれぞれで算出されるクロストーク成分の抑圧量で判断されてもよい。また、クロストーク成分の抑圧性能は、音声認識部１４６が第１信号処理部１８０および第２信号処理部１８０Ａのそれぞれから出力されるクロストーク成分の抑圧後の音声信号の双方に対し音声認識を行う場合、音声認識結果であるスコア値で判断されてもよい。

第１信号処理部１８０の抑圧性能より第２信号処理部１８０Ａの抑圧性能が良い場合（Ｓ１５５、ＹＥＳ）、参照信号取得部１６６は、第１信号処理部１８０に、参照信号の組み合わせの変更を指示する（Ｓ１５６）。参照信号取得部１６６は、この指示に応じて、参照信号の組み合わせを変更する。また、主信号取得部１６２は、第１信号処理部１８０に、主信号の変更を指示してもよい。主信号取得部１６２は、この指示に応じて、主信号を変更する。なお、主信号または参照信号の組み合わせの変更手順は、実施の形態１と同様の手順で行われる。

主信号または参照信号の組み合わせが変更されると、第１信号処理部１８０のフィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃは、フィルタ係数を初期化する（Ｓ１５７）。フィルタ係数が初期化されると、ＤＳＰ１１０Ａは、図８の処理を終了する。この後、フィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃは、次の１サンプルでフィルタ係数の学習を再開する。第１信号処理部１８０がフィルタ係数を学習している期間、第２信号処理部１８０Ａによるクロストーク成分の抑圧が行われる。

一方、第２信号処理部１８０Ａの抑圧性能より第１信号処理部１８０の抑圧性能が良い場合（Ｓ１５５、ＮＯ）、参照信号取得部１６６Ａは、第２信号処理部１８０Ａに、参照信号の組み合わせの変更を指示する（Ｓ１５８）。参照信号取得部１６６Ａは、この指示に応じて、参照信号の組み合わせを変更する。また、主信号取得部１６２は、第２信号処理部１８０Ａに、主信号の変更を指示してもよい。主信号取得部１６２は、この指示に応じて、主信号を変更する。なお、主信号または参照信号の組み合わせの変更手順は、実施の形態１と同様の手順で行われる。

主信号または参照信号の組み合わせが変更されると、第２信号処理部１８０Ａのフィルタ更新部２２５Ａ，２２５Ｂ，２２５Ｃは、フィルタ係数を初期化する（Ｓ１５９）。フィルタ係数が初期化されると、ＤＳＰ１１０Ａは、図８に示す処理を終了する。この後、フィルタ更新部２２５Ａ，２２５Ｂ，２２５Ｃは、次の１サンプルでフィルタ係数の学習を再開する。第２信号処理部１８０Ａがフィルタ係数を学習している期間、第１信号処理部１８０によるクロストーク成分の抑圧が行われる。

なお、主信号および参照信号の組み合わせは、第１信号処理部１８０と第２信号処理部１８０Ａとで同じ組み合わせに変更されてもよい。同じ組み合わせに変更される場合、第１信号処理部１８０と第２信号処理部１８０Ａとでは、学習済みとなるまでこれらのフィルタ係数が異なる。

実施の形態２に係る音響クロストーク抑圧装置１０５Ａは、第１信号処理部１８０および第２信号処理部１８０Ａの双方でフィルタ係数が十分に学習された場合、音響クロストーク抑圧装置１０５Ａは、クロストーク成分の抑圧性能を比較し、抑圧性能の劣る方に対し、主信号または参照信号の組み合わせを変更する。音響クロストーク抑圧装置１０５Ａは、抑圧性能の劣る方で新たなフィルタ係数が学習されるまでの間、第１信号処理部１８０および第２信号処理部１８０Ａのうち、抑圧性能の優る方で得られたフィルタ係数を用いてクロストーク成分を抑圧する。したがって、音響クロストーク抑圧装置１０５Ａは、クロストーク成分を抑圧できない空白期間を省くことができる。また、第１信号処理部１８０および第２信号処理部１８０Ａのいずれに対しても、抑圧性能を高めることができる。また、抑圧性能の優る方からクロストーク成分の抑圧後の音声信号に対し、音声認識が行われるので、音声認識率が向上する。

このように、音響クロストーク抑圧装置１０５Ａは、４個のフィルタ更新部１２５Ａ，１２５Ｂ，１２５Ｃ，１２５Ｄおよび加算器１２２を少なくとも含む第１信号処理部１８０と、４個のフィルタ更新部２２５Ａ，２２５Ｂ，２２５Ｃ，２２５Ｄおよび加算器１２２Ａを少なくとも含む第２信号処理部１８０Ａと、を含む。また、音響クロストーク抑圧装置１０５Ａは、第１信号処理部１８０により生成されたクロストーク抑圧後の音声信号（つまり、第１合成抑圧信号を用いてクロストーク成分が抑圧された後のメイン話者の第１音声信号）と、第２信号処理部１８０Ａにより生成されたクロストーク抑圧後の音声信号（つまり、第２合成抑圧信号を用いてクロストーク成分が抑圧された後のメイン話者の第２音声信号）とのうちいずれかを出力選択部１４８において選択して出力する。第１信号処理部１８０で抑圧される乗員Ｄの音声信号および各参照信号の組み合わせと、第２信号処理部１８０Ａで抑圧される乗員Ｄの音声信号および各参照信号の組み合わせとが異なる。

これにより、音響クロストーク抑圧装置１０５Ａは、第１信号処理部１８０または第２信号処理部１８０Ａのいずれかの抑圧性能が低い場合、第１信号処理部または第２信号処理部のうち、抑圧性能の低い一方の、マイクで収音される乗員Ｄの音声信号および／または各参照信号の組み合わせを選択し直してフィルタ係数を再学習する際、他方を用いてクロストーク成分を抑圧することで、一方のフィルタ更新部のフィルタ係数が再学習されるまでの間、クロストーク成分を抑圧できない状況を回避できる。また、第１信号処理部１８０と第２信号処理部１８０Ａとでは、マイクで収音される乗員Ｄの音声信号および／または各参照信号の組み合わせが異なるので、抑圧性能が優る方の第１信号処理部１８０または第２信号処理部１８０Ａを使用することで、クロストーク成分の抑圧性能が向上する。

また、第１信号処理部１８０は、クロストーク抑圧後の音声信号（第１合成抑圧信号の一例）に基づくクロストーク成分の第１抑圧量を推定する抑圧量推定部１４３を有する。第２信号処理部１８０Ａは、クロストーク抑圧後の音声信号（第２合成抑圧信号の一例）に基づくクロストーク成分の第２抑圧量を推定する抑圧量推定部１４３Ａを有する。第１信号処理部１８０は、第１抑圧量が第２抑圧量より少ない場合に、第１信号処理部１８０で抑圧される乗員Ｄの主信号あるいは各参照信号の組み合わせのいずれかを変更する。これにより、音響クロストーク抑圧装置１０５Ａは、第１信号処理部１８０または第２信号処理部１８０Ａのうち、クロストーク成分の抑圧量が少ない第１信号処理部１８０の、主信号および参照信号の組み合わせのいずれかを変更することで、第１信号処理部１８０の抑圧性能を向上できる。

また、第２信号処理部１８０Ａは、第２抑圧量が第１抑圧量より少ない場合に、第２信号処理部１８０Ａで抑圧される乗員Ｄの主信号あるいは各参照信号の組み合わせのいずれかを変更する。これにより、音響クロストーク抑圧装置１０５Ａは、第１信号処理部１８０または第２信号処理部１８０Ａのうち、クロストーク成分の抑圧量が少ない第２信号処理部１８０Ａの、主信号および参照信号の組み合わせのいずれかを変更することで、第２信号処理部１８０Ａの抑圧性能を向上できる。

以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。

例えば、上述した実施の形態では、車室内に配置されるマイクの数が４個である場合を示したが、３個または５個以上の数のマイクが車室内に配置されてもよい。３個または５個以上の数のマイクが配置される場合、音響クロストーク抑圧装置には、それと同数のディレイおよびフィルタ更新部の組が設けられる。

また、上述した実施の形態では、合成クロストーク抑圧信号を生成する際、マイクの数より１つ少ないディレイおよびフィルタ更新部の組の数が使用された。例えば、マイクの数が４個である場合、３組のディレイおよびフィルタ更新部が使用されたが、マイクの数と同数のディレイおよびフィルタ更新部の組の数が使用されてもよい。

なお、上述した実施の形態では、クロストーク成分が抑圧された後の音声信号は音声認識部１４６に入力されているが、本開示に係る音響クロストーク抑圧装置は音声認識の用途に限定したものではなく、音声認識部１４６の構成は省略されてもよい。本開示に係る音響クロストーク抑圧装置は、例えばハンズフリー通話に使用することも可能であり、通話相手の発話音声に含まれるクロストーク成分（例えば車室１０８ｚ内の乗員（例えば乗員Ｄ）の発話音声）を抑圧することもできる。

本開示は、車室等の閉空間に存在するメイン話者の発話音声に含まれ得る音響的なクロストーク成分を適応的に抑圧してメイン話者の発話音声の音質を改善し、有用である。

１０５、１０５Ａ音響クロストーク抑圧装置
１１０、１１０ＡＤＳＰ
１２２、１２２Ａ加算器
１２３Ａ、１２３Ｂ、１２３Ｃ、１２３Ｄ、２２３Ａ、２２３Ｂ、２２３Ｃ、２２３Ｄ畳み込み信号生成部
１２５Ａ、１２５Ｂ、１２５Ｃ、１２５Ｄ、２２５Ａ、２２５Ｂ、２２５Ｃ、２２５Ｄフィルタ更新部
１２６Ａ、１２６Ｂ、１２６Ｃ、１２６Ｄ、２２６Ａ、２２６Ｂ、２２６Ｃ、２２６Ｄ更新量計算部
１２７Ａ、１２７Ｂ、１２７Ｃ、１２７Ｄ、２２７Ａ、２２７Ｂ、２２７Ｃ、２２７Ｄ非線形変換部
１２８Ａ、１２８Ｂ、１２８Ｃ、１２８Ｄ、２２８Ａ、２２８Ｂ、２２８Ｃ、２２８Ｄノルム算出部
１２９Ａ、１２９Ｂ、１２９Ｃ、１２９Ｄ、２２９Ａ、２２９Ｂ、２２９Ｃ、２２９Ｄディレイ
１４３、１４３Ａ抑圧量推定部
１４６音声認識部
１５０Ａ、１５０Ｂ、１５０Ｃ、１５０Ｄ、１５２メモリ
１６１話者位置推定部
１６２主信号取得部
１６５、１５６Ａ畳み込み信号合成部
１６６、１６６Ａ参照信号取得部
１８０第１信号処理部
１８０Ａ第２信号処理部
ｍＡ、ｍＢ、ｍＣ、ｍＤマイク

Claims

ｎ（ｎ：３以上の整数）人の人物のそれぞれに対応して閉空間内に配置されるｎ個のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内でのメイン話者を推定する話者推定部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新してその更新結果を保持する、ｎ個のフィルタ更新部と、
前記メイン話者に対応するマイク以外の最大（ｎ－１）個のマイクのそれぞれにより収音された各参照信号に対応する、最大（ｎ－１）個の前記フィルタ更新部のそれぞれにより生成された前記抑圧信号に基づく合成抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、を備える、
音響クロストーク抑圧装置。
前記最大（ｎ－１）個の前記フィルタ更新部のそれぞれにより生成された前記抑圧信号を合成する合成部、を更に備える、
請求項１に記載の音響クロストーク抑圧装置。
前記最大（ｎ－１）個の前記フィルタ更新部のそれぞれが有するフィルタは、保持されている最新の前記パラメータを用いて、前記抑圧信号を生成する、
請求項１に記載の音響クロストーク抑圧装置。
前記他の話者に対応するマイクにより収音された参照信号に対応するフィルタ更新部は、その参照信号を用いて、自己が有するフィルタのパラメータを更新し、その更新結果を保持する、
請求項１に記載の音響クロストーク抑圧装置。
前記クロストーク成分の抑圧量を推定する抑圧量推定部と、
前記抑圧量が第１閾値以下であると判定した場合に、前記ｎ個のマイクのうち前記メイン話者の近傍に配置された他のマイクにより収音された音声信号を、前記メイン話者の音声信号として入れ替えるメイン信号取得部と、を更に備える、
請求項１に記載の音響クロストーク抑圧装置。
前記クロストーク成分の抑圧量を推定する抑圧量推定部と、
前記抑圧量が第１閾値以下であると判定した場合に、前記合成抑圧信号の生成に用いられる前記各参照信号の組み合わせを他の参照信号の組み合わせに入れ替える参照信号取得部と、を更に備え、
入れ替え後の前記他の参照信号のそれぞれに対応する前記フィルタ更新部は、入力された前記他の参照信号に基づいて前記抑圧信号を再生成する、
請求項１に記載の音響クロストーク抑圧装置。
前記クロストーク成分が抑圧された前記メイン話者の音声信号に基づいて、前記メイン話者の発話内容を音声認識する音声認識部と、
前記音声認識が失敗したと判定した場合に、前記ｎ個のマイクのうち前記メイン話者の近傍に配置された他のマイクにより収音された音声信号を、前記メイン話者の音声信号として切り替えるメイン信号取得部と、を更に備える、
請求項１に記載の音響クロストーク抑圧装置。
前記クロストーク成分が抑圧された前記メイン話者の音声信号に基づいて、前記メイン話者の発話内容を音声認識する音声認識部と、
前記音声認識が失敗したと判定した場合に、前記合成抑圧信号の生成に用いられる前記各参照信号の組み合わせを他の参照信号の組み合わせに入れ替える参照信号取得部と、を更に備え、
入れ替え後の前記他の参照信号のそれぞれに対応する前記フィルタ更新部は、入力された前記他の参照信号に基づいて前記抑圧信号を再生成する、
請求項１に記載の音響クロストーク抑圧装置。
前記ｎ個のマイクのそれぞれにより収音された各音声信号が入力され、請求項１に記載の前記話者推定部、前記ｎ個のフィルタ更新部および前記クロストーク抑圧部を少なくとも含む第１信号処理部および第２信号処理部と、
前記第１信号処理部により生成された第１合成抑圧信号を用いてクロストーク成分が抑圧された後のメイン話者の第１音声信号と、前記第２信号処理部により生成された第２合成抑圧信号を用いてクロストーク成分が抑圧された後のメイン話者の第２音声信号とのうちいずれかを選択して出力する出力選択部と、を備え、
前記第１信号処理部で抑圧されるメイン話者の音声信号および各参照信号の組み合わせと、前記第２信号処理部で抑圧されるメイン話者の音声信号および各参照信号の組み合わせとが異なる、
音響クロストーク抑圧装置。
前記第１信号処理部は、前記第１合成抑圧信号に基づく前記クロストーク成分の第１抑圧量を推定する第１抑圧量推定部を有し、
前記第２信号処理部は、前記第２合成抑圧信号に基づく前記クロストーク成分の第２抑圧量を推定する第２抑圧量推定部を有し、
前記第１信号処理部は、前記第１抑圧量が前記第２抑圧量より少ない場合に、前記第１信号処理部で抑圧されるメイン話者の音声信号あるいは前記各参照信号の組み合わせのいずれかを変更する、
請求項９に記載の音響クロストーク抑圧装置。
前記第１信号処理部は、前記第１合成抑圧信号に基づく前記クロストーク成分の第１抑圧量を推定する抑圧量推定部を有し、
前記第２信号処理部は、前記第２合成抑圧信号に基づく前記クロストーク成分の第２抑圧量を推定する抑圧量推定部を有し、
前記第２信号処理部は、前記第２抑圧量が前記第１抑圧量より少ない場合に、前記第２信号処理部で抑圧されるメイン話者の音声信号あるいは前記各参照信号の組み合わせのいずれかを変更する、
請求項９に記載の音響クロストーク抑圧装置。
前記参照信号取得部は、前記合成抑圧信号の生成に用いられる前記各参照信号の組み合わせとして、前記最大（ｎ－１）個のマイクのそれぞれにより収音された最大個の参照信号の組み合わせを最初に選択し、その後、選択される参照信号の組み合わせの個数を減らして前記他の参照信号の組み合わせに入れ替える、
請求項６または８に記載の音響クロストーク抑圧装置。
音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
ｎ（ｎ：３以上の整数）人の人物のそれぞれに対応して閉空間内に配置されるｎ個のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内でのメイン話者を推定し、
ｎ個のフィルタ更新部のそれぞれにより、前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新してその更新結果を保持し、
前記メイン話者に対応するマイク以外の最大（ｎ－１）個のマイクのそれぞれにより収音された各参照信号に対応する、最大（ｎ－１）個の前記フィルタ更新部のそれぞれにより生成された前記抑圧信号に基づく合成抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧する、
音響クロストーク抑圧方法。