JP7486145B2

JP7486145B2 - 音響クロストーク抑圧装置および音響クロストーク抑圧方法

Info

Publication number: JP7486145B2
Application number: JP2019210689A
Authority: JP
Inventors: 正成宮本; 慎一杠
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2024-05-17
Anticipated expiration: 2039-11-21
Also published as: CN114730565A; US20230026003A1; WO2021100670A1; JP2021081654A

Description

本開示は、音響クロストーク抑圧装置および音響クロストーク抑圧方法に関する。

特許文献１には、車室内の状況として乗員の配置パターンを予め想定し、各配置パターンそれぞれに対して音の伝達特性を測定し、その測定により得られメモリ等に記憶された各伝達特性を用いて、スピーカから出力される音声信号に含まれる音響を推定して除去する音響除去装置が開示されている。この音響除去装置によれば、乗員の配置が配置パターンのいずれかを満たす限り、音響の除去または抑圧が可能である。

特開２００９－２１６８３５号公報

特許文献１の構成では、ドライバーの発話音声を収音することを目的としたマイクがドライバーの前に１つ配置されているだけであり、例えば他の乗員の前に各乗員の声を収音することを目的としたマイクが配置されていない。車室内には複数人の乗員が存在することが十分に考えられるため、ドライバーだけでなく他の乗員がドライバーとほぼ同時に発話した場合、ドライバーのマイクにはドライバー以外の他の乗員の発話音声も収音される。したがって、特許文献１の構成では、ドライバーのマイクが収音した音声信号に含まれる他の乗員の発話に基づくクロストーク成分を抑圧することはできない。これは、ドライバーのマイクでは他の乗員の発話するクリアな音声の収音が難しく、その他の乗員の発話音声をクロストーク成分として抑圧するための適応フィルタのフィルタ係数の学習ができないためである。

本開示は、上述した従来の状況に鑑みて案出され、車室等の閉空間に存在する複数の乗員の話者状況に応じて、メイン話者の発話音声に含まれ得る音響的なクロストーク成分を適応的に抑圧し、メイン話者の発話音声の音質を改善する音響クロストーク抑圧装置および音響クロストーク抑圧方法を提供することを目的とする。

本開示は、メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットするリセット部と、前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、を備え、前記フィルタ更新部は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて前記フィルタのパラメータを更新し、前記話者分析部は、前記複数のマイクのそれぞれにより収音された各音声信号のレベルと閾値との比較に応じて、前記閉空間内での話者状況の変更の有無を分析する、音響クロストーク抑圧装置を提供する。

また、本開示は、メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果を前記話者状況と関連付けてメモリに保持するフィルタ更新部と、前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、前記メイン話者の音声信号に含まれる前記他の話者の発話によるクロストーク成分の第２抑圧信号を生成する第２フィルタを有し、前記クロストーク成分を抑圧するための前記第２フィルタのパラメータを更新し、その更新結果をメモリに保持する第２フィルタ更新部と、前記第２フィルタにより生成された前記第２抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧する第２クロストーク抑圧部と、前記クロストーク抑圧部からの第１出力信号と前記第２クロストーク抑圧部からの第２出力信号とのうちいずれかを選択して出力する出力選択部と、を備え、前記フィルタ更新部は、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記話者状況の分析結果に対応する前記フィルタのパラメータを用いて、前記フィルタにより前記抑圧信号を生成する、音響クロストーク抑圧装置を提供する。

また、本開示は、音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果をメモリに保持し、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットし、前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、前記パラメータの更新は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて実行され、前記分析では、前記複数のマイクのそれぞれにより収音された各音声信号のレベルと閾値との比較に応じて、前記閉空間内での話者状況の変更の有無が分析される、音響クロストーク抑圧方法を提供する。

また、本開示は、音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果をメモリに保持し、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットし、前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、前記パラメータの更新は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて実行され、前記分析では、前記フィルタのパラメータの時間軸上の変動量に基づいて、前記閉空間内での話者状況の変更の有無が分析される、音響クロストーク抑圧方法を提供する。

本開示によれば、車室等の閉空間に存在する複数の乗員の話者状況に応じて、メイン話者の発話音声に含まれ得る音響的なクロストーク成分を適応的に抑圧でき、メイン話者の発話音声の音質を改善できる。

実施の形態１に係る音響クロストーク抑圧装置が搭載される車両の車室内の乗員およびマイクの配置例を示す図実施の形態１に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図変化量が小さい場合におけるフィルタ係数の時間変化例を示すグラフ変化量が小さい場合におけるフィルタ係数の時間変化例を示すグラフ変化量が大きい場合におけるフィルタ係数の時間変化例を示すグラフ変化量が大きい場合におけるフィルタ係数の時間変化例を示すグラフ実施の形態１に係る音響クロストーク抑圧装置の動作手順例を示すフローチャート実施の形態２に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図実施の形態２に係る音響クロストーク抑圧装置の動作手順例を示すフローチャート実施の形態１の変形例に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図実施の形態１の変形例に係る音響クロストーク抑圧装置の動作手順例を示すフローチャート実施の形態２の変形例に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図実施の形態２の変形例に係る音響クロストーク抑圧装置の動作手順例を示すフローチャート実施の形態３に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図実施の形態３に係る音響クロストーク抑圧装置の動作手順例を示すフローチャート

以下、適宜図面を参照しながら、本開示に係る音響クロストーク抑圧装置および音響クロストーク抑圧方法を具体的に開示した実施形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

（実施の形態１）
図１は、実施の形態１に係る音響クロストーク抑圧装置１０５が搭載される車両１０８の車室１０８ｚ内の乗員およびマイクの配置例を示す図である。車両１０８は、車室１０８ｚ内において、例えば、運転席、助手席、２列目の後部座席および３列目の後部座席を含む、最大７～８人乗りのミニバンである。なお、車両１０８は、最大７～８人乗りのミニバンに限定されず、例えば５人乗りの乗用車あるいはバス等、特に積載人数あるいは車種は限定されない。

図１では、車両１０８のドライバーに相当する乗員Ａが着座する運転席の前方にマイクｍＡが配置される。乗員Ｄが着座する３列目の後部座席の左側前方にマイクｍＤが配置される。なお、乗員の数と配置およびマイクの数と配置は、任意に変更可能である。例えば図１において、助手席の前方および３列目の後部座席の右側前方等にマイクがそれぞれ配置されることでマイクの数は４個であってもよい。

マイクｍＡは、主に乗員Ａが発話する音声を収音するためのマイクである。マイクｍＤは、主に乗員Ｄが発話する音声を収音するためのマイクである。なお、図１では、説明を分かり易くするために、助手席、２列目の後部座席、および３列目の後部座席の右側には、乗員が着座していない例が示されているが、それぞれの座席に乗員が着座していても構わない。

マイクｍＡ，ｍＤは、例えば指向性マイクおよび無指向性マイクのうちいずれでもよい。また、マイクｍＡ，ｍＤは、例えば高音質小型エレクトレットコンデンサーマイクロホン（ＥＣＭ：ＥｌｅｃｔｒｅｔＣｏｎｄｅｎｓｅｒＭｉｃｒｏｐｈｏｎｅ）の単体、複数のＥＣＭで構成されるマイクアレイ等で構成されてもよい。マイクｍＡ，ｍＤは、音響クロストーク抑圧装置１０５に接続されるが、図１の複雑化を避けるためにマイクｍＡ，ｍＤと音響クロストーク抑圧装置１０５との配線の図示を省略している。

音響クロストーク抑圧装置１０５は、各種の電子部品を収容する筐体を有し、例えば車両１０８の車室１０８ｚ内のダッシュボードの内側に配置される。音響クロストーク抑圧装置１０５は、マイクｍＡあるいはマイクｍＤで収音される音声のうち、音声認識の対象となる乗員以外の乗員が発話する音声（いわゆるクロストーク成分）を抑圧する。音声認識の対象となる乗員が発話している音声に対し、対象外の乗員が発話する音声は、音声認識の対象となる音声に含まれるクロストーク成分となる。例えば、乗員Ａが発話する音声を認識する必要がある場合に、乗員Ａが発話する音声を収音するためのマイクｍＡで収音される音に含まれるクロストーク成分は、マイクｍＡで収音された乗員Ｄが発話する音声である。

（音響クロストーク抑圧装置の構成）
図２は、実施の形態１に係る音響クロストーク抑圧装置１０５の機能的構成例を示すブロック図である。音響クロストーク抑圧装置１０５は、マイクｍＡで収音される、音声認識したい乗員Ａが発話する音声の音声信号に含まれる、マイクｍＤで収音された乗員Ｄが発話する音声の音声信号を畳み込み処理することで、マイクｍＡで収音される乗員Ｄの発話によるクロストーク成分を再現したクロストーク抑圧信号（抑圧信号の一例）を生成する。音響クロストーク抑圧装置１０５は、マイクｍＡで収音された音声信号から乗員Ｄのクロストーク抑圧信号を抑圧（具体的には、除去あるいは減算）することで、クロストーク抑圧後の音声信号を生成する。ここで、音響クロストーク抑圧装置１０５が音声認識する対象となるメインの乗員の発話による音声信号を主信号と称し、クロストーク抑圧信号が生成される元の音声信号（つまり、クロストーク成分の発声源となるメインの乗員以外の他の乗員の発話による音声信号）を参照信号と称する。

音響クロストーク抑圧装置１０５は、ハードウェア構成として、例えばＤＳＰ１１０（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）およびメモリ１５０，１５２により構成される。なお、音響クロストーク抑圧装置１０５は、ＤＳＰ１１０およびメモリ１５０，１５２の他、マイクｍＡ，ｍＤを含んで構成されてもよい。また、ここでは、マイクｍＡに対する音響クロストーク抑圧装置１０５を例示するが、マイクｍＤに対する音響クロストーク抑圧装置１０５についても同様である。つまり、マイクｍＡで収音されるメインの乗員Ａの音声信号を主信号とし、マイクｍＤで収音されるサブの乗員Ｄの音声信号を参照信号として例示して説明するが、反対にマイクｍＤで収音されるメインの乗員Ｄの音声信号を主信号とし、マイクｍＡで収音されるサブの乗員Ａの音声信号を参照信号としてもよい。

メモリ１５０は、音響クロストーク抑圧装置１０５のワークメモリとしてのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）と、音響クロストーク抑圧装置１０５の処理に関するプログラムを格納するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）とを含む。メモリ１５０は、例えばマイクｍＤで収音されたサブの乗員Ｄの発話による音声の音声信号を参照信号として保持する。また、メモリ１５２は、音声認識部１４６による音声認識結果（例えば音声認識データおよびスコア値を含む）、フィルタ更新部１２５で更新されるフィルタ係数を記憶する。音声認識データは、例えばメインの乗員Ａ（メイン話者の一例）の発話による音声の内容をテキスト化したテキストデータである。スコア値は、音声認識部１４６で行われた音声認識の処理結果であるテキストデータの信頼度（精度）を示す評価値である。

ＤＳＰ１１０は、例えばマイクｍＡで収音されたメインの乗員Ａの発話による音声の音声信号から、サブの乗員Ｄの発話による音声のクロストーク成分を抑圧する処理を行うプロセッサである。また、ＤＳＰ１１０は、クロストーク抑圧後の音声信号の音声認識処理を行う。ここでは、プロセッサとして、ＤＳＰを用いるが、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等が用いられてもよい。また、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）等で設計された専用の電子回路あるいはＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等、再構成可能に設計された電子回路が用いられてもよい。

ＤＳＰ１１０は、加算器１２２、フィルタ更新部１２５、ディレイ１２９、音圧分析部１４２、抑圧量分析部１４３、話者分析部１４４、フィルタリセット部１４５、および音声認識部１４６を有する。

クロストーク抑圧部の一例としての加算器１２２は、マイクｍＡで収音されたメインの乗員Ａの発話による音声の音声信号から、フィルタ更新部１２５で生成されたクロストーク抑圧信号を減算することで、マイクｍＡで収音されたメインの乗員Ａの発話による音声に含まれるクロストーク成分を抑圧する。なお、上述したとおり、加算器１２２が行う処理は厳密には減算であるが、クロストーク抑圧信号を減算する処理であっても、クロストーク抑圧信号を反転させた上で加算器１２２において加算する処理と実質的に等価と考えることができる。このため、本明細書では、このクロストーク成分の抑圧処理は、加算器１２２が行う処理として記載する。

フィルタ更新部１２５の処理を詳細に説明する。音響クロストーク抑圧装置１０５が抑圧するクロストーク成分は、例えば音声認識の対象となるメイン話者が乗員Ａである場合に、他の乗員Ｄが発話した声が乗員Ａの前方に配置されたマイクｍＡに到達した音声である。この音声は、車室１０８ｚ内の伝達経路を経由して、マイクｍＡに到達する。したがって、マイクｍＡが収音する音声は、乗員Ｄが発話した声が伝達経路を通過するために要した時間（いわゆる遅延時間）分ずれて、乗員Ａが発話する声と混合される音声である。

フィルタ更新部１２５は、マイクｍＡで収音されたクロストーク抑圧後の音声信号とマイクｍＤで収音されて遅延時間分ずれた参照信号とに基づいて、マイクｍＡで収音された音声に含まれるクロストーク成分を抑圧（減算）するためのクロストーク抑圧信号を生成する。フィルタ更新部１２５は、畳み込み信号生成部１２３、フィルタ係数監視部１４１、更新量計算部１２６、非線形変換部１２７およびノルム算出部１２８を有する。

フィルタの一例としての畳み込み信号生成部１２３は、例えば適応フィルタにより構成され、更新量計算部１２６で計算されるフィルタ係数（パラメータの一例）を用いて参照信号に対し畳み込み処理を行い、参照信号を用いてクロストーク抑圧信号を生成する処理を行う。この適応フィルタには、例えば、特許文献１あるいは特開２００７－１９５９５号公報等に記載されているＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタが用いられる。適応フィルタは、マイクｍＡとマイクｍＤとの間の伝達特性を再現し、参照信号を処理することによりクロストーク抑圧信号を生成する。ただし、車室１０８ｚ内の伝達特性は定常的なものではないため、適応フィルタの特性も随時変化させる必要がある。実施の形態１では、適応フィルタの係数またはタップ数を制御することによって、適応フィルタの特性が、マイクｍＡとマイクｍＤの間の最新の伝達特性に近づくよう変化させる。以下、適応フィルタの更新を、学習と表現することもある。

マイクｍＡで収音されるサブの乗員Ｄの音声は、マイクｍＤで収音されるサブの乗員Ｄの音声に対し、マイクｍＤからマイクｍＡに伝わる時間分遅延する。参照信号は、マイクｍＤで収音されてメモリ１５０に保持されるので、マイクｍＤからマイクｍＡまでの遅延時間が反映されていない。このため、実施の形態１では、遅延器としてのディレイ１２９がこの時間差を吸収する。つまり、ディレイ１２９が前述した時間差（要は、マイクｍＤからマイクｍＡまでの音声の伝達経路に要する時間）の分だけ、参照信号に遅延処理を施してフィルタ更新部１２５に出力する。これにより、フィルタ更新部１２５は、マイクｍＡで収音されたタイミングに合致する参照信号を得ることができる。ディレイ１２９の値は、概ねマイクｍＤとマイクｍＡの間の距離を実測し、それを音速で除算することによって得ることができる。例えば、車室１０８ｚ内での温度に基づく音速を３４０ｍ／ｓとし、かつマイクｍＤとマイクｍＡの間の距離が３．４ｍ程度である場合、ディレイ１２９の値は約１０ｍｓｅｃである。

より正確には、ディレイの値（遅延時間）は、参照信号ごとに異なり、次のように求められる。例えば、マイクｍＡが乗員Ａの正面に配置され、マイクｍＤが乗員Ｄの正面に配置された車室１０８ｚ内を想定する。乗員Ｄが発話しており、マイクｍＡに含まれる乗員Ｄの音声を抑圧する場合、マイクｍＤで収音される音声を参照信号とすると、ディレイの値は、乗員Ｄの口元からマイクｍＤまでの距離と、乗員Ｄの口元からマイクｍＡまでの距離との差分から計算される。一方、乗員Ａが発話しており、マイクｍＤに含まれる乗員Ａの音声を抑圧する場合、マイクｍＡで収音される音声を参照信号とすると、ディレイの値は、乗員Ａの口元からマイクｍＡまでの距離と、乗員Ａの口元からマイクｍＤまでの距離との差分から計算される。

非線形変換部１２７は、クロストーク成分の抑圧後の音声信号に対して非線形変換を行う。この非線形変換は、クロストーク成分の抑圧後の音声信号を適応フィルタの更新すべき方向（正か負）を指し示す情報へと変換する処理である。非線形変換部１２７は、非線形変換した後の信号を更新量計算部１２６に出力する。

ノルム算出部１２８は、マイクｍＤで収音された音声の音声信号のノルムを算出する。音声信号のノルムとは、過去の所定時間内の音声信号の大きさの総和であり、この時間内の信号の大きさの度合いを示す値である。更新量計算部１２６は、過去にマイクｍＤで収音された音声の音量の影響を正規化するためにノルムを用いる。一般に、音量が大きいほど適応フィルタの更新量も大きく算出されてしまうため、正規化を行わなくては、適応フィルタの特性が大きな音声の特性に過剰に影響されてしまう。実施の形態１では、ディレイ１２９から出力された音声信号を、ノルム算出部１２８が算出したノルムを用いて正規化することで適応フィルタの更新量を安定させている。

更新量計算部１２６は、非線形変換部１２７、ノルム算出部１２８およびディレイ１２９から受け取る信号を用いて、畳み込み信号生成部１２３の適応フィルタ特性の更新量（具体的には、適応フィルタの係数またはタップ数の更新量）を計算する。更新量計算部１２６は、ディレイ１２９を経由した、マイクｍＤで収音された音声の音声信号をノルム算出部１２８で算出したノルムに基づき正規化する。更新量計算部１２６は、マイクｍＤで収音された音声の音声信号を正規化した結果に、非線形変換部１２７から得られた情報に基づき正または負の情報を付加することで更新量を決定する。実施の形態１では、更新量計算部１２６は、ＩＣＡ（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ、独立成分解析）アルゴリズムによりフィルタ特性の更新量を計算する。なお、ここでは、更新量計算部１２６は、適応フィルタの係数（以下、フィルタ係数という）を更新する場合を示すが、フィルタ係数の代わりに、あるいはフィルタ係数と共にタップ数を更新してもよい。

フィルタ更新部１２５は、更新量計算部１２６、非線形変換部１２７およびノルム算出部１２８の処理を随時実行していくことで、畳み込み信号生成部１２３の特性を、マイクｍＤとマイクｍＡの間の伝達特性に近づける。

フィルタ係数監視部１４１は、更新量計算部１２６で計算される、畳み込み信号生成部１２３のフィルタ係数（例えばフィルタ係数の変動幅）を監視し、話者分析部１４４に出力する。話者分析部１４４は、フィルタ係数の変化量、例えばフィルタ係数の時間軸上の一定時間における変動幅を監視し、この変化量が、話者が切り替わった場合の変化量の値に相当する第１閾値を超えた場合、話者の切り替わりが起きたことを判断する。

音圧分析部１４２は、マイクｍＡで収音される音声、およびマイクｍＤで収音される音声を入力し、これらの音圧を話者分析部１４４に出力する。話者分析部１４４は、マイクｍＡで収音される音声の音圧、およびマイクｍＤで収音される音声の音圧の少なくとも一方の話者が切り替わった場合の変化量の値に相当する第２閾値を超えて変化した場合、話者の切り替わりが起きたことを判断する。

抑圧量分析部１４３は、加算器１２２から出力されるクロストーク成分の抑圧後の音声信号と、マイクｍＡで収音された音声の音声信号とを基に、これらの差分を抑圧量として算出し、話者分析部１４４に出力する。話者分析部１４４は、抑圧量のデータを所定期間保持しておき、新たに算出された抑圧量が過去分の抑圧量から、話者状況が切り替わったことを示す第３閾値を超えて変化した場合、話者の切り替わりが起きたことを判断する。この判断は、話者が切り替わると、その瞬間から直前に使用していたフィルタ係数では、クロストークの抑圧量が下がることに基づく。

話者分析部１４４は、フィルタ係数監視部１４１、音圧分析部１４２および抑圧量分析部１４３からの少なくも１つの入力を基に、話者の切り替わり、つまり話者状況の変化を判断し、その判断結果をフィルタリセット部１４５に出力する。

ここで、話者状況（シーン）の数は、車室１０８ｚ内に配置されるマイクの数が２つである場合、４（＝２^２）通りである。音声認識の対象となる乗員Ａが発話しているシーンに限ると、他の乗員による話者状況の数は、乗員Ｄが発話している場合と乗員Ｄが発話していない場合の２（＝２^１）通りである。

なお、話者分析部１４４には、乗員を撮像する車室１０８ｚ内のカメラ（図示略）による撮像画像が入力されてもよい。話者分析部１４４は、この撮像画像に対し、顔認識を行い、例えば口を開けている乗員を話者と識別し、話者の切り替わりが起きたことを判断してもよい。また、話者分析部１４４は、この撮像画像に基づく話者の切り替わり情報と、フィルタ係数監視部１４１、音圧分析部１４２および抑圧量分析部１４３から入力した少なくも１つ以上の話者の切り替わり情報とを組み合わせて、話者の切り替わりが起きたことを総合的に判断してもよい。また、撮像画像に基づく話者の切り替わり情報を用いる場合、フィルタ係数監視部１４１、音圧分析部１４２および抑圧量分析部１４３の全てあるいは少なくとも１つが省かれてもよい。

リセット部の一例としてのフィルタリセット部１４５は、話者分析部１４４から話者の切り替わりの判断結果を入力すると、畳み込み信号生成部１２３のフィルタ係数を初期値（例えば値０）にリセットする。フィルタ更新部１２５は、フィルタリセット部１４５によるリセット後に、初期値にリセットされた、畳み込み信号生成部１２３の学習を再開する。

音声認識部１４６は、加算器１２２から出力されるクロストーク成分の抑圧後の音声信号を基に、音声認識を行い、音声認識結果として音声認識データ（例えばテキストデータ）および評価値（スコア値）を出力し、メモリ１５２に記憶する。例えば、音声認識部１４６がモニタ（図示略、例えば車両１０８に搭載されているカーナビゲーション装置のディスプレイ）に接続される場合、音声認識結果は、テキストとして画面に表示される。また、音声認識部１４６が通信装置に接続される場合、音声認識結果は、通信データとして送信される。また、音声認識部１４６がスピーカに接続される場合、音声認識結果は、音声として出力される。

なお、音響クロストーク抑圧装置１０５は、音声認識部１４６を備える代わりに、ネットワークに接続可能な通信部を備え、このネットワークを介してクラウドサーバ（図示略）に対しクロストーク成分の抑圧後の音声信号に基づく音声データを送信し、クラウドサーバが音声認識を行い、クラウドサーバから音声認識結果を受信してモニタ、スピーカ等に出力してもよい。

図３Ａおよび図３Ｂは、変化量ＡＲ１が小さい場合におけるフィルタ係数の時間変化例を示すグラフである。グラフの縦軸はフィルタ係数を示し、横軸は時間（言い換えると、畳み込み信号生成部１２３を構成する適応フィルタのタップ長）を示す。更新量計算部１２６で計算される、畳み込み信号生成部１２３のフィルタ係数は、フィルタ係数監視部１４１によって監視される。例えば、マイクｍＡで収音される乗員Ａの音声信号が主信号である場合、マイクｍＡで収音される乗員Ｄの音声は、マイクｍＡで収音される音声のクロストーク成分となる。図３Ａおよび図３Ｂに示す特性ｇ２は、マイクｍＡで収音される音声のクロストーク成分として、マイクｍＤで収音される乗員Ｄの音声を基に、マイクｍＡで収音される乗員Ｄの音声を減算するための時刻（ｔ－Δｔ）でのフィルタ係数を表す。図３Ａおよび図３Ｂに示す特性ｇ１は、マイクｍＡで収音される音声のクロストーク成分として、マイクｍＤで収音される乗員Ｄの音声を基に、マイクｍＡで収音される乗員Ｄの音声を減算するための時刻ｔでのフィルタ係数を表す。つまり、図３Ａおよび図３Ｂでは、特性ｇ１，ｇ２はともに、フィルタ係数の更新が開始された時点からフィルタ係数の更新が収束した時点までの期間（言い換えると、残響時間分）のフィルタ係数の波形として時間軸の値が一致するように示されている。なお、Δｔは、設定値としての一定時間であり、例えば、少なくとも１回分の適応フィルタのフィルタ係数の更新に要する時間を示し、以下同様とする。

図３Ｂでは、時刻（ｔ－Δｔ）～ｔの間において、フィルタ係数の変化量ＡＲ１は、話者の切り替わりがあった場合の第１閾値よりも小さい。話者分析部１４４は、フィルタ係数の変化量ＡＲ１が第１閾値より小さいことから、話者が切り替わっておらず、つまり乗員Ｄが発話しておらず、話者状況は変化していないことを判断できる。

図４Ａおよび図４Ｂは、変化量ＡＲ２が大きい場合におけるフィルタ係数の時間変化例を示すグラフである。グラフの縦軸はフィルタ係数を示し、横軸は時間（言い換えると、畳み込み信号生成部１２３を構成する適応フィルタのタップ長）を示す。図４Ａおよび図４Ｂに示す特性ｇ４は、マイクｍＡで収音される音声のクロストーク成分として、マイクｍＤで収音される乗員Ｄの音声を基に、マイクｍＡで収音される乗員Ｄの音声を減算するための時刻（ｔ－Δｔ）でのフィルタ係数を表す。図４Ａおよび図４Ｂに示す特性ｇ３は、マイクｍＡで収音される音声のクロストーク成分として、マイクｍＤで収音される乗員Ｄの音声を基に、マイクｍＡで収音される乗員Ｄの音声を減算するための時刻ｔでのフィルタ係数を表す。つまり、図４Ａおよび図４Ｂでは、特性ｇ３，ｇ４はともに、フィルタ係数の更新が開始された時点からフィルタ係数の更新が収束した時点までの期間（言い換えると、残響時間分）のフィルタ係数の波形として時間軸の値が一致するように示されている。

図４Ｂでは、時刻（ｔ－Δｔ）～ｔの間における特性ｇ３，ｇ４間のフィルタ係数の変化量ＡＲ２は、図３Ｂに示される時刻（ｔ－Δｔ）～ｔの間における特性ｇ１，ｇ２間のフィルタ係数の変化量ＡＲ１と比べ、第１閾値を超えて大きい。話者分析部１４４は、フィルタ係数の変化量ＡＲ２が第１閾値より大きいことから、話者が切り替わった、つまり乗員Ｄが発話したことで、マイクｍＡで収音される音声のクロストーク成分である、乗員Ｄの音声を減算するためのフィルタ係数の変化量が大きくなったと判断できる。したがって、話者分析部１４４は、話者状況が変化したと判断できる。

（音響クロストーク抑圧装置の動作）
次に、実施の形態１に係る音響クロストーク抑圧装置１０５の動作を説明する。

ここでは、前述したように、マイクｍＡで収音されるメイン話者である乗員Ａが発話する音声を音声認識の対象とし、マイクｍＡで収音されるサブの乗員Ｄが発話する音声をクロストーク成分とする場合を例示して説明する。なお、マイクｍＤで収音される乗員Ｄが発話する音声を音声認識の対象とし、マイクｍＤで収音される乗員Ａが発話する音声をクロストークとしてもよい。また、どの乗員の発話音声が音声認識対象であるかを指示するためのボタンが車両１０８内に配置されてよいし、他には、例えば乗員が所持するスマートフォンあるいはタブレット端末等にインストールされた専用のアプリケーションにおいて、音声認識対象の乗員を指示する操作が行われることで、音声認識対象の乗員が指定されても構わない。

図５は、実施の形態１に係る音響クロストーク抑圧装置１０５の動作手順例を示すフローチャートである。図５の処理は、音響クロストーク抑圧装置１０５を構成するＤＳＰ１１０により実行され、マイクｍＡで収音されて音響クロストーク抑圧装置１０５に入力される音声の音声信号の１サンプルごとに繰り返して実行される。

図５において、ＤＳＰ１１０は、マイクｍＡで収音されたメインの乗員Ａの発話による音声の音声信号を、音声認識したい主信号として取得する（Ｓ１０１）。音圧分析部１４２は、マイクｍＡの主信号を入力し、主信号の音圧レベルを話者分析部１４４に出力する。

ＤＳＰ１１０は、マイクｍＤで収音されたサブの乗員Ｄの発話による音声の音声信号を、参照信号として取得する（Ｓ１０２）。ＤＳＰ１１０は、マイクｍＤで収音された音声のデータをメモリ１５０に記憶する。また、音圧分析部１４２は、マイクｍＤの参照信号を入力し、参照信号の音圧レベルを話者分析部１４４に出力する。

話者分析部１４４は、主信号の音圧レベルと第２閾値（上述参照）とを比較し、また、参照信号の音圧レベルと第２閾値（上述参照）とを比較し、話者状況を分析する（Ｓ１０３）。

フィルタ係数監視部１４１は、更新量計算部１２６で計算される、畳み込み信号生成部１２３のフィルタ係数を取得する（Ｓ１０４）。

話者分析部１４４は、ステップＳ１０３で分析された話者状況とステップＳ１０４で取得されたフィルタ係数とを基に、話者が切り替わったか否かを判別する（Ｓ１０５）。話者が切り替わっている場合（Ｓ１０５、ＹＥＳ）、フィルタリセット部１４５は、畳み込み信号生成部１２３のフィルタ係数を初期値にリセットする（Ｓ１０６）。一方、Ｓ１０５で話者状況が切り替わっていない場合（Ｓ１０５、ＮＯ）、ＤＳＰ１１０は、そのままステップＳ１０７の処理に進む。

畳み込み信号生成部１２３は、更新量計算部１２６で計算されるフィルタ係数を用いてディレイ１２９により遅延時間分の遅延処理が施された参照信号を用いて畳み込み処理を行い、クロストーク抑圧信号を生成する（Ｓ１０７）。加算器１２２は、マイクｍＡで収音されたメインの乗員Ａの発話による音声の音声信号から、畳み込み信号生成部１２３により生成されたクロストーク抑圧信号を減算し、マイクｍＡで収音されたメインの乗員Ａの発話による音声に含まれるクロストーク成分を抑圧する。

続けて、音響クロストーク抑圧装置１０５は、フィルタ学習期間であるか否かを判別する（Ｓ１０８）。フィルタ学習期間は、例えば、メイン話者である乗員Ａの音声に含まれるクロストーク成分を抑圧するためのフィルタ係数を学習するために、メイン話者である乗員Ａ以外の誰かが発話している期間となる。また、フィルタ学習期間でない期間は、乗員Ａ以外の乗員が誰も発話していない期間である。フィルタ学習期間である場合（Ｓ１０８、ＹＥＳ）、フィルタ更新部１２５は、更新量計算部１２６で計算されるフィルタ係数で畳み込み信号生成部１２３のフィルタ係数を更新し、その更新結果をメモリ１５２に記憶する（Ｓ１０９）。一方、フィルタ学習期間でない場合（Ｓ１０８、ＮＯ）、音響クロストーク抑圧装置１０５は、そのまま図５の処理を終了する。

実施の形態１に係る音響クロストーク抑圧装置１０５は、車両１０８内の環境において話者が切り替わったと判定された場合に、そのタイミングでフィルタ係数を初期値（例えば値０）にリセットし、フィルタ係数を再学習して使用する。これにより、新しい話者状況に応じたフィルタ係数を再学習でき、その話者状況に応じたクロストーク成分の抑圧を高精度に行うことができ、メイン話者（例えば乗員Ａ）の発話による音声の音質が改善可能となる。また、車両１０８内の環境と話者状況とによっては、話者の切り替わる前に学習していたフィルタ係数を、話者の切り替わり後においても学習しながら継続使用する場合と比べ、話者の切り替わり後のフィルタ係数が収束するまでの時間が短くなることが期待できる。したがって、音響クロストーク抑圧装置１０５は、メイン話者（例えば乗員Ａ）の発話音声に含まれる、他の乗員（例えば乗員Ｄ）の発話によって生じるクロストーク成分を適応的に抑圧でき、音声認識対象となる乗員Ａの出力音声の音質を向上できる。

このように、音響クロストーク抑圧装置１０５は、メイン話者である乗員Ａを含む複数の乗員（複数人）がいる車室１０８ｚ内（閉空間内）に配置された２個のマイクｍＡ，ｍＤのそれぞれにより収音された各音声信号に基づいて、車室１０８ｚ内での話者状況を話者分析部１４４において分析する。音響クロストーク抑圧装置１０５は、メイン話者である乗員Ａの音声信号に含まれる他の乗員Ｄの発話によるクロストーク成分の抑圧信号（つまりクロストーク抑圧信号）を生成する畳み込み信号生成部１２３を有し、クロストーク成分を抑圧するための畳み込み信号生成部１２３のフィルタ係数を更新し、その更新結果をフィルタ更新部１２５においてメモリ１５２に保持する。音響クロストーク抑圧装置１０５は、話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、メモリ１５２に保持されているフィルタ係数をフィルタリセット部１４５においてリセットする。音響クロストーク抑圧装置１０５は、畳み込み信号生成部１２３により生成されたクロストーク成分の抑圧信号を用いて、乗員Ａの音声信号に含まれるクロストーク成分を加算器１２２において抑圧する。フィルタ更新部１２５は、畳み込み信号生成部１２３のフィルタ係数がリセットされた後、乗員Ｄの音声信号に基づいてフィルタ係数を更新する。

これにより、音響クロストーク抑圧装置１０５は、車室１０８ｚ内にいる複数の乗員（例えば乗員Ａ，Ｄ）の話者状況に応じて、メイン話者である乗員Ａの発話音声に含まれ得る音響的なクロストーク成分を適応的に抑圧でき、乗員Ａの発話音声の音質を改善できる。また、リセットすることなくフィルタ係数を継続して使用する場合と比べ、話者状況が切り替わったと判定される度にフィルタ係数をリセットすることで、更新によるフィルタ係数の収束が早まることが期待できる。

また、畳み込み信号生成部１２３は、話者状況の分析結果が直前の話者状況から切り替わっていないと判定された場合に、メモリ１５０に保持されている最新のフィルタ係数を用いて、クロストーク成分の抑圧信号を生成する。これにより、音響クロストーク抑圧装置１０５は、同様の話者状況が継続する場合には、その話者状況に応じて既に算出された適応的なクロストーク成分を継続して求めることができるのでメイン話者の発話音声に含まれるクロストーク成分を効果的に抑圧できる。

また、話者分析部１４４は、２個のマイクｍＡ，ｍＤのそれぞれにより収音された各音声信号の音圧レベルと第２閾値（閾値の一例）との比較に応じて、車室１０８ｚ（閉空間内）での話者状況の変更の有無を分析する。これにより、音響クロストーク抑圧装置１０５は、マイクｍＡ，ｍＤの配置箇所と車両１０８内の乗員の位置とを考慮して、マイクｍＡ，ｍＤのそれぞれにより収音された各音声信号の大きさに応じて、話者状況が切り替わったかだけでなく、メイン話者を高精度に推定できる。

また、話者分析部１４４は、畳み込み信号生成部１２３のフィルタ係数の時間軸上の変動量に基づいて、車室１０８ｚでの話者状況の変更の有無を分析する。これにより、音響クロストーク抑圧装置１０５は、新たな発話（言い換えると、切り替わった新しい話者状況下でのメイン話者の発話）によりフィルタ係数が大きく変化している場合（例えば、フィルタ係数の時間軸上の一定時間における変動幅が第１閾値を超えた場合）、話者の切り替わりが起きたことを高精度に判断できる。

また、話者分析部１４４は、乗員Ａの音声信号に含まれるクロストーク成分の抑圧量と第３閾値（閾値の一例）との比較に応じて、車室１０８ｚ内での話者状況の変更の有無を分析する。これにより、音響クロストーク抑圧装置１０５は、新たな発話（言い換えると、切り替わった新しい話者状況下でのメイン話者の発話）によりクロストーク成分の抑圧量が下がっている（言い換えると、これまでのクロストーク抑圧信号が効果的ではない）として、話者の切り替わりが起きたことを高精度に判断できる。

（実施の形態２）
実施の形態１では、話者が切り替わったと判断されたタイミングで学習済みのフィルタ係数をリセットしフィルタ係数を初期値から再学習して使用した。実施の形態２では、話者の切り替わり後の話者状況に対応するフィルタ係数をメモリから読み出して使用する例を説明する。

（音響クロストーク抑圧装置の構成）
図６は、実施の形態２に係る音響クロストーク抑圧装置１０５Ａの機能的構成例を示すブロック図である。実施の形態２に係る音響クロストーク抑圧装置１０５Ａにおいて、実施の形態１に係る音響クロストーク抑圧装置１０５と同一の構成要素については同一の符号を用いることで、その説明を簡略化あるいは省略し、異なる内容について説明する。

実施の形態２に係る音響クロストーク抑圧装置１０５Ａは、同様にＤＳＰ１１０Ａにより構成されている。音響クロストーク抑圧装置１０５Ａは、実施の形態１に係る音響クロストーク抑圧装置１０５と比べ、フィルタリセット部１４５を省き、フィルタ係数読込部１５１を有する。また、フィルタ更新部１２５Ａは、フィルタ更新部１２５と比べ、フィルタ係数収束判定部１５４およびフィルタ係数保存部１５３を更に含む。

フィルタ係数収束判定部１５４は、更新量計算部１２６で計算される、フィルタ係数が収束しているか否かを判定する。フィルタ係数は、例えば一定期間におけるフィルタ係数の変動幅が所定値以内に収まっている場合、収束していると判定される。これにより、音響クロストーク抑圧装置１０５Ａは、フィルタ係数の変動が収まった段階でフィルタ係数が収束したと判定でき、適切なタイミングでフィルタ係数の収束を把握できる。なお、フィルタ係数は、音声認識部１４６がクロストーク成分の抑圧後の音声に対して音声認識を行った結果、スコア値が閾値を超える場合に収束していると判定されてもよい。

メモリの一例としてのフィルタ係数保存部１５３は、フィルタ係数収束判定部１５４によって収束していると判定されたフィルタ係数を、話者状況と関連付けて記憶する。フィルタ係数保存部１５３は、例えばキャッシュメモリにより構成される。ここで、乗員の前に配置されるマイクの数が２個である場合、話者状況（シーン）の数は４通りである。したがって、フィルタ係数保存部１５３は、４通りのフィルタ係数を記憶する。

フィルタ係数読込部１５１は、話者分析部１４４によって分析された話者状況に対応するフィルタ係数をフィルタ係数保存部１５３から読み込み、フィルタ更新部１２５で逐次更新されるフィルタ係数の値とする。

（音響クロストーク抑圧装置の動作）
次に、実施の形態２に係る音響クロストーク抑圧装置１０５Ａの動作を説明する。

図７は、実施の形態２に係る音響クロストーク抑圧装置１０５Ａの動作手順例を示すフローチャートである。図７の説明において、実施の形態１に係る音響クロストーク抑圧装置１０５の動作と同一の処理については、同一のステップ番号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。

図７において、ステップＳ１０４の後、話者分析部１４４によって話者状況が変化していると判別された場合（Ｓ１０５、ＹＥＳ）、フィルタ係数読込部１５１は、フィルタ係数保存部１５３に記憶されている、話者状況に対応するフィルタ係数を読み込む（Ｓ１０６Ａ）。

ステップＳ１０６Ａの後、畳み込み信号生成部１２３は、ステップＳ１０６Ａにおいて読み込まれた話者状況に対応するフィルタ係数を用いて、参照信号に畳み込み処理を行い、クロストーク抑圧信号を生成する。加算器１２２は、マイクｍＡで収音されたメインの乗員Ａの発話による音声の音声信号から、畳み込み信号生成部１２３により生成されたクロストーク抑圧信号を減算し、マイクｍＡで収音されたメインの乗員Ａの発話による音声に含まれるクロストーク成分（ここでは、乗員Ｄの音声）を抑圧する。

クロストーク成分の抑圧後、ステップＳ１０９において畳み込み信号生成部１２３のフィルタ係数が更新された後、フィルタ係数収束判定部１５４は、更新されたフィルタ係数の収束の有無を判定する（Ｓ１１０）。フィルタ係数収束判定部１５４は、判定の結果、フィルタ係数が収束しているか否かを判別する（Ｓ１１１）。フィルタ係数が収束している場合（Ｓ１１１、ＹＥＳ）、フィルタ係数保存部１５３は、更新された話者状況に対応するフィルタ係数を保存する（Ｓ１１２）。フィルタ係数は、上書きで保存されるが、上書きでなく追加的に保存されてもよい。一方、フィルタ係数が収束していない場合（Ｓ１１１、ＮＯ）、フィルタ係数保存部１５３は、フィルタ係数を保存しない。この後、ＤＳＰ１１０は、図７の処理を終了する。

実施の形態２に係る音響クロストーク抑圧装置１０５Ａは、話者が切り替わった直後、切り替わった後の話者状況に関連付けて過去に学習済みのフィルタ係数を読み込み、畳み込み信号生成部１２３のフィルタ係数として使用する。これにより、話者の切り替わり直後から、ある程度のクロストーク成分の抑圧が期待できる。また、一定期間、フィルタ係数の変動幅が所定値以下である場合等、フィルタ係数が収束すると、音響クロストーク抑圧装置１０５Ａは、次回、読み込まれるフィルタ係数の候補として、収束したフィルタ係数をフィルタ係数保存部１５３に保存する。これにより、音響クロストーク抑圧装置１０５Ａは、フィルタ係数保存部１５３に保存されるフィルタ係数を、話者状況に対応する最新の学習済みのフィルタ係数として登録できる。したがって、話者の切り替わり直後から、クロストーク成分の抑圧がより一層期待できる。

このように、音響クロストーク抑圧装置１０５Ａは、メイン話者である乗員Ａを含む複数の乗員（複数人）がいる車室１０８ｚ内（閉空間内）に配置された２個のマイクｍＡ，ｍＤのそれぞれにより収音された各音声信号に基づいて、車室１０８ｚ内での話者状況を話者分析部１４４において分析する。音響クロストーク抑圧装置１０５Ａは、メイン話者である乗員Ａの音声信号に含まれる他の乗員Ｄの発話によるクロストーク成分の抑圧信号（つまりクロストーク抑圧信号）を生成する畳み込み信号生成部１２３を有し、クロストーク成分を抑圧するための畳み込み信号生成部１２３のフィルタ係数を更新し、その更新結果をフィルタ更新部１２５Ａにおいて話者状況と関連付けてフィルタ係数保存部１５３に保持する。音響クロストーク抑圧装置１０５Ａは、話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、畳み込み信号生成部１２３により生成されたクロストーク成分の抑圧信号を用いて、乗員Ａの音声信号に含まれるクロストーク成分を加算器１２２において抑圧する。フィルタ更新部１２５Ａは、話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、話者状況の分析結果に対応するフィルタ係数を用いて、畳み込み信号生成部１２３によりクロストーク成分の抑圧信号を生成する。

これにより、音響クロストーク抑圧装置１０５Ａは、車室１０８ｚ内にいる複数の乗員（例えば乗員Ａ，Ｄ）の話者状況に応じて、メイン話者である乗員Ａの発話音声に含まれ得る音響的なクロストーク成分を適応的に抑圧でき、乗員Ａの発話音声の音質を改善できる。また、話者状況に対応するフィルタ係数をキャッシュメモリから読み込むことで、話者状況に拘わらずに同一のフィルタ係数を継続して更新する場合と比べ、話者状況に応じたフィルタ係数の使用によりメイン話者の発話音声の音質の改善が期待され、更に、更新されるフィルタ係数の収束が早まることが期待できる。

また、フィルタ更新部１２５Ａは、他の乗員Ｄの音声信号に基づいてフィルタ係数の更新の収束を判定した場合に、話者分析部１４４からの現在の話者状況と関連付けてフィルタ係数の更新の収束結果をフィルタ係数保存部１５３に保持する。これにより、音響クロストーク抑圧装置１０５Ａは、次回、同じ話者状況となった場合、収束しているフィルタ係数を用いてクロストーク成分をリアルタイムに抑圧できる。

また、フィルタ係数収束判定部１５４は、フィルタ係数の時間軸上の一定期間における変動幅に基づいて、フィルタ係数の更新の収束の有無を判定する。これにより、音響クロストーク抑圧装置１０５Ａは、フィルタ係数の変動が収まった適切なタイミングでフィルタ係数の収束を判断できる。

（実施の形態１の変形例）
実施の形態１では、話者が切り替わった場合、必ずフィルタ係数をリセットしたが、車両１０８等の閉空間内の環境下での話者状況によっては、フィルタ係数を必ずしもリセットしない方が良い場合が想定される。例えば、乗員Ａの声が音声認識対象であり、乗員Ｄの声がクロストーク成分となる話者状況において、別の乗員Ｃが小声で加わった場合等が挙げられる。このような話者状況の変化があった場合、実施の形態１の変形例では、フィルタ係数をリセットすることなく、話者状況が変化する前のフィルタ係数を用いてクロストーク成分の抑圧が可能である。

（音響クロストーク抑圧装置の構成）
図８は、実施の形態１の変形例に係る音響クロストーク抑圧装置１０５Ｂの機能的構成例を示すブロック図である。実施の形態１の変形例に係る音響クロストーク抑圧装置１０５Ｂにおいて、実施の形態１に係る音響クロストーク抑圧装置１０５と同一の構成要素については、同一の符号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。

実施の形態１の変形例に係る音響クロストーク抑圧装置１０５Ｂは、同様にＤＳＰ１１０Ｂにより構成される。音響クロストーク抑圧装置１０５Ｂは、実施の形態１に係るＤＳＰ１１０の機能的構成の他に、加算器２２２、フィルタ更新部２２５、および出力選択部２３０を更に有する。

クロストーク抑圧部の一例としての加算器２２２は、加算器１２２と同様に、マイクｍＡで収音されたメインの乗員Ａの発話による音声の音声信号から、フィルタ更新部２２５で生成されたクロストーク抑圧信号を減算することで、マイクｍＡで収音されたメインの乗員Ａの発話による音声に含まれるクロストーク成分（例えば乗員Ｄの音声）を抑圧する。

フィルタ更新部２２５は、マイクｍＡで収音されたクロストーク抑圧後の音声信号と、マイクｍＤで収音されて遅延時間分ずれた参照信号とに基づいて、マイクｍＡで収音された音声に含まれるクロストーク成分を抑圧（減算）するためのクロストーク抑圧信号を生成する。フィルタ更新部２２５は、畳み込み信号生成部２２３、更新量計算部２２６、非線形変換部２２７、およびノルム算出部２２８を有する。

畳み込み信号生成部２２３、更新量計算部２２６、非線形変換部２２７、およびノルム算出部２２８の機能は、それぞれ畳み込み信号生成部１２３、更新量計算部１２６、非線形変換部１２７、およびノルム算出部１２８と同様であるため、それぞれの説明を省略する。ただし、フィルタ更新部２２５は、話者の切り替わりがあったと判定された場合でも、畳み込み信号生成部２２３のフィルタ係数をリセットすることなく使用する。

出力選択部２３０は、話者が切り替わっていないと判定された場合に、フィルタ更新部１２５またはフィルタ更新部２２５で生成されるクロストーク抑圧信号を用いて抑圧された、クロストーク抑圧後の音声信号を選択する。出力選択部２３０は、話者が切り替わったと判定された場合に、切り替わった後の話者状況を基に、フィルタ係数をリセットする実施の形態１に係るフィルタ更新部１２５を用いたクロストーク成分の抑圧後の音声信号、またはフィルタ係数をリセットしないフィルタ更新部２２５を用いたクロストーク成分の抑圧後の音声信号を選択する。

クロストーク成分の抑圧後の音声信号を選択する際、出力選択部２３０は、所定の判断基準を基に、フィルタ更新部２２５を用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部１２５を用いたクロストーク成分の抑圧後の音声信号とのいずれかを選択する。例えば、出力選択部２３０は、音声認識部１４６による音声認識の結果、スコア値が高い方のクロストーク成分の抑圧後の音声信号を選択してもよい。また、出力選択部２３０は、フィルタ係数が収束するまでの時間が短い方のクロストーク成分の抑圧後の音声信号を選択してもよい。なお、出力選択部２３０は、ユーザの切替操作にしたがい、フィルタ更新部２２５を用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部１２５を用いたクロストーク成分の抑圧後の音声信号とのいずれかを事前に選択してもよい。

また、出力選択部２３０は、話者状況によってクロストーク成分の抑圧後の音声信号を選択してもよい。例えば、乗員Ａの声が音声認識対象であり、乗員Ｄの声がクロストークである話者状況において、別の乗員Ｃが小声で加わった場合等では、出力選択部２３０は、フィルタ更新部２２５で生成されるクロストーク抑圧信号を用いて抑圧された、クロストーク成分の抑圧後の音声信号を選択する。一方、乗員Ｃと乗員Ｄの声の音量に大きな差が無い場合、出力選択部２３０は、フィルタ更新部１２５で生成されるクロストーク抑圧信号を用いて抑圧された、クロストーク成分の抑圧後の音声信号を選択する。

（音響クロストーク抑圧装置の動作）
図９は、実施の形態１の変形例に係る音響クロストーク抑圧装置１０５Ｂの動作手順例を示すフローチャートである。図９の説明において、実施の形態１に係る音響クロストーク抑圧装置１０５の動作と同一の処理については、同一のステップ番号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。

図９において、ステップＳ１０２の後、話者分析部１４４によって話者状況が分析されると、音響クロストーク抑圧装置１０５Ｂは、実施の形態１と同様、ステップＳ１０４～Ｓ１０９の一連の処理を実行する。つまり、音響クロストーク抑圧装置１０５Ｂは、話者状況が変化した（切り替わった）と判定された場合にフィルタ係数を初期値にリセットし、切り替わった話者状況に応じてフィルタ係数を再学習しながら畳み込み信号生成部１２３を使用してマイクｍＡで収音された音声信号（主信号）からクロストーク成分の抑圧を行う。

また、音響クロストーク抑圧装置１０５Ｂは、ステップＳ１０４～Ｓ１０９の一連処理と並行してステップＳ１２１～Ｓ１２４の処理を行う。つまり、音響クロストーク抑圧装置１０５Ｂは、話者状況が変化した（切り替わった）と判定された場合でも、フィルタ係数をリセットすることなくフィルタ係数を必要に応じて学習しながら畳み込み信号生成部２２３を使用してマイクｍＡで収音された音声信号（主信号）からクロストーク成分の抑圧を行う。

具体的には、フィルタ更新部２２５は、更新量計算部２２６で計算される、畳み込み信号生成部２２３のフィルタ係数を取得する（Ｓ１２１）。畳み込み信号生成部２２３は、更新量計算部２２６で計算されるフィルタ係数を用いて参照信号に畳み込み処理を行い、クロストーク抑圧信号を生成する（Ｓ１２２）。加算器２２２は、マイクｍＡで収音された音声の音声信号から、畳み込み信号生成部２２３により生成されたクロストーク抑圧信号を抑圧（減算）し、マイクｍＡで収音された音声に含まれるクロストーク成分を抑圧する。

続けて、音響クロストーク抑圧装置１０５Ｂは、フィルタ学習期間であるか否かを判別する（Ｓ１２３）。フィルタ学習期間は、例えば、メイン話者である乗員Ａの音声に含まれるクロストーク成分を抑圧するためのフィルタ係数を学習するために、メイン話者である乗員Ａ以外の誰かが発話している期間となる。また、フィルタ学習期間でない期間は、乗員Ａ以外の乗員が誰も発話していない期間である。フィルタ学習期間である場合（Ｓ１２３、ＹＥＳ）、フィルタ更新部２２５は、更新量計算部２２６で計算されるフィルタ係数で畳み込み信号生成部２２３のフィルタ係数を更新し、その更新結果をメモリ１５２に記憶する（Ｓ１２４）。一方、フィルタ学習期間でない場合（Ｓ１２３、ＮＯ）、音響クロストーク抑圧装置１０５Ｂは、畳み込み信号生成部２２３のフィルタ係数を更新しない。

出力選択部２３０は、畳み込み信号生成部１２３を使用したクロストーク成分の抑圧後の音声信号と、畳み込み信号生成部２２３を使用したクロストーク成分の抑圧後の音声信号とのいずれかを選択する（Ｓ１２５）。この後、音響クロストーク抑圧装置１０５Ｂは、図９の動作を終了する。

実施の形態１の変形例に係る音響クロストーク抑圧装置１０５Ｂは、フィルタ更新部２２５を用いたクロストーク抑圧後の音声信号と、フィルタ更新部１２５を用いたクロストーク抑圧後の音声信号とのいずれかを選択できる。したがって、例えば、音響クロストーク抑圧装置１０５Ｂは、音声認識部１４６による音声認識の結果、スコア値が高い方のクロストーク抑圧後の音声信号を選択することで、音声認識率を高めることができ、発話音声の音質が向上する。また、音響クロストーク抑圧装置１０５Ｂは、フィルタ係数が収束するまでの時間が短い方のクロストーク抑圧後の音声信号を選択することで、対象となる音声の音質が安定するまでの時間を短縮できる。

このように、音響クロストーク抑圧装置１０５Ｂは、乗員Ａの音声信号に含まれる乗員Ｄの発話によるクロストーク抑圧信号（クロストーク成分の第２抑圧信号の一例）を生成する畳み込み信号生成部２２３（第２フィルタの一例）を有し、クロストーク成分を抑圧するための畳み込み信号生成部２２３のフィルタ係数を更新し、その更新結果をフィルタ更新部２２５（第２フィルタ更新部の一例）においてメモリ１５２に保持する。音響クロストーク抑圧装置１０５Ｂは、畳み込み信号生成部２２３により生成されたクロストーク抑圧信号を用いて、乗員Ａの音声信号に含まれるクロストーク成分を加算器２２２（第２クロストーク抑圧部の一例）において抑圧する。音響クロストーク抑圧装置１０５Ｂは、加算器１２２からのクロストーク抑圧後の音声信号（第１出力信号の一例）と加算器２２２からのクロストーク抑圧後の音声信号（第２出力信号の一例）とのうちいずれかを出力選択部２３０において選択して出力する。

これにより、音響クロストーク抑圧装置１０５Ｂは、話者状況が変化した時にリセットされたフィルタ係数を使用してクロストーク成分が抑圧されたクロストーク抑圧後の音声信号と、話者状況が変化した時にリセットされないフィルタ係数を使用してクロストーク成分が抑圧されたクロストーク抑圧後の音声信号とを選択して出力できる。したがって、音響クロストーク抑圧装置１０５Ｂは、例えば、乗員Ａの音声の音質が良い方のクロストーク抑圧後の音声信号を選択可能である。

また、出力選択部２３０は、クロストーク成分が抑圧された乗員Ａの音声信号を音声認識した結果を基に、クロストーク抑圧後の音声信号を選択して出力する。これにより、音響クロストーク抑圧装置１０５Ｂは、音声認識のスコア値が高い方の信号を選択できる。したがって、乗員Ａの発話音声の音質が高くなる。

（実施の形態２の変形例）
実施の形態２の変形例では、実施の形態１の変形例と同様、車両１０８等の閉空間内の環境下での話者状況によっては、話者の切り替わりがあったと判定された場合に、音響クロストーク抑圧装置１０５Ｃは、変化後の話者状況に対応したフィルタ係数をフィルタ係数保存部１５３Ｂ（図１２参照）から読み込むことなく、話者状況の変化前のフィルタ係数を用いてクロストーク成分を抑圧することも可能である。

（音響クロストーク抑圧装置の構成）
図１０は、実施の形態２の変形例に係る音響クロストーク抑圧装置１０５Ｃの機能的構成例を示すブロック図である。実施の形態２の変形例に係る音響クロストーク抑圧装置１０５Ｃにおいて、実施の形態２に係る音響クロストーク抑圧装置１０５Ａ、および実施の形態１の変形例に係る音響クロストーク抑圧装置１０５Ｂと同一の構成要素については、同一の符号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。

実施の形態２の変形例に係る音響クロストーク抑圧装置１０５Ｃは、同様にＤＳＰ１１０Ｃにより構成される。音響クロストーク抑圧装置１０５Ｃは、実施の形態２に係るＤＳＰ１１０Ａの機能的構成の他に、実施の形態１の変形例と同様、加算器２２２、フィルタ更新部２２５、および出力選択部２３０を更に有する。

出力選択部２３０は、実施の形態１の変形例と同様の方法で、フィルタ更新部２２５を用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部１２５Ａを用いたクロストーク成分の抑圧後の音声信号とのいずれかを選択する。

出力選択部２３０は、所定の判断基準を基に、フィルタ更新部２２５を用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部１２５Ａを用いたクロストーク成分の抑圧後の音声信号とのいずれかを選択する。例えば、出力選択部２３０は、音声認識部１４６による音声認識の結果、スコア値が高い方のクロストーク成分の抑圧後の音声信号を選択してもよい。また、出力選択部２３０は、フィルタ係数が収束するまでの時間が短い方のクロストーク成分の抑圧後の音声信号を選択してもよい。また、出力選択部２３０は、実施の形態１の変形例と同様、話者状況によってクロストーク成分の抑圧後の音声信号を選択してもよい。なお、出力選択部２３０は、ユーザの切替操作にしたがい、フィルタ更新部２２５を用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部１２５Ａを用いたクロストーク成分の抑圧後の音声信号とのいずれかを事前に選択してもよい。

（音響クロストーク抑圧装置の動作）
図１１は、実施の形態２の変形例に係る音響クロストーク抑圧装置１０５Ｃの動作手順例を示すフローチャートである。図１１の説明において、実施の形態２に係る音響クロストーク抑圧装置１０５Ａの動作あるいは実施の形態１の変形例に係る音響クロストーク抑圧装置１０５Ｂの動作と同一の処理については、同一のステップ番号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。

図１１において、ステップＳ１０２の後、話者分析部１４４によって話者状況が分析されると、音響クロストーク抑圧装置１０５Ｃは、実施の形態２と同様に、ステップＳ１０４～Ｓ１１２の一連の処理を実行する。つまり、音響クロストーク抑圧装置１０５Ｃは、話者状況が変化した（切り替わった）と判定された場合に過去に学習済みのフィルタ係数を読み込み、畳み込み信号生成部１２３を使用してクロストーク成分の抑圧を行う。また、音響クロストーク抑圧装置１０５Ｃは、ステップＳ１０４～Ｓ１１２の一連の処理と並行し、実施の形態１の変形例と同様に、ステップＳ１２１～Ｓ１２４の一連の処理を行う。つまり、音響クロストーク抑圧装置１０５Ｃは、過去に学習済みのフィルタ係数を読み込むことなく、畳み込み信号生成部２２３を使用してクロストーク成分の抑圧を行う。

ステップＳ１２５において、出力選択部２３０は、フィルタ更新部１２５Ａを用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部２２５を用いたクロストーク成分の抑圧後の音声信号とのいずれかを選択する。

実施の形態２の変形例に係る音響クロストーク抑圧装置１０５Ｃは、フィルタ更新部１２５Ａを用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部２２５を用いたクロストーク成分の抑圧後の音声信号とのいずれかを選択できる。したがって、例えば、音響クロストーク抑圧装置１０５Ｃは、音声認識部１４６による音声認識の結果、スコア値が高い方のクロストーク成分の抑圧後の音声信号を選択することで、音声認識率を高めることができ、発話音声の音質が向上する。また、音響クロストーク抑圧装置１０５Ｃは、フィルタ係数が収束するまでの時間が短い方のクロストーク成分の抑圧後の音声信号を選択することで、音声認識対象となるメイン話者（例えば乗員Ａ）の発話による音声の音質が安定するまでの時間を短縮できる。

このように、音響クロストーク抑圧装置１０５Ｃは、乗員Ａの音声信号に含まれる乗員Ｄの発話によるクロストーク抑圧信号（クロストーク成分の第２抑圧信号の一例）を生成する畳み込み信号生成部２２３（第２フィルタの一例）を有し、クロストーク成分を抑圧するための畳み込み信号生成部２２３のフィルタ係数を更新し、その更新結果をフィルタ更新部２２５においてメモリ１５２に保持する。音響クロストーク抑圧装置１０５Ｃは、畳み込み信号生成部２２３により生成されたクロストーク抑圧信号を用いて、乗員Ａの音声信号に含まれるクロストーク成分を加算器２２２において抑圧する。音響クロストーク抑圧装置１０５Ｃは、加算器１２２からのクロストーク抑圧後の音声信号（第１出力信号の一例）と加算器２２２からのクロストーク抑圧後の音声信号（第２出力信号の一例）とのうちいずれかを出力選択部２３０において選択して出力する。

これにより、音響クロストーク抑圧装置１０５Ｃは、話者状況が変化した時にフィルタ係数保存部１５３（例えばキャッシュメモリ）に保持された話者状況に対応するフィルタ係数を使用してクロストーク成分が抑圧されたクロストーク抑圧後の音声信号と、話者状況が変化した時に読み込まれないフィルタ係数を使用してクロストーク成分が抑圧されたクロストーク抑圧後の音声信号とを選択して出力できる。したがって、音響クロストーク抑圧装置１０５Ｃは、例えば乗員Ａの音声の音質が良い方のクロストーク抑圧後の音声信号を選択可能である。

また、出力選択部２３０は、クロストーク成分が抑圧された乗員Ａの音声信号を音声認識した結果を基に、クロストーク抑圧後の音声信号を選択して出力する。これにより、音響クロストーク抑圧装置１０５Ｃは、音声認識のスコア値が高い方の信号を選択できる。したがって、乗員Ａの発話音声の音質が高くなる。

（実施の形態３）
実施の形態３では、実施の形態１に示した、話者が切り替わった場合にフィルタ係数を初期値にリセットして再学習する方法と、実施の形態２に示した、過去に学習済みのフィルタ係数を読み込む方法とを、音響クロストーク抑圧装置が選択可能である場合を示す。

（音響クロストーク抑圧装置の構成）
図１２は、実施の形態３に係る音響クロストーク抑圧装置１０５Ｄの機能的構成例を示すブロック図である。音響クロストーク抑圧装置１０５Ｄは、実施の形態１に係る音響クロストーク抑圧装置１０５および実施の形態２に係る音響クロストーク抑圧装置１０５Ａの機能的構成の他に、出力選択部２３０を更に有する。音響クロストーク抑圧装置１０５Ｄにおいて、実施の形態１に係る音響クロストーク抑圧装置１０５および実施の形態２に係る音響クロストーク抑圧装置１０５Ａと同一の構成要素については、同一の符号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。例えば、実施の形態２の加算器１２２と、実施の形態３の加算器１２２Ｂとは、同一の構成である。また、実施の形態２のフィルタ更新部１２５Ａと、実施の形態３のフィルタ更新部１２５Ｂとは、同一の構成である。その他の各部においても同様であるとして説明を省略する。

出力選択部２３０は、所定の判断基準を基に、フィルタ更新部１２５を用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部１２５Ｂを用いたクロストーク成分の抑圧後の音声信号とのいずれかを選択する。例えば、出力選択部２３０は、音声認識部１４６による音声認識の結果、スコア値が高い方のクロストーク抑圧後の音声信号を選択してもよい。また、出力選択部２３０は、フィルタ係数が収束するまでの時間が短い方のクロストーク成分の抑圧後の音声信号を選択してもよい。また、出力選択部２３０は、実施の形態１の変形例と同様、話者状況によってクロストーク成分の抑圧後の音声信号を選択してもよい。なお、出力選択部２３０は、ユーザの切替操作にしたがい、フィルタ更新部１２５を用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部１２５Ｂを用いたクロストーク成分の抑圧後の音声信号とのいずれかを事前に選択してもよい。

（音響クロストーク抑圧装置の動作）
図１３は、実施の形態３に係る音響クロストーク抑圧装置１０５Ｄの動作手順例を示すフローチャートである。図１３の説明において、実施の形態１に係る音響クロストーク抑圧装置１０５の動作あるいは実施の形態２に係る音響クロストーク抑圧装置１０５Ａの動作と同一の処理については、同一のステップ番号を付することで、その説明を簡略化あるいは省略し、異なる内容について説明する。

図１３において、ステップＳ１０２の後、話者分析部１４４によって話者状況が分析されると、音響クロストーク抑圧装置１０５Ｄは、実施の形態１のステップＳ１０４～Ｓ１０９の一連の処理を実行する。つまり、音響クロストーク抑圧装置１０５Ｄは、話者状況が変化した（切り替わった）と判定された場合にフィルタ係数を初期値にリセットしてファイル係数を再学習しながら畳み込み信号生成部１２３を使用してクロストーク成分の抑圧を行う。また、音響クロストーク抑圧装置１０５Ｄは、ステップＳ１０４～Ｓ１０９の一連の処理と並行し、実施の形態２と同様に、ステップＳ１０４Ｂ～Ｓ１１２Ｂの一連の処理を実行する。つまり、音響クロストーク抑圧装置１０５Ｄは、話者状況が変化した（切り替わった）と判定された場合に過去に学習済みのフィルタ係数を読み込み、畳み込み信号生成部１２３Ｂを使用してクロストーク成分の抑圧を行う。

ステップＳ１２５において、出力選択部２３０は、畳み込み信号生成部１２３を使用した、実施の形態１のクロストーク成分の抑圧後の音声信号と、畳み込み信号生成部１２３Ｂを使用した、実施の形態２のクロストーク成分の抑圧後の音声信号とのいずれかを選択する。

実施の形態３に係る音響クロストーク抑圧装置１０５Ｄは、実施の形態１のクロストーク成分の抑圧後の音声信号と、実施の形態２のクロストーク成分の抑圧後の音声信号とのいずれかを選択できる。したがって、例えば、音響クロストーク抑圧装置１０５Ｄは、スコア値が高い方のクロストーク成分の抑圧後の音声信号を選択することで、音声認識率を高めることができ、発話音声の音質が向上する。また、音響クロストーク抑圧装置１０５Ｄは、フィルタ係数が収束するまでの時間が短い方のクロストーク成分の抑圧後の音声信号を選択することで、対象となる音声の音質が安定するまでの時間を短縮できる。

このように、音響クロストーク抑圧装置１０５Ｄは、乗員Ａの音声信号に含まれる乗員Ｄの発話によるクロストーク抑圧信号（クロストーク成分の第２抑圧信号の一例）を生成する畳み込み信号生成部１２３Ｂ（第２フィルタ）を有し、クロストーク成分を抑圧するための畳み込み信号生成部１２３Ｂのフィルタ係数を更新し、その更新結果をフィルタ更新部１２５Ｂにおいて話者状況と関連付けてフィルタ係数保存部１５３Ｂ（第２メモリの一例）に保持する。音響クロストーク抑圧装置１０５Ｄは、畳み込み信号生成部１２３Ｂにより生成されたクロストーク抑圧信号を用いて、乗員Ａの音声信号に含まれるクロストーク成分を加算器１２２Ｂ（第２クロストーク抑圧部の一例）において抑圧する。音響クロストーク抑圧装置１０５Ｄは、加算器１２２からのクロストーク抑圧後の音声信号（第１出力信号の一例）と加算器１２２Ｂからのクロストーク抑圧後の音声信号（第２出力信号の一例）とのうちいずれかを出力選択部２３０において選択して出力する。フィルタ更新部１２５Ｂは、話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、話者状況の分析結果に対応する畳み込み信号生成部１２３Ｂのフィルタ係数を用いて、畳み込み信号生成部１２３Ｂによりクロストーク抑圧信号を生成する。

これにより、音響クロストーク抑圧装置１０５Ｄは、話者状況が変化した時にリセットされたフィルタ係数を使用してクロストーク成分が抑圧されたクロストーク抑圧後の音声信号と、話者状況が変化した時にキャッシュメモリに保持された話者状況に対応するフィルタ係数を使用してクロストーク成分が抑圧されたクロストーク抑圧後の音声信号と、を選択して出力できる。したがって、音響クロストーク抑圧装置１０５Ｄは、例えば、乗員Ａの音声の音質が良い方のクロストーク抑圧後の音声信号を選択可能である。

また、出力選択部２３０は、クロストーク成分が抑圧された乗員Ａの音声信号を音声認識した結果を基に、クロストーク抑圧後の音声信号を選択して出力する。これにより、音響クロストーク抑圧装置１０５Ｄは、音声認識のスコア値が高い方の信号を選択できる。したがって、乗員Ａの発話音声の音質が高くなる。

以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。

例えば、上述した実施の形態では、車室内に配置されるマイクの数が２個である場合を示したが、３個以上の数のマイクが車室内に配置されてもよい。この場合、音響クロストーク抑圧装置１０５，１０５Ａ，１０５Ｂ，１０５Ｃ，１０５Ｄは、主信号を入力するマイクを除く、マイクの数だけディレイおよびフィルタ更新部の組を備える。例えば、マイクの数が４個である場合、音響クロストーク抑圧装置１０５，１０５Ａ，１０５Ｂ，１０５Ｃ，１０５Ｄには、３組のディレイおよびフィルタ更新部の組み合わせに相当する構成が設けられる。

本開示は、音響クロストーク抑圧装置において、車室等の閉空間に存在する複数の乗員の話者状況に応じて、メイン話者の発話音声に含まれ得る音響的なクロストーク成分を適応的に抑圧し、メイン話者の発話音声の音質を改善する音響クロストーク抑圧装置および音響クロストーク抑圧方法として有用である。

１０５、１０５Ａ、１０５Ｂ、１０５Ｃ、１０５Ｄ音響クロストーク抑圧装置
１０８車両
１０８ｚ車室
１２２、２２２加算器
１２３、１２３Ｂ、２２３畳み込み信号生成部
１２５、１２５Ａ、１２５Ｂ、２２５フィルタ更新部
１２６、１２６Ｂ、２２６更新量計算部
１２７、１２７Ｂ、２２７非線形変換部
１２８、１２８Ｂ、２２８ノルム算出部
１２９ディレイ
１４１、１４１Ｂフィルタ係数監視部
１４２音圧分析部
１４３抑圧量分析部
１４４話者分析部
１４５フィルタリセット部
１４６音声認識部
１５０、１５２メモリ
１５１、１５１Ｂフィルタ係数読込部
１５３フィルタ係数保存部
１５４、１５４Ｂフィルタ係数収束判定部
２３０出力選択部
ｍＡ、ｍＤマイク

Claims

メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットするリセット部と、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、を備え、
前記フィルタ更新部は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて前記フィルタのパラメータを更新し、
前記話者分析部は、前記複数のマイクのそれぞれにより収音された各音声信号のレベルと閾値との比較に応じて、前記閉空間内での話者状況の変更の有無を分析する、
音響クロストーク抑圧装置。
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットするリセット部と、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、を備え、
前記フィルタ更新部は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて前記フィルタのパラメータを更新し、
前記話者分析部は、前記フィルタのパラメータの時間軸上の変動量に基づいて、前記閉空間内での話者状況の変更の有無を分析する、
音響クロストーク抑圧装置。
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットするリセット部と、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、を備え、
前記フィルタ更新部は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて前記フィルタのパラメータを更新し、
前記話者分析部は、前記メイン話者の音声信号に含まれる前記クロストーク成分の抑圧量と閾値との比較に応じて、前記閉空間内での話者状況の変更の有無を分析する、
音響クロストーク抑圧装置。
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットするリセット部と、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、
前記メイン話者の音声信号に含まれる前記他の話者の発話によるクロストーク成分の第２抑圧信号を生成する第２フィルタを有し、前記クロストーク成分を抑圧するための前記第２フィルタのパラメータを更新し、その更新結果をメモリに保持する第２フィルタ更新部と、
前記第２フィルタにより生成された前記第２抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧する第２クロストーク抑圧部と、
前記クロストーク抑圧部からの第１出力信号と前記第２クロストーク抑圧部からの第２出力信号とのうちいずれかを選択して出力する出力選択部と、を備え、
前記フィルタ更新部は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて前記フィルタのパラメータを更新する、
音響クロストーク抑圧装置。
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果を前記話者状況と関連付けてメモリに保持するフィルタ更新部と、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、
前記メイン話者の音声信号に含まれる前記他の話者の発話によるクロストーク成分の第２抑圧信号を生成する第２フィルタを有し、前記クロストーク成分を抑圧するための前記第２フィルタのパラメータを更新し、その更新結果をメモリに保持する第２フィルタ更新部と、
前記第２フィルタにより生成された前記第２抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧する第２クロストーク抑圧部と、
前記クロストーク抑圧部からの第１出力信号と前記第２クロストーク抑圧部からの第２出力信号とのうちいずれかを選択して出力する出力選択部と、を備え、
前記フィルタ更新部は、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記話者状況の分析結果に対応する前記フィルタのパラメータを用いて、前記フィルタにより前記抑圧信号を生成する、
音響クロストーク抑圧装置。
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットするリセット部と、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の第２抑圧信号を生成する第２フィルタを有し、前記クロストーク成分を抑圧するための前記第２フィルタのパラメータを更新し、その更新結果を前記話者状況と関連付けて第２メモリに保持する第２フィルタ更新部と、
前記第２フィルタにより生成された前記第２抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧する第２クロストーク抑圧部と、
前記クロストーク抑圧部からの第１出力信号と前記第２クロストーク抑圧部からの第２出力信号とのうちいずれかを選択して出力する出力選択部と、を備え、
前記フィルタ更新部は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて前記フィルタのパラメータを更新し、
前記第２フィルタ更新部は、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記話者状況の分析結果に対応する前記第２フィルタのパラメータを用いて、前記第２フィルタにより前記第２抑圧信号を生成する、
音響クロストーク抑圧装置。
前記出力選択部は、前記クロストーク成分が抑圧された前記メイン話者の音声信号を音声認識した結果を基に、前記第１出力信号または前記第２出力信号を選択して出力する、
請求項４～６のうちいずれか一項に記載の音響クロストーク抑圧装置。
音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果をメモリに保持し、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットし、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記パラメータの更新は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて実行され、
前記分析では、前記複数のマイクのそれぞれにより収音された各音声信号のレベルと閾値との比較に応じて、前記閉空間内での話者状況の変更の有無が分析される、
音響クロストーク抑圧方法。
音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果をメモリに保持し、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットし、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記パラメータの更新は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて実行され、
前記分析では、前記フィルタのパラメータの時間軸上の変動量に基づいて、前記閉空間内での話者状況の変更の有無が分析される、
音響クロストーク抑圧方法。
音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果をメモリに保持し、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットし、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記パラメータの更新は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて実行され、
前記分析では、前記メイン話者の音声信号に含まれる前記クロストーク成分の抑圧量と閾値との比較に応じて、前記閉空間内での話者状況の変更の有無が分析される、
音響クロストーク抑圧方法。
音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果をメモリに保持し、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットし、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記メイン話者の音声信号に含まれる前記他の話者の発話によるクロストーク成分の第２抑圧信号を生成する第２フィルタのパラメータを更新し、その更新結果をメモリに保持し、
前記第２フィルタにより生成された前記第２抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記フィルタに基づく前記クロストーク成分の抑圧後の第１出力信号と前記第２フィルタに基づく前記クロストーク成分の抑圧後の第２出力信号とのうちいずれかを選択して出力し、
前記パラメータの更新は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて実行される、
音響クロストーク抑圧方法。
音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果を前記話者状況と関連付けてメモリに保持し、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記メイン話者の音声信号に含まれる前記他の話者の発話によるクロストーク成分の第２抑圧信号を生成する第２フィルタのパラメータを更新し、その更新結果を前記メモリに保持し、
前記第２フィルタにより生成された前記第２抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記フィルタに基づく前記クロストーク成分の抑圧後の第１出力信号と前記第２フィルタに基づく前記クロストーク成分の抑圧後の第２出力信号とのうちいずれかを選択して出力し、
前記抑圧信号の生成は、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記話者状況の分析結果に対応する前記フィルタのパラメータを用いて、前記フィルタにより実行される、
音響クロストーク抑圧方法。
音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果をメモリに保持し、
前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットし、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の第２抑圧信号を生成する第２フィルタのパラメータを更新し、その更新結果を前記話者状況と関連付けて第２メモリに保持し、
前記第２フィルタにより生成された前記第２抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
前記フィルタに基づく前記クロストーク成分の抑圧後の第１出力信号と前記第２フィルタに基づく前記クロストーク成分の抑圧後の第２出力信号とのうちいずれかを選択して出力し、
前記分析では、前記メイン話者の音声信号に含まれる前記クロストーク成分の抑圧量と閾値との比較に応じて、前記閉空間内での話者状況の変更の有無が分析され、
前記第２抑圧信号の生成は、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記話者状況の分析結果に対応する前記第２フィルタのパラメータを用いて、前記第２フィルタにより実行される、
音響クロストーク抑圧方法。
前記出力は、前記クロストーク成分が抑圧された前記メイン話者の音声信号を音声認識した結果を基に、前記第１出力信号または前記第２出力信号が選択されて出力される、
請求項１１～１３のうちいずれか一項に記載の音響クロストーク抑圧方法。