JP7486153B2

JP7486153B2 - 音声処理装置および音声処理方法

Info

Publication number: JP7486153B2
Application number: JP2020033406A
Authority: JP
Inventors: 正成宮本
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2024-05-17
Anticipated expiration: 2040-02-28
Also published as: JP2021135447A

Description

本開示は、音声処理装置および音声処理方法に関する。

特許文献１には、車室内の状況として乗員の配置パターンを予め想定し、各配置パターンそれぞれに対して音の伝達特性を測定し、その測定により得られメモリなどに記憶された各伝達特性を用いて、スピーカから出力される音声信号に含まれる音響を推定して除去する音響除去装置が開示されている。この音響除去装置によれば、乗員の配置が配置パターンのいずれかを満たす限り、音響の除去または抑圧が可能である。

特開２００９－２１６８３５号公報

特許文献１の構成では、ドライバーの発話音声を収音することを目的としたマイクがドライバーの前に１つ配置されているだけで、ドライバーの声は高音圧で収音可能ではあるが、一方で同じ車両内の同乗者（つまり他の乗員）の声をその同じマイクで高音圧に収音することは困難な場合が想定される。これは、マイクの配置箇所がドライバーの近くに偏っているので、ドライバーからマイクまでの距離と同乗者からマイクまでの距離とが異なるためである。このため、ドライバーと同乗者とがほぼ同時に発話した時にいずれかの話者Ｘ（例えばドライバー）の音声信号に含まれる他の話者Ｙ（例えば同乗者）の音声信号をクロストーク成分として抑圧したくても、他の話者Ｙの音声信号が高音圧で収音されていなければクロストーク抑圧の効果が現れず、話者Ｘの音声信号の音質が劣化する可能性があった。これは、ドライバーのマイクだけでは他の話者Ｙ（例えば同乗者）の音声を高音圧で収音することが難しく、他の話者Ｙ（例えば同乗者）の音声信号をクロストーク成分として抑圧するための適応フィルタのフィルタ係数の学習が困難なためである。なお、上述した課題の例では話者Ｘはドライバーであって話者Ｙは同乗者として説明したが、話者Ｘが同乗者であって話者Ｙがドライバーであっても同様の課題が生じる。

本開示は、上述した従来の状況に鑑みて案出され、閉空間に存在する複数の話者のうちいずれの話者が発話した場合でも、その話者の発話音声に含まれ得る他の話者の発話音声による音響的なクロストーク成分を適応的に抑圧し、発話音声の音質を改善する音声処理装置および音声処理方法を提供することを目的とする。

本開示は、閉空間内に配置された複数のマイクと接続され、前記複数のマイクのそれぞれにより収音された音声信号に基づいて、前記閉空間内に存在する複数人のうちいずれか一人が発話しているシングルトーク状態を検出するシングルトーク検出部と、前記複数人のうち任意の話者である第１の話者のシングルトーク状態で前記複数のマイクのそれぞれにより収音された音声信号の音圧比率と、前記第１の話者と異なる第２の話者のシングルトーク状態で前記複数のマイクのそれぞれにより収音された音声信号の音圧比率とに基づいて、前記第２の話者の音声信号に対して前記第１の話者の音声信号が含まれる割合を示す第１の混合率、前記第１の話者の音声信号に対して前記第２の話者の音声信号が含まれる割合を示す第２の混合率を推定する混合率推定部と、前記第１の混合率および前記第２の混合率の推定結果に基づいて、前記第１の話者の音声信号に含まれる前記第２の話者の発話による第１のクロストーク成分、および、前記第２の話者の音声信号に含まれる前記第１の話者の発話による第２のクロストーク成分のうちいずれの抑圧を行うかを判別する決定部と、を備え、前記決定部は、前記第１の混合率が前記第２の混合率より小さい場合に、前記第１のクロストーク成分の抑圧を行うと判別する、音声処理装置を提供する。

また、本開示は、閉空間内に配置された複数のマイクのそれぞれにより収音された音声信号に基づいて、前記閉空間内に存在する複数人のうちいずれか一人が発話しているシングルトーク状態を検出し、前記複数人のうち任意の話者である第１の話者のシングルトーク状態で前記複数のマイクのそれぞれにより収音された音声信号の音圧比率と、前記第１の話者と異なる第２の話者のシングルトーク状態で前記複数のマイクのそれぞれにより収音された音声信号の音圧比率とに基づいて、前記第２の話者の音声信号に対して前記第１の話者の音声信号が含まれる割合を示す第１の混合率、前記第１の話者の音声信号に対して前記第２の話者の音声信号が含まれる割合を示す第２の混合率を推定し、前記第１の混合率および前記第２の混合率の推定結果に基づいて、前記第１の話者の音声信号に含まれる前記第２の話者の発話による第１のクロストーク成分、および、前記第２の話者の音声信号に含まれる前記第１の話者の発話による第２のクロストーク成分のうちいずれの抑圧を行うかを判別し、前記第１の混合率が前記第２の混合率より小さい場合に、前記第１のクロストーク成分の抑圧を行うと判別する、音声処理方法を提供する。

本開示によれば、閉空間に存在する複数の話者のうちいずれの話者が発話した場合でも、その話者の発話音声に含まれ得る他の話者の発話音声による音響的なクロストーク成分を適応的に抑圧でき、発話音声の音質を改善できる。

実施の形態１に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図フィルタ更新部の詳細な構成例を示すブロック図実施の形態１に係る音響クロストーク抑圧動作手順例を示すフローチャートクロストーク成分の抑圧動作手順例を示すフローチャート実施の形態２に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図音圧ヒートマップが重畳された全方位カメラによる撮像画像の一例を示す図実施の形態２に係る音響クロストーク抑圧動作手順例を示すフローチャート店員と顧客の真ん中にマイクアレイが置かれた状況の一例を示す図図８の状況において、店員および顧客それぞれの方向に指向性が形成されて収音された音声に対する音響クロストーク抑圧処理例を説明する図店員に近く顧客から離れた位置にマイクアレイが置かれた状況の一例を示す図図１０の状況において、店員および顧客それぞれの方向に指向性が形成されて収音された音声に対する音響クロストーク抑圧処理例を説明する図

（本開示に至る技術的な課題などの経緯）
音響クロストーク抑圧装置が利用される場面として、例えば、二人の人物が会話する状況が想定される。音響クロストーク抑圧装置は、例えば、特許第６６３５３９４号などに開示されるように、一方の人物が発話した音声に他方の人物が発話した音声がクロストーク成分として含まれる場合に、クロストーク成分を抑圧（言い換えると、減算）するための抑圧信号を生成し、その一方の人物の発話による音声信号から抑圧信号を抑圧することで、クロストーク成分が抑圧された音声信号を出力できる。二人の人物が会話する状況として、例えば、刑務所などで刑務官と犯罪者などの入所者とが向かい合って会話する状況、店舗などで店員と顧客とがテーブルを挟んで対話する状況、オフィスなどで社員と上司とが会議で話し合う状況などが挙げられるが、上述した状況に限定されなくてよい。発話の内容は、ログとして記録され、テキストに変換されて保存されてもよいし、発話の音声信号が音声認識の処理として入力されてもよい。

以下、店舗内で店員と顧客とが対話する状況を一例として示す。音響クロストーク抑圧装置は、例えば店舗内に設置されている円卓のテーブルに配置された複数のマイクのそれぞれに接続され、店員および顧客の一方がメイン話者として発話する音声を目的音とし、このメイン話者の音声に妨害音として混ざる他の話者が発話する音声を抑圧する。

図８は、店員ｈｍ１と顧客ｈｍ２の真ん中にマイクアレイｍＡが置かれた状況の一例を示す図である。マイクアレイｍＡは、複数個の無指向性マイクを収容した筐体を有し、それぞれの無指向性マイクで周囲の音声を収音する。マイクアレイｍＡにより収音された音声は、公知の方法（例えば、マイクアレイｍＡ、あるいはマイクアレイｍＡに接続されたＰＣ（図示略）で行われるビームフォーミング処理）により、店員ｈｍ１および顧客ｈｍ２のそれぞれの方向に指向性が形成されて音声出力が可能となる。なお、マイクとしては、マイクアレイｍＡに限らず、１個もしくは複数個の無指向性マイクであってもよい。

図８では、マイクアレイｍＡから店員ｈｍ１までの距離とマイクアレイｍＡから顧客ｈｍ２までの距離とがほぼ等しく、マイクアレイｍＡから店員ｈｍ１へ向かう方向ｄ１とマイクアレイｍＡから顧客ｈｍ２に向かう方向ｄ２とが、マイクアレイｍＡが置かれたテーブルの面からほぼ同じ角度である場合、マイクアレイｍＡは、店員ｈｍ１の声と顧客ｈｍ２の声とを高い割合で分離して収音できる。

図９は、図８の状況において、店員ｈｍ１および顧客ｈｍ２それぞれの方向に指向性が形成されて収音された音声に対する音響クロストーク抑圧処理例を説明する図である。マイクアレイｍＡは、一例として４個の無指向性のマイク素子ｍ１～ｍ４を有する。図示は省略するが、マイクアレイｍＡ、あるいはマイクアレイｍＡに接続されたＰＣは、マイクアレイｍＡにより収音された音声信号を入力し、店員ｈｍ１および顧客ｈｍ２それぞれの方向に指向性を形成して（つまり、ビームフォーミングの処理を行って）音声を出力する。４個のマイク素子ｍ１～ｍ４でそれぞれ収音される、店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、音圧比で５：５となる。

ビームフォーミングの処理によって店員ｈｍ１の方向ｄ１に指向性が形成された場合、店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、例えば音圧比で７：３となったとする。同様に、ビームフォーミングの処理によって顧客ｈｍ２の方向ｄ２に指向性が形成された場合、店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、例えば音圧比で３：７となったとする。

ビームフォーミング後の店員ｈｍ１の声Ｖ１の音声信号を主信号とし、ビームフォーミングの処理後の顧客ｈｍ２の声Ｖ２の音声信号を参照信号として、音響クロストーク抑圧処理が行われると、クロストーク抑圧後の店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、例えば音圧比で９：１となる。したがって、店員ｈｍ１の声Ｖ１が顧客ｈｍ２の声Ｖ２に比べて相対的に強調される。同様に、ビームフォーミングの処理後の店員ｈｍ１の声Ｖ１の音声信号を参照信号とし、ビームフォーミングの処理後の顧客ｈｍ２の声Ｖ２の音声信号を主信号として、音響クロストーク抑圧処理が行われると、クロストーク抑圧後の店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、例えば音圧比で１：９となる。したがって、顧客ｈｍ２の声Ｖ２が店員ｈｍ１の声Ｖ１に比べて相対的に強調される。音声認識エンジンｅｇは、音響クロストーク抑圧後の店員ｈｍ１の声Ｖ１および顧客ｈｍ２の声Ｖ２のいずれも精度良く認識可能である。

図１０は、店員ｈｍ１に近く顧客ｈｍ２から離れた位置にマイクアレイｍＡが置かれた状況の一例を示す図である。通常、マイクアレイｍＡは、店員ｈｍ１と顧客ｈｍ２の真ん中に置かれることよりも、むしろどちらかの方に片寄って置かれることが多い、または、物理的に店員ｈｍ１と顧客ｈｍ２との間に置かれていたとしても空間特性の影響によって、指向性特性にばらつきが生じる場合がある。前者を例に考えると、マイクアレイｍＡから店員ｈｍ１までの距離とマイクアレイｍＡから顧客ｈｍ２までの距離が大きく異なる。したがって、マイクアレイｍＡにおいて受音（収音）される店員ｈｍ１の音声信号の音圧と顧客ｈｍ２の音声信号の音圧とに差が生じる（図１０参照）。例えば、図１０に示すように、マイクアレイｍＡを構成するそれぞれのマイクごとに、店員ｈｍ１，顧客ｈｍ２の音声信号の音圧の比率が７：３となるように差が生じている。このため、マイクアレイｍＡは、図８の状況とは異なり、店員ｈｍ１の声および顧客ｈｍ２の声を高い割合で分離して収音できない。なお、マイクアレイｍＡは、人体あるいは衣服に装着されてもよく、この場合、マイクアレイｍＡが装着された方の人物の声が支配的に収音され、より一層分離して収音できない。

図１１は、図１０の状況において、店員ｈｍ１および顧客ｈｍ２それぞれの方向に指向性が形成されて収音された音声に対する音響クロストーク抑圧処理例を説明する図である。４個のマイク素子ｍ１～ｍ４でそれぞれ収音される、店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、音圧比で７：３となる。

ビームフォーミングの処理によって店員ｈｍ１の方向ｄ１に指向性が形成された場合、マイクアレイｍＡは、店員ｈｍ１の近くに配置されるので、店員ｈｍ１の声Ｖ１を支配的に収音可能である。店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、例えば音圧比で９：１となる。一方、ビームフォーミングによって顧客ｈｍ２の方向ｄ２に指向性が形成された場合、マイクアレイｍＡは、顧客ｈｍ２から遠くに配置されるので、顧客ｈｍ２の声Ｖ２を十分に収音できない。店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、例えば音圧比で４：６となる。

このような場合、ビームフォーミング後の店員ｈｍ１の声Ｖ１の音声信号を参照信号とし、ビームフォーミング後の顧客ｈｍ２の声Ｖ２の音声信号を主信号として、音響クロストーク抑圧処理が行われると、参照信号の店員ｈｍ１の声がクリアであるので、クロストーク抑圧の性能が高い。したがって、顧客ｈｍ２の声Ｖ２が店員ｈｍ１の声Ｖ１に対して相対的に十分に強調される。音声認識エンジンｅｇは、顧客ｈｍ２の声Ｖ２を精度良く認識可能である。

一方、ビームフォーミング後の店員ｈｍ１の声Ｖ１の音声信号を主信号とし、ビームフォーミング後の顧客ｈｍ２の声Ｖ２の音声信号を参照信号として、音響クロストーク抑圧処理が行われると、店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２の音圧比が４：６とほぼ同等であるので、音響クロストーク抑圧処理の性能が低い。この結果、クロストーク成分となる顧客ｈｍ２の声Ｖ２を抑圧するどころか、却って、顧客ｈｍ２の声Ｖ２が加算されてしまい、主信号である店員ｈｍ１の声Ｖ１が益々クリアでなくなってしまう可能性があった。

しかしながら、ビームフォーミング後の顧客ｈｍ２の声Ｖ２の音声信号を主信号として、音響クロストーク抑圧処理が行われた後の顧客ｈｍ２の声Ｖ２は高音圧となるので、この高音圧の顧客ｈｍ２の声Ｖ２を参照信号としての適性は高いと考えられる。言い換えると、クロストーク成分の抑圧の順序を考慮することで、どの人物の声の音声信号が主信号となる場合でもクロストーク成分が抑圧された主信号の音声出力が可能となることが期待される。

そこで、以下の実施の形態では、音声処理装置の一例としての音響クロストーク抑圧装置は、閉空間に存在する複数の話者のうちいずれの話者が発話した場合でも、その話者の発話音声に含まれ得る他の話者の発話音声による音響的なクロストーク成分を適応的に抑圧し、発話音声の音質を改善する例を説明する。実施の形態１では無指向性マイクを用いる場合を示し、実施の形態２では指向性を形成可能なマイクアレイを用いる場合を示す。

以下、適宜図面を参照しながら、本開示に係る音声処理装置および音声処理方法を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

（実施の形態１）
図１は、実施の形態１に係る音響クロストーク抑圧装置５の機能的構成例を示すブロック図である。音声処理装置の一例としての音響クロストーク抑圧装置５は、目的音（言い換えると、主信号）に混ざる妨害音（言い換えると、クロストーク成分）を抑圧するものであり、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）１０などのプロセッサにより構成される。プロセッサは、ＤＳＰ以外に、ＣＰＵ（ＣｅｎｔｒａｌＰｏｒｏｃｅｓｓｉｎｇＵｎｉｔ）、あるいはＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）により構成されてもよい。音響クロストーク抑圧装置５には、２個のマイクｍｃ１，ｍｃ２が入力機器として接続され、音声認識エンジン（図示略、図９あるいは図１１参照）が出力機器として接続される。

収音装置の一例としてのマイクｍｃ１は、１個の無指向性マイクであり、例えば第１の話者（後述参照）が発話する音声を主に収音可能に配置され、第１の話者が発話する音声が収音された音声信号を取得する。同様に、収音装置の一例としてのマイクｍｃ２は、１個の無指向性マイクであり、例えば第１の話者でない他の話者である第２の話者が発話する音声を主に収音可能に配置され、第２の話者が発話する音声が収音された音声信号を取得する。なお、マイクｍｃ１は第２の話者が発話する音声を収音して参照信号を取得し、マイクｍｃ２は第１の話者が発話する音声を収音して主信号を取得してもよい。マイクｍｃ１，ｍｃ２は、例えば、高音質小型エレクトレットコンデンサーマイクロホン（ＥＣＭ：ＥｌｅｃｔｒｅｔＣｏｎｄｅｎｓｅｒＭｉｃｒｏｐｈｏｎｅ）で構成される。

ここでいう第１の話者とは、マイクｍｃ１，ｍｃ２が配置された閉空間などに存在する複数人のうち任意の話者であり、本開示に係る実施の形態において優先的にクロストーク成分が抑圧される音声信号の話者である。第２の話者とは、前述した複数人のうち第１の話者とは異なる話者であり、本開示に係る実施の形態において第１の話者の音声に含まれるクロストーク成分が抑圧された後にクロストーク成分が抑圧される音声信号の話者である。

音声認識エンジンは、音響クロストーク抑圧装置５から出力されるクロストーク抑圧後の音声信号を基にして音声認識の処理を行い、その処理結果として音声信号の内容を示すテキストデータを生成する。なお、出力機器として、音声認識エンジンの代わりに、ネットワーク（図示略）を介して音声認識などの処理を行うクラウドサーバ、あるいは音声を出力可能なスピーカが接続されてもよい。また、マイクｍｃ１，ｍｃ２および音声認識エンジンは、音響クロストーク抑圧装置５に内蔵されてもよい。

音響クロストーク抑圧装置５は、例えば２人の話者（第１の話者および第２の話者を含む複数人）が会話している場合、同時に発話した２人の声の一方を目的音、他方を妨害音として、妨害音によるクロストーク成分を抑圧して目的音を明瞭（クリア）な音声に変換する。具体的に、音響クロストーク抑圧装置５は、妨害音を含む音声信号を参照信号として後述する所定の信号処理を施すことによって、音響的なクロストーク成分を再現した疑似クロストーク信号（抑圧信号の一例）を生成する。音響クロストーク抑圧装置５は、マイクｍｃ１またはマイクｍｃ２で収音された目的音の音声信号からその疑似クロストーク信号を除去（具体的には減算）することによってクロストーク成分の抑圧後のクリアな（つまり音質が改善された）音声信号を生成する。

図１，図５では、メモリＭＭ１，ＭＭ２，ＭＭ３，ＭＭ４はいずれもＤＳＰ１０，１０Ａに含まれるように図示されているが、ＤＳＰ１０，１０Ａに内蔵されてもよいし、ＤＳＰ１０，１０Ａとは異なる構成として設けられてもよい。メモリＭＭ１～ＭＭ４は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）を用いて構成される。

メモリＭＭ１は、例えば、マイクｍｃ１が店員ｈｍ１の発話による音声（つまり目的音）を収音する際、過去に顧客ｈｍ２が発話した音声（つまり妨害音）のクリアな音声信号を記憶する。メモリＭＭ１に記憶された音声信号は、参照信号として音響的なクロストーク成分の再現（つまり、上述した疑似クロストーク信号の生成）に用いられる。

メモリＭＭ２は、例えば、後述する参照信号更新部２０により更新された参照信号Ａ２（例えば、加算器１９によりクロストーク成分が抑圧された主信号Ａ１）を記憶する。つまり、詳細は後述するが、加算器１９によりクロストーク成分が抑圧された主信号Ａ１は、参照信号Ａ２としてメモリＭＭ２に保存される。

メモリＭＭ３は、例えば、マイクｍｃ２が顧客ｈｍ２の発話による音声（つまり目的音）を収音する際、過去に店員ｈｍ１が発話した音声（つまり妨害音）のクリアな音声信号を記憶する。メモリＭＭ３に記憶された音声信号は、参照信号として音響的なクロストーク成分の再現（つまり、上述した疑似クロストーク信号の生成）に用いられる。

メモリＭＭ４は、例えば、後述する参照信号更新部３０により更新された参照信号Ｂ４（例えば、加算器２９によりクロストーク成分が抑圧された主信号Ｂ３）を記憶する。つまり、詳細は後述するが、加算器２９によりクロストーク成分が抑圧された主信号Ｂ３は、参照信号Ｂ４としてメモリＭＭ４に保存される。

ＤＳＰ１０は、マイクｍｃ１あるいはマイクｍｃ２で収音された音声の音声信号に対して音響的なクロストーク成分の抑圧処理を行う。ＤＳＰ１０は、シングルトーク検出部１１、音圧比較部１２、妨害音混合率推定部１３、信号処理選択部１４、切替部１５、および抑圧ユニットＷ１，Ｗ２，Ｗ３，Ｗ４を有する。

シングルトーク検出部１１は、マイクｍｃ１およびマイクｍｃ２のそれぞれにより収音された音声信号に基づいて、店員ｈｍ１および顧客ｈｍ２のうちいずれか一方が発話しているシングルトーク状態を検出する。例えば、シングルトーク検出部１１は、発話があった時に、マイクｍｃ１またはマイクｍｃ２で収音される音声のうち、一方の音声の音圧だけが他方の音声の音圧に比べて所定割合（例えば８０％以上）以上に大きかった場合、シングルトーク状態を検出したと判断する。また、シングルトーク検出部４５は、マイクｍｃ１またはマイクｍｃ２で収音される音声の音色が同じである場合、シングルトーク状態を検出したと判断してもよい。また、マイクｍｃ１が店員ｈｍ１の近くに配置され、マイクｍｃ２が顧客ｈｍ２の近くに配置された場合、店員ｈｍ１が発話するシングルトーク時、マイクｍｃ１で収音される音声の音圧が高く、マイクｍｃ２で収音される音声の音圧が低くなると判断される。これに対し、店員ｈｍ１および顧客ｈｍ２の双方が発話するダブルトーク時、マイクｍｃ１およびマイクｍｃ２で収音される音声の音圧は、いずれも高くなると判断される。したがって、シングルトーク検出部４５は、マイクｍｃ１で収音される音声とマイクｍｃ２で収音される音声の音圧差を基に、シングルトーク状態を検出する。

音圧比較部１２は、シングルトーク検出部１１で検出された、第１の話者（あるいは第２の話者）である店員ｈｍ１が発話するシングルトーク状態で、マイクｍｃ１で収音される音声の音圧とマイクｍｃ２で収音される音声の音圧とを比較する。音圧比較部１２は、比較により、音圧比率（つまり、マイクｍｃ２で収音される音声の音圧に対するマイクｍｃ１で収音される音声の音圧の割合を示す値）を得る。同様に、音圧比較部１２は、シングルトーク検出部１１で検出された、第２の話者（あるいは第１の話者）である顧客ｈｍ２が発話するシングルトーク状態で、マイクｍｃ１で収音される音声の音圧とマイクｍｃ２で収音される音声の音圧とを比較する。音圧比較部１２は、比較により、音圧比率（つまり、マイクｍｃ１で収音される音声の音圧に対するマイクｍｃ２で収音される音声の音圧の割合を示す値）を得る。

混合率推定部の一例としての妨害音混合率推定部１３は、音圧比較部１２で得られたシングルトーク時の音圧比率を基に、マイクｍｃ１またはマイクｍｃ２で収音される第２の話者の音声の音声信号（言い換えると、参照信号）に含まれる妨害音の混合率を推定する。ここでいう混合率は、２つ存在し、参照信号に含まれる妨害音（言い換えると、第１の話者の音声信号である主信号）の参照信号に対する割合である。具体的に、第１の混合率（以下、「妨害音混合率Ａ」と称する）は、第１の話者が店員ｈｍ１である場合に、第２の話者である顧客ｈｍ２が発話する音声の音声信号（参照信号）に含まれる店員ｈｍ１が発話する音声（妨害音）の、顧客ｈｍ２が発話する音声の音声信号（参照信号）に対する割合である。さらに、第２の混合率（以下、「妨害音混合率Ｂ」と称する）は、第２の話者が顧客ｈｍ２である場合、第１の話者である店員ｈｍ１が発話する音声の音声信号（参照信号）に含まれる顧客ｈｍ２が発話する音声（妨害音）の、店員ｈｍ１が発話する音声の音声信号（参照信号）に対する割合である。

一例として、音圧比較部１２は、第１の話者である店員ｈｍ１のみが発話している時にマイクｍｃ１とマイクｍｃ２の音圧比率を比較する。このときマイクｍｃ１：マイクｍｃ２＝２：１であったとする。続いて、音圧比較部１２は、メイン話者である顧客ｈｍ２のみが発話している時にマイクｍｃ１とマイクｍｃ２の音圧比率を比較する。このとき、マイクｍｃ１：マイクｍｃ２＝１：１０であったとする。これらの音圧比率を分析すると、次のことが分かる。

具体的には、店員ｈｍ１が発話した時、マイクｍｃ２で収音される店員ｈｍ１の音声の音圧は、１／３と比較的大きい。したがって、マイクｍｃ２が収音する音声を参照信号として使用できるか否かについて、マイクｍｃ２が収音する音声に第１の話者（妨害音）である店員ｈｍ１の発話した目的音（主信号）が含まれる割合が高いために店員ｈｍ１の音声の混合率が大きくなる。したがって、マイクｍｃ２が収音する音声は参照信号としては不適切である。

一方、顧客ｈｍ２が発話した時、マイクｍｃ１で収音される顧客ｈｍ２の音声の音圧は、１／１１と小さい。したがって、マイクｍｃ１が収音する音声を参照信号として使用できるか否かについて、マイクｍｃ１が収音する音声に第１の話者（妨害音）である顧客ｈｍ２の発話した目的音（主信号）が含まれる割合が低いために顧客ｈｍ２の音声の混合率が小さくなる。したがって、マイクｍｃ１が収音する音声は参照信号として適切である。

決定部の一例としての信号処理選択部１４は、妨害音混合率推定部１３によって推定された妨害音混合率Ａ，Ｂを基に、切替部１５に切り替えを指示する。具体的に、信号処理選択部１４は、妨害音混合率推定部１３により推定された妨害音混合率Ａ，Ｂの大小の比較に基づいて、マイクｍｃ１あるいはマイクｍｃ２により収音された音声信号のいずれかを主信号（つまり、第１の話者の音声信号）として切替部１５に指示する。例えば、妨害音混合率Ａ＜妨害音混合率Ｂの時、マイクｍｃ１により収音された音声信号が主信号となる。一方、妨害音混合率Ａ＞妨害音混合率Ｂの時、マイクｍｃ２により収音された音声信号が主信号となる。

切替部１５は、妨害音混合率Ａ＜妨害音混合率Ｂとなる時に入力された主信号となる音声信号を抑圧ユニットＷ１の主信号取得部１６に入力しかつ主信号ではない音声信号を抑圧ユニットＷ２の主信号取得部２１に入力する第１端子１５ａを有する。切替部１５は、妨害音混合率Ａ＞妨害音混合率Ｂとなる時に入力された主信号となる音声信号を抑圧ユニットＷ３の主信号取得部２６に入力しかつ主信号ではない音声信号を抑圧ユニットＷ４の主信号取得部３１に入力する第２端子１５ｂとを有する。切替部１５は、信号処理選択部１４からの指示にしたがい、入力された主信号の音声信号を第１端子１５ａに切り替え、この場合には主信号でない音声信号をメモリＭＭ１に保存したり主信号取得部２１に出力したりする。同様に、切替部１５は、信号処理選択部１４からの指示にしたがい、入力された主信号の音声信号を第２端子１５ｂに切り替え、この場合には主信号でない音声信号をメモリＭＭ３に保存したり主信号取得部３１に出力したりする。なお、切替部１５は、例えば機械的、電気的あるいは磁気的な切替スイッチである。

抑圧ユニットＷ１は、主信号取得部１６、メモリＭＭ１、ディレイ１７、フィルタ更新部１８、加算器１９および参照信号更新部２０を有する。抑圧ユニットＷ１は、マイクｍｃ１で収音された主信号である音声信号Ｍ１から、フィルタ更新部１８により生成された擬似クロストーク信号を減算することで、クロストーク成分を抑圧できる。抑圧ユニットＷ１は、クロストーク成分Ｍ２ｃが抑圧された後の音声信号（Ｍ１－Ｍ２ｃ）を出力するとともに、この音声信号（Ｍ１－Ｍ２ｃ）を後段の抑圧ユニットＷ２で使用される参照信号として更新して出力する。なお、クロストーク成分の抑圧は厳密には減算であるが、例えば反転した疑似クロストーク信号を加算する処理であっても良く、減算としても加算としても実現でき、以下同様である。

以後、実施の形態１の説明を分かり易くするために、マイクｍｃ１は店員ｈｍ１が発話する音声を収音し、マイクｍｃ２は顧客ｈｍ２が発話する音声を収音する場合を例示する。なお、マイクｍｃ１は顧客ｈｍ２が発話する音声を収音し、マイクｍｃ２は店員ｈｍ１が発話する音声を収音する場合も同様である。

抑圧ユニットＷ１が抑圧すべきクロストーク成分は、マイクｍｃ１が収音する店員ｈｍ１の発話による音声に対し、過去に顧客ｈｍ２が発話した声がマイクｍｃ１に到達した音声である。つまり、マイクｍｃ１が収音するクロストーク成分Ｍ２ｃは、顧客ｈｍ２が発話した声が、店員ｈｍ１に届くまでに要した時間分ずれて混合された音声である。そこで、抑圧ユニットＷ１は、過去に顧客ｈｍ２が発話した声の音声を保持しておき、これに信号処理を施すことによって、この混合された音声を再現した疑似クロストーク信号を生成する。

主信号取得部１６は、第１端子１５ａを介して入力された主信号となる音声信号（具体的には、マイクｍｃ１により収音された音声信号Ｍ１）を取得して加算器１９に出力する。

参照信号更新部２０は、加算器１９からの音声信号（つまり、クロストーク成分Ｍ２ｃが抑圧された後の音声信号（Ｍ１－Ｍ２ｃ）参照）を、後段の抑圧ユニットＷ２で使用される参照信号として、メモリＭＭ２に保存されている参照信号を更新してメモリＭＭ２に保存する。

図２は、フィルタ更新部１８，２３，２８，３３の詳細な構成例を示すブロック図である。フィルタ更新部１８，２３，２８，３３はいずれも同一の構成を有するが、図２を参照してフィルタ更新部１８，２３のペアのそれぞれの構成を例示して説明する。但し、他のフィルタ更新部２８，３３のペアについても、フィルタ更新部１８，２３のペアのそれぞれの構成の説明と同様な説明が対応して適用可能である。図２に示すように、フィルタ更新部１８は、畳み込み信号生成部Ｆ１、更新量計算部Ｆ２、ノルム算出部Ｆ３、および非線形変換部Ｆ４を有する。

フィルタの一例としての畳み込み信号生成部Ｆ１は、参照信号から疑似クロストーク信号を生成する処理を行う適応フィルタであり、具体的には、特開２００７－１９５９５号公報などに記載されているＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタを用いる。畳み込み信号生成部Ｆ１は、マイク（例えばマイクｍｃ１）に対する店員ｈｍ１と顧客ｈｍ２との間の伝達特性を再現し、参照信号を処理することにより、疑似クロストーク信号を生成する。ただし、店員ｈｍ１と顧客ｈｍ２とが対面している場所の伝達特性は定常的なものではないため、畳み込み信号生成部Ｆ１の特性も随時変化させる必要がある。そこで、フィルタ更新部１８によって、ＦＩＲフィルタの係数またはタップ数を制御することによって、畳み込み信号生成部Ｆ１の特性が、マイクｍｃ１に対する店員ｈｍ１と顧客ｈｍ２との間の最新の伝達特性に近づくよう変化させる。以下、適応フィルタの更新を、学習と表現することもある。

ここで、前述したように、マイクｍｃ１が収音する店員ｈｍ１の音声は、顧客ｈｍ２の声がマイクｍｃ１に届く時間分遅延する。マイクｍｃ１が店員ｈｍ１の声を収音する場合、顧客ｈｍ２の声は、店員ｈｍ１が発話する直前にメモリ（例えばメモリＭＭ１）に保持されるため、参照信号には、顧客ｈｍ２の声がマイクｍｃ１に届くまでの間の遅延が反映されていない。そのため、ディレイ１７によりこの時間差を吸収し、フィルタ更新部１８は、マイクｍｃ１で収音されたタイミングに合致する参照信号を得る。すなわち、マイクｍｃ１および顧客ｈｍ２間の距離を音速で除算した時間分、参照信号をディレイ１７によって遅延させることで、マイクｍｃ１にて実際に収音されたタイミングの再生音を再現する。ディレイ１７の値は、マイクｍｃ１と顧客ｈｍ２の間の距離を実測し、それを音速で除算することによって得ることができる。

非線形変換部Ｆ４は、音響的なクロストーク成分の抑圧後の信号を加算器（例えば加算器１９）から入力してその信号に対して非線形変換を行う。この非線形変換は、音響的なクロストーク成分の抑圧後の信号をフィルタの更新すべき方向（正か負）を指し示す情報へと変換する処理である。非線形変換部Ｆ４は、非線形変換した後の信号を更新量計算部Ｆ２に出力する。

ノルム算出部Ｆ３は、過去に顧客ｈｍ２が発話した声の音声信号のノルムを算出する。顧客ｈｍ２が発話した声の音声信号のノルムとは、過去の所定時間内に顧客ｈｍ２が発話した声の音声信号の大きさの総和であり、この時間内の信号の大きさの度合いを示す値である。ノルムは、更新量計算部Ｆ２にて、顧客ｈｍ２が発話した声の音声の音量の影響を正規化するために用いられる。一般に、音量が大きいほどフィルタの更新量も大きく算出されてしまうため、正規化を行わなくては、畳み込み信号生成部Ｆ１の特性が大きな音声の特性に過剰に影響されてしまう。そこで、ディレイ１７から出力された音声信号を、ノルム算出部Ｆ３が算出したノルムを用いて正規化することで畳み込み信号生成部Ｆ１の更新量を安定させている。

更新量計算部Ｆ２は、非線形変換部Ｆ４とノルム算出部Ｆ３とディレイ１７とから受け取る信号から、畳み込み信号生成部Ｆ１のフィルタ特性の更新量（具体的には、ＦＩＲフィルタの係数またはタップ数の更新量）を計算する。具体的には、ディレイ１７から受け取る、過去に顧客ｈｍ２が発話した声の音声をノルム算出部Ｆ３で算出したノルムに基づき正規化する。そして、この過去に顧客ｈｍ２が発話した声の音声を正規化した結果に、非線形変換部Ｆ４から得られた情報に基づき正または負の情報を付加することで更新量を決定する。更新量計算部Ｆ２は、ＩＣＡ（独立成分解析）アルゴリズムまたはＮＬＭＳ（ＮｏｒｍａｌｉｚｅｄＬｅａｓｔＭｅａｎＳｑｕａｒｅ）アルゴリズムによりフィルタ特性の更新量を計算する。

更新量計算部Ｆ２、非線形変換部Ｆ４およびノルム算出部Ｆ３の処理を随時実行していくことで、フィルタ更新部１８は、畳み込み信号生成部Ｆ１の特性を、店員ｈｍ１の声を収音するマイクｍｃ１と顧客ｈｍ２との間の伝達特性に近づけることができる。なお、顧客ｈｍ２が発話する音声を目的音とし、店員ｈｍ１が発話する音声を妨害音とする場合には、フィルタ更新部１８は、畳み込み信号生成部Ｆ１の特性を、顧客ｈｍ２の声を収音するマイクｍｃ１と店員ｈｍ１との間の伝達特性に近づける。

抑圧ユニットＷ２は、主信号取得部２１、メモリＭＭ２、ディレイ２２、フィルタ更新部２３、加算器２４および参照信号更新部２５を有する。抑圧ユニットＷ２は、マイクｍｃ２で収音された主信号である音声信号から、参照信号更新部２０がメモリＭＭ２に保存した更新済みの参照信号を用いてフィルタ更新部２３により生成された擬似クロストーク信号を減算することで、クロストーク成分を抑圧できる。抑圧ユニットＷ２は、クロストーク成分が抑圧された後の音声信号を出力するとともに、この音声信号を前段の抑圧ユニットＷ１で使用される参照信号として更新して出力する。

抑圧ユニットＷ２が抑圧すべきクロストーク成分は、マイクｍｃ２が収音する顧客ｈｍ２の発話による音声に対し、過去に店員ｈｍ１が発話した声がマイクｍｃ２に到達した音声である。つまり、マイクｍｃ２が収音するクロストーク成分は、店員ｈｍ１が発話した声が、顧客ｈｍ２に届くまでに要した時間分ずれて混合された音声である。そこで、抑圧ユニットＷ２は、過去に店員ｈｍ１が発話した声の音声を保持しておき、これに信号処理を施すことによって、この混合された音声を再現した疑似クロストーク信号を生成する。

主信号取得部２１は、第１端子１５ａを介して入力された主信号となる音声信号（具体的には、マイクｍｃ２により収音された音声信号Ｍ２）を取得して加算器２４に出力する。

参照信号更新部２５は、加算器２４からの音声信号（つまり、クロストーク成分が抑圧された後の音声信号参照）を、前段の抑圧ユニットＷ１で使用される参照信号として、メモリＭＭ１に保存されている参照信号を更新してメモリＭＭ１に保存する。なお、図１の複雑化を避けるために、参照信号更新部２５とメモリＭＭ１との間の矢印の図示は省略している。

ここで、図２を同様に参照して、抑圧ユニットＷ１とペアを構成する抑圧ユニットＷ２のフィルタ更新部２３の構成について説明する。図２に示すように、フィルタ更新部２３は、畳み込み信号生成部Ｆ１、更新量計算部Ｆ２、ノルム算出部Ｆ３、および非線形変換部Ｆ４を有する。

フィルタの一例としての畳み込み信号生成部Ｆ１は、参照信号から疑似クロストーク信号を生成する処理を行う適応フィルタであり、具体的には、特開２００７－１９５９５号公報などに記載されているＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタを用いる。畳み込み信号生成部Ｆ１は、マイク（例えばマイクｍｃ２）に対する店員ｈｍ１と顧客ｈｍ２との間の伝達特性を再現し、参照信号を処理することにより、疑似クロストーク信号を生成する。ただし、店員ｈｍ１と顧客ｈｍ２とが対面している場所の伝達特性は定常的なものではないため、畳み込み信号生成部Ｆ１の特性も随時変化させる必要がある。そこで、フィルタ更新部２３によって、ＦＩＲフィルタの係数またはタップ数を制御することによって、畳み込み信号生成部Ｆ１の特性が、マイクｍｃ２に対する店員ｈｍ１と顧客ｈｍ２との間の最新の伝達特性に近づくよう変化させる。

ここで、前述したように、マイクｍｃ２が収音する顧客ｈｍ２の音声は、店員ｈｍ１の声がマイクｍｃ２に届く時間分遅延する。マイクｍｃ２が顧客ｈｍ２の声を収音する場合、店員ｈｍ１の声は、顧客ｈｍ２が発話する直前にメモリ（例えばメモリＭＭ２）に保持されるため、参照信号には、店員ｈｍ１の声がマイクｍｃ２に届くまでの間の遅延が反映されていない。そのため、ディレイ２２によりこの時間差を吸収し、フィルタ更新部２３は、マイクｍｃ２で収音されたタイミングに合致する参照信号を得る。すなわち、マイクｍｃ２および店員ｈｍ１間の距離を音速で除算した時間分、参照信号をディレイ２２によって遅延させることで、マイクｍｃ２にて実際に収音されたタイミングの再生音を再現する。ディレイ２２の値は、マイクｍｃ２と店員ｈｍ１の間の距離を実測し、それを音速で除算することによって得ることができる。

非線形変換部Ｆ４は、音響的なクロストーク成分の抑圧後の信号を加算器（例えば加算器２４）から入力してその信号に対して非線形変換を行う。この非線形変換は、音響的なクロストーク成分の抑圧後の信号をフィルタの更新すべき方向（正か負）を指し示す情報へと変換する処理である。非線形変換部Ｆ４は、非線形変換した後の信号を更新量計算部Ｆ２に出力する。

ノルム算出部Ｆ３は、過去に店員ｈｍ１が発話した声の音声信号のノルムを算出する。店員ｈｍ１が発話した声の音声信号のノルムとは、過去の所定時間内に店員ｈｍ１が発話した声の音声信号の大きさの総和であり、この時間内の信号の大きさの度合いを示す値である。ノルムは、更新量計算部Ｆ２にて、店員ｈｍ１が発話した声の音声の音量の影響を正規化するために用いられる。一般に、音量が大きいほどフィルタの更新量も大きく算出されてしまうため、正規化を行わなくては、畳み込み信号生成部Ｆ１の特性が大きな音声の特性に過剰に影響されてしまう。そこで、ディレイ２２から出力された音声信号を、ノルム算出部Ｆ３が算出したノルムを用いて正規化することで畳み込み信号生成部Ｆ１の更新量を安定させている。

更新量計算部Ｆ２は、非線形変換部Ｆ４とノルム算出部Ｆ３とディレイ２２とから受け取る信号から、畳み込み信号生成部Ｆ１のフィルタ特性の更新量（具体的には、ＦＩＲフィルタの係数またはタップ数の更新量）を計算する。具体的には、ディレイ２２から受け取る、過去に店員ｈｍ１が発話した声の音声をノルム算出部Ｆ３で算出したノルムに基づき正規化する。そして、この過去に店員ｈｍ１が発話した声の音声を正規化した結果に、非線形変換部Ｆ４から得られた情報に基づき正または負の情報を付加することで更新量を決定する。更新量計算部Ｆ２は、ＩＣＡ（独立成分解析）アルゴリズムまたはＮＬＭＳアルゴリズムによりフィルタ特性の更新量を計算する。

更新量計算部Ｆ２、非線形変換部Ｆ４およびノルム算出部Ｆ３の処理を随時実行していくことで、フィルタ更新部２３は、畳み込み信号生成部Ｆ１の特性を、顧客ｈｍ２の声を収音するマイクｍｃ２と店員ｈｍ１との間の伝達特性に近づけることができる。なお、店員ｈｍ１が発話する音声を目的音とし、顧客ｈｍ２が発話する音声を妨害音とする場合には、フィルタ更新部２３は、畳み込み信号生成部Ｆ１の特性を、店員ｈｍ１の声を収音するマイクｍｃ２と顧客ｈｍ２との間の伝達特性に近づける。

抑圧ユニットＷ３は、主信号取得部２６、メモリＭＭ３、ディレイ２７、フィルタ更新部２８、加算器２９および参照信号更新部３０を有する。抑圧ユニットＷ３は、マイクｍｃ２で収音された主信号である音声信号Ｍ２から、フィルタ更新部２８により生成された擬似クロストーク信号を減算することで、クロストーク成分を抑圧できる。抑圧ユニットＷ３は、クロストーク成分Ｍ１ｃが抑圧された後の音声信号（Ｍ２－Ｍ１ｃ）を出力するとともに、この音声信号（Ｍ２－Ｍ１ｃ）を後段の抑圧ユニットＷ４で使用される参照信号として更新して出力する。

抑圧ユニットＷ３が抑圧すべきクロストーク成分は、マイクｍｃ２が収音する顧客ｈｍ２の発話による音声に対し、過去に店員ｈｍ１が発話した声がマイクｍｃ２に到達した音声である。つまり、マイクｍｃ２が収音するクロストーク成分Ｍ１ｃは、店員ｈｍ１が発話した声が、顧客ｈｍ２に届くまでに要した時間分ずれて混合された音声である。そこで、抑圧ユニットＷ３は、過去に店員ｈｍ１が発話した声の音声を保持しておき、これに信号処理を施すことによって、この混合された音声を再現した疑似クロストーク信号を生成する。

主信号取得部２６は、第２端子１５ｂを介して入力された主信号となる音声信号（具体的には、マイクｍｃ２により収音された音声信号Ｍ２）を取得して加算器２４に出力する。

参照信号更新部３０は、加算器２４からの音声信号（つまり、クロストーク成分Ｍ１ｃが抑圧された後の音声信号（Ｍ２－Ｍ１ｃ）参照）を、後段の抑圧ユニットＷ４で使用される参照信号として、メモリＭＭ４に保存されている参照信号を更新してメモリＭＭ４に保存する。

抑圧ユニットＷ４は、主信号取得部３１、メモリＭＭ４、ディレイ３２、フィルタ更新部３３、加算器３４および参照信号更新部３５を有する。抑圧ユニットＷ４は、マイクｍｃ１で収音された主信号である音声信号Ｍ１から、フィルタ更新部３３により生成された擬似クロストーク信号を減算することで、クロストーク成分を抑圧できる。抑圧ユニットＷ４は、クロストーク成分Ｍ２ｃが抑圧された後の音声信号（Ｍ１－Ｍ２ｃ）を出力するとともに、この音声信号（Ｍ１－Ｍ２ｃ）を前段の抑圧ユニットＷ３で使用される参照信号として更新して出力する。

抑圧ユニットＷ４が抑圧すべきクロストーク成分は、マイクｍｃ１が収音する店員ｈｍ１の発話による音声に対し、過去に顧客ｈｍ２が発話した声がマイクｍｃ１に到達した音声である。つまり、マイクｍｃ１が収音するクロストーク成分Ｍ２ｃは、顧客ｈｍ２が発話した声が、店員ｈｍ１に届くまでに要した時間分ずれて混合された音声である。そこで、抑圧ユニットＷ４は、過去に顧客ｈｍ２が発話した声の音声を保持しておき、これに信号処理を施すことによって、この混合された音声を再現した疑似クロストーク信号を生成する。

主信号取得部３１は、第２端子１５ｂを介して入力された主信号となる音声信号（具体的には、マイクｍｃ１により収音された音声信号Ｍ１）を取得して加算器３４に出力する。

参照信号更新部３５は、加算器３４からの音声信号（つまり、クロストーク成分Ｍ２ｃが抑圧された後の音声信号（Ｍ１－Ｍ２ｃ）参照）を、前段の抑圧ユニットＷ３で使用される参照信号として、メモリＭＭ３に保存されている参照信号を更新してメモリＭＭ３に保存する。

次に、実施の形態１に係る音響クロストーク抑圧装置５の動作を示す。

図３は、実施の形態１に係る音響クロストーク抑圧動作手順例を示すフローチャートである。図４は、クロストーク成分の抑圧動作手順例を示すフローチャートである。図３および図４に示す処理は、主に音響クロストーク抑圧装置５のＤＳＰ１０により、マイクｍｃ１，ｍｃ２で収音される音声の音声信号に対し、１サンプル毎に実行される。

図３において、ＤＳＰ１０は、マイクｍｃ１により収音された第１の話者である店員ｈｍ１が発話した音声の音声信号を取得する（Ｓｔ１）。同様に、ＤＳＰ１０は、マイクｍｃ２により収音された第２の話者である顧客ｈｍ２が発話した音声の音声信号を取得する（Ｓｔ２）。

シングルトーク検出部１１は、ステップＳｔ１，Ｓｔ２のそれぞれで取得された音声信号を基に、店員ｈｍ１および顧客ｈｍ２のうちいずれか一方が発話しているシングルトーク状態を検出する（Ｓｔ３）。シングルトーク状態が検出された場合、音圧比較部１２は、第１の話者（例えば店員ｈｍ１）が発話しているシングルトーク状態で、マイクｍｃ１で収音された音声の音圧とマイクｍｃ２で収音された音声の音圧とを比較して音圧比率（上述参照）を得る（Ｓｔ４）。同様に、音圧比較部１２は、第２の話者（例えば顧客ｈｍ２）が発話しているシングルトーク状態で、マイクｍｃ１で収音された音声の音圧とマイクｍｃ２で収音された音声の音圧とを比較して音圧比率（上述参照）を得る（Ｓｔ４）。

妨害音混合率推定部１３は、音圧比較部１２によって得られたシングルトーク時のそれぞれの音圧比率を基に、妨害音混合率Ａ，Ｂ（上述参照）をそれぞれ推定する（Ｓｔ５）。妨害音混合率Ａは、第２の話者（顧客ｈｍ２）が発話する音声の音声信号（参照信号）に含まれる第１の話者（店員ｈｍ１）が発話する音声（妨害音）の、第２の話者（顧客ｈｍ２）が発話する音声の音声信号（参照信号）に対する割合である。妨害音混合率Ｂは、第１の話者（店員ｈｍ１）が発話する音声の音声信号（参照信号）に含まれる第２の話者（顧客ｈｍ２）が発話する音声（妨害音）の、第１の話者（店員ｈｍ１）が発話する音声の音声信号（参照信号）に対する割合である。

妨害音混合率推定部１３は、ステップＳｔ５で得られた妨害音混合率Ａ，Ｂの大小の比較により、妨害音混合率Ａ，Ｂのいずれが大きいかを判別する（Ｓｔ６）。

妨害音混合率Ａが妨害音混合率Ｂより小さい場合（Ｓｔ６、ＹＥＳ）、信号処理選択部１４は、マイクｍｃ１により収音された音声信号を、切替部１５を介して主信号取得部１６に送り、マイクｍｃ２により収音された音声信号を、切替部１５を介して主信号取得部２１に送る。

抑圧ユニットＷ１は、マイクｍｃ１で収音された主信号である音声信号Ｍ１から、フィルタ更新部１８により生成された擬似クロストーク信号（クロストーク成分Ｍ２ｃ）を減算することで、クロストーク成分を抑圧する（Ｓｔ７）。ステップＳｔ７の詳細を、図４を参照して詳述する。

図４において、抑圧ユニットＷ１では、フィルタ更新部１８は、メモリＭＭ１に記憶されているフィルタ係数を読み込み（Ｓｔ２１）、畳み込み信号生成部Ｆ１に設定する。畳み込み信号生成部Ｆ１は、マイクｍｃ２で収音されディレイ１７で遅延された参照信号を用いて、疑似クロストーク信号に相当するクロストーク抑圧信号（抑圧信号の一例）を生成する。すなわち、畳み込み信号生成部Ｆ１は、更新量計算部Ｆ２で更新される最新のフィルタ係数を用いて、遅延時間分ずれた参照信号に対し畳み込み処理を行い、遅延時間分ずれた参照信号からクロストーク抑圧信号を生成する。また、加算器１９は、マイクｍｃ１で収音された音声の音声信号Ｍ１から、畳み込み信号生成部Ｆ１により生成されたクロストーク抑圧信号を減算し、マイクｍｃ１で収音された音声に含まれる妨害音混合率Ａに対応するクロストーク成分Ｍ２ｃを抑圧する（Ｓｔ２２）。

ＤＳＰ１０は、フィルタ学習期間であるか否かを判別する（Ｓｔ２３）。フィルタ学習期間は、第１の話者である店員ｈｍ１に対し、第２の話者である顧客ｈｍ２が発話している期間である。また、フィルタ学習期間でない期間は、第２の話者である顧客ｈｍ２が発話していない期間である。フィルタ学習期間である場合（Ｓｔ２３、ＹＥＳ）、フィルタ更新部１８は、それぞれ更新量計算部Ｆ２で計算されるフィルタ係数で畳み込み信号生成部Ｆ１のフィルタ係数を更新し、メモリＭＭ１に記憶する（Ｓｔ２４）。一方、フィルタ学習期間でない場合（Ｓｔ２３、ＮＯ）、ＤＳＰ１０は、図４に示す本処理を終了する。

ステップＳｔ７の後、ＤＳＰ１０は、抑圧ユニットＷ１の加算器１９からの音声信号（つまり、クロストーク成分Ｍ２ｃが抑圧された後の音声信号（Ｍ１－Ｍ２ｃ）参照）を、後段の抑圧ユニットＷ２で使用される参照信号として、メモリＭＭ２に保存されている参照信号を更新してメモリＭＭ２に保存する（Ｓｔ８）。

抑圧ユニットＷ２は、マイクｍｃ２で収音された主信号である音声信号Ｍ２から、参照信号更新部２０がメモリＭＭ２に保存した更新済みの参照信号を用いてフィルタ更新部２３により生成された擬似クロストーク信号を減算することで、クロストーク成分を抑圧する（Ｓｔ９）。ステップＳｔ９の詳細を、図４を参照して詳述する。

図４において、抑圧ユニットＷ２では、フィルタ更新部２３は、メモリＭＭ２に記憶されているフィルタ係数を読み込み（Ｓｔ２１）、畳み込み信号生成部Ｆ１に設定する。畳み込み信号生成部Ｆ１は、メモリＭＭ２に保存されてディレイ２２で遅延された更新済みの参照信号を用いて、疑似クロストーク信号に相当するクロストーク抑圧信号（抑圧信号の一例）を生成する。すなわち、畳み込み信号生成部Ｆ１は、更新量計算部Ｆ２で更新される最新のフィルタ係数を用いて、遅延時間分ずれた参照信号に対し畳み込み処理を行い、遅延時間分ずれた参照信号からクロストーク抑圧信号を生成する。また、加算器２４は、マイクｍｃ２で収音された音声の音声信号Ｍ２から、畳み込み信号生成部Ｆ１により生成されたクロストーク抑圧信号を減算し、マイクｍｃ２で収音された音声に含まれる妨害音混合率Ｂに対応するクロストーク成分を抑圧する（Ｓｔ２２）。

ＤＳＰ１０は、フィルタ学習期間であるか否かを判別する（Ｓｔ２３）。フィルタ学習期間は、第２の話者である顧客ｈｍ２に対し、第１の話者である店員ｈｍ１が発話している期間である。また、フィルタ学習期間でない期間は、第１の話者である店員ｈｍ１が発話していない期間である。フィルタ学習期間である場合（Ｓｔ２３、ＹＥＳ）、フィルタ更新部２３は、それぞれ更新量計算部Ｆ２で計算されるフィルタ係数で畳み込み信号生成部Ｆ１のフィルタ係数を更新し、メモリＭＭ２に記憶する（Ｓｔ２４）。一方、フィルタ学習期間でない場合（Ｓｔ２３、ＮＯ）、ＤＳＰ１０は、図４に示す本処理を終了する。

ステップＳｔ９の後、ＤＳＰ１０は、抑圧ユニットＷ２の加算器２４からの音声信号（つまり、クロストーク成分が抑圧された後の音声信号参照）を、前段の抑圧ユニットＷ１で使用される参照信号として、メモリＭＭ１に保存されている参照信号を更新してメモリＭＭ１に保存する。

一方、妨害音混合率Ａが妨害音混合率Ｂより大きい場合（Ｓｔ６、ＮＯ）、信号処理選択部１４は、マイクｍｃ２により収音された音声信号を、切替部１５を介して主信号取得部２６に送り、マイクｍｃ１により収音された音声信号を、切替部１５を介して主信号取得部３１に送る。

抑圧ユニットＷ３は、マイクｍｃ２で収音された主信号である音声信号Ｍ２から、フィルタ更新部２８により生成された擬似クロストーク信号（クロストーク成分Ｍ１ｃ）を減算することで、クロストーク成分を抑圧する（Ｓｔ１０）。ステップＳｔ１０の詳細を、図４を参照して詳述する。

図４において、抑圧ユニットＷ３では、フィルタ更新部２８は、メモリＭＭ３に記憶されているフィルタ係数を読み込み（Ｓｔ２１）、畳み込み信号生成部Ｆ１に設定する。畳み込み信号生成部Ｆ１は、マイクｍｃ１で収音されディレイ２７で遅延された参照信号を用いて、疑似クロストーク信号に相当するクロストーク抑圧信号（抑圧信号の一例）を生成する。すなわち、畳み込み信号生成部Ｆ１は、更新量計算部Ｆ２で更新される最新のフィルタ係数を用いて、遅延時間分ずれた参照信号に対し畳み込み処理を行い、遅延時間分ずれた参照信号からクロストーク抑圧信号を生成する。また、加算器２９は、マイクｍｃ２で収音された音声の音声信号Ｍ２から、畳み込み信号生成部Ｆ１により生成されたクロストーク抑圧信号を減算し、マイクｍｃ２で収音された音声に含まれる妨害音混合率Ｂに対応するクロストーク成分Ｍ１ｃを抑圧する（Ｓｔ２２）。

ＤＳＰ１０は、フィルタ学習期間であるか否かを判別する（Ｓｔ２３）。フィルタ学習期間は、第２の話者である顧客ｈｍ２に対し、第１の話者である店員ｈｍ１が発話している期間である。また、フィルタ学習期間でない期間は、第１の話者である店員ｈｍ１が発話していない期間である。フィルタ学習期間である場合（Ｓｔ２３、ＹＥＳ）、フィルタ更新部２８は、それぞれ更新量計算部Ｆ２で計算されるフィルタ係数で畳み込み信号生成部Ｆ１のフィルタ係数を更新し、メモリＭＭ３に記憶する（Ｓｔ２４）。一方、フィルタ学習期間でない場合（Ｓｔ２３、ＮＯ）、ＤＳＰ１０は、図４に示す本処理を終了する。

ステップＳｔ１０の後、ＤＳＰ１０は、抑圧ユニットＷ３の加算器２９からの音声信号（つまり、クロストーク成分Ｍ１ｃが抑圧された後の音声信号（Ｍ２－Ｍ１ｃ）参照）を、後段の抑圧ユニットＷ４で使用される参照信号として、メモリＭＭ４に保存されている参照信号を更新してメモリＭＭ４に保存する（Ｓｔ１１）。

抑圧ユニットＷ４は、マイクｍｃ１で収音された主信号である音声信号Ｍ１から、参照信号更新部３０がメモリＭＭ４に保存した更新済みの参照信号を用いてフィルタ更新部３３により生成された擬似クロストーク信号を減算することで、クロストーク成分を抑圧する（Ｓｔ１２）。ステップＳｔ１２の詳細を、図４を参照して詳述する。

図４において、抑圧ユニットＷ４では、フィルタ更新部３３は、メモリＭＭ４に記憶されているフィルタ係数を読み込み（Ｓｔ２１）、畳み込み信号生成部Ｆ１に設定する。畳み込み信号生成部Ｆ１は、メモリＭＭ４に保存されてディレイ３２で遅延された更新済みの参照信号を用いて、疑似クロストーク信号に相当するクロストーク抑圧信号（抑圧信号の一例）を生成する。すなわち、畳み込み信号生成部Ｆ１は、更新量計算部Ｆ２で更新される最新のフィルタ係数を用いて、遅延時間分ずれた参照信号に対し畳み込み処理を行い、遅延時間分ずれた参照信号からクロストーク抑圧信号を生成する。また、加算器３４は、マイクｍｃ１で収音された音声の音声信号Ｍ１から、畳み込み信号生成部Ｆ１により生成されたクロストーク抑圧信号を減算し、マイクｍｃ１で収音された音声に含まれる妨害音混合率Ｂに対応するクロストーク成分を抑圧する（Ｓｔ２２）。

ＤＳＰ１０は、フィルタ学習期間であるか否かを判別する（Ｓｔ２３）。フィルタ学習期間は、第１の話者である店員ｈｍ１に対し、第２の話者である顧客ｈｍ２が発話している期間である。また、フィルタ学習期間でない期間は、第２の話者である顧客ｈｍ２が発話していない期間である。フィルタ学習期間である場合（Ｓｔ２３、ＹＥＳ）、フィルタ更新部３３は、それぞれ更新量計算部Ｆ２で計算されるフィルタ係数で畳み込み信号生成部Ｆ１のフィルタ係数を更新し、メモリＭＭ４に記憶する（Ｓｔ２４）。一方、フィルタ学習期間でない場合（Ｓｔ２３、ＮＯ）、ＤＳＰ１０は、図４に示す本処理を終了する。

ステップＳｔ１２の後、ＤＳＰ１０は、抑圧ユニットＷ４の加算器３４からの音声信号（つまり、クロストーク成分が抑圧された後の音声信号参照）を、前段の抑圧ユニットＷ３で使用される参照信号として、メモリＭＭ３に保存されている参照信号を更新してメモリＭＭ３に保存する。

以上により、実施の形態１に係る音響クロストーク抑圧装置５は、例えば、店員ｈｍ１と顧客ｈｍ２とが対話する店舗などの閉空間内に配置された２個のマイクｍｃ１，ｍｃ２と接続される。音響クロストーク抑圧装置５は、２個のマイクｍｃ１，ｍｃ２のそれぞれにより収音された音声信号に基づいて、店舗内に存在する店員ｈｍ１または顧客ｈｍ２（複数人のうちいずれか一人の一例）が発話しているシングルトーク状態をシングルトーク検出部１１で検出する。音響クロストーク抑圧装置５は、第１の話者である店員ｈｍ１のシングルトーク状態で２個のマイクｍｃ１，ｍｃ２のそれぞれにより収音された音声信号の音圧比率と、第２の話者である顧客ｈｍ２のシングルトーク状態で２個のマイクｍｃ１，ｍｃ２のそれぞれにより収音された音声信号の音圧比率とに基づいて、第２の話者の音声信号に対して第１の話者の音声信号が含まれる割合を示す妨害音混合率Ａ、第１の話者の音声信号に対して第２の話者の音声信号が含まれる割合を示す妨害音混合率Ｂをそれぞれ妨害音混合率推定部１３で推定する。音響クロストーク抑圧装置５は、妨害音混合率Ａ，Ｂのそれぞれの推定結果に基づいて、第１の話者の音声信号に含まれる第２の話者の発話による第１のクロストーク成分、および、第２の話者の音声信号に含まれる第１の話者の発話による第２のクロストーク成分のうちいずれの抑圧を行うかを信号処理選択部１４で判別する。

これにより、音響クロストーク抑圧装置５は、店舗などの閉空間に存在する複数の話者（例えば店員ｈｍ１および顧客ｈｍ２）の状況に応じて、いずれの話者が発話した場合でも、その話者（例えば店員ｈｍ１）の発話音声に含まれ得る他の話者（例えば顧客ｈｍ２）の発話音声による音響的なクロストーク成分を適応的に抑圧できる。したがって、音響クロストーク抑圧装置５は、いずれの話者が主体的に発話した場合でも、その話者（例えば店員ｈｍ１）の発話音声の音質を改善できる。

また、信号処理選択部１４は、妨害音混合率Ａの推定結果が妨害音混合率Ｂの推定結果より小さいと判定した場合に、第１の話者（例えば店員ｈｍ１）の音声信号に含まれる第２の話者（例えば顧客ｈｍ２）の発話によるクロストーク成分の抑圧を優先的に行うと決定する。これにより、音響クロストーク抑圧装置５は、参照信号としての適性が高い第２の話者の音声信号を優先的に用いて第１の話者（例えば店員ｈｍ１）の音声信号の音質を改善でき、また続けて第２の話者（例えば顧客ｈｍ２）の音声信号に含まれる第１の話者（例えば店員ｈｍ１）の参照信号を効果的に抑圧できる。

また、信号処理選択部１４は、妨害音混合率Ａの推定結果が妨害音混合率Ｂの推定結果より大きいと判定した場合に、第２の話者（例えば顧客ｈｍ２）の音声信号に含まれる第１の話者（例えば店員ｈｍ１）の発話によるクロストーク成分の抑圧を優先的に行うと決定する。これにより、音響クロストーク抑圧装置５は、参照信号としての適性が高い第１の話者の音声信号を優先的に用いて第２の話者（例えば顧客ｈｍ２）の音声信号の音質を改善でき、また続けて第１の話者（例えば店員ｈｍ１）の音声信号に含まれる第２の話者（例えば顧客ｈｍ２）の参照信号を効果的に抑圧できる。

また、音響クロストーク抑圧装置５は、第２の話者（例えば顧客ｈｍ２）の音声信号を参照信号として用いて第１のクロストーク成分を抑圧する第１の抑圧信号を生成する第１のフィルタ（例えばフィルタ更新部１８の畳み込み信号生成部Ｆ１）を有し、第１のクロストーク成分を抑圧するための第１のフィルタのパラメータを更新し、その更新結果を保持する第１のフィルタ更新部（例えばフィルタ更新部１８）と、第１のフィルタにより生成された第１の抑圧信号を用いて、第１の話者の音声信号に含まれる第１のクロストーク成分を抑圧する第１のクロストーク抑圧部（例えば加算器１９）と、をさらに備える。これにより、音響クロストーク抑圧装置５は、第１の話者（例えば店員ｈｍ１）の発話音声に含まれ得る、顧客ｈｍ２による音響的なクロストーク成分を適応的に抑圧でき、店員ｈｍ１の発話音声の音質を改善できる。したがって、店舗内の音場が変わっても、例えば店員ｈｍ１あるいは顧客ｈｍ２が席を外して立ち上がっても、音場の変化に合わせてクロストーク成分の抑圧性能を徐々に高めることができる。

また、音響クロストーク抑圧装置５は、第１のクロストーク成分が抑圧された第１の話者の音声信号を保存する第１のメモリ（例えばメモリＭＭ２）と、第１のメモリに保存された音声信号を参照信号として用いて第２のクロストーク成分を抑圧する第２の抑圧信号を生成する第２のフィルタ（例えばフィルタ更新部２３の畳み込み信号生成部Ｆ１）を有し、第２のクロストーク成分を抑圧するための第２のフィルタのパラメータを更新し、その更新結果を保持する第２のフィルタ更新部（例えばフィルタ更新部２３）と、第２のフィルタにより生成された第２の抑圧信号を用いて、第２の話者の音声信号に含まれる第２のクロストーク成分を抑圧する第２のクロストーク抑圧部（例えば加算器２４）と、をさらに備える。これにより、音響クロストーク抑圧装置５は、第１の話者に続けて主に発話する第２の話者（例えば顧客ｈｍ２）の発話音声に含まれ得る、店員ｈｍ１による音響的なクロストーク成分を適応的に抑圧でき、顧客ｈｍ２の発話音声の音質を改善できる。したがって、店舗内の音場が変わっても、例えば店員ｈｍ１あるいは顧客ｈｍ２が席を外して立ち上がっても、音場の変化に合わせてクロストーク成分の抑圧性能を徐々に高めることができる。

また、音響クロストーク抑圧装置５は、第１の話者（例えば店員ｈｍ１）の音声信号を参照信号として用いて第２のクロストーク成分を抑圧する第３の抑圧信号を生成する第３のフィルタ（例えばフィルタ更新部２８の畳み込み信号生成部Ｆ１）を有し、第２のクロストーク成分を抑圧するための第３のフィルタのパラメータを更新し、その更新結果を保持する第３のフィルタ更新部（例えばフィルタ更新部２８）と、第３のフィルタにより生成された第３の抑圧信号を用いて、第２の話者の音声信号に含まれる第２のクロストーク成分を抑圧する第３のクロストーク抑圧部（例えば加算器２９）と、をさらに備える。これにより、音響クロストーク抑圧装置５は、第２の話者（例えば顧客ｈｍ２）の発話音声に含まれ得る、店員ｈｍ１による音響的なクロストーク成分を適応的に抑圧でき、顧客ｈｍ２の発話音声の音質を改善できる。したがって、店舗内の音場が変わっても、例えば店員ｈｍ１あるいは顧客ｈｍ２が席を外して立ち上がっても、音場の変化に合わせてクロストーク成分の抑圧性能を徐々に高めることができる。

また、音響クロストーク抑圧装置５は、第２のクロストーク成分が抑圧された第２の話者の音声信号を保存する第２のメモリ（例えばメモリＭＭ４）と、第２のメモリに保存された音声信号を参照信号として用いて第１のクロストーク成分を抑圧する第４の抑圧信号を生成する第４のフィルタ（例えばフィルタ更新部３３の畳み込み信号生成部Ｆ１）を有し、第１のクロストーク成分を抑圧するための第４のフィルタのパラメータを更新し、その更新結果を保持する第４のフィルタ更新部（例えばフィルタ更新部３３）と、第４のフィルタにより生成された第４の抑圧信号を用いて、第１の話者の音声信号に含まれる第１のクロストーク成分を抑圧する第４のクロストーク抑圧部（例えば加算器３４）と、をさらに備える。これにより、音響クロストーク抑圧装置５は、第２の話者に続けて主に発話する第１の話者（例えば店員ｈｍ１）の発話音声に含まれ得る、顧客ｈｍ２による音響的なクロストーク成分を適応的に抑圧でき、店員ｈｍ１の発話音声の音質を改善できる。したがって、店舗内の音場が変わっても、例えば店員ｈｍ１あるいは顧客ｈｍ２が席を外して立ち上がっても、音場の変化に合わせてクロストーク成分の抑圧性能を徐々に高めることができる。

（実施の形態２）
実施の形態２に係る音響クロストーク抑圧装置５Ａでは、任意の方向に指向性を形成可能なマイクアレイを用いる場合を示す。図５は、実施の形態２に係る音響クロストーク抑圧装置５Ａの機能的構成例を示すブロック図である。実施の形態２に係る音響クロストーク抑圧装置５Ａにおいて、実施の形態１と同一の構成要素については同一の符号を用いることで、その説明を省略し、ここでは相違する部分だけを説明する。音響クロストーク抑圧装置５Ａは、実施の形態１と比べ、マイクｍｃ１，ｍｃ２の代わりに、マイクアレイｍＡを含む構成である。

収音装置の一例としてのマイクアレイｍＡは、複数個（例えば１６個）の無指向性のマイクｍｃ１，ｍｃ２，…ｍｃＮ（Ｎ：２以上の整数）を有する。ＤＳＰ１０Ａに含まれるマイクアレイ処理部４１は、実施の形態１で説明した２人の話者（例えば店員ｈｍ１および顧客ｈｍ２）の方向にそれぞれ指向性を形成（ビームフォーミングの処理）が可能である。なお、マイクアレイ処理部４１は、マイクアレイｍＡに含まれるように設けられてもよい。指向性処理部の一例としてのマイクアレイ処理部４１は、マイクアレイｍＡを構成する複数個のマイクｍｃ１～ｍｃＮにより収音された音声信号を用いて所定の方向に指向性を形成できる。なお、この指向性の形成に関する技術は、例えば特開２０１５－２９２４１号公報に示されるように、公知の技術である。

実施の形態２に係る音響クロストーク抑圧装置５ＡのＤＳＰ１０Ａは、実施の形態１に係る音響クロストーク抑圧装置５のＤＳＰ１０と比べ、マイクアレイ処理部４１、指向性音声取得部４２，４３をさらに含む構成である。なお、シングルトーク検出部１１Ａは、実施の形態１に係るシングルトーク検出部１１と作用が異なる。

指向性音声取得部４２は、マイクアレイ処理部４１によりマイクアレイｍＡから第１の話者（例えば店員ｈｍ１）の方向に指向性が形成された指向性音声信号Ｍ１ａを取得してシングルトーク検出部１１Ａに送る。

指向性音声取得部４３は、マイクアレイ処理部４１によりマイクアレイｍＡから第２の話者（例えば顧客ｈｍ２）の方向に指向性が形成された指向性音声信号Ｍ２ａを取得してシングルトーク検出部１１Ａに送る。

シングルトーク検出部１１Ａは、指向性音声信号Ｍ１ａ，Ｍ２ａに基づいて、実施の形態１に係るシングルトーク検出部１１と同様、店員ｈｍ１および顧客ｈｍ２のいずれか一方が発話しているシングルトーク状態を検出する。

また、シングルトーク検出部１１Ａは、メモリ４４に記憶された音源方向情報を入力し、シングルトーク状態を検出してもよい。ここでいう音源方向情報とは、例えば全方位カメラ（図示略）により撮影された３６０度の方位を有する魚眼画像を構成する各画素の位置に、その位置に対応するように算出された音圧値が画素と対応付けて割り当てられて作成された音圧ヒートマップである（図６参照）。この音圧ヒートマップは、音響クロストーク抑圧装置５Ａとは異なる外部装置（図示略）によって作成されてメモリ４４に予め記憶されている。外部装置は、例えば音圧ヒートマップを生成するため、全方位カメラ付きマイクアレイ（例えばマイクアレイｍＡ）を有する。全方位カメラ付きマイクアレイは、リング状に配置された複数個（例えば１６個）のマイク素子を有し、複数個のマイク素子を含むマイクアレイが全方位カメラを囲むように全方位カメラと同軸に設けられた構成である。音源方向の分析は、例えば特開２０２０－１２７０４号公報に開示されるように、公知の技術である。全方位カメラ付きマイクアレイは、例えば室内の天井あるいは天井近くの壁面に設置された場合、全方位カメラで撮像された画像に対し、各方向に指向性を形成して音声を収音し、各方向の音圧を音圧ヒートマップとして取得する。なお、シングルトーク状態の検出が音源方向情報を用いて行われる場合、音源方向情報として、カメラ映像が用いられてもよい。また、カメラ映像を用いる場合、例えば全方位カメラで撮像された映像の中に口を動かしている人物が１人だけであると、シングルトーク状態が検出されたと判断される。

図６は、音圧ヒートマップが重畳された全方位カメラによる撮像画像ＧＺ１を示す図である。全方位カメラで撮像される画像中の人物が特定されると、マイクアレイは、その方向に指向性を形成し、その人物が発話する声を収音可能である。図６では、全方位カメラ付きマイクアレイは、撮像画像中、店員ｈｍ１，顧客ｈｍ２を含む範囲でビームフォーミングを行い、音圧ヒートマップを生成する。

シングルトーク検出部１１Ａは、音圧ヒートマップ上で話者が発話する音声の音圧が所定値以上である箇所が１箇所である場合、シングルトーク状態を検出する。つまり、音圧ヒートマップ上で所定値以上の音圧が現れる箇所（図６では濃いドット表示）が１箇所であると、シングルトーク状態が検出されたと判断される。

次に、実施の形態２に係る音響クロストーク抑圧装置５Ａの動作を示す。

図７は、実施の形態２に係る音響クロストーク抑圧動作手順例を示すフローチャートである。図７の説明において、実施の形態１と同一のステップ処理については同一の付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。図７に示す処理は、主に音響クロストーク抑圧装置５ＡのＤＳＰ１０Ａにより、マイクｍｃ１，ｍｃ２で収音される音声の音声信号に対し、１サンプル毎に実行される。

図７において、ＤＳＰ１０Ａは、マイクアレイｍＡにより収音された音声信号を入力して取得する（Ｓｔ３１）。ＤＳＰ１０Ａは、ステップＳｔ３１で取得された音声信号を用いて、マイクアレイｍＡから第１の話者（例えば店員ｈｍ１）の方向に指向性を形成した指向性音声信号Ｍ１ａを取得する（Ｓｔ３２）。ＤＳＰ１０Ａは、ステップＳｔ３１で取得された音声信号を用いて、マイクアレイｍＡから第２の話者（例えば顧客ｈｍ２）の方向に指向性を形成した指向性音声信号Ｍ２ａを取得する（Ｓｔ３３）。ＤＳＰ１０Ａは、ステップＳｔ３２，Ｓｔ３３で取得された指向性音声信号Ｍ１ａ，Ｍ２ａあるいは音源方向情報に基づいて、店員ｈｍ１および顧客ｈｍ２のうちいずれか一方が発話しているシングルトーク状態を検出する（Ｓｔ３Ａ）。

シングルトーク状態が検出された場合、音圧比較部１２は、第１の話者（例えば店員ｈｍ１）が発話しているシングルトーク状態で、マイクｍｃ１で収音された音声に基づく指向性音声信号Ｍ１ａの音圧とマイクｍｃ２で収音された音声に基づく指向性音声信号Ｍ２ａの音圧とを比較して音圧比率（上述参照）を得る（Ｓｔ４Ａ）。同様に、音圧比較部１２は、第２の話者（例えば顧客ｈｍ２）が発話しているシングルトーク状態で、マイクｍｃ１で収音された音声に基づく指向性音声信号Ｍ１ａの音圧とマイクｍｃ２で収音された音声に基づく指向性音声信号Ｍ２ａの音圧とを比較して音圧比率（上述参照）を得る（Ｓｔ４Ａ）。

妨害音混合率推定部１３は、音圧比較部１２によって得られたシングルトーク時のそれぞれの音圧比率を基に、妨害音混合率Ａ，Ｂをそれぞれ推定する（Ｓｔ５Ａ）。妨害音混合率Ａは、第２の話者（顧客ｈｍ２）が発話する音声に基づく指向性音声信号Ｍ２ａ（参照信号）に含まれる第１の話者（店員ｈｍ１）が発話する音声に基づく指向性音声信号Ｍ１ａ（妨害音）の、第２の話者（顧客ｈｍ２）が発話する音声に基づく指向性音声信号Ｍ２ａ（参照信号）に対する割合である。妨害音混合率Ｂは、第１の話者（店員ｈｍ１）が発話する音声に基づく指向性音声信号Ｍ１ａ（参照信号）に含まれる第２の話者（顧客ｈｍ２）が発話する音声に基づく指向性音声信号Ｍ２ａ（妨害音）の、第１の話者（店員ｈｍ１）が発話する音声に基づく指向性音声信号Ｍ１ａ（参照信号）に対する割合である。

妨害音混合率推定部１３は、ステップＳｔ５Ａで得られた妨害音混合率Ａ，Ｂの大小の比較により、妨害音混合率Ａ，Ｂのいずれが大きいかを判別する（Ｓｔ６Ａ）。

妨害音混合率Ａが妨害音混合率Ｂより小さい場合（Ｓｔ６Ａ、ＹＥＳ）、信号処理選択部１４は、指向性音声信号Ｍ１ａを、切替部１５を介して主信号取得部１６に送り、指向性音声信号Ｍ２ａを、切替部１５を介して主信号取得部２１に送る。

抑圧ユニットＷ１は、指向性音声信号Ｍ１ａから、フィルタ更新部１８により生成された擬似クロストーク信号（クロストーク成分Ｍ２ａｃ）を減算することで、クロストーク成分を抑圧する（Ｓｔ７Ａ）。ステップＳｔ７Ａの詳細は実施の形態１と同様であるため、説明を省略する。

ステップＳｔ７Ａの後、ＤＳＰ１０Ａは、抑圧ユニットＷ１の加算器１９からの音声信号（つまり、クロストーク成分Ｍ２ａｃが抑圧された後の音声信号（Ｍ１ａ－Ｍ２ａｃ）参照）を、後段の抑圧ユニットＷ２で使用される参照信号として、メモリＭＭ２に保存されている参照信号を更新してメモリＭＭ２に保存する（Ｓｔ８Ａ）。

抑圧ユニットＷ２は、指向性音声信号Ｍ２ａから、参照信号更新部２０がメモリＭＭ２に保存した更新済みの参照信号を用いてフィルタ更新部２３により生成された擬似クロストーク信号を減算することで、クロストーク成分を抑圧する（Ｓｔ９Ａ）。ステップＳｔ９Ａの詳細は実施の形態１と同様であるため、説明を省略する。

ステップＳｔ９Ａの後、ＤＳＰ１０Ａは、抑圧ユニットＷ２の加算器２４からの音声信号（つまり、クロストーク成分が抑圧された後の音声信号参照）を、前段の抑圧ユニットＷ１で使用される参照信号として、メモリＭＭ１に保存されている参照信号を更新してメモリＭＭ１に保存する。

一方、妨害音混合率Ａが妨害音混合率Ｂより大きい場合（Ｓｔ６Ａ、ＮＯ）、信号処理選択部１４は、指向性音声信号Ｍ２ａを、切替部１５を介して主信号取得部２６に送り、指向性音声信号Ｍ１ａを、切替部１５を介して主信号取得部３１に送る。

抑圧ユニットＷ３は、指向性音声信号Ｍ２ａから、フィルタ更新部２８により生成された擬似クロストーク信号（クロストーク成分Ｍ１ａｃ）を減算することで、クロストーク成分を抑圧する（Ｓｔ１０Ａ）。ステップＳｔ１０Ａの詳細は実施の形態１と同様であるため、説明を省略する。

ステップＳｔ１０Ａの後、ＤＳＰ１０Ａは、抑圧ユニットＷ３の加算器２９からの音声信号（つまり、クロストーク成分Ｍ１ａｃが抑圧された後の音声信号（Ｍ２ａ－Ｍ１ａｃ）参照）を、後段の抑圧ユニットＷ４で使用される参照信号として、メモリＭＭ４に保存されている参照信号を更新してメモリＭＭ４に保存する（Ｓｔ１１Ａ）。

抑圧ユニットＷ４は、指向性音声信号Ｍ１ａから、参照信号更新部３０がメモリＭＭ４に保存した更新済みの参照信号を用いてフィルタ更新部３３により生成された擬似クロストーク信号を減算することで、クロストーク成分を抑圧する（Ｓｔ１２Ａ）。ステップＳｔ１２Ａの詳細は実施の形態１と同様であるため、説明を省略する。

ステップＳｔ１２Ａの後、ＤＳＰ１０Ａは、抑圧ユニットＷ４の加算器３４からの音声信号（つまり、クロストーク成分が抑圧された後の音声信号参照）を、前段の抑圧ユニットＷ３で使用される参照信号として、メモリＭＭ３に保存されている参照信号を更新してメモリＭＭ３に保存する。

以上により、音響クロストーク抑圧装置５Ａは、複数のマイクｍｃ１～ｍｃＮのそれぞれを収容する収音装置（例えばマイクアレイｍＡ）により収音された音声信号に基づいて、マイクアレイｍＡから第１の話者、第２の話者のそれぞれへの方向に異なる指向性を形成する。音響クロストーク抑圧装置５Ａは、第１の話者のシングルトーク状態でマイクアレイｍＡから第１の話者の方向に第１指向性を形成した後の指向性音声信号の音圧と、第２の話者のシングルトーク状態でマイクアレイｍＡから第２の話者の方向に第２指向性を形成した後の指向性音声信号の音圧とに基づいて、妨害音混合率Ａ，Ｂを推定する。

これにより、音響クロストーク抑圧装置５Ａは、マイクアレイｍＡの指向性性能を加味して、どちらの指向性音声信号を参照信号として優先的に音響クロストーク抑圧処理を行うかを効率的に決定できる。また、マイクアレイｍＡから店員ｈｍ１，顧客ｈｍ２のそれぞれの方向に指向性が形成された音声を用いることで、参照信号として用いられる店員ｈｍ１あるいは顧客ｈｍ２の音声に混ざる顧客ｈｍ２あるいは店員ｈｍ１の音声（妨害音）の割合（混合率）を下げることができる。したがって、クロストーク成分の抑圧の性能を実施の形態１に比べて向上できる。

また、音響クロストーク抑圧装置５Ａは、閉空間内の第１の話者および第２の話者のそれぞれへの方向を示す音源方向情報（図６参照）を取得し、音源方向情報に基づいてシングルトーク状態を検出する。音響クロストーク抑圧装置５Ａは、第１の話者のシングルトーク状態時に第１の話者の指向性が形成された指向性音声信号Ｍ１ａと第２の話者のシングルトーク状態時に第２の話者の指向性が形成された指向性音声信号Ｍ２ａとに基づいて、妨害音混合率Ａ，Ｂを推定する。

これにより、音響クロストーク抑圧装置５Ａは、音源方向情報を利用してシングルトーク状態の有無を速やかに検出して妨害音混合率Ａ，Ｂを迅速に取得できる。また、音響クロストーク抑圧装置５Ａは、実施の形態１に比べて、シングルトーク状態の検出処理を軽減することができる。

以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。

例えば、上述した実施の形態１では、妨害音混合率推定部１３は、音響クロストーク抑圧装置５が備えるメモリ（図示略）に記憶された位置情報（例えば、第１の話者の位置、第２の話者の位置、マイクｍｃ１，ｍｃ２のそれぞれの位置を示す情報）を用いて、妨害音混合率Ａ，Ｂをそれぞれ推定してもよい。例えば、妨害音混合率推定部１３は、第１の位置からマイクｍｃ１の位置までの第１距離と、第２の話者の位置からマイクｍｃ１の位置までの第２距離との比率、および、第１の位置からマイクｍｃ２の位置までの第３距離と、第２の話者の位置からマイクｍｃ２の位置までの第４距離との比率に基づいて、妨害音混合率Ａ，Ｂをそれぞれ推定する。

例えば、上述した実施の形態１では、２個のマイク、店員ｈｍ１向けのマイクｍｃ１と顧客ｈｍ向けのマイクｍｃ２が設けられたが、これらのマイクの少なくとも一方は、ヘッドセットに内蔵されてもよい。これにより、参照信号に用いられる音声信号に含まれる妨害音の音圧が下がり、音響クロストークの抑圧が実行され易くなる。

また、音響クロストーク抑圧装置は、ハウリングキャンセラに用いられてもよい。ハウリングキャンセラは、例えばカラオケボックスなどにおいて、自身が発する声がスピーカで再生されてマイクで収音される音を妨害音として抑圧する。また、音響クロストーク抑圧装置は、例えばテレビ会議システムで使用されるエコーキャンセラに用いられてもよい。エコーキャンセラは、例えばテレビ会議システムにおいて、相手の話者が発話する声がスピーカから出力された場合に、上述した相手の会議相手であるユーザの発話する声を収音するマイクにエコーとして入力される相手の音を妨害音として抑圧する。

本開示は、閉空間に存在する複数の話者のうちいずれの話者が発話した場合でも、その話者の発話音声に含まれ得る他の話者の発話音声による音響的なクロストーク成分を適応的に抑圧し、発話音声の音質を改善する音声処理装置および音声処理方法として有用である。

５、５Ａ音響クロストーク抑圧装置
１０、１０ＡＤＳＰ
１１、１１Ａシングルトーク検出部
１２音圧比較部
１３妨害音混合率推定部
１４信号処理選択部
１５切替部
１５Ａ第１端子
１５Ｂ第２端子
１６、２１、２６、３１主信号取得部
１７、２２、２７、３２ディレイ
１８、２３、２８、３３フィルタ更新部
１９、２４、２９、３４加算器
２０、２５、３０、３５参照信号更新部
４１マイクアレイ処理部
４２、４３指向性音声取得部
Ｆ１畳み込み信号生成部
Ｆ２更新量計算部
Ｆ３ノルム算出部
Ｆ４非線形変換部
ｍＡマイクアレイ
ｍｃ１、ｍｃ２、ｍｃＮマイク
ＭＭ１、ＭＭ２、ＭＭ３、ＭＭ４メモリ

Claims

閉空間内に配置された複数のマイクと接続され、
前記複数のマイクのそれぞれにより収音された音声信号に基づいて、前記閉空間内に存在する複数人のうちいずれか一人が発話しているシングルトーク状態を検出するシングルトーク検出部と、
前記複数人のうち任意の話者である第１の話者のシングルトーク状態で前記複数のマイクのそれぞれにより収音された音声信号の音圧比率と、前記第１の話者と異なる第２の話者のシングルトーク状態で前記複数のマイクのそれぞれにより収音された音声信号の音圧比率とに基づいて、前記第２の話者の音声信号に対して前記第１の話者の音声信号が含まれる割合を示す第１の混合率、前記第１の話者の音声信号に対して前記第２の話者の音声信号が含まれる割合を示す第２の混合率を推定する混合率推定部と、
前記第１の混合率および前記第２の混合率の推定結果に基づいて、前記第１の話者の音声信号に含まれる前記第２の話者の発話による第１のクロストーク成分、および、前記第２の話者の音声信号に含まれる前記第１の話者の発話による第２のクロストーク成分のうちいずれの抑圧を行うかを判別する決定部と、を備え、
前記決定部は、
前記第１の混合率が前記第２の混合率より小さい場合に、前記第１のクロストーク成分の抑圧を行うと判別する、
音声処理装置。
閉空間内に配置された複数のマイクと接続され、
前記複数のマイクのそれぞれにより収音された音声信号に基づいて、前記閉空間内に存在する複数人のうちいずれか一人が発話しているシングルトーク状態を検出するシングルトーク検出部と、
前記複数人のうち任意の話者である第１の話者のシングルトーク状態で前記複数のマイクのそれぞれにより収音された音声信号の音圧比率と、前記第１の話者と異なる第２の話者のシングルトーク状態で前記複数のマイクのそれぞれにより収音された音声信号の音圧比率とに基づいて、前記第２の話者の音声信号に対して前記第１の話者の音声信号が含まれる割合を示す第１の混合率、前記第１の話者の音声信号に対して前記第２の話者の音声信号が含まれる割合を示す第２の混合率を推定する混合率推定部と、
前記第１の混合率および前記第２の混合率の推定結果に基づいて、前記第１の話者の音声信号に含まれる前記第２の話者の発話による第１のクロストーク成分、および、前記第２の話者の音声信号に含まれる前記第１の話者の発話による第２のクロストーク成分のうちいずれの抑圧を行うかを判別する決定部と、を備え、
前記決定部は、
前記第２の混合率が前記第１の混合率より小さい場合に、前記第２のクロストーク成分の抑圧を行うと判別する、
音声処理装置。
前記第２の話者の音声信号を参照信号として用いて前記第１のクロストーク成分を抑圧する第１の抑圧信号を生成する第１のフィルタを有し、前記第１のクロストーク成分を抑圧するための前記第１のフィルタのパラメータを更新し、その更新結果を保持する第１のフィルタ更新部と、
前記第１のフィルタにより生成された前記第１の抑圧信号を用いて、前記第１の話者の音声信号に含まれる前記第１のクロストーク成分を抑圧する第１のクロストーク抑圧部と、をさらに備える、
請求項１に記載の音声処理装置。
前記第１のクロストーク成分が抑圧された前記第１の話者の音声信号を保存する第１のメモリと、
前記第１のメモリに保存された音声信号を参照信号として用いて前記第２のクロストーク成分を抑圧する第２の抑圧信号を生成する第２のフィルタを有し、前記第２のクロストーク成分を抑圧するための前記第２のフィルタのパラメータを更新し、その更新結果を保持する第２のフィルタ更新部と、
前記第２のフィルタにより生成された前記第２の抑圧信号を用いて、前記第２の話者の音声信号に含まれる前記第２のクロストーク成分を抑圧する第２のクロストーク抑圧部と、をさらに備える、
請求項３に記載の音声処理装置。
前記第１の話者の音声信号を参照信号として用いて前記第２のクロストーク成分を抑圧する第３の抑圧信号を生成する第３のフィルタを有し、前記第２のクロストーク成分を抑圧するための前記第３のフィルタのパラメータを更新し、その更新結果を保持する第３のフィルタ更新部と、
前記第３のフィルタにより生成された前記第３の抑圧信号を用いて、前記第２の話者の音声信号に含まれる前記第２のクロストーク成分を抑圧する第３のクロストーク抑圧部と、をさらに備える、
請求項２に記載の音声処理装置。
前記第２のクロストーク成分が抑圧された前記第２の話者の音声信号を保存する第２のメモリと、
前記第２のメモリに保存された音声信号を参照信号として用いて前記第１のクロストーク成分を抑圧する第４の抑圧信号を生成する第４のフィルタを有し、前記第１のクロストーク成分を抑圧するための前記第４のフィルタのパラメータを更新し、その更新結果を保持する第４のフィルタ更新部と、
前記第４のフィルタにより生成された前記第４の抑圧信号を用いて、前記第１の話者の音声信号に含まれる前記第１のクロストーク成分を抑圧する第４のクロストーク抑圧部と、をさらに備える、
請求項５に記載の音声処理装置。
前記複数のマイクのそれぞれを収容する収音装置により収音された音声信号に基づいて、前記収音装置から前記第１の話者、前記第２の話者のそれぞれへの方向に異なる指向性を形成する指向性処理部、をさらに備え、
前記混合率推定部は、前記第１の話者のシングルトーク状態で前記収音装置から前記第１の話者の方向に第１指向性を形成した後の前記第１の話者の音声信号の音圧と、前記第２の話者のシングルトーク状態で前記収音装置から前記第２の話者の方向に第２指向性を形成した後の前記第２の話者の音声信号の音圧とに基づいて、前記第１の混合率および前記第２の混合率を推定する、
請求項１に記載の音声処理装置。
前記複数のマイクのそれぞれを収容する収音装置により収音された音声信号に基づいて、前記収音装置から前記第１の話者、前記第２の話者のそれぞれへの方向に異なる指向性を形成する指向性処理部と、を備え、
前記混合率推定部は、前記第１の話者のシングルトーク状態で前記収音装置から前記第１の話者の方向に第１指向性を形成した後の前記第１の話者の音声信号の音圧と、前記第２の話者のシングルトーク状態で前記収音装置から前記第２の話者の方向に第２指向性を形成した後の前記第２の話者の音声信号の音圧とに基づいて、前記第１の混合率および前記第２の混合率を推定する、
請求項２に記載の音声処理装置。
前記複数のマイクのそれぞれを収容する収音装置により収音された音声信号に基づいて、前記収音装置から前記第１の話者、前記第２の話者のそれぞれへの方向に異なる指向性を形成する指向性処理部、をさらに備え、
前記シングルトーク検出部は、前記閉空間内の前記第１の話者および前記第２の話者のそれぞれへの方向を示す音源方向情報を取得し、前記音源方向情報に基づいて前記シングルトーク状態を検出し、
前記混合率推定部は、前記第１の話者のシングルトーク状態時に前記指向性処理部により前記第１の話者の指向性が形成された音声信号と前記第２の話者のシングルトーク状態時に前記指向性処理部により前記第２の話者の指向性が形成された音声信号とに基づいて、前記第１の混合率および前記第２の混合率を推定する、
請求項１に記載の音声処理装置。
前記複数のマイクのそれぞれを収容する収音装置により収音された音声信号に基づいて、前記収音装置から前記第１の話者、前記第２の話者のそれぞれへの方向に異なる指向性を形成する指向性処理部、をさらに備え、
前記シングルトーク検出部は、前記閉空間内の前記第１の話者および前記第２の話者のそれぞれへの方向を示す音源方向情報を取得し、前記音源方向情報に基づいて前記シングルトーク状態を検出し、
前記混合率推定部は、前記第１の話者のシングルトーク状態時に前記指向性処理部により前記第１の話者の指向性が形成された音声信号と前記第２の話者のシングルトーク状態時に前記指向性処理部により前記第２の話者の指向性が形成された音声信号とに基づいて、前記第１の混合率および前記第２の混合率を推定する、
請求項２に記載の音声処理装置。
閉空間内に配置された複数のマイクのそれぞれにより収音された音声信号に基づいて、前記閉空間内に存在する複数人のうちいずれか一人が発話しているシングルトーク状態を検出し、
前記複数人のうち任意の話者である第１の話者のシングルトーク状態で前記複数のマイクのそれぞれにより収音された音声信号の音圧比率と、前記第１の話者と異なる第２の話者のシングルトーク状態で前記複数のマイクのそれぞれにより収音された音声信号の音圧比率とに基づいて、前記第２の話者の音声信号に対して前記第１の話者の音声信号が含まれる割合を示す第１の混合率、前記第１の話者の音声信号に対して前記第２の話者の音声信号が含まれる割合を示す第２の混合率を推定し、
前記第１の混合率および前記第２の混合率の推定結果に基づいて、前記第１の話者の音声信号に含まれる前記第２の話者の発話による第１のクロストーク成分、および、前記第２の話者の音声信号に含まれる前記第１の話者の発話による第２のクロストーク成分のうちいずれの抑圧を行うかを判別し、
前記第１の混合率が前記第２の混合率より小さい場合に、前記第１のクロストーク成分の抑圧を行うと判別する、
音声処理方法。
閉空間内に配置された複数のマイクのそれぞれにより収音された音声信号に基づいて、前記閉空間内に存在する複数人のうちいずれか一人が発話しているシングルトーク状態を検出し、
前記複数人のうち任意の話者である第１の話者のシングルトーク状態で前記複数のマイクのそれぞれにより収音された音声信号の音圧比率と、前記第１の話者と異なる第２の話者のシングルトーク状態で前記複数のマイクのそれぞれにより収音された音声信号の音圧比率とに基づいて、前記第２の話者の音声信号に対して前記第１の話者の音声信号が含まれる割合を示す第１の混合率、前記第１の話者の音声信号に対して前記第２の話者の音声信号が含まれる割合を示す第２の混合率を推定し、
前記第１の混合率および前記第２の混合率の推定結果に基づいて、前記第１の話者の音声信号に含まれる前記第２の話者の発話による第１のクロストーク成分、および、前記第２の話者の音声信号に含まれる前記第１の話者の発話による第２のクロストーク成分のうちいずれの抑圧を行うかを判別し、
前記第２の混合率が前記第１の混合率より小さい場合に、前記第２のクロストーク成分の抑圧を行うと判別する、
音声処理方法。