JP2021135310A

JP2021135310A - 音声処理装置および音声処理方法

Info

Publication number: JP2021135310A
Application number: JP2020028730A
Authority: JP
Inventors: 正成宮本; Masanari Miyamoto
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2021-09-13

Abstract

【課題】閉空間に存在する複数の話者の状況に応じて、メイン話者の発話音声に含まれ得る他の話者の発話音声による音響的なクロストーク成分を適応的に抑圧し、メイン話者の発話音声の音質を改善する。【解決手段】音声処理装置は、閉空間内に配置された収音装置と接続され、収音装置と閉空間内に存在するメイン話者を含む複数人のそれぞれとの位置関係を示す話者位置情報を保持するメモリと、話者位置情報に基づいて、メイン話者以外の他人物の音声信号に対してメイン話者の音声信号が含まれる割合を示す混合率を推定する混合率推定部と、混合率の推定結果に基づいて、メイン話者の音声信号に含まれる他人物の発話によるクロストーク成分の抑圧の要否を判別する決定部と、を備える。【選択図】図１

Description

本開示は、音声処理装置および音声処理方法に関する。

特許文献１には、車室内の状況として乗員の配置パターンを予め想定し、各配置パターンそれぞれに対して音の伝達特性を測定し、その測定により得られメモリ等に記憶された各伝達特性を用いて、スピーカから出力される音声信号に含まれる音響を推定して除去する音響除去装置が開示されている。この音響除去装置によれば、乗員の配置が配置パターンのいずれかを満たす限り、音響の除去または抑圧が可能である。

特開２００９−２１６８３５号公報

特許文献１の構成では、ドライバーの発話音声を収音することを目的としたマイクがドライバーの前に１つ配置されているだけで、ドライバーの声は高音圧で収音可能ではあるが、一方で同じ車両内の同乗者（つまり他の乗員）の声をその同じマイクで高音圧に収音することは困難な場合が想定される。これは、マイクの配置箇所がドライバーの近くに偏っているので、ドライバーからマイクまでの距離と同乗者からマイクまでの距離とが異なるためである。このため、ドライバーと同乗者とがほぼ同時に発話した時にメイン話者（例えばドライバー）の音声信号に含まれる他の話者（例えば同乗者）の音声信号をクロストーク成分として抑圧したくても、他の話者の音声信号が高音圧で収音されていなければクロストーク抑圧の効果が現れず、メイン話者の音声信号の音質が劣化する可能性があった。これは、ドライバーのマイクでは他の話者（同乗者）の音声を高音圧で収音することが難しく、同乗者の音声信号をクロストーク成分として抑圧するための適応フィルタのフィルタ係数の学習が困難なためである。

本開示は、上述した従来の状況に鑑みて案出され、閉空間に存在する複数の話者の状況に応じて、メイン話者の発話音声に含まれ得る他の話者の発話音声による音響的なクロストーク成分を適応的に抑圧し、メイン話者の発話音声の音質を改善する音声処理装置および音声処理方法を提供することを目的とする。

本開示は、閉空間内に配置された収音装置と接続され、前記収音装置と前記閉空間内に存在するメイン話者を含む複数人のそれぞれとの位置関係を示す話者位置情報を保持するメモリと、前記話者位置情報に基づいて、前記メイン話者以外の他人物の音声信号に対して前記メイン話者の音声信号が含まれる割合を示す混合率を推定する混合率推定部と、前記混合率の推定結果に基づいて、前記メイン話者の音声信号に含まれる前記他人物の発話によるクロストーク成分の抑圧の要否を判別する決定部と、を備える、音声処理装置を提供する。

また、本開示は、閉空間内に配置された収音装置と接続された音声処理装置により実行される音声処理方法であって、前記収音装置と前記閉空間内に存在するメイン話者を含む複数人のそれぞれとの位置関係を示す話者位置情報をメモリに保持し、前記話者位置情報に基づいて、前記メイン話者以外の他人物の音声信号に対して前記メイン話者の音声信号が含まれる割合を示す混合率を推定し、前記混合率の推定結果に基づいて、前記メイン話者の音声信号に含まれる前記他人物の発話によるクロストーク成分の抑圧の要否を判別する、音声処理方法を提供する。

本開示によれば、閉空間に存在する複数の話者の状況に応じて、メイン話者の発話音声に含まれ得る他の話者の発話音声による音響的なクロストーク成分を適応的に抑圧でき、メイン話者の発話音声の音質を改善できる。

実施の形態１に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図実施の形態１に係る音響クロストーク抑圧動作手順例を示すフローチャート実施の形態２に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図実施の形態２に係る音響クロストーク抑圧動作手順例を示すフローチャート店員と顧客の真ん中にマイクアレイが置かれた状況の一例を示す図図５の状況において、店員および顧客それぞれの方向に指向性が形成されて収音された音声に対する音響クロストーク抑圧処理例を説明する図店員に近く顧客から離れた位置にマイクアレイが置かれた状況の一例を示す図図７の状況において、店員および顧客それぞれの方向に指向性が形成されて収音された音声に対する音響クロストーク抑圧処理例を説明する図

（本開示に至る経緯）
音響クロストーク抑圧装置が使用される場面として、例えば、二人の人物が会話する状況が想定される。音響クロストーク抑圧装置は、例えば、特許第６６３５３９４号等に開示されるように、一方の人物が発話した音声に他方の人物が発話した音声がクロストーク成分として含まれる場合に、クロストーク成分を抑圧（言い換えると、減算）するための抑圧信号を生成し、その一方の人物の発話による音声信号から抑圧信号を抑圧することで、クロストーク成分が抑圧された音声信号を出力できる。二人の人物が会話する状況として、例えば、刑務所などで刑務官と犯罪者などの入所者とが向かい合って会話する状況、店舗などで店員と顧客とがテーブルを挟んで対話する状況、オフィスなどで社員と上司とが会議で話し合う状況などが挙げられるが、上述した状況に限定されなくてよい。発話の内容は、ログとして記録され、テキストに変換されて保存されてもよいし、発話の音声信号が音声認識の処理として入力されてもよい。

以下、店舗内で店員と顧客が対話する状況を一例として示す。音響クロストーク抑圧装置は、例えば店舗内に設置されている円卓のテーブルに配置されたマイクに接続され、店員および顧客の一方がメイン話者として発話する音声を目的音とし、このメイン話者の音声に妨害音として混ざる他の話者が発話する音声を抑圧する。

図５は、店員ｈｍ１と顧客ｈｍ２の真ん中にマイクアレイｍＡが置かれた状況の一例を示す図である。マイクアレイｍＡは、複数個の無指向性マイクを収容した筐体を有し、それぞれの無指向性マイクで周囲の音声を収音する。マイクアレイｍＡにより収音された音声は、公知の方法（例えば、マイクアレイｍＡに接続されたＰＣ（図示略）で行われるビームフォーミング処理）により、店員ｈｍ１および顧客ｈｍ２のそれぞれの方向に指向性が形成されて音声出力が可能となる。なお、マイクアレイｍＡの代わりに、店員ｈｍ１および顧客ｈｍ２のそれぞれの方向に指向性を形成して音声を収音可能な指向性マイクが配置されても構わない。なお、マイクとしては、マイクアレイに限らず、１個もしくは複数個の無指向性マイクであってもよい。

図５では、マイクアレイｍＡから店員ｈｍ１までの距離とマイクアレイｍＡから顧客ｈｍ２までの距離とがほぼ等しい。反射波などを無視すると、一般にマイクアレイｍＡから店員ｈｍ１へ向かう方向ｄ１とマイクアレイｍＡから顧客ｈｍ２に向かう方向ｄ２とが大きいほど（言い換えると、マイクアレイｍＡから店員ｈｍ１，顧客ｈｍ２のそれぞれへ向かう２直線のなす角度が大きいほど）、マイクアレイｍＡは、店員ｈｍ１の声と顧客ｈｍ２の声とを高い割合で分離して収音できる。

図６は、図５の状況において、店員ｈｍ１および顧客ｈｍ２それぞれの方向に指向性が形成されて収音された音声に対する音響クロストーク抑圧処理例を説明する図である。マイクアレイｍＡは、一例として４個の無指向性のマイク素子ｍ１〜ｍ４を有する。図示は省略するが、マイクアレイｍＡに接続されたＰＣは、マイクアレイｍＡにより収音された音声信号を入力し、店員ｈｍ１および顧客ｈｍ２それぞれの方向に指向性を形成して（ビームフォーミングの処理を行って）音声を出力する。４個のマイク素子ｍ１〜ｍ４でそれぞれ収音される、店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、音圧比で５：５としている。

ビームフォーミングの処理によって店員ｈｍ１の方向ｄ１に指向性が形成された場合、店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、例えば音圧比で７：３となったとする。同様に、ビームフォーミングの処理によって顧客ｈｍ２の方向ｄ２に指向性が形成された場合、店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、例えば音圧比で３：７となったとする。

ビームフォーミング後の店員ｈｍ１の声Ｖ１の音声信号を主信号とし、ビームフォーミングの処理後の顧客ｈｍ２の声Ｖ２の音声信号を参照信号として、音響クロストーク抑圧処理が行われると、クロストーク抑圧後の店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、例えば音圧比で９：１となる。したがって、店員ｈｍ１の声Ｖ１が相対的に強調される。同様に、ビームフォーミングの処理後の店員ｈｍ１の声Ｖ１の音声信号を参照信号とし、ビームフォーミングの処理後の顧客ｈｍ２の声Ｖ２の音声信号を主信号として、音響クロストーク抑圧処理が行われると、クロストーク抑圧後の店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、例えば音圧比で１：９となる。したがって、顧客ｈｍ２の声Ｖ２が強調される。音声認識エンジンｅｇは、音響クロストーク抑圧後の店員ｈｍ１の声Ｖ１および顧客ｈｍ２の声Ｖ２のいずれも精度良く認識可能である。

図７は、店員ｈｍ１に近く顧客ｈｍ２から離れた位置にマイクアレイｍＡが置かれた状況の一例を示す図である。通常、マイクアレイｍＡは、店員ｈｍ１と顧客ｈｍ２の真ん中に置かれることよりも、むしろどちらかの方に片寄って置かれることが多い。この場合、マイクアレイｍＡから店員ｈｍ１までの距離とマイクアレイｍＡから顧客ｈｍ２までの距離が大きく異なる。したがって、マイクアレイｍＡにおいて受音（収音）される店員ｈｍ１の音声信号の音圧と顧客ｈｍ２の音声信号の音圧とに差が生じる（図７参照）。例えば、図７に示すように、マイクアレイｍＡを構成するそれぞれのマイクごとに、店員ｈｍ１，顧客ｈｍ２の音声信号の音圧の比率が７：３となるように差が生じている。このため、マイクアレイｍＡは、図５の状況とは異なり、店員ｈｍ１の声および顧客ｈｍ２の声を高い割合で分離して収音できない。なお、マイクアレイｍＡは、人体あるいは衣服に装着されてもよく、この場合、マイクアレイｍＡが装着された方の人物の声が支配的に収音され、より一層分離して収音できない。

図８は、図７の状況において、店員ｈｍ１および顧客ｈｍ２それぞれの方向に指向性が形成されて収音された音声に対する音響クロストーク抑圧処理例を説明する図である。４個のマイク素子ｍ１〜ｍ４でそれぞれ収音される、店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、音圧比で５：５としている。

ビームフォーミングの処理によって店員ｈｍ１の方向ｄ１に指向性が形成された場合、マイクアレイｍＡは、店員ｈｍ１の近くに配置されるので、店員ｈｍ１の声Ｖ１を支配的に収音可能である。店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、例えば音圧比で９：１となる。一方、ビームフォーミングによって顧客ｈｍ２の方向ｄ２に指向性が形成された場合、マイクアレイｍＡは、顧客ｈｍ２から遠くに配置されるので、顧客ｈｍ２の声Ｖ２を十分に収音できない。店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２は、例えば音圧比で４：６となる。

このような場合に、ビームフォーミング後の店員ｈｍ１の声Ｖ１の音声信号を参照信号とし、ビームフォーミング後の顧客ｈｍ２の声Ｖ２の音声信号を主信号として、音響クロストーク抑圧処理が行われると、参照信号の店員ｈｍ１の声がクリアであるので、クロストーク抑圧の性能が高い。したがって、顧客ｈｍ２の声Ｖ２が相対的に十分に強調される。音声認識エンジンｅｇは、顧客ｈｍ２の声Ｖ２を精度良く認識可能である。

一方、ビームフォーミング後の店員ｈｍ１の声Ｖ１の音声信号を主信号とし、ビームフォーミング後の顧客ｈｍ２の声Ｖ２の音声信号を参照信号として、音響クロストーク抑圧処理が行われると、店員ｈｍ１の声Ｖ１と顧客ｈｍ２の声Ｖ２の音圧比が４：６とほぼ同等であるので、音響クロストーク抑圧処理の性能が低い。この結果、妨害音である顧客ｈｍ２の声Ｖ２を抑圧するどころか、却って、顧客ｈｍ２の声Ｖ２が加算されてしまい、店員ｈｍ１の声Ｖ１が益々クリアでなくなってしまう可能性があった。

そこで、以下の実施の形態では、音声処理装置の一例としての音響クロストーク抑圧装置は、参照信号によってクロストーク成分の抑圧性能が低い場合には音響クロストーク抑圧処理を行わないでそのまま出力する。実施の形態１では無指向性マイクを用いる場合を示し、実施の形態２では指向性を形成可能なマイクアレイを用いる場合を示す。

以下、適宜図面を参照しながら、本開示に係る音声処理装置および音声処理方法を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

（実施の形態１）
図１は、実施の形態１に係る音響クロストーク抑圧装置５の機能的構成例を示すブロック図である。音声処理装置の一例としての音響クロストーク抑圧装置５は、目的音に混ざる妨害音を抑圧するものであり、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）１０とメモリ５０，５１とを含む構成である。音響クロストーク抑圧装置５には、マイクｍｃ１が入力機器として接続され、音声認識エンジン（図示略）が出力機器として接続される。

収音装置の一例としてのマイクｍｃ１は、例えば、１個の無指向性マイクである。マイクｍｃ１は、例えば、高音質小型エレクトレットコンデンサーマイクロホン（ＥＣＭ：ＥｌｅｃｔｒｅｔＣｏｎｄｅｎｓｅｒＭｉｃｒｏｐｈｏｎｅ）で構成される。

音声認識エンジンは、音響クロストーク抑圧装置５から出力されるクロストーク抑圧後の音声信号あるいはクロストーク抑圧が行われない音声信号を基に、音声認識の処理を行い、その処理結果として音声信号の内容を示すテキストデータを生成する。なお、出力機器として、音声認識エンジンの代わりに、ネットワーク（図示略）を介して音声認識等の処理を行うクラウドサーバ、あるいは音声を出力可能なスピーカが接続されてもよい。また、マイクｍｃ１および音声認識エンジンは、音響クロストーク抑圧装置５に内蔵されてもよい。

音響クロストーク抑圧装置５は、例えば２人の話者（メイン話者を含む複数人のそれぞれ）が会話している場合、同時に発話した２人の声の一方を目的音、他方を妨害音として、妨害音によるクロストーク成分を抑圧して目的音を明瞭（クリア）な音声に変換する。具体的に、音響クロストーク抑圧装置５は、妨害音を含む音声信号を参照信号として所定の（後述参照）の信号処理を施すことによって、音響クロストーク成分を再現した疑似クロストーク信号（抑圧信号の一例）を生成する。音響クロストーク抑圧装置５は、マイクｍｃ１で収音された目的音の音声からその疑似クロストーク信号を除去（具体的には減算）することによってクロストーク抑圧後のクリアな（つまり音質が改善された）音声信号を生成する。

メモリ５０は、マイクｍｃ１が店員ｈｍ１の発話による音声（つまり目的音）を収音する際、過去に顧客ｈｍ２が発話した音声（つまり妨害音）のクリアな音声信号を記憶する。同様に、メモリ５０は、マイクｍｃ１が顧客ｈｍ２の発話による音声（つまり目的音）を収音する際、過去に店員ｈｍ１が発話した音声（つまり妨害音）のクリアな音声信号を記憶する。メモリ５０に記憶された音声信号は、参照信号として音響クロストークの再現（つまり、上述した疑似クロストーク信号の生成）に用いられる。

メモリ５１は、店舗などの閉空間内にいる店員ｈｍ１および顧客ｈｍ２とマイクｍｃ１との位置関係を表す位置情報（話者位置情報の一例）を記憶する。例えば、位置情報として、マイクｍｃ１から店員ｈｍ１までの距離、およびマイクｍｃ１から顧客ｈｍ２までの距離を含む情報が挙げられる。

ＤＳＰ１０は、マイクｍｃ１で収音された音声の音声信号に対して音響クロストーク抑圧処理を行うプロセッサである。ＤＳＰ１０は、妨害音混合率推定部４１、信号処理選択部４２、切替部４３、および抑圧ユニット２０を有する。

混合率推定部の一例としての妨害音混合率推定部４１は、メモリ５１に記憶された位置情報を基に、混合率を推定する。ここでいう混合率は、参照信号に含まれる妨害音（言い換えると、メイン話者の主信号）の参照信号に対する割合である。具体的に、メイン話者が店員ｈｍ１である場合、混合率は、他の話者である顧客ｈｍ２が発話する音声の音声信号（参照信号）に含まれる店員ｈｍ１が発話する音声（妨害音）の、顧客ｈｍ２が発話する音声の音声信号（参照信号）に対する割合である。同様に、メイン話者が顧客ｈｍ２である場合、混合率は、他の話者である店員ｈｍ１が発話する音声の音声信号（参照信号）に含まれる顧客ｈｍ２が発話する音声（妨害音）の、店員ｈｍ１が発話する音声の音声信号（参照信号）に対する割合である。

妨害音混合率推定部４１は、メモリ５１に記憶された位置情報として、メイン話者の位置からマイクｍｃ１の位置までの第１距離と、他の話者の位置からマイクｍｃ１の位置までの第２距離との比率に基づいて、混合率を推定する。なお、混合率の推定は、位置情報の他、マイク性能を考慮して決められてもよい。例えば、特定の方向に対してマイク感度が良い場合あるいはマイク感度が悪い場合、その点を踏まえ、混合率は推定されてもよい。

決定部の一例としての信号処理選択部４２は、妨害音混合率推定部４１によって推定された混合率を基に、切替部４３に切り替えを指示する。混合率は、例えば、店員ｈｍ１と顧客ｈｍ２の間に配置されるマイクｍｃ１の位置によって推定される。マイクｍｃ１が店員ｈｍ１と顧客ｈｍ２の中央の位置でなく、店員ｈｍ１側に片寄った位置に置かれた場合を想定する。マイクｍｃ１と店員ｈｍ１の間の距離、マイクｍｃ１と顧客ｈｍ２の間の距離等を考慮すると、マイクｍｃ１が店員ｈｍ１の音声を収音する場合、店員ｈｍ１の声に混ざる顧客ｈｍ２の声の割合は小さい。したがって、マイクｍｃ１がメイン話者である顧客ｈｍ２の音声を取得する際、マイクｍｃ１が収音する他の話者である店員ｈｍ１の音声は、音響クロストーク抑圧に用いられる参照信号に適する。信号処理選択部４２は、クロストーク成分の抑圧を行うように、切替部４３に指示する。

一方、マイクｍｃ１が顧客ｈｍ２の音声を収音する場合、顧客ｈｍ２の声に混ざる店員ｈｍ１の声の割合は大きい。したがって、マイクｍｃ１がメイン話者である店員ｈｍ１の音声を取得する際、マイクｍｃ１が収音する他の話者である顧客ｈｍ２の音声は、音響クロストーク抑圧に用いられる参照信号に適さない。信号処理選択部４２は、クロストーク成分の抑圧を行わないように、切替部４３に指示する。

切替部４３は、入力されたメイン話者の音声信号を、抑圧ユニット２０を介さずに音響クロストーク抑圧装置５の出力段に伝達する第１端子４３ａと、入力されたメイン話者の音声信号を、抑圧ユニット２０を介して音響クロストーク抑圧装置５の出力段に伝達する第２端子４３ｂとを有する。切替部４３は、信号処理選択部４２からの指示にしたがい、メイン話者の音声信号の入力を第１端子４３ａまたは第２端子４３ｂに切り替える。切替部４３は、例えば機械的、電気的あるいは磁気的な切替スイッチである。

抑圧ユニット２０は、加算器２２、フィルタ更新部２５およびディレイ２９を有する。抑圧ユニット２０では、クロストーク抑圧部の一例としての加算器２２は、マイクｍｃ１で収音された音声の音声信号に、畳み込み信号生成部２３より生成された擬似クロストーク信号を減算する。これにより、加算器２２は、マイクｍｃ１で収音された音声に含まれるクロストーク成分を抑圧できる。抑圧ユニット２０では、加算器２２は、クロストーク成分が抑圧された後の音声信号を出力する。なお、加算器２２が行う処理は厳密には減算であるが、疑似クロストーク信号を減算する処理であっても、反転した疑似クロストーク信号を加算する処理であっても良く、減算としても加算としても実現できる。そのため、本明細書では、この処理は、加算器２２が行う処理として記載する。

以後、説明を分かり易くするために、店員ｈｍ１が発話する音声を目的音（メイン話者の音声）とし、顧客ｈｍ２が発話する音声を妨害音（メイン話者でない他人物の音声）とする場合を例示する。なお、顧客ｈｍ２が発話する音声を目的音とし、店員ｈｍ１が発話する音声を妨害音とする場合も同様である。

抑圧ユニット２０が抑圧すべきクロストーク成分は、マイクｍｃ１が収音する店員ｈｍ１の発話による音声に対し、過去に顧客ｈｍ２が発話した声がマイクｍｃ１に到達した音声である。つまり、マイクｍｃ１が収音するクロストーク成分は、顧客ｈｍ２が発話した声が、店員ｈｍ１に届くまでに要した時間分ずれて混合された音声である。そこで、抑圧ユニット２０は、過去に顧客ｈｍ２が発話した声の音声を保持しておき、これに信号処理を施すことによって、この混合された音声を再現した疑似クロストーク信号を生成する。

フィルタ更新部２５は、畳み込み信号生成部２３、更新量計算部２６、非線形変換部２７およびノルム算出部２８を有する。

フィルタの一例としての畳み込み信号生成部２３は、参照信号から疑似クロストーク信号を生成する処理を行う適応フィルタであり、具体的には、特開２００７−１９５９５号公報等に記載されているＦＩＲ（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタを用いる。畳み込み信号生成部２３は、マイクｍｃ１に対する店員ｈｍ１と顧客ｈｍ２との間の伝達特性を再現し、参照信号を処理することにより、疑似クロストーク信号を生成する。ただし、店員ｈｍ１と顧客ｈｍ２とが対面している場所の伝達特性は定常的なものではないため、畳み込み信号生成部２３の特性も随時変化させる必要がある。そこで、実施の形態１では、フィルタ更新部２５によって、ＦＩＲフィルタの係数またはタップ数を制御することによって、畳み込み信号生成部２３の特性が、マイクｍｃ１に対する店員ｈｍ１と顧客ｈｍ２との間の最新の伝達特性に近づくよう変化させる。以下、適応フィルタの更新を、学習と表現することもある。

ここで、前述したように、マイクｍｃ１が収音する店員ｈｍ１の音声は、顧客ｈｍ２の声がマイクｍｃ１に届く時間分遅延する。マイクｍｃ１が店員ｈｍ１の声を収音する場合、顧客ｈｍ２の声は、店員ｈｍ１が発話する直前にメモリ５０に保持されるため、参照信号には、顧客ｈｍ２の声がマイクｍｃ１に届くまでの間の遅延が反映されていない。そのため、実施の形態１では、ディレイ２９により、この時間差を吸収し、フィルタ更新部２５は、マイクｍｃ１で収音されたタイミングに合致する参照信号を得る。すなわち、マイクｍｃ１および顧客ｈｍ２の間の距離を音速で除算した時間分、参照信号をディレイ２９によって遅延させることで、マイクｍｃ１にて実際に収音されたタイミングの再生音を再現する。ディレイ２９の値は、マイクｍｃ１と顧客ｈｍ２の間の距離を実測し、それを音速で除算することによって得ることができる。

非線形変換部２７は、音響クロストーク抑圧後の信号に対して非線形変換を行う。この非線形変換は、音響クロストーク抑圧後の信号をフィルタの更新すべき方向（正か負）を指し示す情報へと変換する処理である。非線形変換部２７は、非線形変換した後の信号を更新量計算部２６に出力する。

ノルム算出部２８は、過去に顧客ｈｍ２が発話した声の音声信号のノルムを算出する。顧客ｈｍ２が発話した声の音声信号のノルムとは、過去の所定時間内に顧客ｈｍ２が発話した声の音声信号の大きさの総和であり、この時間内の信号の大きさの度合いを示す値である。ノルムは、更新量計算部２６にて、顧客ｈｍ２が発話した声の音声の音量の影響を正規化するために用いられる。一般に、音量が大きいほどフィルタの更新量も大きく算出されてしまうため、正規化を行わなくては、畳み込み信号生成部２３の特性が大きな音声の特性に過剰に影響されてしまう。そこで、実施の形態１では、ディレイ２９から出力された音声信号を、ノルム算出部２８が算出したノルムを用いて正規化することで畳み込み信号生成部２３の更新量を安定させている。

更新量計算部２６は、非線形変換部２７とノルム算出部２８とディレイ２９とから受け取る信号から、畳み込み信号生成部２３のフィルタ特性の更新量（具体的には、ＦＩＲフィルタの係数またはタップ数の更新量）を計算する。具体的には、ディレイ２９から受け取る、過去に顧客ｈｍ２が発話した声の音声をノルム算出部２８で算出したノルムに基づき正規化する。そして、この過去に顧客ｈｍ２が発話した声の音声を正規化した結果に、非線形変換部２７から得られた情報に基づき正または負の情報を付加することで更新量を決定する。実施の形態１では、更新量計算部２６は、ＩＣＡ（独立成分解析）アルゴリズムまたはＮＬＭＳ（ＮｏｒｍａｌｉｚｅｄＬｅａｓｔＭｅａｎＳｑｕａｒｅ）アルゴリズムによりフィルタ特性の更新量を計算する。

更新量計算部２６、非線形変換部２７およびノルム算出部２８の処理を随時実行していくことで、フィルタ更新部２５は、畳み込み信号生成部２３の特性を、店員ｈｍ１の声を収音するマイクｍｃ１と顧客ｈｍ２との間の伝達特性に近づけることができる。なお、顧客ｈｍ２が発話する音声を目的音とし、店員ｈｍ１が発話する音声を妨害音とする場合には、フィルタ更新部２５は、畳み込み信号生成部２３の特性を、顧客ｈｍ２の声を収音するマイクｍｃ１と店員ｈｍ１との間の伝達特性に近づける。

次に、実施の形態１に係る音響クロストーク抑圧装置５の動作を示す。

図２は、実施の形態１に係る音響クロストーク抑圧動作手順例を示すフローチャートである。この処理は、マイクｍｃ１で収音される音声の音声信号に対し、１サンプル毎に実行される。

図２において、マイクｍｃ１は、メイン話者である店員ｈｍ１が発話する音声を収音し、音声認識したい主信号として取得する（Ｓ１）。また、マイクｍｃ１は、顧客ｈｍ２が発話する音声を収音し、ＤＳＰ１０は、この音声を参照信号としてメモリ５０に記憶する。

妨害音混合率推定部４１は、メモリ５１に記憶された位置情報を取得する（Ｓ２）。妨害音混合率推定部４１は、取得した位置情報を基に、混合率を推定する（Ｓ３）。混合率の推定は、マイクｍｃ１が置かれた位置を基に決められる。例えば、マイクｍｃ１が４個の無指向性のマイク素子を有する場合、各マイク素子で収音される音声の音圧比を比較することで、マイクｍｃ１の位置が特定される。なお、音響クロストーク抑圧装置５が、カメラを塔載する場合、カメラによる撮像画像を用いて、マイクｍｃ１の位置が特定されてもよい。

妨害音混合率推定部４１は、ステップＳ３で推定された混合率が閾値以下であるか否かを判別する（Ｓ４）。閾値は、音響クロストーク抑圧処理を行った場合に、メイン話者の音声が劣化しない（つまり妨害音が増加しない）とされる、参照信号に含まれる妨害音（言い換えると、メイン話者の音声）の割合に設定される。

混合率が閾値を超える場合（Ｓ４、ＮＯ）、ＤＳＰ１０は、図２に示す本処理を終了する。つまり、この場合には、クロストーク成分の抑圧が行われないので、メイン話者である店員ｈｍ１の主信号（音声信号）がそのまま音響クロストーク抑圧装置５の出力段に出力される。

一方、混合率が閾値以下である場合（Ｓ４、ＹＥＳ）、ＤＳＰ１０は、メモリ５０に記憶された参照信号を、ディレイ２９で遅延して取得する（Ｓ５）。

フィルタ更新部２５は、例えばフィルタ更新部２５に内蔵されるメモリ（図示略）に記憶されている対応するフィルタ係数を読み込み、畳み込み信号生成部２３に設定する（Ｓ６）。畳み込み信号生成部２３は、マイクｍｃ１で収音され、ディレイ２９で遅延された参照信号を用いて、疑似クロストーク信号に相当するクロストーク抑圧信号（抑圧信号の一例）を生成する。すなわち、畳み込み信号生成部２３は、更新量計算部２６で更新される最新のフィルタ係数を用いて、遅延時間分ずれた参照信号に対し畳み込み処理を行い、遅延時間分ずれた参照信号からクロストーク抑圧信号（上述参照）を生成する。

加算器２２は、マイクｍｃ１で収音された音声の音声信号から、畳み込み信号生成部２３により生成されたクロストーク抑圧信号を減算し、マイクｍｃ１で収音された音声に含まれるクロストーク成分を抑圧する（Ｓ７）。

ＤＳＰ１０は、フィルタ学習期間であるか否かを判別する（Ｓ８）。フィルタ学習期間は、メイン話者である店員ｈｍ１に対し、他の話者である顧客ｈｍ２が発話している期間である。また、フィルタ学習期間でない期間は、他の話者である顧客ｈｍ２が発話していない期間である。フィルタ学習期間である場合（Ｓ８、ＹＥＳ）、フィルタ更新部２５は、それぞれ更新量計算部２６で計算されるフィルタ係数で畳み込み信号生成部２３のフィルタ係数を更新し、フィルタ更新部２５に内蔵されるメモリ（図示略）に記憶する（Ｓ７）。一方、フィルタ学習期間でない場合（Ｓ８、ＮＯ）、ＤＳＰ１０は、図２に示す本処理を終了する。

このように、実施の形態１に係る音響クロストーク抑圧装置５では、ＤＳＰ１０は、店員ｈｍ１および顧客ｈｍ２のそれぞれとマイクｍｃ１との位置関係を示す位置情報を予めメモリ５１に登録しておく。妨害音混合率推定部４１は、この位置情報を基に妨害音の混合率を推定する。音響クロストーク抑圧装置５は、推定した混合率が閾値を超える場合に、メイン話者である店員ｈｍ１の声がクリアでなくなるとして、音響クロストーク抑圧処理を行わない。これにより、音響クロストーク抑圧処理によって妨害音の低減が期待できない場合、音響クロストーク抑圧装置５は、メイン話者の音声をそのまま出力することで、メイン話者の音声の劣化を抑制できる。また、音響クロストーク抑圧装置５は、不要なクロストーク抑圧処理を省くことで、処理量を減らし、ＤＳＰ１０の負荷を低減できる。一方、音響クロストーク抑圧装置５は、音響クロストーク抑圧処理によって妨害音の低減が期待できる場合、音響クロストーク抑圧処理を行い、妨害音に対するクロストーク抑圧の性能を改善できる。

以上により、音響クロストーク抑圧装置５は、例えば、店員ｈｍ１と顧客ｈｍ２が対話する店舗内に配置されたマイクｍｃ１と接続される。音響クロストーク抑圧装置５は、マイクｍｃ１と店舗内に存在する店員ｈｍ１および顧客ｈｍ２との位置関係を示す位置情報をメモリ５１で保持する。音響クロストーク抑圧装置５は、この位置情報に基づいて、他の話者（メイン話者以外の他人物の一例）の音声信号に対してメイン話者の音声信号が含まれる割合を示す混合率を妨害音混合率推定部４１で推定する。音響クロストーク抑圧装置５は、混合率の推定結果に基づいて、メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧の要否を信号処理選択部４２で判別する。

これにより、音響クロストーク抑圧装置５は、店舗などの閉空間に存在する複数の話者（例えば店員ｈｍ１および顧客ｈｍ２）の状況に応じて、メイン話者（例えば店員ｈｍ１）の発話音声に含まれ得る他の話者（例えば顧客ｈｍ２）の発話音声による音響的なクロストーク成分を適応的に抑圧できる。したがって、音響クロストーク抑圧装置５は、メイン話者の発話音声の音質を改善できる。

また、信号処理選択部４２は、混合率の推定結果が所定の閾値以下であると判定した場合に、メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧を行うと決定する。これにより、音響クロストーク抑圧装置５は、他の話者が発話する声の音声信号を参照信号として使用する場合に、クロストーク成分を効果的に抑圧できる。

また、信号処理選択部４２は、混合率の推定結果が所定の閾値より大きいと判定した場合に、メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧を行わないと決定する。これにより、音響クロストーク抑圧装置５は、クロストーク成分を抑圧することで、却ってメイン話者の音声に混ざる他の話者の音声が増加し、メイン話者の音声がクリアでなくなることを抑制できる。また、クロストーク抑圧処理を省くことで、ＤＳＰ１０による処理の負荷を軽減できる。

また、音響クロストーク抑圧装置５は、メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成する畳み込み信号生成部２３を有し、クロストーク成分を抑圧するための畳み込み信号生成部２３のパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部２５と、畳み込み信号生成部２３により生成されたクロストーク成分の抑圧信号を用いて、メイン話者の音声信号に含まれるクロストーク成分を抑圧する加算器２２と、をさらに備える。これにより、音響クロストーク抑圧装置５は、店舗内の店員ｈｍ１と顧客ｈｍ２との話者状況に応じて、メイン話者（例えば店員ｈｍ１）の発話音声に含まれ得る、顧客ｈｍ２による音響的なクロストーク成分を適応的に抑圧でき、店員ｈｍ１の発話音声の音質を改善できる。したがって、店舗内の音場が変わっても、例えば店員ｈｍ１あるいは顧客ｈｍ２が席を外して立ち上がっても、音場の変化に合わせてクロストーク成分の抑圧性能を徐々に高めることができる。

また、妨害音混合率推定部４１は、位置情報に含まれる店員ｈｍ１（メイン話者の一例）の位置からマイクｍｃ１の位置までの第１距離と、位置情報に含まれる顧客ｈｍ２（他人物の一例）の位置からマイクｍｃ１の位置までの第２距離との比率に基づいて、混合率を推定する。これにより、妨害音混合率推定部４１は、店員ｈｍ１、顧客ｈｍ２およびマイクｍｃ１の幾何学的な位置関係から容易に妨害音の混合率を推定できる。また、妨害音混合率推定部４１は、この位置関係と混合率の対応をデータベースとして予めメモリに登録しておくことで、簡単に混合率を取得できる。

また、畳み込み信号生成部２３は、メモリに保持されている最新の畳み込み信号生成部２３のパラメータの更新結果を用いて、クロストーク成分の抑圧信号を生成する。これにより、音響クロストーク抑圧装置５は、同様の話者状況が継続する場合には、その話者状況に応じて既に算出された適応的なクロストーク成分を継続して求めることができるので、メイン話者の発話音声に含まれるクロストーク成分を効果的に抑圧できる。

また、音響クロストーク抑圧装置５は、入力されたメイン話者の音声信号を、加算器２２を介さずに音響クロストーク抑圧装置５の出力段に伝達する第１端子４３ａと、入力されたメイン話者の音声信号を、加算器２２を介して音響クロストーク抑圧装置５の出力段に伝達する第２端子４３ｂとを有し、信号処理選択部４２によって判別されたクロストーク成分の抑圧の要否の判別結果にしたがい、メイン話者の音声信号の入力を第１端子４３ａまたは第２端子４３ｂに切り替える切替部４３を備える。これにより、音響クロストーク抑圧装置５は、機械的、電気的あるいは磁気的な切替スイッチを使用して、クロストーク抑圧を行った音声信号とクロストーク抑圧を行わない音声信号とを簡単に切り替えて出力できる。

（実施の形態２）
実施の形態２に係る音響クロストーク抑圧装置５Ａでは、任意の方向に指向性を形成可能なマイクアレイを用いる場合を示す。図３は、実施の形態２に係る音響クロストーク抑圧装置５Ａの機能的構成例を示すブロック図である。実施の形態２に係る音響クロストーク抑圧装置５Ａにおいて、実施の形態１と同一の構成要素については同一の符号を用いることで、その説明を省略し、ここでは相違する部分だけを説明する。音響クロストーク抑圧装置５Ａは、実施の形態１と比べ、マイクｍｃ１の代わりに、マイクアレイｍＡを含む構成である。

収音装置の一例としてのマイクアレイｍＡは、複数個（例えば１６個）の無指向性のマイク素子ｍ１１，ｍ１２，…ｍ１ｎおよびマイクアレイ処理部ｍｄを有し、実施の形態１で説明した２人の話者（例えば店員ｈｍ１および顧客ｈｍ２）の方向にそれぞれ指向性を形成（ビームフォーミングの処理）が可能な指向性マイクである。指向性処理部の一例としてのマイクアレイｍＡは、複数個の無指向性のマイク素子を用いて所定の方向に指向性をマイクアレイ処理部ｍｄにおいて形成することができる。なお、この指向性の形成に関する技術は、例えば特開２０１５−２９２４１号公報に示されるように、公知の技術である。なお、マイクアレイ処理部ｍｄは、ＤＳＰ１０に含まれるように構成されてもよい。

メモリ５０は、マイクアレイｍＡが店員ｈｍ１がいる方向ｄ１に指向性を形成して音声する収音する際、過去に顧客ｈｍ２が発話した声の音声信号を記憶する。同様に、メモリ５０は、マイクアレイｍＡが顧客ｈｍ２がいる方向ｄ２に指向性を形成して音声する収音する際、過去に店員ｈｍ１が発話した声の音声信号を記憶する。これらの信号は、参照信号として音響クロストークの再現（つまり、上述した疑似クロストーク信号の生成）に用いられる。

混合率推定部の一例としての妨害音混合率推定部４１Ａは、メモリ５１に記憶された位置情報およびマイクアレイｍＡの指向性性能を基に、混合率を推定する。具体的に、妨害音混合率推定部４１Ａは、位置情報を基に、マイクアレイｍＡから店員ｈｍ１（メイン話者）の方向ｄ１に第１指向性を形成した第１音声信号とマイクアレイｍＡから他の話者の方向ｄ２に第２指向性を形成した第２音声信号との比率に基づいて、混合率を推定する。

決定部の一例としての信号処理選択部４２は、妨害音混合率推定部４１Ａによって推定された混合率を基に、切替部４３に切り替えを指示する。

例えば、混合率は、店員ｈｍ１と顧客ｈｍ２との間に配置されるマイクアレイｍＡの位置によって推定される。マイクアレイｍＡが店員ｈｍ１と顧客ｈｍ２との中央の位置でなく、店員ｈｍ１側に片寄った位置に置かれた場合を想定する。マイクアレイｍＡと店員ｈｍ１との間の距離、マイクアレイｍＡと顧客ｈｍ２との間の距離等を考慮すると、マイクアレイｍＡが店員ｈｍ１がいる方向ｄ１に指向性を形成して音声を収音する際、店員ｈｍ１の声に混ざる顧客ｈｍ２の声の割合は小さい。したがって、マイクアレイｍＡがメイン話者である顧客ｈｍ２がいる方向ｄ２に指向性を形成し、抑圧ユニット２０がクロストーク抑圧後の音声を取得する際、マイクアレイｍＡが収音する他の話者である店員ｈｍ１がいる方向ｄ１に指向性を形成して収音する音声は、音響クロストーク抑圧に用いられる参照信号に適する。信号処理選択部４２は、クロストーク成分の抑圧を行うように、切替部４３に指示する。

一方、マイクアレイｍＡが顧客ｈｍ２がいる方向ｄ２に指向性を形成して音声を収音する際、顧客ｈｍ２の声に混ざる店員ｈｍ１の声の割合は大きい。したがって、マイクアレイｍＡがメイン話者である店員ｈｍ１がいる方向ｄ１に指向性を形成し、抑圧ユニット２０がクロストーク抑圧後の音声を取得する際、マイクアレイｍＡが収音する他の話者である顧客ｈｍ２がいる方向ｄ２に指向性を形成して収音する音声は、音響クロストーク抑圧に用いられる参照信号に適さない。信号処理選択部４２は、クロストーク成分の抑圧を行わないように、切替部４３に指示する。

切替部４３は、例えば店員ｈｍ１の方向に指向性を形成して収音した音声に対し、音響クロストーク抑圧を行わないとして、マイクアレイｍＡからの音声信号をそのまま出力するように切り替える。一方、切替部４３は、顧客ｈｍ２の方向に指向性を形成して収音した音声に対し、音響クロストーク抑圧を行う場合、マイクアレイｍＡからの音声信号を抑圧ユニット２０に入力するように切り替える。抑圧ユニット２０は、音響クロストーク抑圧処理を行い、クロストーク抑圧後の音声信号を出力する。

次に、実施の形態２に係る音響クロストーク抑圧装置５Ａの動作を示す。

図４は、音響クロストーク抑圧動作手順を示すフローチャートである。図４の説明において、実施の形態１と同一のステップ処理については同一の符号を付すことで、その説明を省略する。

図４において、マイクアレイｍＡは、店員ｈｍ１および顧客ｈｍ２がいる店舗で発話された音声を収音する（Ｓ１Ａ）。マイクアレイｍＡは、収音した音声の音声信号に対し、店員ｈｍ１がいる方向ｄ１に指向性を形成し、メイン話者である店員ｈｍ１の音声信号（主信号）を取得する（Ｓ１）。同様に、マイクアレイｍＡは、収音した音声の音声信号に対し、顧客ｈｍ２がいる方向ｄ２に指向性を形成し、他の話者である顧客ｈｍ２の音声信号（参照信号）を取得する（Ｓ２）。

妨害音混合率推定部４１Ａは、マイクアレイｍＡと店員ｈｍ１および顧客ｈｍ２との位置関係を示す位置情報とマイクアレイｍＡの指向性性能とを基に、参照信号である顧客ｈｍ２がいる方向ｄ２の音声に含まれる、店員ｈｍ１の音声（妨害音）の混合率を推定する（Ｓ３）。ここでいう、指向性性能は、マイクアレイｍＡから店員ｈｍ１（メイン話者）の方向ｄ１に第１指向性を形成した第１音声信号とマイクアレイｍＡから他の話者の方向ｄ２に第２指向性を形成した第２音声信号との比率に相当する。

ステップＳ４以降の処理は、実施の形態１と同様である。妨害音混合率推定部４１Ａは、推定した混合率が閾値以下であるか否かを判別する（Ｓ４）。指向性形成後の妨害音の混合率が閾値以下である場合（Ｓ４、ＹＥＳ）、この妨害音を含む音声は参照信号として利用できるとして、ＤＳＰ１０は、実施の形態１と同様、ステップＳ５〜Ｓ７の処理を行う。つまり、ＤＳＰ１０は、メイン話者の音声（目的音：店員ｈｍ１の声）に混ざる妨害音（顧客ｈｍ２の声）を抑圧する音響クロストーク抑圧処理を行う。

一方、指向性形成後の妨害音の混合率が閾値を超える場合（Ｓ４、ＮＯ）、この妨害音を含む音声は参照信号として利用できないとして、ＤＳＰ１０は、音響クロストーク抑圧処理を行わずにそのまま音響クロストーク抑圧装置５の出力段に出力する。したがって、ＤＳＰ１０は、妨害音が増加したクロストーク抑圧後の音声信号を出力することなく、処理の負荷を軽減できる。

このように、実施の形態２に係る音響クロストーク抑圧装置５Ａでは、ＤＳＰ１０は、店員ｈｍ１および顧客ｈｍ２とマイクアレイｍＡとの位置関係を示す位置情報をメモリ５１に登録しておく。妨害音混合率推定部４１Ａは、この位置情報およびマイクアレイｍＡの指向性性能（上述参照）を基に、妨害音の混合率を推定する。音響クロストーク抑圧装置５Ａは、実施の形態１と同様、推定した混合率が閾値を超える場合、メイン話者である店員ｈｍ１の声がクリアでなくなるとして、音響クロストーク抑圧処理を行わない。これにより、音響クロストーク抑圧処理によって妨害音の低減が期待できない場合、音響クロストーク抑圧装置５Ａは、メイン話者の音声をそのまま出力することで、メイン話者の音声の劣化を抑制できる。また、音響クロストーク抑圧装置５Ａは、音響クロストーク抑圧処理を省くことで、処理量を減らし、ＤＳＰ１０の負荷を低減できる。一方、音響クロストーク抑圧装置５Ａは、音響クロストーク抑圧処理によって妨害音の低減が期待できる場合、音響クロストーク抑圧処理を行い、妨害音に対するクロストーク抑圧の性能を改善できる。

以上により、音響クロストーク抑圧装置５Ａは、マイクアレイｍＡが有する複数の無指向性のマイク素子ｍ１１〜ｍ１ｎのそれぞれにより収音された音声信号と位置情報とに基づいて、マイクアレイｍＡからメイン話者、他の話者のそれぞれへの方向に異なる指向性を形成するマイクアレイ処理部ｍｄ、をさらに備える。妨害音混合率推定部４１Ａは、メモリ５１に記憶された位置情報を基に、マイクアレイｍＡから店員ｈｍ１の方向ｄ１に第１指向性を形成した第１音声信号とマイクアレイｍＡから他の話者の方向ｄ２に第２指向性を形成した第２音声信号との比率に基づいて、混合率を推定する。

これにより、音響クロストーク抑圧装置５Ａは、店員ｈｍ１および顧客ｈｍ２とマイクアレイｍＡとの位置関係の他、マイクアレイｍＡの指向性性能（上述参照）を加味して、音響クロストーク抑圧処理を行うか否かを決定できる。また、顧客ｈｍ２の方向ｄ２に指向性が形成された音声を収音することで、参照信号として用いられる顧客ｈｍ２の音声に混ざる店員ｈｍ１の音声（妨害音の一例）の割合（混合率の一例）を下げることができる。したがって、店員ｈｍ１が発話する声の音声に対し、クロストーク成分の抑圧が行われる確率を高めることができる。

以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。

例えば、上述した実施の形態１では、店員ｈｍ１と顧客ｈｍ２との間に１個のマイクｍｃ１が配置され、店員ｈｍ１および顧客ｈｍ２それぞれの声を収音したが、マイクの数は、店員ｈｍ１向けのマイクと顧客ｈｍ２向けのマイクとを含む、２個であってもよい。この場合、店員ｈｍ１向けのマイクは、ヘッドセットに内蔵されてもよい。２個のマイクを用いると、各マイクは、妨害音に対し、目的音を大きな音圧で収音可能であるので、音響クロストーク抑圧処理が行われ易い状況である。ただし、２個のマイクであっても、これらの置き場所が著しく片寄っている状況では、音響クロストーク抑圧処理が行われない場合もあり得る。

また、上述した実施の形態１，２のいずれにおいても、妨害音混合率推定部４１，４１Ａによって推定された混合率が閾値以下である場合、更新量計算部２６は、混合率の値によってアルゴリズム（ＮＬＭＳアルゴリズム、ＩＣＡアルゴリズム等）を変更して適応フィルタのパラメータを計算してもよく、より適した値に設定できる。

また、音響クロストーク抑圧装置５，５Ａは、ハウリングキャンセラに用いられてもよい。ハウリングキャンセラは、例えばカラオケボックス等において、自身が発する声がスピーカで再生されてマイクで収音される音を妨害音として抑圧する。また、音響クロストーク抑圧装置５，５Ａは、エコーキャンセラに用いられてもよい。エコーキャンセラは、車室内等において、他の話者が発話する声がスピーカから出力されてメイン話者のマイクで収音される音を妨害音として抑圧する。

本開示は、閉空間に存在する複数の話者の状況に応じて、メイン話者の発話音声に含まれ得る他の話者の発話音声による音響的なクロストーク成分を適応的に抑圧し、メイン話者の発話音声の音質を改善する音声処理装置および音声処理方法として有用である。

５，５Ａ音響クロストーク抑圧装置
２２加算器
２３畳み込み信号生成部
２５フィルタ更新部
２６更新量計算部
２７非線形変換部
２８ノルム算出部
２９ディレイ
４１，４１Ａ妨害音混合率推定部
４２信号処理選択部
４３切替部
４３ａ第１端子
４３ｂ第２端子
ｍＡマイクアレイ
ｍｃ１マイク

Claims

閉空間内に配置された収音装置と接続され、
前記収音装置と前記閉空間内に存在するメイン話者を含む複数人のそれぞれとの位置関係を示す話者位置情報を保持するメモリと、
前記話者位置情報に基づいて、前記メイン話者以外の他人物の音声信号に対して前記メイン話者の音声信号が含まれる割合を示す混合率を推定する混合率推定部と、
前記混合率の推定結果に基づいて、前記メイン話者の音声信号に含まれる前記他人物の発話によるクロストーク成分の抑圧の要否を判別する決定部と、を備える、
音声処理装置。
前記決定部は、前記混合率の推定結果が所定の閾値以下であると判定した場合に、前記メイン話者の音声信号に含まれる前記他人物の発話によるクロストーク成分の抑圧を行うと決定する、
請求項１に記載の音声処理装置。
前記決定部は、前記混合率の推定結果が所定の閾値より大きいと判定した場合に、前記メイン話者の音声信号に含まれる前記他人物の発話によるクロストーク成分の抑圧を行わないと決定する、
請求項１に記載の音声処理装置。
前記メイン話者の音声信号に含まれる前記他人物の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、
前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、をさらに備える、
請求項１に記載の音声処理装置。
前記混合率推定部は、前記話者位置情報に含まれる前記メイン話者の位置から前記収音装置の位置までの第１距離と、前記話者位置情報に含まれる前記他人物の位置から前記収音装置の位置までの第２距離との比率に基づいて、前記混合率を推定する、
請求項１に記載の音声処理装置。
前記収音装置が有する複数のマイク素子のそれぞれにより収音された音声信号と前記話者位置情報とに基づいて、前記収音装置から前記メイン話者、前記他人物のそれぞれへの方向に異なる指向性を形成する指向性処理部、をさらに備え、
前記混合率推定部は、前記収音装置から前記メイン話者の方向に第１指向性を形成した第１音声信号と前記収音装置から前記他人物の方向に第２指向性を形成した第２音声信号との比率に基づいて、前記混合率を推定する、
請求項１に記載の音声処理装置。
前記フィルタは、前記メモリに保持されている最新の前記フィルタのパラメータの更新結果を用いて、前記抑圧信号を生成する、
請求項４に記載の音声処理装置。
入力された前記メイン話者の音声信号を、前記クロストーク抑圧部を介さずに前記音声処理装置の出力段に伝達する第１端子と、入力された前記メイン話者の音声信号を、前記クロストーク抑圧部を介して前記音声処理装置の出力段に伝達する第２端子とを有し、前記クロストーク成分の抑圧の要否の判別結果に基づいて、前記メイン話者の音声信号の入力を前記第１端子または前記第２端子に切り替える切替部、をさらに備える、
請求項４に記載の音声処理装置。
閉空間内に配置された収音装置と接続された音声処理装置により実行される音声処理方法であって、
前記収音装置と前記閉空間内に存在するメイン話者を含む複数人のそれぞれとの位置関係を示す話者位置情報をメモリに保持し、
前記話者位置情報に基づいて、前記メイン話者以外の他人物の音声信号に対して前記メイン話者の音声信号が含まれる割合を示す混合率を推定し、
前記混合率の推定結果に基づいて、前記メイン話者の音声信号に含まれる前記他人物の発話によるクロストーク成分の抑圧の要否を判別する、
音声処理方法。