JP6972858B2

JP6972858B2 - 音響処理装置、プログラム及び方法

Info

Publication number: JP6972858B2
Application number: JP2017190242A
Authority: JP
Inventors: 一浩片桐
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2021-11-24
Anticipated expiration: 2037-09-29
Also published as: JP2019066601A

Description

本発明は、音響処理装置、プログラム及び方法に関し、スピーカから音響信号を立体的に再生する際のスピーチプライバシーに適用し得る。

現在、公共空間や店舗などにおいてセキュリティ情報やプライバシーが重要な場所（例えば、行政機関や金融機関、医療施設等）では、会話の内容が第三者に漏れ聞こえない様にするスピーチプライバシーが求められている。

従来のスピーチプライバシーに関する技術としては、特許文献１、２の記載技術がある。

特許文献１では、マスキング音を再生するスピーカを用いて、会話をマスキングすることで、ユーザの後方にいる人が聞え難くなる装置を提案している。また特許文献２では、話者の位置とマスキング音を再生するスピーカの位置が離れていると、音源の位置から聞き分けられてしまう問題に対して、ステレオスピーカを用い、ユーザの後方にいる人の正面でマスキング音が聞える装置を提案している。従来では、上述のようなスピーチプライバシーを実現する装置が、実際の店舗で使用されている例もある。

特開２０１２−１３７７４２号公報特開２００７−２３５８６４号公報特開２０１３−１８３３５８号公報

ところで、現在、ＩＣＴ（ＩｎｆｏｒｍａｔｉｏｎａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ）の発達に伴い、対面対話だけでなく、端末を介して遠隔地とのハンズフリー通話を行うことも多くなっている。そして、現在、ハンズフリー通話の状況でのスピーチプライバシーの需要が高まっている。

例えば、店舗等で顧客がハンズフリー通話により各種サービスを受ける状況では、顧客は店舗などにおり、対応するスタッフはコールセンターなどの遠隔地にいることが想定される。この場合、顧客の声（近端音）は端末のマイクで拾い、スタッフの声（遠端音）は端末のスピーカから再生されることになる。しかしながら、従来のスピーチプライバシーに対応したハンズフリー装置（以下、「スピーチプライバシー装置」と呼ぶ）では、以下のような課題を解決することが出来ない。まず、スピーチプライバシー装置により効果を得るには、マスキング音量に対して、話者の音量が一定値以下でなくてはならない。例えば、顧客が対面で店員と会話する場合は、その場の雑音やマスキング音が直接聞えるため、話者が状況に応じて自分の音量をコントロール出来る。しかし、従来のスピーチプライバシー装置の場合、遠端話者（例えば、遠隔地にいる店員）は、近端話者（例えば、店舗にいる顧客）の状況が分からないため、自身の音量をコントロールすることができず、近端側で十分なスピーチプライバシーの効果を得られない可能性がある。例えば、従来のスピーチプライバシー装置において、遠端音が大きい場合を考慮してマスキング音量を大きく設定すると、マスキング音自体が、近端音と遠端音をともに阻害してしまう恐れがある。

また、特許文献１、２に記載された従来のスピーチプライバシー装置はともに、遠端話者の音声を出力するスピーカを近端話者の位置よりも後方（近端話者から見てスピーカと反対側）に設置する必要がある。従来のスピーチプライバシー装置において、顧客よりも前にスピーカを置いてしまうと、スピーチプライバシー装置のマスキング音により、遠端音自体がマスキングされてしまう。そのため、従来のスピーチプライバシー装置では、近端話者の後方側にスピーカを設置するスペースの確保が必要となり、当該スピーチプライバシー装置が使用出来る環境が制限される。

さらに、特許文献１、２に記載された従来のスピーチプライバシー装置はともに、スピーカを近端話者よりも後方に設置するため、近端話者の後方に位置する人に対しては、話者の声は聞え難くなるが、近端話者の横方向（スピーカの方向を向いている近端話者から見て横方向）にいる人に対しては効果が薄れてしまう。そのため、従来のスピーチプライバシー装置では、例えば、券売機やＡＴＭなど顧客（近端話者）が利用する端末が横一列に並んでいる様な状況には対応することができない。

以上のような問題に鑑みて、スピーカの設置環境の制限を緩和しつつ、聴者（近端話者）に聴取させる音を周囲に位置する者（以下、「周辺者」と呼ぶ）に対してマスキングする効果を低減させない音響処理装置、プログラム及び方法が望まれている。

第１の本発明は、２つのスピーカに供給する音響信号を生成する音響信号処理装置において、（１）それぞれの前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施したそれぞれの前記スピーカ用の立体音響マスキング音を保持する立体音響マスキング音保持手段と、（２）それぞれの前記スピーカ用の前記立体音響マスキング音に、前記入力音を混合する混合処理を行い、それぞれの前記スピーカ用の混合音を生成する混合手段と、（３）前記混合手段が混合したそれぞれの前記スピーカ用の混合音の音響信号を出力する出力手段と、（４）前記聴者の居る場所の音を捕捉する捕捉手段と、（５）前記捕捉手段が捕捉した音に基づいて前記聴者の居る場所における背景雑音の音量を推定する背景雑音推定部と、（６）前記背景雑音推定部が推定した背景雑音の音量に基づいて、前記混合手段が生成する前記混合音の音量を調整する調整手段とを有し、（７）前記調整手段は、前記混合音の音量と、前記背景雑音推定部が推定した背景雑音の音量との比が一定となるように、前記混合音の音量を調整することを特徴とする。

第２の本発明の音響信号処理プログラムは、２つのスピーカに供給する音響信号を生成する音響信号処理装置に搭載されたコンピュータを、（１）それぞれの前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施したそれぞれの前記スピーカ用の立体音響マスキング音を保持する立体音響マスキング音保持手段と、（２）それぞれの前記スピーカ用の前記立体音響マスキング音に、前記入力音を混合する混合処理を行い、それぞれの前記スピーカ用の混合音を生成する混合手段と、（３）前記混合手段が混合したそれぞれの前記スピーカ用の混合音の音響信号を出力する出力手段と、（４）前記聴者の居る場所の音を捕捉する捕捉手段と、（５）前記捕捉手段が捕捉した音に基づいて前記聴者の居る場所における背景雑音の音量を推定する背景雑音推定部と、（６）前記背景雑音推定部が推定した背景雑音の音量に基づいて、前記混合手段が生成する前記混合音の音量を調整する調整手段として機能させ、（７）前記調整手段は、前記混合音の音量と、前記背景雑音推定部が推定した背景雑音の音量との比が一定となるように、前記混合音の音量を調整することを特徴とする。

第３の本発明は、２つのスピーカに供給する音響信号を生成する音響信号処理装置が行う音響信号処理方法において、（１）立体音響マスキング音保持手段、混合手段、出力手段、捕捉手段、背景雑音推定部、及び調整手段を有し、（２）前記立体音響マスキング音保持手段は、それぞれの前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施したそれぞれの前記スピーカ用の立体音響マスキング音を保持し、（３）それぞれの前記スピーカ用の前記立体音響マスキング音に、前記入力音を混合する混合処理を行い、それぞれの前記スピーカ用の混合音を生成し、（４）前記混合手段が混合したそれぞれの前記スピーカ用の混合音の音響信号を出力し、（５）前記捕捉手段は、前記聴者の居る場所の音を捕捉し、（６）前記背景雑音推定部は、前記捕捉手段が捕捉した音に基づいて前記聴者の居る場所における背景雑音の音量を推定し、（７）前記調整手段は、前記背景雑音推定部が推定した背景雑音の音量に基づいて、前記混合手段が生成する前記混合音の音量を調整し、（８）前記調整手段は、前記混合音の音量と、前記背景雑音推定部が推定した背景雑音の音量との比が一定となるように、前記混合音の音量を調整することを特徴とする。

本発明によれば、スピーカの設置環境の制限を緩和しつつ、聴者に聴取させる音を周囲に位置する周辺者に対してマスキングする効果を低減させない音響処理装置を提供することができる。

第１の実施形態に係る音響信号処理装置の機能的構成を示すブロック図である。第１の実施形態に係る音響信号処理装置のユーザ（スイートスポット内にいる聴者）の音の聞こえ方について示した説明図である。第１の実施形態に係る音響信号処理装置のユーザ以外の者（スイートスポット外にいる者）の音の聞こえ方について示した説明図である。第１の実施形態に係る音響信号処理装置でトランスオーラル再生を行う際の環境モデル（スピーカ使用時にクロストークが発生する状況）について示した説明図である。第２の実施形態に係る音響信号処理装置の構成を示すブロック図である。第３の実施形態に係る音響信号処理装置の構成を示すブロック図である。第４の実施形態に係る音響信号処理装置の構成を示すブロック図である。

（Ａ）第１の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第１の実施形態を、図面を参照しながら詳述する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態に係る音響信号処理装置１０の全体構成を示すブロック図である。

音響信号処理装置１０は、入力音Ｉ（入力音の音響信号）を処理して出力する装置である。この実施形態では、音響信号処理装置１０は、ステレオスピーカＳｐに音響信号を出力するものとする。ステレオスピーカＳｐは、左側スピーカＳｐＬと右側スピーカＳｐＲにより構成されている。

また、音響信号処理装置１０は、入力音Ｉを聴取させる対象（聴者）であるユーザＵ以外の者（以下、「周辺者」と呼ぶ）に対して入力音Ｉをマスキングする（聞き取りにくくする）ためのマスキング音Ｍの供給を受け、マスキング音Ｍに立体音響処理を施して入力音Ｉと混合した音響信号を生成して、スピーカＳｐＬ、ＳｐＲに出力する。なお、この実施形態では、音響信号処理装置１０は、２つのスピーカにより構成されるステレオスピーカに出力する例について説明したが、出力するスピーカの構成（例えば、スピーカの数や位置）については限定されないものである。

音響信号処理装置１０の使用環境（用途）は限定されないものである。この実施形態の例では、入力音Ｉを、ハンズフリー通話における遠端側の音（以下、「遠端音」と呼ぶ）（例えば、遠端側のマイクで捕捉された音）とする。そして、音響信号処理装置１０は、入力音Ｉに基づく音をステレオスピーカＳＰ（左側スピーカＳｐＬ、右側スピーカＳｐＲ）から出力させて、近端側のユーザＵに聴取させるものとして説明する。なお、実際のハンズフリー通話では、近端側のユーザＵが発話した音声を含む音（以下、「近端音」と呼ぶ）を捕捉して遠端側に伝送する構成が必要となるが、近端側から遠端側への通信構成については限定されないため、図１では図示省略している。なお、音響信号処理装置１０は、ハンズフリー通話以外にも単に、録音された音声（例えば、ユーザＵに対する音声ガイダンス等）を入力音Ｉとして処理する装置としてもよい。

図１では、入力音響信号Ｉを聴取させる対象となるユーザＵと、ステレオスピーカＳＰを構成する各スピーカＳｐＬ、ＳｐＲとの位置関係を上側から見た場合の例について示している。図１では、ユーザＵの位置（上側から見た場合の頭部の中心位置）をＰＵ、左側スピーカＳｐＬの位置（上側から見た場合の中心位置）をＰＬ、右側スピーカＳｐＲの位置（上側から見た場合の中心位置）をＰＲとして図示している。図１では、ユーザＵから見て、前側に各スピーカＳｐＬ、ＳｐＲが配置されている。

また、図１では、領域ＡＳは、音響信号処理装置１０において行われる立体音響処理のスイートスポット（聴者に対して設計通りに音像を定位させることが可能な領域）である。そして、ユーザＵは領域ＡＳ内に位置している。

次に音響信号処理装置１０の内部構成について説明する。

図１に示すように、音響信号処理装置１０は、入力音信号入力部１２、マスキング音信号入力部１１、立体音響処理部１３、信号混合部１４、及びスピーカ出力部１５を有している。音響信号処理装置１０の各構成要素の詳細については後述する。

音響信号処理装置１０は、プロセッサやメモリ等を備えるコンピュータにプログラム（実施形態に係る音響再生プログラムを含む）を実行させることで実現するようにしてもよいが、その場合であっても、機能的には、図１のように表すことができる。

（Ａ−２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態における音響信号処理装置１０の動作（実施形態に係る音響再生方法）を説明する。

入力音信号入力部１２は、入力音Ｉ（アナログの音響信号）が供給されると、入力Ｉをアナログ信号からデジタル信号に変換する。

また、マスキング音信号入力部１１は、マスキング音Ｍ（アナログの音響信号）が入力されると、そのマスキング音Ｍを、アナログ信号からデジタル信号に変換する。

マスキング音Ｍとしては、ステレオスピーカＳｐから再生される入力音Ｉ（遠端音）や、ユーザＵの発話する音声（近端音）をマスキング可能な成分が含まれていれば、具体的な内容は限定されないものである。マスキング音Ｍとしては、例えば、人間が発話した音声サンプルをそのまま、又は加工した音響信号としてもよい。

なお、音響信号処理装置１０における入力音Ｉ及びマスキング音Ｍの入力形式は上記の構成に限定されず種々の構成を適用することができる。例えば、音響信号処理装置１０に、デジタル形式の入力音Ｉ及びマスキング音Ｍを入力するようにしてもよいし、ストリーム形式ではなくファイル形式の音響データとしてまとめて入力するようにしてもよい。

立体音響処理部１３は、マスキング音Ｍに対し、ユーザＵがスピーカＳｐＲもしくはＳｐＬとは別の場所（すなわち、入力音Ｉが定位することになる場所とは異なる場所）からマスキング音Ｍが聞えるように音像を定位させる立体音響処理を行う。立体音響処理部１３において、マスキング音Ｍを立体音響処理した立体音響処理したマスキング音（以下、「立体音響マスキング音」とも呼ぶ）を、同時に複数設定（同じマスキング音Ｍに基づく立体音響マスキング音を設定）することもでき、各立体音響マスキング音が、ユーザに対して別々の方向に定位するように立体音響処理を行う。

次に、図２を用いて、立体音響処理部１３における立体音響処理（立体音響マスキング音の設定）の具体例について説明する。

図２では、スウィートスポットＡＳ内に位置し、２つのスピーカＳｐＬ、ＳｐＲの位置ＰＬ、ＰＲの位置を結んだ線の中間点の方向Ｆを向いているユーザＵに対して左９０度の方向（Ｆの方向を０度として反時計回りに９０度の方向）に位置する第１の立体音響マスキング音ＭＳ１と、ユーザＵに対して右９０度の方向（Ｆの方向を０度として時計回りに９０度の方向）に位置する第２の立体音響マスキング音ＭＳ２が設定された状態について図示している。また、この実施形態では、入力音Ｉについては特に立体音響処理されていないため、図２では、入力音Ｉは２つのスピーカの間（位置ＰＬとＰＲとの間の空間）に定位する結果となる状態について示している。なお、この実施形態では、入力音Ｉについては特に立体音響処理されない例について示しているが、入力音Ｉについても所定の方向（例えば、ユーザＵが向くと想定される方向）に定位する立体音響処理を施すようにしてもよい。立体音響処理部１３は、例えば、図２に示すような状態を実現するために、マスキング音Ｍに基づいて、ユーザＵに対して１又は複数の方向（入力音Ｉが定位する場所とは異なる方向）に対してマスキング音Ｍを定位させる立体音響処理を行った立体音響マスキング音を生成する。

立体音響処理部１３が行う立体音響処理の方式については限定されないものであるが、例えば、以下の参考文献１に記載されるようなトランスオーラル再生の技術を適用するようにしてもよい。トランスオーラル再生は、イヤホンやヘッドフォンを用いる立体音響技術であるバイノーラル再生と同様の立体音響の効果を、スピーカでも得られるように応用した技術である。
[参考文献１]ＷＧＧａｒｄｎｅｒ著，「３−ＤＡｕｄｉｏＵｓｉｎｇＬｏｕｄｓｐｅａｋｅｒｓ」，Ｓｐｒｉｎｇｅｒ（ＵＳ），１９７７年発行

バイノーラル再生では、音源とする音響信号に定位させたい方向の頭部伝達関数を畳み込み、バイノーラル音源に変換し、ヘッドフォンやイヤホンから再生することで、立体音響効果を生み出すことが出来る。

図４は、立体音響処理部１３がトランスオーラル再生の技術を利用した立体音響処理を行う際の環境モデルについて示した説明図である。

図４では、ユーザＵの右耳の符号をｅ_Ｒ、ユーザＵの左耳の符号をｅ_Ｌと図示している。

例えば、仮にバイノーラル音源をスピーカＳｐＬ、ＳｐＲからそのまま再生した場合、十分な立体音響効果を得ることができなくなる。例えば、右耳用バイノーラル音源は、ユーザＵの右耳ｅ_Ｒにのみ到達する必要があるが、右側スピーカＳｐＲから再生した右耳用バイノーラル音源は、右耳ｅ_Ｒだけでなく左耳ｅ_Ｌにも到達してしまう。また、同様に、左側スピーカＳｐＬから再生された左耳用バイノーラル音源も左耳ｅ_Ｌだけでなく右耳ｅ_Ｒにも到達することになる。このような現象はクロストークと呼ばれ、スピーカを再生環境とする際の立体音響効果を妨げる原因となっている。

これに対して、参考文献１に記載されたトランスオーラル再生では、各スピーカから両耳までの室内伝達関数を測定した後、バイノーラル音源に伝達関数を畳み込み、その中のクロストーク成分のみをキャンセルするフィルタを設計する。

図４では、右スピーカ右耳経路（右側スピーカＳｐＲから右耳ｅ_Ｒへの経路）の伝達関数をＧ_ＲＲ、右スピーカ左耳経路（右側スピーカＳｐＲから左耳ｅ_Ｌへの経路）の伝達関数をＧ_ＲＬ、左スピーカ右耳経路（左側スピーカＳｐＬから右耳ｅ_Ｒへの経路）の伝達関数をＧ_ＬＲ、左スピーカ左耳経路（左側スピーカＳｐＬから左耳ｅ_Ｌへの経路）の伝達関数をＧ_ＬＬと図示している。

また、以下では、トランスオーラル再生における左スピーカ左耳経路のフィルタをＣ_ＬＬ（ω）（「ω」は周波数を表す。以下同様）、右スピーカ右耳経路のフィルタをＣ_ＲＲ（ω）、左スピーカ右耳経路のフィルタをＣ_ＬＲ（ω）、右スピーカ左耳経路のフィルタをＣ_ＲＬ（ω）、左スピーカ左耳経路のフィルタをＣ_ＬＬ（ω）とする。さらに、以下では、左耳用の音源定位位置に対応した頭部伝達関数（ＨＲＴＦ：Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）をＨ_Ｌ（ω）とし、左耳用の音源定位位置に対応した頭部伝達関数（ＨＲＴＦ）をＨ_Ｒ（ω）とする。

そうすると、トランスオーラル再生における各経路のフィルタは、以下の（１）式〜（４）式のように示すことができる。そして、（１）式〜（４）式の共通項（すなわち、各フィルタの共通項）をまとめたものをＧ_０（ω）とすると、Ｇ_０（ω）は以下の（５）式のように示すことができる。

そして、上記の（１）式〜（４）式に示す各経路のフィルタを左右のスピーカＳｐＬ、ＳｐＲごとにまとめると、（６）式、（７）式に示すように、トランスオーラル再生においてクロストークの抑圧に用いられるクロストークキャンセルフィルタを求めることができる。（６）式に示すＣ_Ｒ（ω）は、右側スピーカＳｐＲ用のクロストークキャンセルフィルタであり、（７）式に示すＣ_Ｌ（ω）は、左側スピーカＳｐＬ用のクロストークキャンセルフィルタである。

トランスオーラル再生では、音像定位させる音源（この実施形態ではマスキング音Ｍ）に、上記のようなクロストークキャンセルフィルタを掛けて、各スピーカから再生することで、クロストーク成分が聴者（ユーザＵ）の耳元で打ち消され、左右それぞれのバイノーラル音源だけが耳に届き、バイノーラル再生と同様の立体音響効果を得ることができる。

したがって、立体音響処理部１３は、マスキング音Ｍに基づき、図２に示すように、第１の立体音響マスキング音ＭＳ１（方向Ｄ１）と、第２の立体音響マスキング音ＭＳ２（方向Ｄ２）を定位させるトランスオーラル再生の処理を行う場合、まず、第１の立体音響マスキング音ＭＳ１を設定した第１のバイノーラル音源と、第２の立体音響マスキング音ＭＳ２を設定したバイノーラル音源を生成する。そして、立体音響処理部１３は、右耳用（右側スピーカＳｐＲ用）のバイノーラル音源に右側スピーカＳｐＲ用のクロストークキャンセルフィルタＣ_Ｒ（ω）を掛けて右側スピーカＳｐＲ用のトランスオーラル再生の音響信号（音源）を生成し、左耳用（左側スピーカＳｐＬ用）のバイノーラル音源に左側スピーカＳｐＬ用のクロストークキャンセルフィルタＣ_Ｌ（ω）を掛けて左側スピーカＳｐＬ用のトランスオーラル再生の音響信号（音源）を生成する処理を行う。

以下では、立体音響処理部１３が処理した音響信号（立体音響マスキング音の音響信号）をＸと呼ぶものとする。ここでは、音響信号処理装置１０の再生環境は、ステレオスピーカＳｐ（スピーカＳｐＬ、ＳｐＲ）であるため、音響信号Ｘには、右側スピーカＳｐＲ用の音響信号（以下、「ＸＲ」と呼ぶ）と、左側スピーカＳｐＬ用の音響信号（以下、「ＸＬ」と呼ぶ）が含まれることになる。

信号混合部１４は、立体音響処理部１３においてマスキング音Ｍが立体音響処理された音響信号ＸＲ、ＸＬと、入力音信号入力部１２で取得した入力音Ｉを混合する処理を行う。

以下では、入力音Ｉの右側スピーカＳｐＲ用の信号を「ＩＲ」と呼び、入力音Ｉの左側スピーカＳｐＬ用の信号を「ＩＬ」と呼ぶものとする。なお、入力音信号入力部１２で取得した入力音Ｉがモノラル信号である場合に、入力音信号入力部１２は、ステレオ信号に変換処理してＩＲとＩＬを得るようにしてもよい。

このとき、信号混合部１４は、混合の際に、入力音Ｉが立体音響処理された音響信号Ｘに含まれるマスキング音Ｍの成分により十分マスキングされるように入力音Ｉと音響信号Ｘとの音量を調整することが望ましい。例えば、信号混合部１４は、入力音Ｉと音響信号Ｘとの音量の比が１：１となるように音量調整するようにしてもよい。この際、入力音Ｉの音量に合わせて音響信号Ｘの音量を調節してもよいし、音響信号Ｘの音量にあわせて入力音Ｉの音量を調整するようにしてもよい。信号混合部１４は、再生環境のスピーカごと（音響信号のチャネルごと）に音響信号を混合する処理を行う。

この実施形態では、音響信号処理装置１０の再生環境は、ステレオスピーカＳｐ（スピーカＳｐＬ、ＳｐＲ）であるため、信号混合部１４は、ＩＲとＸＲを混合して、右側スピーカＳｐＲ用の音響信号（以下、「ＯＲ」と呼ぶ）を生成し、ＩＬとＸＬを混合して左側スピーカＳｐＬ用の音響信号（以下、「ＯＬ」と呼ぶ）を生成する。

なお、信号混合部１４に立体音響マスキング音となる音響信号が複数供給された場合、信号混合部１４は、全ての立体音響マスキング音（音響信号）を加算した音を音響信号Ｘとして、入力音Ｉとの音量比を決定し混合するようにしてもよい。

スピーカ出力部１５は、信号混合部１４において処理したステレオ音源（音響信号ＯＲ、ＯＬ）を左右のスピーカＳｐＬ、ＳｐＲに分配して出力する。これにより、右スピーカＳｐＲは、右スピーカ用音源（ＯＲ）を再生し、左スピーカＳｐＬは左スピーカ用音源（ＯＬ）を再生することになる。

この実施形態では、上述の通り、スピーカ出力部１５が音響信号を、スピーカＳｐＬ、ＳｐＲに直接供給するものとして説明したが、音響信号ＯＲ、ＯＬを出力する形式については限定されないものである。スピーカ出力部１５は、例えば、音響信号ＯＲ、ＯＬの音声データを通信により間接的に送信（例えば、スピーカを備える装置に送信）するようにしてもよい。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

第１の実施形態の音響信号処理装置１０では、マスキング音Ｍに立体音響処理を行った立体音響マスキング音と、入力音I（遠隔音／遠端音）と混合してスピーカＳｐＬ、ＳｐＲに供給する。また、第１の実施形態の音響信号処理装置１０では、マスキング音Ｍを、ユーザＵにとって、入力音Ｉ（遠隔音）の音像が定位する位置とは別の場所（別の方向）に定位するように、立体音響処理を行う。さらに、第１の実施形態の音響信号処理装置１０では、立体音響処理されたマスキング音Ｍに、入力音Ｉをそのまま混合する混合処理を行う。さらにまた、第１の実施形態の音響信号処理装置１０では、混合処理を行う際、マスキング効果が得られる割合で入力音Ｉと立体音響処理されたマスキング音Ｍの音量を調節する。また、第１の実施形態の音響信号処理装置１０では、立体音響の効果があるスウィートスポットの領域ＡＳは、ユーザＵが存在する位置に設定する。この際、第１の実施形態の音響信号処理装置１０において、各スピーカＳｐＬ、ＳｐＲの配置は任意であり、各スピーカＳｐＬ、ＳｐＲとユーザＵの位置関係から立体音響のパラメータを設定する。

このように、第１の実施形態では、スピーカＳｐＬ、ＳｐＲから再生される音には、入力音Ｉと立体音響処理されたマスキング音Ｍ（１又は複数の立体音響マスキング音）が混ざっているがユーザＵの位置（スウィートスポットの領域ＡＳ）では、図２に示すようにユーザＵの正面（方向Ｘ）から聞え、立体音響処理された立体音響マスキング音ＭＳ１、ＭＳ２は、その立体音響効果により、正面以外（方向Ｄ１、Ｄ２）から聞えることになる。しかし、図３に示すように、ユーザＵの位置以外の場所（スウィートスポットの領域ＡＳ以外の場所）にいる周辺者Ｈにとっては、入力音Ｉと立体音響マスキング音ＭＳ１、ＭＳ２とが混ざった状態で聴こえるため、入力音Ｉが聞こえにくくなる。言い換えると、周辺者Ｈにとっては、スウィートスポットの領域ＡＳ内にいるユーザＵとは異なり、入力音Ｉが聞こえる場所と、マスキング音Ｍが聞こえる場所を分離した状態では聞こえず、入力音Ｉを聞きづらい状態となる。

以上のように、第１の実施形態では、ユーザＵにのみ、入力音Ｉをクリア（明確）に聞かせることができる。

また、第１の実施形態では、音響信号処理装置１０（信号混合部１４）が入力音Ｉと立体音響処理されたマスキング音Ｍの音量を調節して混合するため、どのような環境でも安定してスピーチプライバシーの効果を得ることができる。

さらに、第１の実施形態では、スピーカＳｐＬ、ＳｐＲの位置とユーザＵとの位置関係に関わらず、立体音響処理によりユーザＵに対して任意の方向にマスキング音Ｍの定位を行うことができるため、スピーカＳｐＬ、ＳｐＲの設置位置を任意の位置とすることができる。

さらにまた、図２、図３に示すように、ユーザＵの近くにスピーカＳｐＬ、ＳｐＲを置くことで、ユーザＵが発話する音声（近端音）についても、スピーカＳｐＬ、ＳｐＲから再生された音でマスキングされ、ユーザＵの位置（スウィートスポットの領域ＡＳ）以外の場所にいる周辺者Ｈにとって、入力音Ｉ（遠端音）、ユーザＵが発話する音声（近端音）ともに聞え難くなる。

以上のように、第１の実施形態では、ユーザＵとスピーカＳｐＬ、ＳｐＲの位置関係の制限を緩和し、スウィートスポットの領域ＡＳ内にいるユーザＵに対してのみ入力音Ｉ（遠端音）を聴取させ、さらに、ユーザＵが発話する音声（近端音）を周辺者Ｈに聴き取りにくくさせるという効果を同時に奏することができる。すなわち、第１の実施形態では、従来技術では難しかったユーザＵの隣（横方向）の位置でもスピーチプライバシーの効果を得ることが可能となる。

（Ｂ）第２の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第２の実施形態を、図面を参照しながら詳述する。

（Ｂ−１）第２の実施形態の構成及び動作
図５は、第２の実施形態に係る音響信号処理装置１０Ａの全体構成について示したブロック図である。図５では、上述の図１と同一部分又は対称部分については同一符号又は対称符号を付している。

以下では、第２の実施形態の音響信号処理装置１０Ａについて第１の実施形態との差異を説明する。

第１の実施形態の音響信号処理装置１０では、マスキング音信号入力部１１で入力されたマスキング音Ｍを立体音響処理して立体音響マスキング音を生成していた。これに対して第２の実施形態の音響信号処理装置１０Ａでは、マスキング音Ｍの供給を受けて立体音響処理を行うのではなく、予めマスキング音Ｍに対して様々の位置で音像が定位するように、立体音響処理を行った立体音響マスキング音の音響信号（音響信号のデータ）をデータベースに保持し、そこから所望の立体音響マスキング音の音響信号を選択して利用するものとする。

図５に示す音響信号処理装置１０Ａでは、マスキング音信号入力部１１と立体音響処理部１３とが、マスキング音データベース１６とマスキング音選択部１７に置き換えられている点で第１の実施形態と異なっている。

マスキング音データベース１６には、予めマスキング音Ｍに対して様々の位置で音像が定位するように、立体音響処理を行った立体音響マスキング音の音響信号（音響信号のデータ）が蓄積されている。ここでは、マスキング音データベース１６には、Ｎ個（Ｎは２以上の整数）の立体音響マスキング音の音響信号Ｘ（Ｘ１〜ＸＮ）が蓄積されているものとする。音響信号Ｘ１〜ＸＮは、それぞれ異なる位置にマスキング音Ｍが定位された音響信号であるものとする。各音響信号Ｘは、マスキング音Ｍを１つの位置に定位した音響信号としてもよいし、マスキング音Ｍを複数の位置に定位した音響信号としてもよい。

そして、マスキング音選択部１７は、マスキング音データベース１６に蓄積された立体音響マスキング音の音響信号（Ｘ１〜ＸＮ）の中から１又は複数の音響信号Ｘを選択して取得し、信号混合部１４に供給する処理を行う。

マスキング音選択部１７で選択する音響信号Ｘの数や組み合わせについては限定されないものである。マスキング音選択部１７では、例えば、ユーザ（例えば、システム管理者等）の操作に応じた設定に基づき、選択する音響信号Ｘを決定するようにしてもよい。

信号混合部１４は、マスキング音選択部１７から複数の音響信号Ｘが供給された場合には、それらを全て加算（混合）した音響信号と入力音Ｉとを混合する処理を行う。

（Ｂ−２）第２の実施形態の効果
第２の実施形態によれば、以下のような効果を奏することができる。

第２の実施形態の音響信号処理装置１０Ａでは、立体音響処理を省略し、マスキング音データベース１６から立体音響処理された立体音響マスキング音の音響信号Ｘを取得するため、第１の実施形態と比較してリアルタイムの処理量を低減することができる。

（Ｃ）第３の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第３の実施形態を、図面を参照しながら詳述する。

（Ｃ−１）第３の実施形態の構成及び動作
図６は、第３の実施形態に係る音響信号処理装置１０Ｂの全体構成について示したブロック図である。図６では、上述の図１と同一部分又は対称部分については同一符号又は対称符号を付している。

以下では、第３の実施形態の音響信号処理装置１０Ｂについて第２の実施形態との差異を説明する。

第３の実施形態の音響信号処理装置１０Ｂでは、出力レベル調整部１８と背景雑音レベル推定部１９が追加されている点で第１の実施形態と異なっている。また、第３の実施形態では、上述の通り、ユーザＵの音声を含む近端音を収音するためのマイクＭｉｃが設置されている点で、第１の実施形態と異なっている。マイクＭｉｃの具体的な構成については限定されないものである。マイクＭｉｃとしては、例えば、全指向性マイクの他に、指向性を持ったマイクやエリア収音を行う収音装置等を適用することができる。

第１の実施形態の音響信号処理装置１０において、信号混合部１４の出力レベルは、入力音Ｉ若しくは立体音響マスキング音の音響信号Ｘの音量により変るため、他の要素（例えば、ステレオスピーカＳｐの音量調節機能）で調節することが望ましい。これに対して、第３の実施形態は、ユーザＵがいる環境（近端側；スウィートスポットの領域ＡＳ）の雑音レベルを推定し、推定した雑音レベルの大きさに応じて、信号混合部１４の出力レベルを調節する。第３の実施形態では、図６に示すように、ユーザＵのいるスウィートスポットＡＳ内の領域の音（近端音）を収音するためのマイクＭｉｃが設置されているため、音響信号処理装置１０Ｂは、このマイクＭｉｃが収音した近端音からユーザＵのいる環境の背景雑音のレベルを推定する。

背景雑音レベル推定部１９は、マイクＭｉｃで収音した音に基づいて、所定の方式（具体的な方式は限定されない）によりユーザＵのいる場所（スウィートスポットの領域ＡＳ）における背景雑音のレベルを推定する。背景雑音レベル推定部１９は、ユーザＵの音声（スウィートスポットの領域ＡＳ内の音声）及び入力音Ｉの音声（遠端話者の音声）が発生していない無音区間を推定し、その無音期間にマイクＭｉｃが収音した音に基づいて背景雑音を推定するようにしてもよい。

背景雑音レベル推定部１９において、音声が発生しているかどうかの判定（無音区間の判定）は、例えば収音した音の情報を利用した音声区間検出技術を使用するようにしてもよい。また、マイクＭｉｃで収音した音にステレオスピーカＳｐ（スピーカＳｐＬ、ＳｐＲ）から出力されたマスキング音Ｍの成分（立体音響マスキング音）が含まれる場合、背景雑音レベル推定部１９は、マイクＭｉｃで収音した音から、マスキング音Ｍの成分を抑圧してから背景雑音レベルの推定を行うことが望ましい。背景雑音レベル推定部１９は、マスキング音Ｍの成分を抑圧する際には、例えば、スペクトル減算法等の種々の目的音強調処理を適用することができる。

出力レベル調整部１８は、背景雑音レベル推定部１９で推定した背景雑音レベルに応じて、信号混合部１４の出力レベルを調整する。出力レベル調整部１８は、例えば、信号混合部１４が出力する音響信号のパワーと、背景雑音レベル推定部１９が推定した背景雑音のパワーとの比が一定になるように、信号混合部１４が出力する音響信号のパワーのレベルを調整するようにしてもよい。信号混合部１４が出力する音響信号のパワーをＳ、推定した背景雑音のパワーをＮとした場合、出力レベル調整部１８は、例えば、ＳＮ比（ＳとＮのパワーの比）を１０ｄＢとするようにしてもよい。

（Ｃ−２）第３の実施形態の効果
第３の実施形態によれば、以下のような効果を奏することができる。

第３の実施形態では、ユーザＵのいる場所（スウィートスポットの領域ＡＳ）の背景雑音のレベル（音量）に応じて、信号混合部１４の出力レベル（音量）を調節している。第３の実施形態では、例えば、背景雑音のレベルが大きいほど信号混合部１４の出力レベルを大きくし、背景雑音のレベルが小さいほど信号混合部１４の出力レベルを小さくすることで、ユーザＵのいる場所（スウィートスポットの領域ＡＳ）の環境に関わらず、ユーザＵに対する入力音Ｉの聞えやすさと、ユーザＵのスピーチプライバシーを安定して保つことが出来る。

（Ｄ）第４の実施形態
以下、本発明による音響処理装置、プログラム及び方法の第４の実施形態を、図面を参照しながら詳述する。

（Ｄ−１）第４の実施形態の構成
図７は、第４の実施形態に係る音響信号処理装置１０Ｃの全体構成について示したブロック図である。図７では、上述の図６と同一部分又は対称部分については同一符号又は対称符号を付している。

以下では、第４の実施形態の音響信号処理装置１０Ｃについて第３の実施形態との差異を説明する。

第３の実施形態の音響信号処理装置１０Ｂでは、マスキング音信号入力部１１で入力されたマスキング音Ｍを立体音響処理して立体音響マスキング音を生成していた。これに対して第４の実施形態の音響信号処理装置１０Ｃでは、第２の実施形態と同様に、マスキング音データベース１６及びマスキング音選択部１７を備え、マスキング音データベース１６から任意の立体音響マスキング音の音響信号を選択して取得し、信号混合部１４に供給する処理を行う。したがって、図７に示すように、音響信号処理装置１０Ｃでは、入力音信号入力部１２と立体音響処理部１３とが、マスキング音データベース１６とマスキング音選択部１７に置き換えられている点で第３の実施形態と異なっている。

マスキング音データベース１６及びマスキング音選択部１７は、第２の実施形態と同様の構成であるため、詳しい説明を省略する。

第４の実施形態の音響信号処理装置１０Ｃでは、第２の実施形態と同様に、マスキング音選択部１７が、マスキング音データベース１６から１又は複数の音響信号Ｘを選択して取得し、信号混合部１４に供給する処理を行う。

（Ｄ−２）第４の実施形態の効果
第４の実施形態によれば、以下のような効果を奏することができる。

第４の実施形態の音響信号処理装置１０Ｃでは、立体音響処理を省略し、マスキング音データベース１６から立体音響処理された立体音響マスキング音の音響信号Ｘを取得するため、第３の実施形態と比較してリアルタイムの処理量を低減することができる。

（Ｅ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｅ−１）第２、第４の実施形態の説明では、１種類のマスキング音Ｍを適用する例について説明したが、複数種類のマスキング音Ｍを適用するようにしてもよい。例えば、第２、第４の実施形態において、マスキング音データベース１６に、マスキング音Ｍごとに音響信号Ｘのセットを蓄積するようにしてもよい。例えば、Ｌ個（Ｌは２以上の整数）のマスキング音Ｍ（Ｍ１〜ＭＬ）が存在する場合、マスキング音Ｍ１〜ＭＬのそれぞれに対してＮ個の音響信号Ｘ１〜ＸＮを生成して、マスキング音データベース１６に蓄積（Ｌ・Ｎ個の立体音響処理されたマスキング音を蓄積）するようにしてもよい。

１０…音響信号処理装置、１１…マスキング音信号入力部、１２…入力音信号入力部、１３…立体音響処理部、１４…信号混合部、１５…スピーカ出力部、ＡＳ…スウィートスポットの領域、Ｄ１…方向、Ｄ２…方向、Ｆ…方向、Ｈ…周辺者、I…入力音、ＭＳ１…第１の立体音響マスキング音、ＭＳ２…第２の立体音響マスキング音、ＳＰ…ステレオスピーカ、ＳｐＬ…左側スピーカ、ＳｐＲ…右側スピーカ。

Claims

２つのスピーカに供給する音響信号を生成する音響信号処理装置において、
それぞれの前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施したそれぞれの前記スピーカ用の立体音響マスキング音を保持する立体音響マスキング音保持手段と、
それぞれの前記スピーカ用の前記立体音響マスキング音に、前記入力音を混合する混合処理を行い、それぞれの前記スピーカ用の混合音を生成する混合手段と、
前記混合手段が混合したそれぞれの前記スピーカ用の混合音の音響信号を出力する出力手段と、
前記聴者の居る場所の音を捕捉する捕捉手段と、
前記捕捉手段が捕捉した音に基づいて前記聴者の居る場所における背景雑音の音量を推定する背景雑音推定部と、
前記背景雑音推定部が推定した背景雑音の音量に基づいて、前記混合手段が生成する前記混合音の音量を調整する調整手段とを有し、
前記調整手段は、前記混合音の音量と、前記背景雑音推定部が推定した背景雑音の音量との比が一定となるように、前記混合音の音量を調整する
を有することを特徴とする音響信号処理装置。
前記立体音響マスキング音保持手段は、前記マスキング音が供給されると、前記マスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施して前記立体音響マスキング音を保持することを特徴とする請求項１に記載の音響信号処理装置。
前記立体音響マスキング音保持手段は、
複数の立体音響マスキング音を蓄積しているデータベースと、
前記データベースから１又は複数の立体音響マスキング音を選択して保持する選択手段と
を有することを特徴とする請求項１に記載の音響信号処理装置。
前記混合手段は、前記入力音の音量、及び又は、立体音響マスキング音の音量を調節して混合することを特徴とする請求項１に記載の音響信号処理装置。
２つのスピーカに供給する音響信号を生成する音響信号処理装置に搭載されたコンピュータを、
それぞれの前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施したそれぞれの前記スピーカ用の立体音響マスキング音を保持する立体音響マスキング音保持手段と、
それぞれの前記スピーカ用の前記立体音響マスキング音に、前記入力音を混合する混合処理を行い、それぞれの前記スピーカ用の混合音を生成する混合手段と、
前記混合手段が混合したそれぞれの前記スピーカ用の混合音の音響信号を出力する出力手段と、
前記聴者の居る場所の音を捕捉する捕捉手段と、
前記捕捉手段が捕捉した音に基づいて前記聴者の居る場所における背景雑音の音量を推定する背景雑音推定部と、
前記背景雑音推定部が推定した背景雑音の音量に基づいて、前記混合手段が生成する前記混合音の音量を調整する調整手段として機能させ、
前記調整手段は、前記混合音の音量と、前記背景雑音推定部が推定した背景雑音の音量との比が一定となるように、前記混合音の音量を調整する
ことを特徴とする音響再生プログラム。
２つのスピーカに供給する音響信号を生成する音響信号処理装置が行う音響信号処理方法において、
立体音響マスキング音保持手段、混合手段、出力手段、捕捉手段、背景雑音推定部、及び調整手段を有し、
前記立体音響マスキング音保持手段は、それぞれの前記スピーカから聴者に聴取させるための入力音をマスキングするためのマスキング音に対して、前記聴者にとって前記入力音が聞こえる場所と異なる場所に定位する立体音響処理を施したそれぞれの前記スピーカ用の立体音響マスキング音を保持し、
それぞれの前記スピーカ用の前記立体音響マスキング音に、前記入力音を混合する混合処理を行い、それぞれの前記スピーカ用の混合音を生成し、
前記混合手段が混合したそれぞれの前記スピーカ用の混合音の音響信号を出力し、
前記捕捉手段は、前記聴者の居る場所の音を捕捉し、
前記背景雑音推定部は、前記捕捉手段が捕捉した音に基づいて前記聴者の居る場所における背景雑音の音量を推定し、
前記調整手段は、前記背景雑音推定部が推定した背景雑音の音量に基づいて、前記混合手段が生成する前記混合音の音量を調整し、
前記調整手段は、前記混合音の音量と、前記背景雑音推定部が推定した背景雑音の音量との比が一定となるように、前記混合音の音量を調整する
ことを特徴とする音響再生方法。