JP5446926B2

JP5446926B2 - マスカ音生成装置およびプログラム

Info

Publication number: JP5446926B2
Application number: JP2010014873A
Authority: JP
Inventors: 舞小池; 寧清水; 雅人秦; 高史山川
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2010-01-26
Filing date: 2010-01-26
Publication date: 2014-03-19
Anticipated expiration: 2030-01-26
Also published as: JP2011154139A

Description

本発明は、マスカ音を生成して音の漏れ聞こえを防ぐ技術に関する。

マスキング効果を利用して音の漏れ聞こえを防ぐ技術が各種提案されている。マスキング効果は、２種類の音信号を同じ空間内に伝搬させた場合に、空間内の者が、２種類の音信号の音響的特徴（周波数成分，時間波形等）の関係に応じて、それらの音信号に気づき難くなる現象である。この種の技術の多くは、話者が居る領域と壁や衝立を介して隣接している領域に向けて話者の話声の聞き取りを妨げるマスカ音を放音するものである。そして、この場合のマスカ音は、広い帯域にスペクトルを有するノイズ音でもよいが、聞き取りを妨げる対象となる音（以下、ターゲット音という）と類似した特徴を持った音の方が高いマスキング効果の得られることが知られている。

特許文献１には、人の話声の音波形を加工することによってその人の話声の聞き取りを妨げるマスカ音を生成する技術の開示がある。同文献に開示されたマスキングシステムは、部屋のマイクロホンによって収音した話者の話声の音信号をその話声の各音節に相当する時間長の区間に分割し、各区間内のサンプルを逆転させるとともにそれらの区間の配列を並べ替えたものをマスカ音信号とし、このマスカ音信号を隣の部屋に放音する。この方法により生成されるマスカ音の音質は話者の話声の音質と似通ったものとなるが、隣の部屋の者がそのマスカ音から元の話声の内容を理解することは困難である。従って、ターゲット音が漏れている領域にこのマスカ音を放音することにより、その領域内において高いマスキング効果が得られる。

特開２００８−２３３６７１号公報

しかしながら、人の話声の音波形のサンプル列を逆転させた音波形は、元の音波形のものとは異なる不自然なアクセントを持ったものになる。このため、人の話声の音波形のサンプル列を逆転させた音波形をマスカ音として放音し続けていると、放音先の領域内の者に違和感を与えてしまうという問題があった。
本発明は、このような背景の下に案出されたものであり、マスカ音の放音先の領域内の者に違和感を与えることなく、その領域内において高いマスキング効果を得ることを目的とする。

本発明は、音信号を取得する取得手段と、前記取得手段が取得した音信号を一定時間長の複数の区間に分割し、分割した複数の区間のうち一部の区間内の音信号を逆転させた音信号を生成し、マスカ音信号として出力する生成手段とを具備するマスカ音生成装置を提供する。

この発明によって得られるマスカ音信号は、複数の区間の全部の音信号を逆転させた音信号よりも不自然なアクセントを感じ難い。よって、この発明によって生成したマスカ音信号をターゲット音と同じ領域に放音することにより、その領域内の者に違和感を与えることなく高いマスキング効果を得ることができる。

また、本発明は、コンピュータに、音信号を取得する取得手段と、前記取得手段が取得した音信号を一定時間長の複数の区間に分割し、分割した複数の区間のうち一部の区間内の音信号を逆転させた音信号を生成し、マスカ音信号として出力する生成手段とを実現させるプログラムを提供する。

本発明の第１および第２実施形態であるマスカ音生成装置の構成を示すブロック図である。同マスカ音生成装置の設置の態様の一例を示す図である。同マスカ音生成装置が記憶する音データベースのデータ構造図である。本発明の第１実施形態であるマスカ音生成装置の動作を示すフローチャートである。同マスカ音生成装置による音信号の処理の様子を示す図である。同マスカ音生成装置による音信号の処理の様子を示す図である。本発明の第２実施形態であるマスカ音生成装置の動作を示すフローチャートである。本発明の他の実施形態であるマスカ音生成装置の動作を示す図である。

以下、図面を参照しつつ本発明の実施形態について説明する。
＜第１実施形態＞
図１は、本発明の第１実施形態であるマスカ音生成装置１０の構成を示すブロック図である。図２は、マスカ音生成装置１０の設置の態様の一例を示す図である。図２の例に示すように、マスカ音生成装置１０は、衝立５０によって外部と仕切られた領域Ａに設置される。この領域Ａには、領域Ａ内への話者の進入および領域Ａ外への話者の退出を検知する人感センサ３０が設けられている。マスカ音生成装置１０は、人感センサ３０が領域Ａ内に話者が進入したことを検知してから話者が領域Ａ外に退出したことを検知するまでの間、領域Ａから衝立５０を超えてその外側の領域Ｂに伝搬される話声をターゲット音Ｔとし、このターゲット音Ｔの聴取を妨げるマスカ音信号Ｍを領域Ｂのスピーカ３１から放音する。

図１において、マスカ音生成装置１０は、ハードディスク１１、制御部１２、バッファ１３、放音制御部１４、Ｄ／Ａ変換部１５、およびアンプ１６を有する。ハードディスク１１は、音データベース２１を記憶している。音データベース２１は、様々な声の特徴を持った人物から収録した時間長Ｔ１（例えば、Ｔ１＝３０秒とする）分の音声と対応する複数のレコードの集合体である。図３に示すように、このデータベース２１における１つの音声と対応するレコードは、その音声の時間長Ｔ１分の音信号Ｓを示す「音声」のフィールドと、その音声の属性情報を示す「属性」のフィールドとを有する。属性情報は、音声の収録元の人物の性別と声の高さ（高音、中音、低音）の組み合わせを示す情報である。属性情報には、「男性，高音」、「男性，中音」、「男性，低音」、「女性，高音」、「女性，中音」、「女性，低音」の６種類がある。

制御部１２は、ＣＰＵ２２、ＲＡＭ２３、およびＲＯＭ２４を有する。ＣＰＵ２２は、ＲＡＭ２３をワークエリアとして利用しつつ、ＲＯＭ２４に記憶されたマスカ音生成プログラム２５を実行する。マスカ音生成プログラム２５は、取得処理と生成処理の２つの処理をＣＰＵ２２に実行させるプログラムである。取得処理は、音データベース２１から複数種類の音信号Ｓを取得してＲＡＭ２３に格納する処理である。生成処理は、ＲＡＭ２３に格納された音信号Ｓの配列順を変更した信号をマスカ音信号Ｍとし、このマスカ音信号Ｍを出力してバッファ１３に上書きする処理である。取得処理と生成処理の詳細については、後述する。放音制御部１４は、バッファ１３に書き込まれている最新のマスカ音信号Ｍを読み出してＤ／Ａ変換部１５に出力する処理を繰り返す回路である。Ｄ／Ａ変換部１５は、放音制御部１４を介して出力されたマスカ音信号Ｍをアナログ信号に変換し、アンプ１６に出力する。アンプ１６は、Ｄ／Ａ変換部１５から出力されたアナログ信号を増幅し、スピーカ３１から音として出力する。

次に、本実施形態の動作について説明する。マスカ音生成装置１０のＣＰＵ２２は、人感センサ３０から領域Ａ内に話者が進入したことを示す検知信号Ｓ_ＩＮが与えられると、取得処理と生成処理とを実行する。取得処理では、ＣＰＵ２２は、「男性，高音」の属性情報と対応付けられた音信号Ｓ、「男性，中音」の属性情報と対応付けられた音信号Ｓ、「男性，低音」の属性情報と対応付けられた音信号Ｓ、「女性，高音」の属性情報と対応付けられた音信号Ｓ、「女性，中音」の属性情報と対応付けられた音信号Ｓ、および「女性，低音」の属性情報と対応付けられた音信号Ｓを音データベース２１から１種類ずつ選び、これら６種類の音信号Ｓを同データベース２１から取得してＲＡＭ２３に格納する。以下では、説明の便宜のため、この取得処理によってＲＡＭ２３に格納された６種類の音信号Ｓの各々を音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，Ｓｆと記す。

生成処理では、ＣＰＵ２２は、６種類の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを処理対象として図４に示すステップＳ１００〜ステップＳ１３０の処理を行い、以降は図４に示すステップＳ１４０〜ステップＳ２００のループ処理を時間長Ｔ２（例えば、Ｔ２＝１分間とする）毎に繰り返す。以下、ステップＳ１００〜ステップＳ２００の処理の詳細について説明する。

まず、ＣＰＵ２２は、図５（Ａ）に示すように、６種類の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを、各々が時間長Ｔ３（例えば、Ｔ３＝１００ミリ秒とする）の長さを有するＮ個（Ｎ＝Ｔ１／Ｔ３）のフレームＦ_ｉ（ｉ＝１〜Ｎ）に分割する（Ｓ１００）。なお、図５（Ａ）の例では、図面が煩雑になるのを防ぐため、Ｎ＝１５の場合が図示されている。

次に、ＣＰＵ２２は、図５（Ｂ）に示すように、ノーマライズ処理を行う（Ｓ１１０）。このノーマライズ処理は、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆの各々について、各フレームＦ_ｉの音量の時間変動を所定範囲内にするために各フレームＦ_ｉ内のサンプルデータを補正する処理である。

以下、音信号Ｓａを処理対象とするノーマライズ処理を例にとり、その具体的な手順について説明する。ノーマライズ処理では、ＣＰＵ２２は、音信号Ｓａを区切ったフレームＦ_ｉ（ｉ＝１〜１５）内の各サンプルデータにピークレベル補正係数Ｍ_ＰＡＥＫを乗算する第１の補正処理を行った後、このピークレベル補正係数Ｍ_ＰＡＥＫを乗算した各サンプルデータに平均レベル補正係数Ｍ_ＡＶＥを乗算する第２の補正処理を行う。

より詳細に説明すると、第１の補正処理では、ＣＰＵ２２は、音信号Ｓａの全フレームＦ_ｉ（ｉ＝１〜１５）によって表される時間長Ｔ１の音波形の最大ピークを検出し、検出した最大ピークの音量レベルＬＰＥＡＫを求める。次に、ＣＰＵ２２は、１つのサンプルデータが取り得る音量レベルの最大値を音量レベルＬＭＡＸとし、音量レベルＬＰＥＡＫで音量レベルＬＭＡＸを除算した値をピークレベル補正係数Ｍ_ＰＡＥＫとする。そして、ＣＰＵ２２は、フレームＦ_ｉ（ｉ＝１〜１５）内のサンプルデータにピークレベル補正係数Ｍ_ＰＡＥＫを乗算する。ここで、この第１の補正処理では、各サンプルデータが音量レベルを対数表現するものである場合は、各サンプルデータを実数表現に戻したものに係数を乗算し、各サンプルデータが音量レベルを実数表現するものである場合は、各サンプルデータそのものに係数を乗算する（第２の補正処理についても同様）。

続く第２の補正処理では、ＣＰＵ２２は、ピークレベル補正係数Ｍ_ＰＡＥＫを乗算した音信号ＳａのフレームＦ_ｉ（ｉ＝１〜１５）の各々について、当該フレーム_ｉ内のサンプルデータにより表される時間長Ｔ１／１５の音波形の平均の音量である平均音量レベルＬＡＶＥ_ｉを求める。次に、ＣＰＵ２２は、図６に示すように、フレームＦ_ｉ（ｉ＝１〜１５）について求めた平均音量レベルＬＡＶＥ_ｉ（ｉ＝１〜１５）のうちの最小値（図６の例では、フレームＦ_５の平均音量レベルＬＡＶＥ_５）を平均音量レベルＬＡＶＥ_ｉ（ｉ＝１〜１５）の代表値ＬＡＶＥ_ＲＥＦとし、代表値ＬＡＶＥ_ＲＥＦを平均音量レベルＬＡＶＥ_ｉで除算した各値を各フレームＦ_ｉの平均レベル補正係数Ｍ_ＡＶＥとする。そして、ＣＰＵ２２は、フレームＦ_ｉ（ｉ＝１〜１５）における各フレームＦ_ｉ内のサンプルデータに、フレームＦ_ｉ毎に求めた平均レベル補正係数Ｍ_ＡＶＥを各々乗算する。
ＣＰＵ２２は、音信号Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，およびＳｆを処理対象とするノーマライズ処理も同様にして行う。

ＣＰＵ２２は、図５（Ｃ）に示すように、ノーマライズ処理を施した音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎを処理対象としてフレーム内逆転処理を行う（Ｓ１２０）。フレーム内逆転処理は、音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎの各々における一部のフレームＦ_ｉ内のサンプルデータの配列を逆転させた音信号Ｓａ_Ｒ，Ｓｂ_Ｒ，Ｓｃ_Ｒ，Ｓｄ_Ｒ，Ｓｅ_Ｒ，及びＳｆ_Ｒを生成する処理である。

以下、音信号Ｓａ_Ｎを処理対象とするフレーム内逆転処理を例にとり、その具体的な手順について説明する。まず、ＣＰＵ２２は、音信号Ｓａ_ＮのフレームＦ_ｉの総数の半数（図５（Ｃ）の例では、１５／２≒７）を、サンプルデータの逆転を要するフレームＦ_ｉの個数Ｎｕｍとし、Ｎｕｍ個の乱数を発生する。そして、音信号Ｓａ_Ｎにおける全フレームＦ_ｉのうちこのＮｕｍ個の乱数の各々が示すフレームＦ_ｉ内のサンプルデータ（図５（Ｃ）の例では、フレームＦ_２、フレームＦ_３、フレームＦ_４、フレームＦ_７、フレームＦ_１０、フレームＦ_１１、およびフレームＦ_１４の合計７個のフレームＦ_ｉ内のサンプルデータ）を逆転させたものを音信号Ｓａ_Ｒとする。
ＣＰＵ２２は、音信号Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎを処理対象とするフレーム内逆転処理も同様にして行う。

ＣＰＵ２２は、フレーム内逆転処理を終えると、図５（Ｄ）に示すように、フレーム内逆転処理の処理結果である音信号Ｓａ_Ｒ，Ｓｂ_Ｒ，Ｓｃ_Ｒ，Ｓｄ_Ｒ，Ｓｅ_Ｒ，及びＳｆ_Ｒに窓関数ωを乗算する（Ｓ１３０）。この窓関数ωは、分割したフレームＦ_ｉ間の結合を円滑にする波形整形のためのものである。

次に、ＣＰＵ２２は、図５（Ｅ）に示すように、窓関数ωを乗算した音信号Ｓａ_Ｗ，Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗを処理対象としてフレーム並べ替え処理を行う（Ｓ１４０）。フレーム並べ替え処理は、音信号Ｓａ_Ｗ，Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗの各々のフレームＦ_ｉ（ｉ＝１〜１５）の配列をランダムに並べ替えた音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを生成する処理である。

以下、音信号Ｓａ_Ｗを処理対象とするフレーム並べ替え処理を例にとり、その具体的な手順について説明する。ＣＰＵ２２は、音信号Ｓａ_Ｗを分割したフレーム数Ｎが１５である場合、１〜１５までの数字からなる乱数列を発生する。そして、１５個の乱数を先頭から順番に読んで行き、最初の乱数が８であれば並び替え前の１番目のフレームを並び替え後の８番目のフレームとし、２番目の乱数が４であれば並び替え前の２番目のフレームを並び替え後の４番目のフレームとし…、というようにして、乱数列に応じてフレームの並び替え後の順番を決定して行く。そして、１番目〜１５番目のフレームを並び替えたものを音信号Ｓａ_Ｓとする。ここで、本実施形態では、並び替え方法を変更するために、乱数の並びの異なった複数種類の乱数列（Ｎ＝１５である場合は、いずれも１５個の乱数からなる乱数列）を用意する。そして、フレーム並び替え処理の度に、並び替えに使用する乱数列の種類を変更する。
ＣＰＵ２２は、音信号Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗを処理対象とするフレーム並べ替え処理も同様にして行う。

フレーム並べ替え処理を終えると、ＣＰＵ２２は、音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを処理対象とする音響効果付与処理を行う（Ｓ１５０）。音響効果付与処理では、ＣＰＵ２２は、フレーム並べ替え処理の処理結果として生成した音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓに所定の音響効果（例えば、リバーブとする）を付与した音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’を生成する。音響効果付与処理を終えると、ＣＰＵ２２は、ミキシング処理を行う（Ｓ１６０）。ミキシング処理では、ＣＰＵ２２は、音響効果付与処理を施した音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’を所定のミキシング比率（例えば、１：１：１：１：１：１とする）でミキシングし、このミキシングした信号をマスカ音信号Ｍとする。ミキシング処理を終えると、ＣＰＵ２２は、話速変換処理を行う（Ｓ１７０）。話速変換処理では、ＣＰＵ２２は、ミキシング処理によって生成された時間長Ｔ１分のマスカ音信号Ｍの時間軸を伸長して時間長Ｔ１’（Ｔ１’＞Ｔ１）分のマスカ音信号Ｍとする。より具体的に説明すると、この話速変換処理では、ＣＰＵ２２は、処理対象であるマスカ音信号ＭにおけるフレームＦ_ｉ（ｉ＝１〜１５）のうち音波形の立ち上がり部分と立ち下り部分とを除いた定常部分のフレームＦ_ｉを時間長Ｔ１と時間長Ｔ１’の時間差を埋め合わせるのに必要な数だけ複製し、この複製したフレームＦ_ｉ’を定常部分のフレームＦ_ｉおよびＦ_ｉ＋１間に挿入する。

ＣＰＵ２２は、話速変換処理を施したマスカ音信号Ｍを出力してバッファ１３に上書きする（Ｓ１８０）。ＣＰＵ２２は、人感センサ３０から領域Ａ外に話者が退出したことを示す検知信号Ｓ_ＯＵＴが与えられることなく（Ｓ１９０：Ｎｏ）、ステップＳ１４０の実行時から時間長Ｔ２（Ｔ２＝１分）が経過すると（Ｓ２００：Ｙｅｓ）、ステップＳ１４０に戻って以降の処理を繰り返す。一方、人感センサ３０から検知信号Ｓ_ＯＵＴが与えられると（Ｓ１９０：Ｙｅｓ）、放音制御部１４にマスカ音信号Ｍの読み出しの停止を指示して処理を終了する。

以上説明した本実施形態によると、次の効果が得られる。
第１に、本実施形態では、６種類の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆからマスカ音信号Ｍを生成する。よって、領域Ａ内に異なる声の特徴をもった複数人の話者がいる場合でも、領域Ｂ内において高いマスキング効果を発生させることができる。

第２に、本実施形態では、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆにノーマライズ処理を施した後、ノーマライズ処理を施した音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎの一部のフレームＦ_ｉ内のサンプルデータを逆転させるフレーム内逆転処理とフレームＦ_ｉ（ｉ＝１〜１５）を並べ替えるフレーム並べ替え処理とを行い、並べ替え処理の処理結果である音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓをマスカ音信号Ｍとする。ノーマライズ処理を施した音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎにフレーム内逆転処理とフレーム並べ替え処理を施して得られる音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓは、ノーマライズ処理を施していない音信号にそれらの両処理を施して得られるものよりも不自然なアクセントを感じ難い。よって、このようなマスカ音信号Ｍを領域Ｂに放音することにより、領域Ｂ内の者に違和感を与えることなく高いマスキング効果を得ることができる。

第３に、本実施形態では、音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓをミキシングしてマスカ音信号Ｍとした後、そのマスカ音信号Ｍの時間軸を伸長してから領域Ｂに放音する。人の音声を示す音信号に対してその配列を変更する処理（ステップＳ１２０およびステップＳ１４０）を施した場合、通常であれば処理が施された音信号は早口で話している人の音声と似通った音の特徴を持つようになる。しかし、本実施形態によると、そのような早口の話声が聞こえているとの印象を和らげることができる。また、本実施形態によれば、配列を変更した場合に早口の印象となり難いような音信号を厳選して音データベース２１に記憶させておく必要もなくなる。

第４に、本実施形態では、６種類の音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’をミキシングしてから音響効果を付与する。このようにして音響効果が付与されたマスカ音信号Ｍは、領域Ｂ内の伝搬によって空間的な音響効果（残響）が付与された話声（ターゲット音Ｔ）と音響的に類似したものとなる。従って、マスカ音を放音する領域内の者に違和感を与えることなくその領域内において高いマスキング効果を得ることができる。

第５に、本実施形態では、音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎの全フレームＦ_ｉのうち半数のフレームＦ_ｉのサンプルデータを逆転させてマスカ音信号Ｍを生成する。これにより、半数より多い数のフレームＦ_ｉのサンプルデータを逆転させものや半数より少ない数のフレームＦ_ｉのサンプルデータを逆転させたものをマスカ音信号Ｍとするよりも高いマスキング効果を発生させることができる。ここで、本願発明者らは、サンプルデータの逆転を要するフレームＦ_ｉの個数Ｎｕｍを様々に変えたマスカ音信号Ｍのマスキング効果を比較したところ、サンプルデータを逆転させるフレームＦ_ｉのサンプルデータと逆転させないフレームＦ_ｉの比率を半々程度にした場合に最も高いマスキング効果が得られることを確認した。

＜第２実施形態＞
次に、本発明の第２実施形態について説明する。図７に示すように、本実施形態における生成処理では、ＣＰＵ２２は、ステップＳ１１０のノーマライズ処理の処理結果である音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎを処理対象として、ステップＳ１２０〜ステップＳ２００のループ処理を時間長Ｔ２毎に繰り返す。即ち、ＣＰＵ２２は、ステップＳ１８０においてマスカ音信号Ｍをバッファ１３に上書きした後、人感センサ３０から領域Ａ外に話者が退出したことを示す検知信号Ｓ_ＯＵＴが与えられることなく（Ｓ１９０：Ｎｏ）、時間長Ｔ２が経過すると（Ｓ２００：Ｙｅｓ）、ステップＳ１２０に戻る。そして、このステップＳ１２０では、音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎの各々におけるフレームＦ_ｉ（ｉ＝１，２‥‥）のなかの一部のフレームＦ_ｉをランダムに選び直し、選び直したフレームＦ_ｉ内のサンプルデータを逆転させた音信号Ｓａ_Ｒ，Ｓｂ_Ｒ，Ｓｃ_Ｒ，Ｓｄ_Ｒ，Ｓｅ_Ｒ，及びＳｆ_Ｒを生成し、この最新の音信号Ｓａ_Ｒ，Ｓｂ_Ｒ，Ｓｃ_Ｒ，Ｓｄ_Ｒ，Ｓｅ_Ｒ，及びＳｆ_Ｒを処理対象として以降の処理を行う。

本実施形態によると、音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎにおける異なる位置のフレームＦ_ｉ内のサンプルデータを逆転させた音信号Ｓａ_Ｒ，Ｓｂ_Ｒ，Ｓｃ_Ｒ，Ｓｄ_Ｒ，Ｓｅ_Ｒ，及びＳｆ_Ｒが時間長Ｔ２毎に生成される。よって、本実施形態によると、領域Ｂ内の者に違和感をより一層与え難くすることができる。

以上、この発明の一実施形態について説明したが、この発明には他にも実施形態があり得る。例えば、以下の通りである。
（１）上記第１実施形態において、複数種類の音信号Ｓａ_Ｗ，Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗの各々を処理対象とするステップＳ１４０〜ステップＳ２００の繰返しを、固有の相異なる周期Ｔ２_ａ，Ｔ２_ｂ，Ｔ２_ｃ，Ｔ２_ｄ，Ｔ２_ｅ，Ｔ２_ｆ毎に繰り返してもよい。また、上記第２実施形態において、複数種類の音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎの各々を処理対象とするステップＳ１２０〜ステップＳ２００の繰返しを、固有の相異なる周期Ｔ２_ａ，Ｔ２_ｂ，Ｔ２_ｃ，Ｔ２_ｄ，Ｔ２_ｅ，Ｔ２_ｆ毎に繰り返してもよい。この場合において、周期Ｔ２_ａ，Ｔ２_ｂ，Ｔ２_ｃ，Ｔ２_ｄ，Ｔ２_ｅ，Ｔ２_ｆを互いに素な関係にある長さ（１：３：５などの互いに素数比となる長さ）にするとよい。このようにすれば、マスカ音信号Ｍを領域Ｂ内に長時間に渡って放音し続けた場合に現れるアクセントの周期性に領域Ｂ内の者が気付き難くなる。よって、領域Ｂ内の者に違和感をより一層与え難くすることができる。

（２）上記第１および第２実施形態の生成処理において、フレーム内逆転処理とフレーム並べ替え処理とを異なる周期毎に繰り返してもよい。この実施形態における生成処理では、ＣＰＵ２２は、次のような処理を行う。ＣＰＵ２２は、人感センサ３０から検知信号Ｓ_ＩＮが与えられると、図４および図７に示すステップＳ１００〜ステップＳ１８０の処理を行い、ステップＳ１８０の処理結果であるマスカ音信号Ｍをバッファ１３に上書きする。その後、ＣＰＵ２２は、図８に示す２つの処理タスクｔａｓｋ−１およびｔａｓｋ−２を立ち上げ、これらの処理タスクｔａｓｋ−１およびｔａｓｋ−２を実行する。

処理タスクｔａｓｋ−１では、ＣＰＵ２２は、バッファ１３に書き込まれているマスカ音信号Ｍを処理対象とするフレーム内逆転処理を時間長Ｔ４毎に繰り返す。この処理タスクｔａｓｋ−１におけるフレーム内逆転処理では、ＣＰＵ２２は、バッファ１３に書き込まれているマスカ音信号ＭをフレームＦ_ｉ（ｉ＝１，２‥‥）に分割し、分割したフレームＦ_ｉ（ｉ＝１，２‥‥）における一部のフレームＦ_ｉをランダムに選択し、選択したフレームＦ_ｉ内のサンプルを逆転させたマスカ音信号Ｍをバッファ１３に上書きする。また、処理タスクｔａｓｋ−２では、ＣＰＵ２２は、バッファ１３に書き込まれているマスカ音信号Ｍを処理対象とするフレーム並べ替え処理を時間長Ｔ５（Ｔ５≠Ｔ４）毎に繰り返す。この処理タスクｔａｓｋ−２におけるフレーム並べ替え処理では、ＣＰＵ２２は、バッファ１３に書き込まれているマスカ音信号ＭをフレームＦ_ｉ（ｉ＝１，２‥‥）に分割し、分割したフレームＦ_ｉ（ｉ＝１，２‥‥）をランダムに並べ替えたマスカ音信号Ｍをバッファ１３に上書きする。この場合において、時間長Ｔ４とＴ５を互いに素な関係にある長さにするとよい。このようにすれば、マスカ音信号Ｍを領域Ｂ内に長時間に渡って放音し続けた場合に現れるアクセントの周期性に領域Ｂ内の者が気付き難くなる。よって、領域Ｂ内の者に違和感をより一層与え難くすることができる。

（３）上記第１及び第２実施形態において、ＣＰＵ２２は、人感センサ３０から検知信号Ｓ_ＩＮが与えられたときにステップＳ１００〜ステップＳ１８０を一度だけ実行し、ステップＳ１８０においてバッファ１３に書き込んだマスカ音信号Ｍを人感センサ３０から検知信号Ｓ_ＯＵＴが与えられるまで領域Ｂに放音させるようにしてもよい。

（４）上記第１及び第２実施形態において、ＣＰＵ２２は、フレーム内逆転処理（Ｓ１２０）を実行した後、この処理結果である音信号Ｓａ_Ｒ，Ｓｂ_Ｒ，Ｓｃ_Ｒ，Ｓｄ_Ｒ，Ｓｅ_Ｒ，及びＳｆ_Ｒをミキシングしたものをマスカ音信号Ｍとして出力してもよい。

（５）上記第１および第２実施形態の取得処理では、６種類の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを取得し、生成処理では、これらの６種類の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆからマスカ音信号Ｍを生成した。しかし、取得処理において、５種類以下の１または複数種類の音信号Ｓまたは７種類以上の複数種類の音信号Ｓを取得し、生成処理では、その１または複数種類の音信号Ｓからマスカ音信号Ｍを生成してもよい。

（６）上記第１および第２実施形態において、領域Ａにマイクロホンを設置してもよい。この場合において、ＣＰＵ２２は、取得処理では、この領域Ａのマイクロホンが収音した音信号を取得し、生成処理では、その取得した音信号からマスカ音信号Ｍを生成するとよい。

（７）上記第１および第２実施形態において、ステップＳ１２０とステップＳ１３０の処理の順序を逆にし、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆの各々におけるフレームＦ_ｉに窓関数ωを乗算してから各々のフレームＦ_ｉ内のサンプルの配列を逆転させてもよい。

（８）上記第１および第２実施形態では、領域Ａ内への話者の進入を人感センサ３０が検知する度に音データベース２１から音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを読み出し、音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを処理対象としてステップＳ１００〜ステップＳ１９０の各処理を行って得たマスカ音信号Ｍを領域Ｂに放射した。しかし、ステップＳ１００〜ステップＳ１９０の各処理を行って得たマスカ音信号Ｍをメモリに記憶させ、以降は、話者の進入を人感センサ３０が検知する度にメモリ内のマスカ音信号Ｍを読み出して領域Ｂに繰り返し放射するようにしてもよい。この場合において、時間長Ｔ１（Ｔ１＝３０秒）の長さの音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，を素材として、図４または図７の一連の処理を複数回繰り返すことにより、時間長Ｔ１よりも十分に長い時間長Ｔ６（例えば、Ｔ６＝１０分）分のマスカ音信号Ｍを生成し、この時間長Ｔ６分のマスカ音信号Ｍをメモリに記憶させて利用してもよい。

（９）上記第１および第２実施形態は、衝立５０により仕切られた領域Ａから外部の領域Ｂへの音声の漏れ聞こえの防止に本発明を適用したものであった。しかし、衝立５０などが間に介在しない２つの領域Ａ’およびＢ’のうち一方の領域Ａ’（またはＢ’）で発生した音を他方の領域Ｂ’（またはＡ’）で聞こえ難くする用途に本発明を適用してもよい。また、４方の壁と天井とにより外部と区切られた部屋にマスカ音生成装置１０を設置し、このマスカ音生成装置１０によって生成したマスカ音信号Ｍを壁の外側の領域に向けて放音するようにしてもよい。また、異なる空間に居る者同士の通話を実現させる通話装置（例えば、携帯電話、ＩＰ電話、インターフォン等）における各話者の話声を周りに聞こえ難くする用途に本発明を適用してもよい。この実施形態は、例えば、通話装置に第１および第２実施形態のマスカ音生成装置１０を内蔵し、マスカ音生成装置１０が生成したマスカ音信号Ｍを話者の周りに放音することによって実現可能である。この場合において、発話者にイヤホンを装着させたり通話装置のスピーカの指向性を制御することにより、マスカ音信号Ｍが通話の相手方まで伝送されて会話が混乱する事態を防ぐようにするとなおよい。

（１０）上記第１および第２実施形態において、ハードディスク１１をマスカ音生成装置１０の外部要素としてもよい。この実施形態では、外部の記憶装置内の音データベース２１からネットワークを経由して音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを取得し、この音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを素材としてマスカ音信号Ｍを生成するとよい。また、バッファ１３、放音制御部１４、Ｄ／Ａ変換部１５、およびアンプ１６のうち全部または一部をマスカ音生成装置１０の外部要素としてもよい。この実施形態では、例えば、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを素材として生成したマスカ音信号Ｍを、バッファ１３の役割を果たす外部記憶装置に各種インターフェースを介して出力するとよい。

（１１）上記第１および第２実施形態のフレーム並べ替え処理では、互いに異なる１〜Ｎまでの数字からなる乱数列をフレームの並び替えに使用した。しかし、乱数列の中に同じ乱数が複数回現れるような乱数列をフレーム並び替えに使用してもよい。また、最初の乱数が８であれば並び替え前の８番目のフレームを並び替え後の１番目のフレームとし、２番目の乱数が４であれば並び替え前の４番目のフレームを並び替え後の２番目のフレームとし…、というようにして、乱数列に応じて並び替え前のもの中から選び出すフレームを決定するようにしてもよい。

１０…マスカ音生成装置、１１…ハードディスク、１２…制御部、１３…バッファ、１４…放音制御部、１５…Ｄ／Ａ変換部、１６…アンプ、２１…音データベース、２２…ＣＰＵ、２３…ＲＡＭ、２４…ＲＯＭ、３０…人感センサ、３１…スピーカ。

Claims

音信号を取得する取得手段と、
前記取得手段が取得した音信号を一定時間長の複数の区間に分割し、分割した複数の区間のうち一部の区間内の音信号を逆転させた音信号を生成し、マスカ音信号として出力する生成手段と
を具備することを特徴とするマスカ音生成装置。
前記生成手段は、前記一部の区間内の音信号の配列を逆転させ、かつ、前記複数の区間の並び替えを行った音信号を生成し、マスカ音信号として出力することを特徴とする請求項１に記載のマスカ音生成装置。
前記生成手段は、前記区間の並び替え方法の変更を繰り返すことを特徴とする請求項２に記載のマスカ音生成装置。
前記生成手段は、区間内の音信号の配列の逆転を行う区間の変更を繰り返すことを特徴とする請求項１〜３のいずれか１の請求項に記載のマスカ音生成装置。
コンピュータに、
音信号を取得する取得手段と、
前記取得手段が取得した音信号を一定時間長の複数の区間に分割し、分割した複数の区間のうち一部の区間内の音信号を逆転させた音信号を生成し、マスカ音信号として出力する生成手段と
を実現させるプログラム。