JP5446927B2

JP5446927B2 - マスカ音生成装置およびプログラム

Info

Publication number: JP5446927B2
Application number: JP2010014875A
Authority: JP
Inventors: 舞小池; 寧清水; 雅人秦; 高史山川
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2010-01-26
Filing date: 2010-01-26
Publication date: 2014-03-19
Anticipated expiration: 2030-01-26
Also published as: JP2011154140A

Description

本発明は、マスカ音を生成して音の漏れ聞こえを防ぐ技術に関する。

マスキング効果を利用して音の漏れ聞こえを防ぐ技術が各種提案されている。マスキング効果は、２種類の音信号を同じ空間内に伝搬させた場合に、空間内の者が、２種類の音信号の音響的特徴（周波数成分，時間波形等）の関係に応じてそれらの音信号に気づき難くなる現象である。この種の技術の多くは、話者が居る領域と壁や衝立を介して隣接している領域に向けて話者の話声の聞き取りを妨げるマスカ音を放音するものである。そして、この場合のマスカ音は、広い帯域にスペクトルを有するノイズ音でもよいが、聞き取りを妨げる対象となる音（以下、ターゲット音という）と類似した特徴を持った音の方が高いマスキング効果の得られることが知られている。

特許文献１には、人の話声の音波形を加工することによってその人の話声の聞き取りを妨げるマスカ音を生成する技術の開示がある。同文献に開示されたマスキングシステムは、部屋のマイクロホンによって収音した話者の話声の音信号をその話声の各音節に相当する時間長の区間に分割し、各区間内のサンプルデータを逆転させるとともにそれらの区間の配列を並べ替えたものをマスカ音信号とし、このマスカ音信号を隣の部屋に放音する。この方法により生成されるマスカ音の音質は話者の話声の音質と似通ったものとなるが、隣の部屋の者がそのマスカ音から元の話声の内容を理解することは困難である。従って、ターゲット音が漏れている領域にこのマスカ音を放音することにより、その領域内において高いマスキング効果が得られる。

特開２００８−２３３６７１号公報

しかしながら、人の話声の音波形のサンプルデータを逆転させた音波形は、元の音波形のものとは異なる不自然なアクセントを持ったものになる。このため、人の話声の音波形のサンプルデータを逆転させた音波形をマスカ音として放音し続けていると、放音先の領域内の者に違和感を与えてしまうという問題があった。
本発明は、このような背景の下に案出されたものであり、マスカ音の放音先の領域内の者に違和感を与えることなく、その領域内において高いマスキング効果を得ることを目的とする。

本発明は、音信号を取得する取得手段と、前記取得手段が取得した音信号の配列順を変更した信号をマスカ音信号として出力する生成手段とを具備し、前記生成手段は、前記マスカ音信号を生成する過程において、当該マスカ音信号の音量の時間変動を所定範囲内にするノーマライズ処理を実行するマスカ音生成装置を提供する。

この発明によって得られるマスカ音信号は、ノーマライズ処理を施さないで得られるマスカ音信号よりも不自然なアクセントを感じ難い。よって、この発明によって生成したマスカ音信号をターゲット音と同じ領域に放音することにより、その領域内の者に違和感を与えることなく高いマスキング効果を得ることができる。

また、本発明は、コンピュータに、音信号を取得する取得手段と、前記取得手段が取得した音信号の配列順を変更した信号をマスカ音信号として出力する生成手段とを実現させ、前記マスカ音信号を生成する過程において、当該マスカ音信号の音量の時間変動を所定範囲内にするノーマライズ処理を実行させることを特徴とするプログラムを提供する。

本発明の第１および第２実施形態であるマスカ音生成装置の構成を示すブロック図である。同マスカ音生成装置の設置の態様の一例を示す図である。同マスカ音生成装置が記憶する音データベースのデータ構造図である。本発明の第１実施形態であるマスカ音生成装置の動作を示すフローチャートである。同マスカ音生成装置による音信号の処理の様子を示す図である。同マスカ音生成装置による音信号の処理の様子を示す図である。本発明の第２実施形態であるマスカ音生成装置の動作を示すフローチャートである。本発明の他の実施形態であるマスカ音生成装置による音信号の処理の様子を示す図である。本発明の他の実施形態であるマスカ音生成装置による音信号の処理の様子を示す図である。

以下、図面を参照しつつ本発明の実施形態について説明する。
＜第１実施形態＞
図１は、本発明の第１実施形態であるマスカ音生成装置１０の構成を示すブロック図である。図２は、マスカ音生成装置１０の設置の態様の一例を示す図である。図２の例に示すように、マスカ音生成装置１０は、衝立５０によって外部と仕切られた領域Ａに設置される。この領域Ａには、領域Ａ内への話者の進入および領域Ａ外への話者の退出を検知する人感センサ３０が設けられている。マスカ音生成装置１０は、人感センサ３０が領域Ａ内に話者が進入したことを検知してから話者が領域Ａ外に退出したことを検知するまでの間、領域Ａから衝立５０を超えてその外側の領域Ｂに伝搬される話声をターゲット音Ｔとし、このターゲット音Ｔの聴取を妨げるマスカ音信号Ｍを領域Ｂのスピーカ３１から放音する。

図１において、マスカ音生成装置１０は、ハードディスク１１、制御部１２、バッファ１３、放音制御部１４、Ｄ／Ａ変換部１５、およびアンプ１６を有する。ハードディスク１１は、音データベース２１を記憶している。音データベース２１は、様々な声の特徴を持った人物から収録した時間長Ｔ１（例えば、Ｔ１＝３０秒とする）分の音声と対応する複数のレコードの集合体である。図３に示すように、このデータベース２１における１つの音声と対応するレコードは、その音声の時間長Ｔ１分の音信号Ｓを示す「音声」のフィールドと、その音声の属性情報を示す「属性」のフィールドとを有する。属性情報は、音声の収録元の人物の性別と声の高さ（高音、中音、低音）の組み合わせを示す情報である。属性情報には、「男性，高音」、「男性，中音」、「男性，低音」、「女性，高音」、「女性，中音」、「女性，低音」の６種類がある。

制御部１２は、ＣＰＵ２２、ＲＡＭ２３、およびＲＯＭ２４を有する。ＣＰＵ２２は、ＲＡＭ２３をワークエリアとして利用しつつ、ＲＯＭ２４に記憶されたマスカ音生成プログラム２５を実行する。マスカ音生成プログラム２５は、取得処理と生成処理の２つの処理をＣＰＵ２２に実行させるプログラムである。取得処理は、音データベース２１から複数種類の音信号Ｓを取得してＲＡＭ２３に格納する処理である。生成処理は、ＲＡＭ２３に格納された音信号Ｓの配列順を変更した信号をマスカ音信号Ｍとし、このマスカ音信号Ｍを出力してバッファ１３に上書きする処理である。取得処理と生成処理の詳細については、後述する。放音制御部１４は、バッファ１３に書き込まれている最新のマスカ音信号Ｍを読み出してＤ／Ａ変換部１５に出力する処理を繰り返す回路である。Ｄ／Ａ変換部１５は、放音制御部１４を介して出力されたマスカ音信号Ｍをアナログ信号に変換し、アンプ１６に出力する。アンプ１６は、Ｄ／Ａ変換部１５から出力されたアナログ信号を増幅し、スピーカ３１から音として出力する。

次に、本実施形態の動作について説明する。マスカ音生成装置１０のＣＰＵ２２は、人感センサ３０から領域Ａ内に話者が進入したことを示す検知信号Ｓ_ＩＮが与えられると、取得処理と生成処理とを実行する。取得処理では、ＣＰＵ２２は、「男性，高音」の属性情報と対応付けられた音信号Ｓ、「男性，中音」の属性情報と対応付けられた音信号Ｓ、「男性，低音」の属性情報と対応付けられた音信号Ｓ、「女性，高音」の属性情報と対応付けられた音信号Ｓ、「女性，中音」の属性情報と対応付けられた音信号Ｓ、および「女性，低音」の属性情報と対応付けられた音信号Ｓを音データベース２１から１種類ずつ選び、これら６種類の音信号Ｓを同データベース２１から取得してＲＡＭ２３に格納する。以下では、説明の便宜のため、この取得処理によってＲＡＭ２３に格納された６種類の音信号Ｓの各々を音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，Ｓｆと記す。

生成処理では、ＣＰＵ２２は、６種類の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを処理対象として図４に示すステップＳ１００〜ステップＳ１３０の処理を行い、以降は図４に示すステップＳ１４０〜ステップＳ２００のループ処理を時間長Ｔ２（例えば、Ｔ２＝１分間とする）毎に繰り返す。以下、ステップＳ１００〜ステップＳ２００の処理の詳細について説明する。

まず、ＣＰＵ２２は、図５（Ａ）に示すように、６種類の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを、各々が時間長Ｔ３（例えば、Ｔ３＝１００ミリ秒とする）の長さを有するＮ個（Ｎ＝Ｔ１／Ｔ３）のフレームＦ_ｉ（ｉ＝１〜Ｎ）に分割する（Ｓ１００）。なお、図５（Ａ）の例では、図面が煩雑になるのを防ぐため、Ｎ＝１５の場合が図示されている。

次に、ＣＰＵ２２は、図５（Ｂ）に示すように、ノーマライズ処理を行う（Ｓ１１０）。このノーマライズ処理は、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆの各々について、各フレームＦ_ｉの音量の時間変動を所定範囲内にするために各フレームＦ_ｉ内のサンプルデータを補正する処理である。

以下、音信号Ｓａを処理対象とするノーマライズ処理を例にとり、その具体的な手順について説明する。ノーマライズ処理では、ＣＰＵ２２は、音信号Ｓａを区切ったフレームＦ_ｉ（ｉ＝１〜１５）内の各サンプルデータにピークレベル補正係数Ｍ_ＰＡＥＫを乗算する第１の補正処理を行った後、このピークレベル補正係数Ｍ_ＰＡＥＫを乗算した各サンプルデータに平均レベル補正係数Ｍ_ＡＶＥを乗算する第２の補正処理を行う。

より詳細に説明すると、第１の補正処理では、ＣＰＵ２２は、音信号Ｓａの全フレームＦ_ｉ（ｉ＝１〜１５）によって表される時間長Ｔ１の音波形の最大ピークを検出し、検出した最大ピークの音量レベルＬＰＥＡＫを求める。次に、ＣＰＵ２２は、１つのサンプルデータが取り得る音量レベルの最大値を音量レベルＬＭＡＸとし、音量レベルＬＰＥＡＫで音量レベルＬＭＡＸを除算した値をピークレベル補正係数Ｍ_ＰＡＥＫとする。そして、ＣＰＵ２２は、フレームＦ_ｉ（ｉ＝１〜１５）内のサンプルデータにピークレベル補正係数Ｍ_ＰＡＥＫを乗算する。ここで、この第１の補正処理では、各サンプルデータが音量レベルを対数表現するものである場合は、各サンプルデータを実数表現に戻したものに係数を乗算し、各サンプルデータが音量レベルを実数表現するものである場合は、各サンプルデータそのものに係数を乗算する（第２の補正処理についても同様）。

続く第２の補正処理では、ＣＰＵ２２は、ピークレベル補正係数Ｍ_ＰＡＥＫを乗算した音信号ＳａのフレームＦ_ｉ（ｉ＝１〜１５）の各々について、当該フレーム_ｉ内のサンプルデータにより表される時間長Ｔ１／１５の音波形の平均の音量である平均音量レベルＬＡＶＥ_ｉを求める。次に、ＣＰＵ２２は、図６に示すように、フレームＦ_ｉ（ｉ＝１〜１５）について求めた平均音量レベルＬＡＶＥ_ｉ（ｉ＝１〜１５）のうちの最小値（図６の例では、フレームＦ_５の平均音量レベルＬＡＶＥ_５）を平均音量レベルＬＡＶＥ_ｉ（ｉ＝１〜１５）の代表値ＬＡＶＥ_ＲＥＦとし、代表値ＬＡＶＥ_ＲＥＦを平均音量レベルＬＡＶＥ_ｉで除算した各値を各フレームＦ_ｉの平均レベル補正係数Ｍ_ＡＶＥとする。そして、ＣＰＵ２２は、フレームＦ_ｉ（ｉ＝１〜１５）における各フレームＦ_ｉ内のサンプルデータにフレームＦ_ｉ毎に求めた平均レベル補正係数Ｍ_ＡＶＥを各々乗算する。
ＣＰＵ２２は、音信号Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，およびＳｆを処理対象とするノーマライズ処理も同様にして行う。

ＣＰＵ２２は、図５（Ｃ）に示すように、ノーマライズ処理を施した音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎを処理対象としてフレーム内逆転処理を行う（Ｓ１２０）。フレーム内逆転処理は、音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎの各々における一部のフレームＦ_ｉ内のサンプルデータの配列を逆転させた音信号Ｓａ_Ｒ，Ｓｂ_Ｒ，Ｓｃ_Ｒ，Ｓｄ_Ｒ，Ｓｅ_Ｒ，及びＳｆ_Ｒを生成する処理である。

以下、音信号Ｓａ_Ｎを処理対象とするフレーム内逆転処理を例にとり、その具体的な手順について説明する。まず、ＣＰＵ２２は、音信号Ｓａ_ＮのフレームＦ_ｉの総数の半数（図５（Ｃ）の例では、１５／２≒７）を、サンプルデータの逆転を要するフレームＦ_ｉの個数Ｎｕｍとし、Ｎｕｍ個の乱数を発生する。そして、音信号Ｓａ_Ｎにおける全フレームＦ_ｉのうちこのＮｕｍ個の乱数の各々が示すフレームＦ_ｉ内のサンプルデータ（図５（Ｃ）の例では、フレームＦ_２、フレームＦ_３、フレームＦ_４、フレームＦ_７、フレームＦ_１０、フレームＦ_１１、およびフレームＦ_１４の合計７個のフレームＦ_ｉ内のサンプルデータ）を逆転させたものを音信号Ｓａ_Ｒとする。
ＣＰＵ２２は、音信号Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎを処理対象とするフレーム内逆転処理も同様にして行う。

ＣＰＵ２２は、フレーム内逆転処理を終えると、図５（Ｄ）に示すように、フレーム内逆転処理の処理結果である音信号Ｓａ_Ｒ，Ｓｂ_Ｒ，Ｓｃ_Ｒ，Ｓｄ_Ｒ，Ｓｅ_Ｒ，及びＳｆ_Ｒに窓関数ωを乗算する（Ｓ１３０）。この窓関数ωは、分割したフレームＦ_ｉ間の結合を円滑にする波形整形のためのものである。

次に、ＣＰＵ２２は、図５（Ｅ）に示すように、窓関数ωを乗算した音信号Ｓａ_Ｗ，Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗを処理対象としてフレーム並べ替え処理を行う（Ｓ１４０）。フレーム並べ替え処理は、音信号Ｓａ_Ｗ，Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗの各々のフレームＦ_ｉ（ｉ＝１〜１５）の配列をランダムに並べ替えた音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを生成する処理である。

以下、音信号Ｓａ_Ｗを処理対象とするフレーム並べ替え処理を例にとり、その具体的な手順について説明する。ＣＰＵ２２は、音信号Ｓａ_Ｗを分割したフレーム数Ｎが１５である場合、１〜１５までの数字からなる乱数列を発生する。そして、１５個の乱数を先頭から順番に読んで行き、最初の乱数が８であれば並び替え前の１番目のフレームを並び替え後の８番目のフレームとし、２番目の乱数が４であれば並び替え前の２番目のフレームを並び替え後の４番目のフレームとし…、というようにして、乱数列に応じてフレームの並び替え後の順番を決定して行く。そして、１番目〜１５番目のフレームを並び替えたものを音信号Ｓａ_Ｓとする。ここで、本実施形態では、並び替え方法を変更するために、乱数の並びの異なった複数種類の乱数列（Ｎ＝１５である場合は、いずれも１５個の乱数からなる乱数列）を用意する。そして、フレーム並び替え処理の度に、並び替えに使用する乱数列の種類を変更する。
ＣＰＵ２２は、音信号Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗを処理対象とするフレーム並べ替え処理も同様にして行う。

フレーム並べ替え処理を終えると、ＣＰＵ２２は、音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを処理対象とする音響効果付与処理を行う（Ｓ１５０）。音響効果付与処理では、ＣＰＵ２２は、フレーム並べ替え処理の処理結果として生成した音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓに所定の音響効果（例えば、リバーブとする）を付与した音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’を生成する。音響効果付与処理を終えると、ＣＰＵ２２は、ミキシング処理を行う（Ｓ１６０）。ミキシング処理では、ＣＰＵ２２は、音響効果付与処理を施した音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’を所定のミキシング比率（例えば、１：１：１：１：１：１とする）でミキシングし、このミキシングした信号をマスカ音信号Ｍとする。ミキシング処理を終えると、ＣＰＵ２２は、話速変換処理を行う（Ｓ１７０）。話速変換処理では、ＣＰＵ２２は、ミキシング処理によって生成された時間長Ｔ１分のマスカ音信号Ｍの時間軸を伸長して時間長Ｔ１’（Ｔ１’＞Ｔ１）分のマスカ音信号Ｍとする。より具体的に説明すると、この話速変換処理では、ＣＰＵ２２は、処理対象であるマスカ音信号ＭにおけるフレームＦ_ｉ（ｉ＝１〜１５）のうち音波形の立ち上がり部分と立ち下り部分とを除いた定常部分のフレームＦ_ｉを時間長Ｔ１と時間長Ｔ１’の時間差を埋め合わせるのに必要な数だけ複製し、この複製したフレームＦ_ｉ’を定常部分のフレームＦ_ｉおよびＦ_ｉ＋１間に挿入する。

ＣＰＵ２２は、話速変換処理を施したマスカ音信号Ｍを出力してバッファ１３に上書きする（Ｓ１８０）。ＣＰＵ２２は、人感センサ３０から領域Ａ外に話者が退出したことを示す検知信号Ｓ_ＯＵＴが与えられることなく（Ｓ１９０：Ｎｏ）、ステップＳ１４０の実行時から時間長Ｔ２（Ｔ２＝１分）が経過すると（Ｓ２００：Ｙｅｓ）、ステップＳ１４０に戻って以降の処理を繰り返す。一方、人感センサ３０から検知信号Ｓ_ＯＵＴが与えられると（Ｓ１９０：Ｙｅｓ）、放音制御部１４にマスカ音信号Ｍの読み出しの停止を指示して処理を終了する。

以上説明した本実施形態によると、次の効果が得られる。
第１に、本実施形態では、６種類の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆからマスカ音信号Ｍを生成する。よって、領域Ａ内に異なる声の特徴をもった複数人の話者がいる場合でも、領域Ｂ内において高いマスキング効果を発生させることができる。

第２に、本実施形態では、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆにノーマライズ処理を施した後、ノーマライズ処理を施した音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎの一部のフレームＦ_ｉ内のサンプルデータを逆転させるフレーム内逆転処理とフレームＦ_ｉ（ｉ＝１〜１５）を並べ替えるフレーム並べ替え処理とを行い、並べ替え処理の処理結果である音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓをマスカ音信号Ｍとする。ノーマライズ処理を施した音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎにフレーム内逆転処理とフレーム並べ替え処理を施して得られる音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓは、ノーマライズ処理を施していない音信号にそれらの両処理を施して得られるものよりも不自然なアクセントを感じ難い。よって、このようなマスカ音信号Ｍを領域Ｂに放音することにより、領域Ｂ内の者に違和感を与えることなく高いマスキング効果を得ることができる。

第３に、本実施形態では、音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓをミキシングしてマスカ音信号Ｍとした後、そのマスカ音信号Ｍの時間軸を伸長してから領域Ｂに放音する。人の音声を示す音信号に対してその配列を変更する処理（ステップＳ１２０およびステップＳ１４０）を施した場合、通常であれば処理が施された音信号は早口で話している人の音声と似通った音の特徴を持つようになる。しかし、本実施形態によると、そのような早口の話声が聞こえているとの印象を和らげることができる。また、本実施形態によれば、配列を変更した場合に早口の印象となり難いような音信号を厳選して音データベース２１に記憶させておく必要もなくなる。

第４に、本実施形態では、６種類の音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’をミキシングしてから音響効果を付与する。このようにして音響効果が付与されたマスカ音信号Ｍは、領域Ｂ内の伝搬によって空間的な音響効果（残響）が付与された話声（ターゲット音Ｔ）と音響的に類似したものとなる。従って、マスカ音を放音する領域内の者に違和感を与えることなくその領域内において高いマスキング効果を得ることができる。

第５に、本実施形態では、音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎの全フレームＦ_ｉのうち半数のフレームＦ_ｉのサンプルデータを逆転させてマスカ音信号Ｍを生成する。これにより、半数より多い数のフレームＦ_ｉのサンプルデータを逆転させものや半数より少ない数のフレームＦ_ｉのサンプルデータを逆転させたものをマスカ音信号Ｍとするよりも高いマスキング効果を発生させることができる。ここで、本願発明者らは、サンプルデータの逆転を要するフレームＦ_ｉの個数Ｎｕｍを様々に変えたマスカ音信号Ｍのマスキング効果を比較したところ、サンプルデータを逆転させるフレームＦ_ｉとサンプルデータを逆転させないフレームＦ_ｉの比率を半々程度にした場合に最も高いマスキング効果が得られることを確認した。

＜第２実施形態＞
次に、本発明の第２実施形態について説明する。図７に示すように、本実施形態における生成処理では、ＣＰＵ２２は、フレーム並べ替え処理の前にノーマライズ処理を実行しない。その代わりに、ＣＰＵ２２は、フレーム並べ替え処理の後に、その処理結果である音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを処理対象としてノーマライズ処理を実行する（Ｓ１４１）。
本実施形態によっても、領域Ｂ内の者に違和感を与えることなく高いマスキング効果を得ることができる。

以上、この発明の第１および第２実施形態について説明したが、この発明には他にも実施形態があり得る。例えば、以下の通りである。
（１）上記第１および第２実施形態のノーマライズ処理では、ＣＰＵ２２は、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆのフレームＦ_ｉ（ｉ＝１〜１５）の平均音量レベルＬＡＶＥ_ｉ（ｉ＝１〜１５）の代表値ＬＡＶＥ_ＲＥＦを決定し、フレームＦ_ｉ（ｉ＝１〜１５）の平均音量レベルＬＡＶＥ_ｉ（ｉ＝１〜１５）を代表値ＬＡＶＥ_ＲＥＦと等しくするための補正係数Ｍ_ＡＶＥを求め、フレームＦ_ｉ毎に求めた補正係数Ｍ_ＡＶＥを用いてフレームＦ_ｉ内のサンプルデータを補正した。しかし、ＣＰＵ２２は、フレームＦ_ｉ（ｉ＝１〜１５）の平均音量レベルＬＡＶＥ_ｉ（ｉ＝１〜１５）と代表値ＬＡＶＥ_ＲＥＦとの各差分を所定範囲（例えばαとする）内にするための補正係数ＭＡを決定し、フレームＦ_ｉ毎に求めた補正係数ＭＡを用いてフレームＦ_ｉ内のサンプルデータを補正してもよい。

以下、音信号Ｓａを処理対象とする場合を例にとり、この実施形態におけるノーマライズ処理の具体的な手順について説明する。まず、ＣＰＵ２２は、音信号Ｓａに対して第１の補正処理を行う。この第１の補正処理の内容は第１および第２実施形態のものと同じである。そして、ＣＰＵ２２は、第２の補正処理を次のようにして行う。

ＣＰＵ２２は、第１の補正処理によってピークレベル補正係数Ｍ_ＰＡＥＫを乗算した音信号ＳａのフレームＦ_ｉ（ｉ＝１〜１５）の各々について、当該フレーム_ｉ内のサンプルデータにより表される時間長Ｔ１／１５の音波形の平均音量レベルＬＡＶＥ_ｉを求める。次に、ＣＰＵ２２は、平均音量レベルＬＡＶＥ_ｉ（ｉ＝１〜１５）のうちの最小値ＬＡＶＥ_ＭＩＮと最大値ＬＡＶＥ_ＭＡＸとを求め、最小値ＬＡＶＥ_ＭＩＮを代表値ＬＡＶＥ_ＲＥＦとする。そして、ＣＰＵ２２は、図８（Ａ）に示すように、代表値ＬＡＶＥ_ＲＥＦから最大値ＬＡＶＥ_ＭＡＸの範囲内に分布するフレームＦ_ｉ（ｉ＝１〜１５）の平均音量レベルＬＡＶＥ_ｉ（ｉ＝１〜１５）の各々を代表値ＬＡＶＥ_ＲＥＦから音量レベルＬＡＶＥ_ＲＥＦ＋αの範囲内に写像するための補正係数ＭＡ（ＭＡ_ＭＡＸ≧ＭＡ≧ＭＡ_ＭＩＮ）を決定し、各フレームＦ_ｉ毎に決定した補正係数ＭＡを各フレームＦ_ｉ内のサンプルデータに各々乗算する。

ここで、各フレームＦ_ｉ毎の補正係数ＭＡは、例えば、次のように決定する。まず、図８（Ｂ）に示すように、フレームＦ_ｉ（ｉ＝１〜１５）のうち当該フレームＦ_ｉの平均音量レベルＬＡＶＥ_ｉが代表値ＬＡＶＥ_ＲＥＦとされたものの補正係数ＭＡ_ＭＡＸを１とし、代表値ＬＡＶＥ_ＲＥＦとの差分が最も大きいもの（平均音量レベルＬＡＶＥ_ｉが最大値ＬＡＶＥ_ＭＡＸであるもの）の補正係数ＭＡ_ＭＩＮを（ＬＡＶＥ_ＲＥＦ＋α）／ＬＡＶＥ_ＭＡＸとする。そして、代表値ＬＡＶＥ_ＲＥＦと最大値ＬＡＶＥ_ＭＡＸの間の平均音量レベルレベルＬＡＶＥ_ｉに適用する補正係数ＭＡについては、当該フレームＦ_ｉの平均音量レベルＬＡＶＥ_ｉと代表値ＬＡＶＥ_ＲＥＦとの差分が大きいほど補正係数ＭＡ_ＭＡＸから離れ補正係数ＭＡ_ＭＩＮに近くなるような値とする。

上記第１および第２実施形態では、全てのフレームＦ_ｉ（ｉ＝１〜１５）の平均音量レベルＬＡＶＥ_ｉ（ｉ＝１〜１５）が代表値ＬＡＶＥ_ＲＥＦと一致するような補正処理を施すため、マスカ音信号Ｍの音量が平坦な感じを与えてしまい、却って不自然になる可能性も考えられる。これに対して、フレームＦ_ｉ（ｉ＝１〜１５）の平均音量レベルＬＡＶＥ_ｉ（ｉ＝１〜１５）と代表値ＬＡＶＥ_ＲＥＦとの各差分を所定範囲（例えばαとする）内に抑えてある程度の揺らぎを与えることにより、平坦な感じを和らげ、不自然さを抑えたマスカ音信号Ｍを生成することができる。

（２）上記第１および第２実施形態のノーマライズ処理において、ＣＰＵ２２は、音信号ＳａのフレームＦ_ｉ（ｉ＝１〜１５）の各々の平均音量レベルＬＡＶＥ_ｉ（ｉ＝１〜１５）のうちの最小値をそれらの代表値ＬＡＶＥ_ＲＥＦとした。しかし、平均音量レベルＬＡＶＥ_ｉ（ｉ＝１〜１５）のうちの最大値、平均値、または中央値を代表値ＬＡＶＥ_ＲＥＦとしてもよい。

（３）上記第１実施形態では、ステップＳ１３０において窓関数ωを乗算した音信号Ｓａ_Ｗ，Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗを処理対象としてノーマライズ処理を行ってもよい。また、第２実施形態では、音響効果付与処理（Ｓ１５０）の処理結果である音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’を処理対象としてノーマライズ処理を行ってもよい。また、ミキシング処理（Ｓ１６０）によってミキシングされたマスカ音信号Ｍを処理対象としてノーマライズ処理を行ってもよい。

（５）上記第１および第２実施形態の取得処理では、６種類の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを取得し、生成処理では、これらの６種類の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆからマスカ音信号Ｍを生成した。しかし、取得処理において、５種類以下の１または複数種類の音信号Ｓまたは７種類以上の複数種類の音信号Ｓを取得し、生成処理では、その１または複数種類の音信号Ｓからマスカ音信号Ｍを生成してもよい。

（６）上記第１および第２実施形態において、領域Ａにマイクロホンを設置してもよい。この場合において、ＣＰＵ２２は、取得処理では、この領域Ａのマイクロホンが収音した音信号を取得し、生成処理では、その取得した音信号からマスカ音信号Ｍを生成するとよい。

（７）上記第１および第２実施形態において、ステップＳ１２０とステップＳ１３０の処理の順序を逆にし、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆの各々におけるフレームＦ_ｉに窓関数ωを乗算してから各々のフレームＦ_ｉ内のサンプルデータの配列を逆転させてもよい。

（８）上記第１および第２実施形態では、領域Ａ内への話者の進入を人感センサ３０が検知する度に音データベース２１から音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを読み出し、音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを処理対象としてステップＳ１００〜ステップＳ１９０の各処理を行って得たマスカ音信号Ｍを領域Ｂに放射した。しかし、ステップＳ１００〜ステップＳ１９０の各処理を行って得たマスカ音信号Ｍをメモリに記憶させ、以降は、話者の進入を人感センサ３０が検知する度にメモリ内のマスカ音信号Ｍを読み出して領域Ｂに繰り返し放射するようにしてもよい。この場合において、時間長Ｔ１（Ｔ１＝３０秒）の長さの音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，を素材として、図４または図７の一連の処理を複数回繰り返すことにより、時間長Ｔ１よりも十分に長い時間長Ｔ６（例えば、Ｔ６＝１０分）分のマスカ音信号Ｍを生成し、この時間長Ｔ６分のマスカ音信号Ｍをメモリに記憶させて利用してもよい。

（９）上記第１および第２実施形態は、衝立５０により仕切られた領域Ａから外部の領域Ｂへの音声の漏れ聞こえの防止に本発明を適用したものであった。しかし、衝立５０などが間に介在しない２つの領域Ａ’およびＢ’のうち一方の領域Ａ’（またはＢ’）で発生した音を他方の領域Ｂ’（またはＡ’）で聞こえ難くする用途に本発明を適用してもよい。また、４方の壁と天井とにより外部と区切られた部屋にマスカ音生成装置１０を設置し、このマスカ音生成装置１０によって生成したマスカ音信号Ｍを壁の外側の領域に向けて放音するようにしてもよい。また、異なる空間に居る者同士の通話を実現させる通話装置（例えば、携帯電話、ＩＰ電話、インターフォン等）における各話者の話声を周りに聞こえ難くする用途に本発明を適用してもよい。この実施形態は、例えば、通話装置に第１および第２実施形態のマスカ音生成装置１０を内蔵し、マスカ音生成装置１０が生成したマスカ音信号Ｍを話者の周りに放音することによって実現可能である。この場合において、発話者にイヤホンを装着させたり通話装置のスピーカの指向性を制御することにより、マスカ音信号Ｍが通話の相手方まで伝送されて会話が混乱する事態を防ぐようにするとなおよい。

（１０）上記第１および第２実施形態では、音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎを処理対象とするフレーム内逆転処理（Ｓ１２０）を同様の手順により行った。しかし、サンプルデータを逆転させるフレームＦ_ｉの個数Ｎｕｍやサンプルデータを逆転させるフレームＦ_ｉの位置を音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎ毎に変えてもよい。この実施形態によると、サンプルデータを逆転させるフレームＦ_ｉの個数Ｎｕｍやサンプルデータを逆転させるフレームＦ_ｉの位置を音信号Ｓａ_Ｎ，Ｓｂ_Ｎ，Ｓｃ_Ｎ，Ｓｄ_Ｎ，Ｓｅ_Ｎ，及びＳｆ_Ｎのすべてについて同じにしたマスカ音信号Ｍよりも高いマスキング効果を発生させることができる。

（１１）上記第１および第２実施形態では、ＣＰＵ２２は、図５（Ａ）に示すように、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを時間長Ｔ３（Ｔ３＝１００ミリ秒）のフレームＦ_ｉ（ｉ＝１〜１５）に分割した。しかし、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを、隣接するフレーム間で互いにオーバーラップ区間を有するフレームＦ_ｉ（ｉ＝１〜１５）に分割してもよい。この実施形態は、次のようにして実現する。まず、ＣＰＵ２２は、図９に示すように、各々が時間長Ｔ１の長さを有する音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆ（図９では、簡便のため、音信号Ｓａについての処理のみを示す）を、各々の前後に時間長ｔ（ｔ＜Ｔ３）ずつのオーバーラップ区間を有する時間長Ｔ３＋２ｔのフレームＦ_ｉ（ｉ＝１〜１５）に分割する（Ｓ１０１）。ＣＰＵ２２は、時間長Ｔ３＋２ｔのフレームＦ_ｉ（ｉ＝１〜１５）の各々に、ノーマライズ処理（Ｓ１１０）、フレーム内逆転処理（Ｓ１２０）、窓関数の乗算（Ｓ１３０）の各処理を施す。次に、ＣＰＵ２２は、窓関数を乗算したフレームＦ_ｉ（ｉ＝１〜１５）を、隣接するフレーム間でクロスフェードするように重ね合わせ（Ｓ１３１）、元の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆと同じ時間長Ｔ１の音信号Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗを生成する。そして、ＣＰＵ２２は、音信号Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗを時間長Ｔ３のフレームＦ_ｉ（ｉ＝１〜１５）に分割した後（Ｓ１３２）、この分割したフレームＦ_ｉ（ｉ＝１〜１５）を処理対象としてフレーム並べ替え処理（Ｓ１４０）を行う。この実施形態によると、より滑らかな音質をもった、違和感な少ないマスカ音信号Ｍを生成することができる。

（１２）上記第１および第２実施形態において、ハードディスク１１をマスカ音生成装置１０の外部要素としてもよい。この実施形態では、外部の記憶装置内の音データベース２１からネットワークを経由して音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを取得し、この音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを素材としてマスカ音信号Ｍを生成するとよい。また、バッファ１３、放音制御部１４、Ｄ／Ａ変換部１５、およびアンプ１６のうち全部または一部をマスカ音生成装置１０の外部要素としてもよい。この実施形態では、例えば、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを素材として生成したマスカ音信号Ｍを、バッファ１３の役割を果たす外部記憶装置に各種インターフェースを介して出力するとよい。

（１３）上記第１〜第５実施形態のフレーム並べ替え処理では、互いに異なる１〜Ｎまでの数字からなる乱数列をフレームの並び替えに使用した。しかし、乱数列の中に同じ乱数が複数回現れるような乱数列をフレーム並び替えに使用してもよい。また、最初の乱数が８であれば並び替え前の８番目のフレームを並び替え後の１番目のフレームとし、２番目の乱数が４であれば並び替え前の４番目のフレームを並び替え後の２番目のフレームとし…、というようにして、乱数列に応じて並び替え前のもの中から選び出すフレームを決定するようにしてもよい。

（１４）上記第１〜第５実施形態では、取得処理によって取得した時間長Ｔ１分の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを時間長Ｔ３の長さのフレームＦ_ｉ（ｉ＝１〜Ｎ）に分割し、時間長Ｔ３のフレームＦ_ｉの各々を処理対象として、各フレームＦ_ｉの音量の時間変動を所定範囲内にする処理であるノーマライズ処理を行った。しかし、時間長Ｔ１分の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを分割することなく、時間長Ｔ１の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆそのものに対して、時間長Ｔ１内の音量の時間変動を所定範囲内にする処理を行ってもよい。

１０…マスカ音生成装置、１１…ハードディスク、１２…制御部、１３…バッファ、１４…放音制御部、１５…Ｄ／Ａ変換部、１６…アンプ、２１…音データベース、２２…ＣＰＵ、２３…ＲＡＭ、２４…ＲＯＭ、３０…人感センサ、３１…スピーカ。

Claims

音信号を取得する取得手段と、前記取得手段が取得した音信号の配列順を変更した信号をマスカ音信号として出力する生成手段とを具備し、
前記生成手段は、前記マスカ音信号を生成する過程において、当該マスカ音信号の音量の時間変動を所定範囲内にするノーマライズ処理を実行する
ことを特徴とするマスカ音生成装置。
前記生成手段は、前記取得手段が取得した音信号を一定時間長の複数の区間に分割し、分割した各区間の各々の平均音量を所定範囲内にする処理を前記ノーマライズ処理として実行することを特徴とする請求項１に記載のマスカ音生成装置。
前記生成手段は、前記ノーマライズ処理において、前記各区間の平均音量の代表値を決定し、前記各区間の平均音量を前記代表値と等しくするための補正係数を前記区間毎に求め、前記区間毎に求めた補正係数を用いて各区間内の音信号を補正することを特徴とする請求項２に記載のマスカ音生成装置。
前記生成手段は、前記ノーマライズ処理において、前記各区間の平均音量の代表値を決定し、前記各区間の平均音量と前記代表値との各差分を所定範囲内にするための補正係数を前記区間毎に求め、前記区間毎に求めた補正係数を用いて各区間内の音信号を補正することを特徴とする請求項２に記載のマスカ音生成装置。
コンピュータに、
音信号を取得する取得手段と、前記取得手段が取得した音信号の配列順を変更した信号をマスカ音信号として出力する生成手段とを実現させ、
前記マスカ音信号を生成する過程において、当該マスカ音信号の音量の時間変動を所定範囲内にするノーマライズ処理を実行させる
ことを特徴とするプログラム。