JP2011154141A

JP2011154141A - マスカ音生成装置およびプログラム

Info

Publication number: JP2011154141A
Application number: JP2010014876A
Authority: JP
Inventors: Mai Koike; 舞小池; Yasushi Shimizu; 寧清水; Masahito Hata; 雅人秦; Takashi Yamakawa; 高史山川
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2010-01-26
Filing date: 2010-01-26
Publication date: 2011-08-11
Anticipated expiration: 2030-01-26
Also published as: JP5644122B2

Abstract

【課題】マスカ音を放射する領域内の者に違和感を感じさせることなくその領域内において高いマスキング効果を発生させる。
【解決手段】ＣＰＵ２２は、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆをフレームＦ_ｉ（ｉ＝１〜１５）に分割した後、フレームＦ_ｉ内の配列を逆転させる処理を行い、この処理を施した音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆの波形を整形する。その後、この波形を整形した音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆのフレームＦ_ｉの配列をランダムに並べ替えてミキシングした信号をマスカ音信号Ｍとする処理を時間長Ｔ２毎に繰り返し、最新のマスカ音信号Ｍを領域Ｂに放音する。
【選択図】図１

Description

本発明は、マスカ音を生成して音の漏れ聞こえを防ぐ技術に関する。

マスキング効果を利用して音の漏れ聞こえを防ぐ技術が各種提案されている。マスキング効果は、２種類の音信号を同じ空間内に伝搬させた場合に、空間内の者が、２種類の音信号の音響的特徴（周波数成分，時間波形等）の関係に応じて、それらの音信号に気づき難くなる現象である。この種の技術の多くは、話者が居る領域と壁や衝立を介して隣接している領域に向けて話者の話声の聞き取りを妨げるマスカ音を放音するものである。そして、この場合のマスカ音は、広い帯域にスペクトルを有するノイズ音でもよいが、聞き取りを妨げる対象となる音（以下、ターゲット音という）と類似した特徴を持った音の方が高いマスキング効果の得られることが知られている。

特許文献１には、複数種類のマスカ音のなかから最も高いマスキング効果の得られるものを都度選択して放音するように構成されたマスキングシステムの開示がある。同文献に開示されたマスキングシステムは、壁を挟んで隣接する２つの領域である音響空間２０Ａおよび２０Ｂ間の話声の漏れ聞こえを防ぐものである。このマスキングシステムでは、年齢、言語、性別などを異にする人物の声を予め採取する。そして、採取した各声の音信号のフレーム配列を並べ替えたスクランブル音信号をそれらの声のフォルマントやパワースペクトルなどを示す音響特性情報と対応づけてメモリに記憶させておく。このマスキングシステムでは、音響空間２０Ａ内における話者の声を分析してその声の音響特性情報を求め、求めた音響特性情報に最も近い音響特性情報と対応付けてメモリに記憶されているスクランブル音信号を読み出し、このスクランブル音信号をマスカ音として音響空間２０Ｂ内に放音する。この技術によると、音響空間２０Ａ内の話者の声に最も類似した特徴を持ったマスカ音が音響空間２０Ｂに放音されるため、音響空間２０Ｂ内において高いマスキング効果を得ることができる。

特開２００８−２３３６７２号公報

このマスキングシステムでは、音響空間２０Ｂ内におけるマスキング効果を保つために、複数種類のなかから選んだスクランブル音信号をマスカ音として音響空間２０Ｂ内に繰り返し放音し続ける必要がある。しかしながら、このようにして同じマスカ音を長時間に渡って繰り返し放音し続けた場合、音響空間２０Ｂの者は、同じマスカ音が繰り返し放音されているのを感じ、違和感を持つという問題があった。
本発明は、このような背景の下に案出されたものであり、放音するマスカ音の周期性を目立たなくして、マスカ音を放音する領域内の者に違和感を与えることなくその領域内において高いマスキング効果を得ることを目的とする。

この発明の好適な態様であるマスカ音生成装置は、音信号を取得する取得手段と、前記取得手段が取得した音信号の配列順を変更した信号をマスカ音信号として出力する処理を繰り返すとともに、配列順の変更の方法の変更を繰り返す生成手段とを具備することを特徴とする。

このマスカ音生成装置によると、生成手段が配列順の変更の方法を変更する度にマスカ音信号の聴感が変化する。よって、同じマスカ音信号を放音し続ける場合に比べて、その放音先の領域内の者に与える違和感を小さくすることができる。

また、前記生成手段は、前記取得手段が取得した音信号を一定時間長の複数の区間に分割し、分割した各区間を並べ替える並べ替え処理を前記配列順を変更する処理として繰り返し、繰り返しの度に各区間の並べ替えの方法を変えてもよい。

このマスカ音生成装置によると、一定時間長分の音信号毎に配列順が変更される。よって、音信号の配列順を１サンプルずつ変更する場合に比べて、よりマスキング効果の高いマスカ音信号を生成することができる。

また、前記取得手段は、１種類のマスカ音信号を生成するために複数種類の音信号を取得し、前記生成手段は、前記複数種類の音信号の種類毎に、当該種類の音信号を一定時間長の複数の区間に分割し、各区間を並べ替える並べ替え処理を前記配列順を変更する処理として繰り返し、前記複数種類の音信号の種類毎に区間の並べ替え方法を変えるようにしてもよい。

このマスカ音生成装置によると、複数種類の音信号をミキシングしてマスカ音信号とするため、マスキングの対象となる音が複数に及ぶ場合でも、高いマスキング効果を発生させることができる。

また、前記生成手段は、音信号を分割した各区間内の音信号の配列を逆転させる区間内逆転処理を行い、この区間内逆転処理と前記区間並べ替え処理の両方を経た信号を用いて前記マスカ音信号を生成してもよい。

また、前記生成手段は、前記複数種類の音信号のうち少なくとも一部の種類の音信号について、前記区間の並べ替え後の信号に音響効果を付与し、この音響効果を付与した信号を前記ミキシングの対象としてもよい。

また、本発明の別の好適な態様であるマスカ音生成装置は、音信号を取得する取得手段と、前記取得手段が取得した音信号の配列順を変更し、配列順を変更した信号に音響効果を付与し、音響効果を付与した信号をマスカ音信号として出力する処理を繰り返し、音響効果の付与の方法の変更を繰り返す生成手段とを具備することを特徴とする。

このマスカ音生成装置によると、生成手段が音響効果の付与の方法を変更する度にマスカ音信号の聴感が変化する。よって、同じマスカ音信号を放音し続ける場合に比べて、その放音先の領域内の者に与える違和感を小さくすることができる。

また、本発明の別の好適な態様であるマスカ音生成装置は、複数種類の音信号を取得する取得手段と、前記取得手段が取得した複数種類の音信号の配列順を変更し、配列順を変更した複数種類の音信号のうち少なくとも一部の種類の音信号について、配列順の変更後の信号に音響効果を付与し、音響効果を付与した信号をミキシングしてマスカ音信号として出力する処理を繰り返し、ミキシングの方法の変更を繰り返す生成手段とを具備することを特徴とする。

このマスカ音生成装置によると、生成手段がミキシングの方法を変更する度にマスカ音信号の聴感が変化する。よって、同じマスカ音信号を放音し続ける場合に比べて、その放音先の領域内の者に与える違和感を小さくすることができる。

また、本発明の別の好適な態様であるマスカ音生成装置は、前記取得手段が取得した複数種類の音信号の配列順を変更し、配列順を変更した複数種類の音信号のうち少なくとも一部の種類の音信号について、配列順の変更後の信号に音響効果を付与し、音響効果を付与した信号をミキシングした信号を繰り返し処理の処理対象とし、処理対象とした信号の配列順を変更した音信号をマスカ音信号として出力する処理を繰り返し、配列順の変更の方法の変更を繰り返す生成手段とを具備することを特徴とする。

このマスカ音生成装置によっても、生成手段が配列順の変更の方法を変更する度にマスカ音信号の聴感が変化する。よって、同じマスカ音信号を放音し続ける場合に比べて、その放音先の領域内の者に与える違和感を小さくすることができる。

また、本発明の別の好適な態様であるプログラムは、コンピュータに、音信号を取得する取得手段と、前記取得手段が取得した音信号の配列順を変更した信号をマスカ音信号として出力する処理を繰り返すとともに、配列順の変更の方法の変更を繰り返す生成手段とを実現させる。

本発明の第１〜第５実施形態であるマスカ音生成装置の構成を示すブロック図である。同マスカ音生成装置の設置の態様の一例を示す図である。同マスカ音生成装置が記憶する音データベースのデータ構造図である。本発明の第１実施形態であるマスカ音生成装置の動作を示すフローチャートである。同マスカ音生成装置による音信号の処理の様子を示す図である。本発明の第２実施形態であるマスカ音生成装置の動作を示すフローチャートである。同マスカ音生成装置による音信号の処理の様子を示す図である。本発明の第３実施形態であるマスカ音生成装置の動作を示すフローチャートである。本発明の第４実施形態であるマスカ音生成装置の動作を示すフローチャートである。本発明の第５実施形態であるマスカ音生成装置の動作を示すフローチャートである。

以下、図面を参照しつつ本発明の実施形態について説明する。
＜第１実施形態＞
図１は、本発明の第１実施形態であるマスカ音生成装置１０の構成を示すブロック図である。図２は、マスカ音生成装置１０の設置の態様の一例を示す図である。図２の例に示すように、マスカ音生成装置１０は、衝立５０によって外部と仕切られた領域Ａに設置される。この領域Ａには、領域Ａ内への話者の進入および領域Ａ外への話者の退出を検知する人感センサ３０が設けられている。マスカ音生成装置１０は、人感センサ３０が領域Ａ内に話者が進入したことを検知してから話者が領域Ａ外に退出したことを検知するまでの間、領域Ａから衝立５０を超えてその外側の領域Ｂに伝搬される話声をターゲット音Ｔとし、このターゲット音Ｔの聴取を妨げるマスカ音信号Ｍを領域Ｂのスピーカ３１から放音する。

図１において、マスカ音生成装置１０は、ハードディスク１１、制御部１２、バッファ１３、放音制御部１４、Ｄ／Ａ変換部１５、およびアンプ１６を有する。ハードディスク１１は、音データベース２１を記憶している。音データベース２１は、様々な声の特徴を持った人物から収録した時間長Ｔ１（例えば、Ｔ１＝３０秒とする）分の音声と対応する複数のレコードの集合体である。図３に示すように、このデータベース２１における１つの音声と対応するレコードは、その音声の時間長Ｔ１分の音信号Ｓを示す「音声」のフィールドと、その音声の属性情報を示す「属性」のフィールドとを有する。属性情報は、例えば、音声の収録元の人物の性別と声の高さ（高音、中音、低音）の組み合わせを示す情報である。属性情報には、「男性，高音」、「男性，中音」、「男性，低音」、「女性，高音」、「女性，中音」、「女性，低音」の６種類がある。

制御部１２は、ＣＰＵ２２、ＲＡＭ２３、およびＲＯＭ２４を有する。ＣＰＵ２２は、ＲＡＭ２３をワークエリアとして利用しつつ、ＲＯＭ２４に記憶されたマスカ音生成プログラム２５を実行する。マスカ音生成プログラム２５は、取得処理と生成処理の２つの処理をＣＰＵ２２に実行させるプログラムである。取得処理は、音データベース２１から複数種類の音信号Ｓを取得してＲＡＭ２３に格納する処理である。生成処理は、ＲＡＭ２３に格納された音信号Ｓの配列順を変更した信号をマスカ音信号Ｍとし、マスカ音信号Ｍのバッファ１３への出力を繰り返すとともに、配列順の変更の方法の変更を繰り返す処理である。取得処理と生成処理の詳細については、後述する。放音制御部１４は、バッファ１３に書き込まれている最新のマスカ音信号Ｍを読み出してＤ／Ａ変換部１５に出力する処理を繰り返す回路である。Ｄ／Ａ変換部１５は、放音制御部１４を介して出力されたマスカ音信号Ｍをアナログ信号に変換し、アンプ１６に出力する。アンプ１６は、Ｄ／Ａ変換部１５から出力されたアナログ信号を増幅し、スピーカ３１から音として出力する。

次に、本実施形態の動作について説明する。マスカ音生成装置１０のＣＰＵ２２は、人感センサ３０から領域Ａ内に話者が進入したことを示す検知信号Ｓ_ＩＮが与えられると、取得処理と生成処理とを実行する。取得処理では、ＣＰＵ２２は、「男性，高音」の属性情報と対応付けられた音信号Ｓ、「男性，中音」の属性情報と対応付けられた音信号Ｓ、「男性，低音」の属性情報と対応付けられた音信号Ｓ、「女性，高音」の属性情報と対応付けられた音信号Ｓ、「女性，中音」の属性情報と対応付けられた音信号Ｓ、および「女性，低音」の属性情報と対応付けられた音信号Ｓを音データベース２１から１種類ずつ選び、これら６種類の音信号Ｓを同データベース２１から取得してＲＡＭ２３に格納する。以下では、説明の便宜のため、この取得処理によってＲＡＭ２３に格納された６種類の音信号Ｓの各々を音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，Ｓｆと記す。

生成処理では、ＣＰＵ２２は、６種類の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを処理対象として図４に示すステップＳ１００〜ステップＳ１２０の処理を行い、以降は図４に示すステップＳ１３０〜ステップＳ１９０のループ処理を時間長Ｔ２（例えば、Ｔ２＝１分間とする）毎に繰り返す。以下、ステップＳ１００〜ステップＳ１９０の処理の詳細について説明する。

まず、ＣＰＵ２２は、図５（Ａ）に示すように、６種類の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを、各々が時間長Ｔ３（例えば、Ｔ３＝１００ミリ秒とする）の長さを有するＮ個（Ｎ＝Ｔ１／Ｔ３）のフレームＦ_ｉ（ｉ＝１〜Ｎ）に分割する（Ｓ１００）。なお、図５（Ａ）では、図面が煩雑になるのを防ぐため、Ｎ＝１５の場合が図示されている

ＣＰＵ２２は、図５（Ｂ）に示すように、フレーム内逆転処理を行う（Ｓ１１０）。フレーム内逆転処理は、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆの各々におけるフレームＦ_ｉ内のサンプルデータの配列を逆転させた音信号Ｓａ_Ｒ，Ｓｂ_Ｒ，Ｓｃ_Ｒ，Ｓｄ_Ｒ，Ｓｅ_Ｒ，及びＳｆ_Ｒを生成する処理である。

ＣＰＵ２２は、フレーム内逆転処理を終えると、図５（Ｃ）に示すように、フレーム内逆転処理の処理結果である音信号Ｓａ_Ｒ，Ｓｂ_Ｒ，Ｓｃ_Ｒ，Ｓｄ_Ｒ，Ｓｅ_Ｒ，及びＳｆ_Ｒに窓関数ωを乗算する（Ｓ１２０）。この窓関数ωは、分割したフレームＦ_ｉ間の結合を円滑にする波形整形のためのものである。

次に、ＣＰＵ２２は、図５（Ｄ）に示すように、窓関数ωを乗算した音信号Ｓａ_Ｗ，Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗを処理対象としてフレーム並べ替え処理を行う（Ｓ１３０）。フレーム並べ替え処理では、ＣＰＵ２２は、音信号Ｓａ_Ｗ，Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗの各々のフレームＦ_ｉ（ｉ＝１〜１５）の配列をランダムに並べ替えた音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを生成する。

以下、音信号Ｓａ_Ｗを処理対象とするフレーム並べ替え処理を例にとり、その具体的な手順について説明する。ＣＰＵ２２は、音信号Ｓａ_Ｗを分割したフレーム数Ｎが１５である場合、１〜１５までの数字からなる乱数列を発生する。そして、１５個の乱数を先頭から順番に読んで行き、最初の乱数が８であれば並び替え前の１番目のフレームを並び替え後の８番目のフレームとし、２番目の乱数が４であれば並び替え前の２番目のフレームを並び替え後の４番目のフレームとし…、というようにして、乱数列に応じてフレームの並び替え後の順番を決定して行く。そして、１番目〜１５番目のフレームを並び替えたものを音信号Ｓａ_Ｓとする。ここで、本実施形態では、並び替え方法を変更するために、乱数の並びの異なった複数種類の乱数列（Ｎ＝１５である場合は、いずれも１５個の乱数からなる乱数列）を用意する。そして、フレーム並び替え処理の度に、並び替えに使用する乱数列の種類を変更する。
ＣＰＵ２２は、音信号Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗを処理対象とするフレーム並べ替え処理も同様にして行う。

フレーム並べ替え処理を終えると、ＣＰＵ２２は、音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを処理対象とする音響効果付与処理を行う（Ｓ１４０）。音響効果付与処理では、ＣＰＵ２２は、フレーム並べ替え処理の処理結果として生成した音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓに所定の音響効果（例えば、リバーブとする）を付与した音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’を生成する。音響効果付与処理を終えると、ＣＰＵ２２は、ミキシング処理を行う（Ｓ１５０）。ミキシング処理では、ＣＰＵ２２は、音響効果付与処理を施した音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’を所定のミキシング比率（例えば、１：１：１：１：１：１とする）でミキシングし、このミキシングした信号をマスカ音信号Ｍとする。ミキシング処理を終えると、ＣＰＵ２２は、話速変換処理を行う（Ｓ１６０）。話速変換処理では、ＣＰＵ２２は、ミキシング処理によって生成された時間長Ｔ１分のマスカ音信号Ｍの時間軸を伸長して時間長Ｔ１’（Ｔ１’＞Ｔ１）分のマスカ音信号Ｍとする。より具体的に説明すると、この話速変換処理では、ＣＰＵ２２は、処理対象であるマスカ音信号ＭにおけるフレームＦ_ｉ（ｉ＝１〜１５）のうち音波形の立ち上がり部分と立ち下り部分とを除いた定常部分のフレームＦ_ｉを時間長Ｔ１と時間長Ｔ１’の時間差を埋め合わせるのに必要な数だけ複製し、この複製したフレームＦ_ｉ’を定常部分のフレームＦ_ｉおよびＦ_ｉ＋１間に挿入する。

ＣＰＵ２２は、話速変換処理を施したマスカ音信号Ｍを出力してバッファ１３に上書きする（Ｓ１７０）。ＣＰＵ２２は、人感センサ３０から領域Ａ外に話者が退出したことを示す検知信号Ｓ_ＯＵＴが与えられることなく（Ｓ１８０：Ｎｏ）、ステップＳ１３０の実行時から時間長Ｔ２（Ｔ２＝１分間）が経過すると（Ｓ１９０：Ｙｅｓ）、ステップＳ１３０に戻って以降の処理を繰り返す。一方、人感センサ３０から検知信号Ｓ_ＯＵＴが与えられると（Ｓ１８０：Ｙｅｓ）、放音制御部１４にマスカ音信号Ｍの読み出しの停止を指示して処理を終了する。

以上説明した本実施形態によると、次の効果が得られる。
第１に、本実施形態では、６種類の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆからマスカ音信号Ｍを生成する。よって、領域Ａ内に異なる声の特徴をもった複数人の話者がいる場合でも、領域Ｂ内において高いマスキング効果を発生させることができる。

第２に、本実施形態では、音信号Ｓａ_Ｗ，Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗを処理対象とするフレーム並べ替え処理を時間長Ｔ２毎に繰り返し、フレーム並べ替え処理によってフレームＦ_ｉ（ｉ＝１〜１５）の配列をランダムに変えた音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓをマスカ音信号Ｍとして領域Ｂ内に放音する。また、本実施形態では、フレーム並べ替え処理（ステップＳ１３０）に進む都度、フレームの並び替え方法を変更する。この結果、領域Ｂ内に放音されるマスカ音信号Ｍの聴感が時間長Ｔ２毎に変化する。よって、同じフレームＦ_ｉ（ｉ＝１〜１５）の配列のマスカ音信号Ｍを領域Ｂ内へ長時間に渡って放音し続けた場合に比べて、領域Ｂ内の者に違和感を与え難くすることができる。

第３に、本実施形態では、音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’をミキシングしてマスカ音信号Ｍとした後、そのマスカ音信号Ｍの時間軸を伸長してから領域Ｂに放音する。人の音声を示す音信号に対してその配列を変更する処理（ステップＳ１１０およびステップＳ１３０）を施した場合、通常であれば処理が施された音信号は早口で話している人の音声と似通った音の特徴を持つようになる。しかし、本実施形態によると、そのような早口の話声が聞えているとの印象を和らげることができる。また、本実施形態によれば、配列を変更した場合に早口の印象となり難いような音信号を厳選して音データベース２１に記憶させておく必要もなくなる。

第４に、本実施形態では、６種類の音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’をミキシングしてから音響効果を付与する。このようにして音響効果が付与されたマスカ音信号Ｍは、領域Ｂ内の伝搬によって空間的な音響効果（残響）が付与された話声（ターゲット音Ｔ）と音響的に類似したものとなる。従って、マスカ音を放音する領域内の者に違和感を与えることなくその領域内において高いマスキング効果を得ることができる。

＜第２実施形態＞
次に、本発明の第２実施形態について説明する。図６に示すように、本実施形態における生成処理では、ＣＰＵ２２は、ステップＳ１３０のフレーム並べ替え処理を行った後、このフレーム並べ替え処理によってフレームＦ_ｉ（ｉ＝１〜１５）を並べ替えた音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを処理対象とし、ステップＳ１４０〜ステップＳ１９０のループ処理を時間長Ｔ２毎に繰り返す。この場合において、ＣＰＵ２２は、各ループ処理におけるステップＳ１４０の音響効果付与処理の度に、音響効果であるリバーブの深さ（直接音と残響音のレベル比）をランダムに変える。より具体的に説明すると、図７に示すように、ＣＰＵ２２は、音響効果付与処理では、音信号Ｓａ_Ｓから残響音信号ＲＳａ_Ｓを生成する処理を行う。この処理では、音信号Ｓａ_Ｓを遅延させた遅延音信号ＤＳａ_Ｓ−ｎ（ｎ＝１，２，…）を求め、遅延音信号ＤＳａ_Ｓ−ｎ（ｎ＝１，２，…）を加算したものを残響音信号ＲＳａ_Ｓとする。次に、乱数を発生し、この乱数と残響音信号ＲＳａ_Ｓの積を音信号Ｓａ_Ｓに加算したものを、音響効果を付与した音信号Ｓａ_Ｓ’とする。以下、同様に、ＣＰＵ２２は、個別に発生した乱数の各々と残響音信号ＲＳｂ_Ｓ，ＲＳｃ_Ｓ，ＲＳｄ_Ｓ，ＲＳｅ_Ｓ，及びＲＳｆ_Ｓの積を音信号Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓの各々に加算したものを、音信号Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’とする。

本実施形態では、音響効果付与処理（Ｓ１４０）の内容を時間長Ｔ２毎に変更するので、領域Ｂ内に放音されるマスカ音信号Ｍの聴感が時間長Ｔ２毎に変化する。よって、領域Ｂ内の者に違和感を与え難くすることができる。

＜第３実施形態＞
次に、本発明の第３実施形態について説明する。図８に示すように、本実施形態における生成処理では、ＣＰＵ２２は、ステップＳ１４０の音響効果付与処理を行った後、この音響効果付与処理によって音響効果を付与した音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’を処理対象とし、ステップＳ１５０〜ステップＳ１９０のループ処理を時間長Ｔ２毎に繰り返す。この場合において、ＣＰＵ２２は、各ループ処理におけるステップＳ１５０のミキシング処理の度に、Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’のミキシング比率をランダムに変える。より具体的に説明すると、ＣＰＵ２２は、ミキシング処理では、６種類の乱数（０を除く）を発生し、それらの乱数の各々を音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’の各々のミキシング比率とする。

本実施形態では、ミキシング処理（ステップＳ１５０）の内容を時間長Ｔ２毎に変更するので、領域Ｂ内に放音されるマスカ音信号Ｍの聴感が時間長Ｔ２毎に変化する。よって、領域Ｂ内の者に違和感を与え難くすることができる。

＜第４実施形態＞
次に、本発明の第４実施形態について説明する。図９に示すように、本実施形態における生成処理では、ＣＰＵ２２は、ステップＳ１５０におけるミキシング処理を行った後、ステップＳ１６０〜ステップＳ２００のループ処理を時間長Ｔ２毎に繰り返す。このループ処理におけるステップＳ１６０〜ステップＳ１９０までの内容は第１実施形態のステップＳ１６０〜ステップＳ１９０までの内容と同じである。即ち、ＣＰＵ２２は、人感センサ３０から領域Ａ外に話者が退出したことを示す検知信号Ｓ_ＯＵＴが与えられることなく（Ｓ１８０：Ｎｏ）、時間長Ｔ２が経過すると（Ｓ１９０：Ｙｅｓ）、ステップＳ２００に進む。

ステップＳ２００では、ＣＰＵ２２は、ステップＳ１５０のミキシング処理の処理結果であるマスカ音信号Ｍを処理対象としてフレーム並べ替え処理を行う。このステップＳ２００のフレーム並べ替え処理では、ＣＰＵ２２は、マスカ音信号Ｍを再びフレームＦ_ｉ（ｉ＝１〜１５）に分割し、分割したフレームＦ_ｉ（ｉ＝１〜１５）をランダムに並べ替えたマスカ音信号Ｍを生成する。ステップＳ２００のフレーム並べ替え処理を実行した後、ＣＰＵ２２は、ステップＳ１６０に戻り、新たに生成したマスカ音信号Ｍに話速変換処理を施し、ステップＳ１７０に進んでそのマスカ音信号Ｍをバッファ１３に上書きする。

本実施形態では、時間長Ｔ２毎にフレームの並べ替え方法を変更するので、領域Ｂ内に放音されるマスカ音信号Ｍの聴感が時間長Ｔ２毎に変化する。よって、領域Ｂ内の者に違和感を与え難くすることができる。

＜第５実施形態＞
次に、本発明の第５実施形態について説明する。図１０に示すように、本実施形態における生成処理では、ＣＰＵ２２は、ステップＳ１６０における話速変換処理を行った後、ステップＳ１７０〜ステップＳ２００のループ処理を時間長Ｔ２毎に繰り返す。このループ処理におけるステップＳ２００のフレーム並べ替え処理では、ＣＰＵ２２は、ステップＳ１６０の話速変換処理によって時間軸を伸長したマスカ音信号Ｍを処理対象としてフレーム並べ替え処理を行う。このステップＳ２００のフレーム並べ替え処理の内容は、第４実施形態における同処理の内容と同じである。

本実施形態においても、時間長Ｔ２毎にフレームの並び替え方法を変更するので、領域Ｂ内に放音されるマスカ音信号Ｍの聴感が時間長Ｔ２毎に変化する。よって、領域Ｂ内の者に違和感を与え難くすることができる。

以上、この発明の第１〜第５実施形態について説明したが、この発明には他にも実施形態があり得る。例えば、以下の通りである。
（１）上記第１〜第５実施形態のマスカ音生成装置１０において、性別や声の高さなどの複数種類の属性の各々について複数の選択項目を提示し、少なくとも１種類の属性の選択項目の選択を受け付ける選択支援手段を有し、ＣＰＵ２２は、この選択支援手段によって選択された選択項目の属性を持った人物を収録元とする一又は複数種類の音信号Ｓを音データベース２１から読み出し、読み出した音信号Ｓを素材としてマスカ音信号Ｍを生成してもよい。

この実施形態は、例えば次のようして実現する。まず、音データベース２１には、高音の男性、中音の男性、及び低音の男性の音声をミキシングしたものと「男性」の属性情報、高音の女性、中音の女性、及び低音の女性の音声をミキシングしたものと「女性」の属性情報、高音の男女の音声をミキシングしたものと「高音」の属性情報、中音の男女の音声をミキシングしたものと「中音」の属性情報、低音の男女の音声をミキシングしたものと「低音」の属性情報を各々対応付けて記憶しておく。

そして、ＣＰＵ２２は、性別の選択項目（男性，女性）の１つが操作支援手段によって選択された場合は、「男性」と「女性」のうち選択された属性情報と対をなす音信号Ｓを音データベース２１から読み出し、この音信号Ｓを素材としてマスカ音信号Ｍを生成する。また、ＣＰＵ２２は、声の高さの選択項目（高音、中音、低音）の１つが操作支援手段によって選択された場合は、「高音」、「中音」、「低音」のうち選択された属性情報と対をなす音信号Ｓを音データベース２１から読み出し、この音信号Ｓを素材としてマスカ音信号Ｍを生成する。

この実施形態によると、利用者が、自身についての複数種類の属性のうちの一部の種類の選択項目だけを指定した場合でも、その利用者の音声に対して高いマスキング効果を発生するマスカ音信号Ｍを生成することができる。また、他の種類の属性情報（例えば、言語や年齢）と対応付けた複数種類の音信号Ｓを音データベース２１に記憶し、操作手段の指定に応じて選択したものをマスカ音信号Ｍの素材としてもよい。

（２）上記第１〜第５実施形態の音響効果付与処理において、ディレイ、ハーモニー、ディストーションなどといったリバーブ以外の種類の音響効果を音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓに付与してもよい。

（３）上記第１〜第５実施形態において、ステップＳ１１０とステップＳ１２０の処理の順序を逆にし、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆの各々におけるフレームＦ_ｉに窓関数ωを乗算してから各々のフレームＦ_ｉ内のサンプルデータの配列を逆転させてもよい。

（４）上記第２実施形態において、音響効果付与処理の繰り返しの度に、６種類の音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓのうち音響効果を付与するものと音響効果を付与しないものの組合せを変えてもよい。また、音響効果付与処理の繰り返しの度に、６種類の音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓの各々に付与する音響効果の種類を変えてもよい。また、音響効果付与処理の繰り返しの度に、６種類の音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓの各々のフレームＦ_ｉ（ｉ＝１〜１５）のうち音響効果を付与するフレームＦ_ｉと音響効果を付与しないフレームＦ_ｉの組合せを変えてもよい。

（５）上記第１実施形態では、音信号Ｓａ_Ｗ，Ｓｂ_Ｗ，Ｓｃ_Ｗ，Ｓｄ_Ｗ，Ｓｅ_Ｗ，及びＳｆ_Ｗの各々を処理対象とするフレーム並べ替え処理を時間長Ｔ２毎に繰り返した。しかし、フレーム並べ替え処理を複数種類の音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆに固有の相異なる時間長Ｔ２_ａ，Ｔ２_ｂ，Ｔ２_ｃ，Ｔ２_ｄ，Ｔ２_ｅ，Ｔ２_ｆ毎に繰り返してもよい。この場合において、時間長Ｔ２_ａ，Ｔ２_ｂ，Ｔ２_ｃ，Ｔ２_ｄ，Ｔ２_ｅ，Ｔ２_ｆを互いに素な関係にある長さ（１：３：５などの互いに素数比となる長さ）にするとよい。このようにすれば、領域Ｂ内に放音するマスカ音Ｍの聴感が変わる周期が実質的に長くなり、領域Ｂ内の者に違和感をより一層与え難くすることができる。同様に、第２実施形態におけるステップＳ１４０の音響効果付与処理の繰り返し、第３実施形態におけるステップＳ１５０のミキシング処理の繰り返し、第４および第５実施形態におけるステップＳ２００のフレーム並べ替え処理の繰り返しを時間長Ｔ２_ａ，Ｔ２_ｂ，Ｔ２_ｃ，Ｔ２_ｄ，Ｔ２_ｅ，Ｔ２_ｆ毎に行ってもよい。

（６）上記第１〜第５実施形態では、ループ処理を繰り返す時間長Ｔ２をマスカ音信号Ｍの材料となる音声の時間長Ｔ１よりも長くした（Ｔ２＝１分間、Ｔ１＝３０秒）。しかし、時間長Ｔ２を時間長Ｔ１と同じ長さにしてもよい。また、時間長Ｔ２を時間長Ｔ１’（話速変換処理を経たマスカ音信号Ｍの長さ）と同じ長さにしてもよい。また、ループ処理の繰り返す時間長Ｔ２を乱数を用いてランダムに決定してもよい。

（７）上記第１〜第５実施形態では、６種類の音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓの全てを処理対象として音響効果付与処理（Ｓ１４０）を行った。しかし、６種類の音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓのうち一部の種類のものを処理対象として音響効果付与処理を行ってもよい。

（８）上記第１〜第５実施形態では、６種類の音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓの全てを処理対象として、フレーム内逆転処理（Ｓ１１０）、窓関数を乗算する処理（Ｓ１２０）、フレーム並べ替え処理（Ｓ１３０）、および音響効果付与処理（Ｓ１４０）の各処理を行い、処理結果である音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，Ｓｄ_Ｓ’，Ｓｅ_Ｓ’，及びＳｆ_Ｓ’をミキシングしたものをマスカ音信号Ｍとした。しかし、６種類の音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓのうち一部の種類のもの（例えば、音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓとする）についてはステップＳ１１０〜ステップＳ１４０の各処理を行う一方で、残りの音信号Ｓｅ_Ｓ，及びＳｆ_Ｓについては、ステップＳ１１０〜ステップＳ１４０の何れの処理も行わず、ステップＳ１１０〜ステップＳ１４０の各処理を行った処理結果である音信号Ｓａ_Ｓ’，Ｓｂ_Ｓ’，Ｓｃ_Ｓ’，およびＳｄ_Ｓ’と音信号Ｓｅ_ＳおよびＳｆ_Ｓをミキシングしたものをマスカ音信号Ｍとしてもよい。この場合において、音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓのうちの一部または全部の種類の音信号について、フレーム内逆転処理（Ｓ１１０）、窓関数を乗算する処理（Ｓ１２０）、またはフレーム並べ替え処理（Ｓ１３０）までを行った処理結果をミキシングの対象としてもよい。

（９）上記第１〜第５実施形態では、フレーム内逆転処理（Ｓ１１０）の後にフレーム並べ替え処理（Ｓ１３０）を行った。しかし、フレーム並べ替え処理の後にフレーム内逆転処理を行ってもよい。

（１０）上記第１〜第５実施形態において、６種類の音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓをまずミキシングし、ミキシングした音信号を処理対象としてステップＳ１１０〜ステップＳ１４０の各処理行い、ステップＳ１１０〜ステップＳ１４０の各処理の処理結果をマスカ音信号Ｍとしてもよい。

（１１）第１〜第５実施形態では、領域Ａ内への話者の進入を人感センサ３０が検知する度に音データベース２１から音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを読み出し、音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを処理対象としてステップＳ１００〜ステップＳ１９０の各処理を行って得たマスカ音信号Ｍを領域Ｂに放射した。しかし、ステップＳ１００〜ステップＳ１９０の各処理を行って得たマスカ音信号Ｍをメモリに記憶させ、以降は、話者の進入を人感センサ３０が検知する度にメモリ内のマスカ音信号Ｍを読み出して領域Ｂに繰り返し放射するようにしてもよい。この場合において、時間長Ｔ１（Ｔ１＝３０秒）の長さの音信号Ｓａ_Ｓ，Ｓｂ_Ｓ，Ｓｃ_Ｓ，Ｓｄ_Ｓ，Ｓｅ_Ｓ，及びＳｆ_Ｓを素材として、図４，図６，図８，図９，または図１０の一連の処理を複数回繰り返すことにより、時間長Ｔ１よりも十分に長い時間長Ｔ４（例えば、Ｔ４＝１０分）分のマスカ音信号Ｍを生成し、この時間長Ｔ４分のマスカ音信号Ｍをメモリに記憶させて利用してもよい。

（１２）上記第１〜第５実施形態は、衝立５０により仕切られた領域Ａから外部の領域Ｂへの音声の漏れ聞こえの防止に本発明を適用したものであった。しかし、衝立５０などが間に介在しない２つの領域Ａ’およびＢ’のうち一方の領域Ａ’（またはＢ’）で発生した音を他方の領域Ｂ’（またはＡ’）で聞こえ難くする用途に本発明を適用してもよい。また、４方の壁と天井とにより外部と区切られた部屋にマスカ音生成装置１０を設置し、このマスカ音生成装置１０によって生成したマスカ音信号Ｍを壁の外側の領域に向けて放音するようにしてもよい。また、異なる空間に居る者同士の通話を実現させる通話装置（例えば、携帯電話、ＩＰ電話、インターフォン等）における各話者の話声を周りに聞こえ難くする用途に本発明を適用してもよい。この実施形態は、例えば、通話装置に第１〜第５実施形態のマスカ音生成装置１０を内蔵し、マスカ音生成装置１０が生成したマスカ音信号Ｍを話者の周りに放音することによって実現可能である。この場合において、発話者にイヤホンを装着させたり通話装置のスピーカの指向性を制御することにより、マスカ音信号Ｍが通話の相手方まで伝送されて会話が混乱する事態を防ぐようにするとなおよい。

（１３）上記第１〜第５実施形態において、領域Ａにマイクロホンを設置してもよい。この場合において、ＣＰＵ２２は、取得処理では、この領域Ａのマイクロホンが収音した音信号を取得し、生成処理では、その取得した音信号からマスカ音信号Ｍを生成するとよい。

（１４）上記第１〜第５実施形態において、人感センサ３０は、音響センサ（例えば、音波を検出するマイクロホン、振動を検出する振動ピックアップなど）であってもよいし、生体センサ（例えば、生体の熱を検出する感熱センサ、生体の赤外線を検出する赤外線センサなど）であってもよい。また、（１５）に示したマイクロホンの機能と人感センサ３０の機能とを兼ね備えた収音・検知装置を領域Ａに設置し、収音・検知装置によって領域Ａ内に話者が進入したことが検知された場合に、同装置が以降に収音した音信号を素材としてマスカ音信号Ｍを生成するようにしてもよい。

（１６）上記第１〜第５実施形態において、ハードディスク１１をマスカ音生成装置１０の外部要素としてもよい。この実施形態では、外部の記憶装置内の音データベース２１からネットワークを経由して音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを取得し、この音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを素材としてマスカ音信号Ｍを生成するとよい。また、バッファ１３、放音制御部１４、Ｄ／Ａ変換部１５、およびアンプ１６のうち全部または一部をマスカ音生成装置１０の外部要素としてもよい。この実施形態では、例えば、音信号Ｓａ，Ｓｂ，Ｓｃ，Ｓｄ，Ｓｅ，及びＳｆを素材として生成したマスカ音信号Ｍを、バッファ１３の役割を果たす外部記憶装置に各種インターフェースを介して出力するとよい。

（１８）上記第１〜第５実施形態では、マスカ音生成装置１０のＣＰＵ２２は、領域Ａ内に話者が進入したことを示す検知信号Ｓ_ＩＮが与えられると、取得処理と生成処理とを実行した。しかし、検知信号Ｓ_ＩＮが与えられた場合に、取得処理と生成処理を実行せず、ハードディスク１１やその他のメモリに予め記憶したマスカ音信号Ｍをスピーカ３１から出力してもよい。

（１９）上記第１〜第５実施形態のフレーム並べ替え処理では、互いに異なる１〜Ｎまでの数字からなる乱数列をフレームの並び替えに使用した。しかし、乱数列の中に同じ乱数が複数回現れるような乱数列をフレーム並び替えに使用してもよい。また、最初の乱数が８であれば並び替え前の８番目のフレームを並び替え後の１番目のフレームとし、２番目の乱数が４であれば並び替え前の４番目のフレームを並び替え後の２番目のフレームとし…、というようにして、乱数列に応じて並び替え前のもの中から選び出すフレームを決定するようにしてもよい。

（２０）上記第２実施形態では、ＣＰＵ２２は、音響効果付与処理の度にリバーブの深さ（直接音と残響音の比率）を変更した。しかし、音響効果付与処理の度に残響音の長さ（ディケイ時間）を変更してもよい。この実施形態では、ＣＰＵ２２は、音響効果付与処理の度に、音信号Ｓａ_Ｓを遅延させた遅延音信号ＤＳａ_Ｓ−ｎ（ｎ＝１，２，…）の強さを変更することにより、残響音の長さ（ディケイ時間）を変更してもよいし、音響効果付与処理の度に、音信号Ｓａ_Ｓを遅延させた遅延音信号ＤＳａ_Ｓ−ｎ（ｎ＝１，２，…）の遅延時間を変更することにより、残響音の長さ（ディケイ時間）を変更してもよい。

１０…マスカ音生成装置、１１…ハードディスク、１２…制御部、１３…バッファ、１４…放音制御部、１５…Ｄ／Ａ変換部、１６…アンプ、２１…音データベース、２２…ＣＰＵ、２３…ＲＡＭ、２４…ＲＯＭ、３０…人感センサ、３１…スピーカ。

Claims

音信号を取得する取得手段と、
前記取得手段が取得した音信号の配列順を変更した信号をマスカ音信号として出力する処理を繰り返すとともに、配列順の変更の方法の変更を繰り返す生成手段と
を具備することを特徴とするマスカ音生成装置。
前記生成手段は、前記取得手段が取得した音信号を一定時間長の複数の区間に分割し、分割した各区間を並べ替える並べ替え処理を前記配列順を変更する処理として繰り返し、繰り返しの度に各区間の並べ替えの方法を変えることを特徴とする請求項１に記載のマスカ音生成装置。
前記取得手段は、１種類のマスカ音信号を生成するために複数種類の音信号を取得し、
前記生成手段は、前記複数種類の音信号の種類毎に、当該種類の音信号を一定時間長の複数の区間に分割し、分割した各区間を並べ替える並べ替え処理を前記配列順を変更する処理として繰り返し、前記複数種類の音信号の種類毎に区間の並べ替えの方法を変える
ことを特徴とする請求項１または２に記載のマスカ音生成装置。
前記生成手段は、音信号を分割した各区間内の音信号の配列を逆転させる区間内逆転処理を行い、この区間内逆転処理と前記区間並べ替え処理の両方を経た信号を用いて前記マスカ音信号を生成することを特徴とする請求項２または３に記載のマスカ音生成装置。
コンピュータに、
音信号を取得する取得手段と、
前記取得手段が取得した音信号の配列順を変更した信号をマスカ音信号として出力する処理を繰り返すとともに、配列順の変更の方法の変更を繰り返す生成手段と
を実現させるプログラム。