JP2011154140A - マスカ音生成装置およびプログラム - Google Patents
マスカ音生成装置およびプログラム Download PDFInfo
- Publication number
- JP2011154140A JP2011154140A JP2010014875A JP2010014875A JP2011154140A JP 2011154140 A JP2011154140 A JP 2011154140A JP 2010014875 A JP2010014875 A JP 2010014875A JP 2010014875 A JP2010014875 A JP 2010014875A JP 2011154140 A JP2011154140 A JP 2011154140A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound signal
- masker
- frame
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
【課題】 マスカ音の放音先の領域内の者に違和感を与えることなく、その領域内において高いマスキング効果を得る。
【解決手段】CPU10は、ハードディスク11の音データベース21に記憶されている複数種類の音信号を取得してRAM23に格納し、それら複数種類の音信号の各々を所定時間長毎の複数個のフレームFi(i=1,2…)に分割する。次に、フレームFi(i=1,2…)に対してフレームFi(i=1,2…)毎の平均音量のばらつきを抑えるノーマライズ処理を施す。その後、ノーマライズ処理を施したフレームFi(i=1,2…)のうちの一部のフレームFi内のサンプルデータを逆転させ、そのサンプルデータを逆転させたフレームFiの配列を並べ替える。そして、このフレームFiの配列を並べ替えた複数種類の音信号をミキシングしたものをマスカ音信号Mとして放音する。
【選択図】図1
【解決手段】CPU10は、ハードディスク11の音データベース21に記憶されている複数種類の音信号を取得してRAM23に格納し、それら複数種類の音信号の各々を所定時間長毎の複数個のフレームFi(i=1,2…)に分割する。次に、フレームFi(i=1,2…)に対してフレームFi(i=1,2…)毎の平均音量のばらつきを抑えるノーマライズ処理を施す。その後、ノーマライズ処理を施したフレームFi(i=1,2…)のうちの一部のフレームFi内のサンプルデータを逆転させ、そのサンプルデータを逆転させたフレームFiの配列を並べ替える。そして、このフレームFiの配列を並べ替えた複数種類の音信号をミキシングしたものをマスカ音信号Mとして放音する。
【選択図】図1
Description
本発明は、マスカ音を生成して音の漏れ聞こえを防ぐ技術に関する。
マスキング効果を利用して音の漏れ聞こえを防ぐ技術が各種提案されている。マスキング効果は、2種類の音信号を同じ空間内に伝搬させた場合に、空間内の者が、2種類の音信号の音響的特徴(周波数成分,時間波形等)の関係に応じてそれらの音信号に気づき難くなる現象である。この種の技術の多くは、話者が居る領域と壁や衝立を介して隣接している領域に向けて話者の話声の聞き取りを妨げるマスカ音を放音するものである。そして、この場合のマスカ音は、広い帯域にスペクトルを有するノイズ音でもよいが、聞き取りを妨げる対象となる音(以下、ターゲット音という)と類似した特徴を持った音の方が高いマスキング効果の得られることが知られている。
特許文献1には、人の話声の音波形を加工することによってその人の話声の聞き取りを妨げるマスカ音を生成する技術の開示がある。同文献に開示されたマスキングシステムは、部屋のマイクロホンによって収音した話者の話声の音信号をその話声の各音節に相当する時間長の区間に分割し、各区間内のサンプルデータを逆転させるとともにそれらの区間の配列を並べ替えたものをマスカ音信号とし、このマスカ音信号を隣の部屋に放音する。この方法により生成されるマスカ音の音質は話者の話声の音質と似通ったものとなるが、隣の部屋の者がそのマスカ音から元の話声の内容を理解することは困難である。従って、ターゲット音が漏れている領域にこのマスカ音を放音することにより、その領域内において高いマスキング効果が得られる。
しかしながら、人の話声の音波形のサンプルデータを逆転させた音波形は、元の音波形のものとは異なる不自然なアクセントを持ったものになる。このため、人の話声の音波形のサンプルデータを逆転させた音波形をマスカ音として放音し続けていると、放音先の領域内の者に違和感を与えてしまうという問題があった。
本発明は、このような背景の下に案出されたものであり、マスカ音の放音先の領域内の者に違和感を与えることなく、その領域内において高いマスキング効果を得ることを目的とする。
本発明は、このような背景の下に案出されたものであり、マスカ音の放音先の領域内の者に違和感を与えることなく、その領域内において高いマスキング効果を得ることを目的とする。
本発明は、音信号を取得する取得手段と、前記取得手段が取得した音信号の配列順を変更した信号をマスカ音信号として出力する生成手段とを具備し、前記生成手段は、前記マスカ音信号を生成する過程において、当該マスカ音信号の音量の時間変動を所定範囲内にするノーマライズ処理を実行するマスカ音生成装置を提供する。
この発明によって得られるマスカ音信号は、ノーマライズ処理を施さないで得られるマスカ音信号よりも不自然なアクセントを感じ難い。よって、この発明によって生成したマスカ音信号をターゲット音と同じ領域に放音することにより、その領域内の者に違和感を与えることなく高いマスキング効果を得ることができる。
また、本発明は、コンピュータに、音信号を取得する取得手段と、前記取得手段が取得した音信号の配列順を変更した信号をマスカ音信号として出力する生成手段とを実現させ、前記マスカ音信号を生成する過程において、当該マスカ音信号の音量の時間変動を所定範囲内にするノーマライズ処理を実行させることを特徴とするプログラムを提供する。
以下、図面を参照しつつ本発明の実施形態について説明する。
<第1実施形態>
図1は、本発明の第1実施形態であるマスカ音生成装置10の構成を示すブロック図である。図2は、マスカ音生成装置10の設置の態様の一例を示す図である。図2の例に示すように、マスカ音生成装置10は、衝立50によって外部と仕切られた領域Aに設置される。この領域Aには、領域A内への話者の進入および領域A外への話者の退出を検知する人感センサ30が設けられている。マスカ音生成装置10は、人感センサ30が領域A内に話者が進入したことを検知してから話者が領域A外に退出したことを検知するまでの間、領域Aから衝立50を超えてその外側の領域Bに伝搬される話声をターゲット音Tとし、このターゲット音Tの聴取を妨げるマスカ音信号Mを領域Bのスピーカ31から放音する。
<第1実施形態>
図1は、本発明の第1実施形態であるマスカ音生成装置10の構成を示すブロック図である。図2は、マスカ音生成装置10の設置の態様の一例を示す図である。図2の例に示すように、マスカ音生成装置10は、衝立50によって外部と仕切られた領域Aに設置される。この領域Aには、領域A内への話者の進入および領域A外への話者の退出を検知する人感センサ30が設けられている。マスカ音生成装置10は、人感センサ30が領域A内に話者が進入したことを検知してから話者が領域A外に退出したことを検知するまでの間、領域Aから衝立50を超えてその外側の領域Bに伝搬される話声をターゲット音Tとし、このターゲット音Tの聴取を妨げるマスカ音信号Mを領域Bのスピーカ31から放音する。
図1において、マスカ音生成装置10は、ハードディスク11、制御部12、バッファ13、放音制御部14、D/A変換部15、およびアンプ16を有する。ハードディスク11は、音データベース21を記憶している。音データベース21は、様々な声の特徴を持った人物から収録した時間長T1(例えば、T1=30秒とする)分の音声と対応する複数のレコードの集合体である。図3に示すように、このデータベース21における1つの音声と対応するレコードは、その音声の時間長T1分の音信号Sを示す「音声」のフィールドと、その音声の属性情報を示す「属性」のフィールドとを有する。属性情報は、音声の収録元の人物の性別と声の高さ(高音、中音、低音)の組み合わせを示す情報である。属性情報には、「男性,高音」、「男性,中音」、「男性,低音」、「女性,高音」、「女性,中音」、「女性,低音」の6種類がある。
制御部12は、CPU22、RAM23、およびROM24を有する。CPU22は、RAM23をワークエリアとして利用しつつ、ROM24に記憶されたマスカ音生成プログラム25を実行する。マスカ音生成プログラム25は、取得処理と生成処理の2つの処理をCPU22に実行させるプログラムである。取得処理は、音データベース21から複数種類の音信号Sを取得してRAM23に格納する処理である。生成処理は、RAM23に格納された音信号Sの配列順を変更した信号をマスカ音信号Mとし、このマスカ音信号Mを出力してバッファ13に上書きする処理である。取得処理と生成処理の詳細については、後述する。放音制御部14は、バッファ13に書き込まれている最新のマスカ音信号Mを読み出してD/A変換部15に出力する処理を繰り返す回路である。D/A変換部15は、放音制御部14を介して出力されたマスカ音信号Mをアナログ信号に変換し、アンプ16に出力する。アンプ16は、D/A変換部15から出力されたアナログ信号を増幅し、スピーカ31から音として出力する。
次に、本実施形態の動作について説明する。マスカ音生成装置10のCPU22は、人感センサ30から領域A内に話者が進入したことを示す検知信号SINが与えられると、取得処理と生成処理とを実行する。取得処理では、CPU22は、「男性,高音」の属性情報と対応付けられた音信号S、「男性,中音」の属性情報と対応付けられた音信号S、「男性,低音」の属性情報と対応付けられた音信号S、「女性,高音」の属性情報と対応付けられた音信号S、「女性,中音」の属性情報と対応付けられた音信号S、および「女性,低音」の属性情報と対応付けられた音信号Sを音データベース21から1種類ずつ選び、これら6種類の音信号Sを同データベース21から取得してRAM23に格納する。以下では、説明の便宜のため、この取得処理によってRAM23に格納された6種類の音信号Sの各々を音信号Sa,Sb,Sc,Sd,Se,Sfと記す。
生成処理では、CPU22は、6種類の音信号Sa,Sb,Sc,Sd,Se,及びSfを処理対象として図4に示すステップS100〜ステップS130の処理を行い、以降は図4に示すステップS140〜ステップS200のループ処理を時間長T2(例えば、T2=1分間とする)毎に繰り返す。以下、ステップS100〜ステップS200の処理の詳細について説明する。
まず、CPU22は、図5(A)に示すように、6種類の音信号Sa,Sb,Sc,Sd,Se,及びSfを、各々が時間長T3(例えば、T3=100ミリ秒とする)の長さを有するN個(N=T1/T3)のフレームFi(i=1〜N)に分割する(S100)。なお、図5(A)の例では、図面が煩雑になるのを防ぐため、N=15の場合が図示されている。
次に、CPU22は、図5(B)に示すように、ノーマライズ処理を行う(S110)。このノーマライズ処理は、音信号Sa,Sb,Sc,Sd,Se,及びSfの各々について、各フレームFiの音量の時間変動を所定範囲内にするために各フレームFi内のサンプルデータを補正する処理である。
以下、音信号Saを処理対象とするノーマライズ処理を例にとり、その具体的な手順について説明する。ノーマライズ処理では、CPU22は、音信号Saを区切ったフレームFi(i=1〜15)内の各サンプルデータにピークレベル補正係数MPAEKを乗算する第1の補正処理を行った後、このピークレベル補正係数MPAEKを乗算した各サンプルデータに平均レベル補正係数MAVEを乗算する第2の補正処理を行う。
より詳細に説明すると、第1の補正処理では、CPU22は、音信号Saの全フレームFi(i=1〜15)によって表される時間長T1の音波形の最大ピークを検出し、検出した最大ピークの音量レベルLPEAKを求める。次に、CPU22は、1つのサンプルデータが取り得る音量レベルの最大値を音量レベルLMAXとし、音量レベルLPEAKで音量レベルLMAXを除算した値をピークレベル補正係数MPAEKとする。そして、CPU22は、フレームFi(i=1〜15)内のサンプルデータにピークレベル補正係数MPAEKを乗算する。ここで、この第1の補正処理では、各サンプルデータが音量レベルを対数表現するものである場合は、各サンプルデータを実数表現に戻したものに係数を乗算し、各サンプルデータが音量レベルを実数表現するものである場合は、各サンプルデータそのものに係数を乗算する(第2の補正処理についても同様)。
続く第2の補正処理では、CPU22は、ピークレベル補正係数MPAEKを乗算した音信号SaのフレームFi(i=1〜15)の各々について、当該フレームi内のサンプルデータにより表される時間長T1/15の音波形の平均の音量である平均音量レベルLAVEiを求める。次に、CPU22は、図6に示すように、フレームFi(i=1〜15)について求めた平均音量レベルLAVEi(i=1〜15)のうちの最小値(図6の例では、フレームF5の平均音量レベルLAVE5)を平均音量レベルLAVEi(i=1〜15)の代表値LAVEREFとし、代表値LAVEREFを平均音量レベルLAVEiで除算した各値を各フレームFiの平均レベル補正係数MAVEとする。そして、CPU22は、フレームFi(i=1〜15)における各フレームFi内のサンプルデータにフレームFi毎に求めた平均レベル補正係数MAVEを各々乗算する。
CPU22は、音信号Sb,Sc,Sd,Se,およびSfを処理対象とするノーマライズ処理も同様にして行う。
CPU22は、音信号Sb,Sc,Sd,Se,およびSfを処理対象とするノーマライズ処理も同様にして行う。
CPU22は、図5(C)に示すように、ノーマライズ処理を施した音信号SaN,SbN,ScN,SdN,SeN,及びSfNを処理対象としてフレーム内逆転処理を行う(S120)。フレーム内逆転処理は、音信号SaN,SbN,ScN,SdN,SeN,及びSfNの各々における一部のフレームFi内のサンプルデータの配列を逆転させた音信号SaR,SbR,ScR,SdR,SeR,及びSfRを生成する処理である。
以下、音信号SaNを処理対象とするフレーム内逆転処理を例にとり、その具体的な手順について説明する。まず、CPU22は、音信号SaNのフレームFiの総数の半数(図5(C)の例では、15/2≒7)を、サンプルデータの逆転を要するフレームFiの個数Numとし、Num個の乱数を発生する。そして、音信号SaNにおける全フレームFiのうちこのNum個の乱数の各々が示すフレームFi内のサンプルデータ(図5(C)の例では、フレームF2、フレームF3、フレームF4、フレームF7、フレームF10、フレームF11、およびフレームF14の合計7個のフレームFi内のサンプルデータ)を逆転させたものを音信号SaRとする。
CPU22は、音信号SbN,ScN,SdN,SeN,及びSfNを処理対象とするフレーム内逆転処理も同様にして行う。
CPU22は、音信号SbN,ScN,SdN,SeN,及びSfNを処理対象とするフレーム内逆転処理も同様にして行う。
CPU22は、フレーム内逆転処理を終えると、図5(D)に示すように、フレーム内逆転処理の処理結果である音信号SaR,SbR,ScR,SdR,SeR,及びSfRに窓関数ωを乗算する(S130)。この窓関数ωは、分割したフレームFi間の結合を円滑にする波形整形のためのものである。
次に、CPU22は、図5(E)に示すように、窓関数ωを乗算した音信号SaW,SbW,ScW,SdW,SeW,及びSfWを処理対象としてフレーム並べ替え処理を行う(S140)。フレーム並べ替え処理は、音信号SaW,SbW,ScW,SdW,SeW,及びSfWの各々のフレームFi(i=1〜15)の配列をランダムに並べ替えた音信号SaS,SbS,ScS,SdS,SeS,及びSfSを生成する処理である。
以下、音信号SaWを処理対象とするフレーム並べ替え処理を例にとり、その具体的な手順について説明する。CPU22は、音信号SaWを分割したフレーム数Nが15である場合、1〜15までの数字からなる乱数列を発生する。そして、15個の乱数を先頭から順番に読んで行き、最初の乱数が8であれば並び替え前の1番目のフレームを並び替え後の8番目のフレームとし、2番目の乱数が4であれば並び替え前の2番目のフレームを並び替え後の4番目のフレームとし…、というようにして、乱数列に応じてフレームの並び替え後の順番を決定して行く。そして、1番目〜15番目のフレームを並び替えたものを音信号SaSとする。ここで、本実施形態では、並び替え方法を変更するために、乱数の並びの異なった複数種類の乱数列(N=15である場合は、いずれも15個の乱数からなる乱数列)を用意する。そして、フレーム並び替え処理の度に、並び替えに使用する乱数列の種類を変更する。
CPU22は、音信号SbW,ScW,SdW,SeW,及びSfWを処理対象とするフレーム並べ替え処理も同様にして行う。
CPU22は、音信号SbW,ScW,SdW,SeW,及びSfWを処理対象とするフレーム並べ替え処理も同様にして行う。
フレーム並べ替え処理を終えると、CPU22は、音信号SaS,SbS,ScS,SdS,SeS,及びSfSを処理対象とする音響効果付与処理を行う(S150)。音響効果付与処理では、CPU22は、フレーム並べ替え処理の処理結果として生成した音信号SaS,SbS,ScS,SdS,SeS,及びSfSに所定の音響効果(例えば、リバーブとする)を付与した音信号SaS’,SbS’,ScS’,SdS’,SeS’,及びSfS’を生成する。音響効果付与処理を終えると、CPU22は、ミキシング処理を行う(S160)。ミキシング処理では、CPU22は、音響効果付与処理を施した音信号SaS’,SbS’,ScS’,SdS’,SeS’,及びSfS’を所定のミキシング比率(例えば、1:1:1:1:1:1とする)でミキシングし、このミキシングした信号をマスカ音信号Mとする。ミキシング処理を終えると、CPU22は、話速変換処理を行う(S170)。話速変換処理では、CPU22は、ミキシング処理によって生成された時間長T1分のマスカ音信号Mの時間軸を伸長して時間長T1’(T1’>T1)分のマスカ音信号Mとする。より具体的に説明すると、この話速変換処理では、CPU22は、処理対象であるマスカ音信号MにおけるフレームFi(i=1〜15)のうち音波形の立ち上がり部分と立ち下り部分とを除いた定常部分のフレームFiを時間長T1と時間長T1’の時間差を埋め合わせるのに必要な数だけ複製し、この複製したフレームFi’を定常部分のフレームFiおよびFi+1間に挿入する。
CPU22は、話速変換処理を施したマスカ音信号Mを出力してバッファ13に上書きする(S180)。CPU22は、人感センサ30から領域A外に話者が退出したことを示す検知信号SOUTが与えられることなく(S190:No)、ステップS140の実行時から時間長T2(T2=1分)が経過すると(S200:Yes)、ステップS140に戻って以降の処理を繰り返す。一方、人感センサ30から検知信号SOUTが与えられると(S190:Yes)、放音制御部14にマスカ音信号Mの読み出しの停止を指示して処理を終了する。
以上説明した本実施形態によると、次の効果が得られる。
第1に、本実施形態では、6種類の音信号Sa,Sb,Sc,Sd,Se,及びSfからマスカ音信号Mを生成する。よって、領域A内に異なる声の特徴をもった複数人の話者がいる場合でも、領域B内において高いマスキング効果を発生させることができる。
第1に、本実施形態では、6種類の音信号Sa,Sb,Sc,Sd,Se,及びSfからマスカ音信号Mを生成する。よって、領域A内に異なる声の特徴をもった複数人の話者がいる場合でも、領域B内において高いマスキング効果を発生させることができる。
第2に、本実施形態では、音信号Sa,Sb,Sc,Sd,Se,及びSfにノーマライズ処理を施した後、ノーマライズ処理を施した音信号SaN,SbN,ScN,SdN,SeN,及びSfNの一部のフレームFi内のサンプルデータを逆転させるフレーム内逆転処理とフレームFi(i=1〜15)を並べ替えるフレーム並べ替え処理とを行い、並べ替え処理の処理結果である音信号SaS,SbS,ScS,SdS,SeS,及びSfSをマスカ音信号Mとする。ノーマライズ処理を施した音信号SaN,SbN,ScN,SdN,SeN,及びSfNにフレーム内逆転処理とフレーム並べ替え処理を施して得られる音信号SaS,SbS,ScS,SdS,SeS,及びSfSは、ノーマライズ処理を施していない音信号にそれらの両処理を施して得られるものよりも不自然なアクセントを感じ難い。よって、このようなマスカ音信号Mを領域Bに放音することにより、領域B内の者に違和感を与えることなく高いマスキング効果を得ることができる。
第3に、本実施形態では、音信号SaS,SbS,ScS,SdS,SeS,及びSfSをミキシングしてマスカ音信号Mとした後、そのマスカ音信号Mの時間軸を伸長してから領域Bに放音する。人の音声を示す音信号に対してその配列を変更する処理(ステップS120およびステップS140)を施した場合、通常であれば処理が施された音信号は早口で話している人の音声と似通った音の特徴を持つようになる。しかし、本実施形態によると、そのような早口の話声が聞こえているとの印象を和らげることができる。また、本実施形態によれば、配列を変更した場合に早口の印象となり難いような音信号を厳選して音データベース21に記憶させておく必要もなくなる。
第4に、本実施形態では、6種類の音信号SaS’,SbS’,ScS’,SdS’,SeS’,及びSfS’をミキシングしてから音響効果を付与する。このようにして音響効果が付与されたマスカ音信号Mは、領域B内の伝搬によって空間的な音響効果(残響)が付与された話声(ターゲット音T)と音響的に類似したものとなる。従って、マスカ音を放音する領域内の者に違和感を与えることなくその領域内において高いマスキング効果を得ることができる。
第5に、本実施形態では、音信号SaN,SbN,ScN,SdN,SeN,及びSfNの全フレームFiのうち半数のフレームFiのサンプルデータを逆転させてマスカ音信号Mを生成する。これにより、半数より多い数のフレームFiのサンプルデータを逆転させものや半数より少ない数のフレームFiのサンプルデータを逆転させたものをマスカ音信号Mとするよりも高いマスキング効果を発生させることができる。ここで、本願発明者らは、サンプルデータの逆転を要するフレームFiの個数Numを様々に変えたマスカ音信号Mのマスキング効果を比較したところ、サンプルデータを逆転させるフレームFiとサンプルデータを逆転させないフレームFiの比率を半々程度にした場合に最も高いマスキング効果が得られることを確認した。
<第2実施形態>
次に、本発明の第2実施形態について説明する。図7に示すように、本実施形態における生成処理では、CPU22は、フレーム並べ替え処理の前にノーマライズ処理を実行しない。その代わりに、CPU22は、フレーム並べ替え処理の後に、その処理結果である音信号SaS,SbS,ScS,SdS,SeS,及びSfSを処理対象としてノーマライズ処理を実行する(S141)。
本実施形態によっても、領域B内の者に違和感を与えることなく高いマスキング効果を得ることができる。
次に、本発明の第2実施形態について説明する。図7に示すように、本実施形態における生成処理では、CPU22は、フレーム並べ替え処理の前にノーマライズ処理を実行しない。その代わりに、CPU22は、フレーム並べ替え処理の後に、その処理結果である音信号SaS,SbS,ScS,SdS,SeS,及びSfSを処理対象としてノーマライズ処理を実行する(S141)。
本実施形態によっても、領域B内の者に違和感を与えることなく高いマスキング効果を得ることができる。
以上、この発明の第1および第2実施形態について説明したが、この発明には他にも実施形態があり得る。例えば、以下の通りである。
(1)上記第1および第2実施形態のノーマライズ処理では、CPU22は、音信号Sa,Sb,Sc,Sd,Se,及びSfのフレームFi(i=1〜15)の平均音量レベルLAVEi(i=1〜15)の代表値LAVEREFを決定し、フレームFi(i=1〜15)の平均音量レベルLAVEi(i=1〜15)を代表値LAVEREFと等しくするための補正係数MAVEを求め、フレームFi毎に求めた補正係数MAVEを用いてフレームFi内のサンプルデータを補正した。しかし、CPU22は、フレームFi(i=1〜15)の平均音量レベルLAVEi(i=1〜15)と代表値LAVEREFとの各差分を所定範囲(例えばαとする)内にするための補正係数MAを決定し、フレームFi毎に求めた補正係数MAを用いてフレームFi内のサンプルデータを補正してもよい。
(1)上記第1および第2実施形態のノーマライズ処理では、CPU22は、音信号Sa,Sb,Sc,Sd,Se,及びSfのフレームFi(i=1〜15)の平均音量レベルLAVEi(i=1〜15)の代表値LAVEREFを決定し、フレームFi(i=1〜15)の平均音量レベルLAVEi(i=1〜15)を代表値LAVEREFと等しくするための補正係数MAVEを求め、フレームFi毎に求めた補正係数MAVEを用いてフレームFi内のサンプルデータを補正した。しかし、CPU22は、フレームFi(i=1〜15)の平均音量レベルLAVEi(i=1〜15)と代表値LAVEREFとの各差分を所定範囲(例えばαとする)内にするための補正係数MAを決定し、フレームFi毎に求めた補正係数MAを用いてフレームFi内のサンプルデータを補正してもよい。
以下、音信号Saを処理対象とする場合を例にとり、この実施形態におけるノーマライズ処理の具体的な手順について説明する。まず、CPU22は、音信号Saに対して第1の補正処理を行う。この第1の補正処理の内容は第1および第2実施形態のものと同じである。そして、CPU22は、第2の補正処理を次のようにして行う。
CPU22は、第1の補正処理によってピークレベル補正係数MPAEKを乗算した音信号SaのフレームFi(i=1〜15)の各々について、当該フレームi内のサンプルデータにより表される時間長T1/15の音波形の平均音量レベルLAVEiを求める。次に、CPU22は、平均音量レベルLAVEi(i=1〜15)のうちの最小値LAVEMINと最大値LAVEMAXとを求め、最小値LAVEMINを代表値LAVEREFとする。そして、CPU22は、図8(A)に示すように、代表値LAVEREFから最大値LAVEMAXの範囲内に分布するフレームFi(i=1〜15)の平均音量レベルLAVEi(i=1〜15)の各々を代表値LAVEREFから音量レベルLAVEREF+αの範囲内に写像するための補正係数MA(MAMAX≧MA≧MAMIN)を決定し、各フレームFi毎に決定した補正係数MAを各フレームFi内のサンプルデータに各々乗算する。
ここで、各フレームFi毎の補正係数MAは、例えば、次のように決定する。まず、図8(B)に示すように、フレームFi(i=1〜15)のうち当該フレームFiの平均音量レベルLAVEiが代表値LAVEREFとされたものの補正係数MAMAXを1とし、代表値LAVEREFとの差分が最も大きいもの(平均音量レベルLAVEiが最大値LAVEMAXであるもの)の補正係数MAMINを(LAVEREF+α)/LAVEMAXとする。そして、代表値LAVEREFと最大値LAVEMAXの間の平均音量レベルレベルLAVEiに適用する補正係数MAについては、当該フレームFiの平均音量レベルLAVEiと代表値LAVEREFとの差分が大きいほど補正係数MAMAXから離れ補正係数MAMINに近くなるような値とする。
上記第1および第2実施形態では、全てのフレームFi(i=1〜15)の平均音量レベルLAVEi(i=1〜15)が代表値LAVEREFと一致するような補正処理を施すため、マスカ音信号Mの音量が平坦な感じを与えてしまい、却って不自然になる可能性も考えられる。これに対して、フレームFi(i=1〜15)の平均音量レベルLAVEi(i=1〜15)と代表値LAVEREFとの各差分を所定範囲(例えばαとする)内に抑えてある程度の揺らぎを与えることにより、平坦な感じを和らげ、不自然さを抑えたマスカ音信号Mを生成することができる。
(2)上記第1および第2実施形態のノーマライズ処理において、CPU22は、音信号SaのフレームFi(i=1〜15)の各々の平均音量レベルLAVEi(i=1〜15)のうちの最小値をそれらの代表値LAVEREFとした。しかし、平均音量レベルLAVEi(i=1〜15)のうちの最大値、平均値、または中央値を代表値LAVEREFとしてもよい。
(3)上記第1実施形態では、ステップS130において窓関数ωを乗算した音信号SaW,SbW,ScW,SdW,SeW,及びSfWを処理対象としてノーマライズ処理を行ってもよい。また、第2実施形態では、音響効果付与処理(S150)の処理結果である音信号SaS’,SbS’,ScS’,SdS’,SeS’,及びSfS’を処理対象としてノーマライズ処理を行ってもよい。また、ミキシング処理(S160)によってミキシングされたマスカ音信号Mを処理対象としてノーマライズ処理を行ってもよい。
(5)上記第1および第2実施形態の取得処理では、6種類の音信号Sa,Sb,Sc,Sd,Se,及びSfを取得し、生成処理では、これらの6種類の音信号Sa,Sb,Sc,Sd,Se,及びSfからマスカ音信号Mを生成した。しかし、取得処理において、5種類以下の1または複数種類の音信号Sまたは7種類以上の複数種類の音信号Sを取得し、生成処理では、その1または複数種類の音信号Sからマスカ音信号Mを生成してもよい。
(6)上記第1および第2実施形態において、領域Aにマイクロホンを設置してもよい。この場合において、CPU22は、取得処理では、この領域Aのマイクロホンが収音した音信号を取得し、生成処理では、その取得した音信号からマスカ音信号Mを生成するとよい。
(7)上記第1および第2実施形態において、ステップS120とステップS130の処理の順序を逆にし、音信号Sa,Sb,Sc,Sd,Se,及びSfの各々におけるフレームFiに窓関数ωを乗算してから各々のフレームFi内のサンプルデータの配列を逆転させてもよい。
(8)上記第1および第2実施形態では、領域A内への話者の進入を人感センサ30が検知する度に音データベース21から音信号SaS,SbS,ScS,SdS,SeS,及びSfSを読み出し、音信号SaS,SbS,ScS,SdS,SeS,及びSfSを処理対象としてステップS100〜ステップS190の各処理を行って得たマスカ音信号Mを領域Bに放射した。しかし、ステップS100〜ステップS190の各処理を行って得たマスカ音信号Mをメモリに記憶させ、以降は、話者の進入を人感センサ30が検知する度にメモリ内のマスカ音信号Mを読み出して領域Bに繰り返し放射するようにしてもよい。この場合において、時間長T1(T1=30秒)の長さの音信号SaS,SbS,ScS,SdS,SeS,を素材として、図4または図7の一連の処理を複数回繰り返すことにより、時間長T1よりも十分に長い時間長T6(例えば、T6=10分)分のマスカ音信号Mを生成し、この時間長T6分のマスカ音信号Mをメモリに記憶させて利用してもよい。
(9)上記第1および第2実施形態は、衝立50により仕切られた領域Aから外部の領域Bへの音声の漏れ聞こえの防止に本発明を適用したものであった。しかし、衝立50などが間に介在しない2つの領域A’およびB’のうち一方の領域A’(またはB’)で発生した音を他方の領域B’(またはA’)で聞こえ難くする用途に本発明を適用してもよい。また、4方の壁と天井とにより外部と区切られた部屋にマスカ音生成装置10を設置し、このマスカ音生成装置10によって生成したマスカ音信号Mを壁の外側の領域に向けて放音するようにしてもよい。また、異なる空間に居る者同士の通話を実現させる通話装置(例えば、携帯電話、IP電話、インターフォン等)における各話者の話声を周りに聞こえ難くする用途に本発明を適用してもよい。この実施形態は、例えば、通話装置に第1および第2実施形態のマスカ音生成装置10を内蔵し、マスカ音生成装置10が生成したマスカ音信号Mを話者の周りに放音することによって実現可能である。この場合において、発話者にイヤホンを装着させたり通話装置のスピーカの指向性を制御することにより、マスカ音信号Mが通話の相手方まで伝送されて会話が混乱する事態を防ぐようにするとなおよい。
(10)上記第1および第2実施形態では、音信号SaN,SbN,ScN,SdN,SeN,及びSfNを処理対象とするフレーム内逆転処理(S120)を同様の手順により行った。しかし、サンプルデータを逆転させるフレームFiの個数Numやサンプルデータを逆転させるフレームFiの位置を音信号SaN,SbN,ScN,SdN,SeN,及びSfN毎に変えてもよい。この実施形態によると、サンプルデータを逆転させるフレームFiの個数Numやサンプルデータを逆転させるフレームFiの位置を音信号SaN,SbN,ScN,SdN,SeN,及びSfNのすべてについて同じにしたマスカ音信号Mよりも高いマスキング効果を発生させることができる。
(11)上記第1および第2実施形態では、CPU22は、図5(A)に示すように、音信号Sa,Sb,Sc,Sd,Se,及びSfを時間長T3(T3=100ミリ秒)のフレームFi(i=1〜15)に分割した。しかし、音信号Sa,Sb,Sc,Sd,Se,及びSfを、隣接するフレーム間で互いにオーバーラップ区間を有するフレームFi(i=1〜15)に分割してもよい。この実施形態は、次のようにして実現する。まず、CPU22は、図9に示すように、各々が時間長T1の長さを有する音信号Sa,Sb,Sc,Sd,Se,及びSf(図9では、簡便のため、音信号Saについての処理のみを示す)を、各々の前後に時間長t(t<T3)ずつのオーバーラップ区間を有する時間長T3+2tのフレームFi(i=1〜15)に分割する(S101)。CPU22は、時間長T3+2tのフレームFi(i=1〜15)の各々に、ノーマライズ処理(S110)、フレーム内逆転処理(S120)、窓関数の乗算(S130)の各処理を施す。次に、CPU22は、窓関数を乗算したフレームFi(i=1〜15)を、隣接するフレーム間でクロスフェードするように重ね合わせ(S131)、元の音信号Sa,Sb,Sc,Sd,Se,及びSfと同じ時間長T1の音信号SbW,ScW,SdW,SeW,及びSfWを生成する。そして、CPU22は、音信号SbW,ScW,SdW,SeW,及びSfWを時間長T3のフレームFi(i=1〜15)に分割した後(S132)、この分割したフレームFi(i=1〜15)を処理対象としてフレーム並べ替え処理(S140)を行う。この実施形態によると、より滑らかな音質をもった、違和感な少ないマスカ音信号Mを生成することができる。
(12)上記第1および第2実施形態において、ハードディスク11をマスカ音生成装置10の外部要素としてもよい。この実施形態では、外部の記憶装置内の音データベース21からネットワークを経由して音信号Sa,Sb,Sc,Sd,Se,及びSfを取得し、この音信号Sa,Sb,Sc,Sd,Se,及びSfを素材としてマスカ音信号Mを生成するとよい。また、バッファ13、放音制御部14、D/A変換部15、およびアンプ16のうち全部または一部をマスカ音生成装置10の外部要素としてもよい。この実施形態では、例えば、音信号Sa,Sb,Sc,Sd,Se,及びSfを素材として生成したマスカ音信号Mを、バッファ13の役割を果たす外部記憶装置に各種インターフェースを介して出力するとよい。
(13)上記第1〜第5実施形態のフレーム並べ替え処理では、互いに異なる1〜Nまでの数字からなる乱数列をフレームの並び替えに使用した。しかし、乱数列の中に同じ乱数が複数回現れるような乱数列をフレーム並び替えに使用してもよい。また、最初の乱数が8であれば並び替え前の8番目のフレームを並び替え後の1番目のフレームとし、2番目の乱数が4であれば並び替え前の4番目のフレームを並び替え後の2番目のフレームとし…、というようにして、乱数列に応じて並び替え前のもの中から選び出すフレームを決定するようにしてもよい。
(14)上記第1〜第5実施形態では、取得処理によって取得した時間長T1分の音信号Sa,Sb,Sc,Sd,Se,及びSfを時間長T3の長さのフレームFi(i=1〜N)に分割し、時間長T3のフレームFiの各々を処理対象として、各フレームFiの音量の時間変動を所定範囲内にする処理であるノーマライズ処理を行った。しかし、時間長T1分の音信号Sa,Sb,Sc,Sd,Se,及びSfを分割することなく、時間長T1の音信号Sa,Sb,Sc,Sd,Se,及びSfそのものに対して、時間長T1内の音量の時間変動を所定範囲内にする処理を行ってもよい。
10…マスカ音生成装置、11…ハードディスク、12…制御部、13…バッファ、14…放音制御部、15…D/A変換部、16…アンプ、21…音データベース、22…CPU、23…RAM、24…ROM、30…人感センサ、31…スピーカ。
Claims (5)
- 音信号を取得する取得手段と、前記取得手段が取得した音信号の配列順を変更した信号をマスカ音信号として出力する生成手段とを具備し、
前記生成手段は、前記マスカ音信号を生成する過程において、当該マスカ音信号の音量の時間変動を所定範囲内にするノーマライズ処理を実行する
ことを特徴とするマスカ音生成装置。 - 前記生成手段は、前記取得手段が取得した音信号を一定時間長の複数の区間に分割し、分割した各区間の各々の平均音量を所定範囲内にする処理を前記ノーマライズ処理として実行することを特徴とする請求項1に記載のマスカ音生成装置。
- 前記生成手段は、前記ノーマライズ処理において、前記各区間の平均音量の代表値を決定し、前記各区間の平均音量を前記代表値と等しくするための補正係数を前記区間毎に求め、前記区間毎に求めた補正係数を用いて各区間内の音信号を補正することを特徴とする請求項2に記載のマスカ音生成装置。
- 前記生成手段は、前記ノーマライズ処理において、前記各区間の平均音量の代表値を決定し、前記各区間の平均音量と前記代表値との各差分を所定範囲内にするための補正係数を前記区間毎に求め、前記区間毎に求めた補正係数を用いて各区間内の音信号を補正することを特徴とする請求項2に記載のマスカ音生成装置。
- コンピュータに、
音信号を取得する取得手段と、前記取得手段が取得した音信号の配列順を変更した信号をマスカ音信号として出力する生成手段とを実現させ、
前記マスカ音信号を生成する過程において、当該マスカ音信号の音量の時間変動を所定範囲内にするノーマライズ処理を実行させる
ことを特徴とするプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010014875A JP5446927B2 (ja) | 2010-01-26 | 2010-01-26 | マスカ音生成装置およびプログラム |
US13/013,634 US8861742B2 (en) | 2010-01-26 | 2011-01-25 | Masker sound generation apparatus and program |
EP11151957.5A EP2367169A3 (en) | 2010-01-26 | 2011-01-25 | Masker sound generation apparatus and program |
CN2011100302968A CN102136272B (zh) | 2010-01-26 | 2011-01-26 | 掩蔽声音生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010014875A JP5446927B2 (ja) | 2010-01-26 | 2010-01-26 | マスカ音生成装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011154140A true JP2011154140A (ja) | 2011-08-11 |
JP5446927B2 JP5446927B2 (ja) | 2014-03-19 |
Family
ID=44540171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010014875A Expired - Fee Related JP5446927B2 (ja) | 2010-01-26 | 2010-01-26 | マスカ音生成装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5446927B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014050842A1 (ja) | 2012-09-25 | 2014-04-03 | ヤマハ株式会社 | 音声マスキングのための方法、装置およびプログラム |
-
2010
- 2010-01-26 JP JP2010014875A patent/JP5446927B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014050842A1 (ja) | 2012-09-25 | 2014-04-03 | ヤマハ株式会社 | 音声マスキングのための方法、装置およびプログラム |
EP2903002A4 (en) * | 2012-09-25 | 2016-07-20 | Yamaha Corp | METHOD, DEVICE AND PROGRAM FOR VOICE MASKING |
Also Published As
Publication number | Publication date |
---|---|
JP5446927B2 (ja) | 2014-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8861742B2 (en) | Masker sound generation apparatus and program | |
CN107210032B (zh) | 在掩蔽语音区域中掩蔽再现语音的语音再现设备 | |
JP5857071B2 (ja) | オーディオ・システムおよびその動作方法 | |
US7583805B2 (en) | Late reverberation-based synthesis of auditory scenes | |
EP2708040B1 (en) | System and method for emitting and especially controlling an audio signal in an environment using an objective intelligibility measure | |
TW200841326A (en) | Method and apparatus for enhancement of audio reconstruction | |
JP2016177204A (ja) | サウンドマスキング装置 | |
JP5446926B2 (ja) | マスカ音生成装置およびプログラム | |
US20160275932A1 (en) | Sound Masking Apparatus and Sound Masking Method | |
US6215879B1 (en) | Method for introducing harmonics into an audio stream for improving three dimensional audio positioning | |
JP5644122B2 (ja) | マスカ音生成装置 | |
JP5446927B2 (ja) | マスカ音生成装置およびプログラム | |
JP5682115B2 (ja) | サウンドマスキングを行うための装置およびプログラム | |
Griesinger | The importance of the direct to reverberant ratio in the perception of distance, localization, clarity, and envelopment | |
JP2010213330A (ja) | 測定方法、測定装置、プログラム | |
JP2005286876A (ja) | 環境音提示装置及び補聴器調整装置 | |
JP6428256B2 (ja) | 音声処理装置 | |
JP6348773B2 (ja) | インパルス応答生成装置、インパルス応答生成方法、インパルス応答生成プログラム | |
JP5691180B2 (ja) | マスカ音生成装置およびプログラム | |
JP4867542B2 (ja) | マスキング装置 | |
Howard et al. | Room acoustics | |
Mapp | Speech Intelligibility of Sound Systems | |
Schlemmer | Reverb Design | |
JP2024001902A (ja) | 音響処理システム及び音響処理方法 | |
von Schultzendorff et al. | Real-diffuse enveloping sound reproduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131216 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |