JP5691180B2 - マスカ音生成装置およびプログラム - Google Patents

マスカ音生成装置およびプログラム Download PDF

Info

Publication number
JP5691180B2
JP5691180B2 JP2010014872A JP2010014872A JP5691180B2 JP 5691180 B2 JP5691180 B2 JP 5691180B2 JP 2010014872 A JP2010014872 A JP 2010014872A JP 2010014872 A JP2010014872 A JP 2010014872A JP 5691180 B2 JP5691180 B2 JP 5691180B2
Authority
JP
Japan
Prior art keywords
band
signal
noise
frequency band
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010014872A
Other languages
English (en)
Other versions
JP2011154138A (ja
Inventor
寧 清水
寧 清水
舞 小池
舞 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2010014872A priority Critical patent/JP5691180B2/ja
Publication of JP2011154138A publication Critical patent/JP2011154138A/ja
Application granted granted Critical
Publication of JP5691180B2 publication Critical patent/JP5691180B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

本発明は、マスカ音を生成して音の漏れ聞こえを防ぐ技術に関する。
マスキング効果は、2種類の音信号を同じ空間内に伝搬させた場合に、空間内の者が、2種類の音信号の音響的特徴(周波数成分,時間波形等)の関係に応じて、それらの音信号に気づき難くなる現象である。特許文献1には、このマスキング効果を利用して話声の漏れ聞こえを防ぐ技術の開示がある。同文献に開示されたマスキングシステムは、隣接する一方の部屋のマイクにより採取した音声を示す音信号を、マスキングの対象となるターゲット音信号とする。そして、このマスキングシステムは、ターゲット音信号を一音節分の信号の纏まり毎に区切り、区切った各区間を並べ替えるスクランブル処理を施し、スクランブル処理を施した音信号をマスカ音信号として他方の部屋のスピーカから放射する。この技術によると、ターゲット音信号とターゲット音信号に近い音の特徴を持ったマスカ音信号が放射されるため、マスキング効果により、そのマスカ音信号が放射された部屋内の者はターゲット音信号の聞き取りが困難になる。
特開2008−233671号公報
しかしながら、この種のマスキングシステムでは、マスキングの対象となる音声に近い特徴を持った音の信号を、その音声をマスキングする手段であるマスカ音信号として利用する。このため、マスカ音信号の放射先が会話音や暗騒音の少ない静かな環境の部屋である場合、室内の者に不快な印象を与えてしまうという問題があった。
本発明は、このような背景の下に案出されたものであり、室内の者を不快にさせることなく高いマスキング効果を得ることを目的とする。
本発明は、音信号を、第1の周波数帯域の成分を含む第1の帯域信号と、前記第1の周波数帯域と異なる第2の周波数帯域の成分を含む第2の帯域信号とに分割する帯域分割手段と、前記帯域分割手段が分割した第1の帯域信号の配列順を変更した配列順変更信号を出力する配列順変更手段と、前記帯域分割手段が分割した第2の帯域信号と同じ周波数帯域の雑音成分を含む雑音信号を出力する雑音出力手段と、前記配列順変更手段が出力した配列順変更信号と前記雑音出力手段が出力した雑音信号とを加算したマスカ音信号を出力する加算手段とを具備するマスカ音生成装置を提供する。
本発明では、マスキングの対象となる音信号のパワースペクトルにおける大きなパワーを持った周波数帯域を第1の周波数帯域とすることにより、大きなパワーを有する周波数成分の特徴だけがマスキングの対象のそれと似通っているマスカ音信号を生成することができる。そして、そのような特徴を有するマスカ音信号を室内に放射することにより、室内の者を不快にさせることなく高いマスキング効果を得ることができる。
また、本発明は、コンピュータに、音信号を、第1の周波数帯域の成分を含む第1の帯域信号と、前記第1の周波数帯域と異なる第2の周波数帯域の成分を含む第2の帯域信号とに分割する帯域分割手段と、前記帯域分割手段が分割した第1の帯域信号の配列順を変更した配列順変更信号を出力する配列順変更手段と、前記帯域分割手段が分割した第2の帯域信号と同じ周波数帯域の雑音成分を含む雑音信号を出力する雑音出力手段と、前記配列順変更手段が出力した配列順変更信号と前記雑音出力手段が出力した雑音信号とを加算したマスカ音信号を出力する加算手段とを実現させるプログラムを提供する。
この発明の第1実施形態であるマスカ音生成装置の構成を示す図である。 同マスカ音生成装置の設定部によって算出される平均スペクトルを示す図である。 同マスカ音生成装置の配列順変更部が実行する処理を示す図である。 同マスカ音生成装置の配列順変更部が実行する処理を示す図である。 同マスカ音生成装置の配列順変更部が実行する処理を示す図である。 同マスカ音生成装置の配列順変更部が実行する処理を示す図である。 同マスカ音生成装置の配列順変更部が実行する処理を示す図である。 同マスカ音生成装置の配列順変更部が実行する処理を示す図である。 同マスカ音生成装置の配列順変更部が実行する処理を示す図である。 同マスカ音生成装置の配列順変更部が実行する処理を示す図である。 この発明の第2実施形態であるマスカ音生成装置の構成を示す図である。 この発明の第3実施形態であるマスカ音生成装置の構成を示す図である。 この発明の第4実施形態であるマスカ音生成装置の構成を示す図である。 この発明の他の実施形態であるマスカ音生成装置の設定部によって算出される平均スペクトルを示す図である。 この発明の他の実施形態であるマスカ音生成装置の設定部によって算出される平均スペクトルを示す図である。 この発明の他の実施形態であるマスカ音生成装置の配列順変更部が実行する処理を示す図である。
以下、図面を参照しつつ本発明の一実施形態について説明する。
<第1実施形態>
図1は、本発明の第1実施形態であるマスカ音生成装置10とマイクロホン93およびスピーカ94とを含むマスキングシステムの構成を示すブロック図である。このシステムにおけるマスカ音生成装置10は、壁90により仕切られた2つの部屋91,92のうち一方の部屋91内の話者の音声(ターゲット音という)を聞こえ難くするマスカ音信号Mを生成し、他方の部屋92へ出力する装置である。
このマスカ音生成装置10は、部屋91内のマイクロホン93が採取した音信号Xを音声データSとして音声メモリ19に記憶する処理と、音声メモリ19内の音声データSを素材としてマスカ音信号Mを生成して出力する処理を行う。マスカ音信号Mの素材とする音データSは部屋91内の話者本人の音声のものでも別人の音声のものでもよいが、少なくとも部屋91内の話者の音声と同じ性別の音声データSを利用することが好ましい。
このマスカ音生成装置10の操作部50は、データの収録を指示する操作、音声メモリ19内の各音声データSのうち1つをマスカ音信号Mの素材として選択する操作、部屋91内の話者の性別を選択する操作、マスカ音信号Mの生成を指示する操作などを受け付ける。
A/D変換部11には、部屋91に固定されたマイクロホン93が収音した音声のアナログ波形信号が入力される。A/D変換部11は、そのアナログ波形信号をデジタル信号に変換し、音信号Xとして出力する。書込制御部15は、データの収録を指示する操作と性別を選択する操作が操作部50によって行われた場合、その時から発話時間長T1(T1は、通常の話速で一文を話すのに要する時間長:例えば、T1=30秒とする)の間にA/D変換部11から出力される音信号Xを音声データSとし、操作部50により指定された性別を示す識別子を付加して音声メモリ19に書き込む。データ供給制御部70は、操作部50によって、性別および音声データSの種類を選択する操作とマスカ音信号Mの生成を指示する操作が行われた場合、操作部50の操作によって音声メモリ19内から選択された種類の音声データSを読み出し、読み出した音声データSを音信号Xとして制御部12に供給する。
制御部12は、データ供給制御部70から入力される音信号Xに信号処理を施すことにより発話時間長T1分のマスカ音信号Mを生成し、生成したマスカ音信号Mをバッファ17に書き込む。この制御部12による信号処理については後述する。発音制御部18は、制御部12によってバッファ17に書き込まれた発話時間長T1分のマスカ音信号Mを読み出してD/A変換部14へ出力する処理を繰り返す。D/A変換部14は、発音制御部18から出力されるマスカ音信号Mをアナログ波形信号に変換し、部屋92に固定されたスピーカ94へ出力する。このマスカ音信号Mは、スピーカ94からマスカ音として放音される。
制御部12は、CPU20、RAM21、およびROM22を有する。CPU20は、RAM21をワークエリアとして利用しつつ、ROM22に記憶された音生成プログラム23を実行する。音生成プログラム23は、雑音発生部31、帯域分割部32、雑音出力部35,36、配列順変更部37、および加算部38の各機能をCPU20に実現させるプログラムである。
雑音発生部31は、操作部50によってマスカ音信号Mの生成を指示する操作が行われると、雑音信号Yの発生を開始する。雑音信号Yは、ホワイトノイズのサンプル列である。帯域分割部32には、この雑音信号Yとデータ供給制御部70の出力信号である音信号Xとが入力される。帯域分割部32は、音信号Xを、第1の周波数帯域W1の成分とその低域側および高域側の第2の周波数帯域W2LおよびW2Hの成分を各々含む3種類の帯域信号X,X,Xに分割する役割と、雑音信号Yを、第2の周波数帯域W2LおよびW2Hの成分を各々含む2種類の帯域信号YおよびYに分割する役割とを果たす。
より具体的に説明すると、帯域分割部32は、LPF(Low Pass Filter)41、HPF(High Pass Filter)42、BPF(Band Pass Filter)43、LPF44、およびHPF45の5種類のフィルタを有している。BPF43は、音信号Xにおけるカットオフ周波数fcとカットオフ周波数fc(fc>fc)の間の周波数帯域(周波数帯域W1)の信号を帯域信号Xとして出力する。LPF41は、音信号Xにおけるカットオフ周波数fcより低い周波数帯域(周波数帯域W2L)の信号を帯域信号Xとして出力する。HPF42は、音信号Xにおけるカットオフ周波数fcより高い周波数帯域(周波数帯域W2H)の信号を帯域信号Xとして出力する。LPF44は、雑音信号Yにおけるカットオフ周波数fcより低い周波数帯域(周波数帯域W2L)の信号を帯域信号Yとして出力する。HPF45は、雑音信号Yにおけるカットオフ周波数fcより高い周波数帯域(周波数帯域W2H)の信号を帯域信号Yとして出力する。
設定部34は、女性の音声用のカットオフ周波数fcおよびfcと男性の音声用のカットオフ周波数fcおよびfcのうち操作部50の操作により選択された性別のものをLPF41、HPF42、BPF43、LPF44、およびHPF45に設定する。ここで、女性の音声用のカットオフ周波数fcおよびfcと男性の音声用のカットオフ周波数fcおよびfcは、標準的な女性の音声のパワースペクトルと標準的な男性の音声のパワースペクトルを各々利用して次のように求められたものである。図2(A)は、標準的な女性の音声のパワースペクトルを示す図であり、図2(B)は、標準的な男性の音声のパワースペクトルを示す図である。図2(A)および図2(B)に示すように、女性の音声のパワースペクトルの波形の重心は、男性の音声のそれより高域側に位置している。本実施形態では、図2(A)に示す標準的な女性の音声のパワースペクトルにおける閾値Th以上のパワーを持った帯域の下限と上限の周波数を女性の音声用のカットオフ周波数fcおよびfcとする。また、図2(B)に示す標準的な男性の音声のパワースペクトルにおける閾値Th以上のパワーを持った帯域の下限と上限の周波数を男性の音声用のカットオフ周波数fcおよびfcとする。
図1において、BPF43の出力信号Xは配列順変更部37に入力される。配列順変更部37は、BPF43の出力信号Xの配列順を変更した配列順変更信号X’を出力する。この配列順変更部37は、図3に示すように、データ供給制御部70からBPF43を介して入力される発話時間長T1(T1=30秒)分の帯域信号Xを発話時間長T2(例えば、T2=5秒とする)ずつの6個の纏まりに区切り、それらの時間長T2の各々をなす一連の音サンプルを発音時間長T3(T3は、一音節の発音時間に相当する時間長:例えば、T3=100m秒)の一定の長さのフレームk(k=1〜N)に区切る。例えば、T2=5秒,T3=100m秒である場合、発話時間長T2内におけるフレーム数Nは、5/0.1=50個である。そして、配列順変更部37は、発話時間長T2内のN個のフレームk(k=1〜N)を並べ替え、フレームk(k=1〜N)を並べ替えた信号を配列順変更信号X’として出力する。配列順変更部37によるフレームk(k=1〜N)の並べ替えは、以下の7つの態様a〜gのいずれかにより行う。
a.時間長T2内において、フレームk(k=1〜N)の各々を元の位置とは異なった位置に移動し、かつ、各フレームkの前に位置するフレームおよび後に位置するフレームが、並び替えにより異なったものになるようにする(図4)。
b.時間長T2内において、フレームk(k=1〜N)の各々を元の位置とは異なった位置に移動し、かつ、フレームk(k=1〜N)の一部については、各フレームkの前に位置するフレームおよび後に位置するフレームが、並び替えにより異なったものになるようにする(図5)。
c.時間長T2内において、フレームk(k=1〜N)のうち一部を元の位置とは異なった位置に各々移動し、かつ、それらの移動する各フレームkについては、各フレームkの前に位置するフレームおよび後に位置するフレームが、並び替えにより異なったものになるようにする(図6)。
d.時間長T2内において、フレームk(k=1〜N)のうち先頭からN−m(m<N)個のフレームkをフレームm個分ずつ後方に移動し、それらN−m個のフレームkの元の位置に残りのフレームkを移動する(図7)。
e.時間長T2内において、フレームk(k=1〜N)のうち末尾からN−m(m<N)個のフレームkをフレームm個分ずつ前方に移動し、それらN−m個のフレームkの元の位置に残りのフレームkを移動する(図8)。
f.時間長T2内において、フレームk(k=1〜N)を先頭から2個ずつの各組にし、各組のフレームkの前後関係を入れ替える(図9)。
g.時間長T2内において、フレーム1→フレーム2…フレームN−1→フレームNの配列順を逆転させてフレームN→フレームN−1…フレーム2→フレーム1にする(図10)。
図1において、LPF41および44の出力信号XおよびYは雑音出力部35に入力される。雑音出力部35は、LPF44の出力信号YをLPF41の出力信号Xの音と等しい音のエネルギーを持つように増幅し、雑音信号Y'として出力する。より具体的に説明すると、雑音出力部35は、LPF41から時間長T2分の信号Xが入力される度に、その時間長T2分の信号Xの振幅の2乗平均(信号Xが示す音のエネルギーの時間長T2分の時間平均)EXを求める。また、雑音出力部35は、LPF44から時間長T2分の信号Yが入力される度に、その時間長T2分の信号Yの振幅の2乗平均(信号Yが示す音のエネルギーの時間長T2分の時間平均)EYを求める。そして、雑音出力部35は、これらの値EXおよびEYを次式(1)に代入して求まるゲインGをLPF44から出力された時間長T2分の出力信号Yに乗算し、乗算結果を時間長T2分の雑音信号Y'として出力する。
G=EX/EY・・・(1)
HPF42および45の出力信号XおよびYは雑音出力部36に入力される。雑音出力部36は、HPF45の出力信号YをHPF42の出力信号Xの音と等しい音のエネルギーを持つように増幅し、雑音信号Y'として出力する。雑音出力部36における雑音信号Y'の生成の具体的な手順は雑音出力部35における雑音信号Y'の生成の具体的な手順と同様である。
加算部38は、配列順変更部37から時間長T2分ずつ出力される信号X'と雑音出力部35および36から時間長T2分ずつ出力される信号Y’およびY'を加算し、この加算結果をマスカ音信号Mとして出力する。加算部38が出力したマスカ音信号Mはバッファ17に書き込まれる。そして、そのマスカ音信号MがD/A変換部14による変換を経てスピーカ94から放音される。
以上説明した本実施形態によると、大きなパワーを持った周波数成分だけが部屋91内の話者の音声のそれと似通った特徴を有するマスカ音信号Mを生成することができる。そして、このマスカ音信号Mをスピーカ94から部屋92に放射することにより、部屋92内の者を不快にさせることなく高いマスキング効果を得ることができる。
<第2実施形態>
図11は、本発明の第2実施形態であるマスカ音生成装置10Aとマイクロホン93およびスピーカ94とを含むマスキングシステムの構成を示すブロック図である。図11において、第1実施形態のマスカ音生成装置10と同じ要素には同一の符号を付してある。
このマスカ音生成装置10Aは、マスカ音信号Mの素材となる音声データSそのもののパワースペクトルに基づいてLPF41、HPF42、BPF43、LPF44、およびHPF45のカットオフ周波数fcおよびfcを設定する。このマスカ音生成装置10Aでは、データ供給制御部70と帯域分割部32内のBPF43,LPF41,およびHPF42の間に遅延部71が介挿されており、データ供給制御部70と設定部34Aの間にFFT(Fast Fourier Transform)部33が介挿されている。遅延部71は、データ供給制御部70の出力信号Xに時間長T1の遅延を与えてからBPF43,LPF41,およびHPF42に出力する。FFT部33は、データ供給制御部70から時間長T3(T3=100m秒)分の音サンプルが出力される度に、時間長T3分の音サンプルにFFTを施し、FFTにより求まったパワースペクトルを出力する。
設定部34Aは、FFT部33が出力したパワースペクトルにおいて、パワーが閾値以上となる周波数帯域を第1の周波数帯域W1とし、この第1の周波数帯域W1の下限および上限の周波数をカットオフ周波数fcおよびfcとしてLPF41,44,BPF43,およびHPF42,45に設定する。より具体的に説明すると、設定部34Aは、FFT部33から音声データSの長さである時間長T1分のパワースペクトルの列が出力されるのを待ち、それらのパワースペクトルの時間平均(以下、平均スペクトルという)を求める。そして、設定部34Aは、この平均スペクトルにおける各周波数成分のパワーを低域側から順に走査し、閾値Th以上のパワーを持った最も低域側の周波数をLPF41および44とBPF43におけるカットオフ周波数fcとする。また、設定部34Aは、平均スペクトルにおける各周波数成分のパワーを高域側から順に走査し、閾値Th以上のパワーを持った最も高域側の周波数をHPF42および45とBPF43におけるカットオフ周波数fcとする。
以上説明した本実施形態によると、部屋92内の者を不快にさせることなくマスキング効果を得ることができる。
<第3実施形態>
図12は、本発明の第3実施形態であるマスカ音生成装置10Bとマイクロホン93およびスピーカ94とを含むマスキングシステムの構成を示すブロック図である。図12において、第1および第2実施形態のマスカ音生成装置10および10Aと同じ要素には同一の符号を付してある。
このマスカ音生成装置10Bは、マイクロホン93により採取された最新の音信号Xを素材とするマスカ音信号Mの生成とその信号Xのパワースペクトルを利用したカットオフ周波数fcおよびfcの更新をリアルタイムに行う。このマスカ音生成装置10Bは、書込制御部15、音声メモリ19、およびデータ供給制御部70を有していない。このマスカ音生成装置10Bでは、A/D変換部11の出力信号Xが遅延部71とFFT部33に入力される。遅延部71およびFFT部33の役割は第2実施形態のものの役割と同じである。
設定部34Bは、FFT部34からパワースペクトルが出力される度に、出力されたものを含む時間長T1分のパワースペクトルの移動平均(以下、移動平均スペクトルという)を求める。そして、設定部34Bは、最新の時間長T1分の移動平均スペクトルが求まる都度、移動平均スペクトルにおける閾値Th以上のパワーを持った帯域の最も低域側の周波数をカットオフ周波数fcとしてLPF41および44とBPF43に設定し、最も高域側の周波数をカットオフ周波数fcとしてHPF42および45とBPF43に設定する。
以上説明した本実施形態によると、部屋91に不特定多数人が出入りして部屋91を利用する場合においても、部屋92内の者を不快にさせることなく高いマスキング効果を得ることができる。
<第4実施形態>
図13は、本発明の第4実施形態であるマスカ音生成装置10Cとスピーカ94とを含むマスキングシステムの構成を示すブロック図である。図13において、第1、第2、および第3実施形態のマスカ音生成装置10、10A、および10Bと同じ要素には同一の符号を付してある。
このマスカ音生成装置10Cでは、標準的な女性および男性の音声を素材としてマスカ音信号Mを生成する。このマスカ音生成装置10Cは、A/D変換部11および書込制御部15を有していない。音声メモリ19には、標準的な女性の時間長T1分の音声を示す音声データSFと、標準的な男性の時間長T1分の音声を示す音声データSMとが予め記憶されている。本実施形態では、操作部50の操作により、部屋91内の話者の性別として女性が選択された場合、設定部34は女性の音声用のカットオフ周波数fcおよびfcをLPF41、HPF42、BPF43、LPF44、およびHPF45に設定し、データ供給制御部70は音声データSFを音声メモリ19から読み出してHPF42、BPF43、およびLPF44に供給する。また、部屋91内の話者の性別として男性が選択された場合、設定部34は男性の音声用のカットオフ周波数fcおよびfcをLPF41、HPF42、BPF43、LPF44、およびHPF45に設定し、データ供給制御部70は音声データSMを音声メモリ19から読み出してHPF42、BPF43、およびLPF44に供給する。
以上説明した本実施形態では、部屋91内の話者の性別として女性が選択された場合には、予め準備された音声データSFから女性の話者向けのマスカ音信号Mを生成し、男性が選択された場合には、予め準備された音声データSMから男性の話者向けのマスカ音信号Mを生成する。よって、部屋91内の音声をマイクロホン93を使って収音できない場合でも、部屋92内の者を不快にさせることなく高いマスキング効果を得ることができる。
以上、この発明の一実施形態について説明したが、この発明には他にも実施形態があり得る。例えば、以下の通りである。
(1)上記第1〜第4実施形態において、設定部34がボリュームやつまみなどの操作子を有し、部屋91内の話者がその操作子の操作を通じてカットオフ周波数fcおよびfcをマニュアル設定できるようにしてもよい。この実施形態によると、部屋91内の話者は、部屋92内の暗騒音の音量が大きい場合はカットオフ周波数fcおよびfcの間の帯域幅を広くし、部屋92内の暗騒音の音量が小さい場合はカットオフ周波数fcおよびfcの間の帯域幅を狭める、というように、部屋92に放音するマスカ音信号Mの周波数成分の特徴をその部屋92の音響環境に応じて調整することができる。また、第1〜第3実施形態におけるマスカ音生成装置10,10A,または10Bは、部屋92内の暗騒音の音量を検出する検出手段を有し、設定部34は、検出手段が検出した音量に応じて、カットオフ周波数fcおよびfcの間の帯域幅を変更するようにしてもよい。
(2)上記第1実施形態において、女性の声に似せたマスカ音信号M1と男性の声に似せたマスカ音信号M2を生成し、マスカ音信号M1とM2を加算したマスカ音信号Mを部屋92のスピーカ94から放音してもよい。この実施形態によると、部屋91内において女性の話者と男性の話者が同時に話していても、部屋92内の者を不快にさせることなく高いマスキング効果を得ることができる。
この場合において、次のようにして2種類のマスカ音信号M1およびM2を生成するとよい。まず、図1に示すマスカ音生成装置10の帯域分割部32内に、LPF41,44,BPF43,HPF42,45とLPF41’,44’,BPF43’,HPF42’,45’とを設ける。さらに、LPF41,44,BPF43,HPF42,45に女性の音声用のカットオフ周波数fcおよびfcを設定し、LPF41’,44’,BPF43’,HPF42’,45’に男性の音声用のカットオフ周波数fcおよびfcを設定する。そして、帯域分割部32内のLPF41,BPF43,HPF42に女性の音声の音信号Xを供給してマスカ音信号M1を生成するとともに、同部32内のLPF41’,BPF43’,HPF42’に男性の音声の音信号Xを供給してマスカ音信号M2を生成し、これらの2種類の信号M1およびM2を加算したものをマスカ音信号Mとして部屋92のスピーカ94から放音する。
また、次のようにして2種類のマスカ音信号M1およびM2を生成してもよい。まず、時間長T4(例えば、T4=5/2秒とする)の間、LPF41,44,BPF43,HPF42,45に女性の音声用のカットオフ周波数fcおよびfcを設定した状態で、LPF41,BPF43,HPF42に女性の音声の音信号Xを供給し、マスカ音信号M1を生成する。マスカ音信号M1はバッファに記憶する。次の時間長T4の間、LPF41,44,BPF43,HPF42,45に男性の音声用のカットオフ周波数fcおよびfcを設定した状態で、LPF41,BPF43,HPF42に男性の音声の音信号Xを供給し、マスカ音信号M2を生成する。そして、このマスカ音信号M2とバッファに書き込んでおいたマスカ音信号M1を加算したものをマスカ音信号Mとして部屋92のスピーカ94から放音する。以上の処理を時間長2×(T4)毎に繰り返すのである。
(3)上記第1実施形態において、ターゲット音の発声元が女性であるか男性であるかを判定し、この判定結果に応じて女性用のカットオフ周波数fcおよびfcと男性用のカットオフ周波数fcおよびfcの切り換えを行ってもよい。この実施形態は、次のようにして実現する。まず、マスカ音信号Mの生成を開始する際、マイクロホン93により採取した音信号XにFFTを施し、このFFTの処理結果を所定のアルゴリズムで解析することで、部屋91内の話者が女性であるか男性であるかを判定する。そして、部屋91内の話者が女性である場合は、LPF41,44,BPF43,HPF42,45に女性の音声用のカットオフ周波数fcおよびfcを設定するとともに、音声メモリ19内から女性の音声データSを読み出し、この音声データSを素材としてマスカ音信号Mを生成する。部屋91内の話者が男性である場合は、LPF41,44,BPF43,HPF42,45に男性の音声用のカットオフ周波数fcおよびfcを設定するとともに、音声メモリ19内から男性の音声データSを読み出し、この音声データSを素材としてマスカ音信号Mを生成する。
(4)上記第3実施形態において、設定部34Bは、FFT部33からパワースペクトルが出力される度に、出力された最新のパワースペクトルを用いてカットオフ周波数fcおよびfcを更新してもよい。また、設定部34Bは、カットオフ周波数fcおよびfcを、前回求めたものから今回求めたものへと所定時間長をかけて緩やかに変化させるようにしてもよい。
(5)上記第3実施形態において、マスカ音信号Mの生成を指示する操作が行われた後の最初の時間長T1分の平均スペクトルに基づいてLPF41,44、BPF43,HPF42,45のカットオフ周波数fc,fcを設定し、以降は、そのカットオフ周波数fc,fcを切り換えることなくマスカ音信号Mの生成を行うようにしてもよい。
(6)上記第4実施形態では、音声メモリ19に男性と女性の音声データSFおよびSMを記憶させた。しかし、3種類以上の音声データSを音声メモリ19に記憶してもよい。この実施形態は、次のようにして実現する。性別や言語(日本語、英語、中国語など)を異にする様々な音声の音声データSを、各音声データSが示す音声波形のパワースペクトルと対応付けて音声メモリ19に記憶させておく。そして、マスカ音信号Mの生成の際、マイクロホン93によって収音したターゲット音の音信号XにFFTを施し、FFTによって求めたパワースペクトルに最も近いものと対応付けられた音声データSを音声メモリ19から読み出し、この音声データSを素材としてマスカ音信号Mを生成する。また、言語を異にする複数種類の音声データSを音声メモリ19に記憶させておき、音声メモリ19内の複数種類の音声データSのうち操作部50の操作によって選択された言語のものを素材としてマスカ音信号Mを生成してもよい。
(7)上記第3実施形態において、配列順変更部37は、上述した態様a〜態様gを時間長T1または時間長T2毎にランラムに選択し、選択した態様でフレームk(k=1〜N)の配列順を変更するようにしてもよい。また、この配列順の変更の態様の切り換えを、時間長T1や時間長T2と異なる周期で行ってもよいし、態様の切り換えのタイミング自体をランダムに決定してもよい。
(8)上記第1〜第4実施形態において、配列順変更部37は、音信号Xを区切った各フレームkのパワースペクトルやその他の分析結果に応じて各フレームkの移動先を決定してもよい。この実施形態は、次のようにして実現する。まず、配列順変更部37は、音信号Xをフレームk(k=1〜N)に区切った後、フレームk(k=1〜N)の各々を分析し、フレームk(k=1〜N)を母音に相当する区間のフレームkと子音に相当する区間のフレームkとに分ける。そして、フレームk(k=1〜N)のうち母音に相当する区間の各フレームk同士の位置をランダムに変更するとともに、子音に相当する区間の各フレームk同士の位置をランダムに変更する。
(9)上記第1〜第4実施形態は、壁90により仕切られた2つの部屋91および92間の音声の漏れ聞こえの防止に本発明を適用したものであった。しかし、壁90などが間に介在しない2つの領域AおよびBのうち一方の領域A(またはB)で発生した音を他方の領域B(またはA)で聞こえ難くする用途に本発明を適用してもよい。また、異なる空間に居る者同士の通話を実現させる通話装置(例えば、携帯電話、IP電話、インターフォン等)における各話者の話声を周りに聞こえ難くする用途に本発明を適用してもよい。この実施形態は、例えば、通話装置に第1〜第4実施形態のマスカ音生成装置10,10A,10B,または10Cを内蔵し、マスカ音生成装置10,10A,10B,または10Cが話者の音声から生成したマスカ音信号Mを話者の周りに放音することによって実現可能である。この場合において、発話者にイヤホンを装着させたり通話装置のスピーカの指向性を制御することにより、マスカ音信号Mが通話の相手方まで伝送されて会話が混乱する事態を防ぐようにするとなおよい。
(10)上記第2および第3実施形態では、設定部34Aおよび34Bは、音信号Xの平均スペクトル(または移動平均スペクトル)においてパワーが閾値Th以上となる周波数帯域の最も低域側および高域側の周波数をカットオフ周波数fcおよびfcとした。しかし、カットオフ周波数fcおよびfcの決定に用いる閾値Thを高域側と低域側とで異ならせてもよい。この実施形態は、次のようにして実現する。まず、設定部34A(または34B)は、図14に示すように、カットオフ周波数fcの決定に閾値Th'1を用い、カットオフ周波数fcの決定に閾値Th'2(Th'2≠Th'1)を用いる。そして、設定部34A(または34B)は、音信号Xの平均スペクトル(または移動平均スペクトル)における各周波数成分のパワーを低域側から順に走査し、閾値Th'1以上のパワーを持った最も低域側の周波数をLPF41および44とBPF43におけるカットオフ周波数fcとする。また、設定部34A(または34B)は、平均スペクトル(または移動平均スペクトル)における各周波数成分のパワーを高域側から順に走査し、閾値Th'2以上のパワーを持った最も高域側の周波数をHPF42および45とBPF43におけるカットオフ周波数fcとする。この場合において、閾値Th'1およびTh'2は、人の聴感特性(ラウドネス特性(周波数軸上の感度)や臨界帯域(周波数軸上の分解能))を考慮して最適化するとよい。
(11)上記第1〜第4実施形態では、帯域分割部32は、音信号Xを、第1の周波数帯域W1の成分を含む帯域信号Xと、第1の周波数帯域W1の高域側および低域側の第2の周波数帯域W2LおよびW2Hの成分を含む2種類の帯域信号XおよびXとに分割した。しかし、音信号Xを、第1の周波数帯域W1および第2の周波数帯域W2LおよびW2Hの各々について2種類以上の帯域信号に分割してもよい。この実施形態では、例えば、帯域分割部32は、図15に示すように、音信号Xの平均スペクトル(または移動平均スペクトル)の波形が閾値Th”を跨いだ起伏を繰り返すものである場合、閾値Th”以上のパワーを有する複数個(図15の例では3個)の帯域を第1の周波数帯域W1−i(i=1〜3)とし、帯域W1−1の低域側、帯域W1−1と帯域W1−2の間、帯域W1−2と帯域W1−3の間、および帯域W1−3の高域側の4つの帯域を第2の周波数帯域W2−j(j=1〜4)とする。帯域分割部32は、音信号Xを帯域W1−i(i=1〜3)およびW2−j(j=1〜5)の成分を各々含む7種類の帯域信号XW1−i(i=1〜3)およびXW2−j(j=1〜4)に分割する。また、帯域分割部32の後段に設けた複数個の配列順変更部37により、帯域信号XW1−i(i=1〜3)の配列順を変更した配列順変更信号XW1'−i(i=1〜3)を生成するととともに、同部32の後段に複数個ずつ設けた雑音出力部35および36により、帯域信号XW2−j(j=1〜4)と同じ周波数成分を含む雑音信号XW2'−j(j=1〜4)を生成する。そして、これらの信号XW1'−i(i=1〜3)およびXW2'−j(j=1〜4)を加算したものをマスカ音信号Mとする。
(12)上記第1〜第4実施形態において、雑音出力部35および36は、LPF44およびHPF45の出力信号YおよびYを増幅することなくそのまま雑音信号YおよびYとして出力し、加算部38においてその2種類の雑音信号YおよびYと配列順変更部37の出力信号X'を加算してもよい。
(13)上記第1〜第4実施形態において、配列順変更部37は、帯域信号Xをフレームk(k=1,2…N)に区切り、区切ったフレームk(k=1,2…N)を並べ替えることにより配列順の変更を行った。しかし、フレームk(k=1,2…N)を並べ替える代わりに、フレームkの各々をなす一連の音サンプル自体の配列順を変更してもよい。また、配列順変更部37による配列順の変更は、図16に示すように、並べ替え前の信号Xのフレームk(k=1〜6)の一部が並べ替え後の信号X’において複数個現れるような態様で行ってもよい。
(14)上記第1〜第4実施形態において、所定時間長分のマスカ音信号Mを生成して当該マスカ音生成装置10,10A,10B,10C内のメモリに記憶し、当該マスカ音生成装置10,10A,10B,10Cを後刻起動した際に、メモリに記憶されているマスカ音信号Mを読み出して部屋92に放音するようにしてもよい。
10,10A,10B,10C…マスカ音生成装置、11…A/D変換部、12…制御部、14…D/A変換部、17…バッファ、15…書込制御部、18…発音制御部、19…音声メモリ、20…CPU,21…RAM、22…ROM、23…音生成プログラム、32…帯域分割部、33…FFT部、34…設定部、35,36…雑音出力部、37…配列順変更部、38…加算部、41,44…LPF,42,45…HPF、43…BPF、50…操作部、70…データ供給制御部、71…遅延部、90…壁、91,92…部屋、93…マイクロホン、94…スピーカ。

Claims (4)

  1. 音信号を、第1の周波数帯域の成分を含む第1の帯域信号と、前記第1の周波数帯域と異なり、かつ当該第1の周波数帯域に連続した第2の周波数帯域の成分を含む第2の帯域信号とに分割する帯域分割手段と、
    前記帯域分割手段が分割した第1の帯域信号の配列順を変更した配列順変更信号を出力する配列順変更手段と、
    前記帯域分割手段が分割した第2の帯域信号と同じ周波数帯域の雑音成分を含む雑音信号を出力する雑音出力手段と、
    前記配列順変更手段が出力した配列順変更信号と前記雑音出力手段が出力した雑音信号とを加算したマスカ音信号を出力する加算手段と、
    前記マスカ音信号の表すマスカ音が放音される部屋内の暗騒音の音量を検出する検出手段と、
    前記検出手段により検出された音量に応じて前記第1の周波数帯域の帯域幅を変更する設定手段と、
    を具備することを特徴とするマスカ音生成装置。
  2. 前記帯域分割手段は、
    前記第1の周波数帯域の高域側および低域側の周波数帯域を前記第2の周波数帯域とし、これらの周波数帯域の成分を各々含む2種類の帯域信号を前記第2の帯域信号として分割し、
    前記雑音出力手段は、
    前記帯域分割手段が前記第2の帯域信号として分割した2種類の帯域信号の各々と同じ周波数帯域の雑音成分を含む2種類の雑音信号を出力する
    ことを特徴とする請求項1に記載のマスカ音生成装置。
  3. 前記音信号のパワースペクトルを算出するスペクトル算出手段と、
    前記スペクトル算出手段が算出したパワースペクトルにおいて、パワーが閾値以上となる一又は複数の周波数帯域を前記第1の周波数帯域として設定する設定手段と
    を具備することを特徴とする請求項1または2に記載のマスカ音生成装置。
  4. コンピュータに、
    音信号を、第1の周波数帯域の成分を含む第1の帯域信号と、前記第1の周波数帯域と異なり、かつ当該第1の周波数帯域に連続した第2の周波数帯域の成分を含む第2の帯域信号とに分割する帯域分割手段と、
    前記帯域分割手段が分割した第1の帯域信号の配列順を変更した配列順変更信号を出力する配列順変更手段と、
    前記帯域分割手段が分割した第2の帯域信号と同じ周波数帯域の雑音成分を含む雑音信号を出力する雑音出力手段と、
    前記配列順変更手段が出力した配列順変更信号と前記雑音出力手段が出力した雑音信号とを加算したマスカ音信号を出力する加算手段と、
    前記マスカ音信号の表すマスカ音が放音される部屋内の暗騒音の音量を検出する検出手段と、
    前記検出手段により検出された音量に応じて前記第1の周波数帯域の帯域幅を変更する設定手段と、
    を実現させるプログラム。
JP2010014872A 2010-01-26 2010-01-26 マスカ音生成装置およびプログラム Expired - Fee Related JP5691180B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010014872A JP5691180B2 (ja) 2010-01-26 2010-01-26 マスカ音生成装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010014872A JP5691180B2 (ja) 2010-01-26 2010-01-26 マスカ音生成装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2011154138A JP2011154138A (ja) 2011-08-11
JP5691180B2 true JP5691180B2 (ja) 2015-04-01

Family

ID=44540169

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010014872A Expired - Fee Related JP5691180B2 (ja) 2010-01-26 2010-01-26 マスカ音生成装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5691180B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022030448A (ja) 2020-08-07 2022-02-18 ヤマハ株式会社 マスカ音調整方法およびマスカ音調整装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0023207D0 (en) * 2000-09-21 2000-11-01 Royal College Of Art Apparatus for acoustically improving an environment
US7143028B2 (en) * 2002-07-24 2006-11-28 Applied Minds, Inc. Method and system for masking speech
JP5103973B2 (ja) * 2007-03-22 2012-12-19 ヤマハ株式会社 サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム

Also Published As

Publication number Publication date
JP2011154138A (ja) 2011-08-11

Similar Documents

Publication Publication Date Title
US8861742B2 (en) Masker sound generation apparatus and program
CN110473567B (zh) 基于深度神经网络的音频处理方法、装置及存储介质
US9565491B2 (en) Real-time audio processing of ambient sound
JP5103973B2 (ja) サウンドマスキングシステム、マスキングサウンド生成方法およびプログラム
US7761292B2 (en) Method and apparatus for disturbing the radiated voice signal by attenuation and masking
EP3800900A1 (en) A wearable electronic device for emitting a masking signal
US8391509B2 (en) Audio-separating apparatus and operation method thereof
JP2010217883A (ja) マスキング音生成装置、マスキングシステム、マスキング音生成方法、およびプログラム
JP2016177204A (ja) サウンドマスキング装置
US20240177726A1 (en) Speech enhancement
JP5115818B2 (ja) 音声信号強調装置
JP2012088747A (ja) 音声スクランブルのための方法および装置
US20160275932A1 (en) Sound Masking Apparatus and Sound Masking Method
JP2012063614A (ja) マスキング音生成装置
JP5691180B2 (ja) マスカ音生成装置およびプログラム
JP5446926B2 (ja) マスカ音生成装置およびプログラム
JP2011154125A (ja) サウンドマスキングを行うための装置およびプログラム
JP5644122B2 (ja) マスカ音生成装置
EP4371311A1 (en) Data augmentation for speech enhancement
JP2008040431A (ja) 音声加工装置
JP4527654B2 (ja) 音声通信装置
JP5054477B2 (ja) 補聴装置
JP5446927B2 (ja) マスカ音生成装置およびプログラム
JP2008294599A (ja) 放収音装置、および放収音システム
Dekens et al. A Multi-sensor Speech Database with Applications towards Robust Speech Processing in hostile Environments.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150119

LAPS Cancellation because of no payment of annual fees