(A)第1の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第1の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係るサウンドマスキング装置100の機能的構成を示すブロック図である。
サウンドマスキング装置100は、マイク101、マイクアンプ102、AD変換器103、スピーカ104、スピーカアンプ105、DA変換器106、及びサウンドマスキング処理部200を有している。
マイク101は、人の音声や音等の空気振動を電気信号に変換するマイクである。
マイクアンプ102は、マイク101により受音(収音)された入力信号を増幅するものである。
AD変換器103は、マイクアンプ102により増幅された入力信号をアナログ信号からデジタル信号に変換するものである。以下、AD変換器103で変換された信号を「マイク入力信号」とする。
サウンドマスキング処理部200は、入力されたマイク入力信号や過去のマイク入力信号からマスカー信号を生成し、出力するものである。
DA変換器106は、サウンドマスキング処理部200から出力された音信号をデジタル信号からアナログ信号に変換するものである。
スピーカアンプ105は、アナログ信号を増幅するものである。
スピーカ104は、電気信号を空気の振動に変換して音として出力するスピーカである。
次に、サウンドマスキング処理部200の詳細な構成を説明する。
サウンドマスキング処理部200は、フレーム分割部201、入力信号DB(データベース)202、信号選択部203、マスカー信号生成部204、音入力端子IN、及び音出力端子OUTを有する。
音入力端子INは、マイク入力信号をサウンドマスキング処理部200に入力するインタフェース(オーディオインタフェース)である。
フレーム分割部201は、サウンドマスキング処理部200に入力されたマイク入力信号を所定の長さ(処理フレーム)に分割して出力する。フレーム分割部201は、一般的に音声を解析するのに適した長さに分割すれば良く、例えば、マイク入力信号を100[ミリ秒]〜200[ミリ秒]単位にフレーム分割する。
入力信号DB202は、フレーム分割したマイク入力信号を蓄積する記憶手段である。
信号選択部203は、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー信号の生成に使用する信号(以下、「マスカー素辺信号」と呼ぶ)を選択し、選択結果を出力する。
マスカー信号生成部204は、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号を使用してマスカー信号を生成し出力する。
音出力端子OUTは、生成したマスカー信号をDA変換器106に出力するインタフェース(オーディオインターフェース)である。
サウンドマスキング処理部200は、全てをハードウェア的に構成(例えば、専用ボードやDSP(Digital Signal Processor)を用いて構築)するようにしても良いし、ソフトウェア的にコンピュータを用いて構成するようにしても良い。サウンドマスキング処理部200は、例えば、メモリ、及びプロセッサを有するコンピュータにプログラム(実施形態に係る音響処理プログラムを含む)をインストールして構成するようにしても良い。なお、この実施形態では、AD変換器103及びDA変換器106を、サウンドマスキング処理部200の外に配置しているが、サウンドマスキング処理部200にAD変換器103、及びDA変換器106を搭載した構成としても良い。
次に、図2では、サウンドマスキング処理部200をソフトウェア(コンピュータ)的に実現する際の構成について示している。
図2に示すサウンドマスキング処理部200は、コンピュータ300を用いてソフトウェア的に構成されている。コンピュータ300には、プログラム(実施形態の音響処理プログラムを含むプログラム)がインストールされている。なお、コンピュータ300は、音響処理プログラム専用のコンピュータとしても良いし、他の機能のプログラムと共用される構成としても良い。
図2に示すコンピュータ300は、プロセッサ301、一次記憶部302、及び二次記憶部303、音入力端子IN、及び音出力端子OUTを有している。音入力端子IN、及び音出力端子OUTは、図1に示した要素と同じである。
一次記憶部302は、プロセッサ301の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリが適用される。
二次記憶部303は、OS(Operating System)やプログラムデータ(実施形態に係る音響処理プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASHメモリやHDD(Hard Disk Drive)、SSD(Solid State Drive)等の不揮発性メモリが適用される。
この実施形態のコンピュータ300では、プロセッサ301が起動する際、二次記憶部303に記録されたOSやプログラム(実施形態に係る音響処理プログラムを含む)を読み込み、一次記憶部302上に展開して実行する。なお、コンピュータ300の具体的な構成は図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部302が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次記憶部303については除外した構成としても良い。
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態におけるサウンドマスキング装置100の動作(実施形態の音響処理方法)について詳細に説明する。
サウンドマスキング装置100の動作が開始し、サウンドマスキング装置100の利用者(図3の対象話者U1)がマイク101に向かつて音声を発話すると、マイク101に音声信号が入力される。
マイク101に入力されたアナログの音信号は、マイクアンプ102で増幅され、AD変換器103でアナログ信号からデジタル信号に変換され、サウンドマスキング処理部200の音入力端子INにマイク入力信号x(n)として入力される。なお、マイク入力信号x(n)において、nは入力信号の離散的な時間を表すパラメータである。
サウンドマスキング処理部200の音入力端子INにマイク入力信号x(n)が入力され始めると、フレーム分割部201に入力される。
フレーム分割部201は、マイク入力信号x(n)を所定単位に分割する。フレーム分割部201は、例えば、以下の(1)式に従い、処理フレームごとに分割する。
(1)式で、x_fram(l;m)はフレーム分割したマイク入力信号、lはフレーム番号、mはフレーム内の離散的な時間(m=0、1、2、・・・、M−1)、Mはフレーム長である。フレーム分割部201は、フレーム分割したマイク入力信号x_fram(l;m)を入力信号DB202に出力する。
入力信号DB202は、フレーム分割したマイク入力信号x_fram(l;m)を(2)式と(3)式に従い、フレームごとに入力信号DB202に蓄積する。
(2)式で、DB(i;m)は入力信号DB、iはデータベースのインデックス(i=0、1、2、・・・、I−1)、mはフレーム内の時間(m=0、1、2、・・・、M−1)、Mはフレーム長、Iはデータベース長である。iは(3)式に示すように、入力信号DBにデータが蓄積されるとインクリメン卜する。
信号選択部203は、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択する。信号選択部203は、例えば、(4)式に示すように選択結果T(k)を算出する。
(4)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、MOD(i−k,I)は、i−kをIで割ったときの剰余を返すM0D関数である。Iで割ったときの剰余を返すことで、選択結果T(k)は0からI−1の値になる。例えば、(4)式で、K=5のときは、入力信号DB202に蓄積されている5フレーム分のマイク入力信号を選択する。
なお、選択結果T(k)を算出手法は、種々の方法を広く適用することができ、例えば、(5)式に示すように、マスカー素辺信号をランダムに選択しても良い。
(5)式で、rand(k)は自然数kに対して非負の整数の乱数を生成する関数である。(5)式は、MOD関数を使用してrand(k)で生成した乱数をIで割ったときの剰余を返すことで、選択結果T(k)は0からI−1の値になる。信号選択部203は、選択結果T(k)をマスカー信号生成部204に出力する。
マスカー信号生成部204は、信号選択部203の選択結果T(k)に基づいて、マスカー素辺信号を入力信号DB202からKフレーム読み出し、読み出されたKフレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号の生成手法は、例えば、(6)式に示すように、読み出されたKフレームのマスカー素辺信号を重畳して生成する。
(6)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、h(l;m)はマスカー信号である。例えば、(6)式で、K=5のときは、選択結果T(k)に基づき、マスカー素辺信号として入力信号DB202から過去5フレーム分をマスカー素辺信号として読み出し、読み出したマスカー素辺信号を重畳することでマスカー信号h(l;m)を生成する。
なお、マスカー信号h(l;m)の生成手法は、種々の方法を広く適用することができ、例えば、(7)式に示すように、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳することでマスカー信号h(l;m)を生成しても良いし、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号h(l;m)を生成しても良い。
そして、マスカー信号生成部204は、(8)式に従い、マスカー信号h(l;m)を出力信号y(n)としてサウンドマスキング処理部200の音出力端子OUTに出力する。
サウンドマスキング処理部200の音出力端子OUTから出力される信号は、DA変換器106でデジタル信号からアナログ信号に変換され、スピーカアンプ105で増幅されてからスピーカ104から出力される。
図3、図4は、マイク101と、マイク101に向かって発話する対象話者U1と、対象話者U1の後ろ側に立っている対象話者U1以外の人(対象話者U1の発話する音声をマスカー信号で聞き取りづらくする対象の人(以下、「マスキング対象者」と呼ぶ)U2と、スピーカ104との配置関係(スピーカ104の配置構成)の例について示した図である。図3、図4では、スピーカから出力される直接音DS(Direct Sound)の指向性を点線で図示している。また、図3では、直接音が床FRに反射することにより発生する反射音RS(Reflected Sound)の指向性を一点鎖線で図示している。
図3では、スピーカ104は、対象話者U1の前方で膝程度の高さに配置され、スピーカ104の振動面(指向性)が下方向で、床FRの表面に対して斜め方向に設置されている。さらに、対象話者U1の後方の床FR部分に指向性が向けられた状態となっている。そして、スピーカ104から放射されたマスカー信号は図3に示すように、床FRの表面に向けて出力され、床FRに到達すると反射する。これにより、図3に示すようにマスカー信号が反射し、対象話者U1の後方にいるマスキング対象者U2にマスカー信号が伝わる。このとき、対象話者U1が発話する音声の直接音もマスキング対象者U2に伝わるが、マスカー信号によって、マスクされる。
なお、スピーカ104の設置方法は、対象話者U1にマスカー信号が聞こえないように設置し、且つマスキング対象者U2にマスカー信号が聞こえるように設置できれば種々の設置方法を広く適用することができる。例えば、図4の(a)に示しているように、対象話者U1の後ろに設置できるスペースがあれば、直接スピーカ104の振動面をマスキング対象者U2に直接向けてマスカー信号を出力するようにしても良いし、図4の(b)に示しているように、床FRにスピーカ104を埋め込んで直接スピーカ104の振動面をマスキング対象者U2に直接向けてマスカー信号を出力するようにしても良いし、図4の(c)に示しているように、天井CEにスピーカ104を設置して直接スピーカ104の振動面をマスキング対象者U2に直接向けてマスカー信号を出力するようにしても良い。
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
第1の実施形態のサウンドマスキング装置100は、対象話者U1の音声を入力信号DBに蓄積し、入力信号DBに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用してマスカー信号を生成し、出力する。これにより、第1の実施形態のサウンドマスキング装置100では、マスカー信号の音響特徴が対象話者U1の音声の音響特徴により近くなることから、マスキング効果が向上し、会話の内容が漏れることを防ぐことができる。言い換えると、第1の実施形態のサウンドマスキング装置100では、入力信号DBに蓄積されている対象話者U1の音声信号を用いてマスカー信号を生成することで、対象話者U1の音響特性の解析を行わなくても、マスカー信号の音響特徴が対象話者U1の音声信号の音響特徴に近いので、高いマスキング効果が得られる。
さらに、第1の実施形態のサウンドマスキング装置100は、マスカー信号を再生するスピーカを、対象話者U1にマスカー信号が聞こえないように設置し、且つマスキング対象者U2にマスカー信号が聞こえるように設置することで、対象話者U1の会話を妨害せずに対象話者U1の発話する音声をマスキングすることができる。
(B)第2の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第2の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(B−1)第2の実施形態の構成
図5は、第2の実施形態に係るサウンドマスキング装置100Aの機能的構成について示したブロック図である。図2では、図1と同一部分又は対応部分には、同一符号又は対応符号を付している。
以下では、第2の実施形態について、第1の実施形態との差異を中心に説明し、第1の実施形態と重複する部分については説明を省略する。
第2の実施形態のサウンドマスキング装置100Aでは、サウンドマスキング処理部200がサウンドマスキング処理部200Aに置き換わっている点で、第1の実施形態と異なっている。サウンドマスキング処理部200Aでは、マスカー信号生成部204が、マスカー信号生成部204Aに置き換わり、さらに、音声区間判定部205とDB蓄積判定部206が追加されている点で、第1の実施形態と異なっている。
第2の実施形態のサウンドマスキング装置100Aのサウンドマスキング処理部200Aでは、音声区間判定部205とDB蓄積判定部206が増えたことにより入力信号DBに蓄積されるフレーム分割されたマイク入力信号とマスカー信号の生成方法が異なる点と、マスカー信号生成部204Aになったことによりフレーム分割されたマイク入力信号の蓄積方法やマスカー信号方法が異なる点が第1の実施形態のサウンドマスキング装置100と異なる。
音声区間判定部205は、フレーム分割されたマイク入力信号が音声区間か非音声区間(音声区間以外の区間)かを判定し、判定結果を出力する。
DB蓄積判定部206は、音声区間判定部205の音声区間判定の結果を基に、フレーム分割されたマイク入力信号が音声区間と判定された場合、フレーム分割されたマイク入力信号を入力信号DB202に出力し、非音声区間と判定された場合、フレーム分割されたマイク入力信号を入力信号DB202に出力しない。
マスカー信号生成部204Aは、音声区間判定の結果と選択結果を基に、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。
(B−2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態におけるサウンドマスキング装置100Aの動作(実施形態に係る音響処理方法)について詳細に説明する。
第2の実施形態に係るサウンドマスキング装置100Aにおけるサウンドマスキング処理の基本的な動作は、第1の実施形態で説明したサウンドマスキング処理と同様である。
以下では、第1の実施形態と異なる点である音声区間判定部205、DB蓄積判定部206、マスカー信号生成部204Aにおける処理動作を中心に詳細に説明する。
フレーム分割部201は、マイク入力信号x(n)を処理フレームごとに分割し、フレーム分割したマイク入力信号x_fram(l;m)を音声区間判定部205とDB蓄積判定部206に出力する。
音声区間判定部205は、フレーム分割したマイク入力信号x_fram(l;m)を用いて、音声区間か非音声区間かを判定する。音声区間か非音声区間かの判定手段は、例えば、(9)式と(10)式に従い判定する。
(9)式と(10)式で、x_fram(l;m)はフレーム分割したマイク入力信号、x_fram_amp(l)はフレーム分割したマイク入力信号の平均振幅値、VAD(l)は音声区間判定結果、THは音声区間の判定に用いられる閾値である。
(9)式は、フレーム分割したマイク入力信号x_fram(l;m)の平均振幅値x_fram_amp(l)を求める式である。(10)式は、(9)式で求めたフレーム分割したマイク入力信号x_fram(l;m)の平均振幅値x_fram_amp(l)が閾値THより値が大きければ音声区間と判定し音声区間判定結果VAD(l)に1を代入し、閾値THより値が小さければ非音声区間と判定し音声区間判定結果VAD(l)に0を代入するという式である。
閾値THは、音声の有無を判定できれば良く、種々の方法を広く適用することができ、例えば、(11)式に示すように、サウンドマスキング装置100Aが動作し始めた最初の数フレームを無音区間とし、その最初の数フレームの平均振幅値を閾値THとして使用する固定の閾値THを用いても良いし、(12)式に示すように、x_fram_amp(l)に時定数フィルタを用いてフレーム毎に変動する閾値TH(l)を用いても良い。
(12)式で、aは時定数フィルタの係数であり、0以上、1以下の値となる。(12)式において、閾値の更新を遅くしたい場合aは1に近い値が望ましく(例えばa=0.9等の値)、閾値の更新を速くしたい場合aは0に近い値が望ましい(例えばa=0.1等の値)。
なお、音声区間か非音声区間かの判定の手段は、種々の方法を広く適用することができ、例えば、フレーム分割したマイク入力信号x_fram(l;m)の自己相関を求めて音声区間か非音声区間か求める等の方法で判定しても良い。音声区間判定部205は、音声区間か非音声区間かの判定結果をDB蓄積判定部206とマスカー信号生成部204Aに出力する。
DB蓄積判定部206は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたとき(VAD(l)=1のとき)のみ、フレーム分割部201から出力されたフレーム分割したマイク入力信号x_fram(l;m)を、入力信号DB202に出力し、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が非音声区間と判定されたとき(VAD(l)=0のとき)は、フレーム分割したマイク入力信号x_fram(l;m)を出力しない。
マスカー信号生成部204Aは、音声区間判定部205の音声区間判定結果VAD(l)と信号選択部203の選択結果T(k)を基に、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号生成部204Aは、(6)式と(13)式に従い、マスカー信号を出力する。
(13)式で、ha(l;m)はマスカー信号生成部204Aで生成されるマスカー信号である。(13)式は、音声区間判定部205で、マイク入力信号x_fram(l;m)が音声区間と判定されたとき(VAD(l)=1のとき)のみ、信号選択部203の選択結果T(k)を用いてマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号を使用してマスカー信号h(l;m)を生成しha(l;m)に代入し、マイク入力信号x_fram(l;m)が非音声区間と判定されたとき(VAD(l)≠1のとき)は、ha(l;m)に無音を代入する。
マスカー信号生成部204は、(14)式に従い、出力信号y(n)を音出力端子OUTに出力する。
(B−3)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
第2の実施形態のサウンドマスキング装置100Aでは、音声区間と判定されたときのみ対象話者U1の音声を入力信号DB202に蓄積することで、対象話者U1の音声とは関係のない雑音が入力信号DB202に蓄積されてマスカー素辺信号として選択されることがなくなるので、対象話者U1の音声のみでマスカー信号を生成することができ、高いマスキング効果を維持できる。
また、第2の実施形態のサウンドマスキング装置100Aでは、音声区間と判定されたときのみ、入力信号DBに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用してマスカー信号を生成し、出力している。これにより、音声が入力されたときのみマスカー信号が出力されるように構成することができる。
(C)第3の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第3の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(C−1)第3の実施形態の構成
図6は、第3の実施形態に係るサウンドマスキング装置100Bの機能的構成について示したブロック図である。図6では、上述の図5と同一部分又は対応部分には、同一符号又は対応符号を付している。
以下では、第3の実施形態について、第1、及び第2の実施形態との差異を中心に説明し、第1と第2の実施形態と重複する部分については説明を省略する。
第3の実施形態のサウンドマスキング装置100Bでは、サウンドマスキング処理部200Aがサウンドマスキング処理部200Bに置き換わっている点で、第2の実施形態と異なっている。
サウンドマスキング処理部200Bでは、入力信号DB202と信号選択部203とマスカー信号生成部204Aが、それぞれ入力信号DB202Aと信号選択部203Aとマスカー信号生成部204Bに置き換わり、さらに、ピッチ推定部205とクラス判定部208が追加されている点で、第2の実施形態と異なっている。
第3の実施形態のサウンドマスキング装置100Bでは、ピッチ推定部205とクラス判定部208が増えたことにより、フレーム分割されたマイク入力信号のピッチ推定、フレーム分割されたマイク入力信号の蓄積方法、マスカー信号の生成に使用する信号を選択する方法、マスカー信号の生成方法が異なる点が第2の実施形態と異なる。
ピッチ推定部207は、フレーム分割されたマイク入力信号と音声区間判定の結果からフレーム分割されたマイク入力信号のピッチ(音声の高さ)を推定し、推定したピッチを出力する。
クラス判定部208は、ピッチ推定部207で推定したピッチの結果を基に、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号を入力信号DB202Aのピッチに応じたクラスに出力し、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積しないと判定された場合、フレーム分割されたマイク入力信号を入力信号DB202Aのピッチに応じたクラスに出力しない。
入力信号DB202Aは、フレーム分割したマイク入力信号をピッチに応じたクラスごとに蓄積する記憶手段である。
信号選択部203Aは、クラスごとに蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択し、選択結果を出力する。
マスカー信号生成部204Bは、音声区間判定とピッチ推定の結果と選択結果を基に、選択されたマスカー素辺信号を入力信号DB202Aのピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成して出力する。
なお、第3の実施形態において、第1の実施形態と同様に音声区間判定部205を除外した構成としても良い。
(C−2)第3の実施形態の動作
次に、以上のような構成を有する第3の実施形態におけるサウンドマスキング装置100Bの動作(実施形態に係る音響処理方法)について詳細に説明する。
第3の実施形態に係るサウンドマスキング装置100Bにおけるサウンドマスキング処理の基本的な動作は、第1、及び第2の実施形態で説明したサウンドマスキング処理と同様である。
以下では、第2の実施形態と異なる点であるピッチ推定部207、クラス判定部208、入力信号DB202A、信号選択部203A、マスカー信号生成部204Bにおける処理動作を中心に詳細に説明する。
フレーム分割部201は、マイク入力信号x(n)を処理フレームごとに分割し、フレーム分割したマイク入力信号x_fram(l;m)を音声区間判定部205、DB蓄積判定部206、ピッチ推定部207に出力する。
音声区間判定部205は、フレーム分割したマイク入力信号x_fram(l;m)を用いて、音声区間か非音声区間かを判定し、音声区間か非音声区間かの判定結果をDB蓄積判定部206、ピッチ推定部207、マスカー信号生成部204Bに出力する。
DB蓄積判定部206は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割部201から出力されたフレーム分割したマイク入力信号x_fram(l;m)を、クラス判定部208、信号選択部203A、マスカー信号生成部204Bに出力し、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が非音声区間と判定されたときは、フレーム分割したマイク入力信号x_fram(l;m)を出力しない。
ピッチ推定部207は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割したマイク入力信号x_fram(l;m)のピッチを推定する。ピッチの推定手段は、例えば、(15)式に従い、フレーム分割したマイク入力信号x_fram(l;m)の自己相関関数x_fram_corr(l)を求め、(16)式に従い自己相関関数x_fram_corr(l)を用いて推定するようにしても良い。
(16)式で、pitch(l)は推定したピッチ、fsはサンプリング周波数である。ピッチの推定手法は、種々の方法を広く適用することができ、例えば、フレーム分割したマイク入力信号x_fram(l;m)を離散フーリエ変換や高速フーリエ変換を行ってからケプストラム分析を行い、ピッチを算出しても良い。ピッチ推定部205は、推定したピッチpitch(l)をクラス判定部208とマスカー信号生成部204Bに出力する。
クラス判定部208は、ピッチ推定部207で推定したピッチを基に、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積するか蓄積しないかを判定する。クラス判定部208において、入力信号DB202Aに蓄積するか蓄積しないかを判定手法については限定されないものである。例えば、ピッチ推定部207で推定したピッチpitch(l)が、100HZ以下、101Hz〜200Hz、201Hz〜300Hz、301Hz〜400Hz、401Hz〜500Hz、500Hz以上のように100Hzの間隔(グリッド)でクラス分けする。そして、100HZ以下、又は500Hz以上の時、入力信号DB202Aに蓄積しないと判定し、それ以外のときは入力信号DB202Aに蓄積すると判定するようにしても良い。また、例えば、入力信号DB202Aでは、周波数があがるほどクラスの周波数間隔(グリッド)を広げるようにしても良い。
クラス判定部208は、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号x_fram(l;m)を入力信号DB202Aのピッチに応じたクラスに出力し、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積しないと判定された場合、フレーム分割されたマイク入力信号x_fram(l;m)を入力信号DB202Aのピッチに応じたクラスに出力しない。
入力信号DB202Aは、クラス判定部208からマイク入力信号x_fram(l;m)が出力されたときのみ、出力されたフレーム分割したマイク入力信号x_fram(l;m)を(17)式と(18)式に従い、ピッチに応じたクラスごとに入力信号DB202Aに蓄積する。
(17)式で、DB’(p;i;m)は入力信号DB、mはフレーム内の離散的な時間(m=0、1、2、・・・、M−1)、i(pitch(l))はデータベースのクラスごとのインデックス、Iはデータベース長である。i(pitch(l))は(18)式に示すように、クラスにデータが蓄積されるとインクリメントする。
信号選択部203Aは、入力信号DB202Aにクラスごとに蓄積されている過去のフレーム分割したマイク入力信号からマスカー素辺信号を選択する。信号選択部203Aは、例えば、(19)式に示すように選択結果Ta(k)を選択する。
(19)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、MOD(i−k,I)は、i−kをIで割ったときの剰余を返すM0D関数である。(19)式は、Iで割ったときの剰余を返すことで、選択結果Ta(k)は0からI−1の値になる。
なお、選択結果Ta(k)を算出手法は、種々の方法を広く適用することができ、例えば、(20)式に示すように、どのフレームを使用するかランダムに選択しても良い。
(20)式で、randは自然数kに対して乱数を生成する関数である。(20)式は、MOD関数を使用してrand(k)で生成した乱数をIで割ったときの剰余を返すことで、選択結果Ta(k)は0からI−1の値になる。信号選択部203Aは、選択結果Ta(k)をマスカー信号生成部204に出力する。
マスカー信号生成部204Bは、音声区間判定部205の音声区間判定結果VAD(l)、ピッチ推定部207で推定したピッチpicth(l)、信号選択部203Aの選択結果Ta(k)を基に、マスカー素辺信号を入力信号DB202Aのピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。マスカー信号生成部204Bは、(21)式と(22)式に従い、マスカー信号を出力する。
(21)式で、hb(l;m)はマスカー信号を、F0_MAXはピッチの最大値を、(22)式で、h’(l;m)は入力信号DBから生成されるマスカー信号Kはマスカー素辺信号の選択数(マスカー信号生成時における音声の加算回数)をである。(21)式は、音声区間判定部205でマイク入力信号x_fram(l;m)が音声区間と判定されとき(VAD(l)=1のとき)、かつ、ピッチ推定部207の推定したピッチpitch(l)が0Hzより大きく、F0_MAX以下ときのみ、マスカー信号h’(l;m)を生成し、上記以外の時ときは無音を生成し、hb(l;m)に代入するという式である。(22)は、入力信号DB202Aにピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を重畳して生成する方法である。
なお、マスカー信号生成部204Bにおいて、マスカー信号の生成手法は、種々の方法を広く適用することができる。例えば、マスカー信号生成部204Bでは、入力信号DB202Aのクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳してからマスカー信号h’(l;m)を生成しても良いし、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号h’(l;m)を生成しても良いし、過去のどのフレームを使用するかランダムに決定してマスカー信号h’(l;m)を生成しても良い。
そして、マスカー信号生成部204Bは、(23)式に従い、出力信号y(n)を音出力端子OUTに出力する。
(C−3)第3の実施形態の効果
第3の実施形態によれば、以下のような効果を奏することができる。
第3の実施形態のサウンドマスキング装置100Bでは、対象話者U1の音声をピッチに応じたクラスごとに入力信号DB202Aに蓄積し、ピッチに応じたクラスごとに入力信号DBに蓄積されている過去のマイク入力信号を複数フレーム使用してマスカー信号を生成し出力する。これにより、第3の実施形態のサウンドマスキング装置100Bでは、マスカー信号と対象話者U1の音声との音響特徴にさらに近づくので、よりマスキング効果を高めることができる。
(D)第4の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第4の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(D−1)第4の実施形態の構成
図7は、第4の実施形態に係るサウンドマスキング装置100Cの機能的構成について示したブロック図である。図7では、上述の図6と同一部分又は対応部分には、同一符号又は対応符号を付している。
以下では、第4の実施形態について、第1から第3の実施形態との差異を中心に説明し、第1から第3の実施形態と重複する部分については説明を省略する。
第4の実施形態のサウンドマスキング装置100Cでは、サウンドマスキング処理部200Bがサウンドマスキング処理部200Cに置き換わっている点で、第3の実施形態と異なっている。
サウンドマスキング処理部200Cでは、信号選択部203Aとマスカー信号生成部204Bが信号選択部203Bとマスカー信号生成部204Cに置き換わり、さらに、第三者音声信号DB209と使用DB判定部210が追加されている点で、第1から第3の実施形態と異なっている。
第4の実施形態のサウンドマスキング装置100Cでは、第三者音声信号DB209と使用DB判定部210が増えたことにより、第三者音声信号DB209に第三者音声信号を蓄積する方法、サウンドマスキング装置100Cが動作した時に使用するDB、マスカー信号の生成に使用する信号を選択する方法、マスカー生成方法が異なる点が第1から第3の実施形態と異なる。
第三者音声信号DB209は、例えば、事前にサンプルとなる音声信号(以下、「第三者音声信号」と呼ぶ)を蓄積しておき、蓄積した第三者の音声信号をフレーム分割し、フレーム分割された第三者音声信号をピッチに応じたクラスに分けて蓄積したデータベースである。
使用DB判定部210は、入力信号DB202Aの各クラスに、フレーム分割されたマイク入力信号が所定量以上(十分)蓄積されているか否かを判定し、その判定結果を出力する。
信号選択部203Bは、入力信号DB202A、又は第三者音声信号DB209にクラスごとに蓄積されている過去のフレーム分割したマイク入力信号から、マスカー素辺信号を選択し、選択結果を出力する。
マスカー信号生成部204Cは、音声区間判定とピッチ推定の結果と使用DB判定結果と選択結果を基に、入力信号DB202Aに所定量以上蓄積されていると判定されたときは入力信号DB202A、入力信号DB202Aに所定量以上蓄積されていないと判定されたときは第三者音声信号DB209を選択し、マスカー素辺信号を選択されたデータベース(以下、選択したデータベースを「選択データベース」と呼ぶ)のピッチに応じたクラスから複数フレーム読み出し、読み出された複数フレームからマスカー素辺信号からマスカー信号を生成して出力する。
なお、第4の実施形態において、ピッチ推定部205を除外し、入力信号DB202A、又は第三者音声信号DB209においてクラス分けせずに蓄積するようにしても良い。また、第4の実施形態において、音声区間判定部205を除外するようにしても良い。
(D−2)第4の実施形態の動作
次に、以上のような構成を有する第4の実施形態におけるサウンドマスキング装置100Cの動作(実施形態に係る音響処理方法)について詳細に説明する。
第4の実施形態に係るサウンドマスキング装置100Cにおけるサウンドマスキング処理の基本的な動作は、第1から第3の実施形態で説明したサウンドマスキング処理と同様である。
以下では、第1から第3の実施形態と異なる点である第三者音声信号DB209、使用DB判定部210、信号選択部203B、マスカー信号生成部204Cにおける処理動作を中心に詳細に説明する。
サウンドマスキング装置100Cのサウンドマスキング処理部200Cでは、サウンドマスキング処理を行う前に、第三者音声信号DB209へ音声信号の蓄積を行う。
例えば、図8に示すように、事前に音声信号のサンプルを蓄積したデータベース(例えば、市販されている音声信号のデータベース等)により構成された第三者音声信号サンプルデータASを、サウンドマスキング処理部200Cに入力することで第三者音声信号DB209を構築する。
図8では、第三者音声信号サンプルデータASに基づく音声信号をサウンドマスキング処理部200Cに入力し、サウンドマスキング装置100Cが動作を開始して、第三者音声信号サンプルデータASに基づく音声信号について、上記の各実施形態と同様にフレーム分割、音声区間判定、ピッチ推定、DB蓄積判定、クラス判定を行い、第三者音声信号DB209に蓄積する。
なお、上記の各実施形態の入力信号DB202、202Aの蓄積処理と同様の処理により、第三者音声信号DB209を構築するようにしても良い。
また、第三者音声信号サンプルデータASが記録されるデータ記録媒体は限定されないものである。
さらに、第三者音声信号DB209を構築する際のサンプルとしては、予め録音された第三者音声信号サンプルデータASではなく、マイク101、マイクアンプ102、及びAD変換器103を音入力端子INに接続して、複数の人物に発話して蓄積(マイク101を介して第三者音声信号のサンプルを蓄積)するようにしても良いし、別のPC等で処理して作成したデータ(第三者音声信号のサンプルデータ)を使用(例えば、通信やデータ記録媒体によりコピー)するようにしても良い。
そして、第三者音声信号DB209に第三者の音声信号に基づくデータが十分に蓄積(所定以上の量のデータが蓄積)された段階でサウンドマスキング装置100Cは、第三者音声信号DB209の準備処理を終了し、サウンドマスキング処理が開始するまで一時停止する。
なお、第三者音声信号DB209に第三者の音声信号に基づくデータが十分に蓄積(所定以上の量のデータが蓄積)された段階でサウンドマスキング装置100Cは、第三者音声信号DB209の準備処理を終了し、サウンドマスキング処理を開始するようにしても良い。
このとき、第三者音声信号DB209に所定以上の量のデータが蓄積されたか否かを判定する方法は限定されないものであるが、使用DB判定部210を用いた判定処理を行うようにしても良い。
サウンドマスキング装置100Cがサウンドマスキング処理を開始し、対象話者U1がマイク101に向かつて音声を発話すると、マイク101に入力される。
マイク101に入力されたアナログの音信号は、マイクアンプ102で増幅され、AD変換器103でアナログ信号からデジタル信号に変換され、サウンドマスキング処理部200Cの音入力端子INにマイク入力信号x(n)として入力される。
サウンドマスキング処理部200Cの音入力端子INにマイク入力信号x(n)が入力され始めると、フレーム分割部201に入力される。
フレーム分割部201は、マイク入力信号x(n)を、処理フレームごとに分割し、フレーム分割したマイク入力信号x_fram(l;m)を音声区間判定部205とDB蓄積判定部206とピッチ推定部207に出力する。
音声区間判定部205は、フレーム分割したマイク入力信号x_fram(l;m)を用いて、音声区間か非音声区間かを判定し、音声区間か非音声区間かの判定結果をDB蓄積判定部206、ピッチ推定部207、マスカー信号生成部204Cに出力する。
DB蓄積判定部206は、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割部201から出力されたフレーム分割したマイク入力信号x_fram(l;m)を、クラス判定部208信号選択部203B、マスカー信号生成部204Cに出力し、音声区間判定部205でフレーム分割したマイク入力信号x_fram(l;m)が非音声区間と判定されたときは、フレーム分割したマイク入力信号x_fram(l;m)を出力しない。
ピッチ推定部207は、音声区間判定部205でマイク入力信号x_fram(l;m)が音声区間と判定されたときのみ、フレーム分割したマイク入力信号x_fram(l;m)のピッチを推定し、推定したピッチをマスカー信号生成部204Cとピッチ推定部207に出力する。
クラス判定部208は、ピッチ推定部207で推定したピッチを基に、フレーム分割されたマイク入力信号を入力信号DB202Aに蓄積すると判定された場合にのみ、フレーム分割されたマイク入力信号を入力信号DB202Aのピッチに応じたクラスに出力して蓄積する。
入力信号DB202Aは、クラス判定部208からマイク入力信号x_fram(l;m)が出力されたときのみ、出力されたフレーム分割したマイク入力信号x_fram(l;m)を(17)式と(18)式に従い、ピッチに応じたクラスごとに入力信号DB202Aに蓄積する。
使用DB判定部210は、入力信号DB202Aの各クラスに過去のフレーム分割したマイク入力信号x_fram(l;m)が所定以上の量のデータが蓄積(十分蓄積)されているか判定し、判定結果を出力する。使用DB判定部210は、例えば、以下の(24)式に従って、入力信号DB202Aにフレーム分割したマイク入力信号x_fram(l;m)が所定以上の量が蓄積されているか否かを判定する。
(24)式で、flag(l)は、判定結果である。(24)式は、所定以上の量のデータが蓄積されている場合は、判定結果flag(l)に1を代入し、所定以上の量のデータが蓄積(十分蓄積)されていない場合は判定結果flag(l)に0を代入する。
なお、使用DB判定部210において、入力信号DB202Aに所定以上の量のデータが蓄積されているか否かの判断手法は、種々の方法を広く適用することができる。例えば、使用DB判定部210フレーム分割したマイク入力信号x_fram(l;m)が入力信号DBに蓄積される回数をカウントし、カウント数が閾値を超えた場合、所定以上のデータが蓄積されていると判定しても良いし、クラス毎に蓄積される回数をカウントし、全てのクラスについてカウント数が閾値を超えた場合、十分蓄積されていると判定しても良い。
また、使用DB判定部210において、入力信号DB202Aに所定以上の量のデータが蓄積されているか否かの判断開始方法は、種々の方法を広く適用することができる。例えば、サウンドマスキング装置100Cの動作が開始してから判定を開始しても良いし、サウンドマスキング装置100Cの動作が開始して所定時間経過した時から判定を開始するようにしても良い。そして、使用DB判定部210は、信号選択部203Bに判定結果flag(l)を出力する。
信号選択部203Bは、使用DB判定部210から出力された判定結果flag(l)から入力信号DB202A、又は第三者音声信号DB209にクラスごとに蓄積されている過去のフレーム分割したマイク入力信号からマスカー素辺信号を選択する。信号選択部203Aは、例えば、(25)式に示すように選択結果Tb(k)を選択する。
(25)式で、k(k=1,2,・・・,K)は変数、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声信号の加算回数)、MOD(i−k,I)は、i−kをIで割ったときの剰余を返すM0D関数である。Iで割ったときの剰余を返すことで、選択結果Tb(k)は0からI−1の値になる。(25)式は、使用DB判定部210で、入力信号DB202Aに所定量以上蓄積されていないと判定されたとき(flag(l)=0のとき)は、第三者音声信号DB209からマスカー素辺信号を選択し、入力信号DB202Aに所定量以上蓄積されていると判定されたとき(flag(l)=0以外のとき)は、入力信号DB202Aからマスカー素辺信号を選択するという式である。
なお、選択結果Tb(k)を算出手法は、種々の方法を広く適用することができ、例えば、(26)式に示すように、どのフレームを使用するかランダムに選択しても良い。
(26)式で、randは自然数kに対して乱数を生成する関数である。(26)式は、MOD関数を使用してrand(k)で生成した乱数をIで割ったときの剰余を返すことで、選択結果Tb(k)は0からI−1の値になる。信号選択部203Bは、選択結果Tb(k)をマスカー信号生成部204に出力する。
マスカー信号生成部204Cは、音声区間判定部205の音声区間判定結果VAD(l)、ピッチ推定部207で推定したピッチpicth(l)、信号選択部203Bの選択結果Tb(k)、使用DB判定部210の判定結果flag(l)に基に、入力信号DB202Aに所定量以上蓄積されていると判定されたときは入力信号DB202A、入力信号DB202Aに所定量以上蓄積されていない判定されたときは第三者音声信号DB209を選択し、マスカー素返信号を選択データベースのピッチに応じたクラスから複数フレーム読み出す。そして、読み出された複数フレームからマスカー信号を生成し出力する。マスカー信号生成部204Cは、例えば、(27)式と(28)式に従い、マスカー信号を出力する。
(27)式で、hc(l;m)はマスカー信号を、F0_MAXはピッチの最大値を、(28)式で、DB2(p;l;m)は第三者音声信号DB、h’’(l;m)は第三者音声信号DBと入力信号DBから生成されるマスカー信号、Kはマスカー素辺信号の選択数(マスカー信号生成時における音声の加算回数)である。(27)式は、音声区間判定部205でマイク入力信号x_fram(l;m)が音声区間と判定されとき(VAD(l)=1のとき)、かつ、ピッチ推定部207の推定したピッチpitch(l)が0Hzより大きく、F0_MAX以下ときのみ、マスカー信号h’’(l;m)を生成し、上記以外の時ときは無音を生成しhc(l;m)に代入するという式である。(28)は、使用DB判定部210で、入力信号DB202Aに所定量以上蓄積されていないと判定されたとき(flag(l)=0のとき)は、マスカー素辺信号を、第三者音声信号DB209から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し、入力信号DB202Aに所定量以上蓄積されていると判定されたとき(flag(l)=0以外のとき)は、マスカー素辺信号を入力信号DB202Aから複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成する。
なお、マスカー信号生成部204Cにおいて、マスカー信号の生成手法は、種々の方法を広く適用することができる。例えば、マスカー信号生成部204Cでは、選択データベースのピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転して重畳してからマスカー信号h’’(l;m)を生成しでも良いし、選択データベースのピッチに応じたクラスごとに蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間遅延して重畳することでマスカー信号h’’(l;m)を生成しても良いし、過去のどのフレームを使用するかランダムに決定してマスカー信号h’’(l;m)を生成しても良い。
そして、マスカー信号生成部204Cは、(29)式に従い、生成したマスカー信号hc(l;m)を出力信号y(n)として音出力端子OUTに出力する。
(D−3)第4の実施形態の効果
第4の実施形態によれば、以下のような効果を奏することができる。
第4の実施形態のサウンドマスキング装置100Cは、動作開始時には第三者音声信号DB209を使用してマスカー信号を生成して出力し、入力信号DB202Aに入力信号が十分蓄積されたら、入力信号DB202Aに蓄積されている過去のマイク入力信号を複数フレーム使用してマスカー信号を生成し出力する。これにより、サウンドマスキング装置100Cでは、動作開始時から音響特徴が対象話者U1の音声の音響特徴に近いマスカー信号を生成できるので、よりマスキング効果を高めることができる。
(E)第5の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第5の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(E−1)第5の実施形態の構成
図9は、第5の実施形態に係るサウンドマスキング装置100Dの機能的構成について示したブロック図である。図9では、上述の図1と同一部分又は対応部分には、同一符号又は対応符号を付している。
以下では、第5の実施形態について、第1の実施形態との差異を中心に説明し、第1の実施形態と重複する部分については説明を省略する。
第5の実施形態のサウンドマスキング装置100Dでは、サウンドマスキング処理部200がサウンドマスキング処理部200Dに置き換わっている点で、第1の実施形態と異なっている。サウンドマスキング処理部200Dでは、マスカー信号生成部204がマスカー信号生成部204Dに置き換わっている点で第1の実施形態と異なっている。
第5の実施形態のサウンドマスキング装置100Dは、マスカー信号生成部204Dのマスカー信号の生成方法が異なる点が第1の実施形態のサウンドマスキング装置100と異なる。
マスカー信号生成部204Dは、選択されたマスカー素辺信号を入力信号DB202から複数フレーム読み出し、読み出された複数フレームのマスカー素辺信号からマスカー信号を生成し出力する。
(E−2)第5の実施形態の動作
次に、以上のような構成を有する第5の実施形態におけるサウンドマスキング装置100Dの動作(実施形態に係る音響処理方法)について詳細に説明する。
第5の実施形態に係るサウンドマスキング装置100Dにおけるサウンドマスキング処理の基本的な動作は、第1の実施形態で説明したサウンドマスキング処理と同様である。
以下では、第1の実施形態と異なる点であるマスカー信号生成部204Dにおける処理動作を中心に詳細に説明する。
マスカー信号生成部204Dは、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を使用してマスカー信号を生成する。マスカー信号生成部204Dが行うマスカー信号の生成手法としては、例えば、入力信号DB202に蓄積されているマイク入力信号に所定量の遅延を与えて重畳することで疑似的にエコー(以下、「疑似エコー」と呼ぶ)を生成し、マスカー信号として使用する手法が挙げられる。
マスカー信号生成部204Dは、疑似エコーを生成し、生成した疑似エコーをマスカー信号として出力する。疑似エコーは、例えば、(30)式、(31)式に従い、疑似エコーを生成する。
(30)式、(31)式で、c(c=1、2、・・・、C)はインデックスを、Cは疑似エコー生成時における音声の加算回数、p(1≦p≦(M−1))は疑似エコーを生成する時の入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号をどれだけ遅延させるかのパラメー夕、αは減表係数(0.0<α<1.0)である。(31)式は、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を複数フレーム読み出しを時間的にずらして減衰係数を乗算してから重畳して生成される信号である。疑似エコーの遅延時間は、例えば、0.1[秒]から1.0[秒](48kHzサンプリングで約4800[サンプル]から48000[サンプル])程度としても良い。例えば、(30)式で、C=3、p=50、α=0.5のときは、入力信号DB202に蓄積されている過去1フレーム前のマイク入力信号と、入力信号DB202に蓄積されている過去2フレーム前のマイク入力信号を50サンプル進めて減衰係数α(=0.5)を乗算した信号と、入力信号DB202に蓄積されている過去3フレーム前のマイク入力信号を100サンプル進めて、減衰係数α2(=0.25)を乗算した信号を重畳することで疑似エコーe(l;m)を生成することを示す。
なお、マスカー信号生成部204Dにおける疑似エコーの生成手法は、種々の方法を広く適用することができる。マスカー信号生成部204Dでは、例えば、(32)式と(33)式に示すように、入力信号DB202に蓄積されている過去のフレーム分割したマイク入力信号を時間処理として時間反転した信号を使用して疑似エコーe(l;m)を生成しても良いし、過去のどのフレームを使用するかランダムに決定して疑似エコーe(l;m)を生成しても良い。
そして、マスカー信号生成部204Dは、(34)式に従い、生成した疑似エコーe(l;m)を出力信号y(n)として音出力端子OUTに出力する。
(E−3)第5の実施形態の効果
第5の実施形態によれば、以下のような効果を奏することができる。
第5の実施形態のサウンドマスキング装置100Dは、対象話者U1の音声を入力信号DBに蓄積し、入力音声信号DBに蓄積されている過去のフレーム分割されたマイク入力信号を複数フレーム使用して疑似エコーを生成し、疑似エコーをマスカー信号として出力する。これにより、サウンドマスキング装置100Dでは、マスカー信号の音響特徴が対象話者U1の音声の音響特徴により近くなることから、マスキング効果が向上し、会話の内容が漏れることを防ぐことができる。言い換えると、第5の実施形態のサウンドマスキング装置100でも、入力信号DBに蓄積されている対象話者U1の音声信号を用いてマスカー信号を生成することで、対象話者U1の音響特性の解析を行わなくても、マスカー信号の音響特徴が対象話者U1の音声信号の音響特徴に近くなるので、高いマスキング効果が得られる。
(F)第6の実施形態
以下、本発明による音響処理装置、音響処理プログラム及び音響処理方法の第6の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の音響処理装置、音響処理プログラム及び音響処理方法を、サウンドマスキング装置に適用した例について説明する。
(F−1)第6の実施形態の構成
図10は、第6の実施形態に係るサウンドマスキング装置100Eの機能的構成について示したブロック図である。図10では、上述の図9と同一部分又は対応部分には、同一符号又は対応符号を付している。
以下では、第5の実施形態について、第5の実施形態との差異を中心に説明し、第5の実施形態と重複する部分については説明を省略する。
第6の実施形態のサウンドマスキング装置100Eでは、サウンドマスキング処理部200Dがサウンドマスキング処理部200Eに置き換わっている点で、第5の実施形態と異なっている。サウンドマスキング処理部200Eは、フレーム分割部201、第1の入力信号DB211、第2の入力信号DB212、第1の信号選択部213、第2の信号選択部214、第1のマスカー生成部215、第2のマスカー生成部216、及びマスカー信号ミキシング部217を有している。
第6の実施形態のサウンドマスキング装置100Eでは、マスカー信号の生成方法が、第1の実施形態、及び第5の実施形態と異なっている。具体的には、サウンドマスキング処理部200Eは、入力されたマイク入力信号から2種類のマスカー信号を生成し、重畳した信号をマスカー信号として出力する。
第1の入力信号DB211、第2の入力信号DB212は、第1の実施形態の入力信号DB202と同様のものであるため詳しい説明を省略する。また、第1の信号選択部213、第2の信号選択部214も、第1の実施形態の信号選択部203と名前が異なるだけで同様のものであるため詳しい説明を省略する。
第1のマスカー生成部215は、後述する第2のマスカー生成部216と異なる方法で、第1の入力信号DB211からマスカー信号を生成し出力する。
第2のマスカー生成部216は、第1のマスカー生成部215と異なる方法で、第2の入力信号DB212からマスカー信号を生成し出力する。
マスカー信号ミキシング部217は、各マスカー信号生成部から出力されたマスカー信号をミキシングして最終的に出力するマスカー信号を生成する。
第1の入力信号DB211と第2の入力信号DB212には、両法のDBに同様のデータ(例えば、第1の入力信号DB211と第2の入力信号DB212に第1の実施形態における入力信号DB202と同様のデータ)を蓄積するようにしても良いし、異なるデータ(例えば、第1の入力信号DB211は、第1の実施形態における入力信号DB202、第2の入力信号DB212は、第3の実施形態における入力信号DB202Aと同様のデータ)を蓄積するようにしても良い。
(F−2)第6の実施形態の動作
次に、以上のような構成を有する第6の実施形態におけるサウンドマスキング装置100Eの動作(実施形態に係る音響処理方法)について詳細に説明する。
第6の実施形態に係るサウンドマスキング装置100Eにおけるサウンドマスキング処理の基本的な動作は、第5の実施形態で説明したサウンドマスキング処理と同様である。
本発明の第6の実施形態に係るサウンドマスキング装置100Eの動作を詳細に説明する。
第1のマスカー生成部215は、第1の入力信号DB211に蓄積されている過去のフレーム分割したマイク入力信号を使用して第2のマスカー生成部216とは異なる方法でマスカー信号を生成する。
第2のマスカー生成部216は、第2の入力信号DB212に蓄積されている過去のフレーム分割したマイク入力信号を使用して第1のマスカー生成部215とは異なる方法でマスカー信号を生成する。
例えば、第1のマスカー生成部215は、(6)式、又は(7)式に示すようにマスカー信号h(l;m)を生成し、第2のマスカー生成部216は、(32)式、又は(34)式に示すような疑似エコーe(l;m)をマスカー信号として生成するようにしても良い。
マスカー信号ミキシング部217は、第1のマスカー生成部215、及び第2のマスカー生成部216から出力されたマスカー信号をミキシングし、マスカー信号mix(l;m)として出力する。マスカー信号ミキシング部217は、例えば、(35)式に基づいて、第1のマスカー生成部215、及び第2のマスカー生成部216から出力されたマスカー信号をミキシングするようにしても良い。
(35)式で、β(0.0≦β≦1.0)はどちらのマスカー信号を多く使用するかのパラメータである。第1のマスカー生成部215のマスカー信号を多く使用したい場合、βは1に近い値が望ましく(例えば、β=0.9等の値)、第2のマスカー生成部216のマスカー信号を多く使用したい場合、βは1に近い値が望ましい(例えば、β=0.1等の値)。
マスカー信号ミキシング部217は、(36)式に従い、ミキシングしたマスカー信号mix(l;m)を出力信号y(n)として出力する。
(F−3)第6の実施形態の効果
第6の実施形態によれば以下のような効果を奏することができる。
第6の実施形態のサウンドマスキング装置100Eでは、対象話者U1の音声を第1の入力信号DB211及び第2の入力信号DB212に蓄積し、各入力信号DBに蓄積されている過去のマイク入力信号を複数フレーム使用し、それぞれ異なる方法でマスカー信号を生成し、ミキシングする量を調節してミキシングし出力する。これにより、第6の実施形態のサウンドマスキング装置100Eでは、対象話者U1にマスキング効果が高い方式のマスカー音のミキシング量を調節できるので、よりマスキング効果を高めることができる。
(G)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(G−1)例えば、本発明のサウンドマスキング装置を電話会議で周囲の対象者以外の人に対して、会話の内容が漏れることを防止するする装置に搭載されるようにしても良い。この場合、サウンドマスキング装置において、対象話者U1は電話会議で発話している人となる。
(G−2)上記の各実施形態において、サウンドマスキング装置の、サウンドマスキング部は、ネットワーク上の処理装置(例えば、サーバ等)で処理される構成としても良い。
(G−3)上記の各実施形態において、サウンドマスキング装置には、オーディオデバイス(マイク、マイクアンプ、AD変換器、スピーカ、スピーカアンプ、及びDA変換器)が含まれる構成として説明したが、サウンドマスキング装置についてオーディオデバイスを除外した構成として製造し、実際に使用する現場でオーディオデバイスを別途接続するようにしても良い。すなわち、サウンドマスキング装置には、少なくともサウンドマスキング処理部が含まれる構成としても良い。