(A)第1の実施形態
以下では、本発明に係る非目的音抑圧装置、方法及びプログラムの第1の実施形態を、図面を参照しながら詳細に説明する。
第1の実施形態では、本発明を利用して、音声信号処理機能の利用環境の急拡大により、定常でない背景雑音の特性の変動に素早く追従する背景雑音抑圧装置及び方法(非目的音抑圧装置及び方法)を例示する。
ここで、周囲で妨害音が生じている環境で背景雑音抑圧機能が利用された場合、妨害音が存在する信号区間で、誤って係数適応動作を行う場合がある。このとき、妨害音という人間の声の特徴も背景雑音抑圧係数(以下では、「抑圧係数」と呼ぶ。)に反映されるため、当該係数を用いて抑圧処理を行った場合、目的音の信号成分も欠落させてしまい、音質が劣化することがある。
そこで、第1の実施形態では、上記のような現象を防止するため、目的音や妨害音の影響を抑えつつ背景雑音の変動を監視し続け、その結果に基づいて背景雑音抑圧係数の適応動作を制御できる非目的音抑圧装置及び方法を実現する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態に係る非目的音抑圧装置1の全体構成を示すブロック図である。
図1に示すように、非目的音抑圧装置1は、複数(図1では2個の場合を示している。)のマイクm_1及びm_2から入力信号s1(n)及びs2(n)を取得する。なお、nはサンプルの入力順を示すインデックスであり、正の整数で表現される。以下では、nが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。
非目的音抑圧装置1は、マイクm_1及びm_2から取得した各入力信号に基づいて、背景雑音の特性の変動に追従して背景雑音を抑圧するパラメータ(変数)を設定し、その背景雑音を抑圧した抑圧後信号を、後段の音声処理装置2に供給する。
音声処理装置2は、非目的音抑圧装置1からの抑圧後信号を利用して、所定の音声処理を行なう。音声処理装置2における処理内容は特に限定されるものではなく、様々な処理を行なうものを適用でき、例えば、電話端末やテレビ会議システム等の音声通信処理や音声認識処理等を行なうようにしてもよい。なお、非目的音抑圧装置1と音声処理装置2とは、信号の授受が可能であればよく、回路の配線接続されているようにしてもよいし、又例えば有線回線、無線回線を介したネットワーク通信により信号の授受ができるものであってもよい。
図2は、マイクm_1およびm_2の配置例を説明する説明図である。
図2に示すように、マイクm_1、m_2は、2つのマイクm_1、m_2を含む面が目的音の到来する方向(目的音の音源の方向)に対して垂直となるように配置されているものとする。また、以下では、図2に示すように、2つのマイクm_1、m_2の間の位置から見て、目的音の到来方向を前方向又は正面方向と呼ぶものとする。また、以下では、図2に示すように、右方向、左方向、後ろ方向と呼ぶ場合は、2つのマイクm_1、m_2の間の位置から目的音の到来方向を見た場合の各方向を示すものとして説明する。なお、この実施形態では、目的音がマイクm_1、m_2の正面方向から到来し、妨害音を含む非目的音が左右方向(横方向)から到来するものとして説明する。
図1に示すように、非目的音抑圧装置1は、FFT部11、正面抑圧信号生成部12、コヒーレンス計算部13、相関及びmodGI計算部14、WF(ウィナーフィルター)部15、IFFT部16を有する。
非目的音抑圧装置1は、プロセッサやメモリ等を有するコンピュータにプログラム(例えば、非目的音抑圧プログラム)をインストールして実現するようにしてもよく、この場合、非目的音抑圧装置1は機能的には図1を用いて示すことができる。なお、非目的音抑圧装置1については一部又は全部をハードウェア的に実現するようにしてもよい。
FFT部11は、マイクm_1及びm_2のそれぞれから図示しないAD変換器を介して、入力信号s1及びs2を受け取り、その入力信号s1及びs2に高速フーリエ変換(あるいは離散フーリエ変換)を行うものである。これにより、入力信号s1及びs2が周波数領域で表現されることになる。
なお、FFT部11は、高速フーリエ変換を実施するにあたり、入力信号s1(n)及びs2(n)から所定のN個(Nは任意の整数)のサンプルから成る、分析フーリエFRAME1(K)及びFRAME2(K)を構成するものとする。入力信号s1からFRAME1を構成する例を以下の(1)式に示す。
(1)式において、Kはフレームの順番を表すインデックスであり、正の整数で表現される。以下では、Kの値が小さいほど古い分析フレームであり、Kの値が大きいほど新しい分析フレームであるものとする。また、以降の説明において、特に但し書きが無い限り、分析対象となる最新の分析フレームを表すインデックスはKであるとする。
FFT部11は、分析フレームごとに、高速フーリエ変換処理を施すことで、入力信号s1から構成した分析フレームFRAME1(K)にフーリエ変換して得た周波数領域信号X1(f,K)と、入力信号s2から構成した分析フレームFRAME2(K)にフーリエ変換して得た周波数領域信号X2(f,X)とを、正面抑圧信号生成部12及びコヒーレンス計算部13に与える。
ここで、fは周波数を表すインデックスである。また、周波数領域信号X1(f,K)は、単一の値ではなく、(2)式のように複数の周波数f1〜fmのm個(mは任意の整数)のスペクトル成分から構成されるものであるとする。
上記(2)式において、X1(f,K)は複素数であり、実部と虚部からなる。これは、X2(f,K)、及び後述する正面抑圧信号生成部12で説明する正面抑圧信号N(f,K)についても同様である。
正面抑圧信号生成部12は、FFT部11から供給された信号について、周波数毎に正面方向の信号成分を抑圧する処理を行う。換言すると、正面抑圧信号生成部12は、正面方向の成分を抑圧する指向性フィルタとして機能する。
例えば、正面抑圧信号生成部12は、図3に示すように、正面方向に死角を有する8の字型の双指向性のフィルタを用いて、FFT部11から供給された信号から正面方向の成分を抑圧する指向性フィルタを形成する。
具体的には、正面抑圧信号生成部12は、FFT部11から供給された信号X1(f,K)、X2(f,K)に基づいて、以下の(3)式のような計算を行って、周波数毎の正面抑圧信号N(f,K)を生成する。以下の(3)式の計算は、図3のような正面方向に死角を有する8の字型の双指向性のフィルタを形成する処理に相当する。
N(f,K)=X1(f,K)−X2(f,K) …(3)
以上のように、正面抑圧信号生成部12は、周波数f1〜fmの各周波数成分(各周波数帯の1フレーム分のパワー)を取得する。
また、正面抑圧信号生成部12は、(4)式に従って、周波数f1〜fmの全周波数に亘って、正面抑圧信号N(f,K)を平均した、平均正面抑圧信号AVE_N(K)を算出する。
コヒーレンス計算部13は、FFT部11からの周波数領域信号X1(f,K)、X2(f,K)に含まれる特定方向に指向性の強い信号を形成してコヒーレンスCOH(K)を算出する。
ここで、コヒーレンス計算部13におけるコヒーレンスCOH(K)の算出処理を説明する。
コヒーレンス計算部13は、周波数領域信号X1(f,K)及びX2(f,K)から第1の方向(例えば、左方向)に指向性が強いフィルタで処理した信号B1(f,K)を形成し、またコヒーレンス計算部13は、周波数領域信号X1(f,K)及びX2(f,K)から第2の方向(例えば、右方向)に指向性が強いフィルタで処理した信号B2(f,K)を形成する。特定方向に指向性の強い信号B1(f)、B2(f)の形成方法は、既存の方法を適用することができ、ここでは、以下の(5)式を適用して第1の方向に指向性が強い信号B1を形成し、以下の(6)式を適用して第2の方向に指向性が強い信号B2を形成する場合を例示する。
上記の(5)式、(6)式において、Sはサンプリング周波数、NはFFT分析フレーム長、τはマイクm_1とマイクm_2との間の音波到達時間差、iは虚数単位、fは周波数を示す。
次に、コヒーレンス計算部13は、上記のようにして得られた信号B1(f)、B2(f)に対し、以下のような(7)式、(8)式に示す演算を施すことでコヒーレンスCOH(K)を得る。ここで、(7)式におけるB2(f、K)*はB2(f、K)の共役複素数である。
coef(f、K)は、インデックスが任意のインデックスKのフレーム(分析フレームFRAME1(K)及びFRAME2(K)を構成する任意の周波数f(周波数f1〜fmのいずれかの周波数)の成分におけるコヒーレンスを表しているものとする。
なお、coef(f,K)を求める際に、信号B1(f)の指向性の方向と信号B(f)の指向性の方向が異なるものであれば、信号B1(f)及び信号B2(f)に係る指向性方向はそれぞれ、正面方向以外の任意の方向とするようにしてもよい。また、coef(f,K)を算出する方法は、上記の算出方法に限定されるものではない。
相関及びmodGI計算部14は、正面以外に指向性を有する正面抑圧信号N(f,N)(平均正面抑圧信号AVE_N(K))と、コヒーレンスCOH(K)とを取得し、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との関係性を示す特徴量である相関係数cor(K)を計算する。
また、相関及びmodGI計算部14は、相関係数cor(K)を用いて、当該相関係数cor(K)の振幅の傾きの正負の変動の激しさを表す特徴量(cor_modGI(K))を計算し、その特量量(cor_modGI(k))をWF部15に出力する。
まず、相関及びModGI計算部14において、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との相関係数cor(K)に基づいて、妨害音が存在する信号区間を検出する原理を説明する。
ここでは、マイクm_1及びマイクm_2の正面方向に、目的音を発する音源が存在し、正面方向以外の方向(例えば、マイクm_1及びマイクm_2の横方向(すなわち、左方向、右方向)から妨害音が到来するものとする。
例えば、「妨害音声が存在せず」、かつ、「目的音が存在する」場合、正面抑圧信号N(f,K)は、目的音成分の大きさに比例した信号値となる。ただし、図2のように、正面方向のゲインは、横方向のゲインと比較して小さいため、妨害音が存在する場合よりも小さい値となる。
また、コヒーレンスCOH(K)は、入力信号の到来方向と深い関係を持つ特徴量であり、2つの信号成分の相関と言い換えられる。これは、(6)式は、ある周波数成分についての相関を算出する式であり、(7)式は全ての周波数成分の相関値の平均を計算する式であるためであるため、コヒーレンスCOH(K)が小さい場合は、2つの信号成分の相関が小さい場合であるといえ、反対に、コヒーレンスCOH(K)が大きい場合とは、2つの信号成分の相関が大きい場合であるといえる。コヒーレンスCOH(K)が小さい場合の入力信号は、到来方向が右方向又は左方向のいずれかに大きく偏っており、正面方向以外の方向から到来している信号といえる。一方、コヒーレンスCOH(K)が大きい場合の入力信号は、到来方向の偏りが少なく、正面方向から到来している信号であるといえる。
そうすると、「妨害音が存在せず」、かつ、「目的音が存在する」場合、コヒーレンスCOH(K)は大きい値となり、「妨害音が存在し」、かつ、「目的音が存在する」場合、コヒーレンスCOH(K)は小さい値となる。
以上の挙動を妨害音の有無に着目して整理すると、以下のような関係となる。
・「妨害音が存在せず」、かつ、「目的音が存在する」場合、コヒーレンスCOH(K)は大きな値となり、正面抑圧信号N(f,K)(平均正面抑圧信号AVE_N(K))は目的音成分の大きさに比例した値となる。
・「妨害音が存在する」場合、コヒーレンスCOH(K)が小さい値となり、正面抑圧信号N(f,K)(平均正面抑圧信号AVE_N(K))は大きい値となる。
ところで、上記のような挙動の場合、正面抑圧信号N(f,K)(平均正面抑圧信号AVE_N(K))とコヒーレンスCOH(K)との相関係数cor(K)を導入すると、以下のようなことがいえる。
・「妨害音が存在しない」場合、相関係数cor(K)は正の値(cor(K)>0)となる。
・「妨害音が存在する」場合、相関係数cor(K)は負の値(cor(K)≦0)となる。
従って、相関及びmodGI計算部14は、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との相関係数cor(K)の正負を観測し、相関係数cor(K)が正の場合に妨害音は存在しないと判定し、相関係数cor(K)が負の場合に妨害音が存在すると判定することができる。
ここで、相関係数cor(K)の計算方法は限定されるものではないが、例えば、以下の式(9)を用いて、フレームごとに相関係数cor(K)を算出することができる。
なお、以下の式(9)において、cov[AVE_N(K),COH(K)]は、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)の共分散を示している。また、以下の式(9)において、σAVE_N(K)は、平均正面抑圧信号AVE_N(K)の標準偏差を示し、σCOH(K)は、コヒーレンスCOH(K)の標準偏差を示している。さらに、以下の(9)式にて、相関係数cor(K)を求める場合に、AVE_N(K)及びCOH(K)についてそれぞれ直近に処理した所定数i個のフレームの結果を用いて、標準偏差や共分散を求めるようにしてもよい。具体的には、以下の(9)にて、相関係数cor(K)を求める過程において、例えば、直近に処理したi個のフレーム(K−i番目のフレーム、K−(i−1)番目のフレーム、…、K−1番目のフレーム、K番目のフレーム)のそれぞれに係るCOH(K)及びAVE_Nを用いて、標準偏差(σN(f,K)、及び、σCOH(K))や共分散(cov[AVE_N(K),COH(K)])を求めるようにしてもよい。言い換えると、相関係数cor(K)を求める過程において、直近に求めたi個のAVE_N及びCOHをサンプルとして用いて、以下の(9)式における標準偏差や共分散を求めるようにしてもよい。このようにして得られる相関係数cor(K)は、−1.0〜1.0の値をとる。
次に、相関及びmodGI計算部14において、相関係数cor(K)を用いて、当該相関係数cor(K)の振幅の傾きの正負の変動の激しさを表す特徴量を計算する。
入力信号に背景雑音が存在する場合、相関係数cor(K)の挙動は次のように変わる。
・妨害音が存在すると、相関係数cor(K)の値が正となり、妨害音が存在しなければ、相関係数cor(K)の値が負となる、マクロな挙動はある程度維持される。
・背景雑音の影響を受けて正面抑圧信号(平均正面抑圧信号AVE_N(K))の振幅の大小の変動の不規則さが増すのに対して、コヒーレンスCOH(K)はダイナミックレンジが小さくなる程度で、振幅の大小の不規則さは極端に変化しない。このため、正面抑圧信号(平均正面抑圧信号AVE_N(K))の増加・減少と、コヒーレンスCOH(K)の増加・減少の同期性が損なわれ、相関(相関係数cor(K))の増減の変動が激しくなる。また、相関係数cor(K)の正負の変動の頻度が増す。
・すなわち、背景雑音の影響が増すほど、相関係数cor(K)の値の増減の変動や、相関係数cor(K)の値の正負の変動頻度は増す。
このように、背景雑音が存在する場合には、相関係数cor(K)の値の増減の変動や正負の変動の頻度が増し、背景雑音の影響が増すほどこれらの変動(すなわち、相関係数cor_(K)の値の増減や正負の変動)は大きくなる。この挙動は背景雑音にのみ由来するものである。よって、相関係数cor(K)の値の変動激しさを観測することで、目的音や妨害音の影響を受けずに、背景雑音が目的音に及ぼす影響度や、特性の変動を推定することができる。
そこで、第1の実施形態では、相関及びmodGI計算部14が、相関係数cor(K)の値の増減や正負の変動を観測するために、modGI(GI:Gradient Index)と呼ばれる特徴量を算出する。
ここで、modGIは、信号波形の傾き方向が変化する回数とその大きさを測る指標である(特許文献2参照)。modGIは、特徴量算出対象の任意の信号に関し、その算出対象信号のパワーで正規化された、その算出対象信号の2階差分のパワーと定義される。
第1の実施形態では、相関及びmodGI計算部14は、特許文献2に記載される計算方法に従って、modGIを算出する。上記のように定義されるmodGIの算出式の一例として、以下の(10)式を利用して、相関及びmodGI計算部14が、相関係数cor(K)の変動の激しさを表す特徴量cor_modGI(K)を計算する。
(10)式は、相関係数cor(K)の傾きの正負が変動する頻度を表している。(10)式は、信号の傾きの正負の変動が小さくなるほど、cor_modGIの値が小さくなるのに対し、傾きの正負の変動が大きくなるほど、cor_modGIの値は大きくなる、という特徴を有する。換言すれば、cor_modGIの値が大きいほど背景雑音の影響は大きく、反対に、cor_modGIの値が小さいほど背景雑音の影響は小さいといえる。
WF部15は、相関及びmodGI計算部14からcor_modGI(K)の値に基づいて、抑圧係数wf_coef(f,K)の適応速度を制御する時定数(λ)の値を設定し、この時定数の値を用いて抑圧係数wf_coef(f,K)を算出する。
また、WF部15は、入力信号の周波数領域信号X1(f,K)に抑圧係数wf_coef(f,K)を乗算して、抑圧処理後信号Y(f,K)を算出して、IFFT部16に出力する。
図4は、第1の実施形態に係るWF部15の構成を示すブロック図である。
図4に示すように、第1の実施形態に係るWF部15は、入力信号取得部21、時定数制御部23、係数適応部24、背景雑音抑圧処理部25、抑圧処理後信号出力部26を有する。
入力信号取得部21は、入力信号の周波数領域信号X1(f,K)と、相関及びmodGI計算部14からcor_modGI(K)を取得するものである。
時定数制御部23は、相関及びmodGI計算部14からcor_modGI(K)の値に基づいて、抑圧係数wf_coef(f,K)の適応速度を制御する時定数λの値を設定するものである。
ここで、時定数λの役割を簡単に述べる。WF部15では、後述する抑圧係数適応部24が、抑圧係数wf_coef(f,K)を算出するが、これに先立ち周波数ごとに背景雑音特性を計算しなければならない。背景雑音の推定は、例えば特許文献1の数1で行なわれ、ここにパラメータ(時定数)λが関与する。
時定数λは、0.0〜1.0の値をとり、背景雑音特性に対して瞬時入力値をどの程度反映するかをコントロールする役割を持つ。時定数λの値が大きいほど瞬時入力の影響が強くなり、時定数λの値が小さければ瞬時入力の影響は薄れる。よって、時定数λの値が大きければ、抑圧係数wf_coef(f,K)の値は、その瞬間の入力が強く反映されて高速な係数適応が実現できる一方で、瞬時入力の影響が強くなるため係数値の変動が大きくなり、音質の自然さを低下させる可能性がある。一方、時定数λの値が小さい場合には、適応速度は遅いものの、得られる抑圧係数wf_coef(f,K)は瞬時特性の影響を強く受けておらず過去の雑音特性が平均的に反映されたものになるので、音質の自然さが失われにくい。
よって、時定数制御部23は、cor_mod(K)の値が閾値Θより大きい場合(例えば、cor_mod(K)が閾値Θ以上の場合)には、背景雑音の影響は大きいので、時定数λの値を大きい値とする。一方、時定数制御部23は、cor_mod(K)の値が閾値Θより小さい場合(例えば、cor_mod(K)が閾値Θ未満の場合)には、背景雑音の影響が小さい、時定数λの値を小さくする。これにより、目的音や妨害音の影響を受けずに、背景雑音の特性に応じた係数適応を実現できるようになる。
なお、ここでは、時定数λの値の大きさを判断する閾値θが1個である場合を例示するが、閾値は2個以上設定してもよく、cor_modGIが属する区間ごとに、きめ細かく時定数λを設定するようにしてもよい。
抑圧係数適応部24は、時定数制御部23により設定された時定数λを用いて、抑圧係数wf_coef(f,K)を算出するものである。抑圧係数wf_coef(f,K)は、例えば、特許文献1の数3を利用して求めることができる。
背景雑音抑圧処理部25は、以下の(11)式を用いて、抑圧係数適応部24により算出された抑圧係数wf_coef(f,K)を、入力信号の周波数領域信号X1(f,K)に乗算して、抑圧処理後信号Y(f,K)を算出するものである。
Y(f,K)=X1(f,K)×wf_coef(f,K) …(11)
抑圧処理後信号出力部は、抑圧処理後信号Y(f,K)を、IFFT部16に出力するものである。
IFFT部16は、周波数領域信号である信号Y(f,K)を時間領域信号y(n)に変換するものである。なお、後段回路が、周波数領域信号Y(f,K)をそのまま処理できる構成であれば、IFFT部16を省略するようにしてもよい。
(A−2)第1の実施形態の動作
次に、第1の実施形態に係る非目的音抑圧装置1における非目的音抑圧処理の動作を、図面を参照して詳細に説明する。
まず、マイクm_1、m_2のそれぞれから図示しないAD変換器を介して、1フレーム分(1つの処理単位分)の入力信号s1(n)、s2(n)がFFT部11に供給される。FFT部11は、1フレーム分の入力信号s1(n)及びs2(n)に基づく分析フレームFRAME1(K)、FRAME2(K)についてフーリエ変換し、周波数領域で示される信号X1(f,K)、X2(f,K)を取得する。FFT部11で生成された信号X1(f,K)、X2(f,K)が、正面抑圧信号生成部12及びコヒーレンス計算部13に与えられる。
正面抑圧信号生成部12は、FFT部11からの信号X1(f,K)、X2(f,K)に基づいて、正面抑圧信号N(f,K)を算出する。そして、正面抑圧信号生成部12は、正面抑圧信号N(f,K)に基づいて平均正面抑圧信号AVE_N(K)を算出して、相関及びmodGI計算部14に与える。
コヒーレンス計算部13は、FFT部11からの信号X1(f,K)、X2(f,K)に基づいて、コヒーレンスCOH(K)を生成し、相関及びmodGI計算部14に与える。
相関及びmodGI計算部14は、例えば(9)式を用いて、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との関係性を示す特徴量である相関係数cor(K)を計算する。
また、相関及びmodGI計算部14は、相関係数cor(K)を用いて、当該相関係数cor(K)の振幅の傾きの正負の変動の激しさを表す特徴量であるcor_modGI(K)を計算し、このcor_modGI(K)をWF部15に与える。
WF部15には、相関及びmodGI計算部14からcor_modGI(K)と、入力信号の周波数領域信号X1(f,K)とが入力される。
図5は、第1の実施形態に係るWF部15の時定数制御部23における処理を示すフローチャートである。
まず、時定数制御部23は、相関及びmodGI計算部14からのcor_modGI(K)の値と閾値Θとを比較し(S101)、cor_modGI(K)の値が閾値Θより大きい場合、時定数λの値を大きい値とし(S102)、cor_modGI(K)の値が閾値Θ未満である場合、時定数λの値を小さい値とする(S102)。
時定数λは、0.0<λ<1.0の値をとるものであり、時定数λの値が1.0に近づくにつれ、瞬間に入力される信号に強く影響されるものであり、時定数λの値が0.0に近づくにつれ、瞬間に入力される信号の影響が弱くなるものである。従って、cor_modGI(K)の値と閾値Θとの比較結果に基づく、時定数λの値は相対的な大きさとすることができる。従って、cor_modGI(K)の値が閾値Θ未満の場合、時定数λの値をλ1とし、cor_modGI(K)の値が閾値Θ以上の場合の時定数λの値をλ2とすると、λ1<λ2という大小関係であればよい。
そして、抑圧係数適応部24は、時定数制御部23により設定された時定数λを用いて、抑圧係数wf_coef(f,K)を算出する。
つまり、時定数λの値が大きいほど、瞬時入力の影響が強く反映された高速な抑圧係数wf_coef(f,K)を算出できる。一方、時定数λの値が小さければ、瞬時入力の影響は薄れ、抑圧係数wf_coef(f,K)の適応速度は遅いものが、得られる抑圧係数wf_coef(f,K)は、瞬時特性の影響を強く受けておらず、過去の雑音特性が平均的に反映されたものになる。そのため、この場合、音質の自然さが失われにくい。
また、背景雑音抑圧処理部25は、(11)式を用いて、抑圧係数適応部24により算出された抑圧係数wf_coef(f,K)を、入力信号の周波数領域信号X1(f,K)に乗算して、抑圧処理後信号Y(f,K)を算出し、抑圧処理後信号出力部が、抑圧処理後信号Y(f,K)を、IFFT部16に出力する。
IFFT部16は、周波数領域信号である信号Y(f,K)を時間領域信号y(n)に変換して、後段の音声処理装置2に出力する。
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、正面抑圧信号とコヒーレンスの相関のmodGIは、背景雑音の影響が増すほど大きくなり、影響が小さいほど小さくなるという、特徴的な挙動に基づいて、ウィナーフィルタ(WF)の時定数を制御することができる。これにより、背景雑音の影響に基づいた適切な係数適応が可能になり、背景雑音抑圧処理の精度を高めることができる。
これにより、本発明をテレビ会議システムや携帯電話などの通信装置や音声認識機能の前処理に適用することで、性能の向上が期待できる。
(B)第2の実施形態
次に、本発明に係る非目的音抑圧装置、方法及びプログラムの第2の実施形態を、図面を参照しながら説明する。
第2の実施形態では、本発明を利用して、例えば入力信号に対して、正面抑圧信号を減算して、周囲から到来した妨害音を抑圧する非目的音抑圧装置及び方法(妨害音抑圧装置及び方法)を例示する。
入力信号から正面抑圧信号を減算の際に、正面抑圧信号に減算係数を乗算することで減算の強度を制御することが多く、減算係数が大きすぎると抑圧性能が過剰で目的音声の歪が増し、減算係数が小さすぎると妨害音声の抑圧性能が不十分、というように音質に大きな影響を及ぼす。しかし、目的音声に重畳されている妨害音声の存在判定は難しく、減算係数を適切な値に設定することは困難である。
そこで、第2の実施形態では、入力信号への妨害音の寄与度を推定し、その結果に応じて周波数減算の減算係数を制御して、過不足なく妨害音を抑圧する非目的音抑圧装置及び方法(妨害音抑圧装置及び方法)を実現する。
(B−1)第2の実施形態の構成
図6は、第2の実施形態に係る非目的音抑圧装置1Aの全体構成を示すブロック図である。
第2の実施形態に係る非目的音抑圧装置1Aは、複数(図1では2個の場合を示している。)のマイクm_1及びm_2から入力信号s1(n)及びs2(n)を取得し、入力信号への妨害音の寄与度を推定し、その結果に応じて周波数減算の減算係数を制御し、妨害音を抑圧した抑圧後信号を、後段の音声処理装置2に供給する。
音声処理装置2は、第1の実施形態と同様に、非目的音抑圧装置1Aからの抑圧後信号を利用して、所定の音声処理を行なうものである。
図6に示すように、非目的音抑圧装置1Aは、FFT部11、正面抑圧信号生成部12、コヒーレンス計算部13、相関計算部54、周波数減算処理部55、IFFT部16を有する。
なお、FFT部11、正面抑圧信号生成部12、コヒーレンス計算部13及びIFFT部16は、基本的には、第1の実施形態で説明した同一又は対応する構成要素であるため詳細な説明は省略する。
非目的音抑圧装置1Aは、プロセッサやメモリ等を有するコンピュータにプログラム(例えば、非目的音抑圧プログラム)をインストールして実現するようにしてもよく、この場合、非目的音抑圧装置1Aは機能的には図6を用いて示すことができる。なお、非目的音抑圧装置1Aについては一部又は全部をハードウェア的に実現するようにしてもよい。
相関計算部54は、正面抑圧信号生成部12から正面抑圧信号(平均正面抑圧信号AVE_N(K))と、コヒーレンス計算部13からコヒーレンスCOH(K)とを取得し、平均正面抑圧信号AVE_N(K)とコヒーレンスCOHとの相関係数cor(K)を算出する。また、相関計算部54は、算出した相関係数cor(K)を周波数減算処理部55に出力する。この相関係数cor(K)の計算方法は、第1の実施形態と同様の方法を用いることができ、例えば(9)式を用いることができる。
周波数減算処理部55は、入力信号X1(f,K)と、相関計算部54から相関係数cor(K)と、正面抑圧信号生成部12から正面抑圧信号N(f,K)を取得し、相関係数cor(K)に基づいて、減算係数αを設定し、正面抑圧信号N(f,K)に減算係数αを乗算したうえで、入力信号X1(f,K)から減算して、抑圧後信号Y(f,K)を得る。
図7は、第2の実施形態に係る周波数減算処理部55の構成を示すブロック図である。
図7に示すように、周波数減算処理部55は、入力信号取得部31、減算係数制御部32、減算部33、減算処理後信号出力部34を有する。
入力信号取得部31は、入力信号X1(f,K)と、相関計算部54から相関係数cor(K)と、正面抑圧信号生成部12から正面抑圧信号N(f,K)を取得するものである。
減算係数制御部32は、相関係数cor(K)に基づいて減算係数αを設定するものである。
ここで、妨害音(ここでは妨害音声とする。)の寄与度の推定の原理を以下に述べる。まず、目的音がマイクm_1及びm_2の正面から到来し、妨害音がマイクm_1及びm_2の横方向(右方向、左方向)から到来するものとする。
このとき、正面抑圧信号N(f,K)は、「妨害音が存在せず」、かつ、「目的音が存在する」場合は正面から到来する信号成分を捕捉するため、目的音成分の大きさに比例した信号値をもつ。ただし、図2のように正面方向の集音レベルは横方向と比較して小さいため、「妨害音が存在する」場合よりは小さい。
また、コヒーレンスCOHは、入力信号の到来方位と深い関係を持つ特徴量である。よって、「妨害音が存在せず」、かつ、「目的音のみが存在する」場合には大きな値をもち、「妨害音が存在する」場合には小さい値をとる。
以上の挙動を妨害音の有無に着目して整理すると、以下のようになる。
・「妨害音が存在せず」、かつ、「目的音だけが存在する」場合には、コヒーレンスCOHは大きな値で、正面抑圧信号は目的音成分の大きさに比例した値となる。
・「妨害音が存在する」場合にはコヒーレンスCOHは小さい値で、正面抑圧信号は大きな値となる。
この挙動は正面抑圧信号N(f,K)とコヒーレンスCOHとの相関係数cor(K)を導入すると、以下のようになる。
・「妨害音が存在しない」場合には、相関係数cor(K)は正の値となる。
・「妨害音声が存在しない」場合には、相関係数cor(K)は負の値となる。
ところで、減算係数αは、妨害音の影響が小さいほど小さい値で、妨害音の影響が大きいほど大きい値であることが、妨害音抑圧の過不足を減らす観点からは望ましい(後述する(12)式を参照)。
上述の通り、妨害音の有無によって正負が変動することから、相関係数cor(K)が正なら、減算係数αを小さくし、相関係数(K)が負なら、減算係数αを大きくするというような処理によって、妨害音の影響度に応じた減算係数の制御が実現できる。
そこで、第2の実施形態では、減算係数制御部32が、正面抑圧信号N(f,K)とコヒーレンスCOHとの相関係数cor(K)に特有の挙動に基づいて周波数減算処理に用いる減算係数を制御する。
より具体的には、減算係数制御部32は、妨害音声が存在する場合には抑圧効果を高めるために、減算係数αには大きな値を設定し、妨害音が存在しない場合には抑圧効果を弱めるために、減算係数αには小さな値を設定する。
なお、減算係数制御部32は、例えば、相関係数の値と減算係数αの設定値との対応関係を記録した減算係数記憶部(図示しない)を設けて、この減算係数記憶部を参照して、減算係数αを設定するようにしてもよい。
減算部33は、減算係数制御部32から得た減算係数αを用いて、(12)式のような減算処理を行なうものである。
Y(f,K)=X1(f,K)−α×N(f,K) …(12)
減算処理後信号出力部34は、減算部33により算出された抑圧処理後信号(減算処理後信号)Y(f,K)をIFFT部16に出力する。
(B−2)第2の実施形態の動作
次に、第2の実施形態に係る非目的音抑圧装置1Aにおける非目的音抑圧処理の動作を、図面を参照して詳細に説明する。
マイクm_1、m_2のそれぞれから図示しないAD変換器を介して、1フレーム分(1つの処理単位分)の入力信号s1(n)、s2(n)がFFT部11に供給される。FFT部11は、1フレーム分の入力信号s1(n)及びs2(n)に基づく分析フレームFRAME1(K)、FRAME2(K)についてフーリエ変換し、周波数領域で示される信号X1(f,K)、X2(f,K)を取得する。FFT部11で生成された信号X1(f,K)、X2(f,K)が、正面抑圧信号生成部12及びコヒーレンス計算部13に与えられる。
正面抑圧信号生成部12は、FFT部11からの信号X1(f,K)、X2(f,K)に基づいて、正面抑圧信号N(f,K)を算出する。そして、正面抑圧信号生成部12は、正面抑圧信号N(f,K)に基づいて平均正面抑圧信号AVE_N(K)を算出して、相関計算部54に与える。
コヒーレンス計算部13は、FFT部11からの信号X1(f,K)、X2(f,K)に基づいて、コヒーレンスCOH(K)を生成し、相関計算部54に与える。
相関計算部54は、例えば(9)式を用いて、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との関係性を示す特徴量である相関係数cor(K)を計算する。
周波数減算処理部55には、入力信号X1(f,K)と、相関計算部54から相関係数cor(K)と、正面抑圧信号生成部12から正面抑圧信号N(f,K)が入力される。
図8は、第2の実施形態に係る周波数減算処理部55の減算係数制御部32における処理を示すフローチャートである。
まず、減算係数制御部32は、相関計算部54からの相関係数cor(K)の値が負であるか否かを判定する(S201)。そして、相関係数cor(K)の値が負である場合(すなわち、妨害音声が存在する場合)、抑圧効果を高めるために、減算係数αには大きな値を設定する(S202)。一方、相関係数cor(K)の値が負でない場合(すなわち、妨害音が存在しない場合)、抑圧効果を弱めるために、減算係数αには小さな値を設定する。
そして、減算部33は、減算係数制御部32により得られた減算係数αを用いて、(12)式により、減算処理後信号Y(f,K)を求め、減算処理後信号出力部34が、抑圧処理後信号(減算処理後信号)Y(f,K)をIFFT部16に出力する。
IFFT部16は、周波数領域信号である信号Y(f,K)を時間領域信号y(n)に変換して、後段の音声処理装置2に出力する。
(B−3)第2の実施形態の効果
以上のように、第2の実施形態によれば、妨害音声が存在する場合は正面抑圧信号とコヒーレンスとの相関係数が負で、妨害音声が存在しない場合には正となるという特徴的な挙動に基づいて、目的音声に重畳された妨害音声の存在を検出し、この結果を用いて周波数減算処理に用いる減算係数を制御することで、妨害音声抑圧処理の精度を高めることができる。
これにより、本発明をテレビ会議システムや携帯電話などの通信装置や音声認識機能の前処理に適用することで、性能の向上が期待できる。
(C)他の実施形態
上述した第1及び第2の実施形態においても種々の変形実施形態を言及したが、本発明は、以下の変形実施形態にも適用できる。
(C−1)上述した第1又は第2の実施形態において、抑圧係数又は減算係数は、周波数ビンごとに算出してもよい。この場合、相関係数も周波数ビンごとに算出することで実現することができる。
(C−2)第2の実施形態において、相関係数の正負に着目することで妨害音の有無が判定できるが、相関係数の絶対値に着目することで妨害音の影響の大きさが分かる。相関係数と妨害音の影響との具体的な関係は、相関係数が負で絶対値が小さければ妨害音の影響は小さく、相関係数が負で絶対値が大きければ妨害音の影響は大きい、というものである。よって、入力値が小さければ出力値は小さく、入力値が大きければ出力値が大きくなるような任意の関数(例えば二次関数)を用意し、これに相関係数の絶対値を入力して得た値を減算係数とすることで、妨害音の影響度(相関の絶対値の大きさ)に応じた減算係数を設定することができる。