JP7348812B2

JP7348812B2 - 雑音抑制装置、雑音抑制方法及び音声入力機器

Info

Publication number: JP7348812B2
Application number: JP2019198281A
Authority: JP
Inventors: 順貴小野; 政浩春原; 智穂春田
Original assignee: Rion Co Ltd; Tokyo Metropolitan Public University Corp
Current assignee: Rion Co Ltd; Tokyo Metropolitan Public University Corp
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-09-21
Anticipated expiration: 2039-10-31
Also published as: JP2021071599A

Description

本発明は、入力信号に含まれる雑音成分を抑制する雑音抑制装置及びそれを備えた音声入力機器に関するものである。

一般に、補聴器等の機器を使用する際、聞き取るべき音声に周囲の環境音などが雑音として重なると、音声の明瞭度が低下し使用者にとって聴き取りにくくなる。そのため、従来から、外部から到来する音に基づく入力信号に含まれる雑音成分を抑制することで、雑音下における音声の明瞭度が改善することが可能な雑音抑制処理が知られている。例えば、特許文献１には、時間周波数マスキングを用いて、目的音源の成分を雑音成分から分離する手法が提案されている。また、非特許文献１には、時間周波数マスキングを用いた雑音抑制処理を行うことで難聴者の音声の明瞭度が改善した実験結果が示されている。時間周波数マスキングとは、音声などの音源信号のエネルギー分布が時間周波数領域で疎らであって互いの重なりが少ないことを前提に、前述の目的音源の成分のみを通過させ、それ以外の成分を阻止する処理である。

特開２０１２－１８１４７５号公報

Eric W. Healy, Sarah E. Yoho, Yuxuan Wang, DeLiang Wang, J. Acoust. Soc. Am., "An algorithm to improve speech recognition in noise for hearing-impaired listeners," Vol. 134, No. 4, Oct.2015

しかしながら、上記従来の時間周波数マスキングを用いた雑音抑制処理を補聴器等の機器に搭載する場合には多くの課題がある。具体的には、時間周波数マスキングを適用する場合、フレーム毎に区分される入力信号に対してフーリエ変換を施して周波数領域において処理を行うので、少なくともフレーム長分の時間遅延が発生する。この時間遅延はアルゴリズム的な遅延（アルゴリズミック遅延）であるため、ハードウェアの能力の向上により処理速度を高めたとしても、上記従来の時間周波数マスキングのアルゴリズムを採用する限り、回避することは困難である。従って、上記従来の時間周波数マスキングを用いた雑音抑制処理を搭載した補聴器等の機器では、少なくとも上記アルゴリズミック遅延に起因して、自声の聞こえの不快感や、唇の動きとの不一致などの不具合を生じるため、使用者に違和感を与えることは避けられない。

本発明は上記の課題を解決するためになされたものであり、周波数領域における周波数マスキング処理に代えて主に時間領域におけるフィルタ演算に基づく雑音抑制処理を実行し、アルゴリズミック遅延をゼロにすることが可能な雑音抑制装置等を提供するものである。

上記課題を解決するために、本発明の雑音抑制装置（１）は、入力信号に含まれる雑音成分を抑制し、前記雑音成分が抑制された所望信号（ｓ（ｔ））を生成する雑音抑制装置であって、所定の間隔でシフトさせたフレーム毎に取得した取得済入力信号（ｘ（ｔ））を周波数領域で第１パワースペクトル（｜Ｘ（ω，τ）｜^２）に変換するフーリエ変換部（１２）と、前記第１パワースペクトルを入力し、ニューラルネットワークを用いた推定処理により、入力信号の未取得フレームに対応する第１自己相関（Φ_{ｘｘ，τ＋Ｎ／Ｍ}（ｋ））と、前記未取得フレームの雑音成分が抑制された所望信号に対応する第２自己相関（Φ_{ｓｓ，τ＋Ｎ／Ｍ}（ｋ））を推定する自己相関推定部（１７）と、前記第１自己相関と前記第２自己相関とに基づいて、前記未取得フレームの前記雑音成分を抑制するためのフィルタ係数を更新するフィルタ係数更新部（１５）と、前記未取得フレームが入力されると予め更新された前記フィルタ係数を用いて前記取得済入力信号に畳み込み演算を行う畳み込み演算部（１６）と、前記畳み込み演算部の演算結果に窓関数を乗じる窓関数乗算部（１８）と、前記窓関数を乗じた１フレーム分を切り取り所定の間隔でシフトしながら加算していき所望信号を生成するオーバーラップ加算部（１９）とを備えて構成される。ここで、ωは角周波数を表し、τもしくはτ＋Ｎ／Ｍはフレーム番号を表す。変数Ｎ、Ｍの具体例とＮ／Ｍのとり得る値については後述する。また、ｔは離散時間インデックスを、ｋは自己相関のタイムラグを表す。

本発明の雑音抑制装置によれば、取得済入力信号を周波数領域で第１パワースペクトルに変換し、この第１パワースペクトルに基づき入力信号の未取得フレームに対応する第１自己相関を推定し、第１パワースペクトルに基づき所望信号に対応する第２自己相関を推定し、推定結果に基づいて予め得られたフィルタ係数により入力信号の雑音成分を抑制するフィルタ演算を行うので、入力信号から所望信号を抽出する経路では畳み込み演算部、窓関数乗算部及びオーバーラップ加算部のみが介在する。従って、従来の時間周波数マスキングを用いた雑音抑制処理で問題となるフレーム長分のアルゴリズミック遅延を解消できる。

本発明のパワースペクトル推定部による推定処理は、第１パワースペクトルから入力信号の未取得フレームに対応する第３パワースペクトルを推定する第１段階と、第３パワースペクトルから第２パワースペクトルを推定する第２段階とを含め、段階的に実行することができる。これにより、パワースペクトル推定部による推定処理の推定精度を高めることができる。

本発明のパワースペクトル推定部で用いるニューラルネットワークとして、入力層と、２層以上の中間層と、出力層とを有するディープニューラルネットワークを採用してもよい。この場合、中間層のそれぞれに付随するパラメータは、第１パワースペクトル、第２パワースペクトル及び第３パワースペクトルを関連付けて予め蓄積したデータ群を用いたディープラーニングに基づいて設定することが望ましい。

本発明のフーリエ変換部及び逆フーリエ変換部は、それぞれ短時間フーリエ変換処理及び逆高速フーリエ変換を実行する構成を採用することができる。この場合の推定処理は、フレーム長Ｎ（ＮはＮ≧２の整数）の各フレームに対してシフト長Ｍ（ＭはＮ≧Ｍ≧１の整数、Ｎ／Ｍは整数）だけシフトしつつ実行し、前記入力信号の未取得フレームは前記取得済入力信号のフレームに対してＮ／Ｍフレームだけ後続のフレームとすることができる。例えば、フレーム長１０２４、かつシフト長５１２に設定されている場合には、第２パワースペクトル及び第３パワースペクトルは、第１パワースペクトルよりも２フレーム分だけ後続のフレームに対応する。

本発明のフィルタ係数更新部で用いるフィルタ係数は、フィルタ係数に含まれる非因果的成分を除去した因果的なフィルタであることが望ましい。また、本発明のフィルタ係数は、例えば、平均二乗誤差を最小化するウィーナーフィルタによる演算に基づき生成することができる。ウィーナーフィルタは、信号に混入した雑音成分を低減するための最適なフィルタとして知られているため、雑音抑制装置の性能向上を図ることができる。

本発明によれば、周波数領域における時間周波数マスキングによる処理を、時間領域における因果的なフィルタによる畳み込み処理に置き換えるので、従来の時間周波数マスキングを用いる場合に問題となるアルゴリズミック遅延を解消し得る雑音抑制装置を実現することができる。これにより、本発明の雑音抑制装置を補聴器等の機器に組み込む場合、少なくとも上記アルゴリズミック遅延に起因する違和感を使用者に与えることは回避することができる。

本発明を適用した一実施形態である雑音抑制装置１の概略の構成例を示すブロック図である。パワースペクトル推定部１３又は自己相関推定部１７で適用されるディープニューラルネットワークの構成例を示す図である。フィルタ係数ｈ（ｔ）から非因果的成分を除去する方法の一例を示す図である。フレームについて説明する図である。本発明を適用した雑音抑制装置１の効果に関し、従来の構成と対比しつつシミュレーションを行った結果を示す図である。本発明において、自己相関推定部１７にて直接自己相関を推定する場合の概略の構成例を示すブロック図である。

以下、本発明を適用した雑音抑制装置の実施形態について添付図面を参照しながら説明する。ただし、以下に述べる実施形態は本発明の技術思想を適用した形態の例であって、本発明が本実施形態の内容により限定されることはない。

図１は、本発明を適用した一実施形態である雑音抑制装置１の概略の構成例を示すブロック図である。図１の雑音抑制装置１は、ＳＴＦＴ部１２と、パワースペクトル推定部１３と、ＩＦＦＴ部１４と、フィルタ係数更新部１５と、畳み込み演算部１６と、窓関数乗算部１８と、オーバーラップ加算部１９とを備えて構成される。なお、パワースペクトル推定部１３と、ＩＦＦＴ部１４とを合わせて自己相関推定部１７と呼ぶ。

以上の構成において、入力信号には、抽出すべき音声に加えて、不要な雑音成分が含まれる。本実施形態の雑音抑制装置１の役割は、後述の処理に基づいて、入力信号から雑音成分を除去し、抽出すべき音声である所望信号を取得することにある。本実施形態において、取得済入力信号ｘ（ｔ）や所望信号ｓ（ｔ）などの時系列の各信号は所定のサンプリング間隔で得られる離散的なディジタルデータを構成する。この場合、フレーム長＝Ｎ（Ｎ：２以上の整数）を想定すると、各信号はフレーム内の連続するＮ個のディジタルデータとして一体的に処理される。

図４に示すように、シフト長Ｍでシフトさせたフレーム毎に入力信号を取得し、ＳＴＦＴ部１２（本発明のフーリエ変換部）は、取得済入力信号ｘ（ｔ）を入力し、短時間フーリエ変換（Short-Term Fourier Transform：STFT）処理を施すことにより、取得済入力信号ｘ（ｔ）に対応する周波数領域の取得済入力信号Ｘ（ω，τ）のパワースペクトル｜Ｘ（ω，τ）｜^２を生成する。なお、ωは角周波数を表し、τはフレーム番号を表す。ＳＴＦＴ部１２による短時間フーリエ変換は、取得済入力信号ｘ（ｔ）を一定の間隔でシフトしながら所定の窓関数を乗じつつ実行される。

パワースペクトル推定部１３は、後述のディープニューラルネットワーク（Deep Neural Network：DNN）を用いて、取得済入力信号ｘ（ｔ）のパワースペクトル｜Ｘ（ω，τ）｜^２（本発明の第１パワースペクトル）から、入力信号の未取得フレーム（時間経過的にＮ／Ｍフレーム分未来となるフレーム）のパワースペクトル｜Ｘ（ω，τ＋Ｎ／Ｍ）｜^２（本発明の第３パワースペクトル）を推定するとともに、このパワースペクトル｜Ｘ（ω，τ＋Ｎ／Ｍ）｜^２から同じく入力信号の未取得フレームの雑音成分が抑制された所望信号ｓ（ｔ）に対応するパワースペクトル｜Ｓ（ω，τ＋Ｎ／Ｍ）｜^２（本発明の第２パワースペクトル）を推定する。

ここで、図２は、パワースペクトル推定部１３で適用されるディープニューラルネットワークの構成例を示している。図２に示すディープニューラルネットワークにおいては、複数に区分される入力データＤｉに対応する入力層２０と、入力層２０に接続される前段の中間層２１と、中間層２１に接続される後段の中間層２２と、複数に区分される出力データＤｏに対応して中間層２２に接続される出力層２３とにより構成される。入力層２０はＰ個の入力データＤｉ（１）～Ｄｉ（Ｐ）からなり、中間層２１はＱ個のノードＮａ（１）～Ｎａ（Ｑ）からなり、中間層２２はＲ個のノードＮｂ（１）～Ｎｂ（Ｒ）からなり、出力層２３はＳ個の出力データＤｏ（１）～Ｄｏ（Ｓ）からなる（通常、Ｐ、Ｑ、Ｒ、Ｓは２以上の整数）。

本実施形態のパワースペクトル推定部１３では、前述したように第１段階では取得済入力信号のフレームのパワースペクトル｜Ｘ（ω，τ）｜^２から入力信号の未取得フレームに対応するパワースペクトル｜Ｘ（ω，τ＋Ｎ／Ｍ）｜^２を推定し、第２段階では入力信号の未取得フレームに対応する推定されたパワースペクトル｜Ｘ（ω，τ＋Ｎ／Ｍ）｜^２から所望信号ｓ（ｔ）に対応するパワースペクトル｜Ｓ（ω，τ＋Ｎ／Ｍ）｜^２を推定する２段階の処理を行うので、図２のディープニューラルネットワークについても２段階を想定する必要がある。すなわち、パワースペクトル｜Ｘ（ω，τ）｜^２の複数の要素を入力データＤｉとし、パワースペクトル｜Ｘ（ω，τ＋Ｎ／Ｍ）｜^２の複数の要素を出力データＤｏとする第１段階のディープニューラルネットワークと、パワースペクトル｜Ｘ（ω，τ＋Ｎ／Ｍ）｜^２の複数の要素を入力データＤｉとし、パワースペクトル｜Ｓ（ω，τ＋Ｎ／Ｍ）｜^２の複数の要素を出力データＤｏとする第２段階のディープニューラルネットワークが用いられる。この場合のノード数Ｐ、Ｑ、Ｒ、Ｓは、第１段階及び第２段階のディープニューラルネットワークにおいて適宜に設定することができる。

図２のディープニューラルネットワークを用いる場合、前層の各ノードのそれぞれから入力される中間層２１、２２及び出力層２３における各ノードに付随する重み付けのパラメータを適切に設定することが求められる。そのため、本実施形態では、予め図１における各信号ｘ（ｔ）、ｓ（ｔ）に対応するパワースペクトルのサンプルデータ群を蓄積しておき、そのサンプルデータ群を用いて、ディープニューラルネットワークによるディープラーニングを実行しておくことにより、前述の重み付けのパラメータを決定する。できるだけ大量のサンプルデータ群を用いることで、高精度なパラメータを取得することでき、パワースペクトル推定部１３の推定精度の向上が可能となる。

ただし、パワースペクトル推定部１３においては、図２のように２層以上の中間層を有するディープニューラルネットワークを用いる構成に限らず、中間層が１層のみのニューラルネットワークを用いる構成としてもよい。また、パワースペクトル推定部１３において、それぞれパワースペクトル｜Ｘ（ω，τ＋Ｎ／Ｍ）｜^２、｜Ｓ（ω，τ＋Ｎ／Ｍ）｜^２の順で２段階の推定を行う処理に限らず、パワースペクトル｜Ｘ（ω，τ）｜^２から直接的にパワースペクトル｜Ｓ（ω，τ＋Ｎ／Ｍ）｜^２も推定する処理を行ってもよい。

図１に戻って、ＩＦＦＴ部１４（本発明の逆フーリエ変換部）は、パワースペクトル推定部１３により推定されたパワースペクトル｜Ｘ（ω，τ＋Ｎ／Ｍ）｜^２、｜Ｓ（ω，τ＋Ｎ／Ｍ）｜^２を入力し、逆高速フーリエ変換（Inverse Fast Fourier Transform：IFFT）処理を施すものである。ウィーナー・ヒンチンの定理によれば、特定のフレームにおける信号の自己相関は、その信号の同フレームにおけるパワースペクトルの逆フーリエ変換と一致するので、ＩＦＦＴ部１４では、時間領域の推定された自己相関Φ_{ｘｘ，τ＋Ｎ／Ｍ}（ｋ）（本発明の第１自己相関）、Φ_{ｓｓ，τ＋Ｎ／Ｍ}（ｋ）（本発明の第２自己相関）が生成される。この第１自己相関Φ_{ｘｘ，τ＋Ｎ／Ｍ}（ｋ）は、取得済入力信号ｘ（ｔ）のフレームに対してＮ／Ｍフレームだけ後続のフレームにおける入力信号の未取得フレームにおける自己相関である。また、この第２自己相関Φ_{ｓｓ，τ＋Ｎ／Ｍ}（ｋ）は、同じく取得済入力信号ｘ（ｔ）のフレームに対してＮ／Ｍフレームだけ後続のフレームにおける所望信号ｓ（ｔ）に対応した自己相関である。

フィルタ係数更新部１５は、ＩＦＦＴ部１４から、それぞれ第１自己相関Φ_{ｘｘ，τ＋Ｎ／Ｍ}（ｋ）及び第２自己相関Φ_{ｓｓ，τ＋Ｎ／Ｍ}（ｋ）を入力し、後述のフィルタ演算に用いる因果的なフィルタ係数を順次更新する。本実施形態では、入力信号ｘ（ｔ）の雑音成分を抑制するために、ウィーナーフィルタを想定する。ウィーナーフィルタは平均二乗誤差を最小化する最適なＦＩＲフィルタであり、具体的には、時間領域の各フレームにおいて次の（１）式で表される目的関数Ｊ（ｈ）を最小化する演算を行う。

ただし、
ｈ_ｖ ^Ｔ：ウィーナーフィルタのＮ個のフィルタ係数（ｈ（－Ｎ／２＋１）、ｈ（－Ｎ／２＋２）・・ｈ（Ｎ／２））からなるベクトルｈ_ｖの転置
ｘ：入力信号ｘ（ｔ）のＮ個のサンプリングデータ（ｘ（ｔ－Ｎ／２＋１）、ｘ（ｔ－Ｎ／２＋２）・・ｘ（ｔ＋Ｎ／２））からなるベクトル
ｓ：時刻ｔにおける所望信号

（１）式を変形することにより、フレーム番号τのフレームにおける所望信号を求めるためのウィーナーフィルタのフィルタ係数からなるベクトルｈ_ｖは、次の（２）式を満たすベクトルであるとわかる。
ｈ_ｖ＝Ψ_ｘｘ ^－１ψ_ｓｓ（２）
ただし、（２）式において、Ψ_ｘｘ ^－１は、次の（３）式で表される行列Ψ_ｘｘの逆行列であり、ψ_ｓｓは、次の（４）式で表されるベクトルである。

ここで、（３）式の行列Ψ_ｘｘは、１フレーム内のＮ個の自己相関Φ_{ｘｘ，τ＋Ｎ／Ｍ}（０）～Φ_{ｘｘ，τ＋Ｎ／Ｍ}（Ｎ－１）による、Ｎ×Ｎの行列となる。また、（４）式は、１フレーム内の自己相関Φ_{ｓｓ，τ＋Ｎ／Ｍ}（－Ｎ／２）～Φ_{ｓｓ，τ＋Ｎ／Ｍ}（Ｎ／２－１）からなる要素数Ｎのベクトルとなる。

以上のように、（１）～（４）式に基づいて、ウィーナーフィルタにおける目的関数Ｊ（ｈ）を最小化するフィルタ係数ｈ（ｔ）を求めることができる。

また、フィルタ係数更新部１５は、前述のウィーナーフィルタで用いるフィルタ係数ｈ（ｔ）の生成の際に、フィルタ係数ｈ（ｔ）に含まれる非因果的成分を除去する。これにより、本実施形態で用いるウィーナーフィルタは因果的なフィルタとなり、フィルタ演算に伴う時間遅延を回避することができる。なお、フィルタ係数ｈ（ｔ）から非因果的成分を除去するための具体的な方法及び作用については後述する。

畳み込み演算部１６は、取得済入力信号ｘ（ｔ）に対し、フィルタ係数更新部１５により更新された因果的なフィルタ係数ｈｃ（ｔ）を用いて、時間領域での畳み込み演算を行う。畳み込み演算部１６による畳み込み演算の結果、ウィーナーフィルタの（１）式を反映した信号が生成される。

また、畳み込み演算部１６は、取得済入力信号ｘ（ｔ）とフィルタ係数ｈｃ（ｔ）とを直接畳み込む方法（第１の方法）のみならず、取得済入力信号ｘ（ｔ）に任意の窓関数（例えば、ハニング窓）を掛け合わせたものとフィルタ係数ｈｃ（ｔ）とを畳み込む方法（第２の方法）をとることもできる。例えば、使用する任意の窓関数のｉ番目の係数をｗ（ｉ）とおく。この任意の窓関数が掛け合わされる区間は、フーリエ変換部１２における第１パワースペクトルに対応する時間領域の離散時間インデックスと同一の区間である必要があるため、窓関数はフレーム長Ｎの周期をもつ必要があり、また畳み込み処理は１サンプルごとに行われるため、所望のフレームにおける推定しようとする信号の離散時間インデックスが、所望のフレームにおける最初の離散時間インデックスからｊだけ離れているとすると、取得済入力信号ｘ（ｔ）のうち畳み込みに使用される区間と掛け合わされる窓関数は、前記任意の窓関数をｊだけシフトした関数、すなわちｗ（ｉ＋ｊ）で表される。このことと、窓関数の係数は予め決定され処理中には定数として扱われることから、入力信号ｘ（ｔ）が取得されれば１サンプルごとに畳み込み処理を行うことができる。すなわち、第１の方法であっても第２の方法であっても、フィルタ係数が予め決定されかつフィルタが因果的であれば、畳み込み演算部１６において遅延は発生しない。

窓関数乗算部１８は、畳み込み演算部１６で生成された信号のうち所望のフレームに該当する箇所を所定の窓関数で切り出す処理を行う。前述の方法でフレームごとに求められたウィーナーフィルタは、該当する各フレームにおいて信号に混入した雑音成分を低減するための最適なフィルタであるので、窓関数乗算部１８により、雑音成分が低減された１フレーム分の信号に、窓関数が乗ぜられた結果が求められる。使用する窓関数は、オーバーラップ加算部１９にて窓関数の係数をシフト長に該当するＭサンプルだけずらしながら加算していったときに、全てのサンプル位置での加算結果が１となるようなものとする。窓関数の係数は予め決定され、処理中には定数として扱われるため、前記雑音成分が低減された１フレーム分の信号については、所望のフレームに該当する全てのサンプルの値が求められていなくても、１サンプルごとに逐次的に乗算処理を行うことができる。

オーバーラップ加算部１９は、窓関数乗算部１８で求められた結果を所定の間隔Ｍだけシフトしながら足し合わせるものである。前述したように、シフト長Ｍは予め決定された定数であるため、１サンプルごとに逐次的に加算処理を行うことができる。以上のように、窓関数乗算部１８及びオーバーラップ加算部１９においてアルゴリズミック遅延は発生しない。このオーバーラップ加算部１９の出力信号である所望信号ｓ（ｔ）を例えばレシーバ等の変換手段により音に変換すると、入力音から周囲環境の不要な雑音成分を除去した音を出力することができる。

以上のように、図１の構成を採用した雑音抑制装置１によれば、雑音抑制処理に起因する遅延時間を格段に小さくすることができる。すなわち、従来の構成を採用する場合、取得済入力信号ｘ（ｔ）から所望信号ｓ（ｔ）を抽出する経路にＳＴＦＴ部１２やＩＦＦＴ部１４を含む周波数領域の処理のため、フレーム分析のためにフレーム長に相当する遅延が発生することは避けられない。これに対し、図１の構成においては、取得済入力信号ｘ（ｔ）から所望信号ｓ（ｔ）を抽出する経路は時間領域における畳み込み演算部１６、窓関数乗算部１８及びオーバーラップ加算部１９のみが介在し、フレーム分析に起因する遅延は生じない。一方、図１の上部の経路は周波数領域におけるＳＴＦＴ部１２、パワースペクトル推定部１３、ＩＦＦＴ部１４の各処理を含むが、前述したように、フレーム番号が（τ＋Ｎ／Ｍ）のフレームにおけるパワースペクトルはフレーム番号がτのフレームにおけるパワースペクトルから求められている。すなわち、フレーム番号がτのフレームにおけるパワースペクトルは、フレーム番号が（τ－Ｎ／Ｍ）のフレームにおけるパワースペクトルの情報から求められる。これは未取得の所望のフレームにおける因果的かつ最適なフィルタ係数ｈc（ｔ）がアルゴリズミック遅延なく求められることを意味する。以上により、パワースペクトル｜Ｘ（ω，τ＋Ｎ／Ｍ）｜^２、｜Ｓ（ω，τ＋Ｎ／Ｍ）｜^２を推定することでアルゴリズミック遅延を解消し、フィルタ係数ｈ（ｔ）の非因果的成分を除去することにより、フィルタ演算に伴う遅延時間を低減させることができる。

ここで、図３は、フィルタ係数ｈ（ｔ）から非因果的成分を除去する方法の一例を示している。図３（Ａ）に示すように、例えばウィーナーフィルタの（１）式の演算により、フレーム長Ｎに対応して、Ｎ個のフィルタ係数ｈ（－Ｎ／２＋１）～ｈ（Ｎ／２）が生成される。この場合、前半のＮ／２個のフィルタ係数ｈ（－Ｎ／２＋１）～ｈ（０）が非因果的成分に相当し、後半のＮ／２個のフィルタ係数ｈ（１）～ｈ（Ｎ／２）が因果的成分に相当する。このように区分されるのは、畳み込み演算部１６において、入力信号ｘ（ｔ）のうち、フィルタ係数ｈ（ｔ）の非因果的成分は、現時点よりも未来の要素に対応し、フィルタ係数ｈ（ｔ）の因果的成分は現時点より過去の要素に対応するためである。

図３（Ｂ）は、簡便な方法として、フィルタ係数ｈ（ｔ）のうち非因果的成分をそれぞれゼロに置き換えることにより、フィルタ係数ｈ（ｔ）から非因果的成分を除去することができる。非因果的成分を除去した結果、因果的なフィルタ係数ｈc（ｔ）は実質的にＮ／２個の要素からなる半分のサイズとなるので、ｈ（－Ｎ／２＋１）～ｈ（０）に時間シフトすればよい。このような方法を適用することで、入力信号ｘ（ｔ）のうち現時点より未来の要素の演算が不要となり、パワースペクトル推定部１３の未取得入力信号の予測と相まって、フィルタ演算による遅延時間を小さくすることができる。なお、遅延時間がわずかに発生することを許容できる場合、非因果的成分をわずかに残し、得られたフィルタ係数のサイズに対応して時間シフトを行ってもよい。例えば、非因果的成分をＲ個残した場合、ｈ（－Ｎ／２＋１）～ｈ（Ｒ）に時間シフトすればよい。この場合Ｒサンプル分に相当する遅延が生じる。

ここで、フィルタ係数ｈ（ｔ）から非因果的成分を除去する方法としては、図３（Ｂ）の方法には限られない。具体的には、ウィーナーフィルタの演算に関連する（３）式において、Ｎ×Ｎの行列Ψ_ｘｘのうち、Ｎを偶数と仮定したときに（Ｎ／２）×（Ｎ／２）の部分（行列の左上に相当）の要素のみを残し他の要素を除去した新たな（Ｎ／２）×（Ｎ／２）の行列Ψ_ｃｘｘを作成し、（４）式で表されるベクトルψ_ｓｓのうちφ_ｓｓ（－Ｎ／２＋１）～φ_ｓｓ（０）のＮ／２個の要素のみを残し他の要素を除去した新たな（Ｎ／２）×１のベクトルψ_ｃｓｓを作成してから（２）式による演算を行う。この場合、（２）式により求められるフィルタ係数ｈ（ｔ）はＮ／２個の要素からなる半分のサイズとなるので、ｈ（－Ｎ／２＋１）～ｈ（０）の要素に前記Ｎ／２個のフィルタ係数を用い、ｈ（１）～ｈ（Ｎ／２）の要素はゼロとするｈc（ｔ）を作り、そのフィルタ係数ｈc（ｔ）を用いてフィルタ演算を行う方法により、非因果的成分を除去することができる。この方法は、図３（Ｂ）の方法とは相違する。また、遅延時間がわずかに発生することを許容できる場合、Ψ_ｘｘのうち残す部分及びψ_ｓｓのうち残す部分をわずかに増やし、得られたフィルタ係数のサイズに対応して因果的なフィルタ係数を求めてもよい。例えば、Ψ_ｘｘの（Ｎ／２＋Ｒ）×（Ｎ／２＋Ｒ）の部分（行列の左上に相当）を残し、他の要素を除去した新たな（Ｎ／２＋Ｒ）×（Ｎ／２＋Ｒ）の行列Ψ_ｒｘｘを作成し、ψ_ｓｓのうちφ_ｓｓ（－Ｎ／２＋１）～φ_ｓｓ（Ｒ）の（Ｎ／２＋Ｒ）個の要素のみを残し他の要素を除去した新たな（Ｎ／２＋Ｒ）×１の行列ψ_ｒｓｓを作成した場合、求められたフィルタ係数は、演算により求めた（Ｎ／２＋Ｒ）個の要素と、要素がゼロとなるｈ（２／Ｎ＋Ｒ）～ｈ（Ｎ－１）の各要素とからなる。この場合Ｒサンプル分に相当する遅延が生じる。なお、フィルタ係数から非因果的成分を除去可能であれば方法は問わないが、処理時間や特性が異なるため、適切な方法を選択する必要がある。

次に、図４を参照して、時間領域で取得済入力信号ｘ（ｔ）から畳み込み演算部１６に至る経路において処理対象となる取得済入力信号ｘ（ｔ）のフレームと、周波数領域でＳＴＦＴ部１２、パワースペクトル部１３、ＩＦＦＴ部１４の経路を介して推定処理の対象となる入力信号の未取得フレームとの時間間隔について説明する。周波数領域の推定処理は、フレーム長Ｎの各フレームに対して所定のシフト長Ｍだけシフトしながら実行される。具体的には、各フレームに対応する、推定された信号は、所定の窓関数を乗じられた後、所定の間隔Ｍでシフトしながら加算される。図４では、フレーム長Ｎに対して、その半分のシフト長Ｎ／２となる場合を想定し、各々の推定処理に必要な各フレームのデータが順次シフトする状況を示している。各々のフレームは、サンプリング間隔Ｔｓとして時間Ｔ＝Ｎ・Ｔｓを有し、時系列に沿って各フレームの取得は時間間隔Ｔ／２毎に行われる。この場合、時刻ｔの進行に伴い、最初のフレームに対応するフレームデータＤ１と、それに続く２～５番目のフレームに対応するフレームデータＤ２～Ｄ５とが順次取得され、隣接するフレーム間では常に半分が重なり合う状態となる。

そして、図４に示す現時点ｔ＝０において取得済みである最新のフレーム（取得済入力信号ｘ（ｔ）のフレーム）はフレームデータＤ３に対応する。一方、後続のフレームデータＤ４は現時点ｔ＝０で取得中であり、更に後続のフレームデータＤ５は未取得（未取得入力信号のフレーム）である。ここで、アルゴリズミック遅延を無くすために実際にパワースペクトルの推定が必要となるのは未取得のフレームデータＤ５である。一方、この時点で取得済みであるのはフレームデータＤ５より２フレーム分前のフレームデータＤ３であるから、取得済入力信号のフレームから２フレームだけ後続のフレームの推定処理を行うことにより、アルゴリズミック遅延を解消できることがわかる。図４の結果から、フレーム長Ｎ及びシフト長Ｍに設定される場合、取得済入力信号のフレームに対してＮ／Ｍフレーム（図４の例では、Ｎ／Ｍ＝２）だけ後続のパワースペクトルを推定すればよいことが理解できる。

次に図５は、本発明を適用した雑音抑制装置１の効果に関し、従来の構成と対比しつつ、シミュレーションを行った結果を示している。なお、従来の構成としては、一般的な時間周波数マスキングを用いた雑音抑制処理を行う構成を想定する。また、シミュレーションの条件としては、フレーム長を１０２４サンプルとし、シフト長を５１２サンプルとし、サンプリング周波数を１６ｋＨｚとする。また、所望信号に対する入力信号のＳＮ比は＋５ｄＢであるとする。

図５（Ａ）は、取得すべき音声のみを含み、雑音成分を含まない所望信号である元の信号の波形を示し、図５（Ｂ）は、所望信号に雑音成分が付加された入力信号の波形を示す。また、図５（Ｃ）は、従来の構成を用いて推定された所望信号の波形を示し、図５（Ｄ）は、本発明を適用した雑音抑制装置１を用いて推定された所望信号の波形を示す。図５（Ａ）～（Ｄ）のいずれの波形も１秒の時間内の複数箇所でレベルが増加する波形となっている。

従来の図５（Ｃ）と本発明の図５（Ｄ）を対比すると、いずれも雑音成分は概ね抑制されているが、元の信号のうちの波形のピークの位置に対する遅延が異なっている。すなわち、従来の図５（Ｃ）の場合、数１０ミリ秒程度の遅延時間が生じているのに対し、本発明の図５（Ｄ）は遅延時間がほぼゼロであることがわかる。このような相違は、従来の構成では周波数マスキングのアルゴリズミック遅延が避けられないのに対し、本発明の構成では前述したようにアルゴリズミック遅延の影響を受けないことによるものである。

本発明に係る雑音抑制装置は、入力信号に音声を伴う多様な用途や機器に適用することができる。例えば、本発明に係る雑音抑制装置を補聴器に組み込むことが可能である。この場合、図１の構成に、音を電気信号に変換して入力するマイクロホン、使用者の聴力に応じた補聴処理を施す補聴処理部や、電気信号を音に変換して外耳道内に出力するイヤホンなどを組み込む必要がある。特に一般的な補聴器の場合は、遅延時間の許容値が数ミリ秒程度であって、遅延時間が長くなる場合には、自声の聞こえの不快感や、唇の動きとの不一致などの不具合を生じるため、使用者に違和感を与えることになるため、本発明を適用する効果は非常に大きくなる。

以上、本実施形態により本発明を適用した雑音抑制装置１について説明したが、本発明は、上述したような一般的な補聴器などの音声入力機器に加えて、それ以外のコンピュータや通信機器の一部として組み込むことも可能である。また、本実施形態の図１の構成は同様の機能を有する限り適宜に変更でき、細部の処理内容の変更に加えて、各部材間の相互接続にネットワークや無線通信が介在してもよい。また、雑音抑制装置１におけるフィルタ演算に関し、（１）～（４）式で説明したウィーナーフィルタを採用する場合に限らず、本発明の作用効果を奏する他のフィルタ手段を採用してもよい。また、図６のブロック図に示すように、自己相関推定部１７にて、例えば図２の構成のようなニューラルネットワークを用いて、前記第１パワースペクトルより前記第１自己相関及び第２自己相関を直接推定してもよい。それ以外の点についても、本実施形態の内容に限定されず、多様な構成及び処理を採用可能である。

１…雑音抑制装置
１２…ＳＴＦＴ部
１３…パワースペクトル推定部
１４…ＩＦＦＴ部
１５…フィルタ係数更新部
１６…畳み込み演算部
１７…自己相関推定部
１８…窓関数乗算部
１９…オーバーラップ加算部
２０…入力層
２１、２２…中間層
２３…出力層

Claims

入力信号に含まれる雑音成分を抑制し、前記雑音成分が抑制された所望信号を生成する雑音抑制装置であって、
所定の間隔でシフトさせたフレーム毎に取得した取得済入力信号を周波数領域で第１パワースペクトルに変換するフーリエ変換部と、
前記第１パワースペクトルを入力し、ニューラルネットワークを用いた推定処理により、入力信号の未取得フレームに対応する第１自己相関と、前記未取得フレームの雑音成分が抑制された所望信号に対応する第２自己相関を推定する自己相関推定部と、
前記第１自己相関と前記第２自己相関とに基づいて、前記未取得フレームの雑音成分を抑制するためのフィルタ係数を更新するフィルタ係数更新部と、
未取得フレームが入力されると予め更新された前記フィルタ係数を用いて前記取得済入力信号に畳み込み演算を行う畳み込み演算部と、
前記畳み込み演算部の演算結果に窓関数を乗じる窓関数乗算部と、
前記窓関数を乗じた１フレーム分を切り取り所定の間隔でシフトしながら加算していき所望信号を生成するオーバーラップ加算部と、
を備えることを特徴とする雑音抑制装置。
前記フィルタ係数は前記フィルタ係数に含まれる非因果的成分を除去した因果的なフィルタ係数であることを特徴とする請求項１に記載の雑音抑制装置。
前記ニューラルネットワークは、入力層と、２層以上の中間層と、出力層とを有するディープニューラルネットワークであることを特徴とする請求項１又は２に記載の雑音抑制装置。
前記フーリエ変換部は、短時間フーリエ変換処理を実行することを特徴とする請求項１から３のいずれか１項に記載の雑音抑制装置。
前記ニューラルネットワークのそれぞれに付随するパラメータは、前記第１パワースペクトル、前記第１自己相関及び前記第２自己相関を関連付けて予め蓄積したデータ群を用いたディープラーニングに基づいて設定されることを特徴とする請求項３に記載の雑音抑制装置。
前記自己相関推定部は、
前記第１パワースペクトルを入力し、前記ニューラルネットワークを用いた推定処理により、前記第１パワースペクトルに基づき前記未取得フレームの第３パワースペクトルを推定するとともに、前記第３パワースペクトルに基づき前記未取得フレームの雑音成分が抑制された前記所望信号に対応する第２パワースペクトルを推定するパワースペクトル推定部と、
前記第２パワースペクトルを前記第２自己相関に変換し、前記第３パワースペクトルを前記第１自己相関に変換する逆フーリエ変換部と、
を備えることを特徴とする請求項１から４のいずれか１項に記載の雑音抑制装置。
前記逆フーリエ変換部は、逆高速フーリエ変換を実行することを特徴とする請求項６に記載の雑音抑制装置。
前記ニューラルネットワークのそれぞれに付随するパラメータは、前記第１パワースペクトル、前記第２パワースペクトル及び前記第３パワースペクトルを関連付けて予め蓄積したデータ群を用いたディープラーニングに基づいて設定されることを特徴とする請求項６に記載の雑音抑制装置。
前記推定処理は、フレーム長Ｎ（ＮはＮ≧２の整数）の各フレームに対してシフト長Ｍ（ＭはＮ≧Ｍ≧１の整数、Ｎ／Ｍは整数）だけシフトしつつ実行され、前記入力信号の未取得フレームは前記取得済入力信号のフレームに対してＭフレームだけ後続のフレームであることを特徴とする請求項１から８のいずれか１項に記載の雑音抑制装置。
前記フィルタ係数は、平均二乗誤差を最小化するウィーナーフィルタによる演算に基づき生成されることを特徴とする請求項１から９のいずれか１項に記載の雑音抑制装置。
入力信号に含まれる雑音成分を抑制し、前記雑音成分が抑制された所望信号を生成する雑音抑制方法であって、
所定の間隔でシフトさせたフレーム毎に取得した取得済入力信号を周波数領域で第１パワースペクトルに変換するフーリエ変換を行い、
前記第１パワースペクトルを入力し、ニューラルネットワークを用いた推定処理により、入力信号の未取得フレームに対応する第１自己相関と、前記入力信号の未取得フレームの雑音成分が抑制された所望信号に対応する第２自己相関を推定し、
前記第１自己相関と前記第２自己相関とに基づいて、前記入力信号の未取得フレームの前記雑音成分を抑制するためのフィルタ係数を更新し、
前記入力信号の未取得フレームが入力されると予め更新された前記フィルタ係数を用いて前記取得済入力信号に畳み込み演算を行い
前記畳み込み演算結果に窓関数を乗じ、
前記窓関数を乗じた１フレーム分を切り取り所定の間隔でシフトしながら加算していき所望信号を生成するオーバーラップ加算を行う、
ことを特徴とする雑音抑制方法。
請求項１から１０のいずれか１項に記載の雑音抑制装置を備えることを特徴とする音声入力機器。