JP6668995B2 - 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム - Google Patents

雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム Download PDF

Info

Publication number
JP6668995B2
JP6668995B2 JP2016147416A JP2016147416A JP6668995B2 JP 6668995 B2 JP6668995 B2 JP 6668995B2 JP 2016147416 A JP2016147416 A JP 2016147416A JP 2016147416 A JP2016147416 A JP 2016147416A JP 6668995 B2 JP6668995 B2 JP 6668995B2
Authority
JP
Japan
Prior art keywords
frequency
noise suppression
frame
unit
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016147416A
Other languages
English (en)
Other versions
JP2018017865A (ja
Inventor
松尾 直司
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016147416A priority Critical patent/JP6668995B2/ja
Priority to EP17178684.1A priority patent/EP3276621B1/en
Priority to US15/638,125 priority patent/US10679641B2/en
Publication of JP2018017865A publication Critical patent/JP2018017865A/ja
Application granted granted Critical
Publication of JP6668995B2 publication Critical patent/JP6668995B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Description

本発明は、例えば、音声信号に含まれる雑音成分を抑圧する雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラムに関する。
マイクロホンにより集音された音声には、雑音成分が含まれることがある。集音された音声に雑音成分が含まれると、その音声が聞き取り難くなることがある。また、その音声に対して行われる音声認識処理の認識精度を低下させる原因となる。そこで、音声信号に含まれる雑音成分を周波数ごとに推定し、推定した雑音成分を音声信号の振幅スペクトルから減算することで、雑音成分を抑制する技術が開発されている。しかしながら、このような技術では、雑音成分を抑制する際に、雑音成分とともに信号成分も抑圧されてしまい、その結果として、本来の音声も聞き取り難くなってしまうことがある。そこで、周波数ごとに信号対雑音比を算出し、その信号対雑音比が音声信号中の信号成分を識別可能であることを表す周波数帯域を選択し、選択された周波数帯域の信号対雑音比に応じてゲインを決定する技術が提案されている(例えば、特許文献1を参照)。
特開2014−106494号公報
しかしながら、例えば、車両に搭載されたマイクロホンで、車両の走行中においてドライバの音声を集音しようとする場合、特に、車両のエアーコンディショナーの作動音が大きい場合のように、音声信号に含まれる雑音成分が非常に大きいことがある。このような場合、音声信号の各周波数における信号対雑音比が相対的に低くなり、上述したような従来技術でも、設定したゲインが必ずしも最適とならないことがある。
一つの側面では、本発明は、音声信号に含まれる雑音成分が相対的に大きい場合でも、補正された音声信号が歪むことを抑制しつつ、雑音成分を抑圧する雑音抑圧装置を提供することを目的とする。
一つの実施形態によれば、雑音抑圧装置が提供される。この雑音抑圧装置は、第1の音声入力部により得られた第1の音声信号を所定の時間長を持つフレームごとに分割し、連続する二つのフレームは互いに部分的に重なる分割部と、フレームごとに第1の音声信号を周波数領域へ変換することにより第1の音声信号についての第1の周波数スペクトルを算出する時間周波数変換部と、フレームのそれぞれについて、周波数ごとに第1の周波数スペクトルの振幅成分から雑音成分を除去して雑音抑圧振幅成分を算出する雑音抑圧部と、連続する二つのフレームの組のそれぞれについて、第1の周波数スペクトルの周波数ごとの振幅成分同士、または、雑音抑圧振幅成分同士を比較することで、周波数ごとの比較値を算出する比較部と、連続する二つのフレームの組のそれぞれについて、周波数ごとに、その周波数の比較値に応じたゲインを算出するゲイン算出部と、連続する二つのフレームの組のそれぞれについて、その組の一方のフレームについての周波数ごとの雑音抑圧振幅成分に、対応するゲインを乗じて周波数ごとの補正振幅成分を算出する補正部と、フレームごとに、周波数ごとの第1の周波数スペクトルの位相成分と補正振幅成分とから補正周波数スペクトルを算出し、補正周波数スペクトルを時間領域へ変換することにより補正された音声信号を算出する周波数時間変換部とを有する。
音声信号に含まれる雑音成分が相対的に大きい場合でも、補正された音声信号が歪むことを抑制しつつ、雑音成分を抑圧することができる。
第1の実施形態による雑音抑圧装置を有する音声入力システムの概略構成図である。 第1の実施形態による雑音抑圧装置の概略構成図である。 連続する二つのフレームの雑音抑圧後の振幅スペクトルと、補正ゲインとの関係の一例を示す図である。 第1の実施形態による雑音抑圧処理の動作フローチャートである。 第2の実施形態による雑音抑圧装置が実装された音声入力装置の概略構成図である。 第2の実施形態による雑音抑圧装置の概略構成図である。 第2の実施形態による雑音抑圧処理の動作フローチャートである。 上記の何れかの実施形態またはその変形例による雑音抑圧装置の各部の機能を実現するコンピュータプログラムが動作することにより、雑音抑圧装置として動作するコンピュータの構成図である。
以下、図を参照しつつ、雑音抑圧装置について説明する。
この雑音抑圧装置は、音声信号をフレームごとに分割する。各フレームは、連続する二つのフレームが部分的に重なるように設定される。そしてこの雑音抑圧装置は、各フレームの周波数スペクトルの振幅成分から、雑音成分に相当する振幅成分を減じることで雑音成分を抑圧する。その際、この雑音抑圧装置は、連続する二つのフレーム間で、周波数ごとに雑音抑圧後の振幅成分を比較する。そしてこの雑音抑圧装置は、振幅成分の差が大きい周波数については、その差が小さくなるように、一方のフレーム(例えば、時間的に後の方のフレーム)の振幅成分を補正する。
図1は、第1の実施形態による雑音抑圧装置が実装された音声入力システムの概略構成図である。本実施形態では、音声入力システム1は、例えば、車載のハンズフリーホンであり、マイクロホン2と、アナログ/デジタル変換器3と、雑音抑圧装置4と、通信インターフェース部5とを有する。
マイクロホン2は、音声入力部の一例であり、音声入力システム1の周囲の音を集音し、その音の強度に応じたアナログ音声信号を生成し、そのアナログ音声信号をアナログ/デジタル変換器3へ出力する。アナログ/デジタル変換器3は、そのアナログ音声信号を増幅した後、増幅されたアナログ音声信号を所定のサンプリング周期でサンプリングすることによりデジタル化された音声信号を生成する。そしてアナログ/デジタル変換器3は、デジタル化された音声信号を雑音抑圧装置4へ出力する。なお、以下では、デジタル化された音声信号を、単に音声信号と呼ぶ。
この音声信号には、例えば、音声入力システム1を利用するユーザの声といった、集音対象となる信号成分と、背景の騒音といった雑音成分とが含まれる。そこで、雑音抑圧装置4は、例えば、デジタル信号プロセッサを有し、音声信号に含まれる雑音成分を抑圧することにより、補正音声信号を生成する。そして雑音抑圧装置4は、補正音声信号を通信インターフェース部5へ出力する。
通信インターフェース部5は、音声入力システム1を、携帯電話機といった他の機器と接続するための通信インターフェース回路を有する。通信インターフェース回路は、例えば、Bluetooth(登録商標)といった、音声信号の通信に利用可能な近距離無線通信規格に従って動作する回路、あるいは、universal serial bus(USB)といったシリアルバス規格に従って動作する回路とすることができる。そして通信インターフェース部5は、雑音抑圧装置4から受け取った補正音声信号を他の機器へ送信する。
図2は、第1の実施形態による雑音抑圧装置4の概略構成図である。雑音抑圧装置4は、窓処理部11と、時間周波数変換部12と、雑音推定部13と、雑音抑圧部14と、比較部15と、ゲイン算出部16と、補正部17と、バッファ18と、周波数時間変換部19と、合成部20とを有する。雑音抑圧装置4が有するこれらの各部は、例えば、デジタル信号プロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、これらの各部は、その各部の機能を実現する一つまたは複数の集積回路であってもよい。
窓処理部11は、分割部の一例であり、音声信号を、所定の時間長(例えば、数10msec)を持つフレームごとに分割する。本実施形態では、窓処理部11は、連続する二つのフレームがフレーム長の1/2だけずれるように各フレームを設定する。
さらに、窓処理部11は、各フレームに対して窓処理を実行する。すなわち、窓処理部11は、各フレームに所定の窓関数を乗じる。例えば、窓処理部11は、窓関数としてハニング窓を用いることができる。この場合、詳細は後述するように、振幅スペクトルが補正された各フレームを合成して得られる補正音声信号において、その合成による歪みが生じることが抑制される。
窓処理部11は、フレームに対する窓処理を施す度に、そのフレームを時間周波数変換部12へ出力する。
時間周波数変換部12は、窓処理が施されたフレームを受け取る度に、そのフレームを時間領域から周波数領域へ変換することにより、複数の周波数のそれぞれについての振幅成分と位相成分とを含む周波数スペクトルを算出する。そのために、時間周波数変換部12は、例えば、フレームに対して、高速フーリエ変換(Fast Fourier Transform, FFT)といった時間周波数変換を実行することにより周波数スペクトルを算出する。
時間周波数変換部12は、フレームごとに、周波数スペクトルのうちの各周波数の振幅成分を含む振幅スペクトルを雑音推定部13及び雑音抑圧部14へ出力する。また時間周波数変換部12は、フレームごとに、周波数スペクトルのうちの各周波数の位相成分を含む位相スペクトルを周波数時間変換部19へ出力する。
雑音推定部13は、過去の複数のフレームに基づいて推定された周波数ごとの雑音成分を表す雑音モデルを、最新のフレームである現フレームの振幅スペクトルに基づいて更新することで、現フレームにおける各周波数の雑音成分を推定する。
具体的には、雑音推定部13は、振幅スペクトルを時間周波数変換部12から受け取る度に、振幅スペクトルの平均値pを次式に従って算出する。
Figure 0006668995
ここでFnは周波数の総数であり、時間周波数変換において1フレームに含まれるサンプル点数の1/2である。flowは、最も低い周波数を表し、fhighは、最も高い周波数を表す。またSt(f)は、現フレームの周波数fごとの振幅成分を表す振幅スペクトルである。
次に、雑音推定部13は、現フレームの振幅スペクトルの平均値pと、雑音成分の上限に相当する閾値Thrとを比較する。そして雑音推定部13は、平均値pが閾値Thr未満である場合、各周波数について次式に従って過去のフレームにおける雑音成分と振幅成分とを平均することにより、雑音モデルを更新する。
Figure 0006668995
ただし、Nt-1(f)は、更新前の雑音モデルに含まれる周波数fの雑音成分であり、バッファ18から読み込まれる。また、Nt(f)は、更新後の雑音モデルに含まれる周波数fの雑音成分である。係数αは忘却係数であり、例えば、0.01〜0.1の何れかの値に設定される。一方、平均値pが閾値Thr以上である場合、現フレームには、雑音以外の信号成分が含まれると推定されるので、忘却係数αを0とすることで、雑音推定部13は、更新前の雑音モデルそのものを、更新後の雑音モデルとする。すなわち、雑音推定部13は、全ての周波数についてNt(f)=Nt-1(f)とする。あるいは、雑音推定部13は、現フレームにおいて雑音以外の信号成分が含まれる場合には、忘却係数αを、例えば、0.0001のように非常に小さい値にすることで、雑音モデルに対する現フレームの影響を小さくしてもよい。
なお、雑音推定部13は、周波数ごとの雑音成分を推定する他の様々な手法の何れかに従って、各周波数の雑音成分を推定してもよい。
雑音推定部13は、更新した雑音モデルをバッファ18に記憶するとともに、各周波数の雑音成分を雑音抑圧部14へ出力する。
雑音抑圧部14は、各フレームについて、周波数ごとに、振幅成分から雑音モデルで表されるその周波数の雑音成分を減じる。すなわち、雑音抑圧部14は、|Xt(f)|=(|St(f)|-Nt(f))を算出することで、音声信号中に含まれる雑音を抑圧する。そして雑音抑圧部14は、フレームごとに、雑音が抑圧された振幅スペクトルを比較部15及び補正部17へ出力する。また雑音抑圧部14は、雑音が抑圧された振幅スペクトルをバッファ18に保存する。なお、雑音が抑圧された振幅スペクトルは、雑音抑圧振幅成分の一例である。
比較部15は、連続する二つのフレーム間で、雑音抑圧後の振幅スペクトルを比較する。
本実施形態では、連続する二つのフレームは、互いに部分的にオーバーラップしている。そのため、その二つのフレーム間では、一般的に、振幅スペクトルは類似していると想定される。したがって、各周波数において、その二つのフレームの振幅成分の差は比較的小さいと想定される。しかし、その二つのフレームのうちの一方について、ある周波数において音声信号に歪みが生じると、その周波数における二つのフレームの振幅成分の差が大きくなる。そこで比較部15は、歪みが生じるか否かを表す指標として、次式に従って周波数ごとに二つのフレームの振幅成分の絶対値の比r(f)を比較値として算出する。
Figure 0006668995
ここで、|Xt(f)|は、現フレームにおける、周波数fについての雑音抑圧後の振幅成分であり、|Xt-1(f)|は、直前のフレームにおける、周波数fについての雑音抑圧後の振幅成分である。なお、比較部15は、|Xt-1(f)|を、バッファ18から読み込んで比r(f)の算出に利用すればよい。
比較部15は、フレームごとに、そのフレームと直前のフレームとの間で算出した周波数ごとの比r(f)をゲイン算出部16へ出力する。
ゲイン算出部16は、各フレームについて、連続する二つのフレーム間の雑音抑圧後の振幅成分についての周波数ごとの比r(f)に基づいて、周波数ごとに補正ゲインを算出する。
比較部15に関して説明したように、連続する二つのフレームのうちの一方について、ある周波数において歪みが生じると、その周波数における二つのフレームの振幅成分の差が大きくなる。そこで、ゲイン算出部16は、周波数ごとに、比r(f)を所定の閾値と比較し、比r(f)が所定の閾値未満となる周波数について、1よりも大きい補正ゲインを設定し、一方、比r(f)が所定の閾値以上となる周波数について、補正ゲインを1とする。例えば、ゲイン算出部16は、次式に従って、周波数ごとに補正ゲインを算出する。
Figure 0006668995
ここで、αは閾値であり、0〜1の間の値、例えば、0.5に設定される。またβは補正係数であり、0よりも大きい正の値、例えば、0.5に設定される。そしてG(f)は、周波数fについての補正ゲインである。なお、閾値αと補正係数βとは、同じ値であってもよく、互いに異なっていてもよい。ただし、補正係数βも、1以下であることが好ましい。補正係数βが1よりも大きいと、補正ゲインG(f)の値が大きくなり過ぎ、補正ゲインによる振幅成分の過度な強調に起因して、補正音声信号に歪みが生じる可能性があるためである。
図3は、連続する二つのフレームの雑音抑圧後の振幅スペクトルと、補正ゲインとの関係の一例を示す図である。図3の上側のグラフにおいて、横軸は周波数を表し、縦軸は振幅成分の強度を表す。そしてグラフ301は、現フレームの振幅スペクトルを表し、グラフ302は、一つ前のフレームの振幅スペクトルを表す。この例では、グラフ301及びグラフ302から分かるように、周波数f1において、一つ前のフレームの雑音抑圧後の振幅成分と比較して、現フレームの雑音抑圧後の振幅成分が大きく低下している。周波数f1以外では、二つのフレームの雑音抑圧後の振幅成分の差は小さい。
図3の下側のグラフにおいて、横軸は周波数を表し、縦軸は補正ゲインを表す。そしてグラフ303は、周波数と補正ゲインの関係を表す。グラフ303に示されるように、二つのフレーム間の雑音抑圧後の振幅成分の差が比較的大きい周波数f1において、補正ゲインは1よりも大きな値となり、それ以外の周波数については、補正ゲインは1となる。したがって、二つのフレーム間の雑音抑圧後の振幅成分の差が比較的大きい周波数f1について、現フレームの振幅成分は強調され、その結果として、周波数f1についても、二つのフレーム間の雑音抑圧後の振幅成分の差が小さくなる。
ゲイン算出部16は、フレームごとに、各周波数の補正ゲインを補正部17へ出力する。
補正部17は、各フレームについて、周波数ごとに、雑音抑圧後の振幅成分に対応するその周波数の補正ゲインを乗じることで、周波数ごとに振幅成分を補正する。すなわち、補正部17は、次式に従って、周波数ごとの補正された振幅成分を算出する。
Figure 0006668995
ここで、|Xt'(f)|は、現フレームにおける、周波数fについての補正された振幅成分である。補正部17は、各フレームについて、周波数ごとの補正された振幅成分をバッファ18に保存するとともに、周波数時間変換部19へ出力する。
バッファ18は、現フレーム及び一つ前のフレームについての雑音モデル、及び、雑音抑圧後の振幅スペクトルを記憶する。そしてバッファ18に記憶された雑音モデルは、雑音モデルの更新及び雑音成分の抑圧に利用される。また、バッファ18に記憶された雑音抑圧後の振幅スペクトルは、比r(f)の算出に利用される。
周波数時間変換部19は、フレームごとに、各周波数についての補正された振幅成分を含む補正された振幅スペクトルと位相スペクトルとを合成することで、補正された周波数スペクトルを求める。そして周波数時間変換部19は、補正された周波数スペクトルを周波数時間変換して時間領域の信号に変換することにより、フレームごとの補正された音声信号を得る。なお、この周波数時間変換は、時間周波数変換部12により行われる時間周波数変換の逆変換である。
周波数時間変換部19は、フレームごとの補正された音声信号を合成部20へ出力する。
合成部20は、時間順(すなわち、再生順)に連続するフレームごとの補正された音声信号を、フレーム長の1/2ずつずらして加算することにより、補正音声信号を算出する。そして合成部20は、補正音声信号を出力する。
図4は、第1の実施形態による雑音抑圧処理の動作フローチャートである。雑音抑圧装置4は、以下の動作フローチャートに従って、雑音抑圧処理を実行する。
窓処理部11は、音声信号を、連続するフレームが1/2フレーム長ずつ重なるようにフレームごとに分割し、各フレームに対してハニング窓関数を乗じる(ステップS101)。時間周波数変換部12は、各フレームについて時間領域から周波数領域へ変換することで周波数スペクトルを算出する(ステップS102)。
雑音推定部13は、各周波数の雑音成分を表す雑音モデルをフレームごとに更新する(ステップS103)。雑音抑圧部14は、各フレームについて、周波数ごとに、振幅成分から雑音モデルで表されるその周波数の雑音成分を減じることで、音声信号中に含まれる雑音を抑圧する(ステップS104)。
比較部15は、各フレームについて、そのフレームと直前のフレームとの間で、周波数ごとに、雑音抑圧後の振幅成分の比r(f)を算出する(ステップS105)。そしてゲイン算出部16は、各フレームについて、比r(f)に基づいて補正ゲインを算出する(ステップS106)。その際、ゲイン算出部16は、比r(f)が閾値未満となる周波数について補正ゲインが1よりも大きな値を持つように、周波数ごとに補正ゲインを算出する。補正部17は、各フレームについて、周波数ごとに、雑音抑圧後の振幅成分に対応する補正ゲインを乗じることで、補正された振幅スペクトルを算出する(ステップS107)。
周波数時間変換部19は、各フレームについて、補正された振幅スペクトルと位相スペクトルとを合成して補正された周波数スペクトルを算出する。そして周波数時間変換部19は、補正された周波数スペクトルを周波数時間変換して時間領域の信号に変換することにより、フレームごとの補正された音声信号を得る(ステップS108)。そして合成部20は、各フレームの補正された音声信号を、一つ前のフレームの補正された音声信号に対してフレーム長の1/2だけずらして加算することで補正音声信号を算出する(ステップS109)。
その後、雑音抑圧装置4は、雑音抑圧処理を終了する。
以上に説明してきたように、この雑音抑圧装置は、連続する二つのフレーム間で、雑音抑圧後の振幅スペクトルを比較して、その差が比較的大きい周波数について、1よりも大きい補正ゲインを算出する。そしてこの雑音抑圧装置は、その補正ゲインを用いて、雑音抑圧後の振幅スペクトルを補正する。これにより、この雑音抑圧装置は、音声信号に含まれる雑音成分が非常に大きい場合でも、雑音成分を抑圧しつつ、補正音声信号において歪みが生じることを抑制できる。
なお、変形例によれば、比較部15は、雑音抑圧部14により雑音成分が抑圧される前の各フレームの振幅スペクトルを用いて、比r(f)を算出してもよい。この場合には、比較部15は、次式に従って周波数ごとの比r(f)を比較値として算出すればよい。
Figure 0006668995
ここで、Xt pre(f)は、現フレームにおける、周波数fの雑音抑圧前の振幅成分(すなわち、時間周波数変換部12から出力され、比較部15に直接入力されたもの)である。またXt-1 pre(f)は、現フレームの一つ前のフレームにおける、周波数fの雑音抑圧前の振幅成分である。なお、比較部15は、(6)式に従って比r(f)を算出するために、Xt pre(f)を1/2フレーム長に相当する時間だけ遅延させる遅延回路を有していてもよい。
この変形例によれば、比r(f)の算出に、雑音の抑圧の影響を受ける前の各フレームの振幅スペクトルが用いられるので、雑音抑圧装置は、音源とマイクロホン間などで発生する歪みが生じる周波数をより高精度で判定できる。そのため、ゲイン算出部16は、(4)式における補正係数βの値を、上記の実施形態におけるβの値よりも大きくしてもよい。
また他の変形例によれば、比較部15は、(3)式に従って雑音成分が抑圧された後の連続フレーム間の振幅スペクトルの比を算出するとともに、(6)式に従って雑音成分が抑圧される前の連続フレーム間の振幅スペクトルの比を算出してもよい。ここでは、便宜上、(3)式に従って算出される、雑音成分が抑圧された後の連続フレーム間の振幅スペクトルの比をr'(f)で表し、(6)式に従って算出される雑音成分が抑圧される前の連続フレーム間の振幅スペクトルの比をr(f)で表す。
そしてゲイン算出部16は、周波数ごとの比r(f)と比r'(f)との比較により、周波数ごとに補正ゲインを算出してもよい。例えば、ゲイン算出部16は、次式に従って、周波数ごとの補正ゲインを算出する。
Figure 0006668995
ここで、γは閾値であり、0〜1の間の値、例えば、0.5に設定される。またηは補正係数であり、0よりも大きい正の値、例えば、0.5に設定される。そしてG(f)は、周波数fについての補正ゲインである。なお、閾値γと補正係数ηとは、同じ値であってもよく、互いに異なっていてもよい。ただし、この変形例においても、補正係数ηは1以下であることが好ましい。補正係数ηが1よりも大きいと、補正ゲインG(f)の値が大きくなり過ぎ、補正ゲインに起因して、補正音声信号に歪みが生じる可能性があるためである。
(7)式から明らかなように、この変形例では、雑音抑圧の前後で、連続するフレーム間の振幅成分の比が相対に大きく変動する周波数について補正ゲインが1よりも大きな値に設定される。したがって、この変形例によれば、雑音抑圧装置は、雑音抑圧により、振幅成分が過度に変動する周波数を高精度で特定することができ、その周波数の雑音抑圧後の振幅成分についてフレーム間での差が小さくなるように補正できる。そのため、この変形例による雑音抑圧装置は、過度な雑音の抑圧により、補正音声信号において歪みが生じることを抑制できる。
次に、第2の実施形態による雑音抑圧装置について説明する。第2の実施形態による雑音抑圧装置は、設置位置が互いに異なる複数のマイクロホンを用いることで、音声信号に含まれる、着目する音源以外の音源からの雑音を抑圧する。
図5は、第2の実施形態による雑音抑圧装置が実装された音声入力装置の概略構成図である。音声入力装置6は、二つのマイクロホン2−1、2−2と、二つのアナログ/デジタル変換器3−1、3−2と、雑音抑圧装置41と、通信インターフェース部5とを有する。音声入力装置6は、例えば、車両(図示せず)に搭載され、ドライバが発した音声を集音し、その音声をナビゲーションシステム(図示せず)あるいはハンズフリーホン(図示せず)等へ出力する。
マイクロホン2−1、2−2は、それぞれ、音声入力部の一例であり、互いに異なる位置に配置される。例えば、マイクロホン2−1は、着目する音源である、ドライバの近傍、例えば、インスツルメントパネル、あるいは、ドライバ側の車室内の天井付近に配置される。一方、マイクロホン2−2は、雑音の発生源(以下、単に雑音源と呼ぶ)である、助手席同乗者(以下、単に同乗者と呼ぶ)の近傍、例えば、同乗者側の車室内の天井付近に配置される。そしてマイクロホン2−1が周囲の音声を集音することにより生成したアナログの音声信号はアナログ/デジタル変換器3−1に入力される。同様に、マイクロホン2−2が周囲の音声を集音することにより生成したアナログの音声信号はアナログ/デジタル変換器3−2に入力される。
アナログ/デジタル変換器3−1は、マイクロホン2−1から受け取ったアナログの音声信号を増幅した後に所定のサンプリングピッチでサンプリングすることによりその音声信号をデジタルする。同様に、アナログ/デジタル変換器3−2は、マイクロホン2−2から受け取ったアナログの音声信号を増幅した後に所定のサンプリングピッチでサンプリングすることによりその音声信号をデジタル化する。
なお、以下では、説明の便宜上、マイクロホン2−1が集音することで生成され、アナログ/デジタル変換器3−1によりデジタル化された音声信号を第1の音声信号と呼ぶ。また、マイクロホン2−2が集音することで生成され、アナログ/デジタル変換器3−2によりデジタル化された音声信号を第2の音声信号と呼ぶ。
アナログ/デジタル変換器3−1は、第1の音声信号を雑音抑圧装置41へ出力する。同様に、アナログ/デジタル変換器3−2は、第2の音声信号を雑音抑圧装置41へ出力する。
図6は、第2の実施形態による雑音抑圧装置41の概略構成図である。雑音抑圧装置41は、窓処理部11と、時間周波数変換部12と、同期減算部21と、比較部15と、ゲイン算出部16と、補正部17と、バッファ18と、周波数時間変換部19と、合成部20とを有する。雑音抑圧装置41が有するこれらの各部は、例えば、デジタル信号プロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、これらの各部は、その各部の機能を実現する一つまたは複数の集積回路であってもよい。なお、図6において、雑音抑圧装置41の各構成要素には、図2に示した雑音抑圧装置4の対応する構成要素の参照番号と同じ参照番号を付した。
第2の実施形態による雑音抑圧装置41は、第1の実施形態による雑音抑圧装置4と比較して、雑音推定部13及び雑音抑圧部14の代わりに同期減算部21を有する点で異なる。さらに、窓処理部11、時間周波数変換部12、比較部15及び周波数時間変換部19において処理対象となる信号が異なる。そこで以下では、窓処理部11、時間周波数変換部12、比較部15、周波数時間変換部19、同期減算部21及びその関連部分について説明する。雑音抑圧装置41の他の構成要素については、第1の実施形態の対応する構成要素の説明を参照されたい。
窓処理部11は、上記の実施形態と同様に、第1及び第2の音声信号を、それぞれ、所定の時間長(例えば、数10msec)を持つフレーム単位に分割する。その際、窓処理部11は、第1及び第2の音声信号のそれぞれに対して、連続する二つのフレームがフレーム長の1/2だけずれるように各フレームを設定する。
さらに、窓処理部11は、第1及び第2の音声信号のそれぞれについて、各フレームに対して所定の窓関数を乗じる。例えば、窓処理部11は、窓関数としてハニング窓を用いることができる。
窓処理部11は、窓処理が施された、第1及び第2の音声信号の各フレームを時間周波数変換部12へ出力する。
時間周波数変換部12は、第1及び第2の音声信号のそれぞれについて、窓処理が施されたフレームを受け取る度に、そのフレームを時間領域から周波数領域へ変換することにより、周波数スペクトルを算出する。本実施形態でも、上記の実施形態と同様に、時間周波数変換部12は、時間周波数変換として、FFTを用いることができる。
時間周波数変換部12は、第1及び第2の音声信号のそれぞれについて、フレームごとの周波数スペクトルを同期減算部21へ出力する。なお、以下では、便宜上、第1の音声信号から得られる周波数スペクトルを第1の周波数スペクトルと呼び、第2の音声信号から得られる周波数スペクトルを第2の周波数スペクトルと呼ぶ。なお、第1及び第2の周波数スペクトルのそれぞれは、振幅スペクトルと位相スペクトルとを含む、複素スペクトルである。
同期減算部21は、雑音抑圧部の他の一例であり、各フレームの第1の周波数スペクトルから所定の遅延量だけ遅延させた第2の周波数スペクトルを減算する。これにより、同期減算部21は、着目する音源である、ドライバが発した音声を含み、雑音源からの音声を除去したものに相当する差分周波数スペクトルを算出する。例えば、同期減算部21は、次式に従って差分周波数スペクトルを算出する。
Figure 0006668995
ここで、X1t(f)は、現フレームの第1の周波数スペクトルであり、X2t(f)は、現フレームの第2の周波数スペクトルである。またNは、フレーム長であり、dは、遅延量である。
なお、遅延量dは、雑音源となる同乗者の口からマイクロホン2-1までの距離と同乗者の口からマイクロホン2−2までの距離の差から生じる値に設定される。そしてXt(f)は、現フレームについての差分周波数スペクトルである。また、|Xt(f)|は、現フレームについての差分周波数スペクトルの振幅スペクトルであり、周波数fごとの振幅成分を含む。さらに、P(Xt(f))は、現フレームについての差分周波数スペクトルの位相スペクトルであり、周波数fごとの位相成分を含む。そしてRe(Xt(f))及びIm(Xt(f))は、それぞれ、現フレームについての差分周波数スペクトルの実数成分及び虚数成分である。
同期減算部21は、各フレームについて、差分周波数スペクトルの振幅スペクトルを比較部15及び補正部17へ出力する。また同期減算部21は、差分周波数スペクトルの振幅スペクトルをバッファ18に保存する。さらに、同期減算部21は、各フレームについて、差分周波数スペクトルの位相スペクトルを周波数時間変換部19へ出力する。なお、差分周波数スペクトルの振幅スペクトルは、雑音抑圧振幅成分の他の一例である。
比較部15は、連続する二つのフレーム間で、差分周波数スペクトルの振幅スペクトルを比較する。例えば、比較部15は、次式に従って周波数fごとに二つのフレームの振幅成分の比r(f)を比較値として算出する。
Figure 0006668995
ここで、|Xt(f)|は、現フレームにおける、差分周波数スペクトルの振幅スペクトルであり、|Xt-1(f)|は、直前のフレームにおける、差分周波数スペクトルの振幅スペクトルである。なお、比較部15は、|Xt-1(f)|を、バッファ18から読み込んで比r(f)の算出に利用すればよい。
比較部15は、フレームごとに、そのフレームと直前のフレームとの間で算出した周波数ごとの比r(f)をゲイン算出部16へ出力する。
ゲイン算出部16は、各フレームについて、比r(f)に基づいて、周波数ごとに補正ゲインを算出する。本実施形態においても、ゲイン算出部16は、例えば、(4)式に従って周波数ごとに補正ゲインを算出すればよい。そしてゲイン算出部16は、フレームごとに、各周波数の補正ゲインを補正部17へ出力する。
補正部17は、各フレームについて、周波数ごとに、差分周波数スペクトルの振幅スペクトルに含まれる、周波数ごとの振幅成分に対して、対応する補正ゲインを乗じることで、周波数ごとに振幅成分を補正する。これにより、補正部17は、補正された振幅スペクトルを得る。そして補正部17は、各フレームについて、補正された振幅スペクトルを周波数時間変換部19へ出力する。
周波数時間変換部19は、フレームごとに、差分周波数スペクトルのうちの補正された振幅スペクトルと差分周波数スペクトルの位相スペクトルとを合成することで、補正された差分周波数スペクトルを求める。そして周波数時間変換部19は、補正された差分周波数スペクトルを周波数時間変換して時間領域の信号に変換することにより、フレームごとの補正された差分音声信号を得る。なお、この周波数時間変換は、時間周波数変換部12により行われる時間周波数変換の逆変換である。
周波数時間変換部19は、フレームごとの補正された差分音声信号を合成部20へ出力する。
合成部20は、時間順(すなわち、再生順)に連続するフレームごとの補正された差分音声信号を、フレーム長の1/2ずつずらして加算することにより、補正差分音声信号を算出する。そして合成部20は、補正差分音声信号を出力する。
図7は、第2の実施形態による雑音抑圧処理の動作フローチャートである。雑音抑圧装置41は、以下の動作フローチャートに従って、雑音抑圧処理を実行する。
窓処理部11は、第1及び第2の音声信号のそれぞれを、連続するフレームが1/2フレーム長ずつ重なるようにフレームごとに分割し、各フレームに対してハニング窓関数を乗じる(ステップS201)。時間周波数変換部12は、第1及び第2の音声信号のそれぞれについて、各フレームについて時間領域から周波数領域へ変換することで第1及び第2の周波数スペクトルを算出する(ステップS202)。
同期減算部21は、各フレームについて、第1の周波数スペクトルから第2の周波数を所定の遅延量だけ遅延させたものを減算して、差分周波数スペクトルを算出する(ステップS203)。
比較部15は、各フレームについて、そのフレームと直前のフレームとの間で、差分周波数スペクトルの周波数ごとの振幅成分の比r(f)を算出する(ステップS204)。そしてゲイン算出部16は、各フレームについて、比r(f)に基づいて周波数ごとに補正ゲインを算出する(ステップS205)。その際、ゲイン算出部16は、比r(f)が閾値未満となる周波数について補正ゲインの値が1よりも大きくなるように、各周波数の補正ゲインを算出する。補正部17は、各フレームについて、周波数ごとに、差分周波数スペクトルの振幅成分に対応する補正ゲインを乗じることで、補正された振幅スペクトルを算出する(ステップS206)。
周波数時間変換部19は、各フレームについて、補正された振幅スペクトルと位相スペクトルとを合成して補正された差分周波数スペクトルを算出する。そして周波数時間変換部19は、補正された差分周波数スペクトルを周波数時間変換して時間領域の信号に変換することにより、フレームごとの補正された差分音声信号を得る(ステップS207)。そして合成部20は、各フレームの補正された差分音声信号を、一つ前のフレームの補正された音声信号に対してフレーム長の1/2だけずらして加算することで補正差分音声信号を算出する(ステップS208)。
その後、雑音抑圧装置41は、雑音抑圧処理を終了する。
以上に説明してきたように、第2の実施形態による雑音抑圧装置も、連続する二つのフレーム間で、差分周波数スペクトルの振幅スペクトルを比較して、その差が比較的大きい周波数について、その差が小さくなるように補正ゲインを算出する。そしてこの雑音抑圧装置は、その補正ゲインを用いて、差分周波数スペクトルの振幅スペクトルを補正する。これにより、この雑音抑圧装置は、雑音となる、同乗者からの音声が非常に大きい場合でも、同乗者の音声に相当する雑音成分を抑制しつつ、補正音声信号において歪みが生じることを抑制できる。
なお、第2の実施形態の変形例によれば、比較部15は、各フレームの第1の周波数スペクトルの振幅スペクトルを用いて、比r(f)を算出してもよい。この場合には、比較部15は、次式に従って周波数ごとの比r(f)を比較値として算出すればよい。
Figure 0006668995
ここで、|X1t pre(f)|は、現フレームにおける、第1の周波数スペクトルの振幅スペクトル(すなわち、時間周波数変換部12から出力され、比較部15に直接入力されたもの)である。また|X1t-1 pre(f)|は、現フレームの一つ前のフレームにおける、第1の周波数スペクトルの振幅スペクトルである。なお、比較部15は、(10)式に従って比r(f)を算出するために、|X1t pre(f)|を1/2フレーム長に相当する時間だけ遅延させる遅延回路を有していてもよい。
この変形例によれば、比r(f)は、差分により影響を受ける前の第1の周波数スペクトル自身の振幅スペクトルに基づいて算出されるので、雑音抑圧装置は、音源とマイクロホン間などで発生する歪みが生じる周波数をより高精度で判定できる。そのため、ゲイン算出部16は、(4)式における補正係数βの値を、第2の実施形態におけるβの値よりも大きくしてもよい。
さらに他の変形例によれば、比較部15は、(9)式に従って連続フレーム間の差分周波数スペクトルの振幅スペクトルの比を算出するとともに、(10)式に従って連続フレーム間の第1の周波数スペクトルの振幅スペクトルの比を算出してもよい。ここでは、便宜上、(9)式に従って算出される、連続フレーム間の差分周波数スペクトルの振幅スペクトルの比をr'(f)で表し、(10)式に従って算出される連続フレーム間の第1の周波数スペクトルの振幅スペクトルの比をr(f)で表す。
そしてゲイン算出部16は、周波数ごとの比r(f)と比r'(f)との比較により、周波数ごとに補正ゲインを算出してもよい。例えば、ゲイン算出部16は、(7)式に従って、周波数ごとの補正ゲインを算出すればよい。
この変形例では、同期減算の前後で、連続するフレーム間の振幅成分の比が相対に大きく変動する周波数が検出され、その周波数について補正ゲインが1よりも大きな値に設定される。したがって、この変形例によれば、雑音抑圧装置は、同期減算により、振幅成分が過度に変動する周波数を高精度で特定することができ、その周波数の雑音抑圧後の振幅成分についてフレーム間での差が小さくなるように補正できる。そのため、この変形例による雑音抑圧装置は、同期減算による過度な雑音の抑圧により、補正差分音声信号において歪みが生じることを抑制できる。
さらに、上記の第1の実施形態において、比較部15は、現フレームにおける雑音抑圧後の振幅スペクトルから直前のフレームにおける雑音抑圧後の振幅スペクトルを減じて得られる差を比較値として算出してもよい。そしてゲイン算出部16は、その差が所定の閾値よりも大きくなる周波数について、1よりも大きな値となる補正ゲインを算出してもよい。同様に、他の実施形態においても、比較部15は、現フレームにおける差分周波数スペクトルから直前のフレームにおける差分周波数スペクトルを減じて得られる差を比較値として算出してもよい。あるいはまた、比較部15は、現フレームにおける雑音抑圧前の振幅スペクトルから直前のフレームにおける雑音抑圧前の振幅スペクトルを減じて得られる差を比較値として算出してもよい。そしてゲイン算出部16は、その差が所定の閾値よりも大きくなる周波数について、1よりも大きな値となる補正ゲインを算出してもよい。
さらに、上記の各実施形態または各変形例について、比較部15は、現フレームの振幅スペクトルを、直前のフレームの振幅スペクトルだけでなく、直後のフレームの振幅スペクトルと比較してもよい。この場合、比較部15は、直後のフレームの振幅スペクトルが得られるまで、現フレームの振幅スペクトルを一旦バッファ18に保存する。そして比較部15は、(3)式、(6)式、(9)式または(10)式において、直前のフレームの振幅スペクトルの代わりに直後のフレームの振幅スペクトルを使用して、比r(f)を算出すればよい。なお、便宜上、直前のフレームの振幅スペクトルと現フレームの振幅スペクトルの比をr1(f)とし、直後のフレームの振幅スペクトルと現フレームの振幅スペクトルの比をr2(f)とする。
この場合、ゲイン算出部16は、例えば、r1(f)またはr2(f)の一方が、所定の閾値未満となる周波数について、補正ゲインの値が1よりも大きくなるように補正ゲインを算出してもよい。さらに、ゲイン算出部16は、r1(f)及びr2(f)の両方が所定の閾値(例えば、2〜3)よりも高く周波数について、補正ゲインの値が1よりも小さくなるように補正ゲインを算出してもよい。これにより、雑音抑圧装置は、歪みが生じる周波数をより精度良く検出できるので、より適切に補正後の歪みを抑制できる。
さらに他の変形例によれば、窓処理部11は、連続する二つのフレームが重なる部分の長さを、1/2フレーム長以外、例えば、3/4フレーム長あるいは7/8フレーム長などに設定してもよい。この場合、窓処理部11は、フレームごとの補正音声信号をその重なる部分の長さだけずらして加算したときに、歪みが生じないように、連続する二つのフレームが重なる部分の長さに応じた窓関数を各フレームに乗じればよい。
また、フレームごとの補正音声信号あるいは補正差分音声信号に基づいて音声認識処理が行われてもよい。そしてフレームごとの補正音声信号あるいは補正差分音声信号から、音声認識用の特徴量、例えば、ピッチ周波数、パワー、及び、ケプストラム係数などが算出されてもよい。この場合、これらの特徴量が、例えば、隠れマルコフモデルに基づく音声認識用の識別器に入力されることにより音声が認識される。そのため、上記の各実施形態または変形例による雑音抑圧装置において、合成部20は省略されてもよい。また、窓処理部11は、ハニング窓以外の窓関数、例えば、ハミング窓を用いてもよい。
さらに、上記の各実施形態または変形例による雑音抑圧装置は、音声を集音する様々な装置、例えば、携帯電話機、テレビ会議システム、あるいは、音声を認識してその認識結果に応じた処理を実行する様々な装置に用いられてもよい。また、上記の各実施形態または変形例による雑音抑圧装置の各部が有する機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。なお、この記録媒体には、搬送波は含まれない。
図8は、上記の何れかの実施形態またはその変形例による雑音抑圧装置の各部の機能を実現するコンピュータプログラムが動作することにより、雑音抑圧装置として動作するコンピュータの構成図である。
コンピュータ100は、ユーザインターフェース部101と、オーディオインターフェース部102と、通信インターフェース部103と、記憶部104と、記憶媒体アクセス装置105と、プロセッサ106とを有する。プロセッサ106は、ユーザインターフェース部101、オーディオインターフェース部102、通信インターフェース部103、記憶部104及び記憶媒体アクセス装置105と、例えば、バスを介して接続される。
ユーザインターフェース部101は、例えば、キーボードとマウスなどの入力装置と、液晶ディスプレイといった表示装置とを有する。または、ユーザインターフェース部101は、タッチパネルディスプレイといった、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部101は、例えば、ユーザの操作に応じて、オーディオインターフェース部102を介して入力される音声信号に対する雑音抑圧処理を開始する操作信号をプロセッサ106へ出力する。
オーディオインターフェース部102は、コンピュータ100に、マイクロホンなどの音声信号を生成する音声入力装置と接続するためのインターフェース回路を有する。そしてオーディオインターフェース部102は、音声入力装置から音声信号を取得して、その音声信号をプロセッサ106へ渡す。
通信インターフェース部103は、コンピュータ100を、イーサネット(登録商標)などの通信規格に従った通信ネットワークに接続するための通信インターフェース及びその制御回路を有する。そして通信インターフェース部103は、通信ネットワークに接続された他の機器から、音声信号を含むパケットを取得し、プロセッサ106へ渡す。また通信インターフェース部103は、プロセッサ106から受け取った、雑音が抑圧された音声信号を含むパケットを通信ネットワークを介して他の機器へ出力してもよい。
記憶部104は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部104は、プロセッサ106上で実行される、雑音抑圧処理を実行するためのコンピュータプログラム、及びこれらの処理の途中または結果として生成される様々なデータを記憶する。
記憶媒体アクセス装置105は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体107にアクセスする装置である。記憶媒体アクセス装置105は、例えば、記憶媒体107に記憶されたプロセッサ106上で実行される、雑音抑圧処理用のコンピュータプログラムを読み込み、プロセッサ106に渡す。
プロセッサ106は、上記の各実施形態の何れかまたは変形例による雑音抑圧処理用コンピュータプログラムを実行することにより、オーディオインターフェース部102または通信インターフェース部103を介して受け取った音声信号を補正する。そしてプロセッサ106は、補正した音声信号を記憶部104に保存し、または通信インターフェース部103を介して他の機器へ出力する。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
1、6 音声入力システム
2、2−1、2−2 マイクロホン
3、3−1、3−2 アナログ/デジタル変換器
4、41 雑音抑圧装置
5 通信インターフェース部
11 窓処理部
12 時間周波数変換部
13 雑音推定部
14 雑音抑圧部
15 比較部
16 ゲイン算出部
17 補正部
18 バッファ
19 周波数時間変換部
20 合成部
21 同期減算部
100 コンピュータ
101 ユーザインターフェース部
102 オーディオインターフェース部
103 通信インターフェース部
104 記憶部
105 記憶媒体アクセス装置
106 プロセッサ
107 記憶媒体

Claims (9)

  1. 第1の音声入力部により得られた第1の音声信号を所定の時間長を持つフレームごとに分割し、連続する二つの前記フレームは互いに部分的に重なる分割部と、
    前記フレームごとに前記第1の音声信号を周波数領域へ変換することにより前記第1の音声信号についての第1の周波数スペクトルを算出する時間周波数変換部と、
    前記フレームのそれぞれについて、周波数ごとに前記第1の周波数スペクトルの振幅成分から雑音成分を除去して雑音抑圧振幅成分を算出する雑音抑圧部と、
    連続する二つの前記フレームの組のそれぞれについて、前記第1の周波数スペクトルの周波数ごとの振幅成分同士、または、前記雑音抑圧振幅成分同士を比較することで、周波数ごとの比較値を算出する比較部と、
    連続する二つの前記フレームの組のそれぞれについて、周波数ごとに、当該周波数の前記比較値に応じたゲインを算出するゲイン算出部と、
    連続する二つの前記フレームの組のそれぞれについて、当該組の一方のフレームについての周波数ごとの前記雑音抑圧振幅成分に、対応する前記ゲインを乗じて周波数ごとの補正振幅成分を算出する補正部と、
    前記フレームごとに、周波数ごとの前記第1の周波数スペクトルの位相成分と前記補正振幅成分とから補正周波数スペクトルを算出し、前記補正周波数スペクトルを時間領域へ変換することにより補正された音声信号を算出する周波数時間変換部と、
    を有する雑音抑圧装置。
  2. 前記比較部は、連続する二つの前記フレームの組のそれぞれについて、周波数ごとに、当該組のうちの前のフレームについての前記振幅成分に対する当該組のうちの後のフレームについての前記振幅成分の比、あるいは、当該組のうちの前のフレームについての前記雑音抑圧振幅成分に対する当該組のうちの後のフレームについての前記雑音抑圧振幅成分の比を前記比較値として算出し、
    前記ゲイン算出部は、連続する二つの前記フレームの組のそれぞれについて、前記比較値が所定の閾値未満となる周波数について、当該組のうちの前のフレームについての前記雑音抑圧振幅成分と当該組のうちの後のフレームについての前記雑音抑圧振幅成分の差が小さくなるように前記ゲインを算出する、請求項1に記載の雑音抑圧装置。
  3. 前記フレームごとに、前記音声信号に含まれる、周波数ごとの雑音成分を推定する雑音推定部と、
    前記雑音抑圧部は、周波数ごとに、前記振幅成分から当該周波数の前記雑音成分を減じることで前記雑音抑圧振幅成分を算出する、請求項1または2に記載の雑音抑圧装置。
  4. 前記比較部は、連続する二つの前記フレームの組のそれぞれについて、前記第1の周波数スペクトルの周波数ごとの振幅成分同士を比較することで周波数ごとの前記比較値を算出する、請求項3に記載の雑音抑圧装置。
  5. 前記分割部は、前記第1の音声入力部と異なる位置に設けられた第2の音声入力部により得られた第2の音声信号を前記フレームごとに分割し、
    前記時間周波数変換部は、前記フレームごとに前記第2の音声信号を周波数領域へ変換することにより前記第2の音声信号の第2の周波数スペクトルを算出し、
    前記雑音抑圧部は、前記フレームごとに、前記第1の周波数スペクトルから所定の遅延量だけ遅延させた前記第2の周波数スペクトルを減じることで周波数ごとの前記雑音抑圧振幅成分を算出する、請求項1または2に記載の雑音抑圧装置。
  6. 前記比較部は、連続する二つの前記フレームの組のそれぞれについて、前記第1の周波数スペクトルの周波数ごとの振幅成分同士を比較することで周波数ごとの前記比較値を算出する、請求項5に記載の雑音抑圧装置。
  7. 前記比較部は、連続する二つの前記フレームの組のそれぞれについて、周波数ごとの前記雑音抑圧振幅成分同士の比を前記比較値として算出し、かつ、周波数ごとの前記周波数スペクトルの周波数ごとの前記振幅成分同士の第2の比較値を算出し、
    前記ゲイン算出部は、連続する二つの前記フレームの組のそれぞれについて、前記第2の比較値に対する前記比較値の比が所定の閾値未満となる周波数における前記ゲインを1よりも大きい値に設定する、請求項3または5に記載の雑音抑圧装置。
  8. 第1の音声入力部により得られた第1の音声信号を所定の時間長を持つフレームごとに分割し、連続する二つの前記フレームは互いに部分的に重なり、
    前記フレームごとに前記第1の音声信号を周波数領域へ変換することにより前記第1の音声信号についての第1の周波数スペクトルを算出し、
    前記フレームのそれぞれについて、周波数ごとに前記第1の周波数スペクトルの振幅成分から雑音成分を除去して雑音抑圧振幅成分を算出し、
    連続する二つの前記フレームの組のそれぞれについて、前記第1の周波数スペクトルの周波数ごとの振幅成分同士、または、前記雑音抑圧振幅成分同士を比較することで、周波数ごとの比較値を算出し、
    連続する二つの前記フレームの組のそれぞれについて、周波数ごとに、当該周波数の前記比較値に応じたゲインを算出し、
    連続する二つの前記フレームの組のそれぞれについて、当該組の一方のフレームについての周波数ごとの前記雑音抑圧振幅成分に、対応する前記ゲインを乗じて周波数ごとの補正振幅成分を算出し、
    前記フレームごとに、周波数ごとの前記第1の周波数スペクトルの位相成分と前記補正振幅成分とから補正周波数スペクトルを算出し、前記補正周波数スペクトルを時間領域へ変換することにより補正された音声信号を算出する、
    ことを含む雑音抑圧方法。
  9. 第1の音声入力部により得られた第1の音声信号を所定の時間長を持つフレームごとに分割し、連続する二つの前記フレームは互いに部分的に重なり、
    前記フレームごとに前記第1の音声信号を周波数領域へ変換することにより前記第1の音声信号についての第1の周波数スペクトルを算出し、
    前記フレームのそれぞれについて、周波数ごとに前記第1の周波数スペクトルの振幅成分から雑音成分を除去して雑音抑圧振幅成分を算出し、
    連続する二つの前記フレームの組のそれぞれについて、前記第1の周波数スペクトルの周波数ごとの振幅成分同士、または、前記雑音抑圧振幅成分同士を比較することで、周波数ごとの比較値を算出し、
    連続する二つの前記フレームの組のそれぞれについて、周波数ごとに、当該周波数の前記比較値に応じたゲインを算出し、
    連続する二つの前記フレームの組のそれぞれについて、当該組の一方のフレームについての周波数ごとの前記雑音抑圧振幅成分に、対応する前記ゲインを乗じて周波数ごとの補正振幅成分を算出し、
    前記フレームごとに、周波数ごとの前記第1の周波数スペクトルの位相成分と前記補正振幅成分とから補正周波数スペクトルを算出し、前記補正周波数スペクトルを時間領域へ変換することにより補正された音声信号を算出する、
    ことをコンピュータに実行させるための雑音抑圧用コンピュータプログラム。
JP2016147416A 2016-07-27 2016-07-27 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム Active JP6668995B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016147416A JP6668995B2 (ja) 2016-07-27 2016-07-27 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
EP17178684.1A EP3276621B1 (en) 2016-07-27 2017-06-29 Noise suppression device and noise suppressing method
US15/638,125 US10679641B2 (en) 2016-07-27 2017-06-29 Noise suppression device and noise suppressing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016147416A JP6668995B2 (ja) 2016-07-27 2016-07-27 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2018017865A JP2018017865A (ja) 2018-02-01
JP6668995B2 true JP6668995B2 (ja) 2020-03-18

Family

ID=59258075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016147416A Active JP6668995B2 (ja) 2016-07-27 2016-07-27 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム

Country Status (3)

Country Link
US (1) US10679641B2 (ja)
EP (1) EP3276621B1 (ja)
JP (1) JP6668995B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9978393B1 (en) * 2017-09-12 2018-05-22 Rob Nokes System and method for automatically removing noise defects from sound recordings
CN108156497B (zh) * 2018-01-02 2020-12-18 联想(北京)有限公司 一种控制方法、控制设备及控制系统
CN108831500B (zh) * 2018-05-29 2023-04-28 平安科技(深圳)有限公司 语音增强方法、装置、计算机设备及存储介质
GB2580057A (en) * 2018-12-20 2020-07-15 Nokia Technologies Oy Apparatus, methods and computer programs for controlling noise reduction
CN111477237B (zh) * 2019-01-04 2022-01-07 北京京东尚科信息技术有限公司 音频降噪方法、装置和电子设备
CN110047507B (zh) * 2019-03-01 2021-03-30 北京交通大学 一种声源识别方法及装置
US11146607B1 (en) * 2019-05-31 2021-10-12 Dialpad, Inc. Smart noise cancellation
KR102260216B1 (ko) * 2019-07-29 2021-06-03 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3855423A (en) * 1973-05-03 1974-12-17 Bell Telephone Labor Inc Noise spectrum equalizer
AU721270B2 (en) * 1998-03-30 2000-06-29 Mitsubishi Denki Kabushiki Kaisha Noise reduction apparatus and noise reduction method
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
JP4434813B2 (ja) * 2004-03-30 2010-03-17 学校法人早稲田大学 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
EP2362389B1 (en) * 2008-11-04 2014-03-26 Mitsubishi Electric Corporation Noise suppressor
US9401746B2 (en) * 2012-11-27 2016-07-26 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program
JP6135106B2 (ja) 2012-11-29 2017-05-31 富士通株式会社 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム

Also Published As

Publication number Publication date
US10679641B2 (en) 2020-06-09
EP3276621A1 (en) 2018-01-31
EP3276621B1 (en) 2020-05-13
US20180033448A1 (en) 2018-02-01
JP2018017865A (ja) 2018-02-01

Similar Documents

Publication Publication Date Title
JP6668995B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP4916394B2 (ja) エコー抑圧装置、エコー抑圧方法及びコンピュータプログラム
JP5183828B2 (ja) 雑音抑圧装置
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
JP4753821B2 (ja) 音信号補正方法、音信号補正装置及びコンピュータプログラム
JP5387459B2 (ja) 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム
JP6107151B2 (ja) 雑音抑圧装置、方法、及びプログラム
JP5870476B2 (ja) 雑音推定装置、雑音推定方法および雑音推定プログラム
WO2011111091A1 (ja) 雑音抑圧装置
WO2010058804A1 (ja) ノイズゲート、収音装置及びノイズ除去方法
JP2014168188A (ja) マイク感度差補正装置、方法、プログラム、及び雑音抑圧装置
JPWO2009028023A1 (ja) エコー抑制装置、エコー抑制システム、エコー抑制方法及びコンピュータプログラム
US9747919B2 (en) Sound processing apparatus and recording medium storing a sound processing program
JP2015143811A (ja) 雑音抑圧装置および雑音抑圧方法
JP5982900B2 (ja) 雑音抑制装置、マイクロホンアレイ装置、雑音抑制方法、及びプログラム
JP6794887B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JP2018031897A (ja) 利得調整装置、利得調整方法および利得調整プログラム
WO2020110228A1 (ja) 情報処理装置、プログラム及び情報処理方法
JP2011254420A (ja) 反響消去方法、反響消去装置及び反響消去プログラム
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
JP6439174B2 (ja) 音声強調装置、および音声強調方法
JP7013789B2 (ja) 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
US10109291B2 (en) Noise suppression device, noise suppression method, and computer program product
WO2019035835A1 (en) DETECTION WITH LOW SPEECH COMPLEXITY AND ESTIMATED HEIGHT
JPWO2016038704A1 (ja) 雑音抑圧装置、雑音抑圧方法および雑音抑圧プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190409

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200210

R150 Certificate of patent or registration of utility model

Ref document number: 6668995

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150