JP2009110011A

JP2009110011A - 雑音抑圧方法、雑音抑圧装置、雑音抑圧プログラム

Info

Publication number: JP2009110011A
Application number: JP2008309260A
Authority: JP
Inventors: Sumitaka Sakauchi; 澄宇阪内; Suehiro Shimauchi; 末廣島内; Yoichi Haneda; 陽一羽田; Akitoshi Kataoka; 章俊片岡; Kenichi Furuya; 賢一古家
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2002-08-30
Filing date: 2008-12-04
Publication date: 2009-05-21
Anticipated expiration: 2023-08-21
Also published as: JP4697984B2

Abstract

【課題】雑音抑圧性能を保持したまま処理遅延時間を削減することができる雑音抑圧方法及び装置を提供する。
【解決手段】入力信号を最新のものから所定のサンプル数記憶する手段と、記憶したサンプルの中の最新のサンプル数が予め定めた所定値Ｍに達する毎に、最新のものからＬ個のサンプルによる変換フレームを生成する手段と、生成された変換フレームを周波数領域係数に変換する手段と、周波数領域係数の雑音抑制処理を行う手段と、雑音抑圧済信号を時間領域に変換する手段と、時間領域に変換された信号の最新のものから２Ｍ個のサンプルに時間窓を掛けたものを加算フレームとして生成する手段と、、生成された加算フレーム中の最新でない側のＭ個のサンプルと１フレーム前の加算フレーム中の最新側のＭ個のサンプルを対応するサンプル毎に加算してサンプル数Ｍ個の出力信号を生成する手段と、を備える。
【選択図】図１

Description

この発明は、雑音抑圧方法、雑音抑圧装置、雑音抑圧プログラムに関わり、例えばマイクロホンを用いた音声通信において、音声に重畳してマイクロホンに入力される雑音を抑圧し、音声品質を向上させる技術に関する。

音声信号に雑音信号の重畳した入力信号から、雑音を抑圧し音声信号を強調する従来の技術について特許文献１で提案された方法を例に挙げて説明する。図１１においてマイクロホン１１に入力された入力信号１５はアナログデジタル（Ａ／Ｄ）変換器２１によってデジタル信号に変換された後、周波数帯域分割部２２で複数の帯域に分割される。
その後、入力信号パワー計算部２４で入力信号パワーが計算され、これと平行して雑音パワー推定部３１で雑音パワーが推定される。次いで、損失値計算部３２において、入力信号パワーと雑音パワーから帯域信号中に占める各帯域の雑音比率を求め、この比率に基づいて帯域毎の損失値を決める。次いで、損失値挿入部３３において前記損失を挿入し、雑音を低減した帯域出力信号を得た後、これを時間領域変換部２８で時間信号に変換し、次いで、デジタルアナログ（Ｄ／Ａ）変換器２９でアナログ信号に変換し、雑音の低減した出力信号１７を得る。

一方、特願２００２−１０４３６３で提案した音声処理方法では周波数領域での反響抑圧において、フレームシフト毎に一定数、２Ｎサンプル（Ｎは２以上の整数）からなるフレーム毎に各フレームのデータを時間領域に変換し、２Ｎサンプルの前半部分に窓関数の後半部分を掛け、前フレームの２Ｎサンプルの後半部分に窓関数の前半部分を掛けて足し合わせてオーバーラップ窓掛け演算処理済みの信号を出力する技術が提案されている。

図１２を用いて先願で説明されている周波数領域への変換のためのフレーム生成方法及び周波数領域から時間領域へ逆変換後のオーバーラップ加算処理の概要を説明する。
図１２に示すＩＮＰＵＴは周波数領域変換処理ステップＦＦＴの前段で実行されるフレーム生成ステップ、ＯＵＴＰＵＴは窓掛け演算処理ステップＷＩＮの後段で実行されるオーバーラップ加算処理ステップを示す。入力信号ＩＮＳｉｇはデジタル信号列を示す。デジタル信号列ＩＮＳｉｇは例えば５１２サンプル分の記憶容量を持つメモリに記憶される。メモリは最新のサンプルデータを書き込む際は、その書き込み位置が最も古いサンプルデータが記憶されているアドレスに選定される。従って、メモリに記憶されているサンプルデータは常時最新の５１２個サンプルのデータである。図１２に示すＮＯ．１は最も新しいサンプルデータの番号を示し、ＮＯ．５１２は５１２個前にメモリに記憶されたサンプルデータを示す。Ｋは１回目のフレーム生成ステップ、Ｋ＋１は２回目のフレーム生成処理ステップを示す。

前回ＮＯ．７６８〜ＮＯ．２５６までの５１２個のサンプルデータがメモリに記憶された時点で、これらＮＯ．７６８〜ＮＯ．２５６までの５１２個のデータを読み出し、１フレーム分のサンプルデータとして周波数領域変換ステップＦＦＴに引き渡す、周波数領域変換ステップＦＦＴでは５１２個分のサンプルデータを周波数領域係数に変換し、雑音抑圧ステップＮＲで雑音抑圧処理を施し、時間領域変換ステップＩＦＦＴと窓掛け演算処理ステップＷＩＮを至て窓掛け演算された信号Ｓ１が出力される。

メモリから１フレーム分のサンプルデータが読み出された後、メモリには引き続いて例えば１６ＫＨｚの速度でサンプルデータの書き込みが続けられる。最初の１フレーム分のサンプルデータが読み出された時点から更に２５６個分のサンプルデータＮＯ．２５６〜ＮＯ．１が書き込まれると、メモリの半分の領域のデータが書き換えられる。この時点で２回目の読み出しが実行され、周波数領域変換ステップＦＦＴには前回送られて来たＮＯ．５１２〜ＮＯ．２５６までのデータに続いてＮＯ．２５６〜ＮＯ．１にまでの５１２個のサンプルデータが送り込まれる。２回目に送り込まれた５１２個のサンプルデータは周波数領域変換ステップＦＦＴと、雑音抑圧ステップＮＲと、時間領域逆変換ステップＩＦＦＴを至て窓掛け演算処理ステップＷＩＮでは前回時間領域逆変換ステップＩＦＦＴから出力されたデータの後半部のデータを使って１フレーム分のデータを生成し、その１フレーム分のデータに窓掛け演算を施し、窓掛け演算処理された信号Ｓ２を出力する。

信号Ｓ１とＳ２は１回目のサンプルデータの後半の２５６個分のデータと、２回目のサンプルデータの前半の２５６個分のデータとが重ね合わされ加算されて加算処理された信号ＯＵＴＳｉｇとして出力される。信号ＯＵＴＳｉｇはその後Ｄ／Ａ変換器でアナログ信号に変換されて音声信号に再現される。
上述したように、従来は入力側ではメモリに２５６個のサンプルとデータが書き込まれる毎に１フレーム分のサンプルデータが周波数領域変換処理ステップＦＦＴに送り出されるから、処理遅延は２５６個のサンプルデータを取り込む時間となる。

更に、出力側では２５６個分のデータが出力される毎に前回処理された信号の後半の２５６個データを使って１フレーム分のデータが揃い、この１フレーム分のデータに窓掛け演算を施すから、出力側でも２５６個分の処理遅延が発生することになる。
結局、従来は入力側と出力側の双方で２５６個分のデータを処理する時間が掛かることになり、合計で５１２個分のデータを処理する時間が処理遅延時間となる。サンプリング周波数を１６ＫＨｚとすれば５１２個分のサンプルデータを処理する時間は約３２ｍｓとなる。
特開平９−２５８７９２号公報

従来の方法は、周波数領域毎の雑音抑圧処理であり、各帯域における雑音の比率に見合った損失を挿入して雑音を低減するため、時間領域の処理に比べて精度のよい雑音抑圧が可能である。その代わり、周波数領域に変換するためにフレーム単位の処理を行う必要がある。
すなわち、周波数領域への変換を高速フーリエ変換を用いる場合ＦＦＴ点数に対応するフレーム長Ｌは、時間及び周波数分解能のトレードオフから、１６ＫＨｚのサンプリングの場合で５１２〜１０２４サンプル程度（この値を以後Ｌｏｐｔとする）が最も良く、その場合には５１２〜１０２４サンプルを蓄積するに要する時間３２ｍｓ〜６４ｍｓ程度の遅延時間が発生することになる。

しかし、例えば、最近利用が拡大しているＩＰ網を用いた音声通信の音声入力において上記の雑音抑圧を用いる場合、ネットワークの伝送遅延を含めた一巡遅延が増大し通話品質の劣化を引き起こす。また、ＴＶ会議等のハンズフリー通話において上述の雑音抑圧を併用する場合にも同様に、一巡遅延を増大させるためにエコーが検知されやすくなるという問題も生じる。
処理遅延を少なくするには、周波数領域に変換する際のフレーム長を短くする方法がある。しかし、この方法では周波数分解能が低下し、音声と雑音の分離性能が劣化するために、音声のゆがみや抑圧量の低下が生じる。図１３は、フレーム長（Ｌ＝ＦＦＴ点数）を短くした場合の雑音抑圧処理の性能を比較した計算機シミュレーションの結果である。曲線ａがマイクロホン入力信号（未処理）、曲線ｂがＦＦＴ点数Ｌ＝５１２（最適値）、曲線ｃがＦＦＴ点数Ｌ＝６４で処理した出力信号のパワーを表わす。

前半約１．２秒までの定常部分が雑音区間、後半の山になった部分が音声区間である。ＦＦＴ点数Ｌ＝５１２の出力信号（曲線ｂ）は、雑音区間において約１５ｄＢ程度の抑圧量が確認できる。音声区間ではマイクロホン入力信号（曲線ａ）と処理遅延分（３２ｍｓ）の時間的なずれはあるが、パワーの損失（音声歪み）もほぼ無いことが分かる。これに対し、ＦＦＴ点数Ｌ＝６４とフレーム長Ｌを短くした場合（曲線Ｃ）は、雑音区間において抑圧量が約１０ｄＢ程度に低下している。さらに、音声区間では、パワーに約５ｄＢ程度の差異があり、実際に聴取すると、音声に歪みが発生している。
以上の結果から、フレーム長Ｌを短くして処理遅延を削減する方法によっては性能劣化を招く欠点がある。

本出願人はこれらの欠点を解消するために、特願２００２−２５４０７５号で１フレームの中の極わずかなサンプル（例えば３２個）が更新される毎に、その更新されたサンプルを含む１フレーム分のサンプルを周波数領域係数に変換する処理を施し、わずかなサンプルの個数が更新される時間間隔で周波数領域係数への変換処理を繰り返すことにより処理遅延時間を短くすることができる雑音抑圧方法、雑音抑圧装置、及び雑音抑圧プログラムを提案した。
この先に提案した雑音抑圧方法によれば周波数領域係数への変換処理時間間隔が短くなることにより、処理速度が向上し、処理遅延時間を短くすることが出来た。然し乍ら、その反面、周波数領域係数への変換処理回数が増大する欠点が生じる。

図１４を用いてその様子を説明する。図中Ｘ（０）、Ｘ（１）、Ｘ（２）…Ｘ（Ｎ）はそれぞれ、上記した３２個のサンプルで構成されるデータのブロックを示す。１ブロック分のサンプルが更新される毎に周波数領域係数に変換処理を施す場合、１フレームにＮ個のブロックが存在すると、各ステップ毎にＮ回の乗算と加算を実行しなければならない。周波数領域への変換処理が全て完了するにはＬｏｇＮステップの処理を繰り返さなくてはならない。ＬｏｇＮステップの演算を実行すると、その演算総量はＮＬｏｇＮとなる。因みに処理遅延を従来の１／８にすると演算総量は８倍になる。演算量の増加は電力消費量の増大と、装置実装において小型化、経済化の弊害となる。

この発明の目的は雑音抑圧性能を保持したまま処理遅延を削減することができる雑音抑圧方法、雑音抑圧装置、雑音抑圧プログラムを提案しようとするものである。

この発明の請求項１では、入力信号を最新のものから所定のサンプル数記憶する入力信号記憶ステップと、入力信号記憶ステップで記憶したサンプルの中の最新のサンプル数が予め定めたサンプル数Ｍに達する毎に、記憶した最新のものからＬ個（２Ｍ＜Ｌ）のサンプルによる変換フレームを生成する変換フレーム生成ステップと、変換フレーム生成ステップで生成された変換フレームを周波数領域係数に変換する周波数領域変換ステップと、周波数領域係数の雑音抑圧処理を行う雑音抑圧ステップと、雑音抑圧処理された雑音抑圧済信号を時間領域に変換する時間領域変換ステップと、時間領域に変換された信号の最新のものから２Ｍ個のサンプルに時間窓を掛けたものを加算フレームとして生成する加算フレーム生成ステップと、加算フレームを記憶する加算フレーム記憶ステップと、加算フレーム生成ステップで生成された加算フレーム中の最新でない側のＭ個のサンプルと、加算フレーム記憶ステップで記憶した１フレーム前の加算フレーム中の最新側のＭ個のサンプルを対応するサンプル毎に加算してサンプル数Ｍ個の出力信号を生成する出力信号生成ステップとからなる雑音抑圧方法を提案する。
この発明の請求項２では、請求項１記載の雑音抑圧方法において、Ｍ＝Ｌ／１６であることを特徴とする雑音抑圧方法を提案する。

この発明の請求項３では、入力信号を最新のものから所定のサンプル数記憶する入力信号記憶手段と、入力信号記憶手段に記憶したサンプルの中の最新のサンプル数が予め定めた所定値Ｍに達する毎に、入力信号記憶手段に記憶した最新のものからＬ個（２Ｍ＜Ｌ）のサンプルによる変換フレームを生成する変換フレーム生成手段と、変換フレーム生成手段が生成した変換フレームを周波数領域係数に変換する周波数領域変換手段と、周波数領域係数の雑音抑制処理を行う雑音抑制手段と、雑音抑圧処理された雑音抑圧済信号を時間領域に変換する時間領域変換手段と、時間領域に変換された信号の最新のものから２Ｍ個のサンプルに時間窓を掛けたものを加算フレームとして生成する加算フレーム生成手段と、加算フレーム生成手段が生成した加算フレームを記憶する加算フレーム記憶手段と、加算フレーム生成手段が生成した加算フレーム中の最新でない側のＭ個のサンプルと加算フレーム記憶手段に記憶した１フレーム前の加算フレーム中の最新側のＭ個のサンプルを対応するサンプル毎に加算してサンプル数Ｍ個の出力信号を生成する出力信号生成手段と、を備えた構成としたことを特徴とする雑音抑圧装置を提案する。

この発明の請求項４では、請求項３記載の雑音抑圧装置において、Ｍ＝Ｌ／１６であることを特徴とする雑音抑圧装置を提案する。
この発明の請求項５では、コンピュータが読み取り可能な符号によって記述され、コンピュータに請求項１又は２の何れかに記載の雑音抑圧方法を実行させる雑音抑圧プログラムを提案する。

この発明によれば雑音抑圧性能を保持したまま処理遅延が短い雑音抑圧装置を提供することができる。この結果、例えばＩＰ網を用いた音声通信の通話品質を向上させることができる。

この発明では変換フレーム生成手段は入力信号記憶手段に記憶されている所定のサンプル数のサンプルの中の最新のサンプル数が予め定めた数Ｍに達する毎に入力信号を周波数領域係数に変換するための変換フレームを生成する。
最新のサンプル数ＭをＭ＝３２とすれば変換フレーム生成手段は入力信号記憶手段に記憶されている、５１２サンプルの中の最新のサンプル数が３２サンプルに達する毎に５１２サンプルで構成される変換フレームを生成する。つまり、変換フレーム生成手段は入力信号記憶手段に３２個のサンプルが取り込まれる毎に５１２サンプルで構成される１フレーム分の変換フレームを生成する。３２個のサンプルを蓄積する時間は約２ｍｓであるから、ここでの処理時間は２ｍｓで済むことになる。

２ｍｓの時間間隔で生成された変換フレームの各サンプルデータは周波数領域係数に変換され、周波数領域で雑音抑圧処理が施される。雑音抑圧処理した後の信号を時間領域に逆変換し、次いで加算フレーム生成手段で時間領域に変換した処理済信号の最新（先頭）の値から２Ｎサンプル（６４サンプル）過去までの値を切り取る。その切り取ったフレームに長さ６４点の時間窓（例えばハニング窓）を掛ける。

次に出力信号生成手段で加算フレーム記憶手段に記憶した長さ３２サンプルの１処理ブロック前の加算フレームと、今回生成した現加算フレームの最新の値から３２サンプル過去までの値（長さ３２サンプル）をオーバーラップさせて加算し、出力信号として出力する。今回生成した現加算フレームの後半の３２サンプル分は加算フレーム記憶手段に記憶し、次回のオーバーラップ加算処理に利用する。このオーバーラップ加算処理は３２サンプル分の遅延（２ｍｓ）となり、合計して４ｍｓで済むことになる。

このように、この発明によれば周波数領域に変換する際にＭサンプルを蓄積するに要する時間と、Ｍサンプル分のデータをオーバーラップ加算処理するに要する時間の和はＭサンプルの数を「３２」とした場合、「４ｍｓ」となり、従来の処理遅延時間「３２ｍｓ」と比較して約１／８に削減することができる。
然も、この発明では周波数領域に変換するステップでは５１２サンプルを１フレームとして周波数領域変換手段に投入するから、周波数分解能を充分保ったまま雑音抑圧処理を施すことができる。

更に、この発明によれば周波数領域係数への変換の際に、現変換フレームにおいて新しく更新されたサンプル数Ｍのサンプルを用いて計算する必要のある変換処理過程のデータだけを新規に計算し、１フレーム処理前の変換処理過程で計算済みのデータのうち現変換処理過程で計算するデータと重複するデータについては１フレーム前のデータを用いる演算方法を採るから、演算総量を低減することができる。

図１にこの発明で提案する雑音抑圧方法を実現するための雑音抑圧装置の実施例を示す。図中１００はこの発明で提案する雑音抑圧装置を示す。入力端１０１に入力された入力信号はＡ／Ｄ変換手段１０２でデジタル信号に変換される。ここではこのＡ／Ｄ変換手段１０２がサンプリング周波数１６ＫＨｚで動作するものとして説明する。
Ａ／Ｄ変換手段１０２でデジタル信号に変換された入力信号はこの発明による雑音抑圧装置１００に入力される。この発明による雑音抑圧装置１００は入力信号記憶手段１０３と、変換フレーム生成手段１０４と、周波数領域変換手段１０５と、雑音抑圧手段１０６と、時間領域変換手段１０７と、加算フレーム生成手段１０８と、出力信号生成手段１０９と、加算フレーム記憶手段１１０とによって構成される。

入力信号記憶手段１０３はメモリで構成され、従来の技術の項で説明したように最新の、例えば５１２個のサンプルデータを記憶する。
変換フレーム生成手段１０４は入力信号記憶手段１０３に予め定めたＭ個のサンプルデータを含むＮ個のサンプルデータを１フレームとする変換フレームを生成する。図２に入力信号記憶手段１０３と、変換フレーム生成手段１０４の動作を説明するフローチャートを示す。ステップＳＰ１とＳＰ２で入力信号記憶手段１０３の処理が実行される。ステップＳＰ３で更新されたサンプル数を計数する。ステップＳＰ４でその計数値ｃｏｕｎｔｅｒがＭに達したか否かを判定する。計数値がＭに達するまでステップＳＰ１〜ＳＰ４を繰り返す。計数値がＭに達すると、ステップＳＰ５に分岐し、メモリに記憶されているデータを変換フレームとして周波数変換手段１０５に出力する。出力後、計数値ｃｏｕｎｔｅｒを０に戻し、ステップＳＰ１に戻る。

図３に変換フレームの様子を示す。Ｆ１は前回に生成された変換フレーム、Ｆ２は現在生成された変換フレームを示す。前回生成された変換フレームＦ１と現在生成された変換フレームＦ２は共に、その生成時点で最新のＭ個のサンプルデータを先頭に具備している。図３に示す例ではＭ＝３２とした場合を示す。つまり、変換フレーム生成手段１０４は入力信号記憶手段１０３に３２個のサンプルデータが書き込まれる毎に、その３２個のサンプルデータに続く全てのサンプルデータ（この例では５１２個のサンプルデータ）を入力信号記憶手段１０３から取り込み変換フレームＦ１、Ｆ２、…を生成する。

尚、ここでは先頭から２５６個目までのサンプルデータはそのまま入力信号の値で変換フレーム生成手段１０４に取り込み、それ以下のサンプルデータには「０」を代入した場合を示す。つまり、入力信号を５１２サンプル全てを変換フレームに用いると信号の冗長性の悪影響が発生するため、ここでは半分以下の長さには「０」を代入する。
変換フレーム生成手段１０４で生成された変換フレームＦ１、Ｆ２、…は３２サンプルの処理遅延時間（この例では２ｍｓ）の時間間隔で周波数領域変換手段１０５に引き渡され周波数領域係数に変換される。周波数領域変換手段１０５は例えば高速フーリエ変換を用いることができる。

図４にこの発明で提案する演算量を削減することができる周波数領域変換手段１０５の機能構成図を示す。この図では、例として処理フレーム長（ＦＦＴ点数）をＮ、フレームシフト幅Ｍ＝Ｎ／１６の場合を示す。
時間領域のサンプリングデータを周波数領域の離散フーリエ係数にするために、ＬｏｇＮステップの変換処理過程を経る。本発明では、フレームのシフト幅がＭ（＜Ｎ）であることに着目し、１フレーム前に乗算をしたデータを再利用することにより、乗算回数の削減を行う。変換フレームが生成されたとき、そのサンプル中で新規の分はＭ個だけで、残りのＮ−Ｍ個はシフトしただけで同じデータである。すなわち、１フレーム処理前に乗算して生成した値（データ）をメモリに記憶しておき、乗算せずにコピーして用いる。すると、第１変換処理過程（第１ステップ）ではＮ−Ｍ回、第２ステップではＮ−２Ｍ回、第３ステップではＮ−４Ｍ回という割合で乗算回数の削減が可能となる。

つまり、図４に示す通り、第１ステップでは、３２回、第２ステップでは６４回、第３ステップでは１２８回第４ステップでは２５６回、第５ステップ以降は５１２回の乗算を行なう。この乗算回数は先願の（特願２００２−２５４０７５）方式に比べて第１〜第４ステップでの乗算回数を削減することができる。
次に、雑音抑圧手段１０６で雑音を抑圧する。この雑音抑圧手段としては例えば先に説明した特許文献１に開示された雑音抑圧処理方法を或はその他既存の雑音抑圧方法を適用することができる。本発明は雑音抑圧処理に要する処理遅延時間の削減を主題とし、その一例を図１１を用いて説明したから、ここでは雑音抑圧処理方法に関する説明は省略することにする。
時間領域変換手段１０７は雑音抑圧処理した後の信号を時間領域に逆変換する。

次いで加算フレーム生成手段１０８は時間領域に変換した処理済信号の最新（先頭）の値から６４サンプル過去までの値を切り取る。その切り取ったフレームに長さ６４点の時間窓（例えばハニング窓）を掛ける。
図５を用いてその様子を説明する。図５に示すオーバーラップ加算処理ステップＯＵＴＰＵＴにおいて、ＤＡＴ１−１とＤＡＴ１−２は加算フレーム生成手段１０８の処理により前フレームの先頭から６４サンプルを切り取ったフレームに６４点のハニング窓を掛けて生成した加算フレームを示す。またＤＡＴ２−１とＤＡＴ２−２はそれぞれ自己のフレームと次のフレームの処理が終了するまで加算フレーム記憶手段１１０に記憶される。

出力信号生成手段１０９では、今回加算フレーム生成手段１０８が生成した加算フレームの中の前半の加算フレームＤＡＴ２−１と前フレームで生成された後半の加算フレームＤＡＴ１−２とを加算し、出力信号として出力する。今回生成された加算フレームＤＡＴ２−２は次フレームで生成される加算フレームとの加算処理に使用される。
このオーバーラップ加算処理時に、ここでは３２サンプル分の処理遅延が発生する。加算処理された出力信号ｄ（Ｋ）（図１参照）はＤ／Ａ変換手段１１１でアナログ信号に変換し、出力端子１１２から出力される。

以上の説明から明らかなように、この発明によれば入力信号記憶手段１０３に予め定めた３２サンプルが取り込まれる間の時間（２ｍｓ）と、出力側で行われるオーバーラップ加算処理により発生する処理遅延（２ｍｓ）との和（４ｍｓ）が全ての処理遅延時間となる。この結果、５１２サンプルを単位として処理する場合と比較して処理遅延は１／８に削減することができる。上述では予め定めたＮサンプルの値を３２サンプルとした場合を説明したが、この発明では３２サンプルに限られるものでなく１サンプルまで削減することができる。然も、周波数領域への変換は５１２サンプル毎に処理する場合と同じであるため、音声歪みの発生や雑音抑圧量の低下も殆ど見られない。尚、処理遅延時間の削減は、単位サンプル時間に対する演算処理量とのトレーとオフの関係にある。

図６は本発明による雑音抑圧方法を実行した場合の計算機シミュレーションの実験結果である。図中点線で示す曲線ａは変換フレームＦ１、Ｆ２、…（図３参照）の５１２個のサンプルの全てに入力信号の値を用いて処理した場合（この処理条件を条件Iとする）の雑音区間の特性と音声及び雑音区間の特性を示す。
曲線ｂは変換フレームＦ１、Ｆ２、…の最新側の半分のサンプル（２５６個）だけに入力信号の値を用い、過去の半分のサンプル（２５６個）に「０」を代入して処理した場合（この条理条件を条件IIとする）を示す。
また、曲線ｃはマイクロホンの生の入力信号、曲線ｄは従来の雑音抑圧方法（１フレーム５１２サンプル）で処理した特性を示す。尚、曲線ａとｂは音声区間では共に重なり合っており、図では曲線ｂの線種のみを表示している。

図６から分かることは曲線ａ及びｂは共にマイクロホン入力信号との時間的なずれはなく、現実には４ｍｓの遅れがあるものの、曲線ｄで示す従来の方法と比較すると明らかなようにマイクロホン入力信号によく追従していることが分かる。
また音声区間においては曲線ａ及びｂはパワーがマイクロホン入力信号とほぼ一致し、聴取においても音声歪みは殆ど発生していない。しかし、雑音区間において曲線ａは抑圧量が僅かに低下しており、聴取の結果、残留雑音に高周波が重畳していることが確認された。これに対し曲線ｂは、従来方式と抑圧量も同等であり、聴取においても残留雑音に対して不自然さの発生もなかった。以上の結果から、曲線ｂが得られる処理条件IIが音声品質と雑音抑圧性能を保持したまま、処理遅延を削減していることが確認できる。

上述したこの発明による雑音抑圧方法はコンピュータが読み取り可能な記号によって記述されたプログラムによってコンピュータ上で実行される。プログラムは磁気記録媒体或はＣＤ−ＲＯＭのようなコンピュータが読み取り可能な記録媒体からコンピュータにインストールされるか、或は通信回線を通じてコンピュータにインストールされ、ＣＰＵの解読によってこの発明の雑音抑圧方法が実行される。

図７乃至図１０に、この発明の実用例を示す。図７はこの発明を雑音抑圧機能付き音声通信システムに応用した場合を示す。Ａ地点の話者の音声には周囲雑音が重畳しマイクロホン２０２に入力される。この入力信号を本発明による雑音抑圧装置２００（ここでは図１に示したＡ／Ｄ変換手段１０２とＤ／Ａ変換手段１１１を含む）に入力し雑音を抑圧して出力し、コーデック２０３に入力する。次いでネットワーク通信機能２０４を介しネットワーク２０５に接続し、Ｂ地点、Ｃ地点、Ｄ地点の話者に雑音を抑圧した音声を送信することが可能となる。

図８はこの発明を雑音抑圧機能付きハンズフリー通話装置に適用した場合を示す。ライン入力２０７に受信した相手側の音声はスピーカ２０１から拡声されエコーとなりマイクロホン２０２に収音される。エコーはエコーキャンセラ３０１で消去し、周囲雑音は雑音抑圧装置２００で抑圧し、ライン出力２０８からはエコーや雑音のない音声を相手側に送信可能となる。

図９はこの発明を音声認識システムに適用した応用例を示す。この場合には話者が話した認識すべき音声にノイズが重畳し、マイクロホン２０２に入力される。この入力信号をこの発明による雑音抑圧装置２００に入力し、雑音を抑圧して音声認識処理装置２０５に入力する。雑音を抑圧することにより認識音声の話頭切り出し、認識率の向上が可能となる。

図１０はこの発明を補聴器に適用した応用例を示す。この場合には話者が話した音声に雑音が重畳し、マイクロホン２０２に入力される。この入力信号を本発明による雑音抑圧装置２００に入力し、雑音を抑圧して出力し、補聴処理部２０９に入力し、イヤホン２１０を駆動する。雑音を抑圧することにより、ＳＮ比の改善された明瞭で大音量の音声が受聴可能となる。

この発明の一実施例を説明するためのブロック図。図１に示した入力信号記憶手段と変換フレーム生成手段の動作を説明するためのフローチャート。この発明の要部の動作を説明するための図。この発明の更に他の要部の動作を説明するための図。この発明の更に他の要部の動作を説明するための図。この発明の効果を説明するためのグラフ。この発明を雑音抑圧機能付き音声通信システムに適用した例を示すブロック図。この発明をハンズフリー通話装置に応用した例を示すブロック図。この発明を音声認識システムに応用した例を示すブロック図。この発明を補聴器に適用した場合を示すブロック図。従来の雑音抑圧装置を説明するためのブロック図。従来の雑音抑圧装置の処理遅延量を説明するための流れ図。図１１に示した従来の雑音抑圧装置の雑音抑圧特性を説明するためのグラフ。従来の周波数領域変換手段の演算量を説明するための図。

符号の説明

１００雑音抑圧装置１０７時間領域変換手段
１０１入力端１０８加算フレーム生成手段
１０２Ａ／Ｄ変換手段１０９出力信号生成手段
１０３入力信号記憶手段１１０加算フレーム記憶手段
１０４変換フレーム生成手段１１１Ｄ／Ａ変換手段
１０５周波数領域変換手段１１２出力端
１０６雑音抑圧手段Ｆ１、Ｆ２変換フレーム

Claims

入力信号を最新のものから所定のサンプル数記憶する入力信号記憶ステップと、
前記入力信号記憶ステップで記憶したサンプルの中の最新のサンプル数が予め定めたサンプル数Ｍに達する毎に、記憶した最新のものからＬ個（２Ｍ＜Ｌ）のサンプルによる変換フレームを生成する変換フレーム生成ステップと、
前記変換フレーム生成ステップで生成された変換フレームを周波数領域係数に変換する周波数領域変換ステップと、
前記周波数領域係数の雑音抑圧処理を行う雑音抑圧ステップと、
前記雑音抑圧処理された雑音抑圧済信号を時間領域に変換する時間領域変換ステップと、
前記時間領域に変換された信号の最新のものから２Ｍ個のサンプルに時間窓を掛けたものを加算フレームとして生成する加算フレーム生成ステップと、
前記加算フレームを記憶する加算フレーム記憶ステップと、
前記加算フレーム生成ステップで生成された加算フレーム中の最新でない側のＭ個のサンプルと、前記加算フレーム記憶ステップで記憶した１フレーム前の加算フレーム中の最新側のＭ個のサンプルを対応するサンプル毎に加算してサンプル数Ｍ個の出力信号を生成する出力信号生成ステップと、
からなる雑音抑圧方法。
請求項１記載の雑音抑圧方法において、Ｍ＝Ｌ／１６であることを特徴とする雑音抑圧方法。
入力信号を最新のものから所定のサンプル数記憶する入力信号記憶手段と、
前記入力信号記憶手段に記憶したサンプルの中の最新のサンプル数が予め定めた所定値Ｍに達する毎に、前記入力信号記憶手段に記憶した最新のものからＬ個（２Ｍ＜Ｌ）のサンプルによる変換フレームを生成する変換フレーム生成手段と、
前記変換フレーム生成手段が生成した変換フレームを周波数領域係数に変換する周波数領域変換手段と、
前記周波数領域係数の雑音抑制処理を行う雑音抑制手段と、
前記雑音抑圧処理された雑音抑圧済信号を時間領域に変換する時間領域変換手段と、
前記時間領域に変換された信号の最新のものから２Ｍ個のサンプルに時間窓を掛けたものを加算フレームとして生成する加算フレーム生成手段と、
前記加算フレーム生成手段が生成した加算フレームを記憶する加算フレーム記憶手段と、
前記加算フレーム生成手段が生成した加算フレーム中の最新でない側のＭ個のサンプルと前記加算フレーム記憶手段に記憶した１フレーム前の加算フレーム中の最新側のＭ個のサンプルを対応するサンプル毎に加算してサンプル数Ｍ個の出力信号を生成する出力信号生成手段と、
を備えた構成としたことを特徴とする雑音抑圧装置。
請求項３記載の雑音抑圧装置において、Ｍ＝Ｌ／１６であることを特徴とする雑音抑圧装置。
コンピュータが読み取り可能な符号によって記述され、コンピュータに請求項１又は２の何れかに記載の雑音抑圧方法を実行させる雑音抑圧プログラム。