JP2008219549A

JP2008219549A - 信号処理の方法、装置、及びプログラム

Info

Publication number: JP2008219549A
Application number: JP2007055147A
Authority: JP
Inventors: Akihiko Sugiyama; 昭彦杉山; Masanori Kato; 正徳加藤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-03-06
Filing date: 2007-03-06
Publication date: 2008-09-18
Also published as: US20080219473A1

Abstract

【課題】本発明の目的は、複数の端末を対象とした多地点接続において、送信側端末における雑音抑圧機能の有無及び性能にかかわらず、受信側端末に対して高音質の混合信号を供給することのできる信号処理の方法、装置、及びプログラムを提供することである。
【解決手段】複数の端末から受けた信号を混合する直前、又は混合した後に雑音抑圧を行うことを特徴とする。
【選択図】図１

Description

本発明は、所望の音声信号に重畳されている雑音を抑圧する機能を実現する信号処理の方法、装置及びプログラム、特に多地点接続装置における雑音抑圧を実行する信号処理の方法、装置、及びそのプログラムに関する。

複数地点間を相互に接続し、遠隔地の参加者が参加して会議を行うことができる遠隔会議システムが広く利用されている。遠隔会議システムとしては、例えば、特許文献１に記載されている方式がある。遠隔会議システムは、図19に示すように、各地点に分散して配置される会議端末7510、7520、7530、7540、7550及び9510、9520、9530、9540、9550並びに会議端末間でのデータ交換を制御する多地点接続装置（ＭＣＵ：Multipoint Control Unit）8000を備えている。多地点接続装置8000は、各端末から供給された信号を混合して、全端末に分配する。混合に際しては、分配先の端末から供給された信号だけを除外する。例えば、端末7510へ分配する信号は、端末7520、7530、7540、7550、9510、9520、9530、9540、及び9550から供給された信号を混合したものとなる。

図20に、多地点接続装置8000の構成例を示す。図20では、４地点を接続する例を示してあるが、任意の数の地点を接続する構成とすることができる。図20において、第１から第４の地点に設置された端末から受けた受信信号が、入力端子901、902、903、904にそれぞれ供給される。これらの受信信号は、受信部931、932、933、934において復調され、さらに復号部921、922、923、924において復号される。復号信号は、さらに混合部8010に供給される。混合部8010は、これらの復号信号のうち、混合した信号を送出する対象となる地点以外からの復号信号を混合して、４地点に対応した混合信号を生成する。例えば、入力端子901に接続された端末へ分配する混合信号が、出力端子701に供給されるとする。このとき、混合部8010は入力端子902、903、904に供給された信号に対応した復号信号を復号部922、923、924から受け、これらを混合して符号化部721に供給する。符号化部721は、供給された混合信号を符号化し、送信部731に伝達する。送信部731は、符号化された信号に変調などの処理を適用し、出力端子701に伝達する。混合部8010は、単に複数の信号を混合するだけでなく、予め定められた様々なメディア処理（画像処理、音声処理、データ処理など）を適用することもできる。

図21に、端末7510、7520、7530、7540、7550、9510、9520、9530、9540、9550の第１の構成例を示す。これらの端末は同一の構成とすることができるので、以降、端末7510を例として説明する。端末7510は、雑音抑圧部710、符号化部720、送信部730、受信部930、及び復号部920を含む。雑音抑圧部710には入力端子700から入力信号が供給される。一般的な携帯電話では、入力端子700にはマイクロフォンによって捕捉した信号(マイクロフォン信号)が供給される。マイクロフォン信号は、音声そのものと背景雑音から構成され、雑音抑圧部710は、背景雑音だけを抑圧し、音声はできる限りそのままに保ち、雑音抑圧音声として符号化部720へ伝達する。符号化部720は、雑音抑圧部710から供給された雑音抑圧音声を、CELPなどの符号化方式に基づいて、符号化する。符号化された情報は送信部730に伝達され、変調・増幅などされた後、伝送路800へ供給される。すなわち、送信端末7510は、雑音抑圧処理の後で音声符号化などの処理を行い、信号を伝送路に送出する。受信部930は、伝送路800から受けた信号を復調し、ディジタル化した後に、復号部920に伝達する。復号部920は、受信部930から受けた信号を復号し、可聴信号を出力端子900に伝達する。出力端子900で得られる信号はスピーカに供給され、可聴信号として再生される。

雑音抑圧部710は一般的にノイズサプレッサ（雑音抑圧システム）として知られており、所望の音声信号に重畳されている雑音(ノイズ)を抑圧する。一般的に、周波数領域に変換した入力信号を用いて雑音成分のパワースペクトルを推定し、この推定パワースペクトルを入力信号から差し引くことにより、所望の音声信号に混在する雑音を抑圧するように動作する。雑音成分のパワースペクトルを継続的に推定することにより、非定常な雑音の抑圧にも適用することができる。ノイズサプレッサとしては、例えば、特許文献２に記載されている方式がある。

さらに、演算量を削減した実現として、非特許文献１に記載されている方式がある。

これらいずれの方式も、基本的な動作は等しい。すなわち、入力信号を線形変換で周波数領域に変換し、振幅成分を取り出して周波数成分毎に抑圧係数を計算する。その抑圧係数と各周波数成分における振幅の積と各周波数成分の位相を組み合わせて逆変換して雑音抑圧された出力を得る。このとき、抑圧係数はゼロと１の間の値であり、ゼロなら完全抑圧で出力はゼロ、1なら抑圧なしで入力がそのまま出力される。

図22に、端末7510、7520、7530、7540、7550、9510、9520、9530、9540、9550の第２の構成例を示す。第１の構成例を示す図21との違いは、雑音抑圧部710が存在しないことである。この構成は、端末が雑音抑圧部710を具備していない場合だけではなく、利用者がその機能をオフにしている場合や雑音抑圧部710の抑圧度が不十分な場合にも相当する。このような端末では、所望信号に混入する背景雑音などが十分に抑圧されることなく、そのまま他の端末に伝送される。また、音声の存在しない信号区間に対する符号化効率を高くするために、端末の符号化部720は背景雑音レベルだけを少ない情報量で符号化する不連続伝送(DTX)機能を有することがある。この場合は、端末の復号部920が、伝送された背景雑音レベルに応じた雑音(快適雑音)を発生する機能(CNG)を有している。
特開２０００−８３２２９号公報特開２００２−２０４１７５号公報 2006年5月、プロシーディングス・オブ・アイ・シー・エイ・エス・エス・ピー、(PROCEEDINGS OF ICASSP, VOL.I, PP.473-476, MAY, 2006)、473 〜476 ページ

図22を用いて説明した従来の端末が遠隔会議に用いられると、雑音抑圧部710が存在しないため、会議の参加者の聞く混合信号の音質が低くなる。このため、重要な語句を聞き間違える、或いは長時間の利用で疲労が増すという問題があった。図21に開示された構成の端末が用いられても、雑音抑圧部710の抑圧が不十分な場合や雑音抑圧部710の機能を無効に設定している場合は、同様の問題があった。さらに、快適雑音として付加される雑音のレベルは全ての利用者にとって快適であるとは限らず、雑音レベルが高すぎると感じる利用者もある。

そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、複数の端末を対象とした多地点接続において、送信側端末における雑音抑圧機能の有無及び性能にかかわらず、受信側端末に対して高音質の混合信号を供給することのできる信号処理の方法、装置、及びプログラムを提供することである。

本発明の信号処理の方法、装置、及びプログラムでは、複数の端末から受けた信号を混合する直前に雑音抑圧を行うことを特徴とする。

より具体的には、複数の受信信号を受け、所望の信号に重畳される雑音を抑圧してから、混合部に伝達する複数の雑音抑圧部を備えていることを特徴とする。

また、本発明の信号処理の方法、装置、及びプログラムでは、複数の端末から受けた信号を混合した後に雑音抑圧を行うことを特徴とする。

より具体的には、複数の受信信号を受け、これらを混合してから所望の信号に重畳される雑音を抑圧する雑音抑圧部を備えていることを特徴とする。

本発明では、複数の端末から受けた信号を混合する直前に雑音抑圧を行う。

このため、送信側端末における雑音抑圧機能の有無及び性能にかかわらず、受信側端末に対して高音質の混合信号を供給することができる。

図1は、本発明の最良の実施の形態を示すブロック図である。図1と従来例である図20とは、雑音抑圧部711、712、713、714を除いて同一である。以下、これらの相違点を中心に詳細な動作を説明する。

図１では、図20の復号部921、922、923、924の後処理として、雑音抑圧部711、712、713、714を備えている。雑音抑圧部711、712、713、714は、それぞれ、復号部921、922、923、924から復号信号を受けて、所望の信号に重畳されている雑音及び復号部921、922、923、924内のCNGで付加された雑音を抑圧する。雑音抑圧された信号は、混合部8010に供給される。混合部8010以降の動作は、既に図20を用いて説明したとおりである。入力端子902、903、904に供給された信号が混合され、符号化部721、送信部731で処理されて、出力端子701に伝達される。同様に、出力端子702、703、704に伝達される信号は、それぞれ入力端子902、903、904に供給された信号以外が混合された信号を符号化部と送信部で処理して得られる。

図２に雑音抑圧部711、712、713、714の構成を示す。これらの雑音抑圧部は同一構成とすることが可能なので、これ以降の説明は、雑音抑圧部711を対象として行う。雑音抑圧部711に復号部921から供給された復号信号は、図２の入力端子１に劣化音声信号(所望音声信号と雑音の混在する信号)のサンプル値系列として供給される。劣化音声信号サンプルは、変換部２においてフーリエ変換などの変換を施して複数の周波数成分に分割され、振幅値を用いて求めたパワースペクトルを多重化して、雑音推定部300、雑音抑圧係数生成部600及び乗算器５へ供給される。位相は、逆変換部３に伝達される。雑音推定部300は、劣化音声パワースペクトルを用いて、その中に含まれる雑音のパワースペクトルを複数の周波数成分それぞれに対して推定し雑音抑圧係数生成部600に伝達する。雑音推定の方式の一例としては、過去の信号対雑音比で劣化音声を重み付けて雑音成分とする方式があり、その詳細は特許文献２に記載されている。推定された雑音パワースペクトルの数は、周波数成分の数と等しい。雑音抑圧係数生成部600は、供給された劣化音声パワースペクトルと推定雑音パワースペクトルを用いて、劣化音声に乗算することによって雑音が抑圧された強調音声を求めるための抑圧係数を生成し、これを出力する。抑圧係数は周波数成分毎に求めるので、抑圧係数生成部600の出力は、周波数成分の数と等しい抑圧係数である。雑音抑圧係数生成の一例としては、強調音声の平均二乗パワーを最小化する最小平均二乗短時間スペクトル振幅法が広く用いられており、その詳細は特許文献２に記載されている。周波数別に生成された抑圧係数は、乗算器５に供給される。乗算器５は、変換部２から供給された劣化音声と雑音抑圧係数生成部600から供給された抑圧係数を、各周波数で乗算し、その積を強調音声のパワースペクトルとして逆変換部３に伝達する。逆変換部３は、乗算器５から供給された強調音声パワースペクトルと変換部２から供給された劣化音声の位相を合わせて逆変換を行い、強調音声信号サンプルとして、出力端子４に供給する。これまでの処理ではパワースペクトルを用いた例を説明したが、代わりにその平方根に相当する振幅値を用いることができることは、広く知られている。

図３は、変換部２の構成を示すブロック図である。変換部２はフレーム分割部21、窓がけ処理部22、及びフーリエ変換部23から構成されている。劣化音声信号サンプルは、フレーム分割部21に供給され、K/2サンプル毎のフレームに分割される。ここに、Kは偶数とする。フレームに分割された劣化音声信号サンプルは、窓がけ処理部22に供給され、窓関数w(t)との乗算が行なわれる。第nフレームの入力信号y_n(t)(t=0, 1, ..., K/2-1) に対するw(t)で窓がけされた信号y_n(t)バーは、次式で与えられる。

また、連続する2フレームの一部を重ね合わせ(オーバラップ)して窓がけすることも広く行なわれている。オーバラップ長としてフレーム長の50%を仮定すれば、t=0, 1, ..., K/2-1 に対して、

で得られるy_n(t)バー (t=0, 1, ..., K-1)が、窓がけ処理部22の出力となる。実数信号に対しては、左右対称窓関数が用いられる。また、窓関数は、抑圧係数を1に設定したときの入力信号と出力信号が計算誤差を除いて一致するように設計される。これは、w(t)+w(t+K/2)=1となることを意味する。

以後、連続する2フレームの50%をオーバラップして窓がけする場合を例として説明を続ける。w(t)としては、例えば次式に示すハニング窓を用いることができる。

このほかにも、ハミング窓、ケイザー窓、ブラックマン窓など、様々な窓関数が知られている。窓がけされた出力y_n(t)バーはフーリエ変換部23に供給され、劣化音声スペクトルY_n(k)に変換される。劣化音声スペクトルY_n(k)は位相と振幅に分離され、劣化音声位相スペクトル arg Y_n(k)は逆変換部３に、劣化音声パワースペクトル|Y_n(k)|²は、乗算器５、雑音推定部300、及び雑音抑圧係数生成部600に供給される。

図４は、逆変換部３の構成を示すブロック図である。逆変換部３は逆フーリエ変換部33、窓がけ処理部32、及びフレーム合成部31から構成されている。逆フーリエ変換部33は、乗算器５から供給された強調音声パワースペクトル|X_n(k)|²バーを用いて求めた強調音声振幅スペクトル|X_n(k)|バーをと変換部２から供給された劣化音声位相スペクトル arg Y_n(k)を乗算して、強調音声X_n(k)バーを求める。すなわち、

を実行する。

得られた強調音声X_n(k)バーに逆フーリエ変換を施し、1フレームがKサンプルから構成される時間領域サンプル値系列x_n(t)バー (t=0, 1, ..., K-1)として、窓がけ処理部32に供給し、窓関数w(t)との乗算を行う。第nフレームの入力信号x_n(t) (t=0, 1, ..., K/2-1) に対するw(t)で窓がけされた信号x_n(t)バーは、次式で与えられる。

で得られるy_n(t)バー (t=0, 1, ..., K-1)が、窓がけ処理部32の出力となり、フレーム合成部31に伝達される。フレーム合成部31は、x_n(t)バーの隣接する2フレームからK/2サンプルずつを取り出して重ね合わせ、

によって、強調音声x_n(t)ハットを得る。得られた強調音声x_n(t)ハット (t=0, 1, ..., K-1)が、フレーム合成部31の出力として、出力端子４に伝達される。図３と図４において、変換部と逆変換部で適用する変換をフーリエ変換として説明したが、フーリエ変換に代えて、コサイン変換、アダマール変換、ハール変換、ウェーブレット変換など、他の変換も用いることができることは広く知られている。

図５は、図２の雑音推定部300の構成を示すブロック図である。雑音推定部300は、推定雑音計算部310、重み付き劣化音声計算部320、及びカウンタ330から構成される。雑音推定部300に供給された劣化音声パワースペクトルは、推定雑音計算部310、及び重みつき劣化音声計算部320に伝達される。重みつき劣化音声計算部320は、供給された劣化音声パワースペクトルと推定雑音パワースペクトルを用いて重みつき劣化音声パワースペクトルを計算し、推定雑音計算部310に伝達する。推定雑音計算部310は、劣化音声パワースペクトル、重みつき劣化音声パワースペクトル、及びカウンタ330から供給されるカウント値を用いて雑音のパワースペクトルを推定し、推定雑音パワースペクトルとして出力すると同時に、重み付き劣化音声計算部320に帰還する。

図６は、図５に含まれる推定雑音計算部310の構成を示すブロック図である。更新判定部400、レジスタ長記憶部410、推定雑音記憶部420、スイッチ430、シフトレジスタ440、加算器450、最小値選択部460、除算部470、カウンタ480を有する。スイッチ430には、重みつき劣化音声パワースペクトルが供給されている。スイッチ430が回路を閉じたときに、重みつき劣化音声パワースペクトルは、シフトレジスタ440に伝達される。シフトレジスタ440は、更新判定部400から供給される制御信号に応じて、内部レジスタの記憶値を隣接レジスタにシフトする。シフトレジスタ長は、後述するレジスタ長記憶部410に記憶されている値に等しい。シフトレジスタ440の全レジスタ出力は、加算器450に供給される。加算器450は、供給された全レジスタ出力を加算して、加算結果を除算部470に伝達する。

一方、更新判定部400には、カウント値、周波数別劣化音声パワースペクトル及び周波数別推定雑音パワースペクトルが供給されている。更新判定部400は、カウント値が予め設定された値に到達するまでは常に``1''を、到達した後は入力された劣化音声信号が雑音であると判定されたときに``1''を、それ以外のときに``0''を出力し、カウンタ480、スイッチ430、及びシフトレジスタ440に伝達する。スイッチ430は、更新判定部から供給された信号が``1''のときに回路を閉じ、``0''のときに開く。カウンタ480は、更新判定部から供給された信号が``1''のときにカウント値を増加し、``0''のときには変更しない。シフトレジスタ440は、更新判定部から供給された信号が``1''のときにスイッチ430から供給される信号サンプルを1サンプル取り込むと同時に、内部レジスタの記憶値を隣接レジスタにシフトする。最小値選択部460には、カウンタ480の出力とレジスタ長記憶部410の出力が供給されている。

最小値選択部460は、供給されたカウント値とレジスタ長のうち、小さい方を選択して、除算部470に伝達する。除算部470は、加算器450から供給された劣化音声パワースペクトルの加算値をカウント値又はレジスタ長の小さい方の値で除算し、商を周波数別推定雑音パワースペクトルλ_n(k)として出力する。B_n(k) (n=0, 1, ..., N-1)をシフトレジスタ440に保存されている劣化音声パワースペクトルのサンプル値とすると、λ_n(k)は、

で与えられる。ただし、Nはカウント値とレジスタ長のうち、小さい方の値である。カウント値はゼロから始まって単調に増加するので、最初はカウント値で除算が行なわれ、後にはレジスタ長で除算が行なわれる。レジスタ長で除算が行なわれることは、シフトレジスタに格納された値の平均値を求めることになる。最初は、シフトレジスタ440に十分多くの値が記憶されていないために、実際に値が記憶されているレジスタの数で除算する。実際に値が記憶されているレジスタの数は、カウント値がレジスタ長より小さいときはカウント値に等しく、カウント値がレジスタ長より大きくなると、レジスタ長と等しくなる。

図７は、図６に含まれる更新判定部400の構成を示すブロック図である。更新判定部400は、論理和計算部4001、比較部4004、4002、閾値記憶部4005、4003、閾値計算部4006を有する。図５のカウンタ330から供給されるカウント値は、比較部4002に伝達される。閾値記憶部4003の出力である閾値も、比較部4002に伝達される。比較部4002は、供給されたカウント値と閾値を比較し、カウント値が閾値より小さいときに”1”を、カウント値が閾値より大きいときに”0”を、論理和計算部4001に伝達する。一方、閾値計算部4006は、図６の推定雑音記憶部420から供給される推定雑音パワースペクトルに応じた値を計算し、閾値として閾値記憶部4005に出力する。最も簡単な閾値の計算方法は、推定雑音パワースペクトルの定数倍である。その他に、高次多項式や非線形関数を用いて閾値を計算することも可能である。閾値記憶部4005は、閾値計算部4006から出力された閾値を記憶し、1フレーム前に記憶された閾値を比較部4004へ出力する。比較部4004は、閾値記憶部4005から供給される閾値と図２の変換部２から供給される劣化音声パワースペクトルを比較し、劣化音声パワースペクトルが閾値よりも小さければ``1''を、大きければ``0''を論理和計算部4001に出力する。すなわち、推定雑音パワースペクトルの大きさをもとに、劣化音声信号が雑音であるか否かを判別している。論理和計算部4001は、比較部4202の出力値と比較部4204の出力値との論理和を計算し、計算結果を図６のスイッチ430、シフトレジスタ440及びカウンタ480に出力する。このように、初期状態や無音区間だけでなく、有音区間でも劣化音声パワーが小さい場合には、更新判定部400は”1”を出力する。すなわち、推定雑音の更新が行われる。閾値の計算は各周波数で行われるため、各周波数で推定雑音の更新を行うことができる。

図８は、重みつき劣化音声計算部320の構成を示すブロック図である。重みつき劣化音声計算部320は、推定雑音記憶部3201、周波数別SNR計算部3202、非線形処理部3204、及び乗算器3203を有する。推定雑音記憶部3201は、図５の推定雑音計算部310から供給される推定雑音パワースペクトルを記憶し、1フレーム前に記憶された推定雑音パワースペクトルを周波数別SNR計算部3202へ出力する。周波数別SNR計算部3202は、推定雑音記憶部3201から供給される推定雑音パワースペクトルと図２の変換部２から供給される劣化音声パワースペクトルを用いてSNRを周波数帯域毎に求め、非線形処理部3204に出力する。具体的には、次式に従って、供給された劣化音声パワースペクトルを推定雑音パワースペクトルで除算して周波数別SNRγ_n(k)ハットを求める。

ここに、λ_n-1(k)は1フレーム前に記憶された推定雑音パワースペクトルである。

非線形処理部3204は、周波数別SNR計算部3202から供給されるSNRを用いて重み係数ベクトルを計算し、重み係数ベクトルを乗算器3203に出力する。乗算器3203は、図２の変換部２から供給される劣化音声パワースペクトルと、非線形処理部3204から供給される重み係数ベクトルの積を周波数帯域毎に計算し、重みつき劣化音声パワースペクトルを図５の推定雑音計算部310に出力する。

非線形処理部3204は、多重化された入力値それぞれに応じた実数値を出力する、非線形関数を有する。図９に、非線形関数の例を示す。f₁ を入力値としたとき、図９に示される非線形関数の出力値 f₂
は、

で与えられる。但し、a と b は任意の実数である。

非線形処理部3204は、周波数別SNR計算部3202から供給される周波数帯域別SNRを、非線形関数によって処理して重み係数を求め、乗算器3203に伝達する。すなわち、非線形処理部3204は SNR に応じた1 から 0 までの重み係数を出力する。SNRが小さい時は 1 を、大きい時は 0 を出力する。

図８の乗算器3203で劣化音声パワースペクトルと乗算される重み係数は、SNRに応じた値になっており、SNRが大きい程、すなわち劣化音声に含まれる音声成分が大きい程、重み係数の値は小さくなる。推定雑音の更新には一般に劣化音声パワースペクトルが用いられるが、推定雑音の更新に用いる劣化音声パワースペクトルに対して、SNRに応じた重みづけを行うことで、劣化音声パワースペクトルに含まれる音声成分の影響を小さくすることができ、より精度の高い雑音推定を行うことができる。なお、重み係数の計算に非線形関数を用いた例を示したが、非線形関数以外にも線形関数や高次多項式など、他の形で表されるSNRの関数を用いる事も可能である。

図10は、図２に含まれる雑音抑圧係数生成部600の構成を示すブロック図である。雑音抑圧係数生成部600は、後天的SNR計算部610、推定先天的SNR計算部620、雑音抑圧係数計算部630、音声非存在確率記憶部640、抑圧係数補正部650を有する。後天的SNR計算部610は、入力された劣化音声パワースペクトルと推定雑音パワースペクトルを用いて周波数別に後天的SNRを計算し、推定先天的SNR計算部620と雑音抑圧係数計算部630に供給する。推定先天的SNR計算部620は、入力された後天的SNR、及び抑圧係数補正部650から供給された補正抑圧係数を用いて先天的SNRを推定し、推定先天的SNRとして、雑音抑圧係数計算部630に伝達する。雑音抑圧係数計算部630は、入力として供給された後天的SNR、推定先天的SNR及び音声非存在確率記憶部640から供給される音声非存在確率を用いて雑音抑圧係数を生成し、抑圧係数補正部650に伝達する。抑圧係数補正部650は、入力された推定先天的SNRと雑音抑圧係数を用いて雑音抑圧係数を補正し、補正抑圧係数G_n(k)バーとして出力する。

図11は、図10に含まれる推定先天的SNR計算部620の構成を示すブロック図である。推定先天的SNR計算部620は、値域限定処理部6201、後天的SNR記憶部6202、抑圧係数記憶部6203、乗算器6204、6205、重み記憶部6206、重みつき加算部6207、加算器6208を有する。図10の後天的SNR計算部610から供給される後天的SNRγ_n(k) (k=0, 1, ..., M-1)は、後天的SNR記憶部6202と加算器6208に伝達される。後天的SNR記憶部6205は、第nフレームにおける後天的SNRγ_n(k)を記憶すると共に、第n-1フレームにおける後天的SNRγ_n-1(k)を乗算器6205に伝達する。図10の抑圧係数補正部650から供給される補正抑圧係数G_n(k)バー (k=0, 1, ..., M-1)は、抑圧係数記憶部6203に伝達される。抑圧係数記憶部6203は、第nフレームにおける補正抑圧係数G_n(k)バーを記憶すると共に、第n-1フレームにおける補正抑圧係数G_n-1(k)バーを乗算器6204に伝達する。乗算器6204は、供給されたG_n(k)バーを2乗してG² _n-1(k)バーを求め、乗算器6205に伝達する。乗算器6205は、G² _n-1(k)バーとγ_n-1(k)をk=0, 1, ..., M-1に対して乗算してG² _n-1(k)バーγ_n-1 (k)を求め、結果を重みつき加算部6207に過去の推定SNR 922として伝達する。

加算器6208の他方の端子には−１が供給されており、加算結果γ_n(k)-1が値域限定処理部6201に伝達される。値域限定処理部6201は、加算器6208から供給された加算結果γ_n(k)-1に値域限定演算子P[・]による演算を施し、結果であるP[γ_n(k)-1]を重みつき加算部6207に瞬時推定SNRとして伝達する。ただし、P[x]は次式で定められる。

重みつき加算部6207には、また、重み記憶部6206から重みが供給されている。重みつき加算部6207は、これらの供給された瞬時推定SNR、過去の推定SNR、重みを用いて推定先天的SNRを求める。重みをαとし、ξ_n(k)ハットを推定先天的SNRとすると、ξ_n(k)ハットは、次式によって計算される。

ここに、G² _-1(k)γ_-1(k)バー=1とする。

図12は、図11に含まれる重みつき加算部6207の構成を示すブロック図である。重みつき加算部6207は、乗算器6901、6903、定数乗算器6905、加算器6902、6904を有する。図11の値域限定処理部6201から周波数帯域別瞬時推定SNRが、図11の乗算器6205から過去の周波数帯域別SNRが、図11の重み記憶部6206から重みが、それぞれ入力として供給される。値αを有する重みは、定数乗算器6905と乗算器6903に伝達される。定数乗算器6905は入力信号を−１倍して得られた−αを、加算器6904に伝達する。加算器6904のもう一方の入力としては１が供給されており、加算器6904の出力は両者の和である１−αとなる。１−αは乗算器6901に供給されて、もう一方の入力である周波数帯域別瞬時推定SNR P[γ_n(k)−１] と乗算され、積である(１−α)P[γ_n(k)−１]が加算器6902に伝達される。一方、乗算器6903では、重みとして供給されたαと過去の推定SNRが乗算され、積であるαG² _n-1(k)バーγ_n-1(k)が加算器6902に伝達される。加算器6902は、(１−α)P[γ_n(k)−１]とαG² _n-1(k)バーγ_n-1(k)の和を、周波数帯域別推定先天的SNRとして、出力する。

図13は、図10に含まれる雑音抑圧係数生成部630を示すブロック図である。雑音抑圧係数生成部630は、MMSE STSA ゲイン関数値計算部6301、一般化尤度比計算部6302、及び抑圧係数計算部6303を有する。以下、非特許文献２（非特許文献２： 1984 年12月、アイ・イー・イー・イー・トランザクションズ・オン・アクースティクス・スピーチ・アンド・シグナル・プロセシング、第32巻、第6号(IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING,VOL.32, NO.6, PP.1109-1121, DEC, 1984)、1109〜1121ページ）に記載されている計算式をもとに、抑圧係数の計算方法を説明する。

フレーム番号をn、周波数番号をkとし、γ_n(k) を図10の後天的SNR 計算部610から供給される周波数別後天的SNR、ξ_n(k)ハットを図10の推定先天的SNR計算部620から供給される周波数別推定先天的SNR、q を図10の音声非存在確率記憶部640から供給される音声非存在確率とする。

また、η_n(k) = ξ_n(k)ハット/ (1-q)、 v_n(k) = (η_n(k)γ_n(k))/(1+η_n(k)) とする。MMSE STSA ゲイン関数値計算部6301は、図10の後天的SNR計算部610から供給される後天的SNR γ_n(k)、図10の推定先天的SNR計算部620から供給される推定先天的SNR ξ_n(k)ハット及び図10の音声非存在確率記憶部640から供給される音声非存在確率 qをもとに、周波数帯域毎にMMSE STSAゲイン関数値を計算し、抑圧係数計算部6303に出力する。周波数帯域毎のMMSE STSAゲイン関数値 G_n(k) は、

で与えられる。ここに、I₀(z) は0次変形ベッセル関数、I₁(z) は1次変形ベッセル関数である。変形ベッセル関数については、非特許文献３（非特許文献３： 1985年、数学辞典、岩波書店、374.Gページ）に記載されている。

一般化尤度比計算部6302は、図10の後天的SNR計算部610から供給される後天的SNRγ_n(k)、図10の推定先天的SNR計算部620から供給される推定先天的SNR ξ_n(k)ハット及び図10の音声非存在確率記憶部640から供給される音声非存在確率qをもとに、周波数帯域毎に一般化尤度比を計算し、抑圧係数計算部6303に伝達する。周波数帯域毎の一般化尤度比Λ_n(k) は、

で与えられる。

抑圧係数計算部6303は、MMSE STSA ゲイン関数値計算部6301から供給される MMSE STSA ゲイン関数値G_n(k)と一般化尤度比計算部6302から供給される一般化尤度比Λ_n(k)から周波数帯域毎に抑圧係数を計算し、図10の抑圧係数補正部650へ出力する。周波数帯域毎の抑圧係数G_n(k)バーは、

で与えられる。周波数帯域別にSNRを計算する代わりに、複数の周波数帯域から構成される広い帯域に共通なSNRを求めて、これを用いることも可能である。

図14は、図10に含まれる抑圧係数補正部650を示すブロック図である。抑圧係数補正部650は、最大値選択部6501、抑圧係数下限値記憶部6502、閾値記憶部6503、比較部6504、スイッチ6505、修正値記憶部6506及び乗算器6507を有する。比較部6504は、閾値記憶部6503から供給される閾値と、図10の推定先天的SNR計算部620から供給される推定先天的 SNR を比較し、推定先天的SNRが閾値よりも大きければ``0''を、小さければ``1''をスイッチ6505に供給する。スイッチ6505は、図10の雑音抑圧係数計算部630から供給される抑圧係数を、比較部6504の出力値が``1''のときに乗算器6507に出力し、``0''のときに最大値選択部6501に出力する。すなわち、推定先天的SNRが閾値よりも小さいときに、抑圧係数の補正が行われる。乗算器6507は、スイッチ6505の出力値と修正値記憶部6506の出力値との積を計算し、最大値選択部6501に伝達する。

一方、抑圧係数下限値記憶部6502は、記憶している抑圧係数の下限値を、最大値選択部6501に供給する。最大値選択部6501は、図10の雑音抑圧係数計算部630から供給される抑圧係数、又は乗算器6507で計算された積と、抑圧係数下限値記憶部6502から供給される抑圧係数下限値とを比較し、大きい方の値を出力する。すなわち、抑圧係数は抑圧係数下限値記憶部6502が記憶する下限値よりも必ず大きい値になる。

なお、これまでの実施の形態では、特許文献２に従って、各周波数成分に対して独立に、抑圧係数を計算し、それを用いて雑音抑圧を行う例について説明してきた。しかし、演算量を削減するために、非特許文献１に開示されているように、複数の周波数成分に対して共通の抑圧係数を計算し、それを用いて雑音抑圧を行うこともできる。その場合は、図２の変換部２と雑音推定部300及び雑音抑圧係数生成部600の間に帯域統合部を具備する構成となる。

さらに、非特許文献１にあるように、図２の変換部２の前にオフセット消去部を、変換部２の直後に振幅補正部と位相補正部を具備することにより、周波数領域で高域通過フィルタを形成することもでき、演算量を削減することができる。また、複数の周波数成分に対して共通の抑圧係数を計算する際に、特定の周波数帯域に対応した雑音推定値を補正することもできる。

図15に、雑音抑圧係数生成部600の第２の実施例を示す。図10に示した第１の実施例と比較すると、第２の実施例の雑音抑圧係数生成部600は、抑圧係数補正部650に代えて、抑圧係数補正部651、乗算器660、音声存在確率計算部670、仮出力SNR計算部680を有する。音声存在確率計算部670と仮出力SNR計算部680には、入力として与えられた推定雑音パワースペクトルが供給される。乗算器660には、入力として与えられた劣化音声パワースペクトルと雑音抑圧係数計算部630で求められた抑圧係数が供給される。乗算器660はこれらの積を仮出力信号として求め、仮出力SNR計算部680と音声存在確率計算部670へ伝達する。音声存在確率計算部670は、推定雑音パワースペクトルと仮出力信号を用いて、音声存在確率V_nを求める。音声存在確率の一例として、仮出力信号と推定雑音の比を用いることができる。この比が大きいときには音声存在確率が高く、小さいときには音声存在確率が低い。求めた音声存在確率V_nは、仮出力SNR計算部680と抑圧係数補正部651に供給する。

仮出力SNR計算部680は、推定雑音パワースペクトルと仮出力信号を用いて仮出力SNRを求め、抑圧係数補正部651へ伝達する。仮出力SNRの一例として、仮出力の長時間平均と推定雑音パワースペクトルによる長時間出力SNRを用いることができる。仮出力の長時間平均は、音声存在確率計算部670から供給された音声存在確率V_nの大きさに応じて更新する。求めた仮出力SNRξ_n ^L(k)は、抑圧係数補正部651に供給する。抑圧係数補正部651は、雑音抑圧係数計算部630から受けた抑圧係数G_n(k)バーを、音声存在確率計算部670から受けた音声存在確率V_nと、仮出力SNR計算部680から受けた仮出力SNRξ_n ^L(k)を用いて補正し、補正抑圧係数G_n(k)ハットとして出力すると同時に、推定先天的SNR計算部620に帰還する。

図16に、抑圧係数補正部651の実施例を示す。抑圧係数補正部651は、抑圧係数下限値計算部6512と最大値選択部6511を含む。抑圧係数下限値計算部6512には、仮出力SNRξ_n ^L(k)と音声存在確率V_nが供給されている。抑圧係数下限値計算部6512は、次式に基づいて、関数A(ξ_n ^L(k))と音声区間に対応した抑圧係数最小値f_sを用いて、抑圧係数の下限値A(V_n, ξ_n ^L(k))を計算し、最大値選択部6511に伝達する。

関数A(ξ_n ^L(k))は基本的に、大きなSNRに対して小さな値をとるような形状を有する。A(ξ_n ^L(k))が仮出力SNRξ_n ^L(k)に対応してこのような形状をとる関数であることは、仮出力SNRが高いほど、非音声区間に対応する抑圧係数の下限値が小さくなることを意味する。これは、残留雑音が小さくなることに対応し、音声区間と非音声区間の音質不連続性を低減する効果がある。なお、関数A(ξ_n ^L(k))は全ての周波数成分に対して異なっていてもよいし、複数の周波数成分に対して共有されていてもよい。また、時間と共にその形状が変化することも可能である。

最大値計算部6511は、雑音抑圧係数計算部630から受けた抑圧係数G_n(k)バーと抑圧係数下限値計算部6512を比較して、大きいほうの値を補正抑圧係数G_n(k)ハットとして出力する。この処理は、次式で表すことができる。

すなわち、完全に音声区間と思われる場合はf_sが、完全に非音声区間と思われる場合は仮出力SNRξ_n ^L(k)に応じて単調減少関数で定められる値が、抑圧係数最小値となる。両者の中間と思われる状況では、これらの値が適切に混合される。A(ξ_n ^L(k))の単調減少性によって、低SNR時の大きな抑圧係数最小値が保証され、消し残し雑音の多い直前の音声区間からの連続性が保たれる。高SNRでは、抑圧係数最小値が小さくなり、残留雑音が小さくなるように制御される。これは、音声区間の残留雑音が無視できる程度に小さいので、非音声区間の残留雑音が小さいときも、連続性が保たれるためである。また、f_sをA(ξ_n ^L(k))よりも大きく設定することによって、音声区間あるいはその可能性が高い場合に雑音抑圧が軽度になり、音声に生じる歪を低減することができる。これは、符号化・復号によって生じる歪の混入した音声において雑音推定精度が十分に高くできない場合に、特に有効である。

図17は、本発明の第２の実施の形態を示すブロック図である。図17と最良の実施の形態を表す図１とは、多地点接続装置8000において、雑音抑圧部711、712、713、714が雑音抑圧部1711に置換されている点を除いて同一である。雑音抑圧部1711には、雑音抑圧部711、712、713、714と異なり、混合部8010から混合信号が供給されている。すなわち、各端末からの受信信号に対して雑音抑圧を適用する代わりに、受信信号を混合して得られた混合信号に対して雑音抑圧を適用する。雑音抑圧された信号は、符号化部721で符号化され、送信部731で送信信号に変換された後、出力端子701に伝達される。出力端子702、703、704に伝達される信号についても同様の動作であるが、既に図１を用いて説明したので、詳細を省略する。

図18は、本発明の第３の実施の形態に基づく信号処理装置のブロック図である。本発明の第３の実施形態は、プログラム制御により動作するコンピュータ（中央処理装置；プロセッサ；データ処理装置）1000と、入力端子901、902、903、904、及び出力端子701、702、703、704とから構成されている。コンピュータ1000は、受信部931、932、933、934、復号部921、922、923、924、雑音抑圧部711、712、713、714、混合部8010、符号化部721、722、723、724、送信部731、732、733、734を含む。入力端子901〜904に供給された受信信号は、それぞれ、コンピュータ1000内の受信部931〜934で復調され、さらに復号部921〜924で所望信号と雑音からなる劣化音声が回復される。劣化音声は、雑音抑圧部711〜714において抑圧処理され、所望信号が強調される。強調信号は混合部8010で適切に混合され、対応する信号が符号化部721〜724に供給される。符号化部721〜724で符号化された信号は、それぞれ送信部731〜734で処理され、対応する出力端子701〜704に伝達される。コンピュータ1000は、雑音抑圧部711〜714に代えて雑音抑圧部1741〜1744を含んでもよいし、復号部921〜924及び符号化部721〜724を含まない構成も可能である。雑音抑圧部1741〜1744を含む際は、混合部8010に供給される信号に代えて、混合部8010から出力される信号に対して、それぞれの雑音抑圧部が処理を行う。

これまで説明した全ての実施の形態では、雑音抑圧の方式として、最小平均2乗誤差短時間スペクトル振幅法を仮定してきたが、その他の方法にも適用することができる。このような方法の例として、非特許文献４（非特許文献４： 1979 年12 月、プロシーディングス・オブ・ザ・アイ・イー・イー・イー、第67 巻、第12 号 (PROCEEDINGS OF THE IEEE, VOL.67, NO.12, PP.1586-1604, DEC, 1979)、1586 〜1604 ページ）に開示されているウィーナーフィルタ法や、非特許文献５（非特許文献５： 1979 年4 月、アイ・イー・イー・イー・トランザクションズ・オン・アクースティクス・スピーチ・アンド・シグナル・プロセシング、第27巻、第2号(IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL.27, NO.2, PP.113-120, APR, 1979)、113〜120 ページ）に開示されているスペクトル減算法などがあるが、これらの詳細な構成例については説明を省略する。

本発明の最良の実施の形態を示すブロック図。本発明の最良の実施の形態に含まれる雑音抑圧部の構成を示すブロック図。図２に含まれる変換部の構成を示すブロック図。図２に含まれる逆変換部の構成を示すブロック図。図２に含まれる雑音推定部の構成を示すブロック図。図５に含まれる推定雑音計算部の構成を示すブロック図。図６に含まれる更新判定部の構成を示すブロック図。図５に含まれる重み付き劣化音声計算部の構成を示すブロック図。図８に含まれる非線形処理部における非線形関数の一例を示す図。図２に含まれる雑音抑圧係数生成部の構成を示すブロック図。図10に含まれる推定先天的SNR計算部の構成を示すブロック図。図11に含まれる重み付き加算部の構成を示すブロック図。図10に含まれる雑音抑圧係数計算部の構成を示すブロック図。図10に含まれる抑圧係数補正部の構成を示すブロック図。図２に含まれる抑圧係数生成部の第２の構成を示すブロック図。。図15に含まれる抑圧係数補正部の構成を示すブロック図。本発明の第２の実施の形態を示すブロック図。本発明の第３の実施の形態を示すブロック図。遠隔会議システムを示すブロック図。図19に含まれる多地点接続装置の構成を示すブロック図。図19に含まれる端末の第１の構成例を示すブロック図。図19に含まれる端末の第２の構成例を示すブロック図。

符号の説明

１, 700, 901, 902, 903, 904 入力端子
２変換部
３逆変換部
４, 701, 702, 703, 704, 900 出力端子
５, 660, 3203, 6204, 6205, 6901, 6903, 6507 乗算器
21 フレーム分割部
22, 32 窓がけ処理部
23 フーリエ変換部
31 フレーム合成部
33 逆フーリエ変換部
300 雑音推定部
310 推定雑音計算部
320 重みつき劣化音声計算部
330, 480 カウンタ
400 更新判定部
410 レジスタ長記憶部
420, 3201 推定雑音記憶部
430, 6505 スイッチ
440 シフトレジスタ
450, 6208, 6902, 6904 加算器
460 最小値選択部
470 除算部
600 雑音抑圧係数生成部
610 後天的SNR計算部
620 推定先天的SNR計算部
630 雑音抑圧係数計算部
640 音声非存在確率記憶部
650, 651 抑圧係数補正部
670 音声存在確率計算部
680 仮出力SNR計算部
710, 711, 712, 713, 714, 1711, 1712, 1713, 1714 雑音抑圧部
720, 721, 722, 723, 724 符号化部
730, 731, 732, 733, 734 送信部
800 伝送路
920, 921, 922, 923, 924 復号部
930, 931, 932, 933, 934 受信部
1000 コンピュータ
3202 周波数別SNR計算部
3204 非線形処理部
4001 論理和計算部
4002, 4004, 6504 比較部
4003, 4005, 6503 閾値記憶部
4006 閾値計算部
6201 値域限定処理部
6202 後天的SNR記憶部
6203 抑圧係数記憶部
6206 重み記憶部
6207 重みつき加算部
6301 MMSE STSA ゲイン関数値計算部
6302 一般化尤度比計算部
6303 抑圧係数計算部
6501 最大値選択部
6502 抑圧係数下限値記憶部
6506 修正値記憶部
6511 最大値選択部
6512 抑圧係数下限値計算部
6905 定数乗算器
7510, 7520, 7530, 7540, 9510, 9520, 9530, 9540 端末
8000 多地点接続装置
8010 混合部

Claims

複数の受信信号に対して雑音を抑圧して複数の強調信号を生成し、
該複数の強調信号を異なった組合せで混合して混合信号を生成し、
該混合信号を端末に伝送する
ことを特徴とする信号処理の方法。
前記複数の受信信号を復号してから雑音を抑圧することを特徴とする請求項１に記載の信号処理の方法。
複数の受信信号を異なった組合せで混合して混合信号を生成し、
該混合信号に対して雑音を抑圧して強調信号を生成し、
該強調信号を端末に伝送する
ことを特徴とする信号処理の方法。
前記複数の受信信号を復号してから混合することを特徴とする請求項３に記載の信号処理の方法。
前記強調信号の生成は、
入力信号を周波数領域信号に変換し、
該周波数領域信号の帯域を統合して統合周波数領域信号を求め、
該統合周波数領域信号を用いて推定雑音を求め、
該推定雑音と前記統合周波数領域信号を用いて抑圧係数を定め、
該抑圧係数で前記周波数領域信号を重みづけすることによって、雑音を抑圧する
ことを特徴とする請求項１から請求項４のいずれかに記載の信号処理の方法。
前記推定雑音と前記統合周波数領域信号と前記抑圧係数を用いて、補正抑圧係数を求め、
該補正抑圧係数で前記周波数領域信号を重みづけすることによって、雑音を抑圧する
ことを特徴とする請求項５に記載の信号処理の方法。
入力信号を周波数領域信号に変換し、
該周波数領域信号を用いて推定雑音を求め、
該推定雑音と前記周波数領域信号を用いて抑圧係数を定め、
音声らしい区間では歪が少なくなるように、
非音声らしい区間では残留雑音が少なくなるように、
前記抑圧係数を補正して補正抑圧係数を求め、
該補正抑圧係数で前記周波数領域信号を重みづけすることによって、雑音を抑圧する
ことを特徴とする請求項１から４のいずれかに記載の信号処理の方法。
前記音声らしい区間の平均パワーと前記非音声らしい区間の平均パワーの比を求め、
該比の値が大きいときに前記非音声らしい区間の残留雑音が小さくなるように、
前記補正抑圧係数を求める
ことを特徴とする請求項７に記載の信号処理の方法。
複数の受信信号に対して雑音を抑圧して複数の強調信号を生成する雑音抑圧部と、
該複数の強調信号を異なった組合せで混合して混合信号を生成する混合部と、
該混合信号を端末に伝送する送信部と
を具備することを特徴とする信号処理の装置。
前記複数の受信信号を復号して複数の復号信号を生成する復号器を具備し、
前記複数の復号信号に対して雑音を抑圧することを特徴とする請求項９に記載の信号処理の装置。
複数の受信信号を異なった組合せで混合して混合信号を生成する混合部と、
該混合信号に対して雑音を抑圧して強調信号を生成する雑音抑圧部と、
該強調信号を端末に伝送する送信部と
を具備することを特徴とする信号処理の装置。
前記複数の受信信号を復号して複数の復号信号を生成する復号器を具備し、
前記複数の復号信号を混合することを特徴とする請求項１１に記載の信号処理の装置。
前記雑音抑圧部は、
入力信号を周波数領域信号に変換する変換部と、
該周波数領域信号を用いて推定雑音を求める雑音推定部と、
該推定雑音と前記周波数領域信号を用いて抑圧係数を定める雑音抑圧係数生成部と、
該抑圧係数で前記周波数領域信号を重みづけする乗算器と
を具備することを特徴とする請求項９から請求項１２のいずれかに記載の信号処理の装置。
前記雑音抑圧部は、
前記推定雑音と前記統合周波数領域信号と前記抑圧係数を用いて、補正抑圧係数を求める抑圧係数補正部を具備し、
該補正抑圧係数で前記周波数領域信号を重みづけすることを特徴とする請求項１３に記載の信号処理の装置。
前記雑音抑圧部は、
入力信号を周波数領域信号に変換する変換部と、
該周波数領域信号を用いて推定雑音を求める雑音推定部と、
該推定雑音と前記周波数領域信号を用いて抑圧係数を定める雑音抑圧係数生成部と、
前記推定雑音と前記周波数領域信号と前記抑圧係数を用いて、補正抑圧係数を求める抑圧係数補正部と、
該補正抑圧係数で前記周波数領域信号を重みづけする乗算器と
を具備し、
前記抑圧係数補正部は、音声らしい区間では歪が少なくなるように、非音声らしい区間では残留雑音が少なくなるように、前記抑圧係数を補正する
ことを特徴とする請求項９から請求項１２のいずれかに記載の信号処理の装置。
前記抑圧係数補正部は、
前記音声らしい区間の平均パワーと前記非音声らしい区間の平均パワーの比を求め、
該比の値が大きいときに前記非音声らしい区間の残留雑音が小さくなるように、前記抑圧係数を補正する
ことを特徴とする請求項１５に記載の信号処理の装置。
コンピュータに、
複数の受信信号に対して雑音を抑圧して複数の強調信号を生成する処理と、
該複数の強調信号を異なった組合せで混合して混合信号を生成する処理と、
該混合信号を端末に伝送する処理と
を実行させるための信号処理プログラム。
コンピュータに、
複数の受信信号を異なった組合せで混合して混合信号を生成する処理と、
該混合信号に対して雑音を抑圧して強調信号を生成する処理と、
該強調信号を端末に伝送する処理と
を実行させるための信号処理プログラム。