JP2004525540A

JP2004525540A - 音声通信中に快適ノイズを発生するための方法およびシステム

Info

Publication number: JP2004525540A
Application number: JP2002544707A
Authority: JP
Inventors: ロトラ−プッキラ、ヤニ; ミッコラ、ハッヌ; ヴァイニオ、ヤッネ
Original assignee: ノキアコーポレーション
Priority date: 2000-11-27
Filing date: 2001-11-26
Publication date: 2004-08-19
Anticipated expiration: 2021-11-26
Also published as: DE60122203D1; US20020103643A1; CN1265353C; JP3996848B2; BR0115601A; AU2002218428A1; EP1337999B1; ZA200303829B; ATE336059T1; EP1337999A2; CA2428888A1; CA2428888C; ES2269518T3; US6662155B2; WO2002043048A2; KR20040005860A; DE60122203T2; WO2002043048A3; CN1513168A

Abstract

音声通信における非音声期間中に、快適ノイズ（１５０）を供給するための方法（２００）とシステム（１）。快適ノイズは、音声入力中の背景ノイズが定常的か非定常的かに基づいて（２０６）発生される。背景ノイズが非定常的である場合、ディザリングプロセスを使用することによって、快適ノイズにランダム成分が挿入される（３２、３８、２３２）。背景ノイズが定常的である場合、ディザリングプロセスは使用されない。

Description

【０００１】
［発明の分野］
本発明は概して音声通信に関し、さらに詳しくは不連続送信法（ｄｉｓｃｏｎｔｉｎｕｏｕｓｔｒａｍｓｍｉｓｓｉｏｎ）における快適ノイズ発生に関する。
【０００２】
［発明の背景］
通常の電話の会話中、ある時間において一方のユーザがしゃべり、他方のユーザが聞く。時には、いずれのユーザもしゃべらない。無言の期間は、平均の音声活動性（ｓｐｅｅｃｈａｃｔｉｖｉｔｙ）が５０％を下回る状況を引き起こす。この無言の期間中、背景からの音響ノイズだけが聞こえる。背景ノイズは、普通、何ら情報を与える内容を有しておらず、正確な背景ノイズを送信側（ＴＸ）から受信側（ＲＸ）に伝送する必要はない。移動通信において、不連続伝送法（ｄｉｓｃｏｎｔｉｎｕｏｕｓｔｒａｍｓｍｉｓｓｉｏｎ：ＤＴＸ）として知られる手順は、移動装置の電力を省くために、この事実を利用している。とくにＴＸＤＴＸ機構は、移動局（ＭＳ）から基地局への無線伝送が、移動局における省電力と、無線インタフェースにおける全干渉レベルの低減のために、音声休止中の時間のほとんどの時間に送信を遮断する低状態（ＤＴＸＬｏｗ）を有する。ＤＴＸを用いる際の基本的な問題は、音声期間中の音声に伴う背景音響ノイズが無線伝送が断に切り換えられるときに消え、背景ノイズの不連続を引き起こすことである。ＤＴＸ切り換えが即座に起こり得るので、この現象が聞き手にとってひじょうに不快なものとなり得ることが知られている。そのうえさらに、音声活動性検知器（Ｖｏｉｃｅａｃｔｉｖｉｔｙｄｅｔｅｃｔｏｒ：ＶＡＤ）がノイズをたまたま音声に分類した場合、背景ノイズには、音声合成のあいだに（音声として）再構成される部分もあれば、無通話と扱われる部分もある。
【０００３】
背景ノイズの突然の発生と消滅は非常に邪魔であり不快であるだけでなく、とくに移動車両の内部など、ノイズのエネルギーレベルが高いとき、会話の明瞭度が減少する。この妨害効果を低減するために、送信側の背景ノイズに類似した合成ノイズが受信側で発生される。聴取をより快適にするので、当該合成ノイズは快適ノイズ（ｃｏｎｆｏｒｔｎｏｉｓｅ）と呼ばれる。
【０００４】
受信側が送信側の背景ノイズをシミュレートするために、送信側で快適ノイズパラメータが評価され、無声時情報（ｓｉｌｅｎｃｅｄｅｓｃｕｒｉｐｔｉｏｎ：ＳＩＤ）フレームを用いて受信側に伝送される。この伝送はＤＴＸＬｏｗへ移り変わる前で、かつ移動局で規定される１伝送速度分だけ送れて起こる。ＴＸＤＴＸハンドラＨは、計算するためにパラメータの種類を決定し、音声フレームまたはＳＩＤフレームのいずれを発生するかを決定する。図１は、ＴＸＤＴＸの論理的な動作を記載している。この動作は音声活動性検知器の支援により実行され、現在のフレームが音声を含むか否かを示す。ＶＡＤアルゴリズムの出力は、音声が検知される場合、「真」とマークされるブール（２進数）フラグ（Ｂｏｏｌｅａｎｆｌａｇ）であり、そうでない場合、「偽」とマークされるブールフラグである。また、ＴＸＤＴＸ（ハンドラ）は、音声エンコーダと快適ノイズ発生モジュールとを含んでいる。
【０００５】
ＴＸＤＴＸハンドラーの基本的な動作は、つぎのとおりである。ブール音声（ＳＰ）フラグは、フレームが音声フレームまたはＳＩＤフレームのいずれかを示す。音声期間のあいだ、ＳＰフラグは「真」に設定され、音声フレームが、音声（ないしは音声）符号化アルゴリズムを用いて発生する。ＶＡＤフラグが「偽」に変更される前に、充分に長い期間の音声期間が続くと、ハングオーバ期間（図２参照）が存在する。この期間は背景ノイズパラメータの平均値の計算のために用いられる。ハングオーバ期間のあいだ、通常の音声フレームは、符号化された信号が背景ノイズだけを含んでいても、受信側に伝送される。ＳＰフラグの値は、ハングオーバ期間中「真」のままである。ハングオーバ期間の後、快適ノイズ（ＣＮ）期間が開始する。ＣＮ期間のあいだ、ＳＰフラグは「偽」とマークされ、ＳＩＤフレームが発生する。
【０００６】
ハングオーバ期間のあいだ、各フレームのスペクトルＳと出力レベルＥとが減少される。ハングオーバの後、減少されたパラメータＳ_ａｂｅとＥ_ａｂｅの平均が計算される。平均される期間の長さは、ハングオーバの長さより１フレーム長い。それゆえ、第１の快適ノイズパラメータは、ハングオーバ期間と、その後の第１のフレームからの平均である。
【０００７】
快適ノイズ期間のあいだ、ＳＩＤフレームがフレーム毎に発生するが、すべてが送られるとは限らない。ＴＸ（送信）無線サブシステム（ＲＳＳ）が、ＳＰフラグに基づくＳＩＤフレーム伝送のスケジューリング（ｓｃｈｅｄｕｌｉｎｇ）を制御する。音声期間が終了すると、その後の最初のＳＩＤフレームの後に伝送が遮断される。そののち、１つのＳＩＤフレームが、快適ノイズの推定値を更新するために伝送される。
【０００８】
図３はＲＸ（受信）ＤＴＸの論理的な動作を記載している。受信されたフレーム中にエラーが検知される場合、不良フレーム表示（ＢＦＩ）が「真」に設定される。送信側のＳＰフラグと同様に、受信側のＳＩＤフラグが、受信されたフレームがＳＩＤフレームか、または音声フレームかを示すために使用される。
【０００９】
ＲＸＤＴＸハンドラーは、ＲＸＤＴＸ動作全体のために責任を負っている。当該ＲＸＤＴＸハンドラーは、受信されたフレームが有効なフレームか、無効のフレームか（それぞれ、ＢＦＩ＝０またはＢＦＩ＝１）、および受信されたフレームがＳＩＤフレームか、音声フレームか（それぞれ、ＳＩＤ＝１またはＳＩＤ＝０）を分類する。有効な音声フレームが受信されると、ＲＸＤＴＸハンドラーが、当該有効な音声フレームを直接音声デコーダに渡す。誤った音声フレームが受信されるか、または該フレームが音声期間中に喪失すると、音声デコーダは、音声合成のために最新の良好な音声フレームから音声に関するパラメータを使用し、同時にデコーダは出力信号を徐々に弱めることを開始する。
【００１０】
有効なＳＩＤフレームが受信されると、新たな有効なＳＩＤフレームが受信されるまで、快適ノイズが発生される。しかしながら、受信されたフレームが無効なＳＩＤフレームに分類されると、最後の有効なＳＩＤフレームが使用される。快適ノイズの期間中、デコーダは、送信されていないＳＩＤフレーム間の伝送チャネルノイズを受信する。当該フレームの間の信号を合成するために、快適ノイズの更新の間に以前受信された有効な２つのＳＩＤフレームから挿入されたパラメータによって快適ノイズが発生される。ＲＸＤＴＸハンドラーは、ＣＮ期間のあいだ送信されなかったフレームを無視する。なぜなら、伝送の中断によるものと考えられるからである。
【００１１】
快適ノイズは、背景ノイズから分析された情報を用いて発生される。背景ノイズは、背景ノイズのソース（ｓｏｕｒｃｅ）に依存して、ひじょうにさまざまな特徴を有することができる。それゆえ、すべてのタイプの背景ノイズの特徴を適切に記述する１組のパラメータを見出し、少数のビットを用いて１秒毎に数回伝送され得る一般的な方法はない。音声通信における音声合成は人間の音声発生システムに基づいており、音声合成アルゴリズムは、快適ノイズのために同じ方法で用いることはできない。そのうえ、通話に関するパラメータとちがってＳＩＤ中のパラメータはフレーム毎に送られるわけではない。人間の聴覚システムが、位相応答に対してよりも信号の振幅スペクトルに対して集中することは知られている。したがって快適ノイズのためには、背景ノイズの平均スペクトルと平均パワーについての情報を伝送するだけで充分である。そのため、不快ノイズはこれらの２つのパラメータに基づいて生成される。このタイプの快適ノイズの発生は、時間領域においてはおおくの歪を導入するが、周波数領域においては背景ノイズに似ている。これは、音声期間と快適ノイズ期間との間の過渡期間中の不快感を減少するのに充分である。良好に作用する快適ノイズの発生は、非常に感情を鎮める効果を有しており、快適ノイズはそれ自体の注意を惹かない。快適ノイズの発生は伝送速度を減少させながら、導入する知覚のエラーは少ないので、このコンセプトは好ましいものとして受け入れられている。しかしながら、発生された快適ノイズの特徴が実際の背景ノイズと著しく異なっている場合、快適ノイズと背景ノイズとの間の過渡状態は、普通、聴覚的に認識される。
【００１２】
先行技術において、合成線形予測（ＬＰ）フィルタおよびエネルギー係数は、最新の２つのＳＩＤフレーム（図４参照）間のパラメータを内挿することによって得られる。この内挿はフレーム毎に行なわれる。フレームの内部では、各サブフレームの快適ノイズのコードブック（ｃｏｄｅｂｏｏｋ）ゲインは同一である。快適ノイズのパラメータは、ＳＩＤフレーム伝送時に受信されたパラメータから内挿されている。ＳＩＤフレームは第ｋ番目のフレーム毎に送信される。第ｎ番目のフレームの後に送信されたＳＩＤフレームは第（ｎ＋ｋ）番目のレームである。ＣＮパラメータは各フレーム毎に内挿され、当該内挿されたパラメータは、第ｎ番目のＳＩＤフレームから第（ｎ＋ｋ）番目のＳＩＤフレームに、第（ｎ＋ｋ）フレームが受信されたときに変更される。内挿はつぎのとおり行なわれる。
【００１３】
【数１】

【００１４】
ここに、ｋは内挿期間、Ｓ’（ｎ＋ｉ）は第（ｎ＋ｉ）番目のフレームのスペクトルパラメータベクトルで、ｉ＝０、…、ｋ−１である、Ｓ（ｎ）は最新に更新されたスペクトルパラメータベクトルであり、Ｓ（ｎ−ｋ）は第２の最新に更新されたスペクトルパラメータベクトルである。同様に、受信されたエネルギーはつぎのように内挿される。
【００１５】
【数２】

【００１６】
ここに、ｋは内挿期間、Ｅ’（ｎ＋ｉ）は第（ｎ＋ｉ）番目のレームの受信されたエネルギーで、ｉ＝０、…、ｋ−１である、Ｅ（ｎ）は最新に更新された受信されたエネルギーであり、Ｅ（ｎ−ｋ）は第２の最新に更新された受信されたエネルギーである。この方法によって、快適ノイズはゆっくりと滑らかに変化し、あるセットのパラメータから他のセットのパラメータに変わる。この先行技術の解決策のブロックダイアグラムが図４に示されている。ＧＳＲＦＥＲ（移動通信エンハンスト・フルレートのためのグローバルシステム）コーデックは、ＬＳＦ領域における合成（ＬＰ）フィルタ係数を伝送することにより、このアプローチを用いている。これら２つのパラメータは、式１および２にしたがって内挿される。ただし、ｋ＝２４である。ＧＳＭＥＦＲＣＮ発生の詳細な説明は、デジタル無線通信システム（フェイズ２＋）、コンフォートノイズアスペクツフォアエンハンストフルレイトトラフィックチャネルズ（イーティーエス・イーエヌ３００７２第８．０．０刊（２０００年７月））から見出される。
【００１７】
その代わりに、エネルギーディザリング（乱数の挿入）およびスペクトルディザリングブロックが、当該パラメータにランダムな要素を挿入するために用いられる。その目的は、実際の背景ノイズにおけるスペクトルおよびエネルギーレベルでゆらぎ（ｆｌｕｃｔｕａｔｉｏｎ）をシミュレートすることである。スペクトルディザリングブロックの動作はつぎのとおりである（図５参照）。
【００１８】
【数３】

【００１９】
ここに、Ｓはこの場合におけるＬＳＦベクトルであり、Ｌは定数であり、ｒａｎｄ（−Ｌ，Ｌ）は−ＬとＬとの間の値を発生しているランダム関数であり、Ｓ_ａｖｅ’’（ｉ）は快適ノイズスペクトル表示のために用いられるＬＳＦ（線形スペクトル周波数）ベクトルであり、Ｓ_ａｖｅ’（ｉ）は背景ノイズの平均化されたスペクトル情報（ＬＳＦ領域）であり、Ｍは合成フィルタ（ＬＰ）の次数である。同様に、エネルギーディザリングはつぎのとおり伝えられる。
【００２０】
【数４】

【００２１】
エネルギーディザリングおよびスペクトル（ＬＰ）ディザリングブロックは、先行技術の解決策においては一定の大きさでディザリングを実行する。合成（ＬＰ）フィルタ係数は、またこの第２の先行技術のシステムの記載中ＬＳＦ領域で表されることを注意されるべきである。しかしながら、他のいかなる表現を使用してもよい（例えば、ＩＳＰ領域）。
【００２２】
ＩＳ−６４１などの先行技術のいくつかのシステムは、快適ノイズ発生の際のエネルギーディザリングブロックを採用していない。ＩＳ−６４１の快適ノイズ発生の詳細な説明は、ＴＤＭＡセルラー／ＰＣＳ−無線インタフェース・エンハンスト・フル−レート音声コーデック、改訂Ａ（ＴＩＡ／ＥＩＡＩＳ−６４１−Ａ）に見ることができる。
【００２３】
前述の先行技術の解決策は、いくつかのタイプの背景ノイズに良好に作用するが、他のタイプのノイズには上手く作用しない。定常的な背景ノイズのタイプ（自動車のノイズや風などの背景ノイズ）に対して、非ディザリング・アプローチは良好に実行するが、ディザリング・アプローチは良好に実行しない。これは、背景ノイズは実際には定常的であるが、ディザリング・アプローチは、快適ノイズ発生のためにランダムなゆらぎ（ｊｉｔｔｅｒ）をスペクトルパラメータに導入するからである。非定常の背景ノイズのタイプ（街路またはオフィスのノイズ）に対しては、ディザリング・アプローチが、合理的に良好に作用するが、非ディザリング・アプローチは良好に作用しない。よって、ディザリング・アプローチは、背景ノイズが時間の経過と共にゆらぐ背景ノイズの非定常的な特徴をシミュレートするのにより適しており、非ディザリング・アプローチは、定常的な快適ノイズを発生するのにより適している。快適ノイズを発生するために、いずれかのアプローチを用いると、合成された背景ノイズと真の背景ノイズとの間の過渡状態が、多くの場合に可聴（耳障り）である。合成された背景ノイズと真の背景ノイズとの間の過渡状態における可聴性が、真の背景ノイズが定常的であるか、非定常的であるかにかかわらず低減されるか、または実質的に除去され得る快適ノイズを発生するための方法およびシステムを提供することが有益であり、望まれている。国際公開第００／３１７１９号パンフレットは、快適ノイズパラメータの修正のために使用される可変性情報を計算するための方法を記載している。とくに、可変性情報の算出はデコーダによって実行される。計算全体はデコーダによって実行され、快適ノイズ期間のあいだ、可変性情報は１つの快適ノイズフレーム（第２４番目のフレーム毎）についてのみ存在するので、計算による遅延は長くなるであろう。また、計算はエンコーダとデコーダとの間に分割され得るが、エンコーダからデコーダに情報を送るための伝送チャネルに、より高いビット速度が要求される。快適ノイズを修正するための簡単な方法を提供すことが有益である。
【００２４】
［発明の要旨］
本発明の主な目的は、音声期間中の真の背景ノイズと非音声期間中に発生した快適ノイズとのあいだの過渡状態における聴覚的な認識を低減または実質的に除去することである。この目的は、背景ノイズの特徴に基づいて快適ノイズを発生することによって達成される。
【００２５】
したがって、本発明の第１の態様は、音声期間と非音声期間とを有する音声通信において快適ノイズを発生する方法であって、当該音声通信を行なうために、音声入力を表わす信号が送信側のフレームから受信側のフレームに供給され、当該音声入力が音声成分および非音声成分を有し、該非音声成分が定常または非定常に分類することができ、
前記方法が、
非音声成分が定常または非定常のいずれであるかを決定し、
定常である非音声成分を表わす第１の値と、非定常である非音声成分を表わす第２の値とを有するさらなる信号を送信側に供給し、
前記さらなる信号が第１の値または第２の値のいずれを有するかに基づいて、送信側から受信されたさらなる信号に応答して、非音声期間中に快適ノイズを受信側で発生する
ことを特徴とする方法である。
【００２６】
本発明によれば、前記信号はスペクトルパラメータベクトルと前記非音声成分のスペクトルから評価されたエネルギーレベルとを含み、前記快適ノイズは該スペクトルパラメータベクトルおよびエネルギーレベルに基づいて生成される。前記さらなる信号が第２の値を有する場合、前記快適ノイズが発生される前に、ランダムな値がスペクトルパラメータベクトルに挿入される。
【００２７】
本発明によれば、決定する工程は前記スペクトルパラメータベクトル間のスペクトル距離に基づいて実行される。好ましくは、総和の値を与えるために平均期間にわたって前記スペクトル距離の総和が求められ、当該総和が所定の値より小さい場合、前記非音声成分が定常と分類され、当該総和が所定の値より大きいか、または等しい場合、前記非音声成分が非定常と分類される。前記スペクトルパラメータベクトル（１１４）が、線形スペクトル周波数（ＬＳＦ）ベクトル、イミタンススペクトル周波数（ＩＳＦ）ベクトルなどであり得る。
【００２８】
本発明の第２の態様によれば、音声入力を表わす音声に関するパラメータを供給するための送信側と、該音声に関するパラメータに基づいて音声入力を再構成するための受信側とを有する通信ネットワークによる音声通信中に快適ノイズを発生するためのシステムであって、
該音声通信が音声期間と非音声期間とを有し、該音声入力が音声成分と非音声成分とを有し、該非音声成分が定常と非定常に分類され、当該快適ノイズが非音声期間中に与えられ、
前記システムが、
前記送信側に設けられ、定常である非音声成分を表わす第１の値または
非定常である非音声成分を表わす第２の値を有する信号を供給するために、前記非音声成分が定常であるか、または非定常であるかを決定するための手段と、
前記受信側に設けられ、前記信号に応答して、前記信号が第２の値を有する場合にのみ快適ノイズにランダムな成分を挿入するための手段
とを備えてなることを特徴とするシステムである。
【００２９】
本発明の第３の態様によれば、音声入力を表わす音声パラメータを供給するためのエンコーダと、供給された音声パラメータに応答して、該音声パラメータに基づいて音声入力を再構成するためのデコーダとを有する音声通信に用いるための音声コーダであって、
前記エンコーダが、音声入力に応答して、該音声入力の非音声成分を表わすスペクトルパラメータベクトルとエネルギーパラメータとを発生するためのスペクトル分析モジュールを備え、
前記デコーダが、前記スペクトルパラメータベクトルおよびエネルギーパラメータに基づいて非音声成分を置き換えるために非音声期間に快適ノイズを発生するための手段を備え、
前記エンコーダに設けられ、スペクトルパラメータベクトルとエネルギーパラメータに応答して前記非音声成分が定常であるか、または非定常であるかを決定し、定常である非音声成分を表わす第１の値と、非定常である非音声成分を表わす第２の値とを有する信号を与えるためのノイズ検出器モジュールと、
前記信号に応答して、前記非音声成分が非定常である場合にのみ快適ノイズを修正するために、スペクトルパラメータベクトルおよびエネルギーパラメータの要素にランダムな成分を挿入するためのディザリングモジュール
とを備えてなる
ことを特徴とする音声コーダである。
【００３０】
本発明は図１〜７と関連づけて明細書を読むと明らかになるであろう。
【００３１】
［発明を実施するための最良の形態］
本発明による快適ノイズジェネレータシステム１は、図６に示されている。図６に示されているように、快適ノイズジェネレータシステム１は、エンコーダ１０とデコーダ１２とからなる。エンコーダ１０において、スペクトル解析モジュール２０は、入力音声信号１００から線形予測パラメータ（ｌｉｎｅａｒｐｒｅｄｉｃｔｉｏｎｐａｒａｍｅｔｅｒ（ＬＰ））１１２を抽出するために使用される。同時に、エネルギー計算モジュール２４は、入力音声信号１００からエネルギーレベル係数（ｆａｃｔｏｒ）を計算するために使用される。スペクトル平均化モジュール２２は、ＬＰパラメータ１１２から、平均スペクトルパラメータベクトル１１４を計算する。同じように、エネルギー平均化モジュール２６は、エネルギーレベル係数１２２から、受信されたエネルギー１２４を計算する。平均パラメータの計算は、デジタルセルラー無線通信システム（Ｐｈａｓｅ２＋）で発表されているような、コンフォートノイズアスペクツフォアエンハンストフルレイトスピーチトラフィックチャネルズ（ＥＴＳＩＥＮ３００７２８ｖ８．０．０（２０００−０７））という方法が知られている。平均スペクトルパラメータベクトル１１４と平均の受信エネルギー１２４は、先行技術のように、送信側にあるエンコーダ１０から受信側にあるデコーダ１２へと送信される。
【００３２】
本発明によるとエンコーダ１０において、検出機モジュール２８は、スペクトルパラメータベクトル１１４および受信エネルギー１２４からの背景ノイズが定常的であるか非定常的であるかどうかを決定する。背景ノイズが定常的であるか非定常的であるかどうかを示す情報は、エンコーダ１０からデコーダ１２へと、「定常性フラグ（ｓｔａｔｉｏｎａｒｉｔｙ−ｆｌａｇ）」１３０の形で送信される。定常性フラグ１３０は、２進数（ｂｉｎａｒｙｄｉｇｉｔ）で送られ得る。例えば、背景ノイズが定常的であると分類されたときは、定常性フラグが設定され、定常性フラグ１３０は１という値を与えられる。そうでないときには、定常性フラグが設定されず、定常性フラグ１３０は０という値を与えられる。図４および図５に示されている先行技術のように、スペクトル内挿器３０とエネルギー内挿器３６は、従来のＳＩＤフレームから等式１および２により新しいＳＩＤフレーム中にＳ’（ｎ＋ｉ）とＥ’（ｎ＋ｉ）をそれぞれ内挿する。内挿されたスペクトルパラメータベクトルＳ’_ａｖｅは、参照数字１１６により表される。内挿された受信エネルギーＥ’_ａｖｅは、参照数字１２６により表される。検出器モジュール２８によって、背景ノイズが非定常的であると分類された場合、フラグ１３０の値は０であると指示される。式３によると、スペクトルディザリングモジュール３２は、ランダム成分をスペクトルパラメータベクトル１１６に挿入することによって、実際の背景ノイズのゆらぎ（ｆｌｕｃｆａｔｉｏｎ）をシミュレートする。式４によると、エネルギーディザリングモジュール３８は、ランダムディザリングを受信エネルギー１２６に挿入する。ディザリングされたスペクトルパラメータベクトルＳ’’_ａｖｅは、参照数字１１８で示され、ディザリングされた受信エネルギーＥ’’_ａｖｅは、参照数字１２８で示される。しかしながら、背景ノイズが定常的であると分類された場合、固定フラグ１３０は設定される。スペクトラルディザリングモジュール３２とエネルギーディザリングモジュール３８は、実質的にバイパスされ、その結果、Ｓ’’_ａｖｅ＝Ｓ’_ａｖｅおよびＥ’’_ａｖｅ＝Ｅ’_ａｖｅとなる。そのような場合、信号１１８は信号１１６と同一である。また、信号１２８は信号１２６と同一である。どちらの場合も、信号１２８はスケーリング（増幅）モジュール４０へ送られる。平均エネルギーＥ’’_ａｖｅに基づいて、スケーリングモジュール４０は快適ノイズのエネルギーを変更する。その結果、デコーダ１２により与えられる快適ノイズ１５０のエネルギーレベルは、エンコーダ１０における背景ノイズのエネルギーとほぼ等しくなる。図６に示されるように、励振（ｅｘｃｉｔａｔｉｏｎ）として用いられるランダムホワイトノイズベクトルを発生するために、ランダムノイズジェネレータ５０が使用される。ホワイトノイズは参照数字１４０により表され、また、レベル調整（ｓｃａｌｅｄ）または変更されたホワイトノイズは参照数字１４２で表される。入力１００の平均背景ノイズを表している信号１１８または平均スペクトルパラメータベクトルＳ’’_ａｖｅは、合成フィルタモジュール３４に供給される。信号１１８とレベル調整されたエキサイテーション１４２に基づいて、合成フィルタモジュール３４は、快適ノイズ１５０を供給する。
【００３３】
それぞれのスペクトルパラメータ（ＬＳＦまたはＩＳＦ）ベクトルｆ（ｉ）から他のスペクトルパラメータベクトルｆ（ｊ）へのスペクトル距離ΔＤ_ｉに基づいて、背景ノイズが定常的か非定常的かに分類され得る。ｉおよびｊの範囲は、ＣＮ平均期間（ｌ_ｄｔｘ）の範囲内で、ｉ＝０，．．．，ｌ_ｄｔｘ−１，ｊ＝０，．．．，ｌ_ｄｔｘ−１，ｉ≠ｊである。平均期間は、典型的には８である。スペクトル距離は、近似的に次の式で示される。
【００３４】
【数５】

【００３５】
ここで、すべてのｉ＝０，．．．，ｌ_ｄｔｘ−１，ｉ≠ｊに関し、さらに
【００３６】
【数６】

【００３７】
またｆ_ｉ（ｋ）は、フレームｉにおけるスペクトルパラメータベクトルｆ（ｉ）のｋ番目のスペクトルパラメータであり、Ｍは合成フィルタ（ＬＰ）の次数である。
【００３８】
平均期間が８の場合、合計スペクトル距離は、
【００３９】
【数７】

【００４０】
Ｄ_Ｓが小さい場合、背景ノイズが定常的であるということを示すために定常性フラグが設定される（フラグ１３０の値は１である）。そうでない場合は、背景ノイズが非定常的であるということを示すために、固定フラグが設定されない（フラグ１３０の値は０である）。好ましくは、合計スペクトル距離Ｄ_Ｓは、固定小数点演算においては、６７１０８８６４と等しくなり得る定数であり、浮動小数点（演算）においては、およそ５１４７６０９と等しくなり得る定数に対して比較される。定常性フラグが設定されるか否かは、Ｄ_Ｓがそのような定数よりも小さいか否かによる。
【００４１】
さらに、フレーム間のパワー変化を考慮に入れることができる。フレーム間のパワー変化を考慮に入れるために、２つの連続的なフレーム間のエネルギー比Ｅ（ｉ）／Ｅ（ｉ＋ｌ）を計算する。当該技術分野において知られているように、ＶＡＤ＝０で示されたそれぞれのフレームのフレームエネルギーは、つぎのように計算される。
【００４２】
【数８】

【００４３】
ここで、ｓ（ｎ）は現在のフレームｉのハイパスフィルタされた入力音声信号である。これらのエネルギー比の２つ以上が充分に大きい場合、Ｄ_Ｓが小さいことにより定常性フラグが以前から設定されていたとしても、定常性フラグはリセットされる（フラグ１３０の値が０になる）。このような比較は、それぞれのフレームの対数的な領域におけるフレームエネルギーと、平均された対数的なエネルギーとの比較に等しい。したがって、ｅｎ_ｌｏｇ（ｉ）の偏差の絶対値（ａｂｓｏｌｕｔｅｄｅｖｉａｔｉｏｎ）の和がｎｅ_ｌｏｇの平均値より大きい場合、Ｄ_Ｓが小さいことにより定常的フラグが以前から設定されていたとしても、定常性フラグはリセットされる。絶対偏差の総和が、固定小数点演算において１８０（浮動小数点においては１．４０６）より大きい場合、定常性フラグはリセットされる。スペクトルパラメータベクトルにディザリングを挿入するとき、式３により、より低いスペクトル成分に挿入されるディザリングの量が、より高いスペクトル成分（ＬＳＦもしくはＩＳＦの要素）に挿入されるディザリングの量より少ないことが好まれる。このことにより、式３のスペクトルへのディザリングの挿入をつぎのような形式に変更する。
【００４４】
【数９】

【００４５】
ここで、Ｌ（ｉ）は、高周波数成分に対してｉの関数として増加する。また、Ｍは合成フィルタ（ＬＰ）の次数である。例として、ＡＭＲ広帯域コーデックに利用される場合、Ｌ（ｉ）ベクトルは、つぎの値を有することができる。
【００４６】
【外１】

【００４７】
（３^ｒｄジェネレーションパートナーシッププロジェクト、テクニカルスペシフィケーショングループサービシズアンドシステムアスペクツ、マンダトリスピーチコーデックスピーチプロセシングファンクションズ、ＡＭＲワイドバンドスピーチコーデック、トランスコーディングファンクションズを参照（３ＧＴＳ２６．１９０ｖｅｒｓｉｏｎ０．０２））
【００４８】
ＩＳＦ領域は、スペクトルの表現に使用され、またベクトル（ｉ−Ｍ−２）の最後から２番目の要素は、もっとも高い周波数とベクトルの最初の要素（ｉ＝０）を表しているということに留意すべきである。ＬＳＦ領域においては、ベクトル（ｉ−Ｍ−１）の最後の要素は、もっとも高い周波数とベクトルの最初の要素（ｉ＝０）を表している。
【００４９】
エネルギーパラメータのためのディザの挿入はスペクトルディザリングに類似しており、式４により計算され得る。対数的な領域においては、エネルギーパラメータに対してのディザの挿入はつぎのように表される。
【００５０】
【数１０】

【００５１】
図７は、本発明による非音声期間中の快適ノイズの発生方法を示したフローチャートである。フローチャート２００に示されているように平均スペクトルパラメータベクトルＳ’_ａｖｅと平均受信エネルギーＥ’_ａｖｅは、ステップ２０２において計算される。ステップ２０４において、合計スペクトル距離Ｄ_Ｓが計算される。ステップ２０６において、Ｄ_Ｓが予め規定された値（例えば、固定小数点演算では６７１０８８６４）よりも小さくない場合、定常性フラグは設定されない。したがって、ステップ２３２において、Ｓ’_ａｖｅとＥ’_ａｖｅとはディザリングが挿入されることによりＳ’’_ａｖｅとＥ’’_ａｖｅとになる。Ｄ_Ｓが予め規定された値よりも小さい場合、定常性フラグが設定される。（この場合、）２３２において、ディザリング処理はバイパスされる、もしくはＳ’’_ａｖｅ＝Ｓ’_ａｖｅおよびＥ’’_ａｖｅ＝Ｅ’_ａｖｅとなる。フレーム間のエネルギー変化の測定のために、選択的にステップ２０８が実行される。ステップ２３０での決定にしたがってエネルギー変化が大きい場合、定常性フラグがリセットされて処理はステップ２３２へのループを戻る。ステップ２３４において、Ｓ’’_ａｖｅとＥ’’_ａｖｅに基づいて快適ノイズが生成される。
【００５２】
３つの異なる背景ノイズの型を、本発明による方法を用いて検査した。車のノイズについては、快適ノイズのフレームの９５％が定常的であるとして分類された。オフィスのノイズについては、快適ノイズのフレームの３６．９％が定常的であるとして分類され、街路のノイズについては、快適ノイズのフレームの２５．８％が定常的であるとして分類された。このことは、とても良い結果である。なぜならば、車のノイズは主として定常的な背景ノイズであるが、オフィスのノイズおよび街路のノイズは主として非定常的な背景ノイズの型である。
【００５３】
本発明による固定フラグに関する計算は、全てエンコーダ中で実行されるということに留意すべきである。そのため、国際公開００／３１７１９号パンフレットに開示されているようなデコーダのみでの方法（デコーダのみで計算を行なう方法）と比較すると、計算の遅延は本質的には減少する。その上、本発明による方法は、快適ノイズの変更のための情報をエンコーダからデコーダへ送るためにわずか１ビットしか使用しない。対照的に、国際公開００／３１７１９号パンフレットに開示されているような、計算をエンコーダとデコーダとの間で分担する場合は送信チャネルにはるかに高いビット速度が必要とされる。
【００５４】
本発明は本発明の好ましい実施例に関して述べられているが、本発明の形態および詳細について、前述のものおよび様々な他の変更、省略および変形は、本発明の範囲から外れることなく考え出され得るということは、当業者によって理解されるだろう。
【図面の簡単な説明】
【図１】
典型的な送信側の不連続送信ハンドラを示すブロックダイアグラムである。
【図２】
音声活性検出器とブール（２進）音声フラグとの同期を示すタイミングダイアグラムである。
【図３】
典型的な受信側の不連続送信ハンドラを示すブロックダイアグラムである。
【図４】
非ディザリング・アプローチを使用した快適ノイズ発生システムの従来技術を示すブロックダイアグラムである。
【図５】
ディザリング・アプローチを使用した快適ノイズ発生システムの従来技術を示すブロックダイアグラムである。
【図６】
本発明による快適ノイズ発生システムを示すブロックダイアグラムである。
【図７】
本発明による快適ノイズの発生の方法を示すフローチャートである。

Claims

音声期間と非音声期間とを有する音声通信において快適ノイズ（１５０）を発生する方法（２００）であって、当該音声通信を行なうために、音声入力を表わす信号（１１４、１２４）が送信側のフレームから受信側のフレームに供給され、当該音声入力が音声成分および非音声成分を有し、該非音声成分が定常または非定常に分類することができ、
前記方法が、
非音声成分が定常または非定常のいずれであるかを決定し（２０４）、
定常である非音声成分を表わす第１の値と、非定常である非音声成分を表わす第２の値とを有するさらなる信号（１３０）を送信側に供給し（２０６）、
前記さらなる信号（１３０）が第１の値または第２の値のいずれを有するかに基づいて、送信側から受信されたさらなる信号に応答して、非音声期間中に快適ノイズ（１５０）を受信側で発生する（２０２、２３２）
ことを特徴とする方法。
前記非音声成分が送信側の背景ノイズであることを特徴とする請求項１記載の方法。
前記さらなる信号が第２の値を有する場合、快適ノイズにランダム成分が設けられることを特徴とする請求項１記載の方法。
スペクトルパラメータベクトル（１１４）と、前記非音声成分のスペクトルから評価されたエネルギーレベル（１２４）とを含む前記信号が、前記快適ノイズ（１５０）が該スペクトルパラメータベクトル（１１４）およびエネルギーレベル（１２４）に基づいて生成されることを特徴とする請求項１記載の方法。
前記さらなる信号（１３０）が第２の値を有する場合、前記快適ノイズ（１５０）が発生される前に、ランダムな値をスペクトルパラメータベクトル（１１４）に挿入する（３２）ことを特徴とする請求項４記載の方法。
前記さらなる信号（１３０）が第２の値を有する場合、快適ノイズ（１５０）が発生される前に、前記スペクトルパラメータベクトル（１１４）の要素内にランダムな値の第１セットを挿入し（３２）、前記エネルギーレベル（１２４）に第２のランダムな値を挿入する（３８）ことを特徴とする請求項４記載の方法。
非音声成分を表わす複数のスペクトルパラメータベクトル（１１４）を含む前記信号が、前記決定する工程（２０４）が前記スペクトルパラメータベクトル（１１４）間のスペクトル距離（Ｄ_ｓ）に基づいて実行されることを特徴とする請求項１記載の方法。
総和の値を与えるために平均期間にわたって前記スペクトル距離（Ｄ_ｓ）の総和が求められ、当該総和が所定の値より小さい場合、前記非音声成分が定常と分類され、当該総和が所定の値より大きいか、または等しい場合、前記非音声成分が非定常と分類されることを特徴とする請求項７記載の方法。
前記スペクトルパラメータベクトル（１１４）が線形スペクトル周波数（ＬＳＦ）ベクトルであることを特徴とする請求項７記載の方法。
前記スペクトルパラメータベクトル（１１４）が、イミタンススペクトル周波数（ＩＳＦ）ベクトルである請求項７記載の方法。
前記さらなる信号が第１の値を有する場合に、フレーム間のエネルギーレベルの変化を計算する工程をさらに含み、該エネルギーレベルの変化が所定の値を超えた場合、前記さらなる信号が第２の値をもつように変化し、前記快適ノイズ（１５０）が発生される前に前記スペクトルパラメータベクトル（１１４）にランダムな値のベクトルを挿入する（２３２）ことを特徴とする請求項４記載の方法。
前記さらなる信号（１３０）が第１の値を有する場合に、フレーム間のエネルギーレベルの変化を計算する工程を含み、当該エネルギーレベルの変化が所定の値を超えた場合、前記さらなる信号が第２の値を有するように変化し、前記快適ノイズ（１５０）が生成される前に、スペクトルパラメータベクトル（１１４）およびエネルギーレベル（１２４）にランダムな値のベクトルを挿入する（２３２）ことを特徴とする請求項４記載の方法。
前記さらなる信号（１３０）が、非音声成分が定常であるか、非定常であるかを表示するために、送信側から受信側に送られるフラグを含み、前記さらなる信号（１３０）が第１の値を有するときに当該フラグが設定され、前記さらなる信号（１３０）が第２の値を有するときには当該フラグが設定されないことを特徴とする請求項４記載の方法。
前記フラグが設定されない場合、快適ノイズ（１５０）が生成される前に、スペクトルパラメータベクトル（１１４）にランダムな値を挿入する（２３２）ことを特徴とする請求項１３記載の方法。
前記さらなる信号が第１の値を有する場合にフレーム間のエネルギーレベルの変化を計算し、
該エネルギーレベルの変化が所定の超えているか否かを決定し、
当該変化が所定の値を超えている場合、前記フラグの設定を取消す
ことを特徴とする請求項１３記載の方法。
前記フラグが設定されていないときに、快適ノイズが生成される前に、スペクトルパラメータベクトル（１１４）にランダムな値を挿入する（２３２）ことを特徴とする請求項１５記載の方法。
前記ランダムな値が−ＬとＬとの間の範囲にあり、Ｌが所定の値であることを特徴とする請求項５記載の方法。
前記所定の値が実質的に１００＋０．８Ｈｚに等しいことを特徴とする請求項１７記載の方法。
前記第２のランダムな値が−７５と７５との間の範囲にあることを特徴とする請求項６記載の方法。
前記ランダムな値が−ＬとＬとの間の範囲にあり、Ｌが高周波数を表わす要素と共に増加する値であることを特徴とする請求項５記載の方法。
前記さらなる信号が２進数のフラグであり、前記第１の値が１であり、前記第２の値が０であることを特徴とする請求項１記載の方法。
前記さらなる信号が２進数のフラグであり、前記第１の値が０であり、前記第２の値が１であることを特徴とする請求項１記載の方法。
音声入力（１００）を表わす音声に関するパラメータ（１１４、１２４）を供給するための送信側と、該音声に関するパラメータ（１１４、１２４）に基づいて音声入力を再構成するための受信側とを有する通信ネットワークによる音声通信中に快適ノイズ（１５０）を発生するためのシステム（１０、１２）であって、
該音声通信が音声期間と非音声期間とを有し、該音声入力が音声成分と非音声成分とを有し、該非音声成分が定常と非定常に分類され、当該快適ノイズ（１５０）が非音声期間中に与えられ、
前記システムが、
前記送信側に設けられ、定常である非音声成分を表わす第１の値または
非定常である非音声成分を表わす第２の値を有する信号（１３０）を供給するために、前記非音声成分が定常であるか、または非定常であるかを決定するための手段（２８）と、
前記受信側に設けられ、前記信号（１３０）に応答して、前記信号が第２の値を有する場合にのみ快適ノイズ（１５０）にランダムな成分を挿入するための手段とを備えてなることを特徴とするシステム。
音声入力（１００）を表わす音声パラメータ（１１４、１２４）を供給するためのエンコーダ（１０）と、供給された音声パラメータ（１１４、１２４）に応答して、該音声パラメータに基づいて音声入力を再構成するためのデコーダ（１２）とを有する音声通信に用いるための音声コーダであって、
前記エンコーダ（１０）が、音声入力（１００）に応答して、該音声入力の非音声成分を表わすスペクトルパラメータベクトル（１１４）とエネルギーパラメータ（１２４）とを発生するためのスペクトル分析モジュール（２０、２４）を備え、
前記デコーダ（１２）が、前記スペクトルパラメータベクトルおよびエネルギーパラメータに基づいて非音声成分を置き換えるために非音声期間に快適ノイズ（１５０）を発生するための手段（３０、３６）を備え、
前記エンコーダ（１０）に設けられ、スペクトルパラメータベクトル（１１４）とエネルギーパラメータ（１２４）に応答して前記非音声成分が定常であるか、または非定常であるかを決定し、定常である非音声成分を表わす第１の値と、非定常である非音声成分を表わす第２の値とを有する信号（１３０）を与えるためのノイズ検出器モジュール（２８）と、
前記信号（１３０）に応答して、前記非音声成分が非定常である場合にのみ快適ノイズを修正するために、スペクトルパラメータベクトル（１１４）およびエネルギーパラメータ（１２４）の要素にランダムな成分を挿入するためのディザリングモジュール（３２、２８）
とを備えてなる
ことを特徴とする音声コーダ。
音声期間と非音声期間とを有する音声通信に快適ノイズ（１５０）を発生するための方法であって、音声入力を表わす信号（１１４、１２４）が、音声通信を行なうために、送信側から受信側に供給され、前記音声入力が音声成分と非音声成分とを有し、該非音声成分が定常または非定常と分類され、前記快適ノイズが非音声期間に発生され、
前記方法が、
前記送信側において、非音声成分が定常であるか、または非定常であるかを決定する工程（２０４）と、
送信側において、前記決定の結果を表わすさらなる信号（１３０）を発生する工程（２０６）と、
送信側から受信されたさらなる信号（１３０）に応答して、前記非音声成分がさらなる信号（１３０）に基づく非定常である場合、前記受信側において快適ノイズを修正する工程（２３２）
とを含む
ことを特徴とする方法。