JP2010520513A

JP2010520513A - 定常的な背景雑音の平滑化を制御するための方法及び装置

Info

Publication number: JP2010520513A
Application number: JP2009552637A
Authority: JP
Inventors: ステファンブルーン，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2007-03-05
Filing date: 2008-02-27
Publication date: 2010-06-10
Anticipated expiration: 2028-02-27
Also published as: US20100088092A1; WO2008108721A1; RU2469419C2; US9852739B2; US20160155457A1; US20180075854A1; JP5198477B2; EP2118889B1; PL2118889T3; US9318117B2; RU2009136562A; CN101627426B; CN101627426A; EP2118889A1; ZA200906297B; US10438601B2; EP2118889A4

Abstract

通信音声セッションにおいて定常的な背景雑音を平滑化する方法において、はじめに、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する（Ｓ１０）。次に、その信号のノイズネス尺度を提供し（Ｓ２０）、提供されたノイズネス尺度に基づいて背景雑音成分を適応的に平滑化する（Ｓ３０）。

Description

本発明は、通信システムにおける音声符号化に関し、特に、通信システムにおいて定常的な背景雑音の平滑化を制御するための方法及び装置に関する。

音声符号化は、帯域制限された有線及び無線チャネル並びに記憶装置の少なくともいずれかを介する効率的な送信を行うために音声信号のコンパクト表現を取得する処理である。今日、音声符号化器は、通信及びマルチメディアの設備において不可欠な構成要素となっている。効率的な音声符号化に依存する市販のシステムには、ＰＣを使用する多くのゲーム及びマルチメディアアプリケーションに加え、セルラ通信、ＶｏＩＰ（Voice Over IP（インターネットプロトコル））、テレビ会議、電子玩具、アーカイビング及びＤＳＶＤ（Digital Simultaneous Voice and Data）などがある。

連続時間信号である場合、音声は、サンプリング及び量子化の処理を経てデジタル表現されうる。音声サンプルは、一般に、１６ビット又は８ビットで量子化される。多くの他の信号と同様に、音声信号は、大量の冗長な情報（信号の連続サンプル間のノンゼロ相互情報）又は知覚とは無関係の大量な情報（聴き手に知覚されない情報）を含む。殆どの通信符号化器は不可逆である。これは、合成音声が知覚的には元の音声に類似するが物理的には異なることを意味する。

音声符号化器はデジタル化音声信号を符号化表現に変換する。通常、符号化表現はフレームで送信される。これに対応して、音声復号化器は、符号化フレームを受信て再構成音声を合成する。

最近の多くの音声符号化器は、ＬＰＣ（線形予測符号化器）として知られている主流の音声符号化器に属する。そのような符号化器のいくつかの例は、３ＧＰＰＦＲ、ＥＦＲ、ＡＭＲ、ＡＭＲ−ＷＢ音声コーデック、３ＧＰＰ２ＥＶＲＣ、ＳＭＶ、ＥＶＲＣ−ＷＢ音声コーデック、並びにＧ．７２８、Ｇ．７２３、Ｇ．７２９等の種々のＩＴＵ−Ｔコーデックである。

それらの符号化器は全て、信号生成処理において合成フィルタの概念を利用する。フィルタは、再生される信号の短期スペクトルをモデル化するために使用されるが、フィルタへの入力は、全ての他の信号変動を処理すると仮定される。

これらの合成フィルタモデルの共通の特徴は、再生される信号が合成フィルタを規定するパラメータによって表されることである。用語「線形予測」は、フィルタパラメータを推定するために使用されることが多い方法の種類を示す。従って、再生される信号は、フィルタパラメータの集合により及び部分的にフィルタを駆動する励振信号により部分的に表される。

そのような符号化コンセプトの利点は、フィルタ及びその駆動励振信号の双方が相対的に少ないビットで効率的に記述されることにある。

ＬＰＣを使用するコーデックの１つの特定の種類は、いわゆる合成による分析（ＡｂＳ）の原理に基づくものである。それらのコーデックは、デコーダのローカルコピーをエンコーダに組み込み、候補励振信号の集合のうち原音声信号に対する合成出力信号の類似度を最大にする励振信号を選択することにより合成フィルタの駆動励振信号を見つける。

そのような線形予測符号化及び特にＡｂＳ符号化を利用するコンセプトは、例えば４乃至１２ｋｂｐｓの低ビットレートでも音声信号に対して比較的適切に動作することを証明している。しかし、そのような符号化技術を使用する移動電話において、ユーザが沈黙し、入力信号が雑音等の周囲音を含む場合、現在の周知の符号化器は、音声信号に対して最適化されているため、そのような状況に対処することが困難である。エンコーダにより「誤って処理」されたために馴染みのある背景音が認識できない場合には、受信側の聴き手は不快に思うだろう。

いわゆる渦流音（swirling）は、再生された背景音の最もひどい品質劣化の１つの原因となる。これは、車の雑音等の比較的定常的な背景雑音に起こる現象であり、復号化信号のパワー及びスペクトルの不自然な時間的ゆらぎにより起こる。それらのゆらぎは、合成フィルタ係数及びその励振信号の不完全な推定及び量子化により生じる。通常、コーデックのビットレートを増加させれば、渦流音は小さくなる。

渦流音は、従来技術において問題であると認識されており、これに対する複数の解決策が文献において提案されている。提案されている解決策のうちの１つは、米国特許第５６３２００４号（特許文献１）において説明される。この特許によると、非音声期間中、合成された背景音のスペクトル変動が低減されるように、フィルタパラメータをローパスフィルタ又は帯域幅拡大によって修正する。この方法は米国特許第５５７９４３２号（特許文献２）において、検出された定常背景雑音のみに渦流音低減技術が適用されるように改善されている。

渦流音の問題に対処する別の方法が、米国特許第５４８７０８７号（特許文献３）に開示されている。この方法は、信号自体及びその時間的変動の双方に適合する修正信号量子化方式を使用する。特に、音声の非アクティブ期間中にＬＰＣフィルタパラメータ及び信号ゲインパラメータに対してそのようなゆらぎが低減された量子化器を使用することが考えられる。

望ましくない合成信号のパワーゆらぎによる信号品質の劣化は、別の方法によって対処される。そのうちの１つは、米国特許第６２７５７９８号（特許文献４）において説明され、3GPP TS 26.090（非特許文献１）において説明されるＡＭＲ音声コーデックアルゴリズムの一部でも説明されている。それによると、合成フィルタ励振信号の少なくとも１つの成分のゲイン、すなわち固定コードブックの寄与は、ＬＰＣ短期スペクトルの定常性に依存して適応的に平滑化される。この方法は、平滑化が信号合成において使用されるゲインの制限を更に含む欧州特許第１０９６４７６号（特許文献５）及び欧州特許第１６８８９２０号（特許文献６）において展開されている。ＬＰＣボコーダにおいて使用される関連する方法は、米国特許第５９５３６９７号（特許文献７）において説明される。それによると、合成フィルタの励振信号のゲインは、合成音声の最大振幅が入力音声波形包絡にちょうど到達するように制御される。

渦流音の問題に対処する更なる種類の方法は、音声復号化器の後のポストプロセッサとして動作する。欧州特許第０６６５５３０号（特許文献８）は、検出された非音声期間中に音声復号化器出力信号の一部分をローパスフィルタリングされたホワイトノイズ又はコンフォートノイズ信号で置換する方法を説明している。音声復号化器出力信号の一部をフィルタリングされたノイズで置換する関連する方法を開示する種々の文献において同様の方法がとられる。

ここで図１を参照する。スケーラブル符号化又はエンベデッド符号化は、符号化が階レイヤ的に行われる符号化パラダイムである。基本レイヤ又はコアレイヤが低ビットレートで信号を符号化する一方、各々が互いに重なり合う追加レイヤは、コアから先の各レイヤまでの全てのレイヤにより達成される符号化に対して多少の拡張を提供する。各レイヤは、多少の追加のビットレートを加える。生成されたビットストリームは埋め込まれる。これは、下位レイヤの符号化のビットストリームが上位レイヤのビットストリームに埋め込まれることを意味する。この特性により、送信又は受信機の任意の場所で上位レイヤに属するビットをドロップできる。そのような取り除かれたビットストリームは、ビットが保持されるレイヤまで依然として復号化可能である。

今日、最もよく使用されるスケーラブル音声圧縮アルゴリズムは、６４ｋｂｐｓのＧ．７１１のA/U-law対数ＰＣＭコーデックである。８ｋＨｚサンプリングのＧ．７１１コーデックは、１２ビット又は１３ビット線形ＰＣＭサンプルを８ビット対数サンプルに変換する。対数サンプルの指示されたビット表現は、Ｇ．７１１ビットストリームの最下位ビット（ＬＳＢ）スチールを可能にし、Ｇ．７１１符号化器は実際には４８、５６及び６４ｋｂｐｓの間でＳＮＲスケーラブルとなる。このＧ．７１１コーデックの拡張性は、帯域内制御信号の目的で回線交換通信網において使用される。このＧ．７１１のスケーラビリティの使用の最近の例は、従来の６４ｋｂｐｓのＰＣＭリンクを介する広帯域音声の設定及び転送を可能にする３ＧＰＰＴＦＯプロトコルである。元の６４ｋｂｐｓのＧ．７１１ストリームのうちの８ｋｂｐｓは、狭帯域サービス品質にそれ程影響を及ぼさずに広帯域音声サービスの呼設定を可能にするためにまず使用される。呼設定の後、広帯域音声は、６４ｋｂｐｓのＧ．７１１ストリームのうち１６ｋｂｐｓを使用する。オープンループスケーラビリティをサポートする他のより古い音声符号化規格はＧ．７２７（エンベデッドＡＤＰＣＭ）であり、またある程度はＧ．７２２（サブバンドＡＤＰＣＭ）を含む。

スケーラブル音声符号化技術における更に最近の進歩は、ＭＰＥＧ４−ＣＥＬＰにスケーラビリティ拡張性を提供するＭＰＥＧ−４規格である。ＭＰＥ基本レイヤは、追加のフィルタパラメータ情報又は追加の新しいパラメータ情報の送信により拡張されうる。国際通信連合の標準化部門であるＩＴＵ−Ｔは近年、Ｇ．７２９．ＥＶと呼ばれる新たなスケーラブルコーデックＧ．７２９．１の標準化を完了した。このスケーラブル音声コーデックのビットレートの範囲は、８ｋｂｐｓ乃至３２ｋｂｐｓである。このコーデックの主な使用例は、いくつかのＶｏＩＰ呼び出しの間の共有ｘＤＳＬ６４／１２８ｋｂｐｓアップリンク等のホーム又はオフィスゲートウェイにおける限定された帯域幅リソースの効率的な共有を可能にすることである。

スケーラブル音声符号化の最近の１つの傾向は、音楽等の非音声オーディオ信号の符号化のサポートを上位レイヤに提供することである。そのようなコーデックにおいて、下位レイヤは、例えばＣＥＬＰが周知の例であるＡｂＳパラダイムに従う単なる従来の音声符号化を採用する。そのような符号化は音声にのみよく適しており、音楽等の非音声オーディオ信号にはあまり適さないため、上位レイヤはオーディオコーデックにおいて使用される符号化パラダイムに従って動作する。従って、一般に上位レイヤの符号化は下位レイヤの符号化の符号化誤差に対して動作する。

音声コーデックを考慮する別の関連する方法は、いわゆるスペクトル傾斜補償であり、これは、復号化音声の適応ポストフィルタリングにおいて行われる。これにより解決される問題は、短期ポストフィルタ又はフォルマントポストフィルタによって生じるスペクトル傾斜を補償することである。そのような技術は、例えばＡＭＲコーデック及びＳＭＶコーデックの一部であり、背景雑音の性能ではなく音声中のコーデックの性能を主に対象とする。ＳＭＶコーデックは、残差のＬＰＣ分析の応答とは独立して合成フィルタリングの前に重み付き残差領域においてその傾斜補償を適用する。

渦流音の問題に対処する上述の技術に共通するのは、音声再生の品質に悪影響を及ぼさずに渦流音に対して最適な改善効果を与えられるように、それらの技術を適用することが不可欠であるということである。それらの方法はすべて、再構成される信号の特性に依存してアクティブ又は非アクティブにされるのに従って実現される適切な規則が存在する場合には利点のみを提供する。以下において、最新の渦流音低減技術が制御方法の特定の面の下で説明される。

非特許文献２は、特定のノイズ平滑化方法及びその特定の制御を開示している。制御は、その特定の平滑化方法においてある特定のゲインファクタを管理する復号化信号における背景雑音比の推定値に基づく。他の方法とは異なり、この平滑化方法の起動はＶＡＤフラグ又は例えばある定常性計測値に応答して制御されないことを強調する価値がある。

上述の従来技術とは対照的に、非特許文献３は、ある定常雑音検出器に応答する平滑化動作を説明する。専用のＶＡＤは使用されず、ピッチ情報に加えてエネルギゆらぎ及びＬＰＣパラメータ（ＬＳＦ）の測定値に依存して困難な決定が行われる。音声フレームを定常雑音フレームとして間違えて分類してしまう問題を軽減するために、ハングオーバ期間が音声バーストに追加される。

特許文献８は、ＶＡＤフラグに応答して動作する背景雑音平滑化方法の制御機能を説明する。音声フレームが非アクティブと宣言されるのを防止するために、ハングオーバ期間が、アクティブな音声として宣言される信号バーストに追加される。その期間中、ノイズ平滑化は非アクティブのままである。背景雑音平滑化が停止される期間から平滑化が開始される期間への円滑な遷移を保証するために、平滑化はある固定の最大平滑動作度まで徐々に起動される。復号化音声信号の一部を置換するノイズ信号のパワー及びスペクトル特性（ハイパスフィルタリングの程度）は、復号化音声信号の背景雑音レベル推定値に適応される。しかし、平滑動作度、すなわち復号化音声信号がノイズにより置換される量は、単にＶＡＤ決定に依存し、背景雑音の特性（定常性等）の分析には全く依存しない。

特許文献４の上述の開示は、混合ファクタに応答する漸進的な（ゲイン）パラメータ平滑化を可能にする復号化器に対するパラメータ平滑化方法を説明する。混合ファクタは、再構成される信号の定常性を示し、平滑化が実行される程検出される定常性が大きくなるようにパラメータ平滑化を制御する。

米国特許第５６３２００４号米国特許第５５７９４３２号米国特許第５４８７０８７号米国特許第６２７５７９８号欧州特許第１０９６４７６号欧州特許第１６８８９２０号米国特許第５９５３６９７号欧州特許第０６６５５３０号

3GPP TS 26.090, AMR Speech Codec; Transcoding functions Tasaki他, "Post noise smoother to improve low bit rate speech-coding performance", IEEE Workshop on speech coding, 1999 Ehara他, "Noise Post-Processing Based on a Stationary Noise Generator", IEEE Workshop on speech coding, 2002

非特許文献２に係る平滑化動作制御アルゴリズムの主な問題は、それが当該文献に記載された特定のノイズ平滑化器向けにつくられていることである。従って、任意の他のノイズ平滑化方法と共に使用されるか（及びどのように使用されるか）は明らかではない。ＶＡＤを使用しないと、音声がアクティブである期間に信号修正を実行してしまうという問題が発生する。これは、潜在的に音声を劣化させるか又は少なくとも再生音の自然さに影響を及ぼす。

非特許文献３及び特許文献８に係る平滑化アルゴリズムの主な問題は、背景雑音平滑度が、近似される背景雑音の特性に徐々に依存しないことである。例えば従来技術である非特許文献３は、平滑化動作が完全に使用可能又は使用不可能にされる際に依存する定常ノイズフレーム検出を使用する。同様に、特許文献８で開示される方法は、背景雑音特性に依存してより低い程度で使用されるように平滑化方法を管理する能力を有していない。これは、方法が採用されたノイズ平滑化方法により適切にモデル化されない特性を示すにも関わらず定常ノイズ又は非アクティブな音声として分類される背景雑音の種類に対する不自然なノイズ再生の悪影響を受ける可能性があることを意味する。

特許文献４に開示される方法の主な問題は、方法が少なくとも現在のフレームの現在のパラメータ及び対応する先のパラメータを考慮する定常性推定値に大きく依存することである。本発明に関する調査において、背景雑音平滑化が望ましいか否かに関わらず、定常性は有用であるが適切な指示を常に提供するわけではないことが分かった。単に定常性尺度に依存することにより、採用されたノイズ平滑化方法により適切にモデル化されない特性を示すにも関わらず、ある特定のノイズの種類が定常ノイズとして分類されるという状況を招く可能性がある。

上述の全ての方法を制限する特定の問題は、それらの方法が単なる復号化方法であるために発生する。そのため、ノイズ平滑化動作が段階的な分解能で制御されるべきである場合に必要な精度で背景雑音特性を推定するのに概念上の問題を有する。しかし、これは自然なノイズ再生に必要である。

定常性尺度に依存する全ての方法の一般的な問題において、定常性自体は、エネルギー又はスペクトルのような統計的な信号特性が経時変化を起こさない程度を示す特性である。このため、定常性尺度は、所定のフレーム又はサブフレームの統計的特性を先行フレーム又はサブフレームの特性と比較することにより計算されることが多い。しかし、定常性尺度は、より低い程度で背景信号の実際の知覚特性の指示を与える。特に、定常性尺度は、信号がどの程度ノイズのようであるかを示さないが、本発明者による研究によると、適切な反渦流音方法にとって不可欠なパラメータである。

従って、通信システムにおいて背景雑音平滑化動作音声セッションを制御する方法及び装置が必要とされる。

本発明の目的は、通信システムにおける音声セッションの品質の改善を可能にすることである。

本発明の更なる目的は、通信システムにおける音声セッションの定常的な背景雑音の平滑化の改善された制御を可能にすることである。

これらの目的及び他の目的は、添付の請求の範囲によって達成される。

基本的に、通信音声セッションにおいて定常的な背景雑音を平滑化する方法において、はじめに、音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する（Ｓ１０）。次に、その信号のノイズネス尺度を提供し（Ｓ２０）、提供されたノイズネス尺度に基づいて背景雑音成分を適応的に平滑化する（Ｓ３０）。

本発明の利点は以下を含む。
通信システムにおける音声セッションの品質の改善。
定常的な背景雑音信号の再構成信号品質の改善。

スケーラブル音声・オーディオコーデックを示す概略ブロック図である。本発明に係る背景雑音平滑化の方法の一実施形態を示すフローチャートである。本発明の一実施形態に係る平滑化の間接的な制御方法を概略的に示すタイミングチャートである。本発明に係る方法の一実施形態に従って背景雑音平滑化のＶＡＤ駆動アクティベーションを概略的に示すタイミングチャートである。本発明に係る装置の一実施形態を示すフローチャートである。本発明に係るコントローラ装置の一実施形態を示すブロック図である。本発明に係る装置の実施形態を示すブロック図である。

（略語）
ＡｂＳ Analysis by Synthesis 合成による分析
ＡＤＰＣＭ Adaptive Differential PCM 適応差分ＰＣＭ
ＡＭＲ−ＷＢ Adaptive Multi Rate Wide Band 適応マルチレート広帯域
ＥＶＲＣ−ＷＢ Enhanced Variable Rate Wideband Codec 拡張可変レート広帯域コーデック
ＣＥＬＰ Code excited Linear Prediction 符号励振線形予測
ＤＸＴ discontinuous Transmission 間欠送信
ＤＳＶＤ Digital Simultaneous Voice and Data
ＩＳＰ Immittance spectral Pair イミタンススペクトル対
ＩＴＵ−Ｔ International Telecommunication Union 国際通信連合
ＬＰＣ Linear Predictive Coders 線形予測符号化器
ＬＳＦ Line Spectral Frequency 線スペクトル周波数
ＭＰＥＧ Moving Pictures Experts Group
ＰＣＭ Pulse code Modulation パルス符号変調
ＳＭＶ Selectable Mode Vocoder 選択可能モードボコーダ
ＶＡＤ Voice Activity Detector 音声アクティビティ検出器
ＶｏＩＰ Voice Over Internet Protocol

（詳細な説明）
無線移動体の音声セッションに関して本発明を説明する。ただし、これは同様に有線接続にも適用可能である。以下の説明において、音声（speech）及びボイス（voice）という用語は同一のものとして使用される。それに対応して、音声セッション（speech session）は、通信ネットワークにおける少なくとも２つの端末又はノード間のボイス／音声の通信を示す。音声セッションは、２つの成分、すなわち音声成分及び背景雑音成分を常に含むと仮定される。音声成分は、アクティブ（例えば、１人が話している）又は非アクティブ（例えば、その人が言葉の間又は句の間で沈黙している）であるセッションの実際の音声通信である。背景雑音成分は、話している人の周囲の環境からの環境騒音である。この雑音は本質的にある程度は定常的である。

上述したように、音声セッションの１つの課題は、定常的な背景雑音又は詳細には任意の雑音を含む環境において、音声セッションの品質を向上する方法である。周知の方法によると、多くの場合、背景雑音を平滑化する種々の方法が採用される。しかし、平滑化動作は、音声成分を歪ませてしまうことにより、あるいは、残りの背景雑音をより妨害的なものにしてしまうことにより、音声セッションの品質又は「聞きやすさ」が低下する危険性がある。

本発明の基礎となる調査において、背景雑音平滑化が車の雑音等の特定の背景信号に対してのみ特に有用であることが分かった。意味のない音、暗示、曖昧な言葉等の他の背景雑音の種類の場合には、背景雑音平滑化は、合成信号に対して同一程度の品質改善を提供せず、背景雑音の再生を不自然なものにする可能性もある。「ノイズネス（noisiness）」が、背景雑音平滑化が品質向上を提供できるか否かを示す特徴付けの適切な特徴であることが更に分かった。また、ノイズネスは、従来の方法において使用された定常性よりも適切な特徴であることが分かった。

従って、本発明の主な目的は、背景信号のノイズネス尺度又は計測値に基づいて定常背景雑音の平滑化動作を徐々に制御することである。非音声期間中に背景信号が非常に雑音に類似すると分かった場合、より大きな平滑度が使用される。非アクティブな信号が雑音には類似しない場合、ノイズ平滑度は低下するか、あるいは平滑化は全く実行されない。ノイズネス尺度は、符号化器において導出され復号化器に送信されるのが好ましい。ここで、ノイズ平滑化の制御はノイズネス尺度に依存する。しかし、ノイズネス尺度は復号化器自体においても導出可能である。

基本的に、図２を参照すると、本発明に係る一般的な一実施形態は、通信システムにおける少なくとも２つの端末間の通信音声セッションの定常背景雑音を平滑化する方法を含む。最初に、音声セッションを表す信号、すなわち音声による情報の交換を少なくとも２人のモバイルユーザ間で受信及び復号化（Ｓ１０）すると、信号は、音声成分、すなわち実際の音声と、背景雑音成分、すなわち周囲の音との双方を含むものとして記述される。非音声期間中に背景雑音を平滑化するために、ノイズネス尺度は、音声セッションに対して判定され且つ信号に対して提供される（Ｓ２０）。ノイズネス尺度は、定常的な背景雑音成分がどの程度うるさいかの尺度である。次に、背景雑音成分は、提供されたノイズネス尺度に基づいて適応的に平滑化（Ｓ３０）又は修正される。最後に、送信信号を表す信号は、平滑化された背景雑音成分と合成され、改善された品質の受信信号を使用可能にする。

本発明の更なる実施形態によると、ノイズネス計測値は、信号がどの程度ノイズに類似するかを記述するか又は信号がどの程度のランダムな成分を含むかを記述する。更に詳細には、ノイズネス尺度又は計測値は、信号の予測可能性に関して規定及び記述される。ここで、強いランダムな成分を含む信号は十分に予測されず、弱いランダムな成分を含む信号程予測可能である。その結果、そのようなノイズネス尺度は信号の周知のＬＰＣ予測ゲインG_pを使用して定義される。ＬＰＣ予測ゲインG_pは以下のように定義される。

ただし、σ_x ²は背景（雑音）信号の分散、σ² _e,pは次数PのＬＰＣ分析により取得されるその信号のＬＰＣ予測誤差の分散を示す。予測ゲインは、分散ではなくパワー又はエネルギーを使用して定義されてもよい。予測誤差分散σ² _e,p及び予測誤差分散のシーケンスσ² _e,p, k=1...p-1は、Levinson-Durbinアルゴリズムの副産物として容易に取得されることが更に周知である。このアルゴリズムは、背景雑音信号の自己相関パラメータのシーケンスからＬＰＣパラメータを計算するために使用される。一般に、予測ゲインは、弱いランダムな成分を含む信号に対しては高く、ノイズに類似する信号に対しては低い。

本発明の好適な一実施形態によると、適切な類似するノイズネス計測値は、異なる次数p及びqを有する２つのＬＰＣ予測フィルタの予測ゲインの比をとることにより取得される。ここで、p＞qである。

この計測値は、qからpにＬＰＣフィルタ次数を増加する場合に予測ゲインがどの程度増加するかの指示を与える。これは、信号が低いノイズネスを有し且つノイズネスの１に近い値が大きい場合に大きい値を出力する。適切な選択はq=2及びp=16であるが、ＬＰＣ次数に対して他の値も同様に可能である。

なお、上述のノイズネス計測値又は尺度はエンコーダ側で判定又は計算され、その後デコーダ側に送信及び提供されるのが好ましい。しかし、デコーダ側で実際の受信信号に基づいてノイズネス計測値を判定又は計算することも同様に可能である（僅かな適応のみを伴う）。

エンコーダ側で計測値を計算する１つの利点は、計算が非量子化ＬＰＣパラメータに基づくことが可能であるため、潜在的に最適で可能な分解能を有することである。更に、必要とされる予測誤差分散が一般にいずれにおいても実行されるＬＰＣ分析の副産物として容易に取得されるため（上述したように）、計測値の計算は余分な計算上の複雑さを必要としない。エンコーダにおいて計測値を計算することは、計測値が次に量子化されること及び量子化計測値の符号化表現がデコーダに送信され且つそこで背景雑音平滑化を制御するために使用されることを必要とする。ノイズネスパラメータの送信は、２０ｍｓのフレーム毎に例えば５ビットのビットレート及び従って２５０ｂｐｓを必要とし、これは欠点であると考えられるだろう。しかし、ノイズネスパラメータが非音声期間中にのみ必要とされることを考慮すると、特定の一実施形態に従って、音声がアクティブである間の送信をスキップし、コーデックが音声がアクティブである間と同一のビットレートを必要としないためにそのビットレートが一般に利用可能であってもよい非アクティブな間に単に送信することが可能である。同様に、非音声の音及び非アクティブな音を特定のより低いレートモードで符号化する音声コーデックの特定の例を考慮すると、余分なコストなしでその余分なビットレートを与えることが更に可能である。

しかし、既に説明したように、受信及び復号化されたＬＰＣパラメータに基づいてデコーダ側でノイズネス尺度を導出できる。周知のステップアップ／ステップダウン手順は、受信ＬＰＣパラメータから予測誤差分散のシーケンスを計算する方法を提供する。そのシーケンスは、上述のようにノイズネス尺度を計算するために使用可能である。

実験結果によると、本発明のノイズネス尺度は、研究において組み合わされた特定の背景雑音平滑化方法と組み合わせると非常に有益であることが指摘されるべきである。しかし、他の反渦流音方法と組み合わせると、その尺度を従来から周知である定常尺度と組み合わせることが有益だろう。ノイズネス尺度が組み合わされるそのような尺度の１つは、ＬＰＣパラメータ類似性計測値である。この計測値は、例えばＬＳＦパラメータ等の対応するＬＰＣパラメータべクトル間のユークリッド距離を使用して２つの連続フレームのＬＰＣパラメータを評価する。この計測値により、連続ＬＰＣパラメータベクトルが非常に異なり且つ従って信号定常性の指示として使用される場合は大きい値が導かれる。

また、本発明の「ノイズネス」と従来の方法の「定常性」との上述の概念上の差に加えて、それらの尺度間には少なくとも１つの更に重要な特徴的な差がある。すなわち、定常性の計算は、現在のフレームの少なくとも現在のパラメータを導出すること及びそれを先行フレームの少なくとも１つの先行パラメータに関連付けることを含む。これに対して、ノイズネスは、先行フレームの任意の知識なしで現在のフレームにおける瞬間的な尺度として計算される。利点は、先行フレームからの状態を格納するメモリが節約されることである。

以下の実施形態は、反渦流音方法が提供されるノイズネス尺度に基づいて制御される方法を説明する。平滑化動作が制御ファクタにより制御され、一般性を制限せずに、１に等しい制御ファクタが平滑化動作を行わないことを意味し且つ０のファクタが最大限の平滑化を意味することが仮定される。

基本的な一実施形態によると、提供されるノイズネス尺度は、背景雑音信号の復号化中に適用される平滑度を直接制御する。平滑度は、パラメータウにより制御されると仮定される。その後、例えば以下の式の例に従ってノイズネス計測値を上記からウに直接マップできる。

γ = Q{(計測値 - 1)・μ} + ν （３）

νの適切な選択は０．５であり、μに対しては０．５〜２の値である。なお、Q{.}は、制御ファクタが１を超えないように数字の範囲を制限する量子化演算子を示す。更に、係数μは入力信号のスペクトル成分に依存して選択されるのが好ましい。特に、コーデックが１６ｋＨｚのサンプリングレートで動作する広帯域コーデックであり且つ入力信号が広帯域スペクトル（０〜７ｋＨｚ）である場合、計測値は、入力信号が狭帯域スペクトル（０〜３４００Ｈｚ）を有する場合より相対的に小さな値を与える。この作用を補償するために、μは狭帯域コンテンツより広帯域コンテンツに対して大きい必要がある。適切な選択は、広帯域コンテンツに対してはμ=2であり、狭帯域コンテンツに対してはμ=0.5である。しかし、特定の状況に依存して他の値も可能である。それに応じて、平滑動作度は、信号が広帯域コンテンツを含むか又は狭帯域コンテンツを含むかに依存してパラメータγにより特に較正される。

再構成された背景雑音信号の品質に影響を及ぼす１つの重要な面は、非アクティブな期間中のノイズネス計測値が非常に迅速に変化することである。上述のノイズネス計測値が背景雑音平滑化を直接制御するために使用される場合、これは望ましくない信号ゆらぎを導入する可能性がある。本発明の更なる好適な実施形態において、図３を参照すると、ノイズネス尺度は、背景雑音平滑化を直接制御するのではなく間接的に制御するために使用される。１つの可能性は、例えばローパスフィルタリングによるノイズネス尺度の平滑化である。しかし、これは、計測値により示される平滑度より高い平滑度が適用されるという状況を招く可能性がある。高い平滑度は、合成信号の自然さに影響を及ぼす可能性がある。従って、好適な原理は、背景雑音平滑度の急速な増加を回避し、その一方でノイズネス計測値が適切になるように突然より低い平滑度を示した時に迅速な変更を可能にすることである。以下の説明は、この動作を達成するために背景雑音平滑度を管理する好適な１つの方法を規定する。平滑度は、パラメータγにより制御されると仮定される。上述の直接制御とは異なり、ここでのノイズネス尺度は、以下の式に従う間接制御パラメータγ_minを管理する。

γ_min = Q{(計測値 - 1)・μ} + ν （４）
その後、平滑化制御パラメータγは、γ_minと先に（すなわち、先行フレームにおいて）使用された平滑化制御パラメータγ'からある量δだけ減少された値とのうちの最大値に設定される。

γ = max(γ_min, γ'-δ) （５）
この演算の結果、γがγ_minより依然として大きい限り、γはγ_minに徐々に近づくように管理される。それ以外の場合、γはγ_minと同一である。このステップサイズδの適切な選択は０．０５である。記述される演算は図３に示される。

本発明者による調査は、提供されたノイズネス尺度に直接又は間接的に依存する背景雑音の平滑化が再構成された背景雑音信号の品質向上を提供できることを示している。平滑化動作がアクティブな音声の間は回避され且つ背景雑音の平滑度が頻繁に及び急速に変化しないことを確認することは、品質にとって重要なことであることが更に分かった。

関連する面は、背景雑音平滑化が使用可能にされるか否かを制御する音声区間検出（ＶＡＤ）動作である。理想的には、ＶＡＤは、背景雑音平滑化が使用可能にされる音声信号のアクティブな部分の間の非アクティブな期間を検出すべきである。しかし、実際には、そのような理想的なＶＡＤは存在せず、アクティブな音声の部分が非アクティブと宣言されるか又は非アクティブな部分がアクティブな音声と宣言されるということが起こる。アクティブな音声が非アクティブと宣言されるという問題の解決策を提供するために、例えば間欠送信（ＤＴＸ）による音声送信において、いわゆるハングオーバ期間をアクティブと宣言されたセグメントに追加するのが一般的である。これは、アクティブと宣言された期間を人為的に拡張する手段である。これにより、フレームが誤って非アクティブと宣言される尤度が減少する。対応する原理は、背景雑音平滑化動作を制御する状況において利益を伴って適用可能であることが分かった。

本発明の好適な一実施形態によると、図２及び図６を参照すると、音声成分のアクティブな状態を検出する更なるステップＳ２５が開示される。次に、背景雑音平滑化動作が制御され、音声成分の検出された非アクティブにのみ応答して開始される。更に、遅延又はハングオーバが使用される。これは、ＶＡＤがフレームを非アクティブと宣言し始めてから所定のフレーム数の後にのみ背景雑音平滑化が使用可能にされることを意味する。適切な選択は、ノイズ平滑化が使用可能にされるまで、ＶＡＤがフレームを非アクティブと宣言し始めてから例えば５フレーム（＝１００ｍｓ）待機することであるがこれに限定されない。ＶＡＤが非音声フレームをアクティブと宣言することがあるという問題を考慮すると、ＶＡＤの決定が正確か否かに関わらず、ＶＡＤがフレームをアクティブと宣言する場合は常に背景雑音平滑化動作をＯＦＦにするのが適切であることが分かる。更に、スプリアスＶＡＤアクティベーション後すぐに背景雑音平滑化を再開すること、すなわちハングオーバなしで再開することは有益である。これは、検出されたアクティブな期間が非常に短い場合、例えば３フレーム（＝６０ｍｓ）以下の場合である。

背景雑音平滑化の性能を更に向上するために、背景雑音平滑化を突然ＯＮにするのではなくハングオーバ期間の後に徐々に使用可能にするのが有益であることが分かる。そのように徐々に使用可能にすることを達成するために、平滑化動作が徐々に非アクティブから完全に使用可能にされる段階的導入期間が規定される。段階的導入期間がKフレームの長さであると仮定され、現在のフレームがこの段階的導入期間のn番目のフレームであると更に仮定されると、そのフレームに対する平滑化制御パラメータg^*は、元の値γと平滑化動作の非アクティブに対応する値（γ_inact=1）との間の補間により取得される。

なお、ハングオーバ期間の後、すなわちスプリアスＶＡＤ起動の前に段階的導入期間を起動するのが有益である。

図４は、平滑化制御パラメータg^*がどのようにＶＡＤフラグ、追加されたハングオーバ及び段階的導入期間に依存するかを示すタイミングチャートの一例を示す。更に、ＶＡＤが０であり且つハングオーバ期間の後にのみ、平滑化が使用可能にされることが示される。

背景雑音平滑化の音声区間駆動（ＶＡＤ）の起動により説明される方法を実現する手順の更なる一実施形態を図５のフローチャートに示し、以下に説明する。手順は、開始点で開始するフレーム（又はサブフレーム）毎に実行される。最初にＶＡＤフラグがチェックされ、ＶＡＤフラグが１に等しい値を有する場合、アクティブな音声のパスが実行される。ここで、アクティブな音声フレームのカウンタ（Act_count）が増分される。その後、カウンタがスプリアスＶＡＤ起動の限界を超えるか（Act_count＞enab_ho_lim）がチェックされる。超える場合、非アクティブなフレームのカウンタが再設定される（Inact_count=0）。これは、ハングオーバ期間が次の非アクティブな期間中に追加されるという合図である。その後、手順は終了する。

しかし、ＶＡＤフラグが非アクティブを示す０に等しい値を有する場合、非アクティブな音声のパスが実行される。ここで、最初に非アクティブなフレームのカウンタ（Inact_count）が増分される。その後、そのカウンタがハングオーバの限界以下であるか（Inact_count≦ho）がチェックされ、ハングオーバの限界以下である場合、ハングオーバ期間の実行のパスが実行される。その場合、ノイズ平滑化制御パラメータg^*は１に設定され、それにより平滑化が使用不可能にされる。更に、アクティブなフレームのカウンタは、スプリアスＶＡＤ起動の限界により初期化される（Act_count=enab_ho_lim）。これは、ハングオーバ期間が次のスプリアスＶＡＤ起動の場合に依然として使用不可能にされないことを意味する。その後、手順は終了する。非アクティブなフレームのカウンタがハングオーバの限界より大きい場合、非アクティブなフレームのカウンタがハングオーバの限界＋段階的導入の限界以下であるか（Inact_count≦ho+pi）がチェックされる。カウンタがハングオーバの限界＋段階的導入の限界以下である場合、段階的導入期間の処理が実行される。これは、ノイズ平滑化制御パラメータが上述のように補間（g^*=補間）により取得されることを意味する。それ以外の場合、ノイズ平滑化制御パラメータは変更されないままである。その後、背景雑音平滑化手順は、ノイズ平滑化パラメータに従う程度で実行される。次に、アクティブなフレームのカウンタは再設定される（Act_count=0）。これは、その後のハングオーバ期間がスプリアスＶＡＤ起動後に使用不可能にされることを意味する。その後、手順は終了する。

ノイズ平滑化手順により達成される品質に依存して、非アクティブな音声の間だけでなくノイズのような性質を有する非音声の間にも品質向上をもたらす可能性がある。従って、この場合、背景雑音平滑化の音声区間駆動の起動は、非アクティブな音声フレームだけでなく非音声フレームの間にも起動されるという拡張から利益を得るだろう。

本発明の好適な一実施形態は、背景雑音平滑化の間接的な制御及び背景雑音平滑化の音声区間駆動の起動と方法とを組み合わせることにより得られる。

スケーラブルコーデックと関係する本発明の更なる実施形態によると、復号化がより高いレートの層で行われる場合、平滑度は徐々に減少される。これは、通常、より高いレートの音声符号化が背景雑音期間中により少ない渦流音の問題を有するためである。

本発明の特定の有利な一実施形態は、ＬＰＣパラメータ平滑化（例えば、ローパスフィルタリング）及び励振信号修正の組合せである平滑化動作と組み合わされる。簡単に説明すると、平滑化動作は、音声セッションを表す信号を受信及び復号化することを含む。信号は、音声成分及び背景雑音成分の双方を含む。次に、信号に対するＬＰＣパラメータ及び励振信号を判定する。その後、平滑化出力信号を提供するために励振信号のパワーゆらぎ及びスペクトルゆらぎを低減することにより判定された励振信号を修正する。最後に、判定されたＬＰＣパラメータ及び励振信号に基づいて出力信号を合成及び出力する。本発明の制御動作と組み合わせると、品質が改善された合成音声信号が提供される。

図６及び図７を参照して、本発明に係る装置を以下に説明する。本発明の特定の動作に関連しない任意の周知の一般的な送信／受信及び／又は符号化／復号化機能性は、図６及び図７の一般的な入出力ユニットＩ／Ｏにおいて黙示的に開示される。

図６を参照すると、通信音声セッションの定常背景雑音成分の平滑化を制御するコントローラユニット１が示される。コントローラ１は、音声セッションに関連する入力／出力信号を受信及び送信するように構成される。従って、コントローラ１は、入力及び出力信号を処理する一般的な入出力Ｉ／Ｏユニットを含む。更にコントローラは、音声セッションを表す信号であって音声成分及び背景雑音成分の双方を含む信号を受信及び復号化するように構成される受信機／デコーダユニット１０を含む。また、ユニット１は、入力信号に関連するノイズネス計測値を提供するユニット２０を含む。ノイズネスユニット２０は、一実施形態に従って受信信号に基づいてノイズネス尺度を実際に判定するように構成されるか、あるいは更なる実施形態に従って通信システムの他のノードから、恐らくは受信信号の発信元であるノード又はユーザ端末からノイズネス尺度を受信するように構成される。更にコントローラ１は、ノイズネス尺度ユニット２０からのノイズネス尺度に基づいて再構成音声信号の平滑化を可能にする背景平滑ユニット３０を含む。

更なる実施形態において、ここでも図６を参照すると、コントローラ装置１は、図中の点線のボックスにより示されるような音声区間検出器又はＶＡＤ２５を含む。ＶＡＤ２５は、信号の音声成分のアクティブな状態を検出し、平滑ユニット３０における改善された平滑化を可能にするために更なる入力としてそれを提供するように動作する。

図７を参照すると、コントローラ装置１は、通信システムにおけるデコーダユニットに組み込まれるのが好ましい。しかし、図６を参照して説明したように、コントローラ１においてノイズネス尺度を提供するユニットは、通信システムの別のノードから通信されるノイズネス尺度を単に受信するように構成される。従って、符号化装置が図７において更に開示される。エンコーダは、信号を送信及び受信する一般的な入出力ユニットＩ／Ｏを含む。このユニットは、エンコーダが機能するのを可能にする全ての必要な周知の機能性を黙示的に開示する。１つのそのような機能性は、音声セッションを表す信号を符号化及び送信する符号化／送信ユニット１００として特に開示される。更にエンコーダは、送信信号に対するノイズネス尺度を判定するユニット２００及びコントローラ１のノイズネス提供器ユニット２０に判定したノイズネス尺度を通信するユニット３００を含む。

本発明の利点は以下を含む。
改善された背景雑音平滑化動作。
背景雑音平滑化の改善された制御。

本発明に対しては、特許請求の範囲により定義される本発明の範囲から逸脱することなく種々の変形や変更を行うことができることは、当業者には理解されよう。

Claims

通信音声セッションにおいて定常的な背景雑音を平滑化するための方法であって、
音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化するステップ（Ｓ１０）と、
前記信号のノイズネス尺度を提供するステップ（Ｓ２０）と、
前記提供されたノイズネス尺度に基づいて前記背景雑音成分を適応的に平滑化するステップ（Ｓ３０）と、
を有することを特徴とする方法。
前記ノイズネス尺度は、前記信号の予測性に基づくことを特徴とする請求項１に記載の方法。
前記ノイズネス尺度は、異なる次数のＬＰＣ分析フィルタリングに伴う予測誤差分散の比に基づくことを特徴とする請求項２に記載の方法。
前記ノイズネス尺度は、入力された前記信号の検出された狭帯域又は広帯域の成分に応答して適応されることを特徴とする請求項１に記載の方法。
前記平滑化の処理は、前記ノイズネス尺度によって直接制御されることを特徴とする請求項１に記載の方法。
前記平滑化の処理は、前記ノイズネス尺度によって間接的に制御されることを特徴とする請求項１に記載の方法。
前記平滑化は、前記ノイズネス尺度の検出された増加には徐々に従い前記ノイズネス尺度の検出された低下には即座に従う平滑化制御パラメータに基づいて実行されることを特徴とする請求項６に記載の方法。
前記ノイズネス尺度を提供するステップ（Ｓ２０）は、前記信号の各フレームに対して少なくとも１回実行されることを特徴とする請求項１に記載の方法。
前記ノイズネス尺度を提供するステップ（Ｓ２０）は、前記信号の前記各フレームの各サブフレームに対して実行されることを特徴とする請求項８に記載の方法。
前記音声成分のアクティビティ状態を検出し（Ｓ２５）、前記音声成分が非アクティブ状態であることに応答して前記適応的な平滑化を開始させるステップを更に有することを特徴とする請求項１乃至９のいずれか１項に記載の方法。
前記音声成分が非アクティブであることが検出されたことに応答して所定の遅延を伴って前記適応的な平滑化を開始することを特徴とする請求項１０に記載の方法。
所定の数より少ないフレームのスプリアスＶＡＤアクティベーションの直後に前記背景雑音の平滑化を再開することを特徴とする請求項１１に記載の方法。
前記遅延の終了時に前記平滑化の動作を徐々に開始することを特徴とする請求項１１に記載の方法。
前記音声成分がアクティブであることが検出されたことに応答して前記適応的な平滑化を直ちに終了することを特徴とする請求項１０に記載の方法。
通信システムにおける背景音の平滑化のためのコントローラであって、
音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する手段（１０）と、
前記信号のノイズネス尺度を提供する手段（２０）と、
前記提供されたノイズネス尺度に基づいて前記背景雑音成分を適応的に平滑化する手段（３０）と、
を有することを特徴とするコントローラ。
前記ノイズネス尺度を提供する手段（２０）は、ネットワークノードから前記ノイズネス尺度を受信することを特徴とする請求項１５に記載のコントローラ。
前記ノイズネス尺度を提供する手段（２０）は、受信され復号化された前記信号のＬＰＣパラメータに基づいて前記ノイズネス尺度を導出することを特徴とする請求項１５に記載のコントローラ。
前記音声成分のアクティビティ状態を検出する手段（２５）を更に有し、
前記平滑化する手段は、前記音声成分が非アクティブであることに応答して前記適応的な平滑化を開始することを特徴とする請求項１５に記載のコントローラ。
前記平滑化する手段（３０）は、前記音声成分が非アクティブであることが検出されたことに応答して所定の遅延を伴って前記適応的な平滑化を開始することを特徴とする請求項１８に記載のコントローラ。
前記平滑化する手段は、前記遅延の終了時に前記平滑化の動作を徐々に開始することを特徴とする請求項１８に記載のコントローラ。
前記平滑化する手段は、前記音声成分がアクティブであることが検出されたことに応答して前記適応な平滑化を直ちに終了することを特徴とする請求項１８に記載のコントローラ。
通信システムにおける復号化装置であって、
音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を受信し復号化する手段（１０）と、
前記信号のノイズネス尺度を提供する手段（２０）と、
前記提供されたノイズネス尺度に基づいて前記背景雑音成分を適応的に平滑化する手段（３０）と、
を有することを特徴とする復号化装置。
前記ノイズネス尺度を提供する手段は、ネットワークノードから前記ノイズネス尺度を受信することを特徴とする請求項２２に記載の復号化装置。
前記ノイズネス尺度を提供する手段は、受信され復号化された前記信号のＬＰＣパラメータに基づいて前記ノイズネス尺度を導出することを特徴とする請求項２２に記載の復号化装置。
通信システムにおける符号化装置であって、
音声セッションを表す信号であって音声成分及び背景雑音成分を含む信号を符号化してユーザ端末に送信する手段（１００）と、
前記送信された信号のノイズネス尺度を判定する手段（２００）と、
前記ユーザ端末において前記判定されたノイズネス尺度を提供する手段（３００）と、
を有することを特徴とする符号化装置。