JP2007525723A - 音声通信のためのコンフォートノイズ生成の方法 - Google Patents

音声通信のためのコンフォートノイズ生成の方法 Download PDF

Info

Publication number
JP2007525723A
JP2007525723A JP2007502119A JP2007502119A JP2007525723A JP 2007525723 A JP2007525723 A JP 2007525723A JP 2007502119 A JP2007502119 A JP 2007502119A JP 2007502119 A JP2007502119 A JP 2007502119A JP 2007525723 A JP2007525723 A JP 2007525723A
Authority
JP
Japan
Prior art keywords
random
excitation
excitations
adaptive
inactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007502119A
Other languages
English (en)
Inventor
ホスール、シャシ
ラムクマー、パーマチャナハリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2007525723A publication Critical patent/JP2007525723A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)

Abstract

本発明の一実施形態は、国際電気通信連合ITU−T G.729付録Bコンフォートノイズ生成アルゴリズムを、コンフォートノイズ生成アルゴリズムの計算の複雑性を低減することにより改良する。計算の複雑性は、事前計算済みの複数のランダムガウスノイズサンプルをそれぞれの非アクティブボイスフレームのために再使用することにより、付録Bで説明される新しい複数のランダムガウスノイズサンプルをそれぞれの非アクティブボイスフレームのために計算することに対して低減される。

Description

本発明の複数の実施形態は、複数の電気通信アプリケーションにおける音声圧縮に関し、より詳細には、インターネットまたはマルチメディア通信の間で話される複数の言葉の間の複数の無音時間を置き換えるためにコンフォートノイズを生成することに関する。
通信の代替となる複数のモードの急激な増加にもかかわらず、言語コミュニケーションは、しばしば、情報を交換するための好まれる方法である。特に、電話通信は、二人の仲間の間で話すことおよび聞くことが世界中に広がることを可能にした。現在のディジタルおよびインターネット技術と、ボイスコミュニケーションとの交わりは、しかしながら、複数の挑戦がないわけではない。
1つのそのような挑戦は、利用可能な帯域幅を効果的に活用することである。複数のディジタル通信システムは、必然的に、アナログボイス信号またはオーディオ信号を複数のディジタル信号に変換することを必要とする。複数のディジタル信号は、それらがそれらの目的地へナビゲートするにつれ、順に帯域幅を占有する。帯域幅を最大にすること、およびその効果的な活用は、インターネットおよびマルチメディア通信のための偏在する複数の関心事である。
他の挑戦は、複数のユーザになじんだ、および快適な通信環境を作ることである。ボイスおよびノイズ通信のためのベンチマークは、電話である。電話通信は、複数の音、複数の屈折、複数のニュアンス、および言語コミュニケーションの他の複数の特性をふんだんに含む。言語コミュニケーションが利用できる特別な複数の特徴は、文脈をコミュニケーションに加え、インターネットまたはマルチメディア通信の複数のアプリケーションに保持されるべきである。その上、電話コールの間、それぞれのコール参加者は、概して他方で起きていることを聞くことができるという意味では、接続は常に解放されている。不幸なことに、いずれのボイスも伴わない無音、または背景ノイズの送信は、ほとんどの通信アプリケーション対して非効率な帯域幅使用である。
国際電気通信連合推薦規格G.729(「G.729」)は、インターネットおよびマルチメディア通信のための複数の固定レート音声コーダを説明する。詳細には、複数のコーダは、音声およびオーディオ信号を、8kHzのサンプルレートで8kbpsまで圧縮する。コーディングアルゴリズムは、共役構造代数符号励振線形予測(「CS−ACELP」)を使用し、符号励振線形予測(「CELP」)コーディングモデルに基づく。コーダは、8000サンプル毎秒の80のサンプルに対応する複数の10ミリ秒音声フレーム上で動作する。それぞれの送信されたフレームは、第一に、複数の線形予測フィルタ係数、複数の適応および固定コードブックインデックス、および複数のゲインなどの複数のCELPモデルパラメータを抽出するために解析される。複数のパラメータは、エンコードされ、送信される。デコーダ側にて、音声は、10次線形予測に基づいて短期合成フィルタ(short−term synthesis filter)を使用することにより再構築される。デコーダは、さらに、適応コードブックアプローチに基づいて長期合成フィルタ(long−term synthesis filter)を使用する。再構築された音声は、音声の質を向上させるためにフィルタ後処理される。
G.729付録B(「付録B」)は、ボイスアクティビティ検出(「VAD」)、断続送信(「DTX」)、およびコンフォートノイズ生成(「CNG」)アルゴリズムを定義する。G.729と共に、付録Bは、G.729単体により作成されたリスニング環境および帯域幅活用を改良することを試みる。つまり、および図1を参照して、付録Bにより使用される複数のアルゴリズムおよび複数のシステムは、VAD104を伴いボイスアクティビティの存在または不在を検出する。VAD104がボイスアクティビティを検出した場合、それは、アクティブボイスエンコーダ103をトリガし、通信チャネル105上にエンコードされたボイスコミュニケーションを送信し、再構築された音声109を元に戻すためにアクティブボイスデコーダ108を使用する。VAD104がボイスアクティビティを検出しない場合、それは、非アクティブボイスエンコーダ102をトリガし、それは、通信チャネル105および非アクティブボイスデコーダ107と共に、再構築された音声109を送信し、元に戻す。
再構築された音声の本質は、VAD104がボイスアクティビティを検出したかどうかに依存する。VAD104がボイスアクティビティを検出する場合、再構築された音声109は、通信チャネル105上に送信されたエンコードされ、デコードされたボイスである。VAD104がボイスアクティビティを検出しない場合、再構築された音声109は、付録B CNGアルゴリズムによるコンフォートノイズである。概して、50%より多くの時間において音声通信が話される複数の語句の間の複数の間隔に進むことが与えられ、通信環境に干渉しないで複数の非音声間隔の複数の帯域幅要求を低減する複数の方法が望まれる。
ITU−T G.729アネックスBによるエンコーダおよびデコーダの先行技術のブロック図である。
ITU−T G.729アネックスBによる先行技術のコンフォートノイズ生成フローチャートである。
本発明の一実施形態によるコンフォートノイズ生成フローチャートである。
発明の詳細な説明
音声コミュニケーションのためにコンフォートノイズを生成するための方法の複数の実施形態が、説明される。参照は、複数の図面にて説明されたように、これら複数の実施形態の説明に詳細にされる。複数の実施形態は、これら複数の図面に関連して説明されるが、複数の実施形態をここで開示される複数の図面に制限する意図はない。逆に、意図は、添付の複数の請求項により定義される説明される複数の実施形態の精神および範囲内の変形例、変更態様および等価物を網羅することである。
簡単に言えば、本発明の一実施形態は、コンフォートノイズ生成アルゴリズムの計算量を減らすことにより、G.729付録Bコンフォートノイズ生成アルゴリズムを改良することである。計算量は、付録Bに説明されるように、それぞれの非アクティブボイスフレームのための新しい複数のランダムガウスノイズサンプルを計算することに対して、それぞれの非アクティブボイスフレームのための事前計算済みの複数のランダムガウスノイズサンプルを再使用することにより、減らされる。
説明されたように、複数のインターネットおよびマルチメディア音声コミュニケーションアプリケーションは、同時に許容可能な通信環境を保持する最大化された帯域幅の活用から恩恵を受ける。ITU−T推薦規格G.729において、国際電気通信連合は、共役構造代数符号励振線形予測(CS−ACELP)を用いて8kbit/sの音声のコーディングを説明する。付加物Bは、推薦規格V.70に適合する複数の端末のために最適化されるG.729のための無音圧縮スキームを加える。本発明の一実施形態がその上で改善するにつれ、それぞれは、説明される。
G.729コーダは、8000サンプル毎秒で80サンプルに相当する複数の10ミリ秒音声フレーム上で動作する。それぞれの送信されたフレームは、第一に、複数のCELPモデルパラメータを抽出するために解析される。複数のパラメータは、複数のラインスペクトラムペア(「LSP」)、適応コードブック遅延、ピッチ遅延パリティ、固定コードブックインデックス、固定コードブック符号、複数のコードブックゲイン(ステージ1)、および複数のコードブックゲイン(ステージ2)を有する。複数のパラメータは、ボイス信号と共にエンコードされ、通信チャネル上に送信される。
デコーダ側では、複数のパラメータインデックスが抽出され、与えられた10ミリ秒ボイスデータフレームのための複数のコーダパラメータを取り出すためにデコードされる。それぞれの5ミリ秒サブフレームに対して、複数のLSP[define acronym]係数が、複数の線形予測フィルタ係数を決定する。それぞれのゲインによりスケーリングされる適応コードブックベクタと固定コードブックベクタとの合計は、励振を決定する。音声信号は、その後、励振をLP合成フィルタに通してフィルタリングすることにより、再構築される。再構築されたボイス信号は、その後、質を良くするためにさまざまな後処理段階を経験する。
付録Bをエンコードおよびデコードプロセスに組み込むことは、付加的な複数のアルゴリズム段階を加える。複数の付加的なアルゴリズムは、ボイスアクティビティ検出、断続送信、およびコンフォートノイズ生成を含む。それぞれは、順に説明される。
VADの目的は、ボイスアクティビティが入力信号内に存在するかどうかを決定することである。VADがボイスアクティビティを検出する場合、信号は、G.729推薦規格によってエンコードされ、送信され、デコードされる。VADがボイスアクティビティを検出しない場合、それは、許容可能なリスニング環境を維持しながら非ボイス信号の帯域幅要求を低減するためのDTXおよびCNGアルゴリズムを呼び出す。
特に、VADは、複数の10ミリ秒フレームに従って動作し、到着信号から、全および低帯域フレームエネルギー、複数のラインスペクトラム周波数(「LSF」)の一式、ならびにフレームゼロクロッシングレートの4つのパラメータを抽出する。VADは、ボイスアクティビティが存在するかどうかを瞬間的には判断しないので(例えば、ボイスと非ボイスとの間で素早く切り替わるために敏感な検出を有することは、望ましくない)、それは、抽出された複数のパラメータの複数の長期平均を構築するための初期プロシージャを使用する。VADアルゴリズムは、その後、現在の複数のフレームパラメータと複数のパラメータの現行の複数の平均との間の差である複数の差パラメータの一式を計算する。複数の差パラメータは、スペクトラム歪み、エネルギー差、低帯域エネルギー差、およびゼロクロッシング差である。
VADは、その後、4つの差パラメータに基づいて、それがボイスアクティビティを検出するかどうかの最初の決定をする。VDA決定が、それがアクティブボイス信号を受信することである場合、現行の複数の平均は更新されない。VAD決定が、それがアクティブボイス信号を受信しない場合(例えば、背景ノイズを表す非アクティブボイス信号)、背景ノイズの複数のパラメータが特定の閾値基準を満たすならば、現在の平均は更新される。最初のVAD決定は、ボイス信号の長期静止性質を反映するために、さらに滑らかにされる。
VADは、条件を満たすと、即座に、複数のパラメータおよび複数の差パラメータの現行の平均を更新する。VADは、複数のパラメータの現行の平均を更新するために一次自己回帰スキームを使用する。自己回帰スキームのための複数の係数は、それぞれのパラメータのために異なる。そして、そのことは、アクティブボイス信号のはじまりまたはVADが大きなノイズもしくはボイス信号特性変化を検出する時の間に使用される複数の係数である。
意図された結果は、VADが到着信号がアクティブボイスを意味するかどうか、または、それが無音もしくは低い平均ビットレートで表される背景ノイズであるかどうかについての正確で安定した決定をするということである。データフレームは、非アクティブボイスフレームであるとVADが一旦決定すると、DTXおよびCNGアルゴリズムは、断続送信およびコンフォートノイズ生成を加えることにより無音圧縮スキームを完了する。
DTXは、複数の非アクティブボイスフレーム(VADアルゴリズムにより決定される)上で、更新された複数のパラメータが非アクティブボイスデコーダに送られるべきか否かを判断するために動作する。非アクティブボイスデコーダを更新するDTX決定は、フレームエネルギーおよびスペクトラム歪み測定の絶対的および適応的な複数の閾値に依存する。決定が複数のパラメータを決定することである場合、非アクティブボイスエンコーダは、適切な複数のパラメータをエンコードし、更新された複数のパラメータを非アクティブボイスデコーダに送信する。非アクティブボイスデコーダは、更新された複数のパラメータに基づいて非アクティブボイス信号を生成できる。フレームが絶対のまたは適応的な複数の閾値をトリガしない場合、非アクティブボイスデコーダは、最近受信された更新に基づいて非アクティブボイス信号を生成することを継続する。結果は、VADがアクティブボイス信号でないと決定する信号を模倣する非アクティブボイス信号を非アクティブボイスデコーダが生成するということである。加えて、非アクティブボイス信号によって表される背景ノイズが著しく変化する場合に、非アクティブボイス信号は更新されることができるが、背景ノイズを安定のままにしなくてはならない非アクティブボイス信号デコーダを常にアップデートすることによりバンド幅を消費しない。
VADがボイスアクティビティを検出しない場合、非アクティブボイスデコーダは、コンフォートノイズを生成する。CNGは、制御された擬似ランダム(すなわち、コンピュータ生成されたランダム)励振信号を複数のLPC[define acronym]フィルタに導入することによりコンフォートノイズを生成する。非アクティブボイスデコーダは、その後、アクティブボイス信号と同じように非アクティブボイス信号を生成する。擬似ランダム励振は、アクティブボイス励振およびランダムガウス励振の混合である。付録Bによれば、ランダムガウスノイズは、それぞれの非アクティブボイスフレームの2つのサブフレーム内の40サンプルのそれぞれのために計算される。それぞれのサブフレームに対して、コンフォートノイズ生成励振は、固定のドメイン内のピッチ遅延を選択することにより開始する。次に、複数の固定コードブックパラメータは、コードブック格子内のランダムな選択により生成される。そして、適応励振信号が計算される。複数の固定コードブックパラメータおよびランダム励振は、合成励振信号を形成するために結合される。合成励振信号は、その後、アクティブボイス信号により要求される送信帯域幅を消費することなく通信の間に背景ノイズを模倣するために設計されるコンフォートノイズを生成するために使用される。
アクティブボイス信号送信の間(すなわちアクティブボイスフレーム)、アクティブボイスエンコーダおよびアクティブボイスデコーダは、アクティブボイス信号をエンコードおよびデコードするために15個のパラメータを使用する。非アクティブボイスまたは無音フレームの間、4つのパラメータのみが、背景ノイズまたは複数の周囲条件を通信するために使用される。
説明されたように、付録Bにより提供されるCNGアルゴリズムは、非アクティブボイスエンコーダおよび非アクティブボイスデコーダに、全ての非アクティブボイスフレームのためのランダムガウスノイズを生成させる。全ての非アクティブボイスフレームのために生成されるランダムノイズは、ボイス信号内の急激な変化を平滑にするために、前のフレーム(アクティブボイスまたは非アクティブボイス)からの励振で補間される。インターネットまたはマルチメディア通信の50%以上が非アクティブまたは無音であるので、ランダムノイズ生成は、不必要にプロセッサ帯域幅を消費する。例えば、付録Bアルゴリズムによりランダムノイズを生成することは、非アクティブボイスフレームにつきおよそ11,000サイクルを要求する。
本発明の一実施形態は、エンコーダにおいてそれぞれの非アクティブボイスフレームのための新しいガウスランダムノイズを生成することのステップを改善する。ガウス乱数の本質を考えると、任意の既知のフレームのために生成されるランダムノイズは、任意の他の非アクティブフレームのために生成されるランダムノイズと同じ統計上の複数の特徴を有する。実際の背景または周囲条件が変化するにつれ、複数のスケール要因が、合成励振信号(コンポーネントであるランダムノイズ)を実際の環境に適合させるために使用される。つまり、複数のスケール要因を変えることのみが、スケーリングされたランダムノイズおよび結果の合成励振信号を複数の周囲ノイズ条件におよそ適合させるために十分なので、エンコーダは、それぞれの非アクティブボイスフレームのために新しいランダムノイズ信号を生成する必要はない。本発明の一実施形態は、ノイズサンプルテンプレートを作成するためにランダムガウスノイズを事前計算し、事前計算されたノイズをそれぞれの続いて起こるアクティブボイスフレームのために合成フィルタを励起するために再使用する。一実施形態において、ランダムガウスノイズの80サンプルがあり、複数のサンプルは、80エントリルックアップテーブル内に記憶される。ノイズの統計的なおよびスペクトラムの本質が送信される信号内に保有されるのであれば、ランダムノイズの正確な値は重要ではなく、デコーダで再生成される必要もない、事前計算されたランダムノイズを再使用することは、付録B CNGアルゴリズムを実装するためのおよそ11,000プロセッササイクルに対して、非アクティブボイスフレームにつきおよそ320プロセッササイクルを要求する。およそ40倍のプロセッササイクルの節約に関連するコンフォートノイズの質における明らかな低下は、ほとんど無く、または無い。
例えば非アクティブボイスフレームを送信すること、および受信することに関連する遅延は、伝播遅延およびアルゴリズム遅延に依存する。伝播遅延は、コンフォートノイズ生成アルゴリズムの選択に依存せず、一方、定義によるアルゴリズム遅延は、アルゴリズムに依存する。上記で説明されたように、付録B CNGアルゴリズムは、非アクティブボイスフレームにつきおよそ11,000プロセッササイクルを要求し、一方、本発明の一実施形態のCNGアルゴリズムは、およそ320プロセッササイクルを要求する。複数のプロセッササイクルの低減は、アルゴリズム遅延を減らし、順に、非アクティブボイスフレームを送信することおよび受信することに関連する全体の遅延を減らす。全体遅延の低減は、ユーザがおそらく伝播遅延のみ(例えば従来の電話システムの遅延)に親しみやすく、および快適であるので、リスニング環境を改善する。
先行技術において特に、および図2に説明されるように、付録B CNGアルゴリズムの一部は、スタート(201)で開始する。現行フレームのゲインがゼロの場合、アルゴリズムは、励振に複数のゼロを埋め込む(202)。アルゴリズムは、ランダムな複数の適応コードブックおよび固定コードブックパラメータを生成する(203)。ガウス励振の40個の新しいサンプルが、その後、それぞれのサブフレームのために生成される(204)。ランダムな適応励振が生成される(205)。現在の励振は、適応およびガウス励振を加えることにより計算され、現在の励振は、再スケーリングされる(206)。アルゴリズムは、その後、固定コードブックゲインを計算し(207)、現在の励振をACELP励振で更新する(208)。プロセスは、全てのサブフレームのためにループとなる(209)。それは、非アクティブボイスサブフレームであり、サブフレームがアクティブボイスフレームとなるポイントでループは止まる(210)。
図3は、本発明の一実施形態を表すフローチャートを説明する。一実施形態のアルゴリズムの一部は、スタート(301)で開始する。現在のフレームのゲインがゼロの場合、アルゴリズムは、励振に複数のゼロを埋め込む(302)。アルゴリズムは、その後、ランダムな複数の適応コードブックおよび固定コードブックパラメータを生成する(303)。アルゴリズムは、ガウス励振を生成するために80エントリルックアップテーブル(すなわち、80個のガウスノイズサンプル)から事前に計算された複数のガウスノイズサンプルを使用する(304)。ランダムな適応励振が生成される(305)。現在の励振は、適応およびガウス励振を加えることにより計算され、現在の励振は、再スケーリングされる(306)。アルゴリズムは、その後、固定コードブックゲインを計算し(307)、現在の励振をACELP励振で更新する(308)。プロセスは、非アクティブボイスサブフレームである全てのサブフレームのために、サブフレームがアクティブボイスフレームであるまでループとなり、アクティブボイスフレームのポイントで、ループは止まる(310)。
新しい改良は、エンコーダが、全てのサブフレームのためにガウスノイズを生成すること(204)と例えば80エントリルックアップテーブルからの事前に計算されたガウスノイズを再使用すること(304)との差異にある。本発明の一実施形態の恩恵は、それが、コンフォートノイズ生成の計算量および対応するアルゴリズム遅延減らすことである。詳細には、エンコーダでの全ての非アクティブボイスフレームのために新しい乱数が生成される必要はなく、むしろ、1フレームの期間を網羅する乱数の一式が計算され、リスナーに、いずれの知覚できる低下および歪みを生じさせることなく、コンフォートノイズ生成を引き起こす全ての他の非アクティブボイスフレームに再使用される。本発明の一実施形態は、事前計算された複数の乱数の配列またはテンプレートを使用することにより、適応ホワイトガウスノイズ(「AWGN」)の連続実時間計算の必要を低減する。事前計算された複数の乱数の配列は、全ての複数のコンフォートノイズフレームのために合成フィルタを適合させるために再使用される。結果は、本発明の一実施形態が、エンコーダにおいて全てのコンフォートノイズフレームのために、コンフォートノイズ生成の最も計算的に要求する要素を単純化することである。
付録B VAD、DTX、およびCNG要素のゴールは、本発明の一実施形態により、よりよくかなわれ、実施形態は、等しくきょ用可能な、例えば、インターネットおよびマルチメディア通信環境を生成し、一方、複数のコンピューティングリソースをほとんど消費しない。説明されたように、生成されたコンフォートノイズの質に明らかな低下はなく、プロセッサ帯域幅の節約は、顕著である。
アルゴリズムは、インターネットおよびマルチメディア通信に制限されず、任意の電気通信アプリケーションに組み込まれることができ、本発明の一実施形態のCNGアルゴリズムの低減された複数の計算要求から利益をえることを留意することが重要である。その上、CNGアルゴリズムは、付録B標準規格のエンコーダ側を参照して説明されたが、本発明の一実施形態のCNGアルゴリズムの使用は、付録Bに制限されない。それどころか、CNGアルゴリズム、特に事前に計算された複数の乱数の再使用は、任意のコンフォートノイズ生成スキームに適用されることができる。
当業者であれば、無音の期間に背景ノイズを正確に模倣するコンフォートノイズを生成することの計算量を減らす開示された実施形態の簡潔さを理解するであろう。それは、快適な通信環境を作るための改良されたソリューションであり、そうするためにプロセッサの負荷を低減する。

Claims (40)

  1. 複数のランダムノイズサンプルに基づいて複数のランダム励振を計算する段階と、
    前記複数のランダム励振を記憶する段階と、
    信号内のボイスアクティビティを検出する段階と、
    ボイスアクティビティが検出されない場合、非アクティブボイス信号を生成するために前記信号をエンコードする段階と
    を備え、
    前記信号をエンコードする段階は、
    非アクティブボイスフレームのために前記複数のランダム励振の1つに基づいて現在の励振を計算する段階、および
    他の複数の非アクティブボイスフレームのために前記現在の複数の励振を計算するために前記複数のランダム励振を再使用する段階
    を有する方法。
  2. 前記非アクティブボイスフレームがゼロの場合、前記現在の励振に複数のゼロを埋め込む段階をさらに備える請求項1に記載の方法。
  3. ランダムな複数の適応コードブックパラメータおよび複数の固定コードブックパラメータを生成する段階をさらに備える請求項2に記載の方法。
  4. 前記ランダムな複数の適応コードブックパラメータに基づいてランダムな適応励振を生成する段階、
    前記ランダムな適応励振と前記複数のランダム励振の1つとの合計を計算する段階、および
    前記ランダムな適応励振と前記複数のランダム励振の1つとの前記合計と共に前記現在の励振を再スケーリングする段階
    をさらに備える請求項3に記載の方法。
  5. 前記複数の固定コードブックパラメータに基づいて固定コードブックゲインを計算する段階、
    代数符号励振型線形予測励振と共に現在の励振を更新する段階、および
    前記他の複数の非アクティブボイスフレームのためにルーピングする段階
    をさらに備える請求項4に記載の方法。
  6. 前記複数のランダムノイズサンプルは、複数のガウスノイズサンプルである請求項1に記載の方法。
  7. コンテントを備え、
    アクセスするマシンにより前記コンテントが実行された場合、前記コンテントは、前記アクセスするマシンに、
    複数のランダムノイズサンプルに基づいて複数のランダム励振を計算する段階と、
    前記複数のランダム励振を記憶する段階と、
    信号内のボイスアクティビティを検出する段階と、
    ボイスアクティビティが検出されない場合、非アクティブボイス信号を生成するために前記信号をエンコードする段階と
    を備え、
    前記信号をエンコードする段階は、
    非アクティブボイスフレームのために前記複数のランダム励振の1つに基づいて現在の励振を計算する段階、および
    他の複数の非アクティブボイスフレームのために前記現在の複数の励振を計算するために前記複数のランダム励振を再使用する段階
    を有する方法を実装させる記憶媒体。
  8. コンテントを備え、
    アクセスするマシンにより前記コンテントが実行された場合、前記コンテントは、前記アクセスするマシンに、前記非アクティブボイスフレームがゼロの場合、前記現在の励振に複数のゼロを埋め込む段階をさらに有する前記方法を実装させる請求項7に記載の記憶媒体。
  9. コンテントを備え、
    アクセスするマシンにより前記コンテントが実行された場合、前記コンテントは、前記アクセスするマシンに、ランダムな複数の適応コードブックパラメータおよび複数の固定コードブックパラメータを生成する段階をさらに有する前記方法をさらに実装させる請求項8に記載の記憶媒体。
  10. コンテントを備え、
    アクセスするマシンにより前記コンテントが実行された場合、前記コンテントは、前記アクセスするマシンに、
    前記ランダムな複数の適応コードブックパラメータに基づいてランダムな適応励振を生成する段階、
    前記ランダムな適応励振と前記複数のランダム励振の1つとの合計を計算する段階、および
    前記ランダムな適応励振と前記複数のランダム励振の1つとの前記合計と共に前記現在の励振を再スケーリングする段階
    をさらに有する前記方法を実装させる請求項9に記載の記憶媒体。
  11. コンテントを備え、
    アクセスするマシンにより前記コンテントが実行された場合、前記コンテントは、前記アクセスするマシンに、
    前記複数の固定コードブックパラメータに基づいて固定コードブックゲインを計算する段階、
    代数符号励振型線形予測励振と共に現在の励振を更新する段階、および
    前記他の複数の非アクティブボイスフレームのためにルーピングする段階
    をさらに有する方法を実装させる請求項10に記載の記憶媒体。
  12. 前記複数のランダムノイズサンプルは、複数のガウスノイズサンプルである請求項7に記載の記憶媒体。
  13. 通信チャネルに結合されたエンコーダであって、非アクティブボイスフレームのために複数のランダム励振の1つに基づいて現在の励振を計算するべく、および他の複数の非アクティブフレームのために前記現在の複数の励振を計算するために前記複数のランダム励振を再使用するべく構成されるエンコーダと、
    非アクティブボイス信号を検出するために前記エンコーダに結合されたボイスアクティビティ検出部と、
    前記通信チャネルに結合されたデコーダであって、前記ボイスアクティビティ検出部が前記非アクティブボイス信号を検出した場合にコンフォートノイズを生成するためのコンフォートノイズ生成部をさらに有するデコーダと、
    を備える装置。
  14. 前記コンフォートノイズ生成部は、前記非アクティブボイスフレームのゲインがゼロの場合、前記現在の励振に複数のゼロを埋め込むべくさらに構成される請求項13に記載の装置。
  15. 前記コンフォートノイズ生成部は、ランダムな複数の適応コードブックパラメータおよび複数の固定コードブックパラメータを生成するべくさらに構成される請求項14に記載の装置。
  16. 前記コンフォートノイズ生成部は、
    前記ランダムな複数の適応コードブックパラメータに基づいてランダムな適応励振を生成するべく、
    前記ランダムな適応励振と前記複数のランダム励振の1つとの合計を計算するべく、および
    前記ランダムな適応励振と前記複数のランダム励振の1つとの前記合計と共に前記現在の励振を再スケーリングするべく、
    さらに構成される請求項15に記載の装置。
  17. 前記コンフォートノイズ生成部は、
    前記複数の固定コードブックパラメータに基づいて固定コードブックゲインを計算するべく、
    代数符号励振型線形予測励振と共に前記現在の励振を更新するべく、および
    前記他の複数の非アクティブボイスフレームのためにループになるべく、
    さらに構成される請求項16に記載の装置。
  18. 前記複数のランダム励振は、複数のランダムノイズサンプルに基づく請求項13に記載の装置。
  19. 前記複数のランダムノイズサンプルは、複数のガウスノイズサンプルである請求項18に記載の装置。
  20. コンテントを備え、
    前記コンテントがアクセスするマシンにより実行された場合、前記コンテントは、前記アクセスするマシンに、
    通信チャネルに結合されたエンコーダであって、非アクティブボイスフレームのために複数のランダム励振の1つに基づいて現在の励振を計算するべく、および他の複数の非アクティブフレームのために前記現在の複数の励振を計算するために前記複数のランダム励振を再使用するべく構成されるエンコーダと、
    非アクティブボイス信号を検出するために前記エンコーダに結合されたボイスアクティビティ検出部と、
    前記通信チャネルに結合されたデコーダであって、前記ボイスアクティビティ検出部が前記非アクティブボイス信号を検出した場合にコンフォートノイズを生成するためのコンフォートノイズ生成部をさらに有するデコーダと、
    を生成させる記憶媒体。
  21. 前記コンフォートノイズ生成部は、前記非アクティブボイスフレームのゲインがゼロの場合、前記現在の励振に複数のゼロを埋め込むべくさらに構成される請求項20に記載の記憶媒体。
  22. 前記コンフォートノイズ生成部は、ランダムな複数の適応コードブックパラメータおよび複数の固定コードブックパラメータを生成するべくさらに構成される請求項21に記載の記憶媒体。
  23. 前記コンフォートノイズ生成部は、
    前記ランダムな複数の適応コードブックパラメータに基づいてランダムな適応励振を生成するべく、
    前記ランダムな適応励振と前記複数のランダム励振の1つとの合計を計算するべく、および
    前記ランダムな適応励振と前記複数のランダム励振の1つとの前記合計と共に前記現在の励振を再スケーリングするべく、
    さらに構成される請求項22に記載の記憶媒体。
  24. 前記コンフォートノイズ生成部は、
    前記複数の固定コードブックパラメータに基づいて固定コードブックゲインを計算するべく、
    代数符号励振型線形予測励振と共に前記現在の励振を更新するべく、および
    前記他の複数の非アクティブボイスフレームのためにループになるべく、
    さらに構成される請求項23に記載の記憶媒体。
  25. 前記複数のランダム励振は、複数のランダムノイズサンプルに基づく請求項20に記載の記憶媒体。
  26. 前記複数のランダムノイズサンプルは、複数のガウスノイズサンプルである請求項25に記載の記憶媒体。
  27. 非アクティブボイス信号をエンコードする段階を備え、
    前記エンコードする段階は、
    非アクティブボイスフレームのために複数のランダム励振の1つに基づいて現在の励振を計算する段階、および
    他の複数の非アクティブボイスフレームのために前記複数の現在の励振を計算するために前記複数のランダム励振を再使用する段階を有する方法。
  28. 前記非アクティブボイスフレームのゲインがゼロの場合、前記現在の励振に複数のゼロを埋め込む段階をさらに備える請求項27に記載の方法。
  29. ランダムな複数の適応コードブックパラメータおよび複数の固定コードブックパラメータを生成する段階をさらに備える請求項28に記載の方法。
  30. 前記ランダムな複数の適応コードブックパラメータに基づいてランダムな適応励振を生成する段階、
    前記ランダムな適応励振と前記複数のランダム励振の1つとの合計を計算する段階、および
    前記ランダムな適応励振と前記複数のランダム励振の1つとの前記合計と共に前記現在の励振を再スケーリングする段階、
    をさらに備える請求項29に記載の方法。
  31. 前記複数の固定コードブックパラメータに基づいて固定コードブックゲインを計算する段階、
    代数符号励振型線形予測励振と共に前記現在の励振を更新する段階、および
    前記他の複数の非アクティブボイスフレームのためにループになる段階、
    をさらに備える請求項30に記載の方法。
  32. 前記複数のランダム励振は、複数のランダムノイズサンプルに基づく請求項27に記載の方法。
  33. 前記複数のランダムノイズサンプルは、複数のガウスノイズサンプルである請求項32に記載の方法。
  34. 非アクティブボイスフレームのために複数のランダム励振の1つに基づいて現在の励振を計算するべく、および他の複数の非アクティブフレームのために前記現在の複数の励振を計算するために前記複数のランダム励振を再使用するべく構成されるエンコーダを備える装置。
  35. 前記エンコーダは、前記非アクティブボイスフレームのゲインがゼロの場合、前記現在の励振に複数のゼロを埋め込むべくさらに構成される請求項34に記載の装置。
  36. 前記エンコーダは、ランダムな複数の適応コードブックパラメータおよび複数の固定コードブックパラメータを生成するべくさらに構成される請求項35に記載の装置。
  37. 前記エンコーダは、
    前記ランダムな複数の適応コードブックパラメータに基づいてランダムな適応励振を生成するべく、
    前記ランダムな適応励振と前記複数のランダム励振の1つとの合計を計算するべく、および
    前記ランダムな適応励振と前記複数のランダム励振の1つとの前記合計と共に前記現在の励振を再スケーリングするべく、
    さらに構成される請求項36に記載の装置。
  38. 前記エンコーダは、
    前記複数の固定コードブックパラメータに基づいて固定コードブックゲインを計算するべく、
    代数符号励振型線形予測励振と共に前記現在の励振を更新するべく、および
    前記他の複数の非アクティブボイスフレームのためにループになるべく、
    さらに構成される請求項37に記載の装置。
  39. 前記複数のランダム励振は、複数のランダムノイズサンプルに基づく請求項34に記載の装置。
  40. 前記複数のランダムノイズサンプルは、複数のガウスノイズサンプルである請求項39に記載の装置。
JP2007502119A 2004-03-15 2005-03-14 音声通信のためのコンフォートノイズ生成の方法 Pending JP2007525723A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/802,135 US7536298B2 (en) 2004-03-15 2004-03-15 Method of comfort noise generation for speech communication
PCT/US2005/008608 WO2005091273A2 (en) 2004-03-15 2005-03-14 Method of comfort noise generation for speech communication

Publications (1)

Publication Number Publication Date
JP2007525723A true JP2007525723A (ja) 2007-09-06

Family

ID=34920887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007502119A Pending JP2007525723A (ja) 2004-03-15 2005-03-14 音声通信のためのコンフォートノイズ生成の方法

Country Status (6)

Country Link
US (1) US7536298B2 (ja)
EP (1) EP1726006A2 (ja)
JP (1) JP2007525723A (ja)
KR (1) KR100847391B1 (ja)
CN (1) CN101069231A (ja)
WO (1) WO2005091273A2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080059161A1 (en) * 2006-09-06 2008-03-06 Microsoft Corporation Adaptive Comfort Noise Generation
CN101335003B (zh) * 2007-09-28 2010-07-07 华为技术有限公司 噪声生成装置、及方法
CN101453517B (zh) * 2007-09-28 2013-08-07 华为技术有限公司 噪声生成装置、及方法
CN101226741B (zh) * 2007-12-28 2011-06-15 无敌科技(西安)有限公司 一种活动语音端点的侦测方法
US8560307B2 (en) * 2008-01-28 2013-10-15 Qualcomm Incorporated Systems, methods, and apparatus for context suppression using receivers
CN101339767B (zh) * 2008-03-21 2010-05-12 华为技术有限公司 一种背景噪声激励信号的生成方法及装置
US20140278380A1 (en) * 2013-03-14 2014-09-18 Dolby Laboratories Licensing Corporation Spectral and Spatial Modification of Noise Captured During Teleconferencing
CN105336339B (zh) 2014-06-03 2019-05-03 华为技术有限公司 一种语音频信号的处理方法和装置
CN106531175B (zh) * 2016-11-13 2019-09-03 南京汉隆科技有限公司 一种网络话机柔和噪声产生的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04264500A (ja) * 1990-10-19 1992-09-21 Fr Telecom 音声信号伝送方法および音声信号伝送装置
JPH1097292A (ja) * 1996-01-29 1998-04-14 Texas Instr Inc <Ti> 音声信号伝送方法および不連続伝送システム
JPH10190498A (ja) * 1996-11-15 1998-07-21 Nokia Mobile Phones Ltd 不連続伝送中に快適雑音を発生させる改善された方法
JP2003076394A (ja) * 2001-08-31 2003-03-14 Fujitsu Ltd 音声符号変換方法及び装置
US6782361B1 (en) * 1999-06-18 2004-08-24 Mcgill University Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2108623A1 (en) 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6226607B1 (en) * 1999-02-08 2001-05-01 Qualcomm Incorporated Method and apparatus for eighth-rate random number generation for speech coders
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
US7246059B2 (en) * 2002-07-26 2007-07-17 Motorola, Inc. Method for fast dynamic estimation of background noise
US8879432B2 (en) * 2002-09-27 2014-11-04 Broadcom Corporation Splitter and combiner for multiple data rate communication system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04264500A (ja) * 1990-10-19 1992-09-21 Fr Telecom 音声信号伝送方法および音声信号伝送装置
JPH1097292A (ja) * 1996-01-29 1998-04-14 Texas Instr Inc <Ti> 音声信号伝送方法および不連続伝送システム
JPH10190498A (ja) * 1996-11-15 1998-07-21 Nokia Mobile Phones Ltd 不連続伝送中に快適雑音を発生させる改善された方法
US6782361B1 (en) * 1999-06-18 2004-08-24 Mcgill University Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system
JP2003076394A (ja) * 2001-08-31 2003-03-14 Fujitsu Ltd 音声符号変換方法及び装置

Also Published As

Publication number Publication date
US7536298B2 (en) 2009-05-19
WO2005091273A2 (en) 2005-09-29
KR100847391B1 (ko) 2008-07-18
US20050203733A1 (en) 2005-09-15
KR20060121990A (ko) 2006-11-29
EP1726006A2 (en) 2006-11-29
CN101069231A (zh) 2007-11-07
WO2005091273A3 (en) 2007-03-29

Similar Documents

Publication Publication Date Title
KR102636424B1 (ko) 스테레오 사운드 신호의 좌측 및 우측 채널들을 디코딩하는 방법 및 시스템
US5960389A (en) Methods for generating comfort noise during discontinuous transmission
RU2469419C2 (ru) Способ и устройство для управления сглаживанием стационарного фонового шума
JP3432822B2 (ja) 可変速度ボコーダ
RU2325707C2 (ru) Способ и устройство для эффективного маскирования стертых кадров в речевых кодеках на основе линейного предсказания
KR101147878B1 (ko) 코딩 및 디코딩 방법 및 장치
JP2007525723A (ja) 音声通信のためのコンフォートノイズ生成の方法
US20050137864A1 (en) Audio enhancement in coded domain
JP2003076394A (ja) 音声符号変換方法及び装置
JP3955179B2 (ja) 音声符号化装置、音声復号化装置、およびこれらの方法
WO2008148321A1 (fr) Appareil de codage et de décodage et procédé de traitement du bruit de fond et dispositif de communication utilisant cet appareil
JPH02155313A (ja) 符号化方法
US6424942B1 (en) Methods and arrangements in a telecommunications system
CA2378035A1 (en) Coded domain noise control
US20130085751A1 (en) Voice communication system encoding and decoding voice and non-voice information
EP0856185A1 (en) Repetitive sound compression system
WO1997015046A9 (en) Repetitive sound compression system
EP1544848B1 (en) Audio enhancement in coded domain
US7584096B2 (en) Method and apparatus for encoding speech
JP2638522B2 (ja) 音声符号化装置
JP2001265390A (ja) 複数レートで動作する無音声符号化を含む音声符号化・復号装置及び方法
JP4985743B2 (ja) 音声符号変換方法
JP2762938B2 (ja) 音声符号化装置
Villette Sinusoidal speech coding for low and very low bit rate applications
CA2235275C (en) Repetitive sound compression system

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091215

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100312

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100319

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100414

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100513

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110125