JP2010518453A - エンベデッド無音及び背景雑音圧縮 - Google Patents

エンベデッド無音及び背景雑音圧縮 Download PDF

Info

Publication number
JP2010518453A
JP2010518453A JP2009549588A JP2009549588A JP2010518453A JP 2010518453 A JP2010518453 A JP 2010518453A JP 2009549588 A JP2009549588 A JP 2009549588A JP 2009549588 A JP2009549588 A JP 2009549588A JP 2010518453 A JP2010518453 A JP 2010518453A
Authority
JP
Japan
Prior art keywords
inactive
narrowband
signal
speech
wideband
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009549588A
Other languages
English (en)
Other versions
JP5096498B2 (ja
Inventor
ソロモット エイヤル
ガオ ヤン
ベンヤシン アディル
Original Assignee
マインドスピード テクノロジーズ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マインドスピード テクノロジーズ インコーポレイテッド filed Critical マインドスピード テクノロジーズ インコーポレイテッド
Publication of JP2010518453A publication Critical patent/JP2010518453A/ja
Application granted granted Critical
Publication of JP5096498B2 publication Critical patent/JP5096498B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders

Abstract

音声エンコーダにより入力音声信号を符号化する方法を提供する。当該方法は、入力音声信号を受信するステップと、前記入力音声信号が活性音声信号又は非活性音声信号を含むかを検出するステップと、狭帯域非活性音声信号を生成するように前記非活性音声信号をローパスフィルタリングするステップと、高帯域非活性音声信号を生成するように前記非活性音声信号をハイパスフィルタリングするステップと、符号化された狭帯域音声を生成するように狭帯域非活性音声エンコーダを使用して前記狭帯域非活性音声信号を符号化するステップと、前記狭帯域非活性音声信号に基づいて前記狭帯域非活性音声エンコーダによりロウ・トゥ・ハイ信号を生成するステップと、前記狭帯域非活性音声エンコーダからの前記ロウ・トゥ・ハイ補助信号に基づいて、符号化された高帯域非活性音声を生成するように高帯域非活性音声エンコーダを使用して前記高帯域非活性音声信号を符号化するステップと、前記符号化された狭帯域非活性音声と前記符号化された高帯域非活性音声とを送信するステップとを含む。

Description

本願は、2007年2月14日に出願された米国仮出願第60/901,191号に基づいて優先権を主張し、ここにその内容全体を参照として組み込む。
本発明は、概して音声符号化の分野に関するものであり、より詳細にはエンベデッド無音及びノイズ圧縮に関するものである。
現代の通話システムは、デジタル音声通信技術を使用している。デジタル音声通信システムにおいては、簡素な旧型電話サービス(POTS)におけるアナログ送信に対して、音声信号はサンプリングされてデジタル信号として送信される。デジタル音声通信システムの例として、公衆電話交換網(PSTN)、十分に確立した携帯電話網、及び新興のボイスオーバーインターネットプロトコル(VoIP)が挙げられる。デジタル音声通信システムにおいては、音声信号の送信に必要な帯域幅を低減するために、ITU−T勧告のG.723.1又はG.729のような様々な音声圧縮(又は符号化)技術を使用することができる。
他の通話者の話を聞いていて話さない時に存在する無音区間などの実際の音声を含まない音声信号の部分に対して、より低いビットレートの符号化手法を使用することにより、更なる帯域幅低減を達成できる。実際の音声を含む音声信号の部分は、「活性音声」と呼び、実際の音声を含まない音声信号の部分は「非活性音声」と呼ぶ。一般に、非活性音声信号は、マイクによって取得されるような、聞き手の位置における周囲の背景雑音を含んでいる。非常に静かな環境においてはこの周囲雑音は非常に小さく、非活性音声は無音として認識される一方、自動車のように騒々しい環境においては、非活性音声は周囲雑音を含んでいる。通常、周囲雑音は情報をほとんど搬送しないため、非常に低いビットレートで符号化して送信することができる。周囲雑音を低ビットレートで符号化する一つの手法は、エネルギー(レベル)やスペクトル成分などの雑音信号のパラメータ表現のみを用いている。
帯域幅低減に対する別の一般的な手法は、背景雑音の静的特性を利用しており、背景雑音パラメータの更新情報を連続的にではなく断続的に送信する。
送信されるビットストリームがエンベデッド構造を有している場合には、帯域幅低減手法をネットワーク内で実施することもできる。エンベデッド構造は、ビットストリームがコア及エンハンスメントレイヤを含んでいることを意味する。音声はコアビットのみを使用して復号化して合成することができるが、エンハンスメントレイヤビットの使用により復号される音声の品質が改善される。例えば、非特許文献1(参照することによりその全内容がここに組み込まれる)は、コア狭帯域レイヤ及び複数の狭帯域及び広帯域エンハンスメントレイヤを使用している。
非常に多数の音声チャネルを処理するネットワークにおけるトラヒック輻輳は、各コーデックにより使用される「最大」ビットレートではなく、「平均」ビットレートに依存する。例えば、最大ビットレートは32Kbpsであるが、16Kbpsの平均ビットレートで動作する音声コーデックを仮定する。1600Kbpsの帯域幅を有するネットワークは、約100音声チャネルを取り扱うことができ、これは、全100チャネルが平均で100*16Kbps=1600Kbpsを使用し得るのみであるためである。明らかに、低い確率で、全チャネルの送信に必要な全ビットレートが1600Kbpsを越える可能性があるが、そのコーデックがエンベデッド構造を採用している場合、ネットワークは、幾つかのチャネルのエンベデッドレイヤの幾つかを落とすことによりこの問題を容易に解決することができる。ネットワークの計画/動作が、平均ビットレート及びエンベデッド構造を考慮せずに、各チャネルの最大ビットレートに基づいている場合には、ネットワークは50チャネルを処理できるのみであることは言うまでもない。
ここで概して説明される本発明の目的に従って、エンベデッド音声符号化システムにおける無音/背景雑音圧縮方法を提供する。本発明の代表的な一態様において、エンベデッド活性音声ビットストリーム及びエンベデッド非活性音声ビットストリームの双方を生成可能な音声エンコーダを開示している。音声エンコーダは、入力音声を受信して、音声アクティビティ検出器(VAD)を使用して入力音声が活性音声か非活性音声かを検出する。入力音声が活性音声の場合には、音声エンコーダは、活性音声符号化手法を使用して狭帯域部及び広帯域部を含む活性音声エンベデッドビットストリームを生成する。入力音声が非活性音声の場合には、音声エンコーダは、非活性音声符号化手法を使用して狭帯域部及び広帯域部を含むことができる非活性音声エンベデッドビットストリームを生成する。更に、入力音声が非活性音声の場合には、音声エンコーダは、不連続送信(DTX)手法を使用し、無音/背景雑音情報の断続的な更新情報のみを送信する。デコーダ側では、活性及び非活性ビットストリームが受信され、ビットストリームのサイズで示されるビットストリームのタイプに基づいてデコーダの異なる部分が使用される。非活性音声に対しては、非活性音声パケット情報が帯域幅の変化を示す場合でも、帯域幅がスムーズに変化するようにすることによって帯域幅の連続性が維持される。
本発明のこれらの態様及び他の態様は、更に以下の図面及び明細書の記載を参照すると明らかとなる。全てのこれらの追加的なシステム、方法、特徴及び利点は本願明細書、及び本発明の特許請求の範囲に含まれており、添付の請求項によって保護されることが意図されている。
本発明の特徴及び利点は、以下の詳細な説明及び添付の図を検討すると当業者により容易に明らかとなる。
本発明の一実施例によるG.729.1ビットストリームのエンベデッド構造を示す図である。 本発明の一実施例によるG.729.1エンコーダの構造を示す図である。 本発明の一実施例による狭帯域符号化を使用するG.729.1エンコーダの別の動作を示す図である。 本発明の一実施例によるG.729.1に対する無音/背景雑音符号化モードを示す図である。 本発明の一実施例によるエンベデッド構造を用いる無音/背景雑音エンコーダを示す図である。 本発明の一実施例による無音/背景雑音エンベデッドビットストリームを示す図である。 本発明の一実施例による別の無音/背景雑音エンベデッドビットストリームを示す図である。 本発明の一実施例によるオプションレイヤのない無音/背景雑音エンベデッドビットストリームを示す図である。 本発明の一実施例によるG.729.1の狭帯域動作モードに対する狭帯域VADを示す図である。 本発明の一実施例による狭帯域VADを有するG.729.1に対する無音/背景雑音符号化モードを示す図である。 本発明の一実施例による狭帯域VADを有するG.729.1に対する無音/背景雑音符号化モード及び個別のデシメーション要素を示す図である。 本発明の一実施例によるDTXモジュールを有する無音/背景雑音エンコーダを示す図である。 本発明の一実施例によるG.729.1デコーダの構造を示す図である。 本発明の一実施例による無音/背景雑音圧縮を使用するG.729.1デコーダを示す図である。 本発明の一実施例によるエンベデッド無音/背景雑音圧縮を使用するG.729.1デコーダを示す図である。 本発明の一実施例によるエンベデッド無音/背景雑音圧縮及び共有サンプリング−フィルタリング要素を使用するG.729.1デコーダを示す図である。 本発明の一実施例による、ビットレートに基づくデコーダ制御の動作フローチャートを示す図である。 本発明の一実施例による、帯域幅履歴に基づくデコーダ制御の動作フローチャートを示す図である。 本発明の一実施例による、汎用音声アクティビティ検出器を示す図である。 デコーダの帯域幅拡張を使用する狭帯域無音/背景雑音送信を示す図である。
本発明は、機能ブロックの要素及び様々な処理ステップに関して説明することができる。このような機能ブロックは、特定の機能を実行するように構成された任意の数のハードウェア要素及び/又はソフトウェア要素により実現できることを理解されたい。例えば、本発明は、一つ以上のマイクロプロセッサ又は他の制御デバイスの制御の下で様々な機能を実行できる様々な集積回路素子、例えばメモリ要素、デジタルシグナルプロセシング素子、論理素子等を採用することができる。更に、本発明は、データ送信、信号伝達、信号処理及び調整、トーン生成及び検出などの、任意の数の従来技術を採用することができることに注意されたい。このような一般的な技術は、当業者に既知であり、ここでは詳細に説明しない。
ここに示され説明される特定の実施は単に代表的なものであって、決して本発明の範囲の限定を意図するものではないことに注意されたい。実際、簡潔さのために、通信システム(及び通信システムの個々の動作要素)の従来のデータ送信、信号伝達、信号処理、他の機能及び技術的特徴はここでは詳細に説明しないかもしれない。更に、本願明細書に含まれている様々な図に示されている接続線は、様々な素子間の代表的な機能的関係及び/又は物理的結合を表すことを意図している。多くの別の又は追加の機能的関係又は物理的接続が実用的な通信システムに存在し得ることに注意されたい。
携帯又はVoIPのようなパケットネットワークにおいては、音声信号の符号化及び復号化は、ユーザ端末(例えば、携帯端末、ソフトフォン、SIPフォン又はWiFi/WiMax端末)にて実行できる。このような用途において、ネットワークは、符号化された音声信号情報を含むパケットを送付することだけに役立つ。パケットネットワークにおける音声の送信は、POTSアナログ送信技術から引き継がれたPSTNに存在する音声スペクトル帯域の制限を排除する。音声情報は、元の音声のデジタル圧縮表現を提供するパケットビットストリームとして送信されるため、このパケットビットストリームは狭帯域音声又は広帯域音声のいずれかを表すことができる。狭帯域又は広帯域表現としての、マイクによる音声信号の取得及びイヤホン又はスピーカによる末端での再生は、このような端末の能力のみに依存する。例えば、現在の携帯電話通話において、狭帯域携帯電話は、狭帯域音声のデジタル表現を取得し、適応型マルチレート(AMR)コーデックのような狭帯域コーデックを使用して、パケットネットワークを介して狭帯域音声を他の同様な携帯電話機と通信する。同様に、広帯域に対応した携帯電話は、音声の広帯域表現を取得し、AMR広帯域(AMR−WB)のような広帯域音声コーデックを使用して、パケットネットワークを介して広帯域音声を他の同様な広帯域に対応した携帯電話機と通信する。明らかに、AMR−WBのような広帯域音声コーデックにより提供されるより広いスペクトル成分は、AMRのような狭帯域の音声コーデックよりも、音声の品質、自然さ、及び明瞭度を改善する。
新たに採択されたITU−T勧告G.729.1はパケットネットワークを対象にしており、エンベデッド構造を採用して狭帯域及び広帯域の音声圧縮を達成している。エンベデッド構造は、音声の基本的な品質を送信するための“コア”音声コーデックと、音声品質を改良する追加の符号化レイヤとを使用する。G.729.1のコアは、ITU−T勧告G.729に基づいており、8Kbpsで狭帯域音声を符号化する。このコアは、G.729のものと類似しており、G.729ビットストリームと互換性を有するビットストリームを使用する。ビットストリームの互換性は、G.729エンコーダにより生成されたビットストリームをG729.1デコーダにより、また、G729.1エンコーダにより生成されたビットストリームをG.729デコーダにより、双方とも品質の低下なしに復号できることを意味している。
8Kbpsのコアより上のG.729.1の第1のエンハンスメントレイヤは、12Kbpsのレートの狭帯域レイヤである。次のエンハンスメントレイヤは、14Kbpsから32Kbpsまでの10の広帯域レイヤである。図1は、コア及び11の追加レイヤを有するG729.1エンベデッドビットストリームの構造を示しており、ここで、ブロック101は8Kbpsのコアレイヤを、ブロック102は12Kbpsの第1の狭帯域エンハンスメントレイヤを、ブロック103〜112は、14Kbpsから32Kbpsまでの2Kbpsステップずつ増加する10の広帯域エンハンスメントレイヤをそれぞれ示している。
G729.1のエンコーダは、全12レイヤを含むビットストリームを生成する。G.729.1のデコーダは、8Kbpsコアコーデックのビットストリームから出発して32Kbpsの全レイヤを含むビットストリームまで、どのビットストリームも復号できる。明らかに、デコーダは、より高いレイヤを受信したときにより高品質の音声を生成する。デコーダは実質的にスイッチングアーチファクトによる品質低下なしにビットレートをフレーム毎にビットレートを変更することもできる。このG.729.1のエンベデッド構造は、ビットストリームの実際内容に対して何の操作も処理も行う必要なしにネットワークがトラヒック輻輳問題を解決することを可能にする。この輻輳制御は、ビットストリームのエンベデッドレイヤ部分の幾つかを捨ててビットストリームの残りのエンベデッドレイヤ部分のみを送付することによって達成される。
図2は、本発明の一実施例によるG.729.1エンコーダの構造を示している。入力音声201は、16KHzでサンプリングされ、ローパスフィルタ(LPF)202及びハイパスフィルタ(HPF)210を通過し、デシメーション要素203及び211によりダウンサンプリングされた後、狭帯域音声204及びベースバンドにおける高帯域(high−band−at−base−band)音声212をそれぞれ生成する。狭帯域音声204及びベースバンドにおける高帯域音声212の双方は、8KHzサンプリングレートでサンプリングされることに注意されたい。狭帯域音声204は、次にCELPエンコーダ205により符号化され、狭帯域ビットストリーム206が生成される。狭帯域ビットストリーム206は、CELP復号器207により復号され、復号された狭帯域符号化信号208が生成され、この信号が狭帯域音声204から減算されて狭帯域残差符号化信号209を生成する。狭帯域残差符号化信号209及びベースバンドにおける高帯域音声212は、時間領域エイリアシングキャンセレーション(TDAC)エンコーダ213により符号化され、広帯域ビットストリーム214が生成される。(14Kbpsレイヤに対して使用される技術は時間領域帯域幅拡張(TD−BWE)として一般的に知られているが、高帯域信号212を符号化するモジュールに対しては“TDACエンコーダ”という用語を使用する)。狭帯域ビットストリーム204は、8Kbpsレイヤ101と12Kbpsレイヤ102を、広帯域ビットストリーム214は、14Kbpsから32Ksまでのレイヤ103〜112をそれぞれ具える。14Kbpsレイヤを生成するG729.1の専用TD−BWE動作モードは、表記の簡単化のために図2に示されていない。狭帯域ビットストリーム206及び広帯域ビットストリーム214を受信して図1に示すエンベデッドビットストリーム構造を形成する圧縮要素も示されていない。このような圧縮要素は、例えば、インターネット技術タスクフォース(IETF)におけるコメント募集番号4749(RFC4749)の“RTP Payload Format for the G.729.1 Audio Codec”に説明されており、参照することによりその全内容がここに組みかまれる。
G.729.1エンコーダの別の動作モードが図3に示されており、ここでは狭帯域符号化のみが実行される。ここでは8KHzでサンプリングされた入力音声301がCELPエンコーダ305に入力されて、狭帯域ビットストリーム306が生成される。図2と同様に、狭帯域ビットストリーム306は、図1に示されるように、8Kbpsレイヤ101と12Kbpsレイヤ102とを具える。
図4は、本発明の一実施例による無音/背景雑音符号化モードを有するG.729.1の実施例を提供している。簡単化のために、図2における複数の要素が、図4においては単一の要素として結合されている。例えば、LPF202及びデシメーション要素203は、LPデシメーション要素403として結合されており、HPF210及びデシメーション要素211はHPデシメーション要素410として結合されている。同様に、図2におけるCELPエンコーダ205、CELPデコーダ207及び加算要素はCELPエンコーダ405として結合されている。狭帯域音声404は狭帯域音声204に類似しており、高帯域音声412は基底帯域での高帯域音声212に類似しており、狭帯域ビットストリーム406は狭帯域ビットストリーム206と同一であり、広帯域ビットストリーム414は広帯域ビットストリーム214と同一である。図2に対する図4の主な違いは、広帯域音声アクティビティ検出器(WB−VAD)により制御される無音/背景雑音エンコーダを追加したことであり、本発明の一実施例ではWB−VADは入力音声401を受信してスイッチ402を作動させる。入力音声401は16KHzでサンプリングされた広帯域音声であるため、WB−VADという用語が使用されている。WB−VADモジュール416が実際の音声(「活性音声」)を検出する場合、入力音声401はスイッチ402により典型的なG.729.1エンコーダに向けられ、ここでは、「活性音声エンコーダ」という。WB−VADモジュール416が実際の音声を検出しない場合には、つまり入力音声401が無音又は背景雑音(「非活性音声」)である場合には、入力音声401は、無音/背景雑音エンコーダ416に向けられ、無音/背景雑音ビットストリーム417を生成する。図4に示されていないが、ビットストリームの多重化及び圧縮モジュールは、G.729の付録B又はG.723.1の付録Aのような他の無音/背景雑音圧縮アルゴリズムにより使用される多重化及び圧縮モジュールとほぼ同一であり、同業者に既知である。
無音/背景雑音ビットストリーム417のために多くの手法を使用して、音声の非活性部分を表すことができる。一つの手法において、ビットストリームは、周波数帯域及び/又はエンハンスメントレイヤにおける分離なしで非活性音声信号を表すことができる。この手法はネットワーク要素で輻輳制御のために無音/背景雑音ビットストリームを操作することはできないが、無音/背景雑音ビットストリームを送信するのに必要な帯域幅は非常に小さいため、深刻な欠陥とはならない。しかし、主な欠点は、デコーダが、活性音声信号と非活性音声信号との間の帯域幅互換性を維持するために、無音/背景雑音デコーダの一部として帯域幅制御機能を実施することであろう。
図5は、G.729.1の動作に適したエンベデッド構造を有する無音/背景雑音(非活性音声)エンコーダを含む本発明の一実施例を示しており、これらの問題を解決している。入力非活性音声501は、LPデシメーション要素503及びHPデシメーション要素510に供給され、狭帯域非活性音声504及びベースバンドにおける高帯域非活性音声512がそれぞれ生成される。狭帯域の無音/背景雑音エンコーダ505は、狭帯域の非活性音声504を受信して狭帯域の無音/背景雑音ビットストリーム506を生成する。無音/背景雑音デコーダのG729.1の最低限の動作はG.729の付録Bに適合しなければならないため、狭帯域の無音/背景雑音ビットストリームは、少なくとも一部は、G.729の付録Bに適合していなければならない。狭帯域の無音/背景雑音エンコーダ505は、G.729の付録Bに記載されている狭帯域の無音/背景雑音エンコーダと同一でもよいが、G.729の付録Bに(少なくとも一部が)適合するビットストリームを生成する限り相違しても良い。狭帯域の無音/背景雑音エンコーダ505は、ロー・トゥ・ハイ補助信号509を生成することもできる。ロー・トゥ・ハイ補助信号509は、ベースバンドにおける高帯域非活性音声512の符号化において広帯域の無音/背景雑音エンコーダ513を補助する情報を含む。その情報は、狭帯域の再構成無音/背景雑音そのもの、又はエネルギー(レベル)又はスペクトル表現などのパラメータとすることができる。広帯域の無音/背景雑音エンコーダ513は、ベースバンドにおける高帯域非活性信号512及び補助信号509の双方を受信して広帯域の無音/背景雑音ビットストリーム514を生成する。広帯域の無音/背景雑音エンコーダ513は、ハイ・トゥ・ロー補助信号508を生成することもでき、当該補助信号508は、狭帯域非活性音声504の符号化において狭帯域の無音/背景雑音エンコーダ505を補助するための情報を含む。図4と同様に、図5にはビットストリーム多重化及び圧縮モジュールが示されていないが、当業者には既知である。
図6は、本発明の一実施例による、図5の無音/背景雑音エンコーダにより生成することができる無音/背景雑音エンベデッドビットストリームを説明している。無音/背景雑音エンベデッドビットストリーム600は、G.729の付録B(G.729B)の0.8Kbpsのビットストリーム601と、オプションのエンベデッド狭帯域エンハンスメントビットストリーム602と、広帯域ベースレイヤビットストリーム603と、オプションのエンベデッド広帯域エンハンスメントビットストリーム604とを具える。図5に関して、狭帯域の無音/背景雑音ビットストリーム506は、G.729Bビットストリーム601とオプションの狭帯域エンベデッドビットストリーム602とを具える。更に、図5における広帯域無音/背景雑音ビットストリーム514は、広帯域ベースレイヤビットストリーム603とオプションの広帯域エンベデッドビットストリーム604を具える。G.729Bビットストリーム601の構造は、G.729の付録Bに規定されており、スペクトル表現のための10ビットと、エネルギー(レベル)表現のための5ビットを含んでいる。オプションの狭帯域エンベデッドビットストリーム602は、スペクトル及びエネルギーの改良された量子化表現(例えば、スペクトル表現のための追加のコードブックステージ又はエネルギー量子化の改良された時間解像度)、ランダムシード情報又は実際の量子化された波形情報を含んでいる。広帯域ベースレイヤビットストリーム603は、高帯域無音/背景雑音信号の表現のための量子化された情報を含んでいる。その情報は、線形予測符号(LPC)フォーマット又はサブバンドフォーマットでのスペクトル情報とエネルギー情報、又は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)又はウェーブレット変換などの他の線形変換係数を含むことができる。広帯域ベースレイヤビットストリーム603は、例えば、ランダムシード情報又は実際の量子化された波形情報を含むこともできる。オプションの広帯域エンベデッドビットストリーム604は、広帯域ベースレイヤビットストリーム603に含まれない追加情報、又は、広帯域ベースレイヤビットストリーム603に含まれる同じ情報の解像度を向上させたものを含むことができる。
図7は、本発明の一実施例による無音/背景雑音エンベデッドビットストリームの別の実施例を提示している。この別の実施例において、ビット領域の順序は図6に提示された実施例とは相違しているが、両者の実際のビット情報は同一である。図6と同様に、無音/背景雑音エンベデッドビットストリーム700の第1の部分は、G.729Bビットストリーム701であるが、第2の部分は広帯域ベースレイヤビットストリーム703であり、次いでオプションのエンベデッド狭帯域エンハンスメントビットストリーム702、オプションのエンベデッド広帯域エンハンスメントビットストリーム704が続く。
図6における実施例と図7における別の実施例との間の主な違いは、ネットワークによるビットストリームの切り捨て効果である。図6において説明された実施例におけるネットワークによるビットストリームの切り捨ては、狭帯域領域を除去する前に広帯域領域の全てを除去する。一方、図7で説明された実施例におけるネットワークによるビットストリームの切り捨ては、ベースレイヤ(狭帯域又は広帯域)の領域を除去する前に、広帯域及び狭帯域双方の追加のエンベデッドエンハンスメント領域を削除する。
G.729Bの無音/背景雑音エンベデッドビットストリームにオプションのエンハンスメントレイヤが組み込まれない場合、ビットストリーム600及び700は同一となる。図8は、このようなビットストリームを示しており、G.729Bビットストリーム801及び広帯域ベースレイヤビットストリーム803のみを含んでいる。このビットストリームはオプションのエンベデッドレイヤを含まないが、依然としてエンベデッド構造を維持しており、ネットワーク要素はG.729Bビットストリーム801を維持しながら広帯域ベースレイヤビットストリーム803を除去できる。別の選択肢として、G.729Bビットストリーム801は、活性音声エンコーダが狭帯域及び広帯域情報の双方を含むエンベデッドビットストリームを送信する時にも、非活性音声のためにエンコーダにより送信される唯一のビットストリームとすることができる。この場合、デコーダが活性音声に対して完全なエンベデッドビットストリームを受信するが、非活性音声に対して狭帯域ビットストリームのみを受信する場合には、合成された非活性音声に対して帯域幅拡張を実行して、合成された出力信号に対してスムーズな知覚品質を達成することができる。
図4による無音/背景雑音符号化手法の動作における主要な問題の一つは、WB−VAD416への入力が広帯域入力音声401であることである。従って、無音/背景雑音符号化手法とともに(図3に説明した)G.729.1の動作の狭帯域モードのみを使用したい場合には、狭帯域信号で動作する別のVADを使用しなければならない。
一つの可能な解は、G.729.1の動作の特定の狭帯域モードのために専用の狭帯域VAD(NB−VAD)を使用することである。本発明の一実施例によるこのような解が図9に説明されており、ここでは狭帯域の入力音声901がスイッチ902を制御するNB−VAD915への入力である。NB−VAD915が活性音声又は非活性音声を検出するかにより、入力音声901はCELPエンコーダ905又は狭帯域無音/背景雑音エンコーダ916にそれぞれ送られる。CELPエンコーダ905は狭帯域ビットストリーム906を生成し、狭帯域無音/背景雑音エンコーダ916は狭帯域無音/背景雑音ビットストリーム917を生成する。G.729.1のこのモードの動作全体は、G.729の付録Bに非常に類似しており、狭帯域無音/背景雑音ビットストリーム917は、部分的に又は完全にG.729の付録Bと互換性にすべきである。この手法の主な欠陥は、標準規格におけるWB−VAD416及びNB−VAD916の双方をG.729.1無音/背景雑音圧縮手法のコーダとともに標準組み込みする必要があることである。
活性音声対非活性音声の特性及び特徴は、スペクトルの狭帯域部分(4KHzまで)並びにスペクトルの高帯域部分(4KHzから7KHzまで)にあること明らかである。更に、エネルギー及び他の典型的な音声の特徴(ハーモニック構造など)は、高帯域部分よりもより狭帯域部分を支配する。従って、音声の狭帯域部分を使用して、音声アクティビティ検出を完全に実行することもできる。図10は、本発明の一実施例による狭帯域VADを有するG.729.1に対する無音/背景雑音符号化モードを示している。入力音声1001は、LPデシメーション要素1002及びHPデシメーション要素1010により受信され、狭帯域音声1003及びベースバンドの高帯域音声1012がそれぞれ生成される。狭帯域音声1003は、狭帯域VAD1004により使用され、スイッチ1008を制御する音声アクティビティ検出信号1005が生成される。音声アクティビティ検出信号1005が活性音声を示す場合には、狭帯域信号1003はCELPエンコーダ1006に向けられ、ベースバンドの高帯域信号1012はTDACエンコーダ1016に向けられる。CELPエンコーダ1006は、狭帯域ビットストリーム1007及び狭帯域残差符号信号1009を生成する。狭帯域残差符号信号1009は、広帯域ビットストリーム1014を生成するTDACエンコーダ1016への第2の入力として機能する。音声アクティビティ検出信号1005が非活性音声を示す場合には、狭帯域音声信号1003は、狭帯域無音/背景雑音エンコーダ1017に向けられ、ベースバンドの高帯域信号1012は、広帯域無音/背景雑音エンコーダ1020に向けられる。狭帯域無音/背景雑音エンコーダ1017は、狭帯域無音/背景雑音ビットストリーム1016を生成し、広帯域無音/背景雑音エンコーダ1020は広帯域無音/背景雑音ビットストリーム1019を生成する。双方向補助信号1018は、狭帯域無音/背景雑音エンコーダ1017と広帯域無音/背景雑音エンコーダ1020との間で交換される補助情報を表す。
図10に示すシステムに対する基礎となる仮定は、LPデシメーション要素1002及びHPデシメーション要素1010によりそれぞれ生成される狭帯域音声信号1003及び高帯域音声信号1012は、活性音声符号化及び非活性音声符号化の双方に適しているということである。図11は、図10に提示されたシステムに類似したシステムであるが、活性音声符号化及び非活性音声符号化に対する音声の前処理のために、異なるLPデシメーション要素及びHPデシメーション要素を使用するものである。これは、例えば、活性音声エンコーダに対するカットオフ周波数が非活性音声エンコーダに対するカットオフ周波数と異なる場合とし得る。入力音声1101は、活性音声LPデシメーション要素1103により受信されて狭帯域音声1109を生成する。狭帯域音声1109は、狭帯域VAD1105により使用され、スイッチ1113を制御する音声アクティビティ検出信号1102を生成する。音声アクティビティ検出信号1102が活性音声を示す場合には、入力信号1101は活性音声LPデシメーション要素1103及び活性音声HPデシメーション要素1108に向けられ、活性音声の狭帯域信号1109及び活性音声のベースバンドの高帯域信号1110がそれぞれ生成される。音声アクティビティ検出信号1102が非活性音声を示す場合には、入力信号1101は非活性音声LPデシメーション要素1113及び非活性音声HPデシメーション要素1108に向けられ、非活性音声の狭帯域信号1115及び非活性音声のベースバンドの高帯域信号1120が生成される。スイッチ1113を入力音声1101に作用するように図示しているのは、図11を明確化及び簡単化するのみのためであることに注意されたい。実際には、入力音声1101は全4つのデシメーションユニット(1103,1108,1103及び1118)に連続的に供給され、実際のスイッチングは4つの出力信号(1109,1110,1115及び1120)に対して行われる。NB−VAD1105は、(図11に示される)活性音声狭帯域信号1109又は非活性音声狭帯域信号1115のいずれかを使用できる。図10と同様に、活性音声狭帯域信号1109は狭帯域ビットストリーム1107及び狭帯域残差符号信号1111を生成するCELPエンコーダ1106に向けられる。TDACエンコーダ1116は、活性音声のベースバンド高帯域信号1110及び狭帯域残差符号信号1111を受信し、広帯域ビットストリーム1112を生成する。更に、非活性音声狭帯域信号1115は、狭帯域無音/背景雑音ビットストリーム1117を生成する狭帯域無音/背景雑音エンコーダ1119に向けられる。広帯域無音/背景雑音エンコーダ1123は、非活性音声高帯域信号1120を受信し、広帯域無音/背景雑音ビットストリーム1122を生成する。双方向補助信号1121は、狭帯域無音/背景雑音エンコーダ1119と広帯域無音/背景雑音エンコーダ1123との間で交換される情報を表す。
無音又は背景雑音からなる非活性音声は、活性音声よりもずっと少ない情報を保持しているため、非活性音声を表すのに必要なビット数は、活性音声を記述するのに使用されるビット数よりもずっと小さい。例えば、G.729は10msの活性音声フレームを記述するのに80ビットを使用するが、10msの非活性音声フレームを記述するのに16ビットのみを使用する。この低減されたビット数は、ビットストリームの送信に要求される帯域幅を低減するのに役立つ。非活性音声フレームの幾つかに対して情報が全く送信されない場合には、更なる低減が可能である。この手法は不連続送信(DTX)と呼ばれ、情報が送信されないフレームは、単に非送信(NT)フレームと呼ばれる。これは、NTフレームにおける入力音声の特性が、以前に送信された情報(過去の数フレームとし得る)から大きく変化しなかった場合に可能である。このような場合には、デコーダは、以前に受信した情報に基づいてNTフレームに対する出力非活性音声信号を生成することができる。
図12は、本発明の一実施例によるDTXモジュールを有する無音/背景雑音エンコーダを示している。無音/背景雑音エンコーダの構造及び動作は、図11の一部として示されている無音/背景雑音エンコーダに非常に類似している。入力非活性音声1201は、非活性音声LPデシメーション要素1203及び非活性音声HPデシメーション要素1216に向けられ、狭帯域非活性音声1205及びベースバンドの高帯域非活性音声1218がそれぞれ生成される。更に、狭帯域非活性音声1205は、狭帯域無音/背景雑音エンコーダ1206に向けられ、狭帯域無音/背景雑音ビットストリーム1207が生成される。広帯域無音/背景雑音エンコーダ1220はバイアスバンド高帯域の非活性音声1218を受信し、広帯域無音/背景雑音ビットストリーム1222を生成する。双方向補助信号1214は、狭帯域無音/背景雑音エンコーダ1206と広帯域無音/背景雑音エンコーダ1220との間で交換される情報を表す。主な違いは、DTX制御信号1213を生成するDTX要素1212の導入にある。狭帯域無音/背景雑音エンコーダ1206及び広帯域無音/背景雑音エンコーダ1220は、狭帯域無音/背景雑音ビットストリーム1207及び広帯域無音/背景雑音ビットストリーム1222を送信すべきかを示すDTX制御信号1213を受信する。図12に示されていないが、より先進のDTX要素は、狭帯域無音/背景雑音ビットストリーム1207をいつ送信すべきかを示す狭帯域DTX制御信号、並びに、広帯域無音/背景雑音ビットストリーム1222を何時送信すべきかを示す別の広帯域DTX制御信号を生成できる。この実施例において、DTX要素1212は、入力非活性音声1201、狭帯域非活性音声1205、ベースバンドの高帯域非活性音声1218及びクロック1210を含む複数の入力を使用できる。DTX要素1212は、VADモジュール(図11に示されているが、図12では省略されている)により計算された音声パラメータ、並びに、システム内の任意の符号化要素、即ち活性音声符号化要素又は非活性音声符号化要素(これらのパラメータ経路は、簡単化及び明確化のために図12から省かれている)のいずれかにより計算されたパラメータを使用することもできる。DTX要素1212において実施されるDTXアルゴリズムは、無音/背景雑音情報の更新がいつ必要かを決定する。この決定は、例えば、DTX入力パラメータ(例えば、入力非活性音声1201のレベル)のいずれかに基づいて、又はクロック1210により測定された時間間隔に基づいて行うことができる。無音/背景雑音情報の更新のために送られるビットストリームは、無音挿入記述子(SID)と呼ばれている。
DTX手法は、図4に示した非エンベデッド無音圧縮に使用することもできる。同様に、DTX手法は、図9に示したG.729.1の狭帯域動作モードのために使用することもできる。エンコーダ側からデコーダ側へビットストリームを圧縮して送信し、デコーダ側によりビットストリームを受信して解凍するための通信システムは当業者に周知であり、ここでは詳細に説明しない。
図13は、G.729.1に対する典型的なデコーダを示しており、図2に提示されるビットストリームを復号する。狭帯域ビットストリーム1301は、CELPデコーダ1303により受信され、広帯域ビットストリーム1314はTDACデコーダ1316により受信される。TDACデコーダ1316は、ベースバンドの高帯域信号1317と、CELPデコーダ1303により受信される再構成重み付け差分信号1312とを生成する。CELPデコーダ1303は、狭帯域信号1304を生成する。狭帯域信号1304は、アップサンプリング要素1305及びローパスフィルタ1307により処理され、狭帯域再構成音声1309が生成される。ベースバンドの高帯域信号1317は、アップサンプリング要素1318及びハイパスフィルタ1320により処理され、高帯域再構成音声1322が生成される。狭帯域再構成音声1309及び高帯域再構成音声1322は加算されて、出力再構成音声1324が生成される。エンコーダの上述の議論と同様に、広帯域ビットストリーム1314を復号するモジュールに対して“TDACデコーダ”という用語を使用するが、14Kbpsレイヤに対して使用されるこの技術は時間領域帯域幅エンハンスメント(TD−BWE)として一般に知られている。
図14は、本発明の一実施例による無音/背景雑音圧縮を有するG.729.1デコーダの説明を提供しており、図4に示されている無音/背景雑音圧縮を有するG.729.1エンコーダにより生成されたビットストリームを受信し復号するのに適している。活性音声デコーダを説明する図14の上部は、図13と同一であり、アップサンプリング及びフィルター要素が一つに結合されている。狭帯域ビットストリーム1401は、CELPデコーダ1403により受信され、広帯域ビットストリーム1414はTDACデコーダ1416により受信される。TDACデコーダ1416は、CELPデコーダ1403により受信される再構成重み付け差分信号1412と、ベースバンドの高帯域活性音声1417を生成する。CELPデコーダ1403は、狭帯域活性音声1404を生成する。狭帯域活性音声1404は、アップサンプリングLP要素1405により処理され、狭帯域再構成活性音声1409が生成される。ベースバンド高帯域活性音声1417は、アップサンプリングHP要素1418により処理され、高帯域再構成活性音声1422が生成される。狭帯域再構成活性音声1409及び高帯域再構成活性音声1422は加算されて再構成活性音声1424が生成される。
図14の下部は、無音/背景雑音(非活性音声)復号の説明を提供している。無音/背景雑音ビットストリーム1431は、広帯域再構成非活性音声1434を生成する無音/背景雑音デコーダ1433により受信される。活性音声デコーダは、ネットワークにより保持されているエンベデッドレイヤの数に依存して広帯域信号又は狭帯域信号を生成できるため、帯域幅スイッチングによる知覚アーチファクトが最終的に再構成出力音声1429において聞こえないことを保証することが重要である。従って、広帯域再構成非活性音声1434が帯域幅(BW)適応モジュール1436に供給され、その帯域幅を再構成活性音声1429の帯域幅に一致させることにより、再構成非活性音声1438を生成する。活性音声帯域幅情報は、ビットストリーム解凍モジュール(図示せず)によって、又は活性音声デコーダ内、例えば、CELPデコーダ1403及びTDACデコーダ1416の動作範囲内で利用可能な情報から、BW適応モジュール1436に提供することができる。活性音声帯域幅情報は、再構成活性音声1424において直接測定することもできる。最後のステップにて、(狭帯域ビットストリーム1401と広帯域ビットストリーム1414とを具える)活性ビットストリームが受信されたのか又は無音/背景雑音ビットストリームが受信されたかを示すVAD情報1426に基づいて、スイッチ1427は再構成活性音声1424と再構成非活性音声1438との間で選択を行ない、再構成出力音声1429を生成する。
図15は、本発明の一実施例によるエンベデッド無音/背景雑音圧縮を有するG.729.1デコーダの説明を提供しており、例えば図10及び11に示されているエンベデッド無音/背景雑音圧縮を有するG.729.1エンコーダにより生成されたビットストリームを受信して復号するのに適している。図15の上部は、図13及び14と同一の活性音声デコーダを説明しており、アップサンプリング及びフィルター要素は一つに組み合わされている。狭帯域ビットストリーム1501は、活性音声CELPデコーダ1503により受信され、広帯域ビットストリーム1514は、活性音声TDACデコーダ1516により受信される。活性音声TDACデコーダ1516は、活性音声CELPデコーダ1503により受信される活性音声再構成重み付け差分信号1512と、ベースバンドの高帯域活性音声1517を生成する。狭帯域活性音声1504は、活性音声アップサンプリングLP要素1505により処理され、狭帯域再構成活性音声1509が生成される。ベースバンドの高帯域活性音声1517は、活性音声アップサンプリングHP要素1518により処理され、高帯域再構成活性音声1522が生成される。狭帯域再構成活性音声1509及び高帯域再構成活性音声1522は加算され、再構成活性音声1524が生成される。
図15の下部は非活性音声デコーダを示している。狭帯域無音/背景雑音ビットストリーム1531は、狭帯域無音/背景雑音デコーダ1533により受信され、無音/背景雑音広帯域ビットストリーム1534は広帯域無音/背景雑音デコーダ1536により受信される。狭帯域無音/背景雑音デコーダ1533は、無音/背景雑音の狭帯域信号1534を生成し、広帯域無音/背景雑音デコーダ1536は無音/背景雑音のベースバンド高帯域信号1537を生成する。双方向補助信号1532は、狭帯域無音/背景雑音デコーダ1533と広帯域無音/背景雑音デコーダ1536との間で交換される情報を表す。無音/背景雑音の狭帯域信号1534は、無音/背景雑音アップサンプリングLP要素1535により処理され、無音/背景雑音の狭帯域再構成信号1539が生成される。無音/背景雑音のベースバンド高帯域信号1537は、無音/背景雑音アップサンプリングHP要素1538により処理され、無音/背景雑音の高帯域再構成信号1542が生成される。無音/背景雑音の狭帯域再構成信号1538及び無音/背景雑音の高帯域再構成信号1542は加算され、再構成非活性音声1544が生成される。(狭帯域ビットストリーム1501と広帯域ビットストリーム1514とを具える)活性ビットストリームが受信されたか、(狭帯域無音/背景雑音ビットストリーム1531と広帯域無音/背景雑音ビットストリーム1534とを具える)非活性ビットストリームが受信されたかを示すVAD情報1526に基づいて、スイッチ1527は再構成活性音声1524と再構成非活性音声1544との間で選択を行ない、再構成出力音声1529が生成される。明らかに、このスイッチングと加算の順序は交換可能であり、別の実施例においては、一つのスイッチが狭帯域活性及び不活性音声信号の間で選択し、別のスイッチが広帯域活性及び不活性音声信号の間で選択し、信号加算要素はスイッチの出力を結合させるようにすることができる。
図15において、異なる処理(例えば異なるカットオフ周波数)が必要な場合には、活性音声及び非活性音声に対するアップサンプリングLP要素及びアップサンプリングHP要素は相違する。活性音声と非活性音声との間でアップサンプリングLP要素及びアップサンプリングHP要素における処理が同一の場合には、両タイプの音声に対して同一の要素を使用できる。図16は、エンベデッド無音/背景雑音圧縮を有するG.729.1デコーダを示しており、アップサンプリングLP要素及びアップサンプリングHP要素は、活性音声と非活性音声との間で共有されている。狭帯域ビットストリーム1601は、活性音声CELPデコーダ1603により受信され、広帯域ビットストリーム1614は活性音声TDACデコーダ1616により受信される。活性音声TDACデコーダ1616は、活性音声CELPデコーダ1603により受信される活性音声再構成重み付け差分信号1612と、ベースバンド高帯域活性音声1617を生成する。活性音声CELPデコーダ1603は、狭帯域活性音声1604を生成する。狭帯域無音/背景雑音ビットストリーム1631は、狭帯域無音/背景雑音デコーダ1633により受信され、無音/背景雑音広帯域ビットストリーム1635は、広帯域無音/背景雑音デコーダ1636により受信される。狭帯域無音/背景雑音デコーダ1633は、無音/背景雑音の狭帯域信号1634を生成し、広帯域無音/背景雑音デコーダ1636は、無音/背景雑音のベースバンド広帯域信号1637を生成する。双方向補助信号1632は、狭帯域無音/背景雑音デコーダ1633と広帯域無音/背景雑音デコーダ1636との間で交換される情報を表す。VAD情報1641に基づいて、スイッチ1619は狭帯域活性音声1604又は無音/背景雑音の狭帯域信号1634を、狭帯域出力信号1643を生成するアップサンプリングLP要素1642に向かせる。同様にVAD情報1641に基づいて、スイッチ1640は活性音声のベースバンド高帯域信号1617又は無音/背景雑音のベースバンド高帯域信号1636を、高帯域出力信号1645を生成するアップサンプリングHP要素1644に向かせる。狭帯域出力信号1643及び高帯域出力信号1645は加算され、再構成出力音声1646が生成される。
本発明の別の実施例によれば、図14,15及び16に示された無音/背景雑音デコーダは代わりにDTX符号化アルゴリズムを実施でき、この場合には再構成非活性音声を生成するために使用されるパラメータは以前に受信したパラメータから推定される。推定処理は当業者には既知であるので、ここでは詳細には説明しない。しかし、狭帯域非活性音声用のエンコーダにより一つのDTX手法が使用され、高帯域非活性音声用のエンコーダにより別のDTX手法が使用される場合には、狭帯域無音/背景雑音デコーダでの更新及び推定は、広帯域無音/背景雑音デコーダでの更新及び推定とは相違する。
エンベデッド無音/背景雑音圧縮を有するG729.1デコーダは、受信するビットストリームのタイプにより、多くの異なるモードで動作する。受信されたビットストリームのビット数(サイズ)は、受信されたエンベデッドレイヤの構造、即ちビットレートを決定するが、受信されたビットストリームのビット数は、デコーダでのVAD情報も構築する。例えば、G729.1パケットは、20msの音声を表すが、640ビットを保持する場合、デコーダは、それは32Kbpsでの活性音声パケットであると判断し、完全な活性音声広帯域復号アルゴリズムを実行する。一方、G729.1パケットが20msの音声を表すために240ビットを保持する場合には、デコーダは12Kbpsの活性音声であると判断し、活性音声狭帯域復号アルゴリズムのみを実行する。無音/背景雑音圧縮を有するG.729.1に対しては、パケットサイズが32ビットの場合、デコーダは、狭帯域情報のみを有する非活性音声パケットであると判断し、非活性音声狭帯域復号アルゴリズムを実行するが、パケットサイズが0ビットの場合には(つまり、パケットが届かない場合には)NTフレームであると判断され、適切な推定アルゴリズムが使用される。ビットストリームのサイズ変化は、入力信号に基づいて活性又は非活性音声符号化を使用する音声エンコーダによって、又はエンベデッドレイヤの幾つかを切り捨てることにより輻輳を低減するネットワーク要素によって引き起こされる。
図17は、受信されたパケットにおけるビットストリームのサイズにより決定されるビットレートに基づく、デコーダ制御動作のフローチャートを示している。活性音声ビットストリームの構造は図1に示されるようなものであり、非活性音声ビットストリームの構造は図8に示されるようなものであるとする。ビットストリームは受信モジュール1700により受信される。まず、活性/非活性音声比較器1706によりビットストリームサイズが検査され、ビットレートが8Kbps(160ビットサイズ)以上の場合には活性音声ビットストリームであると判断し、そうなければ非活性音声ビットストリームであると判断する。ビットストリームが活性音声ビットストリームの場合、そのサイズは更に活性音声狭帯域/広帯域比較器1708により比較され、モジュール1716により狭帯域デコーダのみを使用すべきか、モジュール1718により完全な広帯域デコーダを使用すべきか判断する。比較器1706が非活性音声ビットストリームを示す場合、NT/SID比較器1704はビットストリームのサイズが0(NTフレーム)か、又は0より大きい(SIDフレーム)かを確認する。ビットストリームがSIDフレームの場合、非活性音声狭帯域/広帯域比較器1702によりビットストリームのサイズが更に検査され、SID情報が完全な広帯域情報又は狭帯域情報のみを含むかを判断し、モジュール1712により完全な非活性音声広帯域デコーダを使用するか、モジュール1710により非活性狭帯域デコーダのみを使用するかを判断する。ビットストリームのサイズが0、つまり、情報を受信しなかった場合には、モジュール1714により非活性音声推定デコーダを使用する。これらの比較器の順序はアルゴリズムの動作に対して重要ではなく、比較動作の説明順は代表的な実施例としてのみ提供されたものであることに注意されたい。
ネットワーク要素は、非活性音声パケットの広帯域エンベデッドレイヤは変化させないで、活性音声パケットの広帯域エンベデッドレイヤを切り捨てることは可能である。これは、非活性音声パケットの広帯域エンベデッドレイヤの切り捨ては輻輳低減に僅かに貢献するのみであるのに対し、活性音声パケットの広帯域エンベデッドレイヤにおける大きなビット数の除去は、輻輳低減に大きく貢献できるためである。従って、非活性音声デコーダの動作も、活性音声デコーダの動作の履歴に依存する。特に、現在受信されているパケットにおける帯域幅情報が以前に受信されたパケットと異なる場合には、特別な注意を払う必要がある。
図18は、非活性音声復号における以前の及び現在の帯域幅情報を使用するアルゴリズムのステップを示すフローチャートを提供している。決定モジュール1800は、以前のビットストリーム情報が広帯域であったかを検査する。以前のビットストリームが広帯域だった場合には、現在の非活性音声ビットストリームは、決定モジュール1804により検査される。現在の非活性音声ビットストリームが広帯域の場合、非活性音声広帯域デコーダが使用される。現在の非活性音声ビットストリームが狭帯域の場合、出力無音/背景雑音信号における急激な帯域幅変化を避けるために、帯域幅拡張が実行される。更に予め既定された数のパケットに対して受信された帯域幅が狭帯域のままである場合には、なめらかな帯域幅低減を実行することができる。決定モジュール1800が以前のビットストリームが狭帯域であったと判断した場合には、現在の非活性音声ビットストリームは、決定モジュール1802により検査される。非活性音声ビットストリームが狭帯域の場合、狭帯域非活性音声デコーダが使用される。現在の非活性音声ビットストリームが広帯域の場合、非活性音声ビットストリームの広帯域部分が切り捨てられ、狭帯域非活性音声デコーダが使用され、出力無音/背景雑音信号における急激な帯域幅変化を避ける。更に、予め既定された数のパケットに対して受信された帯域幅が広帯域のままである場合には、なめらかな帯域幅低減を実行することができる。非活性音声推定デコーダは、図18には非明示的に規定されていないが、非活性音声デコーダの一部であり、以前に受信された帯域幅に常に追従するように構成されていることに注意されたい。
図4,9,10及び11に提示されているVADモジュールは、活性音声と無音又は周囲の背景雑音として既定された非活性音声とを区別している。多くの現在の通信用途は、音声信号に加えて、保留音又は個別呼び出し音などの音楽信号を使用している。音楽信号は活性音声でも非活性音声でもなく、音楽信号のセグメントに対して非活性音声エンコーダが使用された場合には、音楽信号の品質が深刻に低下しうる。従って、音楽信号を取り扱うように設計された通信システムにおけるVADが音楽信号を検出し、音楽検出指示を提供することが重要である。音楽信号の検出及び処理は、音声信号のための活性音声コーデックの固有の品質は比較的に高いので、音声信号に対して非活性音声コーデックを使用することに起因する品質低下はより強い知覚効果を有する可能性があるため、広帯域音声を使用する音声通信システムにおいて更に重要である。
図19は、入力音声1902を受信する汎用音声アクティビティ検出器1901を示している。入力音声1902は、図4,9,10及び11に提供されたVADモジュールに類似した活性/非活性音声検出器1905、及び音楽検出器1906に供給される。活性/非活性音声検出器1905は、活性/非活性音声指示1908を生成し、音楽検出器1906は音楽指示1909を生成する。音楽指示は、幾つかの方法で使用できる。その主な目的は、非活性音声エンコーダの使用を避けることであり、そのために、間違った非活性音声決定を無効にすることにより、音楽指示を活性/非活性音声指示と組み合わせることができる。音楽指示は、エンコーダに到着する前に入力音声を前処理する専用又は標準ノイズ抑圧アルゴリズム(図示せず)を制御することもできる。音楽指示は、そのピッチ輪郭スムージングアルゴリズム又は他のモジュールなどの活性音声エンコーダの動作を制御することもできる。
ネットワークによる非活性音声の広帯域エンハンスメントレイヤの切り捨ては、活性音声セグメントと非活性音声セグメントとの間の帯域幅連続性を維持するために、デコーダに帯域幅を拡張することを要求する可能性がある。同様に、活性音声が広帯域音声の場合には、エンコーダが狭帯域情報のみを送信しデコーダが帯域幅拡張を実行することが可能である。図20は非活性音声エンコーダ2000を示しており、入力非活性音声2002を受信し、再構成非活性音声2024を生成する非活性音声デコーダ2001に無音/背景雑音ビットストリーム2006を送信する。入力非活性音声2002及び再構成非活性音声2024は、16KHzでサンプリングされた広帯域信号であることに注意されたい。LPデシメーション要素2003は入力非活性音声2002を受信して、非活性音声狭帯域信号2004を生成し、狭帯域無音/背景雑音エンコーダ2005により受信されて狭帯域無音/背景雑音ビットストリーム2006が生成される。狭帯域無音/背景雑音ビットストリーム2006は、狭帯域非活性音声2009及び補助信号2014を生成する狭帯域無音/背景雑音デコーダ2007により受信される。補助信号2014は、狭帯域非活性音声2009自身と、エネルギー及びスペクトルパラメータとを含むことができる。広帯域拡張モジュール2016は、補助信号2014を使用してベースバンド高帯域非活性音声2018を生成する。その生成には、エネルギー輪郭マッチング及びスムージングを使用する広帯域ランダム励振に適用されるスペクトル拡張を使用することができる。アップサンプリングLP2010は狭帯域非活性音声2009を受信し、低帯域出力非活性音声2012を生成する。アップサンプリングHP2020は、ベースバンド高帯域非活性音声2018を受信して高帯域出力非活性音声2022を生成する。低帯域出力非活性音声2012及び高帯域出力非活性音声2022は加算され、再構成非活性音声2024が生成される。
上に提示された方法及びシステムは、ソフトウェア、ハードウェア、又はデバイス上のファームウェアとして具えることができ、本発明の精神から離れることなく、マイクロプロセッサ、デジタルシグナルプロセッサ、特定用途IC又はフィールドプログラマブルゲートアレイ(FPGA)又はそれらの組み合わせで実現することができる。更に、本発明はその精神又は基本的な特徴から離れることなく、他の特定の形態で実施することができる。記載された実施例は、あらゆる点において、単なる実例であって、限定するものではないことを考慮されたい。

Claims (20)

  1. 音声エンコーダにより入力音声信号を符号化する方法であって、
    入力音声信号を受信するステップと、
    前記入力音声信号が活性音声信号又は非活性音声信号を含むかを決定するステップと、
    前記非活性音声信号をローパスフィルタリングして狭帯域非活性音声信号を生成するステップと、
    前記非活性音声信号をハイパスフィルタリングして高帯域非活性音声信号を生成するステップと、
    狭帯域非活性音声エンコーダを使用して前記狭帯域非活性音声信号を符号化して符号化された狭帯域音声を生成する符号化するステップと、
    前記狭帯域非活性音声信号に基づいて前記狭帯域非活性音声エンコーダにより第1の補助信号を生成するステップと、
    前記狭帯域非活性音声エンコーダからの前記第1の補助信号に基づいて、広帯域非活性音声エンコーダを用いて前記高帯域非活性音声信号を符号化して符号化された広帯域非活性音声を生成するステップと、
    前記符号化された狭帯域非活性音声と前記符号化された高帯域非活性音声とを送信するステップと、
    を含むことを特徴とする符号化方法。
  2. 前記高帯域非活性音声信号に基づいて、前記広帯域非活性音声エンコーダにより第2の補助信号を生成するステップを更に含み、
    前記狭帯域非活性音声エンコーダは、前記広帯域非活性音声エンコーダからの前記第2の補助信号に基づいて前記狭帯域非活性音声信号を符号化することを特徴とする、請求項1に記載の符号化方法。
  3. 前記送信ステップは、不連続送信(DTX)手法を含むことを特徴とする、請求項1に記載の符号化方法。
  4. 音声エンコーダにより入力音声信号を符号化する方法であって、
    入力音声信号を受信するステップと、
    前記入力音声信号が活性音声信号又は非活性音声信号を含むかを決定するステップと、
    前記非活性音声信号をローパスフィルタリングして狭帯域非活性音声信号を生成するステップと、
    前記非活性音声信号をハイパスフィルタリングして高帯域非活性音声信号を生成するステップと、
    ITU−T G.729付録Bの勧告に従って前記狭帯域非活性音声信号を符号化して、G.729Bに従って符号化された非活性音声を生成するステップと、
    前記高帯域非活性音声信号を符号化して符号化された広帯域非活性音声を生成するステップと、
    前記G.729Bに従って符号化された狭帯域非活性音声をG.729Bビットストリームとして送信するステップと、
    前記符号化された広帯域非活性音声を、G.729Bビットストリームに続いて広帯域ベースレイヤビットストリームとして送信するステップと、
    を含むことを特徴とする符号化方法。
  5. エンハンスメントされた狭帯域ベースレイヤビットストリームを生成するように前記狭帯域非活性音声信号を符号化するステップと、
    前記広帯域ベースレイヤビットストリームに続いて前記エンハンスメントされた狭帯域ベースレイヤビットストリームを送信するステップと、
    を更に含むことを特徴とする、請求項4に記載の符号化方法。
  6. エンハンスメントされた広帯域ベースレイヤビットストリームを生成するように前記高帯域非活性音声信号を符号化するステップと、
    前記エンハンスメントされた狭帯域ベースレイヤビットストリームに続いて前記エンハンスメントされた広帯域ベースレイヤビットストリームを送信するステップと、
    を更に含むことを特徴とする、請求項5に記載の符号化方法。
  7. エンハンスメントされた広帯域ベースレイヤビットストリームを生成するように前記高帯域非活性音声信号を符号化するステップと、
    前記高帯域ベースレイヤビットストリームに続いて前記高帯域ベースレイヤビットストリームを送信するステップと、
    を更に含むことを特徴とする、請求項4に記載の符号化方法。
  8. エンハンスメントされた狭帯域ベースレイヤビットストリームを生成するように前記狭帯域非活性音声信号を符号化するステップと、
    前記エンハンスメントされた広帯域ベースレイヤビットストリームに続いて前記エンハンスメントされた狭帯域ベースレイヤビットストリームを送信するステップと、
    を更に含むことを特徴とする、請求項7に記載の符号化方法。
  9. 符号化された音声信号を音声デコーダにより復号する方法であって、
    符号化された音声信号を受信するステップと、
    符号化された音声信号が符号化活性音声信号又は符号化非活性音声信号を含むかを決定するステップと、
    狭帯域デコーダ及び広帯域デコーダを用いて前記符号化活性音声信号をエンベデッドビットストリームとして復号して、狭帯域活性音声パラメータ及び広帯域活性音声パラメータを生成するステップと、
    前記符号化非活性音声信号を狭帯域ビットストリームとして復号して狭帯域非活性音声パラメータを生成するステップと、
    前記狭帯域活性音声パラメータ及び前記広帯域活性音声パラメータを用いて前記狭帯域非活性音声パラメータに帯域幅拡張を適用して、広帯域非活性音声パラメータを生成するステップと、
    を含むことを特徴とする復号方法。
  10. 音声エンコーダにより入力音声信号を符号化する方法であって、
    前記入力音声信号を受信するステップと、
    前記入力音声信号をローパスフィルタリングして狭帯域入力音声信号を生成するステップと、
    前記入力音声信号をハイパスフィルタリングして高帯域入力音声信号を生成するステップと、
    前記狭帯域入力音声信号が活性音声信号又は非活性音声信号を含むかを検出するステップと、
    前記検出ステップにおいて前記狭帯域入力音声信号が前記非活性音声信号を含むと検出された場合に、狭帯域非活性音声エンコーダを用いて前記狭帯域非活性音声信号を符号化して、符号化された狭帯域非活性音声を生成するステップと、
    前記検出ステップにおいて前記狭帯域入力音声信号が前記非活性音声信号を含むと検出された場合に、広帯域非活性音声エンコーダを用いて前記高帯域非活性音声信号を符号化して、符号化された広帯域非活性音声を生成するステップと、
    前記符号化された狭帯域非活性音声及び前記符号化された広帯域非活性音声を送信するステップと、
    を含むことを特徴とする符号化方法。
  11. 前記高帯域音声信号に基づいて前記広帯域非活性音声エンコーダにより第2の補助信号を生成するステップを更に含み、
    前記狭帯域非活性音声エンコーダは、前記広帯域非活性音声エンコーダからの前記第2の補助信号に基づいて前記狭帯域音声信号を符号化することを特徴とする、請求項10に記載の符号化方法。
  12. 前記狭帯域音声信号に基づいて前記狭帯域非活性音声エンコーダにより第1の補助信号を生成するステップを更に含み、
    前記広帯域非活性音声エンコーダは、前記狭帯域非活性音声エンコーダからの前記第1の補助信号に基づいて前記広帯域音声信号を符号化することを特徴とする、請求項10に記載の符号化方法。
  13. 前記活性音声信号に対するローパスフィルタリングは前記非活性音声信号に対するローパスフィルタリングと異なり、前記活性音声信号に対するハイパスフィルタリングは前記非活性音声信号に対するハイパスフィルタリングと異なることを特徴とする、請求項10に記載の符号化方法。
  14. 前記送信するステップは不連続送信(DTX)手法を含むことを特徴とする、請求項10に記載の符号化方法。
  15. 入力音声信号を符号化するように構成された音声エンコーダであって、
    前記入力音声信号を受信するように構成された受信器と、
    前記入力音声信号が活性音声信号又は非活性音声信号を含むかを検出するように構成された音声アクティビティ検出器と、
    前記非活性音声信号をローパスフィルタリングして狭帯域非活性音声信号を生成するためのローパスフィルタと、
    前記非活性音声信号をハイパスフィルタリングして高帯域非活性音声信号を生成するためのハイパスフィルタと、
    前記狭帯域非活性音声信号を符号化して符号化された狭帯域非活性音声を生成するように構成され、更に前記狭帯域非活性音声信号に基づいて第1の補助信号を生成するように構成された狭帯域非活性音声エンコーダと、
    前記狭帯域非活性音声エンコーダからの前記第1の補助信号に基づいて前記高帯域非活性音声信号を符号化して、符号化された広帯域非活性音声を生成するように構成された広帯域非活性音声エンコーダと、
    前記符号化された狭帯域非活性音声及び前記符号化された広帯域非活性音声を送信するように構成された送信器と、
    を具えることを特徴とする音声エンコーダ。
  16. 前記広帯域非活性音声エンコーダは、更に前記高帯域非活性音声信号に基づいて第2の補助信号を生成するように構成され、前記狭帯域非活性音声エンコーダは、更に前記広帯域非活性音声エンコーダからの前記第2の補助信号に基づいて前記狭帯域非活性音声信号を符号化するように構成されていることを特徴とする、請求項15に記載の音声エンコーダ。
  17. 前記送信器は、不連続送信(DTX)手法に従って送信するように構成されていることを特徴とする、請求項15に記載の音声エンコーダ。
  18. 入力信号を符号化するように構成された音声エンコーダであって、
    前記入力音声信号を受信するように構成された受信器と、
    前記入力音声信号をローパスフィルタリングして狭帯域音声信号を生成するためのローパスフィルタと、
    前記入力音声信号をハイパスフィルタリングして高帯域音声信号を生成するためのハイパスフィルタと、
    前記狭帯域入力音声信号が活性音声信号又は非活性音声信号を含むかを検出するように構成された音声アクティビティ検出器(VAD)と、
    前記VADが、前記狭帯域入力音声信号が前記非活性音声信号を含むと検出した場合に、前記狭帯域音声信号を符号化して符号化された狭帯域非活性音声を生成するように構成された狭帯域非活性音声エンコーダと、
    前記VADが、前記狭帯域入力音声信号が前記非活性音声信号を含むと検出した場合に、前記高帯域音声信号を符号化して符号化された広帯域非活性音声を生成するように構成された広帯域非活性音声エンコーダと、
    前記符号化された狭帯域非活性音声及び前記符号化された広帯域非活性音声を送信するように構成された送信器と、
    を具えることを特徴とする音声エンコーダ。
  19. 前記広帯域非活性音声エンコーダは、更に前記高帯域音声信号に基づいて第2の補助信号を生成するように構成され、前記狭帯域非活性音声エンコーダは、更に前記高帯域非活性音声エンコーダからの前記第2の補助信号に基づいて前記狭帯域音声信号を符号化するように構成されていることを特徴とする、請求項18に記載の音声エンコーダ。
  20. 前記狭帯域非活性音声エンコーダは、更に前記狭帯域音声信号に基づいて第1の補助信号を生成するように構成され、前記広帯域非活性音声エンコーダは、更に前記狭帯域非活性音声エンコーダからの前記第1の補助信号に基づいて前記広帯域音声信号を符号化するように構成されていることを特徴とする、請求項18に記載の音声エンコーダ。
JP2009549588A 2007-02-14 2008-02-01 エンベデッド無音及び背景雑音圧縮 Active JP5096498B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US90119107P 2007-02-14 2007-02-14
US60/901,191 2007-02-14
US12/002,131 US8032359B2 (en) 2007-02-14 2007-12-14 Embedded silence and background noise compression
US12/002,131 2007-12-14
PCT/US2008/001356 WO2008100385A2 (en) 2007-02-14 2008-02-01 Embedded silence and background noise compression

Publications (2)

Publication Number Publication Date
JP2010518453A true JP2010518453A (ja) 2010-05-27
JP5096498B2 JP5096498B2 (ja) 2012-12-12

Family

ID=39686599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009549588A Active JP5096498B2 (ja) 2007-02-14 2008-02-01 エンベデッド無音及び背景雑音圧縮

Country Status (7)

Country Link
US (2) US8032359B2 (ja)
EP (2) EP2118891B1 (ja)
JP (1) JP5096498B2 (ja)
CN (2) CN101606196B (ja)
AT (2) ATE533148T1 (ja)
DE (1) DE602008002902D1 (ja)
WO (1) WO2008100385A2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011512563A (ja) * 2008-02-19 2011-04-21 シーメンス エンタープライズ コミュニケーションズ ゲゼルシャフト ミット ベシュレンクテル ハフツング ウント コンパニー コマンディートゲゼルシャフト 背景ノイズ情報を符号化する方法および手段
JP2011514561A (ja) * 2008-03-20 2011-05-06 華為技術有限公司 背景雑音生成方法および雑音処理装置
JP2015507764A (ja) * 2011-12-30 2015-03-12 華為技術有限公司Huawei Technologies Co.,Ltd. オーディオ・データを処理するための方法、装置、及びシステム
JP2017524157A (ja) * 2014-07-28 2017-08-24 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 快適雑音生成モード選択のための装置および方法

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100629997B1 (ko) * 2004-02-26 2006-09-27 엘지전자 주식회사 오디오 신호의 인코딩 방법
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
KR100905585B1 (ko) * 2007-03-02 2009-07-02 삼성전자주식회사 음성신호의 대역폭 확장 제어 방법 및 장치
CN100555414C (zh) * 2007-11-02 2009-10-28 华为技术有限公司 一种dtx判决方法和装置
CN101889432B (zh) * 2007-12-07 2013-12-11 艾格瑞系统有限公司 处于保持时的音乐的终端用户控制
DE102008009720A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen
DE102008009718A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
CN101483042B (zh) 2008-03-20 2011-03-30 华为技术有限公司 一种噪声生成方法以及噪声生成装置
WO2009116815A2 (en) * 2008-03-20 2009-09-24 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding using bandwidth extension in portable terminal
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
KR20100006492A (ko) 2008-07-09 2010-01-19 삼성전자주식회사 부호화 방식 결정 방법 및 장치
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
WO2010028301A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
US8532998B2 (en) 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
WO2010028299A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
US7889721B2 (en) * 2008-10-13 2011-02-15 General Instrument Corporation Selecting an adaptor mode and communicating data based on the selected adaptor mode
KR101539268B1 (ko) * 2008-12-22 2015-07-24 삼성전자주식회사 수신기의 잡음 제거 장치 및 방법
EP2237269B1 (en) 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
JP5223786B2 (ja) * 2009-06-10 2013-06-26 富士通株式会社 音声帯域拡張装置、音声帯域拡張方法及び音声帯域拡張用コンピュータプログラムならびに電話機
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
FR2947945A1 (fr) * 2009-07-07 2011-01-14 France Telecom Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques
WO2011085483A1 (en) 2010-01-13 2011-07-21 Voiceage Corporation Forward time-domain aliasing cancellation using linear-predictive filtering
US9263063B2 (en) 2010-02-25 2016-02-16 Telefonaktiebolaget L M Ericsson (Publ) Switching off DTX for music
ES2501840T3 (es) * 2010-05-11 2014-10-02 Telefonaktiebolaget Lm Ericsson (Publ) Procedimiento y disposición para el procesamiento de señales de audio
US8560330B2 (en) 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
CA2981539C (en) * 2010-12-29 2020-08-25 Samsung Electronics Co., Ltd. Apparatus and method for encoding/decoding for high-frequency bandwidth extension
CN102332264A (zh) * 2011-09-21 2012-01-25 哈尔滨工业大学 鲁棒性活动语音检测方法
US8953724B2 (en) * 2012-06-27 2015-02-10 Andrew Llc Canceling narrowband interfering signals in a distributed antenna system
JP2014074782A (ja) * 2012-10-03 2014-04-24 Sony Corp 音声送信装置、音声送信方法、音声受信装置および音声受信方法
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
CN103457703B (zh) * 2013-08-27 2017-03-01 大连理工大学 一种g.729到amr12.2速率的转码方法
US9984693B2 (en) * 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
CN104378474A (zh) * 2014-11-20 2015-02-25 惠州Tcl移动通信有限公司 一种降低通话输入噪音的移动终端及其方法
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
CN110366270B (zh) 2018-04-10 2021-08-13 华为技术有限公司 通信方法及装置
CN112530454A (zh) * 2020-11-30 2021-03-19 厦门亿联网络技术股份有限公司 一种窄带语音信号检测方法、装置、系统和可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006107840A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
WO2007126015A1 (ja) * 2006-04-27 2007-11-08 Panasonic Corporation 音声符号化装置、音声復号化装置、およびこれらの方法
WO2008016942A2 (en) * 2006-07-31 2008-02-07 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
WO2008032828A1 (fr) * 2006-09-15 2008-03-20 Panasonic Corporation Dispositif de codage audio et procédé de codage audio
JP2008139562A (ja) * 2006-12-01 2008-06-19 Casio Comput Co Ltd 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08102687A (ja) * 1994-09-29 1996-04-16 Yamaha Corp 音声送受信方式
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
US7136810B2 (en) * 2000-05-22 2006-11-14 Texas Instruments Incorporated Wideband speech coding system and method
EP1489599B1 (en) * 2002-04-26 2016-05-11 Panasonic Intellectual Property Corporation of America Coding device and decoding device
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
KR100721537B1 (ko) * 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006107840A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
WO2007126015A1 (ja) * 2006-04-27 2007-11-08 Panasonic Corporation 音声符号化装置、音声復号化装置、およびこれらの方法
WO2008016942A2 (en) * 2006-07-31 2008-02-07 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
WO2008032828A1 (fr) * 2006-09-15 2008-03-20 Panasonic Corporation Dispositif de codage audio et procédé de codage audio
JP2008139562A (ja) * 2006-12-01 2008-06-19 Casio Comput Co Ltd 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011512563A (ja) * 2008-02-19 2011-04-21 シーメンス エンタープライズ コミュニケーションズ ゲゼルシャフト ミット ベシュレンクテル ハフツング ウント コンパニー コマンディートゲゼルシャフト 背景ノイズ情報を符号化する方法および手段
JP2011514561A (ja) * 2008-03-20 2011-05-06 華為技術有限公司 背景雑音生成方法および雑音処理装置
US8494846B2 (en) 2008-03-20 2013-07-23 Huawei Technologies Co., Ltd. Method for generating background noise and noise processing apparatus
US9892738B2 (en) 2011-12-30 2018-02-13 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data
US9406304B2 (en) 2011-12-30 2016-08-02 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data
JP2015507764A (ja) * 2011-12-30 2015-03-12 華為技術有限公司Huawei Technologies Co.,Ltd. オーディオ・データを処理するための方法、装置、及びシステム
US10529345B2 (en) 2011-12-30 2020-01-07 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data
US11183197B2 (en) 2011-12-30 2021-11-23 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data
US11727946B2 (en) 2011-12-30 2023-08-15 Huawei Technologies Co., Ltd. Method, apparatus, and system for processing audio data
JP2017524157A (ja) * 2014-07-28 2017-08-24 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 快適雑音生成モード選択のための装置および方法
US10089993B2 (en) 2014-07-28 2018-10-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for comfort noise generation mode selection
CN113140224A (zh) * 2014-07-28 2021-07-20 弗劳恩霍夫应用研究促进协会 用于舒适噪声生成模式选择的装置和方法
US11250864B2 (en) 2014-07-28 2022-02-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for comfort noise generation mode selection
CN113140224B (zh) * 2014-07-28 2024-02-27 弗劳恩霍夫应用研究促进协会 用于舒适噪声生成模式选择的装置和方法

Also Published As

Publication number Publication date
ATE533148T1 (de) 2011-11-15
WO2008100385A4 (en) 2009-06-11
ATE484053T1 (de) 2010-10-15
CN102592600B (zh) 2016-08-24
US20080195383A1 (en) 2008-08-14
US20110320194A1 (en) 2011-12-29
CN102592600A (zh) 2012-07-18
WO2008100385A2 (en) 2008-08-21
EP2224429A2 (en) 2010-09-01
EP2224429A3 (en) 2010-09-22
EP2224429B1 (en) 2011-11-09
CN101606196B (zh) 2012-04-04
DE602008002902D1 (de) 2010-11-18
US8195450B2 (en) 2012-06-05
US8032359B2 (en) 2011-10-04
JP5096498B2 (ja) 2012-12-12
CN101606196A (zh) 2009-12-16
WO2008100385A3 (en) 2009-04-23
EP2118891B1 (en) 2010-10-06
EP2118891A2 (en) 2009-11-18

Similar Documents

Publication Publication Date Title
JP5096498B2 (ja) エンベデッド無音及び背景雑音圧縮
KR100711989B1 (ko) 효율적으로 개선된 스케일러블 오디오 부호화
JP5009910B2 (ja) レートスケーラブル及び帯域幅スケーラブルオーディオ復号化のレートの切り替えのための方法
JP5363488B2 (ja) マルチチャネル・オーディオのジョイント強化
KR101303145B1 (ko) 계층적 오디오 신호를 코딩하기 위한 시스템, 오디오 신호를 코딩하는 방법, 컴퓨터-판독가능한 매체 및 계층적 오디오 디코더
RU2469419C2 (ru) Способ и устройство для управления сглаживанием стационарного фонового шума
JP2010503881A (ja) 音声・音響送信器及び受信器のための方法及び装置
WO2005106848A1 (ja) スケーラブル復号化装置および拡張レイヤ消失隠蔽方法
JP4980325B2 (ja) 広帯域オーディオ信号の符号化/復号化装置およびその方法
KR101462293B1 (ko) 고정된 배경 잡음의 평활화를 위한 방법 및 장치
JPWO2006025313A1 (ja) 音声符号化装置、音声復号化装置、通信装置及び音声符号化方法
US8010346B2 (en) Method and apparatus for transmitting wideband speech signals
JP2011512563A (ja) 背景ノイズ情報を符号化する方法および手段
US20080059154A1 (en) Encoding an audio signal
JP5255575B2 (ja) レイヤード・コーデックのためのポストフィルタ
JP5006975B2 (ja) 背景雑音情報の復号化方法および背景雑音情報の復号化手段
JP6713424B2 (ja) 音声復号装置、音声復号方法、プログラム、および記録媒体
Gibson Speech coding for wireless communications
Taleb et al. G. 719: The first ITU-T standard for high-quality conversational fullband audio coding
JP5480226B2 (ja) 信号処理装置および信号処理方法
Schmidt et al. On the Cost of Backward Compatibility for Communication Codecs

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120828

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120920

R150 Certificate of patent or registration of utility model

Ref document number: 5096498

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250