JP5361909B2 - 背景ノイズ情報を符号化する方法および手段 - Google Patents

背景ノイズ情報を符号化する方法および手段 Download PDF

Info

Publication number
JP5361909B2
JP5361909B2 JP2010547137A JP2010547137A JP5361909B2 JP 5361909 B2 JP5361909 B2 JP 5361909B2 JP 2010547137 A JP2010547137 A JP 2010547137A JP 2010547137 A JP2010547137 A JP 2010547137A JP 5361909 B2 JP5361909 B2 JP 5361909B2
Authority
JP
Japan
Prior art keywords
background noise
sid
frame
encoding
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010547137A
Other languages
English (en)
Other versions
JP2011512563A (ja
Inventor
タデイ エルヴ
シャンドル シュテファン
セティアワン パンジ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unify GmbH and Co KG
Original Assignee
Siemens Enterprise Communications GmbH and Co KG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Enterprise Communications GmbH and Co KG filed Critical Siemens Enterprise Communications GmbH and Co KG
Publication of JP2011512563A publication Critical patent/JP2011512563A/ja
Application granted granted Critical
Publication of JP5361909B2 publication Critical patent/JP5361909B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

本発明は、音声信号符号化方法における背景ノイズ情報を符号化する方法および手段に関する。
電話での会話に対しては、テレコミュニケーションの初期段階からアナログ音声伝送に帯域幅制限が設けられていた。音声伝送は、300Hz〜3400Hzの制限された周波数領域で行われる。
このように制限された周波数領域は、現在のデジタルテレコミュニケーション用の多くの音声信号符号化方法においても設けられている。このため、符号化プロセスの前にアナログ信号の帯域幅制限が行われる。ここでは符号化および復号化のためにコーデックが使用される。上記のように帯域幅制限が300Hz〜3400Hzの周波数領域であることに起因して以下ではこのコーデックを狭帯域音声コーデック(Narrow Band Speech Codec)とも称する。ここでコーデックという用語は、オーディオ信号をデジタル符号化するための符号化規則のことでもあり、またオーディオ信号を再構成することを目的としてデータを復号化するための復号化規則のことでもあると理解されたい。
狭帯域音声コーデックは、例えば、ITU-T勧告G.729から公知である。そこに記載された符号化規則により、8kbit/sのデータレートで狭帯域音声信号の伝送が行われる。
さらにいわゆる広帯域音声コーデック(Wide Band Speech Codec)も公知であり、これは、聴覚的印象を改善するため、拡張された周波数領域における符号化を行うためのものである。このように拡張された周波数領域は、例えば、50Hz〜7000Hzの周波数にある。広帯域音声コーデックは、例えば、ITU-T勧告G.729拡張版から公知である。
ふつう広帯域音声コーデック用の符号化方法は、スケーラブルに構成される。ここでスケーラビリティという用語が意味するのは、伝送される符号化データが、種々異なって区画されたブロックを含んでおり、これらのブロックが、符号化される音声信号の狭帯域部分、広帯域部分および/または全帯域幅を含んでいることである。このようにスケーラブルな構成により、一方では受信側における下方互換性が可能になり、また他方ではこれによって、伝送チャネルにおけるデータ伝送容量が限られている場合に、伝送されるデータフレームのサイズおよびデータレートを送信側および受信側で簡単に適合できるようになる。
コーデックによってデータ伝送レートを低減するため、ふつうは伝送されるデータの圧縮を行う。圧縮は、例えば、符号化方法によって行われ、ここでは音声データを符号化するため、励起信号に対するパラメタと、フィルタパラメタとが決定される。これらのフィルタパラメタおよび上記の励起信号を特定するパラメタはつぎに受信側に伝送される。受信側では上記のコーデックを使用して、主観的な聴覚的印象が原音声信号にできるかぎり類似している合成音声信号を合成する。「合成的解析」(Analysis-by-Synthesis)とも称されるこの方法も用いることにより、求められかつデジタル化されたサンプル値(サンプル)そのものが伝送されるのではなく、この音声信号を受信側で合成できるようにする求められたパラメタが伝送されるのである。
データ伝送レートを低減する別の手段は、不連続送信(Discontinuous Transmission)を行う方法であり、この方法はこの技術分野においてDTXという用語でも知られている。DTXの基本的な目的は、音声が休止した場合のデータ伝送レートを低減することである。
このために送信側において音声休止識別(Voice Activity Detection, VAD)を使用する。これは、あらかじめ定めた信号レベルを下回った場合に音声の休止を識別する。音声休止中、受信者はふつう完全な無音状態を期待しない。これとは逆に完全な無音状態は、受信者を不満にするか、または受信者にコネクション断を推測することにさえなる。このため、いわゆるコンフォートノイズ(Comfort Noise)を形成する方法が適用されるのである。
コンフォートノイズとは、無音フェーズを充填するために受信側で合成されるノイズのことである。このコンフォートノイズは、コネクションが存続しているという主観的な印象に役立っており、その際に音声信号を伝送するためのデータ伝送レートを必要とすることはない。言い換えると、送信側でノイズを符号化するためには、音声データを符号化するよりもコストがかからないのである。受信側にとってさらに実際的であると思われるコンフォートノイズの合成は、はるかに低いデータレートでデータを伝送することである。ここで伝送されるデータは、この技術分野ではSID(Silence Insertion Description)と称される。
目下のところ開発されているコーデックは、音声情報のスケーラブルな符号化に力を注いでいる。スケーラブルなアプローチを用いることにより、符号化プロセスの結果には種々異なるブロックが含まれることになり、これらのブロックには、原音声信号の狭帯域部分が含まれ、音声信号の広帯域部分または完全な帯域幅も含まれる。すなわち例えば50〜7000Hzの周波数領域も含まれるのである。
現在のスケーラブルな符号化方法では、背景ノイズ情報の符号化は、入力ノイズ信号の全帯域幅にわたるか、または入力ノイズ信号の帯域幅の一区画にわたって行われるかのいずれかである。この符号化されたノイズ信号は、SIDフレームの形でDTX方式によって伝送されて受信側で再構成される。すなわち再構成されるコンフォートノイズ、すなわち合成されるコンフォートノイズは、場合によっては、受信側で合成される音声情報とは異なる品質を有するのである。このことは、受信者の評価に不利になってしまう。
本発明の課題は、スケーラブルな音声コーデックにおいてDTX方式の実現を改善することである。
この課題は、独立請求項に記載した特徴的構成によって解決される。
本発明の基本的なアイデアは、音声情報伝送用に公知であるスケーラビリティをSIDフレーム形成時にも類似に設けることである。
スケーラブルな音声信号符号化方式を適用して背景ノイズ情報を伝送するためにSIDフレームを符号化する本発明の方法では、背景ノイズ情報の狭帯域の第1部分および広帯域の第2部分を符号化する。この符号化はふつう同時にまた異なる手法で行われる。しかしながら1部分の符号化を時間的にずらして行うか、またはこれを別の部分を符号化した後に行うことも当然可能である。また上記の2つの部分の符号化をオプションで同じ手法で行うことも可能である。上記の2つの部分を符号化した後、これらの第1部分および第2部分に対して別々の領域で1つのSIDフレームを構成する。言い換えるとこのことが意味するのは、上記のSIDフレームにおいて、第1のデータ領域には、符号化された第1部分に対するデータが収容され、これに対してこれとは別の第2のデータ領域に、符号化された第2部分に対するデータが収容されるということである。
本発明の実質的な利点は、上記の伝送されるSIDフレームの広帯域部分に基づいてコンフォートノイズを形成すべきか、または狭帯域部分に基づいてこれを形成すべきかを受信側で決定できることである。このことは、音声情報フレームに対する伝送レートが低下して狭帯域の音声情報だけが伝送される状況において、受信者における音響についての評価に殊に有利である。すなわち、目下の従来技術のように狭帯域の音声情報が、広帯域ノイズと関連して合成される場合、これは受信者にとって極めて不満のもとになる。音声情報フレームに対する伝送レートの上記のような低下は、例えば、送信者と受信者との間のネットワークの稼働率(輻輳)が高いことによって発生することがある。格段に小さいSIDフレームでは、このようなネットワークの隘路に襲われてしまうことはない。したがってこのようなSIDフレームにとっては、データ伝送レートを低減しなければならないという拘束も、そのコンテンツを低減しなければならない拘束もないのである。
本発明の有利な実施形態は従属請求項に記載されている。
本発明の第1の有利な実施形態によれば、上記のSIDフレームの定義に第3の部分が設けられる。この第3の部分には符号化された背景ノイズパラメタが含まれており、これは、この第3の部分が狭帯域のデータ(拡張された狭帯域データないしは"Enhanced Low Band")をなお含んでいる場合であっても、高いデータレートで符号化される。この第3部分を有するSIDフレームを定義することの利点は、従来の狭帯域符号化方法に比べてより高い品質でノイズ信号を再生でき、またその際に規格G.729.Bに対してなお整合性を保てることである。
本発明によるSIDフレームの構造を示す図である。
以下、本発明の別の利点および実施形態を有する実施例を図面に基づいて詳しく説明する。
以下では本発明の基礎にある技術的な背景をまず図を参照せずに詳しく説明する。
現在のスケーラブルな符号化方法において不連続送信(DTX)を行うために広帯域音声コーデックに対して実現されている方法は、背景ノイズ情報を伝送するため、目下のところ、スケーラブル特徴をサポートしていない。ここでこの特徴は、音声情報の伝送用に設けられたものである。
目下のところの迂回的な解決手段として符号化は、入力ノイズ信号の全帯域幅にわたって行われるか、または入力ノイズ信号の帯域幅の一区画にわたって行われる。このため、さらに改善された方法に対する要求が存在するのである。
過去には主に2つの音声コーデックの2つのタイプが開発されており、1つは、例えば3GPP AMR,ITU-T G.729などの狭帯域な音声コーデックであり、別の1つは3GPP AMR-WB,ITU-T G.722などの広帯域な音声コーデックである。狭帯域な音声コーデックにより、ふつう300Hz〜3400Hzの周波数領域にある帯域幅を有する音声信号が8kHzのサンプリング周波数で符号化される。広帯域な音声コーデックにより、ふつう50Hz〜7000Hzの周波数領域にある帯域幅において16kHzのサンプリング周波数で音声信号が符号化される。
これらのコーデックのうちのいくつかにより、DTX方式、すなわち不連続送信方式が使用され、通信チャネルにおける全体伝送レートが低減される。DTX方式ではSIDフレームが送信される。この際にSIDフレームの帯域幅は、音声信号の帯域幅に相当する。1つのSIDフレームには、音声休止中の背景ノイズが書き込まれる。
目下開発されているコーデックは、スケーラブルな符号化に注力している。スケーラブルなアプローチを用いることにより、符号化プロセスの結果には種々異なるブロックが含まれ、これらのブロックには、原音声信号の狭帯域部分が含まれ、音声信号の広帯域部分または完全な帯域幅も含まれる。すなわち例えば50〜7000Hzの周波数領域も含まれるのである。上記の広帯域部分は、ふつう4kHzの周波数からはじまる。
現在のDTX方式は、目下のところコーデックのスケーラブルな特徴をサポートしていない。その代わりに符号化は、入力音声信号の全帯域幅にわたるか、または入力信号の帯域幅の一区画にわたって行われる。このため、さらに改善された方法が必要なのである。
わかりやすくするため、以下ではITU-T規格G.729.1による符号化方法を説明する。このコーデックG.729.1は、スケーラブルな音声コーデックであり、ここではDTX方式が全帯域幅にわたって適用されるが、現在のところスケーラブルでない。
この符号化方式は、アクティブな音声期間中(「サイレンス期間」として識別されている音声休止と区別して)つぎにように特徴付けることができる。すなわち、
音声信号は、2つの部分、すなわち狭帯域(Lowband)部分と、広帯域(Highband)部分とに分解される。2つの信号は、8kHzのサンプリング周波数でサンプリングされる。狭帯域部分および広帯域部分への分配は、専用の帯域通過フィルタにおいて行われ、このフィルタはQMF(Quadrature Mirror Filter)と称される。
上記の音声信号の狭帯域部分は、8および12kbit/sのデータレートで符号化される。この音声信号を符号化するため、CELP(Code Excited Linear Prediction)方式が適用される。14kbit/s以上のデータレートに対し、上記の狭帯域部分はG.729.1の「変換コーデック」の節を考慮してさらに変形される。目下のフレームの広帯域部分は(ここでもこれが音声信号を含むという仮定の下で)、TDBWE(Time Domain Bandwidth Extension)方式を適用して14kbit/sのデータレートで符号化される。14kbit/s以上のデータレートに対してはG.729.1の「変換コーデック」の節が適用される。
規格G.729.1では不連続送信のための方式が提供されていないため、音声休止ないしは"non active voice period"では、以下で説明する迂回手段を適用する。
音声信号は同様に狭帯域部分と広帯域部分に分解され、ここでは2つの部分は8kHzの周波数でサンプリングされる。この分解も同様にQMFフィルタを介して行われる。
上記の狭帯域部分は、狭帯域SID情報を使用して符号化される。この狭帯域SID情報は後の時点に、規格G.729と互換性のあるSIDフレームにおいて受信側に送信される。上で説明した別の手段は、狭帯域SID部分の改善に貢献することができる。
上記の広帯域部分は、変形TDBWE方式を適用して符号化される。いわゆるハングオーバ期間(Hangover Period)中、上記の音声信号は引き続いて14kbit/sのデータレートで符号化され、これに対して上記の音声休止中に識別した背景ノイズも同時に評価されて相応するパラメタが設定される。この背景ノイズの評価は、ノイズ信号のエネルギおよびその周波数分布について行われる。しかしながら規格G.729.1で設けられているTDBWE方式とは異なり、時間的な微細構造は評価されず、複数のフレームにわたるエネルギの平均だけが形成される。
以下では本発明よる方法の1実施形態を図に基づいて説明する。
この図は、狭帯域の第1部分LB("Low Band")と、広帯域の第2部分HB("High Band")と、中間の第3部分ELB("Enhanced Low Band")とに対して別々の領域を有するSIDフレームを示している。
ここで第1部分LBには、符号化された背景ノイズパラメタが含まれており、これは8kbit/sまたはそれ以下のデータレートで符号化されている。第1部分LBのデータ長は、例えば15ビットである。
第2部分HBには、符号化された背景ノイズパラメタが含まれており、これは14kbit/s〜32kbit/sのデータレートで符号化されている。第2部分HBのデータ長は、例えば19ビットである。
第3部分ELBには、符号化された背景ノイズパラメタが含まれており、これは8kbit/sより高いデータレートで、すなわち例えば12kbit/sのデータレートで符号化されている。第3部分ELBのデータ長は、例えば9ビットである。第3部分ELBを有するSIDフレームの定義することの利点は、従来の狭帯域符号化方法に比べてより高い品質でノイズ信号を再生でき、またその際になお規格G.729.Bとの整合性を保てることである。
音声休止中には符号化器側で上記の背景ノイズの特性を取得する。これらの特性には、例えば、背景ノイズのスペクトル形状も、時間的の分布も共に含まれている。上記の取得プロセスに対してフィルタ方式を適用する。このフィルタ方式により、先行するフレームから得られる背景ノイズの時間的およびスペクトルなパラメタが考慮される。上記の背景ノイズの強さまたは特性に大きな変化が発生した場合、境界値パラメタ(閾値)に基づいて、上記の取得したパラメタを更新する必要があるか否かの判断が行われる。
上記のデコーダないしは受信側では以下の方法が実行される。「ふつうの」フレーム、すなわち音声信号を含むフレームを受信する場合、ふつうの復号化を行う。このようなふつうのフレームに対するデータレートは、ふつう8kbit/s以上である。SIDフレームが受信される場合、コンフォートノイズが合成され、ここで広帯域SIDの場合、広帯域のコンフォートノイズが合成され、また読み出された増幅係数で出力される。
以下では本発明による方法を発明の別の複数の実施形態によって説明する。
これらの実施形態は、例えばG.729.1などの広帯域コーデックにDTX方式を取り入れるためのさらなる詳細と、さらにTDBWE方式を変形する方法に関しており、これらは非アクティブフレーム(Non Active Frame)、すなわち音声情報のないフレーム中にコンフォートノイズの合成をサポートするものである。
1実施形態によればつぎのような手法が設けられる。
− G.729互換ないしはG.729.B互換のSIDフレーム(本発明によるSIDフレームの第1部分LB)を形成するための狭帯域SID情報の作成、
− 変形TDBWE方式(本発明によるSIDフレームの第2部分HB)を使用した広帯域SID情報の作成、
− オプションで狭帯域および/または広帯域SID情報について改善を行う。
− 第1SIDフレームの送信に先行するフェーズ中に上記の背景ノイズのエネルギ分布および/または周波数分布を分析ないしは「取得」する。
− 上記の背景ノイズの広帯域分部分に大きな変化が検出された場合、または狭帯域SID情報の更新を送信しようとする場合、SIDフレームを送信する。
この実施例はつぎの複数のフェーズにおいて実現される。すなわち、
− VAD方式を用いて目下の音声フェーズないしは音声休止が定められる。
− このVAD方式によって音声休止に変化が示される場合、ハングオーバ期間(Hang Over Period)をスタートさせる。このハングオーバ期間中、先行するデータレートが14kbit/sより大きな値を有していた場合、符号化器のデータレートを14kbit/sに低減する。この符号化器の先行するデータレートがすでに約12kbit/sを有している場合、このデータレートを8kbit/sの値に低減する。
− 上記のハングオーバ期間中、規格G.729と類似の手法ではあるがより多くのフレーム数を使用して背景ノイズの狭帯域部分を取得する。ここではオプションでフィルタ方式を適用することができ、このフィルタ方式により、先行するフレームよりも目下のフレームに高い重要度が割り当てられる。
− 上記のハングオーバ期間中、上記の背景ノイズをさらに広帯域部分において取得する。オプションでは実現を容易にするため、例えば、所要記憶スペースを低減するため、変形TDBWE方式を使用する。この方式の特徴は、時間領域における符号化が容易なことである。オプションでは、時間領域における符号化が、時間領域における信号のエネルギだけに相応することにより、上記の変形TDBWE方式をさらに容易にすることが可能である。別のオプションによる簡略化された符号化は、スペクトル的な平滑化方式を適用することである。それは時間領域および周波数領域におけるエネルギは、パーシバルの定理によって同じ値を提供するからである。上記の背景ノイズの広帯域部分においてもオプションで別のフィルタリング手段を適用することができる。この手段の目的は、先行するフレームよりも目下のフレームに、より大きな重要度を割り当てることである。
− 上記のハングオーバ期間が終了した後、第1SIDフレームを送信する。このフレームには上記の背景ノイズの大まかな表現が含まれている。この背景ノイズのこの大まかな表現は、上記のハングオーバ期間中に取得される。
− 上記のVADによってアクティブなフェーズ(音声)が検出されなかった場合、デコーダないしは受信側で、受信したSIDフレームに基づいてコンフォートノイズを合成する。
− 上記の背景ノイズの変化は、SIDフレームの狭帯域部分において検出される。ここでは種々異なるパラメタを考慮するがG.729と類似の方式にしたがう。
− 上記の広帯域部分では、フィルタリングしたエネルギパラメタを利用して背景ノイズを表す。これには例えば、時間領域における包絡曲線tenv_fidxおよび/または周波数領域における包絡曲線のパラメタfenv_fidx[i]が含まれており、ここでは各インデックスidxにより、各フレームが識別され、また上記の周波数領域における包絡曲線は、背景ノイズのスペクトル的な特性を表す適当な個数の周波数値i={1,…,NB-SUBBANDS}によって形成される。上記のフィルタリングされたエネルギパラメタは、適当なローパスフィルタを使用することにより、G.729.1に定義されたTDBWE-パラメタから導出される。すなわち、
Figure 0005361909
であり、
これらは周波数領域および時間領域における包絡線パラメタに相応に適用される。
− 上記のエネルギパラメタの広帯域部分における変化は、現在のノイズ信号のフィタリングされたエネルギパラメタと、これらのパラメタ比較値からなる2つの集合とを比較することにより、監視および検出される。ここで比較値の一方の集合は、インデックスidx-1を有する先行するフレームから得られるパラメタである。
Figure 0005361909
またここで上記の別の集合は、インデックスlast_txを有する最後に伝送されたフレームのパラメタからなる。上記のパラメタの差分のうちの1つ(temp_d,spec_d,temp_ch,spec_ch)が、適当に選択した境界値を上回る場合、すなわち
Figure 0005361909
新たなSID-Updateフレームを送信しなければならない。
− 上記のVADによって音声期間が識別されると直ちに上記の音声信号は、必要な伝送レートで伝送され、復号器側でのコンフォートノイズの合成が終了する。したがってG.729.1のようにふつうの復号化動作が行われるのである。

Claims (14)

  1. スケーラブルな音声信号符号化方法を使用して背景ノイズ情報を伝送するために少なくとも1つのSIDフレーム(SID)を符号化する方法において、
    該方法は、
    前記背景ノイズ情報の狭帯域の第1部分(LB)と、広帯域の第2部分(HB)と、拡張された狭帯域の第3部分(ELB)と、を符号化するステップと、
    前記第1部分(LB)と、前記第2部分(HB)と、前記第3部分(ELB)と、に対して別々の領域を有する前記SIDフレーム(SID)を形成するステップと、
    を有し、
    音声情報伝送用のスケーラビリティをSIDフレーム(SID)形成時にも類似に設けて、前記伝送されるSIDフレーム(SID)の広帯域の第2部分(HB)に基づいてコンフォートノイズを形成すべきか、または狭帯域の第1部分(LB)に基づいてコンフォートノイズを形成すべきか、または拡張された狭帯域の第3部分(ELB)に基づいてコンフォートノイズを形成すべきかを受信側で決定する、
    IDフレーム(SID)を符号化する方法。
  2. 前記背景ノイズ情報の第1部分(LB)を、それ自体公知の規格G.729.Bの符号化指針にしたがって符号化する、
    請求項1に記載の方法。
  3. 音声休止中に符号化器側で背景ノイズの特性を取得する、
    請求項1または2に記載の方法。
  4. 前記特性には、背景ノイズのスペクトル形状も、時間的の分布も共に含まれている、
    請求項3に記載の方法。
  5. 得プロセスに対してフィルタ方式を適用し、該フィルタ方式により、先行するフレームから得られる背景ノイズの時間的およびスペクトルなパラメタが考慮される、
    請求項4に記載の方法。
  6. 前記背景ノイズの強さまたは特性に大きな変化が発生した場合、境界値パラメタ(閾値)に基づいて、前記取得したパラメタを更新する必要があるか否かの判断が行われる、
    請求項5に記載の方法。
  7. 前記背景ノイズの広帯域の第2部分(HB)に大きな変化が検出された場合、または狭帯域の第1部分(LB)の更新を送信しようとする場合、SIDフレーム(SID)を送信する、
    請求項6に記載の方法。
  8. 前記背景ノイズ情報の第2部分(HB)を変形TDBWE方式にしたがって符号化する、
    請求項1から7までのいずれか1項に記載の方法。
  9. 時間領域における符号化が、時間領域における信号のエネルギだけに相応することにより、前記変形TDBWE方式をさらに容易にする、
    請求項8に記載の方法。
  10. ハングオーバ期間中、フィルタ方式を適用して、先行するフレームよりも目下のフレームに高い重要度を割り当てる、
    請求項1から9までのいずれか1項に記載の方法。
  11. 前記広帯域の第2部分(HB)では、フィルタリングしたエネルギパラメタを利用して背景ノイズを表し、
    前記エネルギパラメタには、時間領域における包絡曲線(tenv_f idx )および/または周波数領域における包絡曲線のパラメタ(fenv_f idx [i])が含まれ、前記エネルギパラメタは、
    Figure 0005361909
    で表される、
    請求項1から10のいずれか1項に記載の方法。
  12. 各インデックス(idx)により、各フレームが識別され、
    前記周波数領域における包絡曲線は、背景ノイズのスペクトル的な特性を表す適当な個数の周波数値(i={1,…,NB-SUBBANDS})によって形成される、
    請求項11に記載の方法。
  13. 請求項1から12までのいずれか1項に記載の方法を実行する手段を有することを特徴とするコーデック。
  14. それ自体公知のITU-T規格G.729.1にて実現した、
    請求項13に記載のコーデック。
JP2010547137A 2008-02-19 2009-02-02 背景ノイズ情報を符号化する方法および手段 Expired - Fee Related JP5361909B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102008009719A DE102008009719A1 (de) 2008-02-19 2008-02-19 Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
DE102008009719.5 2008-02-19
PCT/EP2009/051118 WO2009103608A1 (de) 2008-02-19 2009-02-02 Verfahren und mittel zur enkodierung von hintergrundrauschinformationen

Publications (2)

Publication Number Publication Date
JP2011512563A JP2011512563A (ja) 2011-04-21
JP5361909B2 true JP5361909B2 (ja) 2013-12-04

Family

ID=40652248

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010547137A Expired - Fee Related JP5361909B2 (ja) 2008-02-19 2009-02-02 背景ノイズ情報を符号化する方法および手段

Country Status (8)

Country Link
US (2) US20100318352A1 (ja)
EP (1) EP2245621B1 (ja)
JP (1) JP5361909B2 (ja)
KR (2) KR20100120217A (ja)
CN (1) CN101952886B (ja)
DE (1) DE102008009719A1 (ja)
RU (1) RU2461080C2 (ja)
WO (1) WO2009103608A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101483495B (zh) * 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
CA2895391C (en) 2012-12-21 2019-08-06 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Comfort noise addition for modeling background noise at low bit-rates
EP2936487B1 (en) * 2012-12-21 2016-06-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generation of a comfort noise with high spectro-temporal resolution in discontinuous transmission of audio signals
KR101775084B1 (ko) * 2013-01-29 2017-09-05 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 주파수 향상 오디오 신호를 생성하는 디코더, 디코딩 방법, 인코딩된 신호를 생성하는 인코더, 및 컴팩트 선택 사이드 정보를 이용한 인코딩 방법
CN106169297B (zh) 2013-05-30 2019-04-19 华为技术有限公司 信号编码方法及设备
RU2658128C2 (ru) 2013-06-21 2018-06-19 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для генерации адаптивной формы спектра комфотного шума
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
EP2980790A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for comfort noise generation mode selection
KR101701623B1 (ko) * 2015-07-09 2017-02-13 라인 가부시키가이샤 VoIP 통화음성 대역폭 감소를 은닉하는 시스템 및 방법
US10978096B2 (en) * 2017-04-25 2021-04-13 Qualcomm Incorporated Optimized uplink operation for voice over long-term evolution (VoLte) and voice over new radio (VoNR) listen or silent periods

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI105001B (fi) * 1995-06-30 2000-05-15 Nokia Mobile Phones Ltd Menetelmä odotusajan selvittämiseksi puhedekooderissa epäjatkuvassa lähetyksessä ja puhedekooderi sekä lähetin-vastaanotin
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
US7124079B1 (en) * 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
RU2237296C2 (ru) * 1998-11-23 2004-09-27 Телефонактиеболагет Лм Эрикссон (Пабл) Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6397177B1 (en) * 1999-03-10 2002-05-28 Samsung Electronics, Co., Ltd. Speech-encoding rate decision apparatus and method in a variable rate
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
JP3761795B2 (ja) * 2000-04-10 2006-03-29 三菱電機株式会社 ディジタル回線多重化装置
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
US20030120484A1 (en) * 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US20030112758A1 (en) * 2001-12-03 2003-06-19 Pang Jon Laurent Methods and systems for managing variable delays in packet transmission
EP1808852A1 (en) * 2002-10-11 2007-07-18 Nokia Corporation Method of interoperation between adaptive multi-rate wideband (AMR-WB) and multi-mode variable bit-rate wideband (VMR-WB) codecs
CN1703736A (zh) * 2002-10-11 2005-11-30 诺基亚有限公司 用于源控制可变比特率宽带语音编码的方法和装置
US7391768B1 (en) * 2003-05-13 2008-06-24 Cisco Technology, Inc. IPv4-IPv6 FTP application level gateway
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
CN1989549B (zh) * 2004-07-23 2011-05-18 松下电器产业株式会社 语音编码装置及语音编码方法
US20060149536A1 (en) * 2004-12-30 2006-07-06 Dunling Li SID frame update using SID prediction error
EP1836797A4 (en) * 2005-01-10 2010-03-17 Quartics Inc INTEGRATED ARCHITECTURE FOR THE UNIFORM PROCESSING OF VISUAL DATA
CN100592389C (zh) * 2008-01-18 2010-02-24 华为技术有限公司 合成滤波器状态更新方法及装置
WO2006136901A2 (en) * 2005-06-18 2006-12-28 Nokia Corporation System and method for adaptive transmission of comfort noise parameters during discontinuous speech transmission
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US7796626B2 (en) * 2006-09-26 2010-09-14 Nokia Corporation Supporting a decoding of frames
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
KR101290622B1 (ko) * 2007-11-02 2013-07-29 후아웨이 테크놀러지 컴퍼니 리미티드 오디오 복호화 방법 및 장치
US8483854B2 (en) * 2008-01-28 2013-07-09 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multiple microphones
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置

Also Published As

Publication number Publication date
US20100318352A1 (en) 2010-12-16
KR20100120217A (ko) 2010-11-12
KR101364983B1 (ko) 2014-02-20
KR20120089378A (ko) 2012-08-09
JP2011512563A (ja) 2011-04-21
CN101952886A (zh) 2011-01-19
DE102008009719A1 (de) 2009-08-20
RU2010138563A (ru) 2012-04-10
US20160035360A1 (en) 2016-02-04
EP2245621B1 (de) 2019-05-01
WO2009103608A1 (de) 2009-08-27
RU2461080C2 (ru) 2012-09-10
EP2245621A1 (de) 2010-11-03
CN101952886B (zh) 2013-03-06

Similar Documents

Publication Publication Date Title
JP5361909B2 (ja) 背景ノイズ情報を符号化する方法および手段
JP5096582B2 (ja) ノイズ生成装置及び方法
JP4658596B2 (ja) 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置
JP5547081B2 (ja) 音声復号化方法及び装置
JP5096498B2 (ja) エンベデッド無音及び背景雑音圧縮
JP2006502427A (ja) 適応マルチレート広帯域(amr−wb)コーデックとマルチモード可変ビットレート広帯域(vmr−wb)コーデック間における相互運用方法
JP2009503559A (ja) レートスケーラブル及び帯域幅スケーラブルオーディオ復号化のレートの切り替えのための方法
KR101648290B1 (ko) 컴포트 노이즈의 생성
KR20120125513A (ko) 일반 오디오 및 음성 프레임들을 포함하는 오디오 신호를 위한 인코더
KR101462293B1 (ko) 고정된 배경 잡음의 평활화를 위한 방법 및 장치
ES2546028T3 (es) Un método y un dispositivo de codificación/decodificación
JP5415460B2 (ja) 背景ノイズ情報を符号化する方法および手段
US20180182408A1 (en) Determining a budget for lpd/fd transition frame encoding
JP5255575B2 (ja) レイヤード・コーデックのためのポストフィルタ
KR101166650B1 (ko) 배경 잡음 정보를 디코딩하기 위한 방법 및 수단

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120426

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120724

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130228

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130527

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130805

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130903

R150 Certificate of patent or registration of utility model

Ref document number: 5361909

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees