JP2016505170A - モード切替え補償をコード化するためのコンセプト - Google Patents
モード切替え補償をコード化するためのコンセプト Download PDFInfo
- Publication number
- JP2016505170A JP2016505170A JP2015555670A JP2015555670A JP2016505170A JP 2016505170 A JP2016505170 A JP 2016505170A JP 2015555670 A JP2015555670 A JP 2015555670A JP 2015555670 A JP2015555670 A JP 2015555670A JP 2016505170 A JP2016505170 A JP 2016505170A
- Authority
- JP
- Japan
- Prior art keywords
- switching
- decoder
- high frequency
- bandwidth
- temporal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002123 temporal effect Effects 0.000 claims abstract description 107
- 238000002156 mixing Methods 0.000 claims abstract description 68
- 238000009499 grossing Methods 0.000 claims abstract description 58
- 230000007704 transition Effects 0.000 claims abstract description 31
- 230000003595 spectral effect Effects 0.000 claims description 143
- 238000004134 energy conservation Methods 0.000 claims description 77
- 238000001228 spectrum Methods 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 50
- 238000004458 analytical method Methods 0.000 claims description 18
- 230000002829 reductive effect Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 230000007423 decrease Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 4
- 238000007562 laser obscuration time method Methods 0.000 claims 1
- 230000005236 sound signal Effects 0.000 description 93
- 230000006870 function Effects 0.000 description 40
- 238000011156 evaluation Methods 0.000 description 9
- 230000005284 excitation Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000007493 shaping process Methods 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000004146 energy storage Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 235000021419 vinegar Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Description
しかしながらこの手法は、長期的に帯域幅が変化するケースをカバーしていない。
また、別のエネルギー保存特性(例えば、ブラインドBWEsは、通常、フル帯域コアと比較して高い周波数での大幅なエネルギー減衰を有している)の配慮がありません。
様々な帯域幅のモードを使用しているコーデックが、文献〔4〕および〔5〕に記載されている。
したがって、それは別の、ビットレートに基づく設定および/または機能強化(機能拡張)の間でコーデックが切替え可能であることは有利である。
異なるBWEsと例えばフル帯域コアの間を切替える場合は、異なる実効出力帯域幅または様々なエネルギー保存特性に、不連続が発生する可能性があることを意図している。
より正確に言うと、BWEsまたはBWEの設定の異なる動作点およびビットレートに応じて使用され得る(図1参照):
一般的に、非常に低いビットレートのためのブラインド帯域幅拡張方式では、より重要なコア・コーダで利用可能なビットレートを集中させることが好ましい。
ブラインド帯域幅拡張は、概して、任意の付加的なサイド情報を持たないでコア・コーダの上に小さい余分の帯域幅を総合する。
ブラインドBWEによって(エネルギーオーバーシュートまたは見当違いの成分の増幅による)アーチファクトの導入を回避するために、余分な帯域幅は、通常、非常にエネルギーが制限されている。
中間ビットレートの場合、導かれたBWEのアプローチによってブラインドBWEを置き換えることは、一般的に望ましい。
この導かれた方法は、エネルギーのためのパラメータのサイド情報および総合された余分の帯域幅の様子を使用する。
このアプローチによって、ブラインドBWEと比較して、より高いエネルギーのより広い帯域幅は、総合することができる。
高いビットレートのために、すなわち帯域幅拡張することなく、コア・コーダ領域で完全な帯域幅を符号化することは望ましい。
これは一般的に、帯域幅およびエネルギーの近い完全な保存を提供する。
さらなる実施形態では、追加的または代替的に、時間的な平滑化および/または混合に応じて、導かれたBWEとブラインドBWEとの間で符号化モードを切替えるスイッチングで実行される。
本発明の実施形態に従って、より正確には、トランジション(移行)における時間的な平滑化および/または混合が高周波スペクトル帯域の範囲内で行われ、スペクトルは、スイッチング・インスタンスの切替えが行われる間に、両方の符号化モードの効果的な符号化された帯域幅とオーバーラップする。
例えば、高周波スペクトル帯域は、2つの符号化モードの内の一方の帯域幅拡張部分にオーバーラップすることができ、すなわち、高周波数部分は、その中に、2つの符号化モードの内の1つに従って、スペクトルがBWEを使用して拡張される。
2つの符号化モードの他方に関する限り、高周波スペクトル帯域は、例えば、変換スペクトルまたは直線予測符号化されたスペクトルまたはこの符号化モードの帯域幅拡張部分に重なることができる。
結果として生じる改良は、したがって、情報信号を符号化する際に、人工的な時間的エッジは/ジャンプが、情報信号のスペクトログラムをもたらすことができるように、その有効な符号化された帯域幅が重なるスペクトル部分において異なる符号化モードでさえ、別のエネルギー保存特性を有するという事実に由来する。
時間的な平滑化および/または混合は、負の影響を低減する。
この処置により、抑制、または分析スペクトル帯域における情報信号のエネルギーの変動の程度(測定値)に依存する時間的な平滑化および/または混合の度合いを適応させることが可能である。
この変動が高い場合、平滑化および/または混合は、意図せずに、あるいは、不利に、そして、それによって潜在的に情報信号の品質の劣化につながる、オリジナル信号の高周波スペクトル帯域のエネルギー変動を取り除くことができる。
全ての実施形態は、従って、また、他の種類の情報信号のための実施形態を示すものとして取扱わなければならない。
図1は、3つの異なる符号化モード、すなわち、第1の時間的部分10のブラインドBWEを用いて例示的に連続的に使用して符号化された音声信号の一部分10、第2の時間的部分12の導かれたBWEおよび第3の時間的部分14のフル帯域コア符号化を、例示的に示している。
特に、図1は、音声信号を、スペクトロ時間的に、すなわち、時間軸18にスペクトル軸16を追加することによって、符号化しているエネルギー保存性の変化を示している2次元のグレースケール符号化表現を示す。
3つの異なる符号化モードに関して、図1と共に記載された詳細は、単に、以下の実施の形態のための例示的なものとして扱われるが、これらの詳細は後述するように、これらの詳細は、それから得られる以下の実施形態およびそれらの利点の理解を軽減する。
fstop,Core1より上の音声信号のスペクトル成分は、周波数fstop,BWE2までの導かれた帯域幅拡張の場合には、そして、図2のfstop,Core1<fstop,BWE1<fstop,BWE2<fstop,Core2の場合において、fstop,Core1およびfstop,BWE1間の帯域幅拡張モードの場合には、データストリームのサイド情報なしで、すなわち、盲目的にパラメータ的に符号化される。
音声信号のスペクトルがコアコーディングの停止周波数まで符号化されたという点で、非誘導様式により、ブラインドBWEの帯域拡張部の幅は、通常、必ずしもそうではないが、fstop,Core1からfstop,BWE2まで延びるBWEモードの帯域幅拡張部の幅よりも小さい。
導かれたBWEにおいて、音声信号は、0からfstop,Core1まで延びているスペクトル中心的な符号化部分が関係しているコア符号化モードを使用して、符号化される。しかし、付加的なパラメータサイドの情報データは、クロスオーバー周波数fstop,Core1を超えてfstop,Core1からfstop,BWE2まで延びている帯域幅拡張部の範囲内で、音声信号スペクトルを推定するために、復号側を有効にするように設けられている。
例えば、このパラメータサイド情報は、スペクトロ時間的解像度よりも粗いスペクトロ時間的解像度において、音声信号のエンベロープを記載するエンベロープデータを含むもので、変換符号化を使用するときに、音声信号は、コア符号化を使用しているコアコーディング部で符号化される。
例えば、デコーダは、fstop,Core1およびfstop,BWE2間に前もって空の音声信号の部分を満たすように、中心的な符号化部分の範囲内でスペクトルを複製することができる。そして、このとき、送信されたエンベロープ・データを使用して、この予め充填された状態を形作る。
例えば、一方では導かれたBWEとの間で、他方ではフル帯域幅符号化モードとの間で、切替えるときに、フル帯域幅の符号化モードが、正常に再構築しながら、すなわち、効果的にコード化し、スペクトル部分fstop,BWE2およびfstop,Core2、導かれたBWEモードの中のスペクトル成分は、そのスペクトル部分の範囲で、まさに、音声信号の何かを符号化することができないことが明らかである。
したがって、導かれたBWEからFB符号化へ切り替えることは、そのスペクトル部分の範囲内で音声信号のスペクトル成分の不利な、突然の開始を引き起こす可能性があり、そして、反対方向のスイッチングによって、すなわち、FBコア符号化から導かれたBWEに対して、この種のスペクトル成分の中で突然の消失が次々に生じる可能性がある。
これによって、どんな方法でも、音声信号の再生中にアーチファクトを引き起こす可能性がある。
スペクトル領域は、元の音声信号のエネルギーが何も保存されないフル帯域幅コア符号化モードと比較して、ブラインドBWEの場合においてさえ増加し、それに応じて、消失することがまさに導かれたBWEに関しても記載した突然の開始および/または突然の消失のスペクトル領域は、ブラインドBWEおよびスイッチングによって、そのモードおよびFBコア符号化モード間に発生する。しかしながら、スペクトル部分については、増加して、fstop,BWE1 からfstop,Core2 まで延びる。
むしろ、図1および2に示されているように、実際にスイッチング・インスタンスが行われる間に、両方の符号化モードが起こる両方の符号化モードは、実際に効果的であるが、しかし、また面倒なアーチファクトがそこから生じ得るような方法で、これらの符号化モードのエネルギー保存特性は異なっている部分さえある。
例えば、FBコア符号化および導かれたBWE間に切替わる場合、両方の符号化モードは、スペクトル部分fstop,Core1およびfstop,BWE2の中で効果的である。しかし、FBコア符号化モード20がそのスペクトル部分の範囲内で実質的に音声信号のエネルギーを節約すると共に、そのスペクトル部分の範囲内の導かれたBWEのエネルギー保存特性は実質的に減少し、そして、これらの2つの符号化モードとの間の切替えのときの突然の減少/増加に応じて、知覚できるアーチファクトが発生することがある。
他の一対の符号化モードがあり、それらの間に発生する、または、迷惑なアーチファクトが生じ得る。
これは、例えば、一方では、ブラインドBWEとの間の、他方では、導かれたBWEとの間の切替えのため、あるいは、一方では、ブラインドBWE、導かれたBWEおよびFB符号化のいずれかとの間、他方では、単なる共同符号化の根底にあるブラインドBWEおよび導かれたBWEとの間、または、不等なエネルギー保存特性をもつ異なるフル帯域コア・コーダとの間の切替えのためにですら、当てはまる。
ただ概説したように、エンコーダ30は、例示的に、図1および2に関して概説したように、異なるエネルギー保存特性の複数の符号化モードをサポートしている。
音声信号32は、例えば、0から音声信号32の半分のサンプリング・レートとして、若干の最高周波数まで示す帯域幅を有するように、歪められていないこととみなされることができる。
元の音声信号のスペクトルあるいはスペクトログラムは、図1において、参照符号36で示される。
音声エンコーダ30は、音声信号32をコード化することの間、 図1および2に関して上で概説されるもののような異なる符号化モードとの間で、データストリーム34に切替わる。
したがって、音声信号は、異なる符号化モード間の切り替えに応じて変化する高域の周波数領域のエネルギー保全によって、データストリーム34から再構成可能である。
例えば図3において、参照符号34のデータストリーム34から再構成可能である音声信号のスペクトル/スペクトログラムを参照して下さい。そこでは、参照符号38で、3つのスイッチング・インスタンスA,B,Cが例示的に示されている。
Aを切替えることの前において、エンコーダ30は、実質的に、例えば 0からfmax,cod までのフル帯域幅全体のエネルギーを保っている若干の最大周波数fmax,cod ≦fmaxまで音声信号32をコード化する符号化モードを使用する。
切換例AおよびBの間に、例えば、エンコーダ30は、参照符号40に示すように、単に、周波数f1<fmax,codまで、この帯域幅全域で実質的に恒常的なエネルギー保存特性を備えた有効な符号化帯域幅を有する符号化モードを使用する。そして、また、エンコーダ30は、スイッチング・インスタンスBおよびCの間に、例示的に、fmax,codまで延びている有効な符号化帯域幅を有する符号化モードを使用する。しかし、フル帯域幅と関連する減らされたエネルギー保存特性については、参照符号42に示すように、f1およびfmax,cod 間のスペクトル範囲までインスタンスAより前の符号化モードに関係している。
エンコーダ30は、しかしながら、課題にもかかわらず、外部制御信号44に応答するスイッチング・インスタンスA〜Cに切り替えることで、 符号化モードとの間に切替えることを決定することができる。
このような外部制御信号44は、たとえば、データストリーム34を送る役割を果たす伝達システムから生じることがある。
例えば、制御信号44は、エンコーダ30に利用可能な伝送帯域幅を示すことができる。エンコーダ30は、データストリーム34のビットレートを満たすために、すなわち、以下または表示される利用可能なビットレートに等しくなるように、適応させなければならない。
しかしながら、この利用できるビットレートに応じて、エンコーダ30の利用できる符号化モードの間で最適な符号化モードは、変更されることがある。
この「最適符号化モード」は、それぞれのビットレートの歪曲比率に対する最適条件/最高率を有するものでもよい。
しかしながら、利用可能なビットレートが変更されると、完全にまたは実質的に、音声信号32の内容によって無相関の方法で、これらのスイッチング・インスタンスA〜Cは、音声信号の内容が不利にその高周波部分f2の中でfmax,codに相当なエネルギーを有するところに、発生する可能性がある。ここで、エンコーダ30のエネルギー保存特性は、符号化モード間のスイッチングのために、時間的に変動する。
このように、エンコーダ30は、それを助けることができない場合がありますが、でも切り替えが不利になるタイミングで、制御信号44によって外部から指示されるように符号化モードを切り替える必要があるかもしれません。
すなわち、デコーダ50は、例えば、音声信号がデータストリーム34に変換符号化を使用している特定の最大周波数まで、この種の中心的な符号化モードによって符号化される音声信号の部分のために、例えば、音声信号の変換のスペクトル線的な表現を含むデータストリーム34によって符号化され、0からそれぞれの最大周波数まで音声信号をスペクトル的に分解する一つ以上の中心的な符号化モードをサポートすることができる。
あるいは、中心的な符号化モードは、例えば線形予測符号化などの予測符号化を含み得る。
第1のケースにおいて、データストリーム34は、 音声信号のスペクトル線的表現の符号化のための音声信号の中心的な符号化部分を含むことができる。そして、デコーダ50は、周波数0から最高周波数に延びる逆変換において結果として生じている逆変換によって、このスペクトル線的表現に逆の変換を実行するように構成されている。そのため、音声信号52は、0からそれぞれの最大周波数までフル周波数帯域にわたって、データストリーム34に符号化された元の音声信号によって、エネルギーにおいて、実質的に一致して再建される。
予測コア符号化モードの場合には、線形予測係数に応じて設定された合成フィルタを用いて、あるいは、線形予測係数を介して周波数領域のノイズ・シェーピング(FDNS)を使用して、また、これらの時間的な部分にコード化された励起信号を使用して音声信号52を再構成するために、デコーダ50は、それぞれの予測コア符号化モードを使用しているデータストリーム34にコード化された元の音声信号の時間的部分のためのデータストリーム34に含まれる線形予測係数を使用するように構成されている。
合成フィルタを使用する場合には、音声信号52がそれぞれの最大周波数まで、すなわちサンプル・レートとしての最大周波数の2倍で再建されるように、そして、周波数領域ノイズ創造を使用する場合には、デコーダ50は、合成フィルタはサンプル・レートにおいて作動することができる。そして、周波数領域のノイズ・シェーピングを使用する場合には、デコーダ50は、データストリーム34からの励起信号と変換領域を取得するように構成することができる。デコーダ50は、スペクトル線的表現の形、例えば、線形予測係数を用いてFDNS(周波数領域のノイズ・シェーピング)を使用して、この励起信号をシェーピング(整形)し、変換された係数によって表されるスペクトル的にシェーピングされたスペクトルのバージョンへの逆変換を実行して、次に、励起を表す。
異なる最大周波数を有する1つまたは2つ以上のそのようなコア符号化モードは、使用可能であってもよいし、デコーダ50によってサポートされてもよい。
他の符号化モードは、それぞれの最大周波数を越えて中心的な符号化モードのいずれかによってサポートされる帯域幅を広げるために、例えばブラインドであるか導かれたBWEのようなBWEを使用することができる。
導かれたBWEは、例えば、SBR(スペクトル帯域複製)を含むことができる。これにしたがえば、デコーダ50は、パラメータのサイド情報に従って微細構造を整形するために、パラメータのサイド情報を使用することで、音声信号から中心的な符号化モードから再建されるにつれて、より高い周波数の方へ中心的な符号化帯域幅を延長している帯域幅拡張部の微細構造を取得する。
他の導かれたBWEの符号化モードは、同様に可能である。
ブラインドBWEの場合には、デコーダ50は、帯域幅拡張部に関する明示的なサイド情報なしでより高い周波数に向かって、その最大値を超えてコア符号化帯域幅を拡張する帯域幅拡張部を再構成することができる。
以下において、用語「フレーム」が発生する理由は、それがこのように、符号化モードが、ビットストリーム内で変化するそのような単位を意味することを意図している。すなわち、そのような単位は、それらの間の符号化モードが変化する可能性があり、また、その中で符号化モードは変化しない可能性がある。
例えば、フレームごとに、データストリーム34は、それぞれのフレームが符号化される符号化モードを明らかにしている構文要素を含むことができる。
スイッチング・インスタンスは、このように、異なる符号化モードのフレームを切り離しているフレーム境界に配置することができる。
時には用語のサブフレームが発生することがある。
音声信号が、それぞれのフレームと関連したコーディング・モードに従って、それぞれのコーディング・モードのサブフレームに特有の符号化パラメータを用いてコード化される時間的サブユニットにフレームを時間的に分割することを、サブフレームは表すことができる。
図4は、単に、理解の容易さのためにだけ、これらのスイッチング・インスタンスに集中していて、本願の一実施形態に従うデコーダは、この可能性に制限されてはならない点に注意されたい。
むしろ、各スイッチング・インスタンスが起こる間に、特定の符号化モードの組のための特定のスイッチング・インスタンスに関連して、図4および以下の図に関して記載されている具体的な機能性の全てを、あるいは、任意のサブセットを組み込むことができるように、本出願の実施形態によるデコーダを実装することができることは明らかである。
2つの可能性は、図4において、音声信号が参照符号58でデータストリーム34に符号化されて使用したエネルギー保存特性の模式的なスペクトロ時間的表現の範囲内で、点線をもって示されるf1およびfmaxの間の典型的な周波数のために、参照符号54および56で代表的に例示されている。
参照符号54の場合、スイッチング・インスタンスAに続いて起こる音声信号52の時間的部分の復号化バージョンの第2の符号化モードは、エネルギー保存性が、参照符号54に示すように、この周波数を越えて0となるように、単に、f1まで延びる有効な符号化帯域幅を有する。
あるいは、これらの符号化モードの一方または両方は、異なる有効な符号化帯域幅を有する帯域幅拡張を含むことができ、一方はf1まで、他方はfmaxまで、延びる。
例えば、上記で簡単に概説したフレーム単位のモード・シグナリングは、スイッチング・インスタンスを切り替え、認識及び識別するか、または異なるタイプの間を区別するように、デコーダ50によって使用されてもよい。
参照符号68および72で示される実施例は、参照符号54に示されるスイッチング・インスタンスの実施例を取扱うためのデコーダ50の機能の可能な実施例を表すと共に、参照符号70および74に示される実施例は、参照符号56で例示されるシナリオ切替えの場合、デコーダ50の可能な機能を示す。
参照符号68の実施例によれば、音声信号52の復号化バージョンとの間の移行において、スイッチング・インスタンスAの前後で時間的な平滑化または混合を実行するために、デコーダ50は、一時的に、直ちにスイッチング・インスタンスAに代わっている一時的な時間76のために、fmaxまで周波数f1より上に、音声信号のスペクトルを推定して満たすように、ブラインドBWEを実行する。
参照符号72で示された実施例に示すように、デコーダ50は、高周波スペクトル帯域66の範囲内のエネルギー保存特性が関係している限り、スイッチング・インスタンスAにまたがって移行さえも、より平滑化されるように、高周波スペクトル帯域66の範囲内で若干のフェードアウト機能78を使用している時間的シェーピング(整形)に推定されたスペクトルをこのために従属させることができる。
デーストリーム34が一時的なブラインドBWEパフォーマンスに関してデータストリーム34の中で何の信号を送る必要のないことが強調される。
むしろ、デコーダ50自体は、フェードアウトの有無にかかわらず、一時的にブラインドBWEを適用するために、スイッチング・インスタンスAに応答するように構成される。
図5の説明から明白になるにつれて、実際のスイッチング・インスタンスより前に開始するように、時間的に移動させて/スイッチング・インスタンス全体の混合期間76を移すことは可能である。
混合部分のところまで、時間間隔76は、関係している。そして、それは、スイッチング・インスタンスAに先行している。混合は、段階的な方法で高周波スペクトル帯域66の範囲内で音声信号の52のエネルギーを減らすことをもたらす。すなわち、0と1の間または部分区間のもっぱら両方で変化している様々な方法の要因によって、高周波スペクトル帯域66の範囲内でエネルギー保存特性の時間的な平滑化をもたらす結果となる。
56の場合には、エネルギー保存性が急にスイッチング・インスタンスAで下がる。70の実施例によれば、図4のデコーダ50は、スイッチング・インスタンスAの後の予備時間80は、スイッチング・インスタンスAの前の音声信号52のエネルギーと、単に、第2の符号化モードを使用して得られるように、直ぐに、高周波スペクトル帯域66の範囲内の音声信号の52のエネルギーとの間に、高周波スペクトル帯域66の範囲内の音声信号の52のエネルギーをセットすることを目的として、バンド66のエネルギー保存特性のこの突然の減少の潜在的負の効果を補償するために、前もってスイッチング・インスタンスAの前後において直ちに時間的部分60および62との移行の間に時間的な平滑化または混合を実行するように構成されている。
換言すれば、デコーダ50は、後続のスイッチング・インスタンスAのエネルギー保存特性が先行するスイッチング・インスタンスAに適用される符号化モードのエネルギー保存特性により類似する状態となるように、予備時間80の間、前もって音声信号の52のエネルギーを増加させる。
この増加のために使用する要因が図示するように70で予備時間80の間、一定に保たれることができると共に、高周波スペクトル帯域64の範囲内でスイッチング・インスタンスAにわたってエネルギー保存特性のなお一層滑らかな移行を得るために、この要因がその時間80の範囲内で段階的に減少することもできることが、図4の74で示される。
音声信号のレベル、すなわち、70および74の場合には、音声信号がそれぞれのスイッチング・インスタンスAの前後でコード化されるエネルギー保存特性の増加/減少を補償するために、増加の予備変化は、以下の時間的な平滑化と呼ばれている。
換言すれば、予備時間80の間、高周波スペクトル帯域の範囲内の時間的な平滑化は、時間的部分において、音声信号が符号化され、それぞれの符号化モードを用いて復号化することからその高周波スペクトル帯域の範囲内で直接生じている音声信号の52レベル/エネルギーと関連してより弱いエネルギー保存特性を備えた符号化モードを使用するスイッチング・インスタンスAの周辺で、音声信号52のレベル/エネルギーの増加を意味し、および/または、音声信号の減少は、音声信号が符号化され、その符号化モードを有する音声信号をコード化することから高周波スペクトル帯域の範囲内でより高いエネルギー保存特性を備えた符号化モードを使用するスイッチング・インスタンスAのまわりの時間的部分の範囲内の一時的な期間80の間、音声信号52のレベル/エネルギーの減少を意味する。そして、その符号化モードを有する音声信号をコード化することから、直接生じているエネルギーと関連している。
換言すれば、デコーダが56のようなスイッチング・インスタンスを処理する方法は、直接、スイッチング・インスタンスAに続くために、一時的な期間80を配置することに制限されない。それよりも、一時的な期間80は、スイッチング・インスタンスAを横切ることができるかまたはそれに先行することさえできる。
その場合、音声信号の52のエネルギーは、一時的な期間80の間、スイッチング・インスタンスAの前の時間的部分に関する限りは、音声信号がスイッチング・インスタンスAの後に符号化される符号化モードの結果として生じるエネルギー保存特性とより類似しているようにするために、減少する。すなわち、高周波スペクトル帯域の範囲内の結果として生じるエネルギー保存特性は、スイッチング・インスタンスAの前の符号化モードのエネルギー保存特性およびスイッチング・インスタンスAの後の符号化モードのエネルギー保存特性の間に位置する。
例えば、ブラインドBWEは、時間的混合を実行するための基礎として使われると想像して下さい。
このブラインドBWEは、例えば、低いエネルギー保存特性を有することができる。そして、そのことは、以後、時間的平滑化をさらに適用することで「欠点」がさらに補償される。
さらに、図4は、68〜74またはそれらの組み合わせ、すなわち、55および/または56のそれぞれの例に応答することに関して、上で概説される機能の内の1つを組み込んでいて/特徴としているデコーダのための実施例を説明するものとして理解されなければならない。
同じことは、スイッチング・インスタンスの後の有効な符号化モード関連して、高周波スペクトル帯域66の範囲内で、低いエネルギー保存特性を有する符号化モードからスイッチング・インスタンスに応答するデコーダ50を記載する、以下の数字にあてはまる。
違いを強調するために、スイッチング・インスタンスは、図5の中の意味されたBである。
可能な限り、図4において用いられている同じ参照符号は、説明の不必要な反復を回避するために、再利用される。
図5の92および94において、時間間隔tB でスイッチング・インスタンスB全体のエネルギー保存特性の時間的経過の典型的な例示が示されている。92は、時間的部分60のための符号化モードがそれとともに、高周波スペクトル帯域66でさえもカバーしなくて、それに応じて0のエネルギー保存特性を有する有効な符号化帯域幅を結びつけたケースを示し、94は時間的部分60のための符号化モードが高周波スペクトル帯域66をカバーして、高周波スペクトル帯域の範囲内で0以外のエネルギー保存特性を備えた有効な符号化帯域幅を有するケースを示すが、エネルギー保存特性と関連してスイッチング・インスタンスBに続く時間的部分62と関連した符号化モードの同一周波数で減少される。
スイッチング・インスタンスBに応答するデコーダ50の機能は、どんな状態でありえたか、図4,図5のように、98、100、102および104で4つの実施例を示すが、他の実施例が下で更に詳細に概説されるのと同様に可能である点に、再び、注意される。
グラフ92および94の様に、98〜104で示されるグラフは、高周波スペクトル帯域66の内側ものの典型的な周波数のためのエネルギー保存特性の時間的経過を示す。
しかしながら、92および94は、スイッチング・インスタンスBに前後しているそれぞれの符号化モードによって定義されるように、最初のエネルギー保存特性を示す。その一方で、98〜104で示されるグラフは、すなわち、後述するように、スイッチング・インスタンスに応答して、実行されるデコーダの50の計測を含んでいる有効なエネルギー保存特性を示す。
実施例68は、段階的に/連続的に、音声信号の52のエネルギーが一時的な時間106の間、スイッチング・インスタンスBから期間106の終わりまで拡大・縮小される要因を増加させるためにフェードイン機能が用いられるのに応じて、変形例を使用している。
前述したように、しかしながら、図4を使用している実施例72および68に関して、一時的な期間106の間のスケーリングファクタを一定のままにすることはしかしながら可能でもある。それによって、先行するスイッチング・インスタンスの符号化モードが0により近いバンド66の範囲内の結果として生じるエネルギー保存特性を取得するように、一時的に、期間106の間に音声信号のエネルギーを減らす。
切換例Bに応答するデコーダ50は、何らかの形で、例えば、バンド66の範囲内で時間的にスイッチング・インスタンスBに先行する部分106の一部の範囲内で音声信号52の評価を得るために、空き、すなわち、直ちにブラインドBWEを使用している先行するスイッチング・インスタンスBの音声信号52の高周波スペクトル帯域66の0−エネルギーを充填する。その後、0から1まで、例えば、期間106の最初から終わりまで、音声信号52のエネルギーを段階的/連続的に増やすためにフェードイン機能を印加する、それによって、スイッチング・インスタンスBに先立ってブラインドBWEによって得られ、スイッチング・インスタンスBの後に有効/選択される符号化モードを使用するにつれて、後続のスイッチング・インスタンスBの106部分のところまで関係しているバンド66の範囲内で音声信号のエネルギーの低減程度を連続的に減少させている。
図4の56で示されるケースに対する違いは、単に、バンド66の範囲内のエネルギー保存特性が、先行するスイッチング・インスタンスBの時間的部分の範囲内に適用されるエネルギー保存特性に比べて、後続のスイッチング・インスタンスBの時間的部分62の範囲内でより高いというだけである。図5のデコーダ50は、70および図4に関して上述されるケースと類似の102で示される実施例に従って、効果的に振舞う。スイッチング・インスタンスBの前に有効な符号化モードの最初のエネルギー保存特性と、スイッチング・インスタンスBの後の有効な符号化モードの変更されていない/最初のエネルギー保存特性との間にだいたい位置するように有効なエネルギー保存特性をセットするために、デコーダ50は、直ちに、続いて起こるスイッチング・インスタンスBの一時的期間の間、スイッチング・インスタンスBの後で音声信号のエネルギーが有効な符号化モードを使用して復号化されるように、わずかに縮小する。
一定のスケーリングファクタが図5の中の102で図示されていると共に、それは連続的に一時的に変化するフェードイン機能が同様に用いられることができるケース74に関して、図4で既に述べられた。
ここでも、いくつかのフェードイン・スケーリング機能の代わりに、一定スケーリングファクタを使用することもできる。
全体的な一連の機能68、70、72、74、98、100、102および104に関する限りは、有効である。デコーダは、スイッチング・インスタンス54、56、92および/または94に応答する同じことの一つまたはサブセットを実施することができ得る。
符号化モードが短時間に上で述べられたにもかかわらず、さらに詳細に特定の可能性を例示するために、図6A〜図6Dが参照される。
この符号化モードに応じて、音声信号は、スペクトル線的な変換の表現110の形で、周波数0〜最大周波数fcore までスペクトル線112を有する重ねられた変換のようなスペクトル線的な変換の表現110の形で、データストリームに符号化される。例えば、この重ねられた変換は、MDCT等であってもよい。
スペクトル線112のスペクトル値は、スケーリング係数を使用して、量子化されて、異なって送信することができる。
この目的で、スペクトル線112は、スケールファクタバンド114に分類/分割することができ、そして、データストリームは、スケールファクタバンド114と関連したスケーリングファクタ116を含むことができる。
デコーダは、図6Aのモードに従って、118で関連するスケールファクタ116に従うさまざまなスケールファクタバンド114と関連したスペクトル線112のスペクトル値を再スケールして、再スケールされたスペクトル線的な表現を、例えば、IMDCT等の逆の重ねられた変換のような逆の変換120に従属させ、任意に時間的エイリアシング補償のための重複/加算操作を含んで、復帰/複製するために、音声信号の部分は図6Aの符号化モードに結び付けられる。
データストリームは、線形予測係数に基づく情報122および励起信号に基づく情報124によって、図6B関連する符号化された部分を含む。
ここで、情報124は、励起信号が110で示されるものとしてスペクトル線的な表現を使用して、そして、最も高い周波数fcoreに、すなわち、スペクトル線的な分解を使い果たすことを表している。
情報124は、スケールファクタを含むこともできるものではあるが、図6Bにおいて図示していない。
いずれにせよ、周波数領域の情報124によってスペクトル創造に得られて、線形予測係数122を基礎として引き出されるスペクトル形づくっている機能を有する126を形づくっている周波数領域ノイズと呼ばれているように、デコーダは励起信号を従属させる。それによって、音声信号のスペクトルの再生を引き出し、それから、例えば、それが120に関して説明されたちょうどその時、逆の変換に従属してもよい。
今回、データストリームは、音声信号のそれぞれ符号化部分、線形予測係数の情報128および励起信号、すなわち、130に関する情報のために構成される。そこにおいて、デコーダは、励起信号130を線形予測係数128に従って調整される合成フィルタ138に従属させるために、情報128および130を使用する。
合成フィルタ132は、 ナイキスト基準で、 音声信号が合成フィルタ132を用いて、すなわち、その出力側で再建される最大周波数fcoreを決定する 特定のサンプル・フィルタ―タップ率を使用する。
しかしながら、図6Dに関して例示される符号化モードは、この点に関しては異なる
図6Dは、例えばSBR等の導かれた帯域幅拡張モードを例示する。
この場合、データストリームは、音声信号の符号化された部分をそれぞれ、コア符号化データ134のために、そのパラメトリックデータ136に加えて含んでいる。
中心的な符号化データ134は、上からfcoreまで音声信号のスペクトルを記載して、112および116、または122および124、または128および130を含むことができる。
パラメータのデータ136は、パラメータ的に音声信号のスペクトルをスペクトル的に0からfcoreまで延びている中心的な符号化帯域幅のより高い周波数側に置かれる帯域幅拡張部に記載する。
デコーダは、中心的な符号化帯域幅の範囲内で、すなわちfcoreまで音声信号のスペクトルを回復するようにコア復号処理138に対して中心的な符号化データ134を従属させ、そして、図6Dの符号化モードの有効な符号化帯域幅を表しているfcoreより上にfBWEまで音声信号のスペクトルを回復/推定するために、パラメータのデータをスケーラー140に従属させる。
破線142で示すように、デコーダは、スペクトル領域または時間的領域において、帯域幅拡張部の範囲内でfcoreおよびfBWEの間に音声信号の微細構造の評価を得て、パラメータのデータ136を使用しているこの微細構造をスペクトル的に形成するために、コア復号処理138によって得られるように、fcoreに対して音声信号のスペクトルの再建を使い果たすことができる。そしてそれは、帯域幅拡張部の範囲内で例えばスペクトル・エンベロープを言い表している。
これは、例えば、SBRにおけるケースである。これは、高周波数推定140の出力での音声信号の再構成をもたらすであろう。
図7Aは、例えば、ブラインドBWE150を用いるところで、スイッチング・インスタンスに応答するデコーダ50が、前もってそれぞれの一時的な期間の間、高周波スペクトル帯域66と一致する帯域幅拡張部の範囲内で、音声信号のスペクトルの評価をそれぞれの符号化モードの符号化帯域幅152に効果的に加えるように、使用するケースを例示する。
これは、図4および5の68〜74および98〜104に対する実施例68の全ての事例であった。
結果として生じるエネルギー保存特性でブラインドBEWを示すために、ドットの充填が用いられている。
これらの実施例に示すように、例えば、デコーダは、付加的に、スケーラー154のブラインド帯域幅拡張評価の結果をスケーリング(拡大・縮小)すること/形づくることができ、そして、例えば、フェードインまたはフェードアウト機能を使用する。
スケーラー156のスケーリングは、スペクトル領域において実行することができるけれども、他の可能性が同様に存在する。
図7Bの別の可能性は、例えば、図4および5の実施例70、74、100、102および104において起こる。
図7Cは、図4および5の70、74、102および104で例証される時間的平滑酢のいずれかを実行する方法を示す。
ここで、高周波スペクトル帯域66のスケーリングのために使用するスケールファクタは、スイッチング・インスタンスの前後においてそれぞれの符号化モードを使用して得られるように、音声信号のスペクトルから決定されるエネルギーを基礎として決定される。
162は、例えば、先行するかまたは後続するスイッチング・インスタンスの時間的部分において、音声信号の音声信号スペクトルを示す。ここで、この符号化モードの有効な符号化帯域幅は、0からfmax に至る。
164で、その時間的部分の音声信号の範囲は示される。そしてそれは、スイッチング・インスタンスの他の時間的側面に位置し、符号化モードを使用して符号化される。そして、その有効な符号化帯域幅は、同様に、0からfmax に至る。
しかしながら、符号化モードの内の1つは、高周波スペクトル帯域66の範囲内で、減らされたエネルギー保存特性を有する。
エネルギー決定166および168によって、高周波スペクトル帯域66の範囲内の音声信号のスペクトルのエネルギーは、スペクトル162から一度、スペクトル164から一度、決定される。
スペクトル164から決定されるエネルギーは、例えば、E1として示される、そして、スペクトル162から決定されるエネルギーは、例えば、E2を使用して示される。
それから、スケールファクタの決定は、スケーラー156を介して高周波スペクトル帯域66の範囲内で、図4および5において記載の一時的な時間の間、スケーリング・スペクトル162および/またはスペクトル164のためのスケールファクタを決定する。そこにおいて、スペクトル164のために使用されるスケールファクタが、例えば、1とE2/E1の間に、両方とも包括的に位置し、また、スペクトル162上で実行されるスケーリングのためのスケールファクタは、1とE1/E2の間、両方とも包括的に位置し、またはその両方とも独占的に、両方の境界との間で、常に設定されている。
スケールファクタの決定170によるスケールファクタの恒常的な設定は、例えば、実施例102、104および70において使われたが、時間的に変更スケールファクタを有する連続バリエーションは、図4の74で提示され/典型的に示されている。
しかしながら、スケールファクタの決定170は、実際には、バンド66の範囲内でより高いエネルギー保存特性を有する符号化モードを使用して符号化されるスペクトル162および164の内のどちらかを考慮する。
この措置によって、スケールファクタの決定170は、不快な「スミア」を回避するために、一時的に高周波スペクトル帯域の範囲内で音声信号のエネルギーの「ローパスフィルタ」の度合いを設定することができる。
例えば、スケールファクタの決定170は、低域フィルタリングが同じことを改善しているよりはむしろ、デコーダの出力で結果としてなっている音声信号の品質を劣化させるように、音声信号の内容の音の位相がアタックまたはその逆に隣接するところのスイッチング・インスタンスが時間的インスタンスで起こるということを、分析スペクトル帯域の範囲内で、音声信号のエネルギー・コースの評価が示唆する領域において低域フィルタリングの度合いを減らすことができる。
同様に、高周波スペクトル帯域において、音声信号の内容のアタック終了後のエネルギー構成要素のそのような「カットオフ」は、この種のアタックの開始の高周波スペクトル帯域において「カットオフ」を超える音声信号の品質を劣化させる傾向がある。そして、したがって、スケールファクタの決定170は、高周波スペクトル帯域のより低いエネルギー保存特性を備えた符号化モードから、そのスペクトル帯域のより高いエネルギー保存特性を備えた符号化モードへの移行で、低域フィルタリングの度合いを減らすことができる。
音声信号の内容がスイッチング・インスタンスの周辺に音色の種類やアタックなどが同じタイプのものである限り、したがって、効果的に実行される平滑化は、高周波スペクトル帯域内のエネルギー保存特性に類似した平滑化をもたらす。
しかしながら、図3に関して例えば上で概説されるけれども、スイッチング・インスタンスがエンコーダに外部的に、すなわち、外側から強制されて、その結果、1つの音声信号コンテントタイプからその他への移行であっても並行して発生することができるように、この仮定は維持されることができない。
したがって、図8および9に関して後述する実施例は、スイッチング・インスタンスに応答するデコーダの時間的平滑化を抑制するために、この種の状況を確認しようとする。または、そのような場合、時間的平滑化の度合いを減らすことがこの種の状況において実行される。
さらに以下に記載されている実施形態は、切替わっている符号化モードに時間的平滑化機能に焦点を当てているにもかかわらず、さらに以下で実行される分析法は、上記の時間的混合の度合いを制御するために用いられることもでき、例えば、時間的混合は、少なくとも、図4および5に関して記載されている典型的な機能のいくつかに従って、時間的混合を実行するために、ブラインドBWEが使われなければならないという点で、不利である。そして、そこから結果としてなっている優良な効果がひどく推定された帯域幅拡張部が原因で全体の音声品質の潜在的低下を上回るこの種のフラクションまで、または、時間的混合の量を減少し、スイッチング・インスタンスに応答するブラインドBWEの推測のパフォーマンスを制限するために、以下に概説する分析は抑制され得るものである。
図8のスイッチング・インスタンスは、このように、「t−1」がスイッチング・インスタンスに先行する時間部分を意味し、そして、「t」がスイッチング・インスタンスに後続する時間的部分を指摘する56および図4において例示されるタイプである。
しかしながら、問題は、時間的部分t−1の符号化モードから時間的部分tの符号化モードに移行するときに、このエネルギー減少が高周波スペクトル帯域66のエネルギー保存特性の減少に完全に起因していなければならないかどうかということである。
分析スペクトル帯域190の範囲内の音声信号のエネルギーの変動が高いことを評価が示す場合、その場合、デコーダによるスイッチング・インスタンスに応答するいかなる時間的な平滑化および/または混合も抑制され、または、段階的に減少されなければならないように、高周波スペクトル帯域66のいかなるエネルギー変動も切り替わっている符号化モードが切り替ることによって生じるアーチファクトよりむしろ、元の音声信号の固有の所有物に起因していそうである。
図9は、図8に類似してEt-1を使用して示され、 現在のスイッチング・インスタンスに先行する音声信号の時間的部分60から導き出せるスペクトルを示す。そして、図8に類似してEtを使用して示され、現在のスイッチング・インスタンスに続いて起こる時間的部分62に関して、データストリームから導き出せるスペクトルを示す。
参照符号192を用いて、図9は、56のようなスイッチング・インスタンスまたは上述したスイッチング・インスタンスの任意の他のもの応答して、例えば図7の通り、上記の機能のいずれかに従って実施することができる、デコーダの時間的な平滑化/混合ツールを示している。
さらに、参照符号194を用いて示されている評価装置は、デコーダに提供される。
評価装置は、分析スペクトル帯域190の範囲内で、音声信号を評価するかまたは調査する。
例えば、評価装置194の使用は、この目的のために、それぞれ、部分60および部分62に由来する音声信号のエネルギーを用いる。
例えば、評価装置194は、分析スペクトル帯域190の音声信号のエネルギーのある程度の変動を決めて、そこから、スイッチング・インスタンスへのツール190の反応が抑制されなければならない 決定を引き出す、または、ツール190の時間的な平滑化/混合の程度は減少した。
したがって、評価装置194は、ツール190に応じて、を制御する。
評価装置194のための可能な実施は、以下に、より詳細に説明される。
先に述べたように、より詳細に以下にさらに概説される実施形態は、デコーダの範囲内で実行される2つの処理工程を用いて異なるBWEsとフル帯域コアの間で継ぎ目のない移行を得ようとする。
後文に、いくらかのステップがすでに、エンコーダ、例えばフル帯域コア等のより広い有効な帯域幅に融合しているフェードインのアプリケーションの範囲内でさらに実行されることが、記載されている。
次に記載されている実施例は、平滑化が利点に沿ってもたらすインスタンスに時間的平滑化を制限するための図9に関して、上で概説されるように、一時的な期間80および108の間にそれぞれのスケールファクタをスケーリングに設定して、信号適応を使用するために、その範囲において、図7Cに示される変形例を使用している図4および図5の70、102に従って上記実施例を実行する可能性である。
これに対して、オリジナル信号に存在するエネルギーの変動は、保存される必要がある。
後の状況は、図8に関連して上記で述べられた。
時間的にスイッチング・インスタンス204に先行していて、高周波スペクトル帯域66にわたって延びているスペクトロ時間的タイル224の範囲内のスペクトル値の二乗の上の和が決定されたEactual,prevに使われることができる、そして、スペクトロ時間的タイル220の範囲内においてスペクトル値の二乗和を超えることが決定されたEactual,currに用いることができる。
上記のように、この帯域幅の混合は、一方では迷惑な帯域幅の変動を抑制する目的があり、そして、それぞれのスイッチング・インスタンスに隣接するそれぞれの符号化モードは、その意図された有効な符号化された帯域幅で動作することを可能にするためである。
例えば、滑らかな適合は、各BWEがその意図された最適な帯域幅で動作することができることを可能にするために、適用することができる。
スイッチング・インスタンスについて、図12に示すように、デコーダは、タイプ54およびタイプ92のスイッチング・インスタンスを区別するために、スイッチング・インスタンス230のタイプを決定する。
図4および5にて説明したように、フェードアウト混合はタイプ54の場合実行される、そして、フェードイン混合は、スイッチングタイプ92の場合実行される。
フェードアウト混合は、最初に加えて、図13Aおよび図13Bを参照して記載されている。
つまり、切換タイプ54が230において決定される場合、混合領域がスペクトル的に決定されると同様に、最大混合時間tblend,max は設定される。すなわち、より高い帯域幅符号化モードの有効な符号化帯域幅は、タイプ54のスイッチング・インスタンスが起こるより低い帯域幅符号化モードの有効な符号化帯域幅を上回る高周波スペクトル帯域66で設定される。
この設定232は、より高い帯域幅符号化モードの有効な符号化帯域幅の最大周波数を意味しているfBW1と、混合領域の違いを定めるより低い帯域幅符号化モードの有効な符号化帯域幅の最大周波数を示しているfBW2とによって、所定の最大混合時間tblend,max の算出と同様に、帯域幅差fBW1−fBW2の算出を含むことができる。
後者の時間値は、デフォルト値に設定してもよいし、現在の混合手順の間に発生するスイッチング・インスタンスに関連して後述するように異なって決定されてもよい。
この動作234が制御なしでデータ流のサイド情報を経て実行されることができるように、ブラインドBWEを使用して補助拡張234は実行することができる。
手法は、線形混合のための一実施例を例示しているが、他の混合の特性は、例えば、2次、対数関数的などと同様に可能である。このとき、通常、混合/平滑化の特性は、同一/線形である必要がないか、または、モノトニックである必要さえない点に留意すべきである。
本願明細書において記載のすべての増加/減少が、必ずしもモノトニックであるというわけではない。
スイッチングタイプ92のための最大混合時間tblend,max は、スイッチングタイプ54について言えば、232で設定されるtblend,maxと異なってもよい。
リファレンスは、混合の際にスイッチングのその後の説明を参照されたい。
換言すれば、デコーダは、フェードアウト(またはフェードイン)スケーリング機能240を適用することによって、最初のスイッチング・インスタンスt0で、時間的な平滑化または混合を実行する。第1のスイッチング・インスタンスt1は、フェードアウト(またはフェードイン)スケーリング機能240が発生する間、再び、高周波スペクトル帯域66に時間的な平滑化または混合を実行するように、第2のスイッチング・インスタンスt2でフェードイン(またはフェードアウト)スケーリング機能242を適用するだろう。第2のスイッチング・インスタンスt2からフェードイン(またはフェードアウト)スケーリング機能242を適用することで、出発点を設定すると、第2のスイッチング・インスタンスt2で適用されているフェードイン(またはフェードアウト)スケーリング機能242は、出発点で、最も近い関数値を有し、または、第2のスイッチング・インスタンスの発生の時間t2で、第1のスイッチのインスタンスに適用されるように、フェードイン(またはフェードアウト)スケーリング機能240によって想定される関数値に等しい。
知覚的な品質を強化することは、異なる有効な出力帯域幅との間に移行を平滑化することによって、提唱された。
具体的には、信号適応平滑化技術は、シームレスな移行を得るために、そして、妨害帯域幅の変動が回避される一方で、異なる帯域間でおそらく、必ずしもではないが、均一な混合技術は、各BWEのための最適な出力帯域幅を達成するために、用いられる。
さらにまた、異なる帯域幅の円滑な適応は、それがより長い期間のためにアクティブにする必要がある場合、その意図された、最適帯域幅で動作するように、例示的に実行される。
それから、図3の30のようなエンコーダは、以下の通り、元の音声信号のスペクトルの上に上記の機能を適用する。
変更バージョンをコード化することは、先ず、例えば、シンタックス・レベルにまで先行する元のバージョンのスイッチング・インスタンスの時間的部分で音声信号をコード化することを含み、それから、 高周波スペクトル帯域66に関してフェードアウト機能を有する一時的な期間の間、スペクトル線値および/またはスケールファクタをスケーリングする。
また、エンコーダ30は、もう一つの方法として、高周波スペクトル帯域66のスペクトロ時間的タイル上へフェードアウト・スケーリング機能を適用するために、第1に、音声信号およびスペクトル領域を修正することができる。それから、第2に、一時的な期間を通じて延びる修正された音声信号をそれぞれコード化する。
エンコーダ30は、前もって一時的な間期、直接スイッチング・インスタンスがから始動するために、増幅する、すなわち、フェードアウト・スケーリング機能の有無にかかわらず、高周波スペクトル帯域66の範囲内でスケール・アップすることができる。そして、それからこのようにして修正された音声信号をコード化することができる。
あるいは、エンコーダ30は、第1に、高周波スペクトル帯域の範囲内で一時的な時間の間、音声信号を増幅するために、後者をそれから訂正することによって、直接、スイッチング・インスタンスの後に、若干のシンタックス要素レベルまで有効な符号化モードを使用している元の音声信号をコード化することができる。
例えば、スイッチング・インスタンが起こる 符号化モードは、高周波スペクトル帯域66に導かれた帯域幅拡張を含む場合、エンコーダ30は、この高周波スペクトル帯域に関して、一時的な期間、スペクトル・エンベロープについての情報を適切に拡大することができる。
あるいは、エンコーダは、時間部で、一時的な期間の間の高周波スペクトル帯域の範囲内における音声信号スペクトルのそれぞれのスケールダウンを引き起こすために、若干のシンタックス・レベルまでのいかなる変更態様なしでも、それから適切なシンタックス要素を変更するスイッチング・インスタンスが起こるところの符号化モードを使用している切換例の後に、音声信号をコード化することができる。
エンコーダは、適切に、それぞれのスケールファクタおよび/またはスペクトル線値をスケールダウンすることができる。
類似して、態様は、対応する装置の対応するブロックまたは部材または特徴の説明を表すように、方法ステップの前後関係にも記載される。
方法のステップの一部または全部は、例えばマイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のように、ハードウェア装置(または使用)によって実行することができる。
いくつかの実施形態では、最も重要な方法ステップのいくつかの1つ以上は、この種の装置によって実行することができる。
実施は、その上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体[例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリ]を使用して実行することができる。そして、それは、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協同する(または協同することでできる)。
従って、デジタル記憶媒体は、コンピュータ読み取り可能とすることができる。
プログラムコードは、機械読み取り可読キャリアに例えば格納することができる。
データキャリア、デジタル記憶媒体または記録媒体は、典型的に有形および/または、非移行に属する。
データストリームまたは信号のシーケンスは、例えばインターネットを介して、例えば、データ通信接続を介して転送されるように構成されてもよい。
レシーバーは、例えば、コンピュータ、モバイル機器、メモリデバイス等であってもよい。
装置またはシステムは、例えば、レシーバーにコンピュータプログラムを転送するためのファイルサーバを含むことができる。
いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイが、本明細書に記載のいずれかの方法を実行するために、マイクロプロセッサと協働することができる。
一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。
本明細書に記載の改変および配置の変形例および詳細は当業者には明らかであろうと理解される。
したがって、唯一の切迫した特許請求の範囲によってではなく、本明細書の実施形態の記述および説明のために提示された特定の詳細によって限定されることが意図である。
[1] Recommendation ITU-T G.718 - Amendment 2: "Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s - Amendment 2: New Annex B on superwideband scalable extension for ITU-T G.718 and corrections to main body fixed-point C-code and description text"
[2] Recommendation ITU-T G.729.1 - Amendment 6: “G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729 - Amendment 6: New Annex E on superwideband scalable extension”
[3] B. Geiser, P. Jax, P. Vary, H. Taddei, S. Schandl, M. Gartner, C. Guillaume, S. Ragot: “Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1”, IEEE Transactions on Audio, Speech, and Language Processing, Vol.15, No.8, 2007, pp.2496-2509
[4] M. Tammi, L. Laaksonen, A. Raemoe, H. Toukomaa: “Scalable Superwideband Extension for Wideband Coding”, IEEE ICASSP 2009, pp.161-164
[5] B. Geiser, P. Jax, P. Vary, H. Taddei, M. Gartner, S. Schandl: “A Qualified ITU-T G.729 EV Codec Candidate for Hierarchical Speech and Audio Coding”, 2006 IEEE 8th Workshop on Multimedia Signal Processing, pp.114-118
Claims (19)
- 情報信号を復号化するように、少なくとも2つのモードの間で切替え可能にサポートするデコーダであって、前記デコーダは、スイッチング・インスタンスに応答して、前記スイッチング・インスタンスに先行する情報信号の第1の時間部分(60)と、高周波スペクトル帯域(66)に制限されるように前記スイッチング・インスタンスに続く第2の時間部分(62)との間の移行時に、時間的な平滑化および/または混合を実行するように構成されている、デコーダ。
- 前記デコーダは、
フル帯域幅の音声符号化モードからBWEまたはサブ帯域幅の音声符号化モードへの切替え、また、
サブ帯域幅の音声符号化モードからフル帯域幅の音声への切替え、また、
導かれたBWE符号化モードからブラインドBWE符号化モードへの切替え、
ブラインドBWE符号化モードから導かれたBWEへの切替え、また、
別のエネルギー保存特性を備えたフル帯域幅の音声符号化モード間での切替え、
の内の1つ以上の切替えに応答する、請求項1に記載のデコーダ。 - 前記高周波スペクトル帯域(66)は、前記スイッチング・インスタンスの切替えが起こる間で両方の符号化モードの有効な符号化帯域幅と重複する、請求項1また請求項2に記載のデコーダ。
- 前記高周波スペクトル帯域(66)は、前記スイッチング・インスタンスの切替えが起こる間で2つの符号化モードの内の1つのスペクトルBWE拡張部分と重複する、請求項3に記載のデコーダ。
- 前記高周波スペクトル帯域(66)は、スペクトルBWE延長部と重複またはスペクトル部分または2つの符号化モードの他の線形予測符号化スペクトル部分を変換する、請求項4に記載のデコーダ。
- 前記デコーダは、さらに高周波スペクトル帯域(66)の下にスペクトル的に配置した分析スペクトル帯域の情報信号の分析(194)に応じて時間的な平滑化および/または混合を実行するように構成される、請求項1または請求項2に記載のデコーダ。
- 前記デコーダは、前記分析スペクトル帯域における情報信号のエネルギー変動(190)に対する尺度を決定し、抑制し、または前記尺度に応じて、時間的な平滑化および/または混合の程度を設定するように構成されている、請求項6に記載のデコーダ。
- 前記デコーダは、前記移行(204)の逆の時間的側面に一時的な時間の間位置している前記分析スペクトル帯域(190)における情報信号のエネルギーの間での第1の差分絶対値の最大値、および、連続した時間的部分の間位置している前記分析スペクトル帯域(190)における情報信号のエネルギーの間での第2の差分絶対値、として測定値を計算するように構成され、両方の前記移行(204)は続いて起こる、請求項7に記載のデコーダ。
- 前記分析スペクトル帯域(190)は、高周波スペクトル帯域(66)のより低いスペクトル側で高周波スペクトル帯域(66)に当接する、請求項6〜請求項8のいずれかに記載のデコーダ。
- 前記デコーダは、前記第1および第2の時間的部分の一方にブラインドBWEを適用することによって、スイッチングおよび/または混合を実行するように構成され、前記第1および第2の時間的部分の他方が復号化される前記第2の符号化モードの有効な符号化帯域幅より小さい有効な符号化帯域幅を有する第1の符号化モードを使用して符号化され、0までの前記移行からより遠くに向けての前記移行より減少するフェードイン/アウト・スケーリング機能に従ったスペクトル的拡張として、前記高周波スペクトル帯域(66)に前記第1および第2の時間的部分の一方の有効な符号化帯域幅をスペクトル的に延長して、前記第1および第2の時間的部分の一方の高周波スペクトル帯域の情報信号エネルギーを時間的に形づくるために、第2の符号化モードの有効な符号化帯域幅より小さい有効な符号化帯域幅を有する第1の符号化モードを使用している、請求項1〜請求項10のいずれかに記載のデコーダ。
- 前記スイッチングは、第2の符号化モードの有効な符号化帯域幅より大きい有効な符号化帯域幅を有する第1の符号化モードによって、前記第1の符号化モードから前記第2の符号化モードへ切替え、前記デコーダは、0までの前記移行からより遠くに向けての前記移行より減少するフェードイン/アウト・スケーリング機能に従ったスペクトル的拡張として、前記高周波スペクトル帯域(66)に前記第2の時間的部分の有効な符号化帯域幅をスペクトル的に延長して、時間的に第2の時間的部分の高周波スペクトル帯域の情報信号のエネルギーを形づくるように構成されている、請求項1〜請求項11のいずれかに記載のデコーダ。
- 前記スイッチングは、第1の符号化モードから前記第2の符号化モードに切替え、前記第1の符号化モードの有効な符号化帯域幅は、前記第2の符号化モードの有効な符号化帯域幅より小さく、前記デコーダは、1までの前記移行からより遠くに向けての前記移行より増加するフェードイン・スケーリング機能に従って、前記第2の時間部分の高周波スペクトル帯域(66)に情報信号のエネルギーを形成するように構成されている、請求項1〜請求項12のいずれかに記載のデコーダ。
- 前記デコーダは、フェードインまたはフェードアウトするスケーリング機能を適用することによって、前記スイッチング・インスタンスで、時間的な平滑化および/または混合を実行するように構成され、後続のスイッチング・インスタンスでフェードインまたはフェードアウトのスケーリング関数が、前記後続のスイッチング・インスタンスの発生時で、前記スイッチング・インスタンスに適用される場合に、出発点において、前記フェードインまたはフェードアウトするスケーリング機能によって想定された関数値に最も近い関数値であるように、前記後続のスイッチング・インスタンスがフェードインまたはフェードアウトのスケーリング機能中に発生した場合、時間的な平滑化および/または混合を前記後続のスイッチング・インスタンスに実行するために、再度、フェードインまたはフェードアウトするスケーリング機能を高周波スペクトル帯域(66)に適用される、請求項1〜請求項13のいずれかに記載のデコーダ。
- 高周波スペクトル帯域内の信号保全性を変化させる少なくとも2つのモードの間で切替え可能である情報信号を符号化するようにサポートするエンコーダであり、前記エンコーダは、前記スイッチング・インスタンスに応答し、前記情報信号を、前記スイッチング・インスタンスに先行する前記第1の時間部分(60)と、高周波スペクトル帯域(66)に制限される後続の前記情報信号の第2の時間部分(62)との間の移行において、時間的に平滑化および/または混合して符号化するように構成される、エンコーダ。
- 前記エンコーダは、前記高周波スペクトル帯域内の第1の信号保全性を有する第1の符号化モードから高周波スペクトル帯域で第2の信号保全性を有する第2の符号化モードへのスイッチング・インスタンスに応答して、前記スイッチング・インスタンスに続く時間部分の高周波スペクトル帯域における情報信号のエネルギーは、前記移行からより遠い前記移行に向けて1まで単調に増加するフェードイン・スケーリング機能にしたがって時間的に形成されているという点で、前記情報信号と比較して修正される前記情報信号の修正バージョンを符号化するように構成されている、請求項14に記載のエンコーダ。
- 少なくとも2つのモードの間で切替え可能である情報信号を複合するためにサポートする方法であって、前記方法は、スイッチング・インスタンスに応答し、前記スイッチング・インスタンスに先行する前記第1の時間部分(60)と、高周波スペクトル帯域(66)に制限されるやり方で、後続の前記情報信号の第2の時間部分(62)との間の移行において、時間的に平滑化および/または混合することを含む、方法。
- 情報信号を符号化するために、高周波スペクトル帯域内の信号保全性を変化させる少なくとも2つのモードの間で切替え可能となるエンコーダをサポートする方法であって、前記方法は、スイッチング・インスタンスに応答し、前記情報信号を、前記スイッチング・インスタンスに先行する第1の時間部分(60)と、高周波スペクトル帯域(66)に制限される後続の前記情報信号の第2の時間部分(62)との間の移行において、時間的に平滑化および/または混合して符号化することを含む、方法。
- 請求項16または請求項17に記載の方法で実行されるときにコンピュータで実行するためのプログラムコードを有するコンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361758086P | 2013-01-29 | 2013-01-29 | |
US61/758,086 | 2013-01-29 | ||
PCT/EP2014/051565 WO2014118139A1 (en) | 2013-01-29 | 2014-01-28 | Concept for coding mode switching compensation |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017208082A Division JP6549673B2 (ja) | 2013-01-29 | 2017-10-27 | エンコーダ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016505170A true JP2016505170A (ja) | 2016-02-18 |
JP6297596B2 JP6297596B2 (ja) | 2018-03-20 |
Family
ID=50030276
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015555670A Active JP6297596B2 (ja) | 2013-01-29 | 2014-01-28 | モード切替え補償をコード化するためのコンセプト |
JP2017208082A Active JP6549673B2 (ja) | 2013-01-29 | 2017-10-27 | エンコーダ |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017208082A Active JP6549673B2 (ja) | 2013-01-29 | 2017-10-27 | エンコーダ |
Country Status (19)
Country | Link |
---|---|
US (4) | US9934787B2 (ja) |
EP (1) | EP2951821B1 (ja) |
JP (2) | JP6297596B2 (ja) |
KR (1) | KR101766802B1 (ja) |
CN (1) | CN105229735B (ja) |
AR (1) | AR094675A1 (ja) |
AU (1) | AU2014211586B2 (ja) |
CA (3) | CA2979260C (ja) |
ES (1) | ES2626809T3 (ja) |
HK (1) | HK1218588A1 (ja) |
MX (1) | MX351361B (ja) |
MY (1) | MY177336A (ja) |
PL (1) | PL2951821T3 (ja) |
PT (1) | PT2951821T (ja) |
RU (1) | RU2625561C2 (ja) |
SG (1) | SG11201505898XA (ja) |
TW (1) | TWI541798B (ja) |
WO (1) | WO2014118139A1 (ja) |
ZA (1) | ZA201506321B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3288031A1 (en) | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
US20190051286A1 (en) * | 2017-08-14 | 2019-02-14 | Microsoft Technology Licensing, Llc | Normalization of high band signals in network telephony communications |
WO2019081070A1 (en) * | 2017-10-27 | 2019-05-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007532963A (ja) * | 2004-04-15 | 2007-11-15 | ノキア コーポレイション | 音声信号の符号化 |
WO2011048820A1 (ja) * | 2009-10-23 | 2011-04-28 | パナソニック株式会社 | 符号化装置、復号装置およびこれらの方法 |
JP2014509408A (ja) * | 2011-04-13 | 2014-04-17 | 華為技術有限公司 | オーディオ符号化方法および装置 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3638091B2 (ja) * | 1999-03-25 | 2005-04-13 | 松下電器産業株式会社 | マルチバンドデータ通信装置、マルチバンドデータ通信装置の通信方法および記録媒体 |
JP3467469B2 (ja) * | 2000-10-31 | 2003-11-17 | Necエレクトロニクス株式会社 | 音声復号装置および音声復号プログラムを記録した記録媒体 |
US7006636B2 (en) | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US7406096B2 (en) * | 2002-12-06 | 2008-07-29 | Qualcomm Incorporated | Tandem-free intersystem voice communication |
GB0408856D0 (en) * | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
AU2004319556A1 (en) * | 2004-05-17 | 2005-11-24 | Nokia Corporation | Audio encoding with different coding frame lengths |
KR100608062B1 (ko) * | 2004-08-04 | 2006-08-02 | 삼성전자주식회사 | 오디오 데이터의 고주파수 복원 방법 및 그 장치 |
AU2006208529B2 (en) * | 2005-01-31 | 2010-10-28 | Microsoft Technology Licensing, Llc | Method for weighted overlap-add |
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
KR100715949B1 (ko) * | 2005-11-11 | 2007-05-08 | 삼성전자주식회사 | 고속 음악 무드 분류 방법 및 그 장치 |
KR100749045B1 (ko) * | 2006-01-26 | 2007-08-13 | 삼성전자주식회사 | 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치 |
US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
CN101025918B (zh) * | 2007-01-19 | 2011-06-29 | 清华大学 | 一种语音/音乐双模编解码无缝切换方法 |
CN101231850B (zh) * | 2007-01-23 | 2012-02-29 | 华为技术有限公司 | 编解码方法及装置 |
KR101441896B1 (ko) * | 2008-01-29 | 2014-09-23 | 삼성전자주식회사 | 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치 |
JP5308519B2 (ja) | 2008-06-24 | 2013-10-09 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 改善されたオーディオ符号化のマルチモード方式 |
PL2304723T3 (pl) * | 2008-07-11 | 2013-03-29 | Fraunhofer Ges Forschung | Urządzenie i sposób dekodowania zakodowanego sygnału audio |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
EP2146343A1 (en) * | 2008-07-16 | 2010-01-20 | Deutsche Thomson OHG | Method and apparatus for synchronizing highly compressed enhancement layer data |
PT2146344T (pt) * | 2008-07-17 | 2016-10-13 | Fraunhofer Ges Forschung | Esquema de codificação/descodificação de áudio com uma derivação comutável |
FR2936898A1 (fr) * | 2008-10-08 | 2010-04-09 | France Telecom | Codage a echantillonnage critique avec codeur predictif |
US8724829B2 (en) | 2008-10-24 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coherence detection |
US8532211B2 (en) * | 2009-02-20 | 2013-09-10 | Qualcomm Incorporated | Methods and apparatus for power control based antenna switching |
CN102369569B (zh) * | 2009-05-13 | 2013-04-24 | 华为技术有限公司 | 编码处理方法、编码处理装置与发射机 |
US8442837B2 (en) * | 2009-12-31 | 2013-05-14 | Motorola Mobility Llc | Embedded speech and audio coding using a switchable model core |
KR20130036304A (ko) * | 2010-07-01 | 2013-04-11 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US9047875B2 (en) * | 2010-07-19 | 2015-06-02 | Futurewei Technologies, Inc. | Spectrum flatness control for bandwidth extension |
-
2014
- 2014-01-28 WO PCT/EP2014/051565 patent/WO2014118139A1/en active Application Filing
- 2014-01-28 CA CA2979260A patent/CA2979260C/en active Active
- 2014-01-28 AU AU2014211586A patent/AU2014211586B2/en active Active
- 2014-01-28 JP JP2015555670A patent/JP6297596B2/ja active Active
- 2014-01-28 MX MX2015009535A patent/MX351361B/es active IP Right Grant
- 2014-01-28 SG SG11201505898XA patent/SG11201505898XA/en unknown
- 2014-01-28 CA CA2898572A patent/CA2898572C/en active Active
- 2014-01-28 EP EP14701978.0A patent/EP2951821B1/en active Active
- 2014-01-28 MY MYPI2015001899A patent/MY177336A/en unknown
- 2014-01-28 PL PL14701978T patent/PL2951821T3/pl unknown
- 2014-01-28 ES ES14701978.0T patent/ES2626809T3/es active Active
- 2014-01-28 KR KR1020157023195A patent/KR101766802B1/ko active IP Right Grant
- 2014-01-28 CN CN201480019089.4A patent/CN105229735B/zh active Active
- 2014-01-28 PT PT147019780T patent/PT2951821T/pt unknown
- 2014-01-28 RU RU2015136797A patent/RU2625561C2/ru active
- 2014-01-28 CA CA2979245A patent/CA2979245C/en active Active
- 2014-01-29 TW TW103103530A patent/TWI541798B/zh active
- 2014-01-29 AR ARP140100291A patent/AR094675A1/es active IP Right Grant
-
2015
- 2015-07-29 US US14/812,263 patent/US9934787B2/en active Active
- 2015-08-28 ZA ZA2015/06321A patent/ZA201506321B/en unknown
-
2016
- 2016-06-07 HK HK16106533.3A patent/HK1218588A1/zh unknown
-
2017
- 2017-10-27 JP JP2017208082A patent/JP6549673B2/ja active Active
-
2018
- 2018-01-17 US US15/873,550 patent/US10734007B2/en active Active
-
2020
- 2020-06-29 US US16/915,904 patent/US11600283B2/en active Active
-
2023
- 2023-03-06 US US18/179,139 patent/US20230206931A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007532963A (ja) * | 2004-04-15 | 2007-11-15 | ノキア コーポレイション | 音声信号の符号化 |
WO2011048820A1 (ja) * | 2009-10-23 | 2011-04-28 | パナソニック株式会社 | 符号化装置、復号装置およびこれらの方法 |
JP2014509408A (ja) * | 2011-04-13 | 2014-04-17 | 華為技術有限公司 | オーディオ符号化方法および装置 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7050972B2 (en) | Enhancing the performance of coding systems that use high frequency reconstruction methods | |
AU2015295603B2 (en) | Apparatus and method for processing an audio signal using a harmonic post-filter | |
RU2660605C2 (ru) | Концепция заполнения шумом | |
RU2740359C2 (ru) | Звуковые кодирующее устройство и декодирующее устройство | |
US20230206931A1 (en) | Concept for coding mode switching compensation | |
US10176817B2 (en) | Low-frequency emphasis for LPC-based coding in frequency domain | |
AU2014211528B2 (en) | Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands | |
JP2022174077A (ja) | スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム | |
BR112015017874B1 (pt) | Conceito para codificar a compensação de comutação de modo |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A529 | Written submission of copy of amendment under article 34 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A529 Effective date: 20150929 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161108 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20170202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170508 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171027 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20171221 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180221 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6297596 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |