JP2016505170A - モード切替え補償をコード化するためのコンセプト - Google Patents

モード切替え補償をコード化するためのコンセプト Download PDF

Info

Publication number
JP2016505170A
JP2016505170A JP2015555670A JP2015555670A JP2016505170A JP 2016505170 A JP2016505170 A JP 2016505170A JP 2015555670 A JP2015555670 A JP 2015555670A JP 2015555670 A JP2015555670 A JP 2015555670A JP 2016505170 A JP2016505170 A JP 2016505170A
Authority
JP
Japan
Prior art keywords
switching
decoder
high frequency
bandwidth
temporal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015555670A
Other languages
English (en)
Other versions
JP6297596B2 (ja
Inventor
マルティーン ディーツ
マルティーン ディーツ
エレニ フォトプゥルゥ
エレニ フォトプゥルゥ
イェレミー ルコンテ
イェレミー ルコンテ
マルクス マルトラス
マルクス マルトラス
ベンヤミン シューベルト
ベンヤミン シューベルト
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2016505170A publication Critical patent/JP2016505170A/ja
Application granted granted Critical
Publication of JP6297596B2 publication Critical patent/JP6297596B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

異なる符号化モード間の切り替えを可能にするコーデックは、スイッチング・インスタンスに応答し、それぞれの移行において、時間的な平滑化および/または混合を実行することによって改善される。【選択図】なし

Description

本出願は、例えば、有効な符号化された帯域幅および/またはエネルギー保存特性において、異なる別の符号化モードを使用している情報信号の符号化に関する。
文献〔1〕、〔2〕および〔3〕において、それは、予測方法によりブラインドBWEで欠落している内容を外挿することによって、帯域幅の短い制限を取扱うことが提案されている。
しかしながらこの手法は、長期的に帯域幅が変化するケースをカバーしていない。
また、別のエネルギー保存特性(例えば、ブラインドBWEsは、通常、フル帯域コアと比較して高い周波数での大幅なエネルギー減衰を有している)の配慮がありません。
様々な帯域幅のモードを使用しているコーデックが、文献〔4〕および〔5〕に記載されている。
Recommendation ITU-T G.718 - Amendment 2: "Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s - Amendment 2: New Annex B on superwideband scalable extension for ITU-T G.718 and corrections to main body fixed-point C-code and description text" Recommendation ITU-T G.729.1 - Amendment 6: "G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729 - Amendment 6: New Annex E on superwideband scalable extension" B. Geiser, P. Jax, P. Vary, H. Taddei, S. Schandl, M. Gartner, C. Guillaume, S. Ragot: "Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1", IEEE Transactions on Audio, Speech, and Language Processing, Vol.15, No.8, 2007, pp.2496-2509 M. Tammi, L. Laaksonen, A. Raemoe, H. Toukomaa: "Scalable Superwideband Extension for Wideband Coding", IEEE ICASSP 2009, pp.161-164 B. Geiser, P. Jax, P. Vary, H. Taddei, M. Gartner, S. Schandl: "A Qualified ITU-T G.729 EV Codec Candidate for Hierarchical Speech and Audio Coding", 2006 IEEE 8th Workshop on Multimedia Signal Processing, pp.114-118
モバイル通信アプリケーションでは、使用されるコーデックのビットレートに影響を及ぼす利用可能なデータレートの変動もまた珍しくはないかもしれない。
したがって、それは別の、ビットレートに基づく設定および/または機能強化(機能拡張)の間でコーデックが切替え可能であることは有利である。
異なるBWEsと例えばフル帯域コアの間を切替える場合は、異なる実効出力帯域幅または様々なエネルギー保存特性に、不連続が発生する可能性があることを意図している。
より正確に言うと、BWEsまたはBWEの設定の異なる動作点およびビットレートに応じて使用され得る(図1参照):
一般的に、非常に低いビットレートのためのブラインド帯域幅拡張方式では、より重要なコア・コーダで利用可能なビットレートを集中させることが好ましい。
ブラインド帯域幅拡張は、概して、任意の付加的なサイド情報を持たないでコア・コーダの上に小さい余分の帯域幅を総合する。
ブラインドBWEによって(エネルギーオーバーシュートまたは見当違いの成分の増幅による)アーチファクトの導入を回避するために、余分な帯域幅は、通常、非常にエネルギーが制限されている。
中間ビットレートの場合、導かれたBWEのアプローチによってブラインドBWEを置き換えることは、一般的に望ましい。
この導かれた方法は、エネルギーのためのパラメータのサイド情報および総合された余分の帯域幅の様子を使用する。
このアプローチによって、ブラインドBWEと比較して、より高いエネルギーのより広い帯域幅は、総合することができる。
高いビットレートのために、すなわち帯域幅拡張することなく、コア・コーダ領域で完全な帯域幅を符号化することは望ましい。
これは一般的に、帯域幅およびエネルギーの近い完全な保存を提供する。
したがって、特に、異なる符号化モード間の移行で、異なる符号化モードとの間に切り替わることをサポートしているコーデックの品質を改善するためのコンセプトを提供することが、本発明の目的である。
この目的は、係属中の独立クレームの主題によって達成され、そこにおいて、有利な下位態様は従属クレームの主題である。
これは、スイッチング・インスタンスに応じて、それぞれの移行時に、時間的な平滑化および/または混合を実行することによって、異なる符号化モード間の切替えを可能にするためのコーデックが改善され得ることが、本出願の基礎となる知見である。
実施形態によれば、スイッチングは、一方においては、フル帯域幅の音声符号化モードとの間で行なわれ、また、他方においては、BWEまたはサブ帯域音声符号化モードとの間で行われる。
さらなる実施形態では、追加的または代替的に、時間的な平滑化および/または混合に応じて、導かれたBWEとブラインドBWEとの間で符号化モードを切替えるスイッチングで実行される。
上記の概説された発見を越えて、本出願の他の態様によれば、時間的な平滑化および/または混合することは、また、符号化モードの間でインスタンスを切替えるときに、マルチモードの符号化を改善するために使用することができ、そして、それらの有効な符号化帯域幅は、実際に両方とも、時間的な平滑化および/または混合がスペクトル内で実行される高周波スペクトル帯域とオーバーラップすることを、本出願の発明者らは理解した。
本発明の実施形態に従って、より正確には、トランジション(移行)における時間的な平滑化および/または混合が高周波スペクトル帯域の範囲内で行われ、スペクトルは、スイッチング・インスタンスの切替えが行われる間に、両方の符号化モードの効果的な符号化された帯域幅とオーバーラップする。
例えば、高周波スペクトル帯域は、2つの符号化モードの内の一方の帯域幅拡張部分にオーバーラップすることができ、すなわち、高周波数部分は、その中に、2つの符号化モードの内の1つに従って、スペクトルがBWEを使用して拡張される。
2つの符号化モードの他方に関する限り、高周波スペクトル帯域は、例えば、変換スペクトルまたは直線予測符号化されたスペクトルまたはこの符号化モードの帯域幅拡張部分に重なることができる。
結果として生じる改良は、したがって、情報信号を符号化する際に、人工的な時間的エッジは/ジャンプが、情報信号のスペクトログラムをもたらすことができるように、その有効な符号化された帯域幅が重なるスペクトル部分において異なる符号化モードでさえ、別のエネルギー保存特性を有するという事実に由来する。
時間的な平滑化および/または混合は、負の影響を低減する。
本発明の実施の形態では、時間的な平滑化および/または混合にしたがって、スペクトルの高周波スペクトル帯域の下方に配置された分析スペクトル帯域における情報信号の分析に応じてさらに実行される。
この処置により、抑制、または分析スペクトル帯域における情報信号のエネルギーの変動の程度(測定値)に依存する時間的な平滑化および/または混合の度合いを適応させることが可能である。
この変動が高い場合、平滑化および/または混合は、意図せずに、あるいは、不利に、そして、それによって潜在的に情報信号の品質の劣化につながる、オリジナル信号の高周波スペクトル帯域のエネルギー変動を取り除くことができる。
さらに以下に概説する実施形態は、音声符号化を対象としているが、本発明も有利であることは明らかであるべきであり、また有利にことに、測定信号、データ送信信号等は、情報信号の他の種類に対して、使用することができる。
全ての実施形態は、従って、また、他の種類の情報信号のための実施形態を示すものとして取扱わなければならない。
本発明の好ましい実施形態は、図面の中で、に関して以下にさらに記載されている。
図1は、代表的なBWEsと異なる実効帯域幅やエネルギー保存特性を備えたフル帯域コアをスペクトル経時のグレースケールの分布を用いて図式的に示している。 図2は、図1の異なる符号化モードのエネルギー保存特性のスペクトル中心の違いのための一実施例を示すグラフを図式的に示している。 図3は、本出願の実施形態が使用され得る関連において、異なる符号化モードをサポートしているエンコーダを図式的に示している。 図4は、高域のスペクトル帯域において、エネルギー保存特性をより高いところからより低いところに切替えるときに、異なる符号化モードをサポートしているデコーダの例示的な機能性を示すとともに、さらに図式的に示している。 図5は、高域のスペクトル帯域において、エネルギー保存特性をより低いところからより高いところに切替えるときに、異なる符号化モードをサポートしているデコーダの例示的な機能性を示すとともに、さらに図式的に示している。 図6Aは、これらの符号化モードのためのデータ・ストリーム内で伝送されるデータ、および、それぞれの符号化モードを処理するためのデコーダ内の機能を示す符号化モードのために、別の実施例を図式的に示している。 図6Bは、これらの符号化モードのためのデータ・ストリーム内で伝送されるデータ、および、それぞれの符号化モードを処理するためのデコーダ内の機能を示す符号化モードのために、別の実施例を図式的に示している。 図6Cは、これらの符号化モードのためのデータ・ストリーム内で伝送されるデータ、および、それぞれの符号化モードを処理するためのデコーダ内の機能を示す符号化モードのために、別の実施例を図式的に示している。 図6Dは、これらの符号化モードのためのデータ・ストリーム内で伝送されるデータ、および、それぞれの符号化モードを処理するためのデコーダ内の機能を示す符号化モードのために、別の実施例を図式的に示している。 図7Aは、どのようにデコーダが、スイッチング・インスタンスで、図4および図5の一時的な時間の平滑化/混合を実行することができるかの別の方法を図式的に示している。 図7Bは、どのようにデコーダが、スイッチング・インスタンスで、図4および図5の一時的な時間の平滑化/混合を実行することができるかの別の方法を図式的に示している。 図7Cは、どのようにデコーダが、スイッチング・インスタンスで、図4および図5の一時的な時間の平滑化/混合を実行することができるかの別の方法を図式的に示している。 図8は、図9の時間的な平滑化/混合の信号適応制御を説明するための実施例に基づいて、これらの時間的な部分の関連する符号化モードのエネルギー保存特性のスペクトル変化と一緒に、相互に切り替える例を挟んで互いに当接する連続した時間部分のスペクトルの例を示すグラフを図式的に示している。 図9は、実施形態に従う時間的な平滑化/混合の信号適応制御を図式的に示している。 図10は、エネルギーを評価し、特定の信号適応平滑実施形態に従って使用されるスペクトル経時タイルの位置を示している。 図11は、デコーダ内の信号適応平滑の実施形態に従って実行されるフロー図を示す。 図12は、実施の形態に係るデコーダ内で実行される帯域幅混合のフロー図を示す。 図13Aは、図12に従って、混合が実行されるスペクトロ経時タイルを例示するために、スイッチング・インスタンス周りのスペクトロ経時部分を示す。 図13Bは、図12の実施形態による混合率の時間変化を示す。 図14Aは、混合中に発生したインスタンスの切替えを考慮するために、図12の実施形態の変形例を図式的に示している。 図14Bは、図14Aの変形の場合において、混合係数の時間的変化の結果として生じる変動を示している。
さらに以下に、本願の実施形態を説明する前に、以下の実施形態の基礎となる教示および考えを明確に動機付するために、再び、簡単に図1についての参照が行われる。
図1は、3つの異なる符号化モード、すなわち、第1の時間的部分10のブラインドBWEを用いて例示的に連続的に使用して符号化された音声信号の一部分10、第2の時間的部分12の導かれたBWEおよび第3の時間的部分14のフル帯域コア符号化を、例示的に示している。
特に、図1は、音声信号を、スペクトロ時間的に、すなわち、時間軸18にスペクトル軸16を追加することによって、符号化しているエネルギー保存性の変化を示している2次元のグレースケール符号化表現を示す。
3つの異なる符号化モードに関して、図1と共に記載された詳細は、単に、以下の実施の形態のための例示的なものとして扱われるが、これらの詳細は後述するように、これらの詳細は、それから得られる以下の実施形態およびそれらの利点の理解を軽減する。
Figure 2016505170
図1および2においても例示的に図示されている2つのBWE符号化モードは、例えば、まさに概説された、変換符号化モードまたは線形予測分析モードなどの符号化モードコアを使用している低周波部分を符号化する。しかし、中心的な符号化のこの時間は、単に、0からfstop,Core1<fstop,Core2の範囲でフル帯域幅の低周波部分に関するものである。
stop,Core1より上の音声信号のスペクトル成分は、周波数fstop,BWE2までの導かれた帯域幅拡張の場合には、そして、図2のfstop,Core1<fstop,BWE1<fstop,BWE2<fstop,Core2の場合において、fstop,Core1およびfstop,BWE1間の帯域幅拡張モードの場合には、データストリームのサイド情報なしで、すなわち、盲目的にパラメータ的に符号化される。
ブラインド帯域幅拡張によれば、例えば、デコーダは、そのブラインドBWE符号化モードに応じて推定し、中心的な符号化部分からfstop,BWE1に対する帯域幅拡張部fstop,Core1は、音声信号スペクトルの中心的な符号化の部分の符号化に加えて、データストリームに含まれるいかなる付加的なサイド情報もなしに、0からfstop,Core1まで伸びる。
音声信号のスペクトルがコアコーディングの停止周波数まで符号化されたという点で、非誘導様式により、ブラインドBWEの帯域拡張部の幅は、通常、必ずしもそうではないが、fstop,Core1からfstop,BWE2まで延びるBWEモードの帯域幅拡張部の幅よりも小さい。
導かれたBWEにおいて、音声信号は、0からfstop,Core1まで延びているスペクトル中心的な符号化部分が関係しているコア符号化モードを使用して、符号化される。しかし、付加的なパラメータサイドの情報データは、クロスオーバー周波数fstop,Core1を超えてfstop,Core1からfstop,BWE2まで延びている帯域幅拡張部の範囲内で、音声信号スペクトルを推定するために、復号側を有効にするように設けられている。
例えば、このパラメータサイド情報は、スペクトロ時間的解像度よりも粗いスペクトロ時間的解像度において、音声信号のエンベロープを記載するエンベロープデータを含むもので、変換符号化を使用するときに、音声信号は、コア符号化を使用しているコアコーディング部で符号化される。
例えば、デコーダは、fstop,Core1およびfstop,BWE2間に前もって空の音声信号の部分を満たすように、中心的な符号化部分の範囲内でスペクトルを複製することができる。そして、このとき、送信されたエンベロープ・データを使用して、この予め充填された状態を形作る。
図1および2は、典型的な符号化モードの切替えが、スイッチング・インスタンスにおいて、それらの符号化モードとの間に、不快な、すなわち、知覚できるアーチファクトが生じる可能性があることを明らかにする。
例えば、一方では導かれたBWEとの間で、他方ではフル帯域幅符号化モードとの間で、切替えるときに、フル帯域幅の符号化モードが、正常に再構築しながら、すなわち、効果的にコード化し、スペクトル部分fstop,BWE2およびfstop,Core2、導かれたBWEモードの中のスペクトル成分は、そのスペクトル部分の範囲で、まさに、音声信号の何かを符号化することができないことが明らかである。
したがって、導かれたBWEからFB符号化へ切り替えることは、そのスペクトル部分の範囲内で音声信号のスペクトル成分の不利な、突然の開始を引き起こす可能性があり、そして、反対方向のスイッチングによって、すなわち、FBコア符号化から導かれたBWEに対して、この種のスペクトル成分の中で突然の消失が次々に生じる可能性がある。
これによって、どんな方法でも、音声信号の再生中にアーチファクトを引き起こす可能性がある。
スペクトル領域は、元の音声信号のエネルギーが何も保存されないフル帯域幅コア符号化モードと比較して、ブラインドBWEの場合においてさえ増加し、それに応じて、消失することがまさに導かれたBWEに関しても記載した突然の開始および/または突然の消失のスペクトル領域は、ブラインドBWEおよびスイッチングによって、そのモードおよびFBコア符号化モード間に発生する。しかしながら、スペクトル部分については、増加して、fstop,BWE1 からfstop,Core2 まで延びる。
しかしながら、異なる符号化モードとの間に切替わることにより面倒なアーチファクトが生じ得るスペクトル部分は、それらのスペクトル部分に限定されない。スイッチング・インスタンスが行われる間、符号化モードの1つは、何も符号化することが全くなく、すなわち、有効な符号化帯域幅の1つの符号化モードの外側のスペクトル部分に制限されない。
むしろ、図1および2に示されているように、実際にスイッチング・インスタンスが行われる間に、両方の符号化モードが起こる両方の符号化モードは、実際に効果的であるが、しかし、また面倒なアーチファクトがそこから生じ得るような方法で、これらの符号化モードのエネルギー保存特性は異なっている部分さえある。
例えば、FBコア符号化および導かれたBWE間に切替わる場合、両方の符号化モードは、スペクトル部分fstop,Core1およびfstop,BWE2の中で効果的である。しかし、FBコア符号化モード20がそのスペクトル部分の範囲内で実質的に音声信号のエネルギーを節約すると共に、そのスペクトル部分の範囲内の導かれたBWEのエネルギー保存特性は実質的に減少し、そして、これらの2つの符号化モードとの間の切替えのときの突然の減少/増加に応じて、知覚できるアーチファクトが発生することがある。
上記の概説されたスイッチング・シナリオは、単なる代表的であることを意味する。
他の一対の符号化モードがあり、それらの間に発生する、または、迷惑なアーチファクトが生じ得る。
これは、例えば、一方では、ブラインドBWEとの間の、他方では、導かれたBWEとの間の切替えのため、あるいは、一方では、ブラインドBWE、導かれたBWEおよびFB符号化のいずれかとの間、他方では、単なる共同符号化の根底にあるブラインドBWEおよび導かれたBWEとの間、または、不等なエネルギー保存特性をもつ異なるフル帯域コア・コーダとの間の切替えのためにですら、当てはまる。
さらに以下に概説する実施形態は、異なる符号化モードとの間に切替わる際に、上記で概説した状況から生じる負の影響を克服する。
これらの実施形態を説明する前に、しかし、それは、異なる符号化モードをサポートする例示的なエンコーダを示す図3に関して簡単に説明される。どのようにして、エンコーダは、例えば、スイッチングがその間で上記に概説し知覚できるアーチファクトをもたらすことができる理由をよりよく理解するために、サポートされているいくつかの符号化モードの間で現在使用されている符号化モードを決定することができる。
図3では、エンコーダが参照符号30を用いて示されている。エンコーダは、概して、情報信号、すなわちここでは、その入力で音声信号32を受信し、その出力で音声信号32を符号化し表示するデータストリーム34を出力する。
ただ概説したように、エンコーダ30は、例示的に、図1および2に関して概説したように、異なるエネルギー保存特性の複数の符号化モードをサポートしている。
音声信号32は、例えば、0から音声信号32の半分のサンプリング・レートとして、若干の最高周波数まで示す帯域幅を有するように、歪められていないこととみなされることができる。
元の音声信号のスペクトルあるいはスペクトログラムは、図1において、参照符号36で示される。
音声エンコーダ30は、音声信号32をコード化することの間、 図1および2に関して上で概説されるもののような異なる符号化モードとの間で、データストリーム34に切替わる。
したがって、音声信号は、異なる符号化モード間の切り替えに応じて変化する高域の周波数領域のエネルギー保全によって、データストリーム34から再構成可能である。
例えば図3において、参照符号34のデータストリーム34から再構成可能である音声信号のスペクトル/スペクトログラムを参照して下さい。そこでは、参照符号38で、3つのスイッチング・インスタンスA,B,Cが例示的に示されている。
Aを切替えることの前において、エンコーダ30は、実質的に、例えば 0からfmax,cod までのフル帯域幅全体のエネルギーを保っている若干の最大周波数fmax,cod ≦fmaxまで音声信号32をコード化する符号化モードを使用する。
切換例AおよびBの間に、例えば、エンコーダ30は、参照符号40に示すように、単に、周波数f1<fmax,codまで、この帯域幅全域で実質的に恒常的なエネルギー保存特性を備えた有効な符号化帯域幅を有する符号化モードを使用する。そして、また、エンコーダ30は、スイッチング・インスタンスBおよびCの間に、例示的に、fmax,codまで延びている有効な符号化帯域幅を有する符号化モードを使用する。しかし、フル帯域幅と関連する減らされたエネルギー保存特性については、参照符号42に示すように、f1およびfmax,cod 間のスペクトル範囲までインスタンスAより前の符号化モードに関係している。
したがって、スイッチング・インスタンスにおいて、それらが図1および2に関して上で述べられたように、知覚できるアーチファクトに関する課題が発生する可能性がある。
エンコーダ30は、しかしながら、課題にもかかわらず、外部制御信号44に応答するスイッチング・インスタンスA〜Cに切り替えることで、 符号化モードとの間に切替えることを決定することができる。
このような外部制御信号44は、たとえば、データストリーム34を送る役割を果たす伝達システムから生じることがある。
例えば、制御信号44は、エンコーダ30に利用可能な伝送帯域幅を示すことができる。エンコーダ30は、データストリーム34のビットレートを満たすために、すなわち、以下または表示される利用可能なビットレートに等しくなるように、適応させなければならない。
しかしながら、この利用できるビットレートに応じて、エンコーダ30の利用できる符号化モードの間で最適な符号化モードは、変更されることがある。
この「最適符号化モード」は、それぞれのビットレートの歪曲比率に対する最適条件/最高率を有するものでもよい。
しかしながら、利用可能なビットレートが変更されると、完全にまたは実質的に、音声信号32の内容によって無相関の方法で、これらのスイッチング・インスタンスA〜Cは、音声信号の内容が不利にその高周波部分f2の中でfmax,codに相当なエネルギーを有するところに、発生する可能性がある。ここで、エンコーダ30のエネルギー保存特性は、符号化モード間のスイッチングのために、時間的に変動する。
このように、エンコーダ30は、それを助けることができない場合がありますが、でも切り替えが不利になるタイミングで、制御信号44によって外部から指示されるように符号化モードを切り替える必要があるかもしれません。
次に記載されている実施例は、符号化モードとの間にエンコーダ側でスイッチングから生じている負の結果を減らすように構成されるデコーダのための実施例に関する。
図4は、インバウンド・データ・ストリーム34からの情報信号52を復号化するために、少なくとも2つの符号化モードとの間にスイッチで切替え可能にサポートするデコーダを示し、デコーダは、特定のスイッチング・インスタンスに応答して、以下にさらに記載されるように、時間的な平滑化または混合を実行するように構成されている。
デコーダ50によってサポートされる符号化モードのための実施例に関して、例えば、参照は、図1および2に関して、上記の説明がなされる。
すなわち、デコーダ50は、例えば、音声信号がデータストリーム34に変換符号化を使用している特定の最大周波数まで、この種の中心的な符号化モードによって符号化される音声信号の部分のために、例えば、音声信号の変換のスペクトル線的な表現を含むデータストリーム34によって符号化され、0からそれぞれの最大周波数まで音声信号をスペクトル的に分解する一つ以上の中心的な符号化モードをサポートすることができる。
あるいは、中心的な符号化モードは、例えば線形予測符号化などの予測符号化を含み得る。
第1のケースにおいて、データストリーム34は、 音声信号のスペクトル線的表現の符号化のための音声信号の中心的な符号化部分を含むことができる。そして、デコーダ50は、周波数0から最高周波数に延びる逆変換において結果として生じている逆変換によって、このスペクトル線的表現に逆の変換を実行するように構成されている。そのため、音声信号52は、0からそれぞれの最大周波数までフル周波数帯域にわたって、データストリーム34に符号化された元の音声信号によって、エネルギーにおいて、実質的に一致して再建される。
予測コア符号化モードの場合には、線形予測係数に応じて設定された合成フィルタを用いて、あるいは、線形予測係数を介して周波数領域のノイズ・シェーピング(FDNS)を使用して、また、これらの時間的な部分にコード化された励起信号を使用して音声信号52を再構成するために、デコーダ50は、それぞれの予測コア符号化モードを使用しているデータストリーム34にコード化された元の音声信号の時間的部分のためのデータストリーム34に含まれる線形予測係数を使用するように構成されている。
合成フィルタを使用する場合には、音声信号52がそれぞれの最大周波数まで、すなわちサンプル・レートとしての最大周波数の2倍で再建されるように、そして、周波数領域ノイズ創造を使用する場合には、デコーダ50は、合成フィルタはサンプル・レートにおいて作動することができる。そして、周波数領域のノイズ・シェーピングを使用する場合には、デコーダ50は、データストリーム34からの励起信号と変換領域を取得するように構成することができる。デコーダ50は、スペクトル線的表現の形、例えば、線形予測係数を用いてFDNS(周波数領域のノイズ・シェーピング)を使用して、この励起信号をシェーピング(整形)し、変換された係数によって表されるスペクトル的にシェーピングされたスペクトルのバージョンへの逆変換を実行して、次に、励起を表す。
異なる最大周波数を有する1つまたは2つ以上のそのようなコア符号化モードは、使用可能であってもよいし、デコーダ50によってサポートされてもよい。
他の符号化モードは、それぞれの最大周波数を越えて中心的な符号化モードのいずれかによってサポートされる帯域幅を広げるために、例えばブラインドであるか導かれたBWEのようなBWEを使用することができる。
導かれたBWEは、例えば、SBR(スペクトル帯域複製)を含むことができる。これにしたがえば、デコーダ50は、パラメータのサイド情報に従って微細構造を整形するために、パラメータのサイド情報を使用することで、音声信号から中心的な符号化モードから再建されるにつれて、より高い周波数の方へ中心的な符号化帯域幅を延長している帯域幅拡張部の微細構造を取得する。
他の導かれたBWEの符号化モードは、同様に可能である。
ブラインドBWEの場合には、デコーダ50は、帯域幅拡張部に関する明示的なサイド情報なしでより高い周波数に向かって、その最大値を超えてコア符号化帯域幅を拡張する帯域幅拡張部を再構成することができる。
符号化モードは、データ・ストリーム内の時間的に変化することができる単位は、一定あるいは変化する長さの「フレーム」とすることができることに留意される。
以下において、用語「フレーム」が発生する理由は、それがこのように、符号化モードが、ビットストリーム内で変化するそのような単位を意味することを意図している。すなわち、そのような単位は、それらの間の符号化モードが変化する可能性があり、また、その中で符号化モードは変化しない可能性がある。
例えば、フレームごとに、データストリーム34は、それぞれのフレームが符号化される符号化モードを明らかにしている構文要素を含むことができる。
スイッチング・インスタンスは、このように、異なる符号化モードのフレームを切り離しているフレーム境界に配置することができる。
時には用語のサブフレームが発生することがある。
音声信号が、それぞれのフレームと関連したコーディング・モードに従って、それぞれのコーディング・モードのサブフレームに特有の符号化パラメータを用いてコード化される時間的サブユニットにフレームを時間的に分割することを、サブフレームは表すことができる。
図4は、特に、高周波スペクトル帯域内のより少ない、または全くない、エネルギー保存特性を有する符号化モードに、いくつかの高周波スペクトル帯域でより高いエネルギー保存特性を有する符号化モードの切替えに関する。
図4は、単に、理解の容易さのためにだけ、これらのスイッチング・インスタンスに集中していて、本願の一実施形態に従うデコーダは、この可能性に制限されてはならない点に注意されたい。
むしろ、各スイッチング・インスタンスが起こる間に、特定の符号化モードの組のための特定のスイッチング・インスタンスに関連して、図4および以下の図に関して記載されている具体的な機能性の全てを、あるいは、任意のサブセットを組み込むことができるように、本出願の実施形態によるデコーダを実装することができることは明らかである。
図4は、音声信号がデータストリーム34に符号化されて用いられる符号化モードが、第1の符号化モードから第2の符号化モードに切替える時間インスタンスtA におけるスイッチング・インスタンスAを示している。この第1の符号化モードは、代表的に、0からfmaxへの有効な符号化帯域幅を有する符号化モードであり、エネルギー保存特性において、周波数0から周波数f1<fmax まで一致している符号化モードへ切替えるが、小さいエネルギー保存特性を有するか、または、周波数、すなわち、f1〜fmax の間を越えて、エネルギー保存特性を有していない。
2つの可能性は、図4において、音声信号が参照符号58でデータストリーム34に符号化されて使用したエネルギー保存特性の模式的なスペクトロ時間的表現の範囲内で、点線をもって示されるf1およびfmaxの間の典型的な周波数のために、参照符号54および56で代表的に例示されている。
参照符号54の場合、スイッチング・インスタンスAに続いて起こる音声信号52の時間的部分の復号化バージョンの第2の符号化モードは、エネルギー保存性が、参照符号54に示すように、この周波数を越えて0となるように、単に、f1まで延びる有効な符号化帯域幅を有する。
例えば、第1の符号化モードは、第2の符号化モードと同様に、異なる最大周波数f1およびfmaxを有するコア符号化モードであってもよい。
あるいは、これらの符号化モードの一方または両方は、異なる有効な符号化帯域幅を有する帯域幅拡張を含むことができ、一方はf1まで、他方はfmaxまで、延びる。
参照符号56の場合は、fmaxまで延びている有効な符号化帯域幅を有する両方の符号化モードの可能性を例示する。しかしながら、第2の符号化モードのエネルギー保存特性により、先行する時間インスタンスtAは、第1の符号化モードの一つと関連して時間的部分に関して、減少する。
スイッチング・インスタンスAは、すなわち、直ちに、先行するスイッチング・インスタンスAの時間的部分60は、第1の符号化モードを用いて符号化され、そして、直ちに、後続するスイッチング・インスタンスAの時間的部分62は、第2の符号化モードを使用して符号化される、という事実は、データストリーム34の中で信号を送ることができる。あるいは、さもなければ、デコーダ50がデータストリーム34からの音声信号52を復号化するための符号化モードを交換するスイッチング・インスタンスは、コード化している側でそれぞれの符号化モードと同期するように、デコーダ50に信号を送ることができる。
例えば、上記で簡単に概説したフレーム単位のモード・シグナリングは、スイッチング・インスタンスを切り替え、認識及び識別するか、または異なるタイプの間を区別するように、デコーダ50によって使用されてもよい。
いずれにせよ、図4のデコーダは、スイッチング・インスタンスAで時間的不連続の効果を回避するように、fmaxから周波数f1 の間が高周波スペクトル帯域66の範囲内で、エネルギー保存特性が時間的な平滑化または混合を実行する効果を例示しようとする参照符号64において略図で例示されるように示すことによって、移行で音声信号52の時間的部分60および62の復号化バージョンの間に時間的な平滑化または混合を実行するように構成される。
参照符号54および56と同じように、参照符号68、70、72および74において、結果として生じるエネルギー保存特性の時間的経過を示すことによって、デコーダ50が時間的な平滑化/混合をどのように達成するかを示す非網羅的な1組の実施例は、高周波スペクトル帯域66の範囲内で参照符号64の点線によって示される典型的な周波数のために、時間と共にプロットされる。
参照符号68および72で示される実施例は、参照符号54に示されるスイッチング・インスタンスの実施例を取扱うためのデコーダ50の機能の可能な実施例を表すと共に、参照符号70および74に示される実施例は、参照符号56で例示されるシナリオ切替えの場合、デコーダ50の可能な機能を示す。
また、参照符号54で例示されるシナリオ切替えにおいて、第2の符号化モードは、周波数f1より上に音声信号52を全く再構築しない。
参照符号68の実施例によれば、音声信号52の復号化バージョンとの間の移行において、スイッチング・インスタンスAの前後で時間的な平滑化または混合を実行するために、デコーダ50は、一時的に、直ちにスイッチング・インスタンスAに代わっている一時的な時間76のために、fmaxまで周波数f1より上に、音声信号のスペクトルを推定して満たすように、ブラインドBWEを実行する。
参照符号72で示された実施例に示すように、デコーダ50は、高周波スペクトル帯域66の範囲内のエネルギー保存特性が関係している限り、スイッチング・インスタンスAにまたがって移行さえも、より平滑化されるように、高周波スペクトル帯域66の範囲内で若干のフェードアウト機能78を使用している時間的シェーピング(整形)に推定されたスペクトルをこのために従属させることができる。
実施例72の具体例は、以下にさらに説明される。
デーストリーム34が一時的なブラインドBWEパフォーマンスに関してデータストリーム34の中で何の信号を送る必要のないことが強調される。
むしろ、デコーダ50自体は、フェードアウトの有無にかかわらず、一時的にブラインドBWEを適用するために、スイッチング・インスタンスAに応答するように構成される。
ブラインドBWEを使用しているより高い周波数に向かってその上限を超えてスイッチング・インスタンスを挟んで互いに隣接する符号化モードの内の1つの有効な符号化帯域幅の拡張は、以下の時間的混合と呼ばれている。
図5の説明から明白になるにつれて、実際のスイッチング・インスタンスより前に開始するように、時間的に移動させて/スイッチング・インスタンス全体の混合期間76を移すことは可能である。
混合部分のところまで、時間間隔76は、関係している。そして、それは、スイッチング・インスタンスAに先行している。混合は、段階的な方法で高周波スペクトル帯域66の範囲内で音声信号の52のエネルギーを減らすことをもたらす。すなわち、0と1の間または部分区間のもっぱら両方で変化している様々な方法の要因によって、高周波スペクトル帯域66の範囲内でエネルギー保存特性の時間的な平滑化をもたらす結果となる。
56の状況は、スイッチグ・インスタンスA全体の各々に隣接している両方の符号化モードのエネルギー保存特性が56の場合には、両方の符号化モードの高周波スペクトル帯域66の範囲内で0と異なるという点において、54の状況とは異なる。
56の場合には、エネルギー保存性が急にスイッチング・インスタンスAで下がる。70の実施例によれば、図4のデコーダ50は、スイッチング・インスタンスAの後の予備時間80は、スイッチング・インスタンスAの前の音声信号52のエネルギーと、単に、第2の符号化モードを使用して得られるように、直ぐに、高周波スペクトル帯域66の範囲内の音声信号の52のエネルギーとの間に、高周波スペクトル帯域66の範囲内の音声信号の52のエネルギーをセットすることを目的として、バンド66のエネルギー保存特性のこの突然の減少の潜在的負の効果を補償するために、前もってスイッチング・インスタンスAの前後において直ちに時間的部分60および62との移行の間に時間的な平滑化または混合を実行するように構成されている。
換言すれば、デコーダ50は、後続のスイッチング・インスタンスAのエネルギー保存特性が先行するスイッチング・インスタンスAに適用される符号化モードのエネルギー保存特性により類似する状態となるように、予備時間80の間、前もって音声信号の52のエネルギーを増加させる。
この増加のために使用する要因が図示するように70で予備時間80の間、一定に保たれることができると共に、高周波スペクトル帯域64の範囲内でスイッチング・インスタンスAにわたってエネルギー保存特性のなお一層滑らかな移行を得るために、この要因がその時間80の範囲内で段階的に減少することもできることが、図4の74で示される。
後ほど、70において示され/例示される変形例のための実施例は、下で更に概説される。
音声信号のレベル、すなわち、70および74の場合には、音声信号がそれぞれのスイッチング・インスタンスAの前後でコード化されるエネルギー保存特性の増加/減少を補償するために、増加の予備変化は、以下の時間的な平滑化と呼ばれている。
換言すれば、予備時間80の間、高周波スペクトル帯域の範囲内の時間的な平滑化は、時間的部分において、音声信号が符号化され、それぞれの符号化モードを用いて復号化することからその高周波スペクトル帯域の範囲内で直接生じている音声信号の52レベル/エネルギーと関連してより弱いエネルギー保存特性を備えた符号化モードを使用するスイッチング・インスタンスAの周辺で、音声信号52のレベル/エネルギーの増加を意味し、および/または、音声信号の減少は、音声信号が符号化され、その符号化モードを有する音声信号をコード化することから高周波スペクトル帯域の範囲内でより高いエネルギー保存特性を備えた符号化モードを使用するスイッチング・インスタンスAのまわりの時間的部分の範囲内の一時的な期間80の間、音声信号52のレベル/エネルギーの減少を意味する。そして、その符号化モードを有する音声信号をコード化することから、直接生じているエネルギーと関連している。
換言すれば、デコーダが56のようなスイッチング・インスタンスを処理する方法は、直接、スイッチング・インスタンスAに続くために、一時的な期間80を配置することに制限されない。それよりも、一時的な期間80は、スイッチング・インスタンスAを横切ることができるかまたはそれに先行することさえできる。
その場合、音声信号の52のエネルギーは、一時的な期間80の間、スイッチング・インスタンスAの前の時間的部分に関する限りは、音声信号がスイッチング・インスタンスAの後に符号化される符号化モードの結果として生じるエネルギー保存特性とより類似しているようにするために、減少する。すなわち、高周波スペクトル帯域の範囲内の結果として生じるエネルギー保存特性は、スイッチング・インスタンスAの前の符号化モードのエネルギー保存特性およびスイッチング・インスタンスAの後の符号化モードのエネルギー保存特性の間に位置する。
図5のデコーダの説明を続行する前に、時間的平滑化および時間的混合の概念が混合されることができることに注意されたい。
例えば、ブラインドBWEは、時間的混合を実行するための基礎として使われると想像して下さい。
このブラインドBWEは、例えば、低いエネルギー保存特性を有することができる。そして、そのことは、以後、時間的平滑化をさらに適用することで「欠点」がさらに補償される。
さらに、図4は、68〜74またはそれらの組み合わせ、すなわち、55および/または56のそれぞれの例に応答することに関して、上で概説される機能の内の1つを組み込んでいて/特徴としているデコーダのための実施例を説明するものとして理解されなければならない。
同じことは、スイッチング・インスタンスの後の有効な符号化モード関連して、高周波スペクトル帯域66の範囲内で、低いエネルギー保存特性を有する符号化モードからスイッチング・インスタンスに応答するデコーダ50を記載する、以下の数字にあてはまる。
違いを強調するために、スイッチング・インスタンスは、図5の中の意味されたBである。
可能な限り、図4において用いられている同じ参照符号は、説明の不必要な反復を回避するために、再利用される。
図5において、音声信号がストリーム34に符号化されたエネルギーを保存特性は、図4における48と同様に、スペクトロ時間的に模式的な方法でプロットされる。それが示されているように、スイッチング・インスタンスBの音声信号の時間的な部分62を符号化するように、直ちにスイッチング・インスタンスBの前の時間的部分60が高周波スペクトル帯域の範囲内でスイッチング・インスタンスBの直後に選択された符号化モードと関連して減少したエネルギー保存特性を有する符号化モードに帰属する。
図5の92および94において、時間間隔tB でスイッチング・インスタンスB全体のエネルギー保存特性の時間的経過の典型的な例示が示されている。92は、時間的部分60のための符号化モードがそれとともに、高周波スペクトル帯域66でさえもカバーしなくて、それに応じて0のエネルギー保存特性を有する有効な符号化帯域幅を結びつけたケースを示し、94は時間的部分60のための符号化モードが高周波スペクトル帯域66をカバーして、高周波スペクトル帯域の範囲内で0以外のエネルギー保存特性を備えた有効な符号化帯域幅を有するケースを示すが、エネルギー保存特性と関連してスイッチング・インスタンスBに続く時間的部分62と関連した符号化モードの同一周波数で減少される。
図5のデコーダは、図5にて図示したように、どうも高周波スペクトル帯域66の範囲までは、スイッチング・インスタンスB全体のエネルギー保存特性を時間的に平滑化するように、スイッチング・インスタンスBに応答する。
スイッチング・インスタンスBに応答するデコーダ50の機能は、どんな状態でありえたか、図4,図5のように、98、100、102および104で4つの実施例を示すが、他の実施例が下で更に詳細に概説されるのと同様に可能である点に、再び、注意される。
実施例98〜104の中で、実施例98および100は、スイッチング・インスタンスタイプ92に関連し、その一方で、他はスイッチング・インスタンスタイプ94に関連する。
グラフ92および94の様に、98〜104で示されるグラフは、高周波スペクトル帯域66の内側ものの典型的な周波数のためのエネルギー保存特性の時間的経過を示す。
しかしながら、92および94は、スイッチング・インスタンスBに前後しているそれぞれの符号化モードによって定義されるように、最初のエネルギー保存特性を示す。その一方で、98〜104で示されるグラフは、すなわち、後述するように、スイッチング・インスタンスに応答して、実行されるデコーダの50の計測を含んでいる有効なエネルギー保存特性を示す。
98は、デコーダ50がスイッチング・インスタンスBを実現するときに、即座に、時間的混合を実行するように構成されている例示を示す。:スイッチング・インスタンスBまで有効な符号化モードのエネルギー保存特性が0として、デコーダ50は、前もって一時的な期間106の間、スイッチング・インスタンスBが働いて有効なそれぞれの符号化モードを使用することを復号化することから生じるとして、直ちにスイッチング・インスタンスBに続く音声信号52の復号化バージョンのエネルギー/レベルを低下させる。その結果、その一時的な期間106内で、高周波スペクトル帯域66に関する限り、スイッチング・インスタンスBの前の符号化モードのエネルギー保存特性およびスイッチング・インスタンスBに先行する符号化モードの変更されていない/最初のエネルギー保存特性の間に位置する。
実施例68は、段階的に/連続的に、音声信号の52のエネルギーが一時的な時間106の間、スイッチング・インスタンスBから期間106の終わりまで拡大・縮小される要因を増加させるためにフェードイン機能が用いられるのに応じて、変形例を使用している。
前述したように、しかしながら、図4を使用している実施例72および68に関して、一時的な期間106の間のスケーリングファクタを一定のままにすることはしかしながら可能でもある。それによって、先行するスイッチング・インスタンスの符号化モードが0により近いバンド66の範囲内の結果として生じるエネルギー保存特性を取得するように、一時的に、期間106の間に音声信号のエネルギーを減らす。
100は、68および72を記載する際に、図4に関して既に説明されたスイッチング・インスタンスBを即座に実現するデコーダの50の機能の二者択一のための実施例を示す。100に示される変形例によれば、一時的な時間106は、時間インスタンスtBを交差させるために、時間的上流方向に沿って移される。
切換例Bに応答するデコーダ50は、何らかの形で、例えば、バンド66の範囲内で時間的にスイッチング・インスタンスBに先行する部分106の一部の範囲内で音声信号52の評価を得るために、空き、すなわち、直ちにブラインドBWEを使用している先行するスイッチング・インスタンスBの音声信号52の高周波スペクトル帯域66の0−エネルギーを充填する。その後、0から1まで、例えば、期間106の最初から終わりまで、音声信号52のエネルギーを段階的/連続的に増やすためにフェードイン機能を印加する、それによって、スイッチング・インスタンスBに先立ってブラインドBWEによって得られ、スイッチング・インスタンスBの後に有効/選択される符号化モードを使用するにつれて、後続のスイッチング・インスタンスBの106部分のところまで関係しているバンド66の範囲内で音声信号のエネルギーの低減程度を連続的に減少させている。
94のように符号化モードとの間に切り替わる場合には、先行するスイッチング・インスタンスBも後続のスイッチング・インスタンスBの両方とも、バンド66の範囲内のエネルギー保存特性が0と等しくない。
図4の56で示されるケースに対する違いは、単に、バンド66の範囲内のエネルギー保存特性が、先行するスイッチング・インスタンスBの時間的部分の範囲内に適用されるエネルギー保存特性に比べて、後続のスイッチング・インスタンスBの時間的部分62の範囲内でより高いというだけである。図5のデコーダ50は、70および図4に関して上述されるケースと類似の102で示される実施例に従って、効果的に振舞う。スイッチング・インスタンスBの前に有効な符号化モードの最初のエネルギー保存特性と、スイッチング・インスタンスBの後の有効な符号化モードの変更されていない/最初のエネルギー保存特性との間にだいたい位置するように有効なエネルギー保存特性をセットするために、デコーダ50は、直ちに、続いて起こるスイッチング・インスタンスBの一時的期間の間、スイッチング・インスタンスBの後で音声信号のエネルギーが有効な符号化モードを使用して復号化されるように、わずかに縮小する。
一定のスケーリングファクタが図5の中の102で図示されていると共に、それは連続的に一時的に変化するフェードイン機能が同様に用いられることができるケース74に関して、図4で既に述べられた。
完全性のために、スイッチング・インスタンスBが起こる符号化モードの最初の/変更されていないエネルギー保存特性の間にあるエネルギー保存特性をセットするように、一時的な期間108がスケーリングファクタを使用している間に応じて音声信号の52のエネルギーを増加させることにより、直ちにスイッチング・インスタンスBを先行させるために、104は、時間的上流方向の一時的な期間108に向かって/シフトするデコーダ50に従う変形例を示す。
ここでも、いくつかのフェードイン・スケーリング機能の代わりに、一定スケーリングファクタを使用することもできる。
ここのように、実施例102および104は、スイッチング・インスタンスBに応答する時間的平滑化を実行するための2つの実施例を示す。そして、一時的な期間が交差するか先行するように移行され得るという事実が図4に関して述べられたように、スイッチング・インスタンスBは、図4の実施例70および74に積み換えることもできる。
図5を記載した後に、デコーダ50が単にものだけまたは機能のサブセットだけを組み込むことができるという事実は、スイッチング・インスタンス90および/または94に応答する実施例98〜104に関して上記を概説したことに、注意されたい。そしてそれは、記載が同様の方法で図4に関して提供された。
全体的な一連の機能68、70、72、74、98、100、102および104に関する限りは、有効である。デコーダは、スイッチング・インスタンス54、56、92および/または94に応答する同じことの一つまたはサブセットを実施することができ得る。
図4および5は、f1の下で時間的平滑化が必要でないように、そして、高周波スペクトル帯域が、f1 <fmax について、下のスペクトル跳躍としてf1を有するように、通常、スイッチング・インスタンスが起こる両方の符号化モードが実質的に同じ―または相当する―エネルギー保存特性を有し、スイッチング・インスタンスAまたはBが起こる間の符号化モードの効果的な符号化帯域幅の上限周波数範囲の最大値を意味するfmax、および、両方の符号化モードの最上位の周波数を意味するf1を用いる。
符号化モードが短時間に上で述べられたにもかかわらず、さらに詳細に特定の可能性を例示するために、図6A〜図6Dが参照される。
図6Aはデコーダ50の符号化モードまたは復号化モードを示し、そして、「中心的な符号化モード」の1つの可能性を表す。
この符号化モードに応じて、音声信号は、スペクトル線的な変換の表現110の形で、周波数0〜最大周波数fcore までスペクトル線112を有する重ねられた変換のようなスペクトル線的な変換の表現110の形で、データストリームに符号化される。例えば、この重ねられた変換は、MDCT等であってもよい。
スペクトル線112のスペクトル値は、スケーリング係数を使用して、量子化されて、異なって送信することができる。
この目的で、スペクトル線112は、スケールファクタバンド114に分類/分割することができ、そして、データストリームは、スケールファクタバンド114と関連したスケーリングファクタ116を含むことができる。
デコーダは、図6Aのモードに従って、118で関連するスケールファクタ116に従うさまざまなスケールファクタバンド114と関連したスペクトル線112のスペクトル値を再スケールして、再スケールされたスペクトル線的な表現を、例えば、IMDCT等の逆の重ねられた変換のような逆の変換120に従属させ、任意に時間的エイリアシング補償のための重複/加算操作を含んで、復帰/複製するために、音声信号の部分は図6Aの符号化モードに結び付けられる。
図6Bは、中心的な符号化モードを表すこともできる 符号化モード可能性を例示する。
データストリームは、線形予測係数に基づく情報122および励起信号に基づく情報124によって、図6B関連する符号化された部分を含む。
ここで、情報124は、励起信号が110で示されるものとしてスペクトル線的な表現を使用して、そして、最も高い周波数fcoreに、すなわち、スペクトル線的な分解を使い果たすことを表している。
情報124は、スケールファクタを含むこともできるものではあるが、図6Bにおいて図示していない。
いずれにせよ、周波数領域の情報124によってスペクトル創造に得られて、線形予測係数122を基礎として引き出されるスペクトル形づくっている機能を有する126を形づくっている周波数領域ノイズと呼ばれているように、デコーダは励起信号を従属させる。それによって、音声信号のスペクトルの再生を引き出し、それから、例えば、それが120に関して説明されたちょうどその時、逆の変換に従属してもよい。
図6Cも、潜在的なコア符号化モードを例証する。
今回、データストリームは、音声信号のそれぞれ符号化部分、線形予測係数の情報128および励起信号、すなわち、130に関する情報のために構成される。そこにおいて、デコーダは、励起信号130を線形予測係数128に従って調整される合成フィルタ138に従属させるために、情報128および130を使用する。
合成フィルタ132は、 ナイキスト基準で、 音声信号が合成フィルタ132を用いて、すなわち、その出力側で再建される最大周波数fcoreを決定する 特定のサンプル・フィルタ―タップ率を使用する。
図6A〜図6Cに関して例示される中心的な符号化モードは、周波数0から最大のコア符号化周波数fcoreまで、相当なスペクトルで、恒常的なエネルギー保存特性所を有する音声信号を符号化する傾向がある。
しかしながら、図6Dに関して例示される符号化モードは、この点に関しては異なる
図6Dは、例えばSBR等の導かれた帯域幅拡張モードを例示する。
この場合、データストリームは、音声信号の符号化された部分をそれぞれ、コア符号化データ134のために、そのパラメトリックデータ136に加えて含んでいる。
中心的な符号化データ134は、上からfcoreまで音声信号のスペクトルを記載して、112および116、または122および124、または128および130を含むことができる。
パラメータのデータ136は、パラメータ的に音声信号のスペクトルをスペクトル的に0からfcoreまで延びている中心的な符号化帯域幅のより高い周波数側に置かれる帯域幅拡張部に記載する。
デコーダは、中心的な符号化帯域幅の範囲内で、すなわちfcoreまで音声信号のスペクトルを回復するようにコア復号処理138に対して中心的な符号化データ134を従属させ、そして、図6Dの符号化モードの有効な符号化帯域幅を表しているfcoreより上にfBWEまで音声信号のスペクトルを回復/推定するために、パラメータのデータをスケーラー140に従属させる。
破線142で示すように、デコーダは、スペクトル領域または時間的領域において、帯域幅拡張部の範囲内でfcoreおよびfBWEの間に音声信号の微細構造の評価を得て、パラメータのデータ136を使用しているこの微細構造をスペクトル的に形成するために、コア復号処理138によって得られるように、fcoreに対して音声信号のスペクトルの再建を使い果たすことができる。そしてそれは、帯域幅拡張部の範囲内で例えばスペクトル・エンベロープを言い表している。
これは、例えば、SBRにおけるケースである。これは、高周波数推定140の出力での音声信号の再構成をもたらすであろう。
ブラインドBWEモードは、単に中心的な符号化データを含み、例えば、中心的な符号化帯域幅を上回って、より高い周波数領域にfcoreより上に音声信号のエンベロープの外挿を使用して、音声信号のスペクトルを推定する。そして、より高い周波数領域(帯域幅拡張部)までの中心的な符号化部分からその領域の微細構造を決定するために、人工のノイズ生成および/またはスペクトル複製を使用している。
図4および5のf1およびfmaxに、これらの周波数は、コア符号化モード、すなわち、fcoreの上限周波数が、それらの両方またはいずれかを示すことができる、あるいは、帯域幅拡張部の上限周波数、すなわち、fBWEを表すことができる、
図7A〜図7Cは、完全性のために、図4および5に関して上記で概説された時間的平滑化および時間的混合オプションを実現する3つの異なる方法を例示する。
図7Aは、例えば、ブラインドBWE150を用いるところで、スイッチング・インスタンスに応答するデコーダ50が、前もってそれぞれの一時的な期間の間、高周波スペクトル帯域66と一致する帯域幅拡張部の範囲内で、音声信号のスペクトルの評価をそれぞれの符号化モードの符号化帯域幅152に効果的に加えるように、使用するケースを例示する。
これは、図4および5の68〜74および98〜104に対する実施例68の全ての事例であった。
結果として生じるエネルギー保存特性でブラインドBEWを示すために、ドットの充填が用いられている。
これらの実施例に示すように、例えば、デコーダは、付加的に、スケーラー154のブラインド帯域幅拡張評価の結果をスケーリング(拡大・縮小)すること/形づくることができ、そして、例えば、フェードインまたはフェードアウト機能を使用する。
図7Bは、それぞれのスイッチング・インスタンスの場合において、デコーダの50の機能を示し、修正された音声信号のスペクトル160に結果としてなるために、高周波スペクトル帯域66の範囲内で、そして、前もってそれぞれの一時的な時間の間、それぞれのスイッチング・インスタンスが起こる符号化モードの1つによって得られるように、スケーラー156で音声信号のスペクトル158をスケーリングする。
スケーラー156のスケーリングは、スペクトル領域において実行することができるけれども、他の可能性が同様に存在する。
図7Bの別の可能性は、例えば、図4および5の実施例70、74、100、102および104において起こる。
図7Bの特定の変形は、図7Cに示される。
図7Cは、図4および5の70、74、102および104で例証される時間的平滑酢のいずれかを実行する方法を示す。
ここで、高周波スペクトル帯域66のスケーリングのために使用するスケールファクタは、スイッチング・インスタンスの前後においてそれぞれの符号化モードを使用して得られるように、音声信号のスペクトルから決定されるエネルギーを基礎として決定される。
162は、例えば、先行するかまたは後続するスイッチング・インスタンスの時間的部分において、音声信号の音声信号スペクトルを示す。ここで、この符号化モードの有効な符号化帯域幅は、0からfmax に至る。
164で、その時間的部分の音声信号の範囲は示される。そしてそれは、スイッチング・インスタンスの他の時間的側面に位置し、符号化モードを使用して符号化される。そして、その有効な符号化帯域幅は、同様に、0からfmax に至る。
しかしながら、符号化モードの内の1つは、高周波スペクトル帯域66の範囲内で、減らされたエネルギー保存特性を有する。
エネルギー決定166および168によって、高周波スペクトル帯域66の範囲内の音声信号のスペクトルのエネルギーは、スペクトル162から一度、スペクトル164から一度、決定される。
スペクトル164から決定されるエネルギーは、例えば、E1として示される、そして、スペクトル162から決定されるエネルギーは、例えば、E2を使用して示される。
それから、スケールファクタの決定は、スケーラー156を介して高周波スペクトル帯域66の範囲内で、図4および5において記載の一時的な時間の間、スケーリング・スペクトル162および/またはスペクトル164のためのスケールファクタを決定する。そこにおいて、スペクトル164のために使用されるスケールファクタが、例えば、1とE2/E1の間に、両方とも包括的に位置し、また、スペクトル162上で実行されるスケーリングのためのスケールファクタは、1とE1/E2の間、両方とも包括的に位置し、またはその両方とも独占的に、両方の境界との間で、常に設定されている。
スケールファクタの決定170によるスケールファクタの恒常的な設定は、例えば、実施例102、104および70において使われたが、時間的に変更スケールファクタを有する連続バリエーションは、図4の74で提示され/典型的に示されている。
すなわち、図7A〜7Cは、デコーダ50の機能を示す。そしてそれは、図4および5に関して上で概説されるのと同様に、例えば後続するスイッチング・インスタンスか、交差するスイッチング・インスタンスか、または、先行するスイッチング・インスタンスなどのスイッチング・インスタンスの一時的な時間部分の範囲内で、スイッチング・インスタンスに応答するデコーダ50によって実行される。
図7Cに関して、図7Cの説明は、それぞれのスイッチング・インスタンスの前に時間的部分に帰属するように、および/または、高周波スペクトル帯域のより高いエネルギー保存特性を有する符号化モードを使用して時間的部分が符号化されるように、前もってスペクトル162の関連を怠ったか否かに、注意されたい。
しかしながら、スケールファクタの決定170は、実際には、バンド66の範囲内でより高いエネルギー保存特性を有する符号化モードを使用して符号化されるスペクトル162および164の内のどちらかを考慮する。
スケールファクタの決定170は、スイッチングの方向に応じて別様に、すなわち、高周波スペクトル帯域に関する限りでは、より高いエネルギー保存特性を備えた符号化モードから、より低いエネルギー保存特性を備えた符号化モードに符号化モードに切替えることによって、逆もまた同様に、移行を扱うことができ、および/または、以下でより詳細に概説されるように、分析スペクトル帯域の音声信号のエネルギーの時間的経過の分析に応じて、移行を扱うことができる。
この措置によって、スケールファクタの決定170は、不快な「スミア」を回避するために、一時的に高周波スペクトル帯域の範囲内で音声信号のエネルギーの「ローパスフィルタ」の度合いを設定することができる。
例えば、スケールファクタの決定170は、低域フィルタリングが同じことを改善しているよりはむしろ、デコーダの出力で結果としてなっている音声信号の品質を劣化させるように、音声信号の内容の音の位相がアタックまたはその逆に隣接するところのスイッチング・インスタンスが時間的インスタンスで起こるということを、分析スペクトル帯域の範囲内で、音声信号のエネルギー・コースの評価が示唆する領域において低域フィルタリングの度合いを減らすことができる。
同様に、高周波スペクトル帯域において、音声信号の内容のアタック終了後のエネルギー構成要素のそのような「カットオフ」は、この種のアタックの開始の高周波スペクトル帯域において「カットオフ」を超える音声信号の品質を劣化させる傾向がある。そして、したがって、スケールファクタの決定170は、高周波スペクトル帯域のより低いエネルギー保存特性を備えた符号化モードから、そのスペクトル帯域のより高いエネルギー保存特性を備えた符号化モードへの移行で、低域フィルタリングの度合いを減らすことができる。
図7Cの場合において、高周波スペクトル帯域での時間的感覚のエネルギー保存特性の平滑化は、音声信号のエネルギー領域において実質的に実行される。すなわち、それが、高周波スペクトル帯域の範囲内において、時間的に音声信号のエネルギーを平滑化することによって、間接的に実行される点に注意することには、価値がある。
音声信号の内容がスイッチング・インスタンスの周辺に音色の種類やアタックなどが同じタイプのものである限り、したがって、効果的に実行される平滑化は、高周波スペクトル帯域内のエネルギー保存特性に類似した平滑化をもたらす。
しかしながら、図3に関して例えば上で概説されるけれども、スイッチング・インスタンスがエンコーダに外部的に、すなわち、外側から強制されて、その結果、1つの音声信号コンテントタイプからその他への移行であっても並行して発生することができるように、この仮定は維持されることができない。
したがって、図8および9に関して後述する実施例は、スイッチング・インスタンスに応答するデコーダの時間的平滑化を抑制するために、この種の状況を確認しようとする。または、そのような場合、時間的平滑化の度合いを減らすことがこの種の状況において実行される。
さらに以下に記載されている実施形態は、切替わっている符号化モードに時間的平滑化機能に焦点を当てているにもかかわらず、さらに以下で実行される分析法は、上記の時間的混合の度合いを制御するために用いられることもでき、例えば、時間的混合は、少なくとも、図4および5に関して記載されている典型的な機能のいくつかに従って、時間的混合を実行するために、ブラインドBWEが使われなければならないという点で、不利である。そして、そこから結果としてなっている優良な効果がひどく推定された帯域幅拡張部が原因で全体の音声品質の潜在的低下を上回るこの種のフラクションまで、または、時間的混合の量を減少し、スイッチング・インスタンスに応答するブラインドBWEの推測のパフォーマンスを制限するために、以下に概説する分析は抑制され得るものである。
図8は、データストリームにコード化されて、そして、このように、両方とも興味深い高周波スペクトル帯域で、より高いエネルギー保存特性を備えた符号化モードから、より低いエネルギー保存特性を備えた符号化モードへのスイッチング・インスタンスにおいて、データストリームの2つの連続的な時間部分、例えばフレームのために、それぞれの符号化モードのエネルギー保存特性と同様に、デコーダにおいて利用可能である音声信号のスペクトルを1つのグラフに示している。
図8のスイッチング・インスタンスは、このように、「t−1」がスイッチング・インスタンスに先行する時間部分を意味し、そして、「t」がスイッチング・インスタンスに後続する時間的部分を指摘する56および図4において例示されるタイプである。
図8において明らかなように、高周波スペクトル帯域66の範囲内の音声信号のエネルギーは、先行する時間的部分t−1で比較されるよりも、後続する時間的部分tにおいて非常に低い。
しかしながら、問題は、時間的部分t−1の符号化モードから時間的部分tの符号化モードに移行するときに、このエネルギー減少が高周波スペクトル帯域66のエネルギー保存特性の減少に完全に起因していなければならないかどうかということである。
図9に関して更に下で概説される実施例において、問題は、高周波スペクトル帯域66の低い周波数側に配置される分析スペクトル帯域190の範囲内で音声信号のエネルギーを評価するために、 例えば図8に示すように直ちに高周波スペクトル帯域66に当接している方法で答えられる。
分析スペクトル帯域190の範囲内の音声信号のエネルギーの変動が高いことを評価が示す場合、その場合、デコーダによるスイッチング・インスタンスに応答するいかなる時間的な平滑化および/または混合も抑制され、または、段階的に減少されなければならないように、高周波スペクトル帯域66のいかなるエネルギー変動も切り替わっている符号化モードが切り替ることによって生じるアーチファクトよりむしろ、元の音声信号の固有の所有物に起因していそうである。
図9は、デコーダが図8の実施例の場合には50の機能であることを、図式的に図7Cと類似の方法で明らかにする。
図9は、図8に類似してEt-1を使用して示され、 現在のスイッチング・インスタンスに先行する音声信号の時間的部分60から導き出せるスペクトルを示す。そして、図8に類似してEtを使用して示され、現在のスイッチング・インスタンスに続いて起こる時間的部分62に関して、データストリームから導き出せるスペクトルを示す。
参照符号192を用いて、図9は、56のようなスイッチング・インスタンスまたは上述したスイッチング・インスタンスの任意の他のもの応答して、例えば図7の通り、上記の機能のいずれかに従って実施することができる、デコーダの時間的な平滑化/混合ツールを示している。
さらに、参照符号194を用いて示されている評価装置は、デコーダに提供される。
評価装置は、分析スペクトル帯域190の範囲内で、音声信号を評価するかまたは調査する。
例えば、評価装置194の使用は、この目的のために、それぞれ、部分60および部分62に由来する音声信号のエネルギーを用いる。
例えば、評価装置194は、分析スペクトル帯域190の音声信号のエネルギーのある程度の変動を決めて、そこから、スイッチング・インスタンスへのツール190の反応が抑制されなければならない 決定を引き出す、または、ツール190の時間的な平滑化/混合の程度は減少した。
したがって、評価装置194は、ツール190に応じて、を制御する。
評価装置194のための可能な実施は、以下に、より詳細に説明される。
以下において、具体的な実施形態は、より詳細な方法に記載されている。
先に述べたように、より詳細に以下にさらに概説される実施形態は、デコーダの範囲内で実行される2つの処理工程を用いて異なるBWEsとフル帯域コアの間で継ぎ目のない移行を得ようとする。
処理は、 上で概説されるものとして、 周波数領域、例えばFFT、MDCTまたはQMF領域のデコーダ側で、後処理ステージの形で適用される。
後文に、いくらかのステップがすでに、エンコーダ、例えばフル帯域コア等のより広い有効な帯域幅に融合しているフェードインのアプリケーションの範囲内でさらに実行されることが、記載されている。
特に、図10に関して、より詳細な実施例では、信号適応平滑化を実行する方法に関して記載されている。
次に記載されている実施例は、平滑化が利点に沿ってもたらすインスタンスに時間的平滑化を制限するための図9に関して、上で概説されるように、一時的な期間80および108の間にそれぞれのスケールファクタをスケーリングに設定して、信号適応を使用するために、その範囲において、図7Cに示される変形例を使用している図4および図5の70、102に従って上記実施例を実行する可能性である。
信号適応可能な平滑化の目的は、意図しないエネルギー・ジャンプを妨げることによって継ぎ目のない移行を得ることである。
これに対して、オリジナル信号に存在するエネルギーの変動は、保存される必要がある。
後の状況は、図8に関連して上記で述べられた。
それゆえに、現在記載されているデコーダ側の信号適応平滑化機能に従って、以下のステップは、この実施例を説明する際に使用される値/変数の説明および依存のための図10を参照して実行される。
Figure 2016505170
Figure 2016505170
Figure 2016505170
Figure 2016505170
Figure 2016505170
Figure 2016505170
216のアプリケーションは、スケーファクタ決定170によって同様に実行される。
Figure 2016505170
Figure 2016505170
完全性のために、エネルギーEactual,prevおよびEactual,currが同様にスペクトロ時間的タイル206〜210に関して上述したように決定されることができることに、注意されたい。
時間的にスイッチング・インスタンス204に先行していて、高周波スペクトル帯域66にわたって延びているスペクトロ時間的タイル224の範囲内のスペクトル値の二乗の上の和が決定されたEactual,prevに使われることができる、そして、スペクトロ時間的タイル220の範囲内においてスペクトル値の二乗和を超えることが決定されたEactual,currに用いることができる。
なお、図10の実施例において、スペクトロ時間的タイル220の時間的幅は、代表的に、スペクトロ時間的タイル206〜210の時間的幅の2倍である。しかし、この状況は決定的でなくて、異なってセットすることができる。
次に、時間的混合を実行するための具体的な、より詳細な実施例が記載されている。
上記のように、この帯域幅の混合は、一方では迷惑な帯域幅の変動を抑制する目的があり、そして、それぞれのスイッチング・インスタンスに隣接するそれぞれの符号化モードは、その意図された有効な符号化された帯域幅で動作することを可能にするためである。
例えば、滑らかな適合は、各BWEがその意図された最適な帯域幅で動作することができることを可能にするために、適用することができる。
次のステップは、デコーダによって実行される。
スイッチング・インスタンスについて、図12に示すように、デコーダは、タイプ54およびタイプ92のスイッチング・インスタンスを区別するために、スイッチング・インスタンス230のタイプを決定する。
図4および5にて説明したように、フェードアウト混合はタイプ54の場合実行される、そして、フェードイン混合は、スイッチングタイプ92の場合実行される。
フェードアウト混合は、最初に加えて、図13Aおよび図13Bを参照して記載されている。
つまり、切換タイプ54が230において決定される場合、混合領域がスペクトル的に決定されると同様に、最大混合時間tblend,max は設定される。すなわち、より高い帯域幅符号化モードの有効な符号化帯域幅は、タイプ54のスイッチング・インスタンスが起こるより低い帯域幅符号化モードの有効な符号化帯域幅を上回る高周波スペクトル帯域66で設定される。
この設定232は、より高い帯域幅符号化モードの有効な符号化帯域幅の最大周波数を意味しているfBW1と、混合領域の違いを定めるより低い帯域幅符号化モードの有効な符号化帯域幅の最大周波数を示しているfBW2とによって、所定の最大混合時間tblend,max の算出と同様に、帯域幅差fBW1−fBW2の算出を含むことができる。
後者の時間値は、デフォルト値に設定してもよいし、現在の混合手順の間に発生するスイッチング・インスタンスに関連して後述するように異なって決定されてもよい。
それから、ステップ234において、スイッチング・インスタンス204の後の符号化モードの強化が、スイッチング・インスタンス204の後、混合領域または高周波スペクトル帯域66に符号化モードの帯域幅の補助拡張234に結果としてなるために、実行される。この混合地域66をtblend,maxの間、ギャップレスに(間隙無く)充填するために、すなわち、図13Aにおいてスペクトロ時間的タイル236を満たすために、実行される。
この動作234が制御なしでデータ流のサイド情報を経て実行されることができるように、ブラインドBWEを使用して補助拡張234は実行することができる。
Figure 2016505170
このように決定される混合要因の時間的経過は、図13Bにおいて例示される。
手法は、線形混合のための一実施例を例示しているが、他の混合の特性は、例えば、2次、対数関数的などと同様に可能である。このとき、通常、混合/平滑化の特性は、同一/線形である必要がないか、または、モノトニックである必要さえない点に留意すべきである。
本願明細書において記載のすべての増加/減少が、必ずしもモノトニックであるというわけではない。
Figure 2016505170
スイッチングタイプ92の場合には、最大混合時間および混合領域の設定が、232と同様に、242で実行される。
スイッチングタイプ92のための最大混合時間tblend,max は、スイッチングタイプ54について言えば、232で設定されるtblend,maxと異なってもよい。
リファレンスは、混合の際にスイッチングのその後の説明を参照されたい。
Figure 2016505170
Figure 2016505170
このように、この修正された最新情報は、新規な、現在発生しているスイッチング・インスタンスによって、ここで、代表的にt1で中断される、割込されたフェードインまたはフェードアウト・プロセスの原因であるために、ステップ232および242で実行される。
換言すれば、デコーダは、フェードアウト(またはフェードイン)スケーリング機能240を適用することによって、最初のスイッチング・インスタンスt0で、時間的な平滑化または混合を実行する。第1のスイッチング・インスタンスt1は、フェードアウト(またはフェードイン)スケーリング機能240が発生する間、再び、高周波スペクトル帯域66に時間的な平滑化または混合を実行するように、第2のスイッチング・インスタンスt2でフェードイン(またはフェードアウト)スケーリング機能242を適用するだろう。第2のスイッチング・インスタンスt2からフェードイン(またはフェードアウト)スケーリング機能242を適用することで、出発点を設定すると、第2のスイッチング・インスタンスt2で適用されているフェードイン(またはフェードアウト)スケーリング機能242は、出発点で、最も近い関数値を有し、または、第2のスイッチング・インスタンスの発生の時間t2で、第1のスイッチのインスタンスに適用されるように、フェードイン(またはフェードアウト)スケーリング機能240によって想定される関数値に等しい。
上記の実施例は、音声および話し言葉の符号化、そして、特に異なる帯域幅拡張方法(BWE)、または、非エネルギー保存BWE(s)および、切替えられたアプリケーションのBWEを持たないフル帯域コア・コーダを使用している符号化技術に関する。
知覚的な品質を強化することは、異なる有効な出力帯域幅との間に移行を平滑化することによって、提唱された。
具体的には、信号適応平滑化技術は、シームレスな移行を得るために、そして、妨害帯域幅の変動が回避される一方で、異なる帯域間でおそらく、必ずしもではないが、均一な混合技術は、各BWEのための最適な出力帯域幅を達成するために、用いられる。
予想外のエネルギーは、例えば歯擦音のオフセットに起因するオリジナル信号に存在する減少が保存されることができるのに対して、異なるBWEsとの間またはフル帯域コアに切替わることが前記実施例を経由して回避されるとき、ジャンプする。
さらにまた、異なる帯域幅の円滑な適応は、それがより長い期間のためにアクティブにする必要がある場合、その意図された、最適帯域幅で動作するように、例示的に実行される。
ブラインドBWEを必要としているスイッチング・インスタンスのデコーダの機能を除いて、同じ機能は、エンコーダによって引き継がれることもできる。
それから、図3の30のようなエンコーダは、以下の通り、元の音声信号のスペクトルの上に上記の機能を適用する。
例えば、図3のエンコーダ30であれば、タイプ54のスイッチング・インスタンスは、エンコーダが、例えば、直接スイッチング・インスタンスに先行する一時的な期間の間、予め、音声信号を変更バージョンにコード化することを予測し、または、事前に少しだけ経験することができる。音声信号スペクトルの高周波スペクトル帯域は、フェードアウト機能を用いて一時的に形成されて、例えば一時的な期間の開始時に1となり、一時的な期間の終了時に0となって、最後はスイッチング・インスタンスと一致する。
変更バージョンをコード化することは、先ず、例えば、シンタックス・レベルにまで先行する元のバージョンのスイッチング・インスタンスの時間的部分で音声信号をコード化することを含み、それから、 高周波スペクトル帯域66に関してフェードアウト機能を有する一時的な期間の間、スペクトル線値および/またはスケールファクタをスケーリングする。
また、エンコーダ30は、もう一つの方法として、高周波スペクトル帯域66のスペクトロ時間的タイル上へフェードアウト・スケーリング機能を適用するために、第1に、音声信号およびスペクトル領域を修正することができる。それから、第2に、一時的な期間を通じて延びる修正された音声信号をそれぞれコード化する。
タイプ56のスイッチング・インスタンスに遭遇すると、即座に、エンコーダ30は、以下の通りに行うことができる。
エンコーダ30は、前もって一時的な間期、直接スイッチング・インスタンスがから始動するために、増幅する、すなわち、フェードアウト・スケーリング機能の有無にかかわらず、高周波スペクトル帯域66の範囲内でスケール・アップすることができる。そして、それからこのようにして修正された音声信号をコード化することができる。
あるいは、エンコーダ30は、第1に、高周波スペクトル帯域の範囲内で一時的な時間の間、音声信号を増幅するために、後者をそれから訂正することによって、直接、スイッチング・インスタンスの後に、若干のシンタックス要素レベルまで有効な符号化モードを使用している元の音声信号をコード化することができる。
例えば、スイッチング・インスタンが起こる 符号化モードは、高周波スペクトル帯域66に導かれた帯域幅拡張を含む場合、エンコーダ30は、この高周波スペクトル帯域に関して、一時的な期間、スペクトル・エンベロープについての情報を適切に拡大することができる。
しかしながら、エンコーダ30がタイプ92のスイッチング・インスタンスに遭遇する場合、例えば、このようにして修正された音声信号をその次にコード化することで、それぞれのスペクトロ時間的タイルによりスケールファクタおよび/またはスペクトル線値を適切にスケーリングすることによって、または、音声信号を修正するエンコーダ30が、最初に、スイッチング・インスタンスで一時的な時間の間、高周波スペクトル帯域66の範囲内において直ちに起動することによって、エンコーダ30は、若干のシンタックス要素レベルまで変更されていないスイッチング・インスタンスに続いていて、それから、修正され、例えば、その一時的な期間、フェードイン機能に音声信号の高周波スペクトル帯域を従属させるために、同上の音声信号の時間的部分をコード化することもできる。
タイプ94の切換例に遭遇するときに、エンコーダ30は、例えば、以下の通りに行うことができる。エンコーダは、一時的な期間、直ちにスイッチング・インスタンスで始動するために、フェードイン機能を適用するか否かによって、高周波スペクトル帯域66の範囲内において、音声信号のスペクトラムのスケールダウンが行なわれる。
あるいは、エンコーダは、時間部で、一時的な期間の間の高周波スペクトル帯域の範囲内における音声信号スペクトルのそれぞれのスケールダウンを引き起こすために、若干のシンタックス・レベルまでのいかなる変更態様なしでも、それから適切なシンタックス要素を変更するスイッチング・インスタンスが起こるところの符号化モードを使用している切換例の後に、音声信号をコード化することができる。
エンコーダは、適切に、それぞれのスケールファクタおよび/またはスペクトル線値をスケールダウンすることができる。
若干の態様が装置の前後関係に記載されていたにもかかわらず、これらの態様も対応する方法の説明を表すことは明らかである。ここで、1ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。
類似して、態様は、対応する装置の対応するブロックまたは部材または特徴の説明を表すように、方法ステップの前後関係にも記載される。
方法のステップの一部または全部は、例えばマイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のように、ハードウェア装置(または使用)によって実行することができる。
いくつかの実施形態では、最も重要な方法ステップのいくつかの1つ以上は、この種の装置によって実行することができる。
特定の実施要件に応じて、本発明の実施例は、ハードウェアにおいて、または、ソフトウェアで実施することができる。
実施は、その上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体[例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリ]を使用して実行することができる。そして、それは、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協同する(または協同することでできる)。
従って、デジタル記憶媒体は、コンピュータ読み取り可能とすることができる。
本発明による若干の実施例は、プログラム可能なコンピュータシステムと協同することによって、電子的に読み込み可能な制御信号を有するデータキャリアを含む。そうすると、本願明細書において記載されている方法のうちの1つは実行される。
通常、本発明の実施例は、プログラムコードを有するコンピュータ・プログラム製品として、実施することができる。そして、プログラムコードは、コンピュータ・プログラム製品がコンピュータで動くときに、方法のうちの1つを実行するために、実施されている。
プログラムコードは、機械読み取り可読キャリアに例えば格納することができる。
他の実施例は、本願明細書において記載されていて、機械読み取り可読キャリアに格納される方法のうちの1つを実行するためのコンピュータプログラムを含む。
換言すれば、本発明の方法の実施形態は、従って、コンピュータプログラムがコンピュータ上で実行されるとき、本明細書中に記載のいずれか1つの方法を実行するためのプログラムコードを有するコンピュータプログラムある。
本発明の方法のさらなる実施形態は、したがって、データキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)を含み、本明細書中に記載のいずれか1つの方法を実行するためのコンピュータプログラムがその上に記録される。
データキャリア、デジタル記憶媒体または記録媒体は、典型的に有形および/または、非移行に属する。
本発明の方法のさらなる実施形態は、したがって、データストリーム、または本明細書に記載のいずれか1つの方法を実行するためのコンピュータプログラムを表す信号のシーケンスである。
データストリームまたは信号のシーケンスは、例えばインターネットを介して、例えば、データ通信接続を介して転送されるように構成されてもよい。
さらなる実施形態は、例えば、コンピュータ、またはプログラム可能な論理デバイスに設定されるか、または本明細書に記載される方法のいずれ1つかを実行するように適合する処理手段を含む。
さらなる実施形態では、コンピュータは、本明細書に記載のいずれか1つの方法を実行するためのコンピュータプログラムがインストールされた構成されている。
本発明のさらなる実施形態は、装置またはレシーバーに、本明細書中に記載のいずれか1つの方法を実行するための(電子的または光学的に、など)コンピュータプログラムを転送するように構成されたシステムを含む。
レシーバーは、例えば、コンピュータ、モバイル機器、メモリデバイス等であってもよい。
装置またはシステムは、例えば、レシーバーにコンピュータプログラムを転送するためのファイルサーバを含むことができる。
いくつかの実施形態において、プログラム可能な論理装置(例えばフィールド・プログラム可能なゲート・アレイ)は、本願明細書において記載されている方法の機能のいくらかまたは全てを実行するために、用いることができる。
いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイが、本明細書に記載のいずれかの方法を実行するために、マイクロプロセッサと協働することができる。
一般に、方法は、好ましくは、任意のハードウェア装置によって実行される。
本願明細書において記載されている装置は、ハードウェア装置を使用するか、またはコンピュータを使用するか、またはハードウェア装置およびコンピュータの組合せを使用して実施することができる。
本願明細書において記載されている方法は、ハードウェア装置を使用するか、またはコンピュータを使用するか、またはハードウェア装置およびコンピュータの組合せを使用して、実行することができる。
上記した実施例は、単に本発明の原理のために図示するだけである。
本明細書に記載の改変および配置の変形例および詳細は当業者には明らかであろうと理解される。
したがって、唯一の切迫した特許請求の範囲によってではなく、本明細書の実施形態の記述および説明のために提示された特定の詳細によって限定されることが意図である。
文献:
[1] Recommendation ITU-T G.718 - Amendment 2: "Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s - Amendment 2: New Annex B on superwideband scalable extension for ITU-T G.718 and corrections to main body fixed-point C-code and description text"
[2] Recommendation ITU-T G.729.1 - Amendment 6: “G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729 - Amendment 6: New Annex E on superwideband scalable extension”
[3] B. Geiser, P. Jax, P. Vary, H. Taddei, S. Schandl, M. Gartner, C. Guillaume, S. Ragot: “Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1”, IEEE Transactions on Audio, Speech, and Language Processing, Vol.15, No.8, 2007, pp.2496-2509
[4] M. Tammi, L. Laaksonen, A. Raemoe, H. Toukomaa: “Scalable Superwideband Extension for Wideband Coding”, IEEE ICASSP 2009, pp.161-164
[5] B. Geiser, P. Jax, P. Vary, H. Taddei, M. Gartner, S. Schandl: “A Qualified ITU-T G.729 EV Codec Candidate for Hierarchical Speech and Audio Coding”, 2006 IEEE 8th Workshop on Multimedia Signal Processing, pp.114-118

Claims (19)

  1. 情報信号を復号化するように、少なくとも2つのモードの間で切替え可能にサポートするデコーダであって、前記デコーダは、スイッチング・インスタンスに応答して、前記スイッチング・インスタンスに先行する情報信号の第1の時間部分(60)と、高周波スペクトル帯域(66)に制限されるように前記スイッチング・インスタンスに続く第2の時間部分(62)との間の移行時に、時間的な平滑化および/または混合を実行するように構成されている、デコーダ。
  2. 前記デコーダは、
    フル帯域幅の音声符号化モードからBWEまたはサブ帯域幅の音声符号化モードへの切替え、また、
    サブ帯域幅の音声符号化モードからフル帯域幅の音声への切替え、また、
    導かれたBWE符号化モードからブラインドBWE符号化モードへの切替え、
    ブラインドBWE符号化モードから導かれたBWEへの切替え、また、
    別のエネルギー保存特性を備えたフル帯域幅の音声符号化モード間での切替え、
    の内の1つ以上の切替えに応答する、請求項1に記載のデコーダ。
  3. 前記高周波スペクトル帯域(66)は、前記スイッチング・インスタンスの切替えが起こる間で両方の符号化モードの有効な符号化帯域幅と重複する、請求項1また請求項2に記載のデコーダ。
  4. 前記高周波スペクトル帯域(66)は、前記スイッチング・インスタンスの切替えが起こる間で2つの符号化モードの内の1つのスペクトルBWE拡張部分と重複する、請求項3に記載のデコーダ。
  5. 前記高周波スペクトル帯域(66)は、スペクトルBWE延長部と重複またはスペクトル部分または2つの符号化モードの他の線形予測符号化スペクトル部分を変換する、請求項4に記載のデコーダ。
  6. 前記デコーダは、さらに高周波スペクトル帯域(66)の下にスペクトル的に配置した分析スペクトル帯域の情報信号の分析(194)に応じて時間的な平滑化および/または混合を実行するように構成される、請求項1または請求項2に記載のデコーダ。
  7. 前記デコーダは、前記分析スペクトル帯域における情報信号のエネルギー変動(190)に対する尺度を決定し、抑制し、または前記尺度に応じて、時間的な平滑化および/または混合の程度を設定するように構成されている、請求項6に記載のデコーダ。
  8. 前記デコーダは、前記移行(204)の逆の時間的側面に一時的な時間の間位置している前記分析スペクトル帯域(190)における情報信号のエネルギーの間での第1の差分絶対値の最大値、および、連続した時間的部分の間位置している前記分析スペクトル帯域(190)における情報信号のエネルギーの間での第2の差分絶対値、として測定値を計算するように構成され、両方の前記移行(204)は続いて起こる、請求項7に記載のデコーダ。
  9. 前記分析スペクトル帯域(190)は、高周波スペクトル帯域(66)のより低いスペクトル側で高周波スペクトル帯域(66)に当接する、請求項6〜請求項8のいずれかに記載のデコーダ。
  10. Figure 2016505170
  11. 前記デコーダは、前記第1および第2の時間的部分の一方にブラインドBWEを適用することによって、スイッチングおよび/または混合を実行するように構成され、前記第1および第2の時間的部分の他方が復号化される前記第2の符号化モードの有効な符号化帯域幅より小さい有効な符号化帯域幅を有する第1の符号化モードを使用して符号化され、0までの前記移行からより遠くに向けての前記移行より減少するフェードイン/アウト・スケーリング機能に従ったスペクトル的拡張として、前記高周波スペクトル帯域(66)に前記第1および第2の時間的部分の一方の有効な符号化帯域幅をスペクトル的に延長して、前記第1および第2の時間的部分の一方の高周波スペクトル帯域の情報信号エネルギーを時間的に形づくるために、第2の符号化モードの有効な符号化帯域幅より小さい有効な符号化帯域幅を有する第1の符号化モードを使用している、請求項1〜請求項10のいずれかに記載のデコーダ。
  12. 前記スイッチングは、第2の符号化モードの有効な符号化帯域幅より大きい有効な符号化帯域幅を有する第1の符号化モードによって、前記第1の符号化モードから前記第2の符号化モードへ切替え、前記デコーダは、0までの前記移行からより遠くに向けての前記移行より減少するフェードイン/アウト・スケーリング機能に従ったスペクトル的拡張として、前記高周波スペクトル帯域(66)に前記第2の時間的部分の有効な符号化帯域幅をスペクトル的に延長して、時間的に第2の時間的部分の高周波スペクトル帯域の情報信号のエネルギーを形づくるように構成されている、請求項1〜請求項11のいずれかに記載のデコーダ。
  13. 前記スイッチングは、第1の符号化モードから前記第2の符号化モードに切替え、前記第1の符号化モードの有効な符号化帯域幅は、前記第2の符号化モードの有効な符号化帯域幅より小さく、前記デコーダは、1までの前記移行からより遠くに向けての前記移行より増加するフェードイン・スケーリング機能に従って、前記第2の時間部分の高周波スペクトル帯域(66)に情報信号のエネルギーを形成するように構成されている、請求項1〜請求項12のいずれかに記載のデコーダ。
  14. 前記デコーダは、フェードインまたはフェードアウトするスケーリング機能を適用することによって、前記スイッチング・インスタンスで、時間的な平滑化および/または混合を実行するように構成され、後続のスイッチング・インスタンスでフェードインまたはフェードアウトのスケーリング関数が、前記後続のスイッチング・インスタンスの発生時で、前記スイッチング・インスタンスに適用される場合に、出発点において、前記フェードインまたはフェードアウトするスケーリング機能によって想定された関数値に最も近い関数値であるように、前記後続のスイッチング・インスタンスがフェードインまたはフェードアウトのスケーリング機能中に発生した場合、時間的な平滑化および/または混合を前記後続のスイッチング・インスタンスに実行するために、再度、フェードインまたはフェードアウトするスケーリング機能を高周波スペクトル帯域(66)に適用される、請求項1〜請求項13のいずれかに記載のデコーダ。
  15. 高周波スペクトル帯域内の信号保全性を変化させる少なくとも2つのモードの間で切替え可能である情報信号を符号化するようにサポートするエンコーダであり、前記エンコーダは、前記スイッチング・インスタンスに応答し、前記情報信号を、前記スイッチング・インスタンスに先行する前記第1の時間部分(60)と、高周波スペクトル帯域(66)に制限される後続の前記情報信号の第2の時間部分(62)との間の移行において、時間的に平滑化および/または混合して符号化するように構成される、エンコーダ。
  16. 前記エンコーダは、前記高周波スペクトル帯域内の第1の信号保全性を有する第1の符号化モードから高周波スペクトル帯域で第2の信号保全性を有する第2の符号化モードへのスイッチング・インスタンスに応答して、前記スイッチング・インスタンスに続く時間部分の高周波スペクトル帯域における情報信号のエネルギーは、前記移行からより遠い前記移行に向けて1まで単調に増加するフェードイン・スケーリング機能にしたがって時間的に形成されているという点で、前記情報信号と比較して修正される前記情報信号の修正バージョンを符号化するように構成されている、請求項14に記載のエンコーダ。
  17. 少なくとも2つのモードの間で切替え可能である情報信号を複合するためにサポートする方法であって、前記方法は、スイッチング・インスタンスに応答し、前記スイッチング・インスタンスに先行する前記第1の時間部分(60)と、高周波スペクトル帯域(66)に制限されるやり方で、後続の前記情報信号の第2の時間部分(62)との間の移行において、時間的に平滑化および/または混合することを含む、方法。
  18. 情報信号を符号化するために、高周波スペクトル帯域内の信号保全性を変化させる少なくとも2つのモードの間で切替え可能となるエンコーダをサポートする方法であって、前記方法は、スイッチング・インスタンスに応答し、前記情報信号を、前記スイッチング・インスタンスに先行する第1の時間部分(60)と、高周波スペクトル帯域(66)に制限される後続の前記情報信号の第2の時間部分(62)との間の移行において、時間的に平滑化および/または混合して符号化することを含む、方法。
  19. 請求項16または請求項17に記載の方法で実行されるときにコンピュータで実行するためのプログラムコードを有するコンピュータプログラム。
JP2015555670A 2013-01-29 2014-01-28 モード切替え補償をコード化するためのコンセプト Active JP6297596B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361758086P 2013-01-29 2013-01-29
US61/758,086 2013-01-29
PCT/EP2014/051565 WO2014118139A1 (en) 2013-01-29 2014-01-28 Concept for coding mode switching compensation

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017208082A Division JP6549673B2 (ja) 2013-01-29 2017-10-27 エンコーダ

Publications (2)

Publication Number Publication Date
JP2016505170A true JP2016505170A (ja) 2016-02-18
JP6297596B2 JP6297596B2 (ja) 2018-03-20

Family

ID=50030276

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2015555670A Active JP6297596B2 (ja) 2013-01-29 2014-01-28 モード切替え補償をコード化するためのコンセプト
JP2017208082A Active JP6549673B2 (ja) 2013-01-29 2017-10-27 エンコーダ

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2017208082A Active JP6549673B2 (ja) 2013-01-29 2017-10-27 エンコーダ

Country Status (19)

Country Link
US (4) US9934787B2 (ja)
EP (1) EP2951821B1 (ja)
JP (2) JP6297596B2 (ja)
KR (1) KR101766802B1 (ja)
CN (1) CN105229735B (ja)
AR (1) AR094675A1 (ja)
AU (1) AU2014211586B2 (ja)
CA (3) CA2979260C (ja)
ES (1) ES2626809T3 (ja)
HK (1) HK1218588A1 (ja)
MX (1) MX351361B (ja)
MY (1) MY177336A (ja)
PL (1) PL2951821T3 (ja)
PT (1) PT2951821T (ja)
RU (1) RU2625561C2 (ja)
SG (1) SG11201505898XA (ja)
TW (1) TWI541798B (ja)
WO (1) WO2014118139A1 (ja)
ZA (1) ZA201506321B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
US20190051286A1 (en) * 2017-08-14 2019-02-14 Microsoft Technology Licensing, Llc Normalization of high band signals in network telephony communications
WO2019081070A1 (en) * 2017-10-27 2019-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007532963A (ja) * 2004-04-15 2007-11-15 ノキア コーポレイション 音声信号の符号化
WO2011048820A1 (ja) * 2009-10-23 2011-04-28 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
JP2014509408A (ja) * 2011-04-13 2014-04-17 華為技術有限公司 オーディオ符号化方法および装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3638091B2 (ja) * 1999-03-25 2005-04-13 松下電器産業株式会社 マルチバンドデータ通信装置、マルチバンドデータ通信装置の通信方法および記録媒体
JP3467469B2 (ja) * 2000-10-31 2003-11-17 Necエレクトロニクス株式会社 音声復号装置および音声復号プログラムを記録した記録媒体
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7406096B2 (en) * 2002-12-06 2008-07-29 Qualcomm Incorporated Tandem-free intersystem voice communication
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
AU2004319556A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
AU2006208529B2 (en) * 2005-01-31 2010-10-28 Microsoft Technology Licensing, Llc Method for weighted overlap-add
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
KR100715949B1 (ko) * 2005-11-11 2007-05-08 삼성전자주식회사 고속 음악 무드 분류 방법 및 그 장치
KR100749045B1 (ko) * 2006-01-26 2007-08-13 삼성전자주식회사 음악 내용 요약본을 이용한 유사곡 검색 방법 및 그 장치
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
CN101231850B (zh) * 2007-01-23 2012-02-29 华为技术有限公司 编解码方法及装置
KR101441896B1 (ko) * 2008-01-29 2014-09-23 삼성전자주식회사 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
JP5308519B2 (ja) 2008-06-24 2013-10-09 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 改善されたオーディオ符号化のマルチモード方式
PL2304723T3 (pl) * 2008-07-11 2013-03-29 Fraunhofer Ges Forschung Urządzenie i sposób dekodowania zakodowanego sygnału audio
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2146343A1 (en) * 2008-07-16 2010-01-20 Deutsche Thomson OHG Method and apparatus for synchronizing highly compressed enhancement layer data
PT2146344T (pt) * 2008-07-17 2016-10-13 Fraunhofer Ges Forschung Esquema de codificação/descodificação de áudio com uma derivação comutável
FR2936898A1 (fr) * 2008-10-08 2010-04-09 France Telecom Codage a echantillonnage critique avec codeur predictif
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
US8532211B2 (en) * 2009-02-20 2013-09-10 Qualcomm Incorporated Methods and apparatus for power control based antenna switching
CN102369569B (zh) * 2009-05-13 2013-04-24 华为技术有限公司 编码处理方法、编码处理装置与发射机
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
KR20130036304A (ko) * 2010-07-01 2013-04-11 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007532963A (ja) * 2004-04-15 2007-11-15 ノキア コーポレイション 音声信号の符号化
WO2011048820A1 (ja) * 2009-10-23 2011-04-28 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
JP2014509408A (ja) * 2011-04-13 2014-04-17 華為技術有限公司 オーディオ符号化方法および装置

Also Published As

Publication number Publication date
RU2625561C2 (ru) 2017-07-14
CA2979260C (en) 2020-07-07
AU2014211586A1 (en) 2015-08-20
KR101766802B1 (ko) 2017-08-09
TWI541798B (zh) 2016-07-11
EP2951821A1 (en) 2015-12-09
US20200335116A1 (en) 2020-10-22
SG11201505898XA (en) 2015-09-29
CA2979245C (en) 2019-10-15
US20180144756A1 (en) 2018-05-24
JP6549673B2 (ja) 2019-07-24
US20230206931A1 (en) 2023-06-29
US10734007B2 (en) 2020-08-04
PL2951821T3 (pl) 2017-08-31
CA2898572A1 (en) 2014-08-07
AU2014211586B2 (en) 2017-02-16
CA2979260A1 (en) 2014-08-07
PT2951821T (pt) 2017-06-06
ZA201506321B (en) 2017-04-26
CN105229735B (zh) 2019-11-01
CN105229735A (zh) 2016-01-06
US9934787B2 (en) 2018-04-03
US11600283B2 (en) 2023-03-07
CA2979245A1 (en) 2014-08-07
TW201443882A (zh) 2014-11-16
MX351361B (es) 2017-10-11
RU2015136797A (ru) 2017-03-10
CA2898572C (en) 2019-07-02
MY177336A (en) 2020-09-12
US20150332693A1 (en) 2015-11-19
JP2018055105A (ja) 2018-04-05
EP2951821B1 (en) 2017-03-01
MX2015009535A (es) 2015-10-30
HK1218588A1 (zh) 2017-02-24
JP6297596B2 (ja) 2018-03-20
WO2014118139A1 (en) 2014-08-07
KR20150109481A (ko) 2015-10-01
AR094675A1 (es) 2015-08-19
ES2626809T3 (es) 2017-07-26

Similar Documents

Publication Publication Date Title
US7050972B2 (en) Enhancing the performance of coding systems that use high frequency reconstruction methods
AU2015295603B2 (en) Apparatus and method for processing an audio signal using a harmonic post-filter
RU2660605C2 (ru) Концепция заполнения шумом
RU2740359C2 (ru) Звуковые кодирующее устройство и декодирующее устройство
US20230206931A1 (en) Concept for coding mode switching compensation
US10176817B2 (en) Low-frequency emphasis for LPC-based coding in frequency domain
AU2014211528B2 (en) Apparatus and method for generating a frequency enhanced signal using temporal smoothing of subbands
JP2022174077A (ja) スムーズな遷移を取得するために、ゼロ入力応答を用いるオーディオ・デコーダ、方法及びコンピュータ・プログラム
BR112015017874B1 (pt) Conceito para codificar a compensação de comutação de modo

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20150929

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161108

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170508

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171027

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20171221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180221

R150 Certificate of patent or registration of utility model

Ref document number: 6297596

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250