JP2016508618A - 周波数領域におけるlpc系符号化のための低周波数エンファシス - Google Patents

周波数領域におけるlpc系符号化のための低周波数エンファシス Download PDF

Info

Publication number
JP2016508618A
JP2016508618A JP2015554192A JP2015554192A JP2016508618A JP 2016508618 A JP2016508618 A JP 2016508618A JP 2015554192 A JP2015554192 A JP 2015554192A JP 2015554192 A JP2015554192 A JP 2015554192A JP 2016508618 A JP2016508618 A JP 2016508618A
Authority
JP
Japan
Prior art keywords
spectrum
spectral line
frequency
predictive coding
linear predictive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015554192A
Other languages
English (en)
Other versions
JP6148811B2 (ja
Inventor
シュテファン デーラ、
シュテファン デーラ、
ベルンハルト グリル、
ベルンハルト グリル、
クリスティアン ヘルムリヒ、
クリスティアン ヘルムリヒ、
ニコラウス レッテルバッハ、
ニコラウス レッテルバッハ、
Original Assignee
フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー., フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. filed Critical フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Publication of JP2016508618A publication Critical patent/JP2016508618A/ja
Application granted granted Critical
Publication of JP6148811B2 publication Critical patent/JP6148811B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本発明は、ビットストリームを生成するように、非音声オーディオ信号を符号化するためのオーディオエンコーダおよび方法を提供し、オーディオエンコーダは、複数の線形予測符号化係数(LC)を有する線形予測符号化フィルタ(2)と時間周波数変換器(3)との組合せ(2、3)であって、オーディオ信号(AS)のフレーム(FI)および線形予測符号化係数(LC)に基づきスペクトル(SP)を出力するために、フレーム(FI)をフィルタリングし、かつ周波数領域へ変換するよう構成される組合せ(2、3)と、スペクトル(SP)に基づき処理されたスペクトル(PS)を計算するよう構成される低周波数エンファシス回路(4)であって、基準スペクトル線(RSL)より低い周波数を表す処理されたスペクトル(PS)のスペクトル線が強調される、低周波数エンファシス回路(4)と、線形予測符号化フィルタ(2)の線形予測符号化係数(LC)に依拠して低周波数エンファシス回路(4)による処理されたスペクトル(PS)の計算を制御するよう構成される制御装置(5)とを備える。発明は、さらに、量子化されたスペクトルおよび複数の線形予測符号化係数を含むビットストリームを復号化するための対応するオーディオデコーダ、システムおよび方法ならびに対応するコンピュータプログラムを提供する。【選択図】 図1

Description

音楽の音などの非音声信号が、より広い周波数帯域を占有し、人の有声音よりも処理が複雑になり得ることは周知である。AMR−WB+[非特許文献2]およびxHE−AAC[非特許文献3]等の最新技術のオーディオ符号化システムは、音楽および他の一般の非音声信号のための変換符号化ツールを提供する。このツールは、一般に変換符号化励振(TCX)として知られ、かつ周波数領域で量子化されかつエントロピー符号化された励振と呼ばれる線形予測符号化(LPC)残差の送信の原則に基づく。しかしながら、LPC段階で使用される予測部の限定されたオーダにより、人の聞き取りの感度が非常に良い低周波数で特に復号化された信号にアーチファクトが生じ得る。このため、低周波数エンファシス(low-frequency emphasis)およびデエンファシススキームが導入された[特許文献1、非特許文献1および2]。
前記先行技術の適応低周波数エンファシス(ALFE)スキームでは、エンコーダにおける量子化の前に低周波数スペクトル線を増幅する。特に、低周波数の線は、周波数帯にまとめられ、各帯域のエネルギが計算され、局所的エネルギ最大値を有する帯域を見つける。エネルギ最大値の値および場所に基づいて、最大エネルギ帯より下の帯域は、後の量子化処理においてより正確に量子化されるようブーストされる。
対応するデコーダにおいてALFEを逆に行うよう実行される低周波数デエンファシス(low-frequency de-emphasis)も、概念的には非常に類似するものである。エンコーダで行われるように、低周波数帯が確定されかつ最大エネルギを有する帯域が決定される。エンコーダにおける場合と違い、エネルギピークを下回る帯域はここでは減衰される。この手順により、オリジナルのスペクトルの線エネルギが、概ね復元される。
先行技術において、エンコーダにおける帯域エネルギの計算が、量子化の前、すなわち入力されたスペクトルに対し行われる一方、デコーダにおいては、逆に量子化された線、すなわち復号化されたスペクトルに対して行われるという点は、注目に値する。量子化演算は、スペクトルエネルギが平均的に保存されるよう設計できるが、個々のスペクトル線について、正確なエネルギ保存が確約できるわけではない。したがって、ALFEを完全に逆転させることはできない。また、先行技術のALFEの好ましい実現例では、エンコーダおよびデコーダ両方において開平演算が必要である。このような比較的複雑な演算は、回避することが望ましい。
B. Bessette, U.S. Patent 7,933,769 B2, “Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX”, Apr. 2011 T. Baeckstroem et al., European Patent EP 2 471 061 B1, “Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using linear prediction coding based noise shaping”
3GPP TS 26.290, "Extended AMR Wideband Codec - Transcoding Functions," Dec. 2004 J. Maekinen et al., "AMR-WB+: A New Audio Coding Standard for 3rd Generation Mobile Audio Services," in Proc. ICASSP 2005, Philadelphia, USA, Mar. 2005 M. Neuendorf et al., "MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types," in Proc. 132nd Convention of the AES, Budapest, Hungary, Apr. 2012. Also to appear in the Journal of the AES, 2013
本発明の目的は、オーディオ信号処理のための改善された概念を提供することである。より詳細には、本発明の目的は、適応低周波数エンファシスおよびデエンファシスのための改善された概念を提供することにある。本発明の目的は、請求項1に記載のオーディオエンコーダ、請求項11に記載のオーディオデコーダ、請求項21に記載のシステム、請求項22および23に記載の方法ならびに請求項24に記載のコンピュータプログラムにより達成される。
ある局面において、本発明は、そこからビットストリームを生成するように非音声オーディオ信号を符号化するためのオーディオエンコーダを提供し、このオーディオエンコーダが、複数の線形予測符号化係数を有する線形予測符号化フィルタと時間周波数変換器との組合せを含み、オーディオ信号のフレームおよび線形予測符号化係数に基づきスペクトルを出力するために、組合せが、フレームをフィルタリングしかつ周波数領域へ変換するよう構成され、さらにスペクトルに基づき処理されたスペクトルを計算するよう構成される低周波数エンファシス回路を含み、基準スペクトル線より低い周波数を表す処理されたスペクトルのスペクトル線が強調され、さらに、線形予測符号化フィルタの線形予測符号化係数に依拠して低周波数エンファシス回路による処理されたスペクトルの計算を制御するよう構成される制御装置とを含む。
線形予測符号化フィルタ(LPCフィルタ)は、線形予測モデルの情報を使用して、圧縮した形式でサウンドのフレーム化されたデジタル信号のスペクトル包絡を表現するため、オーディオ信号処理および音声処理において使用されるツールである。
時間周波数変換器は、信号のスペクトルを推定するように特にフレーム化されたデジタル信号を時間領域から周波数領域へ変換するためのツールである。時間周波数変換器は、タイプIV離散コサイン変換(DCT−IV)に基づく重複(lapped)変換である修正離散コサイン変換(MDCT)を使用することが可能で、重複されるという特徴が追加される。これは、より大きなデータセットの連続するフレームに対して行われるよう設計されており、後続のフレームは、1フレームの後半分が次のフレームの前半分と一致するように重ね合わされる。フレーム境界から生じるアーチファクトの回避に役立つため、DCTのエネルギ圧縮品質に加えて、この重ね合わせは信号圧縮の応用についてMDCTを特に魅力あるものにする。
低周波数エンファシス回路は、スペクトルに基づき処理されたスペクトルを計算するよう構成され、基準スペクトル線より低い周波数を表す処理されたスペクトルのスペクトル線は、処理されたスペクトルに含まれる低周波数のみを強調するように強調される。基準スペクトル線は、経験に基づいて予め定義されてもよい。
制御装置は、線形予測符号化フィルタの線形予測符号化係数に依拠して低周波数エンファシス回路により処理されたスペクトルの計算を制御するよう構成される。したがって、本発明のエンコーダは、低周波数エンファシス目的で、オーディオ信号のスペクトルを解析する必要がない。さらに、エンコーダおよび後続のデコーダにおいて同じ線形予測符号化係数を使用できるので、適応低周波数エンファシスは、線形予測符号化係数が、エンコーダまた他のなんらかの手段で生成されるビットストリームでデコーダに送信される限り、スペクトル量子化にも関わらず完全に可逆である。一般に、それぞれのデコーダによりビットストリームからオーディオ出力信号を再構成する目的で、線形予測符号化係数は、いずれにしてもビットストリームで送信する必要がある。したがって、ビットストリームのビットレートは、ここに記載する低周波数エンファシスにより増大することはない。
ここに記載の適応低周波数エンファシスシステムは、フレームごとに時間領域とMDCT領域の符号化を切り替えられるxHE−AAC[非特許文献3]の低遅延変形である、LD−USACのTCX(EVS)コアコーダにおいて実現され得る。
本発明の好ましい実施の形態によれば、オーディオ信号のフレームが線形予測符号化フィルタに入力され、フィルタリングされたフレームが線形予測符号化フィルタにより出力され、かつ時間周波数変換器が、フィルタリングされたフレームに基づいてスペクトルを推定するよう構成される。したがって、線形予測符号化フィルタは、オーディオ信号をその入力として、時間領域で動作し得る。
本発明の好ましい実施の形態によれば、オーディオ信号のフレームが時間周波数変換器に入力され、変換されたフレームが時間周波数変換器により出力され、かつ線形予測符号化フィルタが、変換されたフレームに基づきスペクトルを推定するよう構成される。代替的に、ただし、低周波数エンファシス回路を有する発明のエンコーダの第1の実施の形態と等価な態様で、エンコーダがたとえば[特許文献2]に開示のように周波数領域雑音整形(FDNS)により生成されるフレームのスペクトルに基づき処理されたスペクトルを計算してもよい。より詳細には、ここでのツールの順序は修正される。すなわち、上記のもののような時間周波数変換器は、オーディオ信号のフレームに基づいて変換されたフレームを推定するよう構成されることが可能で、かつ線形予測符号化フィルタは、時間周波数変換器により出力される、変換されたフレームに基づいてオーディオスペクトルを推定するよう構成される。したがって、線形予測符号化フィルタは、変換されたフレームをその入力として、周波数領域で(時間領域ではなく)動作してもよく、線形予測符号化フィルタは、線形予測符号化係数のスペクトル表示(spectral representation)を乗算することにより適用される。
なお、これら2つのアプローチ、すなわち時間領域の線形フィルタリングに続いて時間周波数変換を行うことと、時間周波数変換後に周波数領域においてスペクトル重み付けによる線形フィルタリングを行うことが、等価になるように行われ得ることは、当業者には明らかなはずである。
本発明の好ましい実施の形態によれば、オーディオエンコーダは、処理されたスペクトルに基づいて量子化されたスペクトルを生成するよう構成される量子化装置と、量子化されたスペクトルおよび線形予測符号化係数をビットストリームに埋め込むよう構成されるビットストリーム生成部とを含む。デジタル信号処理における量子化は、入力値の多くのセットをより小さい(カウント可能な)セットにマッピング、たとえば値をなんらかの精度の単位に丸めるプロセスである。量子化を行う装置またはアルゴリズム機能を、量子化装置と呼ぶ。ビットストリーム生成部は、単一のビットストリームに異なるソースからのデジタルデータを埋め込むことができるいずれかの装置でよい。これらの特徴により、適応低周波数エンファシスで生成されるビットストリームを容易に生成することができ、適応低周波数エンファシスは、ビットストリームにすでに含まれる情報を使用するだけで、後続のデコーダにより完全に可逆になる。
本発明の好ましい実施の形態において、制御装置は、線形予測符号化係数のスペクトル表示を推定するよう構成されるスペクトル解析部と、さらなる基準スペクトル線を下回るスペクトル表示の最小値およびスペクトル表示の最大値を推定するよう構成される最小値最大値解析部と、最小値および最大値に基づき基準スペクトル線より低い周波数を表す処理されたスペクトルのスペクトル線を計算するためのスペクトル線エンファシスファクタを計算するよう構成されるエンファシスファクタ計算部とを含み、処理されたスペクトルのスペクトル線は、スペクトル線エンファシスファクタを、フィルタリングされたフレームのスペクトルのスペクトル線に適用することにより強調される。スペクトル解析部は、上記のような時間周波数変換器でもよい。スペクトル表示は、線形予測符号化フィルタの伝達関数であり、必ずしもそうでなくてもよいが、上記のFDNSのために使用するものと同じスペクトル表示でもよい。スペクトル表示は、線形予測符号化係数の奇数離散フーリエ変換(ODFT)から計算され得る。xHE−AACおよびLD−USACでは、伝達関数は、スペクトル表示全体をカバーする32または64MDCT領域ゲインで近似化され得る。
本発明の好ましい実施の形態では、エンファシスファクタ計算部は、スペクトル線エンファシスファクタが、基準スペクトル線からスペクトルの最低周波数を表すスペクトル線の方向に増加するような態様で構成される。これは、最低周波数を表すスペクトル線が最も増幅される一方で、基準スペクトル線に隣接するスペクトル線の増幅が最小であることを意味する。基準スペクトル線および基準スペクトル線より高い周波数を表すスペクトル線は、全く強調されない。これにより、可聴的には問題なしに、計算の複雑さが低減できる。
本発明の好ましい実施の形態において、エンファシスファクタ計算部は、第1の式γ=(α・min/max)βにしたがい基底エンファシスファクタを計算するよう構成される第1の段を含み、ここでαは、第1の予め設定された値であり、α>1であり、βは、第2の予め設定された値であり、0<β≦1であり、minは、スペクトル表示の最小値であり、maxは、スペクトル表示の最大値であり、γは、基底エンファシスファクタであり、エンファシスファクタ計算部は、第2の式ε=γi’-iにしたがいスペクトル線エンファシスファクタを計算するよう構成される第2の段を含み、iは、強調されるべきスペクトル線の数であり、iがそれぞれのスペクトル線のインデクスであり、インデクスは、スペクトル線の周波数と共に増加し、i=0〜i−1であり、γは、基底エンファシスファクタであり、かつεiは、インデクスiのスペクトル線エンファシスファクタである。基底エンファシスファクタは、第1の式により最小値および最大値の割合から容易に計算される。基底エンファシスファクタは、全スペクトル線ファクタの計算に関する基底としての役割をし、第2の式は、基準スペクトル線からスペクトルの最低周波数を表すスペクトル線の方向に、スペクトル線エンファシスファクタが増加することを確実にする。先行技術の解決法と違い、提案の解決法は、スペクトル帯域ごとの開平演算または同様の複雑な演算が不要である。エンコーダ側とデコーダ側に1つずつ、2つの除算と2つのべき乗演算子を必要とするのみである。
本発明の好ましい実施の形態において、第1の予め設定された値は、42より小さくかつ22より大きく、詳細には38より小さくかつ26より大きく、より詳細には34より小さくかつ30より大きい。上記の間隔は、経験に基づくものである。最良の結果は、第1の予め設定された値が32に設定された場合に達成され得る。
本発明の好ましい実施の形態において、第2の予め設定された値は、式β=1/(θ・i’)により決定され、ここで、i’は強調されるスペクトル線の数であり、θは3と5の間、詳細には3.4と4.6の間、より詳細には、3.8と4.2の間のファクタである。これらの間隔も経験に基づくものである。第2の予め設定された値が4に設定される場合に、最良の結果が達成され得ることがわかっている。
本発明の好ましい実施の形態において、基準スペクトル線は、600Hzと1000Hzの間、詳細には700Hzと900Hzの間、より詳細には750Hzと850Hzの範囲の周波数を表す。これらの経験的に見つけられた間隔により、十分な低周波数エンファシスが確保されシステムの計算の複雑さが確実に低くなる。これらの間隔により、特に、密度が高いスペクトルにおいて、より低周波数の線が十分な正確さで符号化される。好ましい実施の形態において、基準スペクトル線は、800Hzを表し、32のスペクトル線が強調される。
本発明の好ましい実施の形態では、さらなる基準スペクトル線が、基準スペクトル線と同じまたはより高い周波数を表す。これらの特徴により、最小値および最大値の推定が、関連の周波数域で確実に行われる。
本発明の好ましい実施の形態では、制御装置は、最大値が、最小値に第1の予め設定された値であるαを乗算したものを下回る場合にのみ、基準スペクトル線よりも低い周波数を表す処理されたスペクトルのスペクトル線が強調されるような態様で構成される。これらの特徴により、エンコーダの作業負荷が最小化され得るよう、確実に必要な場合にのみ低周波数エンファシスが実行され、かつスペクトル量子化の際に、知覚的に重要でない領域にビットが無駄にされないことを確実にする。
ある局面において、本発明は、非音声オーディオ信号に基づいてビットストリームを復号化して、ビットストリームから復号化された非音声オーディオ出力信号を生成するためのオーディオデコーダであって、特に本発明のオーディオエンコーダにより生成されるビットストリームを復号化するためのものであり、ビットストリームが、量子化されたスペクトルおよび複数の線形予測符号化係数を含み、オーディオデコーダが、ビットストリームから量子化されたスペクトルと線形予測符号化係数とを抽出するよう構成されるビットストリーム受信部と、量子化されたスペクトルに基づいて逆量子化スペクトルを生成するよう構成される逆量子化装置と、逆量子化されたスペクトルに基づいて逆処理されたスペクトルを計算するよう構成される低周波数デエンファシス回路を含み、基準スペクトル線より低い周波数を表す逆処理されたスペクトルのスペクトル線がデエンファサイズ(de-emphasize)され、さらにビットストリームに含まれる線形予測符号化係数に依拠して、低周波数デエンファシス回路による逆処理されたスペクトルの計算を制御するよう構成される制御装置とを含む。
ビットストリーム受信部は、適切な後続の処理段へ分類したデータを送信するよう、単一のビットストリームからのデジタルデータを分類することができるなんらかの装置でよい。特に、ビットストリーム受信部は、ビットストリームから、その後逆量子化装置へ転送される、量子化されたスペクトルおよびその後制御装置へ転送される、線形予測符号化係数を抽出するよう構成される。
逆量子化装置は、量子化されたスペクトルに基づいて逆量子化スペクトルを生成するよう構成されるが、逆量子化とは上記の量子化に関して逆のプロセスである。
低周波数デエンファシス回路は、逆量子化されたスペクトルに基づいて逆処理されたスペクトルを計算するよう構成され、基準スペクトル線より低い周波数を表す逆処理されたスペクトルのスペクトル線が、逆処理されたスペクトルに含まれる低周波数のみがデエンファサイズされるように、デエンファサイズされる。基準スペクトル線は、経験に基づき予め定義されても良い。なお、デコーダの基準スペクトル線は、上記のとおりエンコーダの基準スペクトル線と同じ周波数を表す必要がある。しかしながら、基準スペクトル線が指す周波数は、ビットストリームでこの周波数を送信する必要がないように、デコーダ側に記憶されてもよい。
制御装置は、線形予測符号化フィルタの線形予測符号化係数に依拠して低周波数デエンファシス回路による逆処理されたスペクトルの計算を制御するよう構成される。同じ線形予測符号化係数が、ビットストリームを生成するエンコーダおよびデコーダにおいても使用され得るので、線形予測符号化係数がビットストリームでデコーダに送信される限りにおいては、スペクトル量子化にもかかわらず、適応低周波数エンファシスは完全に可逆である。一般に、線形予測符号化係数は、デコーダによりビットストリームからオーディオ出力信号を再構成する目的で、いずれにしても、ビットストリームで送信する必要がある。したがって、ここに記載のとおり、ビットストリームのビットレートが、低周波数エンファシスおよび低周波数デエンファシスにより増大することはない。
ここに記載の適応低周波数デエンファシスシステムは、時間領域とMDCT領域の符号化を切り替えられるxHE−AAC[非特許文献3]の低遅延変形である、LD−USACのTCXコアコーダにおいて実現され得る。
これらの特徴により、適応低周波数エンファシスで生成するビットストリームは、容易に復号化され得るが、適応低周波数デエンファシスは、ビットストリームにすでに含まれる情報を使用するだけでデコーダにより実行され得る。
本発明の好ましい実施の形態によれば、オーディオデコーダは、周波数時間変換器と、ビットストリームに含まれる複数の線形予測符号化係数を受ける逆線形予測符号化フィルタとの組合せを含み、この組合せは、逆処理されたスペクトルおよび線形予測符号化係数に基づく出力信号を出力するため、逆処理されたスペクトルを逆フィルタリングしかつ時間領域へ変換するよう構成される。
周波数時間変換器は、上述のとおり時間周波数変換器の動作の逆の動作を行うためのツールである。特に、周波数領域の信号のスペクトルをその時間領域でフレーミングされたデジタル信号に変換してオリジナル信号を推定するためのツールである。周波数時間変換器は、逆修正離散コサイン変換(逆MDCT)を使用し得るが、修正離散コサイン変換は、タイプIV離散コサイン変換(DCT−IV)に基づく重複変換(lapped transform)であり、重複するという付加的な特徴がある。すなわち、より大きなデータセットの連続するフレームに対して行われるよう設計され、1フレームの後半が次のフレームの前半と一致するよう後続のフレームが重ね合わされる。この重ね合わせは、DCTのエネルギ圧縮品質と合わせて、信号圧縮の応用についてMDCTを特に魅力あるものにするが、これは、フレーム境界から生じるアーチファクトの回避に役に立つからである。当業者には、他の変換も可能であることは理解されるであろう。しかしながら、デコーダにおける変換は、エンコーダにおける変換の逆の変換である必要がある。
逆線形予測符号化フィルタは、上記の線形予測符号化フィルタ(LPCフィルタ)により行われる動作の逆の動作を実行するためのツールである。これは、オーディオ信号処理および音声信号処理において、線形予測モデルの情報を使用して、デジタル信号を再構成するため、フレーム化されたデジタル信号のスペクトル包絡を復号化するために使用されるツールである。線形予測符号化および復号化は、同じ線形予測符号化係数が使用される限り、完全に可逆であり、ここに記載のとおり、ビットストリームに埋め込んだ線形予測符号化係数をエンコーダからデコーダに送信することにより、これを確実に行うことができる。
これらの特徴により、出力信号は容易に処理され得る。
本発明の好ましい実施の形態によれば、周波数時間変換器は、逆処理されたスペクトルに基づいて時間信号を推定するよう構成され、逆線形予測符号化フィルタは、時間信号に基づいて出力信号を出力するよう構成される。したがって、逆線形予測符号化フィルタは、逆処理されたスペクトルを入力として、時間領域で動作し得る。
本発明の好ましい実施の形態によれば、逆線形予測符号化フィルタが逆処理されたスペクトルに基づいて逆フィルタリングされた信号を推定するよう構成され、周波数時間変換器が、逆フィルタリングされた信号に基づいて出力信号を出力するよう構成される。
代替的かつ等価的に、かつエンコーダ側で行われる上記のFDNS手順と同様に、周波数時間変換器および逆線形予測符号化フィルタの順序を、後者が先にかつ周波数領域(時間領域ではなく)で行われるように、逆にしてもよい。より詳細には、逆線形予測符号化フィルタは、逆処理されたスペクトルに基づいて逆フィルタリングされた信号を出力してもよく、逆線形予測符号化フィルタが[特許文献2]で示すとおり、線形予測符号化係数のスペクトル表示を乗算(または除算)することにより適用される。したがって、上記のもののような周波数時間変換器は、時間周波数変換器へ入力される、逆フィルタリングされた信号に基づいて、出力信号のフレームを推定するよう構成されても良い。
なお、当業者には、これら2つのアプローチ、すなわち、周波数領域での線形逆フィルタリングに続いて周波数時間変換を行うやりかたと、周波数時間変換の後に時間領域においてスペクトル重み付けにより線形フィルタリングを行うやりかたは、これらが等価になるよう実現できることが明らかなはずである。
本発明の好ましい実施の形態において、制御装置が、線形予測符号化係数のスペクトル表示を推定するよう構成されるスペクトル解析部と、さらなる基準スペクトル線を下回るスペクトル表示の最小値およびスペクトル表示の最大値を推定するよう構成される最小値最大値解析部と、最小値および最大値に基づき、基準スペクトル線より低い周波数を表す逆処理されたスペクトルのスペクトル線を計算するためのスペクトル線デエンファシスファクタを計算するよう構成されるデエンファシスファクタ計算部とを含み、逆処理されたスペクトルのスペクトル線が、スペクトル線デエンファシスファクタを逆量子化されたスペクトルのスペクトル線に適用することによりデエンファサイズされる。スペクトル解析部は、上記のとおり時間周波数変換器でもよい。スペクトル表示は、線形予測符号化フィルタの伝達関数であり、必ずしもそうでなくてもよいが、上記のFDNSのために使用するものと同じスペクトル表示でもよい。スペクトル表示は、線形予測符号化係数の奇数離散フーリエ変換(ODFT)から計算され得る。xHE−AACおよびLD−USACでは、伝達関数は、スペクトル表示全体をカバーする32または64MDCT領域ゲインで近似化され得る。
本発明の好ましい実施の形態において、デエンファシスファクタ計算部は、スペクトル線デエンファシスファクタが、基準スペクトル線から逆処理されたスペクトルの最低周波数を表すスペクトル線の方向に減少するような態様で構成される。これは、最低周波数を表すスぺクトル線の減衰が一番大きく、基準スペクトル線に隣接するスペクトル線の減衰が一番小さいことを意味する。基準スペクトル線および基準スペクトル線より高い周波数を表すスぺクトル線は、全くでデエンファサイズされない。これにより、可聴的に問題なく計算の複雑さが低減される。
本発明の好ましい実施の形態においては、デエンファシスファクタ計算部が、第1の式δ=(α・min/max)‐βにしたがい基底デエンファシスファクタを計算するよう構成される第1の段を含み、αは、第1の予め設定された値であり、α>1であり、βは、第2の予め設定された値であり、0<β≦1であり、minは、スペクトル表示の最小値であり、maxは、スペクトル表示の最大値であり、δが基底デエンファシスファクタであり、かつデエンファシスファクタ計算部が、第2の式ζ=δi’−iにしたがいスペクトル線デエンファシスファクタを計算するよう構成される第2の段を含み、i’がデエンファサイズ対象のスペクトル線の数であり、iがそれぞれのスペクトル線のインデクスであり、インデクスが、スペクトル線の周波数と共に増加し、i=0〜i−1であり、δが基底デエンファシスファクタであり、ζiがインデクスiのスペクトル線デエンファシスファクタである。デエンファシスファクタ計算部の動作は、上記のとおりエンファシスファクタ計算部の動作の逆である。基底デエンファシスファクタは、第1の式により容易な態様で最小値および最大値の比から計算される。この基底デエンファシスファクタは、すべてのスペクトル線デエンファシスファクタの計算の基底として役割を果たし、第2の式により、スぺクトル線デエンファシスファクタが、基準スペクトル線から逆処理スペクトルの最小周波数を表すスぺクトル線の方向に減少することが確実となる。先行技術の解決法とは対照的に、提案の解決法では、スペクトル帯域ごとの開平演算または同様の複雑な演算は不要である。エンコーダとデコーダ側それぞれ1つずつ、2つの除算と2つのべき乗演算子が必要なだけである。
本発明の好ましい実施の形態において、第1の予め設定された値が、42より小さくかつ22より大きく、詳細には38より小さくかつ26より大きく、より詳細には34より小さくかつ30より大きい。上記の間隔は、経験に基づくものである。第1の予め設定された値が32に設定されている場合に、最良の結果が達成され得る。なお、デコーダの第1の予め設定された値は、エンコーダ1の第1の予め設定された値と同じにする必要がある。
本発明の好ましい実施の形態において、第2の予め設定された値は、式β=1/(θ・i’)により決定され、ここで、i’はデエンファサイズされるスペクトル線の数であり、θは3と5の間、詳細には3.4と4.6との間、より詳細には、3.8と4.2との間のファクタである。第2の予め設定された値が4に設定される場合に、最良の結果が達成され得る。なお、デコーダの第2の予め設定された値は、エンコーダの第2の予め設定された値と同じのはずである。
本発明の好ましい実施の形態において、基準スペクトル線は、600Hzと1000Hzの間、詳細には700Hzと900Hzの間、より詳細には750Hzと850Hzの間の周波数を表す。これらの経験的に見つけられた間隔により、十分な低周波数エンファシスが確保され、システムの計算の複雑さが確実に低くなる。これらの間隔により、特に、密度が高いスペクトルにおいて、より低周波数の線が十分な正確さで符号化されることが確実となる。好ましい実施の形態において、基準スペクトル線は、800Hzを表し、32のスペクトル線がデエンファサイズされる。デコーダの基準スペクトル線は、エンコーダの基準スペクトル線と同じ周波数を表すはずであることは、明らかである。
本発明の好ましい実施の形態において、さらなる基準スペクトル線が、基準スペクトル線と同じまたはより高い周波数を表す。これらの特徴により、最小値および最大値の推定が、エンコーダの場合と同様、関連の周波数域で確実に行われる。
本発明の好ましい実施の形態では、最大値が最小値に第1の予め設定された値αを乗算したものを下回る場合にのみ、基準スペクトル線よりも低い周波数を表す逆処理されたスペクトルのスペクトル線がデエンファサイズされるような態様で、制御装置が構成される。これらの特徴により、デコーダの作業負荷が最小化され、量子化の際に知覚的に無関係な領域に対してビットが無駄にされないように、必要な場合にのみ低周波数デエンファシスが実行されることが確実となる。
ある局面において、本発明は、デコーダおよびエンコーダを含むシステムを提供し、エンコーダが、本発明にしたがい設計されかつ/またはデコーダが本発明にしたがい設計される。
ある局面において、本発明は、そこからビットストリームを生成するように非音声オーディオ信号を符号化するための方法を提供し、この方法が、オーディオ信号のフレームおよび線形予測符号化係数に基づきスペクトルを出力するために、複数の線形予測符号化係数を有する線形予測符号化フィルタで、フレームをフィルタリングしかつ周波数領域へ変換するステップと、フィルタリングされたフレームのスペクトルに基づき処理されたスペクトルを計算するステップを含み、基準スペクトル線より低い周波数を表す処理されたスペクトルのスペクトル線が強調され、さらに、線形予測符号化フィルタの線形予測符号化係数に依拠して処理されたスペクトルの計算を制御するステップとを含む。
ある局面において、本発明は、ビットストリームから非音声オーディオ出力信号を生成するよう、ビットストリームを非音声オーディオ信号に基づいて復号化するための方法を提供し、特に先行の請求項に記載の方法により生成されるビットストリームを復号化するための方法であり、ビットストリームが、量子化されたスペクトルおよび複数の線形予測符号化係数を含み、方法が、ビットストリームから量子化されたスペクトルおよび線形予測符号化係数を抽出するステップと、量子化されたスペクトルに基づいて逆量子化スペクトルを生成するステップと、逆量子化されたスペクトルに基づいて逆処理されたスペクトルを計算するステップを含み、基準スペクトル線より低い周波数を表す逆処理されたスペクトルのスペクトル線がデエンファサイズされ、さらにビットストリームに含まれる線形予測符号化係数に依拠して逆処理されたスペクトルの計算を制御するステップとを含む。
ある局面において、本発明は、コンピュータまたは処理装置で実行され、発明の方法を実行するためのコンピュータプログラムを提供する。
発明の好ましい実施の形態について、以下に添付の図面を参照して説明する。
本発明のオーディオエンコーダの第1の実施の形態を示す図である。 本発明のオーディオエンコーダの第2の実施の形態を示す図である。 本発明のオーディオエンコーダにより実行される低周波数エンファシスの第1の例を示す図である。 本発明のオーディオエンコーダにより実行される低周波数エンファシスの第2の例を示す図である。 本発明のオーディオエンコーダにより実行される低周波数エンファシスの第3の例を示す図である。 本発明のオーディオデコーダの第1の実施の形態を示す図である。 本発明のオーディオデコーダの第2の実施の形態を示す図である。 本発明のオーディオデコーダにより実行される低周波数デエンファシスの第1の例を示す図である。 本発明のオーディオデコーダにより実行される低周波数デエンファシスの第2の例を示す図である。 本発明のオーディオデコーダにより実行される低周波数デエンファシスの第3の例を示す図である。
図1aは、本発明のオーディオエンコーダ1の第1の実施の形態を示す図である。そこからビットストリームBSを生成するために、非音声オーディオ信号ASを符号化するためのオーディオエンコーダ1は、複数の線形予測符号化係数LCを有する線形予測符号化フィルタ2と時間周波数変換器3との組合せ2、3を含み、組合せ2、3は、オーディオ信号ASのフレームFIおよび線形予測符号化係数LCに基づきスペクトルSPを出力するために、フレームFIをフィルタリングしかつ周波数領域へ変換するよう構成され、さらにスペクトルSPに基づいて処理されたスペクトルPSを計算するよう構成される低周波数エンファシス回路(emphasiser)4を含み、基準スペクトル線RSL(図2参照)より低い周波数を表す処理されたスペクトルPSのスペクトル線SL(図2参照)が、強調され、かつさらに線形予測符号化フィルタ2の線形予測符号化係数LCに依拠して低周波数エンファシス回路4による処理されたスペクトルPSの計算を制御するよう構成される制御装置5を含む。
線形予測符号化フィルタ(LPCフィルタ)2は、線形予測モデルの情報を使用して、サウンドのフレーム化されたデジタル信号のスペクトル包絡を圧縮した形式で表すために、オーディオ信号処理および音声処理において使用されるツールである。
時間周波数変換器3は、信号のスペクトルを推定するように特にフレーム化されたデジタル信号を時間領域から周波数領域へ変換するためのツールである。時間周波数変換器3は、タイプIV離散コサイン変換(DCT−IV)に基づく重複(lapped)変換である修正離散コサイン変換(MDCT)を使用することが可能で、重複されるという特徴が追加される。これは、より大きなデータセットの連続するフレームに対して行われるよう設計されており、後続のフレームは、1フレームの後半が次のフレームの前半と一致するように重ね合わされる。この重ね合わせは、DCTのエネルギ圧縮品質と合わせて、フレーム境界から生じるアーチファクトの回避に役立つため、信号圧縮の応用についてMDCTを特に魅力あるものにする。
低周波数エンファシス回路4は、フィルタリングされたフレームFFのスペクトルSPに基づき処理されたスペクトルPSを計算するよう構成され、基準スペクトル線RSLより低い周波数を表す処理されたスペクトルPSのスペクトル線SLは、処理されたスペクトルPSに含まれる低周波数のみを強調するように強調される。基準スペクトル線RSLは、経験に基づいて予め定義されてもよい。
制御装置5は、線形予測符号化フィルタ2の線形予測符号化係数LCに依拠して低周波数エンファシス回路4による処理されたスペクトルSPの計算を制御するよう構成される。したがって、本発明によるエンコーダ1は、低周波数エンファシス目的で、オーディオ信号ASのスペクトルSPを解析する必要がない。さらに、エンコーダ1および後続のデコーダ12において同じ線形予測符号化係数LCを使用できるので(図5参照)、適応低周波数エンファシスは、線形予測符号化係数LCが、エンコーダ1また他のなんらかの手段で生成されるビットストリームBSでデコーダ12に送信される限り、スペクトル量子化にも関わらず完全に可逆である。一般に、線形予測符号化係数LCは、それぞれのデコーダ12によりビットストリームBSからオーディオ出力信号OS(図5を参照)を再構築する目的で、いずれにしてもビットストリームBSで送信する必要がある。したがって、ビットストリームBSのビットレートは、ここに記載する低周波数エンファシスにより増大することはない。
ここに記載の適応低周波数エンファシスシステムは、フレームごとに時間領域とMDCT領域の符号化を切り替えられるxHE−AAC[非特許文献3]の低遅延変形である、LD−USACのTCXコアコーダにおいて実現され得る。
本発明の好ましい実施の形態によれば、オーディオ信号ASのフレームFIが線形予測符号化フィルタ2に入力され、フィルタリングされたフレームFFが線形予測符号化フィルタ2により出力され、かつ時間周波数変換器3が、フィルタリングされたフレームFFに基づいてスペクトルSPを推定するよう構成される。したがって、線形予測符号化フィルタ2は、オーディオ信号ASをその入力として、時間領域で動作し得る。
本発明の好ましい実施の形態によれば、オーディオエンコーダ1は、処理されたスペクトルBSに基づいて量子化されたスペクトルQSを生成するよう構成される量子化装置6と、量子化されたスペクトルQSおよび線形予測符号化係数LCをビットストリームBSに埋め込むよう構成されるビットストリーム生成部7とを含む。デジタル信号処理における量子化は、入力値の大きなセットをより小さい(数えられる)セットにマッピング、すなわち値をなんらかの精度の単位に丸める等のプロセスである。量子化を行う装置またはアルゴリズム機能を量子化装置6と呼ぶ。ビットストリーム生成部7は、単一のビットストリームBSに、異なるソース2および6からのデジタルデータを埋め込むことができるいずれかの装置でよい。これらの特徴により、適応低周波数エンファシスで生成されるビットストリームBSを容易に生成することができ、適応低周波数エンファシスは、ビットストリームBSに含まれる情報を使用するだけで、後続のデコーダ12により完全に可逆である。
本発明の好ましい実施の形態において、制御装置5は、線形予測符号化係数LCのスペクトル表示SRを推定するよう構成されるスペクトル解析部8と、さらなる基準スペクトル線を下回るスペクトル表示SRの最小値MIおよびスペクトル表示SRの最大値MAを推定するよう構成される最小値最大値解析部9と、最小値MIおよび最大値MAに基づき基準スペクトル線RSLより低い周波数を表す処理されたスペクトルPSのスペクトル線SLを計算するためのスペクトル線エンファシスファクタSEFを計算するよう構成されるエンファシスファクタ計算部10および11とを含み、処理されたスペクトルPSのスペクトル線SLは、スペクトル線エンファシスファクタSLをフィルタリングされたフレームFFのスペクトルSPのスペクトル線に適用することにより強調される。スペクトル解析部は、上記のとおり時間周波数変換器でもよい。スペクトル表示SRは、線形予測符号化フィルタ2の伝達関数である。スペクトル表示SRは、線形予測符号化係数の奇数離散フーリエ変換(ODFT)から計算され得る。xHE−AACおよびLD−USACでは、伝達関数は、スペクトル表示SR全体をカバーする32または64MDCT領域ゲインで近似化され得る。
本発明の好ましい実施の形態では、エンファシスファクタ計算部10および11は、スペクトル線エンファシスファクタSEFが、基準スペクトル線RSLから処理されたスペクトルPSの最低周波数を表すスペクトル線SLの方向に増加するような態様で構成される。これは、最低周波数を表すスペクトル線SLが最も増幅される一方で、基準スペクトル線に隣接するスペクトル線SLi’−1の増幅が最小であることを意味する。基準スペクトル線RSLおよび基準スペクトル線RSLより高い周波数を表すスペクトル線SLi’+1は、全く強調されない。これにより、可聴的に問題なく、計算の複雑さが低減できる。
本発明の好ましい実施の形態において、エンファシスファクタ計算部10および11は、第1の式γ=(α・min/max)βにしたがい基底エンファシスファクタBEFを計算するよう構成される第1の段10を含み、ここでαは第1の予め設定された値であり、α>1であり、βは、第2の予め設定された値であり、0<β≦1であり、minは、スペクトル表示SRの最小値MIであり、maxは、スペクトル表示SRの最大値MAであり、γは、基底エンファシスファクタBEFであり、エンファシスファクタ計算部10および11は、第2の式ε=γi’-iにしたがいスペクトル線エンファシスファクタSEFを計算するよう構成される第2の段11を含み、iは、強調されるべきスペクトル線SLの数であり、iがそれぞれのスペクトル線SLのインデクスであり、インデクスは、スペクトル線SLの周波数と共に増加し、i=0〜i−1であり、γは、基底エンファシスファクタBEFであり、εiは、インデクスiでのスペクトル線エンファシスファクタSEFである。基底エンファシスファクタは、第1の式により最小値および最大値の比から容易に計算される。基底エンファシスファクタBEFは、全スペクトル線エンファシスファクタSEFの計算に関する基底としての役割をし、第2の式は、基準スペクトル線RSLからスペクトルPSの最低周波数を表すスペクトル線SLの方向に、スペクトル線エンファシスファクタSEFが増加することを確実にする。先行技術の解決法と違い、提案の解決法は、スペクトル帯域ごとの開平演算または同様の複雑な演算が不要である。エンコーダ側とデコーダ側に1つずつ、2つの除算と2つのべき乗演算子を必要とするのみである。
本発明の好ましい実施の形態において、第1の予め設定された値は、42より小さくかつ22より大きく、詳細には38より小さくかつ26より大きく、より詳細には34より小さくかつ30より大きい。上記の間隔は、経験に基づくものである。最良の結果は、第1の予め設定された値が32に設定された場合に達成され得る。
本発明の好ましい実施の形態において、第2の予め設定された値は、式β=1/(θ・i)により決定され、iは、強調されるスペクトル線SLの数であり、θは、3と5の間、詳細には3.4および4.6の間、より詳細には、3.8および4.2の間のファクタである。これらの間隔も経験に基づくものである。最良の結果は、第2の予め定められた値が4に設定される場合に達成され得ることがわかっている。
本発明の好ましい実施の形態において、基準スペクトル線RSLが、600Hzと1000Hzの間、詳細には、700Hzと900Hzの間、より詳細には750Hzと850Hzの間の周波数を表す。これらの経験的に見つけられた間隔により、十分な低周波数エンファシスが確保され、かつシステムの計算の複雑性が確実に低くなる。これらの間隔は、特に、密度が高いスペクトルにおいて、より低周波数の線が十分な正確さで符号化されることを確実にする。好ましい実施の形態では、基準スペクトル線が800Hzを表し、32のスペクトル線が強調される。
スペクトル線エンファシスファクタSEFの計算は、プログラムコードの以下の入来により行われ得る。
Figure 2016508618

本発明の好ましい実施の形態においては、さらなる基準スペクトル線が、基準スペクトル線RSLより高い周波数を表す。これらの特徴により、最小値MIと最大値MAの推定が、関連の周波数域において行われることが確実になる。
図1bは、本発明のオーディオエンコーダ1の第2の実施の形態を示す図である。第2の実施の形態は、第1の実施の形態に基づく。以下では、2つの実施の形態の相違点のみを説明する。
本発明の好ましい実施の形態によれば、オーディオ信号ASのフレームFIが時間周波数変換器3に入力され、変換されたフレームCFが時間周波数変換器3により出力され、かつ線形予測符号化フィルタ2が、変換されたフレームCFに基づきスペクトルSPを推定するよう構成される。代替的に、ただし、低周波数エンファシス回路を有する発明のエンコーダ1の第1の実施の形態と等価な態様で、エンコーダ1がたとえば[特許文献2]に開示されるように周波数領域雑音整形(FDNS)により生成されるフレームFIのスペクトルSPに基づき処理されたスペクトルPSを計算してもよい。より詳細には、ここでのツールの順序は修正される。すなわち、上記のもののような時間周波数変換器3は、オーディオ信号ASのフレームFIに基づいて変換されたフレームFCを推定するよう構成され、かつ線形予測符号化フィルタ2は、時間周波数変換器3により出力される、変換されたフレームFCに基づいてオーディオスペクトルSPを推定するよう構成される。したがって、線形予測符号化フィルタ2は、変換されたフレームFCをその入力として、周波数領域で(時間領域ではなく)動作してもよく、線形予測符号化フィルタ2は、線形予測符号化係数LCのスペクトル表示を乗算することにより適用される。
第1および第2の実施の形態、すなわち、時間領域の線形フィルタリングに続いて時間周波数変換を行うことと、時間周波数変換後に周波数領域においてスペクトル重み付けによる線形フィルタリングを行うことが、等価になるように実現できることは、当業者には明らかなはずである。
図2は、発明のエンコーダにより実行される低周波数エンファシスの第1の例を示す。図2は、共通の座標系における典型的スペクトル線SP、典型的スペクトル線エンファシスファクタSEFおよび典型的な処理されたスペクトルSPを示し、ここで周波数は、x軸に対してプロットされ、周波数に依拠する振幅はy軸に対してプロットされる。基準スペクトル線RSLより低い周波数を表すスペクトル線SLからSLi’−1が増幅される一方、基準スペクトル線RSLおよび基準スペクトル線RSLより高い周波数を表すスペクトル線SLi’+1は増幅されない。図2は、線形予測符号化係数LCのスペクトル表示SRの最小値MIと最大値MAの比が1に近くなるような状況を示す。したがって、スペクトル線SLの最大スペクトル線エンファシスファクタSEFは、約2.5である。
図3は、本発明のエンコーダにより実行される低周波数エンファシスの第2の例を示す。図2に示すような低周波数エンファシスに対する相違点は、線形予測符号化係数LCのスペクトル表示SRの最小値MIと最大値MAの比がより小さい点である。したがって、スペクトル線SLの最大スペクトル線エンファシスファクタSEFは、より小さく、たとえば2.0を下回る。
図4は、本発明のエンコーダにより実行される低周波数エンファシスの第3の例を示す。本発明の好ましい実施の形態では、最大値が最小値に第1の予め設定された値を乗算したものより小さい場合にのみ、基準スペクトル線RSLより低い周波数を表す処理されたスペクトルSPのスペクトル線SLが強調されるような態様で、制御装置5が構成される。これらの特徴により、エンコーダの作業負荷が最小化され得るように、必要な場合にのみ低周波数エンファシスが実行されることが確実となる。図4では、低周波数エンファシスが行われないように、これらの条件が満たされる。
図5は、本発明のデコーダの実施の形態を示す。オーディオデコーダ12は、ビットストリームBSから非音声オーディオ出力信号OSを生成するよう、非音声オーディオ信号に基づきビットストリームBSを復号化するよう構成され、特に本発明のオーディオエンコーダ1により生成されるビットストリームBSを復号化するよう構成され、ビットストリームBSが、量子化されたスペクトルQSおよび複数の線形予測符号化係数LCを含む。
オーディオデコーダ12は、ビットストリームBSから量子化されたスペクトルQSおよび線形予測符号化係数LCを抽出するよう構成されるビットストリーム受信部13と、量子化されたスペクトルQSに基づいて逆量子化されたスペクトルDQを生成するよう構成される逆量子化装置14と、逆量子化されたスペクトルDQに基づいて逆処理されたスペクトルRSを計算するよう構成される低周波数デエンファシス回路(de‐emphasizer)15を含み、基準スペクトル線RSLDより低い周波数を表す逆処理されたスペクトルRSのスペクトル線SLDがデエンファサイズされ、さらに、ビットストリームBSに含まれる線形予測符号化係数LCに依拠して低周波数デエンファシス回路15による逆処理されたスペクトルRSの計算を制御するよう構成される制御装置16とを含む。
ビットストリーム受信部13は、適切な後続の処理段へ分類したデータを送信するよう、単一のビットストリームBSからのデジタルデータを分類することができるいずれかの装置でよい。特に、ビットストリーム受信部13は、ビットストリームBSから、その後逆量子化装置14へ転送される、量子化されたスペクトルQSおよびその後制御装置16へ転送される、線形予測符号化係数LCを抽出するよう構成される。
逆量子化装置16は、量子化されたスペクトルQSに基づいて逆量子された化スペクトルDQを生成するよう構成されるが、逆量子化とは上記の量子化に関して逆のプロセスである。
低周波数デエンファシス回路15は、逆量子化されたスペクトルQSに基づいて逆処理されたスペクトルRSを計算するよう構成され、基準スペクトル線RSLDより低い周波数を表す逆処理されたスペクトルRSのスペクトル線SLDが、逆処理されたスペクトルRSに含まれる低周波数のみがデエンファサイズされるように、デエンファサイズされる。基準スペクトル線RSLDは、経験に基づき予め定義してもよい。なお、デコーダ12の基準スペクトル線RSLDは、上記のとおりエンコーダ1の基準スペクトル線RSLと同じ周波数を表すはずである。しかしながら、基準スペクトル線RSLDが指す周波数は、ビットストリームBSでこの周波数を送信する必要がないように、デコーダ側に記憶されてもよい。
制御装置16は、線形予測符号化フィルタ2の線形予測符号化係数LSに依拠して低周波数デエンファシス回路15による逆処理されたスペクトルRSの計算を制御するよう構成される。同じの線形予測符号化係数LCが、ビットストリームBSを生成するエンコーダ1およびデコーダ12においても使用され得るので、ビットストリームBSで線形予測符号化係数がデコーダ12に送信される限りにおいては、スペクトル量子化にもかかわらず、適応低周波数エンファシスは完全に可逆である。一般に、線形予測符号化係数LCは、デコーダ12によりビットストリームBSからのオーディオ出力信号OSを再構成する目的で、いずれにしてもビットストリームBSで送信する必要がある。したがって、ビットストリームBSのビットレートが、ここに記載の低周波数エンファシスおよび低周波数デエンファシスにより増大することはない。
ここに記載の適応低周波数デエンファシスシステムは、フレームごとに時間領域とMDCT領域の符号化を切り替えられるxHE−AAC[非特許文献3]の低遅延変形である、LD−USACのTCXコアコーダにおいて実現され得る。
これらの特徴により、適応低周波数エンファシスで生成するビットストリームBSは、容易に復号化でき、適応低周波数デエンファシスは、ビットストリームBSに含まれる情報を使用するだけでデコーダ12により実行され得る。
本発明の好ましい実施の形態によれば、オーディオデコーダ12は、周波数時間変換器17と、ビットストリームBSに含まれる複数の線形予測符号化係数LCを受ける逆線形予測符号化フィルタ18との組合せ17、18を含み、組合せ17、18は、逆処理されたスペクトルRSおよび線形予測符号化係数LCに基づき出力信号OSを出力するため、逆処理されたスペクトルRSを逆フィルタリングしかつ時間領域へ変換するよう構成される。
周波数時間変換器17は、上述のとおり時間周波数変換器3の動作の逆の動作を行うためのツールである。特に、周波数領域の信号のスペクトルをその時間領域でフレーミングされたデジタル信号に変換してオリジナル信号を推定するためのツールである。周波数時間変換器は、逆修正離散コサイン変換(逆MDCT)を使用し得るが、修正離散コサイン変換とは、タイプIV離散コサイン変換(DCT−IV)に基づく重複変換であり、重複するという付加的な特徴がある。すなわち、より大きなデータセットの連続するフレームに対して行われるよう設計され、1フレームの後半が次のフレームの前半と一致するよう後続のフレームが重ね合わされる。この重ね合わせは、DCTのエネルギ圧縮品質と合わせて、信号圧縮の応用についてMDCTを特に魅力あるものにするが、これは、フレーム境界から生じるアーチファクトの回避に役立つためである。当業者には、他の変換も可能であることは理解されるであろう。しかしながら、デコーダ12における変換は、エンコーダ1における変換の逆の変換である必要がある。
逆線形予測符号化フィルタ18は、上記の線形予測符号化フィルタ(LPCフィルタ)2により行われる動作の逆の動作を実行するためのツールである。これは、オーディオ信号および音声信号処理において、線形予測モデルの情報を使用して、デジタル信号を再構成するために、フレーム化されたデジタル信号のスペクトル包絡を復号化するために使用されるツールである。線形予測符号化および復号化は、知られているとおり、同じ線形予測符号化係数が使用されるので、完全に可逆であり、ここに記載のとおり、ビットストリームBSに埋め込んだ線形予測符号化係数LCをエンコーダ1からデコーダ12に送信することにより、これを確実に行うことができる。
これらの特徴により、出力信号OSは容易に処理され得る。
本発明の好ましい実施の形態によれば、周波数時間変換器17は、逆処理されたスペクトルRSに基づいて時間信号TSを推定するよう構成され、逆線形予測符号化フィルタ18は、時間信号TSに基づいて出力信号OSを出力するよう構成される。したがって、逆線形予測符号化フィルタ18は、時間信号TSをその入力として、時間領域で動作し得る。
本発明の好ましい実施の形態において、制御装置16は、線形予測符号化係数LCのスペクトル表示SRを推定するよう構成されるスペクトル解析部19と、さらなる基準スペクトル線を下回るスペクトル表示SRの最小値MIおよびスペクトル表示SRの最大値MAを推定するよう構成される最小値最大値解析部20と、最小値MIおよび最大値MAに基づいて、基準スペクトル線RSLDより低い周波数を表す逆処理されたスペクトルRSのスペクトル線SLDを計算するために、スペクトル線デエンファシスファクタSDFを計算するよう構成されるデエンファシスファクタ計算部21および22を含み、逆処理されたスペクトルRSのスペクトル線SLDは、スペクトル線デエンファシスファクタSDFを、逆量子化スペクトルDQのスぺクトル線に適用することによりデエンファサイズされる。スペクトル解析部は、上記のとおり時間周波数変換器でもよい。スペクトル表示は、線形予測符号化フィルタの伝達関数である。スペクトル表示は、線形予測符号化係数の奇数離散フーリエ変換(ODFT)から計算され得る。xHE−AACおよびLD−USACにおいて、伝達関数は、スペクトル表示全体をカバーする32または64MDCT領域ゲインにより近似化され得る。
本発明の好ましい実施の形態において、デエンファシスファクタ計算部は、スペクトル線デエンファシスファクタが、基準スペクトル線から逆処理されたスペクトルの最低周波数を表すスペクトル線の方向に減少するような態様で構成される。これは、最低周波数を表すスぺクトル線の減衰が一番大きく、基準スペクトル線に隣接するスペクトル線の減衰が一番小さいことを意味する。基準スペクトル線および基準スペクトル線より高い周波数を表すスぺクトル線は、全くデエンファサイズされない。これにより、可聴的に問題なく、計算の複雑さが低減される。
本発明の好ましい実施の形態においては、デエンファシスファクタ計算部21および22が、第1の式δ=(α・min/max)‐βにしたがい基底デエンファシスファクタBDFを計算するよう構成される第1の段21を含み、ここでαは、第1の予め設定された値で、α>1であり、βは、第2の予め設定された値で、0<β≦1であり、minは、スペクトル表示SRの最小値MIであり、maxは、スペクトル表示SRの最大値MAであり、δが基底デエンファシスファクタBDFであり、かつデエンファシスファクタ計算部21および22が、第2の式ζ=δi’-i、にしたがいスペクトル線デエンファシスファクタSDFを計算するよう構成される第2の段22を含み、ここでi’がデエンファサイズ対象のスペクトル線SLDの数であり、iがそれぞれのスペクトル線SLDのインデクスであり、インデクスが、スペクトル線SLDの周波数と共に増加し、i=0〜i−1であり、δが基底デエンファシスファクタであり、ζiがインデクスiでのスペクトル線デエンファシスファクタSDFである。デエンファシスファクタ計算部21および22の動作は、上記のエンファシスファクタ計算部10および11の動作の逆である。基底デエンファシスファクタBDFは、第1の式により最小値MIおよび最大値MAの比から容易に計算される。この基底デエンファシスファクタBDFは、すべてのスペクトル線デエンファシスファクタSDFの計算の基底として役割を果たし、第2の式により、スぺクトル線デエンファシスファクタSDFが、基準スペクトル線RSLDから逆処理されたスペクトルRSの最低周波数を表すスぺクトル線SLの方向に減少することが確実となる。先行技術の解決法とは対照的に、提案の解決法では、スペクトル帯域ごとの開平演算または同様の複雑な演算は不要である。エンコーダとデコーダ側それぞれ1回ずつ、2つの除算と2つのべき乗演算子が必要なだけである。
本発明の好ましい実施の形態において、第1の予め設定された値は、42より小さくかつ22より大きく、詳細には38より小さくかつ26より大きく、より詳細には34より小さくかつ30より大きい。上記の間隔は、経験に基づくものである。第1の予め設定された値が32に設定されている場合に、最良の結果が達成され得る。なお、デコーダ12の第1の予め設定された値は、エンコーダ1の第1の予め設定された値と同じである必要がある。
本発明の好ましい実施の形態において、第2の予め設定された値は、式β=1/(θ・i’)により決定され、ここで、i’はデエンファサイズされるスペクトル線の数であり、θは3と5の間、詳細には3.4と4.6の間、より詳細には、3.8と4.2の間のファクタである。第2の予め設定された値が4に設定される場合に、最良の結果が達成され得る。なお、デコーダ12の第2の予め設定された値は、エンコーダ1の第2の予め設定された値と同じである必要がある。
本発明の好ましい実施の形態において、基準スペクトル線RSLDは、600Hzと1000Hzの間、詳細には700Hzと900Hzの間、より詳細には750Hzと850Hzの間の周波数を表す。これらの経験的に見つけられた間隔により、十分な低周波数エンファシスが確保され、確実にシステムの計算の複雑さが低くなる。これらの間隔により、特に、密度が高いスペクトルにおいて、より低周波数の線が十分な正確さで符号化される。好ましい実施の形態において、基準スペクトル線RSLDは、800Hzを表し、32のスペクトル線SLがデエンファサイズされる。デコーダ12の基準スペクトル線RSLDは、エンコーダの基準スペクトル線RSLと同じ周波数を表すはずであることは明らかである。
スペクトル線エンファシスファクタSEFの計算は、プログラムコードの以下の入来により行うことができる。
Figure 2016508618
本発明の好ましい実施の形態では、さらなる基準スペクトル線が、基準スペクトル線RSLDと同じまたはより高い周波数を表す。これらの特徴により、最小値MIおよび最大値MAの推定が関連の周波数域で確実に行われる。
図5bは、本発明によるオーディオデコーダ12の第2の実施の形態を示す。第2の実施の形態は、第1の実施の形態に基づく。以下では、これら2つの実施の形態の違いについてのみ説明する。
本発明の好ましい実施の形態にしたがい、逆線形予測符号化フィルタ18は、逆処理されたスペクトルRSに基づいて逆フィルタリングされた信号IFSを推定するよう構成され、周波数時間変換器17は、逆フィルタリングされた信号IFSに基づき出力信号OSを出力するよう構成される。
代替的かつ等価的に、かつエンコーダ側で行われる上記のFDNS手順と同様に、周波数時間変換器17および逆線形予測符号化フィルタ18の順序を、後者が先に、かつ周波数領域(時間領域ではなく)で行われるように、逆にしてもよい。より詳細には、逆線形予測符号化フィルタ18は、逆処理されたスペクトルRSに基づいて逆フィルタリングされた信号IFSを出力してもよく、逆線形予測符号化フィルタ2は、[特許文献2]におけるように、線形予測符号化係数LCのスペクトル表示を乗算(または除算)することにより適用される。したがって、上記のもののような周波数時間変換器17は、時間周波数変換器17へ入力される、逆フィルタリングされた信号IFSに基づいて、出力信号OSのフレームを推定するよう構成されても良い。
なお、当業者には、これら2つのアプローチ、すなわち、周波数領域での線形逆フィルタリングに続いて周波数時間変換を行うやりかたと、周波数時間変換の後に時間領域においてスペクトル重み付けにより線形フィルタリングを行うやりかたを、等価になるよう実現できることは明らかなはずである。
図6は、本発明のデコーダにより実行される低周波数デエンファシスの第1の例を示す。図2は、共通の座標系における逆量子化されたスペクトルDQ、典型的スペクトル線デエンファシスファクタSDFおよび逆処理されたスペクトルRSの典型例を示し、周波数がx軸に対してプロットされ、周波数に依拠する振幅がy軸に対してプロットされる。基準スペクトル線RSLDより低い周波数を表すスペクトル線SLDからSLDi’−1は、デエンファサイズされる一方、基準スペクトル線RSLDおよび基準スペクトル線RSLDより高い周波数を表すスペクトル線SLDi’+1はデエンファサイズされない。図6は、線形予測符号化係数LCのスペクトル表示SRの最小値MIおよび最大値MAの比が1に近い状況を示す。したがって、スペクトル線SLの最大スペクトル線エンファシスファクタSEFは、約0.4である。また、図6は、周波数に依拠する量子化誤差QEを示す。強い低周波数デエンファシスにより、量子化誤差QEは、低周波数では非常に低い。
図7は、本発明のデコーダにより実行される低周波数デエンファシスの第2の例を示す。図6に示すような低周波数エンファシスとの違いは、線形予測符号化係数LCのスペクトル表示SRの最小値MIおよび最大値MAの比が、より小さい点である。したがって、スペクトル線SLの最大スペクトル線デエンファシスファクタSDFが初期値で、たとえば0.5を超える。量子化誤差QEは、この場合、より高くなるが、逆処理されたスペクトルRSの振幅よりずいぶん低いので、問題にならない。
図8は、本発明のデコーダにより実行される低周波数デエンファシスの第3の例を示す。本発明の好ましい実施の形態では、制御装置16は、最大値MAが、最小値MIに第1の予め設定された値を乗算したものを下回る場合にのみ、基準スペクトル線RSLDよりも低い周波数を表す逆処理されたスペクトルRSのスペクトル線SLDがデエンファサイズされるような態様で構成される。これらの特徴により、デコーダ12の作業負荷が最小化され得るように、必要な場合にのみ低周波数デエンファシスが実行されることが確実となる。これらの特徴により、エンコーダの作業負荷が最小化され得るように、必要な場合にのみ低周波数デエンファシスが実行されることが確実となる。図8においては、低周波数エンファシスが全く実行されないように、これらの条件が満たされている。
先行技術のALFEのアプローチの比較的高い複雑さ(低電力の携帯装置に関する実現性の問題が生じる可能性)および完全な可逆性の欠如(十分な忠実度が得られないリスク)という上記の問題への解決策として、修正適応低周波数エンファシス(ALFE)設計が提案され、その特徴は以下のとおりである。
スペクトル帯ごとの開平演算または同様の複雑な演算を必要としない。必要なのは、エンコーダおよびデコーダ側で各々に1つずつ、2つの除算と2つのべき乗演算子のみである。
スペクトル自体ではなく、LPCフィルタ係数のスペクトル表示を、エンファシス(デエンファシス)のための制御情報として使用する。エンコーダおよびデコーダにおいて同じLPC係数が使用されるので、スペクトル量子化にも関わらず、ALFEは完全に可逆である。
ここに記載のALFEシステムは、フレームごとに時間領域とMDCT領域の符号化とを切り替えられるxHE−AAC[非特許文献3]の低遅延変形である、LD−USACのTCXコアコーダにおいて実現されている。エンコーダおよびデコーダでのプロセスを以下のとおり要約する。
(1)エンコーダにおいて、LPC係数のスペクトル表示の最小値および最大値を、ある周波数を下回ったところで見つける。信号処理において一般に採用されるフィルタのスペクトル表示は、フィルタの伝達関数である。xHE−AACおよびLD−USACにおいては、伝達関数は、フィルタ係数の奇数DFT(ODFT)から計算された、スペクトル全体をカバーする32または64のMDCT領域ゲインにより近似化される。
(2)最大値があるグローバルな最小値(0等)より大きく、かつα>1で(たとえば32)、最小値のα倍を超えない場合、以下の2つのALFEステップを実行する。
(3)低周波数エンファシスファクタγは、γ=(α・最小値/最大値)βとして、最小値と最大値の比率から計算され、ここで0<β≦1であり、かつβはαに依拠する。
(4)インデクスiがある周波数を表すインデクスiより低い(すなわちすべての線がその周波数、好ましくはステップ1で使用のものと同じ周波数を下回る)MDCT線が、ここでγi’−iを乗算される。これは、i’に一番近い線の増幅が一番小さいことを意味し、一方で直流に一番近い線である第1の線が最も増幅されることを示唆する。i’=32であることが好ましい。
(5)デコーダにおいて、ステップ1および2は、エンコーダにおける場合と同様に実行される(同じ周波数限界)。
(6)ステップ3と同様、エンファシスファクタγの逆数である、低周波数デエンファシスファクタを、δ=(α・最小値/最大値)−β=(最大値/(α・最小値))βとして計算する。
(7)インデクスiがインデクスi’より低くかつi’がエンコーダにおける場合のように選択されるMDCT線は、最終的にδi’−iが乗算される。結果は、i’に最も近い線の減衰が最も小さく、第1の線の減衰が最大で、かつ全体としてエンコーダ側ALFEは完全に可逆になる。
本質的には、提案のALFEシステムは、密度が高いスペクトルにおいて、低周波数の線が十分な正確さで符号化されることを確実にする。図8に示すとおり、これを説明する3つのケースが考えられる。最大値が最小値のα倍を上回る場合、ALFEは行われない。これは、低周波数LPC形状が、入力信号におそらくは強い孤立した低ピッチトーンを起源とする強いピークを含んでいる場合に生じる。LPCコーダは、典型的には、このような信号を比較的うまく再生できるので、ALFEは不要である。
LPCの形状が平坦な場合、すなわち最大値が最小値に接近する場合、ALFEは図6のように最強であり、音楽の雑音のようなアーチファクトの符号化を回避することができる。
近接したトーンの高調波信号等、LPCの形状が完全に平坦ではなく、ピークがあるわけでもない場合、図7に示すようにゆるやかなALFEのみを実行する。なお、ステップ4におけるγおよびステップ7におけるδという指数因子の適用は、べき乗命令を必要とせず、乗算のみで増分的に実行することができる。したがって、発明のALFEスキームにより必要となるスペクトル線ごとの複雑性は非常に低い。
装置に関連して、いくつかの局面について説明したが、これらの局面が、対応する方法の説明をも表すことは明らかで、その場合、ブロックまたは装置が方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップに関連して説明した局面も、対応の装置の対応のブロック、アイテムまたは特徴の説明を表す。方法ステップの一部または全部を、マイクロプロセッサ、プログラマブルコンピュータまたは電子回路等のハードウェア装置により(またはこれを使用して)実行してもよい。いくつかの実施の形態においては、1以上の最も重要な方法ステップを、このような装置により実行してもよい。
なんらかの実現要件に依拠して、本発明の実施の形態は、ハードウェアまたはソフトウェアにより実現できる。その実現は、フロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリ等、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(または協働可能な)、電子的に可読な制御信号を記憶した非一時的記憶媒体を使用して実行できる。したがって、デジタル記憶媒体は、コンピュータ読み取り可能である。
本発明のいくつかの実施の形態は、ここに記載の方法の1つが実行されるように、プログラマブルコンピュータシステムと協働可能な、電子的に可読な制御信号を有するデータキャリアを含む。
一般に、本発明の実施の形態は、プログラムコードを有するコンピュータプログラム製品として実現でき、このプログラムコードは、コンピュータプログラムがコンピュータ上で実行されると、方法の1つを実行するよう動作する。プログラムコードはたとえば、機械可読なキャリア上に記憶され得る。
他の実施の形態は、機械可読なキャリア上に記憶される、ここに記載の方法のひとつを実行するためのコンピュータプログラムを含む。
したがって、言い換えれば、本発明の方法の実施の形態は、コンピュータ上で実行されると、ここに記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらに他の実施の形態は、ここに記載の方法の1つを実行するためのコンピュータプログラムを記録して含むデータキャリア(デジタル記憶媒体またはコンピュータ可読媒体)である。このデータキャリア、デジタル記憶媒体または記録された媒体は、典型的には有形かつ/または非一時的のものである。
したがって、本発明の方法のさらに他の実施の形態は、ここに記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。このデータストリームまたは信号のシーケンスは、たとえば、インターネット等のデータ通信接続を経由して転送されるよう構成され得る。
さらに他の実施の形態は、たとえば、ここに記載の方法の1つを実行するよう構成または適合されたコンピュータまたはプログラマブル論理装置等の処理手段を含む。
さらに他の実施の形態は、ここに記載の方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
本発明のさらに他の実施の形態は、ここに記載の方法の1つを実行するためのコンピュータプログラムを受信部に(たとえば電子的または光学的に)転送するよう構成される装置またはシステムを含む。この受信部は、たとえばコンピュータ、携帯装置、メモリ装置等が可能である。装置またはシステムは、たとえば受信部にコンピュータプログラムを転送するためのファイルサーバを含み得る。
いくつかの実施の形態において、プログラマブル論理装置(たとえばフィールドプログラマブルゲートアレイ)を使用して、ここに記載の方法の機能性の一部または全部を実行することができる。いくつかの実施の形態において、フィールドプログラマブルゲートアレイは、ここに記載の方法の1つを実行するために、マイクロプロセッサと協働し得る。一般的には、これらの方法は、なんらかのハードウェア装置により実行されることが好ましい。
上記の実施の形態は、本発明の原理を説明するためのものに過ぎない。当然ながら、ここに記載の構成および詳細に対する変更および変形が、当業者には明らかになるであろう。したがって、明細書における実施の形態の記載および説明が提示する特定の詳細によってではなく、特許請求の範囲によってのみ限定されることを意図される。
1 オーディオエンコーダ
2 線形予測符号化フィルタ
3 時間周波数変換器
4 低周波数エンファシス回路
5 制御装置
6 量子化装置
7 ビットストリーム生成部
8 スペクトル解析部
9 最小値最大値解析部
10 エンファシスファクタ計算部の第1の段
11 エンファシスファクタ計算部の第2の段
12 オーディオデコーダ
13 ビットストリーム受信部
14 逆量子化装置
15 低周波数デエンファシス回路
16 制御装置
17 周波数時間変換器
18 逆線形予測符号化フィルタ
19 スペクトル解析部
20 最小値最大値解析部
21 デエンファシスファクタ計算部の第1の段
22 デエンファシスファクタ計算部の第2の段
AS オーディオ信号
LC 線形予測符号化係数
FF フィルタリングされたフレーム
FI フレーム
SP スペクトル
PS 処理されたスペクトル
QS 量子化されたスペクトル
SR スペクトル表示
MI スペクトル表示の最小値
MA スペクトル表示の最大値
SEF スペクトル線エンファシスファクタ
BEF 位相エンファシスファクタ
FC 時間領域へ変換したフレーム
RSL 基準スペクトル線
SL スペクトル線
DQ 逆量子化されたスペクトル
RS 逆処理されたスペクトル
TS 時間信号
SDF スペクトル線デエンファシスファクタ
BDF 基底デエンファシスファクタ
IFS 逆フィルタリングされた信号
SLD スペクトル線
RSLD 基準スペクトル線
QE 量子化誤差

Claims (28)

  1. ビットストリーム(BS)を生成するように非音声オーディオ信号(AS)を符号化するためのオーディオエンコーダであって、前記オーディオエンコーダ(1)は、
    複数の線形予測符号化係数(LC)を有する線形予測符号化フィルタ(2)と時間周波数変換器(3)との組合せ(2、3)であって、オーディオ信号(AS)のフレーム(FI)および線形予測符号化係数(LC)に基づきスペクトル(SP)を出力するために、前記フレーム(FI)をフィルタリングし、かつ周波数領域へ変換するよう構成される組合せ(2、3)と、
    前記スペクトル(SP)に基づき処理されたスペクトル(PS)を計算するよう構成される低周波数エンファシス回路(4)であって、基準スペクトル線(RSL)より低い周波数を表す処理されたスペクトル(PS)のスペクトル線(SL)が強調される、低周波数エンファシス回路(4)と、
    前記線形予測符号化フィルタ(2)の線形予測符号化係数(LC)に依拠して前記低周波数エンファシス回路(4)による処理されたスペクトル(PS)の計算を制御するよう構成される制御装置(5)と、
    を備える、オーディオエンコーダ。
  2. 前記オーディオ信号(AS)のフレーム(FI)は、前記線形予測符号化フィルタ(2)に入力され、フィルタリングされたフレーム(FF)は、前記線形予測符号化フィルタ(2)により出力され、前記時間周波数変換器(3)は、フィルタ処理されたフレーム(FF)に基づき前記スペクトル(SP)を推定するよう構成される、先行の請求項に記載のオーディオエンコーダ。
  3. 前記オーディオ信号(AS)のフレーム(FI)は、前記時間周波数変換器(3)に入力され、変換されたフレーム(FC)は、前記時間周波数変換器(3)により出力され、前記線形予測符号化フィルタ(2)は、変換されたフレーム(FC)に基づいて前記スペクトル(SP)を推定するよう構成される、請求項1に記載のオーディオエンコーダ。
  4. 前記オーディオエンコーダ(1)は、前記処理されたスペクトル(PS)に基づいて量子化されたスペクトル(QS)を生成するよう構成される量子化装置(6)と、前記量子化されたスペクトル(QS)および前記線形予測符号化係数(LC)を前記ビットストリーム(BS)に埋め込むよう構成されるビットストリーム生成部(7)とを備える、先行の請求項のうちの1つに記載のオーディオエンコーダ。
  5. 前記制御装置(5)は、前記線形予測符号化係数(LC)のスペクトル表示(SR)を推定するよう構成されるスペクトル解析部(8)と、さらなる基準スペクトル線を下回るスペクトル表示(SR)の最小値(MI)およびスペクトル表示(SR)の最大値(MA)を推定するよう構成される最小値最大値解析部(9)と、前記最小値(MI)および前記最大値(MA)に基づいて前記基準スペクトル線(RSL)より低い周波数を表す処理されたスペクトル(PS)のスペクトル線(SL)を計算するためのスペクトル線エンファシスファクタ(SEF)を計算するよう構成されるエンファシスファクタ計算部(10、11)とを含み、前記処理されたスペクトル(PS)のスペクトル線(SL)は、フィルタリングされたフレームのスペクトルのスペクトル線に対して前記スペクトル線エンファシスファクタ(SEF)を適用することにより強調される、先行の請求項のうちの1つに記載のオーディオエンコーダ。
  6. 前記エンファシスファクタ計算部(10、11)は、前記スペクトル線エンファシスファクタ(SEF)が、前記基準スペクトル線(RSL)から前記スペクトル(SP)の最低周波数を表すスペクトル線(SL)の方向に増加するように構成される、先行の請求項に記載のオーディオエンコーダ。
  7. 前記エンファシスファクタ計算部(10、11)は、第1の式、γ=(α・min/max)βにしたがい基底エンファシスファクタ(BEF)を計算するよう構成される第1の段(10)を含み、ここで、αは、第1の予め設定された値であって、α>1であり、βは、第2の予め設定された値であって、0<β≦1であり、minは、前記スペクトル表示(SR)の最小値(MI)であり、maxは、前記スペクトル表示(SR)の最大値(MA)であり、γは、前記基底エンファシスファクタ(BEF)であり、前記エンファシスファクタ計算部(10、11)は、第2の式εi=γi’-iにしたがいスペクトル線エンファシスファクタ(SEF)を計算するよう構成される第2の段(11)を含み、ここでiは、強調されるべきスペクトル線(SL)の数であり、iは、それぞれのスぺクトル線(SL)のインデクスであり、インデクスはスペクトル線の周波数と共に増加し、i=0〜i−1であり、γは前記基底エンファシスファクタ(BEF)であり、εiはインデクスiでのスペクトル線エンファシスファクタ(SEF)である、請求項5または6に記載のオーディオエンコーダ。
  8. 前記第1の予め設定された値は、42より小さくかつ22より大きく、詳細には、38より小さくかつ26より大きく、さらに詳細には34より小さくかつ30より大きい、先行の請求項に記載のオーディオエンコーダ。
  9. 前記第2の予め設定された値は、式β=1/(θ・i)にしたがい決定され、ここでiは、強調されるスペクトル線の数であり、θは、3と5の間、詳細には、3.4と4.6の間、より詳細には3.8と4.2の間のファクタである、請求項7または8に記載のオーディオエンコーダ。
  10. 前記基準スペクトル線(RSL)は、600Hzと1000Hzの間、詳細には、700Hzと900Hzの間、より詳細には750Hzと850Hzの間の周波数を表す、先行の請求項のうちの1つに記載のオーディオエンコーダ。
  11. 前記さらなる基準スペクトル線は、前記基準スペクトル線(RSL)と同じかまたはより高い周波数を表す、請求項5から10のうちの1つに記載のオーディオエンコーダ。
  12. 前記最大値(MA)が、前記最小値(MI)に前記第1の予め設定された値を乗算したものを下回る場合にのみ、前記基準スペクトル線(RSL)より低い周波数を表す処理されたスペクトル(PS)のスペクトル線(SL)が強調されるように、前記制御装置(5)は構成される、先行の請求項のうちの1つに記載のオーディオエンコーダ。
  13. ビットストリーム(BS)から非音声オーディオ出力信号(OS)を生成するように、前記ビットストリーム(BS)を非音声オーディオ信号(AS)に基づいて復号化するため、特に請求項1から12に記載のオーディオエンコーダ(1)により生成されるビットストリーム(BS)を復号化するためのオーディオデコーダであって、前記ビットストリーム(BS)は、量子化されたスペクトル(QS)および複数の線形予測符号化係数(LC)を含み、前記オーディオデコーダ(12)は、
    前記ビットストリーム(BS)から量子化されたスペクトル(QS)と線形予測符号化係数(LC)とを抽出するよう構成されるビットストリーム受信部(13)と、
    前記量子化されたスペクトル(QS)に基づいて逆量子化されたスペクトル(DQ)を生成するよう構成される逆量子化装置(14)と、
    前記逆量子化されたスペクトル(DQ)に基づいて逆処理されたスペクトル(RS)を計算するよう構成される低周波数デエンファシス回路(15)であって、基準スペクトル線(RSLD)より低い周波数を表す逆処理されたスペクトル(RS)のスペクトル線(SLD)がデエンファサイズされる、低周波数デエンファシス回路(15)と、
    前記ビットストリーム(BS)に含まれる線形予測符号化係数(LC)に依拠して、前記低周波数デエンファシス回路(15)による逆処理されたスペクトル(RS)の計算を制御するよう構成される制御装置(16)と、
    を備える、オーディオデコーダ。
  14. 前記オーディオデコーダ(12)は、周波数時間変換器(17)と、前記ビットストリーム(BS)に含まれる複数の線形予測符号化係数(LC)を受信する逆線形予測符号化フィルタ(18)との組合せ(17、18)を備え、前記組合せ(17、18)は、前記逆処理されたスペクトル(RS)および前記線形予測符号化係数(LC)に基づいて出力信号(OS)を出力するために、前記逆処理されたスペクトル(RS)を逆フィルタリングし、かつ時間領域に変換するよう構成される、先行の請求項に記載のオーディオデコーダ。
  15. 前記周波数時間変換器(17)は、前記逆処理されたスペクトル(RS)に基づいて時間信号(TS)を推定するよう構成され、前記逆線形予測符号化フィルタ(18)は、前記時間信号(TS)に基づいて出力信号(OS)を出力するよう構成される、先行の請求項に記載のオーディオデコーダ。
  16. 前記逆線形予測符号化フィルタ(18)は、前記逆処理されたスペクトル(RS)に基づいて逆フィルタリングされた信号(IFS)を推定するよう構成され、前記周波数時間変換器(17)は、前記逆フィルタリングされた信号(IFS)に基づいて出力信号(OS)を出力するよう構成される、請求項14に記載のオーディオデコーダ。
  17. 前記制御装置(16)は、前記線形予測符号化係数(LC)のスペクトル表示(SR)を推定するよう構成されるスペクトル解析部(19)と、さらなる基準スペクトル線を下回るスペクトル表示(SR)の最小値(MI)およびスペクトル表示(SR)の最大値(MA)を推定するよう構成される最小値最大値解析部(20)と、前記最小値(MI)および前記最大値(MA)に基づき、前記基準スペクトル線(RSLD)より低い周波数を表す逆処理されたスペクトル(RS)のスペクトル線(SLD)を計算するためのスペクトル線デエンファシスファクタ(SDF)を計算するよう構成されるデエンファシスファクタ計算部(21、22)とを含み、逆処理されたスペクトル(RS)のスペクトル線(SLD)は、前記スペクトル線デエンファシスファクタ(SDF)を、前記逆量子化されたスペクトル(DQ)のスペクトルのスペクトル線に適用することによりデエンファサイズされる、請求項13から16のうちの1つに記載のオーディオデコーダ。
  18. 前記スペクトル線デエンファシスファクタ(SDF)が、前記基準スペクトル線(RSLD)から前記逆処理されたスペクトル(RS)の最低周波数を表すスペクトル線(SL)の方向へ減少するように、前記デエンファシスファクタ計算部(21、22)は構成される、先行の請求項に記載のオーディオデコーダ。
  19. 前記デエンファシスファクタ計算部(21、22)は、第1の式δ=(α・mim/max)‐βにしたがい基底デエンファシスファクタ(BDF)を計算するよう構成される第1の段(21)を含み、ここで、αは、第1の予め設定された値であって、α>1であり、βは、第2の予め設定された値であって、0<β≦1であり、minは前記スペクトル表示(SR)の最小値(MI)であり、maxは、前記スペクトル表示(SR)の最大値であり、δは、前記基底デエンファシスファクタ(BDF)であり、前記デエンファシスファクタ計算部(21、22)は、第2の式ζi=δi’-iにしたがいスペクトル線デエンファシスファクタ(SDF)を計算するよう構成される第2の段(22)を含み、ここでiは、デエンファサイズされるべきスペクトル線(SLD)の数であり、iは、それぞれのスペクトル線(SLD)のインデクスであり、このインデクスは、スペクトル線の周波数と共に増加し、i=0〜i−1であり、δは、前記基底デエンファシスファクタ(BDF)であり、ζが、インデクスiでのスペクトル線デエンファシスファクタ(SDF)である、請求項17または18に記載のオーディオデコーダ。
  20. 前記第1の予め設定された値は、42より小さくかつ22より大きく、詳細には38より小さくかつ26より大きく、より詳細には34より小さくかつ30より大きい、先行の請求項に記載のオーディオデコーダ。
  21. 前記第2の予め設定された値は、式β=1/(θ・i)により決定され、iは、デエンファサイズされるスペクトル線(SLD)の数であり、θは、3と5の間、詳細には3.4と4.6の間、より詳細には3.8と4.2の間のファクタである、請求項19または20に記載のオーディオデコーダ。
  22. 前記基準スペクトル線(RSLD)は、600Hzと1000Hzの間、詳細には700Hzと900Hzの間、より詳細には750Hzと850Hzの間の周波数を表す、請求項13から21のうちの1つに記載のオーディオデコーダ。
  23. 前記さらなる基準スペクトル線は、基準スペクトル線(RSLD)と同じかまたはより高い周波数を表す、請求項17から22のうちの1つに記載のオーディオデコーダ。
  24. 前記最大値(MA)が、前記最小値(MI)に前記第1の予め設定された値を乗算したものを下回る場合にのみ、前記基準スペクトル線(RSLD)より低い周波数を表す逆処理されたスペクトル(RS)のスペクトル線(SLD)がデエンファサイズされるように、前記制御装置(16)は構成される、請求項13から23のうちの1つに記載のオーディオデコーダ。
  25. デコーダ(1)およびエンコーダ(12)を含むシステムであって、前記エンコーダ(1)は、請求項1から12のうちの1つにしたがい設計され、かつ/または前記デコーダは、請求項13から24のうちの1つにしたがい設計される、システム。
  26. ビットストリーム(BS)を生成するように非音声オーディオ信号(AS)を符号化するための方法であって、前記方法は、
    オーディオ信号(AS)のフレーム(FI)および線形予測符号化係数(LC)に基づきスペクトル(SP)を出力するために、複数の線形予測符号化係数(LC)を有する線形予測符号化フィルタ(2)で、前記フレーム(FI)をフィルタリングし、かつ周波数領域へ変換するステップと、
    前記スペクトル(SP)に基づき処理されたスペクトル(PS)を計算するステップであって、基準スペクトル線(RSL)より低い周波数を表す処理されたスペクトル(PS)のスペクトル線(SL)が強調される、ステップと、
    前記線形予測符号化フィルタ(2)の線形予測符号化係数(LC)に依拠して処理されたスペクトル(PS)の計算を制御するステップと、
    を含む、方法。
  27. ビットストリーム(BS)から非音声オーディオ出力信号(OS)を生成するように、前記ビットストリーム(BS)を非音声オーディオ信号(AS)に基づいて復号化するため、特に先行の請求項に記載の方法により生成されるビットストリーム(BS)を復号化するための方法であって、前記ビットストリーム(BS)は、量子化されたスペクトル(QS)および複数の線形予測符号化係数(LC)を含み、前記方法は、
    前記ビットストリーム(BS)から量子化されたスペクトル(QS)および線形予測符号化係数(LC)を抽出するステップと、
    前記量子化されたスペクトル(QS)に基づいて逆量子化されたスペクトル(DQ)を生成するステップと、
    前記逆量子化されたスペクトル(DQ)に基づいて逆処理されたスペクトル(RS)を計算するステップであって、基準スペクトル線(RSLD)より低い周波数を表す逆処理されたスペクトル(RS)のスペクトル線(SLD)がデエンファサイズされる、ステップと、
    前記ビットストリーム(BS)に含まれる線形予測符号化係数(LC)に依拠して逆処理されたスペクトル(RS)の計算を制御するステップと、
    を含む、方法。
  28. コンピュータまたは処理装置で実行されるときに、請求項26または27に記載の方法を実行するためのコンピュータプログラム。
JP2015554192A 2013-01-29 2014-01-28 周波数領域におけるlpc系符号化のための低周波数エンファシス Active JP6148811B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361758103P 2013-01-29 2013-01-29
US61/758,103 2013-01-29
PCT/EP2014/051585 WO2014118152A1 (en) 2013-01-29 2014-01-28 Low-frequency emphasis for lpc-based coding in frequency domain

Publications (2)

Publication Number Publication Date
JP2016508618A true JP2016508618A (ja) 2016-03-22
JP6148811B2 JP6148811B2 (ja) 2017-06-14

Family

ID=50030281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015554192A Active JP6148811B2 (ja) 2013-01-29 2014-01-28 周波数領域におけるlpc系符号化のための低周波数エンファシス

Country Status (20)

Country Link
US (5) US10176817B2 (ja)
EP (1) EP2951814B1 (ja)
JP (1) JP6148811B2 (ja)
KR (1) KR101792712B1 (ja)
CN (2) CN105122357B (ja)
AR (2) AR094682A1 (ja)
AU (1) AU2014211520B2 (ja)
BR (1) BR112015018040B1 (ja)
CA (1) CA2898677C (ja)
ES (1) ES2635142T3 (ja)
HK (1) HK1218018A1 (ja)
MX (1) MX346927B (ja)
MY (1) MY178306A (ja)
PL (1) PL2951814T3 (ja)
PT (1) PT2951814T (ja)
RU (1) RU2612589C2 (ja)
SG (1) SG11201505911SA (ja)
TW (1) TWI536369B (ja)
WO (1) WO2014118152A1 (ja)
ZA (1) ZA201506314B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014118152A1 (en) 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-frequency emphasis for lpc-based coding in frequency domain
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
US9338627B1 (en) 2015-01-28 2016-05-10 Arati P Singh Portable device for indicating emergency events
WO2018049279A1 (en) * 2016-09-09 2018-03-15 Dts, Inc. System and method for long-term prediction in audio codecs
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
CN111386568B (zh) * 2017-10-27 2023-10-13 弗劳恩霍夫应用研究促进协会 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
WO2020146870A1 (en) * 2019-01-13 2020-07-16 Huawei Technologies Co., Ltd. High resolution audio coding
TWI789577B (zh) * 2020-04-01 2023-01-11 同響科技股份有限公司 音訊資料重建方法及系統

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086596A (ja) * 1994-06-21 1996-01-12 Mitsubishi Electric Corp 音声強調装置
JP2007525707A (ja) * 2004-02-18 2007-09-06 ヴォイスエイジ・コーポレーション Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
JP2011527459A (ja) * 2008-07-11 2011-10-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ サンプリングされたオーディオ信号のフレームを符号化するためのオーディオエンコーダおよびデコーダ

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4139732A (en) * 1975-01-24 1979-02-13 Larynogograph Limited Apparatus for speech pattern derivation
JPH0738118B2 (ja) * 1987-02-04 1995-04-26 日本電気株式会社 マルチパルス符号化装置
US5548647A (en) * 1987-04-03 1996-08-20 Texas Instruments Incorporated Fixed text speaker verification method and apparatus
US4890327A (en) * 1987-06-03 1989-12-26 Itt Corporation Multi-rate digital voice coder apparatus
US5173941A (en) * 1991-05-31 1992-12-22 Motorola, Inc. Reduced codebook search arrangement for CELP vocoders
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
DE69628103T2 (de) * 1995-09-14 2004-04-01 Kabushiki Kaisha Toshiba, Kawasaki Verfahren und Filter zur Hervorbebung von Formanten
JPH09230896A (ja) * 1996-02-28 1997-09-05 Sony Corp 音声合成装置
JP3357795B2 (ja) * 1996-08-16 2002-12-16 株式会社東芝 音声符号化方法および装置
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
GB9811019D0 (en) * 1998-05-21 1998-07-22 Univ Surrey Speech coders
JP4308345B2 (ja) * 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
JP3580777B2 (ja) * 1998-12-28 2004-10-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号又はビットストリームの符号化又は復号化のための方法及び装置
US6278972B1 (en) * 1999-01-04 2001-08-21 Qualcomm Incorporated System and method for segmentation and recognition of speech signals
JP3526776B2 (ja) * 1999-03-26 2004-05-17 ローム株式会社 音源装置及び携帯機器
US6782361B1 (en) * 1999-06-18 2004-08-24 Mcgill University Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system
JP2001117573A (ja) * 1999-10-20 2001-04-27 Toshiba Corp 音声スペクトル強調方法/装置及び音声復号化装置
US6754618B1 (en) * 2000-06-07 2004-06-22 Cirrus Logic, Inc. Fast implementation of MPEG audio coding
US6748363B1 (en) * 2000-06-28 2004-06-08 Texas Instruments Incorporated TI window compression/expansion method
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
JP2002318594A (ja) * 2001-04-20 2002-10-31 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
CN1529882A (zh) * 2001-05-11 2004-09-15 西门子公司 用于扩展窄带滤波的语音信号、特别是由通信设备发送的语音信号的带宽的方法
AU2002352182A1 (en) * 2001-11-29 2003-06-10 Coding Technologies Ab Methods for improving high frequency reconstruction
RU2321901C2 (ru) * 2002-07-16 2008-04-10 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
US8019598B2 (en) * 2002-11-15 2011-09-13 Texas Instruments Incorporated Phase locking method for frequency domain time scale modification based on a bark-scale spectral partition
SG135920A1 (en) * 2003-03-07 2007-10-29 St Microelectronics Asia Device and process for use in encoding audio data
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
EP1619666B1 (en) * 2003-05-01 2009-12-23 Fujitsu Limited Speech decoder, speech decoding method, program, recording medium
DE10321983A1 (de) * 2003-05-15 2004-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Einbetten einer binären Nutzinformation in ein Trägersignal
US7640157B2 (en) * 2003-09-26 2009-12-29 Ittiam Systems (P) Ltd. Systems and methods for low bit rate audio coders
DE602004008973T2 (de) * 2004-05-14 2008-05-15 Loquendo-Società per Azioni Rauschminderung für die automatische spracherkennung
US7536302B2 (en) * 2004-07-13 2009-05-19 Industrial Technology Research Institute Method, process and device for coding audio signals
ATE534990T1 (de) * 2004-09-17 2011-12-15 Panasonic Corp Skalierbare sprachcodierungsvorrichtung, skalierbare sprachdecodierungsvorrichtung, skalierbares sprachcodierungsverfahren, skalierbares sprachdecodierungsverfahren, kommunikationsendgerät und basisstationsgerät
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
EP1859531A4 (en) * 2005-03-11 2008-04-09 Agency Science Tech & Res predictor
US7599833B2 (en) * 2005-05-30 2009-10-06 Electronics And Telecommunications Research Institute Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same
RU2414009C2 (ru) * 2006-01-18 2011-03-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования и декодирования сигнала
JPWO2007088853A1 (ja) * 2006-01-31 2009-06-25 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法
WO2008100503A2 (en) * 2007-02-12 2008-08-21 Dolby Laboratories Licensing Corporation Improved ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
KR101439205B1 (ko) * 2007-12-21 2014-09-11 삼성전자주식회사 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
RU2536679C2 (ru) * 2008-07-11 2014-12-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы
MY178597A (en) * 2008-07-11 2020-10-16 Fraunhofer Ges Forschung Audio encoder, audio decoder, methods for encoding and decoding an audio signal, and a computer program
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
RU2591661C2 (ru) * 2009-10-08 2016-07-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Многорежимный декодировщик аудио сигнала, многорежимный кодировщик аудио сигналов, способы и компьютерные программы с использованием кодирования с линейным предсказанием на основе ограничения шума
EP3693964B1 (en) * 2009-10-15 2021-07-28 VoiceAge Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
MY166169A (en) * 2009-10-20 2018-06-07 Fraunhofer Ges Forschung Audio signal encoder,audio signal decoder,method for encoding or decoding an audio signal using an aliasing-cancellation
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
JP5648123B2 (ja) * 2011-04-20 2015-01-07 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音声音響符号化装置、音声音響復号装置、およびこれらの方法
US9934780B2 (en) * 2012-01-17 2018-04-03 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch
WO2013107602A1 (en) * 2012-01-20 2013-07-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio encoding and decoding employing sinusoidal substitution
WO2014118152A1 (en) * 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-frequency emphasis for lpc-based coding in frequency domain
US20140358529A1 (en) * 2013-05-29 2014-12-04 Tencent Technology (Shenzhen) Company Limited Systems, Devices and Methods for Processing Speech Signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086596A (ja) * 1994-06-21 1996-01-12 Mitsubishi Electric Corp 音声強調装置
JP2007525707A (ja) * 2004-02-18 2007-09-06 ヴォイスエイジ・コーポレーション Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
JP2011527459A (ja) * 2008-07-11 2011-10-27 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ サンプリングされたオーディオ信号のフレームを符号化するためのオーディオエンコーダおよびデコーダ

Also Published As

Publication number Publication date
US20180293993A9 (en) 2018-10-11
PT2951814T (pt) 2017-07-25
CN105122357A (zh) 2015-12-02
CN105122357B (zh) 2019-04-23
AR094682A1 (es) 2015-08-19
CN110047500B (zh) 2023-09-05
CA2898677C (en) 2017-12-05
AR115901A2 (es) 2021-03-10
MX2015009752A (es) 2015-11-06
US10176817B2 (en) 2019-01-08
ZA201506314B (en) 2016-07-27
JP6148811B2 (ja) 2017-06-14
KR101792712B1 (ko) 2017-11-02
US11854561B2 (en) 2023-12-26
US20150332695A1 (en) 2015-11-19
ES2635142T3 (es) 2017-10-02
AU2014211520A1 (en) 2015-09-17
KR20150110708A (ko) 2015-10-02
TW201435861A (zh) 2014-09-16
WO2014118152A1 (en) 2014-08-07
EP2951814A1 (en) 2015-12-09
US20230087652A1 (en) 2023-03-23
PL2951814T3 (pl) 2017-10-31
TWI536369B (zh) 2016-06-01
US20180240467A1 (en) 2018-08-23
BR112015018040B1 (pt) 2022-01-18
CN110047500A (zh) 2019-07-23
CA2898677A1 (en) 2014-08-07
MX346927B (es) 2017-04-05
EP2951814B1 (en) 2017-05-10
RU2612589C2 (ru) 2017-03-09
AU2014211520B2 (en) 2017-04-06
US20200327896A1 (en) 2020-10-15
US10692513B2 (en) 2020-06-23
BR112015018040A2 (ja) 2017-07-11
US11568883B2 (en) 2023-01-31
SG11201505911SA (en) 2015-08-28
US20240119953A1 (en) 2024-04-11
RU2015136223A (ru) 2017-03-06
HK1218018A1 (zh) 2017-01-27
MY178306A (en) 2020-10-07

Similar Documents

Publication Publication Date Title
JP6148811B2 (ja) 周波数領域におけるlpc系符号化のための低周波数エンファシス
JP7354193B2 (ja) 独立したノイズ充填を用いた強化された信号を生成するための装置および方法
TWI590233B (zh) 解碼器及其解碼方法、編碼器及其編碼方法、電腦程式
TWI578308B (zh) 音訊信號頻譜之頻譜係數的編碼技術
KR20130133848A (ko) 스펙트럼 도메인 잡음 형상화를 사용하는 선형 예측 기반 코딩 방식
KR102423959B1 (ko) 다운샘플링 또는 스케일 파라미터의 보간을 사용하여 오디오 신호를 인코딩 및 디코딩하기 위한 장치 및 방법
CN110998721B (zh) 用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置
JP2019164367A (ja) 低複雑度の調性適応音声信号量子化
AU2015295624B2 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
JP7003253B2 (ja) エンコーダおよび/またはデコーダの帯域幅の制御
JP2021502597A (ja) 一時的ノイズシェーピング

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160927

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161220

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170520

R150 Certificate of patent or registration of utility model

Ref document number: 6148811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250