JP2016510426A - 低複雑度の調性適応音声信号量子化 - Google Patents

低複雑度の調性適応音声信号量子化 Download PDF

Info

Publication number
JP2016510426A
JP2016510426A JP2015554196A JP2015554196A JP2016510426A JP 2016510426 A JP2016510426 A JP 2016510426A JP 2015554196 A JP2015554196 A JP 2015554196A JP 2015554196 A JP2015554196 A JP 2015554196A JP 2016510426 A JP2016510426 A JP 2016510426A
Authority
JP
Japan
Prior art keywords
spectral line
signal
frame
speech encoder
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015554196A
Other languages
English (en)
Other versions
JP6334564B2 (ja
Inventor
マルティーン ディーツ、
マルティーン ディーツ、
ギヨーム フックス、
ギヨーム フックス、
クリスティアン ヘルムリヒ、
クリスティアン ヘルムリヒ、
マールコヴィッチ ゴーラン、
マールコヴィッチ ゴーラン、
Original Assignee
フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー., フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. filed Critical フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Publication of JP2016510426A publication Critical patent/JP2016510426A/ja
Application granted granted Critical
Publication of JP6334564B2 publication Critical patent/JP6334564B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/555Tonality processing, involving the key in which a musical piece or melody is played
    • G10H2210/561Changing the tonality within a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本発明は、音声信号(AS)を符号化して符号化信号(ES)を生成するための音声エンコーダであって、当該音声エンコーダ(1)は、音声信号(AS)からフレーム(F)を抽出するように構成されたフレーム化装置(2)と、音声信号(AS)のフレーム(F)から導出したスペクトル信号(SPS)のスペクトル線(SL1−32)を量子化インデックス(I0,I1)にマッピングするように構成された量子化器(3)と、を備え、量子化器(3)は、入力スペクトル線(SL)が量子化インデックス・ゼロ(I0)に対してマッピングされた不感帯(DZ)を有し、当該音声エンコーダは更に、不感帯(DZ)を変更するように構成された制御装置(4)、を備え、制御装置(4)は、少なくとも1つのスペクトル線(SL1−32)又は少なくとも1つのスペクトル線(SL1−32)群についての少なくとも1つの調性表示値(TI5−32)を算出するように構成された調性算出装置(5)を含み、制御装置(4)は、それぞれの調性表示値(TI5−32)に応じて、少なくとも1つのスペクトル線(SL1−32)又は少なくとも1つのスペクトル線(SL1−32)群についての不感帯(DZ)を変更するように構成される、音声エンコーダを提供する。【選択図】図1

Description

本発明は、デジタル音声信号処理に関する。より具体的には、本発明は、音声信号の量子化に関する。
一般的に、極めて低いビットレートの変換符号化においては、フレームごとのビット数は、復号信号におけるアーティファクトを回避するためには十分ではない。特に、静的な音楽やノイズスペクトルにおいて音楽のノイズが生じ得るが、これは、1フレームから次のフレームにかけて特定の周波数で変換線(ビン)が「オン及びオフされる」、即ち、「0」へと量子化されたり「0」へと量子化されなかったりするからである。このような符号化方式では、元の信号よりも調的な特性が復号信号領域に与えられる(ここから音楽ノイズという用語が来ている)だけでなく、上記スペクトル領域を全く符号化せずにxHE−AAC[非特許文献4]で用いられるTCX又はFD符号化におけるノイズ充填アルゴリズムといったビン置換技術を適用するよりも有意な利益が得られない。実際、音楽符号化ノイズが生じやすい領域を不十分ではあるが明示的に符号化するには、変換コーダのエントロピー符号化ステージでのビットが必要であるが、これは音波的には、他のスペクトル領域で、特に人間の聴覚系が敏感な低周波数で用いる方が良い。
低ビットレート音声符号化における音楽ノイズの発生を低減させる1つの方法として、入力スペクトル線を量子化インデックスへマッピングする量子化器の挙動に変更を加えることによって、量子化されたスペクトルの瞬間的な入力信号特性及びビット消費に適応させるというものがある。より正確には、量子化中に用いられる不感帯を信号適応的に変更する。いくつかの方式が公開されている[非特許文献5,非特許文献6及びそこにおける参照]。[非特許文献5]においては、符号化すべきスペクトル全体に対して量子化器適応を実行する。従って、適応量子化器は、所与のフレームのスペクトルビン全てに対して同一の挙動を呈する。しかも、最適不感帯zoptによる量子化の場合、ビットレート及び逆方向互換性ペナルティを表す2ビットの補足的な情報をデコーダに送信しなければならない。[非特許文献6]においては、量子化器は、周波数帯域ごとに適応されるが、1つの帯域当り2回の量子化の試みが行われ、(特定の決定に従い)より良い試みのみを送信に用いる。これは複雑なものである。
L. Daudet, "Sparse and Structured Decomposition of Signals with the Molecular Matching Pursuit," IEEE Trans. on Audio, Speech, and Lang. Processing, Vol. 14, No. 5, Sep. 2006. F. Keiler, "Survey on Extraction of Sinusoids in Stationary Sounds," in Proc. DAFX, 2002. R.J. McAulayand T.F. Quatieri, "Speech Analysis/Synthesis Based on a Sinusoidal Representation," IEEE Trans. Acoustics, Speech, and Sig. Processing, Vol. 34, No. 4, Aug. 1986. M. Neuendorfet al., "MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types," in Proc. 132nd Convention of the AES, Budapest, Hungary, Apr. 2012. Also to appear in the Journal of the AES, 2013. M. Ogeret al., "Model-Based Deadzone Optimization for Stack-Run Audio Coding with Uniform Scalar Quantization," in Proc. ICASSP 2008, Las Vegas, USA, Apr. 2008. M. Schug, EP2122615, "Apparatus and method for encoding an information signal", 2007.
本発明の目的は、音声信号処理のための向上した概念を提供することである。より具体的には、本発明の目的は、適応音声信号量子化のための向上した概念を提供することである。本発明の目的は、請求項1に記載の音声エンコーダ、請求項15に記載のシステム、請求項16に記載の方法、及び請求項17に記載のコンピュータプログラムによって達成される。
一局面において本発明は、音声信号を符号化して符号化信号を生成するための音声エンコーダであって、前記音声エンコーダは、
前記音声信号からフレームを抽出するように構成されたフレーム化装置と、
前記音声信号のフレームから導出したスペクトル信号のスペクトル線を量子化インデックスにマッピングするように構成された量子化器と、を備え、前記量子化器は、前記スペクトル線が量子化インデックス・ゼロに対してマッピングされた不感帯を有し、前記音声エンコーダは更に、
前記不感帯を変更するように構成された制御装置、を備え、
前記制御装置は、少なくとも1つのスペクトル線又は少なくとも1つのスペクトル線群についての少なくとも1つの調性表示値を算出するように構成された調性算出装置を含み、
前記制御装置は、それぞれの前記調性表示値に応じて、前記少なくとも1つのスペクトル線又は前記少なくとも1つのスペクトル線群についての不感帯を変更するように構成される、音声エンコーダを提供する。
フレーム化装置は、窓関数を音声信号に適用することによって音声信号からフレームを抽出するように構成することができる。信号処理においては、窓関数(アポディゼーション関数又はテーパリング関数(tapering function)としても知られる)とは、或る選択された間隔の外側で「0」の値にされる数学的関数である。窓関数を信号に適用することによって、信号を短い複数の部分へと分割することができ、通常これらはフレームと呼ばれる。
デジタル音声信号処理において、量子化とは、入力値の大集合を、(数えることのできる)より小さな集合、例えば或る精密さの単位に対する丸め値、へとマッピングするプロセスである。量子化を実行する装置又はアルゴリズム機能は量子化器と呼ばれる。
本発明によると、音声信号のフレームについてスペクトル信号を算出する。スペクトル信号は、時間領域の信号である音声信号の各フレームのスペクトルを含む場合があり、各スペクトルは、周波数領域におけるフレームの1つを表すものである。周波数スペクトルは、信号の数学的変換によって生成することができ、その結果得られた値は、通常、振幅対周波数として表される。
不感帯とは、量子化中に用いられる帯域であり、スペクトル線(周波数ビン)又はスペクトル線群(周波数帯域)が「0」へとマッピングされる。この不感帯は、通常「0」の振幅である下限値と、異なるスペクトル線又はスペクトル線群で異なり得る上限値とを有する。
本発明によると、制御装置によって不感帯を変更することができる。制御装置は、少なくとも1つのスペクトル線又は少なくとも1つのスペクトル線群についての少なくとも1つの調性表示値を算出するように構成された調性算出装置を含む。
「調性」という用語は、スペクトル信号の調的な特性を指す。一般的には、スペクトルが主に周期的な成分を含むためフレームのスペクトルが支配的なピークを含む場合に調性は高いと言うことができる。調的な特性の反対がノイズ的な特性である。後者の場合、フレームのスペクトルはより平坦である。
更に、制御装置は、それぞれの調性表示値に応じて、前記少なくとも1つのスペクトル線又は前記少なくとも1つのスペクトル線群について前記不感帯を変更するように構成される。
本発明は、信号適応不感帯による量子化方式であって、
・補足的な情報を必要としないため、既存のメディアコーデックにおいて使用可能であり、
・ビン又は帯域ごとにどの不感帯を用いるべきかを量子化に先立ち決定することで複雑度を減らし、
・帯域周波数及び/又は信号調性に基づいてビン又は帯域ごとの不感帯を決定することができるものを開示する。
本発明は、エンコーダにおける信号量子化器のみを変化させるため、既存の符号化インフラにおいて適用可能である。それでも対応のデコーダは、符号化された信号から生成された(変更されていない)ビットストリームを読み出し、出力を復号することが可能である。[非特許文献6]及びそこにおける参照とは異なり、各スペクトル線群又は各スペクトル線についての不感帯が量子化に先立ち選択されるため、量子化演算は、群又はスペクトル線につき1回だけで良い。また、量子化の決定は、2つの可能な不感帯値の間での選択に限定されず、値の全範囲に亘る。この決定については後で詳細に説明する。上述の調性適応量子化方式は、xHE−AAC[非特許文献4]の低遅延の別形であるLD−USACエンコーダの変換符号化励振(TCX)パスにおいて実現することができる。
本発明の好ましい一実施例によると、前記制御装置は、前記スペクトル線の1つにおける不感帯が、より大きな調性を有するスペクトル線の1つにおける不感帯よりも大きくなるように、又は、前記スペクトル線群の1つにおける前記不感帯が、より大きな調性を有するスペクトル線群の1つにおける不感帯よりも大きくなるように、前記不感帯を変更するように構成される。この特徴によって、非調的なスペクトル領域が「0」へと量子化される傾向が生じ、このためデータの量を減少させることができる。
本発明の好ましい一実施例によると、前記制御装置は、前記音声信号のフレームのパワースペクトルを算出するように構成されたパワースペクトル算出装置を含み、前記パワースペクトルは、スペクトル線又はスペクトル線群についてのパワー値を含み、前記調性算出装置は、前記パワースペクトルに応じて前記少なくとも1つの調性表示値を算出するように構成される。パワースペクトルに基づいて調性表示値を算出することにより、計算の複雑度が極めて低く抑えられる。
本発明の好ましい一実施例によると、前記スペクトル線の1つについての調性表示値は、それぞれの前記スペクトル線についての前記パワー値と、前記パワースペクトルにおける、予め規定された数の周辺パワー値の合計との比較に基づいており、又は、前記スペクトル線群の1つについての調性表示値は、それぞれの前記スペクトル線群についての前記パワー値と、前記パワースペクトルにおける、予め規定された数の周辺パワー値の合計との比較に基づいている。パワー値を、これに隣接するパワー値と比較することにより、パワースペクトルにおけるピーク区域又は平坦区域を容易に特定し、調性表示値を容易に算出することができる。
本発明の好ましい一実施例によると、前記スペクトル線の1つについての調性表示値は、前記音声信号の先行フレームのスペクトル線の調性表示値に基づき、又は、前記スペクトル線群の1つについての調性表示値は、前記音声信号の先行フレームについてのスペクトル線群の調性表示値に基づく。これらの特徴により、一定の期間に亘って不感帯をスムーズに変更することができる。
本発明の好ましい一実施例によると、前記調性表示値は、以下の式によって計算され、
Figure 2016510426
ここで、iは、前記音声信号の特定のフレームを示すインデックスであり、kは、特定のスペクトル線を示すインデックスであり、Pk,iは、i番目のフレームのk番目のスペクトル線のパワー値であり、又は、前記調性表示値は、以下の式によって計算され、
Figure 2016510426
ここで、iは、前記音声信号の特定のフレームを示すインデックスであり、mは、特定のスペクトル線群を示すインデックスであり、Pm,iは、i番目のフレームのm番目のスペクトル線群のパワー値である。式から分かるように、調性表示値は、現在フレームであるi番目のフレームのパワー値、及び、先行フレームであるi−1番目のフレームから算出される。この式は、i−1番目のフレームに対する依存性を削除することで変更することができる。ここで、k番目のパワー値の左7つ及び右7つの隣接するパワー値の合計を算出し、それぞれのパワー値によって除算する。この式を用いると、低い調性表示値は、高い調性を示す。
本発明の一実施例によると、前記音声エンコーダは、前記不感帯を変更するための開始周波数を算出するように構成された開始周波数算出装置を含み、前記不感帯は、前記開始周波数以上の周波数を表すスペクトル線についてのみ変更される。これは、不感帯が、低周波数については固定され、高周波数については可変であることを意味する。人間の聴覚系は低周波数に対してより敏感であるため、これらの特徴により音声品質が向上する。
本発明の好ましい一実施例によると、前記開始周波数算出装置は、前記音声信号のサンプルレートに基づき、且つ/又は、前記符号化信号から生成されたビットストリームについて予想される最大ビットレートに基づき、前記開始周波数を算出するように構成される。これらの特徴により、音声品質を最適化することができる。
本発明の好ましい一実施例によると、前記音声エンコーダは、前記音声信号のフレームから変更後離散余弦変換を算出するように構成された変更後離散余弦変換算出装置と、前記音声信号のフレームから変更後離散正弦変換を算出するように構成された変更後離散正弦変換算出装置と、を含み、前記パワースペクトル算出装置は、前記変更後離散余弦変換及び前記変更後離散正弦変換に基づき前記パワースペクトルを算出するように構成される。変更後離散余弦変換は、音声信号の符号化の目的のためにいずれにせよ算出しなければならないものである。従って、調性適応量子化の目的のためには、変更後離散正弦変換のみを追加的に算出することになる。従って、複雑度を減少させることができる。しかしながら、離散フーリエ変換又は奇関数の離散フーリエ変換といった他の変換を用いても良い。
本発明の好ましい一実施例によると、前記パワースペクトル算出装置は、Pk,i=(MDCTk,i+(MDSTk,iの式によって前記パワー値を算出するように構成され、ここで、iは、前記音声信号の特定のフレームを示すインデックスであり、kは、特定のスペクトル線を示すインデックスであり、MDCTk,iは、i番目のフレームのk番目のスペクトル線における変更後離散余弦変換の値であり、MDSTk,iは、i番目のフレームのk番目のスペクトル線における変更後離散正弦変換の値であり、Pk,iは、i番目のフレームのk番目のスペクトル線のパワー値である。上記の式によって、パワー値を容易に算出することができる。
本発明の好ましい一実施例によると、前記音声エンコーダは、前記スペクトル信号を生成するように構成されたスペクトル信号算出装置を含み、前記スペクトル信号算出装置は、前記不感帯の変更によるエネルギーの損失を補償するように前記スペクトル信号のスペクトル線の振幅を設定するように構成された振幅設定装置を含む。これらの特徴により、エネルギーを節約する態様で量子化を行うことができる。
本発明の好ましい一実施例によると、前記振幅設定装置は、それぞれの前記スペクトル線における不感帯の変更に応じて前記スペクトル信号の振幅を設定するように構成される。例えば、不感帯を拡大したスペクトル線を、この目的のために僅かに増幅させることができる。
本発明の好ましい一実施例によると、前記スペクトル信号算出装置は、正規化装置を含む。この特徴により、後続の量子化ステップを容易に行うことができる。
本発明の好ましい一実施例によると、前記変更後離散余弦変換算出装置によって算出された前記音声信号のフレームからの変換後離散余弦変換は、前記スペクトル信号算出装置に入力される。この特徴により、変更後離散余弦変換は、量子化適応の目的と、符号化信号を算出する目的とのために用いられる。
一局面において本発明は、エンコーダと、デコーダと、を備えるシステムであって、前記エンコーダは、本発明に従って設計される、システムを提供する。
一局面において本発明は、音声信号を符号化して符号化信号を生成するための方法であって、前記方法は、
前記音声信号からフレームを抽出するステップと、
前記音声信号のフレームから導出したスペクトル信号のスペクトル線を量子化インデックスにマッピングするステップと、を備え、前記入力スペクトル線がゼロに対してマッピングされた不感帯が用いられ、前記方法は更に、
前記不感帯を変更するステップ、を備え、
少なくとも1つのスペクトル線又は少なくとも1つのスペクトル線群についての少なくとも1つの調性表示値が算出され、
それぞれの前記調性表示値に応じて、前記少なくとも1つのスペクトル線又は前記少なくとも1つのスペクトル線群についての不感帯が変更される、方法を提供する。
一局面において本発明は、コンピュータ又はプロセッサにおいて実行された際に本発明による方法を実行するためのコンピュータプログラムを提供する。
以下、本発明の好ましい実施例について、添付の図面を参照して説明する。
図1は、本発明によるエンコーダの一実施例を示す図である。 図2は、本発明によるエンコーダの動作原理を示す図である。
図1は、本発明に従い、音声信号ASを符号化して符号化信号ESを生成するための音声エンコーダ1を示す。音声エンコーダ1は、
音声信号ASからフレームFを抽出するように構成されたフレーム化装置2と、
音声信号ASのフレームFから導出したスペクトル信号SPSのスペクトル線SL1−32(図2を参照)を量子化インデックスI,Iにマッピングするように構成された量子化器3と、を備え、量子化器3は、スペクトル線SL1−32が量子化インデックス・ゼロIに対してマッピングされた不感帯DZ(図2を参照)を有し、当該音声エンコーダは更に、
不感帯DZを変更するように構成された制御装置4、を備え、
制御装置4は、少なくとも1つのスペクトル線SL1−32又は少なくとも1つのスペクトル線SL1−32群についての少なくとも1つの調性表示値TI5−32を算出するように構成された調性算出装置5を含み、
制御装置4は、それぞれの調性表示値TI5−32に応じて、少なくとも1つのスペクトル線SL1−32又は少なくとも1つのスペクトル線SL1−32群についての不感帯DZを変更するように構成される。
フレーム化装置2は、窓関数を音声信号ASに適用することによって音声信号ASからフレームFを抽出するように構成することができる。信号処理においては、窓関数(アポディゼーション関数又はテーパリング関数としても知られる)とは、或る選択された間隔の外側で「0」の値にされる数学的関数である。窓関数を信号ASに適用することによって、信号ASを短い複数のセグメントへと分割することができ、通常これらはフレームFと呼ばれる。
デジタル音声信号処理において、量子化とは、入力値の大集合を、(数えることのできる)より小さな集合、例えば或る精密さの単位に対する丸め値、へとマッピングするプロセスである。量子化を実行する装置又はアルゴリズム機能は量子化器と呼ばれる。
本発明によると、音声信号ASのフレームFについてスペクトル信号SPSを算出する。スペクトル信号SPSは、時間領域の信号である音声信号ASの各フレームFのスペクトルを含む場合があり、各スペクトルは、周波数領域におけるフレームFの1つを表すものである。周波数スペクトルは、信号ASの数学的変換によって生成することができ、その結果得られた値は、通常、振幅対周波数として表される。
不感帯DZとは、量子化中に用いられる帯域であり、スペクトル線SL1−32(周波数ビン)又はスペクトル線SL1−32群(周波数帯域)が量子化インデックス「0」へとマッピングされる。この不感帯DZは、通常「0」の振幅である下限値と、異なるスペクトル線SL1−32又はスペクトル線SL1−32群で異なり得る上限値とを有する。
本発明によると、制御装置4によって不感帯DZを変更することができる。制御装置4は、少なくとも1つのスペクトル線SL1−32又は少なくとも1つのスペクトル線SL1−32群についての少なくとも1つの調性表示値TI5−32を算出するように構成された調性算出装置5を含む。
「調性」という用語は、スペクトル信号SPSの調的な特性を指す。一般的には、スペクトル又はその一部が主に周期的な成分を含むためフレームFのスペクトル又はその一部が支配的なピークを含む場合に調性は高いと言うことができる。調的な特性の反対がノイズ的な特性である。後者の場合、フレームFのスペクトル又はその一部はより平坦である。
更に、制御装置4は、それぞれの調性表示値TI5−32に応じて、少なくとも1つのスペクトル線SL1−32又は少なくとも1つのスペクトル線SL1−32群について不感帯DZを変更するように構成される。
本発明は、信号適応不感帯DZによる量子化方式であって、
・補足的な情報を必要としないため、既存のメディアコーデックにおいて使用可能であり、
・ビン又は帯域ごとにどの不感帯DZを用いるべきかを量子化に先立ち決定することで複雑度を減らし、
・帯域周波数及び/又は信号調性に基づいてビン又は帯域ごとの不感帯DZを決定することができるものを開示する。
本発明は、エンコーダ1における信号量子化器3のみを変化させるため、既存の符号化インフラにおいて適用可能である。それでも対応のデコーダは、符号化された信号から生成された(変更されていない)ビットストリームを読み出し、出力を復号することが可能である。[非特許文献6]及びそこにおける参照とは異なり、各スペクトル線SL1−32群又は各スペクトル線SL1−32についての不感帯DZが量子化に先立ち選択されるため、量子化演算は、群又はスペクトル線SL1−32につき1回だけで良い。また、量子化の決定は、2つの可能な不感帯値の間での選択に限定されず、値の全範囲に亘る。上述の調性適応量子化方式は、xHE−AAC[非特許文献4]の低遅延の別形であるLD−USACエンコーダの変換符号化励振(TCX)パスにおいて実現することができる。
本発明の好ましい一実施例によると、制御装置4は、スペクトル線SL1−32の1つにおける不感帯DZが、より大きな調性を有するスペクトル線SL1−32の1つにおける不感帯DZよりも大きくなるように、又は、スペクトル線SL1−32群の1つにおける不感帯DZが、より大きな調性を有するスペクトル線SL1−32群の1つにおける不感帯DZよりも大きくなるように、不感帯DZを変更するように構成される。この特徴によって、非調的なスペクトル領域が「0」へと量子化される傾向が生じ、このためデータの量を減少させることができる。
本発明の好ましい一実施例によると、制御装置4は、音声信号ASのフレームFのパワースペクトルPS(図2も参照)を算出するように構成されたパワースペクトル算出装置6を含み、パワースペクトルPSは、スペクトル線SL1−32又はスペクトル線SL1−32群についてのパワー値PS5−32を含み、調性算出装置5は、パワースペクトルPSに応じて少なくとも1つの調性表示値TI5−32を算出するように構成される。パワースペクトルPSに基づいて調性表示値TI5−32を算出することにより、計算の複雑度が極めて低く抑えられる。更に、精度を向上させることができる。
本発明の好ましい一実施例によると、スペクトル線SL1−32の1つについての調性表示値TI5−32は、それぞれのスペクトル線SL1−32についてのパワー値PS5−32と、パワースペクトルPSにおける、予め規定された数の周辺パワー値PS5−32の合計との比較に基づいており、又は、スペクトル線SL1−32群の1つについての調性表示値は、それぞれのスペクトル線群についてのパワー値PS5−32と、パワースペクトルにおける、予め規定された数の周辺パワー値PS5−32の合計との比較に基づいている。パワー値PS5−32を、これに隣接するパワー値PS5−32と比較することにより、パワースペクトルPSにおけるピーク区域又は平坦区域を容易に特定し、調性表示値TI5−32を容易に算出することができる。
本発明の好ましい一実施例によると、スペクトル線SL1−32の1つについての調性表示値TI5−32は、音声信号ASの先行フレームFのスペクトル線SL1−32の調性表示値TI5−32に基づき、又は、スペクトル線SL1−32群の1つについての調性表示値TI5−32は、音声信号ASの先行フレームFについてのスペクトル線SL1−32群の調性表示値TI5−32に基づく。これらの特徴により、一定の期間に亘って不感帯DZをスムーズに変更することができる。
本発明の好ましい一実施例によると、調性表示値TI5−32は、以下の式によって計算され、
Figure 2016510426
ここで、iは、音声信号ASの特定のフレームFを示すインデックスであり、kは、特定のスペクトル線SL1−32を示すインデックスであり、Pk,iは、i番目のフレームのk番目のスペクトル線SL1−32のパワー値PS5−32であり、又は、調性表示値TI5−32は、以下の式によって計算され、
Figure 2016510426
ここで、iは、音声信号ASの特定のフレームFを示すインデックスであり、mは、特定のスペクトル線SL1−32群を示すインデックスであり、Pm,iは、i番目のフレームのm番目のスペクトル線SL1−32群のパワー値PS5−32である。式から分かるように、調性表示値TI5−32は、現在フレームFであるi番目のフレームのパワー値PS5−32、及び、先行フレームFであるi−1番目のフレームFから算出される。この式は、i−1番目のフレームFに対する依存性を削除することで変更することができる。ここで、特定のスペクトル線SL1−32のk番目のパワー値PS5−32又はスペクトル線SL1−32群のm番目のパワー値の左7つ及び右7つの隣接するパワー値PS5−32の合計を算出し、それぞれのパワー値PS5−32によって除算する。この式を用いると、低い調性表示値TI5−32は、高い調性を示す。
本発明の一実施例によると、音声エンコーダ1は、不感帯DZを変更するための開始周波数SFを算出するように構成された開始周波数算出装置7を含み、不感帯DZは、開始周波数SF以上の周波数を表すスペクトル線SL1−32についてのみ変更される。これは、不感帯DZが、低周波数については固定され、高周波数については可変であることを意味する。人間の聴覚系は低周波数に対してより敏感であるため、これらの特徴により音声品質が向上する。
本発明の好ましい一実施例によると、開始周波数算出装置7は、音声信号ASのサンプルレートに基づき、且つ/又は、符号化信号ESから生成されたビットストリームについて予想される最大ビットレートに基づき、開始周波数SFを算出するように構成される。これらの特徴により、音声品質を最適化することができる。
本発明の好ましい一実施例によると、音声エンコーダ1は、音声信号ASのフレームFから変更後離散余弦変換CTを算出するように構成された変更後離散余弦変換算出装置8と、音声信号ASのフレームFから変更後離散正弦変換STを算出するように構成された変更後離散正弦変換算出装置9と、を含み、パワースペクトル算出装置6は、変更後離散余弦変換CT及び変更後離散正弦変換STに基づきパワースペクトルPSを算出するように構成される。変更後離散余弦変換CTは、音声信号ASの符号化の目的のために、多くの場合いずれにせよ算出しなければならないものである。従って、調性適応量子化の目的のためには、変更後離散正弦変換STのみを追加的に算出することになる。従って、複雑度を減少させることができる。しかしながら、離散フーリエ変換又は奇関数の離散フーリエ変換といった他の変換を用いても良い。
本発明の好ましい一実施例によると、パワースペクトル算出装置6は、Pk,i=(MDCTk,i+(MDSTk,iの式によってパワー値を算出するように構成され、ここで、iは、音声信号の特定のフレームFを示すインデックスであり、kは、特定のスペクトル線SL1−32を示すインデックスであり、MDCTk,iは、i番目のフレームのk番目のスペクトル線における変更後離散余弦変換CTの値であり、MDSTk,iは、i番目のフレームのk番目のスペクトル線における変更後離散正弦変換STの値であり、Pk,iは、i番目のフレームのk番目のスペクトル線のパワー値PS5−32である。上記の式によって、パワー値PS5−32を容易に算出することができる。
本発明の好ましい一実施例によると、音声エンコーダ1は、スペクトル信号SPSを生成するように構成されたスペクトル信号算出装置10を含み、スペクトル信号算出装置10は、不感帯DZの変更によるエネルギーの損失を補償するようにスペクトル信号SPSのスペクトル線SL1−32の振幅を設定するように構成された振幅設定装置11を含む。これらの特徴により、エネルギーを節約する態様で量子化を行うことができる。
本発明の好ましい一実施例によると、振幅設定装置11は、それぞれのスペクトル線SL1−32における不感帯DZの変更に応じてスペクトル信号SPSの振幅を設定するように構成される。例えば、不感帯DZを拡大したスペクトル線SL1−32を、この目的のために僅かに増幅させることができる。
本発明の好ましい一実施例によると、スペクトル信号算出装置10は、正規化装置12を含む。この特徴により、後続の量子化ステップを容易に行うことができる。
本発明の好ましい一実施例によると、変更後離散余弦変換算出装置8によって算出された音声信号ASのフレームFからの変換後離散余弦変換CTは、スペクトル信号算出装置10に入力される。この特徴により、変更後離散余弦変換CTは、量子化適応の目的と、符号化信号ESを算出する目的とのために用いられる。
図1は、本発明の適応エンコーダ1におけるデータ及び制御情報の流れを示す。繰り返しになるが、或る周波数SFを上回る非調的なスペクトル領域は、低ビットレートにおいて、極めて広範に「0」へと量子化される傾向がある。しかしながら、これは意図したものである。デコーダにおける「0」ビンに適用されたノイズ挿入により、ノイズ的なスペクトルが十分に再構成されることになり、また、ゼロ量子化によりビットが節約され、これを用いて低周波数のビンをより細かく量子化することができる。
図2は、本発明に従うエンコーダの動作原理を示す。この図では、本発明に従う音声エンコーダ1の不感帯DZと、音声信号ASのフレームFのパワー値PS5−32を伴うパワースペクトルPSと、調性表示値TI5−32と、スペクトルSPのスペクトル線SL1−32とを共通の座標系に示し、x軸は周波数を、y軸は振幅を示す。なお、簡単のため、図2では、「1」よりも大きいマッピングインデックスは省略する。
開始周波数算出装置7によって算出された開始周波数SFより下の範囲では、不感帯は固定のサイズを有する。この例では、スペクトル線SLは不感帯の外側で終わるため、インデックス「1」Iにマッピングされるのに対し、スペクトル線SLは不感帯DZ内で終わるため、インデックス「0」Iへとマッピングすることができる。しかしながら、開始周波数SFから始まりより高い周波数へ向かうのに伴い、不感帯DZのサイズは、制御装置4によって変更され得る。この目的のため、上述のようにパワー値PS5−32を算出する。更に、調性表示値TI5−32をパワー値PS5−32から算出する。
k=20からk=23の区域では、パワースペクトルPSは、低い調性表示値TI20−23を伴うピークを有し、これは高い調性を示す。開始周波数SFより上の他の区域においては、パワースペクトルPSはより平坦であり、調性表示値TI12−19及びTI24−32は比較的高く、これはそれぞれの区域における低い調性を示す。その結果、k=12からk=19の区域及びk=24からk=32の区域において、不感帯DZは拡大される。この不感帯DZの拡大の結果、例えば、調性適応量子化がない場合にはインデックス「1」へとマッピングされていたであろうスペクトル線SL12及びスペクトル線SL25は、インデックス「0」へとマッピングされるようになる。このゼロ量子化によって、デコーダへ送信すべきデータの量が減少する。
本発明の好ましい一実施例によると、エンコーダの動作は以下のように要約される。
1.時間から周波数への変換ステップ中、所与のフレームについて、窓入力信号からMDCT(余弦部分)及びMDST(正弦部分)の両方が計算される。
2.入力フレームのMDCTは、量子化、符号化及び送信に用いられる。MDSTは更に、ビンごとのパワースペクトルPk=MDCTk+MDSTkを計算するために用いられる。
3.Pkによって、符号化帯域ごと、又は好ましくはビンごとの調性又はスペクトル平坦さの値を算出する。これを達成するためのいくつかの方法が非特許文献[1,2,3]に記載されている。好ましくは、ビン当たり僅か数個の演算を伴う低複雑度の方法が用いられる。本発明の場合、Pkと、その周辺のPk−7…k+7の合計との比較を行い、[非特許文献3]に記載の生死トラッカーと類似のヒステリシスによって拡張する。更に、ビットレートに依存する或る周波数未満のビンは、常に調的と見做される。
4.任意のステップとして、調性又は平坦さの値を用いて、量子化に先立ちスペクトルの僅かな増幅を行うことによって、大きな量子化器不感帯によるエネルギーの損失を補償しても良い。より正確には、大きな量子化器不感帯が適用されるビンを僅かに増幅させる一方、通常又は通常近くの不感帯(即ちエネルギーを保存する傾向のあるもの)が用いられるビンは変更しない。
5.ステップ3の調性又は平坦さの値は、各々の周波数ビンの量子化に用いられる不感帯の選択を制御することになる。高い調性を有すると判断されたビン、即ちPk−7…k+7/Pkの値が低いものは、デフォルト(即ち、大体エネルギーを保存する)不感帯によって量子化し、低い調性を有するビンは、新たに拡大した不感帯によって量子化する。従って、低調性のビンは、高調性のビンよりも頻繁に「0」へと量子化される傾向がある。任意には、ビンの不感帯のサイズは、デフォルト(最小)不感帯サイズと最大不感帯サイズとの間の範囲のビン調性の連続的な関数として定義され得る。
装置の説明でいくつかの局面を記載したが、これらの局面は対応の方法の記載をも表すものであり、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で記載した局面は、対応の装置の対応のブロック若しくは項目又は特徴の記載をも表す。方法ステップのいくつか又は全ては、ハードウェア装置、例えば、マイクロプロセッサ、プログラム可能コンピュータ又は電子回路によって(又はこれらを用いて)実行され得る。いくつかの実施例においては、最も重要な方法ステップの1つ以上が、そのような装置によって実行され得る。
特定の実現要件に応じて、本発明の実施例はハードウェア又はソフトウェアによって実現され得る。その実現は、非一時的記憶媒体、例えば、デジタル記憶媒体、例えばフロッピーディスク、DVD,ブルーレイ、CD、ROM、PROM及びEPROM、EEPROM又はフラッシュメモリであって、電子的に読み出し可能な制御信号を格納しており、プログラム可能なコンピュータシステムと協働する(又は協働可能である)ことによりそれぞれの方法が実行されるようにするものを用いて実行され得る。従って、デジタル記憶媒体は、コンピュータ読み取り可能であり得る。
本発明のいくつかの実施例は、プログラム可能なコンピュータシステムと協働可能であることによって本願明細書に記載の方法の1つが実行されるようにする、電子的に読み出し可能な制御信号を有するデータキャリアを含む。
一般的には、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品であって、このコンピュータプログラム製品がコンピュータにおいて実行されるときに上記プログラムコードが上記方法の1つを実行するように動作するものとして実現され得る。プログラムコードは、例えば、機械読み取り可能キャリアに格納され得る。
他の実施例は、機械読み取り可能キャリアに格納された、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
従って、換言すると、本発明の方法の一実施例は、コンピュータプログラムであって、このコンピュータプログラムがコンピュータにおいて実行されるときに、本願明細書に記載の方法の1つを実行するためのプログラムコードを有するものである。
従って、本発明の方法の更なる実施例は、データキャリア(又はデジタル記憶媒体若しくはコンピュータ読み取り可能媒体)であって、そこに記録された、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを含むものである。データキャリア、デジタル記憶媒体又は記録された媒体は、典型的には、タンジブル及び/又は非一時的である。
従って、本発明の方法の更なる実施例は、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、インターネットを介したデータ通信接続を介して転送されるように構成され得る。
更なる実施例は、本願明細書に記載の方法の1つを実行するように構成又は適合された処理手段、例えばコンピュータ又はプログラム可能論理装置を含む。
更なる実施例は、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
本発明の更なる実施例は、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを受信機へ(例えば電子的又は光学的に)転送するように構成された装置又はシステムを含む。受信機は、例えば、コンピュータ、移動機器、メモリデバイス等であり得る。装置又はシステムは、例えば、コンピュータプログラムを受信機へ転送するためのファイルサーバを含み得る。
いくつかの実施例においては、プログラム可能論理装置(例えば、フィールドプログラマブルゲートアレイ)を用いて、本願明細書に記載の方法におけるいくつか又は全ての機能を実行しても良い。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、マイクロプロセッサと協働して、本願明細書に記載の方法の1つを実行しても良い。一般的に、当該方法は、どのようなハードウェア装置によって実行されても良い。
上述の各実施例は、単に本発明の原理を例示するものである。本願明細書に記載の構成及び詳細を変更及び変形したものが当業者には明らかであることが理解される。従って、本願明細書における各実施例の記載及び説明として提示された特定の詳細によってではなく、添付の特許請求の範囲によってのみ限定されることが意図される。
参照符号
1 音声エンコーダ
2 フレーム化装置
3 量子化器
4 制御装置
5 調性算出装置
6 パワースペクトル算出装置
7 開始周波数算出装置
8 変更後離散余弦変換算出装置
9 変更後離散正弦変換算出装置
10 スペクトル信号算出装置
11 振幅設定装置
12 正規化装置
AS 音声信号
ES 符号化信号
F フレーム
SL1−32 スペクトル線
SPS スペクトル信号
I インデックス
DZ 不感帯
TI5−32 調性表示値
PS パワースペクトル
PS5−32 パワー値
SF 開始周波数
CT 変更後離散余弦変換
ST 変更後離散正弦変換

Claims (17)

  1. 音声信号(AS)を符号化して符号化信号(ES)を生成するための音声エンコーダであって、前記音声エンコーダ(1)は、
    前記音声信号(AS)からフレーム(F)を抽出するように構成されたフレーム化装置(2)と、
    前記音声信号(AS)のフレーム(F)から導出したスペクトル信号(SPS)のスペクトル線(SL1−32)を量子化インデックス(I,I)にマッピングするように構成された量子化器(3)と、を備え、前記量子化器(3)は、前記スペクトル線(SL1−32)が量子化インデックス・ゼロ(I)に対してマッピングされた不感帯(DZ)を有し、前記音声エンコーダ(1)は更に、
    前記不感帯(DZ)を変更するように構成された制御装置(4)、を備え、
    前記制御装置(4)は、少なくとも1つのスペクトル線(SL1−32)又は少なくとも1つのスペクトル線(SL1−32)群についての少なくとも1つの調性表示値(TI5−32)を算出するように構成された調性算出装置(5)を含み、
    前記制御装置(4)は、それぞれの前記調性表示値(TI5−32)に応じて、前記少なくとも1つのスペクトル線(SL1−32)又は前記少なくとも1つのスペクトル線(SL1−32)群についての不感帯(DZ)を変更するように構成される、音声エンコーダ。
  2. 先行する請求項に記載の音声エンコーダであって、前記制御装置(4)は、前記スペクトル線(SL1−32)の1つにおける不感帯(DZ)が、より大きな調性を有するスペクトル線(SL1−32)の1つにおける不感帯(DZ)よりも大きくなるように、又は、前記スペクトル線(SL1−32)群の1つにおける前記不感帯(DZ)が、より大きな調性を有するスペクトル線(SL1−32)群の1つにおける不感帯(DZ)よりも大きくなるように、前記不感帯(DZ)を変更するように構成される、音声エンコーダ。
  3. 先行する請求項のいずれかに記載の音声エンコーダであって、前記制御装置(4)は、前記音声信号(AS)のフレーム(F)のパワースペクトル(PS)を算出するように構成されたパワースペクトル算出装置(6)を含み、前記パワースペクトル(PS)は、スペクトル線(SL1−32)又はスペクトル線(SL1−32)群についてのパワー値(PS5−32)を含み、前記調性算出装置(4)は、前記パワースペクトル(PS)に応じて前記少なくとも1つの調性表示値(TI5−32)を算出するように構成される、音声エンコーダ。
  4. 先行する請求項に記載の音声エンコーダであって、前記スペクトル線(SL1−32)の1つについての調性表示値(TI5−32)は、それぞれの前記スペクトル線(SL1−32)についての前記パワー値(PS5−32)と、前記パワースペクトル(PS)における、予め規定された数の周辺パワー値(PS5−32)の合計との比較に基づいており、又は、前記スペクトル線(SL1−32)群の1つについての調性表示値(TI5−32)は、それぞれの前記スペクトル線(SL1−32)群についての前記パワー値(PS5−32)と、前記パワースペクトル(PS)における、予め規定された数の周辺パワー値(PS5−32)の合計との比較に基づいている、音声エンコーダ。
  5. 先行する請求項のいずれかに記載の音声エンコーダであって、前記スペクトル線(SL1−32)の1つについての調性表示値(TI5−32)は、前記音声信号(AS)の先行フレーム(F)のスペクトル線の調性表示値(TI5−32)に基づき、又は、前記スペクトル線(SL1−32)群の1つについての調性表示値(TI5−32)は、前記音声信号(AS)の先行フレーム(F)についてのスペクトル線(SL1−32)群の調性表示値(TI5−32)に基づく、音声エンコーダ。
  6. 請求項3から請求項5のいずれかに記載の音声エンコーダであって、前記調性表示値(TI5−32)は、以下の式によって計算され、
    Figure 2016510426
    ここで、iは、前記音声信号(AS)の特定のフレーム(F)を示すインデックスであり、kは、特定のスペクトル線を示すインデックスであり、Tk,iは、i番目のフレーム(F)のk番目のスペクトル線の調性表示値(TI5−32)であり、Pk,iは、i番目のフレーム(F)のk番目のスペクトル線のパワー値(PS5−32)であり、又は、前記調性表示値(TI5−32)は、以下の式によって計算され、
    Figure 2016510426
    ここで、iは、前記音声信号(AS)の特定のフレーム(F)を示すインデックスであり、mは、特定のスペクトル線(SL1−32)群を示すインデックスであり、Pm,iは、i番目のフレームのm番目のスペクトル線(SL1−32)群のパワー値である、音声エンコーダ。
  7. 先行する請求項のいずれかに記載の音声エンコーダであって、前記音声エンコーダ(1)は、前記不感帯(DZ)を変更するための開始周波数(SF)を算出するように構成された開始周波数算出装置(7)を含み、前記不感帯(DZ)は、前記開始周波数(SF)以上の周波数を表すスペクトル線(SL)についてのみ変更される、音声エンコーダ。
  8. 先行する請求項に記載の音声エンコーダであって、前記開始周波数算出装置(7)は、前記音声信号(AS)のサンプルレートに基づき、且つ/又は、前記符号化信号(ES)から生成されたビットストリームについて予想される最大ビットレートに基づき、前記開始周波数(SF)を算出するように構成される、音声エンコーダ。
  9. 請求項3から請求項8のいずれかに記載の音声エンコーダであって、前記音声エンコーダ(1)は、前記音声信号(AS)のフレーム(F)から変更後離散余弦変換(CT)を算出するように構成された変更後離散余弦変換算出装置(8)と、前記音声信号(AS)のフレーム(F)から変更後離散正弦変換(ST)を算出するように構成された変更後離散正弦変換算出装置(9)と、を含み、前記パワースペクトル算出装置(6)は、前記変更後離散余弦変換(CT)及び前記変更後離散正弦変換(ST)に基づき前記パワースペクトル(PS)を算出するように構成される、音声エンコーダ。
  10. 請求項3から請求項9のいずれかに記載の音声エンコーダであって、前記パワースペクトル算出装置(6)は、Pk,i=(MDCTk,i+(MDSTk,iの式によって前記パワー値(PS5−32)を算出するように構成され、ここで、iは、前記音声信号の特定のフレームを示すインデックスであり、kは、特定のスペクトル線を示すインデックスであり、MDCTk,iは、i番目のフレームのk番目のスペクトル線における変更後離散余弦変換(CT)の値であり、MDSTk,iは、i番目のフレームのk番目のスペクトル線における変更後離散正弦変換(ST)の値であり、Pk,iは、i番目のフレームのk番目のスペクトル線のパワー値(PS5−32)である、音声エンコーダ。
  11. 先行する請求項のいずれかに記載の音声エンコーダであって、前記音声エンコーダ(1)は、前記スペクトル信号(SPS)を生成するように構成されたスペクトル信号算出装置(10)を含み、前記スペクトル信号算出装置(10)は、前記不感帯(DZ)の変更によるエネルギーの損失を補償するように前記スペクトル信号(SPS)のスペクトル線(SL1−32)の振幅を設定するように構成された振幅設定装置(11)を含む、音声エンコーダ。
  12. 先行する請求項に記載の音声エンコーダであって、前記振幅設定装置(11)は、それぞれの前記スペクトル線における不感帯(DZ)の変更に応じて前記スペクトル信号(SPS)の振幅を設定するように構成される、音声エンコーダ。
  13. 請求項11又は請求項12に記載の音声エンコーダであって、前記スペクトル信号算出装置(10)は、正規化装置(12)を含む、音声エンコーダ。
  14. 請求項11から請求項13のいずれかに記載の音声エンコーダであって、前記変更後離散余弦変換算出装置(8)によって算出された前記音声信号(AS)のフレーム(F)からの変換後離散余弦変換(CT)は、前記スペクトル信号算出装置(10)に入力される、音声エンコーダ。
  15. エンコーダ(1)と、デコーダと、を備えるシステムであって、前記エンコーダ(1)は、請求項1から請求項14のいずれかに従って設計される、システム。
  16. 音声信号(AS)を符号化して符号化信号(ES)を生成するための方法であって、前記方法は、
    前記音声信号(AS)からフレーム(F)を抽出するステップと、
    前記音声信号(AS)のフレーム(F)から導出したスペクトル信号(SPS)のスペクトル線(SL1−32)を量子化インデックス(I,I)にマッピングするステップと、を備え、前記入力スペクトル線(SL1−32)が量子化インデックス・ゼロ(I)に対してマッピングされた不感帯(DZ)が用いられ、前記方法は更に、
    前記不感帯(DZ)を変更するステップ、を備え、
    少なくとも1つのスペクトル線又は少なくとも1つのスペクトル線(SL1−32)群についての少なくとも1つの調性表示値(TI5−32)が算出され、
    それぞれの前記調性表示値(TI5−32)に応じて、前記少なくとも1つのスペクトル線又は前記少なくとも1つのスペクトル線(SL1−32)群についての不感帯(DZ)が変更される、方法。
  17. コンピュータ又はプロセッサにおいて実行された際に請求項16に記載の方法を実行するためのコンピュータプログラム。
JP2015554196A 2013-01-29 2014-01-28 低複雑度の調性適応音声信号量子化 Active JP6334564B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361758191P 2013-01-29 2013-01-29
US61/758,191 2013-01-29
PCT/EP2014/051624 WO2014118171A1 (en) 2013-01-29 2014-01-28 Low-complexity tonality-adaptive audio signal quantization

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017076101A Division JP6526091B2 (ja) 2013-01-29 2017-04-06 低複雑度の調性適応音声信号量子化

Publications (2)

Publication Number Publication Date
JP2016510426A true JP2016510426A (ja) 2016-04-07
JP6334564B2 JP6334564B2 (ja) 2018-05-30

Family

ID=50023575

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2015554196A Active JP6334564B2 (ja) 2013-01-29 2014-01-28 低複雑度の調性適応音声信号量子化
JP2017076101A Active JP6526091B2 (ja) 2013-01-29 2017-04-06 低複雑度の調性適応音声信号量子化
JP2019087245A Active JP6979048B2 (ja) 2013-01-29 2019-05-07 低複雑度の調性適応音声信号量子化

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2017076101A Active JP6526091B2 (ja) 2013-01-29 2017-04-06 低複雑度の調性適応音声信号量子化
JP2019087245A Active JP6979048B2 (ja) 2013-01-29 2019-05-07 低複雑度の調性適応音声信号量子化

Country Status (20)

Country Link
US (3) US10468043B2 (ja)
EP (1) EP2939235B1 (ja)
JP (3) JP6334564B2 (ja)
KR (1) KR101757341B1 (ja)
CN (2) CN105103226B (ja)
AR (1) AR095087A1 (ja)
AU (1) AU2014211539B2 (ja)
BR (1) BR112015018050B1 (ja)
CA (1) CA2898789C (ja)
ES (1) ES2613651T3 (ja)
HK (1) HK1216263A1 (ja)
MX (1) MX346732B (ja)
MY (1) MY172848A (ja)
PL (1) PL2939235T3 (ja)
PT (1) PT2939235T (ja)
RU (1) RU2621003C2 (ja)
SG (1) SG11201505922XA (ja)
TW (1) TWI524331B (ja)
WO (1) WO2014118171A1 (ja)
ZA (1) ZA201506319B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2014211539B2 (en) 2013-01-29 2017-04-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-complexity tonality-adaptive audio signal quantization
EP3396670B1 (en) * 2017-04-28 2020-11-25 Nxp B.V. Speech signal processing
CN113539281A (zh) * 2020-04-21 2021-10-22 华为技术有限公司 音频信号编码方法和装置
US11348594B2 (en) * 2020-06-11 2022-05-31 Qualcomm Incorporated Stream conformant bit error resilience

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995012920A1 (fr) * 1993-11-04 1995-05-11 Sony Corporation Codeur de signaux, decodeur de signaux, support d'enregistrement et procede de codage de signaux
JP2005530205A (ja) * 2002-06-17 2005-10-06 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スペクトルホール充填を用いるオーディオコーディングシステム
JP2005338637A (ja) * 2004-05-28 2005-12-08 Sony Corp オーディオ信号符号化装置及び方法
JP2008170554A (ja) * 2007-01-09 2008-07-24 Toshiba Corp オーディオデータ処理装置及び端末装置

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2841765B2 (ja) * 1990-07-13 1998-12-24 日本電気株式会社 適応ビット割当て方法及び装置
TW224553B (en) * 1993-03-01 1994-06-01 Sony Co Ltd Method and apparatus for inverse discrete consine transform and coding/decoding of moving picture
US6167093A (en) * 1994-08-16 2000-12-26 Sony Corporation Method and apparatus for encoding the information, method and apparatus for decoding the information and method for information transmission
DE19505435C1 (de) 1995-02-17 1995-12-07 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
JP3308764B2 (ja) * 1995-05-31 2002-07-29 日本電気株式会社 音声符号化装置
DE19614108C1 (de) * 1996-04-10 1997-10-23 Fraunhofer Ges Forschung Anordnung zur Vermessung der Koordinaten eines an einem Objekt angebrachten Retroreflektors
US5924064A (en) * 1996-10-07 1999-07-13 Picturetel Corporation Variable length coding using a plurality of region bit allocation patterns
US6301304B1 (en) * 1998-06-17 2001-10-09 Lsi Logic Corporation Architecture and method for inverse quantization of discrete cosine transform coefficients in MPEG decoders
CA2246532A1 (en) * 1998-09-04 2000-03-04 Northern Telecom Limited Perceptual audio coding
DE10134471C2 (de) * 2001-02-28 2003-05-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Charakterisieren eines Signals und Verfahren und Vorrichtung zum Erzeugen eines indexierten Signals
US7280700B2 (en) 2002-07-05 2007-10-09 Microsoft Corporation Optimization techniques for data compression
US8090577B2 (en) * 2002-08-08 2012-01-03 Qualcomm Incorported Bandwidth-adaptive quantization
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP3881943B2 (ja) 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
US7318027B2 (en) * 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
US7333930B2 (en) 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
US7738554B2 (en) * 2003-07-18 2010-06-15 Microsoft Corporation DC coefficient signaling at small quantization step sizes
FR2882458A1 (fr) * 2005-02-18 2006-08-25 France Telecom Procede de mesure de la gene due au bruit dans un signal audio
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US8059721B2 (en) * 2006-04-07 2011-11-15 Microsoft Corporation Estimating sample-domain distortion in the transform domain with rounding compensation
US7995649B2 (en) * 2006-04-07 2011-08-09 Microsoft Corporation Quantization adjustment based on texture level
US20080049950A1 (en) * 2006-08-22 2008-02-28 Poletti Mark A Nonlinear Processor for Audio Signals
WO2008046492A1 (en) 2006-10-20 2008-04-24 Dolby Sweden Ab Apparatus and method for encoding an information signal
US8498335B2 (en) * 2007-03-26 2013-07-30 Microsoft Corporation Adaptive deadzone size adjustment in quantization
ATE518224T1 (de) * 2008-01-04 2011-08-15 Dolby Int Ab Audiokodierer und -dekodierer
JP5262171B2 (ja) 2008-02-19 2013-08-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
WO2010001020A2 (fr) * 2008-06-06 2010-01-07 France Telecom Codage/decodage par plans de bits, perfectionne
BR122021003726B1 (pt) * 2008-07-11 2021-11-09 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio.
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
CN102428702B (zh) * 2009-05-16 2016-02-17 汤姆逊许可证公司 用于针对视频编码和解码的改进量化舍入偏移调节的方法和设备
RU2559899C2 (ru) * 2010-04-09 2015-08-20 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
CA2833874C (en) 2011-04-21 2019-11-05 Ho-Sang Sung Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
TWI473078B (zh) * 2011-08-26 2015-02-11 Univ Nat Central 音訊處理方法以及裝置
US8885706B2 (en) * 2011-09-16 2014-11-11 Google Inc. Apparatus and methodology for a video codec system with noise reduction capability
AU2014211539B2 (en) 2013-01-29 2017-04-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Low-complexity tonality-adaptive audio signal quantization
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995012920A1 (fr) * 1993-11-04 1995-05-11 Sony Corporation Codeur de signaux, decodeur de signaux, support d'enregistrement et procede de codage de signaux
JP2005530205A (ja) * 2002-06-17 2005-10-06 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スペクトルホール充填を用いるオーディオコーディングシステム
JP2005338637A (ja) * 2004-05-28 2005-12-08 Sony Corp オーディオ信号符号化装置及び方法
JP2008170554A (ja) * 2007-01-09 2008-07-24 Toshiba Corp オーディオデータ処理装置及び端末装置

Also Published As

Publication number Publication date
CN105103226B (zh) 2019-04-16
WO2014118171A1 (en) 2014-08-07
RU2621003C2 (ru) 2017-05-30
ES2613651T3 (es) 2017-05-25
MX346732B (es) 2017-03-30
SG11201505922XA (en) 2015-08-28
EP2939235A1 (en) 2015-11-04
BR112015018050A2 (pt) 2017-07-18
CA2898789C (en) 2017-12-05
CN110047499B (zh) 2023-08-29
JP6334564B2 (ja) 2018-05-30
US11694701B2 (en) 2023-07-04
MY172848A (en) 2019-12-12
CN105103226A (zh) 2015-11-25
AU2014211539A1 (en) 2015-09-17
KR20150118954A (ko) 2015-10-23
TWI524331B (zh) 2016-03-01
US11094332B2 (en) 2021-08-17
MX2015009753A (es) 2015-11-06
JP6979048B2 (ja) 2021-12-08
PT2939235T (pt) 2017-02-07
US20200090671A1 (en) 2020-03-19
BR112015018050B1 (pt) 2021-02-23
TW201440039A (zh) 2014-10-16
CA2898789A1 (en) 2014-08-07
US20210366499A1 (en) 2021-11-25
CN110047499A (zh) 2019-07-23
AR095087A1 (es) 2015-09-30
ZA201506319B (en) 2016-07-27
JP2017151454A (ja) 2017-08-31
JP6526091B2 (ja) 2019-06-05
JP2019164367A (ja) 2019-09-26
RU2015136242A (ru) 2017-03-07
AU2014211539B2 (en) 2017-04-20
PL2939235T3 (pl) 2017-04-28
KR101757341B1 (ko) 2017-07-14
US10468043B2 (en) 2019-11-05
US20160027448A1 (en) 2016-01-28
EP2939235B1 (en) 2016-11-16
HK1216263A1 (zh) 2016-10-28

Similar Documents

Publication Publication Date Title
TWI578308B (zh) 音訊信號頻譜之頻譜係數的編碼技術
JP6979048B2 (ja) 低複雑度の調性適応音声信号量子化
US20200327896A1 (en) Low-frequency emphasis for lpc-based coding in frequency domain
AU2016231220B2 (en) Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
KR20120128156A (ko) 샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161018

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170117

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170926

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20171216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180315

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180426

R150 Certificate of patent or registration of utility model

Ref document number: 6334564

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250