JP6495420B2 - SPECTRUM ENCODING DEVICE AND SPECTRUM DECODING DEVICE - Google Patents
SPECTRUM ENCODING DEVICE AND SPECTRUM DECODING DEVICE Download PDFInfo
- Publication number
- JP6495420B2 JP6495420B2 JP2017216718A JP2017216718A JP6495420B2 JP 6495420 B2 JP6495420 B2 JP 6495420B2 JP 2017216718 A JP2017216718 A JP 2017216718A JP 2017216718 A JP2017216718 A JP 2017216718A JP 6495420 B2 JP6495420 B2 JP 6495420B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- encoding
- spectrum
- decoding
- frequency domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001228 spectrum Methods 0.000 title claims description 93
- 238000000034 method Methods 0.000 claims description 55
- 230000003595 spectral effect Effects 0.000 claims description 54
- 238000013139 quantization Methods 0.000 claims description 49
- 230000005284 excitation Effects 0.000 description 48
- 238000010586 diagram Methods 0.000 description 34
- 230000005236 sound signal Effects 0.000 description 28
- 230000001052 transient effect Effects 0.000 description 23
- 238000006243 chemical reaction Methods 0.000 description 21
- 238000007781 pre-processing Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 16
- 238000012805 post-processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 238000001514 detection method Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000001914 filtration Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000007493 shaping process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000000611 regression analysis Methods 0.000 description 3
- 230000011664 signaling Effects 0.000 description 3
- 210000004966 intestinal stem cell Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本発明は、オーディオ信号あるいはスピーチ信号の符号化及び復号化に係り、さらに具体的には、周波数ドメインにおいて、スペクトル係数を符号化あるいは復号化する方法及びその装置に関する。 The present invention relates to encoding and decoding of an audio signal or speech signal, and more particularly to a method and apparatus for encoding or decoding spectral coefficients in the frequency domain.
周波数ドメインにおいて、スペクトル係数の効率的な符号化のために、多様な方式の量子化器が提案されている。例えば、TCQ(trellis coded quantization)、USQ(uniform scalar quantization)、FPC(factorial pulse coding)、AVQ(algebraic VQ)、PVQ(pyramid VQ)などがあり、それぞれの量子化器に最適化された無損失符号化器が共に具現される。 Various types of quantizers have been proposed for efficient coding of spectral coefficients in the frequency domain. For example, TCQ (trellis coded quantization), USQ (uniform scalar quantization), FPC (factorial pulse coding), AVQ (algebraic VQ), PVQ (pyramid VQ), etc. are lossless optimized for each quantizer. Both encoders are implemented.
本発明が解決しようとする課題は、周波数ドメインにおいて、多様なビット率、あるいは多様なサブバンドの大きさに適応的にスペクトル係数を符号化あるいは復号化する方法、及びその装置を提供するところにある。 The problem to be solved by the present invention is to provide a method and apparatus for encoding or decoding spectral coefficients adaptively to various bit rates or various subband sizes in the frequency domain. is there.
本発明が解決しようとする他の課題は、信号符号化方法あるいはその復号化方法を、コンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体を提供するところにある。 Another problem to be solved by the present invention is to provide a computer-readable recording medium on which a program for causing a computer to execute a signal encoding method or a decoding method thereof is recorded.
本発明が解決しようとする他の課題は、信号符号化装置あるいはその復号化装置を採用するマルチメディア機器を提供するところにある。 Another problem to be solved by the present invention is to provide a multimedia device that employs a signal encoding device or a decoding device thereof.
前記課題を達成するための一側面による信号符号化方法は、正規化されたスペクトルに対して、各バンド別に重要周波数成分を選択する段階、及び各バンド別に選択された重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて符号化する段階を含んでもよい。 According to one aspect of the present invention, there is provided a signal encoding method comprising: selecting a significant frequency component for each band with respect to a normalized spectrum; and information on a significant frequency component selected for each band, It may include the step of encoding based on the number, position, size and code.
前記課題を達成するための一側面による信号復号化方法は、ビットストリームから、符号化されたスペクトルの各バンド別に重要周波数成分の情報を得る段階と、各バンド別に、前記得られた重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて復号化する段階と、を含んでもよい。 According to one aspect of the present invention, there is provided a signal decoding method comprising: obtaining information on important frequency components for each band of a coded spectrum from a bitstream; and obtaining the important frequency components obtained for each band. And decoding the information based on the number, position, size and code.
多様なビット率と、多様なサブバンドの大きさとに適応的なスペクトル係数の符号化及び復号化が可能である。 It is possible to encode and decode spectral coefficients adaptive to various bit rates and various subband sizes.
本発明は、多様な変換を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、詳細な説明で具体的に説明する。しかし、それは、本発明を特定の実施形態について限定するものではなく、本発明の技術的思想、及び技術範囲に含まれる全ての変換、均等物ないし代替物を含むものであると理解される。本発明の説明において、関連公知技術に係わる具体的な説明が、本発明の要旨を不明確にすると判断される場合、その詳細な説明を省略する。 While the invention is susceptible to various modifications, and may have various embodiments, specific embodiments are illustrated in the drawings and are specifically described in the detailed description. However, it is understood that the present invention is not limited to a specific embodiment, and includes all the conversions, equivalents, and alternatives included in the technical idea and technical scope of the present invention. In the description of the present invention, when it is determined that a specific description related to a related known technique obscures the gist of the present invention, a detailed description thereof will be omitted.
第1、第2のような用語は、多様な構成要素の説明に使用されるが、構成要素が用語によって限定されるものではない。用語は、1つの構成要素を他の構成要素から区別する目的にのみ使用される。 Terms such as “first” and “second” are used to describe various components, but the components are not limited by the terms. The terminology is used only for the purpose of distinguishing one component from another.
本発明で使用した用語は、ただ特定実施形態の説明に使用されたものであり、本発明を限定する意図ではない。本発明で使用した用語は、本発明での機能を考慮しながら、可能な限り現在広く使用される一般的な用語を選択したが、それは当分野に携わる技術者の意図、判例または新たな技術の出現などによって異なる。また、特定の場合、出願人が任意に選定した用語もあり、その場合、当該発明の説明部分において、詳細にその意味を記載する。従って、本発明で使用される用語は、単純な用語の名称ではない、その用語が有する意味、及び本発明の全般にわたった内容を基に定義されなければならない。 The terms used in the present invention are merely used to describe specific embodiments, and are not intended to limit the present invention. The terminology used in the present invention was selected as a general term that is widely used as much as possible in consideration of the function of the present invention, but it is the intention, precedent or new technology of a person skilled in the art. It depends on the appearance of In addition, in certain cases, there are terms arbitrarily selected by the applicant, and in that case, the meaning is described in detail in the explanation part of the invention. Therefore, the terms used in the present invention should be defined based on the meanings of the terms, not the simple term names, and the contents of the present invention in general.
単数の表現は、文脈上、明白に異なって意味しない限り、複数の表現を含む。本発明において、「含む」または「有する」というような用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部品、またはそれらの組み合わせが存在するということを指定するものであり、一つまたはそれ以上の他の特徴、数字、段階、動作、構成要素、部品、またはそれらの組み合わせの存在または付加の可能性を事前に排除するものではないということを理解しなければならない。 The singular expression includes the plural unless the context clearly indicates otherwise. In the present invention, terms such as “comprising” or “having” designate that the features, numbers, steps, operations, components, parts, or combinations thereof described in the specification are present. And it should not be understood in advance that the possibility of the presence or addition of one or more other features, numbers, steps, actions, components, parts, or combinations thereof is not excluded in advance. Don't be.
以下、本発明の実施形態について、添付図面を参照し、詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
図1A及び図1Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号化装置の一例による構成をそれぞれ示したブロック図である。 1A and 1B are block diagrams respectively showing configurations of an audio encoding device and an audio decoding device to which the present invention is applied.
図1Aに図示されたオーディオ符号化装置110は、前処理部112、周波数ドメイン符号化部114及びパラメータ符号化部116を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
The
図1Aにおいて、前処理部112は、入力信号に対して、フィルタリングあるいはダウンサンプリングなどを行うが、それらに限定されるものではない。入力信号は、オーディオ、ミュージックまたはスピーチ、あるいはそれらの混合信号を示すサウンドのようなメディア信号を意味するが、以下では、説明の便宜のために、オーディオ信号とする。
In FIG. 1A, the preprocessing
周波数ドメイン符号化部114は、前処理部112から提供されるオーディオ信号に対して、時間−周波数変換を行い、オーディオ信号のチャンネル数、符号化帯域及びビット率に対応して符号化ツールを選択し、選択された符号化ツールを利用して、オーディオ信号に対する符号化を行う。時間−周波数変換は、MDCT(modified discrete cosine transform)、MLT(modulated lapped transform)あるいはFFT(fast Fourier transform)を使用するが、それらに限定されるものではない。ここで、与えられたビット数が十分である場合、全体帯域に対して一般的な変換符号化方式を適用し、与えられたビット数が十分ではない場合、一部帯域については、帯域拡張方式を適用することができる。一方、オーディオ信号が、ステレオあるいはマルチチャンネルである場合、与えられたビット数が十分であるならば、各チャンネル別に符号化し、十分ではなければ、ダウンミキシング方式を適用することができる。周波数ドメイン符号化部114からは、符号化されたスペクトル係数が生成される。
The frequency
パラメータ符号化部116は、周波数ドメイン符号化部114から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化することができる。パラメータは、例えば、サブバンド別あるいはバンド別に抽出され、以下では、説明の簡素化のためにサブバンドとする。各サブバンドは、スペクトル係数をグルーピングした単位であり、臨界帯域を反映させ、均一あるいは非均一の長さを有することができる。非均一長を有する場合、低周波数帯域に存在するサブバンドの場合、高周波数帯域と比較し、相対的に短い長さを有する。1フレームに含まれるサブバンドの個数及び長さは、コーデックアルゴリズムによって異なり、符号化性能に影響を及ぼす。一方、パラメータは、サブバンドのスケールファクタ、パワー、平均エネルギーあるいはnormを例として挙げることができるが、それらに限定されるものではない。符号化の結果として得られるスペクトル係数とパラメータは、ビットストリームを形成し、記録媒体に保存されるか、あるいはチャネルを介して、例えば、パッケージ形態で伝送される。
The
図1Bに図示されたオーディオ復号化装置130は、パラメータ復号化部132、周波数ドメイン復号化部134及び後処理部136を含んでもよい。ここで、周波数ドメイン復号化部134は、フレーム消去隠匿(FEC:frame erasure concealment)アルゴリズムあるいはパケット損失隠匿(PLC:packet loss concealment)アルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
The
図1Bにおいて、パラメータ復号化部132は、受信されたビットストリームから、符号化されたパラメータを復号化し、復号化されたパラメータから、フレーム単位で消去あるいは損失のようなエラーが発生したか否かということをチェックすることができる。エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいは消去フレームまたは損失フレームであるかということに係わる情報を、周波数ドメイン復号化部134に提供する。以下では、説明の簡素化のために、消去フレームあるいは損失フレームをエラーフレームであるとする。
In FIG. 1B, the
周波数ドメイン復号化部134は、現在フレームが正常フレームである場合、一般的な変換復号化過程を介して復号化を行い、合成されたスペクトル係数を生成することができる。一方、周波数ドメイン復号化部134は、現在フレームがエラーフレームである場合、FECアルゴリズムあるいはPLCアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用するとか回帰分析を介してスケーリングして繰り返すことで、合成されたスペクトル係数を生成することができる。周波数ドメイン復号化部134は、合成されたスペクトル係数に対して、周波数−時間変換を行い、時間ドメイン信号を生成することができる。
When the current frame is a normal frame, the frequency
後処理部136は、周波数ドメイン復号化部134から提供される時間ドメイン信号に対して、音質向上のためのフィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部136は、出力信号として、復元されたオーディオ信号を提供する。
The
図2A及び図2Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号化装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。 2A and 2B are block diagrams respectively showing configurations of other examples of an audio encoding device and an audio decoding device to which the present invention is applied, and have a switching structure.
図2Aに図示されたオーディオ符号化装置210は、前処理部212、モード決定部213、周波数ドメイン符号化部214、時間ドメイン符号化部215及びパラメータ符号化部216を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。図2Aにおいて、前処理部212は、図1Aの前処理部112と実質的に同一であるので、説明を省略する。
The
モード決定部213は、入力信号の特性を参照し、符号化モードを決定することができる。入力信号の特性によって、現在フレームに適する符号化モードが、音声モードであるか、あるいは音楽モードであるかということを決定し、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということを決定することができる。ここで、フレームの短区間特性、あるいは複数のフレームに係わる長区間特性などを利用して、入力信号の特性を把握することができるが、それに限定されるものではない。例えば、入力信号が音声信号に該当すれば、音声モードあるいは時間ドメインモードに決定し、入力信号が音声信号以外の信号、すなわち、音楽信号あるいは混合信号に該当すれば、音楽モードあるいは周波数ドメインモードに決定することができる。モード決定部213は、入力信号の特性が、音楽モードあるいは周波数ドメインモードに該当する場合には、前処理部212の出力信号を周波数ドメイン符号化部214に提供し、入力信号の特性が、音声モードあるいは時間ドメインモードに該当する場合、時間ドメイン符号化部215に提供することができる。
The
周波数ドメイン符号化部214は、図1Aの周波数ドメイン符号化部114と実質的に同一であるので、説明を省略する。
The frequency
時間ドメイン符号化部215は、前処理部212から提供されるオーディオ信号に対して、CELP(code excited linear prediction)符号化を行う。具体的には、ACELP(algebraic CELP)を使用することができるが、それに限定されるものではない。
The time
パラメータ符号化部216は、周波数ドメイン符号化部214あるいは時間ドメイン符号化部215から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化する。パラメータ符号化部216は、図1Aのパラメータ符号化部116と実質的に同一であるので、説明を省略する。符号化の結果として得られるスペクトル係数とパラメータは、符号化モード情報と共にビットストリームを形成し、チャネルを介してパケット形態で伝送したり記録媒体に保存されたりする。
The
図2Bに図示されたオーディオ復号化装置230は、パラメータ復号化部232、モード決定部233、周波数ドメイン復号化部234、時間ドメイン復号化部235及び後処理部236を含んでもよい。ここで、周波数ドメイン復号化部234と時間ドメイン復号化部235は、それぞれ当該ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
The
図2Bにおいて、パラメータ復号化部232は、パケット形態で伝送されるビットストリームから、パラメータを復号化し、復号化されたパラメータから、フレーム単位で、エラーが発生したか否かということをチェックすることができる。エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいはエラーフレームであるかということに係わる情報を、周波数ドメイン復号化部234あるいは時間ドメイン復号化部235に提供する。
In FIG. 2B, the
モード決定部233は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを周波数ドメイン復号化部234あるいは時間ドメイン復号化部235に提供する。
The
周波数ドメイン復号化部234は、符号化モードが音楽モードあるいは周波数ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的な変換復号化過程を介して復号化を行い、合成されたスペクトル係数を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音楽モードあるいは周波数ドメインモードである場合、周波数ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用したり、回帰分析を介してスケーリングして反復したりすることにより、合成されたスペクトル係数を生成することができる。周波数ドメイン復号化部234は、合成されたスペクトル係数に対して周波数−時間変換を行い、時間ドメイン信号を生成することができる。
The frequency
時間ドメイン復号化部235は、符号化モードが音声モードあるいは時間ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的なCELP復号化過程を介して復号化を行い、時間ドメイン信号を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音声モードあるいは時間ドメインモードである場合、時間ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを遂行することができる。
The time
後処理部236は、周波数ドメイン復号化部234あるいは時間ドメイン復号化部235から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部236は、出力信号として、復元されたオーディオ信号を提供する。
The
図3A及び図3Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号化装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。 3A and 3B are block diagrams respectively showing configurations according to other examples of an audio encoding device and an audio decoding device to which the present invention is applied, and have a switching structure.
図3Aに図示されたオーディオ符号化装置310は、前処理部312)、LP(linear prediction)分析部313、モード決定部314、周波数ドメイン励起符号化部315、時間ドメイン励起符号化部316及びパラメータ符号化部317を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
The
図3Aにおいて、前処理部312は、図1Aの前処理部112と実質的に同一であるので、説明を省略する。
In FIG. 3A, the
LP分析部313は、入力信号に対してLP分析を行ってLP係数を抽出し、抽出されたLP係数から励起信号を生成する。励起信号は、符号化モードにより、周波数ドメイン励起符号化部315と時間ドメイン励起符号化部316とのうち一つに提供される。
The
モード決定部314は、図2Bのモード決定部213と実質的に同一であるので、説明を省略する。
The
周波数ドメイン励起符号化部315は、符号化モードが音楽モードあるいは周波数ドメインモードである場合に動作し、入力信号が励起信号であることを除いては、図1Aの周波数ドメイン符号化部114と実質的に同一であるので、説明を省略する。
The frequency domain
時間ドメイン励起符号化部316は、符号化モードが音声モードあるいは時間ドメインモードである場合に動作し、入力信号が励起信号であることを除いては、図2Aの時間ドメイン符号化部215と実質的に同一であるので、説明を省略する。
The time domain
パラメータ符号化部317は、周波数ドメイン励起符号化部315あるいは時間ドメイン励起符号化部316から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化する。パラメータ符号化部317は、図1Aのパラメータ符号化部116と実質的に同一であるので、説明を省略する。符号化の結果として得られるスペクトル係数とパラメータは、符号化モード情報と共にビットストリームを形成し、チャネルを介してパケット形態で伝送されるか、あるいは記録媒体に保存される。
The
図3Bに図示されたオーディオ復号化装置330は、パラメータ復号化部332、モード決定部333、周波数ドメイン励起復号化部334、時間ドメイン励起復号化部335、LP合成部336及び後処理部337を含んでもよい。ここで、周波数ドメイン励起復号化部334と時間ドメイン励起復号化部335は、それぞれ当該ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
The
図3Bにおいて、パラメータ復号化部332は、パケット形態で伝送されるビットストリームから、パラメータを復号化し、復号化されたパラメータから、フレーム単位で、エラーが発生したか否かということをチェックすることができる。エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいはエラーフレームであるかということに係わる情報を、周波数ドメイン励起復号化部334あるいは時間ドメイン励起復号化部335に提供する。
In FIG. 3B, the
モード決定部333は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを、周波数ドメイン励起復号化部334あるいは時間ドメイン励起復号化部335に提供する。
The
周波数ドメイン励起復号化部334は、符号化モードが音楽モードあるいは周波数ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的な変換復号化過程を介して復号化を行い、合成されたスペクトル係数を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音楽モードあるいは周波数ドメインモードである場合、周波数ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用したり、回帰分析を介してスケーリングして反復したりすることにより、合成されたスペクトル係数を生成することができる。周波数ドメイン励起復号化部334は、合成されたスペクトル係数に対して周波数−時間変換を行い、時間ドメイン信号である励起信号を生成することができる。
The frequency domain
時間ドメイン励起復号化部335は、符号化モードが音声モードあるいは時間ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的なCELP復号化過程を介して復号化を行い、時間ドメイン信号である励起信号を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音声モードあるいは時間ドメインモードである場合、時間ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを遂行することができる。
The time domain
LP合成部336は、周波数ドメイン励起復号化部334あるいは時間ドメイン励起復号化部335から提供される励起信号に対してLP合成を行い、時間ドメイン信号を生成する。
The
後処理部337は、LP合成部336から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部337は、出力信号として、復元されたオーディオ信号を提供する。
The
図4A及び図4Bは、本発明が適用されるオーディオ符号化装置及びオーディオ復号化装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。 4A and 4B are block diagrams respectively showing configurations of other examples of an audio encoding device and an audio decoding device to which the present invention is applied, and have a switching structure.
図4Aに図示されたオーディオ符号化装置410は、前処理部412、モード決定部413、周波数ドメイン符号化部414、LP分析部415、周波数ドメイン励起符号化部416、時間ドメイン励起符号化部417及びパラメータ符号化部418を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。図4Aに図示されたオーディオ符号化装置410は、図2Aのオーディオ符号化装置210と、図3Aのオーディオ符号化装置310とを結合したものであると見ることができるので、共通する部分の動作説明は省略する一方、モード決定部413の動作について説明する。
The
モード決定部413は、入力信号の特性及びビット率を参照し、入力信号の符号化モードを決定することができる。モード決定部413は、入力信号の特性によって、現在フレームが音声モードであるか、あるいは音楽モードであるかということにより、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということにより、CELPモードと、それ以外のモードとに決定することができる。もし入力信号の特性が音声モードである場合には、CELPモードに決定し、音楽モードでありながら、高ビット率である場合、FDモードに決定し、音楽モードでありながら、低ビット率である場合、オーディオモードに決定することができる。モード決定部413は、FDモードである場合、入力信号を周波数ドメイン符号化部414に提供し、オーディオモードである場合、LP分析部415を介して周波数ドメイン励起符号化部416に提供し、CELPモードである場合、LP分析部415を介して、時間ドメイン励起符号化部417に提供することができる。
The
周波数ドメイン符号化部414は、図1Aのオーディオ符号化装置110の周波数ドメイン符号化部114、あるいは図2Aのオーディオ符号化装置210の周波数ドメイン符号化部214に対応し、周波数ドメイン励起符号化部416あるいは時間ドメイン励起符号化部417は、図3Aのオーディオ符号化装置310の周波数ドメイン励起符号化部315あるいは時間ドメイン励起符号化部316に対応する。
The frequency
図4Bに図示されたオーディオ復号化装置430は、パラメータ復号化部432、モード決定部433、周波数ドメイン復号化部434、周波数ドメイン励起復号化部435、時間ドメイン励起復号化部436、LP合成部437及び後処理部438を含んでもよい。ここで、周波数ドメイン復号化部434、周波数ドメイン励起復号化部435及び時間ドメイン励起復号化部436は、それぞれ当該ドメインでのFECアルゴリズムあるいはPLCアルゴリズムを含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。図4Bに図示されたオーディオ復号化装置430は、図2Bのオーディオ復号化装置230と、図3Bのオーディオ復号化装置330とを結合したものであると見ることができるので、共通する部分の動作説明は省略する一方、モード決定部433の動作について説明する。
4B includes a
モード決定部433は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを、周波数ドメイン復号化部434、周波数ドメイン励起復号化部435あるいは時間ドメイン励起復号化部436に提供する。
The
周波数ドメイン復号化部434は、図1Bのオーディオ符号化装置130の周波数ドメイン復号化部134、あるいは図2Bのオーディオ復号化装置230の周波数ドメイン復号化部234に対応し、周波数ドメイン励起復号化部435あるいは時間ドメイン励起復号化部436は、図3Bのオーディオ復号化装置330の周波数ドメイン励起復号化部334あるいは時間ドメイン励起復号化部335に対応する。
The frequency
図5は、本発明が適用される周波数ドメインオーディオ符号化装置の構成を示したブロック図である。 FIG. 5 is a block diagram showing a configuration of a frequency domain audio encoding device to which the present invention is applied.
図5に図示された周波数ドメインオーディオ符号化装置510は、トランジェント検出部511)、変換部512、信号分類部513、エネルギー符号化部514、スペクトル正規化部515、ビット割当て部516、スペクトル符号化部517及び多重化部518を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。ここで、周波数ドメインオーディオ符号化装置510は、図2に図示された周波数ドメイン符号化部214の全ての機能と、パラメータ符号化部216の一部機能とを遂行することができる。一方、周波数ドメインオーディオ符号化装置510は、信号分類部513を除いては、ITU−T G.719標準に開示されたエンコーダの構成にも代替され、そのとき、変換部512は、50%のオーバーラップ区間を有する変換ウィンドウを使用することができる。また、周波数ドメインオーディオ符号化装置510は、トランジェント検出部511及び信号分類部513を除いては、ITU−T G.719標準に開示されたエンコーダの構成にも代替される。各場合において、図示されていないが、ITU−T G.719標準でのように、スペクトル符号化部517の後端に、ノイズレベル推定部をさらに具備し、ビット割り当て過程において、ゼロビットが割り当てられたスペクトル係数のためのノイズレベルを推定してビットストリームに含めることができる。
The frequency domain
図5を参照すれば、トランジェント検出部511は、入力信号を分析し、トランジェント特性を示す区間を検出し、検出結果に対応し、各フレームに係わるトランジェントシグナリング情報を生成することができる。そのとき、トランジェント区間の検出には、公知の多様な方法を使用することができる。一実施形態によれば、トランジェント検出部511は、まず現在フレームがトランジェントフレームであるか否かということを一次的に判断し、トランジェントフレームであると判断された現在フレームに対して、二次的に検証を行う。トランジェントシグナリング情報は、多重化部518を介してビットストリームに含まれる一方、変換部512に提供される。
Referring to FIG. 5, the
変換部512は、トランジェント区間の検出結果によって、変換に使用されるウィンドウサイズを決定し、決定されたウィンドウサイズに基づいて、時間−周波数変換を行う。一例として、トランジェント区間が検出されたサブバンドの場合、短区間ウィンドウ(short window)を適用し、検出されていないサブバンドの場合、長区間ウィンドウ(long window)を適用することができる。他の例として、トランジェント区間を含むフレームに対して、短区間ウィンドウを適用することができる。
The
信号分類部513は、変換部512から提供されるスペクトルをフレーム単位で分析し、各フレームがハーモニックフレームに該当するか否かということを判断することができる。そのとき、ハーモニックフレームの判断には、公知の多様な方法を使用することができる。一実施形態によれば、信号分類部513は、変換部512から提供されるスペクトルを複数のサブバンドに分け、各サブバンドに対して、エネルギーのピーク値及び平均値を求めることができる。次に、各フレームに対して、エネルギーのピーク値が、平均値より所定比率以上大きいサブバンドの数を求め、求められたサブバンドの数が所定値以上であるフレームをハーモニックフレームと決定することができる。ここで、所定比率及び所定値は、実験あるいはシミュレーションを介して、既定でもある。ハーモニックシグナリング情報は、多重化部518を介して、ビットストリームに含められる。
The
エネルギー符号化部514は、各サブバンド単位でエネルギーを求め、量子化及び無損失符号化を行うことができる。一実施形態によれば、エネルギーとして、各サブバンドの平均スペクトルエネルギーに該当するnorm値を使用することができ、スケールファクタあるいはパワーを代わりに使用することができるが、それらに限定されるものではない。ここで、各サブバンドのnorm値は、スペクトル正規化部515及びビット割当て部516に提供される一方、多重化部518を介してビットストリームに含められる。
The
スペクトル正規化部515は、各サブバンド単位で求められたnorm値を利用して、スペクトルを正規化することができる。
The
ビット割当て部516は、各サブバンド単位で求められたnorm値を利用して、整数単位あるいは小数点単位でビット割り当てを行う。また、ビット割当て部516は、各サブバンド単位で求められたnorm値を利用して、マスキング臨界値を計算し、マスキング臨界値を利用して、知覚的に必要なビット数、すなわち、許容ビット数を推定することができる。次に、ビット割当て部516は、各サブバンドに対して、割り当てビット数が許容ビット数を超えないように制限することができる。一方、ビット割当て部516は、norm値が大きいサブバンドから順次にビットを割り当て、各サブバンドのnorm値に対して、各サブバンドの知覚的重要度によって、加重値を付与することにより、知覚的に重要なサブバンドにさらに多くのビットが割り当てられるように調整することができる。そのとき、norm符号化部514からビット割当て部516に提供される量子化されたnorm値は、ITU−T G.719におけると同様に、心理音響加重(psycho-acoustical weighting)及びマスキングの効果を考慮するために、事前に調整された後でビット割り当てに使用される。
The
スペクトル符号化部517は、正規化されたスペクトルに対して、各サブバンドの割り当てビット数を利用して量子化を行い、量子化された結果に対して、無損失符号化することができる。一例として、スペクトル符号化に、TCQ、USQ、FPC、AVQ、PVQ、あるいはそれらの組み合わせ、及び各量子化器に対応する無損失符号化器を使用することができる。また、当該コーデックが搭載される環境、あるいはユーザの必要によって、多様なスペクトル符号化技法を適用することができる。スペクトル符号化部517で符号化されたスペクトルに係わる情報は、多重化部518を介してビットストリームに含められる。
The
図6は、本発明が適用される周波数ドメインオーディオ符号化装置の構成を示したブロック図である。図6に図示されたオーディオ符号化装置600は、前処理部610、周波数ドメイン符号化部630、時間ドメイン符号化部650及び多重化部670を含んでもよい。周波数ドメイン符号化部630は、トランジェント検出部631、変換部633及びスペクトル符号化部635を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
FIG. 6 is a block diagram showing a configuration of a frequency domain audio encoding device to which the present invention is applied. The
図6において、前処理部610は、入力信号に対して、フィルタリングあるいはダウンサンプリングなどを行うことができるが、それらに限定されるものではない。前処理部610は、信号特性に基づいて、符号化モードを決定することができる。信号特性によって、現在フレームに適する符号化モードが音声モードであるか、あるいは音楽モードであるかということを決定することができ、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということを決定することができる。ここで、フレームの短区間特性、あるいは複数のフレームに係わる長区間特性などを利用して、信号特性を把握することができるが、それらに限定されるものではない。例えば、入力信号が音声信号に該当すれば、音声モードあるいは時間ドメインモードに決定し、入力信号が音声信号以外の信号、すなわち、音楽信号あるいは混合信号に該当すれば、音楽モードあるいは周波数ドメインモードに決定することができる。前処理部610は、信号特性が音楽モードあるいは周波数ドメインモードに該当する場合には、入力信号を周波数ドメイン符号化部630に提供し、信号特性が音声モードあるいは時間ドメインモードに該当する場合、入力信号を時間ドメイン符号化部650に提供することができる。
In FIG. 6, the
周波数ドメイン符号化部630は、前処理部610から提供されるオーディオ信号を、変換符号化に基づいて、処理することができる。具体的には、トランジェント検出部631は、オーディオ信号からトランジェント成分を検出し、現在フレームがトランジェントフレームであるかを判断することができる。変換部633は、トランジェント検出部631から提供されるフレームタイプ、すなわち、トランジェント情報に基づいて、変換ウィンドウの長さあるいは形態を決定し、決定された変換ウィンドウに基づいて、オーディオ信号を、周波数ドメインに変換することができる。変換技法においては、MDCT、FFTあるいはMLTを適用することができる。一般的に、トランジェント成分を有するフレームについては、短い長さの変換ウィンドウを適用することができる。スペクトル符号化部635は、周波数ドメインに変換されたオーディオスペクトルに対して符号化を行う。スペクトル符号化部635については、図7及び図9を参照してさらに具体的に説明する。
The frequency
時間ドメイン符号化部650は、前処理部610から提供されるオーディオ信号に対して、CELP(code excited linear prediction)符号化を行う。具体的には、ACELP(algebraic CELP)を使用することができるが、それに限定されるものではない。
The time
多重化部670は、周波数ドメイン符号化部630あるいは時間ドメイン符号化部650において、符号化の結果として生成されるスペクトル成分あるいは信号成分と、多様なインデックスとを多重化してビットストリームを生成し、ビットストリームは、チャネルを介してパケット形態で伝送されるか、あるいは記録媒体に保存される。
The
図7は、一実施形態によるスペクトル符号化装置の構成を示すブロック図である。図7に図示された装置は、図6のスペクトル符号化部635に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立して具現される。図7に図示されたスペクトル符号化装置700は、エネルギー推定部710、エネルギー量子化及び符号化部720、ビット割当て部730、スペクトル正規化部740、スペクトル量子化及び符号化部750及びノイズフィリング部760を含んでもよい。
FIG. 7 is a block diagram illustrating a configuration of a spectrum encoding device according to an embodiment. The apparatus illustrated in FIG. 7 corresponds to the
図7を参照すれば、エネルギー推定部710は、本来のスペクトル係数に対して、サブバンドに分離し、各サブバンド別エネルギー、例えば、norm値を推定することができる。ここで、1つのフレームにおいて、各サブバンドは、同一サイズを有するか、低帯域から高帯域に行くほど、各サブバンドに含まれるスペクトル係数の数を増加させることができる。
Referring to FIG. 7, the
エネルギー量子化及び符号化部720は、各サブバンドに対して推定されたnorm値を、量子化及び符号化することができる。そのとき、norm値は、VQ(vector quantization)、SQ(scalar quantization)、TCQ(trellis coded quantization)、LVQ(lattice vector quantization)など多様な方式で量子化される。エネルギー量子化及び符号化部720は、さらなる符号化効率を向上させるために無損失符号化をさらに行う。
The energy quantization and
ビット割当て部730は、サブバンド別に量子化されたnorm値を利用して、フレーム当たり許容ビットを考慮しながら、符号化に必要なビットを割り当てることができる。
The
スペクトル正規化部740は、サブバンド別に量子化されたnorm値を利用して、スペクトルに係わる正規化を行う。
The
スペクトル量子化及び符号化部750は、正規化されたスペクトルに対して、サブバンド別に割り当てられたビットに基づいて、量子化及び符号化を行う。
The spectrum quantization and
ノイズフィリング部760は、スペクトル量子化及び符号化部750において、許容ビットの制約によって0に量子化された部分に、適切なノイズを追加することができる。
The
図8は、サブバンド分割の例を示す図面である。図8を参照すれば、入力信号が48kHzのサンプリング周波数を使用し、20msのフレームサイズを有する場合、毎フレーム当たり処理するサンプルの個数は、960個になる。すなわち、入力信号を、MDCTを利用して、50%のオーバーラッピングを適用して変換すれば、960個のスペクトル係数が得られる。ここで、オーバーラッピングの比率は、符号化方式によって多様に設定される。周波数ドメインにおいては、理論的に、24kHzまで処理可能であるが、人間の可聴帯域を考慮し、20kHzまでの帯域を表現する。低帯域である0〜3.2kHzまでは、8個のスペクトル係数を1つのサブバンドにまとめて使用し、3.2〜6.4kHzの帯域においては、16個のスペクトル係数を1つのサブバンドにまとめて使用する。6.4〜13.6kHzの帯域においては、24個のスペクトル係数を1つのサブバンドにまとめて使用し、13.6〜20kHzの帯域においては、32個のスペクトル係数を1つのサブバンドにまとめて使用する。実際、norm値を求めて符号化を行う場合、符号化器で定めた帯域までnormを求めて符号化することができる。決定された帯域後の特定高帯域では、帯域拡張のような多様な方式に基づいた符号化が可能である。 FIG. 8 is a diagram illustrating an example of subband division. Referring to FIG. 8, when the input signal uses a sampling frequency of 48 kHz and has a frame size of 20 ms, the number of samples processed per frame is 960. That is, if the input signal is converted by applying 50% overlapping using MDCT, 960 spectral coefficients can be obtained. Here, the overlapping ratio is variously set according to the encoding method. In the frequency domain, it is theoretically possible to process up to 24 kHz, but the band up to 20 kHz is expressed in consideration of the human audible band. In the low band from 0 to 3.2 kHz, 8 spectral coefficients are used together in one subband, and in the 3.2 to 6.4 kHz band, 16 spectral coefficients are used as one subband. Use them together. In the band of 6.4 to 13.6 kHz, 24 spectral coefficients are combined into one subband, and in the band of 13.6 to 20 kHz, 32 spectral coefficients are combined into one subband. To use. Actually, when encoding is performed by obtaining the norm value, the norm can be obtained and encoded up to the band determined by the encoder. In the specific high band after the determined band, encoding based on various schemes such as band expansion is possible.
図9は、一実施形態によるスペクトル量子化及び符号化装置の構成を示すブロック図である。図9に図示された装置は、図7のスペクトル量子化及び符号化部750に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立して具現される。図9に図示されたスペクトル量子化及び符号化装置900は、符号化方式選択部910、ゼロ符号化部930、係数符号化部950、量子化成分復元部970及び逆スケーリング部990を含んでもよい。係数符号化部950は、スケーリング部951、ISC(important spectral component)選択部952、位置情報符号化部953、ISC収集部954、サイズ情報符号化部955、符号情報符号化部956を含んでもよい。
FIG. 9 is a block diagram illustrating a configuration of a spectrum quantization and encoding apparatus according to an embodiment. The apparatus illustrated in FIG. 9 corresponds to the spectral quantization and
図9を参照すれば、符号化方式選択部910は、バンド別に割り当てられたビットに基づいて、符号化方式を選択することができる。正規化されたスペクトルは、バンド別に選択された符号化方式に基づいて、ゼロ符号化部930あるいは係数符号化部950に提供される。
Referring to FIG. 9, the encoding
ゼロ符号化部930は、割り当てられたビットが0であるバンドに対して、全てのサンプルを0に符号化することができる。
The zero
係数符号化部950は、割り当てられたビットが0ではないバンドに対して選択された量子化器を利用して符号化を行う。具体的には、係数符号化部950は、正規化されたスペクトルに対して、各バンド別に重要周波数成分を選択し、各バンド別に選択された重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて符号化することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって符号化することができる。一例を挙げれば、重要周波数成分の大きさは、USQ及びTCQのうち一つを利用して、量子化して算術符号化(arithmetic coding)を行う一方、重要周波数成分の数、位置及び符号に対して算術符号化を行う。特定バンドが重要な情報を含んでいると判断される場合、USQを使用し、そうではない場合、TCQを使用することができる。一実施形態によれば、信号特性に基づいて、TCQ及びUSQのうち一つを選択することができる。ここで、信号特性は、各バンドに割り当てられたビットあるいはバンドの長さを含んでもよい。もしバンドに含まれた各サンプルに割り当てられた平均ビット数が、臨界値、例えば、0.75以上である場合、当該バンドは、非常に重要な情報を含んでいると判断することができるので、USQが使用される。一方、バンドの長さが短い低帯域の場合にも、必要によって、USQが使用される。
The
スケーリング部951は、ビット率を調節するためにバンドに割り当てられたビットに基づいて、正規化されたスペクトルに係わるスケーリングを行う。スケーリング部951は、バンドに含まれた各サンプル、すなわち、スペクトル係数に割り当てられた平均ビット数を考慮することができる。例えば、平均ビット数が多いほど、さらに大きいスケーリングが行われる。
The
ISC選択部952は、ビット率を調節するためにスケーリングされたスペクトルから、所定基準に基づいて、ISCを選択することができる。ISC選択部953は、スケーリングされたスペクトルからスケーリングされた程度を分析し、実際のノンゼロ位置を求めることができる。ここで、ISCは、スケーリング以前の実際のノンゼロスペクトル係数に該当する。ISC選択部953は、バンド別に割り当てられたビットに基づいて、スペクトル係数の分布及び分散を考慮し、符号化するスペクトル係数、すなわち、ノンゼロ位置を選択することができる。ISC選択のために、TCQを使用することができる。
The
位置情報符号化部953は、ISC選択部952で選択されたISCの位置情報、すなわち、ノンゼロスペクトル係数の位置情報を符号化することができる。位置情報は、選択されたISCの数及び位置を含んでもよい。位置情報の符号化には、算術符号化が使用される。
The position
ISC収集部954は、選択されたISCを集め、新たなバッファを構成することができる。ISC収集のために、ゼロバンドと、選択されていないスペクトルは、除外される。
The
サイズ情報符号化部955は、新たに構成されたISCのサイズ情報に対して符号化を行う。そのとき、TCQ及びUSQのうち一つを選択して量子化を行い、続けて算術符号化をさらに行う。算術符号化の効率を高めるために、ノンゼロ位置情報と、ISCの数とが使用される。 The size information encoding unit 955 encodes the newly configured ISC size information. At that time, one of TCQ and USQ is selected for quantization, and then arithmetic coding is further performed. To increase the efficiency of arithmetic coding, non-zero position information and the number of ISCs are used.
符号情報符号化部956は、選択されたISCの符号情報に対して符号化を行う。符号情報の符号化には、算術符号化が使用される。
The code
量子化成分復元部970は、ISCの位置、大きさ及び符号情報に基づいて、実際の量子化成分を復元することができる。ここで、ゼロ位置、すなわち、ゼロに符号化されたスペクトル係数には、0が割り当てられる。
The quantization
逆スケーリング部990は、復元された量子化成分に対して逆スケーリングを行い、正規化されたスペクトルと同一レベルの量子化されたスペクトル係数を出力することができる。スケーリング部951及び逆スケーリング部990においては、同一スケーリングファクタを使用することができる。
The
図10は、ISC収集過程の概念を示す図面であり、まず、ゼロバンド、すなわち、0に量子化されるバンドは除く。次に、ノンゼロバンドに存在するスペクトル成分のうち選択されたISCを利用して、新たなバッファを構成することができる。新たに構成されたISCに対して、帯域単位でUSCあるいはTCQを遂行し、対応する無損失符号化を行う。 FIG. 10 is a diagram illustrating the concept of the ISC collection process. First, the zero band, that is, the band quantized to 0 is excluded. Next, a new buffer can be constructed using the ISC selected from the spectral components present in the non-zero band. For the newly configured ISC, USC or TCQ is performed on a band basis and corresponding lossless coding is performed.
図11は、本発明で使用されたTCQの一例を示す図面であり、2つのゼロレベルを有する8ステート4コセットのトレリス構造に該当する。当該TCQに係わる詳細な説明は、US7605727に開示されている。 FIG. 11 shows an example of a TCQ used in the present invention, which corresponds to an 8-state 4-coset trellis structure having two zero levels. A detailed description of the TCQ is disclosed in US7605727.
図12は、本発明が適用される周波数ドメインオーディオ復号化装置の構成を示したブロック図である。図12に図示された周波数ドメインオーディオ復号化装置1200は、フレームエラー検出部1210、周波数ドメイン復号化部1230、時間ドメイン復号化部1250及び後処理部1270を含んでもよい。周波数ドメイン復号化部1230は、スペクトル復号化部1231、メモリ更新部1233、逆変換部1235及びOLA(overlap and add)部1237を含んでもよい。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
FIG. 12 is a block diagram showing a configuration of a frequency domain audio decoding apparatus to which the present invention is applied. The frequency domain
図12を参照すれば、フレームエラー検出部1210は、受信されたビットストリームから、フレームエラーが発生したか否かということを検出することができる。
Referring to FIG. 12, the frame
周波数ドメイン復号化部1230は、符号化モードが音楽モードあるいは周波数ドメインモードである場合に動作し、フレームエラーが発生した場合、FECアルゴリズムあるいはPLCアルゴリズムを動作させ、フレームエラーが発生していない場合、一般的な変換復号化過程を介して、時間ドメイン信号を生成する。具体的には、スペクトル復号化部1231は、復号化されたパラメータを利用してスペクトル復号化を行い、スペクトル係数を合成することができる。スペクトル復号化部1231については、図13及び図14を参照し、さらに具体的に説明する。
The frequency
メモリ更新部1233は、正常フレームである現在フレームについて合成されたスペクトル係数、復号化されたパラメータを利用して得られた情報、現在まで連続したエラーフレームの個数、各フレームの信号特性あるいはフレームタイプ情報などを、次のフレームのために更新することができる。ここで、信号特性は、トランジェント特性、ステーショナリ特性を含んでもよく、フレームタイプは、トランジェントフレーム、ステーショナリフレームあるいはハーモニックフレームを含んでもよい。
The
逆変換部1235は、合成されたスペクトル係数に対して時間−周波数逆変換を行い、時間ドメイン信号を生成することができる。
The
OLA部1237は、以前フレームの時間ドメイン信号を利用してOLA処理を行い、その結果、現在フレームに係わる最終時間ドメイン信号を生成し、後処理部1270に提供することができる。
The
時間ドメイン復号化部1250は、符号化モードが音声モードあるいは時間ドメインモードである場合に動作し、フレームエラーが発生した場合、FECアルゴリズムあるいはPLCアルゴリズムを動作させ、フレームエラーが発生していない場合、一般的なCELP復号化過程を介して時間ドメイン信号を生成する。
The time
後処理部1270は、周波数ドメイン復号化部1230あるいは時間ドメイン復号化部1250から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部1270は、出力信号として、復元されたオーディオ信号を提供する。
The
図13は、一実施形態によるスペクトル復号化装置の構成を示すブロック図である。図13に図示された装置は、図12のスペクトル復号化部1231に対応するか、他の周波数ドメイン復号化装置に含まれるか、あるいは独立して具現される。図13に図示されたスペクトル復号化装置1300は、エネルギー復号化及び逆量子化部1310、ビット割当て部1330、スペクトル復号化及び逆量子化部1350、ノイズフィリング部1370及びスペクトルシェーピング部1390を含んでもよい。ここで、ノイズフィリング部1370は、スペクトルシェーピング部1390の後端に位置することもできる。各構成要素は、少なくとも1以上のモジュールに一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
FIG. 13 is a block diagram illustrating a configuration of a spectrum decoding device according to an embodiment. The apparatus illustrated in FIG. 13 corresponds to the
図13を参照すれば、エネルギー復号化及び逆量子化部1310は、符号化過程で無損失符号化が遂行されたパラメータ、例えば、norm値のようなエネルギーに対して無損失復号化を行い、復号化されたnorm値に対して逆量子化を行う。符号化過程において、norm値は、多様な方式、例えば、VQ(vector quantization)、SQ(sclar quantization)、TCQ(trellis coded quantization)、LVQ(lattice vector quantization)などを利用して量子化され、対応する方式を使用して逆量子化を行う。
Referring to FIG. 13, the energy decoding and
ビット割当て部1330は、量子化されたnorm値、あるいは逆量子化されたnorm値に基づいて、サブバンド別に必要とするビット数を割り当てることができる。その場合、サブバンド単位に割り当てられたビット数は、符号化過程で割り当てられたビット数と同一でもある。
The
スペクトル復号化及び逆量子化部1350は、符号化されたスペクトル係数に対して、サブバンド別に割り当てられたビット数を使用して無損失復号化を行い、復号化されたスペクトル係数に対して逆量子化過程を遂行し、正規化されたスペクトル係数を生成することができる。
The spectral decoding and
ノイズフィリング部1370は、正規化されたスペクトル係数のうち、サブバンド別にノイズフィリングを必要とする部分に対してノイズを充填することができる。
The
スペクトルシェーピング部1390は、逆量子化されたnorm値を利用して、正規化されたスペクトル係数をシェーピングすることができる。スペクトルシェーピング過程を介して、最終的に復号化されたスペクトル係数が得られる。 The spectrum shaping unit 1390 may shape the normalized spectrum coefficient using the dequantized norm value. Through the spectral shaping process, finally decoded spectral coefficients are obtained.
図14は、一実施形態によるスペクトル復号化及び逆量子化装置の構成を示すブロック図である。図14に図示された装置は、図13のスペクトル復号化及び逆量子化部1350に対応するか、他の周波数ドメイン復号化装置に含まれるか、あるいは独立して具現される。図14に図示されたスペクトル復号化及び逆量子化装置1400は、復号化方式選択部1410、ゼロ復号化部1430、係数復号化部1450、量子化成分復元部1470及び逆スケーリング部1490を含んでもよい。係数復号化部1450は、位置情報復号化部1451、サイズ情報復号化部1453及び符号情報復号化部1455を含んでもよい。
FIG. 14 is a block diagram illustrating a configuration of a spectrum decoding and inverse quantization apparatus according to an embodiment. The apparatus illustrated in FIG. 14 corresponds to the spectrum decoding and
図14を参照すれば、復号化方式選択部1410は、バンド別に割り当てられたビットに基づいて、復号化方式を選択することができる。正規化されたスペクトルは、バンド別に選択された復号化方式に基づいて、ゼロ復号化部1430あるいは係数復号化部1450に提供される。
Referring to FIG. 14, the decoding
ゼロ復号化部1430は、割り当てられたビットが0であるバンドについて、全てのサンプルを0に復号化することができる。
The zero
係数復号化部1450は、割り当てられたビットが0ではないバンドについて選択された逆量子化器を利用して復号化を行う。係数復号化部1450は、符号化されたスペクトルの各バンド別に、重要周波数成分の情報を得て、各バンド別に得られた重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて、復号化することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって復号化することができる。一例を挙げれば、重要周波数成分の大きさは、算術復号化してUSQ及びTCQのうち一つを利用して逆量子化する一方、重要周波数成分の数、位置及び符号に対して算術復号化を行う。逆量子化器選択は、図9で図示された係数符号化部950と同一結果を利用して行う。係数復号化部1450は、割り当てられたビットが0ではないバンドに対して、TCQ及びUSQのうち一つを利用して逆量子化を行う。
The
位置情報復号化部1451は、ビットストリームに含まれた位置情報と係わるインデックスを復号化し、ISCの数及び位置を復元することができる。位置情報の復号化には、算術復号化が使用される。サイズ情報復号化部1453は、ビットストリームに含まれたサイズ情報と係わるインデックスに対して算術復号化を行い、復号化されたインデックスに対して、TCQ及びUSQのうち一つを選択して逆量子化を行う。算術復号化の効率を高めるために、ノンゼロ位置情報と、ISC数とが使用される。符号情報復号化部1455は、ビットストリームに含まれた符号情報と係わるインデックスを復号化し、ISCの符号を復元することができる。符号情報の復号化には、算術復号化が使用される。一実施形態によれば、ノンゼロバンドが必要とするパルス数を推定し、位置情報、サイズ情報あるいは符号情報の復号化に使用することができる。
The position
量子化成分復元部1470は、復元されたISCの位置、大きさ及び符号情報に基づいて、実際の量子化成分を復元することができる。ここで、ゼロ位置、すなわち、ゼロに復号化されたスペクトル係数である量子化されていない部分には、0が割り当てられる。
The quantization
逆スケーリング部1490は、復元された量子化成分に対して逆スケーリングを行い、正規化されたスペクトルと同一レベルの量子化されたスペクトル係数を出力することができる。
The
図15は、本発明の一実施形態による符号化モジュールを含むマルチメディア機器の構成を示したブロック図である。図15に図示されたマルチメディア機器1500は、通信部1510と、符号化モジュール1530とを含んでもよい。また、符号化の結果として得られるオーディオビットストリームの用途によって、オーディオビットストリームを保存する保存部1550をさらに含んでもよい。また、マルチメディア機器1500は、マイクロフォン1570をさらに含んでもよい。すなわち、保存部1550とマイクロフォン1570は、オプションとして具備される。一方、図15に図示されたマルチメディア機器1500は、任意の復号化モジュール(図示せず)、例えば、一般的な復号化機能を遂行する復号化モジュール、あるいは本発明の一実施形態による復号化モジュールをさらに含んでもよい。ここで、符号化モジュール1530は、マルチメディア機器1500に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。
FIG. 15 is a block diagram illustrating a configuration of a multimedia device including an encoding module according to an embodiment of the present invention. The
図15を参照すれば、通信部1510は、外部から提供されるオーディオと、符号化されたビットストリームとのうち少なくとも一つを受信するか、復元されたオーディオと、符号化モジュール1530の符号化の結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。 Referring to FIG. 15, the communication unit 1510 receives at least one of audio provided from the outside and an encoded bitstream, or recovers the restored audio and the encoding of the encoding module 1530. At least one of the resulting audio bitstreams can be transmitted.
通信部1510は、無線インターネット、無線イントラネット、無線電話網、無線LAN(local area network)、Wi−Fi(wireless fidelity)、WFD(Wi−Fi direct)、3G(3rd generation)、4G(4th generation)、ブルートゥース(登録商標(Bluetooth))、赤外線通信(IrDA:infrared data association)、RFID(radio frequency identification)、UWB(ultra wideband)、ジグビー(ZigBee)、NFC(near field communication)のような無線ネットワーク;または有線電話網、有線インターネットのような有線ネットワークを介して、外部のマルチメディア機器あるいはサーバとデータを送受信することができるように構成される。 The communication unit 1510 includes a wireless Internet, a wireless intranet, a wireless telephone network, a wireless LAN (local area network), Wi-Fi (wireless fidelity), WFD (Wi-Fi direct), 3G (3rd generation), and 4G (4th generation). Wireless networks such as Bluetooth (registered trademark (Bluetooth)), infrared communication (IrDA), RFID (radio frequency identification), UWB (ultra wideband), ZigBee, NFC (near field communication); Alternatively, data can be transmitted / received to / from an external multimedia device or server via a wired network such as a wired telephone network or a wired Internet.
符号化モジュール1530は、一実施形態によれば、正規化されたスペクトルに対して、各バンド別に重要周波数成分を選択し、各バンド別に選択された重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて符号化することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって符号化することができ、一例を挙げれば、重要周波数成分の大きさは、USQ及びTCQのうち一つを利用して、量子化して算術符号化する一方、重要周波数成分の数、位置及び符号に対して算術符号化を行う。一実施形態によれば、正規化されたスペクトルを、各バンド別に割り当てられたビットに基づいてスケーリングを行い、スケーリングされたスペクトルに対して、重要周波数成分を選択することができる。 According to one embodiment, the encoding module 1530 selects an important frequency component for each band with respect to the normalized spectrum, and stores information on the important frequency component selected for each band in the number, position, and magnitude. Encoding can be based on the length and the sign. The magnitude of the important frequency component can be encoded by a method different from the number, position, and code. For example, the magnitude of the important frequency component can be calculated using one of USQ and TCQ. While quantizing and performing arithmetic coding, arithmetic coding is performed on the number, position, and code of important frequency components. According to one embodiment, the normalized spectrum can be scaled based on the bits assigned to each band and the critical frequency component can be selected for the scaled spectrum.
保存部1550は、マルチメディア機器1500の運用に必要な多様なプログラムを保存することができる。
The storage unit 1550 can store various programs necessary for the operation of the
マイクロフォン1570は、ユーザ、あるいは外部のオーディオ信号を符号化モジュール1530に提供することができる。
The
図16は、本発明の一実施形態による復号化モジュールを含むマルチメディア機器の構成を示したブロック図である。図16に図示されたマルチメディア機器1600は、通信部1610と復号化モジュール1630とを含んでもよい。また、復号化の結果として得られる復元されたオーディオ信号の用途によって、復元されたオーディオ信号を保存する保存部1650をさらに含んでもよい。また、マルチメディア機器1600は、スピーカ1670をさらに含んでもよい。すなわち、保存部1650とスピーカ1670は、オプションとして具備される。一方、図16に図示されたマルチメディア機器1600は、任意の符号化モジュール(図示せず)、例えば、一般的な符号化機能を遂行する符号化モジュール、あるいは本発明の一実施形態による符号化モジュールをさらに含んでもよい。ここで、復号化モジュール1630は、マルチメディア機器1600に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1つの以上のプロセッサ(図示せず)でもっても具現される。
FIG. 16 is a block diagram illustrating a configuration of a multimedia device including a decryption module according to an embodiment of the present invention. The multimedia device 1600 illustrated in FIG. 16 may include a communication unit 1610 and a decryption module 1630. In addition, a storage unit 1650 that stores the recovered audio signal may be further included depending on the use of the recovered audio signal obtained as a result of decoding. Multimedia device 1600 may further include a
図16を参照すれば、通信部1610は、外部から提供される符号化されたビットストリームと、オーディオ信号とのうち少なくとも一つを受信するか、復号化モジュール1630の復号化の結果として得られる復元されたオーディオ信号と、符号化の結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。一方、通信部1610は、図15の通信部1510と実質的に類似して具現される。 Referring to FIG. 16, the communication unit 1610 receives at least one of an encoded bit stream provided from the outside and an audio signal, or is obtained as a result of decoding by the decoding module 1630. At least one of the restored audio signal and the audio bitstream obtained as a result of encoding can be transmitted. Meanwhile, the communication unit 1610 is implemented substantially similar to the communication unit 1510 of FIG.
復号化モジュール1630は、一実施形態によれば、通信部1610を介して提供されるビットストリームを受信し、符号化されたスペクトルの各バンド別に重要周波数成分の情報を得て、各バンド別に得られた重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて、復号化することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって復号化することができ、一例を挙げれば、重要周波数成分の大きさは、算術復号化し、USQ及びTCQのうち一つを利用して逆量子化する一方、重要周波数成分の数、位置及び符号に対して算術復号化を行う。 According to an embodiment, the decoding module 1630 receives a bitstream provided via the communication unit 1610, obtains information on important frequency components for each band of the encoded spectrum, and obtains information for each band. The information on the important frequency components obtained can be decoded based on the number, position, size and code. The magnitude of the important frequency component can be decoded by a method different from the number, position, and code. For example, the magnitude of the important frequency component can be decoded by arithmetic decoding, and one of USQ and TCQ. While using the inverse quantization, arithmetic decoding is performed on the number, position, and code of the important frequency components.
保存部1650は、復号化モジュール1630で生成される復元されたオーディオ信号を保存することができる。一方、保存部1650は、マルチメディア機器1600の運用に必要な多様なプログラムを保存することができる。 The storage unit 1650 can store the restored audio signal generated by the decoding module 1630. Meanwhile, the storage unit 1650 can store various programs necessary for the operation of the multimedia device 1600.
スピーカ1670は、復号化モジュール1630で生成される復元されたオーディオ信号を外部に出力することができる。
The
図17は、本発明の一実施形態による符号化モジュールと復号化モジュールとを含むマルチメディア機器の構成を示したブロック図である。図17に図示されたマルチメディア機器1700は、通信部1710、符号化モジュール1720及び復号化モジュール1730を含んでもよい。また、符号化の結果として得られるオーディオビットストリーム、あるいは復号化の結果として得られる復元されたオーディオ信号の用途によって、オーディオビットストリーム、あるいは復元されたオーディオ信号を保存する保存部1740をさらに含んでもよい。また、マルチメディア機器1700は、マイクロフォン1750あるいはスピーカ1760をさらに含んでもよい。ここで、符号化モジュール1720と復号化モジュール1730は、マルチメディア機器1700に具備される他の構成要素(図示せず)と共に一体化され、少なくとも1以上のプロセッサ(図示せず)でもっても具現される。 FIG. 17 is a block diagram illustrating a configuration of a multimedia device including an encoding module and a decoding module according to an embodiment of the present invention. The multimedia device 1700 illustrated in FIG. 17 may include a communication unit 1710, an encoding module 1720, and a decoding module 1730. Further, it may further include a storage unit 1740 for storing the audio bitstream or the restored audio signal depending on the use of the audio bitstream obtained as a result of encoding or the restored audio signal obtained as a result of decoding. Good. In addition, the multimedia device 1700 may further include a microphone 1750 or a speaker 1760. Here, the encoding module 1720 and the decoding module 1730 are integrated with other components (not shown) included in the multimedia device 1700, and may be implemented as at least one processor (not shown). Is done.
図17に図示された各構成要素は、図15に図示されたマルチメディア機器1500の構成要素、あるいは図16に図示されたマルチメディア機器1600の構成要素と重複するので、その詳細な説明は省略する。
Each component illustrated in FIG. 17 overlaps with the component of the
図15ないし図17に図示されたマルチメディア機器1500,1600,1700には、電話、モバイルフォンなどを含む音声通信専用端末;TV(television)、MP3プレーヤなどを含む放送専用装置または音楽専用装置、あるいは音声通信専用端末と、放送専用装置または音楽専用装置との融合端末装置;テレカンファレンスあるいはインタラクションシステムのユーザ端末;が含まれるが、それらに限定されるものではない。また、マルチメディア機器1500,1600,1700は、クライアント、サーバ、あるいはクライアントとサーバとの間に配置される変換器としても使用される。
The
一方、マルチメディア機器1500,1600,1700)が、例えば、モバイルフォンである場合、図示されていないが、キーパッドのようなユーザ入力部、ユーザインターフェース;モバイルフォンで処理される情報をディスプレイするディスプレイ部;またはモバイルフォンの全般的な機能を制御するプロセッサをさらに含んでもよい。また、モバイルフォンは、撮像機能を有するカメラ部と、モバイルフォンで必要とする機能を遂行する少なくとも1以上の構成要素とをさらに含んでもよい。
On the other hand, when the
一方、マルチメディア機器1500,1600,1700が、例えば、TVである場合、図示されていないが、キーパッドなどのようなユーザ入力部;受信された放送情報をディスプレーするディスプレイ部;あるいはTVの全般的な機能を制御するプロセッサをさらに含んでもよい。また、TVは、TVで必要とする機能を遂行する少なくとも1以上の構成要素をさらに含んでもよい。
On the other hand, when the
前記実施形態は、コンピュータで実行されるプログラムによって作成可能であり、コンピュータで読み取り可能な記録媒体を利用して、前記プログラムを動作させる汎用デジタルコンピュータで具現される。また、前述の本発明の実施形態で使用されるデータ構造、プログラム命令あるいはデータファイルは、コンピュータで読み取り可能な記録媒体に、多様な手段を介して記録される。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取り可能なデータが保存される全種の保存装置を含んでもよい。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体(magnetic media);CD(compact disc)−ROM(read only memory)、DVD(digital versatile disc)のような光記録媒体(optical media)、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto-optical media);及びROM、RAM(random access memory)、フラッシュメモリのような、プログラム命令を保存して遂行するように特別に構成されたハードウェア装置;が含まれる。また、コンピュータで読み取り可能な記録媒体は、プログラム命令、データ構造などを指定する信号を伝送する伝送媒体でもある。プログラム命令の例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードを含んでもよい。 The embodiment can be created by a program executed by a computer, and is embodied by a general-purpose digital computer that operates the program using a computer-readable recording medium. Further, the data structure, program instructions, or data file used in the above-described embodiment of the present invention is recorded on a computer-readable recording medium through various means. The computer-readable recording medium may include all kinds of storage devices in which data readable by a computer system is stored. Examples of the computer-readable recording medium include magnetic media such as a hard disk, a floppy (registered trademark) disk and a magnetic tape; a compact disc (CD) -read only memory (ROM); a digital versatile DVD (digital versatile). optical media such as disc), magneto-optical media such as floptical disk; and ROM, random access memory (RAM), and flash memory A hardware device specially configured to store and execute program instructions. The computer-readable recording medium is also a transmission medium that transmits a signal designating a program command, a data structure, and the like. Examples of program instructions may include not only machine language code created by a compiler but also high-level language code executed by a computer using an interpreter or the like.
以上のように、本発明の一実施形態は、たとえ限定された実施形態及び図面によって説明されたとしても、本発明の一実施形態は、前述の実施形態に限定されるものではなく、それらは、本発明が属する分野で当業者であるならば、そのような記載から多様な修正及び変形が可能であろう。従って、本発明のスコープは、前述の説明ではなく、特許請求の範囲に示されており、それらと均等または等価的変形は、いずれも本発明の技術的思想の範疇に属すると言えるのである。 As described above, even if an embodiment of the present invention is described with reference to a limited embodiment and drawings, the embodiment of the present invention is not limited to the above-described embodiment. Those skilled in the art to which the present invention pertains will be able to make various modifications and variations from such description. Therefore, the scope of the present invention is shown not in the above description but in the claims, and any equivalent or equivalent modifications can be said to belong to the category of the technical idea of the present invention.
以下、本願により教示される手段を例示的に列挙する。
(付記1)
正規化されたスペクトルに対して、各バンド別に重要周波数成分を選択する段階と、
各バンド別に、前記選択された重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて符号化する段階と、を含むスペクトル符号化方法。
(付記2)
前記重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって符号化することを特徴とする付記1に記載のスペクトル符号化方法。
(付記3)
前記重要周波数成分の大きさは、USQ(uniform scalar quantization)及びTCQ(trellis coded quantization)のうち一つを利用して量子化し、算術符号化することを特徴とする付記1に記載のスペクトル符号化方法。
(付記4)
前記重要周波数成分の数、位置及び符号に対して算術符号化を行うことを特徴とする付記1に記載のスペクトル符号化方法。
(付記5)
前記正規化されたスペクトルを、各バンド別に割り当てられたビットに基づいて、スケーリングを行う段階をさらに含み、スケーリングされたスペクトルに対して、前記重要周波数成分を選択することを特徴とする付記1に記載のスペクトル符号化方法。
(付記6)
前記TCQは、2−ゼロレベルを有する8ステート4コセットのトレリス構造を使用することを特徴とする付記1に記載のスペクトル符号化方法。
(付記7)
ビットストリームから、符号化されたスペクトルの各バンド別に重要周波数成分の情報を得る段階と、
各バンド別に、前記得られた重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて、復号化する段階と、を含むスペクトル復号化方法。
(付記8)
前記重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって復号化することを特徴とする付記7に記載のスペクトル復号化方法。
(付記9)
前記重要周波数成分の大きさは、算術復号化し、USQ(uniform scalar quantization)及びTCQ(trellis coded quantization)のうち一つを利用して逆量子化することを特徴とする付記7に記載のスペクトル復号化方法。
(付記10)
前記重要周波数成分の数、位置及び符号に対して算術復号化を行うことを特徴とする付記7に記載のスペクトル復号化方法。
(付記11)
前記TCQは、2−ゼロレベルを有する8ステート4コセットのトレリス構造を使用することを特徴とする付記9に記載のスペクトル復号化方法。
Hereinafter, the means taught by the present application will be exemplified.
(Appendix 1)
Selecting a significant frequency component for each band for the normalized spectrum;
And a step of encoding the selected important frequency component information for each band based on a number, a position, a size, and a code.
(Appendix 2)
The spectrum encoding method according to
(Appendix 3)
2. The spectral coding according to
(Appendix 4)
The spectrum encoding method according to
(Appendix 5)
The method of
(Appendix 6)
The spectrum encoding method according to
(Appendix 7)
Obtaining important frequency component information for each band of the encoded spectrum from the bitstream;
And a step of decoding the obtained information of the important frequency component for each band based on the number, position, size and code.
(Appendix 8)
The spectrum decoding method according to
(Appendix 9)
8. The spectral decoding according to
(Appendix 10)
The spectrum decoding method according to
(Appendix 11)
The spectrum decoding method according to appendix 9, wherein the TCQ uses an 8-state 4-coset trellis structure having 2-zero levels.
Claims (9)
前記プロセッサは、
割り当てられたビットが0ではないバンドに対して、正規化されたスペクトルに対して、重要周波数成分を選択し、
前記選択された重要周波数成分の数、位置、大きさ及び符号に係わる情報を符号化し、
前記プロセッサは、前記重要周波数成分の数、位置及び符号の情報を算術符号化(arithmetic coding)に基づいて符号化するスペクトル符号化装置。 Including at least one processor;
The processor is
For the assigned bit is not zero band, relative to the normalized spectrum, select the importance frequency components,
The number of significant frequency components before Symbol selection, location, information relating to the magnitude and sign codes,
The spectrum encoding apparatus, wherein the processor encodes information on the number, position, and code of the important frequency components based on arithmetic coding.
前記プロセッサは、
割り当てられたビットが0ではないバンドに対して、ビットストリームから、符号化されたスペクトルの各バンド別に重要周波数成分の数、位置、大きさ及び符号の情報を取得し、
前記取得された重要周波数成分の数、位置、大きさ及び符号の情報を復号化し、
前記プロセッサは、前記重要周波数成分の数、位置及び符号に係わる情報を算術復号化(arithmetic decoding)に基づいて復号化するスペクトル復号化装置。 Including at least one processor;
The processor is
Obtain the number, position, size, and code information of the important frequency components for each band of the encoded spectrum from the bitstream for the band in which the allocated bits are not 0 .
The number of significant frequency components prior SL acquired, position, information of magnitude and sign and decoding,
The spectrum decoding device, wherein the processor decodes information related to the number, position, and code of the important frequency components based on arithmetic decoding.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361878172P | 2013-09-16 | 2013-09-16 | |
US61/878,172 | 2013-09-16 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016542652A Division JP6243540B2 (en) | 2013-09-16 | 2014-09-16 | Spectrum encoding method and spectrum decoding method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018049284A JP2018049284A (en) | 2018-03-29 |
JP6495420B2 true JP6495420B2 (en) | 2019-04-03 |
Family
ID=56116150
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016542652A Active JP6243540B2 (en) | 2013-09-16 | 2014-09-16 | Spectrum encoding method and spectrum decoding method |
JP2017216718A Active JP6495420B2 (en) | 2013-09-16 | 2017-11-09 | SPECTRUM ENCODING DEVICE AND SPECTRUM DECODING DEVICE |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016542652A Active JP6243540B2 (en) | 2013-09-16 | 2014-09-16 | Spectrum encoding method and spectrum decoding method |
Country Status (5)
Country | Link |
---|---|
US (2) | US10811019B2 (en) |
EP (2) | EP3046104B1 (en) |
JP (2) | JP6243540B2 (en) |
CN (3) | CN105745703B (en) |
PL (1) | PL3046104T3 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015037961A1 (en) | 2013-09-13 | 2015-03-19 | 삼성전자 주식회사 | Energy lossless coding method and device, signal coding method and device, energy lossless decoding method and device, and signal decoding method and device |
CN105723454B (en) | 2013-09-13 | 2020-01-24 | 三星电子株式会社 | Energy lossless encoding method and apparatus, signal encoding method and apparatus, energy lossless decoding method and apparatus, and signal decoding method and apparatus |
EP3046104B1 (en) | 2013-09-16 | 2019-11-20 | Samsung Electronics Co., Ltd. | Signal encoding method and signal decoding method |
US10388293B2 (en) | 2013-09-16 | 2019-08-20 | Samsung Electronics Co., Ltd. | Signal encoding method and device and signal decoding method and device |
US10699721B2 (en) * | 2017-04-25 | 2020-06-30 | Dts, Inc. | Encoding and decoding of digital audio signals using difference data |
KR20200100827A (en) | 2018-03-16 | 2020-08-26 | 스미또모 덴꼬오 하드메탈 가부시끼가이샤 | Surface-coated cutting tool and its manufacturing method |
CN117476021A (en) * | 2022-07-27 | 2024-01-30 | 华为技术有限公司 | Quantization method, inverse quantization method and device thereof |
Family Cites Families (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4975956A (en) * | 1989-07-26 | 1990-12-04 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5369724A (en) * | 1992-01-17 | 1994-11-29 | Massachusetts Institute Of Technology | Method and apparatus for encoding, decoding and compression of audio-type data using reference coefficients located within a band of coefficients |
US6539122B1 (en) * | 1997-04-04 | 2003-03-25 | General Dynamics Decision Systems, Inc. | Adaptive wavelet coding of hyperspectral imagery |
KR100335611B1 (en) * | 1997-11-20 | 2002-10-09 | 삼성전자 주식회사 | Scalable stereo audio encoding/decoding method and apparatus |
US6256606B1 (en) * | 1998-11-30 | 2001-07-03 | Conexant Systems, Inc. | Silence description coding for multi-rate speech codecs |
US6847684B1 (en) * | 2000-06-01 | 2005-01-25 | Hewlett-Packard Development Company, L.P. | Zero-block encoding |
WO2002091363A1 (en) | 2001-05-08 | 2002-11-14 | Koninklijke Philips Electronics N.V. | Audio coding |
US7076108B2 (en) * | 2001-12-11 | 2006-07-11 | Gen Dow Huang | Apparatus and method for image/video compression using discrete wavelet transform |
JP3900000B2 (en) | 2002-05-07 | 2007-03-28 | ソニー株式会社 | Encoding method and apparatus, decoding method and apparatus, and program |
US7502743B2 (en) * | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
US7336720B2 (en) * | 2002-09-27 | 2008-02-26 | Vanguard Software Solutions, Inc. | Real-time video coding/decoding |
BRPI0517780A2 (en) * | 2004-11-05 | 2011-04-19 | Matsushita Electric Ind Co Ltd | scalable decoding device and scalable coding device |
CN102184734B (en) * | 2004-11-05 | 2013-04-03 | 松下电器产业株式会社 | Encoder, decoder, encoding method, and decoding method |
KR100707173B1 (en) * | 2004-12-21 | 2007-04-13 | 삼성전자주식회사 | Low bitrate encoding/decoding method and apparatus |
US7562021B2 (en) | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
KR100851970B1 (en) | 2005-07-15 | 2008-08-12 | 삼성전자주식회사 | Method and apparatus for extracting ISCImportant Spectral Component of audio signal, and method and appartus for encoding/decoding audio signal with low bitrate using it |
US7693709B2 (en) | 2005-07-15 | 2010-04-06 | Microsoft Corporation | Reordering coefficients for waveform coding or decoding |
JP4950210B2 (en) | 2005-11-04 | 2012-06-13 | ノキア コーポレイション | Audio compression |
US20070168197A1 (en) * | 2006-01-18 | 2007-07-19 | Nokia Corporation | Audio coding |
US8190425B2 (en) * | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
CN101390158B (en) | 2006-02-24 | 2012-03-14 | 法国电信公司 | Method for binary coding of quantization indices of a signal envelope, method for decoding a signal envelope and corresponding coding and decoding modules |
US20100232507A1 (en) | 2006-03-22 | 2010-09-16 | Suk-Hee Cho | Method and apparatus for encoding and decoding the compensated illumination change |
US8682652B2 (en) | 2006-06-30 | 2014-03-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
US20110004469A1 (en) | 2006-10-17 | 2011-01-06 | Panasonic Corporation | Vector quantization device, vector inverse quantization device, and method thereof |
KR100868763B1 (en) | 2006-12-04 | 2008-11-13 | 삼성전자주식회사 | Method and apparatus for extracting Important Spectral Component of audio signal, and method and appartus for encoding/decoding audio signal using it |
US20080219466A1 (en) * | 2007-03-09 | 2008-09-11 | Her Majesty the Queen in Right of Canada, as represented by the Minister of Industry, through | Low bit-rate universal audio coder |
KR100903110B1 (en) | 2007-04-13 | 2009-06-16 | 한국전자통신연구원 | The Quantizer and method of LSF coefficient in wide-band speech coder using Trellis Coded Quantization algorithm |
US8527265B2 (en) * | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
US8515767B2 (en) * | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
US20090135946A1 (en) | 2007-11-26 | 2009-05-28 | Eric Morgan Dowling | Tiled-building-block trellis decoders |
KR101671005B1 (en) * | 2007-12-27 | 2016-11-01 | 삼성전자주식회사 | Method and apparatus for quantization encoding and de-quantization decoding using trellis |
JP2009193015A (en) * | 2008-02-18 | 2009-08-27 | Casio Comput Co Ltd | Coding apparatus, decoding apparatus, coding method, decoding method, and program |
KR101485339B1 (en) | 2008-09-29 | 2015-01-26 | 삼성전자주식회사 | Apparatus and method for lossless coding and decoding |
KR101622950B1 (en) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | Method of coding/decoding audio signal and apparatus for enabling the method |
WO2011048098A1 (en) * | 2009-10-20 | 2011-04-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a detection of a group of previously-decoded spectral values |
US20130030796A1 (en) | 2010-01-14 | 2013-01-31 | Panasonic Corporation | Audio encoding apparatus and audio encoding method |
US9076434B2 (en) | 2010-06-21 | 2015-07-07 | Panasonic Intellectual Property Corporation Of America | Decoding and encoding apparatus and method for efficiently encoding spectral data in a high-frequency portion based on spectral data in a low-frequency portion of a wideband signal |
KR101826331B1 (en) | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | Apparatus and method for encoding and decoding for high frequency bandwidth extension |
JP2012103395A (en) * | 2010-11-09 | 2012-05-31 | Sony Corp | Encoder, encoding method, and program |
CA2929800C (en) | 2010-12-29 | 2017-12-19 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding/decoding for high-frequency bandwidth extension |
CN103620675B (en) | 2011-04-21 | 2015-12-23 | 三星电子株式会社 | To equipment, acoustic coding equipment, equipment linear forecast coding coefficient being carried out to inverse quantization, voice codec equipment and electronic installation thereof that linear forecast coding coefficient quantizes |
CN105513602B (en) | 2011-04-21 | 2019-08-06 | 三星电子株式会社 | Decoding device and method and quantization equipment for voice signal or audio signal |
CA2836122C (en) * | 2011-05-13 | 2020-06-23 | Samsung Electronics Co., Ltd. | Bit allocating, audio encoding and decoding |
RU2464649C1 (en) * | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Audio signal processing method |
CN102208188B (en) * | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | Audio signal encoding-decoding method and device |
JP6010539B2 (en) * | 2011-09-09 | 2016-10-19 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Encoding device, decoding device, encoding method, and decoding method |
EP2763137B1 (en) * | 2011-09-28 | 2016-09-14 | LG Electronics Inc. | Voice signal encoding method and voice signal decoding method |
WO2013058634A2 (en) | 2011-10-21 | 2013-04-25 | 삼성전자 주식회사 | Lossless energy encoding method and apparatus, audio encoding method and apparatus, lossless energy decoding method and apparatus, and audio decoding method and apparatus |
US20130144632A1 (en) * | 2011-10-21 | 2013-06-06 | Samsung Electronics Co., Ltd. | Frame error concealment method and apparatus, and audio decoding method and apparatus |
EP2772909B1 (en) * | 2011-10-27 | 2018-02-21 | LG Electronics Inc. | Method for encoding voice signal |
WO2013141638A1 (en) | 2012-03-21 | 2013-09-26 | 삼성전자 주식회사 | Method and apparatus for high-frequency encoding/decoding for bandwidth extension |
US10205961B2 (en) * | 2012-04-23 | 2019-02-12 | Qualcomm Incorporated | View dependency in multi-view coding and 3D coding |
EP3046104B1 (en) | 2013-09-16 | 2019-11-20 | Samsung Electronics Co., Ltd. | Signal encoding method and signal decoding method |
KR102625143B1 (en) * | 2014-02-17 | 2024-01-15 | 삼성전자주식회사 | Signal encoding method and apparatus, and signal decoding method and apparatus |
KR20230066137A (en) * | 2014-07-28 | 2023-05-12 | 삼성전자주식회사 | Signal encoding method and apparatus and signal decoding method and apparatus |
US20190013019A1 (en) * | 2017-07-10 | 2019-01-10 | Intel Corporation | Speaker command and key phrase management for muli -virtual assistant systems |
-
2014
- 2014-09-16 EP EP14844614.9A patent/EP3046104B1/en active Active
- 2014-09-16 CN CN201480062625.9A patent/CN105745703B/en active Active
- 2014-09-16 EP EP19201221.9A patent/EP3614381A1/en not_active Ceased
- 2014-09-16 CN CN201911105213.XA patent/CN110634495B/en active Active
- 2014-09-16 PL PL14844614T patent/PL3046104T3/en unknown
- 2014-09-16 JP JP2016542652A patent/JP6243540B2/en active Active
- 2014-09-16 CN CN201911105859.8A patent/CN110867190B/en active Active
-
2017
- 2017-11-09 JP JP2017216718A patent/JP6495420B2/en active Active
-
2019
- 2019-02-22 US US16/282,677 patent/US10811019B2/en active Active
-
2020
- 2020-10-01 US US17/060,888 patent/US11705142B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20190189139A1 (en) | 2019-06-20 |
EP3046104B1 (en) | 2019-11-20 |
EP3614381A1 (en) | 2020-02-26 |
CN110634495A (en) | 2019-12-31 |
US10811019B2 (en) | 2020-10-20 |
CN110867190A (en) | 2020-03-06 |
JP2018049284A (en) | 2018-03-29 |
US11705142B2 (en) | 2023-07-18 |
US20210020184A1 (en) | 2021-01-21 |
EP3046104A4 (en) | 2017-03-08 |
CN105745703B (en) | 2019-12-10 |
EP3046104A1 (en) | 2016-07-20 |
JP6243540B2 (en) | 2017-12-06 |
CN110634495B (en) | 2023-07-07 |
JP2016538602A (en) | 2016-12-08 |
CN110867190B (en) | 2023-10-13 |
CN105745703A (en) | 2016-07-06 |
PL3046104T3 (en) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6495420B2 (en) | SPECTRUM ENCODING DEVICE AND SPECTRUM DECODING DEVICE | |
KR102070432B1 (en) | Method and apparatus for encoding and decoding high frequency for bandwidth extension | |
CN107103910B (en) | Frame error concealment method and apparatus and audio decoding method and apparatus | |
JP6980871B2 (en) | Signal coding method and its device, and signal decoding method and its device | |
KR102452637B1 (en) | Signal encoding method and apparatus and signal decoding method and apparatus | |
JP6633547B2 (en) | Spectrum coding method | |
CN111179946A (en) | Lossless encoding method and lossless decoding method | |
US10902860B2 (en) | Signal encoding method and apparatus, and signal decoding method and apparatus | |
JP2018165843A (en) | Method of and apparatus for decoding high frequency wave for band width expansion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A132 Effective date: 20180828 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6495420 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |