CN111968655A - 信号编码方法和装置以及信号解码方法和装置 - Google Patents
信号编码方法和装置以及信号解码方法和装置 Download PDFInfo
- Publication number
- CN111968655A CN111968655A CN202010872921.2A CN202010872921A CN111968655A CN 111968655 A CN111968655 A CN 111968655A CN 202010872921 A CN202010872921 A CN 202010872921A CN 111968655 A CN111968655 A CN 111968655A
- Authority
- CN
- China
- Prior art keywords
- bits
- encoding
- unit
- spectral
- quantized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000003595 spectral effect Effects 0.000 claims abstract description 176
- 238000013139 quantization Methods 0.000 claims abstract description 79
- 230000005236 sound signal Effects 0.000 claims description 50
- 238000010606 normalization Methods 0.000 claims 2
- 238000001228 spectrum Methods 0.000 abstract description 66
- 238000010586 diagram Methods 0.000 description 60
- 230000005284 excitation Effects 0.000 description 51
- 230000008569 process Effects 0.000 description 29
- 210000004966 intestinal stem cell Anatomy 0.000 description 27
- 230000001052 transient effect Effects 0.000 description 23
- 238000012937 correction Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 7
- 230000003247 decreasing effect Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 230000007774 longterm Effects 0.000 description 5
- 238000011084 recovery Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 4
- 238000007493 shaping process Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000000611 regression analysis Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 239000000945 filler Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M13/00—Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
- H03M13/03—Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words
- H03M13/05—Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words using block codes, i.e. a predetermined number of check bits joined to a predetermined number of information bits
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M13/00—Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
- H03M13/03—Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words
- H03M13/05—Error detection or forward error correction by redundancy in data representation, i.e. code words containing more digits than the source words using block codes, i.e. a predetermined number of check bits joined to a predetermined number of information bits
- H03M13/13—Linear codes
- H03M13/15—Cyclic codes, i.e. cyclic shifts of codewords produce other codewords, e.g. codes defined by a generator polynomial, Bose-Chaudhuri-Hocquenghem [BCH] codes
- H03M13/151—Cyclic codes, i.e. cyclic shifts of codewords produce other codewords, e.g. codes defined by a generator polynomial, Bose-Chaudhuri-Hocquenghem [BCH] codes using error location or error correction polynomials
- H03M13/156—Encoding or decoding using time-frequency transformations, e.g. fast Fourier transformation
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M13/00—Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
- H03M13/31—Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes combining coding for error detection or correction and efficient use of the spectrum
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/189—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
- H04N19/196—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/40—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
公开了频谱编码方法及频谱编码装置,其中,频谱编码方法包括:通过利用统一标量量化USQ来对非零频带的频谱数据进行量化;从所量化的频谱数据中提取低比特;通过收集所量化的频谱数据中针对所有非零频带的低比特,生成低比特序列;通过利用网格编码量化TCQ来对低比特序列进行量化;基于所量化的低比特序列及从所量化的频谱数据中去除了低比特的高比特来生成比特流;其中,用于TCQ的比特数是从为每个非零频带的量化而分配的比特数中均匀地提取的,并且其中,非零频带中的其余比特数被用于USQ。
Description
技术领域
一个或多个示例性实施方式涉及对音频或语音信号进行编码和解码,更具体地,涉及用于在频域中对频谱系数进行编码或解码的方法和装置。
背景技术
已经提出多种方案的量化器以在频域中有效地编码频谱系数。例如,存在网格编码量化(TCQ)、统一标量量化(USQ)、阶乘脉冲编码(FPC)、代数矢量量化(AVQ)、金字塔矢量量化(PVQ)等,以及可以一起实现针对每个量化器优化的无损编码器。
发明内容
技术问题
一个或多个示例性实施方式包括用于在频域中对频谱系数进行适应于各种比特率或各种子带大小的编码或解码的方法和装置,。
一个或多个示例性实施方式包括计算机可读记录介质,其上记录有用于执行信号编码或解码方法的计算机可读程序。
一个或多个示例性实施方式包括采用信号编码或解码装置的多媒体设备。
技术方案
根据一个或多个示例性实施方式,频谱编码方法包括:基于第一量化方案对当前频带的频谱数据进行量化;使用频谱数据和经量化的频谱数据生成当前频带的低比特;基于第二量化方案对包括当前频带的低比特的低比特序列进行量化;以及基于从经量化的频谱数据和经量化的低比特序列中去除了N个比特的高比特(其中N为1或更大)生成比特流。
根据一个或多个示例性实施方式,频谱编码装置包括处理器,处理器配置为:基于第一量化方案对当前频带的频谱数据进行量化;使用频谱数据和经量化的频谱数据生成当前频带的低比特;基于第二量化方案对包括当前频带的低比特的低比特序列进行量化;以及基于从经量化的频谱数据和经量化的低比特序列中去除了N个比特的高比特(其中N为1或更大)生成比特流。
根据一个或多个示例性实施方式,频谱解码方法包括:接收比特流;通过提取TCQ路径信息来解码低比特序列;通过提取ISC信息来解码ISC的数量、位置和符号;提取并解码不同于低比特的其余比特;以及基于经解码的低比特序列和经解码的不同于低比特的其余比特来重构频谱分量。
根据一个或多个示例性实施方式,频谱解码装置包括处理器,该处理器配置为:接收比特流;通过提取TCQ路径信息来解码低比特序列;通过提取ISC信息来解码ISC的数量、位置和符号;提取并解码不同于低比特的其余比特;以及基于经解码的低比特序列和经解码的不同于低比特的其余比特来重构频谱分量。
技术效果
可以对频谱系数执行适应于多种比特率和多种子带大小的编码和解码。另外,可以通过使用在支持多速率的编解码器中设计的比特率控制模块,借助于联合的USQ和TCQ来对频谱系数进行编码。在这种情况下,可以使两种量化方法的各自优点最大化。
附图说明
图1A和图1B分别是根据示例性实施方式的音频编码装置和音频解码装置的框图。
图2A和图2B分别是根据另一示例性实施方式的音频编码装置和音频解码装置的框图。
图3A和图3B分别是根据另一示例性实施方式的音频编码装置和音频解码装置的框图。
图4A和图4B分别是根据另一示例性实施方式的音频编码装置和音频解码装置的框图。
图5是根据示例性实施方式的频域音频编码装置的框图。
图6是根据示例性实施方式的频域音频编码装置的框图。
图7是根据示例性实施方式的频谱编码装置的框图。
图8示出了子带分段。
图9是根据示例性实施方式的频谱量化装置的框图。
图10是根据示例性实施方式的频谱编码装置的框图。
图11是根据示例性实施方式的ISC编码装置的框图。
图12是根据示例性实施方式的ISC信息编码装置的框图。
图13是根据另一示例性实施方式的频谱编码装置的框图。
图14是根据另一示例性实施方式的频谱编码装置的框图。
图15示出了根据示例性实施方式的ISC收集和编码过程的概念。
图16示出了组合USQ和TCQ的第二联合方案。
图17是根据另一示例性实施方式的频谱编码装置的框图。
图18是根据示例性实施方式的图17的第二量化单元的框图。
图19示出了生成残留数据的方法。
图20示出了TCQ的示例。
图21是根据示例性实施方式的频域音频解码装置的框图。
图22是根据示例性实施方式的频谱解码装置的框图。
图23是根据示例性实施方式的频谱逆量化装置的框图。
图24是根据示例性实施方式的频谱解码装置的框图。
图25是根据示例性实施方式的ISC解码装置的框图。
图26是根据示例性实施方式的ISC信息解码装置的框图。
图27是根据另一示例性实施方式的频谱解码装置的框图。
图28是根据另一示例性实施方式的频谱解码装置的框图。
图29是根据另一示例性实施方式的频谱解码装置的框图。
图30是根据另一示例性实施方式的图29的第三解码单元的框图。
图31是根据示例性实施方式的多媒体设备的框图。
图32是根据另一示例性实施方式的多媒体设备的框图。
图33是根据另一示例性实施方式的多媒体设备的框图。
图34是示出根据示例性实施方式的频谱编码方法的流程图。
图35是示出根据示例性实施方式的频谱解码方法的流程图。
图36是根据示例性实施方式的比特分配装置的框图。
图37是根据示例性实施方式的编码模式确定装置的框图。
图38示出了根据示例性实施方式在图37的校正单元中使用的状态机。
具体实施方式
由于本发明构思可以具有不同的修改实施方式,因此在附图中示出并在本发明构思的详细描述中描述了优选实施方式。然而,这并不将本发明构思限制在具体实施方式内,并且应当理解,本发明构思覆盖了本发明构思的思想和技术范围内的所有修改、等同和替换。此外,将去掉与公知的功能或配置相关的详细描述,以免不必要地使本发明构思的主题模糊。
应当理解,尽管本文中使用第一和第二术语来描述各种元件,但这些元件不应受这些术语限制。术语仅用于将一个部件与其它部件区分开。
在以下描述中,技术术语仅用于解释特定示例性实施方式,而不限制本发明构思。考虑到本发明构思的功能,本发明构思中使用的术语被选择为当前被广泛使用的一般术语,但是可以根据本领域普通技术人员的意图、常规实践或新技术的引进而改变。此外,如果存在由申请人在特定情况下任意选择的术语,则在这种情况下,将在本发明构思的相应描述部分中详细描述该术语的含义。因此,应当基于本说明书的整个内容而不是每个术语的简单名称来限定术语。
单数形式的术语可以包括复数形式,除非相反地提及。“包含(comprise)”、“包括(include)”、“具有(have)”的含义指定属性、区域、固定数量、步骤、过程、元件和/或部件,但不排除其它属性、区域、固定数量、步骤、过程、元件和/或部件。
在下文中,将参照附图详细描述示例性实施方式。
图1A和图1B分别是根据示例性实施方式的音频编码装置和音频解码装置的框图。
图1A中示出的音频编码装置110可包括预处理器112、频域编码器114和参数编码器116。部件可以集成在至少一个模块中,以及可以实现为至少一个处理器(未示出)。
在图1A中,预处理器112可以对输入信号执行滤波、下采样等,但不限于此。输入信号可以包括语音信号、音乐信号或语音和音乐的混合信号。以下,为了便于说明,将输入信号称为音频信号。
频域编码器114可以对由预处理器112提供的音频信号执行时间-频率变换,选择与信道数量、编码频带和音频的比特率对应的编码工具,以及通过使用所选择的编码工具对音频信号进行编码。时间-频率变换可以使用修正离散余弦变换(MDCT)、调制重叠变换(MLT)或快速傅里叶变换(FFT),但不限于此。当给定比特的数量足够时,可以对整个频带应用通用变换编码方案,当给定比特的数量不足时,可以将带宽扩展方案应用于部分频带。当音频信号是立体声信道或多信道时,如果给定比特的数量足够,则针对每个信道执行编码,如果给定比特的数量不足,则可以应用下混合方案。由频域编码器114生成经编码的频谱系数。
参数编码器116可以从由频域编码器114提供的经编码的频谱系数中提取参数,并对提取的参数进行编码。可例如针对作为分组频谱系数的单位的每个子带提取参数,并且参数可以具有反映临界频带的统一或不统一的长度。当每个子带具有不统一的长度时,与存在于高频带中的子带相比,存在于低频带中的子带可以具有相对短的长度。一个帧中包括的子带的数量和长度根据编解码算法而变化,以及可能影响编码性能。参数可以包括例如缩放因子、功率、平均能量或范数(Norm),但不限于此。作为编码结果获得的频谱系数和参数形成比特流,以及比特流可以存储在存储介质中,或者可以通过信道以例如包的形式传送。
图1B中示出的音频解码装置130可包括参数解码器132、频域解码器134和后处理器136。频域解码器134可以包括帧错误隐藏算法(FEC)或包丢失隐藏算法(PLC)。部件可以集成在至少一个模块中,以及可以被实现为至少一个处理器(未示出)。
在图1B中,参数解码器132可以解码来自接收到的比特流中的参数,以及从经解码的参数检查帧单元中是否发生诸如擦除或丢失的错误。各种公知的方法可以用于错误检查,以及与当前帧是良好帧还是擦除或丢失帧相关的信息被提供给频域解码器134。在下文中,为了便于解释,将擦除或丢失帧称为错误帧。
当当前帧是良好帧时,频域解码器134可以通过通用变换解码过程执行解码来生成合成频谱系数。当当前帧是错误帧时,频域解码器134可以经由帧错误隐藏算法或包丢失隐藏算法,通过将先前良好帧(PGF)的频谱系数重复到错误帧上或者通过回归分析缩放PGF的频谱系数然后将其重复到错误帧上来生成合成频谱系数。频域解码器134可以通过对合成的频谱系数执行频率-时间变换来生成时域信号。
后处理器136可以对由频域解码器134提供的时域信号执行滤波、上采样等以改善声音质量,但不限于此。后处理器136将经重构的音频信号提供为输出信号。
图2A和图2B分别是根据另一示例性实施方式的具有转换结构的音频编码装置和音频解码装置的框图。
图2A中示出的音频编码装置210可以包括预处理器212、模式确定器213、频域编码器214、时域编码器215和参数编码器216。部件可以集成在至少一个模块中,以及可以实现为至少一个处理器(未示出)。
在图2A中,由于预处理器212与图1A的预处理器112基本上相同。因此,不再重复其描述。
模式确定器213可以通过参考输入信号的特性来确定编码模式。模式确定器213可以根据输入信号的特性确定适合于当前帧的编码模式是语音模式还是音乐模式,以及还可以确定对当前帧有效的编码模式是时域模式还是频域模式。可以通过使用帧的短期特性或多个帧的长期特性来感知输入信号的特性,但不限于此。例如,如果输入信号与语音信号对应,则编码模式可以被确定为语音模式或时域模式,如果输入信号与不同于语音信号的信号(即,音乐信号或者混合信号)对应,则编码模式可以被确定为音乐模式或频域模式。模式确定器213可以在输入信号的特性与音乐模式或频域模式对应时将预处理器212的输出信号提供给频域编码器214,以及可以在输入信号的特性与语音模式或时域模式对应时将预处理器212的输出信号提供给时域编码器215。
由于频域编码器214与图1A的频域编码器114基本上相同。因此,不再重复其描述。
时域编码器215可以对从预处理器212提供的音频信号执行码激励线性预测(CELP)编码。具体地,代数CELP可以用于CELP编码,但CELP编码不限于此。由时域编码器215生成经编码的频谱系数。
参数编码器216可以从频域编码器214或时域编码器215提供的经编码的频谱系数提取参数,并对所提取的参数进行编码。由于参数编码器216与图1A的参数编码器116基本上相同,因此,不再重复其描述。作为编码结果而获得的频谱系数和参数可以与编码模式信息一起形成比特流,以及比特流可以通过信道以包的形式传送或者可以存储在存储介质中。
图2B中示出的音频解码装置230可以包括参数解码器232、模式确定器233、频域解码器234、时域解码器235和后处理器236。频域解码器234和时域解码器235中的每一个可以在每个相应的域中包括帧错误隐藏算法或包丢失隐藏算法。部件可以集成在至少一个模块中,以及可以实现为至少一个处理器(未示出)。
在图2B中,参数解码器232可以对来自以包形式传送的比特流中的参数进行解码,以及根据经解码的参数检查帧单元中是否发生错误。各种公知的方法可以用于错误检查,以及与当前帧是良好帧还是错误帧相关的信息被提供给频域解码器234或时域解码器235。
模式确定器233可以检查比特流中包括的编码模式信息,以及将当前帧提供给频域解码器234或时域解码器235。
频域解码器234可以在编码模式是音乐模式或频域模式时操作,以及当当前帧是良好帧时,通过通用变换解码过程执行解码来生成合成频谱系数。当当前帧是错误帧并且先前帧的编码模式是音乐模式或频域模式时,频域解码器234可以经由帧错误隐藏算法或包丢失隐藏算法,通过将先前良好帧(PGF)的频谱系数重复到错误帧上或者通过回归分析缩放PGF的频谱系数然后将其重复到错误帧上来生成合成频谱系数。频域解码器234可以通过对合成的频谱系数执行频率-时间变换来生成时域信号。
时域解码器235可以在编码模式是语音模式或时域模式时操作,以及当当前帧是正常帧时,通过通用CELP解码过程执行解码来生成时域信号。当当前帧是错误帧并且先前帧的编码模式是语音模式或时域模式时,时域解码器235可以在时域中执行帧错误隐藏算法或包丢失隐藏算法。
后处理器236可以对频域解码器234或时域解码器235提供的时域信号执行滤波、上采样等,但不限于此。后处理器236将经重构的音频信号提供为输出信号。
图3A和图3B分别是根据另一示例性实施方式的音频编码装置和音频解码装置的框图。
图3A中示出的音频编码装置310可以包括预处理器312、线性预测(LP)分析器313、模式确定器314、频域激励编码器315、时域激励编码器316和参数编码器317。部件可以集成在至少一个模块中,以及可以实现为至少一个处理器(未示出)。
在图3A中,由于预处理器312与图1A的预处理器112基本上相同,因此,不再重复其描述。
LP分析器313可以通过对输入信号执行LP分析来提取LP系数,以及从所提取的LP系数生成激励信号。根据编码模式,激励信号可以被提供给频域激励编码器315和时域激励编码器316中的一个。
由于模式确定器314与图2A的模式确定器213基本上相同,因此,不再重复其描述。
频域激励编码器315可以在编码模式是音乐模式或频域模式时操作,以及由于除输入信号是激励信号之外,频域激励编码器315与图1A的频域编码器114基本上相同,因此,不再重复其描述。
时域激励编码器316可以在编码模式是语音模式或时域模式时操作,以及由于时域激励编码器316与图2A的时域编码器215基本上相同,因此,不再重复其描述。
参数编码器317可以从频域激励编码器315或时域激励编码器316提供的经编码的频谱系数中提取参数,并对所提取的参数进行编码。由于参数编码器317与图1A的参数编码器116基本上相同,因此,不再重复其描述。作为编码结果获得的频谱系数和参数可以与编码模式信息一起形成比特流,以及比特流可以通过信道以包的形式传送或者可以存储在存储介质中。
图3B中示出的音频解码装置330可以包括参数解码器332、模式确定器333、频域激励解码器334、时域激励解码器335、LP合成器336和后处理器337。频域激励解码器334和时域激励解码器335中的每一个可以在每个相应的域中包括帧错误隐藏算法或包丢失隐藏算法。部件可以集成在至少一个模块中,以及可以实现为至少一个处理器(未示出)。
在图3B中,参数解码器332可以对以包形式传送的比特流中的参数进行解码,以及根据经解码的参数来检查帧单元中是否发生错误。各种公知的方法可以用于错误检查,以及与当前帧是良好帧还是错误帧相关的信息被提供给频域激励解码器334或时域激励解码器335。
模式确定器333可以检查比特流中包括的编码模式信息,并将当前帧提供给频域激励解码器334或时域激励解码器335。
频域激励解码器334可以在编码模式是音乐模式或频域模式时操作,以及当当前帧是良好帧时通过通用变换解码过程执行解码来生成合成频谱系数。当当前帧是错误帧并且先前帧的编码模式是音乐模式或频域模式时,频域激励解码器334可以经由帧错误隐藏算法或包丢失隐藏算法,通过将先前良好帧(PGF)的频谱系数重复到错误帧上或者通过回归分析缩放PGF的频谱系数然后将其重复到错误帧上来生成合成频谱系数。频域激励解码器334可以通过对合成的频谱系数执行频率-时间变换来生成作为时域信号的激励信号。
时域激励解码器335可以在编码模式是语音模式或时域模式时操作,以及当当前帧是良好帧时,通过通用CELP解码过程执行解码来生成作为时域信号的激励信号。当当前帧是错误帧并且先前帧的编码模式是语音模式或时域模式时,时域激励解码器335可以在时域中执行帧错误隐藏算法或包丢失隐藏算法。
LP合成器336可以通过对从频域激励解码器334或时域激励解码器335提供的激励信号执行LP合成来生成时域信号。
后处理器337可以对从LP合成器336提供的时域信号执行滤波、上采样等,但不限于此。后处理器337将经重构的音频信号提供为输出信号。
图4A和图4B分别是根据另一示例性实施方式的具有转换结构的音频编码装置和音频解码装置的框图。
图4A中示出的音频编码装置410可以包括预处理器412、模式确定器413、频域编码器414、LP分析器415、频域激励编码器416、时域激励编码器417和参数编码器418。部件可以集成在至少一个模块中,以及可以实现为至少一个处理器(未示出)。由于可以认为图4A中示出的音频编码装置410是通过组合图2A的音频编码装置210和图3A的音频编码装置310而获得的,因此不再重复描述共有部分的操作,以及现在将描述模式确定器413的操作。
模式确定器413可以通过参考输入信号的特性和比特率来确定输入信号的编码模式。模式确定器413可以根据输入信号的特性基于当前帧是语音模式还是音乐模式以及基于对当前帧有效的编码模式是时域模式还是频域模式来确定编码模式为CELP模式或其它模式。当输入信号的特性与语音模式对应时,模式确定器413可以确定编码模式为CELP模式,当输入信号的特性与音乐模式和高比特率对应时可以确定编码模式为频域模式,以及当输入信号的特性与音乐模式和低比特率对应时可以确定编码模式为音频模式。当编码模式是频域模式时,模式确定器413可以将输入信号提供给频域编码器414,当编码模式是音频模式时,经由LP分析器415将输入信号提供给频域激励编码器416,以及当编码模式是CELP模式时,经由LP分析器415将输入信号提供给时域激励编码器417。
频域编码器414可以与图1A的音频编码装置110中的频域编码器114或图2A的音频编码装置210中的频域编码器214对应,以及频域激励编码器416或时域激励编码器417可以与图3A的音频编码装置310中的频域激励编码器315或时域激励编码器316对应。
图4B中示出的音频解码装置430可以包括参数解码器432、模式确定器433、频域解码器434、频域激励解码器435、时域激励解码器436、LP合成器437和后处理器438。频域解码器434、频域激励解码器435和时域激励解码器436中的每一个可以在每个相应的域中包括帧错误隐藏算法或包丢失隐藏算法。部件可以集成在至少一个模块中,以及可以实现为至少一个处理器(未示出)。由于可以认为图4B中示出的音频解码装置430是通过组合图2B的音频解码装置230和图3B的音频解码装置330而获得,因此不再重复描述共有部分的操作,以及现在将描述模式确定器433的操作。
模式确定器433可以检查比特流中包括的编码模式信息,以及将当前帧提供给频域解码器434、频域激励解码器435或时域激励解码器436。
频域解码器434可以与图1B的音频解码装置130中的频域解码器134或图2B的音频解码装置230中的频域解码器234对应,以及频域激励解码器435或时域激励解码器436可以与图3B的音频解码装置330中的频域激励解码器334或时域激励解码器335对应。
图5是根据示例性实施方式的频域音频编码装置的框图。
图5中示出的频域音频编码装置510可以包括瞬态检测器511、变换器512、信号分类器513、能量编码器514、频谱归一化器515、比特分配器516、频谱编码器517和复用器518。部件可以集成在至少一个模块中,以及可以实现为至少一个处理器(未示出)。频域音频编码装置510可以执行图2中示出的频域编码器214的所有功能和参数编码器216的部分功能。除了信号分类器513之外,频域音频编码装置510可以由在ITU-T G.719标准中公开的编码器的配置来代替,以及变换器512可以使用具有重叠持续时间为50%的变换窗口。另外,除了瞬态检测器511和信号分类器513之外,频域音频编码装置510可以由ITU-T G.719标准中公开的编码器的配置来代替。在每种情况下,尽管未示出,但如ITU-T G.719标准那样,频谱编码器517的后端中还可包括噪声级别估计单元以估计在比特分配过程中未被分配比特的频谱系数的噪声级别,并将所估计的噪声级别嵌入到比特流中。
参考图5,瞬态检测器511可以通过分析输入信号来检测表现出瞬态特性的持续时间,以及响应于所检测的结果针对每个帧生成瞬态信号信息。各种公知的方法可以用于检测瞬态持续时间。根据示例性实施方式,瞬态检测器511可以首先确定当前帧是否为瞬态帧,然后验证已被确定为瞬态帧的当前帧。瞬态信号信息可以由复用器518包括在比特流中,以及可以被提供给变换器512。
变换器512可以根据对瞬态持续时间的检测结果来确定待用于变换的窗口大小,以及基于所确定的窗口大小来执行时间-频率变换。例如,可以将短窗口应用于已经检测到瞬态持续时间的子带,以及可以将长窗口应用于尚未检测到瞬态持续时间的子带。作为另一示例,可以将短窗口应用于包括瞬态持续时间的帧。
信号分类器513可以以帧为单位分析从变换器512提供的频谱,以确定每个帧是否与谐波帧对应。可以使用各种公知的方法来确定谐波帧。根据示例性实施方式,信号分类器513可以将从变换器512提供的频谱划分为多个子带,以及可获得每个子带的峰值能量值和平均能量值。此后,信号分类器513可以针对每个帧获得其中峰值能量值以预定比率或更大比率高于平均能量值的子带的数量,以及将所获得的子带数量大于或等于预定值的帧确定为谐波帧。预定比率和预定值可以通过实验或模拟预先确定。谐波信号信息可以由复用器518包括在比特流中。
能量编码器514可以以每个子带为单位获得能量并对能量进行量化和无损编码。根据实施方式,以每个子带为单位,与平均频谱能量对应的Norm值可以用作能量,以及也可以使用缩放因子或功率,但能量不限于此。每个子带的Norm值可以被提供给频谱归一化器515和比特分配器516,以及可以由复用器518包括在比特流中。
频谱归一化器515可以通过使用以每个子带为单位获得的Norm值来对频谱进行归一化。
比特分配器516可以通过使用以每个子带为单位获得的Norm值以整数单位或分数单位分配比特。另外,比特分配器516可以通过使用以每个子带为单位获得的Norm值来计算掩蔽阈值,并通过使用掩蔽阈值来估计感知上所需要的比特数,即,可允许的比特数。比特分配器516可以限制所分配的比特数不超过每个子带可允许的比特数。比特分配器516可以顺序地分配来自具有较大Norm值的子带中的比特,并根据每个子带的感知重要性来每个子带的Norm值进行加权以调整分配的比特数,使得更多数量的比特被分配给感知上重要的子带。如ITU-T G.719标准中那样,从能量编码器514提供给比特分配器516的量化Norm值可以在预先调整以考虑心理声学加权和掩蔽效应之后用于比特分配。
频谱编码器517可以通过使用每个子带所分配的比特数来对归一化频谱进行量化,并对量化的结果进行无损编码。例如,TCQ、USQ、FPC、AVQ和PVQ或其组合以及针对每一量化器优化的无损编码器可以用于频谱编码。另外,网格编码也可以用于频谱编码,但频谱编码不限于此。此外,还可以根据实施相应编解码器的环境或用户的需要而使用各种频谱编码方法。与由频谱编码器517编码的频谱相关的信息可以由复用器518包括在比特流中。
图6是根据示例性实施方式的频域音频编码装置的框图。
图6中示出的频域音频编码装置600可以包括预处理器610、频域编码器630、时域编码器650和复用器670。频域编码器630可以包括瞬态检测器631、变换器633和频谱编码器635。部件可以集成在至少一个模块中,以及可以实现为至少一个处理器(未示出)。
参考图6,预处理器610可以对输入信号执行滤波、下采样等,但不限于此。预处理器610可以根据信号特性确定编码模式。预处理器610可以根据信号特性来确定适合于当前帧的编码模式是语音模式还是音乐模式,以及还可以确定对当前帧有效的编码模式是时域模式还是频域模式。可以通过使用帧的短期特性或多个帧的长期特性来感知信号特性,但不限于此。例如,如果输入信号与语音信号对应,则编码模式可以被确定为语音模式或时域模式,如果输入信号与不同于语音信号的信号(即,音乐信号或者混合信号)对应,则编码模式可以被确定为音乐模式或频域模式。当信号特性与音乐模式或频域模式对应时,预处理器610可以将输入信号提供给频域编码器630,当信号特性与语音模式或时域模式对应时,预处理器610可以将输入信号提供给时域编码器650。
频域编码器630可以基于变换编码方案来处理从预处理器610提供的音频信号。具体地,瞬态检测器631可以从音频信号检测瞬态分量并确定当前帧是否与瞬态帧对应。变换器633可以基于帧类型(即,从瞬态检测器631提供的瞬态信息)确定变换窗口的长度或形状,以及可以基于所确定的变换窗口将音频信号变换到频域内。作为变换工具的示例,可以使用修正离散余弦变换(MDCT)、快速傅立叶变换(FFT)或调制重叠变换(MLT)。通常,短变换窗口可以应用于包括瞬态分量的帧。频谱编码器635可以对变换到频域内的音频频谱执行编码。下面将参照图7和图9更详细地描述频谱编码器635。
时域编码器650可以对由预处理器610提供的音频信号执行码激励线性预测(CELP)编码。具体地,代数CELP可以用于CELP编码,但CELP编码不限于此。
复用器670可以复用作为频域编码器630或时域编码器650中编码的结果而生成的频谱分量或信号分量和可变索引,以便生成比特流。比特流可以存储在存储介质中或者可以通过信道以包的形式传送。
图7是根据示例性实施方式的频谱编码装置的框图。图7中示出的频谱编码装置700可以与图6的频谱编码器635对应,可以包括在另一频域编码装置中,或者可以被独立地实现。
图7中示出的频谱编码装置700可以包括能量估计器710、能量量化和编码单元720、比特分配器730、频谱归一化器740、频谱量化和编码单元750以及噪声填充器760。
参考图7,能量估计器710可以将原始频谱系数划分为多个子带并估计能量,例如每个子带的Norm值。每个子带可以在帧中具有统一的长度。当每个子带具有不统一的长度时,包括在子带中的频谱系数的数量可以从低频带到高频带增加。
能量量化和编码单元720可以对每个子带的估计的Norm值进行量化和编码。Norm值可以通过诸如矢量量化(VQ)、标量量化(SQ)、网格编码量化(TCQ)、网格矢量量化(LVQ)等可变工具来量化。能量量化和编码单元720还可执行无损编码以进一步提高编码效率。
比特分配器730可以基于每个子带的量化Norm值,依据帧可允许的比特来分配编码所需的比特。
频谱归一化器740可以基于获得的每个子带的Norm值对频谱进行归一化。
频谱量化和编码单元750可以基于为每个子带分配的比特来对归一化频谱进行量化和编码。
由于频谱量化和编码单元750中可允许的比特的约束,噪声填充器760可以将噪声添加到被量化为零的分量中。
图8示出了子带分段。
参考图8,当输入信号使用48KHz的采样频率并具有20ms的帧大小时,每帧要处理的样本的数量变为960。即,当使用具有50%重叠的MDCT来变换输入信号时,获得960个频谱系数。可根据编码方案可变地设置重叠的比率。在频域中,可以在理论上处理高达24KHz的频带,以及可以考虑可听范围来表示高达20KHz的频带。在0KHZ至3.2KHz的低频带中,子带包括8个频谱系数。在3.2KHz至6.4KHz的频带中,子带包括16个频谱系数。在6.4KHz至13.6KHz的频带中,子带包括24个频谱系数。在13.6KHz至20KHz的频带中,子带包括32个频谱系数。对于在编码装置中设置的预定频带,可以执行基于Norm值的编码,对于高于预定频带的高频带,可以应用基于可变方案(诸如,频带扩展)的编码。
图9是示出根据示例性实施方式的频谱量化装置的配置的框图。
图9中示出的装置可以包括量化器选择单元910、USQ 930和TCQ950。
在图9中,量化器选择单元910可以根据待量化的信号(即,输入信号)的特性从多种量化器中选择最有效的量化器。作为输入信号的特性,每个频带的比特分配信息、频带大小信息等可被使用。根据选择的结果,可以将待量化的信号提供给USQ 930和TCQ 950中的一个,使得执行相应的量化。输入信号可以是经归一化的MDCT频谱。输入信号的带宽可以是窄带(NB)或宽带(WB)。输入信号的编码模式可以是正常模式。
图10是示出根据示例性实施方式的频谱编码装置的配置的框图。图10中示出的装置1000可以与图7的频谱量化和编码单元750对应,可以包括在另一频域编码装置中,或者可以被独立地实现。
图10中示出的装置1000可以包括编码方法选择单元1010、零编码单元1020、缩放单元1030、ISC编码单元1040、量化分量恢复单元1050和逆缩放单元1060。此处,量化分量恢复单元1050和逆缩放单元1060可以被可选地提供。
在图10中,编码方法选择单元1010可以通过考虑输入信号特性来选择编码方法。输入信号特性可以包括每个频带的带宽和所分配的比特中的至少之一。可以基于为每个频带选择的编码方案将归一化频谱提供给零编码单元1020或缩放单元1030。根据实施方式,在带宽是窄带或宽带的情况下,当分配给频带的每个样本的平均比特数大于或等于预定值(例如,0.75)时,可以通过确定相应的频带具有高重要性而将USQ用于相应的频带,以及TCQ可以用于所有其它频带。此处,可以通过考虑频带长度或频带大小来确定平均比特数。可以使用一比特标志设置所选择的编码方法。根据另一实施方式,在带宽是超宽带(SWB)或全带(FB)的情况下,可以使用联合USQ和TCQ方法。
零编码单元1020可以针对分配的比特为零的频带将所有样本编码为零(0)。
缩放单元1030可以基于分配给频带的比特通过缩放频谱来调整比特率。在这种情况下,可以使用归一化频谱。缩放单元1030可以通过考虑分配给包括在频带中的每个样本的平均比特数(即,频谱系数),来执行缩放。例如,平均比特数越大,可以执行的缩放越多。
根据实施方式,缩放单元1030可以根据每个频带的比特分配来确定适当的缩放值。
具体地,首先,可以使用频带长度和比特分配信息来估计当前频带的脉冲数量。此处,脉冲可以表示单位脉冲。在估计之前,可以基于等式1来计算当前频带实际需要的比特(b)。
其中,n表示频带长度,m表示脉冲数量,以及i表示具有重要频谱分量(ISC)的非零位置的数量。
可以基于例如等式2的概率来获得非零位置的数量。
另外,可以通过等式3来估计非零位置所需的比特数。
bnzp=log2(pNZP(i)) (3)
最后,可以通过具有与分配给每个频带的比特最接近的值的值b来选择脉冲的数量。
接下来,可以通过对每个频带获得的脉冲数量和输入信号的绝对值的估计来确定初始缩放因子。输入信号可以通过初始缩放因子缩放。如果经缩放的原始信号(即,经量化的信号)的脉冲数量的总和与所估计的脉冲数量不相同,则可以使用经更新的缩放因子来执行脉冲重新分布处理。根据脉冲重新分布处理,如果为当前频带选择的脉冲数量小于为每个频带获得的估计脉冲数量,则通过减小缩放因子增加脉冲数量,反之,如果为当前频带选择的脉冲数量大于为每个频带获得的估计脉冲数量,则通过增大缩放因子减小脉冲数量。在这种情况下,通过选择令原始信号的失真最小化的位置,可以将缩放因子增大或减小预定值。
由于用于TCQ的失真函数需要相对大小而不是准确的距离,因此可以将每个频带中的量化值和未量化值之间距离的平方的和作为用于TCQ的失真函数,如等式4所示。
其中,pi表示实际值,qi表示量化值。
用于USQ的失真函数可以使用欧几里得距离来确定最佳量化值。在这种情况下,可以使用包括缩放因子的修正方程来使计算复杂度最小化,以及可以通过等式5计算失真函数。
如果每个频带的脉冲数量与所需的值不匹配,则可能需要增加或减小脉冲的预定数量,同时保持最小度量。这可以以迭代方式通过添加或删除单个脉冲然后重复直到脉冲数量达到所需值来执行。
为了添加或删除一个脉冲,需要获得n个失真值以选择最佳失真值。例如,失真值j可以与将脉冲添加到频带中的第j个位置对应,如等式6所示。
为了避免执行n次等式6,可以使用如等式7所示的偏差。
在等式7中,可以仅被计算一次。另外,n表示频带长度(即,频带中的系数的数量),p表示原始信号(即,量化器的输入信号),q表示经量化的信号,以及g表示缩放因子。最后,可以选择令失真d最小化的位置j,从而更新qj。
为了控制比特率,可以通过使用经缩放的频谱系数及选择适当的ISC来执行编码。具体地,可以使用每个频带的比特分配选择用于量化的频谱分量。在这种情况下,可以基于根据频谱分量的分布和方差的各种组合来选择频谱分量。接下来,可以计算实际的非零位置。可以通过分析缩放量和重新分布操作来获得非零位置,以及这种选择的非零位置可以被称为ISC。总之,通过分析经历缩放和重新分布过程的信号的幅度,获得与ISC对应的最佳缩放因子和非零位置信息。此处,非零位置信息指非零位置的数量和位置。如果不通过缩放和重新分布过程控制脉冲数量,则可以通过TCQ过程来量化所选择的脉冲,以及可以使用量化结果来调整冗余比特。该过程可以如下所示。
对于非零位置的数量与每个频带的估计的脉冲数量不相同且大于预定值(例如1)以及量化器选择信息表示TCQ的条件,可以通过实际TCQ量化来调整冗余比特。具体地,在与该条件对应的情况下,首先执行TCQ量化过程以调整冗余比特。如果通过TCQ量化获得的当前频带的实际脉冲数量小于先前针对每个频带获得的估计脉冲数量,则通过将在TCQ量化之前确定的缩放因子乘以大于1的值(例如,1.1)来增大缩放因子,否则通过将在实际TCQ量化之前确定的缩放因子乘以小于1的值(例如,0.9)来减小缩放因子。当针对每个频带获得的估计脉冲数量与经由TCQ量化通过重复该过程获得的当前频带的脉冲数量相同时,通过计算实际TCQ量化过程中使用的比特来更新冗余比特。通过该过程获得的非零位置可以与ISC对应。
ISC编码单元1040可以对与最终选择的ISC的数量相关的信息和与非零位置相关的信息进行编码。在该过程中,可以应用无损编码来提高编码效率。ISC编码单元1040可以使用针对所分配的比特为非零的非零频带而选择的量化器来执行编码。具体地,ISC编码单元1040可以针对经归一化的频谱为每个频带选择ISC,以及基于数量、位置、幅度和符号来对与所选择的ISC相关的信息进行编码。在这种情况下,可以以不同于数量、位置和符号的方式对ISC幅度进行编码。例如,可以使用USQ和TCQ中的一种对ISC幅度进行量化并对其进行算术编码,而对ISC的数量、位置和符号进行算术编码。根据实施方式,可以基于信号特性来选择TCQ和USQ中的一种。此外,可以使用第一联合方案,在第一联合方案中,针对每个频带,除了原始比特分配信息外,还通过对来自先前编码频带的冗余比特额外地执行第二比特分配过程来选择量化器。第一联合方案中的第二比特分配过程可以分发来自先前编码频带的冗余比特,以及可以检测待被分别编码的两个频带。此处,信号特性可以包括分配给每个频带的比特或频带长度。例如,如果可以确定特定频带包括变化的重要信息,则可以使用USQ。否则,可以使用TCQ。如果分配给包括在频带中的每个样本的平均比特数大于或等于阈值(例如,0.75),则可以确定相应的频带包括变化的重要信息,因此可以使用USQ。即使在具有短频带长度的低频带的情况下,也可以根据情况使用USQ。当输入信号的带宽是NB或WB时,可以使用第一联合方案。根据另一实施方式,使用第二联合方案用于最低有效位(LSB),第二联合方案中可以通过使用USQ和TCQ对所有频带进行编码。当输入信号的带宽是SWB或FB时,可以使用第二联合方案。
量化分量恢复单元1050可以通过将ISC位置、幅度和符号信息添加到量化分量来恢复实际量化分量。此处,零可以被分配给零位置的频谱系数,即,被编码为零的频谱系数。
逆缩放单元1060可以通过对恢复的量化分量进行逆缩放来输出与经归一化的输入频谱的级别相同的量化频谱系数。缩放单元1030和逆缩放单元1060可以使用相同的缩放因子。
图11是示出根据示例性实施方式的ISC编码装置的配置的框图。
图11中示出的装置可以包括ISC选择器1110和ISC信息编码单元1130。图11的装置可以与图10的ISC编码单元1040对应或者可以被实现为独立的装置。
在图11中,ISC选择器1110可以基于预定标准从经缩放的频谱选择ISC以调整比特率。ISC选择器1110可以通过分析缩放程度从经缩放的频谱获得实际非零位置。此处,ISC可以与缩放之前的实际非零频谱系数对应。ISC选择器1110可以基于为每个频带分配的比特通过考虑频谱系数的分布和方差来选择待编码的频谱系数,即非零位置。TCQ可以用于ISC选择。
ISC信息编码单元1130基于所选择的ISC来编码ISC信息,即ISC的数量信息、位置信息、幅度信息和符号。
图12是示出根据示例性实施方式的ISC信息编码装置的配置的框图。
图12中示出的装置可以包括位置信息编码单元1210、幅度编码单元1230和符号编码单元1250。
在图12中,位置信息编码单元1210可以对由ISC选择器(图11的1110)选择的ISC的位置信息(即,非零频谱系数的位置信息)进行编码。位置信息可以包括所选择的ISC的数量和位置。算术编码可以用于对位置信息的编码。可以通过收集所选择的ISC来配置新的缓冲。对于ISC收集,可以排除零频带和未选择的频谱。
幅度编码单元1230可以对新配置的ISC的幅度信息进行编码。在这种情况下,可以通过选择TCQ和USQ中的一种来执行量化,以及可以额外地连续执行算术编码。为了提高算术编码的效率,可以使用ISC的非零位置信息和数量。
符号编码单元1250可以对所选择的ISC的符号信息进行编码。算术编码可以用于对符号信息的编码。
图13是示出根据另一示例性实施方式的频谱编码装置的配置的框图。图13中示出的装置1300可以与图7的频谱量化和编码单元750对应,或者可以包括在另一频域编码装置中或被独立地实现。
图13中示出的装置1300可以包括缩放单元1330、ISC编码单元1340、量化分量恢复单元1350和逆缩放单元1360。与图10相比,除了省略了零编码单元1020和编码方法选择单元1010以及ISC编码单元1340使用TCQ之外,每个部件的操作是相同的。
图14是示出根据另一示例性实施方式的频谱编码装置的配置的框图。图14中示出的装置1400可以与图7的频谱量化和编码单元750对应,或者可以,包括在另一频域编码装置中或被独立地实现。
图14中示出的装置1400可以包括编码方法选择单元1410、缩放单元1430、ISC编码单元1440、量化分量恢复单元1450以及逆缩放单元1460。与图10相比,除了省略零编码单元1020之外,每个部件的操作是相同的。
图15示出了根据示例性实施方式的ISC收集和编码过程的概念。首先,省略零频带(即,待被量化为零的频带)。接下来,可以通过使用从存在于非零频带中的频谱分量选择的ISC来配置新的缓冲。可以通过使用组合USQ和TCQ的第一联合方案或第二联合方案以频带为单位对新配置的ISC执行量化,以及可以执行相应的无损编码。
图16示出了组合USQ和TCQ的第二联合方案。
参考图16,可以通过使用USQ以频带为单位对频谱数据执行量化。大于一(1)的每个经量化的频谱数据可以包含为零或一的LSB。对于每个频带,可以获得LSB序列,然后通过使用TCQ对LSB序列进行量化以找到LSB序列与可用网格路径之间的最佳匹配。根据信噪比(SNR)标准,在量化序列中可能发生错误。但是,以量化序列中的一些错误为代价,可以减小序列的长度。
根据第二联合方案,可以在一个方案中使用两种量化器(即,USQ和TCQ)的优点,以及可以排除来自TCQ的路径限制。
图17是根据另一示例性实施方式的频谱编码装置的框图。图17中示出的装置可以与图10的ISC编码单元1040对应或独立实现。
图17中示出的频谱编码装置可以包括第一量化单元1710、第二量化单元1730、第一无损编码单元1750、第二无损编码单元1760、第三无损编码单元1770和比特流生成单元1790。部件可以集成在至少一个处理器中。
参考图17,第一量化单元1710可以通过使用USQ来对频带(即,非零频带)的频谱数据进行量化。可以预先确定用于每个频带的量化而分配的比特数。在这种情况下,可以从每个非零频带均匀地提取待在第二量化单元1730中用于TCQ的比特数,然后可以通过使用非零频带中的其余比特数对频带执行USQ。频谱数据可以是范数或归一化频谱数据。
第二量化单元1730可以通过使用TCQ对来自第一量化单元1710的经量化的频谱数据的低比特进行量化。低比特可以是LSB。在这种情况下,对于所有频带,可以收集低比特(即,残留数据),然后可以对残留数据执行TCQ。对于量化后具有非零数据的所有频带,可以将残留数据收集为经量化的频谱数据与未经量化的频谱数据之间的差异。如果一些频率在非零频带中被量化为零,则它们可能不被包括在残留数据中。残留数据可以构造数组。
第一无损编码单元1750可以对与包括在频带中的ISC相关的信息(例如,ISC的数量、位置和符号)执行无损编码。根据实施方式,可以使用算术编码。
第二无损编码单元1760可以对由经量化的频谱数据中不同于低比特的其余比特构成的幅度信息执行无损编码。根据实施方式,可以使用算术编码。
第三无损编码单元1770可以对TCQ信息(即从第二量化单元1730的量化结果获得的网格路径数据)执行无损编码。根据实施方式,可以使用算术编码。网格路径数据可以被编码为等概率标记。网格路径数据是二进制序列,以及可以使用具有统一概率模型的算术编码器进行编码。
比特流生成单元1790可以通过使用从第一至第三无损编码单元1750、1760和1770提供的数据来生成比特流。
图18是根据示例性实施方式的图17的第二量化单元1730的框图。
图18中示出的第二量化单元1730可以包括低比特获取单元1810、残留数据生成单元1830和TCQ单元1850。这些部件可以集成在至少一个处理器中。
参考图18,低比特获取单元1810可以基于从第一量化单元1710提供的经量化的非零频谱数据与原始非零频谱数据之间的差异来提取残留数据。残留数据可以与经量化的非零频谱数据的低比特(例如,LSB)对应。
残留数据生成单元1830可以针对所有非零频带通过收集经量化的非零频谱数据与原始非零频谱数据之间的差异来建构残留数组。图19示出了生成残留数据的方法。
TCQ单元1850可以对由残留数据生成单元1830提供的残留数组执行TCQ。残留数组可以以已知(7,5)8码的1/2码率通过TCQ进行量化。图20示出了具有四个状态的TCQ的示例。根据实施方式,可以对第一2·TCQ_AMP幅度执行使用TCQ的量化。常数TCQ_AMP被定义为10,这允许每帧最多20个幅度被编码。在量化之后,可以检查路径量度,以及可以选择最佳的一个。对于无损编码,在执行跟踪过程时,用于最佳网格路径的数据可以存储在单独的数组中。
图21是示出根据示例性实施方式的频域音频解码装置的配置的框图。
图21中示出的频域音频解码装置2100可以包括帧错误检测单元2110、频域解码单元2130、时域解码单元2150和后处理单元2170。频域解码单元2130可以包括频谱解码单元2131、存储器更新单元2133、逆变换单元2135以及重叠和相加(OLA)单元2137。每个部件可以集成在至少一个模块中,以及可以由至少一个处理器(未示出)实现。
参考图21,帧错误检测单元2110可以从接收到的比特流检测是否发生帧错误。
频域解码单元2130可以在编码模式是音乐模式或频域模式时操作,在发生帧错误时启用FEC或PLC算法,以及在没有发生帧错误时通过通用变换解码过程生成时域信号。具体地,频谱解码单元2131可以通过使用经解码的参数执行频谱解码来合成频谱系数。将参考图22和图23更详细地描述频谱解码单元2131。
存储器更新单元2133可更新针对作为正常帧的当前帧的合成频谱系数、使用解码参数获得的信息、直到当前的连续错误帧的数量、每个帧的信号特性、帧类型信息等以用于后续帧。此处,信号特性可以包括瞬态特性和静态特性,以及帧类型可以包括瞬态帧,静态帧或谐波帧。
逆变换单元2135可以通过对合成的频谱系数执行时间-频率逆变换来生成时域信号。
OLA单元2137可以通过使用先前帧的时域信号来执行OLA处理,生成当前帧的最终时域信号作为OLA处理的结果,以及将最终时域信号提供给后处理单元2170。
时域解码单元2150可以在编码模式是语音模式或时域模式时操作,在发生帧错误时启用FEC或PLC算法,以及在未发生帧错误时通过通用CELP解码过程生成时域信号。
后处理单元2170可以对从频域解码单元2130或时域解码单元2150提供的时域信号执行滤波或上采样,但不限于此。后处理单元2170可以将经恢复的音频信号提供为输出信号。
图22是示出根据示例性实施方式的频谱解码装置的配置的框图。图22中示出的装置2200可以与图21的频谱解码单元2131对应,或者可以包括在另一频域解码装置中或被独立地实现。
图22中示出的频谱解码装置2200可以包括能量解码和逆量化单元2210、比特分配单元2230、频谱解码和逆量化单元2270、噪声填充单元2250和频谱整形单元2290。此处,噪声填充单元2250可以位于频谱整形单元2290的后端。每个部件可以集成在至少一个模块中,以及可以由至少一个处理器(未示出)实现。
参考图22,能量解码和逆量化单元2210可以对能量(诸如,在编码过程中被执行了无损编码的参数(例如,Norm值))进行无损解码,并对经解码的Norm值进行逆量化。可以使用与编码过程中针对Norm值的量化方案对应的方案执行逆量化。
比特分配单元2230可以基于经量化的Norm值或逆量化的Norm值来分配每个子带所需的比特数。在这种情况下,为每个子带分配的比特数可以与编码过程中分配的比特数相同。
频谱解码和逆量化单元2270可以通过使用为每个子带分配的比特数对经编码的频谱系数进行无损解码并通过对经解码的频谱系数执行逆量化处理来生成归一化频谱系数。
噪声填充单元2250可以在经归一化的频谱系数中针对每个子带需要噪声填充的部分填充噪声。
频谱整形单元2290可以通过使用逆量化的Norm值对经归一化的频谱系数进行整形。可以通过频谱整形过程获得最终经解码的频谱系数。
图23是示出根据示例性实施方式的频谱逆量化装置的配置的框图。
图23中示出的装置可以包括逆量化器选择单元2310、USQ 2330和TCQ 2350。
在图23中,逆量化器选择单元2310可以根据输入信号(即,待被逆量化的信号)的特性从各种逆量化器中选择最有效的逆量化器。每个频带的比特分配信息、频带大小信息等可用作输入信号的特性。根据选择的结果,待被逆量化的信号可以被提供给USQ 2330和TCQ2350中的一个,从而执行相应的逆量化。图23可以与第二联合方案对应。
图24是示出根据示例性实施方式的频谱解码装置的配置的框图。图24中示出的装置2400可以与图22的频谱解码和逆量化单元2250对应,或者可以包括在另一频域解码装置中或被独立地实现。
图24中示出的装置2400可以包括解码方法选择单元2410、零解码单元2430、ISC解码单元2450、量化分量恢复单元2470和逆缩放单元2490。此处,可以可选地提供量化分量恢复单元2470和逆缩放单元2490。
在图24中,解码方法选择单元2410可以基于为每个频带分配的比特来选择解码方法。可以基于为每个频带选择的解码方法将经归一化的频谱提供给零解码单元2430或ISC解码单元2450。
零解码单元2430可以针对所分配比特为零的频带将所有样本解码为零。
ISC解码单元2450可以通过使用所选择的逆量化器对所分配比特不为零的频带进行解码。ISC解码单元2450可以针对经解码的频谱的每个频带获得与重要频率分量相关的信息,并基于数量、位置、幅度和符号对针对每个频带获得的与重要频率分量相关的信息进行解码。可以以不同于数量、位置和符号的方式来对重要频率分量幅度进行解码。例如,可以使用USQ和TCQ中的一种来对重要频率分量幅度进行算术解码和逆量化,而对重要频率分量的数量、位置和符号进行算术解码。可以使用与图10中示出的ISC编码单元1040中相同的结果来执行对逆量化器的选择。ISC解码单元2450可以基于第一联合方案或第二联合方案对所分配的比特不为零的频带进行逆量化。
量化分量恢复单元2470可以基于经恢复的ISC的位置、幅度和符号信息来恢复实际量化分量。此处,可以将零分配给零位置,即,未量化部分(解码为零的频谱系数)。
可以进一步包括逆缩放单元(未示出)以逆缩放经恢复的量化分量,以输出与经归一化的频谱级别相同的量化频谱系数。
图25是示出根据示例性实施方式的ISC解码装置的配置的框图。
图25中示出的装置可以包括脉冲数量估计单元2510和ISC信息解码单元2530。图25中示出的装置可以与图24的ISC解码单元2450对应,或者可以被实现为独立的装置。
在图25中,脉冲数量估计单元2510可以通过使用频带大小和比特分配信息来确定当前频带所需的脉冲数量的估计值。也就是说,由于当前帧的比特分配信息与编码器的比特分配信息相同,因此通过使用相同的比特分配信息来执行解码以导出相同的脉冲数量估计值。
ISC信息解码单元2530可以基于估计的脉冲数量来解码ISC信息,即ISC的数量信息、位置信息、幅度信息和符号。
图26是示出根据示例性实施方式的ISC信息解码装置的配置的框图。
图26中示出的装置可以包括位置信息解码单元2610、幅度信息解码单元2630和符号解码单元2650。
在图26中,位置信息解码单元2610可以通过对与包括在比特流中的位置信息相关的索引进行解码来恢复ISC的数量和位置。可以使用算术解码来解码位置信息。幅度信息解码单元2630可以对与包括在比特流中的幅度信息相关的索引进行算术解码,并基于第一联合方案或第二联合方案对经解码的索引进行逆量化。为了提高算术解码的效率,可以使用非零位置信息和ISC的数量。符号解码单元2650可以通过对与包括在比特流中的符号信息相关的索引进行解码来恢复ISC的符号。可以使用算术解码来对符号信息进行解码。根据实施方式,可以估计非零频带所需的脉冲数量,并将其用于解码位置信息、幅度信息或符号信息。
图27是示出根据另一示例性实施方式的频谱解码装置的配置的框图。图27中示出的装置2700可以与图22的频谱解码和逆量化单元2250对应,或者可以包括在另一频域解码装置中或被独立地实现。
图27中示出的装置2700可以包括ISC解码单元2750、量化分量恢复单元2770和逆缩放单元2790。与图24相比,除了省略解码方法选择单元2410和零解码单元2430以及ISC解码单元2450使用TCQ之外,每个部件的操作是相同的。
图28是示出根据另一示例性实施方式的频谱解码装置的配置的框图。图28中示出的装置2800可以与图22的频谱解码和逆量化单元2250对应,或者可以包括在另一频域解码装置中或被独立地实现。
图28中示出的装置2800可以包括解码方法选择单元2810、ISC解码单元2850、量化分量恢复单元2870和逆缩放单元2890。与图24相比,除了省略零解码单元2430之外,每个部件的操作是相同的。
图29是根据另一示例性实施方式的频谱解码装置的框图。图29中示出的装置可以与图24的ISC解码单元2450对应或者可以独立地实现。
图29中示出的装置可以包括第一解码单元2910、第二解码单元2930、第三解码单元2950和频谱分量恢复单元2970。
在图29中,第一解码单元2910可以从比特流提取频带的ISC信息,以及可以解码ISC的数量、位置和符号。可以提取不同于低比特的其余比特,然后对其进行解码。经解码的ISC信息可以被提供给频谱分量恢复单元2970,以及ISC的位置信息可以被提供给第二解码单元2930。
第二解码单元2930可以基于由第一解码单元2910提供的经解码的ISC的位置信息和每个频带的比特分配的信息,对来自每个频带的频谱数据的不同于低比特的其余比特进行解码。可以将与频带所分配的比特和频带实际使用的比特之间的差异对应的冗余比特累积,然后用于下一个频带。
第三解码单元2950可以通过对从比特流提取的TCQ路径信息进行解码来恢复与低比特序列对应的TCQ残留数组。
频谱分量恢复单元2970可以基于从第一解码单元2910、第二解码单元2930和第三解码单元2950提供的数据重构频谱分量。
第一至第三解码单元2910、2930和2950可以使用算术解码来进行无损解码。
图30是根据另一示例性实施方式的图29的第三解码单元2950的框图。
图30中示出的第三解码单元2950可以包括TCQ路径解码单元3010和TCQ残留恢复单元3030。
在图30中,TCQ路径解码单元3010可以对从比特流获得的TCQ路径信息进行解码。
TCQ残留恢复单元3030可以基于经解码的TCQ路径信息来恢复TCQ残留数据。具体地,可以根据经解码的网格状态来重构残留数据,即残留数组。从每个路径比特,可以在残留数组中生成两个LSB比特。该过程可以由以下伪代码表示。
for(state=0,i=0;i<bcount;i++)
{
residualbuffer[2*i]=dec_LSB[state][dpath[i]]&0x1;
residualbuffer[2*i+1]=dec_LSB[state][dpath[i]]&0x2;
state=trellis_nextstate[state][dpath[i]];
}
从状态0开始,解码器可使用经解码的dpath比特移动穿过网格,并且可以提取与当前网格边缘对应的两个比特。
图29和图30的配置可以与图17和图18的配置具有可逆的关系。
图31是根据示例性实施方式的包括编码模块的多媒体设备的框图。
参考图31,多媒体设备3100可以包括通信单元3110和编码模块3130。另外,多媒体设备3100还可以包括存储单元3150,用于存储根据音频比特流的使用而获得的作为编码结果的音频比特流。此外,多媒体设备3100还可以包括麦克风3170。也就是说,可以可选地包括存储单元3150和麦克风3170。多媒体设备3100还可包括任意解码模块(未示出),例如,用于执行通用解码功能的解码模块或根据示例性实施方式的解码模块。编码模块3130可以由至少一个处理器(未示出)通过与包括在多媒体设备3100中的其它部件(未示出)集成为一体来实现。
通信单元3110可以接收从外部提供的音频信号或经编码的比特流中的至少之一,或者可以传送重构音频信号或作为编码模块3130中编码结果而获得的经编码的比特流中的至少之一。
通信单元3110配置为通过无线网络(诸如,无线互联网、无线内联网、无线电话网络、无线局域网(LAN)、Wi-Fi、Wi-Fi直连(WFD)、第三代(3G)、第四代(4G)、蓝牙、红外数据协会(IrDA)、射频识别(RFID)、超宽带(UWB)、Zigbee或近场通信(NFC)等)或有线网络(诸如,有线电话网络或有线因特网)来向外部多媒体设备或服务器发送数据和从外部多媒体设备或服务器接收数据。
根据示例性实施方式,编码模块3130可以基于第一量化方案对当前频带的频谱数据进行量化,使用频谱数据和经量化的频谱数据生成当前频带的低比特,基于第二量化方案对包括当前频带的低比特的低比特序列进行量化,以及基于从经量化的频谱数据和经量化的低比特序列中去除了N个比特的高比特(其中N为1或更大)生成比特流。
存储单元3150可以存储由编码模块3130生成的经编码的比特流。另外,存储单元3150可以存储操作多媒体设备3100所需的各种程序。
麦克风3170可以从用户或外部向编码模块3130提供音频信号。
图32是根据示例性实施方式的包括解码模块的多媒体设备的框图。
参考图32,多媒体设备3200可以包括通信单元3210和解码模块3230。另外,根据作为解码结果获得的重构音频信号的使用,多媒体设备3200还可以包括存储单元3250用于存储重构音频信号。此外,多媒体设备3200还可以包括扬声器3270。也就是说,可以可选地包括存储单元3250和扬声器3270。多媒体设备3200还可以包括编码模块(未示出),例如,用于执行通用编码功能的编码模块或根据示例性实施方式的编码模块。解码模块3230可以由至少一个处理器(未示出)通过与包括在多媒体设备3200中的其它部件(未示出)集成为一体来实现。
通信单元3210可以接收从外部提供的音频信号或经编码的比特流中的至少之一,或者可以传送作为解码模块3230中的解码结果获得的重构音频信号或作为编码结果获得的音频比特流中的至少之一。通信单元3210可以与图31的通信单元3100基本上类似地实现。
根据示例性实施方式,解码模块3230可以接收经由通信单元3210提供的比特流,通过提取TCQ路径信息解码低比特序列,通过提取ISC信息来解码ISC的数量、位置和符号,提取并解码不同于低比特的其余比特,并基于经解码的低比特序列和经解码的不同于低比特的其余比特来重构频谱分量。
存储单元3250可以存储由解码模块3230生成的重构音频信号。另外,存储单元3250可以存储操作多媒体设备3200所需的各种程序。
扬声器3270可以将由解码模块3230生成的重构音频信号输出至外部。
图33是根据示例性实施方式的包括编码模块和解码模块的多媒体设备的框图。
参考图33,多媒体设备3300可以包括通信单元3310、编码模块3320和解码模块3330。此外,多媒体设备3300还可以包括存储单元3340,用于根据音频比特流或重构音频信号的使用存储作为编码结果获得的音频比特流或作为解码结果获得的重构音频信号。此外,多媒体设备3300还可以包括麦克风3350和/或扬声器3360。编码模块3320和解码模块3330可以由至少一个处理器(未示出)通过与包括在多媒体设备3300中的其它部件(未示出)集成为一体来实现。
由于图33中示出的多媒体设备3300的部件与图31中示出的多媒体设备3100的部件或图32中示出的多媒体设备3200的部件对应,因此,省略其详细描述。
图31、图32和图33中示出的多媒体设备3100、3200和3300中的每一个可以包括语音通信专用终端(诸如,电话或移动电话),广播或音乐专用设备(诸如,TV或MP3播放器的),或者语音通信专用终端和广播或音乐专用设备的混合终端设备,但不限于此。另外,多媒体设备3100、3200和3300中的每一个可以用作客户端、服务器或设置在客户端与服务器之间的换能器。
当多媒体设备3100、3200和3300例如是移动电话时,虽然未示出,但多媒体设备3100、3200和3300还可以包括用户输入单元(诸如,键盘)、用于显示由用户界面或移动电话处理的信息的显示单元以及用于控制移动电话的功能的处理器。此外,移动电话还可以包括具有图像拾取功能的相机单元和用于执行移动电话所需功能的至少一个部件。
当多媒体设备3100、3200和3300例如是TV时,虽然未示出,但多媒体设备3100、3200或3300还可以包括用户输入单元(诸如键盘)、用于显示接收的广播信息的显示单元以及用于控制TV的所有功能的处理器。另外,TV还可以包括用于执行TV的功能的至少一个部件。
图34是示出根据示例性实施方式的频谱编码方法的流程图。
参考图34,在操作3410中,可以通过使用第一量化方案来量化当前频带的频谱数据。第一量化方案可以是标量量化器。作为示例,可以使用具有统一量化步长的USQ。
在操作3430中,可以基于频谱数据和经量化的频谱数据生成当前频带的低比特。可以基于频谱数据和经量化的频谱数据之间的差异来获得低比特。第二量化方案可以是TCQ。
在操作3450中,可以通过使用第二量化方案来量化包括当前频带的低比特的低比特序列。
在操作3470中,可以基于从经量化的频谱数据和经量化的低比特序列中去除了N个比特的高比特来生成比特流,其中N是大于或等于1的值。
与图34的频谱编码方法相关的频谱数据的带宽可以是SWB或FB。另外,可以通过对输入音频信号执行MDCT来获得频谱数据,并且可以以正常模式进行编码。
上述编码装置的各个部件中的一些功能可以根据情况或用户的需要被添加到图34的相应操作中。
图35是示出根据示例性实施方式的频谱解码方法的流程图。
参考图35,在操作3510中,可以从比特流中提取ISC信息,以及可以解码ISC的数量、位置和符号。可以提取不同于低比特的其余比特,然后对其进行解码。
在操作3530中,可以通过从比特流提取TCQ路径信息来解码低比特序列。
在操作3550中,可以基于通过操作3510解码的不同于低比特的其余比特和通过操作3530解码的低比特序列来重构频谱分量。
上述解码装置的各个部件中的一些功能可以根据情况或用户的需要添加到图35的相应操作中。
图36是根据示例性实施方式的比特分配装置的框图。图36中示出的装置可以与图5的比特分配器516、图7的比特分配器730或图22的比特分配单元2230对应或者可以独立地实现。
图36中示出的比特分配装置可以包括比特估计单元3610、重新分布单元3630和调整单元3650,其可以集成到至少一个处理器中。对于在频谱量化中使用的比特分配,可以使用分数比特分配(fractional bit allocation)。根据分数比特分配,可以允许具有例如3比特的分数部分的比特分配,因此可以执行更精细的比特分配。在通用模式中,可以使用分数比特分配。
在图36中,比特估计单元3610可以基于频带的平均能量(例如,范数)来估计为每个频带初始分配的比特。
可以通过等式8来估计频带初始分配的比特R0(p,0)。
重新分布单元3630可以基于预定标准来重新分布每个频带初始分配的比特。
可以将完全分配的比特计算为起始点,以及可以进行第一阶段迭代以将所分配的比特重新分布给具有非零比特的频带,直到完全分配的比特的数量等于总的比特预算TB,其由等式9表示。
其中NSL0(k-1)是在k次迭代之后具有所分配的比特的所有频带中的频谱线的数量。
如果分配太少的比特,则由于减小的SNR,这可能导致质量劣化。为了避免这个问题,可以对所分配的比特应用最小比特限制。第一最小比特可以由依赖于频带索引和比特率的常数值组成。作为示例,对于频带p=0至15,可以将第一最小比特LNB(p)确定为3,对于频带p=16至23,可以将第一最小比特LNB(p)确定为4,以及对于频带p=24至Nbands-1,可以将第一最小比特LNB(p)确定为5。
在第二阶段迭代中,可以再次进行比特的重新分布,以向具有多于LM(p)个比特的频带分配比特。LM(p)比特的值可以与每个频带所需的第二最小比特对应。
首先,可以基于第一阶段迭代的结果以及每个频带的第一最小比特和第二最小比特来计算分配的比特R1(p,0),作为示例其由等式10表示。
其中R(p)是在第一阶段迭代之后分配的比特,以及在24.4kbps处bs为2,在32kbps处bs为3,但不限于此。
可以通过减去具有LM(p)个比特的频带中的比特数来更新TB,以及频带索引p可以被更新为p′,p′表示具有比LM(p)个比特更高比特的频带索引。Nbands也可以更新为N′bands,N′bands为p′的频带数量。
然后可以进行第二阶段迭代,直到更新的TB(TB′)等于具有多于LM(p′)个比特的频带中的比特数,作为示例其由等式11表示。
其中NSL1(k-1)表示在k次迭代之后具有多于LM(p′)个比特的所有频带中的频谱线的数量。
在第二阶段迭代期间,如果不存在具有多于LM(p′)个比特的频带,则可以将来自最高频带的具有非零分配比特的频带中的比特设置为零,直到TB′等于零。
然后,可以执行使过度分配的比特和欠分配的比特最终重新分布。在这种情况下,可以基于预定参考值来执行最终重新分布。
调整单元3650可以将比特分配结果的分数部分(fractional part)调整为预定比特。作为示例,比特分配结果的分数部分可以被调整为具有三个比特,其可以由等式12表示。
图37是根据示例性实施方式的编码模式确定装置的框图。
图37中示出的编码模式确定装置可以包括语音/音乐分类单元3710和校正单元3730。图37中示出的装置可以包括在图2A的模式确定器213、图3A的模式确定器314或图4A的模式确定器413中。此外,图37中示出的装置可以进一步包括在图2A的时域编码器215、图3A的时域激励编码器316或图4A的时域激励编码器417中,或者可以独立地实现。此处,除了部件需要被实现为分开的硬件的情况之外,部件可以集成到至少一个模块中,以及可以实现为至少一个处理器(未示出)。另外,音频信号可以表示音乐信号、语音信号或音乐和语音的混合信号。
参考图37,语音/音乐分类单元3710可以基于各种初始分类参数来将音频信号是与音乐信号对应还是与语音信号对应分类。音频信号分类过程可以包括至少一个操作。
根据实施方式,可以基于当前帧和多个先前帧的信号特性将音频信号分类为音乐信号或语音信号。信号特性可以包括短期特性和长期特性中的至少之一。另外,信号特性可以包括时域特性和频域特性中的至少之一。此处,如果音频信号被分类为语音信号,则可以使用码激励线性预测(CELP)型编码器对音频信号进行编码。如果音频信号被分类为音乐信号,则可以使用变换编码器对音频信号进行编码。变换编码器可以是例如修正离散余弦变换(MDCT)编码器,但不限于此。
根据另一示例性实施方式,音频信号分类过程可以包括:第一操作,根据音频信号是否具有语音特性,将音频信号分类为语音信号和通用音频信号(即,音乐信号);以及第二操作,确定通用音频信号是否适合于通用信号音频编码器(GSC)。可以通过组合第一操作的分类结果和第二操作的分类结果来确定音频信号是可以被分类为语音信号还是音乐信号。当音频信号被分类为语音信号时,音频信号可以由CELP型编码器进行编码。根据比特率或信号特性,CELP型编码器可以包括清音编码(Unvoiced Coding,UC)模式、浊音编码(VoicedCoding,VC)模式、转变编码(Transition coding,TC)模式和通用编码(GC)模式中的多个模式。通用信号音频编码(GSC)模式可以由单独的编码器实现或者作为CELP型编码器的一种模式被包括。当音频信号被分类为音乐信号时,可以使用变换编码器或CELP/变换混合编码器来对音频信号进行编码。具体地,变换编码器可以应用于音乐信号,以及CELP/变换混合编码器可以应用于不是语音信号的非音乐信号,或者混合有音乐和语音的信号。根据实施方式,根据带宽,可以使用CELP型编码器、CELP/变换混合编码器和变换编码器中的所有,或者可以使用CELP型编码器和变换编码器。例如,CELP型编码器和变换编码器可以用于窄带(NB),以及CELP型编码器、CELP/变换混合编码器和变换编码器可以用于宽带(WB)、超宽带(SWB)和全带(FB)。CELP/变换混合编码器是通过组合变换域编码器和在时域中操作的基于LP的编码器而获得,并且还可以被称为通用信号音频编码器(GSC)。
第一操作的信号分类可以基于高斯混合模型(GMM)。各种信号特性可以用于GMM。信号特性的示例可以包括开环音高(pitch)、归一化关联、频谱包络、音调稳定性、信号的非静态性、LP残留误差、频谱差异值和频谱静态性,但不限于此。用于第二操作的信号分类的信号特性的示例可以包括频谱能量变化特性、LP分析残留能量的倾斜特性、高频带频谱峰值特性、关联特性、发声特性和音调特性,但不限于此。用于第一操作的特性可以用于确定音频信号是具有语音特性还是非语音特性,以便确定CELP型编码器是否适合于编码,以及用于第二操作的特性可以用于确定音频信号是具有音乐特性还是非音乐特性,以便确定GSC是否适合于编码。例如,在第一操作中被分类为音乐信号的一组帧可以在第二操作中改变为语音信号,然后由CELP模式中的一个进行编码。也就是说,当音频信号是具有大关联性的信号或具有大音高周期和高稳定性的攻击信号时,音频信号可以在第二操作中从音乐信号改变为语音信号。可以根据上述信号分类的结果来改变编码模式。
校正单元3730可以基于至少一个校正参数来校正语音/音乐分类单元3710的分类结果。校正单元3730可以基于上下文来校正语音/音乐分类单元3710的分类结果。例如,当当前帧被分类为语音信号时,当前帧可以被校正为音乐信号或保持为语音信号,以及当当前帧被分类为音乐信号时,当前帧可以被校正为语音信号或保持为音乐信号。为了确定当前帧的分类结果中是否存在错误,可以使用包括当前帧的多个帧的特性。例如,可以使用八个帧,但实施方式不限于此。
校正参数可以包括诸如音调、线性预测误差、发声和关联性的特性中的至少之一的组合。此处,音调可以包括范围为1-2KHz的音调ton2和范围为2-4KHz的音调ton3,其可以分别由等式13和14限定。
其中上标[-i]表示先前帧。例如,tonality2[-1]表示先前一帧的范围为1-2KHz的音调。
低频带长期音调tonLT可以被限定为tonLT=0.2*log10[lt_tonality]。此处,lt_tonality可以表示全频带长期音调。
第n帧中的范围为1-2KHz的音调ton2与范围为2-4KHz的音调ton3之间的差异dft可以被限定为dft=0.2*{log10(tonality2(n))-log10(tonality3(n)))。
接下来,线性预测误差LPerr可以由等式15限定。
其中FVs(9)限定为FVs(i)=sfaiFVi+sfbi(i=0,...,11),以及与通过缩放用于语音/音乐分类单元3710的特征参数之中的由等式16限定的LP残留对数能量比特征参数而获得的值对应。此外,sfai和sfbi可以根据特征参数和带宽的类型而变化,以及被用于将每个特征参数近似为[0;1]的范围。
其中E(1)表示第一LP系数的能量,以及E(13)表示第13LP系数的能量。
接下来,可以将值FVs(1)与值FVs(7)之间的差异dvcor限定为dvcor=max(FVs(1)-FVs(7),0),其中值FVs(1)通过缩放用于语音/音乐分类单元3710的特征参数之中的由等式17限定的经归一化的关联特征或发声特征FV1并基于FVs(i)=sfaiFVi+sfbi(i=0,...,11)而获得,值FVs(7)通过缩放由等式18限定的关联映射特征FV(7)并基于FVs(i)=sfaiFVi+sfbi(i=0,...,11)而获得。
其中Mcor表示帧的关联映射。
可以单独地或组合地使用多个特征参数来生成包括条件1至条件4中的至少之一的校正参数。此处,条件1和条件2可以表示可以改变语音状态SPEECH_STATE的条件,条件3和条件4可以表示可以改变音乐状态MUSIC_STATE的条件。具体地,条件1使得语音状态SPEECH_STATE从0变为1,条件2使得语音状态SPEECH_STATE从1变为0。此外,条件3使得音乐状态MUSIC_STATE能够从0变为1,以及条件4使得音乐状态MUSIC_STATE从1变为0。语音状态SPEECH_STATE为1可以表示语音概率高,即CELP型编码是合适的,以及语音状态SPEECH_STATE为0可以表示非语音概率高。作为示例,音乐状态MUSIC_STATE为1可以表示变换编码是合适的,以及音乐状态MUSIC_STATE为0可以表示CELP/变换混合编码(即,GSC)是合适的。作为另一示例,音乐状态MUSIC_STATE为1可以表示变换编码是合适的,以及音乐状态MUSIC_STATE为0可以表示CELP型编码是合适的。
条件1(condA)可例如如下定义。即,当dvcor>0.4并且dft<0.1并且FVs(1)>(2*FVs(7)+0.12)并且ton2<dvcor并且ton3<dvcor并且tonLT<dvcor并且FVs(7)<dvcor并且FVs(1)>dvcor并且FVs(1)>0.76时,condA可以被设置为1。
条件2(condB)可以例如如下定义。即,当dvcor<0.4时,condB可以被设置为1。
条件3(condC)可例如如下定义。即,当0.26<ton2<0.54并且ton3>0.22并且0.26<tonLT<0.54并且LPerr>0.5时,condC可以设置为1。
条件4(condD)可例如如下定义。即,当ton2<0.34并且ton3<0.26并且0.26<tonLT<0.45时,condD可以设置为1。
用于生成每个条件的特征或一组特征不限于此。另外,每个常数值仅仅是说明性的,以及可以根据实现方法被设置为优化值。
根据实施方式,校正单元3730可以通过使用两个独立的状态机(例如,语音状态机和音乐状态机)来校正初始分类结果中的错误。每个状态机具有两种状态,并且可以在每个状态中使用释放延迟以防止频繁转变。释放延迟可以包括例如六个帧。当以hangsp表示语音状态机中的释放延迟变量并且以hangmus表示音乐状态机中的释放延迟变量时,如果在给定状态下分类结果改变,则每个变量被初始化为6,并且此后,每个后续帧的释放延迟减小1。只有当释放延迟减小至零时,才可能发生状态变化。在每个状态机中,可以使用通过组合从音频信号提取的至少一个特征而生成的校正参数。
图38示出根据示例性实施方式在图37的校正单元3730中使用的状态机。
参考图38,左侧示出了根据实施方式的适合于CELP核的状态机,即用于语音状态下基于上下文的校正的状态机。在校正单元3730中,可以根据由音乐状态机确定的音乐状态和由语音状态机确定的语音状态来应用对分类结果的校正。例如,当将初始分类结果设置为音乐信号时,可以基于校正参数将音乐信号改变为语音信号。具体地,当初始分类结果中的第一操作的分类结果表示音乐信号并且语音状态为1时,第一操作的分类结果和第二操作的分类结果都可以改变为语音信号。在这种情况下,可以确定在初始分类结果中存在错误,从而校正分类结果。
以下将详细说明上述操作。
首先,可以接收校正参数,例如条件1和条件2。此外,可以接收语音状态机的释放延迟信息。还可以接收初始分类结果。初始分类结果可以由语音/音乐分类单元3710提供。
可以确定初始分类结果(即,语音状态)是否为0,条件1(condA)是否为1,以及语音状态机的释放延迟hangsp是否为0。如果确定初始分类结果(即,语音状态)为0,条件1为1,以及语音状态机的释放延迟hangsp为0,则语音状态可以改变为1,以及释放延迟可以初始化为6。
同时,可以确定初始分类结果(即,语音状态)是否为1,条件2(condB)是否为1,以及语音状态机的释放延迟hangsp是否为0。如果确定语音状态为1,条件2为1,以及语音状态机的释放延迟hangsp为0,则语音状态可以改变为0,以及释放延迟hangsp可以初始化为6。如果语音状态不为1,条件2不为1,以及语音状态机的释放延迟hangsp不为0,则可以执行用于将释放延迟减小1的释放延迟更新。
参考图38,右侧示出根据实施方式的适合于高质量(HQ)核的状态机,即用于音乐状态下基于上下文的校正的状态机。在校正单元3730中,可以根据由音乐状态机确定的音乐状态和由语音状态机确定的语音状态来应用对分类结果的校正。例如,当将初始分类结果设置为语音信号时,可以基于校正参数将语音信号改变为音乐信号。具体地,当初始分类结果中第一操作的分类结果表示语音信号并且音乐状态为1时,第一操作的分类结果和第二操作的分类结果都可以改变为音乐信号。当初始分类结果被设置为音乐信号时,可以基于校正参数将音乐信号改变为语音信号。在这种情况下,可以确定在初始分类结果中存在错误,从而校正分类结果。
以下将详细说明上述操作。
首先,可以接收校正参数,例如条件3和条件4。此外,可以接收音乐状态机的释放延迟信息。还可以接收初始分类结果。初始分类结果可以由语音/音乐分类单元3710提供。
可以确定初始分类结果(即,音乐状态)是否为0,条件3(condC)是否为1,以及音乐状态机的释放延迟hangmus是否为0。如果确定初始分类结果(即,音乐状态)为0,条件3为1,以及音乐状态机的释放延迟hangmus为0,则音乐状态可以改变为1,以及释放延迟可以初始化为6。
可以确定初始分类结果(即,音乐状态)是否为1,条件4(condD)是否为1,以及音乐状态机的释放延迟hangmus是否为0。如果确定音乐状态为1,条件4为1,以及音乐状态机的释放延迟hangmus为0,则音乐状态可以改变为0,以及释放延迟hangmus可以初始化为6。如果音乐状态不为1,条件4不为1,以及音乐状态机的释放延迟hangmus不为0,则可以执行用于将释放延迟减小1的释放延迟更新。
上述示例性实施方式可以被编写为计算机可执行的程序,以及可以通过使用非暂时性计算机可读记录介质在执行该程序的通用数字计算机中实现。另外,可以在实施方式中使用的数据结构、程序指令或数据文件可以以各种方式记录在非暂时性计算机可读记录介质上。非暂时性计算机可读记录介质是可以存储其后可以由计算机系统读取的数据的任何数据存储设备。非暂时性计算机可读记录介质的示例包括磁存储介质(诸如,硬盘、软盘和磁带)、光记录介质(诸如,CD-ROM和DVD)、磁光介质(诸如,光盘)以及专门配置成存储和执行程序指令的硬件设备(诸如,ROM、RAM和闪存)。另外,非暂时性计算机可读记录介质可以是用于传送指定信号程序指令、数据结构等的传输介质。程序指令的示例不仅可以包括由编译器创建的机器语言代码,还可以包括可由计算机使用解释器等执行的高级语言代码。
尽管已经具体示出和描述了示例性实施方式,但本领域普通技术人员将理解,在不脱离由所附权利要求所限定的本发明构思的精神和范围的情况下,可以在形式和细节上进行多种改变。应当理解,本文中描述的示例性实施方式应当被认为仅是描述性的,而不是出于限制的目的。每个示例性实施方式中的特征或方面的描述通常应被视为可用于其它示例性实施方式中的其它类似特征或方面。
Claims (10)
1.频谱编码方法,包括:
通过利用统一标量量化USQ来对非零频带的频谱数据进行量化;
从所量化的频谱数据中提取低比特;
通过收集所量化的频谱数据中针对所有非零频带的低比特,生成低比特序列;
通过利用网格编码量化TCQ来对所述低比特序列进行量化;
基于所量化的低比特序列及从所量化的频谱数据中去除了所述低比特的高比特来生成比特流;
其中,用于TCQ的比特数是从为每个非零频带的量化而分配的比特数中均匀地提取的,并且其中,所述非零频带中的其余比特数被用于USQ。
2.根据权利要求1所述的方法,其中,对所述低比特序列进行量化基于所述频谱数据与所量化的频谱数据之间的差异而执行。
3.根据权利要求1所述的方法,其中,所述频谱数据的带宽是超宽频带或全频带。
4.根据权利要求1所述的方法,其中,生成比特流包括:
对所述非零频带的重要频谱分量的数量、位置和符号执行第一无损编码;
对通过从所量化的频谱数据中去除所述低比特而构造的幅度信息执行第二无损编码;
对所量化的低比特序列执行第三无损编码;以及
通过使用从所述第一无损编码、所述第二无损编码和所述第三无损编码提供的数据来生成比特流。
5.根据权利要求1所述的方法,其中,所述频谱数据是通过对输入音频信号执行修正离散余弦变换和归一化而获得的。
6.频谱编码装置,包括至少一个处理器,所述至少一个处理器配置成:
通过利用统一标量量化USQ来对非零频带的频谱数据进行量化;
从所量化的频谱数据中提取低比特;
通过收集所量化的频谱数据中针对所有非零频带的低比特,生成低比特序列;
通过利用网格编码量化TCQ来对所述低比特序列进行量化;
基于所量化的低比特序列及从所量化的频谱数据中去除了所述低比特的高比特来生成比特流,
其中,用于TCQ的比特数是从为每个非零频带的量化而分配的比特数中均匀地提取的,并且其中,所述非零频带中的其余比特数被用于USQ。
7.根据权利要求6所述的频谱编码装置,其中,所述至少一个处理器配置成基于所述频谱数据和所量化的频谱数据之间的差异对所述低比特序列进行量化。
8.根据权利要求6所述的频谱编码装置,其中,所述频谱数据的带宽是超宽频带或全频带。
9.根据权利要求6所述的频谱编码装置,其中,所述至少一个处理器配置成:
对所述非零频带的重要频谱分量的数量、位置和符号执行第一无损编码;
对通过从所量化的频谱数据中去除所述低比特而构造的幅度信息执行第二无损编码;
对所量化的低比特序列执行第三无损编码;以及
通过使用从所述第一无损编码、所述第二无损编码和所述第三无损编码提供的数据来生成比特流。
10.根据权利要求6所述的频谱编码装置,其中,所述频谱数据是通过对输入音频信号执行修正离散余弦变换和归一化而获得的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010872921.2A CN111968655B (zh) | 2014-07-28 | 2015-07-28 | 信号编码方法和装置以及信号解码方法和装置 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462029736P | 2014-07-28 | 2014-07-28 | |
US62/029,736 | 2014-07-28 | ||
CN202010872921.2A CN111968655B (zh) | 2014-07-28 | 2015-07-28 | 信号编码方法和装置以及信号解码方法和装置 |
PCT/KR2015/007901 WO2016018058A1 (ko) | 2014-07-28 | 2015-07-28 | 신호 부호화방법 및 장치와 신호 복호화방법 및 장치 |
CN201580052356.2A CN107077855B (zh) | 2014-07-28 | 2015-07-28 | 信号编码方法和装置以及信号解码方法和装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580052356.2A Division CN107077855B (zh) | 2014-07-28 | 2015-07-28 | 信号编码方法和装置以及信号解码方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111968655A true CN111968655A (zh) | 2020-11-20 |
CN111968655B CN111968655B (zh) | 2023-11-10 |
Family
ID=58587219
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010872923.1A Active CN111968656B (zh) | 2014-07-28 | 2015-07-28 | 信号编码方法和装置以及信号解码方法和装置 |
CN202010872921.2A Active CN111968655B (zh) | 2014-07-28 | 2015-07-28 | 信号编码方法和装置以及信号解码方法和装置 |
CN201580052356.2A Active CN107077855B (zh) | 2014-07-28 | 2015-07-28 | 信号编码方法和装置以及信号解码方法和装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010872923.1A Active CN111968656B (zh) | 2014-07-28 | 2015-07-28 | 信号编码方法和装置以及信号解码方法和装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580052356.2A Active CN107077855B (zh) | 2014-07-28 | 2015-07-28 | 信号编码方法和装置以及信号解码方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (2) | US10827175B2 (zh) |
EP (2) | EP4293666A3 (zh) |
JP (2) | JP6763849B2 (zh) |
KR (2) | KR20170037970A (zh) |
CN (3) | CN111968656B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3614381A1 (en) * | 2013-09-16 | 2020-02-26 | Samsung Electronics Co., Ltd. | Signal encoding method and device and signal decoding method and device |
CN106233112B (zh) * | 2014-02-17 | 2019-06-28 | 三星电子株式会社 | 信号编码方法和设备以及信号解码方法和设备 |
WO2015122752A1 (ko) | 2014-02-17 | 2015-08-20 | 삼성전자 주식회사 | 신호 부호화방법 및 장치와 신호 복호화방법 및 장치 |
CN111968656B (zh) | 2014-07-28 | 2023-11-10 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
JP7257975B2 (ja) | 2017-07-03 | 2023-04-14 | ドルビー・インターナショナル・アーベー | 密集性の過渡事象の検出及び符号化の複雑さの低減 |
CN107657958B (zh) * | 2017-09-13 | 2020-06-23 | 厦门声连网信息科技有限公司 | 一种音乐识别系统、装置及音乐管理服务器和方法 |
WO2020253941A1 (en) * | 2019-06-17 | 2020-12-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs |
EP4120253A1 (en) * | 2021-07-14 | 2023-01-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Integral band-wise parametric coder |
CN116260799B (zh) * | 2023-05-16 | 2023-07-21 | 北京庭宇科技有限公司 | 一种调整网络状态的方法和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090232242A1 (en) * | 2007-09-28 | 2009-09-17 | Zixiang Xiong | Nested Turbo Code Design for the Costa Problem |
CN103023550A (zh) * | 2012-12-14 | 2013-04-03 | 西北农林科技大学 | 基于egt和mrc的miso无线系统的相位tcq量化的方法 |
US20130110522A1 (en) * | 2011-10-21 | 2013-05-02 | Samsung Electronics Co., Ltd. | Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus |
CN103210443A (zh) * | 2010-09-15 | 2013-07-17 | 三星电子株式会社 | 用于高频带宽扩展的对信号进行编码和解码的设备和方法 |
US20130290003A1 (en) * | 2012-03-21 | 2013-10-31 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding high frequency for bandwidth extension |
Family Cites Families (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1251276A (en) | 1985-03-20 | 1989-03-14 | Toshio Koga | Method and arrangement of coding digital image signals utilizing interframe correlation |
US5297170A (en) | 1990-08-21 | 1994-03-22 | Codex Corporation | Lattice and trellis-coded quantization |
US5255339A (en) | 1991-07-19 | 1993-10-19 | Motorola, Inc. | Low bit rate vocoder means and method |
US5369724A (en) | 1992-01-17 | 1994-11-29 | Massachusetts Institute Of Technology | Method and apparatus for encoding, decoding and compression of audio-type data using reference coefficients located within a band of coefficients |
JP3093458B2 (ja) | 1992-07-23 | 2000-10-03 | 株式会社東芝 | 可変レート符・復号化装置 |
US5727484A (en) | 1996-05-13 | 1998-03-17 | Childs; Robert C. | Soil penetrating applicator and method |
US6125149A (en) | 1997-11-05 | 2000-09-26 | At&T Corp. | Successively refinable trellis coded quantization |
KR100335611B1 (ko) | 1997-11-20 | 2002-10-09 | 삼성전자 주식회사 | 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치 |
US6192158B1 (en) * | 1998-03-30 | 2001-02-20 | Motorola, Inc. | Wavelet image coder using trellis-coded quantization |
JP3808241B2 (ja) * | 1998-07-17 | 2006-08-09 | 富士写真フイルム株式会社 | データ圧縮方法および装置並びに記録媒体 |
US7003171B1 (en) | 1998-07-17 | 2006-02-21 | Fuji Photo Film Co., Ltd. | Method, apparatus and recording medium for data compression |
US6504877B1 (en) | 1999-12-14 | 2003-01-07 | Agere Systems Inc. | Successively refinable Trellis-Based Scalar Vector quantizers |
US7020335B1 (en) * | 2000-11-21 | 2006-03-28 | General Dynamics Decision Systems, Inc. | Methods and apparatus for object recognition and compression |
DE60209888T2 (de) | 2001-05-08 | 2006-11-23 | Koninklijke Philips Electronics N.V. | Kodieren eines audiosignals |
KR100486732B1 (ko) | 2003-02-19 | 2005-05-03 | 삼성전자주식회사 | 블럭제한된 트렐리스 부호화 양자화방법과 음성부호화시스템에있어서 이를 채용한 라인스펙트럼주파수 계수양자화방법 및 장치 |
KR100565308B1 (ko) | 2003-11-24 | 2006-03-30 | 엘지전자 주식회사 | 에스엔알 스케일러빌리티를 위한 동영상 부호화 및 복호화 장치 |
ES2476992T3 (es) | 2004-11-05 | 2014-07-15 | Panasonic Corporation | Codificador, descodificador, método de codificación y método de descodificaci�n |
RU2404506C2 (ru) | 2004-11-05 | 2010-11-20 | Панасоник Корпорэйшн | Устройство масштабируемого декодирования и устройство масштабируемого кодирования |
KR100851970B1 (ko) | 2005-07-15 | 2008-08-12 | 삼성전자주식회사 | 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
US7693709B2 (en) | 2005-07-15 | 2010-04-06 | Microsoft Corporation | Reordering coefficients for waveform coding or decoding |
US7562021B2 (en) | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
US20070168197A1 (en) | 2006-01-18 | 2007-07-19 | Nokia Corporation | Audio coding |
EP1989707A2 (fr) | 2006-02-24 | 2008-11-12 | France Telecom | Procede de codage binaire d'indices de quantification d'une enveloppe d'un signal, procede de decodage d'une enveloppe d'un signal et modules de codage et decodage correspondants |
KR100728056B1 (ko) * | 2006-04-04 | 2007-06-13 | 삼성전자주식회사 | 다중 경로 트랠리스 부호화 양자화 방법 및 이를 이용한다중 경로 트랠리스 부호화 양자화 장치 |
US7414549B1 (en) | 2006-08-04 | 2008-08-19 | The Texas A&M University System | Wyner-Ziv coding based on TCQ and LDPC codes |
JPWO2008047795A1 (ja) * | 2006-10-17 | 2010-02-25 | パナソニック株式会社 | ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法 |
FR2912249A1 (fr) | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
KR100903110B1 (ko) | 2007-04-13 | 2009-06-16 | 한국전자통신연구원 | 트렐리스 부호 양자화 알고리듬을 이용한 광대역 음성 부호화기용 lsf 계수 양자화 장치 및 방법 |
US8527265B2 (en) | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
US8515767B2 (en) | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
US20090135946A1 (en) | 2007-11-26 | 2009-05-28 | Eric Morgan Dowling | Tiled-building-block trellis decoders |
KR101671005B1 (ko) | 2007-12-27 | 2016-11-01 | 삼성전자주식회사 | 트렐리스를 이용한 양자화 부호화 및 역양자화 복호화 방법및 장치 |
KR101485339B1 (ko) | 2008-09-29 | 2015-01-26 | 삼성전자주식회사 | 무손실 부호화/복호화 장치 및 방법 |
KR101622950B1 (ko) | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
CN101615910B (zh) * | 2009-05-31 | 2010-12-22 | 华为技术有限公司 | 压缩编码的方法、装置和设备以及压缩解码方法 |
WO2011048099A1 (en) | 2009-10-20 | 2011-04-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a region-dependent arithmetic coding mapping rule |
AU2011350143B9 (en) | 2010-12-29 | 2015-05-14 | Samsung Electronics Co., Ltd. | Apparatus and method for encoding/decoding for high-frequency bandwidth extension |
RU2571561C2 (ru) | 2011-04-05 | 2015-12-20 | Ниппон Телеграф Энд Телефон Корпорейшн | Способ кодирования, способ декодирования, кодер, декодер, программа и носитель записи |
CN103620675B (zh) * | 2011-04-21 | 2015-12-23 | 三星电子株式会社 | 对线性预测编码系数进行量化的设备、声音编码设备、对线性预测编码系数进行反量化的设备、声音解码设备及其电子装置 |
CA2833874C (en) | 2011-04-21 | 2019-11-05 | Ho-Sang Sung | Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium |
KR102053900B1 (ko) | 2011-05-13 | 2019-12-09 | 삼성전자주식회사 | 노이즈 필링방법, 오디오 복호화방법 및 장치, 그 기록매체 및 이를 채용하는 멀티미디어 기기 |
RU2464649C1 (ru) | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ обработки звукового сигнала |
CN103718240B (zh) | 2011-09-09 | 2017-02-15 | 松下电器(美国)知识产权公司 | 编码装置、解码装置、编码方法和解码方法 |
KR102048076B1 (ko) | 2011-09-28 | 2019-11-22 | 엘지전자 주식회사 | 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치 |
US10205961B2 (en) | 2012-04-23 | 2019-02-12 | Qualcomm Incorporated | View dependency in multi-view coding and 3D coding |
CN106233112B (zh) | 2014-02-17 | 2019-06-28 | 三星电子株式会社 | 信号编码方法和设备以及信号解码方法和设备 |
CN111968656B (zh) * | 2014-07-28 | 2023-11-10 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
MY180423A (en) * | 2014-07-28 | 2020-11-28 | Samsung Electronics Co Ltd | Signal encoding method and apparatus, and signal decoding method and apparatus |
-
2015
- 2015-07-28 CN CN202010872923.1A patent/CN111968656B/zh active Active
- 2015-07-28 KR KR1020177002772A patent/KR20170037970A/ko not_active IP Right Cessation
- 2015-07-28 CN CN202010872921.2A patent/CN111968655B/zh active Active
- 2015-07-28 CN CN201580052356.2A patent/CN107077855B/zh active Active
- 2015-07-28 JP JP2017504669A patent/JP6763849B2/ja active Active
- 2015-07-28 EP EP23204701.9A patent/EP4293666A3/en active Pending
- 2015-07-28 KR KR1020237015080A patent/KR20230066137A/ko not_active Application Discontinuation
- 2015-07-28 EP EP15828104.8A patent/EP3176780A4/en not_active Ceased
-
2019
- 2019-01-28 US US16/259,341 patent/US10827175B2/en active Active
-
2020
- 2020-09-10 JP JP2020152313A patent/JP6980871B2/ja active Active
- 2020-09-24 US US17/030,466 patent/US11616954B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090232242A1 (en) * | 2007-09-28 | 2009-09-17 | Zixiang Xiong | Nested Turbo Code Design for the Costa Problem |
CN103210443A (zh) * | 2010-09-15 | 2013-07-17 | 三星电子株式会社 | 用于高频带宽扩展的对信号进行编码和解码的设备和方法 |
US20130110522A1 (en) * | 2011-10-21 | 2013-05-02 | Samsung Electronics Co., Ltd. | Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus |
US20130290003A1 (en) * | 2012-03-21 | 2013-10-31 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding high frequency for bandwidth extension |
CN103023550A (zh) * | 2012-12-14 | 2013-04-03 | 西北农林科技大学 | 基于egt和mrc的miso无线系统的相位tcq量化的方法 |
Also Published As
Publication number | Publication date |
---|---|
KR20230066137A (ko) | 2023-05-12 |
JP6763849B2 (ja) | 2020-09-30 |
US20210051325A1 (en) | 2021-02-18 |
CN111968656A (zh) | 2020-11-20 |
EP3176780A1 (en) | 2017-06-07 |
EP4293666A3 (en) | 2024-03-06 |
KR20170037970A (ko) | 2017-04-05 |
CN107077855B (zh) | 2020-09-22 |
JP2020204784A (ja) | 2020-12-24 |
EP3176780A4 (en) | 2018-01-17 |
EP4293666A2 (en) | 2023-12-20 |
JP6980871B2 (ja) | 2021-12-15 |
JP2017528751A (ja) | 2017-09-28 |
US20190158833A1 (en) | 2019-05-23 |
CN107077855A (zh) | 2017-08-18 |
US11616954B2 (en) | 2023-03-28 |
CN111968655B (zh) | 2023-11-10 |
US10827175B2 (en) | 2020-11-03 |
CN111968656B (zh) | 2023-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107077855B (zh) | 信号编码方法和装置以及信号解码方法和装置 | |
US10194151B2 (en) | Signal encoding method and apparatus and signal decoding method and apparatus | |
US11705142B2 (en) | Signal encoding method and device and signal decoding method and device | |
KR20130037241A (ko) | 동적 비트 할당을 위한 시스템, 방법, 장치, 및 컴퓨터 판독가능 매체 | |
CN106233112B (zh) | 信号编码方法和设备以及信号解码方法和设备 | |
US10902860B2 (en) | Signal encoding method and apparatus, and signal decoding method and apparatus | |
US10388293B2 (en) | Signal encoding method and device and signal decoding method and device | |
Marie | Docteur en Sciences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |