CN105719654B - 用于语音信号或音频信号的解码设备和方法及量化设备 - Google Patents
用于语音信号或音频信号的解码设备和方法及量化设备 Download PDFInfo
- Publication number
- CN105719654B CN105719654B CN201610086079.3A CN201610086079A CN105719654B CN 105719654 B CN105719654 B CN 105719654B CN 201610086079 A CN201610086079 A CN 201610086079A CN 105719654 B CN105719654 B CN 105719654B
- Authority
- CN
- China
- Prior art keywords
- quantization
- prediction
- decoder module
- coefficient
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 429
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000005236 sound signal Effects 0.000 title claims abstract description 12
- 230000005540 biological transmission Effects 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 110
- 238000010586 diagram Methods 0.000 description 50
- 238000001228 spectrum Methods 0.000 description 35
- 238000012545 processing Methods 0.000 description 26
- 230000008859 change Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 15
- 238000011084 recovery Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 238000005070 sampling Methods 0.000 description 12
- 238000011002 quantification Methods 0.000 description 7
- 230000003595 spectral effect Effects 0.000 description 6
- 238000010183 spectrum analysis Methods 0.000 description 6
- 239000002131 composite material Substances 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000000429 assembly Methods 0.000 description 3
- 230000000712 assembly Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000151 deposition Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000001453 impedance spectrum Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/124—Quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
- G10L2019/0005—Multi-stage vector quantisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/164—Feedback from the receiver or from the transmission channel
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
公开了一种用于语音信号或音频信号的解码设备和方法及量化设备。提供了一种量化方法,包括:通过考虑预测模式、预测误差和传输信道状态中的至少一个选择不使用帧间预测的第一量化方案和使用帧间预测的第二量化方案之一来对输入信号进行量化。
Description
本申请是向中国知识产权局提交的申请日为2012年4月23日的标题为“对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质”的第201280031031.2号申请的分案申请。
技术领域
与本公开一致的方法和装置涉及线性预测编码系数的量化和反量化,更具体地讲,涉及以低复杂度有效地对线性预测编码系数进行量化的方法、采用该量化方法的声音编码方法、对线性预测编码系数进行反量化的方法、采用该反量化方法的声音解码方法及其记录介质。
背景技术
在用于对声音(诸如,语音或音频)进行编码的系统中,线性预测编码(LPC)系数用于表示声音的短时频率特性。以按照帧为单位划分输入声音并按照帧使预测误差的能量最小化的样式,获得LPC系数。然而,由于LPC系数具有大的动态范围并且所使用的LPC滤波器的特性对于LPC系数的量化误差非常敏感,因此LPC滤波器的稳定性没有保证。
因此,通过将LPC系数转换为具有以下特性的其他系数来执行量化:易于检查滤波器的稳定性,有益于进行插值,并具有好的量化特性。主要首选的是通过将LPC系数转换为线谱频率(LSF)系数或导抗谱频率(ISF)系数来执行量化。具体地讲,对LPC系数进行量化的方法可通过使用频域和时域中的LSF系数的高帧间相关性来增加量化增益。
LSF系数指示短时声音的频率特性,并且对于输入声音的频率特性快速变化的帧,所述帧的LSF系数也快速变化。然而,对于使用LSF系数的高帧间相关性的量化器,由于无法针对快速变化的帧执行适当的预测,因此量化器的量化性能降低。
发明内容
技术问题
一方面在于提供一种以低复杂度有效地对线性预测编码(LPC)系数进行量化的方法、采用该量化方法的声音编码方法、对LPC系数进行反量化的方法、采用该反量化方法的声音解码方法及其记录介质。
解决方案
根据一个或更多个示例性实施例的一方面,提供一种量化方法,包括:通过考虑预测模式、预测误差和传输信道状态中的至少一个选择不使用帧间预测的第一量化方案和使用帧间预测的第二量化方案之一来对输入信号进行量化。
根据一个或多个示例性实施例的另一方面,提供一种编码方法,包括:确定输入信号的编码模式;通过根据考虑预测模式、预测误差和传输信道状态中的至少一个而确定的路径信息,来选择不使用帧间预测的第一量化方案和使用帧间预测的第二量化方案之一,从而对输入信号进行量化;在编码模式下,对量化的输入信号进行编码;产生包括以下项的比特流:在第一量化方案中量化的结果和在第二量化方案中量化的结果之一、输入信号的编码模式和与输入信号的量化相关的路径信息。
根据一个或更多个示例性实施例的另一方面,提供一种反量化方法,包括:通过基于包括在比特流中的路径信息选择不使用帧间预测的第一反量化方案和使用帧间预测的第二反量化方案之一,来对输入信号进行反量化,路径信息在编码端,通过考虑预测模式、预测误差和传输信道状态中的至少一个来确定。
根据一个或多个示例性实施例的另一方面,提供一种解码方法,包括:对包括在比特流中的线性预测编码(LPC)参数和编码模式进行解码;通过基于包括在比特流中的路径信息使用不使用帧间预测的第一反量化方案和使用帧间预测的第二反量化方案之一来对解码的LPC参数进行反量化;在解码的编码模式下,对反量化的LPC参数进行解码,其中,在编码端,通过考虑预测模式、预测误差和传输信道状态中的至少一个来确定所述路径信息。
根据一个或更多个示例性实施例的另一方面,提供一种确定量化器类型的方法,所述方法包括:对输入信号的比特率与第一参考值进行比较;对输入信号的带宽与第二参考值进行比较;对内部采样频率与第三参考值进行比较;基于所述比较中的一个或多个的结果,将输入信号的量化器类型确定为开环类型和闭环类型之一。
根据一个或更多个示例性实施例的另一方面,提供一种电子装置,包括:通信单元,接收声音信号和编码的比特流中的至少一个,或发送编码的声音信号和恢复的声音中的至少一个;编码模块,通过根据考虑预测模式、预测误差和传输信道状态中的至少一个而确定的路径信息,选择不使用帧间预测的第一量化方案和使用帧间预测的第二量化方案中的一个,来对接收的声音信号进行量化,并在编码模式下对量化的声音信号进行编码。
根据一个或更多个示例性实施例的另一方面,提供一种电子装置,包括:通信单元,接收声音信号和编码的比特流中的至少一个,或发送编码的声音信号和恢复的声音中的至少一个;解码模块,对包括在比特流中的线性预测编码(LPC)参数和编码模式进行解码,通过基于包括在比特流中的路径信息,使用不使用帧间预测的第一反量化方案和使用帧间预测的第二反量化方案之一来对解码的LPC参数进行反量化,在解码的编码模式下,对反量化的LPC参数进行解码,其中,在编码端,通过考虑预测模式、预测误差和传输信道状态中的至少一个来确定所述路径信息。
根据一个或更多个示例性实施例的另一方面,提供一种电子装置,包括:通信单元,接收声音信号和编码的比特流中的至少一个,或发送编码的声音信号和恢复的声音中的至少一个;编码模块,通过根据考虑预测模式、预测误差和传输信道状态中的至少一个而确定的路径信息,选择不使用帧间预测的第一量化方案和使用帧间预测的第二量化方案之一,来对接收的声音信号进行量化,并在编码模式下对量化的声音信号进行编码;解码模块,对包括在比特流中的线性预测编码(LPC)参数和编码模式进行解码,通过基于包括在比特流中的路径信息,使用不使用帧间预测的第一反量化方案和使用帧间预测的第二反量化方案之一来对解码的LPC参数进行反量化,在解码的编码模式下,对反量化的LPC参数进行解码。
发明的有益效果
根据本发明构思,为了有效地对音频信号或语音信号进行量化,通过应用根据音频信号或语音信号的特性的多个编码模式并根据应用到所述编码模式中的每个的压缩比率将各种数量的比特分配到音频信号或语音信号,来在编码模式中的每个编码模式下选择具有低复杂度的最佳量化器。
附图说明
通过参照附图详细描述示例性实施例,上述和其他方面将会变得更加清楚,其中:
图1是根据示例性实施例的声音编码设备的框图;
图2A至图2D是图1的声音编码设备的编码模式选择器能够选择的各种编码模式的示例;
图3是根据示例性实施例的线性预测编码(LPC)系数量化器的框图;
图4是根据示例性实施例的加权函数确定器的框图;
图5是根据另一示例性实施例的LPC系数量化器的框图;
图6是根据示例性实施例的量化路径选择器的框图;
图7A和图7B是示出根据示例性实施例的图6的量化路径选择器的操作的流程图;
图8是根据另一示例性实施例的量化路径选择器的框图;
图9示出在编解码器服务被提供时在网络端能够发送的关于信道状态的信息;
图10是根据另一示例性实施例的LPC系数量化器的框图;
图11是根据另一示例性实施例的LPC系数量化器的框图;
图12是根据另一示例性实施例的LPC系数量化器的框图;
图13是根据另一示例性实施例的LPC系数量化器的框图;
图14是根据另一示例性实施例的LPC系数量化器的框图;
图15是根据另一示例性实施例的LPC系数量化器的框图;
图16A和图16B是根据另一示例性实施例的LPC系数量化器的框图;
图17A至图17C是根据另一示例性实施例的LPC系数量化器的框图;
图18是根据另一示例性实施例的LPC系数量化器的框图;
图19是根据另一示例性实施例的LPC系数量化器的框图;
图20是根据另一示例性实施例的LPC系数量化器的框图;
图21是根据示例性实施例的量化器类型选择器的框图;
图22是示出根据示例性实施例的量化器类型选择方法的操作的流程图;
图23是根据示例性实施例的声音解码设备的框图;
图24是根据示例性实施例的LPC系数反量化器的框图;
图25是根据另一示例性实施例的LPC系数反量化器的框图;
图26是根据示例性实施例的图25的LPC系数反量化器中的第一反量化方案和第二反量化方案的示例的框图;
图27是示出根据示例性实施例的量化方法的流程图;
图28是示出根据示例性实施例的反量化方法的流程图;
图29是根据示例性实施例的包括编码模块的电子装置的框图;
图30是根据示例性实施例的包括解码模块的电子装置的框图;
图31是根据示例性实施例的包括编码模块和解码模块的电子装置的框图。
具体实施方式
本发明构思可允许各种类型的改变或修改和形式上的各种改变,并且将在附图中示出具体的示例性实施例,并在说明书中对其进行详细描述。然而,应理解具体示例性实施例没有将本发明构思限制为具体公开的形式,而是包括在本发明构思的精神和技术范围内的每个修改的、等同的或替代的实施例。在以下描述中,由于公知的功能或构造以不必要的细节使本发明不清楚,因此不对公知的功能或构造进行详细描述。
虽然诸如“第一”和“第二”的术语可用于描述各种元件,但所述元件不能被所述术语限制。所述术语可用于使特定元件与另一元件区分开。
在本申请中使用的术语仅用于描述具体示例性实施例,并不具有任何限制本发明构思的意图。虽然在考虑本发明构思的功能时将当前尽可能广泛使用的一般术语选作本发明构思中使用的术语,但它们可根据本领域的普通技术人员的意图、先前使用或新技术的出现而变化。另外,在具体情况下,可使用由申请人有意地选择的术语,在这种情况下,将在相应的描述中公开所述术语的意义。因此,在本发明构思中使用的术语不应由术语的简单名称限定而应由术语的意义和本发明构思的内容来限定。
除非在上下文中单数的表达和复数的表达清楚地彼此不同,否则单数的表达包括复数的表达。在本申请中,应理解,诸如“包括”和“具有”的术语用于指示应用的特征、数量、步骤、操作、元件、部件或它们的组合的存在,而不预先排除一个或更多个其他特征、数量、步骤、操作、元件、部件或它们的组合的存在或添加的可能性。
现将参照示出本发明的示例性实施例的附图更全面地描述本发明构思。附图中的相同的标号表示相同的元件,因此将省略它们的重复描述。
当诸如“…中的至少一个”的表述位于一列元件之后时,其修饰整列元件而不是修饰列表中的单个元件。
图1是根据示例性实施例的声音编码设备100的框图。
图1中示出的声音编码设备100可包括预处理器(例如,中央处理单元(CPU))111、频谱和线性预测(LP)分析器113、编码模式选择器115、线性预测编码(LPC)系数量化器117、变量模式编码器119和参数编码器121。声音编码设备100的组件中的每个可通过被集成到至少一个模块中通过至少一个处理器(例如,中央处理单元(CPU))来实现。应注意,声音可指示音频、语音或其组合。为便于描述,以下描述将声音称作语音。然而,将理解可对任何声音进行处理。
参照图1,预处理器111可对输入的语音信号进行预处理。在预处理处理中,可从语音信号去除非期望的频率分量,或者可将语音信号的频率特性调整为有益于编码。详细地,预处理器111可执行高通滤波、预加重、或采样转换。
频谱和LP分析器113可通过分析频域的特性或对经过预处理的语音信号执行LP分析来提取LPC系数。虽然通常对每一帧执行一次LP分析,但可对每一帧执行两次或更多次LP分析以用于额外的声音质量提高。在这种情况下,一个LP分析是如同传统的LP分析一样执行的对于帧尾的LP,其他可以是用于声音质量提高的中间子帧(mid-subframe)的LP。在这种情况下,当前帧的帧尾指示形成当前帧的子帧中的最终的子帧,先前帧的帧尾指示形成先前帧的子帧中的最终的子帧。例如,一个帧可由4个子帧组成。
中间子帧指示在作为先前帧的帧尾的最终的子帧与作为当前帧的帧尾的最终的子帧之间存在的子帧中的一个或更多个子帧。因此,频谱和LP分析器113可提取总共两个或更多个LPC系数的集合。当输入信号是窄带时,LPC系数可使用10阶,当输入信号是宽带时,LPC系数可使用16至20阶。然而,LPC系数的维数不限于此。
编码模式选择器115可选择与多速率一致的多个编码模式中一个。另外,编码模式选择器115可通过使用语音信号的特性选择多个编码模式中的一个,其中,从频域的频带信息、基频信息或分析信息获得所述特性。另外,编码模式选择器115可通过使用语音信号的特性和多速率来选择多个编码模式中的一个。
LPC系数量化器117可对由频谱和LP分析器113提取的LPC系数进行量化。LPC系数量化器117可通过将LPC系数转换为适合于量化的其他系数来执行量化。LPC系数量化器117可在语音信号的量化之前基于第一标准选择包括不使用帧间预测的第一路径和使用帧间预测的第二路径的多个路径中的一个作为语音信号的量化路径,并根据选择的量化路径通过使用第一量化方案和第二量化方案中的一个来对语音信号进行量化。可选择地,LPC系数量化器117可针对用于不使用帧间预测的第一量化方案的第一路径和使用帧间预测的第二量化方案的第二路径两者对LPC系数进行量化,并基于第二标准选择第一路径和第二路径中的一个的量化结果。第一标准和第二标准可以彼此相同或彼此不同。
变量模式编码器119可通过对由LPC系数量化器117量化的LPC系数进行编码来产生比特流。变量模式编码器119可在由编码模式选择器115选择的编码模式下对量化的LPC系数进行编码。变量模式编码器119可以以帧或子帧为单位对LPC系数的激励信号进行编码。
变量模式编码器119中使用的编码算法的示例可以是代码激励线性预测(CELP)或代数CELP(ACELP)。可根据编码模式额外地使用变换编码算法。用于在CELP算法中对LPC系数进行编码的代表参数是自适应码本索引、自适应码本增益、固定码本索引和固定码本增益。由变量模式编码器119编码的当前帧可被存储用于对随后的帧进行编码。
参数编码器121可对将由用于解码的解码端使用的参数进行编码以将其包括在比特流中。如果与编码模式相应的参数被编码,则这是有益的。由参数编码器121产生的比特流可被存储或发送。
图2A至图2D是由图1的声音编码设备100的编码模式选择器115能够选择的各种编码模式的示例。图2A和图2C是在分配用于量化的比特的数量为大的情况(即,高比特率的情况)下分类的编码模式的示例,图2B和图2D是在分配用于量化的比特的数量为小的情况(即,低比特率的情况)下分类的编码模式的示例。
首先,在高比特率的情况下,如图2A所示,可将语音信号分类为用于简单结构的通用编码(GC)模式和过渡编码(TC)模式。在这种情况下,GC模式包括清音编码(UC)模式和池音编码(VC)模式。在高比特率的情况下,如图2C所示,可进一步包括不活跃的编码(Inactive Coding(IC))模式和音频编码(AC)模式。
另外,在低比特率的情况下,如图2B所示,可将语音信号分类为GC模式、UC模式、VC模式和TC模式。另外,在低比特率的情况下,如图2D所示,可进一步包括IC模式和AC模式。
在图2A和图2C中,当语音信号是清音(unvoiced sound)或具有与清音类似的特性的噪声时,可选择UC模式。当语音信号是池音(voiced sound)时,可选择VC模式。TC模式可用于对语音信号的特性快速变化的变换间隔的信号进行编码。GC模式可用于对其他信号进行编码。UC模式、VC模式、TC模式和GC模式基于ITU-T G.718中公开的定义和分类标准,但不限于此。
在图2B和图2D中,IC模式可被选择用于沉默的声音(silent sound),并且在语音信号的特性接近于音频时,AC模式可被选择。
可根据语音信号的频带进一步对编码模式进行分类。语音信号的频带可被分类为例如窄带(NB)、宽带(WB)、超宽带(SWB)和全频带(FB)。NB可具有约300Hz到约3400Hz的频带或约50Hz到约4000Hz的频带,WB可具有约50Hz到约7000Hz的频带或约50Hz到约8000Hz的频带,SWB可具有约50Hz到约14000Hz的频带或约50Hz到约16000Hz的频带,FB可具有达到约20000Hz的频带。这里,为了方便设置了与带宽相关的数值,所述数值不限于此。另外,频带的分类可被设置得比以上描述简单或比以上描述复杂。
图1的变量模式编码器119可通过使用与图2A至图2D中示出的编码模式相应的不同的编码算法对LPC系数进行编码。当编码模式的类型和编码模式的数量被确定时,码本会需要通过使用与确定的编码模式相应的语音信号来再次被训练。
表1示出在4种编码模式的情况下的量化方案和结构的示例。这里,不使用帧间预测的量化方法可被称为安全网方案,并且使用帧间预测的量化方法可被称为预测方案。另外,VQ表示矢量量化器,BC-TCQ表示块约束(block-constrained)网格编码量化器。
表1
[表1]
编码模式可根据应用的比特率而改变。如上所述,为了使用两种编码模式以高比特率对LPC系数进行量化,在GC模式下每帧可使用40比特或41比特,在TC模式下每帧可使用46比特。
图3是根据示例性实施例的LPC系数量化器300的框图。
图3中示出的LPC系数量化器300可包括第一系数转换器311、加权函数确定器313、导抗谱频率(ISF)/线谱频率(LSF)量化器315和第二系数转换器317。LPC系数量化器300的组件中的每个可通过至少一个处理器(例如,中央处理单元(CPU))通过将其集成到至少一个模块中来实现。
参照图3,第一系数转换器311可将通过对语音信号的当前帧或先前帧的帧尾执行LP分析而提取的LPC系数转换为另一格式的系数。例如,第一系数转换器311可将当前帧或先前帧的帧尾的LPC系数转换为LSF系数和ISF系数中的任意一种格式。在这种情况下,ISF系数或LSF系数指示LPC系数可容易地被量化的格式的示例。
加权函数确定器313可通过使用从LPC系数转换的ISF系数或LSF系数来确定与关于当前帧的帧尾和先前帧的帧尾的LPC系数的重要性相关的加权函数。可在选择量化路径或搜索在量化中加权误差被最小化的码本索引的处理中使用的确定的加权函数。例如,加权函数确定器313可确定按照幅度的加权函数和按照频率的加权函数。
另外,加权函数确定器313可通过考虑频带、编码模式和频谱分析信息中的至少一个来确定加权函数。例如,加权函数确定器313可导出对于编码模式的最优加权函数。另外,加权函数确定器313可导出对于频带的最优加权函数。另外,加权函数确定器313可基于语音信号的频率分析信息导出最优加权函数。频率分析信息可包括频谱倾斜信息。以下将更详细地描述加权函数确定器313。
ISF/LSF量化器315可对从当前帧的帧尾的LPC系数转换的ISF系数或LSF系数进行量化。ISF/LSF量化器315可获得在输入的编码模式下的最优量化索引。ISF/LSF量化器315可通过使用由加权函数确定器313确定的加权函数来对ISF系数或LSF系数进行量化。ISF/LSF量化器315可在使用由加权函数确定器313确定的加权函数时通过选择多个量化路径之一,来对ISF系数或LSF系数进行量化。作为量化的结果,可获得关于当前帧的帧尾的ISF系数或LSF系数的量化索引以及量化的ISF(QISF)系数或量化的LSF(QLSF)系数。
第二系数转换器317可将QISF系数或QLSF系数转换为量化的LPC(QLPC)系数。
现将描述LPC系数的矢量量化和加权函数之间的关系。
矢量量化指示考虑矢量中的所有项具有相同的重要性,通过使用平方误差距离测量,来选择具有最小误差的码本索引的处理。然而,由于重要性在LPC系数中的每个中不同,因此,如果重要的系数的误差减小,则最终合成的信号的感知质量会增加。因此,当LSF系数被量化时,解码设备可通过将表示LSF系数中的每个的重要性的加权函数应用到平方误差距离测量并选择最佳码本索引,来增加合成信号的性能。
根据示例性实施例,可基于ISF系数或LSF系数中的每个实际影响频谱包络通过使用ISF系数或LSF系数的频率信息和实际的频谱幅度来确定按照幅度的加权函数。根据示例性实施例,可通过考虑感知特性和频域的共振峰分布将按照幅度的加权函数和按照频率的加权函数进行组合来获得额外的量化效率。根据示例性实施例,由于使用了频域的实际的幅度,因此可充分地反映所有频率的包络信息,并可正确地导出ISF系数或LSF系数中的每个的权重。
根据示例性实施例,当从LPC系数转换的ISF系数或LSF系数的矢量量化被执行时,如果每个系数的重要性不同,则指示矢量中的哪一项相对更重要的加权函数可被确定。另外,能够通过分析将被编码的帧的频谱来对高能部分加权更多的加权函数可被确定,以提高编码的准确度。高频谱能量指示时域中的高相关性。
描述将这样的加权函数应用到误差函数的示例。
首先,如果输入信号的变化大,则当在不使用帧间预测的情况下执行量化时,用于通过QISF系数来搜索码本索引的误差函数可由下面的等式1来表示。否则,如果输入信号的变化小时,则当使用帧间预测执行量化时,用于通过QISF系数搜索码本索引的误差函数可由等式2来表示。码本索引指示用于使相应的误差函数最小化的值。
这里,w(i)表示加权函数,z(i)和r(i)表示量化器的输入,z(i)表示从图3中的ISF(i)去除了均值的矢量,r(i)表示从z(i)去除了帧间预测值的矢量。Ewerr(k)可用于在帧间预测没有被执行的情况下搜索码本,Ewerr(p)可用于在帧间预测被执行的情况下搜索码本。另外,c(i)表示码本,p表示ISF系数的阶,其中,在NB中所述阶通常为10,在WB中所述阶通常为16至20。
根据示例性实施例,编码设备可通过将按照幅度的加权函数和按照频率的加权函数组合来确定最佳加权函数,其中,所述按照幅度的加权函数是在使用与从LPC系数转换的ISF系数或LSF系数的频率相应的频谱幅度时的按照幅度的加权函数,按照频率的加权函数考虑输入信号的共振峰分布和感知特性。
图4是根据示例性实施例的加权函数确定器400的框图。加权函数确定器400与频谱和LP分析器410的窗处理器421、频率映射单元423、幅度计算器425一同示出。
参照图4,窗处理器421可将窗应用到输入信号。窗可以是矩形窗、汉明窗或正弦窗。
频率映射单元423可将时域的输入信号映射到频域的输入信号。例如,频率映射单元423可通过快速傅里叶变换(FFT)或修正离散余弦变换(MDCT)将输入信号变换到频域。
幅度计算器425可计算关于变换到频域的输入信号的频谱区(bin)的幅度。频谱区的数量可与由加权函数确定器400用于对ISF系数或LSF系数进行归一化的数量相同。
频谱分析信息作为由频谱和LP分析器410执行的结果可被输入到加权函数确定器400。在这种情况下,频谱分析信息可包括频谱倾斜。
加权函数确定器400可对从LPC系数转换的ISF系数或LSF系数进行归一化。P阶ISF系数中的实际应用了归一化的范围是0阶到(p-2)阶。通常,0阶ISF系数到(p-2)阶ISF系数存在于0和π之间。加权函数确定器400可使用与频谱区的数量相同的K来执行归一化以使用频谱分析信息,其中,由频率映射单元423导出所述频谱区的数量。
加权函数确定器400可通过使用频谱分析信息,来确定ISF系数或LSF系数影响中间子帧的频谱包络的按照幅度的加权函数W1(n)。例如,加权函数确定器400可通过使用ISF系数或LSF系数的频率信息和输入信号的实际的频谱幅度,来确定按照幅度的加权函数W1(n)。按照幅度的加权函数W1(n)可被确定用于从LPC系数转换的ISF系数或LSF系数。
加权函数确定器400可通过使用与ISF系数或LSF系数中的每个相应的频谱区的幅度确定按照幅度的加权函数W1(n)。
加权函数确定器400可通过使用与ISF系数或LSF系数中的每个相应的频谱区的幅度以及位于该频谱区周围的至少一个邻近频谱区来确定按照幅度的加权函数W1(n)。在这种情况下,加权函数确定器400可通过提取每个频谱区和至少一个邻近频谱区的代表值来确定与频谱包络相关的按照幅度的加权函数W1(n)。代表值的示例是与ISF系数或LSF系数中的每个相应的频谱区和至少一个邻近频谱区中的最大值、均值或中间值。
加权函数确定器400可通过使用ISF系数或LSF系数的频率信息来确定按照频率的加权函数W2(n)。详细地,加权函数确定器400可通过使用输入信号的感知特性和共振峰分布来确定按照频率的加权函数W2(n)。在这种情况下,加权函数确定器400可根据bark尺度提取输入信号的感知特性。随后,加权函数确定器400可基于共振峰分布的第一共振峰确定按照频率的加权函数W2(n)。
按照频率的加权函数W2(n)可导致在超低频和高频中的相对低的权重,并导致在低频频率间隔(例如,与第一共振峰相应的间隔)中的恒定权重。
加权函数确定器400可通过将按照幅度的加权函数W1(n)和按照频率的加权函数W2(n)组合来确定最终的加权函数W(n)。在这种情况下,加权函数确定器400可通过将按照幅度的加权函数W1(n)乘以按照频率的加权函数W2(n)或将其相加来确定最终的加权函数W(n)。
作为另一示例,加权函数确定器400可通过考虑输入信号的频带信息和编码模式,来确定按照幅度的加权函数W1(n)和按照频率的加权函数W2(n)。
为此,加权函数确定器400可通过检查输入信号的带宽,来检查对于输入信号的带宽是NB的情况和对于输入信号的带宽是WB的情况的输入信号的编码模式。当输入信号的编码模式是UC模式时,加权函数确定器400可确定UC模式下的按照幅度的加权函数W1(n)和按照频率的加权函数W2(n)并将其组合。
当输入信号的编码模式不是UC模式时,加权函数确定器400可确定VC模式下的按照幅度的加权函数W1(n)和按照频率的加权函数W2(n)并将其组合。
如果输入信号的编码模式是GC模式或TC模式,则加权函数确定器400可通过与在VC模式下相同的处理来确定加权函数。
例如,当输入信号通过FFT算法被频率变换时,使用FFT系数的频谱幅度的按照幅度的加权函数W1(n)可由下面的等式3来确定。
Min=wf(n)的最小值 …(3)
其中,
wf(n)=10log(max(Ebin(norm_isf(n)),Ebin(norm_isf(n)+1),Ebin(norm_isf(n)-1))),
其中,n=0,…,M-2,1≤norm_isf(n)≤126
wf(n)=10log(Ebin(norm_isf(n))),
其中,norm_isf(n)=0或127
norm_isf(n)=isf(n)/50,随后,0≤isf(n)≤6350,并且0≤norm_isf(n)≤127
例如,VC模式下的按照频率的加权函数W2(n)可由等式4来确定,UC模式下的加权函数W2(n)可由等式5来确定。等式4和等式5中的常数可根据输入信号的特性而改变:
其中,norm_isf(n)=[0,5]…(4)
W2(n)=1.0其中,norm_isf(n)=[6,20]
其中,norm_isf(n)=[21,127]
其中,norm_isf(n)=[0,5]…(5)
其中,norm_isf(n)=[6,127]
最终导出的加权函数W(n)可由等式6来确定。
W(n)=W1(n)·W2(n),对于n=0,…,M-2…(6)
W(M-1)=1.0
图5是根据示例性实施例的LPC系数量化器的框图。
参照图5,LPC系数量化器500可包括加权函数确定器511、量化路径确定器513、第一量化方案515和第二量化方案517。由于在图4中已描述了加权函数确定器511,在此省略其描述。
量化路径确定器513可确定在输入信号的量化之前基于标准将包括不使用帧间预测的第一路径和使用帧间预测的第二路径的多个路径之一选作输入信号的量化路径之一。
当第一路径被选作输入信号的量化路径时,第一量化方案515可对从量化路径确定器513提供的输入信号进行量化。第一量化方案515可包括用于粗略地对输入信号进行量化的第一量化器(未示出)和用于精确地对输入信号和第一量化器的输出信号之间的量化误差信号进行量化的第二量化器(未示出)。
当第二路径被选作输入信号的量化路径时,第二量化方案517可对从量化路径确定器513提供的输入信号进行量化。第一量化方案515可包括用于对帧间预测值和输入信号的预测误差执行块约束网格编码量化的元件和帧间预测元件。
第一量化方案515是不使用帧间预测的量化方案并可被称为安全网方案。第二量化方案517是使用帧间预测的量化方案并可被称为预测方案。
第一量化方案515和第二量化方案517不限于当前示例性实施例并可通过使用分别根据以下描述的各种示例性实施例的第一量化方案和第二量化方案来实现。
因此,与用于高效交互语音服务的低比特率至用于提供差异质量服务的高比特率相应地,可选择最优量化器。
图6是根据示例性实施例的量化路径确定器的框图。参照图6,量化路径确定器600可包括预测误差计算器611和量化方案选择器613。
预测误差计算器611可通过接收帧间预测值p(n)、加权函数w(n)、和去除了直流(DC)值的LSF系数z(n)以各种方法计算预测误差。首先,可使用与在第二量化方案(即,预测方案)中使用的帧间预测器相同的帧间预测器(未示出)。这里,可使用自回归(AR)方法和移动平均方法(MA)中的任意一个。用于帧间预测的先前帧的信号z(n)可使用量化的值或未量化的值。另外,可通过使用加权函数w(n)或不使用加权函数w(n)来获得预测误差。因此,组合的总数量是8,其中,4个组合如下:
首先,使用先前预测帧的量化的信号的加权AR预测误差可由等式7来表示。
第二,使用先前帧的量化的信号的AR预测误差可由等式8来表示。
第三,使用先前帧的信号z(n)的加权AR预测误差可由等式9来表示。
第四,使用先前帧的信号z(n)的AR预测误差可由等式10来表示。
在等式7至等式10中,M表示LSF系数的阶,当输入语音信号的带宽是WB时,M通常是16,并且表示AR方法的预测系数。如上所述,通常使用关于紧前面的帧的信息,并且可通过使用从以上描述获得的预测误差来确定量化方案。
另外,对于由于先前帧中的帧误差而不存在关于先前帧的信息的情况,可通过使用紧在先前帧之前的帧来获得第二预测误差,可通过使用第二预测误差来确定量化方案。在这种情况下,与等式7比较,第二预测误差可由下面的等式11来表示。
量化方案选择器613通过使用由预测误差计算器611获得的预测误差和由编码模式确定器(图1的115)获得的编码模式中的至少一个确定当前帧的量化方案。
图7A是示出根据示例性实施例的图6的量化路径确定器的操作的流程图。作为示例,0、1和2可用作预测模式。在预测模式0下,仅可使用安全网方案,在预测模式1下,仅可使用预测方案。在预测模式2下,可切换安全网方案和预测方案。
在预测模式0下将被编码的信号具有非平稳特性。非平稳信号在相邻帧之间具有大的变化。因此,如果对非平稳信号执行帧间预测,则预测误差可大于原始信号,这导致量化器的性能恶化。在预测模式1下将被编码的信号具有平稳特性。因为平稳信号在相邻帧之间具有小的变化,其帧间相关性高。可通过在预测模式2下执行非平稳特性和破平稳特性混合的信号的量化来获得最优性能。即使信号具有非平稳特性和平稳特性两者,也可基于混合的比例设置预测模式0或预测模式1。同时,可通过实验或通过仿真来把将在预测模式2下设置得混合的比例预先定义为最优值。
参照图7A,在操作711,确定当前帧的预测模式是否是0,即,当前帧的语音信号是否具有非平稳特性。作为在操作711确定的结果,如果预测模式是0,例如,当如在TC模式或UC模式中当前帧的语音信号的变化大时,由于帧间预测难,因此在操作714,可将安全网方案(即,第一量化方案)确定为量化路径。
作为在操作711的确定的结果,如果预测模式不是0,则在操作712确定预测模式是否是1,即,当前帧的语音信号是否具有平稳特性。作为在操作712确定的结果,如果预测模式是1,则由于帧间预测性能良好,因此在操作715可将预测方案(即,第二量化方案)确定为量化路径。
作为在操作712的确定的结果,如果预测模式不是1,则确定预测模式是2,从而以切换的方式使用第一量化方案和第二量化方案。例如,当当前帧的语音信号不具有非平稳特性,即,当在GC模式或VC模式下预测模式是2时,可通过考虑预测误差将第一量化方案和第二量化方案中的一个确定为量化路径。为此,在操作713确定当前帧和先前帧之间的第一预测误差是否大于第一阈值。可通过实验或通过仿真将第一阈值预先定义为最优值。例如,在具有16阶的WB的情况下,可将第一阈值设置为2,085,975。
作为在操作713的确定的结果,如果第一预测误差大于或等于第一阈值,则在操作714可将第一量化方案确定为量化路径。作为在操作713的确定的结果,如果第一预测误差不大于第一阈值,则在操作715可将预测方案(即,第二量化方案)确定为量化路径。
图7B是示出根据另一示例性实施例的图6的量化路径确定器的操作的流程图。
参照图7B,操作731至操作733与图7A的操作711至操作713相同,并且还包括操作734,其中,在操作734中,紧在先前帧之前的帧与当前帧之间的第二预测误差将与第二阈值进行比较。可通过实验或通过仿真预先将第二阈值定义为最优值。例如,在具有16阶的WB的情况下,可将第二阈值设置为(第一阈值×1.1)。
作为在操作734的确定的结果,如果第二预测误差大于或等于第二阈值,则在操作735可将安全网方案(即,第一量化方案)确定为量化路径。作为在操作734确定的结果,如果第二预测误差不大于第二阈值,则在操作736可将预测方案(即,第二量化方案)确定为量化路径。
虽然在图7A和图7B中预测模式的数量是3,但本发明不限于此。
同时,在确定量化方案时,还可使用除预测模式或预测误差之外的附加信息。
图8是根据示例性实施例的量化路径确定器的框图。参照图8,量化路径确定器800可包括预测误差计算器811、频谱分析器813和量化方案选择器815。
由于预测误差计算器811与图6的预测误差计算器611相同,因此省略其详细的描述。
频谱分析器813可通过分析频谱信息来确定当前帧的信号特性。例如,在频谱分析器813中,可通过使用频域中的频谱幅度信息获得N(N是大于1的整数)个先前帧与当前帧之间的加权距离D,并且当加权距离大于阈值时,即,当帧间变化大时,可将安全网方案确定为量化方案。由于将被比较的对象随着N增加而增加,因此复杂度也随着N增加而增加。可使用下面的等式12来获得加权距离D。为了以低复杂度获得加权距离D,可通过仅使用由LSF/ISF定义的频率周围的频谱幅度来将当前帧与先前帧进行比较。在这种情况下,可将由LSF/ISF定义的频率周围的M个频谱区的幅度的均值、最大值或中间值与先前帧进行比较。
其中M=16…(12)
在等式12中,加权函数Wk(i)可通过上述等式3来获得,且加权函数Wk(i)与等式3的W1(n)相同。在Dn中,n表示先前帧和当前帧之间的差。n=1的情况指示紧前面的帧与当前帧之间的加权距离,n=2的情况指示第二先前帧与当前帧之间的加权距离。当Dn的值大于阈值时,可确定当前帧具有非平稳特性。
量化方案选择器815可通过接收从预测误差计算器811提供的预测误差和从频谱分析器813提供的信号特性、预测模式和传输信道信息,来确定当前帧的量化路径。例如,可将优先级指定给输入到量化方案选择器815的信息,以在量化路径被选择时被依次考虑。例如,当高误帧率(FER)模式包括在传输信道信息中时,可将安全网方案选择比例设置为相对高,或可仅选择安全网方案。安全网方案选择比例可通过调整与预测误差相关的阈值来可变地设置。
图9示出当编解码器服务被提供时的在网络端能够发送的关于信道状态的信息。
当信道状态差时,信道误差增加,结果,帧间变化会大,这导致发生帧误差。因此,作为量化路径的预测方案的选择比例被减小,安全网方案的选择比例增加。当信道状态非常差时,仅将安全网方案用作量化路径。为此,使用一个或更多个等级来表达将多条传输信道信息组合的指示信道状态的值。高等级指示信道误差的概率高的状态。最简单的情况是等级的数量是1的情况,即,由如图9所示的高FER模式确定器911将信道状态确定为高FER模式的情况。由于高FER模式指示信道状态非常不稳定,因此通过使用安全网方案的最高选择比例或仅使用安全网方案来执行编码。当等级的数量是多个时,可逐级设置安全网方案的选择比例。
参照图9,可通过例如4条信息来执行在高FER模式确定器911中确定高FER模式的算法。详细地,4条信息可以是(1)作为被发送到物理层的混合型自动重传请求(HARQ)反馈的快速反馈(FFB)信息、(2)从被发送到比物理层高的层的网络信令反馈的慢反馈(SFB)信息、(3)从在远端的EVS解码器913带内用信号传输的带内反馈(ISB)信息和(4)由EVS编码器915针对将以冗余的方式被发送的特定关键帧选择的高灵敏度帧(HSF)信息。虽然FFB信息和SFB信息独立于EVS编解码器,但ISB信息和HSF信息依赖于EVS编解码器,并会需要EVS编解码器的具体算法。
通过使用4条信息来将信道状态确定为高FER模式的算法可通过例如如表2-表4的以下代码来表达。
表2
[表2]
定义
表3
[表3]
在初始化期间的设置
<u>Ns=100 Nf=10 Ni=100 Ts=20 Tf=2 Ti=20</u> |
表4
[表4]
算法
如上,基于使用4条信息中的一个或更多个处理的分析信息,EVS编解码器可被命令进入高FER模式。分析信息可以是,例如,(1)通过使用SFB信息从Ns个帧的计算的平均误差率导出的SFBavg、(2)通过使用FFB信息从Nf个帧的计算的平均误差率导出的FFBavg和(3)通过使用ISB信息以及分别是SFB信息、FFB信息和ISB信息的阈值Ts、Tf和Ti从Ni个帧的计算的平均误差率导出的ISBavg。基于将SFBavg、FFBavg和ISBavg分别与Ts、Tf和Ti进行比较的的结果,可确定将EVS编解码器被确定进入高FER模式。对于所有条件,可检查关于每个编解码器通常是否支持高FER模式的HiOK。
高FER模式确定器911可被包括为EVS编码器915的组件或另一格式的编码器。可选择地,高FER模式确定器911可被实现在除EVS编码器915的组件或另一格式的编码器以外的另一外部装置中。
图10是根据另一示例性实施例的LPC系数量化器1000的框图。
参照图10,LPC系数量化器1000可包括量化路径确定器1010、第一量化方案1030和第二量化方案1050。
量化路径确定器1010基于预测误差和编码模式中的至少一个将包括安全网方案的第一路径和包括预测方案的第二路径中的一个确定为当前帧的量化路径。
当第一路径被确定为量化路径时,第一量化方案1030在不使用帧间预测的情况下执行量化,并且第一量化方案1030可包括多级矢量量化器(MSVQ)1041和格矢量量化(LVQ)1043。MSVQ 1041可优选地包括两级。MSVQ 1041通过粗略地执行去除了DC值的LSF系数的矢量量化来产生量化索引。LVQ 1043通过接收从MSVQ 1041输出的反QLSF系数与去除了DC值的LSF系数之间的LSF量化误差来执行量化,从而产生量化索引。通过将MSVQ 1041的输出与LVQ 1043的输出相加并随后将DC值与所述相加的结果相加来产生最终的QLSF系数。第一量化方案1030可通过使用MSVQ 1041和LVQ 1043的组合来实现非常有效的量化器结构,其中,MSVQ 1041虽然对于码本需要大量存储器但在低比特率具有良好的性能,LVQ 1043使用小型的存储器和低复杂度在低比特率有效率。
当第二路径被确定为量化路径时,第二量化方案1050使用帧间预测来执行量化,并且第二量化方案1050可包括具有帧内预测器1065的BC-TCQ 1063和帧间预测器1061。帧间预测器1061可使用AR方法和MA方法中的任意一个。例如,应用一阶AR方法。预先定义预测系数,选作先前帧中的最优矢量的矢量用作用于预测的过去的矢量。由具有帧内预测器1065的BC-TCQ 1063对从帧间预测器1061的预测值获得的LSF预测误差进行量化。因此,使用小型存储器和低复杂度在高比特率具有良好的量化性能的BC-TCQ 1063的特性可被最大化。
作为结果,当第一量化方案1030和第二量化方案1050被使用时,可与输入语音信号的特性相应地实现最优量化器。
例如,当在LPC系数量化器1000中41比特被使用来对具有8KHz的WB的GC模式下的语音信号进行量化时,除指示量化路径信息的1比特之外,可分别将12比特和28比特分配给第一量化方案1030的MSVQ 1041和LVQ 1043。另外,除指示量化路径信息的1比特之外,可将40比特分配给第二量化方案1050的BC-TCQ 1063。
表5示出将比特分配给8KHz频带的WB语音信号的示例。
表5
[表5]
编码模式 | LSF/ISF量化方案 | MSVQ-LVQ[比特] | BC-TCQ[比特] |
GC,WB | 安全网 预测 | 40/41- | -40/41 |
TC,WB | 安全网 | 41 | - |
图11是根据另一示例性实施例的LPC系数量化器的框图。图11中示出的LPC系数量化器1100具有与图10中示出的LPC系数量化器相反的结构。
参照图11,LPC系数量化器1100可包括量化路径确定器1110、第一量化方案1130和第二量化方案1150。
量化路径确定器1110基于预测误差和预测模式中的至少一个,将包括安全网方案的第一路径和包括预测方案的第二路径中的一个确定为当前帧的量化路径。
当第一路径被选择为量化路径时,第一量化方案1130在不使用帧间预测的情况下执行量化,第一量化方案1130可包括矢量量化器(VQ)1141和具有帧内预测器1145的BC-TCQ1143。VQ 1141可通过粗略地执行去除了DC值的LSF系数的矢量量化来产生量化索引。BC-TCQ 1143通过接收从VQ 1141输出的反QLSF系数与去除了DC值的LSF系数之间的LSF量化误差来执行量化,从而产生量化索引。通过将VQ 1141的输出与BC-TCQ 1143的输出相加并随后将DC值与所述相加结果相加,来产生最终的QLSF系数。
当第二路径被确定为量化路径时,第二量化方案1150使用帧间预测执行量化,并且第二量化方案1150可包括LVQ 1163和帧间预测器1161。帧间预测器1161可被实现为与图10中的帧间预测器相同或类似。由LVQ 1163对从帧间预测器1161的预测值获得的LSF预测误差进行量化。
因此,由于分配给BC-TCQ 1143的比特的数量少,因此BC-TCQ 1143具有低复杂度,由于LVQ 1163在高比特率具有低复杂度,因此通常可以以低复杂度执行量化。
例如,当在LPC系数量化器1100使用41比特来对GC模式下具有8KHz的WB的语音信号进行量化时,除指示量化路径信息的1比特之外,可分别将6比特和34比特分配给第一量化方案1130的VQ 1141和BC-TCQ 1143。另外,除指示量化路径信息的1比特之外,可将40比特分配给第二量化方案1150的LVQ 1163。
表6示出将比特分配给8KHz频带的WB语音信号的示例。
表6
[表6]
编码模式 | LSF/ISF量化方案 | MSVQ-LVQ[比特] | BC-TCQ[比特] |
GC,WB | 安全网 预测 | -40/41 | 40/41- |
TC,WB | 安全网 | - | 41 |
与在大多数编码模式中使用的VQ 1141相关的最优索引可通过搜索用于最小化等式13的Ewerr(p)的索引来获得。
在等式13中,w(i)表示在加权函数确定器(图3的313)中确定的加权函数,r(i)表示VQ 1141的输入,c(i)表示VQ 1141的输出。也就是说,获得用于使r(i)和c(i)之间的加权失真最小化的索引。
在BC-TCQ 1143中使用的失真测量d(x,y)可由等式14来表示。
根据示例性实施例,如等式15所表示,可通过将加权函数wk应用到失真测量d(x,y)来获得加权失真。
也就是说,可通过获得BC-TCQ 1143的所有级的加权失真来获得最优索引。
图12是根据另一示例性实施例的LPC系数量化器的框图。
参照图12,LPC系数量化器1200可包括量化路径确定器1210、第一量化方案1230和第二量化方案1250。
量化路径确定器1210基于预测误差和预测模式中的至少一个,将包括安全网方案的第一路径和包括预测方案的第二路径中的一个确定为当前帧的量化路径。
当第一路径被确定为量化路径时,第一量化方案1230在不使用帧间预测的情况下执行量化,第一量化方案1230可包括VQ或MSVQ 1241和LVQ或TCQ 1243。VQ或MSVQ 1241通过粗略地执行去除了DC值的LSF系数的矢量量化来产生量化索引。LVQ或TCQ 1243通过接收从VQ 1141输出的反QLSF系数与去除了DC值的LSF系数之间的LSF量化误差来执行量化,从而产生量化索引。通过将VQ或MSVQ 1241的输出和LVQ或TCQ 1243的输出相加并随后将DC值与所述相加结果相加,来产生最终的QLSF系数。由于尽管VQ或MSVQ 1241具有高复杂度并使用大量的存储器,但VQ或MSVQ 1241具有良好的比特误差率,因此通过考虑整体复杂度VQ或MSVQ 1241的级的数量可从1增加到n。例如,当仅使用第一级时,VQ或MSVQ 1241变为VQ,当使用两个或更多个级时,VQ或MSVQ 1241变为MSVQ。另外,由于LVQ或TCQ 1243具有低复杂度,因此可有效地对LSF量化误差进行量化。
当第二路径被确定为量化路径时,第二量化方案1250使用帧间预测来执行量化,第二量化方案1250可包括帧间预测器1261和LVQ或TCQ 1263。帧间预测器1261可被实现为与图10中的帧间预测器相同或类似。由LVQ或TCQ 1263对从帧间预测器1261的预测值获得的LSF预测误差进行量化。同样,由于LVQ或TCQ 1243具有低复杂度,因此可有效地对LSF预测误差进行量化。因此,通常可以以低复杂度执行量化。
图13是根据另一示例性实施例的LPC系数量化器的框图。
参照图13,LPC系数量化器1300可包括量化路径确定器1310、第一量化方案1330和第二量化方案1350。
量化路径确定器1310基于预测误差和预测模式中的至少一个,将包括安全网方案的第一路径和包括预测方案的第二路径中的一个确定为当前帧的量化路径。
当第一路径被确定为量化路径时,第一量化方案1330在不使用帧间预测的情况下执行量化,由于第一量化方案1330与图12中示出的第一量化方案相同,因此省略其描述。
当第二路径被确定为量化路径时,第二量化方案1350使用帧间预测来执行量化,并且第二量化方案1350可包括帧间预测器1361、VQ或MSVQ 1363和LVQ或TCQ 1365。帧间预测器1361可被实现为与图10中的帧间预测器相同或类似。由VQ或MSVQ 1363粗略地对使用帧间预测器1361的预测值获得的LSF预测误差进行量化。由LVQ或TCQ 1365对LSF预测误差和从VQ或MSVQ 1363输出的反量化的LSF预测误差之间的误差矢量进行量化。同样,由于LVQ或TCQ 1365具有低复杂度,因此可有效地对LSF预测误差进行量化。因此,通常可以以低复杂度执行量化。
图14是根据另一示例性实施例的LPC系数量化器的框图。与图12中示出的LPC系数量化器1200相比,LPC系数量化器1400的不同之处在于:第一量化方案1430包括具有帧内预测器1445的BC-TCQ 1443而不是LVQ或TCQ 1243,第二量化方案1450包括具有帧内预测器1465的BC-TCQ 1463而不是LVQ或TCQ 1263。
例如,当在LPC系数量化器1400中使用41比特来对在GC模式下具有8KHz的WB的语音信号进行量化时,除指示量化路径信息的1比特之外,可分别将5比特和35比特分配给第一量化方案1430的VQ 1441和BC-TCQ 1443。另外,除指示量化路径信息的1比特之外,可将40比特分配给第二量化方案1450的BC-TCQ 1463。
图15是根据另一示例性实施例的LPC系数量化器的框图。图15中示出的LPC系数量化器1500是图13中示出的LPC系数量化器1300的具体示例,其中,第一量化方案1530的MSVQ1541和第二量化方案1550的MSVQ 1563具有两级。
例如,当在LPC系数量化器1500中使用41比特来对GC模式下具有8KHz的WB的语音信号进行量化时,除了指示量化路径信息的1比特以外,可分别将6+6=12比特和28比特分配给第一量化方案1530的两级MSVQ 1541和LVQ 1543。另外,可分别将5+5=10比特和30比特分配给第二量化方案1550的两级MSVQ 1563和LVQ 1565。
图16A和图16B是根据另一示例性实施例的LPC系数量化器的框图。具体地讲,图16A和图16B中示出的LPC系数量化器1610和1630分别可用于形成安全网方案(即,第一量化方案)。
图16A中示出的LPC系数量化器1610可包括VQ 1621和具有帧内预测器1625的TCQ或BC-TCQ 1623,图16B中示出的LPC系数量化器1630可包括VQ或MSVQ 1641和TCQ或LVQ1643。
参照图16A和图16B,VQ 1621或、VQ或MSVQ 1641使用少量的比特粗略地对整个输入矢量进行量化,TCQ或BC-TCQ 1623或、TCQ或LVQ 1643精确地对LSF量化误差进行量化。
当仅安全网方案(即,第一量化方案)用于每个帧时,列表维特比算法(LVA)可应用于额外的性能提高。也就是说,由于当仅使用第一量化方案时,与切换方法相比较存在复杂度方面存在余地,可应用通过增加搜索操作中的复杂度来实现性能提高的LVA方法。例如,通过将LVA方法应用到BC-TCQ,可被设置为即使LVA结构的复杂度增加,但是LVA结构的复杂度也低于切换结构的复杂度。
图17A至图17C是根据另一示例性实施例的(尤其是具有使用加权函数的BC-TCQ的结构的)LPC系数量化器的框图。
参照图17A,LPC系数量化器可包括加权函数确定器1710和包括具有帧内预测器1723的BC-TCQ 1721的量化方案1720。
参照图17B,LPC系数量化器可包括加权函数确定器1730和包括具有帧内预测器1745的BC-TCQ 1743和帧间预测器1741的量化方案1740。这里,可将40比特分配给BC-TCQ1743。
参照图17C,LPC系数量化器可包括加权函数确定器1750和包括具有帧内预测器1765的BC-TCQ 1763和VQ 1761的量化方案1760。这里,可分别将5比特和40比特分配给VQ1761和BC-TCQ 1763。
图18是根据另一示例性实施例的LPC系数量化器的框图。
参照图18,LPC系数量化器1800可包括第一量化方案1810、第二量化方案1830和量化路径确定器1850。
第一量化方案1810在不使用帧间预测的情况下执行量化,并可使用MSVQ 1821和LVQ 1823的组合以用于量化性能提高。MSVQ 1821可优选地包括两级。MSVQ 1821通过粗略地执行去除了DC值的LSF系数的矢量量化来产生量化索引。LVQ 1823通过接收从MSVQ 1821输出的反QLSF系数与去除了DC值的LSF系数之间的LSF量化误差来执行量化,从而产生量化索引。通过将MSVQ 1821的输出和LVQ 1823的输出相加并随后将DC值与所述相加结果相加来产生最终的QLSF系数。第一量化方案1810可通过使用在低比特率具有良好的性能的MSVQ1821和在低比特率有效率的LVQ 1823的组合来实现非常有效的量化器结构。
第二量化方案1830使用帧间预测来执行量化,并可包括具有帧内预测器1845的BC-TCQ 1843和帧间预测器1841。由具有帧内预测器1845的BC-TCQ 1843对使用帧间预测器1841的预测值获得的LSF预测误差进行量化。因此,可使在高比特率具有良好的量化性能的BC-TCQ 1843的特性最大化。
量化路径确定器1850通过考虑预测模式和加权失真,来将第一量化方案1810的输出和第二量化方案1830的输出中的一个确定为最终的量化输出。
作为结果,当使用第一量化方案1810和第二量化方案1830时,可与输入语音信号的特性相应地实现最优量化器。例如,当在LPC系数量化器1800中使用43比特来对VC模式下具有8KHz的WB的语音信号进行量化时,除指示量化路径信息的1比特之外,可分别将12比特和30比特分配给第一量化方案1810的MSVQ 1821和LVQ 1823。另外,除了指示量化路径信息的1比特之外,可将42比特分配给第二量化方案1830的BC-TCQ 1843。
表7示出将比特分配给8KHz频带的WB语音信号的示例。
表7
[表7]
编码模式 | LSF/ISF量化方案 | MSVQ-LVQ[比特] | BC-TCQ[比特] |
VC,WB | 安全网 预测 | 43- | -43 |
图19是根据另一示例性实施例的LPC系数量化器的框图。
参照图19,LPC系数量化器1900可包括第一量化方案1910、第二量化方案1930和量化路径确定器1950。
第一量化方案1910在不使用帧间预测的情况下执行量化,并可使用VQ 1921和具有帧内预测器1925的BC-TCQ 1923的组合以用于量化性能提高。
第二量化方案1930使用帧间预测来执行量化,并可包括具有帧内预测器1945的BC-TCQ 1943和帧间预测器1941。
量化路径确定器1950通过接收预测模式和使用由第一量化方案1910和第二量化方案1930获得的最优量化值的加权失真,来确定量化路径。例如,确定当前帧的预测模式是否是0,即,当前帧的语音信号是否具有非平稳特性。当如同在TC模式或UC模式下一样当前帧的语音信号的变化大时,由于帧间预测难,因此安全网方案(即,第一量化方案1910)总是被确定为量化路径。
如果当前帧的预测模式是1,即,如果当前帧的语音信号处于不具有非平稳特性的GC模式或VC模式,则量化路径确定器1950通过考虑预测误差来将第一量化方案1910和第二量化方案1930之一确定为量化路径。为此,首先考虑第一量化方案1910的加权失真,从而LPC系数量化器1900对于帧误差具有鲁棒性。也就是说,如果第一量化方案1910的加权失真值小于预定义的阈值,则无论第二量化方案1930的加权失真值如何,都选择第一量化方案1910。另外,替代具有较小加权失真值的量化方案的简单选择,在相同的加权失真值的情况下,通过考虑帧误差来选择第一量化方案1910。如果第一量化方案1910的加权失真值大于第二量化方案1930的加权失真值的特定倍数,则可选择第二量化方案1930。特定倍数可以是例如被设置为1.15。这样,当量化路径被确定时,由确定的量化路径的量化方案产生的量化索引被发送。
通过考虑预测模式的数量是3,可实现为当预测模式是0时选择第一量化方案1910作为量化路径,当预测模式是1时选择第二量化方案1930作为量化路径,当预测模式是2时选择第一量化方案1910和第二量化方案1930之一作为量化路径。
例如,当在LPC系数量化器1900中使用37比特来对GC模式下具有8KHz的WB的语音信号进行量化时,除指示量化路径信息的1比特之外,可分别将2比特和34比特分配给第一量化方案1910的VQ 1921和BC-TCQ 1923。另外,除指示量化路径信息的1比特之外,可将36比特分配给第二量化方案1930的BC-TCQ 1943。
表8示出将比特分配给8KHz频带的WB语音信号的示例。
表8
[表8]
编码模式 | LSF/ISF量化方案 | 使用的比特的数量 |
VC,WB | 安全网 预测 | 43 43 |
GC,WB | 安全网 预测 | 37 37 |
TC,WB | 安全网 | 44 |
图20是根据另一示例性实施例的LPC系数量化器的框图。
参照图20,LPC系数量化器2000可包括第一量化方案2010、第二量化方案2030和量化路径确定器2050。
第一量化方案2010在不使用帧间预测的情况下执行量化,并可使用VQ 2021和具有帧内预测器2025的BC-TCQ 2023的组合以用于量化性能提高。
第二量化方案2030使用帧间预测来执行量化,并可包括LVQ 2043和帧间预测器2041。
量化路径确定器2050通过接收预测模式和由第一量化方案2010和第二量化方案2030获得的最优量化值的加权失真,来确定量化路径。
例如,当在LPC系数量化器中使用43比特来对VC模式下具有8KHz的WB的语音信号进行量化时,除指示量化路径信息的1比特之外,可分别将6比特和36比特分配给第一量化方案2010的VQ 2021和BC-TCQ 2023。另外,除指示量化路径信息的1比特以外,可将42比特分配给第二量化方案2030的LVQ 2043。
表9示出将比特分配给8KHz频带的WB语音信号的示例。
表9
[表9]
编码模式 | LSF/ISF量化方案 | MSVQ-LVQ[比特] | BC-TCQ[比特] |
VC,WB | 安全网 预测 | -43 | 43- |
图21是根据示例性实施例的量化器类型选择器的框图。图21中示出的量化器类型选择器可包括比特率确定器2110、带宽确定器2130、内部采样频率确定器2150和量化器类型确定器2107。组件中的每个可通过被集成到至少一个模块中通过至少一个处理器(例如,中央处理单元(CPU))来实现。可在切换两种量化方案的预测模式2中使用量化器类型选择器2100。量化器类型选择器2100可被包括为图1的声音编码设备100的LPC系数量化器117的组件或图1的声音编码设备100的组件。
参照图21,比特率确定器2110确定语音信号的编码比特率。可针对所有帧或以帧为单位确定编码比特率。量化器类型可根据编码比特率而变化。
带宽确定器2130确定语音信号的带宽。量化器类型可根据语音信号的带宽而变化。
内部采样频率确定器2150基于在量化器中使用的带宽的上限确定内部采样频率。当语音信号的带宽等于WB或比WB宽(即,WB、SWB或FB)时,内部采样频率根据编码带宽的上限是6.4KHz还是8KHz而变化。如果编码带宽的上限是6.4KHz,则内部采样频率是12.8KHz,并且如果编码带宽的上限是8KHz,则内部采样频率是16KHz。编码带宽的上限不限于此。
量化器类型确定器2107通过接收比特率确定器2110的输出、带宽确定器2130的输出和内部采样频率确定器2150的输出来将开环和闭环之一选作量化器类型。当编码比特率大于预定的参考值,语音信号的带宽等于WB或比WB宽并且内部采样频率是16KHz时,量化器类型确定器2107可将开环选作量化器类型。否则,可将闭环选作量化器类型。
图22是示出根据示例性实施例的选择量化器类型的方法的流程图。
参照图22,在操作2201,确定比特率是否大于参考值。在图22中参考值被设置为16.4Kbps,但不限于此。作为在操作2201的确定的结果,如果比特率等于或小于参考值,则在操作2209选择闭环类型。
作为在操作2201的确定的结果,如果比特率大于参考值,则在操作2203确定输入信号的带宽是否比NB宽。作为在操作2203的确定的结果,如果输入信号的带宽是NB,则在操作2209选择闭环类型。
作为在操作2203的确定的结果,如果输入信号的带宽比NB宽,即,如果输入信号的带宽是WB、SWB或FB,则在操作2205确定内部采样频率是不是特定频率。例如,在图22中,特定频率被设置为16KHz。作为在操作2205的确定的结果,如果内部采样频率不是该特定频率,则在操作2209选择闭环类型。
作为在操作2205的确定的结果,如果内部采样频率是16KHz,则在操作2207选择开环类型。
图23是根据示例性实施例的声音解码设备的框图。
参照图23,声音解码设备2300可包括参数解码器2311、LPC系数反量化器2313、变量模式解码器2315和后处理器2319。声音解码设备2300还可包括误差恢复器2317。声音解码设备2300的组件中的每个可通过被集成到至少一个模块中通过至少一个处理器(例如,中央处理单元(CPU))来实现。
参数解码器2311可从比特流解码出用于解码的参数。当编码模式包括在比特流中时,参数解码器2311可对编码模式和与该编码模式相应的参数进行解码。可与解码的编码模式相应地执行LPC系数反量化和激励解码。
LPC系数反量化器2313可通过对包括在LPC参数中的量化的ISF系数或LSF系数、量化的ISF量化误差或LSF量化误差、或量化的ISF预测误差或LSF预测误差进行反量化来产生解码的LSF系数,并通过转换解码的LSF系数来产生LPC系数。
变量模式解码器2315可通过对由LPC系数反量化器2313产生的LPC系数进行解码来产生合成信号。变量模式解码器2315可与根据与解码设备相应的编码设备的如图2A至图2D所示的编码模式相应地,执行解码。
如果包括误差恢复器2317,则当作为变量模式解码器2315的解码的结果在当前帧中发生误差时,误差恢复器2317可恢复或隐藏语音信号的当前帧。
后处理器(例如,中央处理单元(CPU))2319可通过执行由变量模式解码器2315产生的合成信号的各种类型的滤波和语音质量提高处理,来产生最终的合成信号(即,恢复的声音)。
图24是根据示例性实施例的LPC系数反量化器的框图。
参照图24,LPC系数反量化器2400可包括ISF/LSF反量化器2411和系数转换器2413。
ISF/LSF反量化器2411可通过与包括在比特流中的量化路径信息相应地对包括在LPC参数中的量化的ISF系数或LSF系数、量化的ISF量化误差或LSF量化误差、或量化的ISF预测误差或LSF预测误差进行反量化,来产生解码的ISF系数或LSF系数。
系数转换器2413可将作为ISF/LSF反量化器2411的反量化的结果而获得的解码的ISF系数或LSF系数转换为导抗谱对(ISP)或线谱对(LSP),并对每个子帧执行插值。可通过使用先前帧的ISP/LSP和当前帧的ISP/LSP来执行插值。系数转换器2413可将每个子帧的经过反量化且经过插值的ISP/LSP转换为LSP系数。
图25是根据另一示例性实施例的LPC系数反量化器的框图。
参照图25,LPC系数反量化器2500可包括反量化路径确定器2511、第一反量化方案2513和第二反量化方案2515。
反量化路径确定器2511可基于包括在比特流中的量化路径信息将LPC参数提供给第一反量化方案2513和第二反量化方案2515之一。例如,量化路径信息可由1比特来表示。
第一反量化方案2513可包括用于粗略地对LPC参数进行反量化的元件和用于精确地对LPC参数进行反量化的元件。
第二反量化方案2515可包括关于LPC参数的用于执行块约束网格编码反量化的元件和帧间预测元件。
第一反量化方案2513和第二反量化方案2515不限于当前示例性实施例,并可通过使用根据与解码设备相应的编码设备的上述示例性实施例的第一量化方案和第二量化方案的逆处理来实现。
不论量化方法是开环类型还是闭环类型,都可应用LPC系数反量化器2500的配置。
图26是根据示例性实施例的图25的LPC系数反量化器2500中的第一反量化方案2513和第二反量化方案2515的框图。
参照图26,第一反量化方案1610可包括多级矢量量化器(MSVQ)2611和格矢量量化器(LVQ)2613,MSVQ 2611用于通过使用编码端(未示出)的MSVQ(未示出)产生的第一码本索引来对包括在LPC参数中的量化的LSF系数进行反量化,LVQ 2613用于通过使用编码端的LVQ(未示出)产生的第二码本索引来对包括在LPC参数中的LSF量化误差进行反量化。通过将由MSVQ 2611获得的反量化的LSF系数与由LVQ 2613获得的反量化的LSF量化误差相加并随后将作为预定的DC值的均值与所述相加结果相加,来产生最终的解码的LSF系数。
第二反量化方案2630可包括块约束网格编码量化器(BC-TCQ)2631、帧内预测器2633和帧间预测器2635,其中,BC-TCQ 2631用于通过使用由编码端的BC-TCQ(未示出)产生的第三码本索引来对包括在LPC参数中的LSF预测误差进行反量化。反量化处理从LSF矢量中的最低的矢量开始,帧内预测器2633通过使用解码的矢量产生用于随后的矢量元素的预测值。帧间预测器2635通过使用在先前帧中解码的LSF系数通过帧间预测来产生预测值。通过将由BC-TCQ 2631和帧内预测器2633获得的LSF系数与帧间预测器2635产生的预测值相加并随后将作为预定的DC值的均值与所述相加结果相加,来产生最终的解码的LSF系数。
第一反量化方案2610和第二反量化方案2630不限于当前示例性实施例,并可通过使用根据与解码设备相应的编码设备的上述示例性实施例的第一量化方案和第二量化方案的逆处理来实现。
图27是示出根据示例性实施例的量化方法的流程图。
参照图27,在操作2710,在接收的声音的量化之前,基于预定的标准确定接收的声音的量化路径。在示例性实施例中,可确定不使用帧间预测的第一路径和使用帧间预测的第二路径之一。
在操作2730,检查从第一路径和第二路径中确定的量化路径。
如果作为在操作2730的检查的结果,将第一路径确定为量化路径,则在操作2750使用第一量化方案来对接收的声音进行量化。
另一方面,如果作为在操作2730的检查的结果,将第二路径确定为量化路径,则在操作2770使用第二量化方案对接收的声音进行量化。
可通过上述各种示例性实施例来执行在操作2710的量化路径确定处理。可通过使用上述各种示例性实施例并分别使用第一量化方案和第二量化方案来执行在操作2750和操作2770的量化处理。
尽管在当前示例性实施例中将第一路径和第二路径设置为能够选择的量化路径,但可设置包括第一路径和第二路径的多个路径,并且图27的流程图可与多个设置的路径相应地改变。
图28是示出根据示例性实施例的反量化方法的流程图。
参照图28,在操作2810,对包括在比特流中的LPC参数进行解码。
在操作2830,检查包括在比特流中的量化路径,并且在操作2850确定检查的量化路径是第一路径还是第二路径。
如果作为在操作2850的确定的结果,量化路径是第一路径,则在操作2870通过使用第一反量化方案对解码的LPC参数进行反量化。
如果作为在操作2850的确定的结果,量化路径是第二路径,则在操作2890通过使用第二反量化方案来对解码的LPC参数进行反量化。
通过分别使用根据与解码设备相应的编码设备的上述各种示例性实施例的第一量化方案和第二量化方案的逆处理,来执行在操作2870和操作2890的反量化处理。
尽管在当前示例性实施例中将第一路径和第二路径设置为检查的量化路径,但可设置包括第一路径和第二路径的多个路径,并且可与多个设置的路径相应地改变图28的流程图。
可对图27和图28的方法进行编程并可由至少一个处理装置执行图27和图28的方法。另外,可以以帧为单位或以子帧为单位执行示例性实施例。
图29是根据示例性实施例的包括编码模块的电子装置的框图。
参照图29,电子装置2900可包括通信单元2910和编码模块2930。另外,电子装置2900还可包括用于根据声音比特流的使用存储作为编码的结果而获得的声音比特流的存储单元2950。另外,电子装置2900还可包括麦克风2970。也就是说,可可选地包括存储单元2950和麦克风2970。电子装置2900还可包括任意的解码模块(未示出),例如,用于执行通用的解码功能的解码模块或根据示例性实施例的解码模块。可通过至少一个处理器(例如,中央处理单元(CPU))(未示出)将编码模块2930与电子装置2900所包括的其他组件(未示出)作为一体而集成地实现。
通信单元2910可接收从外部提供的声音或编码的比特流中的至少一个,或发送作为由编码模块2930编码的结果而获得的解码的声音或声音比特流中的至少一个。
通信单元2910被构造为经由如下的无线网络将数据发送到外部电子装置并从外部电子装置接收数据:无线互联网、无线内联网、无线电话网络、无线局域网(WLAN)、Wi-Fi、Wi-Fi直连(WFD)、第三代(3G)、第四代(4G)、蓝牙、红外数据协会(IrDA)、无线射频识别(RFID)、超宽带(UWB)、Zigbee、或近场通信(NFC)或有线网络(诸如,有线电话网络或有线互联网)。
编码模块2930可通过以下步骤来产生比特流:在声音的量化之前,基于预定的标准,将包括不使用帧间预测的第一路径和使用帧间预测第二路径的多个路径之一选作通过通信单元2910或麦克风2970提供的声音的量化路径;通过根据选择的量化路径使用第一量化方案和第二量化方案之一来对声音进行量化;对量化的声音进行编码。
第一量化方案可包括第一量化器(未示出)和第二量化器(未示出),第一量化器用于粗略地对声音进行量化,第二量化器用于精确地对声音和第一量化器的输出信号之间的量化误差信号进行量化。第一量化方案可包括MSVQ(未示出)和LVQ(未示出),MSVQ用于对声音进行量化,LVQ用于对声音和MSVQ的输出信号之间的量化误差信号进行量化。另外,第一量化方案可通过上述各种示例性实施例之一来实现。
第二量化方案可包括用于执行声音的帧间预测的帧间预测器(未示出)、用于执行预测误差的帧内预测的帧内预测器(未示出)和用于对预测误差进行量化的BC-TCQ(未示出)。同样,第二量化方案可通过上述各种示例性实施例之一来实现。
存储单元2950可存储由编码模块2930产生的编码的比特流。存储单元2950可存储操作电子装置2900必需的各种程序。
麦克风2970可提供编码模块2930的外部的用户的声音。
图30是根据示例性实施例的包括解码模块的电子装置的框图。
参照图30,电子装置3000可包括通信单元3010和解码模块3030。另外,电子装置3000还可包括用于根据恢复的声音的使用存储作为解码的结果而获得的恢复的声音的存储单元3050。另外,电子装置300还可包括扬声器3070。也就是说,可可选地包括存储单元3050和扬声器3070。电子装置3000还可包括任意的编码模块(未示出),例如,用于执行通用编码功能的编码模块或根据本发明的示例性实施例的编码模块。可通过至少一个处理器(例如,中央处理单元(CPU))(未示出),将解码模块3030与电子装置3000所包括的其他组件(未示出)作为一体而集成地实现。
通信单元3010可接收从外部提供的声音或编码的比特流中的至少一个,或发送作为解码模块3030的解码的结果而获得的恢复的声音或作为编码的结果而获得的声音比特流中的至少一个。通信单元3010可被实现为基本上与图29的通信单元2910相同。
解码模块3030可通过以下步骤产生恢复的声音:对包括在通过通信单元3010提供的比特流中的LPC参数进行解码;基于包括在比特流中的路径信息,通过使用不使用帧间预测的第一反量化方案和使用帧间预测的第二反量化方案之一来对解码的LPC参数进行反量化;在解码的编码模式下,对反量化的LPC参数进行解码。当编码模式包括在比特流中时,在解码的编码模式下,解码模块3030可对反量化的LPC参数进行解码。
第一反量化方案可包括用于粗略地对LPC参数进行反量化的第一反量化器(未示出)和用于精确地对LPC参数进行反量化的第二反量化器(未示出)。第一反量化方案可包括用于通过使用第一码本索引对LPC参数进行反量化的MSVQ(未示出)和用于通过使用第二码本索引对LPC参数进行反量化的LVQ(未示出)。另外,由于第一反量化方案执行图29中描述的第一量化方案的逆操作,第一反量化方案可通过根据与解码设备相应的编码设备的与第一量化方案相应的上述各种示例性实施例的逆处理之一来实现。
第二反量化方案可包括用于通过使用第三码本索引来对LPC参数进行反量化的BC-TCQ(未示出)、帧内预测器(未示出)和帧间预测器(未示出)。同样,由于第二反量化方案执行图29中描述的第二量化方案的逆处理,因此第二反量化方案可通过根据与解码设备相应的编码设备的与第二量化方案相应的上述各种示例性实施例的逆处理之一来实现。
存储单元3050可存储由解码模块3030产生的恢复的声音。存储单元3050可存储用于操作电子装置3000的各种程序。
扬声器3070可将由解码模块3030产生的恢复的声音输出到外部。
图31是根据示例性实施例的包括编码模块和解码模块的电子装置的框图。
图31中示出的电子装置可包括通信单元3110、编码模块3120和解码模块3130。另外,电子装置3100还可包括:存储单元3140,用于根据声音比特流或恢复的声音的使用存储作为编码的结果而获得的声音比特流或作为解码的结果而获得的恢复的声音。另外,电子装置3100还可包括麦克风3150和/或扬声器3160。编码模块3120和解码模块3130可通过与其他组件(未示出)集成地作为一体被包括在电子装置3100中通过至少一个处理器(例如,中央处理单元(CPU))(未示出)来实现。
由于图31中示出的电子装置3100的组件与图29中示出的电子装置2900的组件或图30中示出的点装置3000的组件相应,因此省略其详细描述。
图29、图30和图31中示出的电子装置2900、3000和3100中的每个可包括仅语音通信终端(诸如,电话或移动电话)、仅广播或音乐装置(诸如,TV或MP3播放器)或仅语音通信终端和仅广播或音乐装置的混合型终端装置,但不限于此。另外,电子装置2900、3000和3100中的每个可用作客户机、服务器或在客户机和服务器之间转移的换能器。
尽管未示出,但当电子装置2900、3000或3100是例如移动电话时,电子装置2900、3000或3100还可包括用户输入单元(诸如,键区)、用于显示由用户界面或移动电话处理的信息的显示单元、用于控制移动电话的功能的处理器(例如,中央处理单元(CPU))。另外,移动电话还可包括具有图像拾取功能的相机单元和用于执行移动电话的功能的至少一个组件。
尽管未示出,但当电子装置2900、3000或3100是例如TV时,电子装置2900、3000或3100还可包括用户输入单元(诸如,键区)、用于显示接收的广播信息的显示单元和用于控制TV的所有功能的处理器(例如,中央处理单元(CPU))。另外,TV还可包括用于执行TV的功能的至少一个组件。
在第7630890号美国专利中详细地公开了与LPC系数的量化/反量化相关联地实施的与BC-TCQ相关的内容(块约束TCQ方法、和用于在语音编码系统中采用块约束TCQ方法来对LSF系数进行量化的方法和设备)。在第20070233473号美国专利申请中详细地公开了与LVA方法相关联的内容(多路径网格编码量化方法和使用该方法的多路径网格编码量化器)。第7630890号美国专利和第20070233473号美国专利申请的内容通过引用合并于此。
根据示例性实施例的量化方法、反量化方法、编码方法和解码方法可被编写为计算机程序,并可被实现在使用计算机可读记录介质执行所述程序的通用数字计算机中。另外,在示例性实施例中可用的数据结构、程序命令或数据文件可以以各种方式被记录在计算机可读记录介质中。计算机可读记录介质是可存储可随后由计算机系统读取的数据的任何数据存储装置。计算机可读记录介质包括:磁记录介质(诸如,硬盘、软盘和磁带)、光学记录介质(诸如,CD-ROM和DVD)、磁光记录介质(诸如,磁光盘)和特别地被配置为存储和执行程序命令的硬件装置(诸如,ROM、RAM和闪存)。计算机可读记录介质还可以是用于发送程序命令和数据结构被指定的信号的传输介质。程序命令的示例可包括由编译器创建的机器语言代码和由计算机通过解释器能够执行的高级语言代码。
虽然已参照本发明构思的附图具体示出和描述了本发明构思,但本领域的普通技术人员将理解,在不脱离由权利要求限定的本发明构思的精神和范围的情况下,可在形式和细节上进行各种改变。
Claims (8)
1.一种用于语音信号或音频信号的解码设备,所述设备包括:
选择器,被配置为基于来自比特流的参数选择第一解码模块和第二解码模块中的一个解码模块,
第一解码模块,被配置为在不使用帧间预测的情况下对比特流进行解码,
第二解码模块,被配置为在使用帧间预测的情况下对比特流进行解码,
其中,第一解码模块包括:网格结构的反量化器、帧内预测器和矢量反量化器,
其中,第一解码模块和第二解码模块两者被配置为通过使用每帧相同数量的比特来执行解码,
其中,第一解码模块和第二解码模块两者被配置为执行对比特流的解码,其中,所述比特流是基于多个编码模式之中的池音编码模式被获得的。
2.如权利要求1所述的设备,其中,第二解码模块包括:网格结构的反量化器、帧内预测器、帧间预测器和矢量反量化器。
3.一种用于语音信号或音频信号的解码方法,所述解码方法包括:
基于来自比特流的参数选择第一解码模块和第二解码模块中的一个解码模块;
当第一解码模块被选择时,在不使用帧间预测的情况下对比特流进行解码,
当第二解码模块被选择时,在使用帧间预测的情况下对比特流进行解码,
其中,第一解码模块包括:网格结构的反量化器、帧内预测器和矢量反量化器,
其中,第一解码模块和第二解码模块两者被配置为通过使用每帧相同数量的比特来执行解码,
其中,第一解码模块和第二解码模块两者被配置为执行对比特流的解码,其中,所述比特流是基于多个编码模式之中的池音编码模式被获得的。
4.如权利要求3所述的解码方法,其中,第二解码模块包括:网格结构的反量化器、帧内预测器、帧间预测器和矢量反量化器。
5.一种用于语音信号或音频信号的量化设备,所述量化设备包括:
处理器,被配置为:
基于预测误差,以开环方式在多个量化模块之中选择一个量化模块;
基于选择的量化模块,在不使用帧间预测的情况下对输入信号进行量化,其中,所述输入信号包括语音信号和音频信号中的至少一个信号;以及
基于选择的量化模块,在使用帧间预测的情况下对所述输入信号进行量化,
其中,输入信号的编码模式是通用编码模式或清音编码模式。
6.如权利要求5所述的量化设备,其中,选择的量化模块包括:网格结构的量化器和帧内预测器。
7.如权利要求5所述的量化设备,其中,选择的量化模块包括:网格结构的量化器、帧内预测器和帧间预测器。
8.如权利要求5所述的量化设备,其中,选择的量化模块包括:网格结构的量化器和矢量量化器。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161477797P | 2011-04-21 | 2011-04-21 | |
US61/477,797 | 2011-04-21 | ||
US201161481874P | 2011-05-03 | 2011-05-03 | |
US61/481,874 | 2011-05-03 | ||
CN201280031031.2A CN103620676B (zh) | 2011-04-21 | 2012-04-23 | 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280031031.2A Division CN103620676B (zh) | 2011-04-21 | 2012-04-23 | 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105719654A CN105719654A (zh) | 2016-06-29 |
CN105719654B true CN105719654B (zh) | 2019-11-05 |
Family
ID=47042087
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280031031.2A Active CN103620676B (zh) | 2011-04-21 | 2012-04-23 | 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质 |
CN201610086079.3A Active CN105719654B (zh) | 2011-04-21 | 2012-04-23 | 用于语音信号或音频信号的解码设备和方法及量化设备 |
CN201610086054.3A Active CN105513602B (zh) | 2011-04-21 | 2012-04-23 | 用于语音信号或音频信号的解码设备和方法及量化设备 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280031031.2A Active CN103620676B (zh) | 2011-04-21 | 2012-04-23 | 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610086054.3A Active CN105513602B (zh) | 2011-04-21 | 2012-04-23 | 用于语音信号或音频信号的解码设备和方法及量化设备 |
Country Status (15)
Country | Link |
---|---|
US (3) | US8977544B2 (zh) |
EP (2) | EP3537438A1 (zh) |
JP (2) | JP6178305B2 (zh) |
KR (2) | KR101863688B1 (zh) |
CN (3) | CN103620676B (zh) |
AU (3) | AU2012246799B2 (zh) |
BR (3) | BR122020023350B1 (zh) |
CA (1) | CA2833874C (zh) |
MX (2) | MX2013012300A (zh) |
MY (1) | MY185091A (zh) |
RU (3) | RU2619710C2 (zh) |
SG (1) | SG194579A1 (zh) |
TW (2) | TWI672691B (zh) |
WO (1) | WO2012144878A2 (zh) |
ZA (1) | ZA201308709B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101747917B1 (ko) | 2010-10-18 | 2017-06-15 | 삼성전자주식회사 | 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법 |
CA2833874C (en) | 2011-04-21 | 2019-11-05 | Ho-Sang Sung | Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium |
WO2012144877A2 (en) * | 2011-04-21 | 2012-10-26 | Samsung Electronics Co., Ltd. | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor |
AU2014211539B2 (en) | 2013-01-29 | 2017-04-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Low-complexity tonality-adaptive audio signal quantization |
CN110634495B (zh) | 2013-09-16 | 2023-07-07 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
AU2013403224B2 (en) | 2013-10-14 | 2018-10-18 | Microsoft Technology Licensing, Llc | Features of intra block copy prediction mode for video and image coding and decoding |
CN105659602B (zh) | 2013-10-14 | 2019-10-08 | 微软技术许可有限责任公司 | 用于视频和图像编码的帧内块复制预测模式的编码器侧选项 |
EP3483881A1 (en) * | 2013-11-13 | 2019-05-15 | Fraunhofer Gesellschaft zur Förderung der Angewand | Encoder for encoding an audio signal, audio transmission system and method for determining correction values |
WO2015081699A1 (zh) | 2013-12-02 | 2015-06-11 | 华为技术有限公司 | 一种编码方法及装置 |
WO2015100726A1 (en) | 2014-01-03 | 2015-07-09 | Microsoft Corporation | Block vector prediction in video and image coding/decoding |
EP3621074B1 (en) * | 2014-01-15 | 2023-07-12 | Samsung Electronics Co., Ltd. | Weight function determination device and method for quantizing linear prediction coding coefficient |
US11284103B2 (en) | 2014-01-17 | 2022-03-22 | Microsoft Technology Licensing, Llc | Intra block copy prediction with asymmetric partitions and encoder-side search patterns, search ranges and approaches to partitioning |
AU2014385769B2 (en) * | 2014-03-04 | 2018-12-06 | Microsoft Technology Licensing, Llc | Block flipping and skip mode in intra block copy prediction |
KR20240010550A (ko) | 2014-03-28 | 2024-01-23 | 삼성전자주식회사 | 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치 |
KR101972087B1 (ko) * | 2014-04-24 | 2019-04-24 | 니폰 덴신 덴와 가부시끼가이샤 | 주파수 영역 파라미터열 생성 방법, 부호화 방법, 복호 방법, 주파수 영역 파라미터열 생성 장치, 부호화 장치, 복호 장치, 프로그램 및 기록 매체 |
KR102400540B1 (ko) * | 2014-05-07 | 2022-05-20 | 삼성전자주식회사 | 선형예측계수 양자화방법 및 장치와 역양자화 방법 및 장치 |
US9959876B2 (en) * | 2014-05-16 | 2018-05-01 | Qualcomm Incorporated | Closed loop quantization of higher order ambisonic coefficients |
KR102311815B1 (ko) | 2014-06-19 | 2021-10-13 | 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 | 통합된 인트라 블록 카피 및 인터 예측 모드 |
CN111968655B (zh) | 2014-07-28 | 2023-11-10 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
MX365958B (es) * | 2014-08-28 | 2019-06-20 | Nokia Technologies Oy | Cuantificación de parámetros de audio. |
JP2017535145A (ja) | 2014-09-30 | 2017-11-24 | マイクロソフト テクノロジー ライセンシング,エルエルシー | 波面並列処理が可能にされた場合のピクチャ内予測モードに関する規則 |
KR20180026528A (ko) * | 2015-07-06 | 2018-03-12 | 노키아 테크놀로지스 오와이 | 오디오 신호 디코더를 위한 비트 에러 검출기 |
CN109690673B (zh) * | 2017-01-20 | 2021-06-08 | 华为技术有限公司 | 量化器与量化方法 |
CN109473116B (zh) * | 2018-12-12 | 2021-07-20 | 思必驰科技股份有限公司 | 语音编码方法、语音解码方法及装置 |
TWI723545B (zh) | 2019-09-17 | 2021-04-01 | 宏碁股份有限公司 | 語音處理方法及其裝置 |
CN114727109B (zh) * | 2021-01-05 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 多媒体的量化处理方法、装置及编码、解码设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1450352A2 (en) * | 2003-02-19 | 2004-08-25 | Samsung Electronics Co., Ltd. | Block-constrained TCQ method, and method and apparatus for quantizing LSF parameters employing the same in a speech coding system |
CN101091317A (zh) * | 2005-01-12 | 2007-12-19 | 日本电信电话株式会社 | 长期预测编码方法、长期预测解码方法、装置、其程序及记录介质 |
TW201011738A (en) * | 2008-07-11 | 2010-03-16 | Fraunhofer Ges Forschung | Low bitrate audio encoding/decoding scheme having cascaded switches |
Family Cites Families (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62231569A (ja) | 1986-03-31 | 1987-10-12 | Fuji Photo Film Co Ltd | 予測誤差の量子化方法 |
JPH0863198A (ja) * | 1994-08-22 | 1996-03-08 | Nec Corp | ベクトル量子化器 |
JPH08190764A (ja) | 1995-01-05 | 1996-07-23 | Sony Corp | ディジタル信号処理方法、ディジタル信号処理装置及び記録媒体 |
FR2729244B1 (fr) * | 1995-01-06 | 1997-03-28 | Matra Communication | Procede de codage de parole a analyse par synthese |
JPH08211900A (ja) * | 1995-02-01 | 1996-08-20 | Hitachi Maxell Ltd | ディジタル音声圧縮方式 |
US5699485A (en) * | 1995-06-07 | 1997-12-16 | Lucent Technologies Inc. | Pitch delay modification during frame erasures |
JP2891193B2 (ja) * | 1996-08-16 | 1999-05-17 | 日本電気株式会社 | 広帯域音声スペクトル係数量子化装置 |
US6889185B1 (en) | 1997-08-28 | 2005-05-03 | Texas Instruments Incorporated | Quantization of linear prediction coefficients using perceptual weighting |
US5966688A (en) * | 1997-10-28 | 1999-10-12 | Hughes Electronics Corporation | Speech mode based multi-stage vector quantizer |
AU6725500A (en) | 1999-08-23 | 2001-03-19 | Matsushita Electric Industrial Co., Ltd. | Voice encoder and voice encoding method |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US6581032B1 (en) * | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
WO2001052241A1 (en) | 2000-01-11 | 2001-07-19 | Matsushita Electric Industrial Co., Ltd. | Multi-mode voice encoding device and decoding device |
JP3453116B2 (ja) * | 2000-09-26 | 2003-10-06 | パナソニック モバイルコミュニケーションズ株式会社 | 音声符号化方法及び装置 |
US7031926B2 (en) | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
JP2002202799A (ja) * | 2000-10-30 | 2002-07-19 | Fujitsu Ltd | 音声符号変換装置 |
US6829579B2 (en) * | 2002-01-08 | 2004-12-07 | Dilithium Networks, Inc. | Transcoding method and system between CELP-based speech codes |
JP3557416B2 (ja) * | 2002-04-12 | 2004-08-25 | 松下電器産業株式会社 | Lspパラメータ符号化復号化装置及び方法 |
WO2003089892A1 (en) | 2002-04-22 | 2003-10-30 | Nokia Corporation | Generating lsf vectors |
US7167568B2 (en) * | 2002-05-02 | 2007-01-23 | Microsoft Corporation | Microphone array signal enhancement |
CA2388358A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for multi-rate lattice vector quantization |
US8090577B2 (en) * | 2002-08-08 | 2012-01-03 | Qualcomm Incorported | Bandwidth-adaptive quantization |
JP4292767B2 (ja) | 2002-09-03 | 2009-07-08 | ソニー株式会社 | データレート変換方法及びデータレート変換装置 |
CN1186765C (zh) * | 2002-12-19 | 2005-01-26 | 北京工业大学 | 2.3kb/s谐波激励线性预测语音编码方法 |
CA2415105A1 (en) * | 2002-12-24 | 2004-06-24 | Voiceage Corporation | A method and device for robust predictive vector quantization of linear prediction parameters in variable bit rate speech coding |
US7613606B2 (en) * | 2003-10-02 | 2009-11-03 | Nokia Corporation | Speech codecs |
JP4369857B2 (ja) | 2003-12-19 | 2009-11-25 | パナソニック株式会社 | 画像符号化装置および画像符号化方法 |
EP1755109B1 (en) * | 2004-04-27 | 2012-08-15 | Panasonic Corporation | Scalable encoding and decoding apparatuses and methods |
DE602005015426D1 (de) | 2005-05-04 | 2009-08-27 | Harman Becker Automotive Sys | System und Verfahren zur Intensivierung von Audiosignalen |
CN101395661B (zh) | 2006-03-07 | 2013-02-06 | 艾利森电话股份有限公司 | 音频编码和解码的方法和设备 |
GB2436191B (en) * | 2006-03-14 | 2008-06-25 | Motorola Inc | Communication Unit, Intergrated Circuit And Method Therefor |
RU2395174C1 (ru) * | 2006-03-30 | 2010-07-20 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ и устройство для декодирования/кодирования сигнала видео |
KR100728056B1 (ko) * | 2006-04-04 | 2007-06-13 | 삼성전자주식회사 | 다중 경로 트랠리스 부호화 양자화 방법 및 이를 이용한다중 경로 트랠리스 부호화 양자화 장치 |
WO2007132750A1 (ja) * | 2006-05-12 | 2007-11-22 | Panasonic Corporation | Lspベクトル量子化装置、lspベクトル逆量子化装置、およびこれらの方法 |
TWI375469B (en) | 2006-08-25 | 2012-10-21 | Lg Electronics Inc | A method and apparatus for decoding/encoding a video signal |
US7813922B2 (en) * | 2007-01-30 | 2010-10-12 | Nokia Corporation | Audio quantization |
CA2679767C (en) | 2007-03-14 | 2013-06-25 | Nippon Telegraph And Telephone Corporation | Encoding bit-rate control method and apparatus, program therefor, and storage medium which stores the program |
KR100903110B1 (ko) | 2007-04-13 | 2009-06-16 | 한국전자통신연구원 | 트렐리스 부호 양자화 알고리듬을 이용한 광대역 음성 부호화기용 lsf 계수 양자화 장치 및 방법 |
WO2009044346A1 (en) * | 2007-10-05 | 2009-04-09 | Nokia Corporation | System and method for combining adaptive golomb coding with fixed rate quantization |
US20090136052A1 (en) | 2007-11-27 | 2009-05-28 | David Clark Company Incorporated | Active Noise Cancellation Using a Predictive Approach |
US20090245351A1 (en) * | 2008-03-28 | 2009-10-01 | Kabushiki Kaisha Toshiba | Moving picture decoding apparatus and moving picture decoding method |
US20090319261A1 (en) | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
ES2683077T3 (es) | 2008-07-11 | 2018-09-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada |
WO2010040522A2 (en) * | 2008-10-08 | 2010-04-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Multi-resolution switched audio encoding/decoding scheme |
ES2441069T3 (es) | 2009-10-08 | 2014-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, procedimiento y programa de computación que usan un modelado de ruido en base a linealidad-predicción-codificación |
PL2473995T3 (pl) * | 2009-10-20 | 2015-06-30 | Fraunhofer Ges Forschung | Koder sygnału audio, dekoder sygnału audio, sposób dostarczania zakodowanej reprezentacji treści audio, sposób dostarczania dekodowanej reprezentacji treści audio oraz program komputerowy do wykorzystania w zastosowaniach z małym opóźnieniem |
WO2012144877A2 (en) * | 2011-04-21 | 2012-10-26 | Samsung Electronics Co., Ltd. | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor |
CA2833874C (en) * | 2011-04-21 | 2019-11-05 | Ho-Sang Sung | Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium |
JP2017137439A (ja) * | 2016-02-04 | 2017-08-10 | 株式会社双葉紙器 | セラミドとセラミド誘導体との製造方法 |
-
2012
- 2012-04-23 CA CA2833874A patent/CA2833874C/en active Active
- 2012-04-23 KR KR1020120042183A patent/KR101863688B1/ko active IP Right Grant
- 2012-04-23 MX MX2013012300A patent/MX2013012300A/es active IP Right Grant
- 2012-04-23 CN CN201280031031.2A patent/CN103620676B/zh active Active
- 2012-04-23 CN CN201610086079.3A patent/CN105719654B/zh active Active
- 2012-04-23 SG SG2013078548A patent/SG194579A1/en unknown
- 2012-04-23 CN CN201610086054.3A patent/CN105513602B/zh active Active
- 2012-04-23 MY MYPI2013701989A patent/MY185091A/en unknown
- 2012-04-23 WO PCT/KR2012/003128 patent/WO2012144878A2/en active Application Filing
- 2012-04-23 EP EP19170516.9A patent/EP3537438A1/en not_active Withdrawn
- 2012-04-23 TW TW106118018A patent/TWI672691B/zh active
- 2012-04-23 TW TW101114409A patent/TWI591621B/zh active
- 2012-04-23 EP EP12774337.5A patent/EP2700173A4/en not_active Ceased
- 2012-04-23 BR BR122020023350-8A patent/BR122020023350B1/pt active IP Right Grant
- 2012-04-23 RU RU2013151673A patent/RU2619710C2/ru active
- 2012-04-23 JP JP2014506341A patent/JP6178305B2/ja active Active
- 2012-04-23 BR BR112013027093-4A patent/BR112013027093B1/pt active IP Right Grant
- 2012-04-23 RU RU2017115073A patent/RU2647652C1/ru active
- 2012-04-23 US US13/453,386 patent/US8977544B2/en active Active
- 2012-04-23 AU AU2012246799A patent/AU2012246799B2/en active Active
- 2012-04-23 BR BR122020023363-0A patent/BR122020023363B1/pt active IP Right Grant
- 2012-04-23 MX MX2015005084A patent/MX354812B/es unknown
-
2013
- 2013-11-20 ZA ZA2013/08709A patent/ZA201308709B/en unknown
-
2015
- 2015-02-18 US US14/624,948 patent/US9626980B2/en active Active
-
2016
- 2016-05-31 AU AU2016203627A patent/AU2016203627B2/en active Active
-
2017
- 2017-04-14 US US15/488,059 patent/US10229692B2/en active Active
- 2017-07-13 JP JP2017137448A patent/JP2017203997A/ja active Pending
- 2017-11-29 AU AU2017268591A patent/AU2017268591B2/en active Active
-
2018
- 2018-02-19 RU RU2018106074A patent/RU2675044C1/ru active
- 2018-05-28 KR KR1020180060688A patent/KR101997038B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1450352A2 (en) * | 2003-02-19 | 2004-08-25 | Samsung Electronics Co., Ltd. | Block-constrained TCQ method, and method and apparatus for quantizing LSF parameters employing the same in a speech coding system |
CN101091317A (zh) * | 2005-01-12 | 2007-12-19 | 日本电信电话株式会社 | 长期预测编码方法、长期预测解码方法、装置、其程序及记录介质 |
TW201011738A (en) * | 2008-07-11 | 2010-03-16 | Fraunhofer Ges Forschung | Low bitrate audio encoding/decoding scheme having cascaded switches |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105719654B (zh) | 用于语音信号或音频信号的解码设备和方法及量化设备 | |
CN105336337B (zh) | 针对语音信号或音频信号的量化方法以及解码方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |