CN105745705B - 编码和解码音频信号的编码器、解码器及相关方法 - Google Patents
编码和解码音频信号的编码器、解码器及相关方法 Download PDFInfo
- Publication number
- CN105745705B CN105745705B CN201480057458.9A CN201480057458A CN105745705B CN 105745705 B CN105745705 B CN 105745705B CN 201480057458 A CN201480057458 A CN 201480057458A CN 105745705 B CN105745705 B CN 105745705B
- Authority
- CN
- China
- Prior art keywords
- signal
- noise
- gain parameter
- information
- shaped
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 91
- 238000000034 method Methods 0.000 title claims description 56
- 238000007493 shaping process Methods 0.000 claims abstract description 100
- 230000003595 spectral effect Effects 0.000 claims abstract description 59
- 230000005284 excitation Effects 0.000 claims description 74
- 238000001228 spectrum Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 6
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 34
- 230000015572 biosynthetic process Effects 0.000 description 11
- 238000003786 synthesis reaction Methods 0.000 description 11
- 230000003044 adaptive effect Effects 0.000 description 10
- 238000013139 quantization Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000011524 similarity measure Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 206010015535 Euphoric mood Diseases 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002743 euphoric effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0016—Codebook for LPC parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
根据本发明的方面,一种用于编码音频信号的编码器包括用于从音频信号的帧得到预测系数和残差信号的分析器。编码器包括:共振峰信息计算器,用于从预测系数计算语音相关的频谱整形信息;增益参数计算器,用于从无声残差信号和频谱整形信息计算增益参数;和比特流形成器,用于基于与有声信号帧相关的信息、增益参数或经量化的增益参数和预测系数形成输出信号。
Description
技术领域
本发明涉及用于编码音频信号(特别是语音相关音频信号)的编码器。本发明也涉及用于解码经编码的音频信号的解码器及方法。本发明还涉及经编码的音频信号及低比特率下的高级语音无声编码。
背景技术
在低比特率下,语音编码可从对无声帧的特殊处置收益,以便维持语音质量同时减少比特率。无声帧可感知地模型化为在频域和时域上都被整形的随机激励。由于波形和激励看起来和听起来几乎与高斯白噪声相同,因此可由经合成地产生的白噪声松弛并替换其波形编码。接着,编码将由编码信号的时域形状及频域形状组成。
图16展示参数无声编码方案的示意性方块图。合成滤波器1202用于模型化声道且由LPC(线性预测编码)参数参数化。可通过对LPC系数进行加权从包括滤波函数A(z)的获得的LPC滤波器获得感知加权滤波器。感知滤波器fw(n)通常具有如下形式的传递函数:
其中w小于1。根据如下方程计算增益参数gn以获得与感知域中的原始能量匹配的经合成的能量:
其中sw(n)及nw(n)分别为感知滤波器fw(n)所滤波的输入信号和所产生的噪声。针对具有大小Ls的每个子帧,计算增益gn。例如,可将音频信号划分成长度为20ms的帧。可将每个帧再划分成子帧,例如再划分成各个长度为5ms的四个子帧。
码激励线性预测(CELP)编码方案广泛用于语音通信且为编码语音的极有效方式。相比参数编码,该编码方案给予较自然的语音质量但其也要求较高速率。CELP通过输送将音频信号合成为线性预测滤波器,其称为LPC合成滤波器,该LPC合成滤波器可包括两个激励的和的形式1/A(z)。一个激励来自称为自适应码本的经解码的过去。另一贡献来自由固定码所填入的革新码本。然而,在低比特率下,革新码本未经充分填入以用于有效地模型化无声的语音或类噪声激励的精细结构。因此,感知质量降低,尤其是接着听起来清脆且不自然的无声帧。
为降低低比特率下的编码伪影,已提出了不同解决方案。在G.718[1]及[2]中,通过增强对应于当前帧的共振峰的频谱区而自适应地且频谱上整形革新码本的码。可直接从编码器侧及解码器侧两处已可用的系数的LPC系数扣除共振峰位置及形状。根据如下方程通过进行简单滤波而进行码c(n)的共振峰增强:
C(n)*fe(n)
其中*表示卷积运算符,其中fe(n)为传递函数的滤波器的脉冲响应:
其中w1及w2为大致强调传递函数Ffe(z)的共振峰结构的两个加权常数。所得的经整形的码继承语音信号的特性,且经合成的信号听起来较清晰。
在CELP中,将频谱倾斜添加至革新码本的解码器也是常见的。通过用以下滤波器对码进行滤波而进行此操作:
Ft(z)=1-βz-1
因子β通常与先前帧的浊音度相关且视情况而定(即,其发生变化)。可从自适应码本的能量贡献估计浊音度。如果先前帧是有声的,则预测当前帧也将是有声的且码应在低频率中具有较多能量(即,应展示负向倾斜)。相反地,对于无声帧所添加的频谱倾斜将是正向的且朝向高频率将分布较多能量。
使用频谱整形以对解码器的输出进行语音增强及噪声减少为惯例。作为后滤波的所谓的共振峰增强由从解码器的LPC参数获得系数的自适应后滤波组成。后滤波器看起来类似于如上文所述的一个(fe(n)),用于整形某些CELP编码器中的革新激励。然而,在那种情况下,后滤波仅应用于解码器程序的结束处而非编码器侧处。
在现有CELP(CELP=(码)-本激励线性预测)中,由LP(线性预测)合成滤波器模型化频率形状,同时可由发送至每个子帧的激励增益近似时域形状,但长期预测(LTP)和革新码本通常并不适于模型化无声帧的类噪声激励。CELP需要相对高的比特率以达到无声语音的良好质量。
有声或无声特性化相关于将语音分段成部分并将其中的每个相关联至语音的不同源模型。源模型在用于CELP语音编码方案时依赖于用于模拟从声门出来的气流的自适应谐波激励和用于模型化由所产生的气流所激励的声道的谐振滤波器。此模型可为类音素声乐提供良好结果,但尤其当声带并未振动(例如,无声音素“S”或“f”)时,其可导致不正确地模型化并非由声门所产生的语音部分。
另一方面,参数语音编码器也被称为声码器,并针对无声帧采用单一源模型。其可到达极低的比特率同时实现并不与由CELP编码方案在高得多的速率下所递送的质量一样自然的所谓的合成质量。
因此,需要增强音频信号。
发明内容
本发明的目标为在低比特率下增加声音质量和/或为实现良好声音质量而减少比特率。
通过根据独立权利求的编码器、解码器、经编码的音频信号及方法实现此目标。
发明人发现,在第一方面,可通过确定语音相关的整形信息,使得可从语音相关的整形信息获得用于放大信号的增益参数信息而增加(增强)与音频信号的无声帧相关的经解码的音频信号的质量。此外,语音相关的整形信息可用于频谱上整形经解码的信号。因此可处理包括较高语音重要性的频率区(例如,低于4kHz的低频率)使得其包括较少误差。
发明人进一步发现,在第二方面,通过从用于经合成的信号的帧或子帧(部分)的确定性码本产生第一激励信号,且通过从用于经合成的信号的帧或子帧的类噪声信号产生第二激励信号,并通过组合第一激励信号和第二激励信号以产生经组合的激励信号,可增加(增强)经合成的信号的声音质量。尤其对于包括具有背景噪声的语音信号的音频信号的部分,可通过添加类噪声信号改良声音质量。可在编码器处确定用于可选地放大第一激励信号的增益参数,且可将与该参数相关的信息和经编码的音频信号一起传输。
可选地或另外,可至少部分利用所合成的音频信号的增强以减少用于编码音频信号的比特率。
根据第一方面的编码器包括用于从音频信号的帧获得预测系数和残差信号的分析器。编码器进一步包括用于从预测系数计算语音相关的频谱整形信息的共振峰信息计算器。编码器进一步包括用于从无声残差信号和频谱整形信息计算增益参数的增益参数计算器,以及用于基于与有声信号帧相关的信息、增益参数或经量化的增益参数和预测系数形成输出信号的比特流形成器。
进一步,第一方面的实施例提供一种经编码的音频信号,包括用于音频信号的有声帧和无声帧的预测系数信息、与有声信号帧相关的进一步信息和用于无声帧的增益参数(或经量化的增益参数)。此情况允许有效地传输语音相关信息以使能经编码的音频信号的解码,以获得具有高音频质量的经合成的(复原)信号。
进一步,第一方面的实施例提供一种用于解码包括预测系数的所接收的信号的解码器。解码器包括共振峰信息计算器、噪声产生器、整形器及合成器。共振峰信息计算器用于从预测系数计算语音相关的频谱整形信息。噪声产生器用于产生解码类噪声信号。整形器用于使用频谱整形信息整形解码类噪声信号(或其放大表示)的频谱以获得经整形的解码类噪声信号。合成器用于从经放大整形的编码类噪声信号和预测系数合成经合成的信号。
进一步,第一方面的实施例涉及一种用于编码音频信号的方法、一种用于解码所接收的音频信号的方法及一种计算机程序。
第二方面的实施例提供一种用于编码音频信号的编码器。编码器包括用于从音频信号的无声帧获得预测系数和残差信号的分析器。编码器进一步包括用于针对无声帧计算用于定义与确定性码本相关的第一激励信号的第一增益参数信息和用于定义与类噪声信号相关的第二激励信号的第二增益参数信息的增益参数计算器。编码器进一步包括用于基于与有声信号帧相关的信息、第一增益参数信息和第二增益参数信息形成输出信号的比特流形成器。
进一步,第二方面的实施例提供一种用于解码包括与预测系数相关的信息的所接收的音频信号的解码器。解码器包括用于从用于经合成的信号的部分的确定性码本产生第一激励信号的第一信号产生器。解码器进一步包括用于从用于经合成的信号的部分的类噪声信号产生第二激励信号的第二信号产生器。解码器进一步包括组合器和合成器,其中组合器用于组合第一激励信号和第二激励信号以产生用于经合成的信号的部分的经组合的激励信号。合成器用于从经组合的激励信号和预测系数合成经合成的信号的部分。
进一步,第二方面的实施例提供一种经编码的音频信号,包括与预测系数相关的信息、与确定性码本相关的信息、与第一增益参数和第二增益参数相关的信息、以及与有声信号帧和无声信号帧相关的信息。
进一步,第二方面的实施例提供用于分别编码和解码音频信号、所接收的音频信号的方法以及一种计算机程序。
附图说明
随后,关于附图描述本发明的较佳实施例,其中:
图1展示根据第一方面的实施例的用于编码音频信号的编码器的示意性方块图;
图2展示根据第一方面的实施例的用于解码所接收的输入信号的解码器的示意性方块图;
图3展示根据第一方面的实施例的用于编码音频信号的又一编码器的示意性方块图;
图4展示根据第一方面的实施例的当相比于图3时包括变化的增益参数计算器的编码器的示意性方块图;
图5展示根据第二方面的实施例的用于计算第一增益参数信息且用于整形码激励信号的增益参数计算器的示意性方块图;
图6展示根据第二方面的实施例的用于编码音频信号且包括图5中所描述的增益参数计算器的编码器的示意性方块图;
图7展示根据第二方面的实施例的当相比于图5时包括用于整形类噪声信号的又一整形器的增益参数计算器的示意性方块图;
图8展示根据第二方面的实施例的用于CELP的无声编码方案的示意性方块图;
图9展示根据第一方面的实施例的参数无声编码的示意性方块图;
图10展示根据第二方面的实施例的用于解码经编码的音频信号的解码器的示意性方块图;
图11a展示根据第一方面的实施例的当相比于图2中所展示的整形器时实施可选结构的整形器的示意性方块图;
图11b展示根据第一方面的实施例的当相比于图2中所展示的整形器时实施又一可选结构的又一整形器的示意性方块图;
图12展示根据第一方面的实施例的用于编码音频信号的方法的示意性流程图;
图13展示根据第一方面的实施例的用于解码包括预测系数和增益参数的所接收的音频信号的方法的示意性流程图;
图14展示根据第二方面的实施例的用于编码音频信号的方法的示意性流程图;及
图15展示根据第二方面的实施例的用于解码所接收的音频信号的方法的示意性流程图。
具体实施方式
即使出现在不同的附图中,以下描述中仍通过相等或等效参考编号表示相等或等效的组件、或具有相等或等效功能的组件。
在以下描述中,阐述多个细节以提供对本发明的实施例的较透彻解释。然而,对于本领域技术人员而言是显而易见的,可无需这些特定细节实践本发明的实施例。在其他情况下,以方块图形式而非详细展示熟知结构和器件以便避免混淆本发明的实施例。另外,除非另外特定指出,否则可将下文中所描述的不同实施例的特征彼此组合。
在下文中,将参考描述修改音频信号。可通过放大和/或衰减音频信号的部分而修改音频信号。音频信号的部分可为(例如)时域中的音频信号序列和/或其在频域中的频谱。关于频域,可通过放大或衰减配置于频率处或频率范围中的频谱值而修改频谱。修改音频信号的频谱可包括操作序列,例如先放大和/或衰减第一频率或频率范围且之后放大和/或衰减第二频率或频率范围。频域中的修改可表示为频谱值与增益值和/或衰减值的计算(例如,乘法、除法、求和等)。可依序执行修改,例如首先将频谱值乘以第一乘法值且接着乘以第二乘法值。乘以第二乘法值且接着乘以第一乘法值可接收到相同或几乎相同的结果。又,可首先组合第一乘法值和第二乘法值,且接着就组合乘法值而言将其应用于频谱值同时接收到相同或类似的运算结果。因此,下文所描述的用于形成或修改音频信号的频谱的修改步骤并不限于所描述次序,而是也可以改变次序进行执行同时接收到相同结果和/或效果。
图1展示用于编码音频信号102的编码器100的示意性方块图。编码器100包括帧建立器110,帧建立器110用于基于音频信号102产生帧序列112。序列112包括多个帧,其中音频信号102的每个帧包括时域长度(持续时间)。例如,每个帧可包括10ms、20ms或30ms的长度。
编码器100包括分析器120,分析器120用于从音频信号的帧获得预测系数(LPC=线性预测系数)122和残差信号124。帧建立器110或分析器120用于确定音频信号102在频域中的表示。可选地,音频信号102可已为频域中的表示。
预测系数122可为(例如)线性预测系数。可选地,也可应用非线性预测,使得预测器120用于确定非线性预测系数。线性预测的优势为用于确定预测系数的减少的计算工作。
编码器100包括有声/无声决定器130,有声/无声决定器130用于确定出残差信号124是否是从无声信号音频帧确定的。如果是从有声信号帧确定出残差信号124,则决定器130用于将残差信号提供至有声帧编码器140,如果是从无声音频帧确定出残差信号124,则将残差信号提供至增益参数计算器150。为确定残差信号122是从有声还是无声信号帧确定的,决定器130可使用不同方法,例如残差信号的样本的自动相关。例如,ITU(国际电信联合会)-T(电信标准化部门)标准G.718中提供了用于决定信号帧为有声还是无声的方法。配置于低频率处的大量能量可指示信号的有声部分。可选地,无声信号可导致高频率处的大量能量。
编码器100包括共振峰信息计算器160,共振峰信息计算器160用于从预测系数122计算语音相关的频谱整形信息。
语音相关的频谱整形信息可(例如)通过确定包括比邻域大的能量的经处理的音频帧的频率或频率范围而考虑共振峰信息。频谱整形信息能够将语音的量值频谱分段成共振峰(即,凸块)和非共振峰(即,谷线)频率区。可(例如)通过使用预测系数122的导抗频谱频率(ISF)或线谱频率(LSF)表示获得频谱的共振峰区。实际上,ISF或LSF表示使用预测系数122的合成滤波器所谐振的频率。
将语音相关的频谱整形信息162和无声残差转递至增益参数计算器150,该增益参数计算器150用于从无声残差信号和频谱整形信息162计算增益参数gn。增益参数gn可为标量值或多个标量值,即,增益参数可包括多个值,多个值和待放大或衰减信号频谱的多个频率范围中的频谱值的放大或衰减相关。解码器可用于在解码期间将增益参数gn应用于所接收的经编码的音频信号的信息,使得基于增益参数放大或衰减所接收的经编码的音频信号的部分。增益参数计算器150可用于通过一个或多个数学表达式或带来连续值的确定规则而确定增益参数gn。例如,借助于处理器用数字方式所执行的运算(在具有受限数目的比特的变量中表达结果)可带来经量化的增益可选地,可根据量化方案进一步量化结果获得经量化的增益信息。因此,编码器100可包括量化器170。量化器170可用于将所确定的增益gn量化至由编码器100的数字运算所支持的最接近的数字值。可选地,量化器170可用于将量化函数(线性或非线性)应用于已经数字化的且因此经量化的欣然(fain)因子gn。非线性量化函数可考虑(例如)人类听觉在低声音压力水平下的高度敏感和高压力水平下的较不敏感的对数相依性。
编码器100进一步包括信息获得单元180,信息获得单元180用于从预测系数122获得预测系数相关信息182。预测系数,例如用于激励革新码本的线性预测系数,具有对失真或误差的低鲁棒性。因此,例如,将线性预测系数转换成频谱间频率(ISF)和/或获得线谱对(LSP)并传输到其的相关信息和经编码的音频信号。LSP和/或ISF信息具有对传输媒体中的失真(例如,误差或计算器误差)的较高鲁棒性。信息获得单元180可进一步包括量化器,量化器用于提供关于LSF和/或ISP的经量化的信息。
可选地,信息获得单元可用于转递预测系数122。可选地,可无需信息获得单元180而实现编码器100。可选地,量化器可为增益参数计算器150或比特流形成器190的功能区块,使得比特流形成器190用于接收增益参数gn并基于其获得经量化的增益可选地,当增益参数gn已经量化时,可无需量化器170而实现编码器100。
编码器100包括比特流形成器190,该比特流形成器190用于接收由有声帧编码器140分别提供的经编码的音频信号的与有声帧相关的有声信号、有声信息142,接收经量化的增益和预测系数相关信息182并基于此形成输出信号192。
编码器100可为声音编码装置的部分,例如,固定或移动电话或包括用于传输音频信号的麦克风的装置(例如,计算机、平板PC等)。可(例如)经由移动通信(无线)或经由有线通信(例如,网络信号)传输输出信号192或从其获得的信号。
编码器100的优势在于输出信号192包括从转换成经量化的增益的频谱整形信息所获得的信息。因此,输出信号192的解码可允许实现或获得进一步语音相关信息,且因此解码信号,使得所获得的经解码的信号相对于语音质量的感知水平具有高质量。
图2展示用于解码所接收的输入信号202的解码器200的示意性方块图。所接收的输入信号202可对应于(例如)由编码器100所提供的输出信号192,其中输出信号192可由高水平层编码器编码、经由媒体传输、由高层处所解码的接收装置接收,从而为解码器200产生输入信号202。
解码器200包括用于接收输入信号202的比特流解形成器(解多路复用器;DE-MUX)。比特流解形成器210用于提供预测系数122、经量化的增益和有声信息142。为获得预测系数122,比特流解形成器可包括当相比于信息获得单元180时用于执行反运算的反信息获得单元。可选地,相对于信息获得单元180,解码器200可包括用于执行反运算的反信息获得单元(未展示)。换句话说,预测系数可被解码(即,被复原)。
解码器200包括共振峰信息计算器220,共振峰信息计算器220用于从预测系数122(此由于预测系数122是针对共振峰信息计算器160而描述)计算语音相关的频谱整形信息。共振峰信息计算器220用于提供语音相关的频谱整形信息222。可选地,输入信号202也可包括语音相关的频谱整形信息222,其中传输预测系数或与预测系数相关的信息(经量化的LSF及/或ISF)而非语音相关的频谱整形信息222实现较低比特率的输入信号202。
解码器200包括随机噪声产生器240,随机噪声产生器240用于产生类噪声信号(其可经简化表示为噪声信号)。随机噪声产生器240可用于再生(例如)当度量并储存噪声信号时所获得的噪声信号。可(例如)通过在电阻或另一电组件处产生热噪声并通过将所记录数据储存于存储器上而度量并记录噪声信号。随机噪声产生器240用于提供(类)噪声信号n(n)。
解码器200包括整形器250,整形器250包括整形处理器252和可变放大器254。整形器250用于频谱上整形噪声信号n(n)的频谱。整形处理器252用于接收语音相关的频谱整形信息,且用于(例如)通过将噪声信号n(n)频谱的频谱值乘以频谱整形信息的值而整形噪声信号n(n)的频谱。也可通过将噪声信号n(n)与由频谱整形信息所给出的滤波器卷积而在时域中执行该运算。整形处理器252用于将经整形的噪声信号256、其频谱分别提供至可变放大器254。可变放大器254用于接收增益参数gn,且用于放大经整形的噪声信号256的频谱以获得经放大整形的噪声信号258。放大器可用于将经整形的噪声信号256的频谱值乘以增益参数gn的值。如上文所阐述,可实施整形器250,使得可变放大器254用于接收噪声信号n(n)并将经放大的噪声信号提供至用于整形经放大的噪声信号的整形处理器252。可选地,整形处理器252可用于接收语音相关的频谱整形信息222和增益参数gn,并将两信息一个接一个地依序应用于噪声信号n(n),或(例如)通过乘法或其他计算组合两信息并将经组合的参数应用于噪声信号n(n)。
通过语音相关的频谱整形信息整形的类噪声信号n(n)或其经放大的版本实现经解码的音频信号282,音频信号282具有较多语音相关(自然)的声音质量。此情况允许获得高质量音频信号和/或减少编码器侧处的比特率同时通过减少的范围维持或增强解码器处的输出信号282。
解码器200包括合成器260,该合成器260用于接收预测系数122和经放大整形的噪声信号258,且用于从经放大整形的类噪声信号258和预测系数122合成经合成的信号262。合成器260可包括滤波器,且可用于通过预测系数调适滤波器。合成器可用于通过滤波器滤波经放大整形的类噪声信号258。滤波器可实施为软件或硬件结构,且可包括无限脉冲响应(IIR)或有限脉冲响应(FIR)结构。
经合成的信号对应于解码器200的输出信号282的无声经解码帧。输出信号282包括可转换成连续音频信号的帧序列。
比特流解形成器210用于从输入信号202分离并提供有声信息信号142。解码器200包括用于基于有声信息142提供有声帧的有声帧解码器270。有声帧解码器(有声帧处理器)用于基于有声信息142确定有声信号272。有声信号272可对应于解码器100的有声音频帧和/或有声残余。
解码器200包括组合器280,组合器280用于组合无声的经解码的帧262和有声帧272以获得经解码的音频信号282。
可选地,可在并无放大器的情况下实现整形器250,使得整形器250用于整形类噪声信号n(n)的频谱而不进一步放大所获得的信号。此情况可允许由输入信号222传输减少量的信息,且因此允许输入信号202序列的减少的比特率或较短持续时间。可选地或另外,解码器200可用于仅解码无声帧或通过频谱上整形噪声信号n(n)并通过针对有声和无声帧合成经合成的信号262而处理有声和无声帧。此情况可允许在并无有声帧解码器270和/或组合器280的情况下实施解码器200,且因此使得减少解码器200的复杂性。
输出信号192和/或输入信号202包括与预测系数122相关的信息、用于有声帧和无声帧的信息(例如,指示经处理的帧是有声还是无声的标记)和与有声信号帧相关的进一步信息(例如,经编码的有声信号)。输出信号192和/或输入信号202进一步包括用于无声帧的增益参数或经量化的增益参数,使得可分别基于预测系数122和增益参数gn、解码无声帧。
图3展示用于编码音频信号102的编码器300的示意性方块图。编码器300包括帧建立器110、预测器320。预测器320用于通过将滤波器A(z)应用于由帧建立器110所提供的帧序列112而确定线性预测系数322和残差信号324。编码器300包括决定器130和有声帧编码器140以获得有声信号信息142。编码器300进一步包括共振峰信息计算器160和增益参数计算器350。
增益参数计算器350用于提供如上文所描述的增益参数gn。增益参数计算器350包括用于产生编码类噪声信号350b的随机噪声产生器350a。增益计算器350进一步包括具有整形处理器350d和可变放大器350e的整形器350c。整形处理器350d用于接收语音相关的整形信息162和类噪声信号350b,并如针对整形器250所描述地通过语音相关的频谱整形信息162整形类噪声信号350b的频谱。可变放大器350e用于通过增益参数gn(temp)(其为从控制器350k所接收的暂时增益参数)放大经整形的类噪声信号350f。如针对经放大的类噪声信号258所描述,可变放大器350e进一步用于提供经放大整形的类噪声信号350g。如针对整形器250所描述,当相比于图3时可组合或改变整形和放大类噪声信号的次序。
增益参数计算器350包括用于比较由决定器130所提供的无声残余与经放大整形的类噪声信号350g的比较器350h。比较器用于获得无声残余和经放大整形的类噪声信号350g的相似性度量。例如,比较器350h可用于确定两信号的交叉相关。可选地或另外,比较器350h可用于比较两信号在一些或所有频率区间处的频谱值。比较器350h进一步用于获得比较结果350i。
增益参数计算器350包括用于基于比较结果350i确定增益参数gn(temp)的控制器350k。例如,当比较结果350i指示经放大整形的类噪声信号包括小于无声残余的对应振幅或量值的振幅或量值时,控制器可用于针对经放大的类噪声信号350g的一些或所有频率增加增益参数gn(temp)的一个或多个值。可选地或另外,当比较结果350i指示经放大整形的类噪声信号包括过高量值或振幅(即,经放大整形的类噪声信号过吵)时,控制器可用于减少增益参数gn(temp)的一个或多个值。随机噪声产生器350a、整形器350c、比较器350h和控制器350k可用于实施闭合回路优化以确定增益参数gn(temp)。当(例如)表示为无声残余与经放大整形的类噪声信号350g之间的差异的两信号的相似性度量指示相似性高于临限值时,控制器350k用于提供所确定的增益参数gn。量化器370用于量化增益参数gn以获得经量化的增益参数
随机噪声产生器350a可用于递送类高斯噪声。随机噪声产生器350a可用于通过下限(最小值)(例如,-1)与上限(最大值)(例如,+1)之间的数目n的均匀分布执行(调用)随机产生器。例如,随机噪声产生器350用于三次调用随机产生器。由于用数字方式实施的随机噪声产生器可输出伪随机值,因此使多个或众多伪随机函数相加或迭加可允许获得充分随机分布函数。此程序遵循中央极限定理。随机噪声产生器350a可如由以下伪码所指示地至少两次、三次或三次以上调用随机产生器:
可选地,如针对随机噪声产生器240所描述地,随机噪声产生器350a可从存储器产生类噪声信号。可选地,随机噪声产生器350a可包括(例如)电阻或用于通过执行码或通过度量物理效应(例如热噪声)而产生噪声信号的其他构件。
整形处理器350b可用于通过如上文所阐述的fe(n)滤波类噪声信号350b而将共振峰结构和倾斜添加至类噪声信号350b。可通过基于如下方程,用包括传递函数的滤波器t(n)滤波信号而添加倾斜:
Ft(z)=1-βz-1
其中可从先前子帧的浊音度推论因子β:
其中AC为适应自适应码本的缩写以及IC为革新码本的缩写,
β=0.25·(1+浊音度)。
关于确定规则
参数w1可包括最大1.0的正非零值,较佳为最小0.7且最大0.8且更佳包括0.75的值。参数w2可包括最大1.0的正非零标量值,较佳为最小0.8且最大0.93且更佳包括0.9的值。参数w2较佳为大于w1。
图4展示编码器400的示意性方块图。如针对编码器100和300所描述,编码器400提供有声信号信息142。当相比于编码器300时,编码器400包括变化的增益参数计算器350’。比较器350h’用于比较音频帧112与经合成的信号350l’以获得比较结果350i’。增益参数计算器350’包括合成器350m’,合成器350m’用于基于经放大整形的类噪声信号350g和预测系数122合成经合成的信号350I’。
基本上,增益参数计算器350’通过合成经合成的信号350I’至少部分实施解码器。当相比于包括用于比较无声残余与经放大整形的类噪声信号的比较器350h的编码器300时,编码器400包括用于比较(可能完整的)音频帧与经合成的信号的比较器350h’。在将信号的帧和不仅仅是其参数彼此比较时,此情况可实现较高精确度。较高精确度可要求增加计算工作,此是由于当相比于残差信号和经放大整形的类噪声信息时,音频帧122和经合成的信号350l’可具有较高复杂性,使得比较两信号也是较复杂的。另外,必须计算合成,从而要求由合成器350m’进行计算工作。
增益参数计算器350’包括存储器350n’,存储器350n’用于记录包括编码增益参数gn或其经量化的版本的编码信息。当处理后续音频帧时,此情况允许控制器350k获得所储存的增益值。例如,控制器可用于确定第一(集合的)值,即基于或等于先前音频帧的gn值的增益因子gn(temp)的第一例项。
图5展示根据第二方面的用于计算第一增益参数信息gn的增益参数计算器550的示意性方块图。增益参数计算器550包括用于产生激励信号c(n)的信号产生器550a。信号产生器550a包括用以产生信号c(n)的确定性码本及码本内的索引。即,例如预测系数122的输入信息带来确定性激励信号c(n)。信号产生器550a可用于根据CELP编码方案的革新码本产生激励信号c(n)。可根据先前校准步骤中的所度量的语音数据确定或训练码本。增益参数计算器包括整形器550b,整形器550b用于基于用于码信号c(n)的语音相关的整形信息550c整形码信号c(n)的频谱。可从共振峰信息控制器160获得语音相关的整形信息550c。整形器550b包括整形处理器550d,整形处理器550d用于接收用于整形码信号的整形信息550c。整形器550b进一步包括可变放大器550e,可变放大器550e用于放大经整形的码信号c(n)以获得经放大整形的码信号550f。因此,码增益参数用于定义与确定性码本相关的码信号c(n)。
增益参数计算器550包括噪声产生器350a和放大器550g。噪声产生器350a用于提供(类)噪声信号n(n),放大器550g用于基于噪声增益参数gn放大噪声信号n(n)以获得经放大的噪声信号550h。增益参数计算器包括组合器550i,组合器550i用于组合经放大整形的码信号550f与经放大的噪声信号550h以获得经组合的激励信号550k。组合器550i可用于(例如)频谱上相加或相乘经放大整形的码信号550f和经放大的噪声信号550h的频谱值。可选地,组合器550i可用于卷积两信号550f和550h。
如上文针对整形器350c所描述,可实施整形器550b,使得由可变放大器550e首先放大码信号c(n)且之后由整形处理器550d整形该码信号。可选地,可将用于码信号c(n)的整形信息550c与码增益参数信息gc组合,使得将经组合的信息应用于码信号c(n)。
增益参数计算器550包括比较器550I,比较器550I用于比较经组合的激励信号550k和有声/无声决定器130所获得的无声残差信号。比较器550I可为比较器550h,且用于提供经组合的激励信号550k与无声残差信号的比较结果(即,相似性度量550m)。码增益计算器包括控制器550n,控制器550n用于控制增益参数信息gc和噪声增益参数信息gn。码增益参数gc和噪声增益参数信息gn可包括多个或众多标量值或假想值,其可相关于噪声信号n(n)或从其获得的信号的频率范围或相关于码信号c(n)或从其获得的信号的频谱。
可选地,可在并无整形处理器550d的情况下实施增益参数计算器550。可选地,整形处理器550d可用于整形噪声信号n(n)并将经整形的噪声信号提供至可变放大器550g。
因此,通过控制两增益参数信息gc和gn,可增加经组合的激励信号550k相比于无声残余时的相似性,使得接收码增益参数信息gc和噪声增益参数信息gn的信息的解码器可再生具有良好声音质量的音频信号。控制器550n用于提供包括与码增益参数信息gc和噪声增益参数信息gn相关的信息的输出信号550o。例如,信号550o可包括作为标量值或经量化的值或作为其获得的值(例如,经编码的值)的两增益参数信息gn和gc。
图6展示用于编码音频信号102且包括图5中所描述的增益参数计算器550的编码器600的示意性方块图。可(例如)通过修改编码器100或300获得编码器600。编码器600包括第一量化器170-1和第二量化器170-2。第一量化器170-1用于量化增益参数信息gc以获得经量化的增益参数信息第二量化器170-2用于量化噪声增益参数信息gn以获得经量化的噪声增益参数信息比特流形成器690用于产生输出信号692,输出信号692包括有声信号信息142、LPC相关信息122和两经量化的增益参数信息和当相比于输出信号192时,通过经量化的增益参数信息扩展或升级输出信号692。可选地,量化器170-1和/或170-2可为增益参数计算器550的部分。量化器170-1和/或170-2中的一个可用于获得经量化的增益参数及
共振峰信息计算器160用于从预测系数122计算语音相关频谱整形信息550c。
图7展示当相比于增益参数计算器550时经修改的增益参数计算器550’的示意性方块图。增益参数计算器550’包括图3中所描述的整形器350而非放大器550g。整形器350用于提供经放大整形的噪声信号350g。组合器550i用于组合经放大整形的码信号550f与经放大整形的噪声信号350g以提供经组合的激励信号550k’。共振峰信息计算器160用于提供两语音相关的共振峰信息162和550c。语音相关的共振峰信息550c和162可相等。可选地,两信息550c和162可彼此不同。此情况允许单独模型化(即,整形)码产生信号c(n)及n(n)。
控制器550n可用于针对经处理的音频帧的每个子帧确定增益参数信息gc和gn。控制器可用于基于下文阐述的细节,确定(即,计算)增益参数信息gc和gn。
首先,可对LPC分析期间可用的原始短期预测残差信号(即,对无声残差信号)计算子帧的平均能量。通过如下方程在对数域中平均当前帧的四个子帧的能量:
其中Lsf为样本中子帧的大小。在此状况下,帧划分成4个子帧。接着,可通过使用先前所训练的随机码本在多个比特(例如,三个、四个或五个)上编码平均能量。随机码本可包括根据可由比特数目表示的多个不同值的多个实体(大小),例如8的大小针对3个比特、16的大小针对4个比特或32的大小针对5个比特。可从码本的所选择的码字确定量化增益对于每个子帧,计算两个增益信息gc和gn。可(例如)基于如下方程计算码gc的增益:
其中cw(n)为(例如)选自由感知加权滤波器所滤波的信号产生器550a所包括的固定码本的固定革新。表达式xw(n)对应于CELP编码器中所计算的熟知的感知目标激励。接着,可基于如下方程归一化码增益信息gc以用于获得经归一化的增益gnc:
可(例如)由量化器170-1量化经归一化的增益gnc。可根据线性或对数标度执行量化。对数标度可包括4个、5个或5个以上比特的大小的标度。例如,对数标度包括5个比特的大小。可基于如下方程执行量化:
可计算码的增益以便最小化均方根误差或均方误差(MSE)
其中,Lsf对应于从预测系数122所确定的线谱频率。
可通过基于如下方程最小化误差而在能量不匹配方面确定噪声增益参数信息
变量k为可取决于或基于预测系数变化的衰减因子,其中预测系数可允许确定语音是否包括较少背景噪声部分或甚至并无背景噪声(清晰语音)。可选地,(例如)当音频信号或其帧包括无声帧与非无声帧之间的改变时,也可将信号确定为嘈杂语音。对于清晰语音,可将变量k设定成最小0.85的值、最小0.95的值或甚至1的值,其中能量的高动态在感知上是重要的。对于嘈杂语音,可将变量k设定成最小0.6且最大0.9的值,较佳为最小0.7且最大0.85的值且更佳为0.8的值,其中使噪声激励较保守以用于在无声帧与非无声帧之间避免输出能量波动。可针对这些经量化的增益候选中的每一个计算误差(能量不匹配)。划分成四个子帧的帧可带来四个经量化的增益候选可由控制器输出最小化误差的一个候选。可基于如下方程计算经量化的噪声增益(噪声增益参数信息):
其中根据四个候选,Indexn限于0与3之间。可基于如下方程获得例如激励信号550k或550k’的所得的经组合的激励信号:
其中e(n)为经组合的激励信号550k或550k’。
包括增益参数计算器550或550’的编码器600或经修改的编码器600可允许基于CELP编码方案的无声编码。可基于以下例示性细节修改CELP编码方案以用于处理无声帧:
·并不传输LTP参数,此是由于无声帧中几乎不存在周期性,且所得的编码增益极低。将自适应激励设定为零。
·将保存比特报告至固定码本。可为相同比特率编码较多脉冲,且可接着改良质量。
·在低速率下(即,对于6kbps与12kbps之间的速率),脉冲编码并不充分以适当地模型化无声帧的类噪声目标激励。将高斯码本添加至固定码本以建立最后激励。
图8展示根据第二方面的用于CELP的无声编码方案的示意性方块图。经修改的控制器810包括比较器550I和控制器550n的两个功能。控制器810用于基于合成式分析(即,通过比较经合成的信号与指示为s(n)的输入信号(其为(例如)无声残余))而确定码增益参数信息gc和噪声增益参数信息gn。控制器810包括合成式分析滤波器820,合成式分析滤波器820用于产生用于信号产生器(革新激励)550a的激励且用于提供增益参数信息gc和gn。合成式分析区块810用于比较经组合的激励信号550k’与通过根据所提供参数和信息调适滤波器而内部地合成的信号。
如针对分析器320所描述以获得预测系数122,控制器810包括用于获得预测系数的分析区块。控制器进一步包括合成滤波器840,合成滤波器840用于通过合成滤波器840滤波经组合的激励信号550k,其中通过滤波器系数122调适合成滤波器840。又一比较器可用于比较输入信号s(n)与经合成的信号(例如,经解码的(复原)音频信号)。另外,配置存储器350n,其中控制器810用于将所预测的信号和/或所预测的系数储存于存储器中。信号产生器850用于基于存储器350n中的所储存的预测提供自适应激励信号,从而允许基于形成器经组合的激励信号增强自适应激励。
图9展示根据第一方面的参数无声编码的示意性方块图。经放大整形的噪声信号可为通过所确定的滤波器系数(预测系数)122调适的合成滤波器910的输入信号。可将由合成滤波器所输出的经合成的信号912与可为(例如)音频信号的输入信号s(n)比较。当相比于输入信号s(n)时,经合成的信号912包括误差。通过由可对应于增益参数计算器150或350的分析区块920修改噪声增益参数gn,可减少或最小化误差。通过将经放大整形的噪声信号350f储存于存储器350n中,可执行自适应码本的更新,使得也可基于无声音频帧的改良的编码增强有声音频帧的处理。
图10展示用于解码经编码的音频信号(例如,经编码的音频信号692)的解码器1000的示意性方块图。解码器1000包括信号产生器1010及用于产生类噪声信号1022的噪声产生器1020。所接收的信号1002包括LPC相关信息,其中比特流解形成器1040用于基于预测系数相关信息提供预测系数122。例如,解码器1040用于提取预测系数122。如针对信号产生器558所描述,信号产生器1010用于产生经码激励的激励信号1012。如针对组合器550所描述,解码器1000的组合器1050用于组合经码激励的信号1012与类噪声信号1022以获得经组合的激励信号1052。解码器1000包括合成器1060,该合成器1060具有用于通过预测系数122调适的滤波器,其中合成器用于通过经调适的滤波器滤波经组合的激励信号1052以获得无声经解码帧1062。解码器1000也包括组合无声经解码的帧与有声帧272以获得音频信号序列282的组合器284。当相比于解码器200时,解码器1000包括用于提供经码激励的激励信号1012的第二信号产生器。类噪声激励信号1022可为(例如)图2中所描绘的类噪声信号n(n)。
当相比于经编码的输入信号时,音频信号序列282可具有良好质量和高相似性。
进一步实施例提供了解码器,用于通过整形和/或放大码产生(经码激励)的激励信号1012和/或类噪声信号1022而增强解码器1000。因此,解码器1000可包括分别配置于信号产生器1010与组合器1050之间、噪声产生器1020与组合器1050之间的整形处理器和/或可变放大器。输入信号1002可包括码增益参数信息gc和/或与噪声增益参数信息相关的信息,其中解码器可用于调适放大器,以通过使用码增益参数信息gc放大码产生的激励信号1012或其经整形的版本。可选地或另外,解码器1000可用于调适(即,控制)放大器以通过使用噪声增益参数信息来通过放大器放大类噪声信号1022或其经整形的版本。
可选地,解码器1000可包括如由虚线所指示的用于整形经码激励的激励信号1012的整形器1070和/或用于整形类噪声信号1022的整形器1080。整形器1070和/或1080可接收增益参数gc和/或gn和/或语音相关的整形信息。可如针对上文所描述的整形器250、350c和/或550b所描述地形成整形器1070和/或1080。
如针对共振峰信息计算器160所描述,解码器1000可包括用以为整形器1070和/或1080提供语音相关的整形信息1092的共振峰信息计算器1090。共振峰信息计算器1090可将不同语音相关的整形信息(1092a;1092b)提供至整形器1070和/或1080。
图11a展示当相比于整形器250时实施可选结构的整形器250’的示意性方块图。整形器250’包括组合器257,组合器257用于组合整形信息222与噪声相关增益参数gn以获得经组合的信息259。经修改的整形处理器252’可用于通过使用经组合的信息259整形类噪声信号n(n)以获得经放大整形的类噪声信号258。由于整形信息222和增益参数gn可解译为乘法因子,因此可通过使用组合器257相乘两个乘法因子且接着将其以经组合的形式应用于类噪声信号n(n)。
图11b展示当相比于整形器250时实施又一可选结构的整形器250”的示意性方块图。当相比于整形器250时,首先配置可变放大器254,放大器254用于通过使用增益参数gn放大类噪声信号n(n)而产生经放大的类噪声信号。整形处理器252用于使用整形信息222整形经放大的信号以获得经放大整形的信号258。
尽管图11a及图11b是关于描绘可选实施的整形器250,但上文描述也适用于整形器350c、550b、1070和/或1080。
图12展示根据第一方面的用于编码音频信号的方法1200的示意性流程图。方法1210包括从音频信号帧获得预测系数和残差信号。方法1200包括从无声残差信号和频谱整形信息计算增益参数的步骤1230和基于与有声信号帧相关的信息、增益参数或经量化的增益参数和预测系数的信息形成输出信号的步骤1240。
图13展示根据第一方面的用于解码包括预测系数和增益参数的所接收的音频信号的方法1300的示意性流程图。方法1300包括从预测系数计算语音相关的频谱整形信息的步骤1310。在步骤1320中,产生解码类噪声信号。在步骤1330中,使用频谱整形信息整形解码类噪声信号(或其经放大的表示)的频谱以获得经整形的解码类噪声信号。在方法1300的步骤1340中,从经放大整形的编码类噪声信号和预测系数合成经合成的信号。
图14展示根据第二方面的用于编码音频信号的方法1400的示意性流程图。方法1400包括从音频信号的无声帧获得预测系数和残差信号的步骤1410。在方法1400的步骤1420中,针对无声帧,计算用于定义与确定性码本相关的第一激励信号的第一增益参数信息及用于定义与类噪声信号相关的第二激励信号的第二增益参数信息。
在方法1400的步骤1430中,基于与有声信号帧相关的信息、第一增益参数信息和第二增益参数信息形成输出信号。
图15展示根据第二方面的用于解码所接收的音频信号的方法1500的示意性流程图。所接收的音频信号包括预测系数相关的信息。方法1500包括从用于经合成的信号的部分的确定性码本产生第一激励信号的步骤1510。在方法1500的步骤1520中,从用于经合成的信号的部分的类噪声信号产生第二激励信号。在方法1000的步骤1530中,组合第一激励信号和第二激励信号以用于产生用于经合成的信号的部分的经组合的激励信号。在方法1500的步骤1540中,从经组合的激励信号和预测系数合成经合成的信号的部分。
换句话说,本发明的方面提出了借助于进行整形随机产生的高斯噪声并通过对其添加共振峰结构和频谱倾斜使其频谱上整形而编码无声帧的新方式。在激励合成滤波器之前,在激励域中进行频谱整形。因此,将在长期预测的存储器中更新经整形的激励以用于产生后续自适应码本。
并非无声的后续帧也将受益于频谱整形。不同于后滤波中的共振峰增强,在编码器和解码器侧两者处执行所提出的噪声整形。
可直接在参数编码方案中使用此激励以用于定向极低比特率。然而,我们也提出在CELP编码方案内结合熟知革新码本相关联此激励。
对于该两个方法,我们提出了尤其有效于清晰语音和具有背景噪声的语音的新增益编码。我们提出了用以尽可能接近原始能量但同时避免与非无声帧的过严苛转变且也避免归因于增益量化的不合需要不鲁棒性的一些机制。
第一方面定向为具有每秒2.8千比和4千比(kbps)的速率的无声编码。首先检测无声帧。可如从[3]已知的如可变速率多模式宽带(VMR-WB)中所进行地通过通常语音分类进行此操作。
在此阶段进行频谱整形存在两个主要优势。首先,频谱整形考虑了激励的增益计算。由于增益计算为激励产生期间的唯一非盲模块,因此在整形之后使其处于链的末端处为较大优势。其次,此情况允许将经增强的激励保存于LTP的存储器中。接着,增强也将服务后续非无声帧。
尽管已在装置的上下文中描述一些方面,但显然,这些方面也表示对应方法的描述,其中区块或器件对应于方法步骤或方法步骤的特征。类似地,方法步骤的上下文中所描述的发明也表示对应区块或项目或对应装置的特征的描述。
本发明的经编码的音频信号可储存于数字储存媒体上或可在例如无线传输媒体的传输媒体或例如因特网的有线传输媒体上传输。
取决于某些实施要求,本发明的实施例可以硬件或软件实施。可使用其上储存有与可编程计算机系统协作(或能够协作)的电子可读控制信号,使得执行各个方法的数字储存媒体(例如,软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实施。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该控制信号能够与可编程计算机系统协作,使得执行本文中所描述的方法中的一个。
大体而言,本发明的实施例可实施为具有程序代码的计算机程序产品,当计算机程序产品运行在计算机上时,程序代码操作性地用于执行方法中的一个。程序代码可(例如)储存于机器可读载体上。
其他实施例包括储存于机器可读载体上的用于执行本文中所描述的方法中的一个的计算机程序。
换句话说,因此,本发明方法的实施例为具有当计算机程序运行在计算机上时,用于执行本文中所描述的方法中的一个的程序代码的计算机程序。
因此,本发明方法的另一实施例为包括记录于其上的,用于执行本文中所描述的方法中的一个的计算机程序的数据载体(或数字储存媒体,或计算机可读媒体)。
因此,本发明方法的另一实施例为表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可(例如)经由数据通信连接(例如,经由因特网)而传递。
另一实施例包括处理构件,例如,经组态或经调适以执行本文中所描述的方法中的一个的计算机或可编程逻辑器件。
另一实施例包括其上安装有用于执行本文中所描述的方法中的一个的计算机程序的计算机。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可用于执行本文中所描述的方法的功能性中的一些或所有。在一些实施例中,现场可编程门阵列可与微处理器协作,以便执行本文中所描述的方法中的一个。大体而言,较佳地由任何硬件装置执行方法。
上文所描述的实施例仅仅说明本发明的原理。应理解,本领域技术人员将显而易见对本文中所描述的配置及细节进行修改及变化。因此,其仅意欲由接下来的权利要求的范畴限制,而非由通过本文中实施例的描述及解释所呈现的特定细节限制。
文献
[1]Recommendation ITU-T G.718:“Frame error robust narrow-band andwideband embedded variable bit-rate coding of speech and audio from 8-32kbit/s”
[2]United states patent number US 5,444,816,“Dynamic codebook forefficient speech coding based on algebraic codes”
[3]Jelinek,M.;Salami,R.,"Wideband Speech Coding Advances in VMR-WBStandard,"Audio,Speech,and Language Processing,IEEE Transactions on,vol.15,no.4,pp.1167,1179,May 2007。
Claims (17)
1.一种用于编码音频信号(102)的编码器(100;200;300),所述编码器包括:
分析器(120;320),用于从所述音频信号(102)的帧得到预测系数(122;322)和残差信号(124;324);
共振峰信息计算器(160),用于从所述预测系数(122;322)计算语音相关的频谱整形信息(162);
增益参数计算器(150;350;350’;550),用于从无声残差信号和所述频谱整形信息(162)计算增益参数(gn;gc);和
其中所述增益参数计算器(150;350;350’;550)包括用于产生编码类噪声信号(n(n))的噪声产生器(350a),
其中所述增益参数计算器(150;350;350’;550)包括整形处理器(350d)、可变放大器(350e)和控制器(350k;550n),所述整形处理器(350d)用于使用所述语音相关的频谱整形信息(162)对所述编码类噪声信号(n(n))的频谱进行整形,所述可变放大器(350e)用于对经频谱整形的编码类噪声信号(350f)进行放大以获得经放大整形的编码类噪声信号(350g),
其中所述增益参数计算器(150;350;350’;550)包括用于比较所述无声残差信号和所述经放大整形的类噪声信号(350g)以获得比较结果(350)的比较器(350h;350’;550l),其中所述控制器(350k;550n)用于基于所述比较结果(350i)确定临时增益参数(gn(temp))。
2.如权利要求1所述的编码器,进一步包括:
决定器(130),用于确定所述残差信号是否是从无声信号音频帧确定的。
3.如权利要求1所述的编码器,其中所述增益参数计算器(150;350;350’;550)包括:
整形器(350c),用于使用所述语音相关的频谱整形信息(162)和作为临时增益参数(gn(temp))的所述增益参数(gn)对所述编码类噪声信号(n(n))的频谱进行放大(350e)和整形(350d),以获得经放大整形的编码类噪声信号(350g);
比较器(350h),用于比较所述无声残差信号和所述经放大整形的编码类噪声信号(350g)以获得所述无声残差信号和所述经放大整形的编码类噪声信号(350g)之间的相似性的度量;和
其中所述控制器(350k)用于确定所述增益参数(gn)并基于所述比较结果调适所述临时增益参数(gn(temp));
其中当所述相似性的度量值高于阈值时,所述控制器(350k;550n)用于将所述增益参数(gn)提供至所述比特流形成器。
4.如权利要求1所述的编码器,其中所述增益参数计算器(150;350;350’;550)包括:
整形器(350c),用于使用所述语音相关的频谱整形信息(162)和作为临时增益参数(gn(temp))的所述增益参数(gn)对所述编码类噪声信号(n(n))的频谱进行放大(350e)和整形(350d),以获得经放大整形的编码类噪声信号(350g);
合成器(350m’),用于从所述经放大整形的编码类噪声信号(350g)和所述预测系数(122;322)合成经合成的信号(350l’),并提供所述经合成的信号(350l’);
比较器(350h’),用于比较所述音频信号(102)和所述经合成的信号(350l’)以获得所述音频信号(102)和所述经合成的信号(350l’)之间的相似性的度量;和
控制器(350k),用于确定所述增益参数(gn)并基于所述比较结果调适所述临时增益参数(gn(temp));
其中当所述相似性的度量值高于阈值时,所述控制器(350k)用于将所述增益参数(gn)提供至所述比特流形成器。
6.如权利要求1所述的编码器,其中所述噪声产生器(350a)用于产生多个随机信号,并组合所述多个随机信号以获得所述编码类噪声信号(n(n))。
9.如权利要求1所述的编码器,其中所述增益参数计算器(350;350’)用于将所述编码类噪声信号的频谱或从其得到的频谱与传递函数(Ft(z))组合,所述传递函数(Ft(z))包括:
Ft(z)=1-βz-1
其中z指示z域中的表示,其中β表示通过将所述音频信号的过去帧的能量与所述音频信号的当前帧的能量相关而确定的浊音的度量,其中所述度量β由浊音值函数确定。
10.一种用于解码包括与预测系数(122;322)相关的信息的接收信号(202)的解码器(200),所述解码器(200)包括:
共振峰信息计算器(220;1090),用于从所述预测系数计算语音相关的频谱整形信息(222;1092,1092a,1092b);
噪声产生器(240;1020),用于产生解码类噪声信号(n(n);1022);
整形器(250;1080),用于使用所述语音相关的频谱整形信息(222;1092,1092b)对所述解码类噪声信号(n(n);1022)的频谱进行整形(252)以获得所述解码类噪声信号的经整形的频谱,
可变放大器(254),用于对所述解码类噪声信号(256)的经整形的频谱进行放大以获得经放大整形的解码类噪声信号(258;1022’);和
合成器(260;1060),用于从所述解码类噪声信号(258;1022’)的经整形的频谱和所述预测系数(122;322)合成经合成的信号(262),
其中由增益参数计算器产生增益参数,包括:
比较器(350h;350’;550l)用于比较无声残差信号和所述经放大整形的解码类噪声信号(350g)以获得比较结果(350),其中控制器(350k;550n)用于基于所述比较结果(350i)确定临时增益参数(gn(temp))。
11.如权利要求10所述的解码器,包括用于使用所述预测系数产生经码激励的激励信号(1012)的信号产生器(1010),并且包括用于使用所述语音相关的整形信息(1092,1092b)对所述经码激励的激励信号进行整形和用于对整形的经码激励的激励信号的频谱进行放大(254)以获得经放大整形的经码激励的激励信号(258;1022’)的另一个整形器(1070)。
12.如权利要求11所述的解码器,其中所述共振峰信息计算器(1090)用于提供不同的语音相关的整形信息(1092a;1092b)至所述整形器(1080)和所述另一个整形器(1070)。
13.如权利要求10所述的解码器,其中所述接收信号(202)包括与增益参数(gn;gc)相关的信息,并且其中所述整形器(250)包括用于放大所述解码类噪声信号(n(n))或所述整形的解码类噪声信号(256)的放大器(254)。
14.如权利要求10所述的解码器,其中所述接收信号(202)进一步包括与编码音频信号(102)的有声帧相关的有声信息(142),并且其中所述解码器(200)进一步包括用于基于所述有声信息(142)确定有声信号(272)的有声帧处理器(270),其中所述解码器(200)进一步包括用于组合所述经合成的信号(262)和所述有声信号(272)以获得音频信号序列(282)的帧的组合器(280)。
15.一种用于编码音频信号(102)的方法(1200),包括:
从音频信号帧(102)得到(1210)预测系数(122;322)和残差信号;
从所述预测系数(122;322)计算(1220)语音相关的频谱整形信息(162);
从无声残差信号和所述频谱整形信息(162)计算(1230)增益参数(gn;gc);和
产生编码类噪声信号(n(n)),包括:
使用所述语音相关的频谱整形信息(162)对所述编码类噪声信号(n(n))的频谱进行整形;和
对所述编码类噪声信号(350f)的经整形的频谱进行放大以获得经放大整形的类噪声信号(350g);
使用比较器比较所述无声残差信号和所述经放大整形的编码类噪声信号以获得比较结果,其中控制器用于基于所述比较结果确定所述增益参数。
16.一种用于解码包括与预测系数相关的信息和增益参数(gn;gc)的接收信号(202)的方法(1300),所述方法包括:
从所述预测系数(122;322)计算(1310)语音相关的频谱整形信息(222);
产生(1320)解码类噪声信号(n(n));
使用所述语音相关的频谱整形信息(222;1092,1092b)对所述解码类噪声信号(n(n))的频谱进行整形(1330)以获得经整形的解码噪声信号;
对所述解码类噪声信号(256)的经整形的频谱进行放大(254)以获得所述解码类噪声信号(258;1022’)的经放大的频谱;和
从经放大整形的解码类噪声信号(258)和所述预测系数(122;322)合成(1340)经合成的信号(262);
其中通过使用比较器比较无声残差信号和所述经放大整形的解码类噪声信号以获得比较结果来确定所述增益参数,其中控制器用于基于所述比较结果确定所述增益参数。
17.一种计算机可读媒体,其上存储有计算机程序,包括程序代码,当所述计算机程序在计算机上执行时,所述程序代码用于执行如权利要求15或16所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010115752.8A CN111370009B (zh) | 2013-10-18 | 2014-10-10 | 使用语音相关的频谱整形信息编码音频信号和解码音频信号的概念 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13189392 | 2013-10-18 | ||
EP13189392.7 | 2013-10-18 | ||
EP14178788.7 | 2014-07-28 | ||
EP14178788 | 2014-07-28 | ||
PCT/EP2014/071767 WO2015055531A1 (en) | 2013-10-18 | 2014-10-10 | Concept for encoding an audio signal and decoding an audio signal using speech related spectral shaping information |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010115752.8A Division CN111370009B (zh) | 2013-10-18 | 2014-10-10 | 使用语音相关的频谱整形信息编码音频信号和解码音频信号的概念 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105745705A CN105745705A (zh) | 2016-07-06 |
CN105745705B true CN105745705B (zh) | 2020-03-20 |
Family
ID=51691033
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480057458.9A Active CN105745705B (zh) | 2013-10-18 | 2014-10-10 | 编码和解码音频信号的编码器、解码器及相关方法 |
CN202010115752.8A Active CN111370009B (zh) | 2013-10-18 | 2014-10-10 | 使用语音相关的频谱整形信息编码音频信号和解码音频信号的概念 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010115752.8A Active CN111370009B (zh) | 2013-10-18 | 2014-10-10 | 使用语音相关的频谱整形信息编码音频信号和解码音频信号的概念 |
Country Status (17)
Country | Link |
---|---|
US (3) | US10373625B2 (zh) |
EP (2) | EP3806094A1 (zh) |
JP (1) | JP6366706B2 (zh) |
KR (1) | KR101849613B1 (zh) |
CN (2) | CN105745705B (zh) |
AU (1) | AU2014336356B2 (zh) |
BR (1) | BR112016008662B1 (zh) |
CA (1) | CA2927716C (zh) |
ES (1) | ES2856199T3 (zh) |
MX (1) | MX355091B (zh) |
MY (1) | MY180722A (zh) |
PL (1) | PL3058568T3 (zh) |
RU (1) | RU2646357C2 (zh) |
SG (1) | SG11201603000SA (zh) |
TW (1) | TWI575512B (zh) |
WO (1) | WO2015055531A1 (zh) |
ZA (1) | ZA201603158B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX347316B (es) * | 2013-01-29 | 2017-04-21 | Fraunhofer Ges Forschung | Aparato y método para sintetizar una señal de audio, decodificador, codificador, sistema y programa de computación. |
EP3058569B1 (en) | 2013-10-18 | 2020-12-09 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
CN105745705B (zh) * | 2013-10-18 | 2020-03-20 | 弗朗霍夫应用科学研究促进协会 | 编码和解码音频信号的编码器、解码器及相关方法 |
US10418042B2 (en) * | 2014-05-01 | 2019-09-17 | Nippon Telegraph And Telephone Corporation | Coding device, decoding device, method, program and recording medium thereof |
US20190051286A1 (en) * | 2017-08-14 | 2019-02-14 | Microsoft Technology Licensing, Llc | Normalization of high band signals in network telephony communications |
WO2020164752A1 (en) * | 2019-02-13 | 2020-08-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transmitter processor, audio receiver processor and related methods and computer programs |
CN113129910B (zh) | 2019-12-31 | 2024-07-30 | 华为技术有限公司 | 音频信号的编解码方法和编解码装置 |
CN112002338B (zh) * | 2020-09-01 | 2024-06-21 | 北京百瑞互联技术股份有限公司 | 一种优化音频编码量化次数的方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6611800B1 (en) * | 1996-09-24 | 2003-08-26 | Sony Corporation | Vector quantization method and speech encoding method and apparatus |
CN102124517A (zh) * | 2008-07-11 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 具有共用预处理的低比特率音频编码/解码方案 |
US8144804B2 (en) * | 2005-07-11 | 2012-03-27 | Sony Corporation | Signal encoding apparatus and method, signal decoding apparatus and method, programs and recording mediums |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2010830C (en) | 1990-02-23 | 1996-06-25 | Jean-Pierre Adoul | Dynamic codebook for efficient speech coding based on algebraic codes |
CA2108623A1 (en) * | 1992-11-02 | 1994-05-03 | Yi-Sheng Wang | Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop |
JP3099852B2 (ja) * | 1993-01-07 | 2000-10-16 | 日本電信電話株式会社 | 励振信号の利得量子化方法 |
US5864797A (en) * | 1995-05-30 | 1999-01-26 | Sanyo Electric Co., Ltd. | Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
GB9512284D0 (en) * | 1995-06-16 | 1995-08-16 | Nokia Mobile Phones Ltd | Speech Synthesiser |
JP3747492B2 (ja) | 1995-06-20 | 2006-02-22 | ソニー株式会社 | 音声信号の再生方法及び再生装置 |
JPH1020891A (ja) * | 1996-07-09 | 1998-01-23 | Sony Corp | 音声符号化方法及び装置 |
US6131084A (en) * | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
JPH11122120A (ja) * | 1997-10-17 | 1999-04-30 | Sony Corp | 符号化方法及び装置、並びに復号化方法及び装置 |
KR100527217B1 (ko) * | 1997-10-22 | 2005-11-08 | 마츠시타 덴끼 산교 가부시키가이샤 | 확산 벡터 생성 방법, 확산 벡터 생성 장치, celp형 음성 복호화 방법 및 celp형 음성 복호화 장치 |
CN1737903A (zh) | 1997-12-24 | 2006-02-22 | 三菱电机株式会社 | 声音译码方法以及声音译码装置 |
US6415252B1 (en) | 1998-05-28 | 2002-07-02 | Motorola, Inc. | Method and apparatus for coding and decoding speech |
CN1167048C (zh) | 1998-06-09 | 2004-09-15 | 松下电器产业株式会社 | 语音编码设备和语音解码设备 |
US6067511A (en) * | 1998-07-13 | 2000-05-23 | Lockheed Martin Corp. | LPC speech synthesis using harmonic excitation generator with phase modulator for voiced speech |
US6192335B1 (en) | 1998-09-01 | 2001-02-20 | Telefonaktieboiaget Lm Ericsson (Publ) | Adaptive combining of multi-mode coding for voiced speech and noise-like signals |
US6463410B1 (en) | 1998-10-13 | 2002-10-08 | Victor Company Of Japan, Ltd. | Audio signal processing apparatus |
CA2252170A1 (en) | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
US6311154B1 (en) | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
JP3451998B2 (ja) * | 1999-05-31 | 2003-09-29 | 日本電気株式会社 | 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体 |
US6615169B1 (en) * | 2000-10-18 | 2003-09-02 | Nokia Corporation | High frequency enhancement layer coding in wideband speech codec |
DE10124420C1 (de) | 2001-05-18 | 2002-11-28 | Siemens Ag | Verfahren zur Codierung und zur Übertragung von Sprachsignalen |
US6871176B2 (en) * | 2001-07-26 | 2005-03-22 | Freescale Semiconductor, Inc. | Phase excited linear prediction encoder |
KR101000345B1 (ko) | 2003-04-30 | 2010-12-13 | 파나소닉 주식회사 | 음성 부호화 장치, 음성 복호화 장치 및 그 방법 |
CN1820306B (zh) | 2003-05-01 | 2010-05-05 | 诺基亚有限公司 | 可变比特率宽带语音编码中增益量化的方法和装置 |
KR100651712B1 (ko) * | 2003-07-10 | 2006-11-30 | 학교법인연세대학교 | 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법 |
JP5188990B2 (ja) | 2006-02-22 | 2013-04-24 | フランス・テレコム | Celp技術における、デジタルオーディオ信号の改善された符号化/復号化 |
US8712766B2 (en) * | 2006-05-16 | 2014-04-29 | Motorola Mobility Llc | Method and system for coding an information signal using closed loop adaptive bit allocation |
MX2009013519A (es) | 2007-06-11 | 2010-01-18 | Fraunhofer Ges Forschung | Codificador de audio para codificar una señal de audio que tiene una porcion similar a un impulso y una porcion estacionaria, metodos de codificacion, decodificador, metodo de decodificacion, y señal de audio codificada. |
JP2011518345A (ja) | 2008-03-14 | 2011-06-23 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング |
JP5148414B2 (ja) * | 2008-08-29 | 2013-02-20 | 株式会社東芝 | 信号帯域拡張装置 |
RU2400832C2 (ru) | 2008-11-24 | 2010-09-27 | Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФCО России) | Способ формирования сигнала возбуждения в низкоскоростных вокодерах с линейным предсказанием |
GB2466671B (en) | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
JP4932917B2 (ja) * | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
DK2676271T3 (da) | 2011-02-15 | 2020-08-24 | Voiceage Evs Llc | Anordning og fremgangsmåde til kvantisering af forstærkninger af adaptive og faste bidrag fra excitationen i en celp-koder-dekoder |
US9972325B2 (en) | 2012-02-17 | 2018-05-15 | Huawei Technologies Co., Ltd. | System and method for mixed codebook excitation for speech coding |
CN103295578B (zh) | 2012-03-01 | 2016-05-18 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
EP3058569B1 (en) * | 2013-10-18 | 2020-12-09 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
CN105745705B (zh) * | 2013-10-18 | 2020-03-20 | 弗朗霍夫应用科学研究促进协会 | 编码和解码音频信号的编码器、解码器及相关方法 |
PT3058568T (pt) | 2013-10-18 | 2021-03-04 | Fraunhofer Ges Forschung | Conceito para codificar um sinal de áudio e descodificar um sinal de áudio usando informação de modelação espectral relacionada com a fala |
-
2014
- 2014-10-10 CN CN201480057458.9A patent/CN105745705B/zh active Active
- 2014-10-10 MX MX2016004923A patent/MX355091B/es active IP Right Grant
- 2014-10-10 ES ES14783821T patent/ES2856199T3/es active Active
- 2014-10-10 RU RU2016119010A patent/RU2646357C2/ru active
- 2014-10-10 WO PCT/EP2014/071767 patent/WO2015055531A1/en active Application Filing
- 2014-10-10 KR KR1020167012958A patent/KR101849613B1/ko active IP Right Grant
- 2014-10-10 EP EP20210767.8A patent/EP3806094A1/en active Pending
- 2014-10-10 BR BR112016008662-7A patent/BR112016008662B1/pt active IP Right Grant
- 2014-10-10 PL PL14783821T patent/PL3058568T3/pl unknown
- 2014-10-10 CA CA2927716A patent/CA2927716C/en active Active
- 2014-10-10 JP JP2016524523A patent/JP6366706B2/ja active Active
- 2014-10-10 AU AU2014336356A patent/AU2014336356B2/en active Active
- 2014-10-10 SG SG11201603000SA patent/SG11201603000SA/en unknown
- 2014-10-10 CN CN202010115752.8A patent/CN111370009B/zh active Active
- 2014-10-10 EP EP14783821.3A patent/EP3058568B1/en active Active
- 2014-10-10 MY MYPI2016000655A patent/MY180722A/en unknown
- 2014-10-16 TW TW103135844A patent/TWI575512B/zh active
-
2016
- 2016-04-18 US US15/131,681 patent/US10373625B2/en active Active
- 2016-05-11 ZA ZA2016/03158A patent/ZA201603158B/en unknown
-
2019
- 2019-07-08 US US16/504,891 patent/US10909997B2/en active Active
-
2020
- 2020-12-14 US US17/121,179 patent/US11881228B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6611800B1 (en) * | 1996-09-24 | 2003-08-26 | Sony Corporation | Vector quantization method and speech encoding method and apparatus |
US8144804B2 (en) * | 2005-07-11 | 2012-03-27 | Sony Corporation | Signal encoding apparatus and method, signal decoding apparatus and method, programs and recording mediums |
CN102124517A (zh) * | 2008-07-11 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 具有共用预处理的低比特率音频编码/解码方案 |
Non-Patent Citations (1)
Title |
---|
"A CANDIDATE FOR THE ITU-T 4 KBIT/S SPEECH CODING STANDARD";Jes Thyssen el;《2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS》;20111231;第681-684页 * |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105745705B (zh) | 编码和解码音频信号的编码器、解码器及相关方法 | |
CN105723456B (zh) | 自适应编码及解码音频信号的编码器、解码器、编码和解码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |