CN101542599A - 用于编码和解码宽带语音信号的方法、装置和系统 - Google Patents
用于编码和解码宽带语音信号的方法、装置和系统 Download PDFInfo
- Publication number
- CN101542599A CN101542599A CNA2007800440207A CN200780044020A CN101542599A CN 101542599 A CN101542599 A CN 101542599A CN A2007800440207 A CNA2007800440207 A CN A2007800440207A CN 200780044020 A CN200780044020 A CN 200780044020A CN 101542599 A CN101542599 A CN 101542599A
- Authority
- CN
- China
- Prior art keywords
- phase
- damping factor
- frequency
- residual signal
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000013016 damping Methods 0.000 claims abstract description 127
- 230000003595 spectral effect Effects 0.000 claims abstract description 118
- 238000001228 spectrum Methods 0.000 claims abstract description 30
- 239000013598 vector Substances 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 230000005540 biological transmission Effects 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 239000011295 pitch Substances 0.000 description 31
- 238000013139 quantization Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000008033 biological extinction Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
提供一种用于编码或解码宽带语音信号的方法、装置和系统。该方法包括:从宽带语音信号中提取线性预测系数(LPC);输出线性预测(LP)残留信号;音调-搜索LP残留信号的谱;提取LP残留信号的谱幅度和相位,其与阻尼因子对应;从所提取的谱幅度和相位当中获取其中将LP残留信号的功率值最小化的第一谱幅度和第一相位;量化第一谱幅度和第一相位;以及解码宽带语音信号。该装置包括:线性预测系数(LPC)分析器;LPC逆滤波器;音调搜索单元;正弦分析器;以及相位和谱幅度量化器。该系统包括:宽带语音编码装置;以及宽带语音解码装置。
Description
技术领域
符合本发明的方法、装置和系统涉及编码和解码宽带语音信号,而且更具体地,涉及利用添加有阻尼因子的匹配追踪正弦模型来编码和解码宽带语音信号。
背景技术
语音通信的应用领域的多样化以及网络的数据传输率的增加已经导致对高质量语音通信的需求的增长。为了满足高质量语音通信的需求,需要传输具有50-7000赫兹带宽的宽带语音信号,其与300-3400赫兹的现有电话频带相比在诸如自然性和清晰性的多种方面具有更优越的性能,而为了有效地压缩宽带语音信号,期望开发新的宽带语音压缩器。
特别地,数字通信使用分组交换方法用于集成语音通信和数据通信。然而,分组交换方法可能引起信道拥塞,导致分组丢失和声音质量低劣。虽然可以使用隐藏损坏分组的技术以便解决这些问题,但是该技术并非这些问题的长期解决方案。因此,最近的语音压缩器已经尝试通过利用扩充功能减少通信量来解决这些问题。
扩充功能允许通过在各种级中形成语音数据、并在将语音数据分组化时根据拥塞的等级调整所传输的的级的量而在给定的信道环境下执行最佳通信。扩充功能用于借助分组网络的语音通信,而且可以根据网络状态提供最佳通信。而且,如果在经由具有不同的位率的信道发送语音分组时提供扩充功能,则可以执行无串接(tandem-free)通信,借以通过调整传输级来发送语音分组而不使用双编码。
因此,已经开展关于利用扩充功能的语音编码和解码的研究,而且更详细地,利用正弦合成模型编码和解码16位线性脉冲编码调制(PCM)格式语音信号。正弦模型是以低位率编码语音信号的高效率技术,而且在最近用于语音转换、声音质量改善、以及低数据率音频编码。由于对背景噪声和非语音信号的壮健性,正弦模型用于其中对视频信号、生物信号等执行分析和合成的数字信号处理的领域。
然而,在用于将语音信号建模的现有技术正弦模型中,假定在单个帧中基频的整数倍中正弦参数是恒定的。由于该假设,当由解码器端合成具有时间变化特性的语音信号时,时间变化特性失真,而且出现帧之间的不连续性。为了解决这些问题,解码器端使用参数内插方法或波形内插方法。然而,参数内插方法或波形内插方法引起语音波形的修改,导致非稳定时段期间波形的失真。特别地,因肇始(onset)或消退(offset)转变持续时间中语音信号的波形失真而发生声音质量的显著下降。
此外,已经由具有低传输率的语音编码器使用的现有技术谐波编码方法利用峰检测方法来检测谐波幅度,峰检测方法用于做成零相位并执行快速傅立叶变换(FFT)以便防止相位传输。然而,现有技术谐波编码方法的局限在于,由于复杂度和导通(on)数据率的限制而必须应用小于512个点的频率分辨率。频率分辨率的下降和相位参数的传输限制妨碍了正确的谐波峰检测,作为结果,语音编码器的性能因合成语音信号的脉冲位置的延迟以及帧之间的相位差而下降。
发明内容
技术方案
本发明的示范性实施例通过改善现有正弦模型并减少量化误差以便编码宽带语音信号而提供用于编码宽带语音信号并以良好的性能支持信噪比(SNR)可扩展性的方法和系统。
有益效果
根据本发明的示范性实施例的编码/解码宽带语音信号的方法有利于高声音质量和低复杂度,因为其解决现有正弦模型中出现的帧之间的不连续性以及语音波形失真的问题,并将量化误差最小化。此外,通过提供SNR扩展功能,可以执行给定信道环境下的最佳通信。
附图说明
通过参照附图详细描述其示范性实施例,本发明的以上和其它方面将变得更加显而易见,其中:
图1是根据本发明的示范性实施例的宽带语音编码和解码系统的框图;
图2是根据本发明的示范性实施例的正弦分析器的框图;
图3A和3B是示出根据本发明的示范性实施例的正弦幅度和相位搜索单元已经首次操作其呈环形配置的内部块时的信号波形和幅度的曲线图;
图4A和4B是示出根据本发明的示范性实施例的正弦幅度和相位搜索单元已经第二次操作其呈环形配置的内部块时的信号波形和幅度的曲线图;
图5A和5B是根据本发明的示范性实施例的谱幅度量化器的编码器端和解码器端的框图;以及
图6是根据本发明的示范性实施例的相位量化器的框图。
具体实施方式
最佳模式
根据本发明的一个方面,提供一种编码和解码宽带语音信号的方法,该方法包括:从宽带语音信号中提取线性预测系数(LPC);输出通过利用LPC从宽带语音信号中去除包络(envelope)而获得的线性预测(LP)残留信号;音调(pitch)-搜索LP残留信号的谱;通过向匹配追踪算法添加阻尼因子来提取LP残留信号的谱幅度和相位,谱幅度和相位与阻尼因子对应;从所提取的谱幅度和相位当中获取其中将LP残留信号的功率值最小化的第一谱幅度和第一相位;量化第一谱幅度和第一相位;以及解码宽带语音信号。
所述阻尼因子可以包括LP残留信号的谱幅度阻尼因子和频率阻尼因子。
所述提取LP残留信号的谱幅度和相位可以包括:相对于利用频率阻尼因子通过音调-搜索LP残留信号获得的每个频率设置多个候选频率;通过相对于通过音调-搜索获得的每个频率从候选频率当中获得其中将误差值最小化的频率和相位来计算正弦字典值,并累加相对于通过音调-搜索获得的每个频率计算的正弦字典值;通过从作为目标信号的LP残留信号中减去所累加的正弦字典值来产生最终残留信号;以及检测与其中相对于通过音调-搜索获得的每个频率将最终残留信号的功率值最小化的第一谱幅度和第一相位对应的频率阻尼因子。
所述设置候选频率的步骤可以包括:相对于与LP残留信号中基频的n倍对应的频率利用频率阻尼因子设置与基频的n-1倍对应的频率和与基频的n+1倍对应的频率之间的候选频率。
累加的正弦字典的数量可以与宽带语音信号的谱的数量相等。
可以利用第一谱幅度和第一相位来获得和量化谱幅度阻尼因子。
可以利用离散余弦变换(DCT)量化第一谱幅度。
量化第一相位的方法可以包括:通过获得第一相位与从第一相位产生的第一码本相位之间的差、将所述差乘以与第一相位对应的包络值、并将每个差加到各个相乘结果来获得距离;检测和输出允许将距离最小化的第一码本相位;通过调整从第一码本相位与第一相位之间的差产生的相位误差向量来产生第二相位,并通过获得第二相位与从第二相位产生的第二码本相位之间的差、将所述差乘以与第二相位对应的包络值、并将所述差加到各个相乘结果来获得距离;以及检测和输出允许将距离最小化的第二码本相位。
可以通过根据各种传输率借助模式信息确定位分配来量化阻尼因子、谱幅度、相位和音调。
所述解码宽带语音信号的步骤可以包括:解码经量化的第一谱幅度和经量化的第一相位;解码经量化的阻尼因子;利用第一谱幅度、第一相位、阻尼因子、音调值其中至少一个来合成LP残留信号;以及从LP残留信号解码宽带语音信号。
根据本发明的另一个方面,提供一种用于在宽带语音编码系统中编码宽带语音信号的装置,该装置包括:线性预测系数(LPC)分析器,其从宽带语音信号中提取LPC;LPC逆滤波器,其输出通过利用LPC从宽带语音信号中去除包络而获得的线性预测(LP)残留信号;音调搜索单元,其音调-搜索LP残留信号的谱;正弦分析器,其通过向匹配追踪算法添加阻尼因子来提取LP残留信号的与阻尼因子对应的谱幅度和相位,并从所提取的谱幅度和相位当中获得其中将LP残留信号的功率值最小化的第一谱幅度和第一相位;以及相位和谱幅度量化器,其量化第一谱幅度和第一相位。
所述正弦分析器可以包括:频率阻尼因子施加单元,其相对于利用频率阻尼因子通过音调-搜索LP残留信号获得的每个频率设置多个候选频率;误差最小化单元,其相对于通过音调-搜索获得的每个频率从候选频率当中获得其中将误差值最小化的频率和相位;字典分量产生器,其借助从误差最小化单元输出的频率和相位获得正弦字典值;累加器,其从字典分量产生器接收相对于通过音调-搜索获得的每个频率产生的正弦字典值,并累加正弦字典值;计算器,其通过从LP残留信号中减去所累加的正弦字典值来产生最终残留信号;以及阻尼因子选择器,其检测与其中相对于通过音调-搜索获得的每个频率将最终残留信号的功率值最小化的第一谱幅度和第一相位对应的频率阻尼因子。
根据本发明的另一个方面,提供一种宽带语音编码和解码系统,包括:宽带语音编码装置,其通过利用从宽带语音信号中提取的线性预测系数(LPC)从宽带语音信号中去除包络而获得线性预测(LP)残留信号,通过向匹配追踪算法添加阻尼因子来提取LP残留信号的与阻尼因子对应的谱幅度和相位,从所提取的谱幅度和相位当中获得其中将LP残留信号的功率值最小化的第一谱幅度和第一相位,并量化第一谱幅度和第一相位;以及宽带语音解码装置,其通过解码经量化的第一谱幅度、经量化的第一相位和经量化的阻尼因子并合成LP残留信号来解码宽带语音信号。
发明模式
参照用于例示本发明的优选实施例的附图以便充分理解本发明、其优点、以及由本发明一般概念的实施实现的目的。
以下,将通过参照附图说明本发明的示范性实施例来详细描述本发明概念。附图中,类似的引用数字指代类似的元素。
图1是根据本发明的示范性实施例的宽带语音编码和解码系统的框图。
参照图1,所述宽带语音编码和解码系统包括宽带语音编码器100和宽带语音解码器200。
宽带语音编码器100包括线性预测系数(LPC)分析器105、线性谱对(LSP)转换器110、LSP内插器113、LSP量化器115、感知加权滤波器120、LPC逆滤波器125、整数音调搜索单元130、正弦分析器140、分数音调搜索单元150、阻尼因子向量量化器155、相位/谱幅度量化器160、音调量化器170、参数分配单元180、以及多路复用器(MUX)190。
大约每20毫秒(即,每帧)将具有大约50赫兹至大约7000赫兹的宽带宽的语音信号输入到LPC分析器105、感知加权滤波器120和整数音调搜索单元130。LPC分析器105相对于每帧施加汉明窗口的输入信号利用自相关方法输出16阶LPC参数。
LSP转换器110通过将时域中的LPC参数转换为频域中的LSP参数来减少位率。LSP内插器113利用两个子帧LPC滤波器内插过去的LSP值,并通过将经内插的过去的LSP值转换为LPC而输出2个子帧的2对LPC。LSP量化器115量化LSP参数。
感知加权滤波器120接收宽带语音信号和包含LPC参数的LPC,并利用被量化为适合人类听觉的感知特性的LPC来修改宽带语音信号。LPC逆滤波器125输出通过从谱中去除包络而获得的线性预测(LP)残留信号。利用从LSP内插器113输出的LPC信号产生LP残留信号。
利用LP残留信号确定音调,而且正弦分析器140利用其中向正弦建模添加阻尼因子的匹配追踪算法执行LP残留信号的正弦建模。
正弦分析器140通过基于从参数分配单元180输入的信息将其中宽带语音信号的谱幅度和相位是基频的谱幅度和相位的整数倍的位置设置为参考点来执行LP残留信号的建模,并基于该建模获得阻尼因子。
即,正弦分析器140接收LP残留信号并利用添加有阻尼因子的匹配追踪正弦模型将LP残留信号建模。相位/谱幅度量化器160利用离散余弦变换(DCT)量化LP残留信号的谱幅度,并利用循环特性量化LP残留信号的相位。相位储幅度量化器160具有多级结构。
该情况下,谱幅度由量化器(未示出)利用DCT量化,相位由循环加权量化器(未示出)量化,而阻尼因子由向量量化器(未示出)量化。将参照下面图2详细描述由正弦分析器140用于提取阻尼因子的方法,而且将参照下面图5和6详细描述由正弦分析器140分析的谱幅度和相位的量化。
音调搜索包括整数音调搜索和分数音调搜索两级。即,整数音调搜索单元130接收LP残留信号和宽带语音信号,并通过利用快速傅里叶变换(FFT)系数值的自相关近似值执行整数音调搜索来获得LP残留信号的峰周期。分数音调搜索单元150通过从音调值的近似值当中获得具有最大互相关值的音调值来执行十进制小数点基础上的精细音调搜索。
音调搜索方法使用其中利用FFT使用计算值计算自相关近似值的开环音调搜索。即,可以通过利用FFT获得近似音调值、并从近似音调值当中获得具有最大互相关值的音调值来获得正确的音调值。音调值由音调量化器170量化。MUX 190将谱幅度、相位、阻尼因子、以及音调值的码本索引分组化。
码本索引和经量化的编码被输入到宽带语音解码器200,而宽带语音解码器200通过宽带语音编码器100的逆过程将经编码的宽带语音信号解码,并输出经解码的宽带语音信号。
即,宽带语音解码器200利用经量化的第一谱幅度、经量化的第一相位、经量化的阻尼因子和经量化的音调值合成LP残留信号,并通过从合成的LP残留信号中解码经编码的宽带语音信号来输出宽带信号。
对于多级宽带语音编码器,将基本级设置为8Kbps,并通过向基本级添加具有4kbps、12Kbps和8Kbps的数据率的级来执行编码。
于是,参数分配单元180根据信道状态基于模式信息确定参数选择和位分配,如下面表1中所示,并向正弦分析器140、阻尼因子向量量化器155、相位/谱幅度量化器160和音调量化器170提供关于参数选择和位分配的每个细节的信息。
每个级通过在添加有阻尼因子的正弦模型中建模与基频相邻的频率来向基本级提供详细的信息。
表1示出根据32Kbps、24Kbps、12Kbps和8Kbps模式的参数的位分配。
[表1]
现在将参照图2更详细地描述使用其中由正弦分析器140添加有阻尼因子的匹配追踪算法的正弦建模方法。
本发明的示范性实施例通过借助给予一般正弦模型简单约束条件来获取称为‘阻尼因子’的两个传输参数(谱幅度阻尼因子gl k和频率阻尼因子cl k)而允许更高效率的建模。即,由于语音信号根据语音信号的特性而随着可以预先确定的当前帧与前一帧之间的相关而变换,所以将约束条件给予语音样本之间的相关。
在描述本发明的示范性实施例之前,现在将描述阻尼因子。
阻尼因子表示当前帧的参数与前一帧的参数的比率,而帧之间的谱的幅度和频率由等式1表示。
[数学式1]
等式1中,Al k和wl k分别表示第k帧的第l谱的幅度和频率。即,当前帧的相对于谱幅度和频率的阻尼因子分别由gl k和cl k表示。对利用匹配追踪正弦模型分析的谱幅度和频率进行参数内插以防止帧之间的不连续性,其中利用下面示出的等式2的第一行内插谱幅度,并利用下面示出的等式3的第一行内插相位。其中,可以利用谱幅度阻尼因子gl k由等式2的第二行表示通过对前一帧的谱幅度进行内插而合成的谱幅度,而且可以利用频率阻尼因子cl k和谱的相位改变率由等式3的第二行表示通过对前一帧的相位进行内插而合成的相位。
[数学式2]
(2)
[数学式3]
等式2和3中,N表示帧长度。值a表示通过执行前一帧的谱的相位的2阶内插而合成的谱的相位改变率,而且可以利用频率阻尼因子cl k由等式3表示。
图2是根据本发明的示范性实施例的正弦分析器140的框图。
参照图2,正弦分析器140包括正弦幅度/相位搜索单元143、频率阻尼因子施加单元145、阻尼因子选择器147和阻尼因子合成器149。
由于在根据添加有阻尼因子的匹配追踪正弦模型的特性执行合成时利用谱幅度和频率阻尼因子代替内插,因而不需要额外的窗口块。
将LPC逆滤波器125(图1中所示)输出的LP残留信号作为目标信号r[n]输入到正弦幅度/相位搜索单元143,并利用匹配追踪算法搜索目标信号r[n]的谱幅度和相位。即,正弦幅度/相位搜索单元143集成在利用添加有阻尼因子的匹配追踪正弦模型预测和合成参数时所使用的内插方法。
正弦幅度/相位搜索单元143包括计算器块143a、误差最小化块143b、字典元素产生器块143c和累加器块143d,其呈环形配置依次彼此相互耦接。正弦幅度/相位搜索单元143通过将谱幅度阻尼因子gl k固定为1来检测与从频率阻尼因子施加单元145输入的频率阻尼因子cl k的每个候选对应的谱幅度和相位对。以下,将仅描述这样的状态,其中将频率阻尼因子cl k固定为初始值,即,其中所检测的频率为基频的倍数的部分。
将LP残留信号作为第一目标信号r[n]输入到正弦幅度/相位搜索单元143的计算器块143a,而计算器块143a向误差最小化块143b输出跟第一目标信号r[n]与从累加器块143d输出的信号rl-1[n]之间的差对应的信号rl[n]作为新的目标信号。
该情况下,将从由整数音调搜索单元130和分数音调搜索单元150找到的音调检测到的基频w0和新的目标信号rl[n]输入到误差最小化块143b。
误差最小化块143b利用新的目标信号rl[n]借助等式4搜索正弦字典的幅度和相位。
[数学式4]
误差最小化块143b利用等式5(如下所示)获得其中将误差El最小化的Al和θl。即,其中将误差El最小化的Al和θl由等式5表示。
[数学式5]
这里,Al和θl分别是第l谱的幅度和相位。误差最小化块143b根据频率阻尼因子cl k的候选值确定θk,并选择其中将误差El最小化的Al和θl。该情况下,使用初始值作为cl k,而且所检测的频率点是基频的倍数。
[数学式6]
等式6中,正弦字典dl k可以是与第k帧中的第l谱对应的时域波形。
即,字典元素产生器块143c借助输出参数产生通过在时域中仅合成每个帧中的第l谱而获得的时域波形dl k。
[数学式7]
等式7中,L表示通过将音调除以2获得的整数,即,谐波的数量。
阻尼因子选择器147根据每个频率获得最终残留信号的功率值,选择与最小功率值对应的最佳参数,并向阻尼因子合成器149输出最佳参数。
阻尼因子合成器149利用通过重复匹配追踪算法获得的最佳参数合成LP残留信号。
现在将参照图2至4B更详细地描述根据本发明的示范性实施例的匹配追踪算法。
图3A和3B是示出根据本发明的示范性实施例的正弦幅度/相位搜索单元143已经首次操作其呈环形配置的内部块时的信号波形和幅度的曲线图。
将作为第一目标信号r[n]的LP残留信号输入到正弦幅度/相位搜索单元143的计算器块143a并提供给误差最小化块143b。同时,通过音调搜索将基频w0输入到误差最小化块143b。
误差最小化块143b相对于第一目标信号r[n]利用如上面等式5中所示的最小化过程获得基频w0中的正弦幅度A1和相位θ1。
正弦幅度/相位搜索单元143相对于从频率阻尼因子施加单元145输出的cl k的候选值额外地根据cl k的每个候选值检测频率、谱幅度和相位参数。
现在将更详细地描述正弦幅度/相位搜索单元143的相对于从频率阻尼因子施加单元145输出的cl k的候选值的操作。
误差最小化块143b利用从频率阻尼因子施加单元145输出的基频w0和值a搜索能够相对于(1-2a*n)*w0、(1-a*n)*w0、w0、(1+a*n)*w0和(1+2a*n)*w0中的每个频率将误差最小化的正弦幅度A1和相位即,通过基于上面等式3中当前帧与前一帧的基频的差将cl k乘以n/2(n=0、±1、±2)来设置五个候选频率(1-2a*n)*w0、(1-a*n)*w0、w0、(1+a*n)*w0和(1+2a*n)*w0。
例如,如果将阻尼因子a设置为0,则误差最小化块143b获得能够相对于基频w0将误差最小化的正弦幅度A1和相位θ1。
于是,利用上述方法,误差最小化块143b获得能够相对于(1-2a*n)*w0、(1-a*n)*w0、w0、(1+a*n)*w0和(1+2a*n)*w0中的每个频率将误差最小化的正弦幅度A1和相位并向阻尼因子选择器147提供与每个频率对应的一对正弦幅度和相位(A1,)。当输入正弦幅度A1和相位时,字典元素产生器块143c产生由下面等式8表示的正弦字典信号d1 k,并向累加器块输出正弦字典信号d1 k。
[数学式8]
值a表示通过执行前一帧的谱的相位的2阶内插而合成的谱的相位改变率,而且可以利用从频率阻尼因子施加单元145输入的频率阻尼因子cl k由上面等式3表示。
于是,根据如上面等式3中所示的cl k确定值a,并根据a计算检测的频率点,即,(1-2a*n)*w0、(1-a*n)*w0、w0、(1+a*n)*w0和(1+2a*n)*w0。
累加器块通过线性地累加dl k产生合成信号(图3A中的信号b)。该情况下,累加器块143d仅产生d1 k。累加器块143d输出通过在时域中合成d1 k产生的信号计算器块143a通过从作为目标信号r[n](图3A中的信号a)的LP残留信号中减去合成信号(图3A中的信号b)来产生新的目标信号r1[n](图3B中的信号c),并执行下一环操作。
如图3A中所示,目标信号r[n](信号a)和合成信号(信号b)二者在基频w0中形成峰值,以及如图3B中所示当新的目标信号r1[n](信号c)的幅度在基频w0中接近0时,基频w0中的误差值小于其它频率中的误差值。
如上所述,如果相对于基频w0和周围频率的搜索的第一环操作结束,则执行对新的目标信号r1[n]的第二环操作。
图4A和4B是示出根据本发明的示范性实施例的正弦幅度/相位搜索单元143已经第二次操作其呈环形配置的内部块时的信号波形和幅度的曲线图。
图4B示出根据本发明的示范性实施例的频域中由字符c指示的新的目标信号r2[n]的幅度。
在第二环操作中,搜索能够相对于与两倍基频对应的频率2*w0和周围频率将误差最小化的正弦幅度A2和相位
如第一环操作一样,在第二环操作中,当第二目标信号r[n]被输入到误差最小化块143b时,借助音调搜索将与两倍基频对应的频率2*w0同时输入到误差最小化块143b。
即,如第一环操作中一样,误差最小化块143b利用阻尼因子值a搜索能够相对于(1-2a*n)*2*w0、(1-a*n)*2*w0、2*w0、(1+a*n)*2*w0和(1+2a*n)*2*w0中的每个频率将误差最小化的正弦幅度A2和相位
[数学式9]
累加器块143d通过线性地累加dl k即累加第一环操作中产生的时域波形d1 k和第二环操作中产生的时域波形d2 k来产生合成信号。
同样地,在第三环操作中,通过从目标信号r[n](图4A中的信号a)中减去合成信号(图4A中的信号b)来产生第三目标信号r2[n](图4B中的信号c)
如图4A中所示,第一目标信号r[n]的谱的峰值可能不匹配频率2*w0中的信号d2 k的谱的峰值。于是,误差最小化块143b获得能够相对于(1-2a*n)*2*w0、(1-a*n)*2*w0、2*w0、(1+a*n)*2*w0和(1+2a*n)*2*w0中的每个频率将误差最小化的正弦幅度A2和相位并向阻尼因子选择器147提供与每个频率对应的一对正弦幅度和相位(A2,)。
即,如果LP残留信号在与基频w0的整数倍近似对应的位置处形成峰值而不在基频w0的整数倍处形成峰值,则出现帧之间的不连续性,于是为了防止不连续性,搜索与峰值对应的频率以尽可能多地减少误差。
于是,在第二环操作中通过从目标信号中减去通过合成在与两倍基频对应的频率处分析的参数获得的信号而产生新的信号,在第三环操作中通过从目标信号中减去通过合成在与三倍基频对应的频率处分析的参数获得的信号而再次产生新的信号,并重复该过程。
以这样的方式,如果执行了与第一目标信号r[n]的谱的数量l对应的数量的轮转,则相对于作为基频w0的整数倍的频率的周围频率的正弦幅度和相位对被输入到并存储在阻尼因子选择器147中。
通过划分由整数音调搜索单元130和分数音调搜索单元150获得的音调来计算谱的数量,如等式10所示。
[数学式10]
在等式10中,Hnum表示谱的数量,而p表示音调周期。
阻尼因子选择器147根据每个频率获得最终残留信号的功率值,选择其中将功率值最小化的最佳频率阻尼因子cl k,并向阻尼因子合成器149输出与最佳频率阻尼因子cl k对应的Ak和
最终目标信号rl+1[n]可以是到当前时刻为止借助轮转通过从第一目标信号r[n]中减去合成信号而获得的最终残留信号。
即,通过从原始信号中减去具有最大能量的频率的正弦字典并借助从目标信号中减去具有第二大能量的频率的正弦字典来合成新的目标信号,以与产生目标信号的方法的谱的数量相同的次数重复执行正弦幅度/相位搜索单元143的匹配追踪算法。
阻尼因子选择器147根据cl k的每个候选获得最终剩下的最终残留信号的功率值,选择其中将功率值最小化的最佳参数,并向阻尼因子合成器149输出最佳参数。
阻尼因子合成器149利用借助重复匹配追踪算法获得的最佳参数合成LP残留信号。
由阻尼因子合成器149合成的LP残留信号是利用最佳频率阻尼因子cl k以及相应的频率中的谱幅度和相位合成的信号。这里,由于谱幅度阻尼因子gl k被固定为1,不考虑谱幅度阻尼因子gl k,因而仅考虑频率阻尼因子cl k。
阻尼因子选择器147从最终目标信号rl+1[n]获得能够相对于(1-2a*n)*l*w0、(1-a*n)*l*w0、l*w0、(1+a*n)*l*w0和(1+2a*n)*l*w0中的每个频率将误差最小化的正弦幅度Al和相位并存储与每个频率对应的一对正弦幅度和相位(A,)。
阻尼因子选择器147最终相对于5个频率阻尼因子cl k中的每一个获得最终残留信号的功率值,选择其中将功率值最小化的最佳频率阻尼因子cl k,并向阻尼因子合成器149输出与最佳频率阻尼因子cl k对应的Al和
通过将残留信号的谱自乘来获得功率值。
[数学式11]
这里,作为上标的标记(即,r帽)表示考虑阻尼因子的影响的谱的幅度和相位。
阻尼因子合成器149还利用下面示出的等式12至14确定谱幅度阻尼因子gl k。这里,通过考虑数据率的约束假定gl k为g0 k来估计g0 k。
[数学式12]
最后,由于在 时获得g0 k的最佳解,将等式12改写为等式13。
[数学式13]
于是,为g0 k将等式12改写为等式14。
[数学式14]
这些最终估计的参数,即,谱幅度和相位以及阻尼因子g0 k和c0 k,用于正弦合成公式。
即,通过利用频率阻尼因子cl k调整每个峰脉冲的位置、利用谱幅度阻尼因子g0 k将前一帧的最后一个峰脉冲的幅度与当前帧的第一个峰脉冲的幅度之间的斜坡调整为线性的、并调整每个当前帧的各个峰脉冲之间的斜坡来改善不连续的语音信号。
现在将参照图5A和5B更详细地描述由相位/谱幅度量化器160用于量化从正弦分析器140输出的LP残留信号的谱幅度和阻尼因子的方法。
相位/谱幅度量化器160包括谱幅度量化器160a和相位量化器160b。
图5A和5B是根据本发明的示范性实施例的谱幅度量化器160a的编码器端和解码器端的框图。
参照图5A,谱幅度量化器160a的编码器端包括正规化块161、离散余弦变换(DCT)块162、初级变量向量匹配单元163、向量缓冲器164和次级变量向量匹配单元165。
谐波幅度值的数量为大约6-120,而为了量化该可变数量的谱幅度(谐波值和非谐波值),使用DCT功能。利用分离向量量化方法和多级向量量化方法来量化经变换的DCT值。根据DCT量化器的分析过程,利用上面等式10获得谐波的数量。
正规化块161如下面等式15中所示利用谱幅度的平均能量正规化每个谱幅度。因为根据语音信号的能量检测的谱幅度的变化范围很大,所以为了量化效率执行正规化以将谱幅度的变化范围减小到阈值范围之内。该阈值范围可以预先确定。
[数学式15]
DCT块162如等式16中所示利用改进DCT(MDCT)变换经正规化的谱值。
[数学式16]
(16)
初级变量向量匹配单元163从码本1选择N个候选向量以使得将DCT系数之间的欧几里得距离最小化,并在向量缓冲器164中存储该N个候选向量。
次级变量向量匹配单元165获得N个候选向量之间的差值,从码本2选择N个码本候选向量,并最终选择将利用原始DCT系数的欧几里得距离最小化的码本候选向量。
参照图5B,谱幅度量化器160a的解码器端包括逆DCT(IDCT)块166,而IDCT块166通过执行由解码器端选择的码本1和码本2的码本值的逆MDCT(IMDCT)来获得逆量化的值和原始谱幅度。
现在将参照图6描述量化利用添加有阻尼因子的匹配追踪正弦模型提取的参数当中的相位的方法。
图6是根据本发明的示范性实施例的相位量化器160b的框图。
参照图6,相位量化器160b包括距离计算块167、权重函数块168和最小化块169。
虽然相位量化器160b被示出为一个级的量化器,但是也可以通过并行地连接两个或更多量化器来调整传输率以减少前一级的量化错误或调整被量化的相位的数量。即,被量化的相位的数量针对每个传输率变化,而且针对每个传输率出现的相位量化错误也被量化。
距离计算块167接收目标相位,并获得目标相位与从目标相位产生的码本相位之间的距离。即,在所有类型的向量量化中,使用搜索在要量化的目标信号与经量化信号的码本索引之间具有最小差的量化值的方法。这是因为,由于具有最小差的量化值与目标相位最相似,所以量化错误被最小化。
根据垂直线上的标量量化,每个维度中的误差为最大2π。然而,如果利用相位的模2π旋转特性在极坐标上获得误差,则最大误差是π。通过利用相位的该旋转特性,可以高效率地减少位的数量。将目标量化信号与码本相位之间的相关表示为等式17和18。
[数学式17]
phasetar(n)=phasecode1(n)+phaseerror0(n) (17)
[数学式18]
phaseerror0(n)=phasecode2(n)+phaseerror1(n) (18)
这里,phasetar(n)表示第n维度的目标相位,phasecode1(n)表示第n维度的第1级码本相位,而phaseerror0(n)表示第n维度的第1级误差相位。为了如等式15中表示phasetar(n),有利的是如等式16中根据目标信号和码本索引的符号而不同地表示phaseerror0(n)。该相关由等式19表示。
[数学式19]
此外,利用相位的旋转特性,使用加权滤波器的设计以便通过根据输入语音的谱幅度改变相位码本中的误差权重而在时域中将合成的语音表示为与输入语音最相似的语音。权重函数块168根据LP残留信号的LPC系数和谱幅度利用包络值获得相对于具有相同的维度的相位的权重函数PW(N)。
最小化块169利用从权重函数块168接收的权重函数以及从下面等式20获得的均方误差(MSE)来搜索最佳相位索引,并向MUX 190发送最佳相位索引。
[数学式20]
MSE=PW2(N)(phasetar(n)-phasecode(n))2 (20)
这里,PW(N)表示第n维度的输入语音信号的谱幅度,而phasecode(n)表示利用码本合成的合成相位。
如上所述,本发明的示范性实施例涉及扩展用于提供具有良好频率分辨率的匹配追踪方法以对语音信号进行高效率正弦建模的正弦模型、以及使用该扩展正弦模型的宽带语音编码器。此外,为了高效率地量化扩展正弦模型的参数,使用利用DCT的谐波量化器以及旋转权重相位量化器。另外,通过发送全部级的参数量化误差或根据级增加参数的数量可以支持信噪比(SNR)可扩展性。
本发明的概念也可以实现为计算机程序。本发明的概念所属领域的程序员可以容易地得出用于实现所述计算机程序的代码和代码段。根据本发明的计算机程序的示范性实施例通过存储在计算机可读记录介质中并在之后由计算机系统读取和执行来实现编码/解码宽带语音信号的方法。计算机可读记录介质的示例包括磁记录介质、光记录介质和载波介质。
虽然已经参照其示范性实施例具体地展示和描述了本发明的概念,但是本领域技术人员将理解,可以在其中从形式和细节上作出各种变更而不背离由所附权利要求书限定的本发明的精神和范围。示范性实施例应当仅作描述的意义考虑而非用于限制的目的。因而,本发明的范围并非由本发明的详细描述而是由所附权利要求书限定,而且该范围内的全部变化将被解读为包含在本发明之内。
对相关申请的交叉引用
本申请要求于2006年11月28日向韩国特许厅提交的韩国专利申请No.10-2006-0118546的优先权,其公开的全部内容通过引用而被合并于此。
Claims (24)
1.一种方法,包括:
从宽带语音信号中提取线性预测系数LPC;
利用LPC从宽带语音信号中去除包络以获得线性预测LP残留信号;
音调-搜索LP残留信号的谱;
通过向匹配追踪算法添加阻尼因子,提取LP残留信号的与阻尼因子对应的多个谱幅度和相位;
从所提取的多个谱幅度和相位当中获取其中将LP残留信号的功率值最小化的第一谱幅度和第一相位;以及
量化第一谱幅度和第一相位。
2.如权利要求1所述的方法,进一步包括解码宽带语音信号。
3.如权利要求1所述的方法,其中所述阻尼因子包括LP残留信号的谱幅度阻尼因子和频率阻尼因子。
4.如权利要求3所述的方法,其中所述提取LP残留信号的多个谱幅度和相位的步骤包括:
利用频率阻尼因子相对于通过音调-搜索LP残留信号获得的每个频率设置多个候选频率;
通过相对于通过音调-搜索获得的每个频率从多个候选频率当中获得其中将误差值最小化的频率和相位来计算正弦字典值,并累加相对于通过音调-搜索获得的每个频率计算的正弦字典值;
通过从作为目标信号的LP残留信号中减去所累加的正弦字典值来产生最终残留信号;以及
检测与其中相对于通过音调-搜索获得的每个频率将最终残留信号的功率值最小化的第一谱幅度和第一相位对应的频率阻尼因子。
5.如权利要求4所述的方法,其中所述设置多个候选频率的步骤包括相对于与LP残留信号中基频的n倍对应的频率利用频率阻尼因子设置与基频的n-1倍对应的频率和与基频的n+1倍对应的频率之间的多个候选频率。
6.如权利要求5所述的方法,其中累加的正弦字典的数量与宽带语音信号的谱的数量相等。
7.如权利要求4所述的方法,其中利用第一谱幅度和第一相位来获得和量化谱幅度阻尼因子。
8.如权利要求7所述的方法,其中利用离散余弦变换DCT量化第一谱幅度。
9.如权利要求8所述的方法,其中量化第一相位的步骤包括:
通过获得第一相位与从第一相位产生的多个第一码本相位之间的第一多个差、将第一多个差乘以与第一相位对应的包络值以产生第一多个相乘结果、并将第一多个差中的每个差分别加到第一多个相乘结果中的各个相乘结果来获得第一多个距离;
检测和输出允许将第一多个距离当中的距离最小化的第一码本相位;
通过调整从第一码本相位与第一相位之间的差产生的相位误差向量来产生第二相位,并通过获得第二相位与从第二相位产生的多个第二码本相位之间的第二多个差、将第二多个差差乘以与第二相位对应的包络值以产生第二多个相乘结果、并将第二多个差中的每个差分别加到第二多个相乘结果中的各个相乘结果来获得第二多个距离;以及
检测和输出允许将第二多个距离当中的距离最小化的第二码本相位。
10.如权利要求9所述的方法,其中通过根据各种传输率基于模式信息确定位分配来量化阻尼因子、谱幅度、相位和音调。
11.如权利要求7所述的方法,其中所述解码宽带语音信号的步骤包括:
解码经量化的第一谱幅度和经量化的第一相位;
解码经量化的阻尼因子;
利用第一谱幅度、第一相位、阻尼因子、音调值其中至少一个来合成LP残留信号;以及
从LP残留信号解码宽带语音信号。
12.一种用于在宽带语音编码系统中编码宽带语音信号的装置,该装置包括:
线性预测系数LPC分析器,其从宽带语音信号中提取LPC;
LPC逆滤波器,其输出通过利用LPC从宽带语音信号中去除包络而获得的线性预测LP残留信号;
音调搜索单元,其音调-搜索LP残留信号的谱;
正弦分析器,其通过向匹配追踪算法添加阻尼因子来提取LP残留信号的与阻尼因子对应的多个谱幅度和相位,并从所提取的多个谱幅度和相位当中获得其中将LP残留信号的功率值最小化的第一谱幅度和第一相位;以及
相位和谱幅度量化器,其量化第一谱幅度和第一相位。
13.如权利要求12所述的装置,其中所述阻尼因子包括LP残留信号的谱幅度阻尼因子和频率阻尼因子。
14.如权利要求13所述的装置,其中所述正弦分析器包括:
频率阻尼因子施加单元,其相对于利用频率阻尼因子通过音调-搜索LP残留信号获得的每个频率设置多个候选频率;
误差最小化单元,其相对于通过音调-搜索获得的每个频率从多个候选频率当中获得其中将误差值最小化的频率和相位;
字典分量产生器,其基于从误差最小化单元输出的频率和相位获得正弦字典值;
累加器,其从字典分量产生器接收相对于通过音调-搜索获得的每个频率产生的正弦字典值,并累加正弦字典值;
计算器,其通过从LP残留信号中减去所累加的正弦字典值来产生最终残留信号;以及
阻尼因子选择器,其检测与其中相对于通过音调-搜索获得的每个频率将最终残留信号的功率值最小化的第一谱幅度和第一相位对应的频率阻尼因子。
15.如权利要求14所述的装置,其中所述频率阻尼因子施加单元相对于与LP残留信号中基频的n倍对应的频率利用频率阻尼因子设置与基频的n-1倍对应的频率和与基频的n+1倍对应的频率之间的多个候选频率。
16.如权利要求15所述的装置,其中累加的正弦字典的数量与宽带语音信号的谱的数量相等。
17.如权利要求14所述的装置,进一步包括阻尼因子合成器,其利用第一谱幅度和第一相位获得谱幅度阻尼因子。
18.如权利要求17所述的装置,其中所述相位和谱幅度量化器利用离散余弦变换DCT量化第一谱幅度。
19.如权利要求18所述的装置,其中所述相位和谱幅度量化器包括:
距离计算块,其通过获得第一相位与从第一相位产生的多个第一码本相位之间的多个差、将所述多个差乘以与第一相位对应的包络值以产生多个相乘结果、并将所述多个差中的每个差分别加到所述多个相乘结果中的各个相乘结果来获得距离;
最小化块,其检测允许将所述距离最小化的第一码本相位,并通过向从与最小化距离对应的第一码本相位与第一相位之间的差产生的相位误差向量施加权重函数来输出第二相位;以及
权重函数块,其向最小化块输出谱幅度和音调的权重函数。
20.如权利要求19所述的装置,其中并行地耦接起来的多个相位和谱幅度量化器量化第一相位。
21.如权利要求19所述的装置,其中该装置通过根据各种传输率基于模式信息确定位分配来量化阻尼因子、谱幅度、相位和音调。
22.一种宽带语音编码和解码系统,包括:
宽带语音编码装置,其通过利用从宽带语音信号中提取的线性预测系数LPC从宽带语音信号中去除包络而获得线性预测LP残留信号,通过向匹配追踪算法添加阻尼因子来提取LP残留信号的与阻尼因子对应的多个谱幅度和相位,从所提取的多个谱幅度和相位当中获得其中将LP残留信号的功率值最小化的第一谱幅度和第一相位,并量化第一谱幅度和第一相位;以及
宽带语音解码装置,其通过解码经量化的第一谱幅度、经量化的第一相位和经量化的阻尼因子并合成LP残留信号来解码宽带语音信号。
23.一种存储用于执行一方法的计算机可读程序的计算机可读记录介质,该方法包括:
从宽带语音信号中提取线性预测系数LPC;
利用LPC从宽带语音信号中去除包络以获得线性预测LP残留信号;
音调-搜索LP残留信号的谱;
通过向匹配追踪算法添加阻尼因子,提取LP残留信号的与阻尼因子对应的多个谱幅度和相位;
从所提取的多个谱幅度和相位当中获取其中将LP残留信号的功率值最小化的第一谱幅度和第一相位;以及
量化第一谱幅度和第一相位。
24.如权利要求23所述的计算机可读记录介质,其中所述方法进一步包括解码宽带语音信号。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060118546 | 2006-11-28 | ||
KR1020060118546A KR100788706B1 (ko) | 2006-11-28 | 2006-11-28 | 광대역 음성 신호의 부호화/복호화 방법 |
KR10-2006-0118546 | 2006-11-28 | ||
PCT/KR2007/005768 WO2008066268A1 (en) | 2006-11-28 | 2007-11-16 | Method, apparatus, and system for encoding and decoding broadband voice signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101542599A true CN101542599A (zh) | 2009-09-23 |
CN101542599B CN101542599B (zh) | 2013-08-21 |
Family
ID=39147993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800440207A Expired - Fee Related CN101542599B (zh) | 2006-11-28 | 2007-11-16 | 用于编码和解码宽带语音信号的方法、装置和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8271270B2 (zh) |
KR (1) | KR100788706B1 (zh) |
CN (1) | CN101542599B (zh) |
WO (1) | WO2008066268A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105807A (zh) * | 2014-01-15 | 2020-05-05 | 三星电子株式会社 | 对线性预测编码系数进行量化的加权函数确定装置和方法 |
CN111812603A (zh) * | 2020-07-17 | 2020-10-23 | 中国人民解放军海军航空大学 | 一种反舰导弹雷达导引头动态性能验证系统 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2466669B (en) * | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466674B (en) | 2009-01-06 | 2013-11-13 | Skype | Speech coding |
GB2466672B (en) * | 2009-01-06 | 2013-03-13 | Skype | Speech coding |
GB2466673B (en) | 2009-01-06 | 2012-11-07 | Skype | Quantization |
GB2466670B (en) * | 2009-01-06 | 2012-11-14 | Skype | Speech encoding |
GB2466675B (en) | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466671B (en) * | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
US8452606B2 (en) * | 2009-09-29 | 2013-05-28 | Skype | Speech encoding using multiple bit rates |
EP2525357B1 (en) * | 2010-01-15 | 2015-12-02 | LG Electronics Inc. | Method and apparatus for processing an audio signal |
JP2012032648A (ja) * | 2010-07-30 | 2012-02-16 | Sony Corp | 機械音抑圧装置、機械音抑圧方法、プログラムおよび撮像装置 |
KR101747917B1 (ko) | 2010-10-18 | 2017-06-15 | 삼성전자주식회사 | 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법 |
US9472199B2 (en) * | 2011-09-28 | 2016-10-18 | Lg Electronics Inc. | Voice signal encoding method, voice signal decoding method, and apparatus using same |
CN102737647A (zh) * | 2012-07-23 | 2012-10-17 | 武汉大学 | 双声道音频音质增强编解码方法及装置 |
RU2632585C2 (ru) | 2013-06-21 | 2017-10-06 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Способ и устройство для получения спектральных коэффициентов для заменяющего кадра аудиосигнала, декодер аудио, приемник аудио и система для передачи аудиосигналов |
KR102298767B1 (ko) * | 2014-11-17 | 2021-09-06 | 삼성전자주식회사 | 음성 인식 시스템, 서버, 디스플레이 장치 및 그 제어 방법 |
US10531099B2 (en) * | 2016-09-30 | 2020-01-07 | The Mitre Corporation | Systems and methods for distributed quantization of multimodal images |
CN114360559B (zh) * | 2021-12-17 | 2022-09-27 | 北京百度网讯科技有限公司 | 语音合成方法、装置、电子设备和存储介质 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5630011A (en) * | 1990-12-05 | 1997-05-13 | Digital Voice Systems, Inc. | Quantization of harmonic amplitudes representing speech |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5657422A (en) * | 1994-01-28 | 1997-08-12 | Lucent Technologies Inc. | Voice activity detection driven noise remediator |
US5765130A (en) * | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
JPH10124092A (ja) * | 1996-10-23 | 1998-05-15 | Sony Corp | 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置 |
JPH11219199A (ja) * | 1998-01-30 | 1999-08-10 | Sony Corp | 位相検出装置及び方法、並びに音声符号化装置及び方法 |
US6330533B2 (en) * | 1998-08-24 | 2001-12-11 | Conexant Systems, Inc. | Speech encoder adaptively applying pitch preprocessing with warping of target signal |
JP4244223B2 (ja) | 1998-10-13 | 2009-03-25 | 日本ビクター株式会社 | 音声符号化方法及び音声復号方法 |
JP4274614B2 (ja) | 1999-03-09 | 2009-06-10 | パナソニック株式会社 | オーディオ信号復号方法 |
KR100300964B1 (ko) * | 1999-05-18 | 2001-09-26 | 윤종용 | 음성 코딩/디코딩 장치 및 그 방법 |
FI116643B (fi) * | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
KR100348899B1 (ko) * | 2000-09-19 | 2002-08-14 | 한국전자통신연구원 | 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법 |
BR0107420A (pt) * | 2000-11-03 | 2002-10-08 | Koninkl Philips Electronics Nv | Processos de codificação de um sinal de entrada e de decodificação, sinal modificado modelado, meio de armazenagem, decodificador, reprodutor de áudio, e ,aparelho para codificação de sinais |
ATE354850T1 (de) * | 2000-11-03 | 2007-03-15 | Koninkl Philips Electronics Nv | Kodierung von audiosignalen |
JP2002149198A (ja) | 2000-11-13 | 2002-05-24 | Matsushita Electric Ind Co Ltd | 音声符号化装置及び音声復号化装置 |
JP3639216B2 (ja) | 2001-02-27 | 2005-04-20 | 三菱電機株式会社 | 音響信号符号化装置 |
US7027980B2 (en) | 2002-03-28 | 2006-04-11 | Motorola, Inc. | Method for modeling speech harmonic magnitudes |
KR100462611B1 (ko) * | 2002-06-27 | 2004-12-20 | 삼성전자주식회사 | 하모닉 성분을 이용한 오디오 코딩방법 및 장치 |
CN1717718A (zh) * | 2002-11-27 | 2006-01-04 | 皇家飞利浦电子股份有限公司 | 正弦波音频编码 |
US7523032B2 (en) * | 2003-12-19 | 2009-04-21 | Nokia Corporation | Speech coding method, device, coding module, system and software program product for pre-processing the phase structure of a to be encoded speech signal to match the phase structure of the decoded signal |
KR100579797B1 (ko) * | 2004-05-31 | 2006-05-12 | 에스케이 텔레콤주식회사 | 음성 코드북 구축 시스템 및 방법 |
JP2008503786A (ja) * | 2004-06-22 | 2008-02-07 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | オーディオ信号の符号化及び復号化 |
MX2007003063A (es) * | 2004-09-17 | 2007-05-16 | Koninkl Philips Electronics Nv | Codificacion combinada de audio que minimiza la distorsion perceptual. |
US20090138271A1 (en) * | 2004-11-01 | 2009-05-28 | Koninklijke Philips Electronics, N.V. | Parametric audio coding comprising amplitude envelops |
KR100707174B1 (ko) * | 2004-12-31 | 2007-04-13 | 삼성전자주식회사 | 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법 |
KR100707186B1 (ko) * | 2005-03-24 | 2007-04-13 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체 |
TWI324336B (en) * | 2005-04-22 | 2010-05-01 | Qualcomm Inc | Method of signal processing and apparatus for gain factor smoothing |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
-
2006
- 2006-11-28 KR KR1020060118546A patent/KR100788706B1/ko active IP Right Grant
-
2007
- 2007-08-14 US US11/838,268 patent/US8271270B2/en not_active Expired - Fee Related
- 2007-11-16 CN CN2007800440207A patent/CN101542599B/zh not_active Expired - Fee Related
- 2007-11-16 WO PCT/KR2007/005768 patent/WO2008066268A1/en active Application Filing
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105807A (zh) * | 2014-01-15 | 2020-05-05 | 三星电子株式会社 | 对线性预测编码系数进行量化的加权函数确定装置和方法 |
CN111105807B (zh) * | 2014-01-15 | 2023-09-15 | 三星电子株式会社 | 对线性预测编码系数进行量化的加权函数确定装置和方法 |
CN111812603A (zh) * | 2020-07-17 | 2020-10-23 | 中国人民解放军海军航空大学 | 一种反舰导弹雷达导引头动态性能验证系统 |
Also Published As
Publication number | Publication date |
---|---|
US8271270B2 (en) | 2012-09-18 |
CN101542599B (zh) | 2013-08-21 |
US20080126084A1 (en) | 2008-05-29 |
WO2008066268A1 (en) | 2008-06-05 |
KR100788706B1 (ko) | 2007-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101542599A (zh) | 用于编码和解码宽带语音信号的方法、装置和系统 | |
JP5343098B2 (ja) | スーパーフレーム構造のlpcハーモニックボコーダ | |
US6260009B1 (en) | CELP-based to CELP-based vocoder packet translation | |
EP1619664B1 (en) | Speech coding apparatus, speech decoding apparatus and methods thereof | |
JP4662673B2 (ja) | 広帯域音声及びオーディオ信号復号器における利得平滑化 | |
US7599833B2 (en) | Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same | |
US6081776A (en) | Speech coding system and method including adaptive finite impulse response filter | |
US5809459A (en) | Method and apparatus for speech excitation waveform coding using multiple error waveforms | |
US6138092A (en) | CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency | |
US20070244695A1 (en) | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision | |
WO2000038177A1 (en) | Periodic speech coding | |
KR19990077753A (ko) | 오디오 신호 부호화 장치, 오디오 신호 복호화 장치 및 오디오 신호 부호화/복호화 장치 | |
JPH09127990A (ja) | 音声符号化方法及び装置 | |
JPH08263099A (ja) | 符号化装置 | |
US20070219787A1 (en) | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision | |
JP2004526213A (ja) | 音声コーデックにおける線スペクトル周波数ベクトル量子化のための方法およびシステム | |
JP2003323199A (ja) | 符号化装置、復号化装置及び符号化方法、復号化方法 | |
US20130218578A1 (en) | System and Method for Mixed Codebook Excitation for Speech Coding | |
US20040111257A1 (en) | Transcoding apparatus and method between CELP-based codecs using bandwidth extension | |
JPH11510274A (ja) | 線スペクトル平方根を発生し符号化するための方法と装置 | |
JP2002544551A (ja) | 遷移音声フレームのマルチパルス補間的符号化 | |
KR100516678B1 (ko) | 음성 코덱의 음성신호의 피치검출 장치 및 방법 | |
EP1497631A1 (en) | Generating lsf vectors | |
WO2011118977A2 (ko) | 오디오 신호 처리 방법 및 장치 | |
JP2002366195A (ja) | 音声符号化パラメータ符号化方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130821 Termination date: 20201116 |