CN108461088B - 基于支持向量机在语音解码端重构子带清浊音度参数的方法 - Google Patents
基于支持向量机在语音解码端重构子带清浊音度参数的方法 Download PDFInfo
- Publication number
- CN108461088B CN108461088B CN201810232462.4A CN201810232462A CN108461088B CN 108461088 B CN108461088 B CN 108461088B CN 201810232462 A CN201810232462 A CN 201810232462A CN 108461088 B CN108461088 B CN 108461088B
- Authority
- CN
- China
- Prior art keywords
- parameter
- pure
- tone
- subband
- framing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013139 quantization Methods 0.000 claims abstract description 26
- 230000005540 biological transmission Effects 0.000 claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 9
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 9
- 238000009432 framing Methods 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 27
- 239000000284 extract Substances 0.000 claims description 16
- 238000005086 pumping Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 9
- 241000208340 Araliaceae Species 0.000 claims description 5
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 5
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 5
- 235000008434 ginseng Nutrition 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 5
- 230000005284 excitation Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法,首先利用语音样本的5个子带清浊音度参数、声道参数、基音参数和能量参数训练出5个子带清浊音判决的支持向量机模型,在低速率声码器的解码端,利用线谱频率参数、基音周期参数、能量参数与子带清浊音度参数的相关性,对子带清浊音度参数进行重构。摒弃传统编码器中对子带清浊音度参数量化编码传输的方法,在声码器中引入支持向量机,利用线谱频率参数、基音周期参数和能量参数将子带清浊音度参数直接恢复出来,在不明显降低各子带清浊音判决准确率的前提下,节省的量化比特数,可用来量化其他更加重要的参数,整体上可以进一步提升合成语音的质量。
Description
技术领域
本发明涉及一种重构子带清浊音度参数的方法,更具体的说,尤其涉及一种基于支持向量机在语音解码端重构子带清浊音度参数的方法。
背景技术
语音编码在通信系统、语音存储回放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟(ITU)、一些区域组织和国家相继制定了一系列语音压缩编码标准,在编码速率为2.4kb/s到16kb/s上得到了令人满意的语音质量。目前国内外的研究主要集中在2.4kb/s以下速率高质量语音压缩编码上,主要用于无线通信、保密通信、大容量语音存储回放等。其中,混合激励线性预测编码模型得到了广泛采用,表现优异。在混合激励线性预测编码模型中,解码端采用了多带激励信号合成,合成过程需要依靠表征各子带清浊音判决结果的子带清浊音度参数。目前,解码端获取子带清浊音度参数的方法如下:
(1)对输入语音信号样点按时间顺序分帧;
(2)按帧提取子带清浊音度参数;
(3)对子带清浊音度参数进行矢量量化,将其量化索引值进行编码传输,量化码本的训练方法可参照杨行峻等人著《语音信号数字处理》矢量量化一章中所采用的LBG算法;
(4)解码端根据索引值搜索码本得到子带清浊音度参数;送入激励信号合成端生成激励信号。
低速率语音编码中,量化比特数有限,是宝贵的资源。子带清浊音度参数需要进行量化传输,从而占用了可观的量化比特数。而实验证明,在混合激励线性预测编码模型中,子带清浊音度参数同其他语音编码参数间仍然具有一定的相关性。在现有的语音编码技术中,没有充分利用这种相关性来进一步提高语音编码的效率。
发明内容
本发明为了克服上述技术问题的缺点,提供了一种基于支持向量机在语音解码端重构子带清浊音度参数的方法。
本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法,包括支持向量机模型训练阶段和子带清浊音度参数恢复阶段;其特征在于:支持向量机模型训练阶段,首先采集足够长的语音信号并对其进行分帧,然后提取分帧的5个子带清浊音度参数、声道参数、基音参数和能量参数,以形成支持向量机模型的训练数据,然后通过迭代的方式训练出5个子带清浊音判决的支持向量机模型;子带清浊音度参数恢复阶段,编码端采集语音信号并分帧,然后提取分帧的声道参数、基音参数和能量参数并对其量化编码和传输,解码端根据接收到的索引值反量化后得到声道参数、基音参数和能量参数,并利用训练好的5个子带清浊音判决的支持向量机模型重构子带清浊音度参数,以形成高质量的语音信号。
本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法,所述支持向量机模型训练阶段通过以下步骤来实现:
a).语音信号采集,以频率f对语音信号进行采集,将采集的语音信号以Nbit进行量化,以形成足够长度的线性PCM文件,作为训练语音集;
b).语音信号分帧,将步骤a)中获取的训练语音集按时间顺序以帧长Tms进行分帧,记分帧集合为M={m1、m2、…、mn},n为总帧数;
c).提取子带清浊音度参数,从步骤b)中的每个分帧中提取5个子带清浊音度参数,记分帧Mi的5个子带清浊音度参数为Vi={vi1、vi2、…、vi5},并记录Mi中每个子带清浊音度参数的判决结果,i=1,2,…n;
d).提取语音参数,提取每帧的声道参数Lsf、基音参数P、能量参数G,并进行归一化处理;记归一化处理后分帧Mi的声道参数、基音参数和能量参数分别为Lsfi、Pi、Gi,i=1,2,…n;
e).训练支持向量机模型,以{ vi1、Lsfi、Pi、Gi}、{ vi2、Lsfi、Pi、Gi}、{ vi3、Lsfi、Pi、Gi}、{ vi4、 Lsfi、Pi、Gi}、{ vi5、Lsfi、Pi、Gi},i=1,2,…n,分别作为5个子带清浊音判决的支持向量机模型的训练数据,5个子带的清浊音判决结果作为对应支持向量机模型的标定值,对5个子带清浊音判决的支持向量机模型进行训练,经过多次迭代,得到训练好的 5个子带清浊音判决的支持向量机模型;
所述子带清浊音度参数恢复阶段通过以下步骤来实现:
1).语音采集和分帧,编码端以频率f对输入的语音信号进行采样,并将采样后的语音信号按时间顺序进行分帧,设得到的帧数为m;
2).语音参数的提取,编码端按帧从步骤1)获取的每个分帧中提取声道参数Lsf、基音参数P、能量参数G;
3).编码和传输,编码端按帧对获取的声道参数、基音参数和能量参数进行量化编码,并将量化编码得到的参数索引传输到解码端,直至所有帧的参数索引传输完毕;
4).反量化,在解码端根据索引值反量化得到各帧的参数,记得到的第j帧的声道参数为、基音参数为、能量参数为,j=1,2,…,m;
5).重构清浊音度参数,在解码端,根据训练得到的5个子带清浊音判决的支持向量机模型,利用声道参数为、基音参数为、能量参数为,依次送入每个子带清浊音判决对应的支持向量机模型,计算出第j帧的5个子带清浊音度参数,最后将5个子带清浊音度参数送入激励信号合成端生成激励信号,以获取高质量的语音信号。
本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法,步骤a)和步骤1)中采用诸如8kHz的频率f进行信号采集,步骤a)中以诸如16bit的长度对语音信号进行量化,步骤b)和步骤1)中以诸如20ms或25ms的帧长对语音信号进行分帧。
本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法,步骤e)中,5个子带清浊音判决的支持向量机模型的核函数选择径向基函数。
本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法,步骤5)中,首先利用第一子带清浊音判决的支持向量机模型判别第1子带为清音还是浊音,若为清音,则后面4个子带皆为清音,无需再重复判别;若第一子带为浊音,则利用其余四个训练好的子带清浊音判决的支持向量机模型,分别判别剩余4个子带为清音还是浊音。
本发明的有益效果是:本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法,摒弃传统声码器中对子带清浊音度参数量化编码传输的方法,在低速率声码器的解码端引入支持向量机,利用线谱频率参数、基音周期参数、能量参数与子带清浊音度参数的相关性,对子带清浊音度参数进行重构,在不明显降低各子带清浊音判决准确率的前提下,节省的量化比特数,可用来量化其他更加重要的参数,整体上可以进一步提升合成语音的质量。
附图说明
图1为本发明中支持向量机模型训练阶段的流程图;
图2为本发明中子带清浊音度参数恢复阶段的流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图1所示,给出了本发明中支持向量机模型训练阶段的流程图,其通过以下步骤来实现:
a).语音信号采集,以频率f对语音信号进行采集,将采集的语音信号以Nbit进行量化,以形成足够长度的线性PCM文件,作为训练语音集;
b).语音信号分帧,将步骤a)中获取的训练语音集按时间顺序以帧长Tms进行分帧,记分帧集合为M={m1、m2、…、mn},n为总帧数;
步骤a)中,可按8khz频率采样、16bit量化,并经过高通滤波去除工频干扰,以形成线性PCM语音样点。步骤b)中可采用帧长25ms或20ms进行分帧,也就是200个或160个语音样点构成一帧,但不限于此。
c).提取子带清浊音度参数,从步骤b)中的每个分帧中提取5个子带清浊音度参数,记分帧Mi的5个子带清浊音度参数为Vi={vi1、vi2、…、vi5},并记录Mi中每个子带清浊音度参数的判决结果,i=1,2,…n;
d).提取语音参数,提取每帧的声道参数Lsf、基音参数P、能量参数G,并进行归一化处理;记归一化处理后分帧Mi的声道参数、基音参数和能量参数分别为Lsfi、Pi、Gi,i=1,2,…n;
步骤c)和步骤d)中,可按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法提取5个子带清浊音度参数BPVC、声道参数Lsf、基音参数P、能量参数G。语音信号的5个子带分别为0~500Hz,500~1000Hz,1000~2000Hz,2000~3000Hz,3000~4000Hz。
e).训练支持向量机模型,以{ vi1、Lsfi、Pi、Gi}、{ vi2、Lsfi、Pi、Gi}、{ vi3、Lsfi、Pi、Gi}、{ vi4、 Lsfi、Pi、Gi}、{ vi5、Lsfi、Pi、Gi},i=1,2,…n,分别作为5个子带清浊音判决的支持向量机模型的训练数据,5个子带的清浊音判决结果作为对应支持向量机模型的标定值,对5个子带清浊音判决的支持向量机模型进行训练,经过多次迭代,得到训练好的 5个子带清浊音判决的支持向量机模型。
该步骤中,将得到的训练数据转化成支持向量机可以识别的格式,采用开源库LIBSVM工具,设定好支持向量机的各种参数,其中核函数选择径向基函数对输入的训练数据进行多次迭代,得到训练好的5个支持向量机模型。
如图2所示,给出了本发明中子带清浊音度参数恢复阶段的流程图,其通过以下步骤来实现:
1).语音采集和分帧,编码端以频率f对输入的语音信号进行采样,并将采样后的语音信号按时间顺序进行分帧,设得到的帧数为m;
该步骤中,也是按8khz频率采样,对输入语音信号样点按时间顺序分帧并经过高通滤波去除工频干扰,以形成满足要求的语音样点。如果帧长为25ms,也就是200个语音样点构成一帧,但各参数的选择不限于此。
2).语音参数的提取,编码端按帧从步骤1)获取的每个分帧中提取声道参数Lsf、基音参数P、能量参数G;
该步骤中,按美国政府2400b/s混合激励的线性预测(MELP)语音编码算法标准所描述的方法提取声道参数Lsf、基音参数P、能量参数G。
3).编码和传输,编码端按帧对获取的声道参数、基音参数和能量参数进行量化编码,并将量化编码得到的参数索引传输到解码端,直至所有帧的参数索引传输完毕;
4).反量化,在解码端根据索引值反量化得到各帧的参数,记得到的第j帧的声道参数为、基音参数为、能量参数为,j=1,2,…,m;
5).重构清浊音度参数,在解码端,根据训练得到的5个子带清浊音判决的支持向量机模型,利用声道参数为、基音参数为、能量参数为,依次送入每个子带清浊音判决对应的支持向量机模型,计算出第j帧的5个子带清浊音度参数,最后将5个子带清浊音度参数送入激励信号合成端生成激励信号,以获取高质量的语音信号。
首先利用第一子带清浊音判决的支持向量机模型判别第1子带为清音还是浊音,若为清音,则后面4个子带皆为清音,无需再重复判别;若第一子带为浊音,则利用其余四个训练好的子带清浊音判决的支持向量机模型,分别判别剩余4个子带为清音还是浊音,得到子带清浊音度参数后送入激励信号合成端生成激励信号。
本发明的基于支持向量机在语音解码端重构子带清浊音度参数的方法,摒弃传统编码器中对子带清浊音度参数量化编码传输的方法,在声码器中引入支持向量机,利用线谱频率参数、基音周期参数和能量参数将子带清浊音度参数直接恢复出来,在不明显降低各子带清浊音判决准确率的前提下,节省的量化比特数,可用来量化其他更加重要的参数,整体上可以进一步提升合成语音的质量。
Claims (4)
1.一种基于支持向量机在语音解码端重构子带清浊音度参数的方法,包括支持向量机模型训练阶段和子带清浊音度参数恢复阶段;其特征在于:支持向量机模型训练阶段,首先采集足够长的语音信号并对其进行分帧,然后提取分帧的5个子带清浊音度参数、声道参数、基音参数和能量参数,以形成支持向量机模型的训练数据,然后通过迭代的方式训练出5个子带清浊音判决的支持向量机模型;子带清浊音度参数恢复阶段,编码端采集语音信号并分帧,然后提取分帧的声道参数、基音参数和能量参数并对其量化编码和传输,解码端根据接收到的索引值反量化后得到声道参数、基音参数和能量参数,并利用训练好的5个子带清浊音判决的支持向量机模型重构子带清浊音度参数,以形成高质量的语音信号;
所述支持向量机模型训练阶段通过以下步骤来实现:
a).语音信号采集,以频率f对语音信号进行采集,将采集的语音信号以Nbit进行量化,以形成足够长度的线性PCM文件,作为训练语音集;
b).语音信号分帧,将步骤a)中获取的训练语音集按时间顺序以帧长Tms进行分帧,记分帧集合为M={m1、m2、…、mn},n为总帧数;
c).提取子带清浊音度参数,从步骤b)中的每个分帧中提取5个子带清浊音度参数,记分帧Mi的5个子带清浊音度参数为Vi={vi1、vi2、…、vi5},并记录Mi中每个子带清浊音度参数的判决结果,i=1,2,…n;
d).提取语音参数,提取每帧的声道参数Lsf、基音参数P、能量参数G,并进行归一化处理;记归一化处理后分帧Mi的声道参数、基音参数和能量参数分别为Lsfi、Pi、Gi,i=1,2,…n;
e).训练支持向量机模型,以{ vi1、Lsfi、Pi、Gi}、{ vi2、Lsfi、Pi、Gi}、{ vi3、Lsfi、Pi、Gi}、{ vi4、 Lsfi、Pi、Gi}、{ vi5、Lsfi、Pi、Gi},i=1,2,…n,分别作为5个子带清浊音判决的支持向量机模型的训练数据,5个子带的清浊音判决结果作为对应支持向量机模型的标定值,对5个子带清浊音判决的支持向量机模型进行训练,经过多次迭代,得到训练好的5个子带清浊音判决的支持向量机模型;
所述子带清浊音度参数恢复阶段通过以下步骤来实现:
1).语音采集和分帧,编码端以频率f对输入的语音信号进行采样,并将采样后的语音信号按时间顺序进行分帧,设得到的帧数为m;
2).语音参数的提取,编码端按帧从步骤1)获取的每个分帧中提取声道参数Lsf、基音参数P、能量参数G;
3).编码和传输,编码端按帧对获取的声道参数、基音参数和能量参数进行量化编码,并将量化编码得到的参数索引传输到解码端,直至所有帧的参数索引传输完毕;
4).反量化,在解码端根据索引值反量化得到各帧的参数,记得到的第j帧的声道参数为、基音参数为、能量参数为,j=1,2,…,m;
5).重构清浊音度参数,在解码端,根据训练得到的5个子带清浊音判决的支持向量机模型,利用声道参数为、基音参数为、能量参数为,依次送入每个子带清浊音判决对应的支持向量机模型,计算出第j帧的5个子带清浊音度参数,最后将5个子带清浊音度参数送入激励信号合成端生成激励信号,以获取高质量的语音信号。
2.根据权利要求1所述的基于支持向量机在语音解码端重构子带清浊音度参数的方法,其特征在于:步骤a)和步骤1)中采用8kHz的频率f进行信号采集,步骤a)中以16bit的长度对语音信号进行量化,步骤b)和步骤1)中以20ms或25ms的帧长对语音信号进行分帧。
3.根据权利要求1或2所述的基于支持向量机在语音解码端重构子带清浊音度参数的方法,其特征在于:步骤e)中,5个子带清浊音判决的支持向量机模型的核函数选择径向基函数。
4.根据权利要求1或2所述的基于支持向量机在语音解码端重构子带清浊音度参数的方法,其特征在于:步骤5)中,首先利用第一子带清浊音判决的支持向量机模型判别第1子带为清音还是浊音,若为清音,则后面4个子带皆为清音,无需再重复判别;若第一子带为浊音,则利用其余四个训练好的子带清浊音判决的支持向量机模型,分别判别剩余4个子带为清音还是浊音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810232462.4A CN108461088B (zh) | 2018-03-21 | 2018-03-21 | 基于支持向量机在语音解码端重构子带清浊音度参数的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810232462.4A CN108461088B (zh) | 2018-03-21 | 2018-03-21 | 基于支持向量机在语音解码端重构子带清浊音度参数的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108461088A CN108461088A (zh) | 2018-08-28 |
CN108461088B true CN108461088B (zh) | 2019-11-19 |
Family
ID=63236764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810232462.4A Expired - Fee Related CN108461088B (zh) | 2018-03-21 | 2018-03-21 | 基于支持向量机在语音解码端重构子带清浊音度参数的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108461088B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109448739B (zh) * | 2018-12-13 | 2019-08-23 | 山东省计算中心(国家超级计算济南中心) | 基于分层聚类的声码器线谱频率参数量化方法 |
CN109346093B (zh) * | 2018-12-17 | 2019-09-03 | 山东省计算中心(国家超级计算济南中心) | 一种低速率声码器子带清浊音参数提取与量化的融合方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69819460T2 (de) * | 1997-07-11 | 2004-08-26 | Koninklijke Philips Electronics N.V. | Übertrager mit verbessertem sprachkodierer und dekodierer |
CN101009096B (zh) * | 2006-12-15 | 2011-01-26 | 清华大学 | 子带清浊音模糊判决的方法 |
CN101261836B (zh) * | 2008-04-25 | 2011-03-30 | 清华大学 | 基于过渡帧判决及处理的激励信号自然度提高方法 |
CN102855878B (zh) * | 2012-09-21 | 2014-05-14 | 山东省计算中心 | 一种窄带语音子带清浊音度参数的量化方法 |
CN102903365B (zh) * | 2012-10-30 | 2014-05-14 | 山东省计算中心 | 一种在解码端细化窄带声码器参数的方法 |
-
2018
- 2018-03-21 CN CN201810232462.4A patent/CN108461088B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN108461088A (zh) | 2018-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102737640B (zh) | 语音解码装置及语音解码方法 | |
CN103050121A (zh) | 线性预测语音编码方法及语音合成方法 | |
CN1920947B (zh) | 用于低比特率音频编码的语音/音乐检测器 | |
TW200532646A (en) | Classification of audio signals | |
EP2945154A1 (en) | Method and apparatus for speech reconstruction in a distributed speech recognition system | |
AU2005236596A1 (en) | Signal encoding | |
CN108231083A (zh) | 一种基于silk的语音编码器编码效率提高方法 | |
KR20050092112A (ko) | 분산 음성 인식 시스템내에서 음성 복원을 위한 방법 및장치 | |
CN108461088B (zh) | 基于支持向量机在语音解码端重构子带清浊音度参数的方法 | |
CN107221334B (zh) | 一种音频带宽扩展的方法及扩展装置 | |
CN101261836B (zh) | 基于过渡帧判决及处理的激励信号自然度提高方法 | |
CN106104682A (zh) | 用于对线性预测编码系数进行量化的加权函数确定装置和方法 | |
KR100713566B1 (ko) | 씨이엘피 스피치 부호화를 위한 성형 고정 코드북 탐색 방법 | |
CN102903365B (zh) | 一种在解码端细化窄带声码器参数的方法 | |
CN104517614A (zh) | 基于各子带特征参数值的清浊音判决装置及其判决方法 | |
CN109448739B (zh) | 基于分层聚类的声码器线谱频率参数量化方法 | |
KR0155315B1 (ko) | Lsp를 이용한 celp보코더의 피치 검색방법 | |
CN102610234A (zh) | 信号复杂度和编码速率选择的映射实现方法 | |
Li et al. | A new distortion measure for parameter quantization based on MELP | |
Zou et al. | A 300bps speech coding algorithm based on multi-mode matrix quantization | |
Zou et al. | High quality 0.6/1.2/2.4 kbps multi-band lpc speech coding algorithm | |
Min et al. | Low bit-rate wideband speech coding: A deep generative model based approach | |
CN114496221B (zh) | 基于闭环语音链和深度学习的抑郁症自动诊断系统 | |
Goh et al. | Speech coding by wavelet representation of residual signal | |
Haagen et al. | Waveform interpolation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191119 |
|
CF01 | Termination of patent right due to non-payment of annual fee |