CN110428847A - 一种线谱频率参数量化比特分配方法及系统 - Google Patents
一种线谱频率参数量化比特分配方法及系统 Download PDFInfo
- Publication number
- CN110428847A CN110428847A CN201910800636.7A CN201910800636A CN110428847A CN 110428847 A CN110428847 A CN 110428847A CN 201910800636 A CN201910800636 A CN 201910800636A CN 110428847 A CN110428847 A CN 110428847A
- Authority
- CN
- China
- Prior art keywords
- bit number
- line spectral
- spectral frequency
- quantization
- frequency parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 101
- 230000003595 spectral effect Effects 0.000 title claims abstract description 95
- 238000009826 distribution Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000009467 reduction Effects 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 241000208340 Araliaceae Species 0.000 claims description 5
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 5
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 5
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 235000008434 ginseng Nutrition 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000002922 simulated annealing Methods 0.000 abstract description 7
- 230000001373 regressive effect Effects 0.000 abstract description 2
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 206010016256 fatigue Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种线谱频率参数量化比特分配方法及系统,以客观语音MOS得分作为线谱频率参数量化比特分配方案的依据,采用量化比特累减并比较MOS得分的方法得到初始比特分配,再采用模拟退火算法进行最优比特分配方案搜索。优点:该方法充分考虑到了线谱频率参数每一维对合成语音质量影响的差异,并采用了模拟退火算法进行全局最优解搜索,能够进一步提高线谱频率参数的量化效率,改善合成语音质量。
Description
技术领域
本发明涉及一种线谱频率参数量化比特分配方法及系统,属于语音编码技术领域。
背景技术
语音编码在通信系统、录放系统、具有语音功能的消费类产品中有广泛的应用。近些年来国际电信联盟(ITU)、3GPP、一些区域组织和国家相继制定了一系列语音压缩编码标准,编码速率越来越低,合成语音质量越来越高。目前国内外的研究主要集中在中低速率高质量语音压缩编码上,主要用于无线通信、保密通信、水声通信等领域。在上述语音编码算法中,高效量化用来描述声道特征的线谱频率参数极为重要,其量化质量直接影响合成语音的可懂度。在很多场合,为了降低算法复杂度和终端功耗,对线谱频率参数要采用标量量化算法。在线谱频率参数标量量化算法中,需要将总分配比特数分配给线谱频率参数的每一维分量,再对分量进行标量量化。根据线谱频率参数透明量化的要求,每一维分量的量化比特数分配一般不少于2个比特,不多于5个比特。
目前已有方法对于线谱频率参数标量量化比特数进行分配,但容易陷入局部最优值,而且采用量化失真作为比特分配依据,没有充分考虑到量化失真对合成语音的质量影响程度,实际情况是,线谱频率参数每一维对合成语音质量的影响程度有较大差异,因而现有技术仍有缺陷需要克服。
发明内容
本发明所要解决的技术问题是克服现有技术的缺陷,提供一种线谱频率参数量化比特分配方法及系统,提高线谱频率参数的量化效率和合成语音质量。
为解决上述技术问题,本发明提供一种线谱频率参数量化比特分配方法,获取语音训练集中的线谱频率参数,将线谱频率参数的每一维分量,分别训练生成量化层数为4、8、16、32的量化器,层数为4、8、16、32的量化器对应的量化比特数分别为2、3、4、5,计算每一个量化器所对应的合成语音质量MOS得分,设置总分配比特数B;将线谱频率参数每一维的初始量化比特数均设置为5,对应的量化层数为32,将线谱频率参数所有维的量化比特数累加求和得到总量化比特数b;
判断总量化比特数b是否等于总分配比特数B,若是,则将当前量化比特数的分配方案设置为初始解,设置初始温度T=T0,设置最大迭代次数L,设置迭代次数k的初值为1;若否,从最低维到最高维,依次尝试减少1个量化比特,并计算其带来的合成语音质量MOS得分减少量,比较线谱频率参数各维的MOS得分减少量,选取减少量最小的维度,为其减少1个量化比特,总量化比特数b减1,再对减去1的b是否等于总分配比特数B进行判断;
在设置初始温度T=T0,设置最大迭代次数L,设置迭代初值k=1后,随机选择线谱频率参数的两个维度,将这两个维度的量化比特数分别增加和减少1,计算该量化比特数的分配方案下的MOS得分增加量ΔM,判断ΔM是否大于0,若是则接受该量化比特数的分配方案为最优分配方案,若否则以概率exp(ΔM/T)接受该量化比特数的分配方案为最优分配方案;
在对ΔM是否大于0判断后,再判断k 是否等于 L,若是,则按照所述的最优分配方案结束线谱频率参数量化比特的分配,若否,则令k = k+1,T=T*0.9,再次随机选择线谱频率参数的两个维度,将这两个维度的量化比特数分别增加和减少1,计算该量化比特数的分配方案下的MOS得分增加量ΔM,并对ΔM进行上述判断过程。
进一步的,采用ITU的P.862软件计算每一个量化器所对应的合成语音质量MOS得分。我们这里通过MOS分的高低,合成判断语音质量的优劣,选取最佳的量化分配方案。
进一步,在计算MOS得分时,除了当前量化器对应的维度分量减少1个量化比特,其他维度分量均采用原始值。只考虑当前量化器对应的维度分量对声码器的具体影响,排除其他维度分量的影响。
进一步,所述总分配比特数B由声码器分配给线谱频率参数的总比特数决定。
进一步,采用LBG算法生成4、8、16、32不同量化层数的量化器。
一种线谱频率参数量化比特分配系统,包括数据获取模块、第一判断模块、第二判断模块以及第三判断模块;
所述数据获取模块用于获取语音训练集中的线谱频率参数,将线谱频率参数的每一维分量,分别训练生成量化层数为4、8、16、32的量化器,层数为4、8、16、32的量化器对应的量化比特数分别为2、3、4、5,计算每一个量化器所对应的合成语音质量MOS得分,设置总分配比特数B;将线谱频率参数每一维的初始量化比特数均设置为5,对应的量化层数为32,将线谱频率参数所有维的量化比特数累加求和得到总量化比特数b;
所述第一判断模块用于判断总量化比特数b是否等于总分配比特数B,若是,则将当前量化比特数的分配方案设置为初始解,设置初始温度T=T0,设置最大迭代次数L,设置迭代次数k的初值为1;若否,从最低维到最高维,依次尝试减少1个量化比特,并计算其带来的合成语音质量MOS得分减少量,比较线谱频率参数各维的MOS得分减少量,选取减少量最小的维度,为其减少1个量化比特,总量化比特数b减1,再对减去1的b是否等于总分配比特数B进行判断;
所述第二判断模块用于在设置初始温度T=T0,设置最大迭代次数L,设置迭代初值k=1后,随机选择线谱频率参数的两个维度,将这两个维度的量化比特数分别增加和减少1,计算该量化比特数的分配方案下的MOS得分增加量ΔM,判断ΔM是否大于0,若是则接受该量化比特数的分配方案为最优分配方案,若否则以概率exp(ΔM/T)接受该量化比特数的分配方案为最优分配方案;
所述第三判断模块用于在对ΔM是否大于0判断后,再判断k 是否等于 L,若是,则按照所述的最优分配方案结束线谱频率参数量化比特的分配,若否,则令k = k+1,T=T*0.9,再次随机选择线谱频率参数的两个维度,将这两个维度的量化比特数分别增加和减少1,计算该量化比特数的分配方案下的MOS得分增加量ΔM,并对ΔM进行上述判断过程。
进一步的,采用ITU的P.862软件计算每一个量化器所对应的合成语音质量MOS得分。
进一步的,所述数据获取模块在计算MOS得分时,除了当前量化器对应的维度分量减少1个量化比特,其他维度分量均采用原始值。
进一步的,所述数据获取模块获取的总分配比特数B由声码器分配给线谱频率参数的总比特数决定。
进一步的,所述数据获取模块获取采用LBG算法生成4、8、16、32不同量化层数的量化器。
本发明所达到的有益效果:
本发明的特点是本发明采用MOS值作为量化比特分配依据,并采用了模拟退火算法寻求线谱频率参数标量量化的最优比特分配方案,该方法充分考虑到了线谱频率参数不同维的量化失真对合成语音质量的影响差异,并采用模拟退火算法寻找全局最优解,能够进一步提高线谱频率参数的量化效率,并提高合成语音的质量。
附图说明
图1是本发明提出的线谱频率参数标量量化比特分配流程框图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种线谱频率参数量化比特分配方法,包括以下步骤:
(1)利用语音训练集,对线谱频率参数的每一维分量,分别训练生成量化层数为4、8、16、32的量化器,对应量化比特数分别为2、3、4、5,采用ITU的P.862软件计算每一个量化器所对应的合成语音质量MOS得分,在计算该分值时,除了当前量化器对应的维度分量,其他维度分量均采用原始值;设置总分配比特数B;
实施例:语音训练集按8KHz频率采样,16比特量化,线谱频率参数维度为10,采用LBG算法生成4、8、16、32不同量化层数的量化器,用P.862软件计算每一个量化器所对应的合成语音质量MOS得分,并进行存储。B由声码器分配给线谱频率参数的总比特数决定;该步骤中,计算每一维参数不同量化器对应的MOS值时,其他维参数取值不进行量化;
(2)将线谱频率参数每一维的初始比特分配数均设置为5,即量化层数为32;将线谱频率所有维的量化比特数累加求和得到b;
实施例:线谱频率参数的10维分量初始比特分配均设置为5,初始MOS得分设置为量化层数为均为32时得分,该分值在步骤(1)中得到;b=50;
(3)判断b其是否等于分配比特数B,若是,进入步骤(5);若否,从最低维到最高维,依次尝试减少1个量化比特,并计算其带来的合成语音质量MOS减少量;
实施例:根据步骤(1)中得到的线谱频率参数每一维不同量化比特数对应的MOS分值,求得当前线谱频率参数每一维减少1个量化比特带来的MOS得分减少量;
(4)比较步骤(3)中线谱频率参数各维减少1个量化比特所带来的MOS得分减少量,选取减少量最小的维度,为其减少1个量化比特,总量化比特数b减1,转至步骤(3);
实施例:根据步骤(3)中求得的各维度减少1个量化比特所带来的MOS得分减少量,求最小值,并将其所对应的维度的量化比特数减1,同时令b=b-1;
(5)将当前量化比特分配方案设置为初始解,设置初始温度T=T0,设置最大迭代次数L;设置迭代初值k=1;
实施例:设置初始温度T=100,循环次数L=50;
(6)随机选择线谱频率参数的两个维度,量化比特数分别增加和减少1个;
实施例:以均匀概率从[1,10]区间范围内随意选择两个数值,将其对应的线谱频率参数的量化比特数分别增加和减少1个;
(7)计算新比特分配方案下的MOS得分增加量ΔM;
实施例:根据步骤(1)中得到的线谱频率参数每一维不同量化比特数对应的MOS分值,求得步骤(7)所述比特分配方案的MOS得分,并计算MOS得分增加量ΔM;
(8)若ΔM>0则接受新的比特分配方案,否则以概率exp(ΔM/T)接受新的比特分配方案;
(9)k 是否等于L,若回答为是,转入(10)执行,若回答为否,令k = k+1,T=T*0.9,转至步骤(6);
实施例:如果迭代次数已满足,则转至步骤(10),否则,对T按照0.9的衰减因子进行衰减,即T= T*0.9;
(10)线谱频率参数量化比特分配过程结束。
一种线谱频率参数量化比特分配系统,包括数据获取模块、第一判断模块、第二判断模块以及第三判断模块;
所述数据获取模块用于获取语音训练集中的线谱频率参数,将线谱频率参数的每一维分量,分别训练生成量化层数为4、8、16、32的量化器,层数为4、8、16、32的量化器对应的量化比特数分别为2、3、4、5,计算每一个量化器所对应的合成语音质量MOS得分,设置总分配比特数B;将线谱频率参数每一维的初始量化比特数均设置为5,对应的量化层数为32,将线谱频率参数所有维的量化比特数累加求和得到总量化比特数b;
所述第一判断模块用于判断总量化比特数b是否等于总分配比特数B,若是,则将当前量化比特数的分配方案设置为初始解,设置初始温度T=T0,设置最大迭代次数L,设置迭代次数k的初值为1;若否,从最低维到最高维,依次尝试减少1个量化比特,并计算其带来的合成语音质量MOS得分减少量,比较线谱频率参数各维的MOS得分减少量,选取减少量最小的维度,为其减少1个量化比特,总量化比特数b减1,再对减去1的b是否等于总分配比特数B进行判断;
所述第二判断模块用于在设置初始温度T=T0,设置最大迭代次数L,设置迭代初值k=1后,随机选择线谱频率参数的两个维度,将这两个维度的量化比特数分别增加和减少1,计算该量化比特数的分配方案下的MOS得分增加量ΔM,判断ΔM是否大于0,若是则接受该量化比特数的分配方案为最优分配方案,若否则以概率exp(ΔM/T)接受该量化比特数的分配方案为最优分配方案;
所述第三判断模块用于在对ΔM是否大于0判断后,再判断k 是否等于 L,若是,则按照所述的最优分配方案结束线谱频率参数量化比特的分配,若否,则令k = k+1,T=T*0.9,再次随机选择线谱频率参数的两个维度,将这两个维度的量化比特数分别增加和减少1,计算该量化比特数的分配方案下的MOS得分增加量ΔM,并对ΔM进行上述判断过程。
本实施例中,采用ITU的P.862软件计算每一个量化器所对应的合成语音质量MOS得分。
本实施例中,所述数据获取模块在计算MOS得分时,除了当前量化器对应的维度分量减少1个量化比特,其他维度分量均采用原始值。
本实施例中,所述数据获取模块获取的总分配比特数B由声码器分配给线谱频率参数的总比特数决定。
本实施例中,所述数据获取模块获取采用LBG算法生成4、8、16、32不同量化层数的量化器。
本发明基于PESQ(Perceptual evaluation of speech quality)和模拟退火的线谱频率参数量化比特分配方法,以客观语音MOS得分作为线谱频率参数量化比特分配方案的依据,采用量化比特累减并比较MOS得分的方法得到初始比特分配,再采用模拟退火算法进行最优比特分配方案的全局最优搜索。与传统的基于比特分配方法相比,该方法充分考虑到了线谱频率参数每一维对合成语音质量影响的差异,并采用了模拟退火算法进行全局最优解搜索,能够进一步提高线谱频率参数的量化效率,改善合成语音质量。尤其适合中低速率的参数语音编码算法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种线谱频率参数量化比特分配方法,其特征在于,获取语音训练集中的线谱频率参数,将线谱频率参数的每一维分量,分别训练生成量化层数为4、8、16、32的量化器,层数为4、8、16、32的量化器对应的量化比特数分别为2、3、4、5,计算每一个量化器所对应的合成语音质量MOS得分,设置总分配比特数B;将线谱频率参数每一维的初始量化比特数均设置为5,对应的量化层数为32,将线谱频率参数所有维的量化比特数累加求和得到总量化比特数b;
判断总量化比特数b是否等于总分配比特数B,若是,则将当前量化比特数的分配方案设置为初始解,设置初始温度T=T0,设置最大迭代次数L,设置迭代次数k的初值为1;若否,从最低维到最高维,依次尝试减少1个量化比特,并计算其带来的合成语音质量MOS得分减少量,比较线谱频率参数各维的MOS得分减少量,选取减少量最小的维度,为其减少1个量化比特,总量化比特数b减1,再对减去1的b是否等于总分配比特数B进行判断;
在设置初始温度T=T0,设置最大迭代次数L,设置迭代初值k=1后,随机选择线谱频率参数的两个维度,将这两个维度的量化比特数分别增加和减少1,计算该量化比特数的分配方案下的MOS得分增加量ΔM,判断ΔM是否大于0,若是则接受该量化比特数的分配方案为最优分配方案,若否则以概率exp(ΔM/T)接受该量化比特数的分配方案为最优分配方案;
在对ΔM是否大于0判断后,再判断k 是否等于 L,若是,则按照所述的最优分配方案结束线谱频率参数量化比特的分配,若否,则令k = k+1,T=T*0.9,再次随机选择线谱频率参数的两个维度,将这两个维度的量化比特数分别增加和减少1,计算该量化比特数的分配方案下的MOS得分增加量ΔM,并对ΔM进行上述判断过程。
2.根据权利要求1所述的线谱频率参数量化比特分配方法,其特征在于,采用ITU的P.862软件计算每一个量化器所对应的合成语音质量MOS得分。
3.根据权利要求1所述的线谱频率参数量化比特分配方法,其特征在于,在计算MOS得分时,除了当前量化器对应的维度分量减少1个量化比特,其他维度分量均采用原始值。
4.根据权利要求1所述的线谱频率参数量化比特分配方法,其特征在于,所述总分配比特数B由声码器分配给线谱频率参数的总比特数决定。
5.根据权利要求1所述的线谱频率参数量化比特分配方法,其特征在于,采用LBG算法生成4、8、16、32不同量化层数的量化器。
6.一种线谱频率参数量化比特分配系统,其特征在于,包括数据获取模块、第一判断模块、第二判断模块以及第三判断模块;
所述数据获取模块用于获取语音训练集中的线谱频率参数,将线谱频率参数的每一维分量,分别训练生成量化层数为4、8、16、32的量化器,层数为4、8、16、32的量化器对应的量化比特数分别为2、3、4、5,计算每一个量化器所对应的合成语音质量MOS得分,设置总分配比特数B;将线谱频率参数每一维的初始量化比特数均设置为5,对应的量化层数为32,将线谱频率参数所有维的量化比特数累加求和得到总量化比特数b;
所述第一判断模块用于判断总量化比特数b是否等于总分配比特数B,若是,则将当前量化比特数的分配方案设置为初始解,设置初始温度T=T0,设置最大迭代次数L,设置迭代次数k的初值为1;若否,从最低维到最高维,依次尝试减少1个量化比特,并计算其带来的合成语音质量MOS得分减少量,比较线谱频率参数各维的MOS得分减少量,选取减少量最小的维度,为其减少1个量化比特,总量化比特数b减1,再对减去1的b是否等于总分配比特数B进行判断;
所述第二判断模块用于在设置初始温度T=T0,设置最大迭代次数L,设置迭代初值k=1后,随机选择线谱频率参数的两个维度,将这两个维度的量化比特数分别增加和减少1,计算该量化比特数的分配方案下的MOS得分增加量ΔM,判断ΔM是否大于0,若是则接受该量化比特数的分配方案为最优分配方案,若否则以概率exp(ΔM/T)接受该量化比特数的分配方案为最优分配方案;
所述第三判断模块用于在对ΔM是否大于0判断后,再判断k 是否等于 L,若是,则按照所述的最优分配方案结束线谱频率参数量化比特的分配,若否,则令k = k+1,T=T*0.9,再次随机选择线谱频率参数的两个维度,将这两个维度的量化比特数分别增加和减少1,计算该量化比特数的分配方案下的MOS得分增加量ΔM,并对ΔM进行上述判断过程。
7.根据权利要求6所述的线谱频率参数量化比特分配系统,其特征在于,采用ITU的P.862软件计算每一个量化器所对应的合成语音质量MOS得分。
8.根据权利要求6所述的线谱频率参数量化比特分配系统,其特征在于,所述数据获取模块在计算MOS得分时,除了当前量化器对应的维度分量减少1个量化比特,其他维度分量均采用原始值。
9.根据权利要求6所述的线谱频率参数量化比特分配系统,其特征在于,所述数据获取模块获取的总分配比特数B由声码器分配给线谱频率参数的总比特数决定。
10.根据权利要求6所述的线谱频率参数量化比特分配系统,其特征在于,所述数据获取模块获取采用LBG算法生成4、8、16、32不同量化层数的量化器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910800636.7A CN110428847B (zh) | 2019-08-28 | 2019-08-28 | 一种线谱频率参数量化比特分配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910800636.7A CN110428847B (zh) | 2019-08-28 | 2019-08-28 | 一种线谱频率参数量化比特分配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110428847A true CN110428847A (zh) | 2019-11-08 |
CN110428847B CN110428847B (zh) | 2021-08-24 |
Family
ID=68416326
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910800636.7A Active CN110428847B (zh) | 2019-08-28 | 2019-08-28 | 一种线谱频率参数量化比特分配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110428847B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1334485A1 (en) * | 2000-10-30 | 2003-08-13 | Motorola, Inc. | Speech codec and method for generating a vector codebook and encoding/decoding speech signals |
CN101261835A (zh) * | 2008-04-25 | 2008-09-10 | 清华大学 | 基于超帧模式的多矢量多码本尺寸联合优化方法 |
US20160336003A1 (en) * | 2015-05-13 | 2016-11-17 | Google Inc. | Devices and Methods for a Speech-Based User Interface |
CN109448739A (zh) * | 2018-12-13 | 2019-03-08 | 山东省计算中心(国家超级计算济南中心) | 基于分层聚类的声码器线谱频率参数量化方法 |
CN109979486A (zh) * | 2017-12-28 | 2019-07-05 | 中国移动通信集团北京有限公司 | 一种语音质量评估方法及装置 |
-
2019
- 2019-08-28 CN CN201910800636.7A patent/CN110428847B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1334485A1 (en) * | 2000-10-30 | 2003-08-13 | Motorola, Inc. | Speech codec and method for generating a vector codebook and encoding/decoding speech signals |
CN101261835A (zh) * | 2008-04-25 | 2008-09-10 | 清华大学 | 基于超帧模式的多矢量多码本尺寸联合优化方法 |
US20160336003A1 (en) * | 2015-05-13 | 2016-11-17 | Google Inc. | Devices and Methods for a Speech-Based User Interface |
CN109979486A (zh) * | 2017-12-28 | 2019-07-05 | 中国移动通信集团北京有限公司 | 一种语音质量评估方法及装置 |
CN109448739A (zh) * | 2018-12-13 | 2019-03-08 | 山东省计算中心(国家超级计算济南中心) | 基于分层聚类的声码器线谱频率参数量化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110428847B (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104934036B (zh) | 音频编码装置、方法以及音频解码装置、方法 | |
CN101933085B (zh) | 音频质量客观感知评估方法及其设备 | |
CN101894560B (zh) | 一种无参考源的mp3音频清晰度客观评价方法 | |
CN104681028B (zh) | 一种编码方法及装置 | |
CN104966517A (zh) | 一种音频信号增强方法和装置 | |
CN103544957B (zh) | 音频信号的比特分配的方法和装置 | |
CN101763856A (zh) | 信号分类处理方法、分类处理装置及编码系统 | |
Jin et al. | Vector quantization techniques for output-based objective speech quality | |
CN103985389B (zh) | 一种针对amr音频文件的隐写分析方法 | |
CN104581748B (zh) | 一种在无线通信网络中识别场景的方法和装置 | |
Samuelsson et al. | Recursive coding of spectrum parameters | |
CN107767876A (zh) | 声音编码装置以及声音编码方法 | |
CN101163239B (zh) | 一种新的矢量量化初始码书的生成方法 | |
Defraene et al. | Real-time perception-based clipping of audio signals using convex optimization | |
CN103503320B (zh) | 用于重构源信号的方法和解码器 | |
CN106409300A (zh) | 用于信号处理的方法和装置 | |
CN110428847A (zh) | 一种线谱频率参数量化比特分配方法及系统 | |
CN105096957B (zh) | 处理信号的方法及设备 | |
CN101499279B (zh) | 空间参数逐级精细的比特分配方法及其装置 | |
Zha et al. | Objective speech quality measurement using statistical data mining | |
CN115910091A (zh) | 引入基频线索的生成式语音分离方法和装置 | |
Chang et al. | Dither-like data hiding in multistage vector quantization of MELP and G. 729 speech coding | |
CN105992215B (zh) | 一种确定频谱资源使用度的方法及装置 | |
Jiao et al. | Compressed domain perceptual hashing for MELP coded speech | |
CN112037803A (zh) | 音频编码方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |