CN102750955B - 基于残差信号频谱重构的声码器 - Google Patents

基于残差信号频谱重构的声码器 Download PDF

Info

Publication number
CN102750955B
CN102750955B CN201210253946.XA CN201210253946A CN102750955B CN 102750955 B CN102750955 B CN 102750955B CN 201210253946 A CN201210253946 A CN 201210253946A CN 102750955 B CN102750955 B CN 102750955B
Authority
CN
China
Prior art keywords
cycle
frequency spectrum
frequency
module
periodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210253946.XA
Other languages
English (en)
Other versions
CN102750955A (zh
Inventor
陶建华
温正棋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201210253946.XA priority Critical patent/CN102750955B/zh
Publication of CN102750955A publication Critical patent/CN102750955A/zh
Application granted granted Critical
Publication of CN102750955B publication Critical patent/CN102750955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种基于残差信号频谱重构的声码器,包括:参数提取模块,用于接收待分析的语音数据、计算基频参数和频谱参数;逆滤波模块,用于根据频谱参数设计逆滤波器对语音数据逆滤波,获得残差信号;周期信号支路,与逆滤波模块相连接,用于根据基频参数和逆滤波后的残差信号,生成周期激励信号;非周期信号支路,与逆滤波模块相连接,用于根据基频参数和逆滤波后的残差信号,生成非周期激励信号;以及参数语音合成器模块,与周期信号支路和非周期信号支路相连接,用于根据周期频谱参数、周期激励信号和非周期激励信号,调用语音合成器合成语音。本发明对逆滤波后的残差信号进行建模,使激励信号具有较高的准确性,提高了合成语音的音质。

Description

基于残差信号频谱重构的声码器
技术领域
本发明涉及电子行业信号处理技术领域,尤其涉及一种基于残差信号频谱重构的声码器。
背景技术
声码器技术是和谐人机交互技术中的一个重要组成部分,它能够对一个人的声音进行处理,使之能够合成出自然流畅的语音,其研究成果对语音编码技术、参数语音合成技术、人机交互技术等的发展具有重要的意义。
而目前的声码器术采用脉冲加白噪声激励模型,这种激励模型用脉冲串或高斯白噪声来构建激励信号。由于脉冲串周期性过强,采用这种激励模型合成语音音质不高。
此外,传统的基于谱参数的周期频谱计算方法,往往只能拟合出频谱的共振峰结构,而造成频谱精细结构的丢失。基于时域的周期激励建模方法,往往会在做周期采样时造成高频段能量的丢失。基于码本的周期频谱估计模块,往往会在挑选码值时出现过平滑的情况。
发明内容
(一)要解决的技术问题
为解决上述的一个或多个问题,本发明提供了一种基于残差信号频谱重构的声码器,以提高合成语音的音质。
(二)技术方案
根据本发明的一个方面,提供了一种基于残差信号频谱重构的声码器,包括:参数提取模块,用于接收待分析的语音数据,加窗分帧,计算基频参数和频谱参数;逆滤波模块,与参数提取模块相连接,用于根据频谱参数设计逆滤波器对语音数据逆滤波,获得逆滤波后的残差信号;周期信号支路,与逆滤波模块相连接,用于根据基频参数和逆滤波后的残差信号,生成周期激励信号;非周期信号支路,与逆滤波模块相连接,用于根据基频参数和逆滤波后的残差信号,生成非周期激励信号;以及参数语音合成器模块,与周期信号支路和非周期信号支路相连接,用于根据周期频谱参数、周期激励信号和非周期激励信号,调用语音合成器合成语音。
(三)有益效果
从上述技术方案可以看出,本发明基于残差信号频谱重构的声码器具有以下有益效果:
(1)本发明中,对逆滤波后的残差信号进行建模,使生成的激励信号具有较高的准确性,从而提高了合成语音的音质;
(2)本发明中,在周期频谱估计模块,通过Pitch-Scaled分析方法来提取周期频谱的精细结构,采用主成分分解方法来对周期频谱进行降维,在最大程度上保留了周期频谱的完整性和内插特性,不需要任何手工标注信息,从而大大降低了系统实现的复杂度和人工参与程度;
(3)本发明中,在周期激励生成模块,采用重构残差信号的频谱,逆傅里叶变换合成周期激励信号,能够有效去除合成语音的机器声,同时去除零频段半个谐波的干扰;
(4)本发明中,在非周期能量估计模块,利用了光滑曲线来拟合谐波噪声比,能够很好的控制低频段的谐波不被噪声破坏,同时保证合成语音具有较高的自然度;
(5)本发明中,在非周期激励生成模块,采用无限冲激响应滤波器的方法,可以通过非周期能量曲线构建无限冲激响应滤波器,只需要一次IDFT和滤波就可以生成非周期激励信号。
附图说明
图1是本发明实施例基于逆滤波残差信号频谱重构的声码器的结构示意图;
图2是本发明实施例基于逆滤波残差信号频谱重构声码器中周期频谱估计模块的结构示意图;
图3是本发明实施例基于逆滤波残差信号频谱重构声码器中周期激励生成模块的结构示意图;
图4是本发明实施例基于逆滤波残差信号频谱重构声码器中非周期能量估计模块的结构示意图;
图5是本发明实施例基于逆滤波残差信号频谱重构声码器中非周期激励生成模块的结构示意图;
图6是本发明本发明实施例基于逆滤波残差信号频谱重构声码器中参数语音合成模块的结构示意图。
【主要元件符号说明】
1-参数提取模块;               2-逆滤波模块;
3-周期频谱估计模块;           4-周期激励生成模块;
5-非周期能量估计模块;         6-非周期激励生成模块;
7-参数语音合成器模块;
31-频谱计算子模块;            32-子带划分子模块;
33-归一化子模块;              34-主成分分解子模块;
41-周期频谱重构模块;          42-周期激励生成模块;
51-频谱计算子模块;            52-非周期度量子模块;
53-最大谐波频率估计模块;      54-曲线拟合模块;
61-非周期能量曲线生成模块。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。且在附图中,以简化或是方便标示。再者,附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。
本发明基于残差信号频谱重构的声码器中,分析语音数据的频谱参数、基频、残差信号的周期频谱和非周期能量,用残差信号的周期频谱和非周期能量构建激励信号来复现逆滤波后的残差信号,在激励建模过程中,不需要人工介入,可对任何输入语音进行激励建模。
在本发明的一个示例性实施例中,提出了一种基于残差信号频谱重构的声码器。图1为本发明实施例基于残差信号频谱重构声码器的结构示意图。如图1所示,本实施例包括:参数提取模块1,用于接收待分析的语音数据,加窗分帧,计算基频参数和频谱参数;逆滤波模块2,与参数提取模块1相连接,用于接收频谱参数和输入端语音数据,根据频谱参数设计逆滤波器对语音数据逆滤波,获得逆滤波后的残差信号;周期频谱估计模块3,与逆滤波模块2相连接,用于根据基频参数和逆滤波后的残差信号,计算周期频谱参数;周期激励生成模块4,与周期频谱估计模块3相连接,用于根据基频参数和周期频谱参数,构建一个周期的频谱,通过逆傅里叶变换生成周期激励信号;非周期能量估计模块5,与逆滤波模块2相连接,用于根据基频参数和逆滤波后的残差信号计算非周期能量参数;非周期激励生成模块6,与非周期能量估计模块5相连接,用于根据非周期能量参数,构建滤波器对高斯白噪声滤波生成非周期激励信号;以及,参数语音合成器模块7,与周期激励生成模块4和非周期激励生成模块6相连接,用于根据频谱参数、周期激励信号和非周期激励信号,调用语音合成器合成语音。
本发明中,对逆滤波后的残差信号进行建模,使生成的激励信号具有较高的准确性,从而提高了合成语音的音质。以下分别对各个模块进行详细说明。
本实施例中,参数提取模块所实现的方式在现有技术中均可以找到,其中的具体参数如下:窗长为25ms,帧移为5ms。对于不同帧来讲,基频参数和频谱参数(线性预测系数)随之变化,两者提取的方法可以采用自相关方法,也可以采用本领域公知的其他方法。
图2是本发明实施例基于逆滤波残差信号频谱重构声码器中周期频谱估计模块的结构示意图。如图2所示,周期频谱估计模块3包括:
频谱计算子模块31,与逆滤波模块2相连接,用于根据逆滤波后的残差信号,加窗分帧进行傅里叶分析得到频谱幅度值向量;
其中,在进行加窗分帧时,帧长为两个周期长度,傅里叶分析的长度也为两个周期的长度。本领域普通技术人员可以根据实际需要调整帧长和傅里叶分析的长度,它们的范围均为1~10周期长度。
子带划分子模块32,与频谱计算模块31相连接,用于根据频谱幅度值向量的频率值提取周期频谱;
其中,频谱幅度值向量的频率通过采样点与采样率使用以下的公式确定:
N=2*fs/f0        (1)
fk=fs*k/N=fs*k/(2*fs/f0)=f0*k/2     (2)其中N为傅里叶分析的长度,fs为语音信号的采样频率,f0为该帧语音信号的基频,k为样点,fk为对应样点的频率。
归一化子模块33,与子带划分模块32相连接,用于对周期频谱进行能量和长度的归一化;
其中,归一化长度通过统计周期长度使用以下公式确定:
Σ p = P min P norm i p / Σ p = P min P max ≥ 0.9 - - - ( 3 )
其中,Pnorm为归一化后的周期长度,Pmin为最小周期长度,Pmax为最大周期长度,ip为对应基频值的数目。
主成分分解子模块34,与归一化模块33相连接,用于通过主成分分解对归一化后的周期频谱进行降维,得到周期频谱参数。
本发明中,在周期频谱估计模块,通过Pitch-Scaled分析方法来提取周期频谱的精细结构,采用主成分分解方法来对周期频谱进行降维,在很大程度上保留了周期频谱的完整性和内插特性,不需要任何手工标注信息,从而大大降低了系统实现的复杂度和人工参与程度。
图3是本发明实施例基于逆滤波残差信号频谱重构声码器中周期激励生成模块的结构示意图。如图3所示,该周期激励生成模块4包括:
周期频谱重构子模块41,与周期频谱估计模块3相连接,用于根据周期频谱参数,通过主成分重构方法重构出周期频谱;
其中,采用以下公式根据周期频谱参数进行主成分重构:
X=YVT      (4)其中,Y为周期频谱参数,VT为主成分分解后特征向量的转置,X为重构出的周期频谱。
周期激励生成子模块42,与周期频谱重构子模块41相连接,用于根据基频和重构的周期基频,提取单个周期长度的频谱,采用逆傅里叶变换生成单个周期的周期激励信号,通过同步叠加生成周期激励信号。
本发明中,在周期激励生成模块,采用重构残差信号的频谱,逆傅里叶变换合成周期激励信号,能够有效去除合成语音的机器声,同时去除零频段半个谐波的干扰。
图4是本发明实施例基于逆滤波残差信号频谱重构声码器中非周期能量估计模块的结构示意图。如图4所示,非周期能量估计模块5包括:
频谱计算子模块51,与逆滤波模块2相连接,用于根据逆滤波后的残差信号,加窗分帧进行傅里叶分析得到频谱幅度值;
其中,在进行加窗分帧时,帧长为10个周期长度,傅里叶分析的长度也为10个周期的长度。本领域普通技术人员可以根据实际需要调整帧长和傅里叶分析的长度,它们的范围均为1~10周期长度。
非周期度量子模块52,与频谱计算模块51相连接,用于根据频谱幅度值,定义频谱上的周期和非周期领域,通过构建一个三角形以及三角形的面积和对称性来定义非周期能量,采用三角形的面积和对称性的比值作为非周期能量曲线;
其中,使用以下公式确定频谱上的周期和非周期领域:
Pi={k|ki-2N/M≤k≤ki+2N/M}      (5)
Di={k|ki-1+2N/M≤k≤ki-2N/M}      (6)其中,Pi为周期领域,Di为非周期领域,N为傅里叶分析的长度,M为分帧长度,2N/M为窗的旁瓣的宽度,ki为第i次谐波的位置。
此外,三角形的定义为一个周期领域的最大采样点、该周期领域左邻居的非周期领域的最大值和该周期领域右邻居的非周期领域的最大值。各个谐波的非周期能量估计定义为三角形对称性与三角形面积的比值,使用公式如下:
Symmetry=(Pleft-Pright)/Pharmonic      (7)
Area=2*(Pharmonic-Pright)-0.5*2*(Pleft-Pright)-0.5*(Pharmonic-Pright)-0.5*(Pharmonic-Pleft)
                                                (8)
Aperiodicity=Symmetry/Area                     (9)
其中,Pharmonic为一个周期领域的最大值,Pleft为该周期领域左邻居的非周期领域的最大值,Pright为该周期领域右邻居的非周期领域的最大值。
最大谐波频率估计子模块53,与非周期度量子模块52相连接,用于根据非周期能量曲线,定义该曲线的最大斜率为最大谐波频率,通过Viterbi算法寻找最优的最大谐波频率;
其中,使用以下公式由能量最小化确定非周期谐波频率:
Dash(g)=sum(abs([zeros(1,g);ones(1,length-g+1)]-Ap))       (10)
其中,sum()为求和函数,abs()为绝对值函数,zeros()为取零函数,ones()为取一函数,length为非周期能量的长度,Ap为非周期能量,g为一个分裂点。
使用以下公式利用Viterbi算法搜索最优的最大谐波频率路径:
T_Cost(i,j)=Dash(i,j)                 (11)
C_Cost(j,l)=exp(abs(j-l))*β           (12)
Score(i,j)=min(T_Cost(i,j)+C_Cost(j,l)+Score(i,l))   (13)其中,T_Cost为目标代价,C_Cost为拼接代价,β为平滑系数,Score为路径的总得分,i,j为帧索引,l为候选最大谐波频率索引。
曲线拟合子模块54,与最大谐波频率估计子模块53相连接,用于根据非周期能量曲线和最大谐波频率曲线,拟合出非周期能量的光滑曲线;
其中,利用以下公式拟合非周期能量曲线:
aperiod = ( f / f c ) α 1 + ( f / f c ) α - - - ( 14 )
其中,f为频率,fc为最大谐波频率,α为斜率参数。
传统的多带激励模型,定义的是多个子带的能量,子带之间拼接点的能量具有跳跃性。而在本发明中,在非周期能量估计模块,利用了光滑曲线来拟合谐波噪声比,能够很好的控制低频段的谐波不被噪声破坏,同时保证合成语音具有较高的自然度。
图5是本发明实施例基于逆滤波残差信号频谱重构声码器中非周期激励生成模块的结构示意图。如图5所示,非周期激励生成模块6包括:
非周期能量曲线生成子模块61,与非周期能量估计模块5相连接,用于根据拟合曲线的参数,最大谐波频率和斜率参数,分高频段和低频段构建非周期能量曲线;
其中,采用以下公式分别构建高频段和低频段的非周期能量曲线:
apriod = ( f / f c ) α 1 + ( f / f c ) α · · · f ≥ f c 0.5 * ( f / f c ) β · · · 0 ≤ f ≤ f c - - - ( 15 )
其中,fc为最大谐波频率,α为高频段的斜率参数,β为低频段的斜率参数,固定为1.5。
非周期滤波器构建子模块62,与非周期能量曲线生成子模块61相连接,用于根据非周期曲线和高斯白噪声,采用非周期曲线构建无限冲激响应滤波器,对高斯白噪声滤波得到非周期激励信号。
本发明中,在非周期激励生成模块,采用无限冲激响应滤波器的方法,可以通过非周期能量曲线构建无限冲激响应滤波器,只需要一次IDFT和滤波就可以生成非周期激励信号。
图6是本发明本发明实施例基于逆滤波残差信号频谱重构声码器中参数语音合成模块的示意图。如图6所示,参数语音合成模块7包括:
LPC合成器子模块71,与周期激励生成模块4和非周期激励生成模块6相连接,用于根据周期激励信号和非周期激励信号,通过LPC合成器合成出语音。
本发明基于残差信号频谱重构的声码器以matlab语言编写,在windows平台下和在linux平台下均可使用Matlab程序编程运行,当然也可以采用其他的编程语言编写,在其他平台上运行。此外,本发明可以应用于电脑终端、手持式移动设备或其它形式的移动设备。
需要说明的是,上述对各元件的定义并不仅限于实施方式中提到的各种具体结构或形状,本领域的普通技术人员可对其进行简单地熟知地替。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种基于残差信号频谱重构的声码器,包括:
参数提取模块,用于接收待分析的语音数据、加窗分帧、计算基频参数和频谱参数;
逆滤波模块,与所述参数提取模块相连接,用于根据所述频谱参数设计逆滤波器对所述语音数据逆滤波,获得逆滤波后的残差信号;
周期信号支路,与所述逆滤波模块相连接,用于根据所述基频参数和逆滤波后的残差信号,生成周期激励信号,该周期信号支路包括:周期频谱估计模块和周期激励生成模块,其中:
周期频谱估计模块,与所述逆滤波模块相连接,用于根据所述基频参数和逆滤波后的残差信号,计算周期频谱参数;以及
周期激励生成模块,与所述周期频谱估计模块相连接,用于根据所述基频参数和周期频谱参数,构建一个周期的频谱,通过逆傅里叶变换生成周期激励信号;
非周期信号支路,与所述逆滤波模块相连接,用于根据所述基频参数和逆滤波后的残差信号,生成非周期激励信号;以及
参数语音合成器模块,与所述周期信号支路和非周期信号支路相连接,用于根据所述周期频谱参数、周期激励信号和非周期激励信号,调用语音合成器合成语音。
2.根据权利要求1所述的基于残差信号频谱重构的声码器,其中,所述周期频谱估计模块包括:
频谱计算子模块,与所述逆滤波模块相连接,用于根据所述逆滤波后的残差信号,加窗分帧进行傅里叶分析得到频谱幅度值向量;
子带划分子模块,与所述频谱计算子模块相连接,用于根据所述频谱幅度值向量的频率值提取周期频谱;
归一化子模块,与所述子带划分子模块相连接,用于根据所述周期频谱,进行能量和长度的归一化;
主成分分解子模块,与所述归一化子模块相连接,用于根据所述归一化周期频谱,通过主成分分解进行降维。
3.根据权利要求2所述的基于残差信号频谱重构的声码器,其中,
所述频谱计算子模块,用于采用两个周期长度为帧长来对逆滤波后的残差信号加窗分帧。
4.根据权利要求2所述的基于残差信号频谱重构的声码器,其中,
所述子带划分子模块,用于采用以下公式,根据频谱幅度值向量的频率值提取频谱幅度值向量的频率:
N=2*fs/f0
fk=fs*k/N=fs*k/(2*fs/f0)=f0*k/2
其中,N为傅里叶分析的长度,fs为语音信号的采样频率,f0为当前帧语音信号的基频,k为样点,fk为对应样点的频率。
5.根据权利要求2所述的基于残差信号频谱重构的声码器,其中,
所述归一化子模块中,用于采用以下公式定义归一化后的周期频谱长度;
Σ p = P min P norm i p / Σ p = P min P max ≥ 0.9
其中,Pnorm为归一化后的周期长度,Pmin为最小周期长度,Pmax为最大周期长度,ip为对应基频值的数目。
6.根据权利要求1所述的基于残差信号频谱重构的声码器,其中,所述周期激励生成模块包括:
周期频谱重构子模块,与所述周期频谱估计模块相连接,用于根据周期频谱参数,由主成分重构方法重构出周期频谱;
周期激励生成子模块,与周期频谱重构子模块相连接,用于根据基频和重构出的周期频谱提取单个周期长度的频谱,采用逆傅里叶变换生成单个周期的周期激励信号,通过同步叠加生成周期激励信号。
7.根据权利要求6所述的基于残差信号频谱重构的声码器,其中,
所述周期频谱重构子模块,用于采用以下公式根据周期频谱参数进行主成分重构:
X=YVT
其中,Y为周期频谱参数,VT为主成分分解后特征向量的转置,X为重构出的周期频谱。
8.根据权利要求1所述的基于残差信号频谱重构的声码器,其中,所述非周期信号支路包括:
非周期能量估计模块,与所述逆滤波模块相连接,用于根据所述基频参数和逆滤波后的残差信号计算非周期能量参数;
非周期激励生成模块,与所述非周期能量估计模块相连接,用于根据所述非周期能量参数,构建滤波器对高斯白噪声滤波生成非周期激励信号。
9.根据权利要求8所述的基于残差信号频谱重构的声码器,其中,所述非周期能量估计模块包括:
频谱计算子模块,与逆滤波模块相连接,用于根据逆滤波后的残差信号,加窗分帧进行傅里叶分析得到频谱幅度值;
非周期度量子模块,与频谱计算子模块相连接,用于通过频谱上的周期和非周期领域来构建一个三角形以及将这个三角形的面积和对称性的比值作为非周期能量值,多个非周期能量值构成非周期能量曲线;
最大谐波频率估计子模块,与非周期度量子模块相连接,用于根据非周期能量曲线,定义该曲线的最大斜率为最大谐波频率,通过Viterbi算法寻找最优的最大谐波频率;
曲线拟合子模块,与最大谐波频率估计子模块相连接,用于根据非周期能量曲线和最大谐波频率曲线,拟合出非周期能量的光滑曲线。
10.根据权利要求9所述的基于残差信号频谱重构的声码器,其中,
所述频谱计算子模块,用于采用10个周期长度的帧长进行加窗分帧,采用10个周期长度进行傅里叶变换。
11.根据权利要求9所述的基于残差信号频谱重构的声码器,其中,所述非周期度量子模块中,使用以下公式确定频谱上的周期和非周期领域:
Pi={k|ki-2N/M≤k≤ki+2N/M}
Di={k|ki-1+2N/M≤k≤ki-2N/M}
其中,Pi为周期领域,Di为非周期领域,N为傅里叶分析的长度,M为分帧长度,2N/M为窗的旁瓣的宽度,ki为第i次谐波的位置。
12.根据权利要求11所述的基于残差信号频谱重构的声码器,其中,所述非周期度量子模块中,三角形的定义为一个周期领域的最大采样点、该周期领域左邻居的非周期领域的最大值和该周期领域右邻居的非周期领域的最大值,使用以下公式计算三角形的面积和对称性的比值:
Symmetry=(Pleft-Pright)/Pharmonic
Area=2*(Pharmonic-Pright)-0.5*2*(Pleft-Pright)-0.5*(Pharmonic-Pright)-0.5*(Pharmonic-Pleft)
Aperiodicity=Symmetry/Area
其中,Pharmonic为一个周期领域的最大值,Pleft为该周期领域左邻居的非周期领域的最大值,Pright为该周期领域右邻居的非周期领域的最大值。
13.根据权利要求9所述的基于残差信号频谱重构的声码器,其中,所述最大谐波频率估计子模块中,使用以下公式由能量最小化确定非周期谐波频率:
Dash(g)=sum(abs([zeros(1,g);ones(1,length-g+1)]-Ap))
其中,sum()为求和函数,abs()为绝对值函数,zeros()为取零函数,ones()为取一函数,length为非周期能量的长度,Ap为非周期能量,g为一个分裂点。
14.根据权利要求13所述的基于残差信号频谱重构的声码器,其中,所述最大谐波频率估计子模块中,使用以下公式利用Viterbi算法搜索最优的最大谐波频率路径:
T_Cost(i,j)=Dash(i,j)
C_Cost(j,l)=exp(abs(j-l))*β
Score(i,j)=min(T_Cost(i,j)+C_Cost(j,l)+Score(i,l))
其中,T_Cost为目标代价,C_Cost为拼接代价,β为平滑系数,Score为路径的总得分,i,j为帧索引,l为候选最大谐波频率索引。
15.根据权利要求9所述的基于残差信号频谱重构的声码器,其中,所述曲线拟合子模块中,使用以下公式拟合非周期能量曲线:
aperiod = ( f / f c ) α 1 + ( f / f c ) α
其中,f为频率,fc为最大谐波频率,α为斜率参数。
16.根据权利要求8所述的基于残差信号频谱重构的声码器,其中,所述非周期激励生成模块包括:
非周期能量曲线生成子模块,与非周期能量估计模块相连接,用于根据拟合曲线的参数,最大谐波频率和斜率参数,分高频段和低频段构建非周期能量曲线;
非周期滤波器构建子模块,与非周期能量曲线生成子模块相连接,用于根据非周期能量曲线和高斯白噪声,采用非周期能量曲线构建无限冲激响应滤波器,对高斯白噪声滤波得到非周期激励信号。
17.根据权利要求16所述的基于残差信号频谱重构的声码器,其中,所述非周期能量曲线生成子模块,用于采用以下公式分别构建高频段和低频段的非周期能量曲线:
apriod = ( f / f c ) α 1 + ( f / f c ) α · · · f ≥ f c 0.5 * ( f / f c ) β · · · 0 ≤ f ≤ f c
其中,fc为最大谐波频率,α为高频段的斜率参数,β为低频段的斜率参数,f为频率。
18.根据权利要求8至17中任一项所述的基于残差信号频谱重构的声码器,其中,所述参数语音合成器模块包括:
LPC合成器子模块,与周期激励生成模块和非周期激励生成模块相连接,用于根据周期激励信号和非周期激励信号,通过LPC合成器合成出语音。
CN201210253946.XA 2012-07-20 2012-07-20 基于残差信号频谱重构的声码器 Active CN102750955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210253946.XA CN102750955B (zh) 2012-07-20 2012-07-20 基于残差信号频谱重构的声码器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210253946.XA CN102750955B (zh) 2012-07-20 2012-07-20 基于残差信号频谱重构的声码器

Publications (2)

Publication Number Publication Date
CN102750955A CN102750955A (zh) 2012-10-24
CN102750955B true CN102750955B (zh) 2014-06-18

Family

ID=47031074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210253946.XA Active CN102750955B (zh) 2012-07-20 2012-07-20 基于残差信号频谱重构的声码器

Country Status (1)

Country Link
CN (1) CN102750955B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6201043B2 (ja) 2013-06-21 2017-09-20 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. エラー封じ込め中の切替音声符号化システムについての向上した信号フェードアウトのための装置及び方法
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
CN104575507B (zh) * 2013-10-23 2018-06-01 中国移动通信集团公司 语音通信方法及装置
CN111312278B (zh) * 2014-03-03 2023-08-15 三星电子株式会社 用于带宽扩展的高频解码的方法及设备
CN108766450B (zh) * 2018-04-16 2023-02-17 杭州电子科技大学 一种基于谐波冲激分解的语音转换方法
CN112727704B (zh) * 2020-12-15 2021-11-30 北京天泽智云科技有限公司 一种叶片前缘腐蚀的监测方法及系统
CN112863477B (zh) * 2020-12-31 2023-06-27 出门问问(苏州)信息科技有限公司 一种语音合成方法、装置及存储介质
CN113436603B (zh) * 2021-06-28 2023-05-02 北京达佳互联信息技术有限公司 声码器的训练方法和装置及合成音频信号的方法和声码器
CN114913844A (zh) * 2022-04-11 2022-08-16 昆明理工大学 一种基音归一化重构的广播语种识别方法
CN114550733B (zh) * 2022-04-22 2022-07-01 成都启英泰伦科技有限公司 一种可用于芯片端的语音合成方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5235670A (en) * 1990-10-03 1993-08-10 Interdigital Patents Corporation Multiple impulse excitation speech encoder and decoder
US5890108A (en) * 1995-09-13 1999-03-30 Voxware, Inc. Low bit-rate speech coding system and method using voicing probability determination
CN1424712A (zh) * 2002-12-19 2003-06-18 北京工业大学 2.3kb/s谐波激励线性预测语音编码方法
CN102201240A (zh) * 2011-05-27 2011-09-28 中国科学院自动化研究所 基于逆滤波的谐波噪声激励模型声码器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5235670A (en) * 1990-10-03 1993-08-10 Interdigital Patents Corporation Multiple impulse excitation speech encoder and decoder
US5890108A (en) * 1995-09-13 1999-03-30 Voxware, Inc. Low bit-rate speech coding system and method using voicing probability determination
CN1424712A (zh) * 2002-12-19 2003-06-18 北京工业大学 2.3kb/s谐波激励线性预测语音编码方法
CN102201240A (zh) * 2011-05-27 2011-09-28 中国科学院自动化研究所 基于逆滤波的谐波噪声激励模型声码器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于逆滤波的谐波噪声激励模型;温正棋等;《第十一届全国人机语音通讯学术会议》;20111231;第1-6页 *
温正棋等.基于逆滤波的谐波噪声激励模型.《第十一届全国人机语音通讯学术会议》.2011,第1-6页.

Also Published As

Publication number Publication date
CN102750955A (zh) 2012-10-24

Similar Documents

Publication Publication Date Title
CN102750955B (zh) 基于残差信号频谱重构的声码器
Kawahara et al. Tandem-STRAIGHT: A temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, F0, and aperiodicity estimation
Alku et al. Formant frequency estimation of high-pitched vowels using weighted linear prediction
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
CN103778919B (zh) 基于压缩感知和稀疏表示的语音编码方法
CN102201240B (zh) 基于逆滤波的谐波噪声激励模型声码器
CN105765655A (zh) 高频带译码中的选择性相位补偿
Ganapathy et al. Feature extraction using 2-d autoregressive models for speaker recognition.
Maia et al. Complex cepstrum as phase information in statistical parametric speech synthesis
CN103155034A (zh) 基于celp的语音编码器中的音频信号带宽扩展
Pannala et al. Robust Estimation of Fundamental Frequency Using Single Frequency Filtering Approach.
CA3195582A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
CN101983402A (zh) 声音分析装置、声音分析合成装置、校正规则信息生成装置、声音分析系统、声音分析方法、校正规则信息生成方法、以及程序
Goodwin The STFT, sinusoidal models, and speech modification
Erro et al. MFCC+ F0 extraction and waveform reconstruction using HNM: preliminary results in an HMM-based synthesizer
CN103155035A (zh) 基于celp的语音编码器中的音频信号带宽扩展
Kawahara et al. Higher order waveform symmetry measure and its application to periodicity detectors for speech and singing with fine temporal resolution
Sundar et al. A mixture model approach for formant tracking and the robustness of student's-t distribution
Srivastava Fundamentals of linear prediction
Chowdhury et al. Formant estimation from speech signal using the magnitude spectrum modified with group delay spectrum
Sandoval et al. Hilbert spectral analysis of vowels using intrinsic mode functions
Arakawa et al. High quality voice manipulation method based on the vocal tract area function obtained from sub-band LSP of STRAIGHT spectrum
Kawahara et al. Beyond bandlimited sampling of speech spectral envelope imposed by the harmonic structure of voiced sounds.
d'Alessandro Time-frequency speech transformation based on an elementary waveform representation
Petrovsky et al. Instantaneous harmonic analysis: techniques and applications to speech signal processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190530

Address after: 310019 1105, 11 / F, 4 building, 9 Ring Road, Jianggan District nine, Hangzhou, Zhejiang.

Patentee after: Limit element (Hangzhou) intelligent Polytron Technologies Inc

Address before: 100190 Zhongguancun East Road, Haidian District, Haidian District, Beijing

Patentee before: Institute of Automation, Chinese Academy of Sciences

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: 310019 1105, 11 / F, 4 building, 9 Ring Road, Jianggan District nine, Hangzhou, Zhejiang.

Patentee after: Zhongke extreme element (Hangzhou) Intelligent Technology Co., Ltd

Address before: 310019 1105, 11 / F, 4 building, 9 Ring Road, Jianggan District nine, Hangzhou, Zhejiang.

Patentee before: Limit element (Hangzhou) intelligent Polytron Technologies Inc.

CP01 Change in the name or title of a patent holder