CN102201240A - 基于逆滤波的谐波噪声激励模型声码器 - Google Patents

基于逆滤波的谐波噪声激励模型声码器 Download PDF

Info

Publication number
CN102201240A
CN102201240A CN2011101402696A CN201110140269A CN102201240A CN 102201240 A CN102201240 A CN 102201240A CN 2011101402696 A CN2011101402696 A CN 2011101402696A CN 201110140269 A CN201110140269 A CN 201110140269A CN 102201240 A CN102201240 A CN 102201240A
Authority
CN
China
Prior art keywords
frequency
voiced sound
module
noise
residual signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101402696A
Other languages
English (en)
Other versions
CN102201240B (zh
Inventor
陶建华
温正棋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Extreme Element Hangzhou Intelligent Technology Co Ltd
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201110140269A priority Critical patent/CN102201240B/zh
Publication of CN102201240A publication Critical patent/CN102201240A/zh
Application granted granted Critical
Publication of CN102201240B publication Critical patent/CN102201240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明基于逆滤波的谐波噪声激励模型声码器,声码器包含有:参数提取模块接收语音数据,分析基频参数和频谱参数;逆滤波模块接收频谱参数设计逆滤波器,得到去除谱信息的残差信号;最大浊音频率估计模块接收基频参数和逆滤波后的残差信号,计算最大浊音频率将残差信号的频谱划分为低频段的谐波和高频段的噪声;浊音激励生成模块接收基频参数和最大浊音频率,分别用一组正弦波和高通滤波的高斯白噪声来构建激励模型中的低频谐波和高频噪声;清音激励生成模块用高斯白噪声;参数语音合成器模块接收频谱参数和清音激励信号或浊音激励信号,调用合成器输出语音。依据本发明实现对逆滤波后的残差信号建模,合成语音具有较好的自然度和清晰度。

Description

基于逆滤波的谐波噪声激励模型声码器
技术领域
本发明涉及一种混合激励模型声码器,具体涉及基于逆滤波的谐波噪声激励模型声码器。
背景技术
和谐人机交互技术一直都是人们关注的对象,声码器技术是其重要组成部分,它能够对一个人的声音进行处理,使之能够产生接近自然人发音的语音,其研究成果对参数语音合成技术、语音编码技术、个性化语音合成技术等的发展具有重要的意义。而目前的大多数声码器技术采用脉冲加白噪声激励模型,这种激励模型在浊音段用脉冲串构建激励信号,由于脉冲串周期性过强,采用这种激励模型合成语音音质不高,有很严重的机器声。残差信号是语音信号经过逆滤波去除谱信息后的残留信号,是激励建模的目标信号。脉冲加白噪声激励模型在高频段不能很好的模拟残差信号。与之相比,直接对残差信号进行建模的谐波噪声激励模型能够很好的解决这个问题。
发明内容
为了解决现有技术问题,本发明的目的是提出一种技术,可以对逆滤波后的残差信号进行建模,使生成的激励信号具有较高的准确性;根据浊音残差信号的频谱具有低频谐波和高频噪声的特性,求取最大浊音频率将浊音残差信号的频谱划分为高频段和低频段,分别采用一组正弦函数和高通滤波的高斯白噪声来构建,为此,本发明构建一种基于逆滤波的谐波噪声激励模型声码器。
为实现上述目的,本发明的基于逆滤波的谐波噪声激励模型声码器,利用电脑终端,分析语音数据的频谱、基频和最大浊音频率,用低频段的谐波和高频段的噪声构建谐波噪声激励模型来复现逆滤波后的残差信号,在激励建模过程中,对任何输入语音进行激励建模,所述谐波噪声激励模型声码器中:
具有一参数提取模块,输入端接收待分析语音数据,加窗分帧,计算基频参数和频谱参数;具有一输出端输出基频参数和频谱参数;
具有一逆滤波模块,输入端接收频谱参数和待分析语音数据,根据频谱参数设计逆滤波器对语音数据逆滤波;具有一输出端输出逆滤波后的残差信号;
具有一最大浊音频率估计模块,输入端接收基频参数和逆滤波后的残差信号;具有一输出端输出计算出的最大浊音频率;
具有一浊音激励生成模块,输入端接收基频参数和最大浊音频率,分低频段和高频段分别生成浊音激励信号;具有一输出端按帧输出生成浊音激励信号;
具有一清音激励生成模块,用高斯白噪声作为清音激励;具有一输出端按帧输出清音激励信号;
具有一参数语音合成器模块,输入端接收频谱参数和清音激励信号或浊音激励信号,调用语音合成器合成语音;具有一输出端输出语音合成结果;
优选地,所述最大浊音频率估计模块具有一频谱计算模块,输入端接收逆滤波后的残差信号,加窗分帧后进行短时傅里叶分析计算每帧残差信号的频谱幅度值;具有一输出端输出每帧残差信号的频谱幅度值;具有一子带划分模块,输入端接收基频参数和每帧残差信号的频谱幅度值,对残差信号的频谱幅度值的正频率部分按照基频划分为多个子带;具有一输出端输出每帧残差信号的频谱幅度值的子带划分结果;具有一K-均值聚类模块,输入端接收每帧残差信号的频谱幅度值的子带划分结果,定义子带之间的距离度量方法,采用K-均值聚类方法将子带划分为两类,将聚类结果一类视为谐波,一类视为噪声;具有一输出端输出每个子带的聚类结果;具有一Viterbi搜索模块,输入端接收每个子带的聚类结果,通过计算子带的K-均值聚类结果的斜率定义一帧残差信号可能的谐波/噪声转换点,定义相邻子带的谐波之间的拼接代价,运用Viterbi算法通过搜索最大拼接代价来得到最大浊音频率的最优路径;具有一输出端输出最大浊音频率的最优路径。
优选地,浊音激励生成模块具有一低频段谐波模块,输入端接收基频参数和最大浊音频率,采用一组正弦波构建低频段谐波;具有一输出端输出浊音激励低频段谐波信号;具有一高频段噪声模块,输入端接收最大浊音频率,设计截止频率为最大浊音频率的理想高通滤波器对高斯白噪声进行滤波得到浊音激励高频段噪声信号;具有一输出端输出浊音激励高频段噪声信号。
优选地,参数语音合成器模块具有一语音参数合成器模型,输入端接收频谱参数和清音激励信号或浊音激励信号,调用语音合成器合成语音;具有一输出端输出语音合成结果。
本发明的有益效果:本发明的第一方面,在最大浊音频率估计阶段,利用K-均值聚类和Viterbi搜索的方法。传统的基于频谱的最大浊音频率计算方法,往往需要定义一个谐波的度量方法,同时确定一个阈值来对候选的谐波成分进行判断。这种方法的准确性很大程度上取决于定义的谐波度量方法和采用的阈值大小,这样往往需要耗费大量的人力做实验来选择谐波度量方法和确定所采用的阈值,在不同情况下的语音又需要重新通过实验调整阈值。但是在本方法是通过K-均值聚类来确定可能的谐波/噪声转换点,通过Viterbi算法来搜索最大浊音频率的最优路径,不需要任何手工标注信息,从而大大降低了系统实现的复杂度和人工参与程度。
本发明的第二方面,在计算子带之间的距离时采用夹角度量方法。传统的基于欧式距离的度量方法,定义的是欧式空间的真实距离。由于子带之间的欧式距离较小,影响K-均值聚类。但是采用夹角度量方法,能够将子带之间的距离经过一个非线性变换放大,使聚类结果更加准确。
本发明的第三方面,在浊音激励建模阶段,采用一组正弦波构成的低频段和高通滤波的高斯白噪声构成的高频段组成。传统基于脉冲串的浊音激励,周期性太强,合成语音有严重的机器声,脉冲串频谱的零频段存在半个谐波与残差信号的频谱不符。但是本方法采用低频段和高频段对浊音激励分两段建模,能够有效去除合成语音的机器声,同时去除零频段半个谐波的干扰。
附图说明
图1是本发明所提出的基于逆滤波的谐波噪声模型声码器的总体框图。
图2是本发明的最大浊音频率估计的框图。
图3是本发明的构建浊音语音激励模型的框图。
图4是本发明的参数语音合成器的框图。
具体实施方式
下面结合附图和实例对本发明进一步说明,通过结合附图对系统各组成部件的详细说明将会更好地描述实现本发明的步骤和过程。应该指出,所描述的实例仅仅视为说明的目的,而不是对本发明的限制。
图1是本发明基于逆滤波的谐波噪声激励模型声码器的系统示意图,系统以matlab语言编写,在windows平台下和在linux平台下均可使用Matlab程序编程运行。在附图1本发明的优选实施方案中,本系统被分为六部分:参数提取模块1、逆滤波模块2、最大浊音频率估计模块3、浊音激励生成模块4、清音激励生成模块5和参数语音合成器模块6组成。其中,输入的语音数据与参数提取模块1相连,逆滤波模块2与参数提取模块1相连,最大浊音频率估计模块3与逆滤波模块2相连,浊音激励生成模块4和清音激励生成模块5与最大浊音频率估计模块相连,参数语音合成器模块与浊音激励生成模块4和清音激励生成模块5选择相连。
具有一参数提取模块1,其输入端接收待分析语音数据,加窗分帧,计算基频参数和频谱参数;具有一输出端输出基频参数和频谱参数。
具有一逆滤波模块2,其输入端接收频谱参数和待分析语音数据,根据频谱参数设计逆滤波器对语音数据逆滤波;具有一输出端输出逆滤波后的残差信号。
具有一最大浊音频率估计模块3,其输入端接收基频参数和逆滤波后的残差信号;具有一输出端输出计算出的最大浊音频率。
具有一浊音激励生成模块4,其输入端接收基频参数和最大浊音频率,分低频段和高频段分别生成浊音激励信号;具有一输出端按帧输出生成浊音激励信号。
具有一清音激励生成模块5,用高斯白噪声作为清音激励;具有一输出端按帧输出清音激励信号。
具有一参数语音合成器模块6,其输入端接收频谱参数和清音激励信号或浊音激励信号,调用语音合成器合成语音;具有一输出端输出语音合成结果。
如图2最大浊音频率估计模块的框图所示:最大浊音频率估计模块3由频谱计算模块10、子带划分模块20、K-均值聚类模块30和Viterbi算法模块40。
频谱计算模块10的输入端接收逆滤波后的残差信号,加窗分帧后进行短时傅里叶分析计算每帧残差信号的频谱幅度值;具有一输出端输出每帧残差信号的频谱幅度值;在进行傅里叶分析时采用的长度为4096,这样能够确保接下来子带划分模块20划分出的子带具有较高的准确度。
子带划分模块20的输入端接收基频参数和每帧残差信号的频谱幅度值,对残差信号的频谱幅度值的正频率部分按照基频划分为多个子带,每个子带用一维向量表示;具有一输出端输出每帧残差信号的频谱幅度值的子带划分结果;子带长度和子带个数可以通过基频和采样率确定,使用公式为:
Figure BDA0000064383240000051
其中N为傅里叶分析的长度为4096,fs该帧语音的基频,Fs为语音信号的采样率,
Figure BDA0000064383240000052
为取整运算,length为子带长度,number为子带个数。
K-均值聚类模块30的输入端接收每帧残差信号的频谱幅度值的子带划分结果,定义子带之间的距离度量方法,采用K-均值聚类方法将子带划分为两类,将聚类结果一类视为谐波,一类视为噪声;具有一输出端输出每个子带的聚类结果;子带之间的距离定义采用向量夹角距离度量方法,使用公式为:
d ( x i , x j ) = cos - 1 ( Σ k = 1 M x i ( k ) · x j ( k ) Σ k = 1 M ( x i ( k ) ) 2 · Σ k = 1 M ( x j ( k ) ) 2 )
其中,xi、xj为第i个和第j个子带的一维向量,M为每个子带的长度。
Viterbi搜索模块40的输入端接收每个子带的聚类结果,通过计算子带的K-均值聚类结果的斜率定义一帧残差信号可能的谐波/噪声转换点,使用公式为:
gradienti,k=|markk-markk+1|
其中,markk,markk+1为相邻两个子带的聚类结果,gradientk为第i帧残差信号的第k个谐波的斜率;定义相邻两帧每个子带之间的拼接代价,使用公式为:
d(im,(i+1)n)=1/(|m-n|+l)
其中,im第i帧残差信号频谱的第m个子带,(i+1)n第(i+1)帧残差信号频谱的第n个子带,l为定义距离偏移量,主要用来调整最大浊音频率最优路径的平滑程度;运用Viterbi算法通过搜索最大拼接代价来得到最大浊音频率的最优路径,使用公式为:
V0,k=P(x0|k)·gradient0,k
V t , k = P ( x t / k ) · max m ∈ M t ( d ( ( t - 1 ) m , t k ) · V t - 1 , m )
y T = arg max x m ∈ M T ( V T , m )
yt-1=Ptr(yt,t)
其中,P(x0|k)初始第1帧残差信号第k个谐波的概率,Vt,k为从第1帧残差信号开始第t帧残差信号的第k个谐波的最优路径代价,Mt为第t帧残差信号的谐波个数,Ptr为一回溯过程;具有一输出端输出最大浊音频率的最优路径。
如图3所示浊音激励生成模块的框图所示:浊音激励产生模块4由低频段谐波模块50和高频段噪声模块模块60。
低频段谐波模块50的输入端接收基频参数和最大浊音频率,计算谐波个数,使用公式为:
Num = VCO fs
其中,VCO为该帧残差的最大浊音频率,fs为该帧语音的基频,Num为谐波个数;采用一组正弦波构建低频段谐波,正弦波的个数为Num,使用公式为:
x [ n ] = Σ k = 1 Num cos ( 2 π · k · n / fs + φ k , 0 )
其中,fs为该帧语音的基频,Num为谐波个数,φk,0为第k个谐波的初始相位;具有一输出端输出浊音激励低频段谐波信号。
高频段噪声模块60的输入端接收最大浊音频率,设计截止频率为最大浊音频率的理想高通滤波器对高斯白噪声进行滤波得到浊音激励高频段噪声信号;具有一输出端输出浊音激励高频段噪声信号。
如图4所示参数语音合成器模块的框图所示:参数语音合成器模块6由LPC合成器模型(语音参数合成器模型)70组成。
LPC合成器模型70的输入端接收频谱参数和清音激励信号或浊音激励信号,调用语音合成器合成语音;具有一输出端输出语音合成结果。
上述实施例为本发明的较佳实施例,本发明的应用不仅限于电脑终端,还可应用到多种手持式移动设备或其它形式的移动设备。根据本发明的主要构思,本领域普通技术人员均可以产生多种相类似的或等价的应用,为此,本发明的范围不应由该描述来限定。本领域的技术人员应该理解,在不脱离本发明的范围的任何修改或局部替换。

Claims (4)

1.一种基于逆滤波的谐波噪声激励模型声码器,利用电脑终端,分析语音数据的频谱、基频和最大浊音频率,用低频段的谐波和高频段的噪声构建谐波噪声激励模型来复现逆滤波后的残差信号,在激励建模过程中,对任何输入语音进行激励建模,其特征在于:所述谐波噪声激励模型声码器中:
具有一参数提取模块,输入端接收待分析语音数据,加窗分帧,计算基频参数和频谱参数;具有一输出端输出基频参数和频谱参数;
具有一逆滤波模块,输入端接收频谱参数和待分析语音数据,根据频谱参数设计逆滤波器对语音数据逆滤波;具有一输出端输出逆滤波后的残差信号;
具有一最大浊音频率估计模块,输入端接收基频参数和逆滤波后的残差信号;具有一输出端输出计算出的最大浊音频率;
具有一浊音激励生成模块,输入端接收基频参数和最大浊音频率,分低频段和高频段分别生成浊音激励信号;具有一输出端按帧输出生成浊音激励信号;
具有一清音激励生成模块,用高斯白噪声作为清音激励;具有一输出端按帧输出清音激励信号;
具有一参数语音合成器模块,输入端接收频谱参数和清音激励信号或浊音激励信号,调用语音合成器合成语音;具有一输出端输出语音合成结果。
2.根据权利要求1所述的基于逆滤波的谐波噪声激励模型建模方法,其特征在于:所述最大浊音频率估计模块中:
具有一频谱计算模块,输入端接收逆滤波后的残差信号,加窗分帧后进行短时傅里叶分析计算每帧残差信号的频谱幅度值;具有一输出端输出每帧残差信号的频谱幅度值;
具有一子带划分模块,输入端接收基频参数和每帧残差信号的频谱幅度值,对残差信号的频谱幅度值的正频率部分按照基频划分为多个子带;具有一输出端输出每帧残差信号的频谱幅度值的子带划分结果;
具有一K-均值聚类模块,输入端接收每帧残差信号的频谱幅度值的子带划分结果,定义子带之间的距离度量方法,采用K-均值聚类方法将子带划分为两类,将聚类结果一类视为谐波,一类视为噪声;具有一输出端输出每个子带的聚类结果;
具有一Viterbi搜索模块,输入端接收每个子带的聚类结果,通过计算子带的K-均值聚类结果的斜率定义一帧残差信号可能的谐波/噪声转换点,定义相邻子带的谐波之间的拼接代价,运用Viterbi算法通过搜索最大拼接代价来得到最大浊音频率的最优路径;具有一输出端输出最大浊音频率的最优路径。
3.根据权利要求1所述的基于逆滤波的谐波噪声激励模型建模方法,其特征在于:浊音激励生成模块中:
具有一低频段谐波模块,输入端接收基频参数和最大浊音频率,采用一组正弦波构建低频段谐波;具有一输出端输出浊音激励低频段谐波信号;
具有一高频段噪声模块,输入端接收最大浊音频率,设计截止频率为最大浊音频率的理想高通滤波器对高斯白噪声进行滤波得到浊音激励高频段噪声信号;具有一输出端输出浊音激励高频段噪声信号。
4.根据权利要求1所述的基于逆滤波后残差信号的谐波噪声激励模型建模方法,其特征在于:参数语音合成器模块具有一语音参数合成器模型,输入端接收频谱参数和清音激励信号或浊音激励信号,调用语音合成器合成语音;具有一输出端输出语音合成结果。
CN201110140269A 2011-05-27 2011-05-27 基于逆滤波的谐波噪声激励模型声码器 Active CN102201240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110140269A CN102201240B (zh) 2011-05-27 2011-05-27 基于逆滤波的谐波噪声激励模型声码器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110140269A CN102201240B (zh) 2011-05-27 2011-05-27 基于逆滤波的谐波噪声激励模型声码器

Publications (2)

Publication Number Publication Date
CN102201240A true CN102201240A (zh) 2011-09-28
CN102201240B CN102201240B (zh) 2012-10-03

Family

ID=44661864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110140269A Active CN102201240B (zh) 2011-05-27 2011-05-27 基于逆滤波的谐波噪声激励模型声码器

Country Status (1)

Country Link
CN (1) CN102201240B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750955A (zh) * 2012-07-20 2012-10-24 中国科学院自动化研究所 基于残差信号频谱重构的声码器
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
CN106256000A (zh) * 2014-04-30 2016-12-21 高通股份有限公司 高频带激励信号生成
CN106356055A (zh) * 2016-09-09 2017-01-25 华南理工大学 基于正弦模型的可变频语音合成系统及方法
CN108281150A (zh) * 2018-01-29 2018-07-13 上海泰亿格康复医疗科技股份有限公司 一种基于微分声门波模型的语音变调变嗓音方法
CN108346424A (zh) * 2017-01-23 2018-07-31 北京搜狗科技发展有限公司 语音合成方法和装置、用于语音合成的装置
CN108879758A (zh) * 2018-06-19 2018-11-23 广东电网有限责任公司 一种基于协同演化的并网变流器谐波阻尼算法
CN109243479A (zh) * 2018-09-20 2019-01-18 广州酷狗计算机科技有限公司 音频信号处理方法、装置、电子设备及存储介质
CN112233685A (zh) * 2020-09-08 2021-01-15 厦门亿联网络技术股份有限公司 基于深度学习注意力机制的频带扩展方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5138661A (en) * 1990-11-13 1992-08-11 General Electric Company Linear predictive codeword excited speech synthesizer
US6047254A (en) * 1996-05-15 2000-04-04 Advanced Micro Devices, Inc. System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation
CN1424712A (zh) * 2002-12-19 2003-06-18 北京工业大学 2.3kb/s谐波激励线性预测语音编码方法
US20040181399A1 (en) * 2003-03-15 2004-09-16 Mindspeed Technologies, Inc. Signal decomposition of voiced speech for CELP speech coding
US20080052065A1 (en) * 2006-08-22 2008-02-28 Rohit Kapoor Time-warping frames of wideband vocoder

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5138661A (en) * 1990-11-13 1992-08-11 General Electric Company Linear predictive codeword excited speech synthesizer
US6047254A (en) * 1996-05-15 2000-04-04 Advanced Micro Devices, Inc. System and method for determining a first formant analysis filter and prefiltering a speech signal for improved pitch estimation
CN1424712A (zh) * 2002-12-19 2003-06-18 北京工业大学 2.3kb/s谐波激励线性预测语音编码方法
US20040181399A1 (en) * 2003-03-15 2004-09-16 Mindspeed Technologies, Inc. Signal decomposition of voiced speech for CELP speech coding
US20080052065A1 (en) * 2006-08-22 2008-02-28 Rohit Kapoor Time-warping frames of wideband vocoder

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750955A (zh) * 2012-07-20 2012-10-24 中国科学院自动化研究所 基于残差信号频谱重构的声码器
CN102750955B (zh) * 2012-07-20 2014-06-18 中国科学院自动化研究所 基于残差信号频谱重构的声码器
CN106256000A (zh) * 2014-04-30 2016-12-21 高通股份有限公司 高频带激励信号生成
CN110827842B (zh) * 2014-04-30 2024-04-02 高通股份有限公司 高频带激励信号生成
CN110827842A (zh) * 2014-04-30 2020-02-21 高通股份有限公司 高频带激励信号生成
CN106256000B (zh) * 2014-04-30 2019-12-24 高通股份有限公司 高频带激励信号生成
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
CN106356055B (zh) * 2016-09-09 2019-12-10 华南理工大学 基于正弦模型的可变频语音合成系统及方法
CN106356055A (zh) * 2016-09-09 2017-01-25 华南理工大学 基于正弦模型的可变频语音合成系统及方法
CN108346424B (zh) * 2017-01-23 2021-11-19 北京搜狗科技发展有限公司 语音合成方法和装置、用于语音合成的装置
CN108346424A (zh) * 2017-01-23 2018-07-31 北京搜狗科技发展有限公司 语音合成方法和装置、用于语音合成的装置
CN108281150A (zh) * 2018-01-29 2018-07-13 上海泰亿格康复医疗科技股份有限公司 一种基于微分声门波模型的语音变调变嗓音方法
CN108879758A (zh) * 2018-06-19 2018-11-23 广东电网有限责任公司 一种基于协同演化的并网变流器谐波阻尼算法
CN109243479A (zh) * 2018-09-20 2019-01-18 广州酷狗计算机科技有限公司 音频信号处理方法、装置、电子设备及存储介质
CN109243479B (zh) * 2018-09-20 2022-06-28 广州酷狗计算机科技有限公司 音频信号处理方法、装置、电子设备及存储介质
CN112233685A (zh) * 2020-09-08 2021-01-15 厦门亿联网络技术股份有限公司 基于深度学习注意力机制的频带扩展方法及装置
CN112233685B (zh) * 2020-09-08 2024-04-19 厦门亿联网络技术股份有限公司 基于深度学习注意力机制的频带扩展方法及装置

Also Published As

Publication number Publication date
CN102201240B (zh) 2012-10-03

Similar Documents

Publication Publication Date Title
CN102201240B (zh) 基于逆滤波的谐波噪声激励模型声码器
Sharma et al. Empirical mode decomposition for adaptive AM-FM analysis of speech: A review
US6862558B2 (en) Empirical mode decomposition for analyzing acoustical signals
Erro et al. Harmonics plus noise model based vocoder for statistical parametric speech synthesis
Vuppala et al. Vowel onset point detection for low bit rate coded speech
CN102308333B (zh) 修改的离散余弦变换音频编码器的带宽扩展方法和装置
CN102750955B (zh) 基于残差信号频谱重构的声码器
US10621969B2 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN102496363B (zh) 一种用于汉语语音合成的音调修正方法
EP1588354B1 (en) Method and apparatus for speech reconstruction
CN109817191B (zh) 颤音建模方法、装置、计算机设备及存储介质
CN101527141A (zh) 基于径向基神经网络的耳语音转换为正常语音的方法
Faundez-Zanuy et al. Nonlinear speech processing: overview and applications
Magron et al. Phase recovery in NMF for audio source separation: an insightful benchmark
CN103714822B (zh) 基于silk编解码器的子带编解码方法及装置
KR20230109630A (ko) 오디오 신호 생성 및 오디오 생성기 훈련을 위한 방법 및 오디오 생성기
WO2002065157A2 (en) Empirical mode decomposition for analyzing acoustical signals
Goodwin The STFT, sinusoidal models, and speech modification
WO2017061985A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN102231275B (zh) 一种基于加权混合激励的嵌入式语音合成方法
Ou et al. Probabilistic acoustic tube: a probabilistic generative model of speech for speech analysis/synthesis
Arakawa et al. High quality voice manipulation method based on the vocal tract area function obtained from sub-band LSP of STRAIGHT spectrum
CN106935243A (zh) 一种基于melp的低比特数字语音矢量量化方法和系统
CN111862931A (zh) 一种语音生成方法及装置
Kawahara et al. Beyond bandlimited sampling of speech spectral envelope imposed by the harmonic structure of voiced sounds.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20170405

Address after: 100085 Beijing East Road, No. 35, building No. 1, floor 3, 1-312-316,

Patentee after: Extreme element (Beijing) intelligent Polytron Technologies Inc

Address before: 100190 Zhongguancun East Road, Beijing, No. 95, No.

Patentee before: Institute of Automation, Chinese Academy of Sciences

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: 310019 1105, 11 / F, 4 building, 9 Ring Road, Jianggan District nine, Hangzhou, Zhejiang.

Patentee after: Limit element (Hangzhou) intelligent Polytron Technologies Inc

Address before: 100085 1-312-316, 3 floor, 1 building, 35 hospital, Shanghai East Road, Haidian District, Beijing.

Patentee before: Extreme element (Beijing) intelligent Polytron Technologies Inc

CP03 Change of name, title or address
CP01 Change in the name or title of a patent holder

Address after: 310019 1105, 11 / F, 4 building, 9 Ring Road, Jianggan District nine, Hangzhou, Zhejiang.

Patentee after: Zhongke extreme element (Hangzhou) Intelligent Technology Co., Ltd

Address before: 310019 1105, 11 / F, 4 building, 9 Ring Road, Jianggan District nine, Hangzhou, Zhejiang.

Patentee before: Limit element (Hangzhou) intelligent Polytron Technologies Inc.

CP01 Change in the name or title of a patent holder