CN112863477A - 一种语音合成方法、装置及存储介质 - Google Patents
一种语音合成方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112863477A CN112863477A CN202011619349.5A CN202011619349A CN112863477A CN 112863477 A CN112863477 A CN 112863477A CN 202011619349 A CN202011619349 A CN 202011619349A CN 112863477 A CN112863477 A CN 112863477A
- Authority
- CN
- China
- Prior art keywords
- sub
- band
- signal
- frequency signals
- band frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 16
- 238000001228 spectrum Methods 0.000 claims abstract description 100
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 66
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 66
- 238000005070 sampling Methods 0.000 claims abstract description 50
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000003062 neural network model Methods 0.000 claims description 12
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101100379142 Mus musculus Anxa1 gene Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种语音合成方法、装置及计算机可读存储介质,首先将原始语音信号按频率分解成n个子带频率信号,n的取值为大于等于2的正整数;接着从所述原始语音信号提取梅尔频谱特征;之后根据所提取的梅尔频谱特征生成所述n个子带频率信号中每个子带频率信号的预测采样点;最后利用所述n个子带频率信号中每个子带频率信号的预测采样点对所述n个子带频率信号进行合成,得到对应所述原始语音信号的语音合成信号。
Description
技术领域
本发明涉及语言处理技术,尤其涉及一种语音合成方法、装置及计算机可读存储介质。
背景技术
语音合成是指计算机自动根据文本生成相应语音的技术。语音合成主要由文本前端分析,声学模型和声码器组成,目前逐渐从传统技术向深度学习技术转变。
基于深度学习的语音合成能够大大提高合成语音的音质,但基于神经网络的语音合成系统往往会因为语音的采样率过高,导致每秒需要生成的采样点过多而发生延时问题。
发明内容
本发明实施例为了解决当前基于神经网络的语音合成技术所存在的以上缺陷,创造性地提供一种语音合成方法、装置及计算机可读存储介质。
根据本发明的第一方面,提供了一种语音合成方法,该方法包括:将原始语音信号按频率分解成n个子带频率信号,n的取值为大于等于2的正整数;从所述原始语音信号提取梅尔频谱特征;根据所提取的梅尔频谱特征生成所述n个子带频率信号中每个子带频率信号的预测采样点;利用所述n个子带频率信号中每个子带频率信号的预测采样点对所述n个子带频率信号进行合成,得到对应所述原始语音信号的语音合成信号。
根据本发明一实施方式,根据所提取的梅尔频谱特征生成所述n个子带频率信号中每个子带频率信号的预测采样点,包括:根据所提取的梅尔频谱特征对所述n个子带频率信号进行线性预测,得到所述n个子带频率信号中每个子带频率信号对应的线性预测值;利用所提取的梅尔频谱特征对所述n个子带频率信号进行神经网络预测,得到所述n个子带频率信号中每个子带频率信号对应的残差;将所述n个子带频率信号中每个子带频率信号对应的线性预测值和残差对应相加,得到所述n个子带频率信号中每个子带频率信号的预测采样点。
根据本发明一实施方式,利用所述n个子带频率信号中每个子带频率信号的预测采样点对所述n个子带频率信号进行合成,得到对应所述原始语音信号的语音合成信号,包括:根据所述n个子带频率信号中每个子带频率信号对应的线性预测值和残差,生成n个子带语音合成信号;将所述n个子带语音合成信号按频率合并,得到对应所述原始语音信号的语音合成信号。
根据本发明一实施方式,根据所提取的梅尔频谱特征对所述n个子带频率信号进行线性预测,包括:将所提取的梅尔频谱特征转换为线性谱;将所述线性谱等分成n个子带线性谱;对所述n个子带线性谱进行线性预测,得到每个子带线性谱对应的线性预测系数;根据所述线性预测系数确定所述n个子带频率信号中每个子带频率信号对应的线性预测值。
根据本发明一实施方式,利用所提取的梅尔频谱特征对所述n个子带频率信号进行神经网络预测,包括:利用梅尔频谱样本和所述n个子带频率信号进行模型训练,得到神经网络模型;将所提取的梅尔频谱特征作为所述神经网络模型的输入,对所述n个子带频率信号进行神经网络预测。
根据本发明第二方面,还提供了一种语音合成装置,该装置包括:信号分解模块,用于将原始语音信号按频率分解成n个子带频率信号,n的取值为大于等于2的正整数;特征提取模块,用于从所述原始语音信号提取梅尔频谱特征;采样点生成模块,用于根据所提取的梅尔频谱特征生成所述n个子带频率信号中每个子带频率信号的预测采样点;信号合成模块,用于利用所述n个子带频率信号中每个子带频率信号的预测采样点对所述n个子带频率信号进行合成,得到对应所述原始语音信号的语音合成信号。
根据本发明一实施方式,所述采样点生成模块具体用于,根据所提取的梅尔频谱特征对所述n个子带频率信号进行线性预测,得到所述n个子带频率信号中每个子带频率信号对应的线性预测值;利用所提取的梅尔频谱特征对所述n个子带频率信号进行神经网络预测,得到所述n个子带频率信号中每个子带频率信号对应的残差;将所述n个子带频率信号中每个子带频率信号对应的线性预测值和残差对应相加,得到所述n个子带频率信号中每个子带频率信号的预测采样点。
根据本发明一实施方式,所述信号合成模块具体用于,根据所述n个子带频率信号中每个子带频率信号对应的线性预测值和残差,生成n个子带语音合成信号;将所述n个子带语音合成信号按频率合并,得到对应所述原始语音信号的语音合成信号。
根据本发明一实施方式,所述采样点生成模块,还用于将所提取的梅尔频谱特征转换为线性谱;将所述线性谱等分成n个子带线性谱;对所述n个子带线性谱进行线性预测,得到每个子带线性谱对应的线性预测系数;根据所述线性预测系数确定所述n个子带频率信号中每个子带频率信号对应的线性预测值。
根据本发明一实施方式,所述采样点生成模块,还用于利用梅尔频谱样本和所述n个子带频率信号进行模型训练,得到神经网络模型;将所提取的梅尔频谱特征作为所述神经网络模型的输入,对所述n个子带频率信号进行神经网络预测。
根据本发明第三方面,又提供了一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一语音合成方法。
本发明实施例语音合成方法、装置及计算机可读存储介质,首先将原始语音信号按频率分解成n个子带频率信号,n的取值为大于等于2的正整数;接着从所述原始语音信号提取梅尔频谱特征;之后根据所提取的梅尔频谱特征生成所述n个子带频率信号中每个子带频率信号的预测采样点;最后利用所述n个子带频率信号中每个子带频率信号的预测采样点对所述n个子带频率信号进行合成,得到对应所述原始语音信号的语音合成信号。如此,本发明基于子带的线性预测语音合成技术,通过引入子带频率(subband)技术,使得语音合成系统由每次输出一个采样点,变成每次输出多个采样点,从而有效加快语音合成系统的预测速度。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本发明实施例语音合成方法的实现流程示意图一;
图2示出了本发明一应用实例语音合成系统的框架示意图;
图3示出了本发明实施例根据梅尔频谱特征生成预测采样点的实现流程示意图;
图4示出了本发明实施例语音合成装置的组成结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为使本发明更加透彻和完整,并能够将本发明的范围完整地传达给本领域的技术人员。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
相关技术中,加速声码器(vocoder)预测速度的方法是基于线性预测系数结合神经网络的方法。这种方法将语音信号分为线性部分和非线性部分,将容易预测的线性部分使用线性预测系数估计,而难以预测的非线性部分,交给强大的神经网络来预测。因为神经网络部分只需要预测语音信号的残差(非线性部分),因此可以使用相对简单的网络即可,这样便可以加快语音合成的速度。
但是,这种方法在性能较强的图形处理器(Graphics Processing Unit,GPU)上才能实现实时语音合成,在性能较低的机器上(如手表,耳机,车载)做离线语音合成时,往往会因为每秒需要预测的采样点太多而发生延时。
为了解决上述问题,本发明实施例提出了一种基于子带的线性预测语音合成方法,该方法实现了一种并行声码器(vocoder)技术,即将自回归声码器由每次输出一个采样点,转变为一次生成多个采样点,从而有效实现预测的加速。
图1示出了本发明实施例语音合成方法的实现流程示意图;图2示出了本发明一应用实例语音合成系统的框架示意图。
参考图1,本发明实施例语音合成方法包括:操作101,将原始语音信号按频率分解成n个子带频率信号;操作102,从所述原始语音信号提取梅尔频谱特征;操作103,根据所提取的梅尔频谱特征生成所述n个子带频率信号中每个子带频率信号的预测采样点;操作104,利用所述n个子带频率信号中每个子带频率信号的预测采样点对所述n个子带频率信号进行合成,得到对应所述原始语音信号的语音合成信号。
在操作101,子带频率(subband)是将原始信号由时间域转变为频率域,然后将其分割为若干个子频带。
具体地,语音合成系统首先将原始语音信号(wav)按频率分解成n个子带频率信号(subband wav),比如参考图2所示的语音合成系统框架,n个子带频率信号可以分别对应记作subband wav_1,subband wav_2,…,subband wav_n;其中,n的取值为大于等于2的正整数。
这里,本发明实施例语音合成系统可以应用在性能较低的电子设备上,如手表,耳机,车载等具有离线语音合成功能的机器上。
在操作102,语音合成系统从原始语音信号wav进行特征提取,得到梅尔频谱(melspectrogram)特征。
其中,梅尔频谱(mel spectrogram),即模拟人耳对高频信号的抑制,利用一组多个三角滤波器对快速傅里叶变化(sfft)后的线性谱进行处理,得到低维特征,广泛应用于语音特征提取中。
在操作103~104,语音合成系统根据所提取的梅尔频谱特征进行线性预测和非线性预测(即神经网络预测)的方式,生成所述n个子带频率信号中每个子带频率信号的预测采样点。
具体地,参考图3,操作103包括:操作1031,根据所提取的梅尔频谱特征对所述n个子带频率信号进行线性预测,得到所述n个子带频率信号中每个子带频率信号对应的线性预测值;操作1032,利用所提取的梅尔频谱特征对所述n个子带频率信号进行神经网络预测,得到所述n个子带频率信号中每个子带频率信号对应的残差;操作1033,将所述n个子带频率信号中每个子带频率信号对应的线性预测值和残差对应相加,得到所述n个子带频率信号中每个子带频率信号的预测采样点。
在操作1031,根据所提取的梅尔频谱特征对所述n个子带频率信号进行线性预测,包括:将所提取的梅尔频谱特征转换为线性谱;将所述线性谱等分成n个子带线性谱;对所述n个子带线性谱进行线性预测,得到每个子带线性谱对应的线性预测系数;根据所述线性预测系数确定所述n个子带频率信号中每个子带频率信号对应的线性预测值。
具体地,参考图2,语音合成系统首先将所提取的梅尔频谱(mel spectrogram)特征转换为线性谱(linear spectrogram);将所述线性谱(linear spectrogram)等分成n个子带线性谱,记作sub_linear_1,sub_linear_2,…,sub_linear_n;接着对所述n个子带线性谱进行线性预测,得到每个子带线性谱对应的线性预测系数(linear predictioncoefficient,LPC),记作sub_lpc_1,sub_lpc_2,…,sub_lpc_n;之后根据所述线性预测系数确定所述n个子带频率信号中每个子带频率信号对应的线性预测值,记作sub_wav_1,sub_wav_2,…,sub_wav_n。
这里,一个语音的采样值可以通过过去若干语音采样值的线性组合来逼近(最小均方误差),能够决定唯一的一组预测系数,而这个预测系数就是线性预测系数。
在操作1032,利用所提取的梅尔频谱特征对所述n个子带频率信号进行神经网络预测,包括:利用梅尔频谱样本和所述n个子带频率信号进行模型训练,得到神经网络模型;将所提取的梅尔频谱特征作为所述神经网络模型的输入,对所述n个子带频率信号进行神经网络预测。
参考图2,语音合成系统首先利用梅尔频谱样本和所述n个子带频率信号进行模型训练,得到神经网络模型(Neutral Model);将所提取的梅尔频谱特征作为所述神经网络模型的输入,对所述n个子带频率信号进行神经网络预测,输出所述n个子带频率信号中每个子带频率信号对应的残差,记作out_1,out_2,…,out_n。
在操作104,语音合成系统利用所述n个预测采样点生成全带语音合成信号(fullband wav)。具体地,先根据所述n个子带频率信号中每个子带频率信号对应的线性预测值和残差,生成n个子带语音合成信号;再将所述n个子带语音合成信号按频率合并,得到对应所述原始语音信号的语音合成信号。
本发明实施例语音合成方法,首先将原始语音信号按频率分解成n个子带频率信号,n的取值为大于等于2的正整数;接着从所述原始语音信号提取梅尔频谱特征;之后根据所提取的梅尔频谱特征生成所述n个子带频率信号中每个子带频率信号的预测采样点;最后利用所述n个子带频率信号中每个子带频率信号的预测采样点对所述n个子带频率信号进行合成,得到对应所述原始语音信号的语音合成信号。如此,本发明基于子带的线性预测语音合成技术,通过引入子带频率(subband)技术,使得语音合成系统由每次输出一个采样点,变成每次输出多个采样点,从而有效加快语音合成系统的预测速度。
同理,基于上文所述语音合成方法,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器至少执行如下所述的操作步骤:操作101,将原始语音信号按频率分解成n个子带频率信号;操作102,从所述原始语音信号提取梅尔频谱特征;操作103,根据所提取的梅尔频谱特征生成所述n个子带频率信号中每个子带频率信号的预测采样点;操作104,利用所述n个子带频率信号中每个子带频率信号的预测采样点对所述n个子带频率信号进行合成,得到对应所述原始语音信号的语音合成信号。
进一步地,基于上文所述语音合成方法,本发明实施例又提供一种语音合成装置,如图4所示,该装置40包括:信号分解模块401,用于将原始语音信号按频率分解成n个子带频率信号,n的取值为大于等于2的正整数;特征提取模块402,用于从所述原始语音信号提取梅尔频谱特征;采样点生成模块403,用于根据所提取的梅尔频谱特征生成所述n个子带频率信号中每个子带频率信号的预测采样点;信号合成模块404,用于利用所述n个子带频率信号中每个子带频率信号的预测采样点对所述n个子带频率信号进行合成,得到对应所述原始语音信号的语音合成信号。
根据本发明一实施方式,采样点生成模块403具体用于,根据所提取的梅尔频谱特征对所述n个子带频率信号进行线性预测,得到所述n个子带频率信号中每个子带频率信号对应的线性预测值;利用所提取的梅尔频谱特征对所述n个子带频率信号进行神经网络预测,得到所述n个子带频率信号中每个子带频率信号对应的残差;将所述n个子带频率信号中每个子带频率信号对应的线性预测值和残差对应相加,得到所述n个子带频率信号中每个子带频率信号的预测采样点。
根据本发明一实施方式,信号合成模块404具体用于,根据所述n个子带频率信号中每个子带频率信号对应的线性预测值和残差,生成n个子带语音合成信号;将所述n个子带语音合成信号按频率合并,得到对应所述原始语音信号的语音合成信号。
根据本发明一实施方式,采样点生成模块403,还用于将所提取的梅尔频谱特征转换为线性谱;将所述线性谱等分成n个子带线性谱;对所述n个子带线性谱进行线性预测,得到每个子带线性谱对应的线性预测系数;根据所述线性预测系数确定所述n个子带频率信号中每个子带频率信号对应的线性预测值。
根据本发明一实施方式,采样点生成模块403,还用于利用梅尔频谱样本和所述n个子带频率信号进行模型训练,得到神经网络模型;将所提取的梅尔频谱特征作为所述神经网络模型的输入,对所述n个子带频率信号进行神经网络预测。
这里需要指出的是:以上对语音合成装置实施例的描述,与前述图1至3所示的方法实施例的描述是类似的,具有同前述图1至3所示的方法实施例相似的有益效果,因此不做赘述。对于本发明语音合成装置实施例中未披露的技术细节,请参照本发明前述图1至3所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种语音合成方法,其特征在于,所述方法包括:
将原始语音信号按频率分解成n个子带频率信号,n的取值为大于等于2的正整数;
从所述原始语音信号提取梅尔频谱特征;
根据所提取的梅尔频谱特征生成所述n个子带频率信号中每个子带频率信号的预测采样点;
利用所述n个子带频率信号中每个子带频率信号的预测采样点对所述n个子带频率信号进行合成,得到对应所述原始语音信号的语音合成信号。
2.根据权利要求1所述的方法,其特征在于,根据所提取的梅尔频谱特征生成所述n个子带频率信号中每个子带频率信号的预测采样点,包括:
根据所提取的梅尔频谱特征对所述n个子带频率信号进行线性预测,得到所述n个子带频率信号中每个子带频率信号对应的线性预测值;
利用所提取的梅尔频谱特征对所述n个子带频率信号进行神经网络预测,得到所述n个子带频率信号中每个子带频率信号对应的残差;
将所述n个子带频率信号中每个子带频率信号对应的线性预测值和残差对应相加,得到所述n个子带频率信号中每个子带频率信号的预测采样点。
3.根据权利要求1所述的方法,其特征在于,利用所述n个子带频率信号中每个子带频率信号的预测采样点对所述n个子带频率信号进行合成,得到对应所述原始语音信号的语音合成信号,包括:
根据所述n个子带频率信号中每个子带频率信号对应的线性预测值和残差,生成n个子带语音合成信号;
将所述n个子带语音合成信号按频率合并,得到对应所述原始语音信号的语音合成信号。
4.根据权利要求2所述的方法,其特征在于,根据所提取的梅尔频谱特征对所述n个子带频率信号进行线性预测,包括:
将所提取的梅尔频谱特征转换为线性谱;
将所述线性谱等分成n个子带线性谱;
对所述n个子带线性谱进行线性预测,得到每个子带线性谱对应的线性预测系数;
根据所述线性预测系数确定所述n个子带频率信号中每个子带频率信号对应的线性预测值。
5.根据权利要求2所述的方法,其特征在于,利用所提取的梅尔频谱特征对所述n个子带频率信号进行神经网络预测,包括:
利用梅尔频谱样本和所述n个子带频率信号进行模型训练,得到神经网络模型;
将所提取的梅尔频谱特征作为所述神经网络模型的输入,对所述n个子带频率信号进行神经网络预测。
6.一种语音合成装置,其特征在于,所述装置包括:
信号分解模块,用于将原始语音信号按频率分解成n个子带频率信号,n的取值为大于等于2的正整数;
特征提取模块,用于从所述原始语音信号提取梅尔频谱特征;
采样点生成模块,用于根据所提取的梅尔频谱特征生成所述n个子带频率信号中每个子带频率信号的预测采样点;
信号合成模块,用于利用所述n个子带频率信号中每个子带频率信号的预测采样点对所述n个子带频率信号进行合成,得到对应所述原始语音信号的语音合成信号。
7.根据权利要求6所述的装置,其特征在于,
所述采样点生成模块具体用于,根据所提取的梅尔频谱特征对所述n个子带频率信号进行线性预测,得到所述n个子带频率信号中每个子带频率信号对应的线性预测值;利用所提取的梅尔频谱特征对所述n个子带频率信号进行神经网络预测,得到所述n个子带频率信号中每个子带频率信号对应的残差;将所述n个子带频率信号中每个子带频率信号对应的线性预测值和残差对应相加,得到所述n个子带频率信号中每个子带频率信号的预测采样点。
8.根据权利要求6所述的装置,其特征在于,
所述信号合成模块具体用于,根据所述n个子带频率信号中每个子带频率信号对应的线性预测值和残差,生成n个子带语音合成信号;将所述n个子带语音合成信号按频率合并,得到对应所述原始语音信号的语音合成信号。
9.根据权利要求7所述的装置,其特征在于,
所述采样点生成模块,还用于将所提取的梅尔频谱特征转换为线性谱;将所述线性谱等分成n个子带线性谱;对所述n个子带线性谱进行线性预测,得到每个子带线性谱对应的线性预测系数;根据所述线性预测系数确定所述n个子带频率信号中每个子带频率信号对应的线性预测值。
10.一种计算机可读存储介质,其特征在于,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1至5任一项所述语音合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011619349.5A CN112863477B (zh) | 2020-12-31 | 2020-12-31 | 一种语音合成方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011619349.5A CN112863477B (zh) | 2020-12-31 | 2020-12-31 | 一种语音合成方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112863477A true CN112863477A (zh) | 2021-05-28 |
CN112863477B CN112863477B (zh) | 2023-06-27 |
Family
ID=75998938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011619349.5A Active CN112863477B (zh) | 2020-12-31 | 2020-12-31 | 一种语音合成方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112863477B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114242034A (zh) * | 2021-12-28 | 2022-03-25 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、装置、终端设备及存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08278800A (ja) * | 1995-04-05 | 1996-10-22 | Fujitsu Ltd | 音声通信システム |
CN1137727A (zh) * | 1995-04-26 | 1996-12-11 | 现代电子产业株式会社 | 移动通信系统中选择器和多个声码器接口装置及其方法 |
US20030138110A1 (en) * | 2002-01-21 | 2003-07-24 | Yasushi Sato | Audio signal processing device, signal recovering device, audio signal processing method and signal recovering method |
CN101067931A (zh) * | 2007-05-10 | 2007-11-07 | 芯晟(北京)科技有限公司 | 一种高效可配置的频域参数立体声及多声道编解码方法与系统 |
CN102473417A (zh) * | 2010-06-09 | 2012-05-23 | 松下电器产业株式会社 | 频带扩展方法、频带扩展装置、程序、集成电路及音频解码装置 |
CN102750955A (zh) * | 2012-07-20 | 2012-10-24 | 中国科学院自动化研究所 | 基于残差信号频谱重构的声码器 |
JP2014109667A (ja) * | 2012-11-30 | 2014-06-12 | Kddi Corp | 音声合成装置、音声合成方法および音声合成プログラム |
JP2017182099A (ja) * | 2017-07-04 | 2017-10-05 | Kddi株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
CN107749305A (zh) * | 2017-09-29 | 2018-03-02 | 百度在线网络技术(北京)有限公司 | 语音处理方法及其装置 |
CN108140396A (zh) * | 2015-09-22 | 2018-06-08 | 皇家飞利浦有限公司 | 音频信号处理 |
US20190180732A1 (en) * | 2017-10-19 | 2019-06-13 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
CN109979429A (zh) * | 2019-05-29 | 2019-07-05 | 南京硅基智能科技有限公司 | 一种tts的方法及系统 |
CN110473516A (zh) * | 2019-09-19 | 2019-11-19 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置以及电子设备 |
CN111402855A (zh) * | 2020-03-06 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
-
2020
- 2020-12-31 CN CN202011619349.5A patent/CN112863477B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08278800A (ja) * | 1995-04-05 | 1996-10-22 | Fujitsu Ltd | 音声通信システム |
CN1137727A (zh) * | 1995-04-26 | 1996-12-11 | 现代电子产业株式会社 | 移动通信系统中选择器和多个声码器接口装置及其方法 |
US20030138110A1 (en) * | 2002-01-21 | 2003-07-24 | Yasushi Sato | Audio signal processing device, signal recovering device, audio signal processing method and signal recovering method |
CN101067931A (zh) * | 2007-05-10 | 2007-11-07 | 芯晟(北京)科技有限公司 | 一种高效可配置的频域参数立体声及多声道编解码方法与系统 |
CN102473417A (zh) * | 2010-06-09 | 2012-05-23 | 松下电器产业株式会社 | 频带扩展方法、频带扩展装置、程序、集成电路及音频解码装置 |
CN102750955A (zh) * | 2012-07-20 | 2012-10-24 | 中国科学院自动化研究所 | 基于残差信号频谱重构的声码器 |
JP2014109667A (ja) * | 2012-11-30 | 2014-06-12 | Kddi Corp | 音声合成装置、音声合成方法および音声合成プログラム |
CN108140396A (zh) * | 2015-09-22 | 2018-06-08 | 皇家飞利浦有限公司 | 音频信号处理 |
JP2017182099A (ja) * | 2017-07-04 | 2017-10-05 | Kddi株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
CN107749305A (zh) * | 2017-09-29 | 2018-03-02 | 百度在线网络技术(北京)有限公司 | 语音处理方法及其装置 |
US20190180732A1 (en) * | 2017-10-19 | 2019-06-13 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
CN109979429A (zh) * | 2019-05-29 | 2019-07-05 | 南京硅基智能科技有限公司 | 一种tts的方法及系统 |
CN110473516A (zh) * | 2019-09-19 | 2019-11-19 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置以及电子设备 |
CN111402855A (zh) * | 2020-03-06 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
Non-Patent Citations (2)
Title |
---|
YANG CUI: "An Efficient Subband Linear Prediction for LPCNet-based Neural Synthesis", 《INTERSPEECH 2020》 * |
赖家豪: "基于深度学习的语音转换研究", 《中国优秀硕士学位论文全文数据库》, no. 2020 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114242034A (zh) * | 2021-12-28 | 2022-03-25 | 深圳市优必选科技股份有限公司 | 一种语音合成方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112863477B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kaneko et al. | Generative adversarial network-based postfilter for STFT spectrograms | |
Schmidt et al. | Wind noise reduction using non-negative sparse coding | |
Goh et al. | Kalman-filtering speech enhancement method based on a voiced-unvoiced speech model | |
US7313518B2 (en) | Noise reduction method and device using two pass filtering | |
Koizumi et al. | SpecGrad: Diffusion probabilistic model based neural vocoder with adaptive noise spectral shaping | |
CN108492818B (zh) | 文本到语音的转换方法、装置和计算机设备 | |
JP2017506767A (ja) | 話者辞書に基づく発話モデル化のためのシステムおよび方法 | |
CN105788607A (zh) | 应用于双麦克风阵列的语音增强方法 | |
Mittal et al. | Study of characteristics of aperiodicity in Noh voices | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN108198566B (zh) | 信息处理方法及装置、电子设备及存储介质 | |
Li et al. | Filtering and refining: A collaborative-style framework for single-channel speech enhancement | |
CN112863477B (zh) | 一种语音合成方法、装置及存储介质 | |
Venkateswarlu et al. | Improve Speech Enhancement Using Weiner Filtering | |
CN114333892A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN116386589A (zh) | 一种基于智能手机加速度传感器的深度学习语音重建方法 | |
Borgström et al. | A Multiscale Autoencoder (MSAE) Framework for End-to-End Neural Network Speech Enhancement | |
JP2022133447A (ja) | 音声処理方法、装置、電子機器及び記憶媒体 | |
Zheng et al. | Bandwidth extension WaveNet for bone-conducted speech enhancement | |
Ullah et al. | Semi-supervised transient noise suppression using OMLSA and SNMF algorithms | |
KR20190037867A (ko) | 잡음이 섞인 음성 데이터로부터 잡음을 제거하는 장치, 방법 및 컴퓨터 프로그램 | |
Kuang et al. | A lightweight speech enhancement network fusing bone-and air-conducted speech | |
CN114333891A (zh) | 一种语音处理方法、装置、电子设备和可读介质 | |
CN113571081A (zh) | 语音增强方法、装置、设备及存储介质 | |
Demuynck et al. | Synthesizing speech from speech recognition parameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |