CN105529023A - 语音合成方法和装置 - Google Patents
语音合成方法和装置 Download PDFInfo
- Publication number
- CN105529023A CN105529023A CN201610049832.1A CN201610049832A CN105529023A CN 105529023 A CN105529023 A CN 105529023A CN 201610049832 A CN201610049832 A CN 201610049832A CN 105529023 A CN105529023 A CN 105529023A
- Authority
- CN
- China
- Prior art keywords
- parameters
- acoustic
- fundamental frequency
- model
- prosody hierarchy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title abstract 3
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims description 27
- 238000001228 spectrum Methods 0.000 claims description 21
- 230000015572 biosynthetic process Effects 0.000 claims description 15
- 238000003786 synthesis reaction Methods 0.000 claims description 15
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 230000033764 rhythmic process Effects 0.000 abstract 3
- 230000008569 process Effects 0.000 description 20
- 230000000694 effects Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 238000013507 mapping Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 235000009413 Ratibida columnifera Nutrition 0.000 description 1
- 241000510442 Ratibida peduncularis Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000010902 straw Substances 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种语音合成方法和装置,该语音合成方法包括:对要合成的文本进行文本特征提取,获取上下文特征信息;获取预先生成的模型,所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的,所述变换后的声学参数包括多个韵律层级的基频参数;根据所述模型,确定与所述上下文特征信息对应的模型输出参数,所述模型输出参数包括:多个韵律层级的基频参数;对所述多个韵律层级的基频参数进行基频重构;根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。该方法能够提高合成语音的表现效果。
Description
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成方法和装置。
背景技术
现在人们对于合成语音已经不仅仅满足于其清晰度和可懂度,还要求合成的语音具有更好的自然度和表现力。在自然语音中,基频是影响自然度和表现力的主要因素,因此基频建模的精度直接影响了合成语音的自然度和表现力。
在传统的语音合成系统中,基频建模使用多空间概率分布的隐马尔可夫模型(multi-spaceprobabilitydistributionHMM,MSD-HMM)的建模方法,该方法可以很好的针对状态级、声韵母级的基频轮廓(或走势)建模,但是很难学习出词、短语或者句子等更高层级的基频趋势,使得合成语音的节奏感、表现力不足。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种语音合成方法,该方法可以提高合成语音的表现效果。
本发明的另一个目的在于提出一种语音合成装置。
为达到上述目的,本发明第一方面实施例提出的语音合成方法,包括:对要合成的文本进行文本特征提取,获取上下文特征信息;获取预先生成的模型,所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的,所述变换后的声学参数包括多个韵律层级的基频参数;根据所述模型,确定与所述上下文特征信息对应的模型输出参数,所述模型输出参数包括:多个韵律层级的基频参数;对所述多个韵律层级的基频参数进行基频重构;根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。
可选的,还包括:对训练样本的文本进行文本特征提取,获取训练样本的上下文特征信息;对训练样本的语音进行声学特征提取,得到训练样本的声学参数;对所述声学参数进行基频的韵律层级变换,使得变换后的声学参数包括多个韵律层级的基频参数;根据训练样本的上下文特征信息和变换后的声学参数,训练得到所述模型。
可选的,所述基频的韵律层级变换包括:基频小波变换。
可选的,所述模型是神经网络模型,以及,在训练神经网络模型时采用的目标函数包括:设置的不同参数的权重。
可选的,所述变换后的声学参数还包括:谱参数。
可选的,所述根据所述模型输出参数进行基频重构,包括:获取每个层级的基频参数对应的权重;根据所述权重对每个层级的基频参数进行加权求和运算。
本发明第一方面实施例提出的语音合成方法,通过根据多个韵律层级的基频参数进行建模,可以将单一维度的基频建模扩展到多个韵律层级的多维的基频建模,提高基频建模效果,从而提高语音合成效果。
为达到上述目的,本发明第二方面实施例提出的语音合成装置,包括:第一获取模块,用于对要合成的文本进行文本特征提取,获取上下文特征信息;第二获取模块,用于获取预先生成的模型,所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的,所述变换后的声学参数包括多个韵律层级的基频参数;确定模块,用于根据所述模型,确定与所述上下文特征信息对应的模型输出参数,所述模型输出参数包括:多个韵律层级的基频参数;基频重构模块,用于对所述多个韵律层级的基频参数进行基频重构;合成模块,用于根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。
可选的,还包括:训练模块,用于对训练样本的文本进行文本特征提取,获取训练样本的上下文特征信息;对训练样本的语音进行声学特征提取,得到训练样本的声学参数;对所述声学参数进行基频的韵律层级变换,使得变换后的声学参数包括多个韵律层级的基频参数;根据训练样本的上下文特征信息和变换后的声学参数,训练得到所述模型。
可选的,所述模型是神经网络模型,以及,在训练神经网络模型时采用的目标函数包括:设置的不同参数的权重。
可选的,所述基频重构模块具体用于:获取设置的每个韵律层级的基频参数对应的权重;根据所述权重对每个韵律层级的基频参数进行加权求和运算。
本发明第二方面实施例提出的语音合成装置,通过根据多个韵律层级的基频参数进行建模,可以将单一维度的基频建模扩展到多个韵律层级的多维的基频建模,提高基频建模效果,从而提高语音合成效果。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的语音合成方法的流程示意图;
图2是本发明另一实施例提出的语音合成方法的流程示意图;
图3是本发明另一实施例提出的语音合成装置的结构示意图;
图4是本发明另一实施例提出的语音合成装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的语音合成方法的流程示意图。本实施例的流程以合成过程为例。参见图1,该方法包括:
S11:对要合成的文本进行文本特征提取,获取上下文特征信息。
文本特征提取的流程例如包括:预处理、分词、词性标注、注音、韵律层级预测。
S12:获取预先生成的模型,所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的,所述变换后的声学参数包括多个韵律层级的基频参数。
模型可以在训练过程中训练生成,具体生成流程可以参见后续描述。
S11-S12并无时序限定关系。
S13:根据所述模型,确定与所述上下文特征信息对应的模型输出参数,所述模型输出参数包括:多个韵律层级的基频参数。
其中,模型中可以记录上下文特征信息与变换后的声学参数之间的映射关系,通过该映射关系,可以确定与上下文特征信息对应的变换后的声学参数,将对应的变换后的声学参数作为模型输出参数。
变换后的声学参数例如包括:多个韵律层级的基频参数,另外,还可以包括谱参数。
S14:对所述多个韵律层级的基频参数进行基频重构。
例如,模型输出参数包括多个韵律层级的基频参数和谱参数,需要对其中的多个韵律层级的基频参数进行基频重构。
通常重构方案是将多个分量进行求和运算。而本实施例中,可以预先设置每个分量(韵律层级的基频参数)的权重,再对所有分量进行加权求和运算,从而可以在基频重构时强调需要强调的韵律层级,得到需要的合成语音的表现效果。
S15:根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。
其中,经过基频重构可以将多维的基频参数合成为一维的基频参数,之后可以将谱参数和一维的基频参数送入声码器中进行语音合成,得到要合成的文本对应的合成语音。
本实施例中,通过根据多个韵律层级的基频参数进行建模,可以将单一维度的基频建模扩展到多个韵律层级的多维的基频建模,提高基频建模效果,从而提高语音合成效果。
图2是本发明另一实施例提出的语音合成方法的流程示意图。本实施例的流程包括训练过程和合成过程。参见图2,该方法包括:
在训练过程可以执行如下步骤:
S201:对训练样本的文本进行文本特征提取,得到上下文特征信息。
S202:对语音进行声学特征提取,获取声学特征信息。
其中,可以在训练过程中收集作为样本的文本和对应的语音,以进行相应的特征提取。
S201-S202并无时序限定关系。
S203:对声学特征信息进行基频小波变换,得到谱参数和多个韵律层级的基频参数。
相关技术中,对语音进行声学特征提取后,会直接采用得到的谱参数和一维的基频参数,以及文本特征提取得到的上下文特征信息进行MSD-HMM建模。
而本实施例中,在声学特征提取后,还进行了基频小波变换,通过基频小波变换,可以将一维的基频分解为多维的基频,不同维度的基频对应不同的韵律层级。例如,将基频分解为高频段、高中频段、中频段、中低频段、低频段的五维分量,不同频段依次与音子级、音节级、词级、短语级和句子级相对应。
可以理解的是,本实施例以小波变换进行分解为例,还可以采用其他算法,如离散余弦变换(DiscreteCosineTransform,DCT)。
以要分为10维基频参数为例,基频小波变换的公式可以是:Wi(f0)(t)=W(f0)(2i+1τ0,x)×(i+2.5)-5/2
其中的W(f0)(2i+1τ0,x)可以根据如下公式计算得到:
其中,i是不同维度的基频参数的索引,Wi(f0)(t)是第i个韵律层级的基频参数,f0(t)是变换前的一维的基频参数,是小波母基函数,可以采用“草帽函数(MexicanHat)”,τ是连续尺度,x是平移尺度,t是时间信息,τ0是与小波母基函数相关的数值,可以根据实际情况调整。
S204:根据上下文特征信息、谱参数和多个韵律层级的基频参数进行模型训练,得到模型。
本实施例中,以神经网络模型训练为例,从而可以训练生成神经网络模型。
神经网络例如是长短期记忆(Long-ShortTermMemory,LSTM)网络。
在神经网络训练过程中可以通过设置不同维度的权重,来调整不同维度的训练效果,从而得到更优良的基频建模效果。在模型训练时的不同维度包括:谱参数和多个韵律层级的基频参数。
经过模型训练后,得到的模型中可以记录上下文特征信息与模型输出参数的映射关系,以在语音合成过程中,根据上下文特征信息获取对应的模型输出参数。
模型输出参数是变换后的声学参数,例如包括:谱参数和多个韵律层级的基频参数。
在模型训练时,采用的目标函数包括:设置的不同参数的权重。例如,目标函数的公式是:
其中,L是目标函数,n是所有样本的数量,yn是网络输出目标值,f(xn,θ)是上下文特征信息(也可以称为上下文语境特征)xn在神经网络模型参数θ下的回归函数,这里代表预测输出,Wn是不同参数的权重,不同参数包括:谱参数和多个韵律层级的基频参数。
不同参数的权重可以根据实际需要设置。
在语音合成时,可以执行如下步骤:
S205:对要合成的文本进行文本特征提取,得到上下文特征信息。
文本特征提取的流程例如包括:预处理、分词、词性标注、注音、韵律层级预测。
S206:根据训练过程得到的神经网络模型,确定与要合成的文本的上下文特征信息对应的模型输出参数。
由于神经网络模型中可以记录上下文特征信息与模型输出参数的映射关系,从而可以根据上下文特征信息获取对应的模型输出参数。
模型输出参数例如包括:谱参数和多个韵律层级的基频参数。
S207:根据得到的多个韵律层级的基频参数进行基频重构。
其中,该多个韵律层级的基频参数是多维的基频参数,基频重构是指将多维的基频参数合成一维的基频参数。
在基频重构时,也可以设置不同维度的权重,以达到需要强调的韵律层级效果。
例如,以10维基频参数的重构为例,基频重构的公式可以是:
其中,f0(t)是重构后的一维的基频参数,Wi(f0)(t)是第i个韵律层级的基频参数,wi是第i个韵律层级的权重,ξ'(t)是残差项。
S208:根据基频重构后的基频参数和谱参数进行参数生成。
例如,对基频重构后一维的基频参数和谱参数进行平滑操作,生成平滑后的谱参数和一维的基频参数。
S209:根据生成的参数得到合成语音。
例如,将平滑后的谱参数和基频参数送入声码器,由声码器根据谱参数和基频参数得到合成语音。
可以理解的是,当采用神经网络建模时,也可以不进行参数生成,而是在基频重构后,直接根据谱参数和重构得到的一维的基频参数得到合成语音。
本实施例中,通过根据多个韵律层级的基频参数进行建模,可以将单一维度的基频建模扩展到多个韵律层级的多维的基频建模,提高基频建模效果,从而提高语音合成效果。通过使用神经网络进行建模,可以对多维的基频进行建模,增强基频建模的精度。通过在训练和重构时设置权重,可以突出表现需要层级信息的基频变化,使得合成语音更加富有情感。通过多个维度的基频参数与谱参数的同步建模,通过神经网络学习了谱与基频多个层级间的联系。完全数据驱动,没有人工设计问题集的环节,更为自动化。
图3是本发明另一实施例提出的语音合成装置的结构示意图。参见图3,该装置30包括:第一获取模块31、第二获取模块32、确定模块33、基频重构模块34和合成模块35。
第一获取模块31,用于对要合成的文本进行文本特征提取,获取上下文特征信息。
文本特征提取的流程例如包括:预处理、分词、词性标注、注音、韵律层级预测。
第二获取模块32,用于获取预先生成的模型,所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的,所述变换后的声学参数包括多个韵律层级的基频参数。
模型可以在训练过程中训练生成,具体生成流程可以参见后续描述。
确定模块33,用于根据所述模型,确定与所述上下文特征信息对应的模型输出参数,所述模型输出参数包括:多个韵律层级的基频参数。
其中,模型中可以记录上下文特征信息与变换后的声学参数之间的映射关系,通过该映射关系,可以确定与上下文特征信息对应的变换后的声学参数,将对应的变换后的声学参数作为模型输出参数。
变换后的声学参数例如包括:多个韵律层级的基频参数,另外,还可以包括谱参数。
基频重构模块34,用于根据所述模型输出参数进行基频重构。
例如,模型输出参数包括多个韵律层级的基频参数和谱参数,需要对其中的多个韵律层级的基频参数进行基频重构。
通常重构方案是将多个分量进行求和运算。而本实施例中,可以预先设置每个分量(韵律层级的基频参数)的权重,再对所有分量进行加权求和运算,从而可以在基频重构时强调需要强调的韵律层级,得到需要的合成语音的表现效果。
合成模块35,用于根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。
其中,经过基频重构可以将多维的基频参数合成为一维的基频参数,之后可以将谱参数和一维的基频参数送入声码器中进行语音合成,得到要合成的文本对应的合成语音。
一些实施例中,参见图4,该装置还包括:
训练模块36,用于对训练样本的文本进行文本特征提取,获取训练样本的上下文特征信息;对训练样本的语音进行声学特征提取,得到训练样本的声学参数;对所述声学参数进行基频的韵律层级变换,使得变换后的声学参数包括多个韵律层级的基频参数;根据训练样本的上下文特征信息和变换后的声学参数,训练得到所述模型。
可选的,所述基频的韵律层级变换包括:基频小波变换。
可选的,所述模型是神经网络模型,以及,在训练神经网络模型时采用的目标函数包括:设置的不同维度参数的权重。
可选的,所述变换后的声学参数还包括:谱参数。
可选的,所述模型输出参数包括多个韵律层级的基频参数,所述基频重构模块具体用于:
获取设置的每个韵律层级的基频参数对应的权重;
根据所述权重对每个韵律层级的基频参数进行加权求和运算。
上述模块的具体内容可以参见方法实施例中的相关描述,在此不再赘述。
本实施例中,通过根据多个韵律层级的基频参数进行建模,可以将单一维度的基频建模扩展到多个韵律层级的多维的基频建模,提高基频建模效果,从而提高语音合成效果。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种语音合成方法,其特征在于,包括:
对要合成的文本进行文本特征提取,获取上下文特征信息;
获取预先生成的模型,所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的,所述变换后的声学参数包括多个韵律层级的基频参数;
根据所述模型,确定与所述上下文特征信息对应的模型输出参数,所述模型输出参数包括:多个韵律层级的基频参数;
对所述多个韵律层级的基频参数进行基频重构;
根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。
2.根据权利要求1所述的方法,其特征在于,还包括:
对训练样本的文本进行文本特征提取,获取训练样本的上下文特征信息;
对训练样本的语音进行声学特征提取,得到训练样本的声学参数;
对所述声学参数进行基频的韵律层级变换,使得变换后的声学参数包括多个韵律层级的基频参数;
根据训练样本的上下文特征信息和变换后的声学参数,训练得到所述模型。
3.根据权利要求2所述的方法,其特征在于,所述基频的韵律层级变换包括:基频小波变换。
4.根据权利要求2所述的方法,其特征在于,所述模型是神经网络模型,以及,在训练神经网络模型时采用的目标函数包括:设置的不同参数的权重。
5.根据权利要求2所述的方法,其特征在于,所述变换后的声学参数还包括:谱参数。
6.根据权利要求1所述的方法,其特征在于,所述根据所述模型输出参数进行基频重构,包括:
获取设置的每个韵律层级的基频参数对应的权重;
根据所述权重对每个韵律层级的基频参数进行加权求和运算。
7.一种语音合成装置,其特征在于,包括:
第一获取模块,用于对要合成的文本进行文本特征提取,获取上下文特征信息;
第二获取模块,用于获取预先生成的模型,所述模型是根据训练样本的上下文特征信息和变换后的声学参数进行训练后生成的,所述变换后的声学参数包括多个韵律层级的基频参数;
确定模块,用于根据所述模型,确定与所述上下文特征信息对应的模型输出参数,所述模型输出参数包括:多个韵律层级的基频参数;
基频重构模块,用于对所述多个韵律层级的基频参数进行基频重构;
合成模块,用于根据基频重构后的参数和所述模型输出参数中的其他参数得到合成语音。
8.根据权利要求7所述的装置,其特征在于,还包括:
训练模块,用于对训练样本的文本进行文本特征提取,获取训练样本的上下文特征信息;对训练样本的语音进行声学特征提取,得到训练样本的声学参数;对所述声学参数进行基频的韵律层级变换,使得变换后的声学参数包括多个韵律层级的基频参数;根据训练样本的上下文特征信息和变换后的声学参数,训练得到所述模型。
9.根据权利要求8所述的装置,其特征在于,所述模型是神经网络模型,以及,在训练神经网络模型时采用的目标函数包括:设置的不同参数的权重。
10.根据权利要求7所述的装置,其特征在于,所述基频重构模块具体用于:
获取设置的每个韵律层级的基频参数对应的权重;
根据所述权重对每个韵律层级的基频参数进行加权求和运算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610049832.1A CN105529023B (zh) | 2016-01-25 | 2016-01-25 | 语音合成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610049832.1A CN105529023B (zh) | 2016-01-25 | 2016-01-25 | 语音合成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105529023A true CN105529023A (zh) | 2016-04-27 |
CN105529023B CN105529023B (zh) | 2019-09-03 |
Family
ID=55771202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610049832.1A Active CN105529023B (zh) | 2016-01-25 | 2016-01-25 | 语音合成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105529023B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105845125A (zh) * | 2016-05-18 | 2016-08-10 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
CN106601228A (zh) * | 2016-12-09 | 2017-04-26 | 百度在线网络技术(北京)有限公司 | 基于人工智能韵律预测的样本标注方法及装置 |
CN106971709A (zh) * | 2017-04-19 | 2017-07-21 | 腾讯科技(上海)有限公司 | 统计参数模型建立方法和装置、语音合成方法和装置 |
CN107093422A (zh) * | 2017-01-10 | 2017-08-25 | 上海优同科技有限公司 | 一种语音识别方法和语音识别系统 |
CN107452369A (zh) * | 2017-09-28 | 2017-12-08 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
WO2018153200A1 (zh) * | 2017-02-21 | 2018-08-30 | 中兴通讯股份有限公司 | 基于hlstm模型的声学建模方法、装置和存储介质 |
CN108806665A (zh) * | 2018-09-12 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN109036375A (zh) * | 2018-07-25 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
CN109326278A (zh) * | 2017-07-31 | 2019-02-12 | 科大讯飞股份有限公司 | 一种声学模型构建方法及装置、电子设备 |
CN110047462A (zh) * | 2019-01-31 | 2019-07-23 | 北京捷通华声科技股份有限公司 | 一种语音合成方法、装置和电子设备 |
CN110853616A (zh) * | 2019-10-22 | 2020-02-28 | 武汉水象电子科技有限公司 | 一种基于神经网络的语音合成方法、系统与存储介质 |
CN111108549A (zh) * | 2019-12-24 | 2020-05-05 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备及计算机可读存储介质 |
CN113327614A (zh) * | 2021-08-02 | 2021-08-31 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07334188A (ja) * | 1994-06-09 | 1995-12-22 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声合成システム |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
US20090187408A1 (en) * | 2008-01-23 | 2009-07-23 | Kabushiki Kaisha Toshiba | Speech information processing apparatus and method |
CN102496363A (zh) * | 2011-11-11 | 2012-06-13 | 北京宇音天下科技有限公司 | 一种用于汉语语音合成的音调修正方法 |
CN103578462A (zh) * | 2012-07-18 | 2014-02-12 | 株式会社东芝 | 语音处理系统 |
CN104916284A (zh) * | 2015-06-10 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 用于语音合成系统的韵律与声学联合建模的方法及装置 |
CN105118498A (zh) * | 2015-09-06 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音合成模型的训练方法及装置 |
CN105206264A (zh) * | 2015-09-22 | 2015-12-30 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
-
2016
- 2016-01-25 CN CN201610049832.1A patent/CN105529023B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07334188A (ja) * | 1994-06-09 | 1995-12-22 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声合成システム |
US20090187408A1 (en) * | 2008-01-23 | 2009-07-23 | Kabushiki Kaisha Toshiba | Speech information processing apparatus and method |
CN101308652A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种个性化歌唱语音的合成方法 |
CN102496363A (zh) * | 2011-11-11 | 2012-06-13 | 北京宇音天下科技有限公司 | 一种用于汉语语音合成的音调修正方法 |
CN103578462A (zh) * | 2012-07-18 | 2014-02-12 | 株式会社东芝 | 语音处理系统 |
CN104916284A (zh) * | 2015-06-10 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 用于语音合成系统的韵律与声学联合建模的方法及装置 |
CN105118498A (zh) * | 2015-09-06 | 2015-12-02 | 百度在线网络技术(北京)有限公司 | 语音合成模型的训练方法及装置 |
CN105206264A (zh) * | 2015-09-22 | 2015-12-30 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105845125A (zh) * | 2016-05-18 | 2016-08-10 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
CN105845125B (zh) * | 2016-05-18 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
CN106601228A (zh) * | 2016-12-09 | 2017-04-26 | 百度在线网络技术(北京)有限公司 | 基于人工智能韵律预测的样本标注方法及装置 |
CN107093422A (zh) * | 2017-01-10 | 2017-08-25 | 上海优同科技有限公司 | 一种语音识别方法和语音识别系统 |
WO2018153200A1 (zh) * | 2017-02-21 | 2018-08-30 | 中兴通讯股份有限公司 | 基于hlstm模型的声学建模方法、装置和存储介质 |
WO2018192424A1 (zh) * | 2017-04-19 | 2018-10-25 | 腾讯科技(深圳)有限公司 | 统计参数模型建立方法、语音合成方法、服务器和存储介质 |
CN106971709B (zh) * | 2017-04-19 | 2021-10-15 | 腾讯科技(上海)有限公司 | 统计参数模型建立方法和装置、语音合成方法和装置 |
US11289069B2 (en) | 2017-04-19 | 2022-03-29 | Tencent Technology (Shenzhen) Company Limited | Statistical parameter model establishing method, speech synthesis method, server and storage medium |
CN106971709A (zh) * | 2017-04-19 | 2017-07-21 | 腾讯科技(上海)有限公司 | 统计参数模型建立方法和装置、语音合成方法和装置 |
CN109326278A (zh) * | 2017-07-31 | 2019-02-12 | 科大讯飞股份有限公司 | 一种声学模型构建方法及装置、电子设备 |
CN109326278B (zh) * | 2017-07-31 | 2022-06-07 | 科大讯飞股份有限公司 | 一种声学模型构建方法及装置、电子设备 |
CN107452369A (zh) * | 2017-09-28 | 2017-12-08 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN107452369B (zh) * | 2017-09-28 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | 语音合成模型生成方法和装置 |
CN109036375A (zh) * | 2018-07-25 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
CN109036375B (zh) * | 2018-07-25 | 2023-03-24 | 腾讯科技(深圳)有限公司 | 语音合成方法、模型训练方法、装置和计算机设备 |
CN108806665A (zh) * | 2018-09-12 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN110047462B (zh) * | 2019-01-31 | 2021-08-13 | 北京捷通华声科技股份有限公司 | 一种语音合成方法、装置和电子设备 |
CN110047462A (zh) * | 2019-01-31 | 2019-07-23 | 北京捷通华声科技股份有限公司 | 一种语音合成方法、装置和电子设备 |
CN110853616A (zh) * | 2019-10-22 | 2020-02-28 | 武汉水象电子科技有限公司 | 一种基于神经网络的语音合成方法、系统与存储介质 |
CN111108549A (zh) * | 2019-12-24 | 2020-05-05 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备及计算机可读存储介质 |
WO2021127979A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备及计算机可读存储介质 |
CN111108549B (zh) * | 2019-12-24 | 2024-02-02 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机设备及计算机可读存储介质 |
CN113327614A (zh) * | 2021-08-02 | 2021-08-31 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105529023B (zh) | 2019-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105529023A (zh) | 语音合成方法和装置 | |
CN105355193B (zh) | 语音合成方法和装置 | |
US8977551B2 (en) | Parametric speech synthesis method and system | |
CN104538024B (zh) | 语音合成方法、装置及设备 | |
CN104916284B (zh) | 用于语音合成系统的韵律与声学联合建模的方法及装置 | |
CN105118498B (zh) | 语音合成模型的训练方法及装置 | |
CN106531150B (zh) | 一种基于深度神经网络模型的情感合成方法 | |
WO2019040132A1 (en) | CREATING MUSIC USING DEEP NEURAL NETWORKS | |
CN1835075B (zh) | 一种结合自然样本挑选与声学参数建模的语音合成方法 | |
CN106128450A (zh) | 一种汉藏双语跨语言语音转换的方法及其系统 | |
CN106057192A (zh) | 一种实时语音转换方法和装置 | |
Huzaifah et al. | Deep generative models for musical audio synthesis | |
Ronanki et al. | A Template-Based Approach for Speech Synthesis Intonation Generation Using LSTMs. | |
CN105654942A (zh) | 一种基于统计参数的疑问句、感叹句的语音合成方法 | |
KR102272554B1 (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
KR20230039750A (ko) | 운율적 특징들로부터 파라메트릭 보코더 파라미터들을 예측하기 | |
CN111341294A (zh) | 将文本转换为指定风格语音的方法 | |
Schröder et al. | Synthesis of emotional speech | |
Indumathi et al. | Survey on speech synthesis | |
CN107506345A (zh) | 语言模型的构建方法和装置 | |
Dongmei | Design of English text-to-speech conversion algorithm based on machine learning | |
Lazaridis et al. | Improving phone duration modelling using support vector regression fusion | |
CN1787072B (zh) | 基于韵律模型和参数选音的语音合成方法 | |
Story et al. | A preliminary study of voice quality transformation based on modifications to the neutral vocal tract area function | |
Anumanchipalli et al. | A statistical phrase/accent model for intonation modeling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |