CN102496363B - 一种用于汉语语音合成的音调修正方法 - Google Patents

一种用于汉语语音合成的音调修正方法 Download PDF

Info

Publication number
CN102496363B
CN102496363B CN2011103562596A CN201110356259A CN102496363B CN 102496363 B CN102496363 B CN 102496363B CN 2011103562596 A CN2011103562596 A CN 2011103562596A CN 201110356259 A CN201110356259 A CN 201110356259A CN 102496363 B CN102496363 B CN 102496363B
Authority
CN
China
Prior art keywords
module
fundamental frequency
model
responsible
synthetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2011103562596A
Other languages
English (en)
Other versions
CN102496363A (zh
Inventor
那兴宇
王朝民
谢湘
何娅玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING YUYIN TIANXIA TECHNOLOGY CO LTD
Zhuhai Hi-tech Angel Venture Capital Co.,Ltd.
Original Assignee
BEIJING YUYIN TIANXIA TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING YUYIN TIANXIA TECHNOLOGY Co Ltd filed Critical BEIJING YUYIN TIANXIA TECHNOLOGY Co Ltd
Priority to CN2011103562596A priority Critical patent/CN102496363B/zh
Publication of CN102496363A publication Critical patent/CN102496363A/zh
Application granted granted Critical
Publication of CN102496363B publication Critical patent/CN102496363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种用于汉语语音合成的音调修正方法,由文本分析模块接收待合成的任意文本信息,根据音节和韵律层级结构输出完整的合成标注信息;参数语音合成模块接收文本分析模块的合成标注信息,使用考虑参考音调的参数生成的方法输出合成的语音信号;离线训练模块负责各种隐马尔科夫模型的训练,参考音调模型用于生成单个音节的参考基频包络,合成参数模型用于得到合成的参数序列。依据本发明可以解决基于隐马尔科夫模型的汉语语音合成中音调不稳定的问题,使合成语音的自然度和韵律感得到极大地改善。

Description

一种用于汉语语音合成的音调修正方法
技术领域
本发明设计一种参数化语音合成方法,具体地涉及一种用于汉语语音合成的音调修正方法。
背景技术
语音合成技术的目标是使电子设备向人类一样发声。随着语音合成技术的发展,合成声音的音质、自然度、智能度都有了很大提高,其中发展最为迅速的是基于参数化统计模型的语音合成技术。基于隐马尔科夫模型的参数化统计语音合成技术是这一类方法的代表,其合成音质具有较高的连贯度和灵活度,所需的资源占用空间较小,具有极大的实用和研究价值。这种方法分为两个部分,一是离线的模型训练部分,一是在线的语音合成部分。在离线训练部分,首先将训练语料进行参数化表示,通常表示为基频、增益和声道谱系数。为指导隐马尔科夫模型的训练,要事先对每条训练语料进行标注,标注内容包括音节、音调和韵律层级结构等。在在线合成部分,对任意合成文本进行分析得到合成标注,然后使用参数模型进行参数结算及合成滤波,最终输出语音。
由于在汉语合成中单个音节的音调准确率对于合成语音的可懂度和自然度都有着至关重要的作用,而隐马尔科夫模型属于一种按状态分段的分段模型,各个分段之间相互独立,造成在一个音节内的基频出现不平滑的现象,导致可懂度和自然度的明显下降。因此,需要一种新的算法,能够对音节的整体基频包络进行可训练的描述,以捕捉不同说话人在发声过程中的不同语境下的不同音调表现,并能够在合成时对状态模型生成的基频包络进行修正,改善合成语音的音调准确率,进而提高可懂度和韵律表现力。
发明内容
为了解决现有的技术缺陷,本发明的目的是要提出一种算法,能够对音节的整体基频包络进行可训练的描述,以捕捉不同说话人在发声过程中的不同语境下的不同音调表现,并能够在合成时对状态模型生成的基频包络进行修正,改善合成语音的音调准确率,进而提高可懂度和韵律表现力。为此,本发明构建一种用于汉语语音合成的音调修正方法。
为实现上述目的,本发明的一种用于汉语语音合成的音调修正方法,利用各种计算机和数字设备的输入,将所接收到的任意文字串转化为语音输出,其特征在于:由离线训练模块和参数语音合成模块组成,其中:
具有一离线训练模块,负责参考音调模型和增益、基频、声道谱和时长的参数生成模型的训练;
具有一参数语音合成模块,输入端接受文本信息,负责进行文本分析并根据文本分析的结果生成增益、声道谱系数序列和音调修正的基频序列,并进一步合成语音信号;具有一输出端输出合成的语音信号;
根据本发明的实施例,所述离线训练模块包括:
具有一参考音调模型训练模块,负责提取训练语料的参数化音调,使用基于上下文的隐马尔科夫模型进行参考音调模型的训练;
具有一连续隐马尔科夫训练模块,使用连续隐马尔科夫模型进行增益、声道谱和时长生成模型的训练;
具有一多空间隐马尔科夫模型训练模块,使用多空间概率隐马尔科夫模型进行基频生成模型的训练。
根据本发明的实施例,所述参考音调模型训练模块包括:
具有一基频提取模块,负责对全部训练语音进行精确的基频提取得到训练语料平滑的基频曲线;
具有一基频参数化模块,负责对全部训练语料的基频进行以音节为单位的参数化表示;
具有一基于上下文的参考音调模型训练模块,负责训练得到基于完整上下文的参考音调模型;
具有一基于上下文的决策树聚类模块,负责根据上下文特征对参考音调模型进行决策树聚类;
根据本发明的实施例,所述基频参数化模块包括:
具有一基频归一化模块,负责对训练语料的基频进行归一化处理,具有一输出端负责输出归一化后的分段基频包络;
具有一基频参数提取模块,负责对归一化的基频包络进行参数化表示,具有一输出端负责输出归一化分段基频的包络参数;
根据本发明的实施例,所述基于上下文的参考音调模型训练模块包括:
具有一上下文信息统计模块,负责统计训练语料中不同上下文的数目;
具有一均值累加计算模块,负责针对输入的每条训练语料进行相应模型均值的累加计算;
具有一方差计算模块,负责计算参考音调模型的全局方差;
具有一状态累加模块,负责统计每种上下文模型在训练语料中出现的次数;
根据本发明的实施例,所述参数语音合成模块包括:
具有一文本分析模块,负责接收所要合成的任意文字串,进行音节和韵律层级结构分析,具有一输出端负责输出完整的合成标注信息;
具有一时长预测模块,负责接收文本分析模块输出的合成标注信息,使用时长生成模型进行状态时长预测,具有一输出端负责输出状态时长预测结果;
具有一基频预测模块,负责接收文本分析模块输出的合成标注信息,使用基频生成模型进行清浊音判决、基频包络预测和逆归一化因子的计算;
具有一音调调整模块,负责接收基频预测模块的清浊音判决结果、基频包络预测结果和逆归一化因子,使用参考音调模型计算参考基频包络,并进行基频包络修正;
具有一声道参数生成模块,负责接收文本分析模块输出的合成标注信息,使用增益和声道谱参数生成模型,计算增益和声道谱参数序列;
具有一波形生成模块,负责接收音调调整模块输出的修正基频包络和声道参数生成模块输出的基频、增益和声道谱参数序列,使用相应的滤波器合成语音波形;
根据本发明的实施例,所述基频预测模块包括;
具有一清浊音判决模块,根据多空间基频生成模型中清音空间和浊音空间的权重比,进行状态清浊音判决;
具有一基频包络预测模块,根据清浊音判决结果计算浊音部分的基频值;
具有一逆归一化因子计算模块,根据浊音部分的基频值计算逆归一化因子;
根据本发明的实施例,所述音调调整模块包括:
具有一音调预测模块,负责接收文本分析模块输出的合成标注信息,使用参考音调模型计算音节音调参数;
具有一逆参数化模块,负责接收音调预测模块输出的音节音调参数,生成参考基频包络;
具有一基频修正模块,负责接收逆参数化模块输出的参考基频包络,生成修正的基频包络;
根据本发明的实施例,所述逆参数化模块包括:
具有一包络重构模块,负责接收音调预测模块输出的音节音调参数,进行基频包络重构;
具有一逆归一化模块,负责接收包络重构模块输出的基频包络和逆归一化因子计算模块输出的逆归一化因子,进行参考基频包络的计算;
本发明的有益效果:本发明的第一方面,为实现上述目的,在该方法中,使用音节基频包络的参数化表示进行统计建模,解决状态模型中各个状态独立带来的基频建模不连续问题。通过在训练过程中考虑上下文语境,充分的对不同语境下的音调基频变化进行了估计。
本发明的第二方面,为实现上述目的,本发明再合成阶段,设计了一个音调基频修正算法:利用参考音调模型预测一个音调基频包络,并根据基频生成模型得到逆归一化因子,进一步得到参考基频包络,使用参考基频包络对生成的基频值进行修正。通过上述算法,既保留了不同上下文语境中基频的变化趋势,又提高了生成语音的音调准确率,改善了可懂度和韵律表现力。
附图说明
通过以下结合附图的详细描述,本发明的上述和其他方面、特征和优点将变得更加显而易见。附图中:
附图1是本发明所提出的用于汉语语音合成的音调修正方法的总体框图
附图2是本发明离线训练模块的框图
附图3是本发明参考音调模型训练模块的框图
附图4是本发明基频参数化模块的框图
附图5是本发明基于上下文的参考音调模型训练模块的框图
附图6是本发明参数语音合成模块的框图
附图7是本发明基频预测和音调调整模块的框图
图中1.训练语音库,2.离线训练模块,3.参考音调模型,4.合成参数模型,5.文本输入,6.参数语音生产模块,7.合成语音输出,8.参考音调模型训练模块,9.连续隐马尔科夫训练模块,10.多空间隐马尔科夫模型训练模块,11.基频提取模块,12.基频参数化模块,13.基于上下文的参考音调模型训练模块,14.基于上下文的决策树聚类模块,15.训练语音提取的基频,16.基频参数提取模块,18.是否处理完所有语料?,19.归一化分段基频的包络参数,20.上下文信息统计模块,21.均值累加计算模块,22.状态累加模块,23.是否处理完所有模型?,24.方差计算模块,25.文本分析模块,26.时长预测模块,27.基频预测模块,28.音调调整模块,29.声道参数生成模块,30.波形生成模块,31.合成标注信息,32.清浊音判决模块,33.基频包络预测模块,34.逆归一化因子计算模块,35.音调预测模块,36.包络重构模块,37.逆归一化模块,38.基频修正模块,39.修正基频包络,40.逆参数化模块。
具体实施方式
下面结合附图和实例对本发明进一步说明,通过结合附图对方法各关键步骤的详细说明将会更好地描述实现本发明的步骤和过程。应该指出,所描述的实例仅仅视为说明的目的,不是对本发明的限制。
附图1是本发明所提出的用于汉语语音合成的音调修正方法示意图。实现的方法以标准C语言编写,在windows平台和unix平台下均可编译运行。在附图1本发明的优选实施方案中,本方法分为两个部分:离线训练模块2和参数语音合成模块6组成。其中,离线训练模块2与参数语音合成模块6无连接,仅用于线下生成语音合成系统所使用的参考音调模型3和合成参数模型3。
具有一离线训练模块2,负责参考音调模型和增益、基频、声道谱和时长的参数生成模型的训练;
具有一参数语音合成模块6,输入端接受文本信息,负责进行文本分析并根据文本分析的结果生成增益、声道谱系数序列和音调修正的基频序列,并进一步合成语音信号;具有一输出端输出合成的语音信号。
如附图2离线训练模块的框图所示,离线训练模块2由参考音调模型训练模块8、连续隐马尔科夫训练模块9、多空间隐马尔科夫模型训练模块10组成。
参考音调模型训练模块8:负责对每条训练语料中的每个音节提取归一化基频包络参数,并训练参考音调模型。
连续隐马尔科夫训练模块9:使用连续隐马尔科夫模型进行增益、声道谱和时长生成模型的训练。本发明的应用于以音节为建模基元的合成系统中,因此本实例采用隐半马尔科夫模型(HSMM)作为音节基元参数模型,模型状态数为12,其中包含1个入口状态和1个出口状态,中间10个状态输出声学参数。采用基于加权自适应谱插值(STRAIGHT)的24维美尔广义倒谱系数(MGC)。
多空间隐马尔科夫模型训练模块10:使用多空间概率隐马尔科夫模型进行基频生成模型的训练。本实例采用对数基频作为基频的表示方法,在多空间概率模型中,采用一个0维的清音空间和一个1维的浊音空间对清浊音在统一的框架下进行基频建模。
如附图3参考音调模型训练模块的框图所示,参考音调模型训练模块8由基频提取模块11,基频参数化模块12,基于上下文的参考音调模型训练模块13,基于上下文的决策树聚类模块14组成。
基频提取模块11:负责对全部训练语音进行精确的基频提取得到训练语料平滑的基频曲线。本实例采用基于STRAIGHT的基频提取算法。
基频参数化模块12:负责对全部训练语料的基频进行以音节为单位的参数化表示。
基于上下文的参考音调模型训练模块13:负责训练得到基于完整上下文的参考音调模型。
基于上下文的决策树聚类模块14:负责根据上下文特征对参考音调模型进行决策树聚类。本实例采用分类回归树(CART)进行基于上下文的音调模型聚类,采用最大似然准则(ML)作为节点分裂准则,采用最小描述长度准则(MDL)作为聚类终止准则。
如附图4基频参数化模块的框图所示,基频参数化模块12由基频归一化模块16,基频参数提取模块17组成。
基频归一化模块16:负责对训练语料的基频进行归一化处理,具有一输出端负责输出归一化后的分段基频包络。归一化基频的计算方法为:
nF0t=F0t*nf
其中,nf为归一化因子。采用按句子级别的归一化方法,其计算方法为:
nf = 1 1 Σ t ∈ v t ≡ 1 1 Σ t ∈ v t ≡ 1 F 0 t
基频参数提取模块17:负责对归一化的基频包络进行参数化表示,具有一输出端负责输出归一化分段基频的包络参数。本实例中采用离散余弦变换(DCT)作为归一化分段基频的包络参数化表示方法,其计算方法为:
c m = 2 T s Σ t = 0 T s - 1 nF 0 t cos [ π T s m ( t + 1 2 ) ]
其中cm为第m维DCT系数,Ts为第s段归一化基频包络的长度。在本实例中,采用7维DCT参数作为音节基频包络的表示方法。
如附图5基于上下文的参考音调模型训练模块13由上下文信息统计模块20,均值累加计算模块21,方差计算模块24,状态累加模块22组成。
上下文信息统计模块20:负责统计训练语料中不同上下文的数目,考虑到的语境参数越多,则分类越细致。本实例考虑的语境参数为三音节的声韵母、音调、本音节所在韵律结构在韵律层级中的位置和数目。最终得到的上下文数目即是基于上下文的参考音调模型的数目。
均值累加计算模块21:负责针对输入的每条训练语料进行相应模型均值的累加计算。在本实例中,采用单高斯模型作为DCT系数的统计模型,将均值作为高斯模型的均值,其中某个模型的均值计算方法为:
μ = 1 N Σ n = 1 N c n
其中cn为属于这种上下文模型的一个DCT样本矢量,N为属于这种上下文模型的所有样本的数目。
方差计算模块24:负责计算参考音调模型的全局方差。本实例采用对角方差矩阵的单高斯模型,使用全局方差作为每一个上下文模型的方差矢量。其计算方法为:
σ = 1 L Σ l = 1 L Σ n = 1 N l ( c n - μ ) 2
状态累加模块22:负责统计每种上下文模型在训练语料中出现的次数。其结果将用于基于上下文的决策树聚类模块14。
如附图6参数语音合成模块2由文本分析模块25,时长预测模块26,基频预测模块27,音调调整模块28,声道参数生成模块29,波形生成模块30组成。
文本分析模块25:负责接收所要合成的任意文字串,进行音节和韵律层级结构分析,具有一输出端负责输出完整的合成标注信息。
时长预测模块26:负责接收文本分析模块输出的合成标注信息,使用时长生成模型进行状态时长预测,具有一输出端负责输出状态时长预测结果。
基频预测模块27:负责接收文本分析模块输出的合成标注信息,使用基频生成模型进行清浊音判决、基频包络预测和逆归一化因子的计算。
音调调整模块28:负责接收基频预测模块的清浊音判决结果、基频包络预测结果和逆归一化因子,使用参考音调模型计算参考基频包络,并进行基频包络修正。
声道参数生成模块29:负责接收文本分析模块输出的合成标注信息,使用增益和声道谱参数生成模型,计算增益和声道谱参数序列。
波形生成模块30:负责接收音调调整模块输出的修正基频包络和声道参数生成模块输出的基频、增益和声道谱参数序列,使用相应的滤波器合成语音波形。本实例中,首先对生成的声道谱MGC序列进行后滤波,然后采用美尔对数谱近似(MLSA)滤波器进行声音信号的生成。
如附图7基频预测模块27由清浊音判决模块32,基频包络预测模块33,逆归一化因子计算模块34组成。
清浊音判决模块32根据多空间基频生成模型中清音空间和浊音空间的权重比,进行状态清浊音判决。本实例中,采用优选清浊音转换点的方法,使得每个汉语音节中只包含一个清音到浊音的转换点,采用的清浊音判决阈值为0.4。
基频包络预测模块33根据清浊音判决结果计算浊音部分的基频值。
逆归一化因子计算模块34根据浊音部分的基频值计算逆归一化因子。逆归一化采用句子级别的逆归一化方法,其因子计算方法为:
nf = 1 Σ t ∈ v t ≡ 1 1 Σ t ∈ v t ≡ 1 F 0 t
如附图7音调调整模块28由音调预测模块35,逆参数化模块40,基频修正模块38组成。
音调预测模块35负责接收文本分析模块输出的合成标注信息,使用参考音调模型计算音节音调参数。在本实例中,该模块输出每个合成音节的DCT系数预测结果。
逆参数化模块40负责接收音调预测模块输出的音节音调参数,生成参考基频包络。
基频修正模块38负责接收逆参数化模块输出的参考基频包络,具有一输出端输出修正的基频包络。修正过程由一个经验化修正因子控制,修正方法为:
F0′t=F0t+α(F0″t-F0t)
其中F0t为基频包络预测模块33输出的基频值,F0”t为参考基频包络中的基频值,F0’t为修正后的基频值。
如附图7逆参数化模块40由包络重构模块36,逆归一化模块37组成。
包络重构模块36:负责接收音调预测模块输出的音节音调参数,进行基频包络重构。本实例中采用DCT作为基频包络表示方法,因此在重构时使用逆DCT进行参考包络的求取,其计算方法为:
nF 0 t ′ ′ = 1 2 c 0 + Σ m = 1 M c m cos [ π T m ( t + 1 2 ) ]
其中T为所重构的音节基频包络长度。
逆归一化模块37:负责接收包络重构模块输出的基频包络和逆归一化因子计算模块输出的逆归一化因子,进行参考基频包络的计算。
F0″t=nF0t*nf
上述实施例为本发明的较佳实施例,本发明的应用不仅限于计算机终端,还可以应用到嵌入式设备和各种其他手持和移动设备中。根据本发明的主要构思,本领域普通技术人员均可以生产多种类似的或等价的应用,为此,本发明的范围不应由该描述来限定。本领域的技术人员应该理解,在不脱离本发明的范围内的任何修改或局部替换,均属于本发明权利要求来限定的范围。

Claims (7)

1.一种用于汉语语音合成的音调修正方法,利用各种计算机和数字设备的输入,将所接收到的任意文字串转化为语音输出,其特征在于:由离线训练模块和参数语音合成模块组成,其中:
所述离线训练模块负责参考音调模型和增益、基频、声道谱和时长的参数生成模型的训练;所述离线训练模块包括参考音调模型训练模块、连续隐马尔科夫训练模块和多空间隐马尔科夫模型训练模块,其中:
所述参考音调模型训练模块,负责提取训练语料的参数化音调,使用基于上下文的隐马尔科夫模型进行参考音调模型的训练;所述参考音调模型训练模块包括基频提取模块、基频参数化模块、基于上下文的参考音调模型训练模块和基于上下文的决策树聚类模块,其中:
所述基频提取模块,负责对全部训练语音进行精确的基频提取得到训练语料平滑的基频曲线;
所述基频参数化模块,负责对全部训练语料的基频进行以音节为单位的参数化表示;
所述基于上下文的参考音调模型训练模块,负责训练得到基于完整上下文的参考音调模型;
所述基于上下文的决策树聚类模块,负责根据上下文特征对参考音调模型进行决策树聚类;
所述连续隐马尔科夫训练模块,使用连续隐马尔科夫模型进行增益、声道谱和时长生成模型的训练;
所述多空间隐马尔科夫模型训练模块,使用多空间概率隐马尔科夫模型进行基频生成模型的训练;
所述参数语音合成模块,输入端接受文本信息,负责进行文本分析并根据文本分析的结果生成增益、声道谱系数序列和音调修正的基频序列,并进一步合成语音信号;具有一输出端输出合成的语音信号。
2.根据权利要求1所述的一种用于汉语语音合成的音调修正方法,其特征在于:所述基频参数化模块包括:
具有一基频归一化模块,负责对训练语料的基频进行归一化处理,具有一输出端负责输出归一化后的分段基频包络;
具有一基频参数提取模块,负责对归一化的基频包络进行参数化表示,具有一输出端负责输出归一化分段基频的包络参数。
3.根据权利要求1所述的一种用于汉语语音合成的音调修正方法,其特征在于:所述基于上下文的参考音调模型训练模块包括:
具有一上下文信息统计模块,负责统计训练语料中不同上下文的数目;
具有一均值累加计算模块,负责针对输入的每条训练语料进行相应模型均值的累加计算;
具有一方差计算模块,负责计算参考音调模型的全局方差;
具有一状态累加模块,负责统计每种上下文模型在训练语料中出现的次数。
4.根据权利要求1所述的一种用于汉语语音合成的音调修正方法,其特征在于:所述参数语音合成模块包括:
具有一文本分析模块,负责接收所要合成的任意文字串,进行音节和韵律层级结构分析,具有一输出端负责输出完整的合成标注信息;
具有一时长预测模块,负责接收文本分析模块输出的合成标注信息,使用时长生成模型进行状态时长预测,具有一输出端负责输出状态时长预测结果;
具有一基频预测模块,负责接收文本分析模块输出的合成标注信息,使用基频生成模型进行清浊音判决、基频包络预测和逆归一化因子的计算;
具有一音调调整模块,负责接收基频预测模块的清浊音判决结果、基频包络预测结果和逆归一化因子,使用参考音调模型计算参考基频包络,并进行基频包络修正;
具有一声道参数生成模块,负责接收文本分析模块输出的合成标注信息,使用增益和声道谱参数生成模型,计算增益和声道谱参数序列;
具有一波形生成模块,负责接收音调调整模块输出的修正基频包络和声道参数生成模块输出的基频、增益和声道谱参数序列,使用相应的滤波器合成语音波形。
5.根据权利要求4所述的一种用于汉语语音合成的音调修正方法,其特征在于:所述基频预测模块包括;
具有一清浊音判决模块,根据多空间基频生成模型中清音空间和浊音空间的权重比,进行状态清浊音判决;
具有一基频包络预测模块,根据清浊音判决结果计算浊音部分的基频值;
具有一逆归一化因子计算模块,根据浊音部分的基频值计算逆归一化因子。
6.根据权利要求4所述的一种用于汉语语音合成的音调修正方法,其特征在于:所述音调调整模块包括:
具有一音调预测模块,负责接收文本分析模块输出的合成标注信息,使用参考音调模型计算音节音调参数;
具有一逆参数化模块,负责接收音调预测模块输出的音节音调参数,生成参考基频包络;
具有一基频修正模块,负责接收逆参数化模块输出的参考基频包络,生成修正的基频包络。
7.根据权利要求6所述的一种用于汉语语音合成的音调修正方法,其特征在于:所述逆参数化模块包括:
具有一包络重构模块,负责接收音调预测模块输出的音节音调参数,进行基频包络重构;
具有一逆归一化模块,负责接收包络重构模块输出的基频包络和逆归一化因子计算模块输出的逆归一化因子,进行参考基频包络的计算。
CN2011103562596A 2011-11-11 2011-11-11 一种用于汉语语音合成的音调修正方法 Active CN102496363B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103562596A CN102496363B (zh) 2011-11-11 2011-11-11 一种用于汉语语音合成的音调修正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103562596A CN102496363B (zh) 2011-11-11 2011-11-11 一种用于汉语语音合成的音调修正方法

Publications (2)

Publication Number Publication Date
CN102496363A CN102496363A (zh) 2012-06-13
CN102496363B true CN102496363B (zh) 2013-07-17

Family

ID=46188180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103562596A Active CN102496363B (zh) 2011-11-11 2011-11-11 一种用于汉语语音合成的音调修正方法

Country Status (1)

Country Link
CN (1) CN102496363B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104282300A (zh) * 2013-07-05 2015-01-14 中国移动通信集团公司 一种非周期成分音节模型建立、及语音合成的方法和设备
CN103531196B (zh) * 2013-10-15 2016-04-13 中国科学院自动化研究所 一种波形拼接语音合成的选音方法
CN104361896B (zh) * 2014-12-04 2018-04-13 上海流利说信息技术有限公司 语音质量评价设备、方法和系统
CN104916282B (zh) * 2015-03-27 2018-11-06 北京捷通华声科技股份有限公司 一种语音合成的方法和装置
WO2016200391A1 (en) * 2015-06-11 2016-12-15 Interactive Intelligence Group, Inc. System and method for outlier identification to remove poor alignments in speech synthesis
CN105654939B (zh) * 2016-01-04 2019-09-13 极限元(杭州)智能科技股份有限公司 一种基于音向量文本特征的语音合成方法
CN105529023B (zh) * 2016-01-25 2019-09-03 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN107886938B (zh) * 2016-09-29 2020-11-17 中国科学院深圳先进技术研究院 虚拟现实引导催眠语音处理方法及装置
CN108346424B (zh) * 2017-01-23 2021-11-19 北京搜狗科技发展有限公司 语音合成方法和装置、用于语音合成的装置
CN107039033A (zh) * 2017-04-17 2017-08-11 海南职业技术学院 一种语音合成装置
CN108288464B (zh) * 2018-01-25 2020-12-29 苏州奇梦者网络科技有限公司 一种修正合成音中错误声调的方法
CN109300468B (zh) * 2018-09-12 2022-09-06 科大讯飞股份有限公司 一种语音标注方法及装置
CN109087627A (zh) * 2018-10-16 2018-12-25 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN112289298A (zh) * 2020-09-30 2021-01-29 北京大米科技有限公司 合成语音的处理方法、装置、存储介质以及电子设备
CN112786027B (zh) * 2021-01-06 2022-02-22 浙江大学 一种语音输入矫正处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452699A (zh) * 2007-12-04 2009-06-10 株式会社东芝 韵律自适应及语音合成的方法和装置
EP2337006A1 (en) * 2009-11-24 2011-06-22 Kai Yu Speech processing and learning
CN102201234A (zh) * 2011-06-24 2011-09-28 北京宇音天下科技有限公司 一种基于音调自动标注及预测的语音合成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452699A (zh) * 2007-12-04 2009-06-10 株式会社东芝 韵律自适应及语音合成的方法和装置
EP2337006A1 (en) * 2009-11-24 2011-06-22 Kai Yu Speech processing and learning
CN102201234A (zh) * 2011-06-24 2011-09-28 北京宇音天下科技有限公司 一种基于音调自动标注及预测的语音合成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Cheng-Cheng Wang et al.Multi-Layer F0 Modeling for HMM-Based Speech Synthesis.《Chinese Spoken Language Processing, 2008. ISCSLP "08. 6th International Symposium on》.2008,
Jianhua Tao et al.Prosody Conversion From Neutral Speech to Emotional Speech.《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》.2006,第14卷(第4期),
Multi-Layer F0 Modeling for HMM-Based Speech Synthesis;Cheng-Cheng Wang et al;《Chinese Spoken Language Processing, 2008. ISCSLP "08. 6th International Symposium on》;20081219;全文 *
Prosody Conversion From Neutral Speech to Emotional Speech;Jianhua Tao et al;《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20060731;第14卷(第4期);全文 *

Also Published As

Publication number Publication date
CN102496363A (zh) 2012-06-13

Similar Documents

Publication Publication Date Title
CN102496363B (zh) 一种用于汉语语音合成的音调修正方法
US11222620B2 (en) Speech recognition using unspoken text and speech synthesis
CN101944359B (zh) 一种面向特定人群的语音识别方法
CN101599271B (zh) 一种数字音乐情感的识别方法
US11823656B2 (en) Unsupervised parallel tacotron non-autoregressive and controllable text-to-speech
US9135923B1 (en) Pitch synchronous speech coding based on timbre vectors
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN109036371B (zh) 用于语音合成的音频数据生成方法及系统
CN102201234B (zh) 一种基于音调自动标注及预测的语音合成方法
CN106653056A (zh) 基于lstm循环神经网络的基频提取模型及训练方法
CN1815552B (zh) 基于线谱频率及其阶间差分参数的频谱建模与语音增强方法
CN114203147A (zh) 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法
CN110767210A (zh) 一种生成个性化语音的方法及装置
CN116364055B (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
CN105654939A (zh) 一种基于音向量文本特征的语音合成方法
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
CN112489629A (zh) 语音转写模型、方法、介质及电子设备
CN116457870A (zh) 并行化Tacotron:非自回归且可控的TTS
US20220246132A1 (en) Generating Diverse and Natural Text-To-Speech Samples
US20240127832A1 (en) Decoder
US10446133B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
Zhao et al. Research on voice cloning with a few samples
CN113112985B (zh) 一种基于深度学习的语音合成方法
CN104538026A (zh) 一种用于参数化语音合成的基频建模方法
US20050154589A1 (en) Acoustic model creating method, acoustic model creating apparatus, acoustic model creating program, and speech recognition apparatus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: ZHUHAI YUYIN TIANXIA TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: BEIJING YUYIN TIANXIA TECHNOLOGY CO., LTD.

Effective date: 20140707

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100085 HAIDIAN, BEIJING TO: 519000 ZHUHAI, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20140707

Address after: 519000 Guangdong city of Zhuhai province high tech Zone Tangjiawan Town Road No. 101, University of Tsinghua Science Park (Zhuhai) business building A A1013

Patentee after: Zhuhai Yu World Technology Co.,Ltd.

Address before: 100085, room 15, 915 information road, Beijing, Haidian District

Patentee before: BEIJING YUYIN TIANXIA TECHNOLOGY Co.,Ltd.

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20170106

Address after: 518057 Guangdong city of Shenzhen province Nanshan District science and Technology Park North Yuanxing Technology Building 406 North Block

Patentee after: SHENZHEN AVSNEST TECHNOLOGY CO.,LTD.

Address before: The financial trade No. 15 building, 100085 Beijing city Haidian District information Road Room 915

Patentee before: BEIJING YUYIN TIANXIA TECHNOLOGY Co.,Ltd.

Effective date of registration: 20170106

Address after: The financial trade No. 15 building, 100085 Beijing city Haidian District information Road Room 915

Patentee after: BEIJING YUYIN TIANXIA TECHNOLOGY Co.,Ltd.

Address before: 519000 Guangdong city of Zhuhai province high tech Zone Tangjiawan Town Road No. 101, University of Tsinghua Science Park (Zhuhai) business building A A1013

Patentee before: Zhuhai Yu World Technology Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20181023

Address after: 519000 Tsinghua Science and Technology Park (Zhuhai) Pioneering Building A Block A1013, 101 University Road, Tangjiawan Town, Zhuhai High-tech Zone, Guangdong Province

Patentee after: Zhuhai Yu World Technology Co.,Ltd.

Address before: 518057 Guangdong North Shenzhen science and Technology Park, north of Nanshan District science and technology tower, 406

Patentee before: SHENZHEN AVSNEST TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190104

Address after: 100085 room 915, finance and trade building, 15 Information Road, Haidian District, Beijing.

Co-patentee after: Zhuhai Hi-tech Angel Venture Capital Co.,Ltd.

Patentee after: BEIJING YUYIN TIANXIA TECHNOLOGY Co.,Ltd.

Address before: 519000 Tsinghua Science and Technology Park (Zhuhai) Pioneering Building A Block A1013, 101 University Road, Tangjiawan Town, Zhuhai High-tech Zone, Guangdong Province

Patentee before: Zhuhai Yu World Technology Co.,Ltd.