CN106601226A - 音素时长预测建模方法及音素时长预测方法 - Google Patents

音素时长预测建模方法及音素时长预测方法 Download PDF

Info

Publication number
CN106601226A
CN106601226A CN201611027187.XA CN201611027187A CN106601226A CN 106601226 A CN106601226 A CN 106601226A CN 201611027187 A CN201611027187 A CN 201611027187A CN 106601226 A CN106601226 A CN 106601226A
Authority
CN
China
Prior art keywords
phoneme duration
text
training
text feature
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611027187.XA
Other languages
English (en)
Other versions
CN106601226B (zh
Inventor
陶建华
郑艺斌
温正棋
李雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201611027187.XA priority Critical patent/CN106601226B/zh
Publication of CN106601226A publication Critical patent/CN106601226A/zh
Application granted granted Critical
Publication of CN106601226B publication Critical patent/CN106601226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种对音素时长进行建模和预测的方法,利用计算机程序自动获取训练数据集,并对训练数据中的离群点进行自动剔除;对文本特征通过音向量和组合决策树建模,使文本特征的描述更加方便和精确;在音向量训练中,采用统计语言模型的训练方法来联合训练音向量和词向量,最大程度上保留了发音单元的连贯特性,不需要任何手工标注信息,从而大大降低了系统实现的复杂度和人工参与程度;采用双向长短时记忆循环神经网络对音素时长模型进行建模,能够更好地考虑上下文信息,也更加符合音素时长预测的本质。利用本发明,大大提高了时长预测的准确性,进而提高语音合成的表现力和自然度。

Description

音素时长预测建模方法及音素时长预测方法
技术领域
本发明涉及语音合成技术领域,具体涉及一种音素时长预测建模方法及音素时长预测方法。
背景技术
准确的音素时长预测建模及利用模型进行预测一直是语音合成至关重要的一步,音素时长模型能够刻画出语音中的抑扬顿挫与轻重缓急,进而提高合成语音的表现力和自然度。
虽然,在这个领域已经有很多的研究工作,但是音素时长的建模与预测还有很多问题至今没有很好的解决。主要体现在以下几点:
(1),对训练数据中的离群点处理的研究工作还相对较少。如果不对这些离群点进行处理,将会大大影响音素时长预测的精度。
(2),对音素时长预测所用的文本特征的描述还不够精细,现有的研究工作基本上都是直接对音素进行one-hot(独热编码,又称一位有效编码)表示,而忽略了音素之间的关联性。这样的文本表示结果也在很大的程度上影响了音素时长预测的精度。
(3),在音素时长预测的建模方面,现有的研究工作中所采用的建模方法都不能很好地对音素时长进行序列建模,因此不能综合地对整个句子的音素时长进行合理的分配。导致每个音素得到的时长都太过于平均,合成语音听起来显得过于平淡。进而导致语音合成结果的表现力和自然度都不够理想。
发明内容
为了解决现有技术中的上述问题,本发明提出了一种对音素时长进行建模和预测的方法,不但能够大大提高音素时长预测的准确度,进而提高合成语音的表现力和自然度,而且提高了系统实现的复杂度和人工参与程度;
一种音素时长预测建模方法,包括以下步骤:
步骤A1,获取音素时长数据集;
步骤A2,对音素时长数据集中的音素时长数据进行筛选,得到音素时长训练数据集;
步骤A3,依据音素时长训练数据集训练基于音向量的文本特征重表示模型M1;利用训练好的模型M1生成基于音向量的文本特征重表示;
步骤A4,依据音素时长训练数据集训练基于组合决策树的文本特征重表示模型M2;利用训练好的模型M2生成基于组合决策树的文本特征重表示;
步骤A5,将基于音向量的文本特征重表示和基于组合决策树的文本特征重表示进行组合,生成基于音向量和组合决策树(GBDT)相结合的文本特征重表示;
步骤A6,基于音向量和组合决策树相结合的文本特征重表示,训练双向长短时记忆循环神经网络的音素时长预测模型M3。
优选的,所述获取音素时长数据集,具体方法为:
从语料库中获取音频及其对应的文本数据,记为数据集U1;基于隐马尔科夫模型的语音合成系统,对U1中音频及其对应的文本进行强制切分得到音素时长序列,通过该语音合成系统前端的文本分析得到对应的原始文本特征;利用得到的音素时长序列以及原始文本特征组成数据集U2;数据集U1和数据集U2共同构成音素时长数据集。
优选的,所述对音素时长数据集中的音素时长数据进行筛选,具体方法为:
对数据集U2中每个音素的时长分布进行单高斯分布模拟,根据统计方法中的拉依达准则将偏离数据均值大于3σ的样本视为异常样本点,其中σ表示单高斯分布的方差;将包含异常样本点的整句话都从数据集U2中剔除,得到音素时长训练数据集U2′;相应地从数据集U1中将包含异常样本点的整句话剔除,得到音素时长训练数据集U1′;音素时长训练数据集U1′和音素时长训练数据集U2′共同构成筛选后的音素时长训练数据集。
优选的,所述训练基于音向量的文本特征重表示模型M1,具体方法为:
对音素时长训练数据集U1′中的文本数据进行词语切分和字音转换,作为模型M1的输入,进行基于音向量和词向量的语言模型联合训练,输出文本所对应音素的音向量表示,该音向量也同时考虑了音向量所属的词向量的影响。
优选的,所述基于音向量和词向量的语言模型联合训练,是基于连续词袋模型(Continuous Bag of Words)进行的。
优选的,所述基于音向量和词向量的语言模型联合训练,通过随机梯度下降法进行优化训练。
优选的,所述训练基于组合决策树的文本特征重表示模型M2,具体方法为:
将音素时长训练数据集U2′作为基于组合决策树的文本特征重表示模型M2的输入,对模型M2进行训练;
优选的,利用基于组合决策树的文本特征重表示模型M2对文本特征进行重表示后,特征向量取值是0或1,向量的每个文本特征对应于组合决策树模型中树的叶子节点;当一个样本落到组合决策树中任一叶子节点上,则在重表示的文本特征向量中这个叶子节点对应的元素值为1,该叶子结点所在树的其他叶子节点对应的元素值为0;基于组合决策树的文本特征重表示的文本特征向量的长度等于组合决策树中所有树包含的叶子节点数之和。
优选的,所述训练双向长短时记忆循环神经网络的音素时长预测模型M3,具体为:利用步骤A5得到的基于音向量和组合决策树相结合的文本特征重表示,对双向长短时记忆循环神经网络进行训练,生成音素时长预测模型M3。
优选的,基于所述音素时长预测建模方法所建立的模型进行音素时长预测,具体包括:
步骤B1,输入需要预测音素时长的文本;
步骤B2,对步骤B1输入的文本进行词语切分和字音转换,利用步骤A3已训练好的基于音向量的文本特征重表示模型M1,对文本特征进行重表示;
步骤B3,对步骤B1输入的文本,通过隐马尔科夫模型语音合成系统前端的文本分析得到对应的原始文本特征,利用步骤A4已训练好的基于组合决策树的文本特征重表示模型M2,对原始文本特征进行重表示;
步骤B4,将基于音向量的文本特征重表示和基于组合决策树的文本特征重表示进行组合,生成基于音向量和组合决策树相结合的文本特征重表示;
步骤B5,将步骤B4所得组合后的文本特征输入到步骤A6中已训练好的所述双向长短时记忆循环神经网络的音素时长预测模型M3,得到对应文本的音素时长序列。
本发明能够利用计算机程序自动获取训练数据集,并对训练数据中的离群点进行自动剔除;对文本特征通过音向量和组合决策树建模,使文本特征的描述更加方便和精确;在音向量训练中,采用统计语言模型的训练方法来联合训练音向量和词向量,最大程度上保留了发音单元的连贯特性,不需要任何手工标注信息,从而大大降低了系统实现的复杂度和人工参与程度;采用双向长短时记忆循环神经网络对音素时长模型进行建模,能够更好地考虑上下文信息,也更加符合音素时长预测的本质。利用本发明,大大提高了时长预测的准确性,进而提高语音合成的表现力和自然度。
附图说明
图1是本实施例中音素时长预测建模方法的流程示意图;
图2是本实施例中音素时长预测方法的流程示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
一种音素时长预测建模方法,如图1所示,包括以下步骤:
步骤A1,获取音素时长数据集;
步骤A2,对音素时长数据集中的音素时长数据进行筛选,得到音素时长训练数据集;
步骤A3,依据音素时长训练数据集训练基于音向量的文本特征重表示(利用新的方法重新表示)模型M1;利用训练好的模型M1生成基于音向量的文本特征重表示;
步骤A4,依据音素时长训练数据集训练基于组合决策树的文本特征重表示模型M2;利用训练好的模型M2生成基于组合决策树的文本特征重表示;
步骤A5,将基于音向量的文本特征重表示和基于组合决策树的文本特征重表示进行组合,生成基于音向量和组合决策树相结合的文本特征重表示;
步骤A6,基于音向量和组合决策树相结合的文本特征重表示,训练双向长短时记忆循环神经网络的音素时长预测模型M3。
本实施例中,所述获取音素时长数据集,具体方法为:
从语料库中获取音频及其对应的文本数据,记为数据集U1;基于隐马尔科夫模型的语音合成系统,对U1中音频及其对应的文本进行强制切分得到音素时长序列,通过该语音合成系统前端的文本分析得到对应的原始文本特征;利用得到的音素时长序列以及原始文本特征组成数据集U2;数据集U1和数据集U2共同构成音素时长数据集。
本实施例中,所述对音素时长数据集中的音素时长数据进行筛选,具体方法为:
对数据集U2中每个音素的时长分布进行单高斯分布模拟,根据统计方法中的拉依达准则将偏离数据均值大于3σ的样本视为异常样本点,其中σ表示单高斯分布的方差;将包含异常样本点的整句话都从数据集U2中剔除,得到音素时长训练数据集U2′;相应地从数据集U1中将包含异常样本点的整句话剔除,得到音素时长训练数据集U1′;音素时长训练数据集U1′和音素时长训练数据集U2′共同构成筛选后的音素时长训练数据集。
本实施例中,所述训练基于音向量的文本特征重表示模型M1,具体方法为:
对音素时长训练数据集U1′中的文本数据进行词语切分和字音转换,作为模型M1的输入,进行基于音向量和词向量的语言模型联合训练,输出文本所对应音素的音向量表示,该音向量也同时考虑了音向量所属的词向量的影响。
本实施例中,所述基于音向量和词向量的语言模型联合训练,是基于连续词袋模型(Continuous Bag of Words)进行的。
给定包含M个词的句子如D={x1,…,xM},音向量和词向量的语言模型联合训练优化的目标,是使得下述平均对数似然概率最大化:
其中K是训练时考虑的上下文的窗口长度,而Pr(xi|xi-K,…,xi+K)是通过Softmax函数得到的,具体表示为:
其中H为词典,Xi是所预测的目标词xi的词向量和音向量的联合表示,Xo是目标词xi上下文平均词向量和音向量的联合表示,T表示向量的转置,x′i是词典H中序号为i的词,X′i表示x′i对应的词向量和音向量的联合表示,
其中Wi是词xi的词向量表示,Ni是词xi内含有的音素数目,Pk是词xi中的第k个音素pk的音向量。
本实施例中,所述基于音向量和词向量的语言模型联合训练,通过随机梯度下降法进行优化训练。
本实施例中,所述训练基于组合决策树的文本特征重表示模型M2,具体方法为:
将音素时长训练数据集U2′作为基于组合决策树的文本特征重表示模型M2的输入,对模型M2进行训练;
本实施例中,利用基于组合决策树的文本特征重表示模型M2对文本特征进行重表示后,特征向量取值是0或1,向量的每个文本特征对应于组合决策树模型中树的叶子节点;当一个样本落到组合决策树中任一叶子节点上,则在重表示的文本特征向量中这个叶子节点对应的元素值为1,该叶子结点所在树的其他叶子节点对应的元素值为0;基于组合决策树的文本特征重表示的文本特征向量的长度等于组合决策树中所有树包含的叶子节点数之和。
本实施例中,所述将基于音向量的文本特征重表示和基于组合决策树的文本特征重表示进行组合,是通过对步骤A3得到的基于音向量的文本特征重表示和步骤A4得到的基于组合决策树的文本特征重表示进行简单的合并,得到两种方法组合的文本特征重表示;例如第一种方法得到的特征是[0.1,0.2,0.3],第二种方法得到的特征是[1,0,1],最终组合的特征就是[0.1,0.2,0.3,1,0,1]。
本实施例中,所述训练双向长短时记忆循环神经网络的音素时长预测模型M3,具体为:利用步骤A5得到的基于音向量和组合决策树相结合的文本特征重表示,对双向长短时记忆循环神经网络进行训练,生成音素时长预测模型M3。
本实施例中,基于所述音素时长预测建模方法所建立的模型进行音素时长预测,如图2所示,具体包括:
步骤B1,输入需要预测音素时长的文本;
步骤B2,对步骤B1输入的文本进行词语切分和字音转换,利用步骤A3已训练好的基于音向量的文本特征重表示模型M1,对文本特征进行重表示;
步骤B3,对步骤B1输入的文本,通过隐马尔科夫模型语音合成系统前端的文本分析得到对应的原始文本特征,利用步骤A4已训练好的基于组合决策树的文本特征重表示模型M2,对原始文本特征进行重表示;
步骤B4,将基于音向量的文本特征重表示和基于组合决策树的文本特征重表示进行组合,生成基于音向量和组合决策树相结合的文本特征重表示;
步骤B5,将步骤B4所得组合后的文本特征输入到步骤A6中已训练好的所述双向长短时记忆循环神经网络的音素时长预测模型M3,得到对应文本的音素时长序列。
本发明通过对三个方面进行了改善,即数据层面(剔除离群点)、特征层面(利用音向量和组合决策树对原始的文本特征进行重表示)和模型层面(采用双向长短时记忆循环神经网络对音素时长进行序列建模和预测),大大地提高了音素时长模型预测的精度,进而提高合成语音的自然度和表现力。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种音素时长预测建模方法,其特征在于,包括以下步骤:
步骤A1,获取音素时长数据集;
步骤A2,对音素时长数据集中的音素时长数据进行筛选,得到音素时长训练数据集;
步骤A3,依据音素时长训练数据集训练基于音向量的文本特征重表示模型M1;利用训练好的模型M1生成基于音向量的文本特征重表示;
步骤A4,依据音素时长训练数据集训练基于组合决策树的文本特征重表示模型M2;利用训练好的模型M2生成基于组合决策树的文本特征重表示;
步骤A5,将基于音向量的文本特征重表示和基于组合决策树的文本特征重表示进行组合,生成基于音向量和组合决策树相结合的文本特征重表示;
步骤A6,基于音向量和组合决策树相结合的文本特征重表示,训练双向长短时记忆循环神经网络的音素时长预测模型M3。
2.根据权利要求1所述的方法,其特征在于,所述获取音素时长数据集,具体方法为:
从语料库中获取音频及其对应的文本数据,记为数据集U1;基于隐马尔科夫模型的语音合成系统,对U1中音频及其对应的文本进行强制切分得到音素时长序列,通过该语音合成系统前端的文本分析得到对应的原始文本特征;利用得到的音素时长序列以及原始文本特征组成数据集U2;数据集U1和数据集U2共同构成音素时长数据集。
3.根据权利要求2所述的方法,其特征在于,所述对音素时长数据集中的音素时长数据进行筛选,具体方法为:
对数据集U2中每个音素的时长分布进行单高斯分布模拟,根据统计方法中的拉依达准则将偏离数据均值大于3σ的样本视为异常样本点,其中σ表示单高斯分布的方差;将包含异常样本点的整句话都从数据集U2中剔除,得到音素时长训练数据集U2′;相应地从数据集U1中将包含异常样本点的整句话剔除,得到音素时长训练数据集U1′;音素时长训练数据集U1′和音素时长训练数据集U2′共同构成筛选后的音素时长训练数据集。
4.根据权利要求3所述的方法,其特征在于,所述训练基于音向量的文本特征重表示模型M1,具体方法为:
对音素时长训练数据集U1′中的文本数据进行词语切分和字音转换,作为模型M1的输入,进行基于音向量和词向量的语言模型联合训练,输出文本所对应音素的音向量表示,该音向量也同时考虑了音向量所属的词向量的影响。
5.根据权利要求4所述的方法,其特征在于,所述基于音向量和词向量的语言模型联合训练,是基于连续词袋模型进行的。
6.根据权利要求5所述的方法,其特征在于,所述基于音向量和词向量的语言模型联合训练,通过随机梯度下降法进行优化训练。
7.根据权利要求3所述的方法,其特征在于,所述训练基于组合决策树的文本特征重表示模型M2,具体方法为:
将音素时长训练数据集U2′作为基于组合决策树的文本特征重表示模型M2的输入,对模型M2进行训练。
8.根据权利要求1所述的方法,其特征在于,利用基于组合决策树的文本特征重表示模型M2对文本特征进行重表示后,特征向量取值是0或1,向量的每个文本特征对应于组合决策树模型中树的叶子节点;当一个样本落到组合决策树中任一叶子节点上,则在重表示的文本特征向量中这个叶子节点对应的元素值为1,该叶子结点所在树的其他叶子节点对应的元素值为0;基于组合决策树的文本特征重表示的文本特征向量的长度等于组合决策树中所有树包含的叶子节点数之和。
9.根据权利要求1所述的方法,其特征在于,所述训练双向长短时记忆循环神经网络的音素时长预测模型M3,具体为:利用步骤A5得到的基于音向量和组合决策树相结合的文本特征重表示,对双向长短时记忆循环神经网络进行训练,生成音素时长预测模型M3。
10.一种音素时长预测方法,其特征在于,基于权利要求1~9中任一项所述音素时长预测建模方法所建立的模型进行音素时长预测,具体包括:
步骤B1,输入需要预测音素时长的文本;
步骤B2,对步骤B1输入的文本进行词语切分和字音转换,利用步骤A3已训练好的基于音向量的文本特征重表示模型M1,对文本特征进行重表示;
步骤B3,对步骤B1输入的文本,通过隐马尔科夫模型语音合成系统前端的文本分析得到对应的原始文本特征,利用步骤A4已训练好的基于组合决策树的文本特征重表示模型M2,对原始文本特征进行重表示;
步骤B4,将基于音向量的文本特征重表示和基于组合决策树的文本特征重表示进行组合,生成基于音向量和组合决策树相结合的文本特征重表示;
步骤B5,将步骤B4所得组合后的文本特征输入到步骤A6中已训练好的所述双向长短时记忆循环神经网络的音素时长预测模型M3,得到对应文本的音素时长序列。
CN201611027187.XA 2016-11-18 2016-11-18 音素时长预测建模方法及音素时长预测方法 Active CN106601226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611027187.XA CN106601226B (zh) 2016-11-18 2016-11-18 音素时长预测建模方法及音素时长预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611027187.XA CN106601226B (zh) 2016-11-18 2016-11-18 音素时长预测建模方法及音素时长预测方法

Publications (2)

Publication Number Publication Date
CN106601226A true CN106601226A (zh) 2017-04-26
CN106601226B CN106601226B (zh) 2020-02-28

Family

ID=58592412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611027187.XA Active CN106601226B (zh) 2016-11-18 2016-11-18 音素时长预测建模方法及音素时长预测方法

Country Status (1)

Country Link
CN (1) CN106601226B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153642A (zh) * 2017-05-16 2017-09-12 华北电力大学 一种基于神经网络识别文本评论情感倾向的分析方法
CN107481715A (zh) * 2017-09-29 2017-12-15 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108170686A (zh) * 2017-12-29 2018-06-15 科大讯飞股份有限公司 文本翻译方法及装置
CN108597492A (zh) * 2018-05-02 2018-09-28 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN109493936A (zh) * 2018-10-16 2019-03-19 华东理工大学 一种使用改进的连续词袋模型检测异常用药方法
CN109523989A (zh) * 2019-01-29 2019-03-26 网易有道信息技术(北京)有限公司 语音合成方法、语音合成装置、存储介质及电子设备
CN110047462A (zh) * 2019-01-31 2019-07-23 北京捷通华声科技股份有限公司 一种语音合成方法、装置和电子设备
CN110097894A (zh) * 2019-05-21 2019-08-06 焦点科技股份有限公司 一种端到端的语音情感识别的方法和系统
CN112542153A (zh) * 2020-12-02 2021-03-23 北京沃东天骏信息技术有限公司 时长预测模型训练方法和装置、语音合成方法和装置
WO2021238338A1 (zh) * 2020-05-26 2021-12-02 华为技术有限公司 语音合成方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004723A1 (en) * 2001-06-26 2003-01-02 Keiichi Chihara Method of controlling high-speed reading in a text-to-speech conversion system
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
CN1953052A (zh) * 2005-10-20 2007-04-25 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
CN1956057A (zh) * 2005-10-28 2007-05-02 富士通株式会社 一种基于决策树的语音时长预测装置及方法
CN102231276A (zh) * 2011-06-21 2011-11-02 北京捷通华声语音技术有限公司 一种语音合成单元时长的预测方法及装置
CN103854643A (zh) * 2012-11-29 2014-06-11 株式会社东芝 用于合成语音的方法和装置
CN104112444A (zh) * 2014-07-28 2014-10-22 中国科学院自动化研究所 一种基于文本信息的波形拼接语音合成方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004723A1 (en) * 2001-06-26 2003-01-02 Keiichi Chihara Method of controlling high-speed reading in a text-to-speech conversion system
US7136816B1 (en) * 2002-04-05 2006-11-14 At&T Corp. System and method for predicting prosodic parameters
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
CN1953052A (zh) * 2005-10-20 2007-04-25 株式会社东芝 训练时长预测模型、时长预测和语音合成的方法及装置
CN1956057A (zh) * 2005-10-28 2007-05-02 富士通株式会社 一种基于决策树的语音时长预测装置及方法
CN102231276A (zh) * 2011-06-21 2011-11-02 北京捷通华声语音技术有限公司 一种语音合成单元时长的预测方法及装置
CN103854643A (zh) * 2012-11-29 2014-06-11 株式会社东芝 用于合成语音的方法和装置
CN104112444A (zh) * 2014-07-28 2014-10-22 中国科学院自动化研究所 一种基于文本信息的波形拼接语音合成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIAN YU ETC: "The pause duration prediction for Mandarin text-to-speech", 《2005 INTERNATIONAL CONFERENCE ON NATURAL LANGUAGE PROCESSING》 *
SHAGNFENG LIU ETC: "Context features based pre-selection and weight prediction", 《THE 9TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153642A (zh) * 2017-05-16 2017-09-12 华北电力大学 一种基于神经网络识别文本评论情感倾向的分析方法
CN107481715A (zh) * 2017-09-29 2017-12-15 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN107481715B (zh) * 2017-09-29 2020-12-08 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN108170686B (zh) * 2017-12-29 2020-02-14 科大讯飞股份有限公司 文本翻译方法及装置
CN108170686A (zh) * 2017-12-29 2018-06-15 科大讯飞股份有限公司 文本翻译方法及装置
CN108597492A (zh) * 2018-05-02 2018-09-28 百度在线网络技术(北京)有限公司 语音合成方法和装置
CN109493936A (zh) * 2018-10-16 2019-03-19 华东理工大学 一种使用改进的连续词袋模型检测异常用药方法
CN109493936B (zh) * 2018-10-16 2022-02-15 华东理工大学 一种使用改进的连续词袋模型检测异常用药方法
CN109523989A (zh) * 2019-01-29 2019-03-26 网易有道信息技术(北京)有限公司 语音合成方法、语音合成装置、存储介质及电子设备
CN109523989B (zh) * 2019-01-29 2022-01-11 网易有道信息技术(北京)有限公司 语音合成方法、语音合成装置、存储介质及电子设备
CN110047462A (zh) * 2019-01-31 2019-07-23 北京捷通华声科技股份有限公司 一种语音合成方法、装置和电子设备
CN110047462B (zh) * 2019-01-31 2021-08-13 北京捷通华声科技股份有限公司 一种语音合成方法、装置和电子设备
CN110097894A (zh) * 2019-05-21 2019-08-06 焦点科技股份有限公司 一种端到端的语音情感识别的方法和系统
CN110097894B (zh) * 2019-05-21 2021-06-11 焦点科技股份有限公司 一种端到端的语音情感识别的方法和系统
WO2021238338A1 (zh) * 2020-05-26 2021-12-02 华为技术有限公司 语音合成方法及装置
CN113793589A (zh) * 2020-05-26 2021-12-14 华为技术有限公司 语音合成方法及装置
CN112542153A (zh) * 2020-12-02 2021-03-23 北京沃东天骏信息技术有限公司 时长预测模型训练方法和装置、语音合成方法和装置

Also Published As

Publication number Publication date
CN106601226B (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN106601226A (zh) 音素时长预测建模方法及音素时长预测方法
CN109065032B (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
CN100536532C (zh) 自动加配字幕的方法和系统
US11862145B2 (en) Deep hierarchical fusion for machine intelligence applications
CN103531196B (zh) 一种波形拼接语音合成的选音方法
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN102938252B (zh) 结合韵律和发音学特征的汉语声调识别系统及方法
CN102810311B (zh) 说话人估计方法和说话人估计设备
Jacob Modelling speech emotion recognition using logistic regression and decision trees
Black et al. Articulatory features for expressive speech synthesis
CN107958673A (zh) 一种口语评分方法及装置
CN108364634A (zh) 基于深度神经网络后验概率算法的口语发音评测方法
CN109671423A (zh) 训练数据有限情形下的非平行文本语音转换方法
CN110119443A (zh) 一种面向推荐服务的情感分析方法
Shahin et al. Talking condition recognition in stressful and emotional talking environments based on CSPHMM2s
CN109036376A (zh) 一种闽南语语音合成方法
CN110348482B (zh) 一种基于深度模型集成架构的语音情感识别系统
Telmem et al. Amazigh speech recognition system based on CMUSphinx
Ling An acoustic model for English speech recognition based on deep learning
Rani et al. Speech recognition using neural network
Jauk et al. Expressive speech synthesis using sentiment embeddings
Gonzalez-Rodriguez Speaker recognition using temporal contours in linguistic units: The case of formant and formant-bandwidth trajectories
Wiśniewski et al. Automatic detection and classification of phoneme repetitions using HTK toolkit
Mosa et al. Arabic phoneme recognition using hierarchical neural fuzzy petri net and LPC feature extraction
Hoste et al. Using rule-induction techniques to model pronunciation variation in Dutch

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant