CN105654939A - 一种基于音向量文本特征的语音合成方法 - Google Patents

一种基于音向量文本特征的语音合成方法 Download PDF

Info

Publication number
CN105654939A
CN105654939A CN201610000677.4A CN201610000677A CN105654939A CN 105654939 A CN105654939 A CN 105654939A CN 201610000677 A CN201610000677 A CN 201610000677A CN 105654939 A CN105654939 A CN 105654939A
Authority
CN
China
Prior art keywords
module
text
vector
sound
sound vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610000677.4A
Other languages
English (en)
Other versions
CN105654939B (zh
Inventor
徐明星
车浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Extreme Element Hangzhou Intelligent Technology Co ltd
Original Assignee
Beijing Times Ruilang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Times Ruilang Technology Co Ltd filed Critical Beijing Times Ruilang Technology Co Ltd
Priority to CN201610000677.4A priority Critical patent/CN105654939B/zh
Publication of CN105654939A publication Critical patent/CN105654939A/zh
Application granted granted Critical
Publication of CN105654939B publication Critical patent/CN105654939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于音向量文本特征的语音合成方法,文本分析模块接收输入文本,对文本特征进行规则化处理,将得到的文本数据输送至文本参数化模块,采用一位热码编码方法得到参数化的文本;音向量训练模块接收参数化的文本,训练基于音向量的语言模型,然后输送至语言参数训练模块训练从文本到语音参数的映射模型;音向量生成模块通过接收文本参数化模块和音向量训练模块的输出文本,生成文本数据的音向量;文本数据的音向量和文本到语音参数的映射模型输送至语言参数预测模块,得到音向量所对应的语音参数;最终由语音合成器模块合成语音。本发明提高了语音合成系统建模的准确性;大大降低了系统实现的复杂度和人工参与程度。

Description

一种基于音向量文本特征的语音合成方法
技术领域
本发明涉及一种语音合成方法,尤其涉及一种基于音向量文本特征的语音合成方法。
背景技术
语音合成技术能让计算机产生高清晰度、高自然度的连续语音,使人机交流更加和谐自然。在语音合成技术的发展过程中,早期的研究主要是采用基于单元波形拼接的语音合成方法,但该方法在拼接点处会出现语音失真和突变。近年来,基于统计参数的语音合成方法因为合成系统构建较快,语料库尺寸需求小,合成语音平滑流畅而得到了快速的发展,但该方法仍存在以下两点不足之处:
1、文本特征的描述不够精确,需要很大的人力物力去标注文本,而且标注结果很大一部分依赖于标注人员的经验和背景知识,需要专业人员去完成,很大程序上影响了系统的构建速度;
2、合成语音的音质跟真人还有很大的差距,特别是采用语音的参数化描述和统计建模的语音分析合成模型不够理想,对语音的建模不够精确;另外,采用统计参数建模,生成的谱参数轨迹和基频轨迹都过于平滑,合成语音在听感上显得过于平淡。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种基于音向量文本特征的语音合成方法。
为了解决以上技术问题,本发明采用的技术方案是:一种基于音向量文本特征的语音合成方法,包括以下模块:
文本分析模块、文本参数化模块、音向量训练模块、语言参数训练模块、音向量生成模块、语言参数预测模块、语音合成器模块;
具体步骤如下:
文本分析模块接收待分析的输入文本,对文本特征进行规则化处理,去掉文本中多余的符号,标注出每个音节的声韵母和声调,纠正多音字发音错误,得到输入文本对应的发音单元序列;
文本参数化模块接收上述输入文本对应的发音单元序列,采用一位热码编码表示方法得到每个音节的参数化表示的向量;
S = C v 0 0 C v V 1 V f - - - I
公式I为一位热码编码表示方法;其中,S为音节的参数化向量,Cv为一个描述声韵母音向量的共享矩阵,维数为V×N,v为声韵母的个数,N为声韵母音向量的维数,Vi为声母音向量,Vf为韵母音向量;
音向量训练模块接收上述参数化表示的向量,训练基于音向量的语言模型,得到文本的音向量表示;
语言参数训练模块接收上述文本的音向量表示,训练从文本到语音参数的映射模型,建立音向量与语音参数、音向量与韵律特征参数的映射关系;
音向量生成模块接收上述文本参数化模块得到的参数化的文本特征以及音向量训练模块得到的文本的音向量,生成分析完成的文本数据的音向量;
语言参数预测模块接收上述分析完成的文本数据的音向量以及语言参数训练模块得到的映射模型,通过建立音向量与语音参数之间的映射关系,得到音向量所对应的语音参数;
语音合成器模块接收上述音向量所对应的语音参数最终合成语音。
音向量训练模块包括语言模型训练模块和音向量提取模块;文本参数化模块输出的参数化表示的向量首先由语言模型训练模块接收,采用基于递归神经网络的统计参数语言模型,训练基于音节的语言模型得到每个音节的音向量;再由音向量提取模块根据上述训练得到的每个音节的音向量,从中分离出声韵母的音向量;
P(s1,s2,...,sK)=P(s1)×P(s2|s1)×P(s3|s1,s2)×...×P(sK|s1,s2,...,sK-1)II
公式II为基于递归神经网络的统计参数语言模型;其中,P(s1,s2,...,sK)为生成s1,s2,...,sK这些音节的概率,sK为第K个音节,K为音节个数,P(s1)为生成音节s1的概率,P(s2|s1)为在存在音节s1条件下生成音节s2的概率,P(s3|s1,s2)为在存在音节s3条件下生成音节s1,s2的概率,P(sK|s1,s2,...,sK-1)为在存在音节sK条件下生成音节s1,s2,...,sK-1的概率。
音向量生成模块包括矩阵运算模块和音向量生成提取模块;文本参数化模块得到的参数化的文本特征以及音向量训练模块得到的文本的音向量首先由矩阵运算模块接收,然后按照公式I进行矩阵运算,得到任意输入文本的音向量表示;音向量生成提取模块接收上述任意输入文本的音向量表示,从中分离出声韵母的音向量,生成分析完成的文本数据的音向量。
语音合成器模块包括语音参数生成模块、语音参数合成器模块和语音单元挑选模块;语言参数预测模块得到的音向量所对应的语音参数首先由语音参数生成模块接收,在语音参数生成模块中调用语音参数生成算法,生成可以合成的语音参数;语音参数合成器模块和语音单元挑选模块分别接收上述生成的可以合成的语音参数,语音参数合成器模块通过调用声码器来合成语音,语音单元挑选模块采用单元挑选的方法来合成语音,最后输出语音。
本发明跟现有语音合成技术相比,具有以下优势:
(1)对文本特征进行参数化建模,使文本特征参数到语音参数的映射模型具有较高的准确性,从而提高了语音合成系统建模的准确性;
(2)音向量训练模块中采用统计参数语言模型的训练方法来训练音向量,最大程度上保留了发音单元的连贯特性,不需要任何手工标注信息,从而大大降低了系统实现的复杂度和人工参与程度;
(3)音向量生成模块采用构建的音向量来描述发音单元,使发音单元的描述更加简单直接,同时也更加准确;
(4)语音参数预测模块采用统计模型生成的音向量来预测语音声学参数和韵律特征参数,更加符合语音声学参数和韵律特征参数的统计特性。
附图说明
图1为本发明的整体步骤流程图。
图2为音向量训练模块的结构流程图。
图3为音向量生成模块的结构流程图。
图4为语音合成器模块的结构流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明包括以下几个模块:
文本分析模块1、文本参数化模块2、音向量训练模块3、语言参数训练模块4、音向量生成模块5、语言参数预测模块6、语音合成器模块7;
本发明的具体实施步骤如下:
文本分析模块1接收待分析的输入文本,对文本特征进行规则化处理,去掉文本中多余的符号,标注出每个音节的声韵母和声调,纠正多音字发音错误,得到输入文本对应的发音单元序列;
文本参数化模块2接收上述输入文本对应的发音单元序列,采用一位热码编码表示方法(One-hotrepresentation)得到每个音节的参数化表示的向量,如公式I所示;
s = C v 0 0 C v V i V f - - - I
其中,S为音节的参数化向量,Cv为一个描述声韵母音向量的共享矩阵,维数为V×N,v为声韵母的个数,N为声韵母音向量的维数,Vi为声母音向量,Vf为韵母音向量;
音向量训练模块3接收上述参数化表示的向量,训练基于音向量的语言模型,得到文本的音向量表示。如图2所示,音向量训练模块3包括语言模型训练模块8和音向量提取模块9。文本参数化模块2输出的参数化表示的向量首先由语言模型训练模块8接收,采用基于递归神经网络的统计参数语言模型,如公式II所示,训练基于音节的语言模型得到每个音节的音向量;再由音向量提取模块9根据上述训练得到的每个音节的音向量,从中分离出声韵母的音向量;
P(s1,s2,...,sK)=P(s1)×P(s2|s1)×P(s3|s1,s2)×...×P(sK|s1,s2,...,sK-1)II
其中,P(s1,s2,...,sK)为生成s1,s2,...,sK这些音节的概率,sK为第K个音节,K为音节个数,P(s1)为生成音节s1的概率,P(s2|s1)为在存在音节s1条件下生成音节s2的概率,P(s3|s1,s2)为在存在音节s3条件下生成音节s1,s2的概率,P(sK|s1,s2,...,sK-1)为在存在音节sK条件下生成音节s1,s2,...,sK-1的概率;
语言参数训练模块4接收上述文本的音向量表示,训练从文本到语音参数的映射模型,建立音向量与语音参数、音向量与韵律特征参数的映射关系;
音向量生成模块5接收上述文本参数化模块2得到的参数化的文本特征以及音向量训练模块3得到的文本的音向量,生成分析完成的文本数据的音向量。如图3所示,音向量生成模块5包括矩阵运算模块10和音向量生成提取模块11。上述参数化的文本特征以及文本的音向量首先由矩阵运算模块10接收,然后按照公式I进行矩阵运算,得到任意输入文本的音向量表示;音向量生成提取模块11接收上述任意输入文本的音向量表示,从中分离出声韵母的音向量,生成分析完成的文本数据的音向量;
语言参数预测模块6接收上述分析完成的文本数据的音向量以及语言参数训练模块4得到的映射模型,通过建立音向量与语音参数之间的映射关系,得到音向量所对应的语音参数;
语音合成器模块7接收上述音向量所对应的语音参数最终合成语音。如图4所示,语音合成器模块7包括语音参数生成模块12、语音参数合成器模块13和语音单元挑选模块14。上述语音参数首先由语音参数生成模块12接收,在语音参数生成模块12中调用语音参数生成算法,生成可以合成的语音参数;语音参数合成器模块13和语音单元挑选模块14分别接收上述生成的可以合成的语音参数,语音参数合成器模块13通过调用声码器来合成语音,语音单元挑选模块14采用单元挑选的方法来合成语音,最后输出语音。
本发明跟现有语音合成技术相比,具有以下优势:
(1)对文本特征进行参数化建模,使文本特征参数到语音参数的映射模型具有较高的准确性,从而提高了语音合成系统建模的准确性;
(2)音向量训练模块中采用统计参数语言模型的训练方法来训练音向量,最大程度上保留了发音单元的连贯特性,不需要任何手工标注信息,从而大大降低了系统实现的复杂度和人工参与程度;
(3)音向量生成模块采用构建的音向量来描述发音单元,使发音单元的描述更加简单直接,同时也更加准确;
(4)语音参数预测模块采用统计模型生成的音向量来预测语音声学参数和韵律特征参数,更加符合语音声学参数和韵律特征参数的统计特性。
上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。

Claims (4)

1.一种基于音向量文本特征的语音合成方法,其特征在于:所述语音合成方法包括以下模块:
文本分析模块(1)、文本参数化模块(2)、音向量训练模块(3)、语言参数训练模块(4)、音向量生成模块(5)、语言参数预测模块(6)、语音合成器模块(7);
所述语音合成方法的步骤如下:
所述文本分析模块(1)接收待分析的输入文本,对文本特征进行规则化处理,去掉文本中多余的符号,标注出每个音节的声韵母和声调,纠正多音字发音错误,得到输入文本对应的发音单元序列;
所述文本参数化模块(2)接收上述输入文本对应的发音单元序列,采用一位热码编码表示方法得到每个音节的参数化表示的向量;
S = C v 0 0 C v V i V f - - - I
公式I为一位热码编码表示方法;其中,s为音节的参数化向量,Cv为一个描述声韵母音向量的共享矩阵,维数为V×N,v为声韵母的个数,N为声韵母音向量的维数,Vi为声母音向量,Vf为韵母音向量;
所述音向量训练模块(3)接收上述参数化表示的向量,训练基于音向量的语言模型,得到文本的音向量表示;
所述语言参数训练模块(4)接收上述文本的音向量表示,训练从文本到语音参数的映射模型,建立音向量与语音参数、音向量与韵律特征参数的映射关系;
所述音向量生成模块(5)接收上述文本参数化模块(2)得到的参数化的文本特征以及音向量训练模块(3)得到的文本的音向量,生成分析完成的文本数据的音向量;
所述语言参数预测模块(6)接收上述分析完成的文本数据的音向量以及语言参数训练模块(4)得到的映射模型,通过建立音向量与语音参数之间的映射关系,得到音向量所对应的语音参数;
所述语音合成器模块(7)接收上述音向量所对应的语音参数最终合成语音。
2.根据权利要求1所述的基于音向量文本特征的语音合成方法,其特征在于:所述音向量训练模块(3)包括语言模型训练模块(8)和音向量提取模块(9);所述文本参数化模块(2)输出的参数化表示的向量首先由语言模型训练模块(8)接收,采用基于递归神经网络的统计参数语言模型,训练基于音节的语言模型得到每个音节的音向量;再由音向量提取模块(9)根据上述训练得到的每个音节的音向量,从中分离出声韵母的音向量;
P(s1,s2,...,sK)=P(s1)×P(s2|s1)×P(s3|s1,s2)×...×P(sK|s1,s2,...,sK-1)II
公式II为基于递归神经网络的统计参数语言模型;其中,P(s1,s2,...,sK)为生成s1,s2,...,sK这些音节的概率,sK为第K个音节,K为音节个数,P(s1)为生成音节s1的概率,P(s2|s1)为在存在音节s1条件下生成音节s2的概率,P(s3|s1,s2)为在存在音节s3条件下生成音节s1,s2的概率,P(sK|s1,s2,...,sK-1)为在存在音节sK条件下生成音节s1,s2,...,sK-1的概率。
3.根据权利要求1所述的基于音向量文本特征的语音合成方法,其特征在于:所述音向量生成模块(5)包括矩阵运算模块(10)和音向量生成提取模块(11);所述文本参数化模块(2)得到的参数化的文本特征以及音向量训练模块(3)得到的文本的音向量首先由矩阵运算模块(10)接收,然后按照公式I进行矩阵运算,得到任意输入文本的音向量表示;所述音向量生成提取模块(11)接收上述任意输入文本的音向量表示,从中分离出声韵母的音向量,生成分析完成的文本数据的音向量。
4.根据权利要求1所述的基于音向量文本特征的语音合成方法,其特征在于:所述语音合成器模块(7)包括语音参数生成模块(12)、语音参数合成器模块(13)和语音单元挑选模块(14);所述语言参数预测模块(6)得到的音向量所对应的语音参数首先由语音参数生成模块(12)接收,在语音参数生成模块(12)中调用语音参数生成算法,生成可以合成的语音参数;所述语音参数合成器模块(13)和语音单元挑选模块(14)分别接收上述生成的可以合成的语音参数,语音参数合成器模块(13)通过调用声码器来合成语音,语音单元挑选模块(14)采用单元挑选的方法来合成语音,最后输出语音。
CN201610000677.4A 2016-01-04 2016-01-04 一种基于音向量文本特征的语音合成方法 Active CN105654939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610000677.4A CN105654939B (zh) 2016-01-04 2016-01-04 一种基于音向量文本特征的语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610000677.4A CN105654939B (zh) 2016-01-04 2016-01-04 一种基于音向量文本特征的语音合成方法

Publications (2)

Publication Number Publication Date
CN105654939A true CN105654939A (zh) 2016-06-08
CN105654939B CN105654939B (zh) 2019-09-13

Family

ID=56490413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610000677.4A Active CN105654939B (zh) 2016-01-04 2016-01-04 一种基于音向量文本特征的语音合成方法

Country Status (1)

Country Link
CN (1) CN105654939B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227721A (zh) * 2016-08-08 2016-12-14 中国科学院自动化研究所 汉语韵律层级结构预测系统
CN106328139A (zh) * 2016-09-14 2017-01-11 努比亚技术有限公司 一种语音交互的方法和系统
CN106776501A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种文本错别字自动更正方法和服务器
CN106971709A (zh) * 2017-04-19 2017-07-21 腾讯科技(上海)有限公司 统计参数模型建立方法和装置、语音合成方法和装置
CN107515850A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 确定多音字发音的方法、装置和系统
CN107729313A (zh) * 2017-09-25 2018-02-23 百度在线网络技术(北京)有限公司 基于深度神经网络的多音字读音的判别方法和装置
CN108665901A (zh) * 2018-05-04 2018-10-16 广州国音科技有限公司 一种音素/音节提取方法及装置
CN109036371A (zh) * 2018-07-19 2018-12-18 北京光年无限科技有限公司 用于语音合成的音频数据生成方法及系统
CN109119067A (zh) * 2018-11-19 2019-01-01 苏州思必驰信息科技有限公司 语音合成方法及装置
CN109754778A (zh) * 2019-01-17 2019-05-14 平安科技(深圳)有限公司 文本的语音合成方法、装置和计算机设备
CN110136692A (zh) * 2019-04-30 2019-08-16 北京小米移动软件有限公司 语音合成方法、装置、设备及存储介质
CN110189744A (zh) * 2019-04-09 2019-08-30 阿里巴巴集团控股有限公司 文本处理的方法、装置和电子设备
CN112750419A (zh) * 2020-12-31 2021-05-04 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
CN101178896A (zh) * 2007-12-06 2008-05-14 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统
CN102496363A (zh) * 2011-11-11 2012-06-13 北京宇音天下科技有限公司 一种用于汉语语音合成的音调修正方法
CN104217713A (zh) * 2014-07-15 2014-12-17 西北师范大学 汉藏双语语音合成方法及装置
JP2015036788A (ja) * 2013-08-14 2015-02-23 直也 内野 外国語の発音学習装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731509A (zh) * 2005-09-02 2006-02-08 清华大学 移动语音合成方法
CN101178896A (zh) * 2007-12-06 2008-05-14 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法
CN102270449A (zh) * 2011-08-10 2011-12-07 歌尔声学股份有限公司 参数语音合成方法和系统
CN102496363A (zh) * 2011-11-11 2012-06-13 北京宇音天下科技有限公司 一种用于汉语语音合成的音调修正方法
JP2015036788A (ja) * 2013-08-14 2015-02-23 直也 内野 外国語の発音学習装置
CN104217713A (zh) * 2014-07-15 2014-12-17 西北师范大学 汉藏双语语音合成方法及装置

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515850A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 确定多音字发音的方法、装置和系统
CN106227721A (zh) * 2016-08-08 2016-12-14 中国科学院自动化研究所 汉语韵律层级结构预测系统
CN106227721B (zh) * 2016-08-08 2019-02-01 中国科学院自动化研究所 汉语韵律层级结构预测系统
CN106328139A (zh) * 2016-09-14 2017-01-11 努比亚技术有限公司 一种语音交互的方法和系统
CN106776501A (zh) * 2016-12-13 2017-05-31 深圳爱拼信息科技有限公司 一种文本错别字自动更正方法和服务器
EP3614376A4 (en) * 2017-04-19 2020-04-29 Tencent Technology (Shenzhen) Company Limited METHOD FOR CREATING A STATISTICAL PARAMETER MODEL, LANGUAGE SYNTHESIS METHOD, SERVER AND STORAGE MEDIUM
CN106971709A (zh) * 2017-04-19 2017-07-21 腾讯科技(上海)有限公司 统计参数模型建立方法和装置、语音合成方法和装置
US11289069B2 (en) 2017-04-19 2022-03-29 Tencent Technology (Shenzhen) Company Limited Statistical parameter model establishing method, speech synthesis method, server and storage medium
CN106971709B (zh) * 2017-04-19 2021-10-15 腾讯科技(上海)有限公司 统计参数模型建立方法和装置、语音合成方法和装置
CN107729313A (zh) * 2017-09-25 2018-02-23 百度在线网络技术(北京)有限公司 基于深度神经网络的多音字读音的判别方法和装置
CN107729313B (zh) * 2017-09-25 2021-09-17 百度在线网络技术(北京)有限公司 基于深度神经网络的多音字读音的判别方法和装置
CN108665901A (zh) * 2018-05-04 2018-10-16 广州国音科技有限公司 一种音素/音节提取方法及装置
CN109036371B (zh) * 2018-07-19 2020-12-18 北京光年无限科技有限公司 用于语音合成的音频数据生成方法及系统
CN109036371A (zh) * 2018-07-19 2018-12-18 北京光年无限科技有限公司 用于语音合成的音频数据生成方法及系统
CN109119067A (zh) * 2018-11-19 2019-01-01 苏州思必驰信息科技有限公司 语音合成方法及装置
WO2020147404A1 (zh) * 2019-01-17 2020-07-23 平安科技(深圳)有限公司 文本的语音合成方法、装置、计算机设备及计算机非易失性可读存储介质
CN109754778A (zh) * 2019-01-17 2019-05-14 平安科技(深圳)有限公司 文本的语音合成方法、装置和计算机设备
US11620980B2 (en) 2019-01-17 2023-04-04 Ping An Technology (Shenzhen) Co., Ltd. Text-based speech synthesis method, computer device, and non-transitory computer-readable storage medium
CN109754778B (zh) * 2019-01-17 2023-05-30 平安科技(深圳)有限公司 文本的语音合成方法、装置和计算机设备
CN110189744A (zh) * 2019-04-09 2019-08-30 阿里巴巴集团控股有限公司 文本处理的方法、装置和电子设备
CN110136692A (zh) * 2019-04-30 2019-08-16 北京小米移动软件有限公司 语音合成方法、装置、设备及存储介质
CN110136692B (zh) * 2019-04-30 2021-12-14 北京小米移动软件有限公司 语音合成方法、装置、设备及存储介质
CN112750419A (zh) * 2020-12-31 2021-05-04 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质
CN112750419B (zh) * 2020-12-31 2024-02-13 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN105654939B (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
CN105654939A (zh) 一种基于音向量文本特征的语音合成方法
JP7464621B2 (ja) 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体
Kang et al. Multi-distribution deep belief network for speech synthesis
CN103065620B (zh) 在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
CN102201234B (zh) 一种基于音调自动标注及预测的语音合成方法
CN111739508A (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
CN106971709A (zh) 统计参数模型建立方法和装置、语音合成方法和装置
CN104538024A (zh) 语音合成方法、装置及设备
CN106057192A (zh) 一种实时语音转换方法和装置
CN111354343B (zh) 语音唤醒模型的生成方法、装置和电子设备
CN116364055A (zh) 基于预训练语言模型的语音生成方法、装置、设备及介质
JP2024505076A (ja) 多様で自然なテキスト読み上げサンプルを生成する
CN110010136A (zh) 韵律预测模型的训练和文本分析方法、装置、介质和设备
Fahmy et al. A transfer learning end-to-end arabic text-to-speech (tts) deep architecture
Indumathi et al. Survey on speech synthesis
KR102639322B1 (ko) 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법
TWI503813B (zh) 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組
CN113257221B (zh) 一种基于前端设计的语音模型训练方法及语音合成方法
CN117789771A (zh) 一种跨语言端到端情感语音合成方法及系统
CN117079637A (zh) 一种基于条件生成对抗网络的蒙古语情感语音合成方法
Mei et al. A particular character speech synthesis system based on deep learning
CN116798403A (zh) 一种可合成多情感音频的语音合成模型方法
CN116913244A (zh) 一种语音合成方法、设备及介质
CN112242134A (zh) 语音合成方法及装置
US20220172703A1 (en) Acoustic model learning apparatus, method and program and speech synthesis apparatus, method and program

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 310000 Room 1105, 11/F, Building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Applicant after: Limit element (Hangzhou) intelligent Polytron Technologies Inc.

Address before: 100089 Floor 1-312-316, No. 1 Building, 35 Shangdi East Road, Haidian District, Beijing

Applicant before: Limit element (Beijing) smart Polytron Technologies Inc.

Address after: 100089 Floor 1-312-316, No. 1 Building, 35 Shangdi East Road, Haidian District, Beijing

Applicant after: Limit element (Beijing) smart Polytron Technologies Inc.

Address before: 100089 Floor 1-312-316, No. 1 Building, 35 Shangdi East Road, Haidian District, Beijing

Applicant before: Limit Yuan (Beijing) Intelligent Technology Co.,Ltd.

Address after: 100089 Floor 1-312-316, No. 1 Building, 35 Shangdi East Road, Haidian District, Beijing

Applicant after: Limit Yuan (Beijing) Intelligent Technology Co.,Ltd.

Address before: 100085 Block 318, Yiquanhui Office Building, 35 Shangdi East Road, Haidian District, Beijing

Applicant before: BEIJING TIMES RUILANG TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 310000 Room 1105, 11/F, Building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Patentee after: Zhongke extreme element (Hangzhou) Intelligent Technology Co.,Ltd.

Address before: 310000 Room 1105, 11/F, Building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Patentee before: Limit element (Hangzhou) intelligent Polytron Technologies Inc.

CP01 Change in the name or title of a patent holder