CN108364632B - 一种具备情感的中文文本人声合成方法 - Google Patents

一种具备情感的中文文本人声合成方法 Download PDF

Info

Publication number
CN108364632B
CN108364632B CN201711407738.XA CN201711407738A CN108364632B CN 108364632 B CN108364632 B CN 108364632B CN 201711407738 A CN201711407738 A CN 201711407738A CN 108364632 B CN108364632 B CN 108364632B
Authority
CN
China
Prior art keywords
emotion
text
speech
audio
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711407738.XA
Other languages
English (en)
Other versions
CN108364632A (zh
Inventor
沈傲东
俞豪敏
孔佑勇
吴剑锋
董涵
舒华忠
王坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201711407738.XA priority Critical patent/CN108364632B/zh
Publication of CN108364632A publication Critical patent/CN108364632A/zh
Application granted granted Critical
Publication of CN108364632B publication Critical patent/CN108364632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种具备情感的中文文本人声合成方法,主要包括,(1)构建情感语料库;(2)基于波形拼接的带情感语音合成。建立语料库的主要步骤为:(11)分词并获取词语的词性;(12)语音切分,基于语音数据特征与文本语料获取对应分词的音频数据;(13)情感分析,基于文本分词与音频特征获取词语、短句和整句的情感特征值。基于波形拼接的带情感语音合成步骤为:(21)分词和情感分析,对待合成文本进行分词和情感分析,获取待合成文本内的词语词性、句型和情感特征;(32)选取最优语料,基于文本特征值匹配出最优语料集;(23)语音合成,波形拼接,从语料集中提取出词语音频序列集,将音频拼接合成输出最终语音。本发明合成输出具有情感特征的真人声语音。

Description

一种具备情感的中文文本人声合成方法
技术领域
本发明涉及语音合成技术,具体涉及一种具备情感的中文文本人声合成方法。
背景技术
随着智能手机的普及,语音合成引擎也发展地非常迅速,目前国内的市场上已经有不少成熟的汉语语音合成应用,但是由于汉语是一种存在语调的声调语言,它的语调是由多重因素造成的,包括句型、词性、表达的情感等等,它不同于纯语调语言的语调,因此在处理汉语语调时就存在着诸多的问题,这也直接导致了目前的汉语语音合成引擎得到的语音结果都较为僵硬、不自然,和汉语母语者说话的结果存在较大的差异。因此在人机交互过程中机器的语音表达显得十分生硬,使得交互过程不能更好地继续。
为了增加互动,获得正向的反馈作用,语音合成技术在情感韵律方面还有待不断的研究和提高。一种具备情感的中文文本人声合成方法可以实现具有情感韵律的语音合成效果。
发明内容
本发明的目的在于解决现有技术中存在的不足,提供一种具备情感的中文文本人声合成方法。
为了实现上述目的,本发明的技术方案如下:一种具备情感的中文文本人声合成方法,所述合成方法包括以下步骤:
(1)构建情感语料库;
(2)基于波形拼接的带情感语音合成。
作为本发明的一种改进,步骤(1)中所述的构建情感语料库具体操作如下:
(11)分词和词性标注,基于已有的隐马尔可夫模型对原始文本进行分词和词性标注,并将分词结果转化为文本形式,在各个词语间加“#”作为分隔符,合并输出为分词文本;
(12)语音采集和自动切分,
(12.1)基于安卓智能设备完成语音采集,具体录音采集参数为:采样率8000Hz,单通道,16位精度;将录音数据保存为WAV格式;
(12.2)根据录音数据内的间歇和频率特征,结合步骤(11)中获取的分词结果,得到各个词语在音频中所对应的起止时刻点;
(12.3)根据音频起讫时刻序列,切割出对应词语的音频,保存为PCM格式音频,构建分词-音频的对应关系;
(13)情感分析,将原始文本进行分句,对各个语句进行情感的分析判别,共分为七种情感:乐,好,怒,哀,惧,恶,惊,基于语句的情感特征值,计算语句中的各个词语的情感特征值;
(14)输入语料库,综合上述步骤获得的分词文本内容、词性、句型、情感特征以及词语音频文件地址,录入语料库中。
作为本发明的一种改进,步骤(2)中所述的基于波形拼接的带情感语音合成,包括如
下步骤:
(21)分词和情感分析,对待合成文本进行分词和情感分析,得到各个词语的词语内容、词性、句型和七种情感特征值;
(22)选取最优语料:
(22.1)从语料库中取出所有该分词tk所对应的音频数据集{pcmk};
(22.2)根据分词文本的词性、句型、情感等特征值分别计算音频数据集{pcmk}中的匹配特征度Wk
Figure BDA0001520675900000021
其中p表示分词文本的词性,t表示所属句型,如果相同输出为1,否则为输出为0,ei表示候选词语的第i种情感特征值,Ei表示目标词语的第i种情感特征值;
(22.3)通过对候选集中的音频数据排序,选取出最优匹配特征度的语料结果;
(23)语音合成,基于波形拼接合成输出最优语料的音频内容。
作为本发明的一种改进,所述步骤(11)分词和词性标注,具体如下,
分词过程分为预处理、粗切分和词性标注,预处理包括文本过滤和原子切分,过滤未定义符号、非汉语常用符号,比如“|”,“&”等,以避免产生无谓的分词。基于完成的预处理文本,根据基础词典找出文本中所有的词语,构造出词语切分有向无环图,针对该图,在所有的路径中,找出长度值最小的集合作为粗切分结果集;
对于获得的粗切分结果集,基于一阶隐马模型可得最终分词结果W#计算公式为
Figure RE-GDA0001692754460000031
其中{ci}表示与{wi}对应的类别序列,通过语法分析建立角色表,在分词结果的基础上利用隐马模型得到概率最大的角色序列,生成最终的词性标注结果。
作为本发明的一种改进,步骤(13)情感分析,具体如下,将原始文本进行分句,根据
构建的情感词典,对各个语句基于贝叶斯模型:
Figure BDA0001520675900000031
进行情感的分析判别,其中X为短句文本分词集合,Ci为情感类别,共分为七种情感:乐,好,怒,哀,惧,恶,惊,选择最大概率P(Ci|X)作为短句的情感所属类别,根据短句情感分析结果,输出语句中的各个词语的情感特征值。
作为本发明的一种改进,所述步骤(23)语音合成基于波形拼接合成输出最优语料的音频内容,具体步骤如下:根据获得的最优音频集合,获取对应PCM存放地址的一个完整序列,根据存放地址取出文件,各自存入一个Byte数组中,在内存中完成拼接形成对应的语音数据。
相对于现有技术,本发明的有益效果如下,该技术方案通过构建情感语料库,基于波形拼接的带情感语音合成,最终得到的人声合成结果在情感韵律方面有较大的提升,通过和目前市场上流行的语音合成引擎比较,可以得到本应用服务的结果所具有的情感韵律,效果表现更佳;尤其在一些问句、感叹句等情感色彩比较强烈的句子和具有情感词语的语句上,本发明的表现更为突出;本发明直接采用人声作为合成语音语料,通过隐马尔可夫模型实现的短句上下文的情感分析,比单纯对分词的情感分析的方法更吻合文本语义语境;本发明可作为情感语音合成的基础框架,实现多语言、跨语种的带情感的语音合成。综上所述,本发明提高了语音合成的情感韵律效果表现,输出的合成语音更为自然。
附图说明
图1:本发明应用实施例文本示例所对应的音频波形图;
图2:本发明应用实施例示例音频的切割波形图;
图3:本发明应用实施例示例语音合成结果波形图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例:参见图1,一种具备情感的中文文本人声合成方法,所述合成方法包括以下步骤:
(1)构建情感语料库;
(2)基于波形拼接的带情感语音合成;
步骤(1)中所述的构建情感语料库具体操作如下:
(11)分词和词性标注,基于已有的隐马尔可夫模型对原始文本进行分词和词性标注,并将分词结果转化为文本形式,在各个词语间加“#”作为分隔符,合并输出为分词文本;所述步骤(11)分词和词性标注,具体如下,
分词过程分为预处理、粗切分和词性标注,预处理包括文本过滤和原子切分,过滤未定义符号、非汉语常用符号(比如“|”,“&”等),以避免产生无谓的分词。基于完成的预处理文本,根据基础词典找出文本中所有的词语,构造出词语切分有向无环图,针对该图,在所有的路径中,找出长度值最小的集合作为粗切分结果集;
对于获得的粗切分结果集,基于一阶隐马模型可得最终分词结果W#计算公式为
Figure RE-GDA0001692754460000041
其中{ci}表示与{wi}对应的类别序列,通过语法分析建立角色表,在分词结果的基础上利用隐马模型得到概率最大的角色序列,生成最终的词性标注结果。
(12)语音采集和自动切分,
(12.1)基于安卓智能设备完成语音采集,具体录音采集参数为:采样率8000Hz,单通道,16位精度;将录音数据保存为WAV格式;
(12.2)根据录音数据内的间歇和频率特征,结合步骤(11)中获取的分词结果,得到各个词语在音频中所对应的起止时刻点;
(12.3)根据音频起讫时刻序列,切割出对应词语的音频,保存为PCM格式音频,构建分词-音频的对应关系;
(13)情感分析,将原始文本进行分句,对各个语句进行情感的分析判别,共分为七种情感:乐,好,怒,哀,惧,恶,惊,基于语句的情感特征值,计算语句中的各个词语的情感特征值;步骤(13)情感分析,具体如下,将原始文本进行分句,根据构建的情感词典,对各个语句基于贝叶斯模型:
Figure BDA0001520675900000042
进行情感的分析判别,其中X为短句文本分词集合,Ci为情感类别,共分为七种情感:乐,好,怒,哀,惧,恶,惊,选择最大概率P(Ci|X)作为短句的情感所属类别,根据短句情感分析结果,输出语句中的各个词语的情感特征值。
(14)输入语料库,综合上述步骤获得的分词文本内容、词性、句型、情感特征以及词语音频文件地址,录入语料库中。
步骤(2)中所述的基于波形拼接的带情感语音合成,包括如下步骤:
(21)分词和情感分析,对待合成文本进行分词和情感分析,得到各个词语的词语内容、词性、句型和七种情感特征值;
(22)选取最优语料:
(22.1)从语料库中取出所有该分词tk所对应的音频数据集{pcmk};
(22.2)根据分词文本的词性、句型、情感等特征值分别计算音频数据集{pcmk}中的匹配特征度Wk
Figure BDA0001520675900000051
其中p表示分词文本的词性,t表示所属句型,如果相同输出为1,否则为输出为0,ei表示候选词语的第i种情感特征值,Ei表示目标词语的第i种情感特征值;
(22.3)通过对候选集中的音频数据排序,选取出最优匹配特征度的语料结果;
(23)语音合成,基于波形拼接合成输出最优语料的音频内容。所述步骤(23)语音合成基于波形拼接合成输出最优语料的音频内容,具体步骤如下:根据获得的最优音频集合,获取对应PCM存放地址的一个完整序列,根据存放地址取出文件,各自存入一个Byte数组中,在内存中完成拼接形成对应的语音数据。
应用实施例1:参见图1-图3,一种具备情感的中文文本人声合成方法,所述合成方法如下:
步骤1:对原始文本进行分词和词性标注,得到分词文本内容。示例如下:对“这问题像烈火一样煎熬着他,他几乎无法忍受了。”进行分词的结果是“这#问题#像#烈火#一样#煎熬#着#他,#他#几乎#无法#忍受#了。#”;
步骤2:导入分词文本内容至安卓端,进行语音录入,区分出词语之间的停顿,得到完整的WAV格式音频数据。对步骤1中的文本示例所对应的音频波形图如图1所示;
步骤3:分析音频的间歇特征,比对分词文本,得到各个分词的起止时刻。通过起讫时刻对音频进行自动切割,保存为PCM格式音频。对步骤2示例音频的切割波形图如图2所示;
步骤4:对原始文本进行情感分析,计算七种情感特征分量;
步骤5:将上述步骤得到的词语内容、词性、句型、七种情感特征、分词词语音频,存入语料库;
步骤6:选取其他文本,重复步骤1至步骤5,扩充语料库;
步骤7:对待合成文本进行分词和情感分析,得到词语的词性、句型、七种情感特征;
步骤8:从语料库中取出待合成词语序列中对应词语内容的所有音频集合,通过对词性、句型、情感特征的匹配特征度计算,选取出最优预料结果,并输出词语音频序列集;
步骤9:通过词语音频序列集,取出各个词语的音频数据,进行波形的拼接整合,得到最终的语音合成输出结果。以文本“人类还有未来吗?没有任何人知道。老人早已厌倦,这个枯燥的世界在时时困扰着他。”为例得到的语音合成结果波形图如图3所示。

Claims (4)

1.一种具备情感的中文文本人声合成方法,其特征在于:所述合成方法包括以下步骤:
(1)构建情感语料库;
(2)基于波形拼接的带情感语音合成;
步骤(1)中所述的构建情感语料库具体操作如下:
(11)分词和词性标注,基于已有的隐马尔可夫模型对原始文本进行分词和词性标注,并将分词结果转化为文本形式;
(12)语音采集和自动切分,
(12.1)基于安卓智能设备完成语音采集,具体录音采集参数为:采样率8000Hz,单通道,16位精度;将录音数据保存为WAV格式;
(12.2)根据录音数据内的间歇和频率特征,结合步骤(11)中获取的分词结果,得到各个词语在音频中所对应的起止时刻点;
(12.3)根据音频起讫时刻序列,切割出对应词语的音频,保存为PCM格式音频,构建分词-音频的对应关系;
(13)情感分析,将原始文本进行分句,对各个语句进行情感的分析判别,共分为七种情感:乐,好,怒,哀,惧,恶,惊,基于语句的情感特征值,计算语句中的各个词语的情感特征值;
(14)输入语料库,综合上述步骤获得的分词文本内容、词性、句型、情感特征以及词语音频文件地址,录入语料库中;
步骤(2)中所述的基于波形拼接的带情感语音合成,包括如下步骤:
(21)分词和情感分析,对待合成文本进行分词和情感分析,得到各个词语的词语内容、词性、句型和七种情感特征值;
(22)选取最优语料:
(22.1)从语料库中取出所有该分词tk所对应的音频数据集{pcmk};
(22.2)根据分词文本的词性、句型、情感特征值分别计算音频数据集{pcmk}中的匹配特征度Wk
Figure FDA0003169739370000011
Figure FDA0003169739370000021
其中p表示分词文本的词性,t表示所属句型,如果相同输出为1,否则为输出为0,ei表示候选词语的第i种情感特征值,Ei表示目标词语的第i种情感特征值;
(22.3)通过对候选集中的音频数据排序,选取出最优匹配特征度的语料结果;
(23)语音合成,基于波形拼接合成输出最优语料的音频内容。
2.根据权利要求1所述的一种具备情感的中文文本人声合成方法,其特征在于,步骤(11)分词和词性标注,具体如下,
分词过程分为预处理、粗切分和词性标注,预处理包括文本过滤和原子切分,过滤未定义符号、非汉语常用符号;基于完成的预处理文本,根据基础词典找出文本中所有的词语,构造出词语切分有向无环图,针对该图,在所有的路径中,找出长度值最小的集合作为粗切分结果集;
对于获得的粗切分结果集,基于一阶隐马模型可得最终分词结果W#计算公式为
Figure FDA0003169739370000022
其中{ci}表示与{wi}对应的类别序列,通过语法分析建立角色表,在分词结果的基础上利用隐马模型得到概率最大的角色序列,生成最终的词性标注结果。
3.根据权利要求2所述的一种具备情感的中文文本人声合成方法,其特征在于,步骤(13)情感分析,具体如下,将原始文本进行分句,根据构建的情感词典,对各个语句基于贝叶斯模型:
Figure FDA0003169739370000023
进行情感的分析判别,其中X为短句文本分词集合,Ci为情感类别,共分为七种情感:乐,好,怒,哀,惧,恶,惊,选择最大概率P(Ci|X)作为短句的情感所属类别,根据短句情感分析结果,输出语句中的各个词语的情感特征值。
4.根据权利要求3所述的一种具备情感的中文文本人声合成方法,其特征在于,步骤(23)语音合成,基于波形拼接合成输出最优语料的音频内容,具体步骤如下:根据获得的最优音频集合,获取对应PCM存放地址的一个完整序列,根据存放地址取出文件,各自存入一个Byte数组中,在内存中完成拼接形成对应的语音数据。
CN201711407738.XA 2017-12-22 2017-12-22 一种具备情感的中文文本人声合成方法 Active CN108364632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711407738.XA CN108364632B (zh) 2017-12-22 2017-12-22 一种具备情感的中文文本人声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711407738.XA CN108364632B (zh) 2017-12-22 2017-12-22 一种具备情感的中文文本人声合成方法

Publications (2)

Publication Number Publication Date
CN108364632A CN108364632A (zh) 2018-08-03
CN108364632B true CN108364632B (zh) 2021-09-10

Family

ID=63010029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711407738.XA Active CN108364632B (zh) 2017-12-22 2017-12-22 一种具备情感的中文文本人声合成方法

Country Status (1)

Country Link
CN (1) CN108364632B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108899009B (zh) * 2018-08-17 2020-07-03 百卓网络科技有限公司 一种基于音素的中文语音合成系统
CN109119063B (zh) * 2018-08-31 2019-11-22 腾讯科技(深圳)有限公司 视频配音生成方法、装置、设备及存储介质
CN109522549B (zh) * 2018-10-30 2022-06-10 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN109545245A (zh) * 2018-12-21 2019-03-29 斑马网络技术有限公司 语音处理方法及装置
CN110164413B (zh) * 2019-05-13 2021-06-04 北京百度网讯科技有限公司 语音合成方法、装置、计算机设备和存储介质
CN111274807B (zh) * 2020-02-03 2022-05-10 华为技术有限公司 文本信息的处理方法及装置、计算机设备和可读存储介质
CN112349272A (zh) * 2020-10-15 2021-02-09 北京捷通华声科技股份有限公司 语音合成方法、装置、存储介质及电子装置
CN112562687B (zh) * 2020-12-11 2023-08-04 天津讯飞极智科技有限公司 音视频处理方法、装置、录音笔和存储介质
CN113257225B (zh) * 2021-05-31 2021-11-02 之江实验室 一种融合词汇及音素发音特征的情感语音合成方法及系统
CN113539232B (zh) * 2021-07-10 2024-05-14 东南大学 一种基于慕课语音数据集的语音合成方法
CN114333763A (zh) * 2022-03-16 2022-04-12 广东电网有限责任公司佛山供电局 一种基于重音的语音合成方法及相关装置
CN114678006B (zh) * 2022-05-30 2022-08-23 广东电网有限责任公司佛山供电局 一种基于节奏的语音合成方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071421A (zh) * 2007-05-14 2007-11-14 腾讯科技(深圳)有限公司 中文分词方法及装置
CN101685633A (zh) * 2008-09-28 2010-03-31 富士通株式会社 基于韵律参照的语音合成装置和方法
CN102103856A (zh) * 2009-12-21 2011-06-22 盛大计算机(上海)有限公司 语音合成方法及系统
CN103366731A (zh) * 2012-03-31 2013-10-23 盛乐信息技术(上海)有限公司 语音合成方法及系统
CN106897439A (zh) * 2017-02-28 2017-06-27 百度在线网络技术(北京)有限公司 文本的情感识别方法、装置、服务器以及存储介质
CN107391493A (zh) * 2017-08-04 2017-11-24 青木数字技术股份有限公司 一种舆情信息提取方法、装置、终端设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU772874B2 (en) * 1998-11-13 2004-05-13 Scansoft, Inc. Speech synthesis using concatenation of speech waveforms
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071421A (zh) * 2007-05-14 2007-11-14 腾讯科技(深圳)有限公司 中文分词方法及装置
CN101685633A (zh) * 2008-09-28 2010-03-31 富士通株式会社 基于韵律参照的语音合成装置和方法
CN102103856A (zh) * 2009-12-21 2011-06-22 盛大计算机(上海)有限公司 语音合成方法及系统
CN103366731A (zh) * 2012-03-31 2013-10-23 盛乐信息技术(上海)有限公司 语音合成方法及系统
CN106897439A (zh) * 2017-02-28 2017-06-27 百度在线网络技术(北京)有限公司 文本的情感识别方法、装置、服务器以及存储介质
CN107391493A (zh) * 2017-08-04 2017-11-24 青木数字技术股份有限公司 一种舆情信息提取方法、装置、终端设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
《Multimodal emotion estimation and emotional synthesize for interaction virtual agent》;Minghao Yang et al.;《2012 IEEE 2nd International Conference on Cloud Computing and Intelligence Systems》;20131114;全文 *
《基于关联规则与波形拼接相结合的情感语音合成研究与实现》;刘建银;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140115(第01期);第36-48页,第5章 *
《语音技术研究进展、现状及趋势》;中国中文信息学会;《中文信息处理发展报告(2016)》;20161231;第106-122页 *
刘建银.《基于关联规则与波形拼接相结合的情感语音合成研究与实现》.《中国优秀硕士学位论文全文数据库 信息科技辑》.2014,(第01期), *

Also Published As

Publication number Publication date
CN108364632A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
CN108364632B (zh) 一种具备情感的中文文本人声合成方法
US10108606B2 (en) Automatic interpretation system and method for generating synthetic sound having characteristics similar to those of original speaker's voice
CN112184858B (zh) 基于文本的虚拟对象动画生成方法及装置、存储介质、终端
US6792407B2 (en) Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems
CN109545183A (zh) 文本处理方法、装置、电子设备及存储介质
CN103632663B (zh) 一种基于hmm的蒙古语语音合成前端处理的方法
CN112185341A (zh) 基于语音合成的配音方法、装置、设备和存储介质
CN116092472A (zh) 一种语音合成方法和合成系统
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
CN114120985A (zh) 智能语音终端的安抚交互方法、系统、设备及存储介质
CN106710587A (zh) 一种语音识别数据预处理方法
KR100669241B1 (ko) 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
CN116582726B (zh) 视频生成方法、装置、电子设备及存储介质
CN109859746B (zh) 一种基于tts的语音识别语料库生成方法及系统
Li et al. HMM-based speech synthesis with a flexible Mandarin stress adaptation model
CN116129868A (zh) 一种结构化画本的生成方法和生成系统
CN116978381A (zh) 音频数据处理方法、装置、计算机设备和存储介质
CN117597728A (zh) 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆
Gretter et al. Seed words based data selection for language model adaptation
CN110310620B (zh) 基于原生发音强化学习的语音融合方法
Sloan et al. Incorporating prosodic events in text-to-speech synthesis
JP2004347732A (ja) 言語自動識別方法及び装置
Pitrelli et al. Expressive speech synthesis using American English ToBI: questions and contrastive emphasis
Wang et al. Analysis of Chinese interrogative intonation and its synthesis in HMM-Based synthesis system
Carofilis et al. MeWEHV: Mel and Wave Embeddings for Human Voice Tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant