CN116469368A - 一种融合语义信息的语音合成方法、系统 - Google Patents

一种融合语义信息的语音合成方法、系统 Download PDF

Info

Publication number
CN116469368A
CN116469368A CN202310386199.5A CN202310386199A CN116469368A CN 116469368 A CN116469368 A CN 116469368A CN 202310386199 A CN202310386199 A CN 202310386199A CN 116469368 A CN116469368 A CN 116469368A
Authority
CN
China
Prior art keywords
model
phoneme
encoder
word
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310386199.5A
Other languages
English (en)
Inventor
柯登峰
刘嗣平
张顺
杜宝乐
徐艳艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jiusi Intelligent Technology Co ltd
Original Assignee
Guangzhou Jiusi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jiusi Intelligent Technology Co ltd filed Critical Guangzhou Jiusi Intelligent Technology Co ltd
Priority to CN202310386199.5A priority Critical patent/CN116469368A/zh
Publication of CN116469368A publication Critical patent/CN116469368A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L2013/021Overlap-add techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于融合语义信息的语音合成的方法,包括如下步骤:数据准备,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;模型构建,构建融合语义信息的语音合成模型;模型训练,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;模型测试,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则保留该模型。采用本发明的技术方案能减少显式韵律建模中韵律表征提取出现的误差,提升韵律自然度。

Description

一种融合语义信息的语音合成方法、系统
技术领域
本申请涉及语音合成领域,尤其涉及一种融合语义信息的语音合成方法、系统。
背景技术
语音合成技术也称为文本到语音(text-to-speech,TTS),目的是通过向设备输入文字,令其转化为人类可以听懂的流畅语音,这一技术是实现人机交互的重要部分,在语音助手、语音导航、智能机器人等方面已有广泛的应用。近几年,深度神经网络的发展使得端到端的语音合成方法成为了研究主流,许多优秀模型的合成语音已经非常接近人声。但是大多数的合成语音仍然存在声音机械、停顿不明确、表现力不足的问题。
为了合成出更贴近人生的语音,目前的主流方法中,韵律建模是一种比较有效的方法,韵律建模的目的是使模型学会预测韵律表征的能力,韵律建模有两种不同的方法,对于预测或提取的韵律表征,如果存在实际的物理意义且可以直接通过对数据的处理得到,例如,时长、能量、基频,称之为显式韵律建模;如果没有明显的物理意义,需要通过额外特征提取器得到,称之为隐式韵律建模。另一种是显式韵律建模,通过引入时长、能量、基频使合成语音的表现力得到了一定提升,但仍然存在显式的韵律表征提取容易出现误差,无法将不同的韵律表征进行联系的问题,韵律自然度仍有可以提升的空间。
发明内容
本申请实施例提供一种基于融合语义信息的语音合成的方法及装置的相关技术方案,用以解决现有技术中显式的韵律表征提取容易出现误差,无法将不同的韵律表征进行联系的问题,韵律自然度低的技术问题。
本申请实施例提供一种基于融合语义信息的语音合成的方法,包括如下步骤:
数据准备,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;
模型构建,构建融合语义信息的语音合成模型;
模型训练,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;
模型测试,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则使用该模型进行语音合成。
进一步的,所述合成模型包括音素编码器、词编码器、词-音素注意力、编码器、变量适配器以及梅尔谱解码器;所述音素编码器连接到词编码器,所述音素编码器和词编码器分别连接词-音素注意力,词-音素注意力连接编码器,编码器连接变量适配器,变量适配器连接梅尔谱解码器。
进一步的,收集整理中文数据集AISHELL-3以及英文数据集LibriTTS,对中文数据集AISHELL-3以及英文数据集LibriTTS分别进行预处理,将AISHELL-3音频对应的中文文本进行拼音化处理,得到文本为拼音的文本序列。
进一步的,所述模型训练中使用Adam优化器。
进一步的,所述打分包括得到10个不同说话人的合成音频得分,并将10个人的得分再次进行平均得到最终模型得分。
本申请实施例还提供一种基于融合语义信息的语音合成的装置,包括:
数据收集模块,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;
模型构建模块,构建融合语义信息的语音合成模型;
模型训练模块,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;
模型测试模块,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则使用该模型进行语音合成。
进一步的,其中,所述合成模型包括音素编码器、词编码器、词-音素注意力、编码器、变量适配器以及梅尔谱解码器;所述音素编码器连接到词编码器,所述音素编码器和词编码器分别连接词-音素注意力,词-音素注意力连接编码器,编码器连接变量适配器,变量适配器连接梅尔谱解码器。
进一步的,所述打分包括得到10个不同说话人的合成音频得分,并将10个人的得分再次进行平均得到最终模型得分。
本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述的方法的步骤。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的方法的步骤。
本发明提供的实施例至少具有以下有益效果:
本发明提供一种基于融合语义信息的语音合成的方法,包括如下步骤:数据准备,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;模型构建,构建融合语义信息的语音合成模型;模型训练,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;模型测试,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则使用该模型进行语音合成。采用本申请的技术方案能减少显式韵律建模中韵律表征提取出现的误差,提升韵律自然度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种基于融合语义信息的语音合成的方法的示意图;
图2为本申请实施例提供的融合语义信息的语音合成模型的模块示意图;
图3为本申请实施例提供的融合语义信息的词-音素注意力的模块示意图;
图4为本申请实施例提供的编码器中改进后的FFT结构的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1-4所示,本申请实施例提供一种基于融合语义信息的语音合成的方法,包括如下步骤:
数据准备,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;
收集整理中文数据集AISHELL-3以及英文数据集LibriTTS,对两个数据集分别进行预处理,将AISHELL-3音频对应的中文文本进行拼音化处理,得到文本为拼音的文本序列,并将声调标注为1,2,3,4声以及轻声5。收集挑选两种语音合适的音素词典,将拼音文本序列以及英语文本序列根据音素词典转化为音素序列。
对获得的音频进行处理,首先根据表1中的参数,对语音数据进行重采样,将其采样率转换为22050HZ,对重采样后的语音数据进行0.97的预加重处理,随后对音频进行帧移为256,窗长以及帧长为1024的短时傅里叶变换,采用梅尔滤波器组数量为80的梅尔滤波器,从最小频率0提升到最大频率8000,与使用的HiFi-GAN声码器保持一致。
表1音频参数
模型构建,构建融合语义信息的语音合成模型;
如图2所示,融合语义信息的语音合成模型包括音素编码器(Phoneme Encoder),词编码器(word Encoder),词-音素注意力(WPAttention),编码器(Encoder),变量适配器(Variance Adaptor),梅尔谱解码器(Mel-spectrogram Decoder)
音素编码器,由Embedding部分以及标准FFT块组成,以音素作为输入,使用one-hot编码将其编码为音素序列,通过Embedding操作将输入转化为256维隐藏特征,将隐藏特征经过FFT块处理得到隐变量Xp
词编码器的结构与音素编码器类似,由标准FFT块构成,词编码器的目的在于,通过额外的词边界信息处理音素序列,从而获得句子中的语义信息。大多数的模型,仅以音素等显式特征作为输入,这种形式模型无法提取文本中的句法结构信息,因此提取句子的句法信息对于合成表现力高的音频有重要意义。词编码器以音素编码器的输出Xp以及词边界信息作为输入,首先将两个输入拼接,进行词级的池化操作,池化后的特征经过标准FFT处理后得到隐变量Xw
词-音素注意力,结构如图3所示。由时长预测器(Duration Predictor),长度调节器(Length Regulator),多头注意力(Multi-head Attention)三部分组成。词-音素注意力的输入由词边界信息(word Boundary)、音素编码器的输出Xp与词编码器的输出Xw作为输入。时长预测器以word Boundary,Xp为输入,由两个一维卷积,ReLU激活函数,层归一化以及一个线性层组成,时长预测器将每个时间步中的隐藏状态投影到标量,得到预测的音素时间。长度调节器以Xw作为输入,结构设置与FastSpeech一致,用于控制语速和部分韵律。多头注意力具有两个头部,以长度调节器的输出Q,以及从Xp复制得到的K,V作为输入,得到隐变量X。词-音素注意力部分的公式如下所示:
XD=DP(XP+word)
XL=LR(Xw+XD)
X=attention(Q,K,V)
式中Xp为音素编码器的输出;Xw为词编码器的输出,word为词边界信息;DP为时长预测器的相关运算,XD为时长预测器的输出;LR为长度调节器的相关运算;XL为长度调节器的输出;Q为XL的复制;K,V为XP的复制。
编码器,由4个改进的FFT块组成,改进后的FFT结构如图4所示,音素编码器的输出Xp与词编码器的输出Xw经过WP Attention融合后得到含有文本特征的隐变量X,编码器将隐变量X作为输入,将其复制三份分别命名为Q,K,V,送入隐藏维度为256的Multi-HeadAttention中,得到隐变量Xa,将Xa线性转换后与X相加,经过层归一化后得到第一隐藏特征X第一隐藏特征,将X第一隐藏特征送入新增的双向GRU(Bi-GRU)中,得到隐藏特征XGRU,通过这种方式,可以弥补self-attention对局部特征关注的不足,从而提高局部依赖关系建模能力。随后XGRU经过前馈神经网络(FFN)处理后,与XGRU相加,经过层归一化得到最终的输出变量XE。其中FFN先后包括卷积核大小为9,隐变量维度为1024的一维卷积;relu激活函数;卷积核大小为1,隐变量维度维为256的一维卷积;编码器部分的公式如下所示:
X=WP(Xp+XW+word)
Xa=attention(Q,K,V)
X第一隐藏特征=LN(X+Linear(Xa))
XGRU=BiGRU(X第一隐藏特征)
XE=LN(XGRU+FFN(XGRU))
式中,word代表词边界信息(word Boundary),Xp代表音素特征;Xw代表文本特征;WP代表词-音素注意力的相关运算;X代表融合后的特征;attention代表Multi-HeadAttention的相关操作,Xa代表经过注意力运算的隐藏特征;Linear代表线性处理;LN代表层归一化;X第一隐藏特征代表第一隐藏特征;BiGRU代表双向GRU的相关操作;XGRU代表经过双向GRU处理后的隐藏特征;FFN代表前馈神经网络的相关操作;XE代表最终FFT块的输出,也就是Encoder的输出。
变量适配器与梅尔谱解码器。遵循基线模型的设置,变量适配器由持续时长预测器、音高预测器、能量预测器构成。三种预测器的结构相同,均由一维卷积、ReLU激活函数、LN、Dropout、一维卷积、ReLU激活函数、LN、Dropout、线性层9部分线性组成。梅尔谱解码器由6个标准的FFT块组成。
模型训练,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;模型的输入为真实音频,对应的音素序列、时长、能量、基频数据,训练中使用Adam优化器,beta值为0.9和0.98。均方误差(MSE)对预测的梅尔频谱和真实的梅尔频谱计算损失,同时对时长、能量、基频信息做MAE损失,权重系数为1.训练数据为218个说话人,85小时的中文数据集AISHELL-3,以及2456个说话人,585小时英文数据集LibriTTS(随机挑选400人,约100小时),将数据集划分为训练集、验证集、测试集,分别用两个数据集的训练集训练模型,训练时的批大小为64,每一批次中的音频数据随机选取,声码器采用普遍使用的训练好的HiFi-GAN模型,两个数据集上的模型经过10万步的迭代训练后均收敛,得到训练好的模型。模型预测生成音频时,使用的时长、能量、基频为根据文本及音素序列得到的预测数据。
模型测试,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则使用该模型进行语音合成。首先随机选取模型测试集中使用某个人的5-10条音频,1条音频标记为标准音频,使用随机句子合成15-20条同一说话人的音频,将除标准音频的所有音频进行混合。邀请10名母语使用者,告知使用国际标准的5分打分制,从0到5依次是:非常差,情感与目标情感完全不贴切,情感表现力极差;很差,情感与目标情感基本贴切,情感表现力极差;中等,情感与目标情感较贴切,情感表现力较好;良好,情感与目标情感较贴切,情感表现力充分;优秀,情感与目标情感贴切,情感表现力突出;每0.5分为1个间隔。首先听标准音频,随后依据标准音频对混合后的音频进行打分,将生成音频的得分进行平均。重复流程,得到10个不同说话人的合成音频得分。并将10个人的得分再次进行平均得到最终模型得分。
本申请实施例还提供一种基于融合语义信息的语音合成的装置,包括:
数据收集模块,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;
模型构建模块,构建融合语义信息的语音合成模型;
模型训练模块,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;
模型测试模块,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则保留该模型。
进一步的,其中,所述合成模型包括音素编码器、词编码器、词-音素注意力、编码器、变量适配器以及梅尔谱解码器;所述音素编码器连接到词编码器,所述音素编码器和词编码器分别连接词-音素注意力,词-音素注意力连接编码器,编码器连接变量适配器,变量适配器连接梅尔谱解码器。
进一步的,收集整理中文数据集AISHELL-3,以及英文数据集LibriTTS,对两个数据集分别进行预处理,将AISHELL-3音频对应的中文文本进行拼音化处理,得到文本为拼音的文本序列。
进一步的,所述模型训练中使用Adam优化器。
进一步的,所述打分包括得到10个不同说话人的合成音频得分,并将10个人的得分再次进行平均得到最终模型得分。
本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述的方法的步骤。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行前述的方法的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于融合语义信息的语音合成的方法,其特征在于,包括如下步骤:
数据准备,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;
模型构建,构建融合语义信息的语音合成模型;
模型训练,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;
模型测试,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则使用该模型进行语音合成。
2.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,所述合成模型包括音素编码器、词编码器、词-音素注意力、编码器、变量适配器以及梅尔谱解码器;所述音素编码器连接到词编码器,所述音素编码器和词编码器分别连接词-音素注意力,词-音素注意力连接编码器,编码器连接变量适配器,变量适配器连接梅尔谱解码器。
3.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,收集整理中文数据集AISHELL-3以及英文数据集LibriTTS,对中文数据集AISHELL-3以及英文数据集LibriTTS分别进行预处理,将AISHELL-3音频对应的中文文本进行拼音化处理,得到文本为拼音的文本序列。
4.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,所述模型训练中使用Adam优化器。
5.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,所述打分包括得到10个不同说话人的合成音频得分,并将10个人的得分再次进行平均得到最终模型得分。
6.一种基于融合语义信息的语音合成的装置,其特征在于,包括:
数据收集模块,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;
模型构建模块,构建融合语义信息的语音合成模型;
模型训练模块,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;
模型测试模块,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则使用该模型进行语音合成。
7.根据权利要求6所述的基于融合语义信息的语音合成的装置,其特征在于,所述合成模型包括音素编码器、词编码器、词-音素注意力、编码器、变量适配器以及梅尔谱解码器;所述音素编码器连接到词编码器,所述音素编码器和词编码器分别连接词-音素注意力,词-音素注意力连接编码器,编码器连接变量适配器,变量适配器连接梅尔谱解码器。
8.根据权利要求6所述的基于融合语义信息的语音合成的装置,其特征在于,所述打分包括得到10个不同说话人的合成音频得分,并将10个人的得分再次进行平均得到最终模型得分。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202310386199.5A 2023-04-11 2023-04-11 一种融合语义信息的语音合成方法、系统 Pending CN116469368A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310386199.5A CN116469368A (zh) 2023-04-11 2023-04-11 一种融合语义信息的语音合成方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310386199.5A CN116469368A (zh) 2023-04-11 2023-04-11 一种融合语义信息的语音合成方法、系统

Publications (1)

Publication Number Publication Date
CN116469368A true CN116469368A (zh) 2023-07-21

Family

ID=87180089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310386199.5A Pending CN116469368A (zh) 2023-04-11 2023-04-11 一种融合语义信息的语音合成方法、系统

Country Status (1)

Country Link
CN (1) CN116469368A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825090A (zh) * 2023-08-30 2023-09-29 世优(北京)科技有限公司 语音合成模型的训练方法、装置及语音合成方法、装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116825090A (zh) * 2023-08-30 2023-09-29 世优(北京)科技有限公司 语音合成模型的训练方法、装置及语音合成方法、装置
CN116825090B (zh) * 2023-08-30 2023-12-05 世优(北京)科技有限公司 语音合成模型的训练方法、装置及语音合成方法、装置

Similar Documents

Publication Publication Date Title
CN111754976B (zh) 一种韵律控制语音合成方法、系统及电子装置
Veaux et al. Intonation conversion from neutral to expressive speech
Gaurav et al. Development of application specific continuous speech recognition system in Hindi
Jemine Real-time voice cloning
Tahon et al. Can we generate emotional pronunciations for expressive speech synthesis?
Du et al. Phone-level prosody modelling with gmm-based mdn for diverse and controllable speech synthesis
CN116469368A (zh) 一种融合语义信息的语音合成方法、系统
Wu et al. Rapid Style Adaptation Using Residual Error Embedding for Expressive Speech Synthesis.
Gutkin et al. Building statistical parametric multi-speaker synthesis for bangladeshi bangla
Anumanchipalli et al. A statistical phrase/accent model for intonation modeling
Takaki et al. Multiple feed-forward deep neural networks for statistical parametric speech synthesis
Cahyaningtyas et al. Synthesized speech quality of Indonesian natural text-to-speech by using HTS and CLUSTERGEN
JP7357518B2 (ja) 音声合成装置及びプログラム
Kimutai et al. Isolated Swahili words recognition using Sphinx4
EP4205104A1 (en) System and method for speech processing
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
Bristy et al. Bangla speech to text conversion using CMU sphinx
Reddy et al. Transcription of Telugu TV news using ASR
Aura et al. Analysis of the error pattern of hmm based bangla asr
CN116403562B (zh) 一种基于语义信息自动预测停顿的语音合成方法、系统
Schnoor Malagasy Speech Synthesis
CN111696530B (zh) 一种目标声学模型获取方法及装置
Liu et al. Design and Implementation of Burmese Speech Synthesis System Based on HMM-DNN
CN117496946A (zh) 语音合成方法、装置、设备及计算机可读介质
Radhakrishnan et al. Voice Cloning for Low‐Resource Languages: Investigating the Prospects for Tamil

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination