CN109979429A - 一种tts的方法及系统 - Google Patents
一种tts的方法及系统 Download PDFInfo
- Publication number
- CN109979429A CN109979429A CN201910456474.XA CN201910456474A CN109979429A CN 109979429 A CN109979429 A CN 109979429A CN 201910456474 A CN201910456474 A CN 201910456474A CN 109979429 A CN109979429 A CN 109979429A
- Authority
- CN
- China
- Prior art keywords
- wavenet
- tts
- model
- parallel
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000001228 spectrum Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000002441 reversible effect Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 230000015572 biosynthetic process Effects 0.000 abstract description 6
- 238000003786 synthesis reaction Methods 0.000 abstract description 6
- 239000002131 composite material Substances 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 7
- 238000009825 accumulation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种TTS的方法,解决了合成音频拟人声性较差的问题,其技术方案要点是采用tacotron模型将文本信息预处理后进行编码,产生中间状态,利用前馈注意力机制将编码产生的中间状态结合到一起,前馈注意力机制可以捕捉长序列相依过程,使得输出音频更自然,且前馈注意力机制对长句子拟合比较好,没有尾部弱化现象,比其他的注意力机制要稳定。经解码器产生的梅尔频谱输入到声码器wavenet,经过wavenet网络或者并行wavenet网络的作用最终将梅尔频谱还原为音频输出。使用此模型来实现TTS可以使音频合成更像真人。
Description
技术领域
本公开涉及人工智能领域,尤其涉及一种TTS的方法及系统。
背景技术
语音合成(Text to Speech),简称TTS技术,涉及声学、语言学、数字信号处理技术、多媒体技术等多个学科技术,是中文信息处理领域的一项前沿技术。TTS就是一个将文本转化为语音输出的过程,这个过程的工作主要是将输入的文本按字或词分解为特征向量,并且对文本中的数字、货币单位、单词变形以及标点等要特殊处理的符号进行分析,以及将特征向量生成数字转化为音频特征,最终用声码器将音频特征还原为音频文件的过程。
端到端TTS技术中一般都会用编码器-解码器结构,近年来大多采用编码器-注意力机制-解码器结构使得合成更有韵律感,因此找到一种适合的注意力机制可以大大提高音频的自然度,但是让音频更清晰,就要结合好的声码器来还原音频,使得合成音频更像真人。
发明内容
本公开的目的是改进TTS过程中的注意力机制,并结合声码器新的训练方法,提出的一种新的TTS的方法。为解决上述技术问题,本公开提供了以下技术方案:
一种TTS的方法,包括:
提取文本信息,对所述文本信息预处理后输入到tacotron模型;
所述tacotron模型将预处理后的文本信息映射为梅尔频谱的序列并输出;
所述序列输入到wavenet声码器;
所述声码器对所述序列进行特征建模,并生成对应的音频;
作为具体实施例地,所述tacotron模型为频谱预测网络,包括编码器,解码器和注意力机制,所述注意力机制为前馈注意力机制,所述前馈注意力机制可以捕捉长序列相依过程,使得输出音频更自然,且前馈注意力机制对长句子拟合比较好,没有尾部弱化现象,比其他的注意力机制要稳定。
作为具体实施例地,所述编码器和解码器通过使用双向长短时记忆神经网络和卷积网络连接。
作为具体实施例地,所述wavenet声码器为wavenet模型,所述wavenet模型使用带洞卷积算法。
进一步地,所述wavenet模型为并行化模型,包括wavenet和并行wavenet,所述wavenet和并行wavenet都包含wavenet块,所述并行wavenet包含的wavenet块的数量至少为所述wavenet的两倍。带洞卷积堆积组成wavenet块,再由wavenet块堆积组成wavenet网络。将wavenet网络进行并行化,使得可以实时生成。
进一步地,所述wavenet包括两个wavenet块,所述并行wavenet包六个wavenet块。
进一步地,所述wavenet为教师网络,所述并行wavenet为所述wavenet的学生网络。
进一步地,所述并行wavenet采用IAF即可逆自回归流进行学习,所述IAF与wavenet模型的wavenet块层数相同。
进一步地,所述并行wavenet学习的损失函数为能量谱损失函数,所述能量谱损失函数与教师网络的互信息熵结合训练所述并行wavenet,使并行wavenet与教师网络达到相似的效果,但是并行wavenet可以实时生成音频。
一种TTS的系统,其特征在于,包括tacotron模型和wavenet声码器,所述tacotron模型包括编码器、解码器和注意力机制,所述注意力机制为前馈注意力机制。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述任一项所述的方法。
综上,本公开的有益效果在于:采用tacotron模型将文本信息预处理后进行编码,产生中间状态,利用前馈注意力机制将编码产生的中间状态结合到一起,前馈注意力机制可以捕捉长序列相依过程,使得输出音频更自然,且前馈注意力机制对长句子拟合比较好,没有尾部弱化现象,比其他的注意力机制要稳定。经编码器产生的梅尔频谱输入到声码器wavenet,经过wavenet网络和并行wavenet网络的作用最终将梅尔频谱还原为音频输出。使用此模型来实现TTS可以使音频合成更像真人。
附图说明
图1是tacotron模型结构示意图;
图2是本公开的工作流程图。
具体实施方式
以下将结合附图说明本公开的具体实施例。
如图1所示,首先对文本信息进行预处理,预处理完成后将其输入到tacotron模型,tacotron模型实现文字特征到梅尔频谱的转化,将梅尔频谱序列输入到声码器,通过声码器提取特征并输出音频。
根据实际应用场景,对于输入到tacotron模型的文本信息需要进行预处理,预处理主要包含以下几个方面:第一是文本正则化,在真实使用过程中,送入TTS系统的文本信息中包含大量的非标准词,如阿拉伯数字、英文字符及各种符号等,文本正则化就是将这些非汉字字符转换成对应的汉字。非标准词常常很重要,如日期、价格、电话号码、车牌号码、人名和机构名称等,不同的非标准词在不同的上下文中对应着不同的标准词,本公开对于常见的非标准词进行了正则化。
第二是多音字消歧,本公开通过搜集整理大量文本,建立多音字字典,用于多音字的消除。
第三是韵律预测,针对汉语发音的特点,针对TTS发音平滑、感情不明显的问题,通过建立韵律预测模型,预测语调短语、韵律短语、韵律词和词典词,从而自动判断合成停顿,使得合成效果更加自然。
tacotron模型将预处理后的文本信息映射为梅尔频谱的序列并输出,tacotron模型为频谱预测网络,包括编码器、解码器和前馈注意力机制。
tacotron模型的构成如图1,编码器包括“输入文本”、“词嵌入”、“3层卷积层”和“双向长短时记忆层”这四个模块,解码器包括“2层长短时记忆层”、“线性映射层”、“停止位标志”、“2层前处理层”、“5层后处理卷积层”和“梅尔频谱序列”共6个模块。一般可以将“输入文本”和“词嵌入”这两个模块合并到编码器,或者编码器仅包括“3层卷积层”和“双向长短时记忆层”这两个模块。
具体工作原理如下,输入文本,将文本转为音素,然后对音素进行编码,采用词嵌入技术将音素嵌入到高维空间,利用编码器进行编码为中间状态,然后初始化零向量,通过全连接层进行变换,然后通过长短期记忆网络即双向长短时记忆层,利用前馈注意力机制将编码器产生的中间状态结合在一起,产生固定一帧梅尔频谱,将这帧梅尔频谱送入解码器的开始位置,与此同时产生下一帧梅尔频谱,期间停止网络根据停止标志位判断是否停止循环,然后将产生的梅尔频谱全部拼接为完整梅尔频谱,再经过卷积处理,得到最终的梅尔频谱, 然后输入到wavenet声码器,将梅尔频谱还原为音频输出。
文本信息预处理输入到tacotron模型后,通过解码器和编码器的作用,文本信息的文字特征转换成梅尔频谱序列,将此梅尔频谱序列输入到声码器中,由声码器转换成音频输出,工作流程如图2所示。声码器使用wavenet模型,由于声音文件是时间上的一维数组,16KHz采样率的文件,每秒钟就会有16000个采样点,而常用的因果卷积的感受野非常小,即使堆叠很多层也只能使用到很少的数据来生成下一时刻的元素,所以为了扩大卷积的感受野,wavenet模型使用带洞卷积算法,大大增加感受野,使得可以尽可能的利用前面的样本点。
同时,虽然wavenet的带洞卷积算法可以实现快速、并行的训练,但是合成是自回归的,要等前面的样本生成完成,才能生成当前样本点,总体速度比较慢。因而本公开在使用wavenet模型来训练其替代版本并行化wavenet,此网络利用IAF技术,可以消除对历史样本点的依赖性,可以直接由白噪声来生成。具体过程如下:wavenet网络作为教学网络,并行wavenet网络作为学习网络,首先产生高斯白噪声,并行wavenet将白噪声转化为音频,而教师wavenet负责教学生网络来达到自己的水平。
IAF即可逆自回归流,每个IAF流和wavenet模型的wavenet块层数相同,wavenet包含2个wavenet块,并行wavenet包含6个wavenet块。
实际操作中,可以设定wavenet模型内的扩张系数分别为[1,2,4,8,16,32,64,128,256,512],每个称为wavenet块,每个wavenet块中输入梅尔频谱序列作为条件,wavenet网络包含两个wavenet 块,利用单个高斯损失函数建模,使得训练过程简单,在wavenet模型训练过程中,采用6个IAF流堆起来,每个IAF流和wavenet块一样包含10层,那么每层都可以作为输出,因此,将每层的输出和真实音频通过能量谱损失函数计算能量损失是可行的,此外,可将IAF流第三层和第六层的输出分别与wavenet教师网络的输出计算互信息熵,使得训练稳定,且收敛迅速,效果也基本达到教师wavenet网络。
以上为本公开示范性实施例之一,本公开的保护范围由权利要求书及其等效物限定。
Claims (10)
1.一种TTS的方法,其特征在于,包括:
提取文本信息,对所述文本信息预处理后输入到tacotron模型;
所述tacotron模型将预处理后的文本信息映射为梅尔频谱的序列并输出;
所述序列输入到wavenet声码器;
所述wavenet声码器对所述序列进行特征建模,并生成对应的音频;
所述tacotron模型为频谱预测网络,包括编码器、解码器和注意力机制,所述注意力机制为前馈注意力机制。
2.如权利要求1所述的TTS的方法,其特征在于,所述编码器和解码器通过使用双向长短时记忆神经网络和卷积网络连接。
3.如权利要求1所述的TTS的方法,其特征在于,所述wavenet声码器为wavenet模型,所述wavenet模型使用带洞卷积算法。
4.如权利要求3所述的TTS的方法,其特征在于,所述wavenet模型为并行化模型,包括wavenet和并行wavenet,所述wavenet和并行wavenet都包含wavenet块,且所述并行wavenet包含的wavenet块的数量至少为所述wavenet的两倍。
5.如权利要求4所述的TTS的方法,其特征在于,所述wavenet包含两个wavenet块,所述并行wavenet包含六个wavenet块。
6.如权利要求5所述的TTS的方法,其特征在于,所述wavenet为教师网络,所述并行wavenet为所述wavenet的学生网络。
7.如权利要求6所述的TTS的方法,其特征在于,所述并行wavenet采用IAF即可逆自回归流进行学习,所述IAF与wavenet模型的wavenet块层数相同。
8.如权利要求7所述的TTS的方法,其特征在于,所述并行wavenet学习的损失函数为能量谱损失函数,所述能量谱损失函数与所述教师网络的互信息熵结合训练所述并行wavenet。
9.一种TTS的系统,其特征在于,包括tacotron模型和wavenet声码器,所述tacotron模型包括编码器、解码器和注意力机制,所述注意力机制为前馈注意力机制。
10.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910456474.XA CN109979429A (zh) | 2019-05-29 | 2019-05-29 | 一种tts的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910456474.XA CN109979429A (zh) | 2019-05-29 | 2019-05-29 | 一种tts的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109979429A true CN109979429A (zh) | 2019-07-05 |
Family
ID=67073967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910456474.XA Pending CN109979429A (zh) | 2019-05-29 | 2019-05-29 | 一种tts的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109979429A (zh) |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110299131A (zh) * | 2019-08-01 | 2019-10-01 | 苏州奇梦者网络科技有限公司 | 一种可控制韵律情感的语音合成方法、装置、存储介质 |
CN110556114A (zh) * | 2019-07-26 | 2019-12-10 | 国家计算机网络与信息安全管理中心 | 基于注意力机制的通话人识别方法及装置 |
CN110600013A (zh) * | 2019-09-12 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 非平行语料声音转换数据增强模型训练方法及装置 |
CN110781401A (zh) * | 2019-11-07 | 2020-02-11 | 电子科技大学 | 一种基于协同自回归流实现的Top-n项目推荐方法 |
CN110808027A (zh) * | 2019-11-05 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置以及新闻播报方法、系统 |
CN111161702A (zh) * | 2019-12-23 | 2020-05-15 | 爱驰汽车有限公司 | 个性化语音合成方法、装置、电子设备、存储介质 |
CN111508466A (zh) * | 2019-09-12 | 2020-08-07 | 马上消费金融股份有限公司 | 一种文本处理方法、装置、设备及计算机可读存储介质 |
CN111583903A (zh) * | 2020-04-28 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 语音合成方法、声码器训练方法、装置、介质及电子设备 |
CN111753137A (zh) * | 2020-06-29 | 2020-10-09 | 四川长虹电器股份有限公司 | 一种基于语音特征的视频搜索方法 |
CN111816158A (zh) * | 2019-09-17 | 2020-10-23 | 北京京东尚科信息技术有限公司 | 一种语音合成方法及装置、存储介质 |
CN111951781A (zh) * | 2020-08-20 | 2020-11-17 | 天津大学 | 一种基于图到序列的中文韵律边界预测的方法 |
CN112037758A (zh) * | 2020-06-19 | 2020-12-04 | 四川长虹电器股份有限公司 | 一种语音合成方法及装置 |
CN112116903A (zh) * | 2020-08-17 | 2020-12-22 | 北京大米科技有限公司 | 语音合成模型的生成方法、装置、存储介质及电子设备 |
CN112216267A (zh) * | 2020-09-15 | 2021-01-12 | 北京捷通华声科技股份有限公司 | 一种韵律预测的方法、装置、设备及存储介质 |
CN112562637A (zh) * | 2019-09-25 | 2021-03-26 | 北京中关村科金技术有限公司 | 拼接语音音频的方法、装置以及存储介质 |
CN112668341A (zh) * | 2021-01-08 | 2021-04-16 | 深圳前海微众银行股份有限公司 | 文本正则化方法、装置、设备和可读存储介质 |
CN112735389A (zh) * | 2020-12-29 | 2021-04-30 | 平安科技(深圳)有限公司 | 基于深度学习的语音训练方法、装置、设备以及存储介质 |
CN112863477A (zh) * | 2020-12-31 | 2021-05-28 | 出门问问(苏州)信息科技有限公司 | 一种语音合成方法、装置及存储介质 |
CN112908293A (zh) * | 2021-03-11 | 2021-06-04 | 浙江工业大学 | 一种基于语义注意力机制的多音字发音纠错方法及装置 |
CN113345415A (zh) * | 2021-06-01 | 2021-09-03 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113592985A (zh) * | 2021-08-06 | 2021-11-02 | 宿迁硅基智能科技有限公司 | 混合变形值的输出方法及装置、存储介质、电子装置 |
CN114038447A (zh) * | 2021-12-02 | 2022-02-11 | 深圳市北科瑞声科技股份有限公司 | 语音合成模型的训练方法、语音合成方法、装置及介质 |
CN114187890A (zh) * | 2021-12-31 | 2022-03-15 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机可读存储介质及终端设备 |
CN114187547A (zh) * | 2021-12-03 | 2022-03-15 | 南京硅基智能科技有限公司 | 目标视频的输出方法及装置、存储介质及电子装置 |
CN115376484A (zh) * | 2022-08-18 | 2022-11-22 | 天津大学 | 基于多帧预测的轻量级端到端语音合成系统构建方法 |
CN117219050A (zh) * | 2023-09-08 | 2023-12-12 | 中国人民解放军战略支援部队航天工程大学 | 一种基于深度生成对抗网络的文本生成视频系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945786A (zh) * | 2017-11-27 | 2018-04-20 | 北京百度网讯科技有限公司 | 语音合成方法和装置 |
CN108630190A (zh) * | 2018-05-18 | 2018-10-09 | 百度在线网络技术(北京)有限公司 | 用于生成语音合成模型的方法和装置 |
CN108899009A (zh) * | 2018-08-17 | 2018-11-27 | 百卓网络科技有限公司 | 一种基于音素的中文语音合成系统 |
CN109121057A (zh) * | 2018-08-30 | 2019-01-01 | 北京聆通科技有限公司 | 一种智能助听的方法及其系统 |
CN109686361A (zh) * | 2018-12-19 | 2019-04-26 | 深圳前海达闼云端智能科技有限公司 | 一种语音合成的方法、装置、计算设备及计算机存储介质 |
CN109754778A (zh) * | 2019-01-17 | 2019-05-14 | 平安科技(深圳)有限公司 | 文本的语音合成方法、装置和计算机设备 |
CN109817191A (zh) * | 2019-01-04 | 2019-05-28 | 平安科技(深圳)有限公司 | 颤音建模方法、装置、计算机设备及存储介质 |
CN109817198A (zh) * | 2019-03-06 | 2019-05-28 | 广州多益网络股份有限公司 | 用于语音合成的多发音训练方法、语音合成方法与装置 |
CN109859736A (zh) * | 2019-01-23 | 2019-06-07 | 北京光年无限科技有限公司 | 语音合成方法及系统 |
-
2019
- 2019-05-29 CN CN201910456474.XA patent/CN109979429A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945786A (zh) * | 2017-11-27 | 2018-04-20 | 北京百度网讯科技有限公司 | 语音合成方法和装置 |
CN108630190A (zh) * | 2018-05-18 | 2018-10-09 | 百度在线网络技术(北京)有限公司 | 用于生成语音合成模型的方法和装置 |
CN108899009A (zh) * | 2018-08-17 | 2018-11-27 | 百卓网络科技有限公司 | 一种基于音素的中文语音合成系统 |
CN109121057A (zh) * | 2018-08-30 | 2019-01-01 | 北京聆通科技有限公司 | 一种智能助听的方法及其系统 |
CN109686361A (zh) * | 2018-12-19 | 2019-04-26 | 深圳前海达闼云端智能科技有限公司 | 一种语音合成的方法、装置、计算设备及计算机存储介质 |
CN109817191A (zh) * | 2019-01-04 | 2019-05-28 | 平安科技(深圳)有限公司 | 颤音建模方法、装置、计算机设备及存储介质 |
CN109754778A (zh) * | 2019-01-17 | 2019-05-14 | 平安科技(深圳)有限公司 | 文本的语音合成方法、装置和计算机设备 |
CN109859736A (zh) * | 2019-01-23 | 2019-06-07 | 北京光年无限科技有限公司 | 语音合成方法及系统 |
CN109817198A (zh) * | 2019-03-06 | 2019-05-28 | 广州多益网络股份有限公司 | 用于语音合成的多发音训练方法、语音合成方法与装置 |
Cited By (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110556114A (zh) * | 2019-07-26 | 2019-12-10 | 国家计算机网络与信息安全管理中心 | 基于注意力机制的通话人识别方法及装置 |
CN110299131B (zh) * | 2019-08-01 | 2021-12-10 | 苏州奇梦者网络科技有限公司 | 一种可控制韵律情感的语音合成方法、装置、存储介质 |
CN110299131A (zh) * | 2019-08-01 | 2019-10-01 | 苏州奇梦者网络科技有限公司 | 一种可控制韵律情感的语音合成方法、装置、存储介质 |
CN110600013A (zh) * | 2019-09-12 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 非平行语料声音转换数据增强模型训练方法及装置 |
CN111508466A (zh) * | 2019-09-12 | 2020-08-07 | 马上消费金融股份有限公司 | 一种文本处理方法、装置、设备及计算机可读存储介质 |
CN111816158A (zh) * | 2019-09-17 | 2020-10-23 | 北京京东尚科信息技术有限公司 | 一种语音合成方法及装置、存储介质 |
CN111816158B (zh) * | 2019-09-17 | 2023-08-04 | 北京京东尚科信息技术有限公司 | 一种语音合成方法及装置、存储介质 |
WO2021051765A1 (zh) * | 2019-09-17 | 2021-03-25 | 北京京东尚科信息技术有限公司 | 一种语音合成方法及装置、存储介质 |
CN112562637B (zh) * | 2019-09-25 | 2024-02-06 | 北京中关村科金技术有限公司 | 拼接语音音频的方法、装置以及存储介质 |
CN112562637A (zh) * | 2019-09-25 | 2021-03-26 | 北京中关村科金技术有限公司 | 拼接语音音频的方法、装置以及存储介质 |
CN110808027A (zh) * | 2019-11-05 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置以及新闻播报方法、系统 |
CN110808027B (zh) * | 2019-11-05 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置以及新闻播报方法、系统 |
CN110781401A (zh) * | 2019-11-07 | 2020-02-11 | 电子科技大学 | 一种基于协同自回归流实现的Top-n项目推荐方法 |
CN111161702A (zh) * | 2019-12-23 | 2020-05-15 | 爱驰汽车有限公司 | 个性化语音合成方法、装置、电子设备、存储介质 |
CN111583903A (zh) * | 2020-04-28 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 语音合成方法、声码器训练方法、装置、介质及电子设备 |
CN111583903B (zh) * | 2020-04-28 | 2021-11-05 | 北京字节跳动网络技术有限公司 | 语音合成方法、声码器训练方法、装置、介质及电子设备 |
CN112037758A (zh) * | 2020-06-19 | 2020-12-04 | 四川长虹电器股份有限公司 | 一种语音合成方法及装置 |
CN111753137A (zh) * | 2020-06-29 | 2020-10-09 | 四川长虹电器股份有限公司 | 一种基于语音特征的视频搜索方法 |
CN111753137B (zh) * | 2020-06-29 | 2022-05-03 | 四川长虹电器股份有限公司 | 一种基于语音特征的视频搜索方法 |
CN112116903A (zh) * | 2020-08-17 | 2020-12-22 | 北京大米科技有限公司 | 语音合成模型的生成方法、装置、存储介质及电子设备 |
CN111951781A (zh) * | 2020-08-20 | 2020-11-17 | 天津大学 | 一种基于图到序列的中文韵律边界预测的方法 |
CN112216267A (zh) * | 2020-09-15 | 2021-01-12 | 北京捷通华声科技股份有限公司 | 一种韵律预测的方法、装置、设备及存储介质 |
CN112735389A (zh) * | 2020-12-29 | 2021-04-30 | 平安科技(深圳)有限公司 | 基于深度学习的语音训练方法、装置、设备以及存储介质 |
WO2022141842A1 (zh) * | 2020-12-29 | 2022-07-07 | 平安科技(深圳)有限公司 | 基于深度学习的语音训练方法、装置、设备以及存储介质 |
CN112863477B (zh) * | 2020-12-31 | 2023-06-27 | 出门问问(苏州)信息科技有限公司 | 一种语音合成方法、装置及存储介质 |
CN112863477A (zh) * | 2020-12-31 | 2021-05-28 | 出门问问(苏州)信息科技有限公司 | 一种语音合成方法、装置及存储介质 |
CN112668341B (zh) * | 2021-01-08 | 2024-05-31 | 深圳前海微众银行股份有限公司 | 文本正则化方法、装置、设备和可读存储介质 |
CN112668341A (zh) * | 2021-01-08 | 2021-04-16 | 深圳前海微众银行股份有限公司 | 文本正则化方法、装置、设备和可读存储介质 |
CN112908293A (zh) * | 2021-03-11 | 2021-06-04 | 浙江工业大学 | 一种基于语义注意力机制的多音字发音纠错方法及装置 |
CN112908293B (zh) * | 2021-03-11 | 2022-08-02 | 浙江工业大学 | 一种基于语义注意力机制的多音字发音纠错方法及装置 |
CN113345415A (zh) * | 2021-06-01 | 2021-09-03 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
US11847726B2 (en) | 2021-08-06 | 2023-12-19 | Nanjing Silicon Intelligence Technology Co., Ltd. | Method for outputting blend shape value, storage medium, and electronic device |
CN113592985A (zh) * | 2021-08-06 | 2021-11-02 | 宿迁硅基智能科技有限公司 | 混合变形值的输出方法及装置、存储介质、电子装置 |
CN113592985B (zh) * | 2021-08-06 | 2022-06-17 | 宿迁硅基智能科技有限公司 | 混合变形值的输出方法及装置、存储介质、电子装置 |
CN114038447A (zh) * | 2021-12-02 | 2022-02-11 | 深圳市北科瑞声科技股份有限公司 | 语音合成模型的训练方法、语音合成方法、装置及介质 |
CN114187547A (zh) * | 2021-12-03 | 2022-03-15 | 南京硅基智能科技有限公司 | 目标视频的输出方法及装置、存储介质及电子装置 |
CN114187890A (zh) * | 2021-12-31 | 2022-03-15 | 深圳市优必选科技股份有限公司 | 语音合成方法、装置、计算机可读存储介质及终端设备 |
CN115376484A (zh) * | 2022-08-18 | 2022-11-22 | 天津大学 | 基于多帧预测的轻量级端到端语音合成系统构建方法 |
CN117219050A (zh) * | 2023-09-08 | 2023-12-12 | 中国人民解放军战略支援部队航天工程大学 | 一种基于深度生成对抗网络的文本生成视频系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109979429A (zh) | 一种tts的方法及系统 | |
CN111798832B (zh) | 语音合成方法、装置和计算机可读存储介质 | |
Han et al. | Towards temporal modelling of categorical speech emotion recognition | |
CN110534095A (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN110570845B (zh) | 一种基于域不变特征的语音识别方法 | |
Bai et al. | Listen attentively, and spell once: Whole sentence generation via a non-autoregressive architecture for low-latency speech recognition | |
CN112352275A (zh) | 具有多级别文本信息的神经文本到语音合成 | |
CN112489629B (zh) | 语音转写模型、方法、介质及电子设备 | |
CN113284485B (zh) | 统一中英混合文本生成和语音识别的端到端系统 | |
CN112016320A (zh) | 基于数据增强的英文标点符号添加方法和系统及设备 | |
CN113205792A (zh) | 一种基于Transformer和WaveNet的蒙古语语音合成方法 | |
CN112489618A (zh) | 利用多级别上下文特征的神经文本到语音合成 | |
CN113450765A (zh) | 语音合成方法、装置、设备及存储介质 | |
CN111508466A (zh) | 一种文本处理方法、装置、设备及计算机可读存储介质 | |
CN115394287A (zh) | 混合语种语音识别方法、装置、系统及存储介质 | |
CN113257221B (zh) | 一种基于前端设计的语音模型训练方法及语音合成方法 | |
CN112634878B (zh) | 语音识别后处理方法和系统及相关设备 | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN112069816A (zh) | 中文标点符号添加方法和系统及设备 | |
József et al. | Automated grapheme-to-phoneme conversion system for Romanian | |
CN112133294A (zh) | 语音识别方法、装置和系统及存储介质 | |
CN114999447B (zh) | 一种基于对抗生成网络的语音合成模型及语音合成方法 | |
CN115273829A (zh) | 基于多特征融合的越南语到英语的语音到文本翻译方法 | |
CN115374784A (zh) | 一种多模态信息选择性融合的中文命名实体识别方法 | |
CN115169363A (zh) | 一种融合知识的增量编码的对话情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190705 |
|
RJ01 | Rejection of invention patent application after publication |