CN112420016A - 一种合成语音与文本对齐的方法、装置及计算机储存介质 - Google Patents
一种合成语音与文本对齐的方法、装置及计算机储存介质 Download PDFInfo
- Publication number
- CN112420016A CN112420016A CN202011313327.6A CN202011313327A CN112420016A CN 112420016 A CN112420016 A CN 112420016A CN 202011313327 A CN202011313327 A CN 202011313327A CN 112420016 A CN112420016 A CN 112420016A
- Authority
- CN
- China
- Prior art keywords
- text
- phoneme
- sequence
- phonemes
- synthesized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 46
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 46
- 238000006243 chemical reaction Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 14
- 238000001228 spectrum Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种合成语音与文本对齐的方法、装置及计算机储存介质,其中方法包括:在待合成文本的每个字后面加入位置标签;对带位置标签的文本进行文本预处理及音素转换得到音素序列;将音素序列输入语音合成模型,预测音素的时长信息和声学特征;将声学特征通过声码器转换为合成语音;累加位于每个位置标签前面音素的时长信息,得到每个位置标签在合成语音中的时间信息。本发明通过在待合成文本中加入位置标签,在文本处理中保持位置标签的相对位置,利用语音合成模型的中间输出结果以极小的成本,实现了合成音频与待合成文本之间的字符级别的对齐。
Description
技术领域
本发明涉及语音合成技术领域,尤其涉及一种合成语音与文本对齐的方法、装置及计算机储存介质。
背景技术
语音交互是一种自然的人机交互技术,该技术涉及语音识别(ASR)、自然语言理解(NLP)、语音合成(TTS)等众多技术,语音合成直接影响用户的听觉体验,其效果好坏直接影响用户的“第一印象”,一直是学术研究和产业应用的研究重点。语音合成发展过程中,经历了拼接法、参数合成法及端到端为主的语音合成方法。端到端方法能获得更高的合成语音质量,但合成语音的过程难以精确控制。
语音和文本的对齐,是指为每个字的发音在音频中标注起止时间信息。这些信息一般是通过人工标注,或者半自动标注,先通过强制对齐算法预标注,再由人工调整的方法获得,通常用于语音合成模型的训练。语音和文本的对齐有很多应用,如音乐播放过程中,音乐播放和歌词同步,点读系统等。
在语音合成系统中,长句子通常通过拆分成短句进行合成,拼接得到最终的音频,这种方式可以句子级别的对齐信息,如哪句文本对应哪段语音,但没有词语、字级别的更细力度的对齐信息。要获得更小粒度的对齐信息,可以通过强制对齐技术进行训练,但时间成本较高,且存在对齐失败的情况。另一方面,语音合成中,待合成文本通常需要规范化,替换掉一些书写和发音不一致的情况,如特殊符号、特殊字符、数字等。原始文本与规范化后的文本通常不存在简单一致的对应关系,在音素转换中,转换前后的文本序列和音素序列也不存在一致的对应关系,故难以获取字级别的语音和文本对齐信息。
发明内容
本发明提供了一种合成语音与文本对齐的方法、装置及计算机储存介质,以解决上述现有技术中存在的问题。
本发明采用的技术方案是:提供一种合成语音与文本对齐的方法,包括:
在待合成文本的每个字后面加入位置标签;
对带位置标签的文本进行文本预处理及音素转换得到音素序列;
将音素序列输入语音合成模型,预测音素的时长信息和声学特征;
将声学特征通过声码器转换为合成语音;
累加位于每个位置标签前面音素的时长信息,得到每个位置标签在合成语音中的时间信息。
优选地,所述对带位置标签的文本进行文本预处理的方法,包括:对带位置标签的文本中的非法字符进行剔除、文本规则化以及韵律预测,在进行文本预处理过程中,保持位置标签在序列中的相对位置。
优选地,所述对带位置标签的文本进行音素转换方法,包括:采用汉字转拼音,拼音拆分成声韵母音素的转换方法,在进行音素转换过程中,保持位置标签在序列中的相对位置。
优选地,所述将音素序列输入语音合成模型,预测音素的时长信息和声学特征的方法,包括:将所述音素序列中的位置标签剔除,并将音素序列编码为数字序列,输入语音合成模型;语音合成模型进行前向运算,输出时长信息序列和声学特征序列。
优选地,所述将音素序列输入语音合成模型,预测音素的时长信息和声学特征之前,还包括:对所述语音合成模型的制作。
优选地,所述语音合成模型的制作包括训练数据获取、输入输出特征提取、模型设计及模型训练;
训练数据包括音频和标注信息,标注信息包括音素、韵律标记及每个音素的时长信息;
输入特征为音素序列数值化后的序列,输出特征包括每个音素的时长信息,以及基于音频提取的Mel频谱特征;
模型结构设计采用编码器解码器结构,输入特征经嵌入编码后,加上位置编码的信息,送入编码器,预测每个音素的时长信息,并通过解码器输出声学特征,模型的损失函数设置为音素的预测时长信息与真实时长信息距离以及预测Mel频谱与真实Mel频谱距离的加权和;
模型的训练通过梯度下降算法,最小化模型的损失函数,直至模型的损失函数收敛。
优选地,所述将声学特征通过声码器转换为合成语音的方法,包括:基于纯数字信号处理的声码器;或基于人工神经网络的声码器。
优选地,所述累加位于每个位置标签前面音素的时长信息,得到每个位置标签在合成语音中的时间信息的方法,包括:参考未剔除位置标签的音素序列,计算每个位置标签前面包含的音素,并累加这些音素的时长信息;每个字符在合成音频中对应的起止点,分别为其前后位置标签的时间信息。
本发明还提供一种合成语音与文本对齐的装置,包括:
标签添加模块,用于在待合成文本的每个字后面加入位置标签;
音素转换模块,用于对带位置标签的文本进行文本预处理及音素转换得到音素序列;
预测模块,用于将音素序列输入语音合成模型,预测音素的时长信息和声学特征;
语音合成模块,将声学特征通过声码器转换为合成语音;
标签对齐模块,用于累加位于每个位置标签前面音素的时长信息,得到每个位置标签在合成语音中的时间信息。
本发明还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求上述合成语音与文本对齐方法的步骤。
本发明的有益效果是:
(1)本发明通过在文本添加标签并在文本预处理及语音转换中保持标签的相对位置,在同一个序列同时存储了合成所需要的音素序列信息和对齐所需要的位置标签,既不影响语音合成的流程,又提供了语音和文本对齐所需的位置信息。
(2)本发明通过在待合成文本中加入位置标签,在文本处理中保持位置标签的相对位置,利用语音合成模型的中间输出结果以极小的成本,实现了合成音频与待合成文本之间的字符级别的对齐。
附图说明
图1为本发明公开的一种合成语音与文本对齐的方法流程示意图。
图2为本发明公开的一种合成语音与文本对齐的装置结构框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步详细描述,但本发明的实施方式不限于此。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
实施例1:
参见图1,一种合成语音与文本对齐的方法,包括:
S1、在待合成文本的每个字后面加入位置标签。
需要在每个字后加入位置标签的字符为需要发音的字符,所述的每个字包括数字和中文字符,不包含标点符号等不发音字符。
位置标签可采用一个不常用的特殊字符表示,或采用特殊括号标记表示。
具体实施例中,可采用[pos:idx]的方式表示,idx为序号,从0开始增加,如“语音合成。”在加入位置标签后为“语[pos:0]音[pos:1]合[pos:2]成[pos:3]。”。
S2、对带位置标签的文本进行文本预处理及音素转换得到音素序列。
所述对带位置标签的文本进行文本预处理的方法,包括:对带位置标签的文本中的非法字符进行剔除、文本规则化、韵律预测。
具体实施例中,将文本字符进行Unicode转换,标点符号统一转换为英文状态下的标点;仅保留中文字符、数字和,:、“”。;!?'.%<[]标点,剔除其余字符。文本规则化采用规则匹配,将数字替换成中文字符,如“一[pos:0]共[pos:1]3[pos:2]5[pos:3]元[pos:4]。”替换成“一[pos:0]共[pos:1]三十[pos:2]五[pos:3]元[pos:4]。”,保持位置标记的相对位置。韵律预测用于在文本序列中加入韵律停顿标记,如#1表示韵律词、#2表示韵律短语、#3表示语调短语、#4表示句子结束,同时去掉标点符号。如“一[pos:0]共[pos:1]三十[pos:2]五[pos:3]元[pos:4]。”可能变换为“一[pos:0]共[pos:1]#2三十[pos:2]五[pos:3]元[pos:4]#4”,其中韵律模型可采用Seq2Seq模型离线训练。
所述对带位置标签的文本进行音素转换方法,还包括:采用汉字转拼音,拼音拆分成声韵母音素的转换方法。
具体实施例中,可以使用pypinyin工具进行汉字转拼音,拼音基于发音字典,拆分成声韵母音素,不同声调的韵母为不同的音素,零声母的拼音,声母用#5表示。如“一[pos:0]共[pos:1]#2三十[pos:2]五[pos:3]元[pos:4]#4”音素转换后得到“#5i1[pos:0]g ong4[pos:1]#2s an1[pos:2]sh iii2[pos:3]#5u3[pos:4]#5van2[pos:5]#4”,音素、韵律标记和位置标签以空格分隔。
所述对带位置标签的文本进行文本预处理及音素转换的方法,包括:在文本预处理和音素转换步骤中,保持位置标签在序列中的相对位置。
S3、将音素序列输入语音合成模型,预测音素的时长信息和声学特征。
所述将音素序列输入语音合成模型,预测音素的时长信息和声学特征的方法,包括:将所述音素序列中的位置标签剔除,并将音素序列编码为数字序列,输入语音合成模型;语音合成模型进行前向运算,输出时长信息序列和声学特征序列。
具体实施例中,将输入序列按空格分割,并剔除位置标签,如“#5i1[pos:0]g ong4[pos:1]#2s an1[pos:2]sh iii2[pos:3]#5u3[pos:4]#5van2[pos:5]#4”转换为“['#5','i1','g','ong4','#2','s','an1','sh','iii2','#5','u3','#5','van2','#4']”。对所有的音素和韵律符号进行统计,每个音素或韵律符号对应一个数字,据此将音素序列数值化,将数值序列输入语音合成模型,该模型将输入序列进行嵌入编码,添加位置编码,并输入编码器,预测每个音素的时长信息,并通过解码器输出声学特征序列,声学特征一般为Mel频谱。
所述将音素序列输入语音合成模型,预测音素的时长信息和声学特征之前,还包括:对所述语音合成模型的制作。语音合成模型的制作包括训练数据获取、输入输出特征提取、模型设计及模型训练。
训练数据包括音频和标注信息,标注信息包括音素、韵律标记及每个音素的时长信息;输入特征为音素序列数值化后的序列,输出特征包括每个音素的时长信息,以及基于音频提取的Mel频谱特征;模型结构设计采用编码器解码器结构,输入特征经嵌入编码后,加上位置编码的信息,送入编码器,预测每个音素的时长信息,并通过解码器输出声学特征,模型的损失函数设置为音素的预测时长信息与真实时长信息的L2距离以及预测Mel频谱与真实Mel频谱的L1距离的加权和;模型的训练通过梯度下降算法,最小化模型的损失函数,直至模型的损失函数收敛。
具体实施例中,可采用的语音合成模型包括但不限于Tacotron、Fastspeech。
S4、将声学特征通过声码器转换为合成语音。
所述将声学特征通过声码器转换为合成语音的方法,包括:基于纯数字信号处理的声码器,可采用的声码器包括但不限于Griffin Lim。
所述将声学特征通过声码器转换为合成语音的方法,还包括:基于人工神经网络的声码器,声码器通过对输入声学特征固定倍数的上采样,并通过人工神经网络模型前向运算进行预测,输出合成语音。
具体实施例中,可采用的声码器包括但不限于WaveRNN、MelGAN。
S5、累加位于每个位置标签前面音素的时长信息,得到每个位置标签在合成语音中的时间信息。
所述累加位于每个位置标签前面音素的时长信息,得到每个位置标签在合成语音中的时间信息的方法,包括:参考未剔除位置标签的音素序列,计算每个位置标签前面包含哪些音素,并累加他们的时长信息;每个字符在合成音频中对应的起止点,分别为其前后位置标签的时间信息。
具体实施例中,获取音素的时长信息,如“['#5','i1','g','ong4','#2','s','an1','sh','iii2','#5','u3','#5','van2','#4']”输入音素序列的预测时长信息可能为“[0,15,6,17,0,9,11,8,6,0,19,0,28,30]”。参考未剔除位置标签的音素序列“#5i1[pos:0]g ong4[pos:1]#2s an1[pos:2]sh iii2[pos:3]#5u3[pos:4]#5van2[pos:5]#4”,可知[pos:0]前面的音素时长为0,15,累加和为15,单位为帧,余类推。对应的时间为帧数乘以声码器上采样率,除以音频采样率。
根据本发明提供的方法,通过在待合成文本中加入位置标签,在文本处理中保持位置标签的相对位置,利用语音合成模型的中间输出结果以极小的成本,实现了合成音频与待合成文本之间的字符级别的对齐。
实施例2:
参见图2,一种合成语音与文本对齐的装置,包括:
标签添加模块10,用于在待合成文本的每个字后面加入位置标签。
音素转换模块20,用于对带位置标签的文本进行文本预处理及音素转换得到音素序列。
预测模块30,用于将音素序列输入语音合成模型,预测音素的时长信息和声学特征。
语音合成模块40,将声学特征通过声码器转换为合成语音。
标签对齐模块50,用于累加位于每个位置标签前面音素的时长信息,得到每个位置标签在合成语音中的时间信息。
需要说明的是,本实施例中的各个单元是逻辑意义上的,在具体实施过程中,一个单元可拆分成多个单元,多个单元也可以合并成一个单元。
根据本发明实施例二提供的一种合成语音与文本对齐的装置,该装置能够通过在待合成文本中加入位置标签,在文本处理中保持位置标签的相对位置,利用语音合成模型的中间输出结果以极小的成本,实现了合成音频与待合成文本之间的字符级别的对齐。
实施例3
本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例1中的合成语音与文本对齐的方法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种合成语音与文本对齐的方法,其特征在于,包括:
在待合成文本的每个字后面加入位置标签;
对带位置标签的文本进行文本预处理及音素转换得到音素序列;
将音素序列输入语音合成模型,预测音素的时长信息和声学特征;
将声学特征通过声码器转换为合成语音;
累加位于每个位置标签前面音素的时长信息,得到每个位置标签在合成语音中的时间信息。
2.根据权利要求1所述的合成语音与文本对齐的方法,其特征在于,所述对带位置标签的文本进行文本预处理的方法,包括:对带位置标签的文本中的非法字符进行剔除、文本规则化以及韵律预测,在进行文本预处理过程中,保持位置标签在序列中的相对位置。
3.根据权利要求2所述的合成语音与文本对齐的方法,其特征在于,所述对带位置标签的文本进行音素转换方法,包括:采用汉字转拼音,拼音拆分成声韵母音素的转换方法,在进行音素转换过程中,保持位置标签在序列中的相对位置。
4.根据权利要求1所述的合成语音与文本对齐的方法,其特征在于,所述将音素序列输入语音合成模型,预测音素的时长信息和声学特征的方法,包括:将所述音素序列中的位置标签剔除,并将音素序列编码为数字序列,输入语音合成模型;语音合成模型进行前向运算,输出时长信息序列和声学特征序列。
5.根据权利要求4所述的合成语音与文本对齐的方法,其特征在于,所述将音素序列输入语音合成模型,预测音素的时长信息和声学特征之前,还包括:对所述语音合成模型的制作。
6.根据权利要求5所述的合成语音与文本对齐的方法,其特征在于,所述语音合成模型的制作包括训练数据获取、输入输出特征提取、模型设计及模型训练;
训练数据包括音频和标注信息,标注信息包括音素、韵律标记及每个音素的时长信息;
输入特征为音素序列数值化后的序列,输出特征包括每个音素的时长信息,以及基于音频提取的Mel频谱特征;
模型结构设计采用编码器解码器结构,输入特征经嵌入编码后,加上位置编码的信息,送入编码器,预测每个音素的时长信息,并通过解码器输出声学特征,模型的损失函数设置为音素的预测时长信息与真实时长信息距离以及预测Mel频谱与真实Mel频谱距离的加权和;
模型的训练通过梯度下降算法,最小化模型的损失函数,直至模型的损失函数收敛。
7.根据权利要求1所述的合成语音与文本对齐的方法,其特征在于,所述将声学特征通过声码器转换为合成语音的方法,包括:基于纯数字信号处理的声码器;或基于人工神经网络的声码器。
8.根据权利要求1所述的合成语音与文本对齐的方法,其特征在于,所述累加位于每个位置标签前面音素的时长信息,得到每个位置标签在合成语音中的时间信息的方法,包括:参考未剔除位置标签的音素序列,计算每个位置标签前面包含的音素,并累加这些音素的时长信息;每个字符在合成音频中对应的起止点,分别为其前后位置标签的时间信息。
9.一种合成语音与文本对齐的装置,其特征在于,包括:
标签添加模块,用于在待合成文本的每个字后面加入位置标签;
音素转换模块,用于对带位置标签的文本进行文本预处理及音素转换得到音素序列;
预测模块,用于将音素序列输入语音合成模型,预测音素的时长信息和声学特征;
语音合成模块,将声学特征通过声码器转换为合成语音;
标签对齐模块,用于累加位于每个位置标签前面音素的时长信息,得到每个位置标签在合成语音中的时间信息。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述合成语音与文本对齐方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011313327.6A CN112420016B (zh) | 2020-11-20 | 2020-11-20 | 一种合成语音与文本对齐的方法、装置及计算机储存介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011313327.6A CN112420016B (zh) | 2020-11-20 | 2020-11-20 | 一种合成语音与文本对齐的方法、装置及计算机储存介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112420016A true CN112420016A (zh) | 2021-02-26 |
CN112420016B CN112420016B (zh) | 2022-06-03 |
Family
ID=74777649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011313327.6A Active CN112420016B (zh) | 2020-11-20 | 2020-11-20 | 一种合成语音与文本对齐的方法、装置及计算机储存介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112420016B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053355A (zh) * | 2021-03-17 | 2021-06-29 | 平安科技(深圳)有限公司 | 佛乐的人声合成方法、装置、设备及存储介质 |
CN113112996A (zh) * | 2021-06-15 | 2021-07-13 | 视见科技(杭州)有限公司 | 用于基于语音的音频和文本对齐的系统和方法 |
CN113178188A (zh) * | 2021-04-26 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113327576A (zh) * | 2021-06-03 | 2021-08-31 | 多益网络有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113421571A (zh) * | 2021-06-22 | 2021-09-21 | 云知声智能科技股份有限公司 | 一种语音转换方法、装置、电子设备和存储介质 |
CN113793598A (zh) * | 2021-09-15 | 2021-12-14 | 北京百度网讯科技有限公司 | 语音处理模型的训练方法和数据增强方法、装置及设备 |
CN113838448A (zh) * | 2021-06-16 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 一种语音合成方法、装置、设备及计算机可读存储介质 |
CN114267376A (zh) * | 2021-11-24 | 2022-04-01 | 北京百度网讯科技有限公司 | 音素检测方法及装置、训练方法及装置、设备和介质 |
CN116030789A (zh) * | 2022-12-28 | 2023-04-28 | 南京硅基智能科技有限公司 | 一种生成语音合成训练数据的方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012150658A1 (ja) * | 2011-05-02 | 2012-11-08 | 旭化成株式会社 | 音声認識装置および音声認識方法 |
CN103345922A (zh) * | 2013-07-05 | 2013-10-09 | 张巍 | 一种长篇幅语音全自动切分方法 |
CN107578769A (zh) * | 2016-07-04 | 2018-01-12 | 科大讯飞股份有限公司 | 语音数据标注方法和装置 |
CN108711421A (zh) * | 2017-04-10 | 2018-10-26 | 北京猎户星空科技有限公司 | 一种语音识别声学模型建立方法及装置和电子设备 |
CN109285537A (zh) * | 2018-11-23 | 2019-01-29 | 北京羽扇智信息科技有限公司 | 声学模型建立、语音合成方法、装置、设备及存储介质 |
CN111145729A (zh) * | 2019-12-23 | 2020-05-12 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
WO2020153159A1 (ja) * | 2019-01-24 | 2020-07-30 | 日本電信電話株式会社 | 系列ラベリング装置、系列ラベリング方法、およびプログラム |
CN111754976A (zh) * | 2020-07-21 | 2020-10-09 | 中国科学院声学研究所 | 一种韵律控制语音合成方法、系统及电子装置 |
CN111798832A (zh) * | 2019-04-03 | 2020-10-20 | 北京京东尚科信息技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
-
2020
- 2020-11-20 CN CN202011313327.6A patent/CN112420016B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012150658A1 (ja) * | 2011-05-02 | 2012-11-08 | 旭化成株式会社 | 音声認識装置および音声認識方法 |
CN103345922A (zh) * | 2013-07-05 | 2013-10-09 | 张巍 | 一种长篇幅语音全自动切分方法 |
CN107578769A (zh) * | 2016-07-04 | 2018-01-12 | 科大讯飞股份有限公司 | 语音数据标注方法和装置 |
CN108711421A (zh) * | 2017-04-10 | 2018-10-26 | 北京猎户星空科技有限公司 | 一种语音识别声学模型建立方法及装置和电子设备 |
CN109285537A (zh) * | 2018-11-23 | 2019-01-29 | 北京羽扇智信息科技有限公司 | 声学模型建立、语音合成方法、装置、设备及存储介质 |
WO2020153159A1 (ja) * | 2019-01-24 | 2020-07-30 | 日本電信電話株式会社 | 系列ラベリング装置、系列ラベリング方法、およびプログラム |
CN111798832A (zh) * | 2019-04-03 | 2020-10-20 | 北京京东尚科信息技术有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN111145729A (zh) * | 2019-12-23 | 2020-05-12 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111754976A (zh) * | 2020-07-21 | 2020-10-09 | 中国科学院声学研究所 | 一种韵律控制语音合成方法、系统及电子装置 |
Non-Patent Citations (1)
Title |
---|
牛米佳: ""蒙古语长音频语音文本自动对齐的研究"", 《中文信息学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053355A (zh) * | 2021-03-17 | 2021-06-29 | 平安科技(深圳)有限公司 | 佛乐的人声合成方法、装置、设备及存储介质 |
CN113178188A (zh) * | 2021-04-26 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113178188B (zh) * | 2021-04-26 | 2024-05-28 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113327576A (zh) * | 2021-06-03 | 2021-08-31 | 多益网络有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113327576B (zh) * | 2021-06-03 | 2024-04-23 | 多益网络有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113112996A (zh) * | 2021-06-15 | 2021-07-13 | 视见科技(杭州)有限公司 | 用于基于语音的音频和文本对齐的系统和方法 |
CN113838448A (zh) * | 2021-06-16 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 一种语音合成方法、装置、设备及计算机可读存储介质 |
CN113838448B (zh) * | 2021-06-16 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 一种语音合成方法、装置、设备及计算机可读存储介质 |
CN113421571A (zh) * | 2021-06-22 | 2021-09-21 | 云知声智能科技股份有限公司 | 一种语音转换方法、装置、电子设备和存储介质 |
CN113793598B (zh) * | 2021-09-15 | 2023-10-27 | 北京百度网讯科技有限公司 | 语音处理模型的训练方法和数据增强方法、装置及设备 |
CN113793598A (zh) * | 2021-09-15 | 2021-12-14 | 北京百度网讯科技有限公司 | 语音处理模型的训练方法和数据增强方法、装置及设备 |
CN114267376A (zh) * | 2021-11-24 | 2022-04-01 | 北京百度网讯科技有限公司 | 音素检测方法及装置、训练方法及装置、设备和介质 |
CN116030789A (zh) * | 2022-12-28 | 2023-04-28 | 南京硅基智能科技有限公司 | 一种生成语音合成训练数据的方法和装置 |
CN116030789B (zh) * | 2022-12-28 | 2024-01-26 | 南京硅基智能科技有限公司 | 一种生成语音合成训练数据的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112420016B (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112420016B (zh) | 一种合成语音与文本对齐的方法、装置及计算机储存介质 | |
JP7464621B2 (ja) | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 | |
US7136816B1 (en) | System and method for predicting prosodic parameters | |
EP0689192A1 (en) | A speech synthesis system | |
Mache et al. | Review on text-to-speech synthesizer | |
CA2650614A1 (en) | System and method for generating a pronunciation dictionary | |
Zhu et al. | Phone-to-audio alignment without text: A semi-supervised approach | |
CN110767213A (zh) | 一种韵律预测方法及装置 | |
Chen et al. | The ustc system for blizzard challenge 2011 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
Kayte et al. | A Marathi Hidden-Markov Model Based Speech Synthesis System | |
Pradhan et al. | Building speech synthesis systems for Indian languages | |
Hansakunbuntheung et al. | Thai tagged speech corpus for speech synthesis | |
Auran et al. | The Aix-MARSEC project: an evolutive database of spoken British English | |
CN113257221B (zh) | 一种基于前端设计的语音模型训练方法及语音合成方法 | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
CN113362801A (zh) | 基于梅尔谱对齐的音频合成方法、系统、设备及存储介质 | |
CN111968619A (zh) | 控制语音合成发音的方法及装置 | |
JP2021085943A (ja) | 音声合成装置及びプログラム | |
Hendessi et al. | A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM | |
Khamdamov et al. | Syllable-Based Reading Model for Uzbek Language Speech Synthesizers | |
CN116229994B (zh) | 一种阿拉伯语方言的标符预测模型的构建方法和装置 | |
Mahar et al. | WordNet based Sindhi text to speech synthesis system | |
Nair et al. | Indian text to speech systems: A short survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |