CN116403562A - 一种基于语义信息自动预测停顿的语音合成方法、系统 - Google Patents
一种基于语义信息自动预测停顿的语音合成方法、系统 Download PDFInfo
- Publication number
- CN116403562A CN116403562A CN202310386187.2A CN202310386187A CN116403562A CN 116403562 A CN116403562 A CN 116403562A CN 202310386187 A CN202310386187 A CN 202310386187A CN 116403562 A CN116403562 A CN 116403562A
- Authority
- CN
- China
- Prior art keywords
- features
- phoneme
- word
- pause
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000001228 spectrum Methods 0.000 claims abstract description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 25
- 238000003786 synthesis reaction Methods 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000013480 data collection Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 7
- 241000282414 Homo sapiens Species 0.000 abstract description 4
- 230000004927 fusion Effects 0.000 abstract description 4
- 230000033764 rhythmic process Effects 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 abstract description 3
- 238000010276 construction Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于融合语义信息的语音合成的方法,包括如下步骤:搜集对应的语音数据,生成真实语音的能量、音高、音素持续时长、字停顿等级标签以及梅尔频谱数据,然后进行模型的构建与训练,再进行模型的测试与评估。本发明在模型中增加了停顿预测器,进行大量的数据来训练模型去更好地预测句子中的停顿。采用本申请的技术方案能模拟人说话的停顿,提升韵律自然度。
Description
技术领域
本申请涉及语音合成领域,尤其涉及一种基于语义信息自动预测停顿的语音合成方法、系统。
背景技术
语音合成(Speech Synthesis),又叫做文本到语音(Text-to-Speech,TTS),是一种将文本转换为语音的技术。它的任务是使机器发出类似人的声音,在智能语音交互、有声读物中应用广泛。近年来,基于深度学习(Deep Learning)和神经网络(Neural Network)的建模方法在机器学习领域各个任务上都取得了快速的发展,语音合成技术也在此基础上得到了显著的提升。随着信息技术及人工智能技术的发展,各种应用场景对语音合成的效果的要求也越来越高。
传统的基于深度学习的语音合成方法,一般分为三个阶段。第一个阶段为文字经过文本正则化,进一步得到音素(Phoneme)序列、韵律标注等信息。第二阶段将上一阶段得到的信息输入声学模型中,预测出信息对应的声学特征。最后阶段将声学特征通过声码器,还原成我们可以听懂的语音。一般第二阶段的声学模型的输入只有音素序列这单一信息,虽然已经可以合成出与人类发音相近的语音。但是其合成的语音还是存在一些机械感,在自然度和韵律方面与人类真实的录音还是存在不小的差距。
发明内容
本申请实施例提供一种基于融合语义信息的语音合成的方法及装置的相关技术方案,用以解决现有技术中显式的韵律表征提取容易出现误差,无法将不同的韵律表征进行联系的问题,韵律自然度低的技术问题。
本申请实施例提供一种基于语义信息自动预测停顿的语音合成方法,包括如下步骤:
获取训练数据集并处理;
构建语音合成模型;
将音素序列输入到合成模型中的音素编码器,生成音素隐藏特征;
将字序列输入到合成模型中的字编码器,生成字隐藏特征;
将生成的字隐藏特征输入到停顿预测器中,再投影到N类停顿等级上,取每个位置最大概率的停顿等级,得到每个字后的停顿等级标签序列;
将得到的停顿等级标签序列经过嵌入层,得到停顿等级的嵌入序列,再把嵌入序列和字隐藏特征拼接并投影到与原来字隐藏特征相同的维度上,得到新的字隐藏特征;
根据音素与字的对应关系,将字隐藏特征扩展到与音素隐藏特征相同长度,将两者相加,得到总的语义隐藏特征;
将语义隐藏特征分别送入音高预测器和能量预测器,持续时长预测器得到音高嵌入,能量嵌入和每个音素持续的时间,将语义隐藏特征与音高嵌入,能量嵌入相加,再根据预测出的音素持续时间将语义隐藏特征扩充到对应的长度,得到最终的隐藏特征;
将上述隐藏特征输入到声学特征解码器,最终得到预测的声学特征;
利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失,用此损失更新模型参数,对模型进行训练直至收敛;
将预测的声学特征输入到预训练好的声码器,输出最终的语音数据。
进一步的,所述获取训练数据集并处理的步骤包括:利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失,使用该损失更新模型参数,对模型进行训练直至收敛;
准备有文本标注的语音数据,使用pypinyin工具包将每条语音的文本转化为拼音文本,并记录拼音文本中每个音素与文本中每个字的对应关系;
将文本、拼音文本、语音放在相同的目录下,利用Montreal Forced Aligner工具将拼音文本与语音信号对齐,得到文本与语音的对齐结果;
利用所述结果,得到每个音素的持续时间;
根据每个音素的持续时间,从语音中提取每个音素对应的音高和能量信息;
将停顿划分为多个等级,根据文本与语音的对齐结果,获得每个字的停顿等级信息。
进一步的,所述声学特征采用的是梅尔谱,是从真实训练数据集的语音中提取,作为模型的生成目标。
进一步的,经过自注意结构提取音素与音素之间的全局依赖信息,再经过1维卷积进一步提取信息,重复四次以上步骤,得到音素隐藏特征。
进一步的,经过自注意结构提取字与字之间的全局依赖信息,再经过1维卷积进一步提取信息,重复四次以上步骤,得到字隐藏特征。
本申请实施例还提供一种基于语义信息自动预测停顿的语音合成装置,包括:
数据收集模块,获取训练数据集并处理;
模型构建模块,构建语音合成模型;
合成模型中的音素编码器接收音素序列输入,生成音素隐藏特征;
合成模型中的字编码器接收字序列输入,生成字隐藏特征;将生成的字隐藏状态输入到停顿预测器中,再投影到N类停顿等级上,取每个位置最大概率的停顿等级,得到每个字后的停顿等级标签序列;将得到的停顿等级标签序列经过嵌入层,得到停顿等级的嵌入序列,再把嵌入序列和字隐藏特征拼接并投影到与原来字隐藏特征相同的维度上,得到新的字隐藏特征;
根据音素与字的对应关系,将字隐藏特征扩展到与音素隐藏特征相同长度,将两者相加,得到总的语义隐藏特征;
音高预测器,能量预测器和持续时长预测器分别接收语义隐藏特征,得到音高嵌入,能量嵌入和每个音素持续的时间,将语义隐藏特征与音高嵌入,能量嵌入相加,再根据预测出的音素持续时间将语义隐藏特征扩充到对应的长度,得到最终的隐藏特征;
将上述隐藏特征输入到声学特征解码器,最终得到预测的声学特征;
利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失,用此损失更新模型参数,对模型进行训练直至收敛;
预训练好的声码器接收预测的声学特征输入,输出最终的语音数据。
进一步的,所述获取训练数据集并处理的步骤包括:利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失,使用该损失更新模型参数,对模型进行训练直至收敛;
准备有文本标注的语音数据,使用pypinyin工具包将每条语音的文本转化为拼音文本,并记录拼音文本中每个音素与文本中每个字的对应关系;
将文本、拼音文本、语音放在相同的目录下,利用Montreal Forced Aligner工具将拼音文本与语音信号对齐,得到文本与语音的对齐结果;
利用所述结果,得到每个音素的持续时间;
根据每个音素的持续时间,从语音中提取每个音素对应的音高和能量信息;
文本与语音的对齐结果中,不仅有每个音素的持续时间,也有静音片段,即停顿的持续时间,将停顿划分为多个等级,根据文本与语音的对齐结果,获得每个字的停顿等级信息。
进一步的,所述声学特征采用的是梅尔谱,是从真实训练数据集的语音中提取,作为模型的生成目标。
本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述的方法的步骤。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的方法的步骤。
本发明提供的实施例至少具有以下有益效果:
本发明提供一种基于融合语义信息的语音合成的方法,包括如下步骤:搜集对应的语音数据,生成真实语音的能量、音高、音素持续时长、字停顿等级标签以及梅尔频谱数据,然后进行模型的构建与训练,再进行模型的测试与评估。本发明在模型中增加了停顿预测器,进行大量的数据来训练模型去更好地预测句子中的停顿。采用本申请的技术方案能模拟人说话的停顿,提升韵律自然度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种基于融合语义信息的语音合成的装置的总体架构图;
图2为本申请实施例提供的音素编码器和字编码器模块的示意图;
图3为本申请实施例提供的停顿预测器模块的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1-4所示,本申请实施例提供基于语义信息自动预测停顿的语音合成方法,包括如下步骤:
获取训练数据集并处理;
构建语音合成模型;
将音素序列输入到合成模型中的音素编码器,生成音素隐藏特征;
将字序列输入到合成模型中的字编码器,生成字隐藏特征;
将生成的字隐藏状态输入到停顿预测器中,再投影到N类停顿等级上,取每个位置最大概率的停顿等级,得到每个字后的停顿等级标签序列;
将得到的停顿等级标签序列经过嵌入层,得到停顿等级的嵌入序列,再把嵌入序列和字隐藏特征拼接并投影到与原来字隐藏特征相同的维度上,得到新的字隐藏特征;
根据音素与字的对应关系,将字隐藏特征扩展到与音素隐藏特征相同长度,将两者相加,得到总的语义隐藏特征;
将语义隐藏特征分别送入音高预测器,能量预测器,持续时长预测器得到音高嵌入,能量嵌入和每个音素持续的时间,将语义隐藏特征与音高嵌入,能量嵌入相加,再根据预测出的音素持续时间将语义隐藏特征扩充到对应的长度,得到最终的隐藏特征;
将上述隐藏特征输入到声学特征解码器,最终得到预测的声学特征;
利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失,用此损失更新模型参数,对模型进行训练直至收敛;
将预测的声学特征输入到预训练好的声码器,输出最终的语音数据。
为了更清楚的说明本发明的技术方法和优点,下面结合附图来进一步描述本发明,包括以下3个步骤。
步骤1:数据准备。
搜集对应的语音数据,生成真实语音的能量、音高、音素持续时长、字停顿等级标签以及梅尔频谱数据。
本发明增加了停顿预测器,所以需要大量的数据来训练模型去更好地预测句子中的停顿。
收集和整理开源纯净语音数据集,把每句话的文字使用pypinyin转化为pinyin,根据拼音字典,使用Montreal Forced Aligner(MFA)工具将拼音文本与语音信号对齐,得到文本与语音的对齐结果;利用上述结果,得到每个音素的持续时间;根据每个音素的持续时间,从语音中提取每个音素对应的音高和能量信息;
文本与语音的对齐结果中,不仅有每个音素的持续时间,也有静音片段,即停顿的持续时间,为了更细粒度地控制合成语音的停顿,本发明根据表1规则将停顿划分为10个等级,根据文本与语音的对齐结果,获得每个字的停顿等级信息;
表1:停顿等级划分规则
停顿时间 | 停顿等级 |
无停顿 | 0 |
<0.05s | 1 |
0.05s-0.10s | 2 |
0.10s-0.15s | 3 |
0.15s-0.20s | 4 |
0.20s-0.30s | 5 |
0.30s-0.40s | 6 |
0.40s-0.50s | 7 |
0.50s-0.65s | 8 |
>0.65s | 9 |
使用上述对应的语音,并且根据表2的参数来进行处理。对于梅尔频谱的转换。我们在变换之前,将通过重采样的方式,将所有语音的采样率转换到22050HZ,并且通过0.97的预加重对语音进行预处理,并且通过短时傅立叶变换(STFT)算法,采用表格所述,帧移为256,窗长和帧长都为1024,梅尔滤波器则是采用80个的梅尔滤波器组,从0的最小频率提升到8000的最大频率,而并非11025的最大频率,用以跟HiFi-GAN声码器的设定保持一致。
表2:音频参数
步骤2:模型的构建和训练。
为了提高合成语音的自然度,除了把音素序列作为输入之外,我们还引入了字序列作为输入来帮助更好地提取语音信息。我们使用音素编码器和字编码器分来提取音素和字的依赖信息。
音素编码器和字编码器的输入是音素序列或字序列,它们的任务是捕捉序列中的语义信息。首先将音素或字序列经过多头注意力模块,对输入的音素或字序列进行自注意力机制的运算,以捕捉序列中不同位置的相关性,多头注意力将输入序列或上下文向量通过多个头进行划分,每个头独立学习不同的注意力模型,然后将所有头的输出结果进行拼接,从而提高模型的表达能力和泛化能力。然后将多头注意力的输出结果再经过两层1维卷积,卷积核分别为9和1,卷积层可以在一定程度上实现位置信息的交换和合并,能够快速捕捉不同位置之间的长程依赖关系,从而提取输入文本的高层次抽象特征。多头注意力以及卷积模块之间都加入了残差连接,以帮助模型更好地训练。它们的具体结构如图2所示。
为了引入更多的信息,辅助模型生成声学特征。还加入了音高、能量和持续时间预测器,它们根据音素编码器和字编码器的输出来预测对应的音高、能量以及每个音素的持续时间。它们具有相同的网络结构:两层1维卷积和一个线形层。
在语音合成中除了音高、语速、音量等语音特征外,韵律的控制也十分重要,本发明提出了一种根据语义信息自动预测停顿的模块——停顿预测器,它的输入为字级别的语义信息,将语义信息经过三层停顿预测器Block,再经过一个线性层将输出结果映射到我们规定好的10类停顿等级上,得到每个字对应的停顿等级概率。将得到的停顿等级标签序列与字隐层特征进一步融合得到新的字字隐层特征。停顿预测器模块的结构如图3所示。
将得到的所有信息相加,输入到解码器中,生成文本对应的声学特征。
模型整体结构如图1所示。为了减少真实声学特征与预测的声学特征之间的mismatch,我们不直接采用真实的声学特征来训练声码器,而是使用训练好的模型生成对应文本的声学特征与真实的语音数据来预训练声码器,来进一步提高生成语音的质量。声码器结构我们采用的是HiFi-GAN声码器。
训练声学模型的过程中的损失计算主要分为三个部分:1.对预测的声学特征和真实的声学特征计算MSE损失;2.对预测的音高、能量、时长信息与真实语音提取的音高、能量、时长信息计算MAE损失。3.使用交叉熵损失计算停顿等级分类损失。所有的损失权重的系数皆为1。
我们在NVIDIA GeForce RTX 3090GPU上进行训练模型进行900K步迭代,批处理大小为64。采用Adam优化器,β1=0.9,β2=0.98。
步骤3:模型的测试和评估。
本发明的baseline模型为FastSpeech2,分别使用baseline模型与本发明提出的模型合成30条语音。并且邀请10名母语为汉语的测试人员进行主观评测。
首先进行了平均意见得分(Mean Opinion Score,MOS)测评,要求测试人员对听到的语音进行打分,打分规则如表2所示。
表2:平均意见得分的评估标准
在MOS测评中,我们把改进后的模型与baseline模型进行了比较,由于模型的输入不仅有音素序列,还引入了词序列来提取语义信息,并预测停顿,所以使得合成的语音音质进一步提高,停顿更加自然,自然度得到改善。MOS评测结果如表3所示,结果也证明了本发明对比baseline有所提升。
进一步的,所述获取训练数据集并处理的步骤包括:利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失,使用该损失更新模型参数,对模型进行训练直至收敛;
准备有文本标注的语音数据,使用pypinyin工具包将每条语音的文本转化为拼音文本,并记录拼音文本中每个音素与文本中每个字的对应关系;
将文本、拼音文本、语音放在相同的目录下,利用Montreal Forced Aligner工具将拼音文本与语音信号对齐,得到文本与语音的对齐结果;
利用所述结果,得到每个音素的持续时间;
根据每个音素的持续时间,从语音中提取每个音素对应的音高和能量信息;
将停顿划分为多个等级,根据文本与语音的对齐结果,获得每个字的停顿等级信息。
进一步的,所述声学特征采用的是梅尔谱,是从真实训练数据集的语音中提取,作为模型的生成目标。
进一步的,经过自注意结构提取音素与音素之间的全局依赖信息,再经过1维卷积进一步提取信息,重复四次以上步骤,得到音素隐藏特征。
进一步的,经过自注意结构提取字与字之间的全局依赖信息,再经过1维卷积进一步提取信息,重复四次以上步骤,得到字隐藏特征。
本申请实施例还提供一种基于语义信息自动预测停顿的语音合成装置,包括:
数据收集模块,获取训练数据集并处理;
模型构建模块,构建语音合成模型;
合成模型中的音素编码器接收音素序列输入,生成音素隐藏特征;
合成模型中的字编码器接收字序列输入,生成字隐藏特征;将生成的字隐藏状态输入到停顿预测器中,再投影到N类停顿等级上,取每个位置最大概率的停顿等级,得到每个字后的停顿等级标签序列;将得到的停顿等级标签序列经过嵌入层,得到停顿等级的嵌入序列,再把嵌入序列和字隐藏特征拼接并投影到与原来字隐藏特征相同的维度上,得到新的字隐藏特征;
根据音素与字的对应关系,将字隐藏特征扩展到与音素隐藏特征相同长度,将两者相加,得到总的语义隐藏特征;
音高预测器,能量预测器和持续时长预测器分别接收语义隐藏特征,得到音高嵌入,能量嵌入和每个音素持续的时间,将语义隐藏特征与音高嵌入,能量嵌入相加,再根据预测出的音素持续时间将语义隐藏特征扩充到对应的长度,得到最终的隐藏特征;
将上述隐藏特征输入到声学特征解码器,最终得到预测的声学特征;
利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失,用此损失更新模型参数,对模型进行训练直至收敛;
预训练好的声码器接收预测的声学特征输入,输出最终的语音数据。
进一步的,所述获取训练数据集并处理的步骤包括:利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失,使用该损失更新模型参数,对模型进行训练直至收敛;
准备有文本标注的语音数据,使用pypinyin工具包将每条语音的文本转化为拼音文本,并记录拼音文本中每个音素与文本中每个字的对应关系;
将文本、拼音文本、语音放在相同的目录下,利用Montreal Forced Aligner工具将拼音文本与语音信号对齐,得到文本与语音的对齐结果;
利用所述结果,得到每个音素的持续时间;
根据每个音素的持续时间,从语音中提取每个音素对应的音高和能量信息;
文本与语音的对齐结果中,不仅有每个音素的持续时间,也有静音片段,即停顿的持续时间,将停顿划分为多个等级,根据文本与语音的对齐结果,获得每个字的停顿等级信息。
进一步的,所述声学特征采用的是梅尔谱,是从真实训练数据集的语音中提取,作为模型的生成目标。
本申请实施例还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述的方法的步骤。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的方法的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于语义信息自动预测停顿的语音合成方法,其特征在于,包括如下步骤:
获取训练数据集并处理;
构建语音合成模型;
将音素序列输入到合成模型中的音素编码器,生成音素隐藏特征;
将字序列输入到合成模型中的字编码器,生成字隐藏特征;
将生成的字隐藏特征输入到停顿预测器中,再投影到N类停顿等级上,取每个位置最大概率的停顿等级,得到每个字后的停顿等级标签序列;
将得到的停顿等级标签序列经过嵌入层,得到停顿等级的嵌入序列,再把嵌入序列和字隐藏特征拼接并投影到与原来字隐藏特征相同的维度上,得到新的字隐藏特征;
根据音素与字的对应关系,将字隐藏特征扩展到与音素隐藏特征相同长度,将两者相加,得到总的语义隐藏特征;
将语义隐藏特征分别送入音高预测器和能量预测器,持续时长预测器得到音高嵌入,能量嵌入和每个音素持续的时间,将语义隐藏特征与音高嵌入,能量嵌入相加,再根据预测出的音素持续时间将语义隐藏特征扩充到对应的长度,得到最终的隐藏特征;
将上述隐藏特征输入到声学特征解码器,最终得到预测的声学特征;
利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失,用此损失更新模型参数,对模型进行训练直至收敛;
将预测的声学特征输入到预训练好的声码器,输出最终的语音数据。
2.根据权利要求1所述的基于语义信息自动预测停顿的语音合成方法,其特征在于,所述获取训练数据集并处理的步骤包括:利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失,使用该损失更新模型参数,对模型进行训练直至收敛;
准备有文本标注的语音数据,使用pypinyin工具包将每条语音的文本转化为拼音文本,并记录拼音文本中每个音素与文本中每个字的对应关系;
将文本、拼音文本、语音放在相同的目录下,利用MontrealForced Aligner工具将拼音文本与语音信号对齐,得到文本与语音的对齐结果;
利用所述结果,得到每个音素的持续时间;
根据每个音素的持续时间,从语音中提取每个音素对应的音高和能量信息;
将停顿划分为多个等级,根据文本与语音的对齐结果,获得每个字的停顿等级信息。
3.根据权利要求1所述的基于语义信息自动预测停顿的语音合成方法,其特征在于,所述声学特征采用的是梅尔谱,是从真实训练数据集的语音中提取,作为模型的生成目标。
4.根据权利要求1所述的基于语义信息自动预测停顿的语音合成方法,其特征在于,经过自注意结构提取音素与音素之间的全局依赖信息,再经过1维卷积进一步提取信息,重复四次以上步骤,得到音素隐藏特征。
5.根据权利要求1所述的基于语义信息自动预测停顿的语音合成方法,其特征在于,经过自注意结构提取字与字之间的全局依赖信息,再经过1维卷积进一步提取信息,重复四次以上步骤,得到字隐藏特征。
6.一种基于语义信息自动预测停顿的语音合成装置,其特征在于,包括:
数据收集模块,获取训练数据集并处理;
模型构建模块,构建语音合成模型;
合成模型中的音素编码器接收音素序列输入,生成音素隐藏特征;
合成模型中的字编码器接收字序列输入,生成字隐藏特征;将生成的字隐藏状态输入到停顿预测器中,再投影到N类停顿等级上,取每个位置最大概率的停顿等级,得到每个字后的停顿等级标签序列;将得到的停顿等级标签序列经过嵌入层,得到停顿等级的嵌入序列,再把嵌入序列和字隐藏特征拼接并投影到与原来字隐藏特征相同的维度上,得到新的字隐藏特征;
根据音素与字的对应关系,将字隐藏特征扩展到与音素隐藏特征相同长度,将两者相加,得到总的语义隐藏特征;
音高预测器,能量预测器和持续时长预测器分别接收语义隐藏特征,得到音高嵌入,能量嵌入和每个音素持续的时间,将语义隐藏特征与音高嵌入,能量嵌入相加,再根据预测出的音素持续时间将语义隐藏特征扩充到对应的长度,得到最终的隐藏特征;
将上述隐藏特征输入到声学特征解码器,最终得到预测的声学特征;
利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失,用此损失更新模型参数,对模型进行训练直至收敛;
预训练好的声码器接收预测的声学特征输入,输出最终的语音数据。
7.根据权利要求6所述的基于语义信息自动预测停顿的语音合成装置,其特征在于,所述获取训练数据集并处理的步骤包括:利用预测的声学特征、音高、能量、持续时间和真实语音提取的声学特征、音高、能量、持续时间计算模型损失,使用该损失更新模型参数,对模型进行训练直至收敛;
准备有文本标注的语音数据,使用pypinyin工具包将每条语音的文本转化为拼音文本,并记录拼音文本中每个音素与文本中每个字的对应关系;
将文本、拼音文本、语音放在相同的目录下,利用MontrealForced Aligner工具将拼音文本与语音信号对齐,得到文本与语音的对齐结果;
利用所述结果,得到每个音素的持续时间;
根据每个音素的持续时间,从语音中提取每个音素对应的音高和能量信息;
文本与语音的对齐结果中,不仅有每个音素的持续时间,也有静音片段,即停顿的持续时间,将停顿划分为多个等级,根据文本与语音的对齐结果,获得每个字的停顿等级信息。
8.根据权利要求6所述的基于语义信息自动预测停顿的语音合成装置,其特征在于,所述声学特征采用的是梅尔谱,是从真实训练数据集的语音中提取,作为模型的生成目标。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310386187.2A CN116403562B (zh) | 2023-04-11 | 2023-04-11 | 一种基于语义信息自动预测停顿的语音合成方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310386187.2A CN116403562B (zh) | 2023-04-11 | 2023-04-11 | 一种基于语义信息自动预测停顿的语音合成方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116403562A true CN116403562A (zh) | 2023-07-07 |
CN116403562B CN116403562B (zh) | 2023-12-05 |
Family
ID=87017651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310386187.2A Active CN116403562B (zh) | 2023-04-11 | 2023-04-11 | 一种基于语义信息自动预测停顿的语音合成方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116403562B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
CN113178188A (zh) * | 2021-04-26 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
WO2022079129A1 (en) * | 2020-10-15 | 2022-04-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio generator and methods for generating an audio signal and training an audio generator |
CN114495902A (zh) * | 2022-02-25 | 2022-05-13 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN115171647A (zh) * | 2022-07-05 | 2022-10-11 | 华南理工大学 | 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质 |
CN115762471A (zh) * | 2022-12-19 | 2023-03-07 | 思必驰科技股份有限公司 | 一种语音合成方法、装置、设备及存储介质 |
-
2023
- 2023-04-11 CN CN202310386187.2A patent/CN116403562B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
WO2022079129A1 (en) * | 2020-10-15 | 2022-04-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio generator and methods for generating an audio signal and training an audio generator |
CN113178188A (zh) * | 2021-04-26 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音合成方法、装置、设备及存储介质 |
CN114495902A (zh) * | 2022-02-25 | 2022-05-13 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN115171647A (zh) * | 2022-07-05 | 2022-10-11 | 华南理工大学 | 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质 |
CN115762471A (zh) * | 2022-12-19 | 2023-03-07 | 思必驰科技股份有限公司 | 一种语音合成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116403562B (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tan et al. | A survey on neural speech synthesis | |
CN112863483B (zh) | 支持多说话人风格、语言切换且韵律可控的语音合成装置 | |
CN112767958B (zh) | 一种基于零次学习的跨语种音色转换系统及方法 | |
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
Jemine | Real-time voice cloning | |
CN111754976A (zh) | 一种韵律控制语音合成方法、系统及电子装置 | |
Khan et al. | Concatenative speech synthesis: A review | |
Kaur et al. | Conventional and contemporary approaches used in text to speech synthesis: A review | |
Yanagita et al. | Neural iTTS: Toward synthesizing speech in real-time with end-to-end neural text-to-speech framework | |
KR102272554B1 (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Jain et al. | A text-to-speech pipeline, evaluation methodology, and initial fine-tuning results for child speech synthesis | |
Shah et al. | Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing | |
CN113539268A (zh) | 一种端到端语音转文本罕见词优化方法 | |
Kumar et al. | Towards building text-to-speech systems for the next billion users | |
CN116469368A (zh) | 一种融合语义信息的语音合成方法、系统 | |
Win et al. | Myanmar Text-to-Speech System based on Tacotron (End-to-End Generative Model) | |
Nazir et al. | Deep learning end to end speech synthesis: A review | |
CN116403562B (zh) | 一种基于语义信息自动预测停顿的语音合成方法、系统 | |
Ronanki | Prosody generation for text-to-speech synthesis | |
Zhang et al. | Chinese speech synthesis system based on end to end | |
JP2021085943A (ja) | 音声合成装置及びプログラム | |
Kuzdeuov et al. | Speech Command Recognition: Text-to-Speech and Speech Corpus Scraping Are All You Need | |
Al-Radhi et al. | Nonparallel Expressive TTS for Unseen Target Speaker using Style-Controlled Adaptive Layer and Optimized Pitch Embedding | |
Chandra et al. | Towards The Development Of Accent Conversion Model For (L1) Bengali Speaker Using Cycle Consistent Adversarial Network (Cyclegan) | |
Aziz et al. | End to End Text to Speech Synthesis for Malay Language using Tacotron and Tacotron 2 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |