CN110767213A - 一种韵律预测方法及装置 - Google Patents
一种韵律预测方法及装置 Download PDFInfo
- Publication number
- CN110767213A CN110767213A CN201911088396.9A CN201911088396A CN110767213A CN 110767213 A CN110767213 A CN 110767213A CN 201911088396 A CN201911088396 A CN 201911088396A CN 110767213 A CN110767213 A CN 110767213A
- Authority
- CN
- China
- Prior art keywords
- linguistic
- text
- linguistic feature
- prosody prediction
- submodel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000033764 rhythmic process Effects 0.000 title claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 96
- 238000012549 training Methods 0.000 claims description 64
- 238000013507 mapping Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 16
- 238000010801 machine learning Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 abstract description 32
- 238000003786 synthesis reaction Methods 0.000 abstract description 32
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 description 12
- 239000003550 marker Substances 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 235000013311 vegetables Nutrition 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音合成技术,其公开了一种韵律预测方法及装置,提升韵律预测准确率,从而提升语音合成系统前端的性能,以提升语音合成质量。本发明中的韵律预测方法包括:提取待处理文本的综合语言学特征;将提取的综合语言学特征输入已训练的韵律预测模型中,输出韵律标记信息。本发明充分利用待预测句子的分词及标点信息,采用分层预测模型的方法,提升了韵律预测模型的准确率,对语音合成前端系统有明显增强,可显著提升合成语音的韵律感和语音质量。
Description
技术领域
本发明涉及语音合成技术,特别涉及一种韵律预测方法及装置。
背景技术
语音合成,也称文本转语音技术,可以看作是语音转文本的逆过程,用于把文字变成可以通过扬声器播放的声音信号,是自然人机交互的重要组成部分。语音合成系统通常分为前端和后端,前端主要用于从文本字符串到声学特征的变换,后端主要用于声学特征到语音信号的变换。
为了完成从本文字符串到声学特征的变换,前端需要从文本字符串中提取语言学特征,并建模语言学特征到声学特征的映射。一般而言,前端提取的语言学特征包括音素、音节、声调、韵律等。
韵律预测可以看做是一个序列到序列的建模问题,输入是字符串序列,输出是韵律标记序列,通常采用编码解码器来建模。准确的韵律预测可以降低模型学习的难度,提升语音合成的韵律感和自然度。
经研究发现,人们发音时,在分词边界和标点处有明显的停顿,然而现有技术往往未充分考虑这些信息,在建模时,同时输出多个层级的韵律停顿容易出现预测错误,从而影响声学模型和语音合成质量。
发明内容
本发明所要解决的技术问题是:提出一种韵律预测方法及装置,提升韵律预测准确率,从而提升语音合成系统前端的性能,以提升语音合成质量。
本发明解决上述技术问题采用的技术方案是:
一方面,本发明提供了一种韵律预测方法,包括:
提取待处理文本的综合语言学特征;
将提取的综合语言学特征输入已训练的韵律预测模型中,输出韵律标记信息。
作为进一步优化,所述提取待处理文本的综合语言学特征包括:
对所述待处理文本进行规则化处理,得到规则化文本;
对规则化文本提取第一语言学特征及条件语言学特征,组合第一语言学特征及条件语言学特征,得到综合语言学特征。
作为进一步优化,对所述待处理文本进行规则化处理,得到规则化文本包括:
对数字、货币、度量衡和非标点的符号按照实际发音顺序和实际发音字符进行转换。
作为进一步优化,所述对规则化文本提取第一语言学特征及条件语言学特征,组合第一语言学特征及条件语言学特征,得到综合语言学特征包括:
对规则化文本中的每个非标点字符进行向量化,得到第一语言学特征;
对规则化文本进行分词,获取分词边界,根据每个非标点字符是否紧接着一个分词边界进行向量化,得到分词条件语言学特征;
对规则化文本进行分词,获取分词边界和分词词性,根据每个非标点字符是否紧接着一个分词边界以及分词词性进行向量化,得到词性条件语言学特征;
对规则化文本进行标点符号提取,根据每个非标点字符是否紧接着一个标点符号以及标点符号类型进行向量化,得到标点条件语言学特征;
组合分词条件语言特征、词性语言学特征和标点条件语言学特征得到条件语言学特征,组合第一语言学特征和条件语言学特征,得到综合语言学特征。
作为进一步优化,所述将提取的综合语言学特征输入已训练的韵律预测模型中,输出韵律标记信息之前,还包括:
获取韵律预测模型训练文本集;
对韵律预测模型训练文本集进行标注;
基于标注后的韵律预测模型训练文本集训练韵律预测模型。
作为进一步优化,所述对韵律预测模型训练文本集进行标注包括:
对韵律预测模型训练文本集进行第一停顿级别、第二停顿级别和第三停顿级别标注。
作为进一步优化,所述基于标注后的韵律预测模型训练文本集训练韵律预测模型包括:
提取标注后的韵律预测模型训练文本集中每个句子的综合语言学特征及此句子对应的第一停顿级别、第二停顿级别和第三停顿级别标注信息;
通过机器学习建立第一子模型,学习所述综合语言学特征与第一停顿级别标注信息之间的映射关系;
组合所述综合语言学特征及第一子模型的输出,得到第二子模型的输入特征;
通过机器学习建立第二子模型,学习第二子模型的输入特征与第二停顿级别标注信息之间的映射关系;
组合所述综合语言学特征及第二子模型的输出,得到第三子模型的输入特征;
通过机器学习建立第三子模型,学习第三子模型的输入特征与第三停顿级别标注信息之间的映射关系;
由第一子模型、第二子模型和第三子模型共同构成韵律预测模型,建立综合语言学特征到句子的第一停顿级别、第二停顿级别和第三停顿级别的映射关系。
另一方面,本发明还提供了一种韵律预测装置,包括:
提取模块,用于提取待处理文本的综合语言学特征;
预测模块,用于将提取的综合语言学特征输入已训练的韵律预测模型中,输出韵律标记信息。
作为进一步优化,所述提取模块具体包括:
规则化模块,用于对所述待处理文本进行规则化处理,得到规则化文本;
综合语言学特征提取模块,用于对规则化文本提取第一语言学特征及条件语言学特征,组合第一语言学特征及条件语言学特征,得到综合语言学特征。
作为进一步优化,所述规则化模块具体用于:
对数字、货币、度量衡和非标点的符号按照实际发音顺序和实际发音字符进行转换。
作为进一步优化,所述综合语言学特征提取模块具体包括:
第一语言学特征模块,用于对规则化文本中的每个非标点字符进行向量化,得到第一语言学特征;
分词条件语言学特征模块,用于对规则化文本进行分词,获取分词边界,根据每个非标点字符是否紧接着一个分词边界进行向量化,得到分词条件语言学特征;
词性条件语言学特征模块,用于对规则化文本进行分词,获取分词边界和分词词性,根据每个非标点字符是否紧接着一个分词边界以及分词词性进行向量化,得到词性条件语言学特征;
标点条件语言学特征模块,用于对规则化文本进行标点符号提取,根据每个非标点字符是否紧接着一个标点符号以及标点符号类型进行向量化,得到标点条件语言学特征;
组合模块,用于组合分词条件语言特征、词性语言学特征和标点条件语言学特征得到条件语言学特征,组合第一语言学特征和条件语言学特征,得到综合语言学特征。
作为进一步优化,所述预测模块包括:
获取模块,用于获取韵律预测模型训练文本集;
标定模块,用于对韵律预测模型训练文本集进行标注;
训练模块,用于基于标注后的韵律预测模型训练文本集训练韵律预测模型。
作为进一步优化,所述标定模块具体用于:
对韵律预测模型训练文本集进行第一停顿级别、第二停顿级别和第三停顿级别标注。
作为进一步优化,训练模块具体包括:
训练提取模块,用于提取标注后的韵律预测模型训练文本集中每个句子的综合语言学特征及此句子对应的第一停顿级别、第二停顿级别和第三停顿级别标注信息;
第一子模型模块,用于通过机器学习建立第一子模型,学习所述综合语言学特征与第一停顿级别标注信息之间的映射关系;
第一子模型输出模块,用于组合所述综合语言学特征及第一子模型的输出,得到第二子模型的输入特征;
第二子模型模块,用于通过机器学习建立第二子模型,学习第二子模型的输入特征与第二停顿级别标注信息之间的映射关系;
第二子模型输出模块,用于组合所述综合语言学特征及第二子模型的输出,得到第三子模型的输入特征;
第三子模型模块,通过机器学习建立第三子模型,学习第三子模型的输入特征与第三停顿级别标注信息之间的映射关系;
模组组合模块,用于将第一子模型、第二子模型和第三子模型共同构成韵律预测模型,建立综合语言学特征到句子的第一停顿级别、第二停顿级别和第三停顿级别的映射关系。
本发明的有益效果是:
通过提取待处理文本的综合语言学特征,将待处理文本的综合语言学特征输入已训练的韵律预测模型,输出韵律标记信息。其中,已训练的韵律预测模型由训练文本集,通过分层建模的方式训练得到,训练文本集的每个句子都包含第一停顿级别、第二停顿级别、第三停顿级别标注信息。通过此方法,能够获得更准确的韵律预测标记,可以用于增强语音合成前段,提升声学模型建模效果,进而提升合成语音质量。
附图说明
图1为本发明实施例1中的韵律预测方法流程图;
图2为韵律预测模型的训练流程图;
图3为综合语言学特征的提取流程图;
图4为本发明实施例2中的韵律预测装置的结构示意图;
图5为韵律预测模型的训练装置的结构示意图
图6为综合语言学特征提取装置的结构示意图。
具体实施方式
本发明提供了一种韵律预测方法及装置,通过充分利用分词和标点符号的信息,通过分层建模的方式构建韵律预测模型,从而在采用该预测模型对待处理文本进行韵律预测时,能够获得更准确的韵律预测标记,可以明显提升韵律预测准确率,从而提升语音合成系统前端的性能,进而提升语音合成质量。
下面,将参考附图和实施例对本发明的方案作进一步的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
实施例1:
本实施例为本发明韵律预测方法的实施例,如图1所示,其包括以下步骤:
步骤S11,提取待处理文本的综合语言学特征:
所述综合语言学特征由从规则化文本中提取的多个语言学特征组合而成,通常包括第一语言学特征、分词条件语言学特征、词性条件语言学特征和标点条件语言学特征。这些特征具有相同的序列长度,即非标点字符的个数;因此,这些特征可以通过拼接的方式进行组合,得到综合语言学特征。
步骤S12,将待处理文本的综合语言学特征输入已训练的韵律预测模型,输出韵律标记信息:
所述韵律预测模型为已通过标记数据训练得到的机器学习算法模型,此模型在训练过程中建立了综合语言学特征到韵律标记信息的映射关系。模型接收待处理文本提取的综合语言学特征作为输入,输出韵律标记信息。韵律标记信息可以表示为此位置有无停顿的概率分布。
韵律预测模型由第一子模型、第二子模型和第三子模型构成,采用深度神经网络建模;第一子模型接收综合语言学特征作为输入,输出第一停顿级别的韵律标记信息;第二子模型接收综合语言学特征和第一子模型的输出的组合特征作为输入,输出第二停顿级别的韵律标记信息;第三子模型接收综合语言学特征和第二子模型的输出的组合特征作为输入,输出第三停顿级别的韵律标记信息;其中,组合特征的方式为特征拼接。
韵律预测模型的训练流程如图2所示,具体包括以下步骤:
步骤S21,获取韵律预测模型训练文本集:
训练文本集可以为一个文本文件,每行包含一段文字,每段文字通常为一句话,文本内容已进行规则化。
步骤S22,标定韵律预测模型训练文本集:
对训练文本集的每一行进行标定,根据标定人员正常发音这个句子的韵律节奏进行标定,标定分为三个级别,分别为第一停顿级别、第二停顿级别和第三停顿级别,三个级别的停顿时间由短到长,分别可以用#1,#2,#3表示。例如,“通常来说,韵律预测有助于语音合成。”可以标记为“通常#1来说#2韵律预测#1有助于#1语音合成#3”,标记需要有一致性。
步骤S23,训练韵律预测模型:
从训练文本集原始语句提取综合语言学特征,从训练文本集标注语句中提取第一停顿级别、第二停顿级别、第三停顿级别信息,分别作为机器学习模型的输入和输出,训练模型。
第一停顿级别、第二停顿级别、第三停顿级别信息可以用包含0和1的序列表示,0表示此字符位置没有停顿标记,1表示有停顿标记。且第三停顿级别包含第二停顿级别和第一停顿级别,第二停顿级别包含第一停顿级别。例如“通常#1来说#2韵律预测#1有助于#1语音合成#3”提取的第一停顿级别、第二停顿级别、第三停顿级别信息分别为“0 1 0 1 0 0 01 0 0 1 0 0 0 1”,“0 0 0 1 0 0 0 0 0 0 0 0 0 0 1”,“0 0 0 0 0 0 0 0 0 0 0 0 0 01”。
在利用训练出来的韵律预测模型对待处理文本进行韵律预测时,首先需要对待处理文本的综合语言学特征进行提取,提取的流程如图3所示,其包括:
步骤S31:对规则化文本中的每个非标点字符进行向量化,得到第一语言学特征:
文本字符串的读法有些时候并不是按其发音顺序书写的,例如数字、货币符号等。规则化就是把文本以发音顺序进行转写,使其与发音顺序一致。例如,“蔬菜10¥一斤”转写为“蔬菜十元一斤”,“中国队3:0战胜日本队”转写为“中国队三比零战胜日本队”,“7x24小时服务”转写为“七乘二十四小时服务”。
步骤S32:对规则化文本进行分词,获取分词边界,根据每个非标点字符是否紧接着一个分词边界进行向量化,得到分词条件语言学特征:
对规则化文本进行分词,如“通常来说,韵律预测有助于语音合成。”,通过分词可以得到“通常/d来说/u韵律/n预测/vn有助于/v语音/n合成/v”。
根据每个字后面是否紧接着分词符号进行标记,如果有分词符号,标记为b,反之,标记为n,可以获得序列“n b n b n b n b n n b n b n b”,对其每个字符进行One-Hot编码或者Embedding编码,即得到分词条件语言学特征。
步骤S33:对规则化文本进行分词,获取分词边界和分词词性,根据每个非标点字符是否紧接着一个分词边界以及分词词性进行向量化,得到词性条件语言学特征:
对规则化文本进行分词,如“通常来说,韵律预测有助于语音合成。”,通过分词可以得到“通常/d来说/u韵律/n预测/vn有助于/v语音/n合成/v”。
根据每个字后面是否紧接着分词符号进行标记,如果有分词符号,标记为分词符号,反之,标记为N,可以获得序列“N d N u N n N v N N v N n N v”,对其每个字符进行One-Hot编码或者Embedding编码,即得到词性条件语言学特征。其中d,u,n,v为词性标记。
步骤S34:对规则化文本进行标点符号提取,根据每个非标点字符是否紧接着一个标点符号以及标点符号类型进行向量化,得到标点条件语言学特征:
对规则化文本进行分词,如“通常来说,韵律预测有助于语音合成。”,通过分词可以得到“通常/d来说/u韵律/n预测/vn有助于/v语音/n合成/v”。
根据规则化文本的每个字后面是否紧接着标点符号及其类型进行标记,如果有标点符号,标记为标点符号,反之,标记为N,可以获得序列“n n n,n n n n n n n n n n。”,对其每个字符进行One-Hot编码或者Embedding编码,即得到标点条件语言学特征。
步骤S35:组合分词条件语言特征、词性语言学特征和标点条件语言学特征得到条件语言学特征,组合第一语言学特征和条件语言学特征,得到综合语言学特征:
分词条件语言学特征、词性条件语言学特征和标点条件语言学特征具有相同的序列长度,每个字符的多个特征可以进行拼接,条件语言学特征序列。同理,第一语言学特征与条件语言学特征也有相同的序列长度,每个字符的第一语言学特征与条件语言学特征也可以进行拼接,得到综合语言学特征。
本实施例提供的综合语言学特征提取方法,在规则化文本的基础上,充分利用分词结果、分词词性和标点符号信息,充分提取待处理文本的语言学特征,能有效提升韵律预测的准确率,进而提升合成语音的韵律感和语音质量。
实施例2:
本实施例为本发明韵律预测装置的实施例,如图4所示,其包括:
提取模块S41,用于提取待处理文本的综合语言学特征;
所述综合语言学特征由从规则化文本中提取的多个语言学特征组合而成,通常包括第一语言学特征、分词条件语言学特征、词性条件语言学特征和标点条件语言学特征。这些特征具有相同的序列长度,即非标点字符的个数,因此,这些特征可以通过拼接的方式进行组合,得到综合语言学特征。
预测模块S42,用于将待处理文本的综合语言学特征输入已训练的韵律预测模型,输出韵律标记信息。
所述韵律预测模型为已通过标记数据训练得到的机器学习算法模型,此模型在训练过程中建立了综合语言学特征到韵律标记信息的映射关系。模型接收待处理文本提取的综合语言学特征作为输入,输出韵律标记信息。所述韵律标记信息可以表示为此位置有无停顿的概率分布。
韵律预测模型由第一子模型、第二子模型和第三子模型构成,采用深度神经网络建模;第一子模型接收综合语言学特征作为输入,输出第一停顿级别的韵律标记信息;第二子模型接收综合语言学特征和第一子模型的输出的组合特征作为输入,输出第二停顿界别的韵律标记信息;第三子模型接收综合语言学特征和第二子模型的输出的组合特征作为输入,输出第三停顿界别的韵律标记信息。其中,组合特征的方式为特征拼接。
韵律预测模型的训练装置如图5所示,其包括以下模块:
获取模块S51,用于获取韵律预测模型训练文本集。
训练文本集可以为一个文本文件,每行包含一段文字,每段文字通常为一句话,文本内容已进行规则化。
标定模块S52,用于标定韵律预测模型训练文本集。
对训练文本集的每一行进行标定,根据标定人员正常发音这个句子的韵律节奏进行标定,标定分为三个级别,分别为第一停顿级别、第二停顿级别和第三停顿级别,三个级别的停顿时间由短到长,分别可以用#1,#2,#3表示。例如,“通常来说,韵律预测有助于语音合成。”可以标记为“通常#1来说#2韵律预测#1有助于#1语音合成#3”,标记需要有一致性。
训练模块S53,用于训练韵律预测模型。
从训练文本集原始语句提取综合语言学特征,从训练文本集标注语句中提取第一停顿级别、第二停顿级别、第三停顿级别信息,分别作为机器学习模型的输入和输出,训练模型。
第一停顿级别、第二停顿级别、第三停顿级别信息可以用包含0和1的序列表示,0表示此字符位置没有停顿标记,1表示有停顿标记。且第三停顿级别包含第二停顿级别和第一停顿级别,第二停顿级别包含第一停顿级别。例如“通常#1来说#2韵律预测#1有助于#1语音合成#3”提取的第一停顿级别、第二停顿级别、第三停顿级别信息分别为“0 1 0 1 0 0 01 0 0 1 0 0 0 1”,“0 0 0 1 0 0 0 0 0 0 0 0 0 0 1”,“0 0 0 0 0 0 0 0 0 0 0 0 0 01”。
综合语言学特征提取装置的结构如图6所示,包括以下模块:
第一语言学特征模块S61:用于对规则化文本中的每个非标点字符进行向量化,得到第一语言学特征;
文本字符串的读法有些时候并不是按其发音顺序书写的,例如数字、货币符号等。规则化就是把文本以发音顺序进行转写,使其与发音顺序一致。例如,“蔬菜10¥一斤”转写为“蔬菜十元一斤”,“中国队3:0战胜日本队”转写为“中国队三比零战胜日本队”,“7x24小时服务”转写为“七乘二十四小时服务”。
分词条件语言学特征模块S62:对规则化文本进行分词,获取分词边界,根据每个非标点字符是否紧接着一个分词边界进行向量化,得到分词条件语言学特征;
对规则化文本进行分词,如“通常来说,韵律预测有助于语音合成。”,通过分词可以得到“通常/d来说/u韵律/n预测/vn有助于/v语音/n合成/v”。
根据每个字后面是否紧接着分词符号进行标记,如果有分词符号,标记为b,反之,标记为n,可以获得序列“n b n b n b n b n n b n b n b”,对其每个字符进行One-Hot编码或者Embedding编码,即得到分词条件语言学特征。
词性条件语言学特征模块S63:用于对规则化文本进行分词,获取分词边界和分词词性,根据每个非标点字符是否紧接着一个分词边界以及分词词性进行向量化,得到词性条件语言学特征;
对规则化文本进行分词,如“通常来说,韵律预测有助于语音合成。”,通过分词可以得到“通常/d来说/u韵律/n预测/vn有助于/v语音/n合成/v”。
根据每个字后面是否紧接着分词符号进行标记,如果有分词符号,标记为分词符号,反之,标记为N,可以获得序列“N d N u N n N v N N v N n N v”,对其每个字符进行One-Hot编码或者Embedding编码,即得到词性条件语言学特征。其中d,u,n,v为词性标记。
标点条件语言学特征模块S64:用于对规则化文本进行标点符号提取,根据每个非标点字符是否紧接着一个标点符号以及标点符号类型进行向量化,得到标点条件语言学特征;
对规则化文本进行分词,如“通常来说,韵律预测有助于语音合成。”,通过分词可以得到“通常/d来说/u韵律/n预测/vn有助于/v语音/n合成/v”。
根据规则化文本的每个字后面是否紧接着标点符号及其类型进行标记,如果有标点符号,标记为标点符号,反之,标记为N,可以获得序列“n n n,n n n n n n n n n n。”,对其每个字符进行One-Hot编码或者Embedding编码,即得到标点条件语言学特征。
组合模块S65:用于组合分词条件语言特征、词性语言学特征和标点条件语言学特征得到条件语言学特征,组合第一语言学特征和条件语言学特征,得到综合语言学特征。
分词条件语言学特征、词性条件语言学特征和标点条件语言学特征具有相同的序列长度,每个字符的多个特征可以进行拼接,条件语言学特征序列。同理,第一语言学特征与条件语言学特征也有相同的序列长度,每个字符的第一语言学特征与条件语言学特征也可以进行拼接,得到综合语言学特征。
本实施例提供的韵律预测装置,在规则化文本的基础上,充分利用分词结果、分词词性和标点符号信息,充分提取待处理文本的语言学特征,能有效提升韵律预测的准确率,进而提升合成语音的韵律感和语音质量。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,可包括如上各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (14)
1.一种韵律预测方法,其特征在于,包括:
提取待处理文本的综合语言学特征;
将提取的综合语言学特征输入已训练的韵律预测模型中,输出韵律标记信息。
2.如权利要求1所述的一种韵律预测方法,其特征在于,
所述提取待处理文本的综合语言学特征包括:
对所述待处理文本进行规则化处理,得到规则化文本;
对规则化文本提取第一语言学特征及条件语言学特征,组合第一语言学特征及条件语言学特征,得到综合语言学特征。
3.如权利要求2所述的一种韵律预测方法,其特征在于,
对所述待处理文本进行规则化处理,得到规则化文本包括:
对数字、货币、度量衡和非标点的符号按照实际发音顺序和实际发音字符进行转换。
4.如权利要求2所述的一种韵律预测方法,其特征在于,
所述对规则化文本提取第一语言学特征及条件语言学特征,组合第一语言学特征及条件语言学特征,得到综合语言学特征包括:
对规则化文本中的每个非标点字符进行向量化,得到第一语言学特征;
对规则化文本进行分词,获取分词边界,根据每个非标点字符是否紧接着一个分词边界进行向量化,得到分词条件语言学特征;
对规则化文本进行分词,获取分词边界和分词词性,根据每个非标点字符是否紧接着一个分词边界以及分词词性进行向量化,得到词性条件语言学特征;
对规则化文本进行标点符号提取,根据每个非标点字符是否紧接着一个标点符号以及标点符号类型进行向量化,得到标点条件语言学特征;
组合分词条件语言特征、词性语言学特征和标点条件语言学特征得到条件语言学特征,组合第一语言学特征和条件语言学特征,得到综合语言学特征。
5.如权利要求1所述的一种韵律预测方法,其特征在于,
所述将提取的综合语言学特征输入已训练的韵律预测模型中,输出韵律标记信息之前,还包括:
获取韵律预测模型训练文本集;
对韵律预测模型训练文本集进行标注;
基于标注后的韵律预测模型训练文本集训练韵律预测模型。
6.如权利要求5所述的一种韵律预测方法,其特征在于,
所述对韵律预测模型训练文本集进行标注包括:
对韵律预测模型训练文本集进行第一停顿级别、第二停顿级别和第三停顿级别标注。
7.如权利要求6所述的一种韵律预测方法,其特征在于,
所述基于标注后的韵律预测模型训练文本集训练韵律预测模型包括:
提取标注后的韵律预测模型训练文本集中每个句子的综合语言学特征及此句子对应的第一停顿级别、第二停顿级别和第三停顿级别标注信息;
通过机器学习建立第一子模型,学习所述综合语言学特征与第一停顿级别标注信息之间的映射关系;
组合所述综合语言学特征及第一子模型的输出,得到第二子模型的输入特征;
通过机器学习建立第二子模型,学习第二子模型的输入特征与第二停顿级别标注信息之间的映射关系;
组合所述综合语言学特征及第二子模型的输出,得到第三子模型的输入特征;
通过机器学习建立第三子模型,学习第三子模型的输入特征与第三停顿级别标注信息之间的映射关系;
由第一子模型、第二子模型和第三子模型共同构成韵律预测模型,建立综合语言学特征到句子的第一停顿级别、第二停顿级别和第三停顿级别的映射关系。
8.一种韵律预测装置,其特征在于,包括:
提取模块,用于提取待处理文本的综合语言学特征;
预测模块,用于将提取的综合语言学特征输入已训练的韵律预测模型中,输出韵律标记信息。
9.如权利要求8所述的一种韵律预测装置,其特征在于,
所述提取模块具体包括:
规则化模块,用于对所述待处理文本进行规则化处理,得到规则化文本;
综合语言学特征提取模块,用于对规则化文本提取第一语言学特征及条件语言学特征,组合第一语言学特征及条件语言学特征,得到综合语言学特征。
10.如权利要求9所述的一种韵律预测装置,其特征在于,
所述规则化模块具体用于:
对数字、货币、度量衡和非标点的符号按照实际发音顺序和实际发音字符进行转换。
11.如权利要求9所述的一种韵律预测装置,其特征在于,
所述综合语言学特征提取模块具体包括:
第一语言学特征模块,用于对规则化文本中的每个非标点字符进行向量化,得到第一语言学特征;
分词条件语言学特征模块,用于对规则化文本进行分词,获取分词边界,根据每个非标点字符是否紧接着一个分词边界进行向量化,得到分词条件语言学特征;
词性条件语言学特征模块,用于对规则化文本进行分词,获取分词边界和分词词性,根据每个非标点字符是否紧接着一个分词边界以及分词词性进行向量化,得到词性条件语言学特征;
标点条件语言学特征模块,用于对规则化文本进行标点符号提取,根据每个非标点字符是否紧接着一个标点符号以及标点符号类型进行向量化,得到标点条件语言学特征;
组合模块,用于组合分词条件语言特征、词性语言学特征和标点条件语言学特征得到条件语言学特征,组合第一语言学特征和条件语言学特征,得到综合语言学特征。
12.如权利要求8所述的一种韵律预测装置,其特征在于,
所述预测模块包括:
获取模块,用于获取韵律预测模型训练文本集;
标定模块,用于对韵律预测模型训练文本集进行标注;
训练模块,用于基于标注后的韵律预测模型训练文本集训练韵律预测模型。
13.如权利要求12所述的一种韵律预测装置,其特征在于,
所述标定模块具体用于:
对韵律预测模型训练文本集进行第一停顿级别、第二停顿级别和第三停顿级别标注。
14.如权利要求13所述的一种韵律预测装置,其特征在于,
训练模块具体包括:
训练提取模块,用于提取标注后的韵律预测模型训练文本集中每个句子的综合语言学特征及此句子对应的第一停顿级别、第二停顿级别和第三停顿级别标注信息;
第一子模型模块,用于通过机器学习建立第一子模型,学习所述综合语言学特征与第一停顿级别标注信息之间的映射关系;
第一子模型输出模块,用于组合所述综合语言学特征及第一子模型的输出,得到第二子模型的输入特征;
第二子模型模块,用于通过机器学习建立第二子模型,学习第二子模型的输入特征与第二停顿级别标注信息之间的映射关系;
第二子模型输出模块,用于组合所述综合语言学特征及第二子模型的输出,得到第三子模型的输入特征;
第三子模型模块,通过机器学习建立第三子模型,学习第三子模型的输入特征与第三停顿级别标注信息之间的映射关系;
模组组合模块,用于将第一子模型、第二子模型和第三子模型共同构成韵律预测模型,建立综合语言学特征到句子的第一停顿级别、第二停顿级别和第三停顿级别的映射关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911088396.9A CN110767213A (zh) | 2019-11-08 | 2019-11-08 | 一种韵律预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911088396.9A CN110767213A (zh) | 2019-11-08 | 2019-11-08 | 一种韵律预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110767213A true CN110767213A (zh) | 2020-02-07 |
Family
ID=69337015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911088396.9A Pending CN110767213A (zh) | 2019-11-08 | 2019-11-08 | 一种韵律预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110767213A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339771A (zh) * | 2020-03-09 | 2020-06-26 | 广州深声科技有限公司 | 一种基于多任务多层级模型的文本韵律预测方法 |
CN112349274A (zh) * | 2020-09-28 | 2021-02-09 | 北京捷通华声科技股份有限公司 | 一种训练韵律预测模型方法、装置、设备及存储介质 |
CN112397050A (zh) * | 2020-11-25 | 2021-02-23 | 北京百度网讯科技有限公司 | 韵律预测方法、训练方法、装置、电子设备和介质 |
CN112466277A (zh) * | 2020-10-28 | 2021-03-09 | 北京百度网讯科技有限公司 | 韵律模型训练方法、装置、电子设备及存储介质 |
CN112669810A (zh) * | 2020-12-16 | 2021-04-16 | 平安科技(深圳)有限公司 | 语音合成的效果评估方法、装置、计算机设备及存储介质 |
CN112735378A (zh) * | 2020-12-29 | 2021-04-30 | 科大讯飞股份有限公司 | 泰语语音合成方法、装置以及设备 |
CN112786023A (zh) * | 2020-12-23 | 2021-05-11 | 竹间智能科技(上海)有限公司 | 标记模型构建方法及语音播报系统 |
CN113191143A (zh) * | 2021-05-25 | 2021-07-30 | 海信视像科技股份有限公司 | 多音字消歧和韵律控制联合方法、系统以及电子设备 |
WO2023123892A1 (zh) * | 2021-12-31 | 2023-07-06 | 科大讯飞股份有限公司 | 一种信息预测模块的构建方法、信息预测方法及相关设备 |
WO2023179506A1 (zh) * | 2022-03-21 | 2023-09-28 | 北京有竹居网络技术有限公司 | 韵律预测方法、装置、可读介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814288A (zh) * | 2009-02-20 | 2010-08-25 | 富士通株式会社 | 使语音合成时长模型自适应的方法和设备 |
CN104992704A (zh) * | 2015-07-15 | 2015-10-21 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN105225658A (zh) * | 2015-10-21 | 2016-01-06 | 百度在线网络技术(北京)有限公司 | 韵律停顿信息的确定方法和装置 |
CN105551481A (zh) * | 2015-12-21 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 语音数据的韵律标注方法及装置 |
CN107039034A (zh) * | 2016-02-04 | 2017-08-11 | 科大讯飞股份有限公司 | 一种韵律预测方法及系统 |
CN109697973A (zh) * | 2019-01-22 | 2019-04-30 | 清华大学深圳研究生院 | 一种韵律层级标注的方法、模型训练的方法及装置 |
-
2019
- 2019-11-08 CN CN201911088396.9A patent/CN110767213A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814288A (zh) * | 2009-02-20 | 2010-08-25 | 富士通株式会社 | 使语音合成时长模型自适应的方法和设备 |
CN104992704A (zh) * | 2015-07-15 | 2015-10-21 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
CN105225658A (zh) * | 2015-10-21 | 2016-01-06 | 百度在线网络技术(北京)有限公司 | 韵律停顿信息的确定方法和装置 |
CN105551481A (zh) * | 2015-12-21 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 语音数据的韵律标注方法及装置 |
CN107039034A (zh) * | 2016-02-04 | 2017-08-11 | 科大讯飞股份有限公司 | 一种韵律预测方法及系统 |
CN109697973A (zh) * | 2019-01-22 | 2019-04-30 | 清华大学深圳研究生院 | 一种韵律层级标注的方法、模型训练的方法及装置 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339771A (zh) * | 2020-03-09 | 2020-06-26 | 广州深声科技有限公司 | 一种基于多任务多层级模型的文本韵律预测方法 |
CN111339771B (zh) * | 2020-03-09 | 2023-08-18 | 广州深声科技有限公司 | 一种基于多任务多层级模型的文本韵律预测方法 |
CN112349274A (zh) * | 2020-09-28 | 2021-02-09 | 北京捷通华声科技股份有限公司 | 一种训练韵律预测模型方法、装置、设备及存储介质 |
CN112349274B (zh) * | 2020-09-28 | 2024-06-07 | 北京捷通华声科技股份有限公司 | 一种训练韵律预测模型方法、装置、设备及存储介质 |
CN112466277A (zh) * | 2020-10-28 | 2021-03-09 | 北京百度网讯科技有限公司 | 韵律模型训练方法、装置、电子设备及存储介质 |
CN112466277B (zh) * | 2020-10-28 | 2023-10-20 | 北京百度网讯科技有限公司 | 韵律模型训练方法、装置、电子设备及存储介质 |
CN112397050A (zh) * | 2020-11-25 | 2021-02-23 | 北京百度网讯科技有限公司 | 韵律预测方法、训练方法、装置、电子设备和介质 |
CN112669810B (zh) * | 2020-12-16 | 2023-08-01 | 平安科技(深圳)有限公司 | 语音合成的效果评估方法、装置、计算机设备及存储介质 |
CN112669810A (zh) * | 2020-12-16 | 2021-04-16 | 平安科技(深圳)有限公司 | 语音合成的效果评估方法、装置、计算机设备及存储介质 |
CN112786023A (zh) * | 2020-12-23 | 2021-05-11 | 竹间智能科技(上海)有限公司 | 标记模型构建方法及语音播报系统 |
CN112735378A (zh) * | 2020-12-29 | 2021-04-30 | 科大讯飞股份有限公司 | 泰语语音合成方法、装置以及设备 |
CN112735378B (zh) * | 2020-12-29 | 2024-05-31 | 科大讯飞股份有限公司 | 泰语语音合成方法、装置以及设备 |
CN113191143A (zh) * | 2021-05-25 | 2021-07-30 | 海信视像科技股份有限公司 | 多音字消歧和韵律控制联合方法、系统以及电子设备 |
WO2023123892A1 (zh) * | 2021-12-31 | 2023-07-06 | 科大讯飞股份有限公司 | 一种信息预测模块的构建方法、信息预测方法及相关设备 |
WO2023179506A1 (zh) * | 2022-03-21 | 2023-09-28 | 北京有竹居网络技术有限公司 | 韵律预测方法、装置、可读介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110767213A (zh) | 一种韵律预测方法及装置 | |
CN104021784B (zh) | 基于大语料库的语音合成方法和装置 | |
CN112352275A (zh) | 具有多级别文本信息的神经文本到语音合成 | |
CN103632663B (zh) | 一种基于hmm的蒙古语语音合成前端处理的方法 | |
Liu et al. | Mongolian text-to-speech system based on deep neural network | |
CN113327574B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
Rebai et al. | Text-to-speech synthesis system with Arabic diacritic recognition system | |
CN110415725A (zh) | 使用第一语言数据评估第二语言发音质量的方法及系统 | |
Kayte et al. | Di-phone-based concatenative speech synthesis systems for marathi language | |
CN113257221B (zh) | 一种基于前端设计的语音模型训练方法及语音合成方法 | |
JP7190283B2 (ja) | 音声認識結果整形モデル学習装置およびそのプログラム | |
Kayte et al. | A Marathi Hidden-Markov Model Based Speech Synthesis System | |
US11817079B1 (en) | GAN-based speech synthesis model and training method | |
Burileanu | Basic research and implementation decisions for a text-to-speech synthesis system in Romanian | |
CN116597809A (zh) | 多音字消歧方法、装置、电子设备及可读存储介质 | |
Carranza | Intermediate phonetic realizations in a Japanese accented L2 Spanish corpus | |
CN115762471A (zh) | 一种语音合成方法、装置、设备及存储介质 | |
CN113129862B (zh) | 一种基于world-tacotron的语音合成方法、系统及服务器 | |
Hwang et al. | A Mandarin text-to-speech system | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 | |
CN114492382A (zh) | 人物提取方法、文本朗读方法、对话式文本生成方法、装置、设备及存储介质 | |
CN113571037A (zh) | 一种汉语盲文语音合成方法及系统 | |
Chao-angthong et al. | Northern Thai dialect text to speech | |
CN113362803B (zh) | 一种arm侧离线语音合成的方法、装置及存储介质 | |
CN113178186B (zh) | 一种方言语音合成方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200207 |
|
RJ01 | Rejection of invention patent application after publication |